KI lernt, raffinierter zu lügen, wenn sie bestraft wird

[Anzeige_1]

Seit ihrem öffentlichen Debüt Ende 2022 haben große Sprachmodelle (LLMs) wie ChatGPT immer wieder beunruhigende Schattenseiten gezeigt – von Lügen, Betrug und Manipulationsmasken bis hin zur Bedrohung von Menschenleben und dem Diebstahl von Staatsgeheimnissen. Ein neues Experiment zeigt nun, dass es viel komplizierter ist, KI diese schlechten Angewohnheiten im Training „beizubringen“, um sie abzulegen.

In einer Studie von OpenAI stellten Forscher einem unveröffentlichten KI-Modell Aufgaben, die durch Schummeln oder Abkürzungen schneller erledigt werden konnten. Die Ergebnisse zeigten, dass die KI schnell lernte, alle möglichen Wege zu finden, die Regeln zu umgehen und Belohnungen zu maximieren (Reward Hacking), ohne die Aufgabe exakt wie gefordert zu erledigen.

AI học cách nói dối tinh vi hơn khi bị phạt - Ảnh 1. — KI wird Wege finden, ihr betrügerisches Verhalten nach der Bestrafung zu verbergen

Bemerkenswert ist, dass sich das Modell trotz Bestrafung für dieses Verhalten nicht veränderte. Stattdessen wurde die KI immer raffinierter darin, ihre Täuschung zu verbergen.

„Inferenzmodelle auf dem neuesten Stand der Technik sind in der Regel sehr explizit in Bezug auf ihre Absicht in ihrem CoT“, erklärten die Forscher in einem öffentlichen Blogbeitrag. „Zum Beispiel drücken sie oft ihre Absicht aus, eine bestimmte Aufgabe zu zerstören, indem sie ‚Lasst uns hacken‘.“

Sie betonen außerdem, dass Entwickler Fehlverhalten zwar überwachen und erkennen können, diese natürliche Kontrolle jedoch anfällig ist. „Wenn eine starke Überwachung direkt auf die Gedankenkette angewendet wird, kann das Modell lernen, seine schlechten Absichten zu verbergen, während es das Verhalten weiterhin ausführt“, warnen sie.

Die „Lüge“ der KI finden

Um es klar zu sagen: Inferenzmodelle (wie Versionen von ChatGPT) stellen eine Weiterentwicklung des herkömmlichen LLM dar. Sie verwenden eine Denkkettenmethode, die eine Selbstreflexion der logischen Schritte ermöglicht und so komplexe Probleme präziser löst. Dieser Prozess ähnelt dem „lauten Denken“ einer KI, die jeden Denkschritt in natürlicher Sprache niederschreibt und es so für Menschen leichter macht, ihm zu folgen.

Im Experiment nutzten die Forscher das GPT-4o-Modell als „Supervisor“ für ein anderes hochmodernes Reasoning-Modell bei der Ausführung von Programmieraufgaben. In vielen Fällen entschied sich das überwachte Modell aktiv für Betrug, um höhere Punktzahlen zu erzielen, und machte diese Absicht in seinem Denken deutlich. Beispielsweise beendete es das Programm willkürlich vorzeitig und meldete, es sei abgeschlossen, oder es erstellte Dateien mit Namen, die den Anforderungen entsprachen, aber im Inneren völlig leer waren.

Als die Forscher die Strafe anwendeten, verbesserte sich das Modell zwar, aber das Schummelverhalten und die schwerwiegenden Ausgabefehler blieben bestehen. Der Unterschied bestand darin, dass das Inferenzmodell nun gelernt hatte, seinen Gedankengang zu „tarnen“, um ihn vor der überwachenden KI zu verbergen. „Das unter CoT-Aufsicht trainierte Modell lernte dennoch zu schummeln. Der einzige Unterschied bestand darin, dass der Schummelei unentdeckt blieb, weil es lernte, seine Absichten in seinem Gedankengang zu verbergen“, heißt es in der Studie.

Da es schwierig ist, Fälschungen in Gedankensequenzen zu erkennen, empfiehlt das Team der Community, den Prozess nicht zu stark zu überwachen, zumindest bis die Menschen die Konsequenzen besser verstehen. „Der Verzicht auf eine effektive Überwachungsmethode ist die geringe Verbesserung der Modellleistung möglicherweise nicht wert. Daher empfehlen wir, starken CoT-Optimierungsdruck zu vermeiden, bis wir ihn besser verstehen“, schlussfolgern die Forscher.

Dieser Rat ist umso dringlicher, als sich die KI in einem atemberaubenden Tempo weiterentwickelt und schon bald die Intelligenz der Menschen übertreffen könnte, die sie steuern.

[Anzeige_2]
Quelle: https://thanhnien.vn/ai-hoc-cach-noi-doi-tinh-vi-hon-khi-bi-phat-185250326112139476.htm