Laut BGR wurde in einem neuen Forschungsbericht gerade eine besorgniserregende Technik namens „Fun-Tuning“ veröffentlicht, bei der KI (künstliche Intelligenz) selbst verwendet wird, um automatisch äußerst effektive Prompt-Injection-Angriffe zu erstellen, die auf andere fortgeschrittene KI-Modelle abzielen, darunter auch Gemini von Google.
Mit dieser Methode lässt sich KI schneller, günstiger und einfacher „knacken“ als je zuvor und stellt eine neue Eskalation im Kampf um die Cybersicherheit im Zusammenhang mit KI dar.
Die Gefahr, wenn Bösewichte KI nutzen, um KI zu knacken
Prompt Injection ist eine Technik, bei der ein Angreifer heimlich bösartige Anweisungen in die Eingabedaten eines KI-Modells einfügt (z. B. über Kommentare im Quellcode oder versteckten Text im Web). Das Ziel besteht darin, die KI auszutricksen und sie dazu zu zwingen, vorprogrammierte Sicherheitsregeln zu umgehen, was schwerwiegende Folgen haben kann, beispielsweise die Weitergabe vertraulicher Daten, die Bereitstellung falscher Informationen oder andere gefährliche Verhaltensweisen.
Hacker nutzen KI, um KI anzugreifen
FOTO: LINKEDIN SCREENSHOT
Bisher waren für die erfolgreiche Ausführung dieser Angriffe, insbesondere bei „geschlossenen“ Modellen wie Gemini oder GPT-4, häufig umfangreiche, komplexe und zeitaufwändige manuelle Tests erforderlich.
Aber Fun-Tuning hat das Spiel komplett verändert. Die von einem Forscherteam mehrerer Universitäten entwickelte Methode nutzt auf clevere Weise genau dieselbe fein abgestimmte Anwendungsprogrammierschnittstelle (API), die Google Gemini-Benutzern kostenlos zur Verfügung stellt.
Durch die Analyse der subtilen Reaktionen des Gemini-Modells während der Optimierung (z. B. wie es auf Fehler in den Daten reagiert) kann Fun-Tuning automatisch die effektivsten „Präfixe“ und „Suffixe“ bestimmen, um eine böswillige Aussage zu verbergen. Dadurch erhöht sich die Wahrscheinlichkeit deutlich, dass die KI den bösartigen Absichten des Angreifers folgt.
Testergebnisse zeigen, dass Fun-Tuning bei einigen Versionen von Gemini eine Erfolgsrate von bis zu 82 % erreicht, ein Wert, der die weniger als 30 % herkömmlicher Angriffsmethoden übertrifft.
Was Fun-Tuning noch gefährlicher macht, ist, dass die Implementierungskosten sehr gering sind. Da die Optimierungs-API von Google kostenlos verfügbar ist, könnten die Rechenkosten für die Erstellung eines wirksamen Angriffs nur 10 US-Dollar betragen. Darüber hinaus stellten die Forscher fest, dass ein für eine Version von Gemini entwickelter Angriff problemlos erfolgreich auf andere Versionen angewendet werden kann, wodurch das Risiko großflächiger Angriffe entsteht.
Google hat bestätigt, dass es sich der Bedrohung durch die Fun-Tuning-Technik bewusst ist, hat sich jedoch noch nicht dazu geäußert, ob sich dadurch die Funktionsweise der Tweaking-API ändern wird. Das Team weist außerdem auf die defensive Schwierigkeit hin, dass die API für echte Entwickler weniger nützlich wird, wenn die von Fun-Tuning genutzten Informationen aus dem Tuning-Prozess entfernt werden. Im Gegenteil: Wenn es so bleibt, wie es ist, wird es weiterhin ein Sprungbrett für die Ausbeutung durch Kriminelle sein.
Das Aufkommen von Fun-Tuning ist eine klare Warnung, dass die Konfrontation im Cyberspace in eine neue, komplexere Phase eingetreten ist. KI ist heute nicht nur ein Ziel, sondern auch ein Werkzeug und eine Waffe in den Händen böswilliger Akteure.
[Anzeige_2]
Quelle: https://thanhnien.vn/hacker-dung-ai-de-tan-cong-gemini-cua-google-18525033010473121.htm
Kommentar (0)