Dementsprechend erreichte sogar die von ihnen getestete Konfiguration eines künstlichen Intelligenzmodells mit der besten Leistung, GPT-4-Turbo von OpenAI, trotz des Lesens des gesamten Profils nur eine richtige Antwortrate von 79 % und erlebte häufig „Halluzinationen“ von unwirklichen Zahlen oder Ereignissen.
„Diese Art von Leistungsverhältnis ist völlig inakzeptabel“, sagte Anand Kannappan, Mitbegründer von Patronus AI. „Um automatisiert und produktionsreif zu sein, muss die Rate richtiger Antworten viel höher sein.“
Die Ergebnisse verdeutlichen einige der Herausforderungen, vor denen KI-Modelle stehen, da große Unternehmen, insbesondere in stark regulierten Branchen wie dem Finanzwesen, versuchen, fortschrittliche Technologien in ihre Betriebsabläufe zu integrieren, sei es im Kundendienst oder in der Forschung.
Finanzdaten-"Illusion"
Die Fähigkeit, schnell Kennzahlen zu extrahieren und Bilanzanalysen durchzuführen, gilt seit der Veröffentlichung von ChatGPT Ende letzten Jahres als eine der vielversprechendsten Anwendungen für Chatbots.
SEC-Anmeldungen enthalten wichtige Daten. Wenn ein Bot deren Inhalt präzise zusammenfassen oder Fragen dazu schnell beantworten kann, könnte dies den Benutzern einen Vorteil in der wettbewerbsintensiven Finanzbranche verschaffen.
Im vergangenen Jahr hat Bloomberg LP ein eigenes KI-Modell für Finanzdaten entwickelt und Professoren von Business Schools haben untersucht, ob ChatGPT Finanzschlagzeilen analysieren kann.
Inzwischen entwickelt JPMorgan auch ein KI-gestütztes automatisiertes Anlagetool. Einer aktuellen Prognose von McKinsey zufolge könnte generative KI dem Bankensektor einen jährlichen Zuwachs von Billionen Dollar verschaffen.
Allerdings ist dieser Weg noch recht weit. Als Microsoft Bing Chat erstmals mit der GPT-Integration von OpenAI startete, nutzte das Unternehmen den Chatbot, um Pressemitteilungen zu den Unternehmensergebnissen schnell zusammenzufassen. Beobachter stellten schnell fest, dass die von der KI beantworteten Zahlen verzerrt oder sogar erfunden waren.
Gleiche Daten, unterschiedliche Antworten
Eine der Herausforderungen bei der Integration von LLM in reale Produkte besteht darin, dass die Algorithmen nicht deterministisch sind, d. h., es gibt keine Garantie dafür, dass sie bei identischen Eingaben das gleiche Ergebnis zurückgeben. Das bedeutet, dass Unternehmen strengere Tests durchführen müssen, um sicherzustellen, dass die KI präzise funktioniert, nicht vom Thema abweicht und zuverlässige Ergebnisse liefert.
Patronus AI hat einen Satz mit dem Namen FinanceBench erstellt, der aus SEC-Anmeldungen großer börsennotierter Unternehmen besteht und mehr als 10.000 Fragen und Antworten enthält. Der Datensatz enthält die genauen Antworten sowie den genauen Speicherort in einer beliebigen Datei, um sie zu finden.
Nicht alle Antworten können direkt aus dem Text entnommen werden und manche Fragen erfordern Berechnungen oder leichtes logisches Denken.
Der 150 Fragen umfassende Teiltest umfasste vier LLM-Modelle: GPT-4 und GPT-4-Turbo von OpenAI, Claude 2 von Anthropic und Llama 2 von Meta.
Als GPT-4-Turbo Zugriff auf die zugrunde liegenden Unterlagen der SEC erhielt, erreichte es daher lediglich eine Genauigkeitsrate von 85 % (im Vergleich zu 88 %, wenn es keinen Zugriff auf die Daten hatte), obwohl ein Mensch mit der Maus auf den genauen Text zeigte, damit die KI die Antwort finden konnte.
Llama 2, ein von Meta entwickeltes Open-Source-KI-Modell, wies die höchste Zahl an „Halluzinationen“ auf: 70 % der Antworten waren falsch und nur 19 % richtig, als dem Modell Zugriff auf einen Teil der zugrunde liegenden Dokumente gewährt wurde.
Claude 2 von Anthropic funktioniert gut, wenn ein „ausführlicher Kontext“ gegeben wird, bei dem neben der Frage auch fast die gesamte relevante SEC-Anmeldung enthalten ist. 75 % der gestellten Fragen konnten beantwortet werden, 21 % wurden falsch beantwortet und 3 % verweigerten die Antwort. Auch bei langen Kontexten schnitt GPT-4-Turbo gut ab und beantwortete 79 % der Fragen richtig und 17 % falsch.
(Laut CNBC)
Der Wettlauf der großen Technologieunternehmen um Investitionen in KI-Startups
KI-Technologie revolutioniert E-Commerce-Startups
KI gelingt es erstmals, menschliche Gedanken in realistische Bilder umzusetzen
[Anzeige_2]
Quelle
Kommentar (0)