したがって、彼らがテストした中で最もパフォーマンスが高かった人工知能モデル構成である OpenAI の GPT-4-Turbo でも、プロファイル全体を読み込んだにもかかわらず、正答率は 79% にとどまり、非現実的な数字や出来事の「幻覚」を頻繁に経験しました。
「このようなパフォーマンス比はまったく受け入れられない」とパトロナスAIの共同創設者アナンド・カンナパン氏は語った。 「自動化して実稼働準備を整えるには、正解率をさらに高める必要があります。」
この調査結果は、特に金融などの規制の厳しい業界の大企業が顧客サービスや研究など、業務に高度なテクノロジーを取り入れようとしている中で、AI モデルが直面しているいくつかの課題を浮き彫りにしています。
財務データの「幻想」
ChatGPT が昨年末にリリースされて以来、主要な数字を素早く抽出し、財務諸表分析を実行する機能は、チャットボットの最も有望なアプリケーションの 1 つと見なされてきました。
SEC 提出書類には重要なデータが含まれており、ボットがその内容を正確に要約したり、内容に関する質問に迅速に回答したりすることができれば、競争の激しい金融業界でユーザーに優位性を与えることができる可能性があります。
過去1年間、ブルームバーグLPは金融データ用の独自のAIモデルを開発しており、ビジネススクールの教授たちはChatGPTが金融ニュースの見出しを分析できるかどうかを研究してきた。
一方、JPモルガンもAIを活用した自動投資ツールを開発している。マッキンゼーの最近の予測によれば、生成AIによって銀行業界は年間数兆ドル増加する可能性があるという。
しかし、この旅はまだかなり遠いです。 Microsoft が OpenAI の GPT 統合による Bing Chat を初めてリリースしたとき、同社はチャットボットを使用して収益のプレスリリースを迅速に要約しました。観察者たちは、AIが答えた数字が歪められたもの、あるいは捏造されたものであることをすぐに悟った。
同じデータ、異なる答え
LLM を実際の製品に組み込む際の課題の 1 つは、アルゴリズムが非決定論的であることです。つまり、同一の入力を与えても同じ結果が返されるとは限りません。つまり、企業は AI が正確に動作し、話題から外れず、信頼できる結果を提供していることを確認するために、より厳密なテストを実施する必要があるということです。
Patronus AI は、大手上場企業の SEC 提出書類から抽出した 10,000 件を超える質問と回答のセット「FinanceBench」を構築しました。データセットには、正確な回答と、特定のファイル内で回答を見つけるための正確な場所が含まれています。
すべての回答をテキストから直接引用できるわけではなく、一部の質問では計算や簡単な推論が必要になります。
150 問のサブセット テストには、OpenAI の GPT-4 と GPT-4-Turbo、Anthropic の Claude 2、Meta の Llama 2 の 4 つの LLM モデルが使用されました。
その結果、GPT-4-Turbo は、SEC の基礎となる提出書類へのアクセスを許可されたとき、人間がマウスで正確なテキストを指し示して AI が答えを見つけられるようにしたにもかかわらず、85% の精度しか達成できませんでした (データにアクセスできなかったときは 88%)。
Metaが開発したオープンソースのAIモデルであるLlama 2は、「幻覚」の数が最も多く、基礎文書の一部にアクセスしたときに回答の70%を間違え、わずか19%しか正解しなかった。
Anthropic の Claude 2 は、関連する SEC 提出書類のほぼ全体が質問とともに含まれている「長いコンテキスト」が与えられている場合にうまく機能します。質問の 75% に回答でき、21% には誤回答し、3% には回答を拒否しました。 GPT-4-Turbo は長いコンテキストでも優れたパフォーマンスを発揮し、質問の 79% に正しく回答し、17% に誤って回答しました。
(CNBCによると)
大手テック企業によるAIスタートアップへの投資競争
AIテクノロジーがEコマーススタートアップに革命を起こす
AIが初めて人間の思考をリアルな画像に変換することに成功
[広告2]
ソース
コメント (0)