따라서 테스트한 인공지능 모델 중 가장 성능이 좋은 OpenAI의 GPT-4-Turbo조차도 프로필 전체를 읽었음에도 불구하고 정답률이 79%에 그쳤고, 종종 비현실적인 인물이나 사건에 대한 "환각"을 경험했습니다.
Patronus AI의 공동 창립자인 아난드 카나판은 "이런 수준의 성과 비율은 전혀 용납할 수 없습니다."라고 말했습니다. "자동화되고 생산에 적합하려면 정답률이 훨씬 높아야 합니다."
연구 결과는 금융과 같이 규제가 엄격한 산업 분야의 대기업이 고객 서비스나 연구 등 운영에 첨단 기술을 통합하고자 할 때 AI 모델이 직면하는 몇 가지 과제를 강조합니다.
금융 데이터 "환상"
ChatGPT가 작년 말에 출시된 이래로, 주요 숫자를 빠르게 추출하고 재무제표 분석을 수행하는 기능은 챗봇의 가장 유망한 응용 분야 중 하나로 여겨져 왔습니다.
SEC 제출 서류에는 중요한 데이터가 포함되어 있으며, 봇이 해당 내용을 정확하게 요약하거나 질문에 빠르게 답변할 수 있다면 사용자는 경쟁이 치열한 금융 업계에서 우위를 점할 수 있습니다.
지난해 Bloomberg LP는 금융 데이터를 위한 자체 AI 모델을 개발했으며, 경영대학원 교수들은 ChatGPT가 금융 헤드라인을 분석할 수 있는지 연구해 왔습니다.
한편, JPMorgan은 AI 기반 자동 투자 도구도 개발하고 있습니다. 맥킨지는 최근 예측을 통해 생성적 AI가 은행업을 연간 수조 달러 규모로 성장시킬 수 있다고 밝혔습니다.
하지만 이 여정은 아직 꽤 멀다. Microsoft가 OpenAI의 GPT 통합을 통해 Bing Chat을 처음 출시했을 때, 이 채팅봇을 사용하여 수익 관련 보도자료를 빠르게 요약했습니다. 관찰자들은 AI가 답한 숫자가 왜곡되었거나 심지어 조작되었다는 것을 금세 깨달았습니다.
동일한 데이터, 다른 답변
LLM을 실제 제품에 통합하는 데 있어 어려움 중 하나는 알고리즘이 비결정적이라는 점입니다. 즉, 동일한 입력이 주어졌을 때 동일한 결과가 반환된다는 보장이 없습니다. 즉, 기업은 AI가 정확하게 작동하는지, 주제에서 벗어나지 않는지, 신뢰할 수 있는 결과를 제공하는지 확인하기 위해 더 엄격한 테스트를 수행해야 합니다.
Patronus AI는 FinanceBench라는 대형 상장 기업의 SEC 제출 서류에서 추출한 10,000개 이상의 질문과 답변 세트를 구축했습니다. 데이터 세트에는 정확한 답변과 해당 파일에서 해당 답변을 찾을 수 있는 정확한 위치가 포함되어 있습니다.
모든 답을 글에서 바로 얻을 수 있는 것은 아니며, 일부 질문에는 계산이나 가벼운 추론이 필요합니다.
150개 문제로 구성된 하위 집합 테스트에는 OpenAI의 GPT-4와 GPT-4-Turbo, Anthropic의 Claude 2, Meta의 Llama 2 등 4개의 LLM 모델이 포함되었습니다.
그 결과, GPT-4-Turbo는 SEC의 기본 제출물에 대한 접근 권한을 부여받았을 때, 사람이 AI가 답을 찾을 수 있도록 마우스로 정확한 텍스트를 가리켰음에도 불구하고 정확도가 85%에 그쳤습니다(데이터에 접근할 수 없었을 때는 88%).
Meta가 개발한 오픈소스 AI 모델인 Llama 2는 "환각"이 가장 많았으며, 기본 문서의 일부에 접근했을 때 70%의 답변을 틀렸고, 단 19%만 맞혔습니다.
Anthropic의 Claude 2는 질문과 함께 관련 SEC 제출 문서의 거의 전체가 포함되어 있어 "긴 맥락"을 제공하면 효과적입니다. 질문의 75%에 답할 수 있었고, 21%는 틀리게 답했으며, 3%는 답변을 거부했습니다. GPT-4-Turbo는 긴 맥락에서도 좋은 성과를 보였으며, 79%의 질문에 정확하게 답하고 17%는 틀렸습니다.
(CNBC에 따르면)
빅테크 기업들의 AI 스타트업 투자 경쟁
AI 기술, 전자상거래 스타트업에 혁신을 일으키다
AI, 최초로 인간의 생각을 사실적인 이미지로 변환하는 데 성공
[광고_2]
원천
댓글 (0)