따라서 테스트한 인공지능 모델 중 가장 성능이 좋은 OpenAI의 GPT-4-Turbo조차도 프로필 전체를 읽었음에도 불구하고 정답률이 79%에 그쳤고, 종종 비현실적인 인물이나 사건에 대한 "환각"을 경험했습니다.

Patronus AI의 공동 창립자인 아난드 카나판은 "이런 수준의 성과 비율은 전혀 용납할 수 없습니다."라고 말했습니다. "자동화되고 생산에 적합하려면 정답률이 훨씬 높아야 합니다."

연구 결과는 금융과 같이 규제가 엄격한 산업 분야의 대기업이 고객 서비스나 연구 등 운영에 첨단 기술을 통합하고자 할 때 AI 모델이 직면하는 몇 가지 과제를 강조합니다.

금융 데이터 "환상"

ChatGPT가 작년 말에 출시된 이래로, 주요 숫자를 빠르게 추출하고 재무제표 분석을 수행하는 기능은 챗봇의 가장 유망한 응용 분야 중 하나로 여겨져 왔습니다.

SEC 제출 서류에는 중요한 데이터가 포함되어 있으며, 봇이 해당 내용을 정확하게 요약하거나 질문에 빠르게 답변할 수 있다면 사용자는 경쟁이 치열한 금융 업계에서 우위를 점할 수 있습니다.

llm 이미지 100941414 큰.jpg
AI는 데이터 집계 단계에서 어려움을 겪습니다. 이 단계에서 AI는 인간에게 가장 큰 도움을 줄 것으로 기대됩니다.

지난해 Bloomberg LP는 금융 데이터를 위한 자체 AI 모델을 개발했으며, 경영대학원 교수들은 ChatGPT가 금융 헤드라인을 분석할 수 있는지 연구해 왔습니다.

한편, JPMorgan은 AI 기반 자동 투자 도구도 개발하고 있습니다. 맥킨지는 최근 예측을 통해 생성적 AI가 은행업을 연간 수조 달러 규모로 성장시킬 수 있다고 밝혔습니다.

하지만 이 여정은 아직 꽤 멀다. Microsoft가 OpenAI의 GPT 통합을 통해 Bing Chat을 처음 출시했을 때, 이 채팅봇을 사용하여 수익 관련 보도자료를 빠르게 요약했습니다. 관찰자들은 AI가 답한 숫자가 왜곡되었거나 심지어 조작되었다는 것을 금세 깨달았습니다.

동일한 데이터, 다른 답변

LLM을 실제 제품에 통합하는 데 있어 어려움 중 하나는 알고리즘이 비결정적이라는 점입니다. 즉, 동일한 입력이 주어졌을 때 동일한 결과가 반환된다는 보장이 없습니다. 즉, 기업은 AI가 정확하게 작동하는지, 주제에서 벗어나지 않는지, 신뢰할 수 있는 결과를 제공하는지 확인하기 위해 더 엄격한 테스트를 수행해야 합니다.

Patronus AI는 FinanceBench라는 대형 상장 기업의 SEC 제출 서류에서 추출한 10,000개 이상의 질문과 답변 세트를 구축했습니다. 데이터 세트에는 정확한 답변과 해당 파일에서 해당 답변을 찾을 수 있는 정확한 위치가 포함되어 있습니다.

모든 답을 글에서 바로 얻을 수 있는 것은 아니며, 일부 질문에는 계산이나 가벼운 추론이 필요합니다.

150개 문제로 구성된 하위 집합 테스트에는 OpenAI의 GPT-4와 GPT-4-Turbo, Anthropic의 Claude 2, Meta의 Llama 2 등 4개의 LLM 모델이 포함되었습니다.

그 결과, GPT-4-Turbo는 SEC의 기본 제출물에 대한 접근 권한을 부여받았을 때, 사람이 AI가 답을 찾을 수 있도록 마우스로 정확한 텍스트를 가리켰음에도 불구하고 정확도가 85%에 그쳤습니다(데이터에 접근할 수 없었을 때는 88%).

Meta가 개발한 오픈소스 AI 모델인 Llama 2는 "환각"이 가장 많았으며, 기본 문서의 일부에 접근했을 때 70%의 답변을 틀렸고, 단 19%만 맞혔습니다.

Anthropic의 Claude 2는 질문과 함께 관련 SEC 제출 문서의 거의 전체가 포함되어 있어 "긴 맥락"을 제공하면 효과적입니다. 질문의 75%에 답할 수 있었고, 21%는 틀리게 답했으며, 3%는 답변을 거부했습니다. GPT-4-Turbo는 긴 맥락에서도 좋은 성과를 보였으며, 79%의 질문에 정확하게 답하고 17%는 틀렸습니다.

(CNBC에 따르면)

빅테크 기업들의 AI 스타트업 투자 경쟁

빅테크 기업들의 AI 스타트업 투자 경쟁

AI 기술의 등장은 기술계를 뒤흔들었지만, 한 가지 변하지 않는 것은 빅테크 기업이 여전히 절대적인 권력을 쥐고 있다는 것입니다.
AI 기술, 전자상거래 스타트업에 혁신을 일으키다

AI 기술, 전자상거래 스타트업에 혁신을 일으키다

경쟁이 치열한 전자상거래 분야에서 AI는 스타트업에게 기술을 활용해 고객에게 서비스를 제공하고 운영을 간소화할 수 있는 기회를 제공합니다.
AI, 최초로 인간의 생각을 사실적인 이미지로 변환하는 데 성공

AI, 최초로 인간의 생각을 사실적인 이미지로 변환하는 데 성공

인공지능(AI) 기술의 도움으로 인간 사고 연구에서 새로운 발견이 이루어졌다는 것은 마치 우리 내부에 완전히 새로운 세상이 열리는 것과도 같습니다.