베트남어 및 음성 처리(VLSP) 대회는 베트남 정보기술 협회의 지부인 VLSP 클럽이 주최하는 베트남어 및 음성 처리에 관한 연례 국제 학술대회의 일환입니다. VLSP 2023은 음성 및 텍스트 처리에 관한 10개의 경연 대회를 개최하여 주요 연구자, 전문가 및 기술 개발 부문을 한자리에 모읍니다.
이번이 Viettel AI가 이 대회에 참여한 네 번째이자 이전에 세 번이나 우승했지만, Viettel 엔지니어들은 대회 부문 구조의 변화로 인해 여전히 많은 어려움에 직면했습니다.
구체적으로, 작년과 비교했을 때 올해는 음성 인식과 감정 인식 부문이 하나의 부문으로 통합되었습니다. 팀은 텍스트와 문장의 감정을 모두 인식할 수 있도록 두 가지 문제를 동시에 풀어야 했고, 이로 인해 작업량과 난이도가 두 배로 증가했습니다.
낮은 품질이든 높은 품질이든 모든 데이터를 활용하세요
올해 시험은 범주 구조를 바꾸는 것뿐만 아니라, 원시 데이터, 레이블이 지정되지 않은 데이터, 품질이 낮은 데이터 등 제한된 데이터 조건을 사용하여 처음부터 모델을 구축하는 데 중점을 둡니다. 이 테스트는 서로 다른 품질과 형식의 4개 데이터 그룹을 제공합니다. 레이블이 지정되지 않은 오디오만 포함된 데이터 세트, 오디오와 텍스트만 포함된 데이터 세트, 감정과 오디오를 포함하고 품질이 좋고 레이블이 잘 지정된 데이터 세트, 감정과 오디오를 포함하고 품질이 낮은 데이터 세트가 있습니다. 각 데이터 세트는 각 목적과 시험 범주에 맞게 명확하게 정의되어 있으며, 모든 데이터 세트를 합치면 300시간이 넘습니다. 이 수치는 일반적으로 1,000~2,000시간 이상이 필요한 음성 인식 훈련을 위한 표준 데이터 세트와 비교하면 상당히 적은 편입니다.
각 팀은 작업하고 결과물을 제출할 때까지 2개월도 안 되는 시간이 주어졌지만, 실제로 해결책을 조사하는 데 소요된 시간은 리소스 부족으로 인해 훨씬 짧았습니다.
Viettel AI의 가상 비서 플랫폼 부문 인공지능 엔지니어인 Dang Dinh Son 씨는 "올해 Viettel AI는 새로운 기술 연구와 제품 개발에 많은 컴퓨팅 인프라 리소스를 투자했습니다. 음성 인식은 많은 하드웨어 리소스가 필요한 기술입니다."라고 말했습니다.
연구팀은 데이터 양과 질이 낮은 상황에 직면하여 "낮든 높든 모든 데이터를 활용해야 한다"는 관점을 즉시 정했습니다. 이를 위해서는 모든 데이터를 처리하는 학습 주기를 구축해야 하며, 여러 모델 대신 다양한 문제를 해결하는 단 하나의 모델을 구축해야 합니다.
선구적인 기술 습득의 결과
데이터와 자원이 부족한 상황에서 연구팀은 규모가 크지는 않지만 중요한 점은 가장 세부적인 부분까지 정교하게 처리한 간단한 프로세스를 구축하기로 결정했습니다.
Viettel AI 엔지니어는 전 세계의 주요 컨퍼런스와 저널에서 최신 연구 결과를 주의 깊게 연구하여 접근 방식을 찾습니다. 연구팀은 모델을 효과적으로 훈련하기 위해 데이터 처리 방법을 결합하고, 사용 가능한 모든 데이터를 처리하는 훈련 주기를 구축했습니다. 이 사이클은 세 단계로 구성됩니다. 레이블이 없는 음성 특징을 설명하기 위한 사전 학습 모델을 구축하고, 음성 인식과 감정 인식의 두 가지 문제에 대한 사전 학습 모델을 미세 조정하고, 추론합니다.
"이전 제품 개발 및 배포 과정에서 데이터 부족 문제를 해결했던 경험 또한 팀이 의사 결정 방식을 찾는 데 큰 도움이 되었습니다. 오히려 테스트를 통해 얻은 지식과 결과는 Viettel AI 제품에 즉시 적용할 수 있는 잠재력을 가지고 있어, 테스트 진행 과정이 매우 순조롭게 진행되었습니다."라고 Viettel AI의 가상 비서 플랫폼 엔지니어인 부이 티엔 닷 씨는 말했습니다.
그 결과, Viettel AI는 음성 인식 및 음성 감정 인식 부문에서 1등을 차지했을 뿐만 아니라, 89.18%라는 인상적인 점수를 달성했습니다(다음 팀은 각각 83.40%와 78.45%).
손 씨는 핵심 요인은 Viettel AI가 오랫동안 개발한 베트남어 전용 음성 처리 모델에 있다고 말했습니다.
"Viettel AI는 기존 연구 결과의 모델과 지침을 사용하는 대신, 자체적으로 베트남어 음성 처리 모델을 구축하고 개발하기로 했습니다. 이 모델은 지속적으로 업데이트되고 최적화되어 점점 더 효과적이 되고 있습니다."라고 손 씨는 말했습니다.
Viettel AI의 이 솔루션은 경쟁 프레임워크에만 그치지 않고 가상 스위치보드 제품인 Viettel 가상 비서를 업그레이드하여 대화에서 고객의 감정을 보다 정확하게 식별하고, 피드백을 제공하거나 적절한 뉘앙스를 선택하는 데 도움이 될 것입니다. 이렇게 하면 사람과 AI 간의 대화가 더 자연스러워지고 사용자 경험이 향상됩니다. 고객 불만과 상담원에 대한 호소를 자동으로 파악하여 적시에 처리하거나 정보를 활용할 수 있는 시스템을 구축하는 등 고객 관리 분야에서도 많은 새로운 응용 분야가 개척되었습니다.
해당 사업부 대표는 Viettel AI가 앞으로도 기술을 개발하고, 제품을 끊임없이 업그레이드하여 정확성을 높이고, 사용자 경험과 제품 효율성을 향상시킬 것이라고 밝혔습니다.
꾸옥 투안
[광고_2]
원천
댓글 (0)