베트남, AI 및 가상 비서를 위한 베트남어 데이터 세트 개발

3월 14일 오전, 국가혁신센터(NIC)는 베트남에서 인공지능(AI) 개발을 촉진한다는 목표로 2025년 혁신 챌린지 프로그램을 시작했습니다.

2025년 혁신 챌린지는 대규모 언어 모델(LLM)의 훈련, 평가 및 효율성을 개선하기 위한 고품질 오픈소스 베트남어 데이터 세트를 만드는 ViGen 프로젝트에 중점을 둡니다.

베트남어 데이터 세트의 등장은 AI 모델이 베트남의 문화, 맥락, 표현을 더 잘 이해하도록 돕는 것을 목표로 합니다. 이 프로젝트는 디지털 경제를 촉진하는 데 기여하는 동시에 AI 개발 과정에서 베트남의 입지를 강화할 것으로 기대됩니다.

비젠 1.jpg — 베트남에서 인공지능(AI) 개발을 촉진한다는 목표로 혁신 챌린지 2025 프로그램을 시작합니다. 사진: NIC

ViGen 프로젝트는 Meta Group, NIC 및 "AI for Vietnam" 조직의 3자 협력을 통해 시작되었습니다. 국가혁신센터는 프로젝트가 베트남의 국가 목표와 일치하도록 조정하고 보장하는 관리 부서 역할을 합니다.

ViGen 프로젝트의 사명은 베트남에서 AI 응용 프로그램의 잠재력을 끌어내기 위해 AI 모델이 핵심부터 자연스럽고 포괄적으로 베트남어를 지원하는 것입니다.

ViGen은 AI 모델의 역량을 훈련하고 평가하기 위해 대규모의 고품질 오픈소스 베트남 데이터 세트를 구축할 것입니다.

ViGen 프로젝트는 또한 베트남의 AI 개발이 문화적 가치와 윤리적 기준에 부합하도록 보장하는 데 기여하며, 지역적으로 관련성 있고 책임감 있는 오픈 소스 AI 생태계를 구축하는 것을 목표로 합니다.

이 프로젝트를 지원하기 위해 Meta는 이동성과 사회적 연결성에 대한 통찰력을 포함한 오픈 소스 데이터 세트와 AI 기반 인구 지도의 교육 데이터를 제공할 예정입니다.

국가혁신센터 부소장인 보쉬안 호아이(Vo Xuan Hoai) 씨에 따르면, AI는 세상을 변화시키고 있습니다. 따라서 AI 훈련 및 평가를 위한 대규모, 고품질, 오픈소스 베트남 데이터 세트를 개발하는 것이 시급한 우선순위가 되었습니다.

" ViGen 프로젝트는 과학, 기술, 혁신 및 국가 디지털 전환의 획기적인 발전을 촉진하기 위한 정치국 결의안 57호에 부합합니다. 정책 입안자, 연구자, 개발자, 전문가, 그리고 사용자들의 공동 노력을 통해 AI를 모든 베트남 국민을 위한 강력한 도구로 만들고 베트남을 세계적인 AI 강국으로 만들 것입니다. "라고 국가혁신센터 부소장은 말했습니다.

비젠 3.jpg — AI for Vietnam 조직의 창립자 겸 CEO인 Tran Viet Hung 씨. 사진: NIC

베트남어는 1억 명이 넘는 사람들이 사용하지만, AI 모델을 훈련하는 데 사용되는 베트남어 데이터는 현재 1%도 안 되는 아주 작은 비중에 불과합니다. 이것이 AI 모델의 출력이 정보적 가치는 있지만 자연스럽지 않고 베트남어의 전체 가치를 전달하지 못하여 유용성이 낮고 비효율적인 이유입니다.

AI for Vietnam의 창립자 겸 CEO인 Tran Viet Hung 씨는 " ViGen 프로젝트는 베트남어의 방대하고 고품질의 데이터 세트를 커뮤니티에 제공하여 AI에서 차지하는 비중이 매우 낮은 언어로 간주되는 베트남어의 현재 상태를 개선하는 데 기여할 것입니다 ."라고 말했습니다.

Tran Viet Hung 씨에 따르면, ViGen 프로젝트는 Llama와 같은 오픈 소스 모델의 힘과 가치를 보여주며, 베트남어의 맥락을 고려한 혁신적인 솔루션 개발을 가능하게 해줍니다.

실제로 베트남에서는 미사의 정보검색 자동화 가상 비서, 비에텔의 법률 가상 비서 등 대규모 언어 모델인 라마(Llama)를 기반으로 개발된 베트남어 가상 비서가 등장한 바 있다. 이는 베트남 생활, 특히 공공 부문에서 AI가 적용된 사례를 보여주는 초기 사례입니다.