Конкурс по вьетнамскому языку и обработке речи (VLSP) является частью ежегодной Международной конференции по вьетнамскому языку и обработке речи, организованной клубом VLSP, отделением Вьетнамской ассоциации информационных технологий. VLSP 2023 организует 10 конкурсов по обработке речи и текста, объединяющих ведущих исследователей, экспертов и подразделения по разработке технологий.

Несмотря на то, что компания Viettel AI участвовала в конкурсе уже в четвертый раз и до этого побеждала трижды, инженеры Viettel все равно столкнулись со многими трудностями из-за изменений в структуре категорий конкурса.

В частности, по сравнению с прошлым годом категории «Распознавание речи» и «Распознавание эмоций» в этом году объединены в одну категорию. Командам приходилось решать две задачи одновременно, чтобы гарантировать распознавание как текста, так и эмоций предложения, что удваивало нагрузку и сложность.

Используйте все данные, независимо от их качества.

Экзамен этого года не только меняет структуру категорий, но и фокусируется на построении моделей с нуля в условиях ограниченных данных, включая необработанные, немаркированные и низкокачественные данные. Тест предоставляет четыре группы данных разного качества и формата. Существуют наборы данных, содержащие только немаркированный звук, наборы данных, содержащие только звук и текст, наборы данных, содержащие эмоции и звук, высокого качества, хорошо маркированные, и наборы данных, содержащие эмоции и звук, низкого качества. Каждый набор данных четко определен для каждой цели и категории экзамена, в общей сложности более 300 часов по всем наборам данных. Это довольно скромное число по сравнению со стандартными наборами данных для обучения распознаванию речи, которые обычно требуют до 1000–2000 часов и более.

У каждой команды было менее 2 месяцев на работу и отправку своей работы, но в реальности фактическое время, потраченное на исследование решений, было гораздо меньше из-за нехватки ресурсов.

«В этом году Viettel AI выделила много ресурсов вычислительной инфраструктуры на исследование новых технологий, а также на разработку продуктов, в то время как распознавание речи — это технология, требующая больших аппаратных ресурсов», — сказал г-н Данг Динь Сон, инженер по искусственному интеллекту, платформа виртуального помощника Viettel AI.

картинка 1.jpg
Группа по разработке искусственного интеллекта, блок платформы виртуального помощника, представляющая Viettel AI, участвующая в категории «Распознавание речи и распознавание эмоций речи» - VLSP 2023

Столкнувшись с условием низкого объема и качества данных, исследовательская группа сразу же определила точку зрения, согласно которой «необходимо использовать все данные, независимо от их низкого или высокого качества». Для этого необходимо построить цикл обучения, обрабатывающий все данные, а также только одну модель, решающую множество различных задач, а не множество моделей.

Результаты освоения передовых технологий

В условиях нехватки данных и нехватки ресурсов исследовательская группа решила разработать простой, не слишком масштабный, но, что важно, отточенный до мельчайших деталей процесс обработки.

Инженеры Viettel AI тщательно изучают новейшие исследования ведущих конференций и журналов по всему миру, чтобы найти подход. Объединив методы обработки данных для эффективного обучения модели, исследовательская группа построила цикл обучения для обработки всех доступных данных. Цикл состоит из трех этапов: построение модели предварительного обучения для описания особенностей голоса без меток, тонкая настройка модели предварительного обучения для двух задач распознавания речи и распознавания эмоций, а также вывод.

«Опыт решения проблем с нехваткой данных во время разработки и развертывания предыдущих продуктов также внес значительный вклад в помощь команде в поиске метода принятия решений. Напротив, знания и результаты, полученные в ходе теста, также имеют потенциал для немедленного применения к продуктам Viettel AI, поэтому процесс работы во время прохождения теста прошел довольно гладко», — сказал г-н Буй Тиен Дат — инженер платформы виртуального помощника Viettel AI.

В результате Viettel AI не только занял первое место в категориях «Распознавание речи» и «Распознавание эмоций речи», но и показал впечатляющий результат 89,18% (следующие команды показали результаты 83,40% и 78,45% соответственно).

Г-н Сон сказал, что ключевым фактором является модель обработки речи специально для вьетнамского языка, которую Viettel AI разрабатывает уже давно.

«Вместо того, чтобы использовать модели и инструкции из доступных результатов исследований, Viettel AI решила построить и разработать собственную модель обработки вьетнамской речи. Эта модель постоянно обновляется, оптимизируется и становится все более эффективной», — сказал г-н Сон.

Не ограничиваясь рамками конкуренции, это решение Viettel AI станет предпосылкой для модернизации продуктов виртуальных коммутаторов, виртуального помощника Viettel, помогающего более точно определять эмоции клиентов в разговорах, тем самым предоставляя обратную связь или выбирая соответствующие нюансы речи. Таким образом, общение между людьми и ИИ станет более естественным, что улучшит пользовательский опыт. Также было открыто много новых приложений в сфере обслуживания клиентов, таких как создание автоматической системы для выявления жалоб клиентов и обращений в коммутатор для своевременной обработки или использования информации.

картинка 2.jpg
Г-н Буй Тиен Дат — инженер платформы виртуального помощника Viettel AI представлял команду, представившую результаты исследований на конференции.

Представитель подразделения сообщил, что Viettel AI продолжит развивать технологии, постоянно модернизировать продукты для повышения точности, улучшения пользовательского опыта и эффективности продукции.

Куок Туан