Viettel AI завоевал двойную награду на конкурсе по обработке речи и языка

Конкурс «Вьетнамский язык и обработка речи» (VLSP) является частью ежегодной Международной конференции по вьетнамскому языку и обработке речи, организованной клубом VLSP, филиалом Вьетнамской ассоциации информационных технологий. VLSP 2023 организует 10 конкурсов по обработке речи и текста, объединяющих ведущих исследователей, экспертов и подразделения по разработке технологий.

Несмотря на то, что компания Viettel AI участвовала в конкурсе уже в четвертый раз и до этого побеждала трижды, инженеры Viettel все равно столкнулись со множеством трудностей из-за изменений в структуре категорий конкурса.

В частности, по сравнению с прошлым годом категории «Распознавание речи» и «Распознавание эмоций» в этом году объединены в одну. Командам необходимо решить две задачи одновременно, чтобы обеспечить распознавание как текста, так и эмоций в предложении. Нагрузка и сложность увеличились вдвое.

Используйте все данные, независимо от их качества.

Экзамен этого года не только изменил структуру категорий, но и фокусируется на построении моделей с нуля с ограниченными условиями данных, включая необработанные, немаркированные и низкокачественные данные. Экзамен предоставляет 4 группы данных разного качества и формы. Существуют данные, включающие только немаркированные аудиоданные, данные, включающие только аудио и текст, данные, включающие эмоции и аудиоданные высокого качества со стандартными метками, и набор данных, включающий эмоции и аудиоданные низкого качества. Каждый набор данных четко определен для каждой цели и категории экзамена, с общим объемом более 300 часов на все наборы данных. Это довольно скромное количество по сравнению со стандартными наборами данных для обучения распознаванию речи, которые обычно требуют до 1000–2000 часов и более.

У каждой команды было менее 2 месяцев на работу и предоставление результатов, но в действительности фактическое время, потраченное на поиск решений, было гораздо меньше из-за нехватки ресурсов.

«В этом году Viettel AI выделила значительные ресурсы вычислительной инфраструктуры на исследование новых технологий, а также на разработку продуктов, в то время как распознавание речи — это технология, требующая больших аппаратных ресурсов», — сказал г-н Данг Динь Сон, инженер по искусственному интеллекту, платформа виртуального помощника Viettel AI.

картинка 1.jpg — Группа разработки искусственного интеллекта, блок платформы виртуального помощника, представляющий Viettel AI, участвует в категории «Распознавание речи и речевых эмоций» — VLSP 2023

Столкнувшись с проблемой низкого объёма и качества данных, исследовательская группа сразу пришла к выводу о необходимости «использовать все данные, независимо от их качества». Для этого необходимо построить цикл обучения для обработки всех данных, а также использовать только одну модель для решения множества различных задач вместо множества моделей.

Результаты освоения передовых технологий

В условиях нехватки данных и нехватки ресурсов исследовательская группа решила создать простой, немассовый, но, что важно, отточенный до мельчайших деталей процесс обработки.

Инженеры Viettel по искусственному интеллекту тщательно изучили новейшие исследования, представленные на ведущих конференциях и в журналах по всему миру, чтобы найти подходящий подход. Используя эффективные методы обработки данных для обучения модели, исследовательская группа разработала цикл обучения для обработки всех доступных данных. Цикл включает три этапа: создание предобученной модели для описания особенностей голоса без меток, тонкую настройку предобученной модели для решения двух задач: распознавания речи и эмоций, а также вывод.

«Опыт решения проблем с нехваткой данных при разработке и внедрении предыдущих продуктов также существенно помог команде найти метод принятия решений. Более того, знания и результаты, полученные в ходе тестирования, потенциально могут быть немедленно применены к продуктам Viettel AI, поэтому процесс работы во время тестирования прошёл довольно гладко», — отметил г-н Буй Тиен Дат, инженер платформы виртуального помощника Viettel AI.

В результате Viettel AI не только занял первое место в категориях «Распознавание речи» и «Распознавание речевых эмоций», но и показал впечатляющий результат 89,18% (следующие команды набрали 83,40% и 78,45% соответственно).

Г-н Сон отметил, что ключевым фактором является модель обработки речи, разработанная Viettel AI специально для вьетнамского языка, которую компания разрабатывала на протяжении длительного времени.

«Вместо того, чтобы использовать модели и инструкции из имеющихся результатов исследований, Viettel AI решил создать и развить собственную модель обработки вьетнамской речи. Эта модель постоянно обновляется, оптимизируется и становится всё более эффективной», — сказал г-н Сон.

Это решение Viettel AI не только позволит нам конкурировать, но и станет основой для модернизации продуктов виртуальных коммутаторов, включая виртуального помощника Viettel, который поможет точнее определять эмоции клиентов в разговоре, предоставляя обратную связь или подбирая подходящие нюансы фраз. Таким образом, общение между людьми и искусственным интеллектом станет более естественным, что улучшит пользовательский опыт. Также открывается множество новых возможностей в сфере обслуживания клиентов, таких как создание системы для автоматического распознавания жалоб клиентов и обращений в коммутатор для своевременной обработки или использования информации.

картинка 2.jpg — Г-н Буй Тиен Дат — инженер платформы виртуального помощника Viettel AI — представлял команду, представившую результаты исследований на конференции.

Представитель подразделения заявил, что Viettel AI продолжит развивать технологии, постоянно модернизировать продукты для повышения точности, улучшения пользовательского опыта и эффективности продуктов.

Куок Туан

Источник