El concurso de Procesamiento del Habla y del Idioma Vietnamita (VLSP) es parte de la Conferencia Internacional anual sobre Procesamiento del Habla y del Idioma Vietnamita organizada por el Club VLSP, una rama de la Asociación de Vietnam para la Tecnología de la Información. VLSP 2023 organiza 10 competiciones sobre procesamiento de voz y texto, reuniendo a destacados investigadores, expertos y unidades de desarrollo tecnológico.
Aunque esta era la cuarta vez que Viettel AI participaba en la competencia y había ganado tres veces antes, los ingenieros de Viettel aún encontraron muchas dificultades debido a los cambios en la estructura de categorías de la competencia.
En concreto, en comparación con el año pasado, este año las categorías de Reconocimiento de voz y Reconocimiento de emociones se combinan en una sola categoría. Los equipos tuvieron que resolver dos problemas al mismo tiempo para garantizar el reconocimiento tanto del texto como de la emoción de la oración, duplicando la carga de trabajo y la dificultad.
Aproveche todos los datos, ya sean de baja o alta calidad.
El examen de este año no sólo cambia la estructura de las categorías, sino que también se centra en construir modelos desde cero con condiciones de datos limitadas, incluidos datos sin procesar, sin etiquetar y de baja calidad. La prueba proporciona cuatro grupos de datos con diferente calidad y formato. Hay conjuntos de datos que solo contienen audio sin etiquetar, conjuntos de datos que solo contienen audio y texto, conjuntos de datos que contienen emociones y audio, de alta calidad, bien etiquetados, y conjuntos de datos que contienen emociones y audio, de baja calidad. Cada conjunto de datos está bien definido para cada propósito y categoría de examen, y suma un total de más de 300 horas en todos los conjuntos de datos. Se trata de una cifra bastante modesta en comparación con los conjuntos de datos estándar para el entrenamiento de reconocimiento de voz, que normalmente requieren entre 1.000 y 2.000 horas o más.
Cada equipo tuvo menos de dos meses para trabajar y presentar su trabajo, pero en realidad, el tiempo real dedicado a investigar soluciones fue mucho menor debido a la falta de recursos.
“Este año, Viettel AI ha dedicado muchos recursos de infraestructura informática a la investigación de nuevas tecnologías, así como al desarrollo de productos, mientras que el reconocimiento de voz es una tecnología que requiere muchos recursos de hardware”, dijo el Sr. Dang Dinh Son, ingeniero de inteligencia artificial, Plataforma de asistente virtual, Viettel AI.
Ante la condición de bajo volumen y calidad de los datos, el equipo de investigación determinó inmediatamente el punto de vista de "tener que utilizar todos los datos independientemente de su baja o alta calidad". Para ello, es necesario construir un ciclo de entrenamiento que procese todos los datos y un solo modelo que resuelva muchos problemas diferentes en lugar de muchos modelos.
Los resultados del dominio pionero de la tecnología
En un contexto de falta de datos y de recursos, el equipo de investigación decidió construir un proceso de procesamiento simple, no masivo, pero, lo que es más importante, refinado hasta el más mínimo detalle.
Los ingenieros de inteligencia artificial de Viettel estudian cuidadosamente las últimas investigaciones de las principales conferencias y revistas de todo el mundo para encontrar un enfoque. Combinando los métodos de procesamiento de datos para entrenar el modelo de manera efectiva, el equipo de investigación construyó un ciclo de entrenamiento para procesar todos los datos disponibles. El ciclo consta de tres pasos: construir un modelo de preentrenamiento para describir las características de la voz sin etiquetas, ajustar el modelo de preentrenamiento para los dos problemas de reconocimiento de voz y reconocimiento de emociones, e inferencia.
La experiencia adquirida al resolver problemas con la falta de datos durante el desarrollo e implementación de productos anteriores también contribuyó significativamente a que el equipo encontrara un método de toma de decisiones. Por otro lado, el conocimiento y los resultados obtenidos en la prueba también tienen el potencial de aplicarse de inmediato a los productos de Viettel AI, por lo que el proceso de trabajo durante la prueba transcurrió sin contratiempos, afirmó el Sr. Bui Tien Dat, ingeniero de plataforma de asistentes virtuales de Viettel AI.
Como resultado, Viettel AI no solo ganó el primer premio en las categorías de Reconocimiento de voz y Reconocimiento de emociones del habla, sino que también logró una puntuación impresionante del 89,18% (los siguientes equipos obtuvieron 83,40% y 78,45% respectivamente).
El Sr. Son dijo que el factor clave radica en el modelo de procesamiento de voz específico para vietnamita que Viettel AI ha desarrollado durante mucho tiempo.
“En lugar de utilizar modelos e instrucciones de los resultados de investigación disponibles, Viettel AI optó por construir y desarrollar su propio modelo para el procesamiento del habla vietnamita. Este modelo se actualiza y optimiza constantemente y se vuelve cada vez más eficaz”, afirmó el Sr. Son.
No solo deteniéndose en el marco de la competencia, esta solución de Viettel AI será la premisa para actualizar los productos de la centralita virtual, el asistente virtual de Viettel, ayudando a identificar con mayor precisión las emociones de los clientes en las conversaciones, dando así retroalimentación o eligiendo los matices de discurso adecuados. De esta forma, las conversaciones entre humanos e IA serán más naturales, mejorando la experiencia del usuario. También se han abierto muchas nuevas aplicaciones en la atención al cliente, como por ejemplo la construcción de un sistema automático para identificar quejas y apelaciones de clientes a la centralita para su procesamiento oportuno o el aprovechamiento de la información.
El representante de la unidad dijo que Viettel AI continuará desarrollando tecnología, actualizando constantemente los productos para aumentar la precisión, mejorar la experiencia del usuario y la eficiencia del producto.
Quoc Tuan
[anuncio_2]
Fuente
Kommentar (0)