Der Wettbewerb zur vietnamesischen Sprach- und Sprachverarbeitung (VLSP) ist Teil der jährlichen internationalen Konferenz zur vietnamesischen Sprach- und Sprachverarbeitung, die vom VLSP-Club, einem Zweig der Vietnam Association for Information Technology, organisiert wird. VLSP 2023 organisiert 10 Wettbewerbe zur Sprach- und Textverarbeitung und bringt führende Forscher, Experten und Technologieentwicklungseinheiten zusammen.

Obwohl Viettel AI bereits zum vierten Mal an dem Wettbewerb teilnahm und bereits dreimal gewonnen hatte, stießen die Viettel-Ingenieure aufgrund von Änderungen in der Struktur der Wettbewerbskategorien immer noch auf viele Schwierigkeiten.

Konkret werden im Vergleich zum letzten Jahr die Kategorien Spracherkennung und Emotionserkennung in diesem Jahr zu einer Kategorie zusammengefasst. Die Teams mussten zwei Probleme gleichzeitig lösen, um sicherzustellen, dass sowohl der Text als auch die Emotion des Satzes erkannt wurden, was den Arbeitsaufwand und den Schwierigkeitsgrad verdoppelte.

Nutzen Sie alle Daten, egal ob niedrige oder hohe Qualität

Bei der diesjährigen Prüfung geht es nicht nur um eine Änderung der Struktur der Kategorien, sondern auch darum, Modelle von Grund auf mit eingeschränkten Datenbedingungen, darunter Rohdaten, unbeschriftete Daten und Daten von geringer Qualität, zu erstellen. Der Test liefert vier Datengruppen mit unterschiedlicher Qualität und unterschiedlichem Format. Es gibt Datensätze, die nur unbeschriftete Audiodaten enthalten, Datensätze, die nur Audiodaten und Text enthalten, Datensätze, die Emotionen und Audiodaten enthalten, hohe Qualität, gut beschriftet, und Datensätze, die Emotionen und Audiodaten enthalten, niedrige Qualität. Jeder Datensatz ist für jeden Zweck und jede Prüfungskategorie gut definiert und umfasst insgesamt über 300 Stunden über alle Datensätze hinweg. Dies ist eine eher bescheidene Zahl im Vergleich zu Standard-Datensätzen zum Trainieren der Spracherkennung, die normalerweise 1.000–2.000 Stunden oder mehr erfordern.

Jedes Team hatte weniger als zwei Monate Zeit, um an seiner Arbeit zu arbeiten und sie einzureichen. Tatsächlich wurde jedoch aufgrund fehlender Ressourcen viel weniger Zeit für die Suche nach Lösungen aufgewendet.

„Viettel AI hat in diesem Jahr viele Ressourcen seiner Computerinfrastruktur für die Erforschung neuer Technologien und die Produktentwicklung bereitgestellt, obwohl Spracherkennung eine Technologie ist, die viele Hardwareressourcen erfordert“, sagte Herr Dang Dinh Son – Ingenieur für künstliche Intelligenz, Virtual Assistant Platform, Viettel AI.

Bild 1.jpg
Artificial Intelligence Engineering Group, Virtual Assistant Platform Block, vertritt Viettel AI und nimmt an der Kategorie Spracherkennung und Sprachemotionserkennung teil – VLSP 2023

Angesichts der geringen Datenmenge und -qualität gelangte das Forschungsteam sofort zu dem Standpunkt, dass „alle Daten genutzt werden müssen, unabhängig von ihrer geringen oder hohen Qualität“. Dazu ist es notwendig, einen Trainingszyklus aufzubauen, der alle Daten verarbeitet, sowie nur ein Modell, das viele verschiedene Probleme löst, anstatt vieler Modelle.

Die Ergebnisse bahnbrechender Technologiebeherrschung

Angesichts des Mangels an Daten und Ressourcen beschloss das Forschungsteam, einen einfachen, nicht massiven, aber – was wichtig ist – bis ins kleinste Detail verfeinerten Verarbeitungsprozess zu entwickeln.

Die KI-Ingenieure von Viettel studieren sorgfältig die neuesten Forschungsergebnisse führender Konferenzen und Zeitschriften auf der ganzen Welt, um einen Ansatz zu finden. Durch die Kombination der Datenverarbeitungsmethoden zum effektiven Trainieren des Modells hat das Forschungsteam einen Trainingszyklus erstellt, um alle verfügbaren Daten zu verarbeiten. Der Zyklus besteht aus drei Schritten: Erstellen eines Vortrainingsmodells zur Beschreibung von Stimmmerkmalen ohne Beschriftungen, Feinabstimmung des Vortrainingsmodells für die beiden Probleme der Spracherkennung und Emotionserkennung sowie Inferenz.

„Erfahrungen aus der Lösung von Problemen mit Datenmangel während der Entwicklung und Bereitstellung früherer Produkte trugen maßgeblich dazu bei, dass das Team eine Entscheidungsmethode fand. Die Erkenntnisse und Ergebnisse aus dem Test können zudem direkt auf Viettel AI-Produkte angewendet werden, sodass die Arbeit während des Tests reibungslos verlief“, sagte Bui Tien Dat, Virtual Assistant Platform Engineer bei Viettel AI.

Infolgedessen gewann Viettel AI nicht nur den ersten Preis in den Kategorien Spracherkennung und Sprachemotionserkennung, sondern erreichte auch eine beeindruckende Punktzahl von 89,18 % (die nächsten Teams erreichten 83,40 % bzw. 78,45 %).

Herr Son sagte, der Schlüsselfaktor liege im Sprachverarbeitungsmodell speziell für Vietnamesisch, das Viettel AI seit langem entwickelt.

„Anstatt Modelle und Anweisungen aus verfügbaren Forschungsergebnissen zu verwenden, hat sich Viettel AI dafür entschieden, ein eigenes Modell für die vietnamesische Sprachverarbeitung zu entwickeln. Dieses Modell wird ständig aktualisiert, optimiert und wird immer effektiver“, sagte Herr Son.

Diese Lösung von Viettel AI beschränkt sich nicht nur auf den Wettbewerbsrahmen, sondern bildet auch die Voraussetzung für die Weiterentwicklung virtueller Telefonzentralenprodukte, des virtuellen Assistenten von Viettel, der dabei hilft, die Emotionen der Kunden in Gesprächen präziser zu erkennen und dadurch Feedback zu geben oder geeignete Sprachnuancen auszuwählen. Auf diese Weise werden Gespräche zwischen Menschen und KI natürlicher und das Benutzererlebnis verbessert. Darüber hinaus wurden viele neue Anwendungsmöglichkeiten im Bereich der Kundenbetreuung geschaffen, wie etwa der Aufbau eines automatischen Systems zur Erkennung von Kundenbeschwerden und -anfragen an die Telefonzentrale, um diese zeitnah bearbeiten oder die Informationen nutzen zu können.

Bild 2.jpg
Herr Bui Tien Dat – Virtual Assistant Platform Engineer, Viettel AI – vertrat das Team, um die Forschungsergebnisse auf der Konferenz vorzustellen.

Der Vertreter der Einheit sagte, dass Viettel AI weiterhin Technologien entwickeln und Produkte ständig verbessern werde, um die Genauigkeit zu erhöhen und das Benutzererlebnis sowie die Produkteffizienz zu verbessern.

Quoc Tuan