ベトナム語および音声処理 (VLSP) コンテストは、ベトナム情報技術協会の支部である VLSP クラブが主催する毎年恒例のベトナム語および音声処理に関する国際会議の一部です。 VLSP 2023 では、一流の研究者、専門家、技術開発ユニットを集めて、音声およびテキスト処理に関する 10 の競技会が開催されます。
Viettel AIがこのコンテストに参加するのは今回で4回目であり、これまで3回優勝しているが、コンテストのカテゴリー構造の変更により、Viettelのエンジニアたちは依然として多くの困難に直面した。
具体的には、昨年と比較して、今年は音声認識と感情認識のカテゴリが 1 つのカテゴリに統合されています。チームは、文章と文章の感情の両方を確実に認識するために、2つの問題を同時に解決する必要があり、作業量と難易度は2倍になりました。
低品質か高品質かを問わず、あらゆるデータを活用する
今年の試験では、カテゴリの構造を変更するだけでなく、生データ、ラベルなしデータ、低品質データなどの限られたデータ条件でゼロからモデルを構築することにも重点が置かれています。テストでは、品質と形式が異なる 4 つのデータ グループが提供されます。ラベル付けされていない音声のみを含むデータセット、音声とテキストのみを含むデータセット、感情と音声を含み高品質で適切にラベル付けされたデータセット、感情と音声を含み低品質のデータセットがあります。各データセットは目的と試験カテゴリごとに明確に定義されており、データセット全体で合計 300 時間を超えます。これは、通常 1,000 ~ 2,000 時間以上を要する音声認識のトレーニング用の標準的なデータセットと比較すると、かなり控えめな数値です。
各チームには作業と提出に 2 か月未満が与えられましたが、実際にはリソース不足のため、解決策の調査に費やされた実際の時間ははるかに短かったです。
「今年、Viettel AIは、新しいテクノロジーの研究と製品開発に多くのコンピューティングインフラストラクチャリソースを投入しましたが、音声認識は多くのハードウェアリソースを必要とするテクノロジーです」と、Viettel AIの仮想アシスタントプラットフォーム担当人工知能エンジニア、ダン・ディン・ソン氏は述べています。
データ量と質が低いという状況に直面し、研究チームはすぐに「質の良し悪しに関わらず、すべてのデータを活用しなければならない」という視点を定めました。これを実現するには、多くのモデルではなく、さまざまな問題を解決する 1 つのモデルのみと、すべてのデータを処理するトレーニング サイクルを構築する必要があります。
先駆的な技術習得の結果
データとリソースの両方が不足している状況において、研究チームは、大規模ではないものの、重要な点として、細部に至るまで洗練された処理プロセスを構築することを決定しました。
Viettel の AI エンジニアは、世界中の主要な会議やジャーナルの最新の研究を注意深く研究して、アプローチを見つけます。研究チームは、データ処理方法を組み合わせてモデルを効果的にトレーニングし、利用可能なすべてのデータを処理するためのトレーニング サイクルを構築しました。このサイクルは、ラベルなしで音声の特徴を記述するための事前トレーニング モデルの構築、音声認識と感情認識の 2 つの問題に対する事前トレーニング モデルの微調整、および推論の 3 つのステップで構成されます。
「以前の製品の開発・展開中にデータ不足の問題を解決した経験も、チームが意思決定方法を見つける上で大きく貢献しました。また、テストから得られた知識と結果は、Viettel AI製品にすぐに応用できる可能性もあるため、テストを受けながら作業を進めるプロセスは非常にスムーズに進みました」と、Viettel AIのバーチャルアシスタントプラットフォームエンジニア、ブイ・ティエン・ダット氏は述べています。
その結果、Viettel AIは音声認識と音声感情認識の部門で1位を獲得しただけでなく、89.18%という素晴らしいスコアも達成しました(次点はそれぞれ83.40%と78.45%)。
ソン氏は、Viettel AIが長年かけて開発してきたベトナム語専用の音声処理モデルが重要な要素であると述べた。
「Viettel AIは、既存の研究結果から得たモデルや指示を使用するのではなく、ベトナム語音声処理用の独自のモデルを構築・開発することを選択しました。このモデルは常に更新・最適化されており、ますます効果的になっています」とソン氏は述べています。
Viettel AIのこのソリューションは、競争の枠組みに留まらず、仮想交換機製品やViettel仮想アシスタントをアップグレードするための前提となり、会話の中で顧客の感情をより正確に識別し、フィードバックを提供したり、適切な言葉のニュアンスを選択したりするのに役立ちます。これにより、人間と AI 間の会話がより自然になり、ユーザー エクスペリエンスが向上します。顧客からの苦情や交換台への訴えを識別し、タイムリーな処理や情報活用を行う自動システムの構築など、顧客ケアにおける多くの新しいアプリケーションも開拓されました。
同部門の代表者は、Viettel AIは今後も技術開発を続け、製品を継続的にアップグレードして精度を高め、ユーザー体験と製品効率を強化していくと述べた。
クオック・トゥアン
[広告2]
ソース
コメント (0)