การแข่งขันการประมวลผลเสียงพูดและภาษาเวียดนาม (VLSP) เป็นส่วนหนึ่งของการประชุมนานาชาติประจำปีว่าด้วยการประมวลผลเสียงพูดและภาษาเวียดนาม ซึ่งจัดโดยสโมสร VLSP ซึ่งเป็นสาขาหนึ่งของสมาคมเทคโนโลยีสารสนเทศแห่งเวียดนาม VLSP 2023 จัดการแข่งขันด้านการประมวลผลเสียงพูดและข้อความ 10 รายการ โดยนำนักวิจัย ผู้เชี่ยวชาญ และหน่วยงานพัฒนาเทคโนโลยีชั้นนำมารวมกัน
แม้ว่านี่จะเป็นครั้งที่สี่ที่ Viettel AI เข้าร่วมการแข่งขันและเคยชนะมาแล้วสามครั้ง แต่เหล่าวิศวกรของ Viettel ยังคงพบกับความยากลำบากมากมายเนื่องมาจากการเปลี่ยนแปลงโครงสร้างประเภทการแข่งขัน
โดยเฉพาะอย่างยิ่ง เมื่อเทียบกับปีที่แล้ว ปีนี้หมวดหมู่การรู้จำเสียงพูดและการรู้จำอารมณ์ได้ถูกรวมเข้าเป็นหมวดหมู่เดียวกัน ทีมต่างๆ ต้องแก้ปัญหาสองข้อพร้อมกันเพื่อให้แน่ใจว่าทั้งข้อความและอารมณ์ของประโยคได้รับการรู้จำ ภาระงานและความยากเพิ่มขึ้นเป็นสองเท่า
ใช้ประโยชน์จากข้อมูลทุกประเภทไม่ว่าจะคุณภาพต่ำหรือสูง
การสอบในปีนี้ไม่เพียงแต่จะเปลี่ยนโครงสร้างของหมวดหมู่เท่านั้น แต่ยังมุ่งเน้นไปที่การสร้างแบบจำลองตั้งแต่เริ่มต้นโดยมีเงื่อนไขข้อมูลที่จำกัด ซึ่งรวมถึงข้อมูลดิบ ข้อมูลที่ไม่ได้ติดป้ายกำกับ และข้อมูลคุณภาพต่ำ การสอบประกอบด้วยข้อมูล 4 กลุ่มที่มีคุณภาพและรูปแบบที่แตกต่างกัน มีข้อมูลที่มีเฉพาะเสียงที่ไม่ได้ติดป้ายกำกับ ข้อมูลที่มีเฉพาะเสียงและข้อความ ข้อมูลที่มีอารมณ์และเสียงคุณภาพสูงที่มีป้ายกำกับมาตรฐาน และชุดข้อมูลที่มีอารมณ์และเสียงคุณภาพต่ำ แต่ละชุดข้อมูลได้รับการกำหนดไว้อย่างชัดเจนเพื่อให้เหมาะกับวัตถุประสงค์และหมวดหมู่ของการสอบ โดยมีชั่วโมงรวมมากกว่า 300 ชั่วโมงสำหรับชุดข้อมูลทั้งหมด ซึ่งถือเป็นจำนวนที่ค่อนข้างน้อยเมื่อเทียบกับชุดข้อมูลมาตรฐานสำหรับการฝึกการรู้จำเสียงพูด ซึ่งโดยปกติแล้วจะต้องใช้เวลาถึง 1,000-2,000 ชั่วโมงหรือมากกว่า
แต่ละทีมมีเวลาในการทำงานและส่งงานไม่ถึง 2 เดือน แต่ในความเป็นจริง เวลาที่ใช้ในการค้นคว้าหาแนวทางแก้ไขนั้นน้อยกว่านั้นมาก เนื่องจากขาดแคลนทรัพยากร
“ในปีนี้ Viettel AI ได้ทุ่มเททรัพยากรโครงสร้างพื้นฐานการประมวลผลจำนวนมากเพื่อค้นคว้าเทคโนโลยีใหม่ๆ เช่นเดียวกับการพัฒนาผลิตภัณฑ์ ในขณะที่การจดจำเสียงพูดเป็นเทคโนโลยีที่ต้องใช้ทรัพยากรฮาร์ดแวร์จำนวนมาก” คุณ Dang Dinh Son วิศวกรปัญญาประดิษฐ์ แพลตฟอร์มผู้ช่วยเสมือน Viettel AI กล่าว
เมื่อเผชิญกับปัญหาปริมาณและคุณภาพของข้อมูลต่ำ ทีมวิจัยจึงได้กำหนดมุมมองใหม่ทันทีว่า "ต้องใช้ข้อมูลทั้งหมดโดยไม่คำนึงถึงคุณภาพต่ำหรือสูง" การทำเช่นนี้จำเป็นต้องสร้างวงจรฝึกอบรมเพื่อประมวลผลข้อมูลทั้งหมด รวมถึงสร้างแบบจำลองเพียงแบบเดียวเพื่อแก้ปัญหาต่างๆ มากมาย แทนที่จะใช้แบบจำลองหลายแบบ
ผลลัพธ์จากความเชี่ยวชาญด้านเทคโนโลยีอันล้ำสมัย
ในบริบทของการขาดข้อมูลและการขาดทรัพยากร ทีมวิจัยจึงตัดสินใจสร้างกระบวนการประมวลผลที่เรียบง่าย ไม่ซับซ้อน แต่สำคัญคือ ละเอียดถี่ถ้วนถึงรายละเอียดที่เล็กที่สุด
วิศวกร AI ของ Viettel ได้ศึกษางานวิจัยล่าสุดจากการประชุมและวารสารชั้นนำทั่ว โลก อย่างละเอียดถี่ถ้วนเพื่อค้นหาแนวทาง ทีมวิจัยได้ผสมผสานวิธีการประมวลผลข้อมูลเพื่อฝึกฝนแบบจำลองที่มีประสิทธิภาพ และสร้างวงจรการฝึกเพื่อประมวลผลข้อมูลทั้งหมดที่มีอยู่ วงจรนี้ประกอบด้วย 3 ขั้นตอน ได้แก่ การสร้างแบบจำลองที่ผ่านการฝึกอบรมล่วงหน้าเพื่ออธิบายคุณลักษณะเสียงโดยไม่ต้องติดป้ายกำกับ การปรับแต่งจากแบบจำลองที่ผ่านการฝึกอบรมล่วงหน้าสำหรับสองปัญหา ได้แก่ การรู้จำเสียงพูดและการรู้จำอารมณ์ และการอนุมาน
“ประสบการณ์จากการแก้ปัญหาการขาดข้อมูลระหว่างการพัฒนาและการใช้งานผลิตภัณฑ์รุ่นก่อนๆ มีส่วนสำคัญอย่างยิ่งในการช่วยให้ทีมงานค้นพบวิธีการตัดสินใจ ในทางกลับกัน ความรู้และผลลัพธ์ที่ได้จากการทดสอบยังมีศักยภาพที่จะนำไปประยุกต์ใช้กับผลิตภัณฑ์ Viettel AI ได้ทันที ทำให้กระบวนการทำงานระหว่างการทดสอบเป็นไปอย่างราบรื่น” คุณบุ่ย เตี๊ยน ดัต วิศวกรแพลตฟอร์มผู้ช่วยเสมือนของ Viettel AI กล่าว
ด้วยเหตุนี้ Viettel AI ไม่เพียงแต่คว้ารางวัลชนะเลิศในประเภทการจดจำเสียงพูดและการจดจำอารมณ์ในการพูดเท่านั้น แต่ยังได้รับคะแนนที่น่าประทับใจถึง 89.18% อีกด้วย (ทีมถัดมาได้ 83.40% และ 78.45% ตามลำดับ)
นายซอนกล่าวว่าปัจจัยสำคัญอยู่ที่โมเดลการประมวลผลคำพูดสำหรับภาษาเวียดนามโดยเฉพาะที่ Viettel AI ได้พัฒนามาเป็นเวลานาน
“แทนที่จะใช้แบบจำลองและคำสั่งจากผลการวิจัยที่มีอยู่ Viettel AI กลับเลือกที่จะสร้างและพัฒนาแบบจำลองของตนเองสำหรับการประมวลผลเสียงพูดภาษาเวียดนาม แบบจำลองนี้ได้รับการปรับปรุง ปรับแต่ง และมีประสิทธิภาพมากขึ้นเรื่อยๆ” คุณเซินกล่าว
ไม่เพียงแต่จะหยุดยั้งการแข่งขันเท่านั้น โซลูชันของ Viettel AI นี้ยังจะเป็นพื้นฐานในการยกระดับผลิตภัณฑ์สวิตช์บอร์ดเสมือน ผู้ช่วยเสมือนของ Viettel ช่วยระบุอารมณ์ของลูกค้าได้แม่นยำยิ่งขึ้นในบทสนทนา ส่งผลให้สามารถให้ข้อเสนอแนะหรือเลือกใช้คำที่เหมาะสม การสนทนาระหว่างมนุษย์กับ AI จะเป็นธรรมชาติมากขึ้น ช่วยยกระดับประสบการณ์การใช้งานของผู้ใช้ นอกจากนี้ยังมีแอปพลิเคชันใหม่ๆ มากมายในการดูแลลูกค้า เช่น การสร้างระบบสำหรับระบุข้อร้องเรียนของลูกค้าโดยอัตโนมัติ และการส่งข้อร้องเรียนไปยังสวิตช์บอร์ดเพื่อการจัดการที่รวดเร็ว หรือเพื่อใช้ประโยชน์จากข้อมูล
ตัวแทนหน่วยงานกล่าวว่า Viettel AI จะพัฒนาเทคโนโลยีอย่างต่อเนื่อง อัปเกรดผลิตภัณฑ์อย่างต่อเนื่องเพื่อเพิ่มความแม่นยำ ปรับปรุงประสบการณ์ผู้ใช้ และประสิทธิภาพของผลิตภัณฑ์
ก๊วกตวน
แหล่งที่มา
การแสดงความคิดเห็น (0)