หลังจากทำงานให้กับองค์กรปัญญาประดิษฐ์ขนาดใหญ่ในสหรัฐอเมริกา ทำไมคุณจึงตัดสินใจกลับบ้านเกิดเพื่อร่วมงานกับ VinBigdata?
ระหว่างที่ทำงานในสหรัฐอเมริกา แม้ว่าผมจะได้มีส่วนร่วมในโครงการขนาดใหญ่ ของรัฐบาล หลายโครงการ แต่ผลลัพธ์ที่ผมได้มักจะเป็นเพียงขั้นตอนเล็กๆ น้อยๆ ในกระบวนการขนาดใหญ่ หลายครั้ง เนื่องจากโครงการต่างๆ เป็นความลับอย่างเคร่งครัด ผมจึงไม่รู้ด้วยซ้ำว่าโซลูชันที่ผมพัฒนาขึ้นนั้นถูกนำไปใช้อย่างไร
ในปี 2560 ผมกลับไปเวียดนามในช่วงที่เวียดนามยังอยู่ในช่วงพัฒนา และมีปัญหามากมายเกี่ยวกับข้อมูลขนาดใหญ่และปัญญาประดิษฐ์ที่ต้องได้รับการแก้ไข ผมตอบรับคำเชิญของศาสตราจารย์หวู่ ห่า วัน ให้ร่วมกันบรรลุเป้าหมายในการพัฒนาโซลูชันเทคโนโลยีของเวียดนามเพื่อตอบโจทย์ชีวิตความเป็นอยู่ของชาวเวียดนาม ผมรู้สึกว่าการกลับมาเวียดนามครั้งนี้มีความหมายมากขึ้น เพราะผมจะได้ทำงานแก้ไขปัญหาที่มีผลกระทบมากขึ้น
ดร. เดา ดึ๊ก มินห์ ในการประชุมเชิงปฏิบัติการ
ในกลยุทธ์การพัฒนาปัญญาประดิษฐ์ Big Data มีบทบาทและอิทธิพลอย่างไรครับ?
ข้อมูลมีบทบาทสำคัญอย่างยิ่งในการฝึกอบรมปัญญาประดิษฐ์ การฝึกอบรมแบบจำลองปัญญาประดิษฐ์คุณภาพสูงมักเริ่มต้นด้วยการฝึกอบรมฐานข้อมูลขนาดใหญ่ ดังนั้น เพื่อให้ได้ปัญญาประดิษฐ์ที่มีคุณภาพ เราจำเป็นต้องมีข้อมูลที่ดีเสียก่อน
ข้อมูลที่ดีต้องอาศัยปริมาณ ขนาด คุณภาพ ความหลากหลาย และความเป็นสากล กระบวนการรวบรวมและประมวลผลข้อมูลดิบหลายพันชั่วโมงตั้งแต่ขั้นตอนการล้างข้อมูลดิบเพื่อสร้างข้อมูลคุณภาพสูงสุดเพื่อป้อนเข้าสู่แบบจำลองปัญญาประดิษฐ์นั้นมีค่าใช้จ่ายสูงและซับซ้อน ในทางตรงกันข้าม ในการวิเคราะห์ข้อมูลขนาดใหญ่ เราจำเป็นต้องใช้ปัญญาประดิษฐ์เพื่อให้มั่นใจว่าสามารถประมวลผลข้อมูลได้อย่างแม่นยำในวงกว้าง ซึ่งจะทำให้ได้ผลลัพธ์ที่ชัดเจนและคาดการณ์ได้แม่นยำยิ่งขึ้น
ตัวอย่างเช่น ในกระบวนการพัฒนาผลิตภัณฑ์ผู้ช่วยเสมือนสำหรับชาวเวียดนาม (ViVi) เราต้องรวบรวมและประมวลผลข้อมูลเสียงคุณภาพสูงจำนวนหลายหมื่นชั่วโมง จากเสียงหลายแสนเสียงจากภูมิภาคต่างๆ อายุและเพศที่หลากหลาย โดยมีเนื้อหาที่ครอบคลุมหลายร้อยสาขา...
หรือล่าสุดคือการเปิดตัว ViGPT - "ChatGPT เวอร์ชันภาษาเวียดนามแรกสำหรับผู้ใช้ปลายทาง" ที่พัฒนาจากโมเดลภาษาขนาดใหญ่ (Large Language Model) ที่ VinBigdata เป็นเจ้าของทั้งหมด โมเดลนี้ได้รับการฝึกฝนจากข้อมูลภาษาเวียดนามที่ผ่านการปรับแต่งแล้วขนาด 600 GB จากหลากหลายสาขา ด้วยความเข้าใจในข้อมูลและภาษาเวียดนาม เราจึงค้นพบแนวทางใหม่ที่ช่วยลดระยะเวลาการเปิดตัว ViGPT ให้สั้นลงภายในเวลาเพียง 9 เดือนหลังจาก ChatGPT ถือกำเนิดขึ้น
นี่คือเสียงสะท้อนระหว่างข้อมูลขนาดใหญ่และปัญญาประดิษฐ์
คุณมีความคิดเห็นอย่างไรเกี่ยวกับการเชื่อมโยงงานวิจัยกับคุณค่าเชิงปฏิบัติเพื่อให้บริการชุมชน?
- ฉันเชื่อว่าการวิจัยเทคโนโลยีจะประสบความสำเร็จได้อย่างแท้จริงก็ต่อเมื่อมันเข้ามามีบทบาทในชีวิตจริง แก้ไขปัญหาสังคม และปรับปรุงคุณภาพชีวิตของผู้คน
ในการสร้างผลิตภัณฑ์เชิงพาณิชย์ที่ใช้งานได้จริงซึ่งช่วยแก้ปัญหาทางธุรกิจและสังคม เราจะต้องใส่ใจและถามคำถามเสมอว่าข้อมูลจะสร้างมูลค่าอะไรให้กับชีวิต
จนถึงปัจจุบัน เราได้วิจัยและพัฒนาผลิตภัณฑ์และโซลูชันต่างๆ สำหรับอุตสาหกรรมและสาขาต่างๆ โดยทั่วไปคือ ViGPT, VinDr ที่ให้บริการโซลูชัน AI ในการวินิจฉัยภาพทางการ แพทย์ VinBase ซึ่งเป็นแพลตฟอร์มปัญญาประดิษฐ์ทางชีวภาพ หรือ Vizone ซึ่งเป็นชุดโซลูชันการวิเคราะห์ภาพอัจฉริยะ
พร้อมด้วยบุคลากรสำคัญของ VinBigdata ในงานของ Vingroup Corporation
การปฏิวัติอุตสาหกรรมครั้งที่ 4 กำลังเกิดขึ้นอย่างเข้มข้นในระดับโลก คุณคิดว่าเวียดนามมีข้อได้เปรียบอะไรบ้าง?
เมื่อเทียบกับการปฏิวัติครั้งก่อนๆ ผมเชื่อว่าเวียดนามในปัจจุบันมีข้อได้เปรียบมากมายในการก้าวข้ามผ่านการปฏิวัติอุตสาหกรรม 4.0 ซึ่งจะช่วยยกระดับตำแหน่งของประเทศบนแผนที่โลก กุญแจสำคัญสองประการในการบรรลุเป้าหมายนี้คือข้อมูลและบุคลากร
ปัจจุบันเวียดนามมีประชากรเกือบ 100 ล้านคน ซึ่งในจำนวนนี้คนหนุ่มสาวส่วนใหญ่ใช้โทรศัพท์มือถือและคอมพิวเตอร์ส่วนบุคคล นอกจากนี้ เรายังมีผู้เชี่ยวชาญด้านปัญญาประดิษฐ์และบุคลากรรุ่นใหม่ที่มีคุณภาพด้านเทคโนโลยีสารสนเทศ และมีพื้นฐานทางคณิตศาสตร์ที่ดีมาก
แล้วมีข้อจำกัดอะไรบ้าง?
ข้อจำกัดที่เห็นได้ชัดประการแรกก็คือ แม้ว่าจะมีประชากรจำนวนมาก แต่เรายังคงประสบปัญหาในการจัดการข้อมูล โดยเฉพาะการทำให้ข้อมูลเป็นมาตรฐานและซิงโครไนซ์ข้อมูลในสถานที่ หน่วยธุรกิจ และฝ่ายบริหาร
นอกจากนี้ เรายังเผชิญข้อจำกัดอื่นๆ เช่น ทรัพยากรการลงทุนที่มีจำกัด โดยเฉพาะการลงทุนในโครงสร้างพื้นฐานการประมวลผลประสิทธิภาพสูง
ในความคิดเห็นของคุณ บทบาทของความเชี่ยวชาญข้อมูลของชาวเวียดนามมีความสำคัญเพียงใดในการสร้างและเชี่ยวชาญเทคโนโลยีเพื่อรองรับชีวิตของชาวเวียดนาม?
ปัจจุบันมีผลิตภัณฑ์ปัญญาประดิษฐ์ชั้นนำมากมายจากทั่วโลก โดยทั่วไปแล้วจะเป็นผลิตภัณฑ์แอปพลิเคชัน AI เชิงกำเนิด (generative AI) ที่ใช้โมเดลภาษาขนาดใหญ่ เช่น ChatGPT จาก OpenAI หรือ Bard จาก Google อย่างไรก็ตาม ภาษาเวียดนามไม่ใช่กลุ่มภาษาหลักในการพัฒนาผลิตภัณฑ์เหล่านี้
ดังนั้นคุณภาพของเนื้อหาเฉพาะภาษาเวียดนามที่ส่งคืนให้กับผู้ใช้จึงได้รับผลกระทบมากหรือน้อยและมีความเสี่ยงที่จะเกิดข้อผิดพลาดสูง โดยเฉพาะข้อผิดพลาดในความรู้พื้นฐาน
ในฐานะชาวเวียดนาม เรามีข้อได้เปรียบในการเข้าถึงแหล่งข้อมูลของเราเอง มีเพียงเราเท่านั้นที่สามารถเข้าใจลักษณะของข้อมูล ความต้องการ และลักษณะนิสัยของชาวเวียดนาม ดังนั้น การเข้าใจข้อมูลของชาวเวียดนามจึงเป็นกุญแจสำคัญในการทำความเข้าใจเทคโนโลยีหลัก ซึ่งเป็นเทคโนโลยีที่จะให้บริการแก่ชาวเวียดนาม
การฝึกอบรมภายในสำหรับสมาชิก VinBigdata
จะเข้าถึงแหล่งข้อมูลเฉพาะเจาะจงได้อย่างไร โดยเฉพาะเมื่อคนเวียดนามส่วนใหญ่ในปัจจุบันใช้ไซต์เครือข่ายสังคมออนไลน์จากต่างประเทศ?
ความจริงก็คือ แหล่งข้อมูลมนุษย์ที่ใหญ่ที่สุดในปัจจุบัน (ไม่ใช่แค่ชาวเวียดนาม) อยู่บนอินเทอร์เน็ตและเครือข่ายสังคมออนไลน์ อย่างไรก็ตาม เรายังคงสามารถเข้าถึงและรวบรวมข้อมูลจากแหล่งต่างๆ ได้ โดยอาศัยความเข้าใจเกี่ยวกับคุณลักษณะของข้อมูลชาวเวียดนาม ซึ่งขึ้นอยู่กับคุณลักษณะที่แต่ละโครงการกำหนดไว้
ยกตัวอย่างเช่น โมเดล GPT ของ OpenAI มีพารามิเตอร์หลายร้อยหรือหลายล้านล้านตัว ผ่านการฝึกฝนด้วยข้อมูลจำนวนมหาศาล และมีค่าใช้จ่ายหลายพันล้านดอลลาร์ เมื่อเปรียบเทียบกับโมเดลเหล่านี้ เราได้เลือกเส้นทางที่แตกต่างอย่างสิ้นเชิงโดยพิจารณาจากงานวิจัย ความสามารถ และทรัพยากรของเรา นั่นคือการสร้างแบบจำลองภาษาเวียดนามที่มีสถาปัตยกรรมพารามิเตอร์เพียงไม่กี่พันล้านตัว ฝึกฝนบนชุดข้อมูลภาษาเวียดนามขนาด 600 GB ที่เรารวบรวมและปรับแต่งเอง แต่มีความสามารถเทียบเท่ากับการประมวลผลภาษาเวียดนาม ผลลัพธ์แสดงให้เห็นว่าสถาปัตยกรรมที่เราพัฒนาขึ้นเองสามารถปรับให้เหมาะสมได้เอง ลดระยะเวลาการฝึกฝนโมเดลภาษา ลดต้นทุน และยังคงรักษาคุณภาพของโมเดลไว้ได้
คุณและทีมของคุณเผชิญกับความท้าทายอะไรบ้างในกระบวนการวิจัยและพัฒนาผลิตภัณฑ์ปัญญาประดิษฐ์?
ความท้าทายแรกคือเรื่องเวลาอย่างแน่นอน กระแสเทคโนโลยีปัญญาประดิษฐ์กำลังมาอย่างรวดเร็วและกำลังอยู่ในช่วงของการเติบโตอย่างรวดเร็ว บริษัทเทคโนโลยีชั้นนำทั่วโลกต่างเปิดตัวผลิตภัณฑ์ที่สมบูรณ์แบบ อัปเดต และพัฒนาอย่างต่อเนื่อง หากเราล่าช้าและไม่เปิดตัวผลิตภัณฑ์ทันเวลา เราจะล้าหลังอย่างแน่นอน
ในทางกลับกัน หากเราต้องการสร้างผลิตภัณฑ์ที่สามารถนำไปประยุกต์ใช้และแก้ไขปัญหาสังคมในทางปฏิบัติได้ เราก็ต้องพิจารณาการค้นหาและพัฒนาคุณสมบัติที่โดดเด่น พิเศษ และไม่เหมือนใครของผลิตภัณฑ์ด้วย
การนำเสนอที่วันปัญญาประดิษฐ์เวียดนาม (AI4VN 2023)
ในความเป็นจริง บุคคลและองค์กรจำนวนมากทั้งในเวียดนามและทั่วโลกต่างประสบกับความสูญเสียครั้งใหญ่จากการรั่วไหลของข้อมูล คุณมองประเด็นเรื่องความปลอดภัยของข้อมูลอย่างไร
อาจกล่าวได้ว่าแอปพลิเคชันใดๆ ในปัจจุบันล้วนมาจากข้อมูล เมื่อทำงานกับข้อมูล เราต้องมั่นใจว่าเป้าหมายของการประยุกต์ใช้ข้อมูลนั้นถูกต้อง เพื่อสร้างเทคโนโลยีที่ดีที่สุดสำหรับชีวิต และในอีกด้านหนึ่ง เราต้องมั่นใจว่าข้อมูลมีความปลอดภัยสำหรับบุคคลและองค์กร
ปัจจัยด้านมนุษย์ถือเป็นปัจจัยสำคัญอย่างยิ่งในกระบวนการรับรองความปลอดภัยของข้อมูล ซึ่งรวมถึงนักพัฒนา ผู้ใช้ผลิตภัณฑ์ และผู้ใช้งาน สำหรับนักพัฒนา จำเป็นต้องมีการตระหนักรู้เกี่ยวกับความปลอดภัยของข้อมูลตั้งแต่เริ่มต้นการรวบรวมและประมวลผลข้อมูล
บ่อยครั้งที่เมื่อไม่มีปัญหาใดๆ เรากลับไม่ตระหนักถึงความสำคัญของความปลอดภัยของข้อมูล แต่หากเกิดการรั่วไหลของข้อมูล ความเสียหายอาจมหาศาล การรั่วไหลของข้อมูลอาจเกิดขึ้นเนื่องจากปัญหาทางเทคนิคหรือการโจมตีโดยเจตนาเพื่อขโมยข้อมูล เมื่อเกิดการรั่วไหลของข้อมูล บุคคลหรือองค์กรอาจถูกผู้ไม่หวังดีนำไปใช้ในทางที่ผิดกฎหมาย และธุรกิจอาจต้องสูญเสียทางการเงินจากการแก้ไขปัญหาที่เกี่ยวข้อง ซึ่งอาจรวมถึงความเสียหายต่อแบรนด์ด้วย
ดร. เดา ดึ๊ก มินห์ และทีมงาน VinBigdata ในงานกิจกรรม
หลังจากมุ่งมั่นที่จะเชี่ยวชาญเทคโนโลยีเพื่อให้บริการชาวเวียดนามแล้ว จะมีขั้นตอนในการก้าวสู่ระดับโลกหรือไม่?
องค์กรหรือธุรกิจใดๆ ที่ต้องการนำผลิตภัณฑ์ออกสู่ตลาดต่างประเทศต้องปฏิบัติตามมาตรฐานสากล VinBigdata มีจุดแข็งด้านโซลูชันและเทคโนโลยี ดังนั้นการกำหนดวิสัยทัศน์เพื่อพิชิตตลาดโลกจึงเป็นเรื่องธรรมชาติ
แน่นอนว่าการจะนำไปใช้กับผลิตภัณฑ์และแอปพลิเคชันต่างๆ มากมาย จำเป็นต้องได้รับการสนับสนุนจากหน่วยงานระดับนานาชาติที่มีประสบการณ์หลายปีและมีความเข้าใจผู้ใช้ทั่วโลก
ขอบคุณ!
ที่มา: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm
การแสดงความคิดเห็น (0)