الدكتور داو دوك مينه: "إتقان البيانات الفيتنامية هو الخطوة الأولى في تطوير وإتقان التكنولوجيا الفيتنامية"
Báo Thanh niên•27/05/2024
بعد عملك في منظمة ذكاء اصطناعي كبيرة في الولايات المتحدة، لماذا قررت العودة إلى وطنك للانضمام إلى VinBigdata؟ خلال فترة عملي في الولايات المتحدة، ورغم مشاركتي في العديد من المشاريع الحكومية الكبيرة، فإن النتائج التي حققتها كانت في كثير من الأحيان مجرد بضع خطوات في عملية معالجة كبيرة. في الواقع، في كثير من الأحيان، بسبب إجراءات السرية الصارمة للغاية للمشاريع، لا أعرف حتى كيف يتم استخدام الحلول التي طورتها. في عام 2017، عدت إلى فيتنام عندما كانت في مرحلة التطوير وكانت هناك العديد من المشاكل المتعلقة بالبيانات الضخمة والذكاء الاصطناعي التي تحتاج إلى حل. لقد قبلت دعوة البروفيسور فو ها فان لتحقيق هدف مشترك يتمثل في تطوير حلول تكنولوجية فيتنامية لخدمة حياة الشعب الفيتنامي. أجد أن عودتي إلى فيتنام ذات معنى أكبر لأنني سأكون قادرًا على حل المشكلات ذات التأثير الأكبر.
الدكتور داو دوك مينه في ورشة عمل
مركز نيفادا للمؤتمرات والمعارض
في استراتيجية تطوير الذكاء الاصطناعي، ما هو الدور والتأثير الذي تلعبه البيانات الضخمة، سيدي؟ تلعب البيانات دورًا كبيرًا وقيمًا في تدريب الذكاء الاصطناعي. يبدأ تدريب نموذج الذكاء الاصطناعي عالي الجودة عادةً بتدريب مجموعة كبيرة من البيانات. لذلك، لكي نحصل على ذكاء اصطناعي عالي الجودة، نحتاج أولاً إلى الحصول على بيانات جيدة. يجب أن تكون البيانات الجيدة ذات جودة مناسبة من حيث الكمية والحجم والجودة والتنوع والعالمية. إن عملية جمع ومعالجة آلاف الساعات من البيانات، بدءًا من تنظيف البيانات الخام وحتى إنشاء بيانات عالية الجودة لتغذية نماذج الذكاء الاصطناعي، عملية مكلفة ومعقدة. في المقابل، لتحليل البيانات الضخمة، نحتاج إلى استخدام الذكاء الاصطناعي لضمان القدرة على معالجة البيانات بدقة على نطاق واسع، وبالتالي خلق نتائج حاسمة أو تنبؤية أفضل. على سبيل المثال، في عملية تطوير منتج مساعد افتراضي للشعب الفيتنامي (ViVi)، كان علينا جمع ومعالجة عشرات الآلاف من الساعات من بيانات الصوت عالية الجودة، من مئات الآلاف من الأصوات من مناطق مختلفة، وأعمار وأجناس مختلفة، مع محتوى يمتد لمئات المجالات... أو مؤخرًا، إطلاق ViGPT - "النسخة الفيتنامية الأولى من ChatGPT للمستخدمين النهائيين" التي تم تطويرها من نموذج لغوي كبير مملوك بالكامل لشركة VinBigdata. تم تدريب هذا النموذج على 600 جيجابايت من البيانات الفيتنامية المضبوطة بدقة من مجالات مختلفة. بفضل معرفتنا باللغة الفيتنامية والبيانات، وجدنا نهجًا جديدًا لتقصير وقت إطلاق ViGPT في غضون 9 أشهر فقط بعد ولادة ChatGPT. هذا هو الصدى بين البيانات الضخمة والذكاء الاصطناعي.
ما هو رأيك في ربط البحث بالقيمة العملية لخدمة المجتمع؟ - أعتقد أن البحث التكنولوجي لا يكون ناجحًا حقًا إلا عندما يدخل الحياة فعليًا، ويحل المشاكل الاجتماعية ويحسن حياة الناس. لإنشاء منتجات تجارية عملية تحل المشاكل التجارية والاجتماعية، يجب علينا دائمًا الانتباه وطرح السؤال: ما هي القيمة التي ستضيفها البيانات إلى الحياة؟ حتى الآن، قمنا بالبحث والتطوير لمجموعة متنوعة من المنتجات والحلول لمختلف الصناعات والمجالات، عادةً ViGPT، وVinDr - توفير حلول الذكاء الاصطناعي في تشخيص التصوير الطبي، وVinBase - منصة الذكاء الاصطناعي الحيوي، أو Vizone - مجموعة من حلول تحليل الصور الذكية.
مع الموظفين الرئيسيين في شركة VinBigdata في حدث لشركة Vingroup Corporation
مركز نيفادا للمؤتمرات والمعارض
لقد أصبحت الثورة الصناعية الرابعة تحدث بقوة على نطاق عالمي. ما هي المزايا التي تعتقد أن فيتنام تمتلكها؟ وبالمقارنة مع الثورات السابقة، أعتقد أن فيتنام تتمتع حالياً بالعديد من المزايا التي يمكنها الاستفادة منها في هذه الثورة الصناعية 4.0، مما يساعد على تحسين موقف البلاد على الخريطة العالمية. والمفتاحان لتحقيق هذا الهدف هما البيانات والأشخاص. يبلغ عدد سكان فيتنام حاليًا ما يقرب من 100 مليون نسمة، ويستخدم نسبة كبيرة من الشباب الهواتف وأجهزة الكمبيوتر الشخصية. بالإضافة إلى ذلك، لدينا خبراء مرموقين في مجال الذكاء الاصطناعي وموظفين شباب ذوي جودة عالية في تكنولوجيا المعلومات وأساس جيد جدًا في الرياضيات. فما هي القيود؟ إن القيود الواضحة الأولى هي أنه على الرغم من وجود عدد كبير من السكان، فإننا لا نزال نواجه صعوبات في إتقان البيانات، وتحديدًا توحيد البيانات ومزامنتها في المرافق ووحدات الأعمال والإدارات. علاوة على ذلك، فإننا نواجه أيضًا قيودًا أخرى مثل موارد الاستثمار المحدودة، وخاصة الاستثمار في البنية التحتية للحوسبة عالية الأداء.
برأيك، ما مدى أهمية دور إتقان البيانات الفيتنامية في رحلة إنشاء وإتقان التكنولوجيا لخدمة حياة الشعب الفيتنامي؟ هناك حاليًا العديد من منتجات الذكاء الاصطناعي الرائدة في العالم، وعادةً ما تكون عبارة عن منتجات تطبيقات الذكاء الاصطناعي التي يتم إنشاؤها بناءً على نماذج لغوية كبيرة مثل ChatGPT من OpenAI أو Bard من Google. ومع ذلك، فإن اللغة الفيتنامية ليست المجموعة اللغوية الرئيسية لتطوير هذه المنتجات. وبالتالي، فإن جودة المحتوى الفيتنامي المحدد الذي يتم إرجاعه إلى المستخدمين تتأثر بدرجة أكبر أو أقل وتكون احتمالية حدوث أخطاء فيه عالية، والأخطر من ذلك، أخطاء في المعرفة الأساسية. باعتبارنا فيتناميين، لدينا ميزة الوصول إلى مصادر البيانات الخاصة بنا. نحن فقط لدينا القدرة على فهم خصائص البيانات الفيتنامية، واحتياجات وخصائص الشعب الفيتنامي. ومن ثم فإن إتقان البيانات الفيتنامية يعد في الواقع مفتاحاً لإتقان التقنيات الأساسية، وهي التقنيات التي ستخدم الشعب الفيتنامي.
التدريب الداخلي لأعضاء VinBigdata
مركز نيفادا للمؤتمرات والمعارض
كيف يمكن الوصول إلى مصادر بيانات محددة، خاصة وأن معظم الفيتناميين اليوم يستخدمون مواقع التواصل الاجتماعي من الخارج؟ الحقيقة هي أن المصدر الأكبر للبيانات البشرية اليوم (ليس فقط الشعب الفيتنامي) هو الإنترنت وشبكات التواصل الاجتماعي. ومع ذلك، لا يزال بإمكاننا الوصول إلى البيانات وجمعها من مصادر مختلفة، استنادًا إلى فهم خصائص البيانات الفيتنامية، اعتمادًا على الخصائص التي يحددها كل مشروع. على سبيل المثال، تحتوي نماذج GPT الخاصة بشركة OpenAI على مئات أو حتى تريليونات من المعلمات، ويتم تدريبها على كميات هائلة من البيانات، وتكلف مليارات الدولارات. وبالمقارنة بهم، اخترنا اتجاهًا مختلفًا تمامًا استنادًا إلى أبحاثنا وقدراتنا ومواردنا: أي إنشاء نموذج للغة الفيتنامية بهندسة معمارية تتكون فقط من بضعة مليارات من المعلمات، تم تدريبها على مجموعة بيانات فيتنامية بحجم 600 جيجابايت قمنا بجمعها وصقلها بأنفسنا، ولكن مع قدرات مكافئة من حيث قدرة المعالجة الفيتنامية. تظهر النتائج أن الهندسة المعمارية التي قمنا بتطويرها ذاتيًا قادرة على تحسين نفسها، وتقصير وقت تدريب نموذج اللغة، وخفض التكاليف مع ضمان جودة النموذج. ما هي التحديات التي واجهتها أنت وفريقك في عملية البحث والتطوير لمنتجات الذكاء الاصطناعي؟ التحدي الأول هو بالتأكيد الوقت. إن موجة تكنولوجيا الذكاء الاصطناعي قادمة بسرعة كبيرة وهي في فترة ازدهار. في جميع أنحاء العالم، أطلقت شركات التكنولوجيا الرائدة بسرعة منتجات كاملة للغاية يتم تحديثها وتحسينها باستمرار. إذا كنا بطيئين ولم نقم بتسليم المنتجات في الوقت المحدد، فإننا بالتأكيد سوف نتخلف عن الركب. ومن ناحية أخرى، إذا أردنا أن نصنع منتجات يمكن تطبيقها وحل المشاكل الاجتماعية العملية، فيجب علينا أيضًا أن نفكر في العثور على الميزات المتميزة والخاصة والفريدة للمنتج وتطويرها.
عرض تقديمي في يوم الذكاء الاصطناعي في فيتنام (AI4VN 2023)
مركز نيفادا للمؤتمرات والمعارض
وفي الواقع، عانى العديد من الأفراد والمنظمات في فيتنام وحول العالم من خسائر فادحة بسبب تسريب البيانات. كيف تنظر إلى قضايا أمن البيانات؟ يمكننا القول أن أي تطبيق اليوم يأتي من البيانات. عند العمل بالبيانات، من ناحية، يجب علينا ضمان هدف تطبيق البيانات لإنشاء أفضل تكنولوجيا للحياة، ومن ناحية أخرى، يجب علينا ضمان أمن البيانات للأفراد والمؤسسات. العامل البشري يشكل حلقة وصل مهمة جدًا في عملية أمن البيانات. وهي تشمل المطورين ومستخدمي المنتجات والمستخدمين. بالنسبة للمطورين، يجب أن يكون الوعي بأمن البيانات موجودًا منذ بداية جمع البيانات ومعالجتها. في كثير من الأحيان، عندما لا يحدث شيء، لا ندرك أهمية أمن البيانات. ولكن إذا حدث خرق للبيانات، فإن الضرر قد يكون هائلاً. يمكن أن تحدث خروقات البيانات بسبب مشاكل تقنية أو بسبب هجمات سرقة البيانات المتعمدة. عندما يتم تسريب البيانات، يمكن أن يستخدم الأشخاص السيئون معلومات الأفراد أو المنظمات لأغراض غير قانونية، في حين يمكن أن تتكبد الشركات خسائر مالية لإصلاح المشكلات ذات الصلة، وحتى الإضرار بعلامتها التجارية.
الدكتور داو دوك مينه وفريق فين بيج داتا في حدث
مركز نيفادا للمؤتمرات والمعارض
بعد الطموح لإتقان التكنولوجيا لخدمة الشعب الفيتنامي، هل ستكون هناك خطوات للتقدم نحو العالم؟ يجب على أي منظمة أو شركة ترغب في طرح منتجاتها في السوق الدولية أن تلتزم بالمعايير الدولية. تتمتع شركة VinBigdata بقوة في الحلول والتكنولوجيا، لذا فإن تحديد رؤية لغزو العالم هو أمر طبيعي. وبطبيعة الحال، لنشر العديد من المنتجات والتطبيقات المختلفة، فمن الضروري الحصول على دعم وحدات دولية ذات سنوات عديدة من الخبرة والفهم للمستخدمين في جميع أنحاء العالم. شكرًا لك!
تعليق (0)