Почему вы, поработав в крупной организации по искусственному интеллекту в США, решили вернуться домой и присоединиться к VinBigdata?
Работая в США, я участвовал во многих крупных государственных проектах, но полученные мной результаты зачастую были лишь несколькими этапами большого процесса. Зачастую, из-за строгой конфиденциальности проектов, я даже не знал, как используются разработанные мной решения.
В 2017 году я вернулся во Вьетнам, когда страна находилась на этапе развития и существовало множество проблем, связанных с большими данными и искусственным интеллектом, которые требовали решения. Я принял приглашение профессора Ву Ха Вана для совместной работы над целью разработки вьетнамских технологических решений, призванных служить жизни вьетнамцев. Возвращение во Вьетнам оказалось для меня гораздо более значимым, поскольку я смог работать над проблемами, имеющими более глубокий смысл.
Доктор Дао Дык Минь в мастерской
Какую роль и влияние играют большие данные в стратегии развития искусственного интеллекта, сэр?
Данные играют огромную и ценную роль в обучении искусственного интеллекта. Обучение высококачественной модели искусственного интеллекта часто начинается с обучения большой базы данных. Поэтому для создания качественного искусственного интеллекта нам прежде всего нужны качественные данные.
Качественные данные требуют количества и масштаба, качества, разнообразия и универсальности. Процесс сбора и обработки тысяч часов данных, начиная с этапа очистки исходных данных и заканчивая созданием данных высочайшего качества для использования в моделях искусственного интеллекта, очень дорог и сложен. В отличие от этого, для анализа больших данных нам необходимо использовать искусственный интеллект, чтобы обеспечить точную обработку данных в больших масштабах, тем самым получая более обоснованные и прогнозные результаты.
Например, в процессе разработки продукта виртуального помощника для вьетнамцев (ViVi) нам пришлось собрать и обработать десятки тысяч часов высококачественных аудиоданных от сотен тысяч голосов из разных регионов, разных возрастов и полов, с контентом, охватывающим сотни областей...
Или совсем недавно — запуск ViGPT — «первой вьетнамской версии ChatGPT для конечных пользователей», разработанной на основе крупной языковой модели, полностью принадлежащей VinBigdata. Эта модель обучена на основе 600 ГБ уточнённых вьетнамских данных из самых разных областей. Благодаря нашему пониманию вьетнамских данных и языка, мы нашли новый подход к сокращению времени запуска ViGPT всего через 9 месяцев после появления ChatGPT.
Это резонанс между большими данными и искусственным интеллектом.
Каково ваше мнение о связи исследований с практической ценностью на благо общества?
- Я считаю, что технологические исследования по-настоящему успешны только тогда, когда они действительно воплощаются в жизнь, решают социальные проблемы и улучшают жизнь людей.
Чтобы создавать практические коммерческие продукты, решающие деловые и социальные проблемы, мы всегда должны обращать внимание и задавать себе вопрос: какую ценность данные принесут в жизнь?
К настоящему времени мы исследовали и разработали множество продуктов и решений для различных отраслей и сфер, среди которых наиболее распространены ViGPT, VinDr — решения на основе ИИ для медицинской визуализации, VinBase — платформа биологического искусственного интеллекта и Vizone — набор интеллектуальных решений для анализа изображений.
С ключевыми сотрудниками VinBigdata на мероприятии корпорации Vingroup
Четвёртая промышленная революция активно развивается в глобальном масштабе. Какие преимущества, по вашему мнению, есть у Вьетнама?
По сравнению с предыдущими революциями, я считаю, что у Вьетнама сейчас есть множество преимуществ для прорыва в рамках промышленной революции 4.0, что поможет улучшить положение страны на карте мира. Два ключа к достижению этой цели — данные и люди.
В настоящее время во Вьетнаме проживает почти 100 миллионов человек, из которых значительная часть молодёжи пользуется телефонами и персональными компьютерами. Кроме того, у нас есть авторитетные специалисты в области искусственного интеллекта и квалифицированные молодые специалисты в области информационных технологий, а также отличная математическая база.
Так каковы же ограничения?
Первое очевидное ограничение заключается в том, что, несмотря на большую численность населения, мы по-прежнему сталкиваемся с трудностями в работе с данными, в частности со стандартизацией и синхронизацией данных на уровне предприятий, бизнес-подразделений и администраций.
Кроме того, мы также сталкиваемся с другими ограничениями, такими как ограниченность инвестиционных ресурсов, особенно инвестиций в высокопроизводительную вычислительную инфраструктуру.
Насколько, по вашему мнению, важна роль вьетнамского мастерства работы с данными в процессе создания и освоения технологий для служения жизни вьетнамцев?
В настоящее время в мире существует множество ведущих продуктов в области искусственного интеллекта, как правило, это приложения генеративного ИИ, основанные на крупных языковых моделях, такие как ChatGPT от OpenAI или Bard от Google. Однако вьетнамский язык не является основной языковой группой для разработки этих продуктов.
Таким образом, качество возвращаемого пользователям контента на вьетнамском языке в той или иной степени страдает и повышает вероятность ошибок, а что еще опаснее — ошибок в базовых знаниях.
Будучи вьетнамцами, мы имеем преимущество в виде доступа к собственным источникам данных. Только мы способны понять особенности вьетнамских данных, потребности и особенности вьетнамцев. Поэтому освоение вьетнамских данных — это ключ к освоению базовых технологий, которые будут служить вьетнамцам.
Внутреннее обучение для участников VinBigdata
Как получить доступ к конкретным источникам данных, особенно с учетом того, что большинство вьетнамцев сегодня пользуются сайтами социальных сетей из-за рубежа?
Реальность такова, что сегодня крупнейшим источником данных о людях (не только о вьетнамцах) являются интернет и социальные сети. Тем не менее, мы по-прежнему можем получать доступ к данным и собирать их из различных источников, исходя из понимания характеристик вьетнамских данных, в зависимости от особенностей, определяемых каждым проектом.
Например, модели GPT OpenAI содержат сотни, а то и триллионы параметров, обучаются на огромных объёмах данных и стоят миллиарды долларов. В отличие от них, мы выбрали совершенно иной путь, основанный на наших исследованиях, возможностях и ресурсах: создали модель вьетнамского языка с архитектурой, состоящей всего из нескольких миллиардов параметров, обученную на наборе вьетнамских данных объёмом 600 ГБ, который мы собрали и обработали самостоятельно, но с эквивалентными возможностями обработки вьетнамского языка. Результаты показывают, что наша архитектура, разработанная нами самостоятельно, способна к самооптимизации, сокращению времени обучения языковой модели, снижению затрат и обеспечению её качества.
С какими трудностями вы и ваша команда столкнулись в процессе исследования и разработки продуктов искусственного интеллекта?
Первая проблема, безусловно, связана со временем. Волна технологий искусственного интеллекта наступает очень быстро и переживает период бурного развития. Ведущие мировые технологические компании быстро выпустили высококомплексные продукты, постоянно обновляемые и совершенствуемые. Если мы будем медлить и не выпустим продукты вовремя, мы неизбежно отстанем.
С другой стороны, если мы хотим создавать продукты, которые можно применять на практике и решать практические социальные проблемы, мы должны также рассмотреть возможность поиска и разработки выдающихся, особых и уникальных характеристик продукта.
Презентация на Дне искусственного интеллекта во Вьетнаме (AI4VN 2023)
Фактически, многие люди и организации во Вьетнаме и по всему миру понесли огромные убытки из-за утечек данных. Как вы относитесь к проблеме безопасности данных?
Можно сказать, что любое приложение сегодня основано на данных. Работая с данными, мы, с одной стороны, должны обеспечить цель применения данных для создания лучших технологий для жизни, а с другой — обеспечить безопасность данных для отдельных лиц и организаций.
Человеческий фактор — важнейшее звено в процессе обеспечения безопасности данных. Он включает разработчиков, пользователей продукта и самих пользователей. Разработчики должны быть осведомлены о безопасности данных с самого начала сбора и обработки данных.
Часто, когда проблем нет, мы не осознаём важности безопасности данных. Но если происходит утечка данных, ущерб может быть огромным. Утечки данных могут происходить из-за технических проблем или преднамеренных атак с целью кражи данных. При утечке данных злоумышленники могут использовать информацию отдельных лиц или организаций в незаконных целях, а компании могут понести финансовые потери, связанные с устранением связанных с этим проблем, и даже нанести ущерб своему бренду.
Доктор Дао Дык Минь и команда VinBigdata на мероприятии
После стремления освоить технологии для служения вьетнамскому народу будут ли предприняты шаги для продвижения в мировом масштабе?
Любая организация или бизнес, желающие вывести свою продукцию на международный рынок, должны соответствовать международным стандартам. VinBigdata обладает сильными сторонами в области решений и технологий, поэтому постановка цели покорить мир естественна.
Конечно, для развертывания множества различных продуктов и приложений необходима поддержка международных подразделений с многолетним опытом и пониманием пользователей по всему миру.
Спасибо!
Источник: https://thanhnien.vn/ts-dao-duc-minh-lam-chu-du-lieu-viet-la-buoc-dau-phat-trien-va-nam-giu-cong-nghe-viet-18524052710263732.htm
Комментарий (0)