Vietnam.vn - Nền tảng quảng bá Việt Nam

Độc lập - Tự do - Hạnh phúc

Молодой инженер использует ИИ, чтобы изменить способ печати на вьетнамском языке

Программное обеспечение для набора текста на вьетнамском языке с интегрированным искусственным интеллектом — один из продуктов, который успешно сочетает в себе креативность и профессиональные знания, стремясь принести практическую пользу обществу.

ZNewsZNews14/05/2025


Интерфейс v7, встроенная клавиатура с искусственным интеллектом. Фото: NVCC .

В интервью для журнала Znews Три Тхук (родился в 2003 году) Три Дык рассказал об идее применения искусственного интеллекта для изменения способа ввода вьетнамского языка. Его студенческий проект, инструмент для набора текста v7, превратился в исследовательскую работу и был представлен на престижной конференции по искусственному интеллекту IJCAI 2025.

Несмотря на десятилетия популярности, набор текста с помощью телекса или VNI по-прежнему имеет множество ограничений для пользователя. Поэтому версия 7 была разработана как лёгкий инструмент для предиктивного набора текста, помогающий сократить время набора вьетнамского текста благодаря интеграции с искусственным интеллектом.

Страсть к языкам и технологиям

Его любовь к языкам и технологиям привела его к получению специальности «Прикладной искусственный интеллект» в Технологическом университете Хошимина.

Во время учёбы он участвовал в таких проектах, как большая языковая модель (LLM) для вьетнамского языка, программное обеспечение для перевода языков этнических меньшинств и чат-бот для поддержки поступления. «Этот опыт помог мне накопить прочную базу знаний, развить страсть и желание применять ИИ для создания полезных продуктов для общества», — поделился он.

Интегрированная деревянная доска с AI-фотографией 1

Три Дюк хочет извлечь пользу из применения искусственного интеллекта в жизни. Фото: NVCC.

Кроме того, владея мандаринским и кантонским диалектами, Дык осознал взаимосвязь пиньинь/цзютпин с вьетнамской орфографией. Этот факт также позволяет увидеть, что, в отличие от сложных иероглифов, для написания названия нашей страны ханьскими иероглифами в китайской системе набора пиньинь достаточно ввести «yn». В то время как для набора слова «Vietnam» в Telex или VNI требуется 10 клавиш.

Благодаря своим наблюдениям Дык обнаружил, что при быстром общении пользователи часто сокращают слова, оставляя первую согласную, например, «hs» в слове «student». «Если люди легко понимают этот стиль письма, то ИИ, обученный на правильных данных, сможет полностью его понять», — сказал он, говоря об обстоятельствах, которые привели к этой идее.

Вместо того, чтобы писать полный символ и затем добавлять диакритические знаки, как это происходит при использовании традиционных инструментов набора текста, таких как Telex или VNI, использующих комплементарный механизм, v7 использует искусственный интеллект, чтобы предложить вам нужное слово. Технология точно предскажет полное слово с минимальным количеством клавиш.

В системе вьетнамского правописания слово состоит из начального согласного, рифмы и тона. Например, слово «Nguyen» состоит из «ng», «uyen» и нисходящего тона. Основываясь на этом принципе, движок набора текста v7 предсказывает полные слова, состоящие только из начального согласного и тона, что позволяет значительно сократить количество нажатий клавиш, сохраняя при этом точность.

Проблема обучения вьетнамского языка с помощью искусственного интеллекта

По словам Дыка, самой сложной задачей было научить ИИ «понимать» вьетнамский язык для работы с этим инструментом печати. ​​Он перепробовал множество моделей, прежде чем выбрал в качестве основы GPT-2 с архитектурой Transformers для хорошего понимания контекста и точного предугадывания слов.

Выбрав базовую архитектуру, Дык полностью заменил токенизатор (кодировщик словарного запаса) на созданный им самим словарь вьетнамского языка. Инженер отфильтровал все корректные, правильно написанные вьетнамские слова, чтобы обеспечить комплексную обработку и предсказать любое слово, которое пользователь захочет написать.

Другая задача заключается в поиске баланса между эффективностью прогнозирования и скоростью отклика, чтобы модель могла работать в режиме реального времени как на компьютерах, так и на телефонах, но при этом была достаточно мощной для наилучших прогнозов. После двух месяцев непрерывного тестирования текущая версия корректно выводит на первый план почти 70% слов, которые вводят пользователи, с задержкой всего 0,03 секунды.

Что касается метода ввода на клавиатуре, то, согласно многочисленным исследованиям, к которым Дык обращался за консультацией у лингвистов Цао Сюань Хао и Анри Масперо, вьетнамский язык имеет не 6, а 8 тонов. Чтобы реализовать эту особенность, в v7 используется 8-тоновая система вместо привычных 6 (включая ровный тон и 5 акцентированных тонов: диез, бемол, вопрос, падение, тяжёлый). На этой клавиатуре при наборе «v7» модель предложит слово «Viet». Это также послужило основой для названия продукта.

Поделившись версией v7 в своей социальной сети, Дык сказал, что был очень рад и удивлён, когда модель получила внимание, поддержку и желание её опробовать. «Это дало мне чёткое представление о необходимости более умного и быстрого инструмента для набора текста на вьетнамском языке», — сказал он.

Интегрированная деревянная доска с AI-фото 2

Группа авторов научно -исследовательской статьи. Слева направо: Нят Кханг, Хьеу Нгиа и Три Дык. Фото: NVCC.

В настоящее время клавиатура находится на стадии прототипа, её исходный код доступен на GitHub для тестирования и участия программистов и пользователей. Также разрабатывается полная версия приложения для Windows и macOS, которую обычные пользователи смогут легко установить и использовать.

В будущем главным приоритетом для версии 7 станет версия клавиатуры для iPhone, которая улучшит ввод вьетнамского текста на смартфонах. Кроме того, точность модели будет повышена за счёт обучения на данных ежедневных разговоров, что поможет ИИ лучше понимать распространённые контексты.

Путь Дюка дал ему возможность пробудить в себе творческий потенциал, следуя за технологическими трендами, учитывая значительные инвестиции Вьетнама в инфраструктуру искусственного интеллекта. Он гордится тем, что v7 впервые создала полноценное предложение. «Тогда даже небольшая модель, размером, вероятно, всего в 1/10 000 от сегодняшнего ChatGPT, всё ещё могла мыслить как человек», — сказал Дюк.

Источник: https://znews.vn/ky-su-tre-dung-ai-thay-doi-cach-go-tieng-viet-post1552246.html


Комментарий (0)

Simple Empty
No data

Та же тема

Та же категория

Более 30 военных самолетов впервые выступят на площади Бадинь
A80 — Возрождение славной традиции
Секрет почти 20-килограммовых труб женского военного оркестра
Краткий обзор того, как добраться до выставки, посвящённой 80-летию «Путешествия к независимости — Свобода — Счастье»

Тот же автор

Наследство

Фигура

Бизнес

No videos available

Новости

Политическая система

Местный

Продукт