Компания Google недавно опубликовала в блоге по безопасности запись, в которой подробно описывается одно из самых значительных обновлений защиты спам-фильтра Gmail за последние годы. Речь идёт о новой системе классификации текста под названием Resilient and Efficient Text Vectorization (RETVec). Google утверждает, что она помогает оценить релевантность и специфичность текста, то есть электронных писем, наполненных спецсимволами, эмодзи, орфографическими ошибками и другим мусором, который раньше мог прочитать человек, но не понимала машина. Ранее спам-сообщения, содержащие спецсимволы, легко обходили защиту Gmail.
Хотя любой спам-фильтр может отсеять письмо с текстом «Поздравляем! На ваш счёт для джекпота доступна сумма в 1000 долларов», подавляющее большинство писем в этом письме уходят в бесконечные глубины стандарта Unicode, где пользователи могут встретить символы, которые выглядят как часть обычного латинского алфавита.
По данным Google, RETVec обучен устойчиво работать с операциями на уровне символов, включая вставки, удаления, орфографические ошибки, омонимы, замены LEET и многое другое. Модель RETVec обучена на новой кодировке символов, которая позволяет эффективно кодировать все символы и слова в кодировке UTF-8. Благодаря этому RETVec демонстрирует исключительную эффективность на более чем 100 языках, не требуя таблиц поиска или фиксированного размера словаря.
Благодаря RETVec Gmail теперь может лучше распознавать и фильтровать спам
Google заявляет, что разница в производительности колоссальная. Методы, использующие фиксированный размер словаря или таблицы поиска омонимов, требуют больших ресурсов. RETVec, с другой стороны, имеет всего 200 000 параметров вместо миллионов, поэтому, несмотря на достаточно большой объём облачной платформы фильтрации спама от Google, она может работать на локальном компьютере. RETVec — это ПО с открытым исходным кодом, и Google надеется, что оно позволит предотвратить атаки с использованием омонимов.
RETVec работает аналогично моделям машинного обучения TensorFlow, которые используют визуальное сходство для определения значения слов, а не их фактического содержания. Этот подход привёл к значительным улучшениям: Google сообщает, что замена спам-классификатора Gmail на RETVec повысила показатели обнаружения спама по сравнению с базовым уровнем на 38% и сократила ложные срабатывания на 19,4%. Использование RETVec снизило использование TPU модели на 83%, что сделало внедрение RETVec одним из крупнейших обновлений за последние годы. Компания проводила внутреннее тестирование RETVec в течение прошлого года и внедрила его для всех пользователей Gmail.
Ссылка на источник
Комментарий (0)