Gmail получает крупнейшее за последние годы обновление спам-фильтра

Компания Google недавно опубликовала в блоге по безопасности запись, в которой подробно описывается одно из самых значительных обновлений защиты спам-фильтра Gmail за последние годы. Речь идёт о новой системе классификации текста под названием Resilient and Efficient Text Vectorization (RETVec). Google утверждает, что она помогает оценить релевантность и специфичность текста, то есть электронных писем, наполненных спецсимволами, эмодзи, орфографическими ошибками и другим мусором, который раньше мог прочитать человек, но не понимала машина. Ранее спам-сообщения, содержащие спецсимволы, легко обходили защиту Gmail.

Хотя любой спам-фильтр может отсеять письмо с текстом «Поздравляем! На ваш счёт для джекпота доступна сумма в 1000 долларов», подавляющее большинство писем в этом письме уходят в бесконечные глубины стандарта Unicode, где пользователи могут встретить символы, которые выглядят как часть обычного латинского алфавита.

По данным Google, RETVec обучен устойчиво работать с операциями на уровне символов, включая вставки, удаления, орфографические ошибки, омонимы, замены LEET и многое другое. Модель RETVec обучена на новой кодировке символов, которая позволяет эффективно кодировать все символы и слова в кодировке UTF-8. Благодаря этому RETVec демонстрирует исключительную эффективность на более чем 100 языках, не требуя таблиц поиска или фиксированного размера словаря.

Gmail nâng cấp bộ lọc thư rác lớn nhất trong nhiều năm - Ảnh 1. — Благодаря RETVec Gmail теперь может лучше распознавать и фильтровать спам

Google заявляет, что разница в производительности колоссальная. Методы, использующие фиксированный размер словаря или таблицы поиска омонимов, требуют больших ресурсов. RETVec, с другой стороны, имеет всего 200 000 параметров вместо миллионов, поэтому, несмотря на достаточно большой объём облачной платформы фильтрации спама от Google, она может работать на локальном компьютере. RETVec — это ПО с открытым исходным кодом, и Google надеется, что оно позволит предотвратить атаки с использованием омонимов.

RETVec работает аналогично моделям машинного обучения TensorFlow, которые используют визуальное сходство для определения значения слов, а не их фактического содержания. Этот подход привёл к значительным улучшениям: Google сообщает, что замена спам-классификатора Gmail на RETVec повысила показатели обнаружения спама по сравнению с базовым уровнем на 38% и сократила ложные срабатывания на 19,4%. Использование RETVec снизило использование TPU модели на 83%, что сделало внедрение RETVec одним из крупнейших обновлений за последние годы. Компания проводила внутреннее тестирование RETVec в течение прошлого года и внедрила его для всех пользователей Gmail.

Ссылка на источник

Тема: аккаунт Gmail система обороны

Комментарий (0)