Google は最近、Gmail のスパム フィルターの詳細を説明したセキュリティ ブログ記事を公開しました。同社はこれを近年最大の防御アップグレードの 1 つと呼んでいます。これは、柔軟で効率的なテキスト ベクトル ジェネレーター (RETVec) と呼ばれる新しいテキスト分類システムです。 Google によれば、これは、これまでは人間には読めるものの機械には簡単に理解できなかった特殊文字、絵文字、スペルミス、ジャンク文字が満載のメールのテキストの関連性と特異性を理解するのに役立つという。以前は、特殊文字が含まれたスパムメッセージは Gmail の防御を簡単に回避していました。
「おめでとうございます!ジャックポットアカウントに 1,000 ドルの残高をご用意しました」というメールは、どんなスパムフィルターでもブロックできますが、メール内の文字の大部分は Unicode 標準の奥深くまで浸透しており、ユーザーはそこで、通常のラテンアルファベットの一部のように見える文字を見つけることができます。
Google によれば、RETVec テクノロジーは、挿入、削除、スペルミス、同音異義語、LEET 置換など、文字レベルの操作に耐えられるようにトレーニングされているという。 RETVec モデルは、UTF-8 セットのすべての文字と単語を効率的にエンコードできる新しい文字エンコードでトレーニングされています。その結果、RETVec は、ルックアップ テーブルや固定された語彙サイズを必要とせずに、100 を超える言語で非常に優れたパフォーマンスを発揮します。
RETVecのおかげで、Gmailはスパムをより正確に認識しフィルタリングできるようになりました
Googleによれば、パフォーマンスは劇的に変化したという。固定された語彙サイズや同音異義語の参照テーブルを使用する方法は、多くのリソースを消費します。一方、RETVec のパラメータは数百万ではなく 20 万個しかないため、Google のスパム フィルタリング クラウド プラットフォームは十分に大きいにもかかわらず、ローカル デバイス上で実行できます。 RETVec はオープンソースであり、Google は同音異義語を使った攻撃を排除することを期待しています。
RETVec は、TensorFlow 機械学習モデルが視覚的な類似性を使用して実際の文字コンテンツではなく単語の意味を判断する方法と同様に機能します。このアプローチは大きな改善をもたらし、Google によれば、Gmail のスパム分類器を RETVec に置き換えることで、スパム検出率がベースラインより 38% 向上し、誤検出が 19.4% 減少したとのことです。 RETVec を使用することでモデルの TPU 使用量が 83% 削減され、RETVec の実装は近年最大のアップグレードの 1 つとなりました。同社は過去1年間、社内でRETVecをテストしており、すべてのユーザーのGmailアカウントに展開した。
[広告2]
ソースリンク
コメント (0)