Gmail, 수년 만에 최대 규모의 스팸 필터 업그레이드 실시

[광고_1]

구글은 최근 보안 블로그 게시물을 통해 최근 몇 년간 Gmail 스팸 필터에 적용된 가장 큰 방어 시스템 업그레이드 중 하나를 자세히 설명했습니다. 이는 RETVec(Resilient and Efficient Text Vectorization)라는 새로운 텍스트 분류 시스템입니다. 구글은 이 시스템이 특수 문자, 이모티콘, 맞춤법 오류, 그리고 이전에는 사람이 읽을 수 있었지만 기계가 쉽게 이해하지 못했던 기타 정크 메일로 가득 찬 이메일의 관련성과 특이성을 이해하는 데 도움이 될 수 있다고 설명합니다. 이전에는 특수 문자로 가득 찬 스팸 메시지는 Gmail의 방어 시스템을 쉽게 우회했습니다.

"축하합니다! 잭팟 계좌에 1,000달러의 잔액이 있습니다."라는 이메일은 어떤 스팸 필터로도 걸러낼 수 있지만, 이메일의 대부분의 글자는 유니코드 표준의 끝없는 심연으로 들어가 사용자들이 일반 라틴 알파벳의 일부처럼 보이는 문자를 찾을 수 있습니다.

Google은 RETVec이 삽입, 삭제, 철자 오류, 동음이의어, LEET 치환 등을 포함한 문자 단위 연산에 대해 복원력을 갖도록 훈련되었다고 밝혔습니다. RETVec 모델은 UTF-8 집합의 모든 문자와 단어를 효율적으로 인코딩할 수 있는 새로운 문자 인코딩을 기반으로 훈련되었습니다. 결과적으로 RETVec은 조회 테이블이나 고정된 어휘 크기 없이도 100개 이상의 언어에서 탁월한 성능을 발휘합니다.

Gmail nâng cấp bộ lọc thư rác lớn nhất trong nhiều năm - Ảnh 1. — RETVec 덕분에 Gmail은 이제 스팸을 더 잘 인식하고 필터링할 수 있습니다.

구글은 성능 차이가 극적이라고 말합니다. 고정된 어휘 크기나 동음이의어 조회 테이블을 사용하는 방식은 리소스를 많이 사용합니다. 반면 RETVec은 매개변수가 수백만 개가 아닌 20만 개밖에 없으므로, 구글의 스팸 필터링 클라우드 플랫폼은 충분히 크지만 로컬 머신에서 실행할 수 있습니다. RETVec은 오픈 소스이며, 구글은 이를 통해 동음이의어 공격을 근절할 수 있기를 기대합니다.

RETVec은 TensorFlow 머신러닝 모델과 유사한 방식으로 작동합니다. TensorFlow 머신러닝 모델은 실제 문자 내용이 아닌 시각적 유사성을 사용하여 단어의 의미를 판단합니다. 이러한 접근 방식은 큰 개선을 가져왔는데, Google은 Gmail의 스팸 분류기를 RETVec으로 교체한 결과 스팸 탐지율이 기준치 대비 38% 향상되었고 오탐률은 19.4% 감소했다고 밝혔습니다. RETVec을 사용함으로써 모델의 TPU 사용량이 83% 감소하여 RETVec 출시는 최근 몇 년간 가장 큰 업그레이드 중 하나가 되었습니다. Google은 지난 1년간 RETVec을 내부적으로 테스트해 왔으며 모든 Gmail 사용자에게 출시했습니다.

[광고_2]
소스 링크