Google은 최근 Gmail의 스팸 필터에 대한 자세한 내용을 담은 보안 블로그 게시물을 게시했습니다. 회사 측은 이를 최근 몇 년 동안 회사가 수행한 가장 큰 방어 업그레이드 중 하나라고 부릅니다. 이는 RETVec(Flexible and Effective Text Vector Generator)라고 불리는 새로운 텍스트 분류 시스템입니다. Google에서는 이를 통해 텍스트의 관련성과 특이성을 이해하는 데 도움이 될 수 있다고 말합니다. 텍스트란 특수 문자, 이모티콘, 철자 오류 및 정크 메시지로 가득 찬 이메일로, 이전에는 사람이 읽을 수 있었지만 기계가 쉽게 이해할 수 없었던 내용입니다. 이전에는 특수 문자가 포함된 스팸 메시지는 Gmail의 방어 시스템을 쉽게 우회했습니다.
"축하합니다! 잭팟 계좌에 1,000달러의 잔액이 있습니다."라는 이메일은 어떤 스팸 필터로도 걸러낼 수 있지만, 이메일의 대부분의 글자는 유니코드 표준의 끝없는 심연으로 들어가 사용자들이 일반 라틴 알파벳의 일부처럼 보이는 문자를 찾을 수 있습니다.
Google은 RETVec 기술이 삽입, 삭제, 철자 오류, 동음이의어, LEET 대체 등을 포함한 문자 수준의 작업에 대한 복원력을 갖도록 훈련되었다고 밝혔습니다. RETVec 모델은 UTF-8 세트의 모든 문자와 단어를 효율적으로 인코딩할 수 있는 새로운 문자 인코딩에 대해 학습되었습니다. 결과적으로 RETVec은 조회 테이블이나 고정된 어휘 크기가 필요 없이 100개 이상의 언어에서 매우 뛰어난 성능을 발휘합니다.
RETVec 덕분에 Gmail은 이제 스팸을 더 잘 인식하고 필터링할 수 있습니다.
구글은 성능이 극적으로 변했다고 밝혔습니다. 고정된 어휘 크기나 동음이의어 조회 테이블을 사용하는 방법은 리소스를 많이 사용합니다. 반면 RETVec은 수백만 개가 아닌 20만 개의 매개변수만 가지고 있기 때문에 Google의 스팸 필터링 클라우드 플랫폼이 충분히 크더라도 로컬 장치에서 실행할 수 있습니다. RETVec는 오픈 소스이며, Google은 이를 통해 동음이의어 문자를 사용하는 공격을 없앨 수 있기를 바라고 있습니다.
RETVec은 TensorFlow 머신 러닝 모델이 실제 문자 내용이 아닌 시각적 유사성을 사용하여 단어의 의미를 판단하는 방식과 유사하게 작동합니다. 이러한 접근 방식을 통해 엄청난 개선이 이루어졌으며, Google에서는 Gmail의 스팸 분류기를 RETVec로 대체한 결과 기준선에 비해 스팸 감지율이 38% 향상되고 오탐률이 19.4% 감소했다고 밝혔습니다. RETVec을 사용하면 모델의 TPU 사용량이 83% 감소하여 RETVec 구현은 최근 몇 년간 가장 큰 업그레이드 중 하나가 되었습니다. 이 회사는 지난 1년 동안 RETVec을 내부적으로 테스트해 왔으며 모든 사용자의 Gmail 계정에 도입했습니다.
[광고_2]
소스 링크
댓글 (0)