RETVec (Resilient & Efficient Text Vectorizer) è un nuovo sistema introdotto da Mountain View per la protezione degli account Gmail contro lo spam. Manco a dirlo si tratta di una soluzione basata sull’Intelligenza Artificiale che ha la capacità di rilevare alcuni elementi inseriti dagli spammer nei propri messaggi per evitare l’azione degli anti-spam.
L’impostazione tradizionale di questi ultimi, ma lo stesso vale per i sistemi automatici utilizzati nella moderazione dei commenti, si basa su dei pattern di classificazione. Quando un messaggio contiene determinati termini o espressioni è più probabile che il contenuto inviato sia da identificare come spam, phishing o in generale un tentativo di raggiro.
Gli utenti malintenzionati tecnicamente più preparati conoscono bene queste dinamiche e cercano di ovviare ad esse aggiungendo nei propri testi degli emoji, dei caratteri invisibili o degli omoglifi. Questi ultimi sono in sostanza dei simboli o dei caratteri del tutto simili ad altri ma che hanno un segnificato diverso, gli attaccanti cercano quindi di sfruttarne l’ambiguità.
Goodbye inbox clutter!#Google introduces RETVec, a powerful multilingual text vectorizer, to enhance #Gmail's ability to detect spam and malicious emails.
It detects character-level manipulations in over 100 languages.
Read here ? https://t.co/yhj3g0vaxQ#cybersecurity
— The Hacker News (@TheHackersNews) November 30, 2023
Grazie a RETVec il livello di precisione dei filtri anti-spam dovrebbe migliorare notevolmente, sia in termini di individuazione delle e-mail spazzatura che da quello della diminuzione dei falsi positivi. Nel primo caso infatti il sistema si sarebbe dimostrato il 38% più efficace, mentre per quanto riguarda i falsi positivi sarebbe stata osservata una riduzione di oltre il 19%.
Tutto ciò è stato possibile grazie ad un modello dalle dimensioni molto contenute, i parametri utilizzati per il training sarebbero infatti circa 200 mila nonostante RETVec sia in grado di analizzare contenuti in più di 100 lingue differenti. Gli sviluppatori che fossero interessati a contribuire al progetto, rilasciato sotto licenza Open Source, possono trovare il codice nel repository dedicato su GitHub.