Cloudflare: stop allo scraping per addestrare le AI

Lo scraping dei siti Web non è necessariamente un’attività illegale, rappresenta però un danno quando i dati raccolti dai bot vengono utilizzati senza alcun vantaggio per gli autori. Questa pratica viene utilizzata frequentemente anche per addestrare i modelli generativi con informazioni disponibili pubblicamente e senza alcun compenso per chi gestisce le pagine coinvolte.

Si tratta sostanzialmente di un’attività di parsing. I bot scansionano automaticamente la rete alla ricerca di informazioni, quando analizzano un sito Web ne identificano i contenuti principali e li raccolgono. Questi ultimi vengono poi elaborati e archiviati all’interno di dataset spesso molto voluminosi che possono essere impiegati, ad esempio, in progetti di AI e Machine Learning.

Pubblicitร 

Una novità a questo proposito arriva da Cloudflare, tra i maggiori provider mondiali di Cloud Services, che ha sviluppato una funzionalità gratuita con la quale sarà possibile bloccare lo scraping da parte dei bot sul proprio sito Web. Una volta abilitata questa feature il riconoscimento dei bot avviene automaticamente sulla base di un modello predefinito.

Il training di quest’ultimo è stato effettuato tenendo conto di alcuni comportamenti tipici dei bot che tentano di effettuare procedure di scraping. Essi infatti tentano di imitare il comportamento degli esseri umani per non essere rilevati, ad esempio simulando la navigazione da un comune browser Internet o randomizzando il numero di accessi.

Tale strumento è stato concepito per bloccare tutti quei bot che ignorano le direttive indicate nei file robots.txt e quindi non rispettano la volontà di chi gestisce un sito Web. L’azienda fornisce inoltre un tool appositamente dedicato alle segnalazioni di bot e crawler basati sulle AI che permetteranno di migliorare ulteriormente il modello anti-scraping.

Iscriviti a Google News Per restare sempre aggiornato seguici su Google News! Seguici
Pubblicitร 
Claudio Garau
Claudio Garau
Web developer, programmatore, Database Administrator, Linux Admin, docente e copywriter specializzato in contenuti sulle tecnologie orientate a Web, mobile, Cybersecurity e Digital Marketing per sviluppatori, PA e imprese.

Leggi anche...

GopherWhisper: il nuovo gruppo di hacker che sfrutta Outlook, Discord e Slack per attacchi malware

Un nuovo gruppo di cybercriminali, noto come GopherWhisper, รจ...

Social media e minori: il divieto australiano รจ inefficace

Un recente report ha evidenziato come il divieto di...

XChat di X: la nuova app di messaggistica tra opportunitร  e sfide

Con il lancio di XChat, l'app di messaggistica di...

Amazon presenta i Made in Italy Days: un’opportunitร  per il commercio online

Dal 13 al 19 maggio, Amazon accoglierร  nuovamente i...

La Cina blocca Meta: no all’acquisizione della startup Manus per l’IA

La recente decisione della Cina di bloccare l'acquisizione di...

FiberCop e la rivoluzione dei listini: il futuro di 5G e fibra in Italia

Un'importante evoluzione sta avvenendo nel panorama delle telecomunicazioni italiane:...
Pubblicitร