IA e web scraping: le indicazioni del Garante della Privacy per difendersi
I sistemi di intelligenza artificiale richiedono grandi quantità di informazioni per essere addestrati e funzionare. Una dieta a base di dati, spesso difficili da recuperare in dosi sufficienti a soddisfare l’appetito degli algoritmi. Nel caso dell’IA generativa, quella capace di creare testi, immagini e video, si pesca allora nel mare di informazioni pubblicamente disponibili su internet. Una pesca a strascico, che prende il nome di web scraping, e che può catturare anche i dati personali pubblicati sui siti di società ed enti pubblici. Come difendersi in questi casi? La risposta arriva dal Garante privacy, che ha di recente pubblicato una nota dedicata proprio a web scraping e IA generativa.
Che cos’è il web scraping?
Parliamo dell’utilizzo di programmi automatizzati (bot) capaci di scansionare le pagine di siti web e social media per raccogliere, copiare e archiviare le informazioni lì pubblicate, come testi, immagini e video. Il termine “scraping” (in italiano, raschiare) evoca proprio la natura ampia e indiscriminata di questa raccolta di informazioni in rete, che possono poi essere utilizzate per diversi scopi, tra cui il training dell’IA.
Internet consente alle persone di reperire ogni tipologia di informazione pubblica, ma permette di fare altrettanto anche ai software, simulando la navigazione umana, sia pure con capacità di ricerca di gran lunga superiori. Ciò avviene, ad esempio, nel caso dei bot impiegati dai motori di ricerca, i web crawler, che scansionano continuamente la rete per raccogliere le informazioni contenute sui siti e indicizzarle.
Quando all’attività di mappatura e ricerca di dati tramite tecniche di web crawler si aggiunge l’estrazione e la conservazione, ad esempio in un database, delle informazioni raccolte, si parla di web scraping. Un esempio di servizi basati su questa tecnologia sono i siti che confrontano prezzi e tariffe.
Web scraping e privacy
Se con il web scraping si pescano anche dati personali, ecco che si pone un problema di privacy. È il caso dei nomi e cognomi contenuti in un articolo di giornale, delle informazioni personali sui dipendenti pubblicate per trasparenza sui siti di ogni pubblica amministrazione, o degli indirizzi email di chi vende sui siti di annunci. Se poi queste informazioni vengono date in pasto a un algoritmo di IA, i problemi di privacy aumentano.
Per questo motivo, il Garante ha deciso di fornire alcune indicazioni sul fenomeno della raccolta di dati personali dal web per finalità di addestramento dei modelli di IA. L’autorità per la privacy, che in passato è già intervenuta nei confronti di soggetti che trattano i dati personali raccolti tramite web scraping (come nel caso Clearview), questa volta cambia prospettiva e si concentra su chi invece rende pubblicamente disponibili i dati poi raccolti dai bot di terzi.
Intervista
Cory Doctorow e la teoria della enshittification: perché la tecnologia non può che peggiorare
23 Aprile 2024
Le indicazioni del Garante
Agli operatori pubblici o privati che gestiscono piattaforme o siti web l’autorità indica una serie di cautele e azioni di contrasto per prevenire il web scraping finalizzato al training di sistemi di IA generativa, quando sia ritenuto incompatibile con le finalità e le condizioni che legittimano la pubblicazione di dati personali online.
Si consiglia innanzitutto di creare aree riservate a cui poter accedere solo previa registrazione, in modo da sottrarre certi dati dalla disponibilità pubblica. Il Garante suggerisce poi di inserire nei termini di servizio del proprio sito l’espresso divieto di utilizzare tecniche di web scraping: in questo modo, qualora la clausola non venga rispettata, sarà possibile per il gestore farla valere in giudizio.
Tra le cautele di natura tecnica ci sono il monitoraggio delle richieste Http ricevute dal sito, per individuare flussi anomali di dati in ingresso e uscita, e l’applicazione di tecniche per limitare l’operatività dei bot di terzi. Tra queste ultime, vengono citati, tra gli altri, l’inserimento di verifiche Captcha, la modifica periodica del markup Html, il monitoraggio dei file di log e l’intervento sul file robot.txt.
Una partita ancora aperta
Oltre al nostro Garante, che ha svolto anche un’indagine conoscitiva in materia, stanno affrontando la questione altre autorità nazionali di tutela della privacy, come quella inglese. Lo stesso Artificial Intelligence Act, la nuova legge europea sull’IA, prende in considerazione la questione, vietando la commercializzazione di sistemi di IA che creano o ampliano banche dati di riconoscimento facciale tramite scraping non mirato di immagini facciali da internet. Il regolamento europeo prevede anche che, in caso di modelli di IA per finalità generali, occorrerà pubblicare dei report sui contenuti usati per il training dell’algoritmo.
Quello che è certo è che l’utilizzo del web scraping per l’addestramento di sistemi di IA pone rilevanti sfide, sia per le imprese, sia per i soggetti pubblici e privati che pubblicano dati personali online. Sarà sempre più importante per sviluppare sistemi di IA, ma le regole del gioco cambieranno: i dati non saranno più liberi come oggi, e nemmeno gratuiti; nel delicato equilibrio tra monetizzazione, attenzione alla privacy e spinta all’evoluzione tecnologica si giocherà il futuro sviluppo dell’intelligenza artificiale.
Continua la lettura su: https://www.repubblica.it/tecnologia/2024/06/04/news/ia_e_web_scraping_le_indicazioni_del_garante_privacy_per_difendersi-423165957/?rss Autore del post: La Repubblica Tecnologia Fonte:
Il Ministero delle Pari Opportunità finanzia il tuo corso digitale Chiedi tutte le informazioni a genitoridigitali@koinokalo.it |