Il garante mette un argine alla raccolta indiscriminata di dati personali dal web

I rischi e le opportunità connessi all’intelligenza artificiale non sono stati solo oggetto del recente G7 in Puglia. Del medesimo tema si è occupato anche il Garante per la protezione dei dati personali in una nota informativa del 20 maggio (n. 359). «L’intelligenza artificiale generativa è foriera di benefici per la collettività che non possono essere limitati, negati, né sminuiti», afferma l’Autorità, aggiungendo tuttavia che la «raccolta massiva di dati personali dal web per finalità di addestramento dei modelli di intelligenza artificiale generativa» (web scraping) non è sempre legittima, ai sensi delle norme sulla tutela dei dati personali. Di solito si appunta l’attenzione su chi usa tecniche di web scraping. Ma in questo caso il Garante si rivolge ai gestori pubblici e privati di siti e piattaforme online, i quali pubblicano legittimamente dati personali che possono essere oggetto di rastrellamento indiscriminato (basti pensare alle pubbliche amministrazioni che per obbligo di legge devono divulgare informazioni nella sezione Trasparenza dei propri siti web). A fronte di utilizzi non consentiti di web scraping – dice il Garante - i gestori devono individuare e attuare «azioni di contrasto». Le “allucinazioni” dell’intelligenza artificiale hanno fatto le prime vittime: cosa sono e come difendersi L’uso dei dati pubblici I gestori sono tenuti a valutare caso per caso, «sulla base dei diversi e contrapposti diritti in gioco», se il web scraping realizzato sui propri siti e piattaforme online sia legittimo, e cioè se i dati personali raccolti siano poi utilizzati in conformità ai principi contenuti nel Regolamento UE sulla protezione dei dati personali (n. 679/2016, GDPR). Non basta, infatti, che certi dati personali siano resi pubblici perché soggetti terzi possano automaticamente farne l’uso che vogliono. Due esempi possono aiutare a capire. Nel febbraio 2022, nel sanzionare la società statunitense Clearview AI Inc., il Garante affermò che «la pubblica disponibilità di dati in Internet non implica (…) la legittimità della loro raccolta da parte di soggetti terzi», se manca una base giuridica che autorizzi tale raccolta per finalità compatibili con quelle «stabilite e perseguite dal titolare del trattamento che ne ha disposto la pubblicazione». Nel marzo 2023, il Garante dispose la limitazione provvisoria del trattamento dei dati degli utenti italiani nei confronti di OpenAI, società che gestisce la piattaforma ChatGPT, rilevando tra l’altro l’assenza di una base giuridica che giustificasse la raccolta e la conservazione massiccia di dati personali, allo scopo di “addestrare” gli algoritmi. Le cautele L’impresa o l’ente pubblico deve adottare idonee cautele per prevenire o mitigare il web scraping non legittimo. Il Garante ne esemplifica alcune, quali la creazione nei siti di aree riservate, accessibili solo previa registrazione, in modo da sottrarre i dati alla pubblica disponibilità, e l’inibizione dell’attività dei robot che raccolgono dati indiscriminatamente. Il Garante suggerisce anche l’inserimento nei contratti di servizio di clausole che prevedano un divieto di scraping a carico della controparte, che potrebbe essere citata in giudizio in caso di violazione della clausola. Infine, come meccanismo ex post, l’autorità propone un «accorgimento tecnico» quale il monitoraggio del traffico delle pagine web dei siti per «individuare flussi anomali di dati in ingresso e in uscita». Si tratta di soluzioni che, come afferma il Garante, «sebbene non esaustive né per metodo, né per risultato, possono contenere gli effetti dello scraping finalizzato all’addestramento degli algoritmi di intelligenza artificiale generativa». Ti rubo il volto e ti indennizzo in azioni: così si normalizza la sorveglianza di massa. Il caso di Clearview AI Bilanciamento di interessi I dati sono la linfa vitale dello sviluppo economico, e per questo sono destinati a essere oggetto di una raccolta ed elaborazione sempre più massiccia, anche attraverso web scraping. Il Garante Privacy, come accaduto molte volte negli ultimi anni, ha rilevato la necessità di un bilanciamento fra gli interessi di tutti i soggetti coinvolti: le imprese dell’economia digitale, che necessitano di una ingente mole di dati per competere e progredire, ma che possono ottenerli solo avvalendosi di un’idonea base giuridica; i soggetti che, in conformità alla legge, pubblicano dati personali; gli utenti, che pretendono il rispetto dei propri diritti. Ognuno deve fare la propria parte, perché nella tutela dei dati personali non restino varchi nei quali possano insinuarsi minacce per la loro protezione. L’autorità, con la nota esaminata, ha posto una sfida per mettere un argine agli abusi connessi agli utilizzi dell’intelligenza artificiale. Del resto, l’evoluzione della protezione dei dati personali è una storia di “sfide” condotte sul bilanciamento di diversi diritti e libertà. Vedremo se i soggetti coinvolti, dalle imprese ed enti pubblici ai rappresentanti degli Stati al G7, ne saranno all’altezza.