Dalla politica alla medicina, dall’arte alla geografia: i casi documentati di errori commessi dai Large Language Model sono tantissimi. E il problema rischia di essere irrisolvibile
Lo sapevate che non c'è nemmeno una nazione africana il cui nome inizia con la K? O che Leonardo Da Vinci ha disegnato la Gioconda nel 1825? E che dire dell'uomo che nel 2020 ha attraversato il canale della Manica a piedi? Se queste informazioni vi sembrano strane, è perché ovviamente sono sbagliate: in Africa c'è il Kenya, la Gioconda è stata disegnata agli inizi del Cinquecento e nessuno è mai riuscito ad attraversare il canale della Manica camminando sulle acque. Eppure, le informazioni errate da cui siamo partiti sono le risposte che ChatGPT ha fornito ad alcuni utenti. E rappresentano solo un piccolissimo campione della miriade di errori – dette in gergo “allucinazioni”, cioè quando un'intelligenza artificiale presenta come fatti delle informazioni completamente inventate – in cui possono incorrere il software di OpenAI e tutti gli altri Large Language Model (LLM, sistemi in grado di produrre testi di ogni tipo rispondendo a un nostro comando formulato in linguaggio naturale).
sostieni le inchieste di Domani
leggi le puntate precedenti dell’inchiesta sull’intelligenza artificiale
Quando viene posta una richiesta, gli LLM cercano informazioni nell'immenso database a loro disposizione (tra cui, nel caso di ChatGPT, l'intera Wikipedia in lingua inglese) oppure in tempo reale nel world wide web (come fa Bing di Microsoft). Individuate le fonti, questi sistemi iniziano poi a produrre la risposta sfruttando la loro principale abilità: prevedere quale parola ha la maggiore probabilità statistica di essere coerente con quella che l'ha preceduta (per esempio, prevedendo che la parola “passeggiata” ha più probabilità della parola “canzone” per concludere correttamente la frase “porto il cane a fare una”).
In tutto ciò, però, ci sono due problemi. Prima di tutto, internet è piena di informazioni scorrette. Dal momento che – secondo uno studio del Politecnico di Zurigo – è sufficiente una percentuale di errori che va dallo 0,01 all'1 per cento per compromettere la qualità del database, si capisce quante probabilità di incorrere in un errore abbia un'intelligenza artificiale che si affida al mare di informazioni presenti sulla rete.
Il secondo problema è invece direttamente legato al funzionamento dei Large Language Model: per quanto capaci di produrre contenuti spesso accurati e in alcuni casi anche sorprendenti, questi sistemi non hanno la più pallida idea di che cosa stanno dicendo: non sanno nemmeno che cosa gli è stato chiesto e perché. L'unica cosa che sanno fare è sfruttare il loro immenso database, e il loro enorme potere computazionale, per scoprire correlazioni statistiche relative al legame tra le parole.
Come ha spiegato lo scienziato informatico Gary Marcus, in alcuni casi gli algoritmi di deep learning (alla base di tutto ciò che oggi intendiamo con “intelligenza artificiale”) possono però perdere di vista la relazione tra soggetto e predicato, ottenendo così risultati privi di senso . Da una parte, un database inevitabilmente pieno di informazioni errate; dall'altro, un sistema che – muovendosi su basi esclusivamente probabilistiche – non può evitare di incorrere in errori.
Errore di sistema
È per questa ragione che ChatGPT funziona al meglio quando è usato come un assistente che produce riassunti, post per i social o mail di lavoro che poi noi, in prima persona, controlliamo e controlliamo, sistemando eventuali errori o imprecisioni. Nel momento in cui, invece, lo utilizziamo per cercare informazioni di cui non conosciamo già la risposta corretta, e per le quali dobbiamo quindi fidarci della risposta fornita dall'intelligenza artificiale, rischiamo di andare incontro a parecchi problemi.
Ma qual è la percentuale di errori fattuali commessa da ChatGPT e dai suoi fratelli? Come ha spiegato al New York Times il ricercatore Simon Hughes, non c'è modo di saperlo con precisione, perché questi chatbot possono rispondere a ogni richiesta in un numero di modi potenzialmente illimitato, rendendo impossibile quantificarli esattamente. Uno studio condotto dalla società di intelligenza artificiale Vectara ha comunque provato ad effettuare una stima, ottenendo risultati preoccupanti: i due sistemi che alimentano la versione gratuita e premium di ChatGPT sbaglierebbero entrambi nel 3 per cento dei casi. Il Large Language Model di Meta, nome in codice Llama, arriverebbe a un tasso di errore tra il 5 e il 6 per cento. Claude 2 di Anthropic raggiunge invece l'8 per cento. La percentuale maggiore di errori sarebbe invece quella di Palm di Google, che toccherebbe – sempre secondo la ricerca Vectara – addirittura il 27 per cento.Anche affidandoci ai sistemi che meno soffrono delle cosiddette allucinazioni si rischia comunque di andare incontro a conseguenze molto serie. Ne sa qualcosa l'avvocato che ha scritto una memoria difensiva sfruttando ChatGPT, per poi scoprire di aver sottoposto al giudice un documento in cui erano citati mezza dozzina di inesistenti precedenti giudiziari (l'avvocato è stato ufficialmente sanzionato).
Informazioni false
In altri casi, l'utilizzo di ChatGPT, di Bing e degli altri come se fosse un motore di ricerca pone problemi a livello elettorale e democratico: come documentato proprio su Domani , Bing ha infatti offerto molteplici risposte sbagliate relative alle elezioni in Svizzera e in due stati federati tedeschi, sbagliando non solo a riportare i sondaggi, ma anche i nomi dei candidati e ricostruendo erroneamente gli scandali in cui alcuni politici erano stati coinvolti. Ci sono poi i casi di paper scientifici inventati che mettono in discussione l'efficacia dei vaccini sul Covid (citando anche finte fonti) o in cui sono state fornite diagnosi mediche completamente errate.
Oggi molte richieste che riguardano questioni sensibili (come i vaccini o la salute) vengono rifiutate direttamente da ChatGPT e dagli altri, proprio per evitare che il problema delle allucinazioni abbia conseguenze serie. Il problema è però più generale: nonostante vengono frequentemente usati come tali – e in alcuni casi, come impossibile quello di Bing Chat, anche promossi come tali – i Large Language Model non andrebbero impiegati come motori di ricerca, proprio perché è sapere quando ci stanno fornire informazioni errate.
Questo limite rischia anche di compromettere le potenzialità economiche dei Large Language Model: al momento quello dei motori di ricerca (un mercato che vale circa 225 miliardi di dollari) è infatti l'unico settore che potrebbe in tempi brevi importanti produrre ritorni economici. Gli altri utilizzi più diffusi – la stesura di testi o la programmazione semi-automatica – producono invece ritorni stimati in alcune centinaia di milioni di dollari. Un po' poco per tenere in attivo i bilanci di società che spendono cifre immense per addestrare e gestire dei sistemi estremamente complessi ed energivori (il solo addestramento di ChatGPT sarebbe costato quattro milioni di dollari, mentre la spesa richiesta per la gestione del sistema sarebbe di 700mila dollari al giorno).
E allora, è possibile risolvere il problema delle allucinazioni e poter così trasformare i Large Language Model in potentissimi (e remunerativi) motori di ricerca? Sam Altman, il fondatore di OpenAI, è prevedibilmente ottimista: «Penso che saremo in grado di migliorare molto il problema delle allucinazioni. Potrebbe volerci un anno e mezzo o magari dovuto, ma riusciremo a superare questi limiti», ha spiegato durante una visita a un'università indiana.Non tutti, però, condividono il suo punto di vista. «Fare in modo che un chatbot sia corretto nel 90 per cento dei casi è abbastanza facile», ha spiegato , parlando con Foreign Policy, Yonadav Shavit, scienziato informatico di Harvard. «Ma fare in modo che sia corretto nel 99,9 per cento dei casi è un enorme problema di ricerca ancora irrisolto».
© Riproduzione riservata