Lo scorso 2 aprile, l’Organizzazione mondiale della sanità ha lanciato il chatbot Sarah, basato sul large language model Gpt 3.5 di OpenAI (impiegato anche da ChatGpt). Lo scopo di Sarah – acronimo che sta per Smart AI Resource Assistant for Health – è di fornire consigli in otto diverse lingue su alimentazione, fumo, salute mentale, attività fisica e altro ancora.

Come prevedibile, nel giro di poche settimane hanno iniziato a moltiplicarsi le testimonianze relative ai pessimi consigli ricevuti da Sarah, che, per fare solo pochi esempi, ha confuso l’eco-ansia legata al disboscamento dell’Amazzonia con un problema legato ad Amazon (l’azienda), ha fornito una lista di cliniche di San Francisco inesistenti e ha suggerito di approfondire alcuni temi fornendo dei link non funzionanti.

Non è l’unico caso: il chatbot usato da Air Canada per l’assistenza clienti si è inventato uno sconto che poi la compagnia aerea è stata costretta a onorare a chi ne aveva fatto richiesta; mentre Galactica, il chatbot scientifico progettato da Meta, ha messo in fila una serie di paper inventati e di articoli accademici pieni di assurdità (tra cui la storia degli orsi spediti nello spazio).

ChatGpt e gli altri sistemi basati su large language model (che forniscono risposte a richieste poste in linguaggio naturale) non si limitano quindi a sbagliare di tanto in tanto: inventano di sana pianta eventi, diagnosi mediche, resoconti storici, trame dei libri e anche informazioni biografiche.

Nel mio caso, per esempio, ChatGpt descrive correttamente la professione che svolgo («giornalista che scrive di tecnologia e cultura digitale»), ma mi attribuisce collaborazioni con testate per cui non ho mai lavorato e, soprattutto, è sicuro che sia l’autore di libri che non ho mai scritto. Il primo che viene citato, Tecnologie per il potere, è stato scritto dall’avvocato ed esperto di questioni digitali Giovanni Ziccardi; il secondo, intitolato Il lato oscuro degli algoritmi (che secondo ChatGpt «esplora le implicazioni etiche, sociali e politiche dell'intelligenza artificiale») è invece inesistente.

È un limite noto e chiamato in gergo “allucinazione”: quando cioè un’intelligenza artificiale presenta come se fossero dei fatti delle informazioni errate o completamente inventate. Il problema è che non sempre gli errori commessi da ChatGpt e gli altri sono innocui. In alcuni casi si tratta di errori talmente seri che la vittima non ha altra scelta che procedere per vie legali.

I casi Hood e Battle

Nel marzo 2023, il politico australiano Brian Hood è diventato il primo ad accusare OpenAi di diffamazione. Dopo essersi costruito una carriera da mastino dell’anticorruzione, Hood ha scoperto che, se chiedeva a ChatGpt di riassumere la sua carriera, il sistema di OpenAi affermava, sbagliando, che Hood era stato in galera per aver ricevuto tangenti.

Hood ha richiesto l’eliminazione di queste informazioni entro 28 giorni, minacciando altrimenti di fare causa. OpenAi ha soddisfatto la richiesta e infatti, adesso, se chiedete a ChatGpt di parlarvi del «politico australiano Brian Hood» vi risponde che non è in grado di soddisfare la richiesta.

Una situazione simile si è verificata lo scorso maggio, quando il veterano dell’esercito statunitense Jeffery Battle ha scoperto che il chatbot del motore di ricerca Bing di Microsoft (alimentato sempre dal large language model di OpenAi) mescolava informazioni reali ed errate sul suo conto, affermando inoltre che fosse stato condannato per terrorismo di matrice islamica. Tutto ciò si è verificato mentre Battle stava promuovendo la sua autobiografia. Dopo aver scoperto che il secondo motore di ricerca più usato al mondo lo stava scambiando per un terrorista, ha però deciso di sospendere ogni attività promozionale e ha fatto causa a Microsoft.

Inventare cose

Ma per quale ragione le intelligenze artificiali sono così propense all’errore? Perché sono vittima di allucinazioni? La prima cosa da segnalare – come precisa la Mit Technology Review – è che «inventare cose è esattamente ciò per cui questi modelli sono progettati».

I large language model si limitano infatti a prevedere statisticamente quale parola abbia la maggior probabilità di essere coerente con quelle che l’hanno preceduta, basandosi sul dataset tramite il quale è stata addestrata ma senza alcuna vera conoscenza della materia che sta trattando.

Se scriviamo: “il cane è sdraiato”, il modello prevede che la parola che ha la maggiore probabilità di seguire è “per” e che quella che probabilmente va inserita successivamente è “terra”. Non sa però che cosa sia un cane, la terra o l’essere sdraiato. Per questa ragione, quando nel calcolo statistico qualcosa va storto non ha modo di capirlo autonomamente.

Nel caso del politico australiano, è possibile che la sua costante attività anticorruzione abbia fatto sì che venisse associato proprio alla parola “corruzione”, portando il modello a prevedere statisticamente che il contesto in cui tutto ciò andava inserito fosse quello di un politico arrestato per tangenti.

Di tutti questi limiti e criticità, OpenAi, Meta, Microsoft e gli altri protagonisti del settore sono consapevoli, tanto è vero che il sito di ChatGpt avverte: «Può commettere errori. Considera di verificare le informazioni importanti». Un avvertimento che evidentemente non ha impedito che alcune vittime degli errori dell’intelligenza artificiale si sentissero diffamate (e nemmeno che gli utenti continuino a fidarsi dei risultati ottenuti).

L’integrazione nei motori di ricerca

Come si concluderanno le citazioni in giudizio segnerà un momento importante per la diffusione di questi modelli linguistici. Fino a oggi, OpenAi si è difesa dalle accuse sostenendo, tra le altre cose, che ChatGpt non “pubblica” nulla (e quindi non può diffamare), ma si limita a generare delle “bozze di contenuto” di cui solo gli utenti sono responsabili in caso di pubblicazione.

Una giustificazione che, in punta di diritto, potrebbe anche essere efficace, ma che conferma come questi sistemi non siano dei motori di ricerca e non vadano utilizzati come tali. Se le cose stanno così, perché allora i colossi del settore continuano ad accelerare l’integrazione dei large language model all’interno di Google o Bing e a promuoverne un utilizzo in questo senso (tutelandosi però dietro ai disclaimer)?

Una possibile spiegazione l’ha individuata il docente della New York University Gary Marcus, che in un post di qualche mese fa ha segnalato come i ritorni economici dell’intelligenza artificiale generativa fossero tutto sommato modesti, e come la speranza di generare ricavi importanti passasse soprattutto dall’integrazione dei modelli linguistici all’interno dei motori di ricerca, dando così ulteriore spinta a un settore che già oggi vale qualcosa come 225 miliardi di dollari.

Assistenti sgobboni

Finché il problema delle allucinazioni non sarà risolto, integrare i large language model nei motori di ricerca – o utilizzarli come tali – continuerà a esporre a informazioni sbagliate, inaccurate e addirittura pericolose. Ma si può davvero risolvere, questo problema? Non la pensa così il ricercatore Ziwei Xu dell’università di Singapore, che ha da poco pubblicato un paper in cui dimostra come le allucinazioni siano una «limitazione intrinseca» dei modelli linguistici.

«Fare in modo che un chatbot sia corretto nel 90% dei casi è abbastanza facile, ma fare in modo che sia corretto nel 99% dei casi è un enorme problema di ricerca ancora irrisolto», ha invece spiegato, parlando con Foreign Policy, Yonadav Shavit, scienziato informatico di Harvard. Peggio ancora: più i modelli diventano accurati, più diventa complesso per gli utenti accorgersi se commettono errori.

Nonostante i tentativi di Big Tech di convincerci del contrario, i large language model non sono e forse non saranno mai degli oracoli in grado di rispondere correttamente alle nostre domande. Sono invece molto più simili a degli assistenti sgobboni ma assolutamente inaffidabili. Il cui lavoro va verificato con estrema attenzione.

© Riproduzione riservata