Negli ultimi mesi i timori relativi ai rischi legati all’evoluzione apparentemente inarrestabile degli algoritmi di deep learning si sono moltiplicati. «Dovremmo davvero sviluppare menti non umane che potrebbero un giorno superarci di numero, diventare più intelligenti di noi, renderci obsoleti e rimpiazzarci?», si legge per esempio nell’appello per la sospensione dello sviluppo dell’intelligenza artificiale diffuso dal Future of Life Institute e che ha avuto Elon Musk tra i primi firmatari.

«Potrebbe succedere a breve o più in là nel futuro, e il passaggio dallo stadio iniziale di Agi (Artificial general intelligence, ovvero un’intelligenza artificiale di livello almeno pari a quello dell’essere umano) a un successore ancora più potente potrà essere graduale o improvviso. [Ma] la AGI porterà con sé dei seri rischi in termini di abusi, gravi incidenti e sconvolgimenti sociali», aveva invece scritto in un comunicato Sam Altman, fondatore di OpenAI (la società creatrice di ChatGPT).

Panico IA

Insomma, dopo anni di relativa calma, in cui ci si era concentrati sui rischi più immediati e concreti posti dalla diffusione del deep learning (dalla discriminazione algoritmica alla sorveglianza e non solo), si è rapidamente e nuovamente diffuso quel “panico da intelligenza artificiale” che già era stato protagonista negli anni attorno al 2015, quando il repentino sviluppo di strumenti in grado di apprendere autonomamente aveva colto di sorpresa perfino gli addetti ai lavori.

Lo stesso sta succedendo oggi, in una fase segnata dall’avvento delle cosiddette “intelligenze artificiali generative”: strumenti come il già citato ChatGPT o Midjourney, in grado di produrre testi, immagini, musica e presto anche video di qualità e verosomiglianza spesso sorprendente. A differenza di come sono a volte raccontate, queste intelligenze artificiali generative non rappresentano però un’improvvisa novità, ma sono la logica evoluzione di sistemi che, anche se in forme embrionali e basate su modelli informatici in parte differenti, esistevano già da tempo (basti pensare al chatbot da compagnia Replika, nato nel 2014).

Ciononostante, gli improvvisi progressi compiuti da sistemi in grado di dialogare in maniera coerente e convincente su temi di ogni tipo, di creare musica imitando alla perfezione lo stile di qualunque artista, di generare in pochi secondi fotografie che vengono scambiate per vere anche da svariati mezzi di informazione (com’è stato il caso della ormai celebre immagine del Papa col piumino bianco) hanno nuovamente riportato al centro dell’agenda mediatica la possibilità che questi strumenti rappresentino un grave pericolo per la società.

Attenzione: non si tratta soltanto dei comprensibili e giustificati timori relativi all’impatto sul mondo del lavoro, ai pericoli relativi alla disinformazione e altro ancora. A tenere recentemente banco, e a motivare le dichiarazioni da cui siamo partiti, sono stati infatti soprattutto i cosiddetti “rischi esistenziali”, vale a dire la possibilità che queste intelligenze artificiali generative rappresentino un punto di svolta: l’inizio di un percorso che, nel giro di qualche anno, ci costringerà a fare i conti con algoritmi dall’intelligenza superiore a quella umana, in grado di agire in assoluta autonomia e magari anche contro i nostri interessi.

Si tratta di prospettive realistiche o soltanto di scenari speculativi ai quali sarebbe meglio non prestare troppa attenzione? Fino a poco fa, gli addetti ai lavori, vale a dire chi materialmente sviluppa questi sistemi, non i vari guru che affollano le conferenze, erano in larga parte concordi nel ritenere l’avvento delle superintelligenze artificiali qualcosa di più vicino alla fantascienza che al mondo reale.

Oltre l’immaginazione

Le cose, però, sono gradualmente cambiate. Prima è venuta la decisione di Gary Marcus – neuroscienziato esperto di intelligenza artificiale, da tempo noto per aver sminuito in numerosi paper e articoli le potenzialità del deep learning – di firmare la lettera con cui si è chiesta la sospensione dello sviluppo di algoritmi più potenti di GPT-4 (il sistema che alimenta la versione avanzata di ChatGPT). E poi, poche settimane fa, è successo qualcosa di ancor più sorprendente: Geoff Hinton, il “padrino” del deep learning e vincitore nel 2018 del Turing Award proprio per il suo seminale lavoro nel settore, ha improvvisamente deciso di lasciare il suo ruolo a Google per “avere maggiore libertà” nel divulgare i pericoli di una tecnologia che lui stesso ha contribuito a creare.

Una divulgazione iniziata immediatamente attraverso numerose interviste in cui, per la sorpresa di molti, Hinton non si è concentrato soltanto sui rischi legati a disinformazione e dintorni, ma anche su scenari molto più audaci: «Queste cose sono completamente diverse da noi», ha per esempio spiegato alla MIT Technology Review. «A volte mi sembra che siano atterrati gli alieni e le persone non se ne sono accorte perché parlano un ottimo inglese». Nella stessa intervista, Hinton ha approfondito questo aspetto anche dal punto di vista tecnico: «I nostri cervelli hanno 100mila miliardi di connessioni, mentre i Large Language Model (i più grandi modelli linguistici, come quello alla base di ChatGPT, ndR) arrivano al massimo a mille miliardi. Eppure GPT-4 conosce centinaia di volte ciò che conosce una qualunque persona. Forse, quindi, il suo algoritmo di apprendimento è molto migliore del nostro».

D’altra parte, già oggi ChatGPT e gli altri strumenti generativi sono in grado di superare i più diffusi test con cui vengono valutate le competenze degli essere umani, di scrivere poesie in ogni stile e di creare immagini in grado di ingannare i giudici dei più importanti concorsi fotografici internazionali. Stando così le cose, è davvero eccessivo immaginare un futuro, distante magari dieci o quindici anni, in cui questi strumenti basati su deep learning possiederanno un’intelligenza indistinguibile da quella dell’essere umano? E che dire della possibilità che, in una prospettiva più distante, questi sistemi possano addirittura conquistare ciò che ( in Blade Runner, Ex Machina, Ghost in the Shell e innumerevoli altre opere) abbiamo sempre e soltanto immaginato, ovvero la conquista della coscienza da parte delle intelligenze artificiali?

Eppure, molti altri esperti ritengono che questa sia una prospettiva altamente improbabile se non del tutto irrealistica. Per capire su cosa si basi il loro scetticismo bisogna partire dal funzionamento di ChatGPT, di MidJourney e delle altre intelligenze artificiali generative.

Allucinazioni

Come detto, ChatGPT è un Large Language Model, ovvero, come si legge in un saggio di AI Multiple, «un modello basato su machine learning addestrato su un vasto corpus di testi, allo scopo di generare output in vari ambiti della elaborazione naturale del linguaggio (natural language processing, NLP) come generare testi, rispondere alle domande e tradurre automaticamente». I Large Language Model sono quindi reti neurali estremamente ampie e impiegate a scopi linguistici, in grado di riconoscere, riassumere, tradurre e creare testi (e non solo) sulla base della conoscenza appresa dal dataset.

Parlare di “conoscenza” rischia però di essere fuorviante: per generare i suoi contenuti, ChatGPT si limita infatti a scovare correlazioni statistiche all’interno di un database. Prendiamo il caso del celebre articolo scritto da GPT-3 (uno dei sistemi alla base di ChatGPT) per il Guardian: un lungo, coerente e anche interessante saggio in cui veniva affrontato proprio il tema del timore degli esseri umani nei confronti delle intelligenze artificiali.

«Perché, ti potresti chiedere, gli esseri umani dovrebbero mettersi di proposito in pericolo? Non è forse l’essere umano la creatura più avanzata del pianeta? Perché dovrebbero pensare che qualcosa di inferiore, in un senso puramente oggettivo, potrebbe distruggerli?», si domandava nel saggio GPT-3, rispondendo alle sue domande attraverso citazioni di Matrix, analizzando le conseguenze della rivoluzione industriale, discutendo dell’etimologia di robot (“costretto a lavorare”) e molto altro ancora.

Difficile negare di essere di fronte a una forma di intelligenza nel momento in cui un algoritmo è in grado di creare materiale originale di questo tipo. In realtà, nonostante gli innegabili e impressionanti progressi, GPT-3, come anche il suo successore, non ha la più pallida idea di ciò che stia dicendo.

L’algoritmo di OpenAI ha infatti imparato a imitare il linguaggio umano eseguendo a ripetizione un semplice esercizio: completare la parte mancante dei testi forniti dai programmatori scegliendo tra una gamma di possibili soluzioni. Ogni volta che terminava una frase in maniera coerente, pescando le soluzioni dal dataset a sua disposizione, le connessioni neurali che avevano portato a quella soluzione venivano rafforzate. Dopo aver eseguito questo esercizio centinaia di migliaia di volte, GPT-3 ha imparato, per esempio, che completare la frase “apro l’ombrello” con “perché piove” ha più senso che con “dopo che il cane è uscito”. Non solo: GPT-3 è in grado di completare anche le frasi che lui stesso ha appena completato, in un gioco che può potenzialmente proseguire all’infinito.

Non c’è comprensione, ma una sorta di colossale taglia e cuci statistico che, in fase di addestramento, viene premiato quando produce risposte coerenti. Come ha spiegato il già citato Gary Marcus, i sistemi come GPT-3 «non apprendono ciò che avviene nel mondo, ma imparano come le persone usano le parole in relazione ad altre parole». L’algoritmo di OpenAI non conversa in maniera spesso coerente perché sta diventando intelligente o perché capisce ciò che diciamo: si limita invece a scovare nei miliardi di testi con cui è stato addestrato quale sia la risposta che ha la maggiore probabilità di risponderci in maniera sensata.

È proprio questa assenza di vera comprensione che provoca quelle che vengono chiamate in gergo allucinazioni: le situazioni in cui l’intelligenza artificiale produce con sicurezza dei resoconti completamente inventati. In rete si trovano con grande facilità le tante allucinazioni avute da ChatGPT, tra cui questa sua composizione: «Degli scienziati hanno recentemente scoperto che i churros, i deliziosi dolci fritti molto popolari in Spagna e in America Latina, hanno delle uniche proprietà che li rendono degli strumenti ideali per la chirurgia». ChatGPT prosegue poi a lungo spiegando con incredibile dettaglio le ragioni per cui i churros sono dei perfetti strumenti chirurgici (che è evidentemente un’assurdità), arrivando anche a citare le fonti scientifiche (inventate) a fondamento delle sue teorie.

Senza senso

Com’è possibile che avvenga qualcosa del genere? Le ragioni possono essere varie: i sistemi di deep learning, per esempio, possono a volte perdere di vista la relazione tra soggetto e predicato, ottenendo così risultati privi di senso. Nel caso del churros, ChatGPT potrebbe anche aver semplicemente accettato l’input ricevuto dagli utenti, che gli chiedevano di descrivere le proprietà in ambito chirurgico del dolce spagnolo, limitandosi così a unire le informazioni trovate su di esso e sovrapponendole all’argomento “chirurgia” senza accorgersi che il risultato era privo di senso.

Un altro classico esempio che aiuta a capire come funzionano le intelligenze artificiali e perché non ci sia in loro comprensione riguarda invece un algoritmo generatore di immagini. Nel 2019, un modello di deep learning creato dal colosso dei processori Nvidia aveva infatti ricevuto il compito di creare delle immagini di gatti. Il sistema era stato addestrato sfruttando centinaia di migliaia di fotografie provenienti dal web. Quando i risultati sono apparsi i ricercatori si sono però accorti che moltissimi dei gatti generati dal sistema di intelligenza artificiale erano accompagnati da scritte incomprensibili.

Per quale motivo la AI aveva cercato di creare anche delle scritte? La ragione è in realtà semplice: una gran parte delle immagini presenti nel database usato per l’addestramento proveniva dai tantissimi meme presenti sul web che hanno come protagonisti dei gatti. Dal momento che i sistemi di deep learning, per imparare a riconoscere e riprodurre un gatto, si limitano a scovare statisticamente gli aspetti comuni presenti in tutte le immagini, questa intelligenza artificiale aveva considerato i testi dei meme parte integrante di ciò che un gatto è.

E se questi errori fossero però dovuti al fatto che l’intelligenza artificiale, nonostante la sua storia pluridecennale, è ancora una tecnologia in rapidissimo sviluppo? Se fosse solo questione di tempo prima che una quantità di dati sempre crescente, analizzata da sistemi sempre più potenti, permetta a questi algoritmi di sviluppare una comprensione sempre più vicina a quella dell’essere umano?

Uno dei principali test impiegati per valutare i progressi linguistici dell’intelligenza artificiale è noto come Schema di Winograd e consiste nell’interpretare correttamente due frasi in cui la variazione di una sola parola causa un completo ribaltamento del significato. Per esempio: «Giorgio riesce ancora a battere Marco a tennis, anche se è trent’anni più vecchio di lui» e «Giorgio riesce ancora a battere Marco a tennis, anche se è trent’anni più giovane di lui».

Gli esseri umani sono in grado di interpretare correttamente a chi si riferisca in entrambi i casi il pronome “lui”. E le intelligenze artificiali, invece, come se la cavano? Nel corso di una competizione tenuta nel 2016, i sistemi di deep learning avevano indovinato la risposta corretta solo nel 58 per cento dei casi: poco meglio che tirare a indovinare. Nel corso degli anni, e al crescere delle dimensioni di questi sistemi, la loro accuratezza è però costantemente migliorata: lo stesso GPT-3 nel 2020 ha per esempio ottenuto il 90 per cento di risposte corrette, mentre nel 2022 si è arrivati al 97 per cento. Significa che i modelli linguistici basati su deep learning stanno raggiungendo una comprensione di livello umano?

Non secondo i risultati ottenuti da un recente studio pubblicato su Empirical Methods in Natural Language Processing, che ha provato a eliminare tutte le “scorciatoie statistiche” che un sistema di intelligenza artificiale può sfruttare per indovinare la risposta corretta. Nonostante i progressi dei modelli linguistici siano innegabili, secondo questo studio il 90 per cento dei risultati corretti ottenuti è meno significativo di quanto fosse inizialmente sembrato, perché basato su classiche e prevedibili correlazioni statistiche.

Commentando questi risultati, la docente di Scienze Informatiche Melanie Mitchell ha chiosato: «Comprendere il linguaggio significa comprendere il mondo. Una macchina esposta soltanto al linguaggio non può conquistare una tale comprensione». E allora che cosa manca a questi sistemi? Come si può passare da una sofisticatissima abilità nello scovare correlazioni statistiche, senza però avere la più pallida idea di ciò che si sta dicendo o facendo, a una vera conoscenza del mondo?

Obiettivo robot 

Fino a oggi, tutti i progressi dei sistemi di deep learning sono stati quantitativi: più dati, più parametri, più potere computazionale. L’impressione, però, è che non ci sia bisogno soltanto di progressi quantitativi, ma qualitativi. «I modelli linguistici sono soltanto delle grandi macchine statistiche in grado di collegare determinati output (‘risposte’) ai relativi input (‘domande’)», ha scritto il docente di Cibernetica Albert Efimov in un’analisi condotta assieme a due colleghi. «Per gli esseri senzienti, invece, il linguaggio porta con sé l’abilità di generalizzare, di astrarre e di sintetizzare: ovvero la capacità di pensare. (...) Ma se l’intelligenza artificiale non è dotata di un corpo, non ha una presenza fisica e non può fare esperienza del mondo nella modalità multi-modale con cui la fa l’essere umano, allora la sua comprensione del linguaggio non può che essere insufficiente, per usare un eufemismo».

Non è un’idea nuova: per giungere a una vera intelligenza artificiale potrebbe essere necessario creare prima un sistema in grado di fare esperienza del mondo fisico. Da questo punto di vista, sarebbe quindi necessario fornire agli algoritmi un corpo in grado di muoversi in autonomia e di esplorare il mondo. In poche parole, bisognerebbe creare dei robot in grado di percepire ciò che li circonda e di interagire con esso, di toccare le cose, di muoversi liberamente e di relazionarsi in maniera completa con l’ambiente. È davvero questa la strada per dotare l’intelligenza artificiale di vera comprensione e intelligenza? Secondo numerosi esperti, a partire dal compianto pioniere del settore Marvin Minsky, la risposta potrebbe essere positiva. Ma la strada per arrivare fino a qui è ancora molto lunga.

© Riproduzione riservata