L’ultima versione di ChatGPT, la quarta (dove “o” sta per “omni”), presenta un’importante novità: il sistema è ora in grado di interagire con l’utente in forma integrata attivando un’interfaccia che risponde anche a istruzioni vocali e a sollecitazioni visive. Si tratterebbe dunque di un’esperienza a tutti gli effetti “multimodale”, come si legge nelle presentazioni del nuovo modello e si vede nei suoi primi tutorial.

Ma è davvero così? È davvero più “integrato” il nuovo sistema, o la sua multimodalità è solo di superficie? Siamo di fronte a una forma di evoluzione dei chatbot o le cose restano sostanzialmente immutate?

Prendiamola un po’ alla lontana. Molti ricorderanno Her, il bel film di Spike Jones (2013), il cui protagonista si innamora, ricambiato, della voce che ha scelto per il “sistema operativo” del suo pc. Il film anticipava una di quelle illusioni antropomorfe con cui le intelligenze artificiali non finiscono di inquietarci sollecitando irresistibilmente le attitudini proiettive di noi umani e la nostra tendenza a intrattenere rapporti emotivi con oggetti inanimati e simulacri.

Una tendenza particolarmente marcata in Theodore, che è afflitto da una patologia dello spettro autistico e di mestiere scrive email d’amore per sconosciuti nella più totale indifferenza per il loro contenuto.

Il confronto con il film

La storia tra Theodore e Samantha (questo il nome che il sistema operativo decide di attribuirsi) riserva, come si ricorderà, un inaspettato lieto fine. Samantha non è solo un sistema che apprende dall’esperienza è anche un sistema che si scopre capace di evolvere in modo autonomo cosicché a un certo punto sente di dover chiudere il rapporto con Theodore, perché, gli dice «sono diventata tante altre cose e non posso fermare tutto questo».

Nel congedarsi da lui, tuttavia, gli lascia un dono imprevisto: un volumetto – un libro cartaceo e non un e-book – in cui un editore importante ha accettato di raccogliere e pubblicare le sue più belle email. Il dono è evidentemente destinato alla parte autistica di Theodore, a cui Samantha sta indirizzando un invito a riconoscere nelle sue medesime parole la possibilità di riattivare un circolo virtuoso tra il linguaggio, le emozioni e il mondo. Morale della favola: con un’intelligenza artificiale capace di evolvere si può interagire in senso pieno ricavandone effetti benefici.

Ci si può ora chiedere se tra la Samantha di Her e le attuali “macchine loquaci”, oggi anche multimodali, ci sia un qualche effettivo parallelismo o se non si tratti piuttosto di due storie ancora del tutto incomparabili. Quello che interessa chiarire, più precisamente, è se le prestazioni simboliche di queste macchine siano davvero suscettibili di qualcosa che assomiglia a una genuina evoluzione, come sarebbe il caso per la loro multimodalità.

E se per caso le loro abilità espressive comincino a dar segno di conformarsi più marcatamente a quelle che noi sapiens abbiamo da ultimo sviluppato nelle poche decine di migliaia di anni in cui emersero i nostri prodotti evolutivi più caratterizzanti: il linguaggio articolato e le immagini figurative.

La competenza intrasistemica

Prendiamo il caso della competenza semantica: la capacità, cioè, di designare con espressioni verbali oggetti ed eventi del mondo. Come risolvono questo problema le “macchine loquaci”? Il loro training è noto: sono macchine che vengono nutrite da immensi database di carattere linguistico, cioè da innumerevoli testi di diversa natura e lunghezza.

Da questi enormi repertori esse ricavano una competenza semantica integralmente intrasistemica, nel senso che nella loro routine generativa il significato delle espressioni viene gestito in modo esclusivamente statistico e predittivo. Immaginate, e potenziatelo in modo esponenziale, il lavoro che fa il processore testuale del vostro smartphone quando, mentre scrivete, corregge le parole sbagliate e anticipa quelle che state per digitare. Le “macchine loquaci” con cui oggi interagiamo, dunque, non sanno niente del mondo “là fuori”, ne conoscono esclusivamente l’ininterrotta traduzione nei dati digitalizzati di cui esse si nutrono e solo quella usano per esprimersi avendo imparato a padroneggiarne le regole di base.

Se ora guardiamo, anche superficialmente, all’apprendimento linguistico di noi umani ci accorgiamo che le cose vanno in un modo del tutto diverso. Il significato di una parola, infatti, noi lo impariamo sia tramite un riferimento al codice della lingua – “La giumenta è una femmina di cavallo” – sia tramite un riferimento a contesti d’esperienza di carattere non verbale – “La giumenta è quell’animale che l’altro giorno hai visto partorire un puledro”. Il linguaggio naturale è intimamente duplice, diceva il grande linguista Roman Jakobson: mette al lavoro, facendoli interagire simultaneamente, il codice della lingua e il contesto extralinguistico. Le “macchine loquaci”, al contrario, sono molto esperte nel manovrare il riferimento ai codici ma ignorano del tutto l’operazione che consiste nell’imparare il significato di un termine riferendolo al mondo esterno.

La multimodalità

Ma che dire, ora, della loro “multimodalità”? Non sarebbe per caso un’apertura verso il mondo esterno? Un movimento genuinamente evolutivo? La risposta dev’essere negativa, perché anche le prestazioni delle macchine capaci di riconoscere e generare immagini non si riferiscono in alcun modo a contesti extralinguistici ma sempre e solo a un materiale di base costituito da immensi repertori di “text-image pairs”, cioè a immagini tecniche (fisse o mobili) accoppiate di regola ad altrettante etichette linguistiche.

Nella versione 4o di ChatGPT, dunque, la sinergia con questi sistemi di riconoscimento e generazione iconica si fonda su un repertorio che, anche senza mettere nel conto gli inevitabili arbitri imputabili a chi provvede alla sua costruzione e ai suoi aggiornamenti, può dar voce e immagine a un certo statu quo di una cultura – quello archiviato nei diversi database – ma non dispone di alcun sistema per nutrirlo e modificarlo, metterlo in discussione e renderlo sensibile all’imprevedibilità del mondo.

Resta da chiedersi se alle “macchine loquaci multimodali”, visto che dopo tutto sanno parlare e sanno immaginare, potremmo ragionevolmente attribuire una qualche forma di creatività simbolica. La risposta dev’essere affermativa, ma solo a condizione di restringerla a quella che un altro grande linguista, Noam Chomsky, definiva una “rule governed creativity”, vale a dire la capacità, tipica delle lingue naturali, di utilizzare un numero finito di unità espressive e di regole di concatenazione per ottenere un numero infinito di enunciati sensati.

Le prospettive

Non è cosa da poco, bisogna ammetterlo. Solo che per le “macchine loquaci multimodali” si tratterà di enunciati linguistici i cui referenti non potrebbero dire nulla di nuovo sul mondo perché sono già tutti analiticamente contenuti nei repertori digitalizzati in cui il mondo è stato tradotto.

E, parallelamente, si tratterà di immagini che dipendono integralmente dai database di “text-image pairs” da cui l’algoritmo le deve attingere per far finta di riconoscerle nel mondo esterno. Espressioni linguistiche corrette e immagini congruenti, dunque, ma anche (e sempre al netto delle deformazioni ideologiche che caratterizzano la costruzione di un database) fatalmente marchiate da un insuperabile radicamento nel già dato.

La storia di Theodore e di Samantha si concludeva con una imprevedibile apertura verso il futuro. Quelle che si prospettano agli utenti dei nuovi chatbot si porteranno dietro un insuperabile sentore di passato.

© Riproduzione riservata