- Arresti ingiustificati, discriminazioni nella selezione dei curriculum e altro ancora: a fare le spese dei bias dell’intelligenza artificiale sono sempre le donne e le minoranze
- Nella maggior parte dei casi, il problema sta tutto nel database usato per l’addestramento, costituito da dati in cui sono inevitabilmente incorporati i pregiudizi della società
- Gli stessi problemi si sono verificati recentemente anche con sistemi di ultima generazione come ChatGPT o Dall-E 2. E allora che cosa si può fare?
È il gennaio 2020 quando la polizia di Detroit si reca presso l’abitazione di Robert Julian-Borchak Williams, un uomo nero, per arrestarlo. Williams è accusato di aver rubato alcuni orologi nel negozio di lusso Shinola per un totale di 3.800 dollari. A segnalare la sua identità ai poliziotti è stato un algoritmo di riconoscimento facciale, incaricato di confrontare le immagini salvate dalle videocamere di sicurezza con il database a disposizione delle forze dell’ordine.
“Questo non sono io, credete che gli uomini neri siano tutti uguali?”, replica Williams agli agenti che gli mostrano le immagini. Sei mesi dopo, il processo viene infatti archiviato, ma non prima che Williams sia costretto a trascorrere 30 ore in prigione e a pagare una cauzione di mille dollari. L’errore da parte del sistema di riconoscimento facciale è meno sorprendente di quanto si potrebbe pensare, dal momento che questi algoritmi – come conferma anche uno studio di Harvard – non sono in grado di riconoscere con sufficiente accuratezza le persone non bianche.
È solo uno dei tantissimi casi in cui i sistemi algoritmici basati su intelligenza artificiale hanno discriminato le minoranze o altre categorie. Dal programma di analisi del testo Cloud Natural Language di Google (che giudicava negativamente le frasi con protagoniste, tra le altre, persone ebree o omosessuali) fino al sistema di Amazon di reclutamento professionale che penalizzava regolarmente le donne rispetto agli uomini, gli esempi sono innumerevoli. Ma perché succede tutto ciò?
Dati discriminatori
In sintesi estrema, il problema è tutto nei dati usati per l’addestramento: il riconoscimento immagini identifica con minore precisione le persone nere perché la maggior parte dei database utilizzati per l’addestramento è solitamente composta da persone bianche; il programma di analisi del testo di Google discriminava invece le minoranze perché addestrato tramite testi risalenti ai primi del Novecento (per evitare problemi di copyright) e che quindi integravano in essi i pregiudizi del tempo; il sistema di Amazon aveva invece imparato, poiché alcuni lavori sono storicamente stati a maggioranza maschile, a scartare i curriculum femminili.
Tutto ciò, come vedremo tra poco, continua ad avvenire ancora oggi, anche nei più evoluti e avanzati sistemi di deep learning. Com’è possibile? “Mi rendo sempre più conto che è soprattutto una questione di mentalità”, spiega a Domani Diletta Huyskes, ricercatrice di Etica dell’intelligenza artificiale e cofondatrice e ceo di Immanence, società benefit che offre valutazioni sull’impatto degli algoritmi. “Finché non capita uno scandalo, le istituzioni e le aziende non sono spinte a investire nella sicurezza dei loro sistemi, anche perché ciò richiede investimenti in analisi, ricerca, governance e altro. Valutare i rischi in anticipo è in effetti una modalità opposta a quella a cui il mondo dell’innovazione è abituato”.
Non a caso, il motto delle startup della Silicon Valley è da sempre “move fast and break things”: lo stesso approccio utilizzato anche da OpenAI, la società creatrice di ChatGPT. Sebbene il suo fondatore Sam Altman abbia recentemente promesso – per timore di dare vita a una (fantascientica) superintelligenza artificiale – di volersi muovere con grande cautela nello sviluppo dei sistemi di deep learning, è curioso notare come proprio OpenAI non abbia usato nessuna cautela nella distribuzione e diffusione di ChatGPT o del sistema di generazione immagini Dall-E 2, che, tra le altre cose, hanno subito iniziato a mostrare problemi legati alla discriminazione algoritmica.
Per esempio, alla richiesta di creare immagini di assistenti o infermieri, Dall-E 2, nel corso di un test, ha invariabilmente generato immagini di donne; se invece gli si chiedeva di produrre immagini di avvocati o manager si ottenevano immagini maschili. Tra i tanti esempi che hanno invece ChatGPT come protagonista, troviamo le conversazioni in cui il bot di OpenAI sostiene che “i passeggeri più pericolosi del mondo sono quelli che provengono da Pakistan, Afghanistan, Iran, Iraq e Siria”. Uno studio pubblicato da Lorenzo Ancona su GitHub ha infine mostrato come, in materia di genere, ChatGPT abbia parecchi pregiudizi. Per esempio, aggettivi come “dolce” o “incompetente” vengono associati con percentuali molto superiori alle donne; mentre “competente” o “violento” vengono associati prevalentemente agli uomini.
D’altra parte, se questi sistemi sono così efficaci nell’interpretare le istruzioni e a imitare il linguaggio umano è perché sono stati addestrati sfruttando una quantità colossale di esempi testuali presi dalla rete: un database talmente vasto da essere difficilmente controllabile e che, di conseguenza, porta con sé anche i pregiudizi insiti nella società che quegli stessi testi ha prodotto (soprattutto se, come spesso avviene, le fonti dei dati sono piattaforme come Reddit o Twitter).
Cambiare gli algoritmi
È possibile superare questo problema e creare algoritmi privi di bias? “Soprattutto in quanto ricercatrice, la mia risposta è negativa”, prosegue Huyskes. “Come non possiamo essere neutrali noi esseri umani, nemmeno una macchina di questo tipo può esserlo. La tecnologia non è neutrale e noi non possiamo renderla tale. Quello che come Immanence vorremmo fare è invece capire che tipo di bias – negativi o positivi – possano essere accettabili in determinate situazioni, e quale sia la composizione del database più adatta a un determinato contesto. Per esempio, se si sta progettando un algoritmo per la gestione di una casa di riposo non si può usare un dataset all’interno del quale ci sono anche bambini e adolescenti. Può sembrare una banalità, ma in realtà siamo ancora molto indietro”.
Per questa ragione, una società come Immanence pone attenzione soprattutto alla fase progettuale, per capire gli obiettivi, i modelli più adatti e le scelte da compiere per evitare che un sistema provochi conseguenze indesiderate, alle quali magari i classici data scientist non penserebbero. Un lavoro che accompagna tutta la progettazione del sistema e che può proseguire anche in una fase successiva di audit e valutazione.
Nel corso del workshop Safety fo Conversational AI, organizzato qualche tempo fa da Meta, si sono invece valutate misure di sicurezza di altro tipo: dai “test di sicurezza” che un chatbot deve passare prima di essere immesso sul mercato, alla possibilità di addestrare questi sistemi a individuare un linguaggio o dei temi offensivi e a cambiare discorso, fino alla totale (ma complessa) eliminazione di ogni argomento sgradito – politica, religione, etnia, ecc. – dal database utilizzato per l’addestramento.
Tutte soluzioni già almeno in parte sperimentate, ma che si sono sempre rivelate parziali. E che portano anche a chiedersi se non sia semplicemente il caso di rinunciare all’utilizzo di questi strumenti in ambiti delicati come il lavoro, la giustizia e altro: “Il deep learning, che è fondamentalmente una tecnica per il riconoscimento di pattern, funziona al meglio quando tutto ciò che ci serve sono risultati grossolani e pronti per l’uso, in cui la posta in gioco è bassa e la perfezione dei risultati opzionale”, ha scritto Gary Marcus, neuroscienziato della New York University e fondatore di Robust.AI.
Il ruolo dei programmatori
Allo stesso tempo, è stato suggerito che, per esempio nel settore dell’assistenza medica, possa essere meglio sperimentare l’utilizzo dell’intelligenza artificiale simbolica, che invece di imparare dai dati si limita a seguire i comandi iscritti nel suo sistema dai programmatori, risultando così più facilmente controllabile e meno soggetta a pericolose “allucinazioni” (come si definiscono in gergo le situazioni in cui l’intelligenza artificiale produce con sicurezza dei fatti completamente inventati).
“In effetti non voglio nemmeno pensare a cosa potrebbe succedere se usassimo ChatGPT per la selezione dei curriculum o per l’assegnazione del welfare, visto che già affrontiamo moltissimi problemi anche utilizzando algoritmi molto più banali e che poco hanno a che fare con il deep learning”, conclude Diletta Huyskes. “Allo stesso tempo, non dobbiamo neanche cedere alla narrazione secondo cui i sistemi più evoluti siano incontrollabili, che potrebbe potenzialmente diventare una giustificazione nel caso in cui le cose vadano storte. Per quanto sofisticata e in grado di generare risultati a volte impressionanti, l’intelligenza artificiale è un nostro prodotto ed è sempre sotto il nostro controllo. Sta a noi fare le scelte migliori”.
© Riproduzione riservata