Dati raccolti di fretta e non diversificati, differenze tra nazioni e una complessità difficile da gestire: la pandemia si è rivelata troppo ardua anche per il deep learning, ma la colpa è soprattutto nostra
- Nonostante le grandi aspettative e i primi successi, due studi hanno dimostrato come praticamente nessun software basato su intelligenza artificiale si sia rivelato utile nel contrasto della pandemia
- Come sempre nel caso dell’intelligenza artificiale, il risultato dipende prima di tutto dalla bontà dei dati utilizzati per l’addestramento, e in questo settore sono stati commessi parecchi errori
- Preparandoci alla prossima pandemia, dobbiamo ricordare che l’intelligenza artificiale è uno strumento che può potenzialmente aiutare in queste situazioni eccezionali: siamo noi che dobbiamo imparare a usarla meglio.
Nell’ottobre 2020, nel pieno della pandemia, veniva presentato un sistema basato su deep learning in grado di individuare chi avesse contratto il Covid solo registrando e ascoltando la sua voce o dei brevi colpi di tosse. Tramite un’app per smartphone, questo software prometteva di riconoscere le persone infette, anche se asintomatiche, in maniera immediata e non invasiva.
Due anni dopo, di questo sistema si sono perse le tracce. Non è un caso unico: se la pandemia poteva essere il primo grande test per mettere alla prova le abilità dell’intelligenza artificiale in campo medico – e dimostrare la sua utilità per la società – oggi possiamo dire che il test è fallito.
Tecnologie promettenti
E pensare che tutto sembrava partito con il piede giusto. I software predittivi si erano per esempio dimostrati più rapidi degli esseri umani a monitorare la diffusione del misterioso nuovo virus partito da Wuhan. Come racconta l’Harvard Business Review, «il sistema HealthMap impiegato dal Boston Children Hospital, che raccoglie notizie online e dai social media, era riuscito a individuare già i primi segnali di contagio».
Mentre il mondo precipitava nel lockdown, le aspettative nei confronti dell’intelligenza artificiale – l’innovazione tecnologica più importante dell’ultimo decennio – e della sua capacità di contrastare la diffusione del Covid non facevano che aumentare.
Dal già citato sistema in grado di individuare la malattia dai colpi di tosse, al software che l’avrebbe scovata osservando le Tac ai polmoni, fino agli strumenti in grado di prevedere quali pazienti avrebbero sviluppato una sindrome più severa o come si sarebbe diffuso il virus sulla base dei provvedimenti attuati. In alcuni casi, i cui studi sono stati anche pubblicati su riviste come Lancet, ci si attendeva che il deep learning potesse giocare un ruolo da protagonista anche nello sviluppo di farmaci o nella riconversione di quelli già disponibili.
Secondo uno studio pubblicato sul British Medical Journal, tutti gli strumenti predittivi basati su deep learning per la diagnosi e la prognosi del Covid-19 hanno invece dato scarsi risultati non appena dalle simulazioni si è passati ai casi reali. Su 232 algoritmi analizzati nello studio, soltanto due sono stati segnalati come abbastanza promettenti da giustificare ulteriori test.
Una ricerca dell’Università di Cambridge ha invece analizzato oltre 400 strumenti di deep learning usati per diagnosticare il Covid tramite radiografie, Tac e simili, dichiarandoli tutti, per diverse ragioni, inutilizzabili. Tutto ciò nonostante le immense risorse investite nello sviluppo di questi sistemi: nel 2020, il 55 per cento del budget governativo statunitense in “ricerca e sviluppo in servizi per la salute e l’essere umano” è stato dedicato alla lotta al Covid.
Finanziamenti ovviamente disponibili anche ai ricercatori che studiavano soluzioni basate su intelligenza artificiale e a cui si aggiungevano le risorse messe a disposizione, per fare solo due esempi, da colossi come Microsoft e da realtà specializzate come C3.ai.
Il fallimento dell’Ia
Cos’ha provocato questo clamoroso fallimento? Come sempre nel caso del deep learning, la bontà dei risultati dipende prima di tutto dalla bontà dei dati utilizzati per l’addestramento: «Le informazioni sui pazienti Covid, comprese le Tac, sono state raccolte e condivise nel bel mezzo di una pandemia, spesso dagli stessi dottori che nel frattempo lottavano per curare i loro pazienti», spiega la MIT Tech Review. «I ricercatori miravano invece a dare il loro contributo il prima possibile usando gli unici dataset disponibili. Ciò ha però comportato l’utilizzo di dati etichettati in maniera frettolosa o provenienti da fonti ignote».
Derek Driggs, primo firmatario dello studio di Cambridge, ha spiegato come tutto ciò abbia dato vita a dei «dataset Frankenstein»: messi assieme da molteplici fonti, che potevano contenere duplicati o creati senza pensare ai possibili fraintendimenti da parte della macchina. Per esempio, alcuni dataset contenevano un mix di Tac fatte su pazienti in posizione eretta o sdraiata.
Poiché i pazienti su cui è veniva fatta la Tac mentre erano sdraiati avevano più probabilità di essere seriamente ammalati, il sistema di deep learning – che funziona su basi statistiche – ha erroneamente imparato a prevedere la gravità della malattia non sulla base di ciò che era riportato nella Tac, ma dalla posizione del paziente.
Allo stesso modo, alcuni ricercatori hanno utilizzato delle Tac al torace di bambini che non avevano avuto il Covid per insegnare al sistema di intelligenza artificiale a riconoscere i casi in cui il virus era assente dall’organismo. Poiché sono però state usate a questo scopo solo Tac di bambini, il sistema ne ha dedotto che i ragazzini non prendono mai il Covid. Con il senno di poi, si tratta di mancanze che ogni ricercatore avrebbe potuto evitare e che si potrebbero sicuramente risolvere in futuro. Questi errori mostrano però in quali facili tranelli si possa cascare quando si lavora di corsa e in situazioni di emergenza.
Problemi nei dati
Se non bastasse, i dati sono stati raccolti da nazioni diverse, che li gestiscono differentemente e non hanno un unico sistema di classificazione; in altri casi sono stati omessi elementi fondamentali come lo storico del paziente e le sue caratteristiche demografiche, sociali e personali. Dettagli che possono sembrare secondari, ma che se tralasciati possono condurre a gravi discriminazioni. Uno studio pubblicato su Science ha per esempio mostrato come, negli Stati Uniti, un algoritmo assegnasse ai pazienti neri gli stessi livelli di rischio dei bianchi, nonostante i primi – probabilmente per via delle cure di qualità mediamente inferiore – avessero in realtà molta più probabilità di sviluppare casi gravi di Covid. A causa di questi errori, invece di aiutare ad allocare meglio le risorse, gli algoritmi impiegati potrebbero addirittura aver peggiorato il problema che erano chiamati a risolvere.
Ci sono stati poi problemi nella raccolta di dati sufficientemente diversificati da rappresentare l’intera popolazione mondiale, differenze a livello di raccolta e condivisione dei dati medici tra nazioni sviluppate e in via di sviluppo, differenze in termini di privacy e altre di tipo istituzionale, culturale, economico e sociopolitico.
In generale, quindi, il problema non risiedeva soltanto nei dati incompleti, errati o frammentari, ma anche nell’eccessiva quantità di dati e variabili da prendere in considerazione: individuare correttamente dei pattern in un contesto così incredibilmente vasto e diversificato si è dimostrato una missione ardua anche per il deep learning (come già avevano mostrato i flop di altri due sistemi usati in campo medico e basati su big data: Watson di IBM e Google Flu Trends, il sistema di Google per prevedere l’entità della stagione influenzale).
Le correzioni necessarie
È possibile correggere gli errori e creare modelli predittivi utilizzabili in caso di epidemia? Probabilmente sì, ma le migliorie da apportare non sono da poco. Prima di tutto, è necessario che i dataset sanitari abbiano dei formati standardizzati a livello internazionale, il che semplificherebbe enormemente la corretta raccolta dei dati. È poi fondamentale che i database siano diversificati e non trascurino nessuna delle categorie tradizionalmente sottorappresentate. Una volta raccolti correttamente i dati, servono poi delle regole internazionali per la loro condivisione.
Infine c’è un problema di collaborazione tra ricercatori, che sono incentivati dalle regole del mercato a produrre ciascuno il proprio modello invece di testare approfonditamente quelli già in uso: «I modelli sono tutti molto simili – usano quasi sempre le stesse tecniche e gli stessi input, con piccole differenze – e fanno tutti gli stessi errori», ha spiegato Laure Wynants, autrice dello studio pubblicato da BMJ. «Se tutte le persone che creano nuovi modelli testassero invece quelli che sono già disponibili, forse oggi avremmo a disposizione qualcosa di davvero utilizzabile negli ospedali».
Preparandoci alla prossima pandemia, è quindi da tenere a mente soprattutto un aspetto: l’intelligenza artificiale è uno strumento che può potenzialmente aiutare in queste situazioni eccezionali; siamo noi che dobbiamo imparare a usarla meglio.
© Riproduzione riservata