Quanto sono sicuri i vaccini? Il gap tra informazione e machine learning

L’informazione offerta da alcuni mass social media è utile per stimare la probabilità di eventi relativi a fenomeni di cui non abbiamo esperienza diretta? Con l’ausilio del machine learning, Alessandro Fontana tenta di rispondere a questa domanda

22/06/2021

Una delle funzioni dell’intelligenza è quella di fornire una stima della probabilità che certi eventi accadano. Infatti, in un sistema complesso come il mondo in cui viviamo, molti eventi sono teoricamente possibili, ma non tutti sono ugualmente probabili. Ad esempio, la probabilità che io riesca a correre i 100 mt in meno di 10 secondi è probabilmente inferiore allo 0.00001%. Grazie a questa stima, eviterò faticose ed inutili sessioni di allenamento e mi concentrerò su altre discipline, in cui le mie probabilità di successo sono maggiori: ad es. i 200 mt (scherzo!).

Una questione ampiamente dibattuta sui mass-social media (msm) riguarda l’efficacia e la sicurezza dei vaccini. L’eterno dibattito vax-no vax è stato recentemente rinfocolato dalla campagna di vaccinazione anti-Covid. La notizia, riportata con grande risalto da alcuni mass-social media, di casi di trombosi verificatisi a seguito dell’assunzione di alcuni vaccini anti-Covid, ha portato alla decisione di limitare l’uso degli stessi. Senza entrare nel merito delle decisioni specifiche, l’obiettivo di questo articolo è porre la questione se l’informazione offerta da alcuni msm sia utile per stimare la probabilità di eventi relativi a fenomeni di cui non abbiamo esperienza diretta (come ad es. il Covid e relativi vaccini).

Per rispondere alla domanda, farò ricorso a principi e metodi presi a prestito dal campo del Machine Learning. Gli algoritmi di Machine Learning apprendono pattern (concetti) a partire da un dataset (insieme di dati). Esempio: una rete neurale “vede” 1000 immagini di cani e “capisce” cos’è un cane (l’insieme delle immagini rappresenta il dataset, il concetto di “cane” costituisce il pattern appreso). Questo metodo di apprendimento è alla base della maggior parte delle applicazioni di Intelligenza Artificiale in uso in diversi settori, dalla traduzione automatica alla guida autonoma.

La qualità dei pattern appresi dipende dalla qualità del dataset, che a sua volta può risultare non ottimale. La presenza di bias nei dati (ad es. certe professioni sono associate solo ad alcune categorie di persone); uno scarso bilanciamento delle classi (ad es. il dataset contiene 950 immagini di Chihuahua e solo 50 immagini di tutte le altre razze canine): questi sono esempi di fattori che possono compromettere la qualità del dataset. Le carenze del dataset si riflettono nella qualità dei pattern generati dagli algoritmi.

Anche gli esseri umani apprendono a partire dai dati: un processo che ha inizio durante lo sviluppo embrionale e prosegue per tutta la vita. Per questioni di cui possiamo avere esperienza diretta (come ad es. guidare un’automobile) siamo in grado di avere accesso ad un dataset di buona qualità, generato da noi stessi (ad es. mentre viaggiamo in auto, come guidatori o come passeggeri). Questo ci consente di ottenere una stima accurata della probabilità degli eventi che possono influenzare la guida (es.: svenimenti improvvisi, starnuti, bambini che attraversano la strada, incidenti stradali).

Per fenomeni di cui invece non abbiamo esperienza sensoriale diretta (perché troppo rari, o troppo lontani nello spazio o nel tempo) la nostra unica fonte di dati sono i mass-social media: è questo il dataset che il nostro cervello utilizza per apprendere pattern relativi a questo tipo di fenomeni. Ma lo scopo di molti msm non è quello di fornire dati non-biased ma, al contrario, quello di “fare notizia”.

Facciamo un esempio. Se i giornali volessero fornire dati non-biased sull’esito dei vaccini per il Covid, dovrebbero rendere conto di milioni di vaccinazioni in cui non succede assolutamente niente e, molto sporadicamente, dare notizia di una vaccinazione con esito infausto. Concretamente questo significa che un quotidiano dovrebbe avere 10000 pagine (invece di 20), 9980 delle quali dedicate a raccontare le storie di altrettante persone che hanno fatto il vaccino, senza nessun problema…

Ma sarebbe noioso, no? Quello che i giornali invece fanno è dare notizia esclusivamente dei casi infausti. Questo mette a disposizione del nostro cervello un dataset estremamente biased verso gli eventi negativi (contiene solo quelli). E questo, a sua volta, porta i lettori a sovrastimare enormemente la probabilità di occorrenza di tali eventi. Tornando all’esempio della guida, sarebbe come assistere ad un incidente al giorno. Nel caso del machine learning, sarebbe come addestrare un sistema di riconoscimento facciale utilizzando solo immagini di volti femminili: tale sistema “penserà” che il mondo sia abitato solo da donne.

Questo ci porta a riflettere sull’opportunità di ricorrere a (certi) msm per ottenere dati su un fenomeno di cui non abbiamo esperienza e per i quali la percezione sensoriale diretta non è possibile. Forse, in questi casi, sarebbe più opportuno guardare solo le statistiche. Sono io il primo a rendermi conto che non è facile: come disse Giorgio Gaber, capire il problema non vuol dire che il problema è risolto.

Quanto sono sicuri i vaccini? Il gap tra informazione e machine learning

Iscriviti alla newsletter

LE NOSTRE RIVISTE

SEGUICI SUI SOCIAL