In questi giorni non si parla d’altro: la prova del DNA ha permesso di identificare un possibile responsabile dell’omicidio di Yara Gambirasio. E già molti si chiedono se il test sia sicuro, anche se pochi in realtà sanno in che cosa consiste (e la poca conoscenza spesso genera diffidenza).
Il test del DNA è sicuramente la forma più moderna di analisi di un’impronta biologica e viene utilizzato nelle indagini di polizia, ma anche nei casi di accertamento della paternità (e nella vicenda di Yara le due cose sono intrecciate). Esso rappresenta in un certo senso l’estrema evoluzione dell’idea investigativa di impronta digitale. I suoi risultati sono affidabili? Certo, perché, come vedremo, sono altamente probabili!
Per eseguire un test del DNA si uniscono le forze di due discipline sempre più importanti nella società contemporanea: la genetica molecolare e la statistica. La prima permette di penetrare all’interno del nucleo delle cellule degli organismi (tra cui l’uomo) per decifrare l’informazione che definisce ciascun individuo, ovvero il DNA, mentre la seconda analizza questa informazione per caratterizzare la struttura della popolazione nel suo insieme e dimostrare l’unicità di ogni suo componente. Insieme a Marco Fulvio Barozzi abbiamo deciso di cercare di spiegare in modo semplice alcuni aspetti di questa analisi.
Uno ed uno solo. Il DNA è la molecola in cui viene custodita “l’informazione” della vita, scritta in una sequenza di “lettere” biochimiche dette nucleotidi. Il nostro genoma, ovvero l’insieme delle molecole di DNA che definiscono come è fatto un essere umano, è una sorta di libro composto da circa tre miliardi di lettere. Ogni cellula del nostro organismo ne contiene due copie: una di origine paterna e una materna. Una cosa importante, che è alla base del test sul DNA, è che, ad eccezione dei gemelli nati dallo stesso ovulo (omozigoti), non esistono sulla terra due persone con un’identica sequenza di DNA. Ognuno di noi è unico, ed è diverso anche dai suoi genitori e fratelli o sorelle. Le differenze sono molto piccole, inferiori allo 0,1% ma, date le dimensioni del genoma, sono sempre un numero molto grande (lo 0,1% di tre miliardi è tre milioni). Non è qui il caso di dare una spiegazione molecolare di questa unicità, che è però abbastanza evidente, se si pensa al fatto che non ci è mai capitato di incontrare due persone tra loro identiche.
Caino non può nascondersi. Ormai, grazie alle serie televisive, tutti sappiamo che il confronto tra il DNA presente in un reperto biologico (sangue, sperma, capelli, ecc.) e quello di un sospettato permette di stabilire senza ombra di dubbio se l’indagato sia stato o meno sul luogo del delitto (non necessariamente se sia il responsabile del crimine). Solo una persona sulla terra infatti può avere il DNA identico a quello presente nel reperto.
Tuttavia, quando entriamo nei dettagli delle metodiche utilizzate le cose non sono così semplici e non sempre è possibile eseguire in modo ottimale il confronto. Ad esempio quando la quantità di reperto è così piccola da non permettere un’analisi completa del DNA.
In linea teorica la cosa più sicura sarebbe quella di leggere l’intera sequenza del genoma estratto dal reperto, cioè confrontare tutte le 6 miliardi di “lettere” del reperto con quelle del sospettato. Ma questo ancora oggi ha dei costi non sostenibili, soprattutto se vogliamo fare un’analisi di un gran numero di persone come avvenuto nel caso di Yara, dove ne sono state vagliate circa 18.000. E non è solo un problema di costi. E’ anche un problema di tempo richiesto per l’analisi. E di possibili errori tecnici.
La genetica e il calcolo probabilistico. Per fortuna esiste l’analisi genetica, che permette, sulla base di ragionamenti formali rigorosi e di conseguenti tecniche diventate di routine, di giungere a conclusioni praticamente certe in modo molto più semplice, economico e rapido. L’analisi si basa su due principi: la presenza di marcatori genetici e il calcolo probabilistico.
Come marcatori genetici si utilizzano regioni del genoma che sappiamo essere spesso differenti da individuo ad individuo e frequentemente anche tra le due copie del genoma di ogni stesso individuo. Tra queste delle regioni formate da ripetizioni successive (in tandem) di una stessa sequenza molto breve. Ad esempio potremmo immaginare la sequenza GGATGGATGGAT dove l’unità GGAT è ripetuta 3 volte. Possiamo immaginare che un individuo abbia 20 copie di questa sequenza ereditate dal padre e 22 dalla madre. Un altro individuo potrebbe avere 25 copie ereditate da suo padre e 18 da sua madre, e via di seguito. Il numero di varianti, e la loro frequenza nella popolazione è nota. Per cui si può calcolare la probabilità che un individuo porti una certa coppia di varianti.
Per semplificare possiamo immaginare i marcatori genetici come delle palline colorate, blu e rosse. La pallina rossa rappresenta una variante genica con 20 copie della ripetizione e quella blu una variante con 22 copie. Supponiamo che esistano solo queste due possibilità. Mettiamo in un cesto 100 palline, 30 rosse e 70 blu. Come dire che le due varianti hanno una frequenza del 30% e 70% rispettivamente nella popolazione. Poi chiediamo ad una persona bendata di estrarne due e registriamo su un foglio il colore delle palline estratte. La prima presa mettiamo potrebbe essere rosso-rosso (RR). Reintroduciamo le palline nel cesto e ripetiamo l’esperimento un numero molto grande di volte registrando ad ogni presa il colore delle palline della coppia. Possiamo avere quattro tipi di coppie: RR, RB, BR e BB. Se non teniamo conto dell’ordine con cui vengono estratte le palline, RB e BR sono identici e possiamo riassumere il risultato con RR, 2*RB, BB. La domanda è quale la probabilità di avere un individuo con una certa coppia, ad esempio RR. Questo è dato dal prodotto della frequenza di ogni pallina. Ad esempio R ha una frequenza pari a 0.3 (30%) e quindi la probabilità di avere una presa RR è 0.3*0.3 ovvero 0.09, cioè 9 individui ogni cento prenderanno la coppia RR. Con lo stesso ragionamento possiamo calcolare che 49 individui saranno BB, e 42 saranno RB. Un calcolo simile si può fare con palline di tre o 4 o 5 colori differenti. Ovviamente, man mano che aumentano i colori diminuiscono le frequenze e cala perciò il numero di individui che estraggono una certa copia di palline o, nel caso del DNA, che portano una certa coppia di sequenze nel loro genoma.
E’ chiaro che non possiamo identificare con precisione un individuo se prendiamo in considerazione solo una regione. Per rimanere nel caso delle palline che abbiamo fatto prima con due colori differenti, ben 9 individui su 100 avrebbero la coppia RR che è quella meno frequente.
Il trucco qui è quello di considerare molte regioni del tipo indicato prima, ovvero ripetizioni di sequenze molto brevi, dove il numero di ripetizioni varia con una certa frequenza nella popolazione. Per rimanere nel nostro esempio potremmo pensare questa volta di avere dei cubetti di colore differente, con 20 cubetti rossi (r) e 80 cubetti blu (b) ogni cento. In questo caso, seguendo il ragionamento fatto prima, avremmo 4 individui rr, 64 bb e 32 rb.
La domanda che ci possiamo porre è: quanti individui sono contemporaneamente RR e rr? Se non esiste nessuna correlazione tra le due prese (ovvero se sono indipendenti) la probabilità di avere un individuo RR che sia anche rr è data dal prodotto delle probabilità di ogni singola coppia. Così, se la coppia RR ha una probabilità del 9% e quella rr del 4%, il prodotto 0.09 x 0.04 dà 0.0036, che significa che solo 36 individui ogni 100 x 100 = 10.000 possono essere (RR)(rr). Ma ancora 3136 su 10.000 saranno (BB)(bb) e via di seguito.
Insomma, considerando un numero sufficientemente alto di caratteristiche (cubetti, palline, stelline, ecc) o di regioni geniche, con un numero abbastanza elevato di varianti (numero di ripetizioni), si può arrivare ad identificare un individuo con una precisione molto elevata. Ad esempio basta considerare poco più di 10 regioni genomiche come quelle descritte per arrivare a frequenze di un individuo sulla faccia della terra, il che vuol dire che, se non possiamo chiamarla certezza, è senza dubbio qualcosa che gli si avvicina moltissimo. E questo senza dover analizzare l’intero genoma!
Ovviamente, come in ogni azione umana, ci possono sempre essere degli errori. Un esperimento può non venire, ci possono essere inquinamenti (il materiale genico è danneggiato oppure proviene da più individui), o il materiale a disposizione è così poco che non si può analizzare un numero sufficientemente alto di regioni e non si possono ripetere gli esperimenti per scongiurare contaminazioni. Esistono comunque tecniche statistiche che permettono di stabilire il grado di affidabilità del risultato al quale si è pervenuti.
E poi un fatto è dire che una persona (il suo genoma) è sul luogo di un delitto ed un altro è dire che lo ha commesso.