L’Intelligenza artificiale e i progressi della chimica. L'analisi di Valori

Uno degli obiettivi principali della chimica è comprendere la materia, le sue proprietà e i cambiamenti che può subire. Negli ultimi anni ha anche beneficiato degli sviluppi nel campo dell’informatica e della meccanica quantistica. Con gli attuali progressi nell’IA potremmo assistere a un cambiamento in cui i metodi computazionali vengono utilizzati non solo per assistere gli esperimenti di laboratorio, ma anche per guidarli. L’analisi di Giancarlo Elia Valori

19/09/2023

Con l’avvento della tecnologia dell’intelligenza artificiale, nel campo della chimica, i metodi tradizionali basati su esperimenti e modelli fisici vengono gradualmente integrati con paradigmi di machine learning basati sui dati. Sono sviluppate sempre più rappresentazioni di dati per l’elaborazione informatica, che vengono costantemente adattate a modelli statistici che sono principalmente generativi.

Anche se l’ingegneria, la finanza e il business trarranno grandi benefici dai nuovi algoritmi, i vantaggi non derivano solo dagli algoritmi. L’informatica su larga scala è parte integrante degli strumenti della scienza fisica da decenni e alcuni recenti progressi nel campo dell’intelligenza artificiale hanno iniziato a cambiare il modo in cui vengono effettuate le scoperte scientifiche.

C’è grande entusiasmo per i risultati eccezionali ottenuti nelle scienze fisiche, come l’uso dell’apprendimento automatico per riprodurre immagini di buchi neri o il contributo di AlphaFold, un programma di intelligenza artificiale sviluppato da DeepMind (Alphabet/Google) per predire la struttura tridimensionale delle proteine.

Uno degli obiettivi principali della chimica è comprendere la materia, le sue proprietà e i cambiamenti che può subire. Ad esempio, quando cerchiamo nuovi superconduttori, vaccini o qualsiasi altro materiale con le proprietà che desideriamo, ci rivolgiamo alla disciplina della chimica.

Tradizionalmente, pensiamo che la chimica venga praticata in laboratori con provette, beute (recipienti generalmente graduati, con base tronco-conica e collo cilindrico) e bruciatori a gas. Però negli ultimi anni ha anche beneficiato degli sviluppi nel campo dell’informatica e della meccanica quantistica, entrambi diventati importanti a metà del sec. XX secolo. Le prime applicazioni includono l’uso dei computer per risolvere calcoli di formule basate sulla fisica; o combinando la chimica teorica con la programmazione informatica, si è stati in grado di simulare (anche se tutt’altro che perfettamente) sistemi chimici. Alla fine, questo lavoro si è sviluppato nel sottogruppo ora noto come chimica computazionale. Questo settore ha iniziato a svilupparsi negli anni Settanta e a questo proposito sono stati assegnati i premi Nobel nel 1998 al britannico John A. Pople (per il suo sviluppo di metodi computazionali in chimica quantistica: metodo Pariser-Parr-Pople), e nel 2013 all’austriaco Martin Karplus, al sudafricano Michael Levitt, e all’israeliano Arieh Warshel per lo sviluppo di modelli multiscala per sistemi chimici complessi.

Anche così, sebbene la chimica computazionale abbia ottenuto un crescente riconoscimento negli ultimi decenni, è molto meno importante degli esperimenti condotti in laboratorio, che rappresentano la pietra angolare della scoperta.

Però, con gli attuali progressi nell’intelligenza artificiale, nelle tecnologie incentrate sui dati e in loro quantità sempre crescenti, potremmo assistere a un cambiamento in cui i metodi computazionali vengono utilizzati non solo per assistere gli esperimenti di laboratorio, ma anche per guidarli.

Quindi, come fa l’intelligenza artificiale a realizzare questa trasformazione? Uno sviluppo particolare è l’applicazione dell’apprendimento automatico alla scoperta dei materiali e alla progettazione molecolare, due problemi fondamentali in chimica.

Nei metodi tradizionali, la progettazione delle molecole è approssimativamente divisa in diverse fasi. È importante notare che ogni fase può richiedere diversi anni e molte risorse, ed il successo non è affatto garantito. Le fasi della scoperta della sostanza chimica sono: sintesi, isolamento e test, convalida, approvazione e commercializzazione.

La fase di scoperta si basa su quadri teorici sviluppati nel corso dei secoli per guidare la progettazione molecolare. Quando si cercano però materiali “utili” (es. gel di petrolio [vaselina], politetrafluoroetilene [teflon], penicillina, ecc.) bisogna ricordare che molti di essi provengono da composti comunemente presenti in natura. Inoltre, l’utilità di questi composti spesso viene scoperta solo a posteriori. Al contrario, una ricerca mirata è un’impresa che richiede più tempo e risorse (e anche in questo caso potrebbe essere necessario utilizzare composti noti “utili” come punto di partenza). Per dare un’idea al lettore, lo spazio chimico farmacologicamente attivo (cioè il numero di molecole) è stato stimato in 1060! Anche prima delle fasi di test e dimensionamento, la ricerca manuale in uno spazio di questo tipo può richiedere molto tempo e risorse. Per cui come può l’intelligenza artificiale entrare in tutto questo e accelerare la scoperta della sostanza chimica?

Innanzitutto, l’apprendimento automatico migliora i metodi esistenti di simulazione degli ambienti chimici. Abbiamo già accennato al fatto che la chimica computazionale ci consente di evitare parzialmente gli esperimenti di laboratorio. Tuttavia, i calcoli di chimica computazionale che simulano i processi quantomeccanici sono scarsi sia in termini di costi computazionali che di accuratezza delle simulazioni chimiche.

Un problema centrale nella chimica computazionale è risolvere l’equazione del fisico Erwin Schrödinger (1887-1961) del 1926. Lo scienziato descrisse il comportamento di un elettrone orbitante attorno al nucleo come quello di un’onda stazionaria; propose, quindi, un’equazione, detta equazione d’onda con la quale rappresentare l’onda associata all’elettrone. A questo proposito l’equazione è per molecole complesse, ovvero, date le posizioni di un insieme di nuclei e il numero totale di elettroni, vanno calcolate le proprietà di interesse. Soluzioni esatte sono possibili solo per sistemi a singolo elettrone, mentre per gli altri sistemi dobbiamo fare affidamento su approssimazioni “sufficientemente buone”. Inoltre, molti metodi comuni per approssimare l’equazione di Schrödinger scalano in modo esponenziale, rendendo difficili da risolvere le soluzioni forzate. Nel corso del tempo sono stati sviluppati molti metodi per velocizzare i calcoli senza sacrificare sin troppa precisione. Tuttavia, anche alcuni metodi “più economici” possono causare colli di bottiglia a livello computazionale.

Un modo in cui l’intelligenza artificiale può accelerare questi calcoli è combinandoli con l’apprendimento automatico. Un altro approccio ignora completamente la modellazione dei processi fisici mappando direttamente le rappresentazioni molecolari sulle proprietà desiderate. Entrambi i metodi consentono ai chimici di esaminare in modo più efficiente i database per varie proprietà, come la carica atomica, l’energia di ionizzazione, ecc.

Pur se calcoli più rapidi rappresentano un miglioramento, non risolvono il fatto che siamo ancora limitati ai composti conosciuti, che rappresentano solo una piccola parte dello spazio chimico attivo. Dobbiamo ancora specificare manualmente le molecole che vogliamo analizzare. Come possiamo invertire questo paradigma e progettare un algoritmo per cercare nello spazio chimico e trovare sostanze candidate adatte? La risposta potrebbe risiedere nell’applicazione di modelli generativi ai problemi di scoperta molecolare.

Ma prima di affrontare questo argomento, vale la pena parlare di come rappresentare numericamente le strutture chimiche (e cosa può essere utilizzato per la modellazione generativa). Negli ultimi decenni sono state sviluppate molte rappresentazioni, la maggior parte delle quali rientra in una delle quattro categorie: stringhe, file di testo, matrici e grafici.

Naturalmente, le strutture chimiche possono essere rappresentate come matrici. Inizialmente, le rappresentazioni di matrici delle molecole venivano utilizzate per facilitare le ricerche nei database chimici; tuttavia, all’inizio degli anni Duemila è stata introdotta una nuova rappresentazione di matrici chiamata Ecfp (Extended Connectivity Fingerprint): in informatica, la fingerprint o impronta di un file è una sequenza alfanumerica o stringa di bit di lunghezza prefissata che identifica quel file con le caratteristiche intrinseche stesse del file. L’Ecfp è stato specificamente progettato per catturare caratteristiche legate all’attività molecolare ed è spesso considerato una delle prime caratterizzazioni nei tentativi di prevedere le proprietà molecolari.

Le informazioni sulla struttura chimica possono anche essere trasferite in un file di testo, un output comune dei calcoli di chimica quantistica. Questi file di testo possono contenere informazioni molto ricche, tuttavia generalmente non sono molto utili come input per i modelli di apprendimento automatico. D’altra parte, la rappresentazione tramite stringa codifica molte informazioni nella sua sintassi. Ciò li rende particolarmente adatti alla modellazione generativa, appunto come la generazione di testo.

Infine, la rappresentazione basata su grafici è più naturale, e non solo ci consente di codificare proprietà specifiche dell’atomo negli incorporamenti dei nodi, ma cattura anche i legami chimici negli incorporamenti dei bordi. Inoltre, se combinata con lo scambio di messaggi, la rappresentazione grafica ci consente di interpretare (e configurare) l’influenza di un nodo su un altro nodo da parte dei suoi viciniori, che rispecchia il modo in cui gli atomi in una struttura chimica interagiscono tra loro. Queste proprietà rendono le rappresentazioni basate su grafici il tipo di rappresentazione di input preferito per i modelli di deep learning.

L’Intelligenza artificiale e i progressi della chimica. L’analisi di Valori

LE NOSTRE RIVISTE

SEGUICI SUI SOCIAL