In una logica di screening su larga scala, il progetto SInISA intende integrare nel proprio sistema modalità di analisi genetiche mediante sequenziamento NGS (Next Generation Sequencing). Sarà importante andare a definire come i laboratori di genetica e in particolare i loro sistemi informativi possano e debbano appoggiarsi a infrastrutture ad alte prestazioni in termini di calcolo e di storage, anche per raggiungere i livelli di qualità attesi.
In questo contesto assume un ruolo fondamentale il binomio Intelligenza Artificiale – HPC (High Performance Computing), come sottolineato Carlo Cavazzoni, Head of Digital Infrastructure & Scientific Advisor of Leonardo Labs.
“Per quanto riguarda il sequenziamento del DNA, i dati genomici e l’utilizzo di tecniche di intelligenza artificiale per l’analisi dei dati ottenuti dal sequenziamento, ricopre un ruolo importante l’infrastruttura abilitante per lo svolgimento dei calcoli necessari a questa stessa analisi e all’allineamento delle sequenze del DNA che escono dai sequenziatori in forma disordinata. Uno degli aspetti fondamentali quindi dell’HPC è quello di utilizzare la potenza di calcolo al fine di ordinare queste sequenze che escono in modo frammentato. Ad oggi, la potenza di calcolo è un fattore determinante per poter sviluppare un’Intelligenza Artificiale sempre più accurata e precisa nelle risposte che chiediamo“.
I dati grezzi di sequenziamento, infatti, dovranno essere sottoposti ad analisi specifiche, realizzate con le metodologie e gli strumenti per il calcolo ad alte prestazioni offerte da Leonardo SpA, la quale partecipa al progetto tramite la propria Unità Organizzativa Digital Infrastructure e Leonardo LABS. A questo proposito occorre sottolineare che la pipeline bioinformatica di Leonardo utilizza una piattaforma integrata all’interno del supercalcolatore davinci-1 per supportare le funzioni necessarie allo stoccaggio, allo sviluppo applicativo e al processing dei dati genomici afferenti al progetto.
Cos’è l’HPC (High Performance Computing)
L’High Performance Computing (HPC) si riferisce alla pratica di aggregare la capacità di elaborazione in modo da ottenere una potenza di calcolo molto più elevata rispetto ai computer e ai server tradizionali. Questo approccio permette di processare enormi quantità di dati a velocità estremamente elevate, utilizzando una rete di computer e dispositivi di storage.
Alcuni carichi di lavoro, come il sequenziamento del DNA, sono troppo impegnativi per un singolo computer. Gli ambienti HPC o di supercomputer affrontano queste sfide complesse con singoli nodi (computer) che lavorano insieme in un cluster (gruppo connesso) per eseguire enormi quantità di elaborazione in tempi brevi.
L’elaborazione delle grandi quantità di dati generate dagli esperimenti di sequenziamento del genoma (Next Generation Sequencing) richiede notevole potenza di calcolo, capacità di storage e un ambiente software avanzato. Tutti questi elementi devono essere opportunamente integrati per consentire l’analisi, la ricerca, l’organizzazione e la comparazione dei dati prodotti da centinaia o migliaia di esperimenti NGS.
Nel contesto della genetica, l’AI trova applicazione in una varietà di campi, dalla diagnostica alla terapia, dalla ricerca di base alla medicina personalizzata. Grazie alla sua capacità di gestire e analizzare enormi set di dati genetici, l’IA ha permesso di accelerare il processo di sequenziamento del DNA, identificare varianti genetiche associate a specifiche malattie e sviluppare trattamenti più mirati e personalizzati.