Politecnico, con “ViruSurf” un motore di ricerca per svelare come cambia il genoma

Dall’inizio del 2020, i laboratori di tutto il mondo sequenziano materiale genetico che deriva dai tamponi positivi di persone affette da COVID-19 e depositano poi le sequenze virali in tre principali banche dati: GenBank, COG-UK e GISAID. Per muoversi agilmente in questa enorme mole di dati e “surfare” alla ricerca di connessioni utili alla comprensione del virus, il gruppo di ricerca del Politecnico di Milano guidato dal Prof. Stefano Ceri ha realizzato ViruSurf (http://gmql.eu/virusurf), un motore di ricerca che si avvale di un database centralizzato collocato al Politecnico. Il database viene aggiornato periodicamente e ad oggi contiene 200,516 sequenze di SARS-CoV-2, il virus responsabile della pandemia, e 33,256 sequenze di altre specie, anch’esse associate ad epidemie di interesse per l’uomo, tra cui SARS, MERS, Ebola e Dengue.
Ogni sequenza è descritta secondo quattro prospettive: le caratteristiche del virus e dell’organismo ospite, la tecnologia utilizzata, il progetto di sequenziamento, le mutazioni dei nucleotidi e degli amino acidi che si trovano in diversi geni. Il vantaggio di ViruSurf è di includere un algoritmo che calcola le mutazioni virali in maniera omogenea, ovvero indipendente dalla loro provenienza, gestito su cloud per ridurre i tempi di esecuzione. Il database è ottimizzato per offrire risposte istantanee agli utilizzatori del motore di ricerca.
Tra i diversi sviluppi futuri di ViruSurf, il più importante, finanziato da EIT Digital con un progetto semestrale, è un servizio informatico per elaborare nuove sequenze virali identificando in esse particolari mutazioni associate a maggiore o minore severità e virulenza. Utilizzato in campo medico, in fasi meno acute della pandemia, permetterà di arricchire la “cartella clinica” del paziente con la sequenza del virus che lo ha infettato. Sarà inoltre possibile utilizzare ViruSurf per il monitoraggio dei virus nella gestione di allevamenti e coltivazioni. Il sistema consentirà a breve di tracciare gli epitopi – sequenze di amino acidi del virus che sono critiche per lo sviluppo di vaccini – ad esempio per trovare, per ogni epitopo, le mutazioni della sua sequenza diffuse in alcune regioni del pianeta, che potrebbero pregiudicare l’efficacia del vaccino.
“Nel progetto GeCo, finanziato da European Research Council, avevamo già sviluppato un motore di ricerca per il genoma umano, chiamato GenoSurf; ad inizio pandemia non esisteva un analogo sistema per le sequenze virali. Per comprenderne i requisiti, abbiamo intervistato venti esperti virologi da tutto il mondo. Il risultato è un sistema di semplice utilizzo: chiunque può collegarsi e capire, ad esempio, quando una mutazione virale è apparsa per la prima volta e come si è diffusa nel mondo”—racconta Stefano Ceri, leader del progetto. L’articolo è pubblicato su una rivista di grande rilievo, Nucleic Acids Research (https://doi.org/10.1093/nar/gkaa846), che raccoglie annualmente i database più importanti per la biologia. Hanno contribuito all’articolo anche Pietro Pinoli, progettista degli algoritmi, Arif Canakoglu, software architect, Anna Bernasconi, data designer, Tommaso Alfonsi, responsabile della acquisizione dei dati, e Damianos P. Melidis di L3S (Hannover), autore di alcuni algoritmi.