Bioinformatici

ENGLISH VERSION

La grande quantità di dati che si produrranno e che dovranno essere analizzati, filtrati e memorizzati,
richiederà la messa in opera di una infrastruttura informatica di calcolo e di comunicazione che prevederà il
coinvolgimento di tutti i partner del progetto. In particolare sarà necessario approntare una linea di
comunicazione a banda larga per la trasmissione e l’aggiornamento dei dati di sequenziamento e risequenziamento
prodotti presso IGA Technology Services e i partner siciliani. Si prevede di utilizzare
protocolli standard di comunicazione già utilizzati dalla divisione bioinformatica di IGA per la trasmissione
dei dati alle banche dati internazionali (NCBI) e di immagazzinare e distribuire le sequenze e le immagini
prodotte. La stessa linea di comunicazione verrà inoltre utilizzata per il trasferimento e la condivisione delle
annotazioni e dei risultati dell’analisi strutturale e funzionale dei genomi relativi alle specie e alle varianti
somatiche risequenziate. Questa parte della filiera computazionale richiederà prima di tutto la disponibilità
di grandi quantità di memoria distribuita e di tempo di calcolo adeguato (possibilmente su architetture
parallele e altamente performanti). La disponibilità di opportune quantità di memoria consentirà anche lo
stoccaggio delle immagini prodotte durante le fasi intermedie di sequenziamento\risequenziamento, che
saranno così disponibili anche per le analisi ripetute . Inoltre sarà di particolare importanza anche il

disegno, l’implementazione e lo sviluppo di una famiglia di Data Base Management Systems adatti alle
applicazioni specifiche e alla comunità produttiva per le quali i dati verranno analizzati e immagazzinati.
L’adeguato e omogeneo sviluppo della parte di stoccaggio e la messa in rete ragionata e ottimizzata dei dati
prodotti, sono considerati particolarmente importanti e delicati per l’intero progetto.
Il Consorzio COMETA del apporterà al progetto l’esperienza e l’infrastruttura sviluppati dalla comunità Grid
siciliana, prima con il progetto Trinagria Grid Virtual Laboratory finanziato dalla Regione Sicilia (POR Sicilia
2000‐2006) e poi con il progetto PI2S2 finanziato nell’ambito del bando PON 1575/2004 del MIUR.
L’infrastruttura completa è costituita da 7 cluster dotati di rete a bassa latenza Infiniband per un totale di
circa 2000 core e 300 TB di spazio disco. Il valore aggiunto è costituito dall’esperienza nel gestire questa infrastruttura,
nel provvedere application support verso i propri utilizzatori e nel rendere cosi partecipe il
progetto delle economie di scala rese possibili da questo tipo di infrastrutture.
Per la Regione Sicilia significa avere un ritorno da un investimento infrastrutturale Regionale e Nazionale sul
territorio, cogliendo così i primi frutti della pianificazione sin qui svolta.
La Xenia Progetti ricoprirà un ruolo chiave nella definizione e analisi della piattaforma di comunicazione oggetto
di questo OR per l’invio e lo stoccaggio dei dati di sequenziamento e risequenziamento. Fondamentali
saranno le attività di integrazione dello standard di comunicazione adottato per la trasmissione dei dati alle
banche dati internazionali (NCBI) e le soluzioni di data base management system scelte, così come le
metodologie e i meccanismi da adottare per il trasferimento e la condivisione delle annotazioni e dei
risultati ottenuti dalle analisi strutturali e funzionali genomiche relative alle specie e varianti somatiche
risequenziate.

Le attività previste sono:
Approntamento dello storage, porting delle applicazioni e sviluppo di interfacce dedicate
‐ Trasferimento dei dati e memorizzazione nel sistema storage dell’infrastrutura di COMETA. Questo implica
non solo la procedura di trasferimento verso gli Storage Element di COMETA, ma anche eventuali
metadati necessari per la corretta gestione dei dati.
‐ Allocazione e formattazione dei database per lo storaggio a medio/lungo termine dei dati prodotti dai
sequenziatori. Medio termine per le immagini e lungo termine per le sequenze.
‐ Trasferimento sull’infrastruttura di COMETA delle applicazioni necessarie ad analizzare i dati.

Trasferimento e analisi dei dati prodotti mediante risequenziamento
‐ Trasferimento dei dati sui server esterni alla sede in cui e’ avvenuto il sequenziamento/
risequenziamento e l’assemblaggio.
‐ Coordinamento con i database e ottimizzazione delle procedure di accesso.
Sviluppo della pipeline di allineamento e analisi comparativa delle specie risequenziate sulla sequenza di
riferimento

‐ Profiling di ripetitivita’ e annotazione di base delle specie risequenziate.
‐ Determinazione e tuning dei parametri per l’allineamento delle sequenze prodotte.
‐ Analisi e validazione qualitativa e quantitativa dei risultati e determinazione dei profili di copertura, dei
contenuti in C/G e degli altri parametri di base.
Determinazione, filtraggio e classificazione di single nucleotide polymorphisms (SNPs).
‐ Determinazione e tuning della pipeline per la determinazione degli SNPs, con successive analisi di frequenza
e di affidabilita’ dei dati prodotti.
Sviluppo della pipeline per la determinazione di variazioni strutturali
‐ Determinazione, classificazione e annotazione delle varianti strutturali delle specie risequenziate.
‐ Determinazione e tuning della pipeline per la determinazione delle varianti strutturali (inserimenti/
cancellazioni di tratti nucleotidici) con successive analisi di frequenza e di affidabilità’ dei dati prodotti.