JEENK
Strumenti scalabili per la genomica, realizzati tramite Apache Flink
Scalable genomics tools powered by Apache Flink
Referenti
Contesto
Il rapido progresso delle tecnologie di sequenziamento del DNA e dell'RNA genera un aumento esponenziale del flusso di dati da elaborare da parte dei centri di sequenziamento. Nuove applicazioni a larga scala sono rese possibili dal calo dei costi di acquisizione dei dati, ma sono ostacolate dall'uso di tecniche computazionali convenzionali nell’elaborazione dei dati.
Descrizione
Jeenk è un insieme di strumenti paralleli e distribuiti per la genomica, che introducono l'approccio del flusso computazionale distribuito all'analisi dei dati genomici su larga scala. Jeenk si basa sul framework di flusso dati Apache Flink e utilizza Apache Kafka per il trasporto dei dati.
Si compone di tre strumenti basati su Flink che implementano una pipeline completa da raw-to-CRAM per i dati Illumina:
- Un lettore, che legge i file grezzi proprietari Illumina BCL direttamente dalla directory run del sequencer e li converte in dati in lettura (FASTQ-like), che vengono inviati ad un broker Kafka per la memorizzazione e l'ulteriore elaborazione (simile al bcl2fastq2 di Illumina);
- Un aligner, che allinea le letture ad un genoma di riferimento usando il plugin BWA-MEM attraverso la libreria RAPI (http://github.com/crs4/rapi/);
- Un writer CRAM, che trascrive i file allineati come file CRAM ad alta efficienza di spazio.
Tratti innovativi
- avanzata e ultra-scalabile tecnologia di elaborazione del flusso distribuito;
- tempi di elaborazione ridotti.
Potenziali utenti
Ricercatori di bioinformatica, professionisti dei centri di sequenziamento
Settori d'impatto
Biotecnologie
Ulteriori risorse
- https://github.com/crs4/Jeenk
- F. Versaci, L. Pireddu, G. Zanetti, "Scalable genomics: From raw data to aligned reads on Apache YARN", Proc. IEEE Int. Conf. Big Data (Big Data), pp. 1232-1241, Dec. 2016.
- F. Versaci, L. Pireddu, G. Zanetti, Proc. IEEE EMBS Int. Conf. on Biomedical & Health Informatics (BHI), Vol. 2018, pp. 259-262, 2018