JEENK

JEENK

Strumenti scalabili per la genomica, realizzati tramite Apache Flink

Scalable genomics tools powered by Apache Flink

Referenti

Francesco VersaciLuca Pireddu, Gianluigi Zanetti. E-mail: valorisation@crs4.it

Contesto

Il rapido progresso delle tecnologie di sequenziamento del DNA e dell’RNA genera un aumento esponenziale del flusso di dati da elaborare da parte dei centri di sequenziamento. Nuove applicazioni a larga scala sono rese possibili dal calo dei costi di acquisizione dei dati, ma sono ostacolate dall’uso di tecniche computazionali convenzionali nell’elaborazione dei dati.

Descrizione

Jeenk è un insieme di strumenti paralleli e distribuiti per la genomica, che introducono l’approccio del flusso computazionale distribuito all’analisi dei dati genomici su larga scala. Jeenk si basa sul framework di flusso dati Apache Flink e utilizza Apache Kafka per il trasporto dei dati.
Si compone di tre strumenti basati su Flink che implementano una pipeline completa da raw-to-CRAM per i dati Illumina:

  • Un lettore, che legge i file grezzi proprietari Illumina BCL direttamente dalla directory run del sequencer e li converte in dati in lettura (FASTQ-like), che vengono inviati ad un broker Kafka per la memorizzazione e l’ulteriore elaborazione (simile al bcl2fastq2 di Illumina);
  • Un aligner, che allinea le letture ad un genoma di riferimento usando il plugin BWA-MEM attraverso la libreria RAPI (http://github.com/crs4/rapi/);
  • Un writer CRAM, che trascrive i file allineati come file CRAM ad alta efficienza di spazio.

Tratti innovativi

  • avanzata e ultra-scalabile tecnologia di elaborazione del flusso distribuito;
  • tempi di elaborazione ridotti.

Potenziali utenti

Ricercatori di bioinformatica, professionisti dei centri di sequenziamento

Settori d’impatto

Biotecnologie

Ulteriori risorse

  1. https://github.com/crs4/Jeenk
  2. F. Versaci, L. Pireddu, G. Zanetti, “Scalable genomics: From raw data to aligned reads on Apache YARN”, Proc. IEEE Int. Conf. Big Data (Big Data), pp. 1232-1241, Dec. 2016.
  3. F. Versaci, L. Pireddu, G. Zanetti, Proc. IEEE EMBS Int. Conf. on Biomedical & Health Informatics (BHI), Vol. 2018, pp. 259-262, 2018