Strumenti scalabili per la genomica realizzati tramite Apache Flink

JEENK

Strumenti scalabili per la genomica, realizzati tramite Apache Flink

Scalable genomics tools powered by Apache Flink

Referenti

Contesto

Il rapido progresso delle tecnologie di sequenziamento del DNA e dell'RNA genera un aumento esponenziale del flusso di dati da elaborare da parte dei centri di sequenziamento. Nuove applicazioni a larga scala sono rese possibili dal calo dei costi di acquisizione dei dati, ma sono ostacolate dall'uso di tecniche computazionali convenzionali nell’elaborazione dei dati.

Descrizione

Jeenk è un insieme di strumenti paralleli e distribuiti per la genomica, che introducono l'approccio del flusso computazionale distribuito all'analisi dei dati genomici su larga scala. Jeenk si basa sul framework di flusso dati Apache Flink e utilizza Apache Kafka per il trasporto dei dati.
Si compone di tre strumenti basati su Flink che implementano una pipeline completa da raw-to-CRAM per i dati Illumina:

  • Un lettore, che legge i file grezzi proprietari Illumina BCL direttamente dalla directory run del sequencer e li converte in dati in lettura (FASTQ-like), che vengono inviati ad un broker Kafka per la memorizzazione e l'ulteriore elaborazione (simile al bcl2fastq2 di Illumina);
  • Un aligner, che allinea le letture ad un genoma di riferimento usando il plugin BWA-MEM attraverso la libreria RAPI (http://github.com/crs4/rapi/);
  • Un writer CRAM, che trascrive i file allineati come file CRAM ad alta efficienza di spazio.

Tratti innovativi

  • avanzata e ultra-scalabile tecnologia di elaborazione del flusso distribuito;
  • tempi di elaborazione ridotti.

Potenziali utenti

Ricercatori di bioinformatica, professionisti dei centri di sequenziamento

Settori d'impatto

Biotecnologie

Ulteriori risorse

  1. https://github.com/crs4/Jeenk
  2. F. Versaci, L. Pireddu, G. Zanetti, "Scalable genomics: From raw data to aligned reads on Apache YARN", Proc. IEEE Int. Conf. Big Data (Big Data), pp. 1232-1241, Dec. 2016.
  3. F. Versaci, L. Pireddu, G. Zanetti, Proc. IEEE EMBS Int. Conf. on Biomedical & Health Informatics (BHI), Vol. 2018, pp. 259-262, 2018

Questo sito utilizza cookie tecnici e assimilati. Possono essere presenti anche cookie profilazione di terze parti. Se vuoi saperne di più o negare il consenso a tutti o ad alcuni cookie leggi l'informativa completa. Proseguendo nella navigazione (anche con il semplice scrolling) acconsenti all'uso dei cookie. This site uses technical and anonymized analytics cookies only. There may also be profiling third-party cookies. Please read the cookie information page to learn more about how we use cookies or blocking them. more information

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Close