JEENK

Strumenti scalabili per la genomica, realizzati tramite Apache Flink

Scalable genomics tools powered by Apache Flink

Referenti

Francesco Versaci, Luca Pireddu, Gianluigi Zanetti. E-mail: valorisation@crs4.it

Contesto

Il rapido progresso delle tecnologie di sequenziamento del DNA e dell’RNA genera un aumento esponenziale del flusso di dati da elaborare da parte dei centri di sequenziamento. Nuove applicazioni a larga scala sono rese possibili dal calo dei costi di acquisizione dei dati, ma sono ostacolate dall’uso di tecniche computazionali convenzionali nell’elaborazione dei dati.

Descrizione

Jeenk è un insieme di strumenti paralleli e distribuiti per la genomica, che introducono l’approccio del flusso computazionale distribuito all’analisi dei dati genomici su larga scala. Jeenk si basa sul framework di flusso dati Apache Flink e utilizza Apache Kafka per il trasporto dei dati.
Si compone di tre strumenti basati su Flink che implementano una pipeline completa da raw-to-CRAM per i dati Illumina:

Un lettore, che legge i file grezzi proprietari Illumina BCL direttamente dalla directory run del sequencer e li converte in dati in lettura (FASTQ-like), che vengono inviati ad un broker Kafka per la memorizzazione e l’ulteriore elaborazione (simile al bcl2fastq2 di Illumina);
Un aligner, che allinea le letture ad un genoma di riferimento usando il plugin BWA-MEM attraverso la libreria RAPI (http://github.com/crs4/rapi/);
Un writer CRAM, che trascrive i file allineati come file CRAM ad alta efficienza di spazio.

Tratti innovativi

avanzata e ultra-scalabile tecnologia di elaborazione del flusso distribuito;
tempi di elaborazione ridotti.

Potenziali utenti

Ricercatori di bioinformatica, professionisti dei centri di sequenziamento

Settori d’impatto

Biotecnologie

JEENK

JEENK

Strumenti scalabili per la genomica, realizzati tramite Apache Flink

Scalable genomics tools powered by Apache Flink

Referenti

Contesto

Descrizione

Tratti innovativi

Potenziali utenti

Settori d’impatto

Ulteriori risorse

Seguici sui social

CRS4

LINK UTILI