SEAL
applications suite for distributed processing of sequencing data
Referenti
Luca Pireddu, Simone Leo, Gianluigi Zanetti. E-mail: valorisation@crs4.it
Contesto
Il rapido avanzamento delle tecnologie di sequenziamento del DNA e RNA genera un aumento esponenziale del flusso di dati da elaborare dai centri di sequenziamento. Tuttavia, la capacità di elaborazione, storage e trasmissione informatica non cresce in maniera proporzionale. Questa differenza nei tassi di crescita delle due tecnologie rende necessaria l'adozione di tecniche di calcolo distribuito per riuscire a scalare le operazioni di elaborazione dei dati con la crescita delle operazioni di sequenziamento che li producono.
Descrizione
Seal è una suite di applicazioni per l'elaborazione dei dati di sequenziamento che si distingue per la sua scalabilità, permettendo di ampliare la capacità di elaborazione semplicemente aumentando il numero di computer a disposizione mantenendo bassi i costi operativi. Le applicazioni in Seal, infatti, lavorano in maniera distribuita basata sul framework Hadoop, applicando all'elaborazione del DNA gli stessi principi informatici che permettono a realtà come Google, Facebook ed Ebay di elaborare enormi volumi di dati. Al momento Seal è composto da quattro principali applicazioni che permettono di: eseguire il demultiplexing dei read; allineare i read ad un genoma di riferimento; identificare duplicati di PCR; ordinare i read; ricalibrare in maniera empirica la qualità delle basi sequenziate.
Tratti innovativi
- altamente scalabile in ragione del numero di nodi di calcolo e della dimensione dei dati di input;
- resilienza a problemi transienti al centro di calcolo, anche grazie al framework Hadoop su cui è basato;
- facile monitoraggio via Web dell'andamento delle elaborazioni e delle attività in corso.
Potenziali utenti
Ricercatori bioinformatici, centri di sequenziamento.
Settori d'impiego
Centri di ricerca – Università – Istituti ospedalieri – Settore biotecnologico.
Ulteriori risorse
- http://biodoop-seal.sourceforge.net/
- Luca Pireddu, Simone Leo, and Gianluigi Zanetti. Mapreducing a genomic sequencing workflow. In Proceedings of the second international workshop on MapReduce and its applications, MapReduce '11, pages 67–74, New York, NY, USA, 2011.
- Luca Pireddu, Simone Leo, and Gianluigi Zanetti. Seal: a distributed short read mapping and duplicate removal tool. Bioinformatics, 27(15):2159–2160, 2011.