SEAL

SEAL

applications suite for distributed processing of sequencing data

Referenti

Luca PiredduSimone Leo, Gianluigi Zanetti. E-mail: valorisation@crs4.it

seal

Contesto

Il rapido avanzamento delle tecnologie di sequenziamento del DNA e RNA genera un aumento esponenziale del flusso di dati da elaborare dai centri di sequenziamento. Tuttavia, la capacità di elaborazione, storage e trasmissione informatica non cresce in maniera proporzionale. Questa differenza nei tassi di crescita delle due tecnologie rende necessaria l’adozione di tecniche di calcolo distribuito per riuscire a scalare le operazioni di elaborazione dei dati con la crescita delle operazioni di sequenziamento che li producono.

Descrizione

Seal è una suite di applicazioni per l’elaborazione dei dati di sequenziamento che si distingue per la sua scalabilità, permettendo di ampliare la capacità di elaborazione semplicemente aumentando il numero di computer a disposizione mantenendo bassi i costi operativi. Le applicazioni in Seal, infatti, lavorano in maniera distribuita basata sul framework Hadoop, applicando all’elaborazione del DNA gli stessi principi informatici che permettono a realtà come Google, Facebook ed Ebay di elaborare enormi volumi di dati. Al momento Seal è composto da quattro principali applicazioni che permettono di: eseguire il demultiplexing dei read; allineare i read ad un genoma di riferimento; identificare duplicati di PCR; ordinare i read; ricalibrare in maniera empirica la qualità delle basi sequenziate.

Tratti innovativi

  • altamente scalabile in ragione del numero di nodi di calcolo e della dimensione dei dati di input;
  • resilienza a problemi transienti al centro di calcolo, anche grazie al framework Hadoop su cui è basato;
  • facile monitoraggio via Web dell’andamento delle elaborazioni e delle attività in corso.

Potenziali utenti

Ricercatori bioinformatici, centri di sequenziamento.

Settori d’impiego

Centri di ricerca – Università – Istituti ospedalieri – Settore biotecnologico.

Ulteriori risorse

  1. http://biodoop-seal.sourceforge.net/
  2. Luca Pireddu, Simone Leo, and Gianluigi Zanetti. Mapreducing a genomic sequencing workflow. In Proceedings of the second international workshop on MapReduce and its applications, MapReduce ’11, pages 67–74, New York, NY, USA, 2011.
  3. Luca Pireddu, Simone Leo, and Gianluigi Zanetti. Seal: a distributed short read mapping and duplicate removal tool. Bioinformatics, 27(15):2159–2160, 2011.