SEAL

applications suite for distributed processing of sequencing data

Referenti

Luca Pireddu, Simone Leo, Gianluigi Zanetti. E-mail: valorisation@crs4.it

seal

Contesto

Il rapido avanzamento delle tecnologie di sequenziamento del DNA e RNA genera un aumento esponenziale del flusso di dati da elaborare dai centri di sequenziamento. Tuttavia, la capacità di elaborazione, storage e trasmissione informatica non cresce in maniera proporzionale. Questa differenza nei tassi di crescita delle due tecnologie rende necessaria l'adozione di tecniche di calcolo distribuito per riuscire a scalare le operazioni di elaborazione dei dati con la crescita delle operazioni di sequenziamento che li producono.

Descrizione

Seal è una suite di applicazioni per l'elaborazione dei dati di sequenziamento che si distingue per la sua scalabilità, permettendo di ampliare la capacità di elaborazione semplicemente aumentando il numero di computer a disposizione mantenendo bassi i costi operativi. Le applicazioni in Seal, infatti, lavorano in maniera distribuita basata sul framework Hadoop, applicando all'elaborazione del DNA gli stessi principi informatici che permettono a realtà come Google, Facebook ed Ebay di elaborare enormi volumi di dati. Al momento Seal è composto da quattro principali applicazioni che permettono di: eseguire il demultiplexing dei read; allineare i read ad un genoma di riferimento; identificare duplicati di PCR; ordinare i read; ricalibrare in maniera empirica la qualità delle basi sequenziate.

Tratti innovativi

  • altamente scalabile in ragione del numero di nodi di calcolo e della dimensione dei dati di input;
  • resilienza a problemi transienti al centro di calcolo, anche grazie al framework Hadoop su cui è basato;
  • facile monitoraggio via Web dell'andamento delle elaborazioni e delle attività in corso.

Potenziali utenti

Ricercatori bioinformatici, centri di sequenziamento.

Settori d'impiego

Centri di ricerca – Università – Istituti ospedalieri – Settore biotecnologico.

Ulteriori risorse

  1. http://biodoop-seal.sourceforge.net/
  2. Luca Pireddu, Simone Leo, and Gianluigi Zanetti. Mapreducing a genomic sequencing workflow. In Proceedings of the second international workshop on MapReduce and its applications, MapReduce '11, pages 67–74, New York, NY, USA, 2011.
  3. Luca Pireddu, Simone Leo, and Gianluigi Zanetti. Seal: a distributed short read mapping and duplicate removal tool. Bioinformatics, 27(15):2159–2160, 2011.

Questo sito utilizza cookie tecnici e assimilati. Possono essere presenti anche cookie profilazione di terze parti. Se vuoi saperne di più o negare il consenso a tutti o ad alcuni cookie leggi l'informativa completa. Proseguendo nella navigazione (anche con il semplice scrolling) acconsenti all'uso dei cookie. This site uses technical and anonymized analytics cookies only. There may also be profiling third-party cookies. Please read the cookie information page to learn more about how we use cookies or blocking them. more information

The cookie settings on this website are set to "allow cookies" to give you the best browsing experience possible. If you continue to use this website without changing your cookie settings or you click "Accept" below then you are consenting to this.

Close