ReferenteContestoIl rapido avanzamento delle tecnologie di sequenziamento del DNA e RNA genera un aumento esponenziale del flusso di dati da elaborare dai centri di sequenziamento. Tuttavia, la capacità di elaborazione, storage e trasmissione informatica non cresce in maniera proporzionale. Questa differenza nei tassi di crescita delle due tecnologie rende necessaria l'adozione di tecniche di calcolo distribuito per riuscire a scalare le operazioni di elaborazione dei dati con la crescita delle operazioni di sequenziamento che li producono.
Descrizione
Seal è una suite di applicazioni per l'elaborazione dei dati di sequenziamento che si distingue per la sua scalabilità, permettendo di ampliare la capacità di elaborazione semplicemente aumentando il numero di computer a disposizione mantenendo bassi i costi operativi. Le applicazioni in Seal, infatti, lavorano in maniera distribuita basata sul framework Hadoop, applicando all'elaborazione del DNA gli stessi principi informatici che permettono a realtà come Google, Facebook ed Ebay di elaborare enormi volumi di dati. Al momento Seal è composto da quattro principali applicazioni che permettono di: eseguire il demultiplexing dei read; allineare i read ad un genoma di riferimento; identificare duplicati di PCR; ordinare i read; ricalibrare in maniera empirica la qualità delle basi sequenziate.
Tratti innovativi |