La base di molti degli strumenti bioinformatici sviluppati al CRS4 è Pydoop, uno strato di interfaccia di programmazione efficiente ed estremamente semplificato sovrapposto ad Hadoop, e al contempo offre compatibilità nativa con la suite completa di strumenti Python.
Grazie alla sua implementazione flessibile ed efficiente, si è dimostrato utile in vari ambiti e ha costituito, come gli strumenti ad alta processività per la ricerca dei punti di inserimento di vettori lentivirali nel DNA, il calcolo delle frequenze alleliche dei polimorfismi a singolo nucleotide, o il pre-processamento di sequenze di DNA.
Pydoop è stato ampiamente utilizzato anche al di fuori del CRS4, riscuotendo notevole interesse nella comunità nonché un pubblico apprezzamento anche da aziende private.
Pydoop è stato descritto nella seguente pubblicazione:
- S. Leo, G. Zanetti, Pydoop: a Python MapReduce and HDFS API for Hadoop. Proceeding HPDC '10, Proceedings of the 19th ACM International Symposium on High Performance Distributed Computing. Pages 819-825 Chicago, Illinois - June 21 - 25, 2010.
Il repository open source è mantenuto qui: