Pydoop

Pydoop, un’interfaccia Python per Apache Hadoop

Referenti

Simone Leo, Gianluigi Zanetti. E-mail: valorisation@crs4.it

Contesto

Nel corso degli anni, l’elenco degli strumenti per l’analisi dei big data ha continuato a crescere costantemente. Tuttavia, non tutti offrono un’API multilinguaggio. Apache Hadoop, per esempio, è scritto in Java e si aspetta che gli utenti scrivano le loro applicazioni in Java. A causa della schiacciante popolarità di Python in tutti i domini, in particolare nel calcolo scientifico, è altamente auspicabile portare il suo ricco set di strumenti nell’ambiente Hadoop.

Descrizione

Pydoop è un’interfaccia Python per Apache Hadoop, che consente sia l’accesso HDFS che la sottomissione di lavori MapReduce.

Tratti innovativi

  • facilità d’uso;
  • compatibilità con la maggior parte delle librerie Python esistenti, fra cui SciPy e NumPy (estensione CPython)

Potenziali utenti

Chiunque necessiti di processare grosse moli di dati con Python

Settori d’impatto

Calcolo distribuito – calcolo scientifico – analisi di big data

Ulteriori risorse

  1. https://crs4.github.io/pydoop/
  2. S. Leo, G. Zanetti, Pydoop: a Python MapReduce and HDFS API for Hadoop. Proceeding HPDC ’10, Proceedings of the 19th ACM International Symposium on High Performance Distributed Computing. Pages 819-825 Chicago, Illinois – June 21 – 25, 2010.