Pydoop
Pydoop, un'interfaccia Python per Apache Hadoop
Referenti
Contesto
Nel corso degli anni, l'elenco degli strumenti per l'analisi dei big data ha continuato a crescere costantemente. Tuttavia, non tutti offrono un'API multilinguaggio. Apache Hadoop, per esempio, è scritto in Java e si aspetta che gli utenti scrivano le loro applicazioni in Java. A causa della schiacciante popolarità di Python in tutti i domini, in particolare nel calcolo scientifico, è altamente auspicabile portare il suo ricco set di strumenti nell'ambiente Hadoop.
Descrizione
Pydoop è un'interfaccia Python per Apache Hadoop, che consente sia l'accesso HDFS che la sottomissione di lavori MapReduce.
Tratti innovativi
- facilità d’uso;
- compatibilità con la maggior parte delle librerie Python esistenti, fra cui SciPy e NumPy (estensione CPython)
Potenziali utenti
Chiunque necessiti di processare grosse moli di dati con Python
Settori d'impatto
Calcolo distribuito - calcolo scientifico - analisi di big data