Corso di Formazione
Tema ICT/HPC: "Big Data Management"
Aula Magna Ingegneria. Via Marengo, Cagliari
Mercoledì 10 Giugno 2015 -- 9:30 - 18:00
Abstract. La competenza nel campo del Big Data è oggi vista come uno dei più importanti fattori competitivi da parte di numerose aziende, non necessariamente afferenti al settore dell'informatica. È pertanto fondamentale sia l'acquisizione di nuove risorse umane in possesso di tali competenze, che la formazione di quelle già disponibili allo scopo di accrescere la consapevolezza del fenomeno e di fornire solide basi per affrontarlo efficacemente. Il corso illustra, per sommi capi, le principali tecniche e gli strumenti per affrontare le problematiche inerenti l'acquisizione, la conservazione e l'analisi di grosse moli di dati (Big Data).
- Simone Leo - Big Data e Hadoop (09:30) - La prima parte del corso cercherà di dare risposta a diverse domande quali ad esempio il significato e l'origine del termine Big Data, ed ancora da dove nasce il "problema Big Data" e in quali modi è stato e viene risolto. Verrà quindi illustrata la piattaforma Hadoop che è costituita da due parti: HDFS, un file system distribuito e MapReduce, un framework di programmazione. A corollario verrà inoltre descritto Pydoop, un wrapper in Python di MapReduce sviluppato dal CRS4, che consente di scrivere codice MapReduce con la notazione semplificata tipica di Python.
- Luca Pireddu - Scripting e DataWarehouse sui Big Data (11:00) - La seconda parte del corso sarà incentrata su Pig e Hive, due soluzioni open source alternative o complementari a MapReduce, sviluppate per consentire un approccio più semplice, intuitivo e facilmente utilizzabile in molti contesti operativi.
- Marco Enrico Piras - Big Data Infrastructures (14:30) - Nella terza parte del corso verrà illustrato il problema della raccolta efficiente e scalabile dei dati da potenziali sorgenti di Big Data. Inoltre verrà fatta una carrellata su alcuni tra i più popolari software utilizzabili in una pipeline di data streaming in realtime e/o batch analysis.
- Giovanni Delussu e Marco Enrico Piras - Big Data Analytics (16:00) - Nella quarta e ultima parte del corso sarà presentato e discusso un esempio pratico di log collection e data analytics con Logstash ed ElasticSearch.
Sono partner del CRS4 e co-organizzatori dell'evento l'Università degli Studi di Cagliari (UniCA) e l'Ordine degli Ingegneri della Provincia di Cagliari (OIC).
Parole chiave: Big Data, Hadoop, NoSQL, Analytics, Python.
Schede di approfondimento
Progetti recenti:
Tecnologie abilitanti:
Bibliografia ed Eventi scientifici:
Materiali post-evento
- Video
- Video Integrale S. Leo, [Youtube, canale CRS4, durata: 1h 05']
- Video Integrale L. Pireddu, [Youtube, canale CRS4, durata: 1h 22']
- Video Integrale M. E. Piras, [Youtube, canale CRS4, durata: 1h 07']
- Video Integrale G. Delussu, [Youtube, canale CRS4, durata: 46']
- Presentazioni
- S. Leo, Big Data [Slideshare, canale CRS4]
- L. Pireddu, Data warehouse [Slideshare, canale CRS4]
- M. E. Piras, Big Data Infrastructures [Slideshare, canale CRS4]
- G. Delussu e M. E. Piras, Big Data Analytics [Slideshare, canale CRS4]
- Questionario di valutazione dell'apprendimento (risposte esatte: c, b, b, a, d, b, d, b, c, d)