Planning
S1: Introduction général
- Définitions: traces numériques, Big Data en tant que phénomène, domaines d'utilisation.
- Croissance des données: Exemples (Facebook, Youtube, mail, ...)
- Ordre de grandeurs: Petabyte, Exabyte, Zettabyte, yottabyte)
- Données en mouvement - Données au repos
- Intégration Big Data - SI
- Système traditionnel (SGBD) Vs Environnement Big Data (Ecosystème pour stockage et traitement)
S2: Eco-système Hadoop: Architecture globale, HDFS (NameNode, ....)
S3: HDFS (HA , Lecture/Ecriture d'un fichier HDFS), Atelier
S4: MapReduce: architecture (JobTracker/TaskTracker), étapes d'exécution d'un programme, phases de traitement: Map, Combine, Shuffle, Reduce
S5: MapReduce(limites), Yarn, Atelier
S6: Atelier (suite)
S7: Pig: abstraction, architecture, modèle de données, structure générale d'un script pig, opérateurs
S8: Pig (suite d'opérateurs), Atelier
S9: Hive: abstraction, architecture, HQL
S10: Hive (tables partitionnées), Atelier
S11: Hive (bucketed tables) , Atelier
S12: HBase, Atelier
S13: HBase, Atelier
S14: Sqoop
.... (Autres composants et outils ????)