Planning


S1: Introduction général

- Définitions: traces numériques, Big Data en tant que phénomène, domaines d'utilisation.

- Croissance des données: Exemples (Facebook, Youtube, mail, ...)

- Ordre de grandeurs: Petabyte, Exabyte, Zettabyte, yottabyte)

- Données en mouvement - Données au repos

- Intégration Big Data - SI 

- Système traditionnel (SGBD) Vs Environnement Big Data (Ecosystème pour stockage et traitement)



S2: Eco-système Hadoop: Architecture globale,  HDFS (NameNode, ....)



S3: HDFS (HA ,  Lecture/Ecriture d'un fichier HDFS), Atelier 




S4: MapReduce: architecture (JobTracker/TaskTracker), étapes d'exécution d'un programme, phases de traitement: Map, Combine, Shuffle, Reduce



S5: MapReduce(limites), Yarn, Atelier



S6: Atelier (suite)



S7: Pig: abstraction, architecture, modèle de données, structure générale d'un script pig, opérateurs



S8: Pig (suite d'opérateurs), Atelier



S9: Hive: abstraction, architecture, HQL



S10: Hive (tables partitionnées), Atelier 



S11: Hive (bucketed tables) , Atelier



S12: HBase, Atelier



S13: HBase, Atelier



S14: Sqoop

.... (Autres composants et outils ????)



Modifié le: lundi 20 février 2023, 21:43