Atelier 1: HDFS

1. Configuration du dossier partagé entre la VM Cloudera et le système hôte.
  • Créer un dossier et copier dedans les ressources de TP(fichier texte, csv, …)
  • Clic droit sur le nom de la VM cvm /   param   Configuration  / Général / Avancé / Presse-papier partagé : Bidirectionnel
  • Clic sur   partage / Clic sur      plus      / Choisir un dossier, donner lui un nom de partage et cocher les deux cases Montage automatique et Configuration permanente

shared

  • Démarrer votre VM et lancer un terminal
  • Modifier le clavier en azerty:  setxkbmap    fr
  • Taper la commande:  mkdir   shared_data
  • Taper la commande:  sudo  mount   -t  vboxsf   shared_data     shared_data
  • Un raccourci vers le dossier partagé est ajouté sur le bureau de la VM
2. Comment accéder à votre VM via SSH?
  • Télécharger et installer un client SSH (PuTTYSecure Shell ClientBitVise SSH, ...)
  • Si vous utilisez VirtualBox: Dans la fenêtre de configuration de la VM, modifier le mode d'accès réseau: Accès par pont
    pont_réseau
  • Dans un terminal de votre VM, lancer la commande: ip addr
  • Noter l'adresse IP de votre VM, par exemple 192.168.1.15
  • Lancer un client SSH (PuTTY, Secure Shell Client, BitVise SSH, ...)
  • Se connecter en utilisant l'adresse IP de votre VM. Le nom d'utilisateur et le mot de passe sont respectivement: root , cloudera
  • Vous êtes maintenant connecté au cluster Hadoop
3. Consultation de la configuration de Hadoop
  • Dans un  terminal, afficher le contenu du fichier /etc/hadoop/conf/core-site.xml
  • Quel est l'URL du processus serveur  NameNode de HDFS ainsi que le port?
  • Est-ce que c'est équivalent à localhost ? Pourquoi ?
  • Quel est la valeur du facteur de réplication?

4. Vérification de l'état des services:

  • Utiliser la commande service nomservice status pour vérifier l'état des services suivants:
    • hadoop-hdfs-namenode
    • hadoop-hdfs-secondarynamenode
    • hadoop-hdfs-datanode
    • hadoop-hdfs-journalnode
    • hadoop-yarn-resourcemanager
    • hadoop-yarn-nodemanager

  • Utiliser l'outil jps pour lister les processus Java en cours d'exécution:

      $ sudo  jps  -l  

Noter les différents processus relatifs aux cinq services cités auparavant:

org.apache.hadoop.hdfs.server.namenode.NameNode

org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode

org.apache.hadoop.hdfs.server.datanode.DataNode

org.apache.hadoop.yarn.server.resourcemanager.ResourceManager

org.apache.hadoop.yarn.server.nodemanager.NodeManager

org.apache.hadoop.hdfs.qjournal.server.JournalNode

5. Transférer des fichiers  entre le système hôte et la VM.
On peut utiliser un dossier partager (voir l'étape 1) ou via un client SSH File Transfer.
  • On doit avoir les fichiers  FL_insurance.csv et purchases.txt dans un dossier de votre VM.
6. Commandes HDFS
  • Lister le contenu de la racine HDFS
  • Créer un dossier HDFS  tp dans  /user
  • Copier le fichier local  FL_insurance.csv   vers le dossier HDFS /user/tp
  • Afficher le contenu du dossier HDFS  /user/tp
  • Afficher les dernières lignes du fichier FL_insurance.csv  dans HDFS
  • Récupérer la taille d'un block HDFS:  hdfs    getconf   -confKey  dfs.blocksize
  • Récupérer le facteur de réplication:    hdfs    getconf   -confKey  dfs.replicatio
  • Copier le fichier local  purchases.txt   vers le dossier HDFS  /user/tp
  • Utiliser la commande hdfs  fsck pour afficher un rapport détaillé sur le fichier purchases.txt  dans HDFS.
    • Quel est le nombre de blocs?

    • Quelle est la taille moyenne de chacun?
    • Quel est le facteur de réplication (Default replication factor)?
    • Quel est le nombre de data-nodes contenant les blocs des fichiers du dossier HDFS?
    • Quel est le nombre de blocs corrompus?

  • Modifier le facteur de réplication, valeur 2, du fichier purchases.txt  dans HDFS:

       $ hadoop     fs   -setrep    -w   2   /user/tp/purchases.txt

ou   $ hdfs   dfs        -setrep    -w   2   /user/tp/purchases.txt

NB

N.B: Cette commande prendra beaucoup de temps à s'exécuter si le fichier est volumineux

  • Utiliser la commande hdfs fsck pour afficher un rapport détaillé sur le dossier HDFS  /user/tp
    •   Quel est le nombre de blocs?
    •   Quel est  le facteur de réplication (Default replication factor) ?




  

Modifié le: mardi 21 février 2023, 21:27