FONDEMENTS DU BIG Data: Atelier 1: HDFS

Atelier 1: HDFS

1. Configuration du dossier partagé entre la VM Cloudera et le système hôte.

Créer un dossier et copier dedans les ressources de TP(fichier texte, csv, …)
Clic droit sur le nom de la VM / Configuration / Général / Avancé / Presse-papier partagé : Bidirectionnel
Clic sur / Clic sur / Choisir un dossier, donner lui un nom de partage et cocher les deux cases Montage automatique et Configuration permanente

2. Comment accéder à votre VM via SSH?

Télécharger et installer un client SSH (PuTTY, Secure Shell Client, BitVise SSH, ...)
Si vous utilisez VirtualBox: Dans la fenêtre de configuration de la VM, modifier le mode d'accès réseau: Accès par pont
Dans un terminal de votre VM, lancer la commande: ip addr
Noter l'adresse IP de votre VM, par exemple 192.168.1.15
Lancer un client SSH (PuTTY, Secure Shell Client, BitVise SSH, ...)
Se connecter en utilisant l'adresse IP de votre VM. Le nom d'utilisateur et le mot de passe sont respectivement: root , cloudera
Vous êtes maintenant connecté au cluster Hadoop

3. Consultation de la configuration de Hadoop

Dans un terminal, afficher le contenu du fichier /etc/hadoop/conf/core-site.xml
Quel est l'URL du processus serveur NameNode de HDFS ainsi que le port?
Est-ce que c'est équivalent à localhost ? Pourquoi ?
Quel est la valeur du facteur de réplication?

4. Vérification de l'état des services:

Utiliser la commande service nomservice status pour vérifier l'état des services suivants:

Utiliser l'outil jps pour lister les processus Java en cours d'exécution:

$ sudo jps -l

Noter les différents processus relatifs aux cinq services cités auparavant:

org.apache.hadoop.hdfs.server.namenode.NameNode

org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode

org.apache.hadoop.hdfs.server.datanode.DataNode

org.apache.hadoop.yarn.server.resourcemanager.ResourceManager

org.apache.hadoop.yarn.server.nodemanager.NodeManager

org.apache.hadoop.hdfs.qjournal.server.JournalNode

5. Transférer des fichiers entre le système hôte et la VM.

On peut utiliser un dossier partager (voir l'étape 1) ou via un client SSH File Transfer.

On doit avoir les fichiers FL_insurance.csv et purchases.txt dans un dossier de votre VM.

6. Commandes HDFS

Lister le contenu de la racine HDFS
Créer un dossier HDFS tp dans /user
Copier le fichier local FL_insurance.csv vers le dossier HDFS /user/tp
Afficher le contenu du dossier HDFS /user/tp
Afficher les dernières lignes du fichier FL_insurance.csv dans HDFS
Récupérer la taille d'un block HDFS: hdfs getconf -confKey dfs.blocksize
Récupérer le facteur de réplication: hdfs getconf -confKey dfs.replicatio
Copier le fichier local purchases.txt vers le dossier HDFS /user/tp
Utiliser la commande hdfs fsck pour afficher un rapport détaillé sur le fichier purchases.txt dans HDFS.

Quel est le nombre de blocs?
Quelle est la taille moyenne de chacun?
Quel est le facteur de réplication (Default replication factor)?
Quel est le nombre de data-nodes contenant les blocs des fichiers du dossier HDFS?
Quel est le nombre de blocs corrompus?

Modifier le facteur de réplication, valeur 2, du fichier purchases.txt dans HDFS:

$ hadoop fs -setrep -w 2 /user/tp/purchases.txt

ou $ hdfs dfs -setrep -w 2 /user/tp/purchases.txt

N.B: Cette commande prendra beaucoup de temps à s'exécuter si le fichier est volumineux

Utiliser la commande hdfs fsck pour afficher un rapport détaillé sur le dossier HDFS /user/tp

Modifié le: mardi 21 février 2023, 21:27