Atelier 1: Tables normales
Utilisation du Shell Hive
1. Dans un terminal, lancer la commande: hive
2. Créer la BD analyse: hive> CREATE DATABASE
analyse;
3. Afficher le contenu du dossier HDFS : /user/hive/warehouse
4. Afficher les bases de données existance et choisir la BD analyse :
hive> show databases;
hive> Use analyse
5. Créer la table interne vol1 (year, month , day , fl , dep , arr , distance )
hive> CREATE TABLE vol1
( year INT, month INT, day INT, fl STRING, dep STRING, arr STRING, distance INT )
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\;'
STORED AS TEXTFILE;
6. Afficher la liste des tables de la BD courante.
7. Consulter le Metastore pour avoir le schéma de la table vol1:
hive> DESCRIBE
vol1 ;
8. Charger le fichier local vol.csv dans la table vol1
9. Consulter de la table: hive> SELECT year, dep, COUNT(fl)
FROM vol1
GROUP BY dep, year;
N.B: Remarquez les jobs Map-Reduce crées.
10. Créer la table externe vol2 (year, month, day, fl, dep, arr, distance) en indiquant son dossier HDFS de données qu'il faut créer, par exemple: /user/cloudera/hive/data/db
11. Copier le fichier local vol.csv dans le dossier HDFS: /user/cloudera/hive/data/db
12. Effectuer une requête HQL sur la table vol2.
13. Charger le fichier local vol.csv dans la table
vol2 sans l'option overwrite.
14. Afficher le contenu du dossier HDFS: /user/cloudera/hive/data/db
15. Afficher les métadonnées détaillées de la table vol2.
16. Exécuter séparément les deux requêtes:
SELECT * FROM vol2; |
SELECT year, dep, COUNT(fl) FROM vol1 GROUP BY dep, year; |
Quelle est la différence entre les deux lors de leur exécution?
Gérer les données avec Apache Hue (Hadoop User Experience)
•L'éditeur web de Hive est accéssible via l'URL: http://localhost:8888/hue
• Cliquer sur le lien (à gauche de l'interface Hue) plusieurs
fois jusqu'à avoir Sources
• Cliquer sur Hive pour avoir accès aux BD déjà créées.
• Cliquer sur la BD analyse pour avoir ses tables
• Cliquer sur le raccourci + pour créer une nouvelle table.
•Remplir les champs comme suit puis cliquer sur Next:
• Remplir les champs comme suit
Name: analyse. vol
Format: Text
Fields: year:int , month:int, day:int, flight:string, depart:string, destination:string, distance:int
• Cliquer sur Submit
• Les détails de la table créée seront affichés:
• Choisir: Query / Editor / Hive
• Saisir la requête suivante puis cliquer sur le petit triangle bleu pour l'exécuter:
•Refaire la même chose pour:
Modifié le: mercredi 26 mai 2021, 16:32