Atelier 1: Tables normales

Utilisation du Shell Hive
1. Dans un terminal, lancer la commande: hive
2. Créer la BD   analyse:    hive>   CREATE  DATABASE  analyse;
3. Afficher le contenu du dossier HDFS  :   /user/hive/warehouse
4. Afficher les bases de données existance et choisir la BD analyse : 
hive>  show databases;
hive>   Use  analyse
5. Créer la table interne  vol1 (year, month , day , fl  , dep   ,   arr , distance )

hive> CREATE TABLE  vol1 

         ( year  INT, month  INT, day  INT, fl  STRING,   dep  STRING,   arr  STRING, distance INT )

         ROW  FORMAT  DELIMITED FIELDS  TERMINATED  BY  '\;'  

         STORED AS TEXTFILE;

6. Afficher la liste des tables de la BD courante.
7. Consulter le Metastore pour avoir le schéma de la table vol1:    
hive> DESCRIBE  vol1 ;
8. Charger le fichier local vol.csv dans la table vol1
9. Consulter de la table:   hive>   SELECT       year, dep, COUNT(fl)

                                                     FROM          vol1
                                                     GROUP BY  dep, year;

       N.B: Remarquez les jobs Map-Reduce crées.

10. Créer la table externe  vol2 (year, month, day, fl, dep,   arr, distance)  en indiquant son dossier HDFS de données  qu'il faut créer, par exemple: /user/cloudera/hive/data/db
11. Copier le fichier local vol.csv dans le dossier HDFS: /user/cloudera/hive/data/db
12. Effectuer une requête HQL sur la table vol2.
13. Charger le fichier local vol.csv dans la table vol2 sans l'option overwrite.
14. Afficher le contenu du dossier HDFS: /user/cloudera/hive/data/db
15. Afficher les métadonnées détaillées de la table vol2.
16. Exécuter séparément les deux requêtes:        
SELECT   * 
FROM vol2;
SELECT      year, dep, COUNT(fl)
FROM          vol1
GROUP BY  dep, year;

Quelle est la différence entre les deux lors de leur exécution?

Gérer les données avec Apache Hue (Hadoop User Experience)
•L'éditeur web de Hive est accéssible via l'URL: http://localhost:8888/hue
• Cliquer sur le lien hive1 (à gauche de l'interface Hue) plusieurs fois jusqu'à avoir Sources
• Cliquer sur Hive pour avoir accès aux BD déjà créées.sources
• Cliquer sur la BD analyse pour avoir ses tables
• Cliquer sur le raccourci + pour créer une nouvelle table.
•Remplir les champs comme suit puis cliquer sur Next:
format
• Remplir les champs comme suit

                      Name: analyse. vol

                      Format: Text

                      Fields:  year:int , month:int, day:int, flight:string, depart:string,   destination:string,  distance:int

• Cliquer sur Submit
• Les détails de la table créée seront affichés:
• Choisir:  Query / Editor / Hive
• Saisir la requête suivante puis cliquer sur le petit triangle bleu pour l'exécuter:
requête
•Refaire la même chose pour:requête2

Modifié le: mercredi 26 mai 2021, 16:32