mise à jour : 23/12/2020 Pig

Version étudiée : 0.10.0 Site web http://pig.apache.org Distribuée par : Fondation (Apache ) Licence : Apache Technologie : Java

Appréciations

Smile 4.2
Internautes Aucune note
Global 4.2 5

Présentation

Pig est un outil de traitement de données qui fait partie de la suite Hadoop et qui permet l’écriture de scripts qui sont éxécutés sur l’infrastructure Hadoop sans être obligé de passer par l’écriture de tâche en Java via le framework MapReduce. Il dispose en outre de fonctionnalités permettant le chargement de données depuis une source externe vers le cluster HDFS ou de fonctionnalités permettant l’export de données pour utilisation par des applications tierces.

Pig s’appuie sur son propre langage nommé Pig Latin. Il permet en outre d’accéder à la couche applicative Java. Ce langage est assez simple ce qui permet au développeur venant d’un autre monde que Java de produire des scripts de traitement s'exécutant sur Hadoop beaucoup plus rapidement.

Dans la pratique, Pig est surtout utilisé pour charger des données externes vers des fichiers HDFS et transformer des fichiers afin de faciliter leur analyse surtout dans des cas où plusieurs étapes sont nécessaires (du fait de la nature procédurale du langage et de sa capacité à stocker des résultats temporaires).

Avis des internautes

Cette solution ne possède aucun avis