20/11/2017

Pentaho en version 8

Hitachi Vantara éditeur de la solution open source BI annonce la version 8.0 de Pentaho. La gestion des ressources en continu et l’intégration des données en temps réel sont au coeur des nouveautés.

 Lancé il y a plus de dix ans en tant que logiciel open source par une société indépendante, Pentaho a été acheté en 2015 par Hitachi Data Systems (HDS) en 2015. HDS a intégré Pentaho dans ses propres offres et services, mais a laissé la plupart des choses en l’état. Cela a changé le mois dernier, quand Hitachi a annoncé qu'il combinait Pentaho, HDS et Hitachi Insight Group (l'unité responsable de la plate-forme d’internet des objets Lumada ) en une seule division appelée Hitachi Vantara.

Alors que Pentaho, en tant que société distincte n’existe plus, le produit et la marque Pentaho n'ont en aucune manière été éliminés. La conférence Pentaho World avait lieu le 25 octobre dernier pour présenter la première version Pentaho de l’ère Hitachi.

Les nouveautés

Bien que les tâches BI et d’analyse soient toujours au coeur de Pentaho, la suite s'étend désormais bien au-delà et inclut l'intégration de données et l'exploration de données (sous la forme du Data Science Pack ). C'est d’ailleurs le composant Pentaho Data Integration (PDI) qui est le plus mis en valeur dans cette nouvelle version.

Les nouvelles fonctionnalités de Pentaho 8.0 se décomposent en trois grandes zones : améliorer la connectivité aux sources de données en continu pour le traitement des données en temps réel; optimiser les ressources de traitement et stimuler la productivité de l'équipe.

Intégration des données en continu

Du côté des données en continu, Pentaho ajoute le support de deux projets phares de la fondation Apache Software : Kafka et Spark . Kafka est pris en charge en tant que source pour le streaming de données via un nouveau connecteur, tandis que Spark et Spark Streaming sont utilisés pour traiter ces données.

La fonctionnalité AEL (Adaptive Execution Layer) ajoutée dans Pentaho 7.1 sera utilisée pour le traitement en temps réel, permettant ainsi de concevoir des flux de données en continu pouvant ensuite fonctionner sur le propre moteur d'intégration de données Kettle de Pentaho.

Le composant Data Explorer de Pentaho Data Integration, qui permet la visualisation des données en cours de préparation et de transformation, prend désormais en charge les fonctionnalités de filtrage qui n'étaient pas disponibles dans la version précédente.

pentaho-8-adaptive-execution

Gestion des ressources

Du côté de la gestion des ressources de traitement, Hitachi Vantara a ajouté pour la version entreprise de Pentaho une architecture permettant le déploiement du moteur Kettle sur un cluster de nœuds de travail basés sur des conteneurs, plutôt que sur un seul serveur. Les nœuds de travail n'exécuteront pas les tâches individuelles de manière distribuée, mais ils peuvent être utilisés pour exécuter plusieurs tâches en parallèle.

Enfin, l'exécution adaptative est dorénavant compatible avec les clusters Hortonworks Hadoop / Spark en plus des clusters Cloudera déjà pris en charge dans la version précédente. Pentaho 8.0 ajoute aussi la prise en charge d' Apache Knox pour l'authentification par grappe et le support pour les formats de fichiers Apache Avro et Parquet.

Source :community.hds.com

Actualités