29/07/2016

Spark 2.0 pour une approche tout-en-un du Big Data

Avec un nouveau système de streaming, des améliorations de performance et le perfectionnement des interfaces de programmation, la solution libre de calcul « en mémoire » Apache Spark 2.0 offre de nouvelles perspectives aux utilisateurs de Big Data.

Le système de calcul « en mémoire » Apache Spark est devenir une pièce centrale des plateformes de big data modernes et vient d’être mis à jour en version 2.0. En plus des améliorations majeures des performances et d’expérience utilisateur, cette mise à jour majeure se donne pour objectif de devenir une solution globale pour le streaming et le traitement temps réel des donnéesgrâce à l’amélioration de nombreux autres projets, parfois dirigés aussi par la fondation Apache, qui chacun dans leurs domaines améliore le traitement « en mémoire » et temps réel des données.

De la rapidité

La plupart des modifications pour cette nouvelle mise à jour 2.0 étaient connues d’avance par conséquent très anticipées. Un des ajouts technologiques les plus ambitieux est le projet Tungsten : une réécriture du traitement Spark pour la mémoire et la génération de code. Certains éléments de ce projet étaient présents dès les premières versions de Spark, mais cette dernière mouture tire le meilleur parti de Tungsten en appliquant notamment sa stratégie de gestion de la mémoire pour la mise en cache et l'exécution.

Pour les utilisateurs, ces changements et quelques autres sous le capot apportent des gains de performance non négligeables. Les développeurs du projet Spark annoncent un accroissement des vitesses de traitement de deux à dix fois supérieures pour des opérations SQL ou DataFrames communs grâce au nouveau système de génération de code.

Une plus grande facilité d’utilisation

Spark 2.0 embarque aussi une modification majeure des APIs. DataFrames et Datasets possédaient jusqu’alors deux manières distinctes d’accéder aux données structurées. Dorénavant, le même mécanisme est appliqué et l’on peut considérer les DataFrames comme des types d’alias d’un Dataset. Les utilisateurs du langage R peuvent maintenant écrire un ensemble de fonctions définies par l’utilisateur pour mieux tirer parti du support des fonctionnalités Spark. Cela rend Spark très puissant sans accroître la complexité d’utilisation.

Source : spark.apache.org

Actualités