25/11/2014

Stripe livre quatre projets Hadoop en open source

La société Stripe, spécialisée dans la fourniture de service et d’API pour le paiement en ligne et sur application mobile a décidé de mettre à disposition de la communauté open source quatre projets liés à la solution de stockage et de traitement de données distribuées en mode batch Hadoop : un tableau de bord des tâches Hadoop, une plateforme Scala pour l’apprentissage distribué, une base de données au format SequenceFile, une collection d’outils en ligne de commande.

Avec plusieurs milliers de sociétés et des milliards de dollars de transactions par an, l’infrastructure de Stripe est essentiellement construite autour de la solution Apache Hadoop. La société utilise cette solution pour toutes ses activités, de l’analyse business à la modélisation de la fraude. Stripe a donc décidé de livrer quatre projets à la communauté.

Timberlake

Timberlake est un tableau de bord qui donne à l’utilisateur une vision sur les travaux Hadoop en cours sur un cluster. Développé par Jeff Balogh en remplacement du gestionnaire de ressource YARN et du serveur d’historique des travaux MRv2. Ce projet à quelques caractéristiques notables comme la cartographie et réduction des cascades de tâches, la remontée à la source des erreurs pour les tâches non exécutées, la vue sur les jobs issus de Scalding et Cascading (langages de résolution de problèmes fonctionnels) etc.

Brushfire

Développé par Avi Bryant, Brushfire est une plateforme Scala pour l’apprentissage distribué et les arbres de décision. Il est inspiré par Google PLANET (un outil d’apprentissage massivement parallèle pour les ensembles d’arbres de décision), bien que construit sur Hadoop et Scalding. Conçu pour être un outil hautement générique, Brushfire peut construire et valider une forêt aléatoire et des modèles similaires depuis des quantités importantes de données d’apprentissage.

Sequins

Sequins est une base de données statique compatible avec le format de donnée SequenceFile de HAdoop. Développé par Marc Colin, Sequins fournit un accès aux agrégats de clé/valeur générés par Hadoop avec un très faible temps de latence. Par exemple, Stripe utilise Sequins pour donner à son API l’accès à l’historique des caractéristiques des modèles de fraudes, sans ajouter de dépendance en ligne à HDFS.

Herringbone

Sripe utilise intensivement Parquet (gestionnaire de base de données orienté par colonne disponible pour les projets de l’écosystème Hadoop), en particulier en association avec Cloudera Impala. Herringbone est une collection de petits outils utilitaires en ligne de commande permettant de faire travailler Parquet et Impala plus facilement

Source : http://nosql.mypopescu.com

Actualités