25/11/2014

Stripe livre quatre projets Hadoop en open source

La société Stripe, spécialisée dans la fourniture de service et d’API pour le paiement en ligne et sur application mobile a décidé de mettre à disposition de la communauté open source quatre projets liés à la solution de stockage et de traitement de données distribuées en mode batch Hadoop : un tableau de bord des tâches Hadoop, une plateforme Scala pour l’apprentissage distribué, une base de données au format SequenceFile, une collection d’outils en ligne de commande.

Avec plusieurs milliers de sociétés et des milliards de dollars de transactions par an, l’infrastructure de Stripe est essentiellement construite autour de la solution Apache Hadoop. La société utilise cette solution pour toutes ses activités, de l’analyse business à la modélisation de la fraude. Stripe a donc décidé de livrer quatre projets à la communauté.

Timberlake

Timberlake est un tableau de bord qui donne à l’utilisateur une vision sur les travaux Hadoop en cours sur un cluster. Développé par Jeff Balogh en remplacement du gestionnaire de ressource YARN et du serveur d’historique des travaux MRv2. Ce projet à quelques caractéristiques notables comme la cartographie et réduction des cascades de tâches, la remontée à la source des erreurs pour les tâches non exécutées, la vue sur les jobs issus de Scalding et Cascading (langages de résolution de problèmes fonctionnels) etc.

Brushfire

Développé par Avi Bryant, Brushfire est une plateforme Scala pour l’apprentissage distribué et les arbres de décision. Il est inspiré par Google PLANET (un outil d’apprentissage massivement parallèle pour les ensembles d’arbres de décision), bien que construit sur Hadoop et Scalding. Conçu pour être un outil hautement générique, Brushfire peut construire et valider une forêt aléatoire et des modèles similaires depuis des quantités importantes de données d’apprentissage.

Sequins

Sequins est une base de données statique compatible avec le format de donnée SequenceFile de HAdoop. Développé par Marc Colin, Sequins fournit un accès aux agrégats de clé/valeur générés par Hadoop avec un très faible temps de latence. Par exemple, Stripe utilise Sequins pour donner à son API l’accès à l’historique des caractéristiques des modèles de fraudes, sans ajouter de dépendance en ligne à HDFS.

Herringbone

Sripe utilise intensivement Parquet (gestionnaire de base de données orienté par colonne disponible pour les projets de l’écosystème Hadoop), en particulier en association avec Cloudera Impala. Herringbone est une collection de petits outils utilitaires en ligne de commande permettant de faire travailler Parquet et Impala plus facilement

Source : http://nosql.mypopescu.com

Stripe livre quatre projets Hadoop en open source

Timberlake

Brushfire

Sequins

Herringbone

Actualités

16/12/2020 Le moteur Docker disponible en version 20.10

15/12/2020 Les nouveautés de Drupal 9.1

07/12/2020 KOGITO 1.0 pour la gestion des processus métier

04/12/2020 OroCommerce intègre Elastic Suite, grâce à Smile !

03/12/2020 Drupal 9.1.0 est disponible

02/12/2020 AWS Lambda prend en charge des images de conteneur et le jeu d'instruction AVX2

30/11/2020 Sortie de Proxmox VE 6.3

30/11/2020 Wazuh 4.0, les nouvelles fonctionnalités

27/11/2020 OpenMeetings 5.0, la visioconférence open source

25/11/2020 OnlyOffice étend le chiffrage de bout en bout

25/11/2020 Matomo 4 est disponible