13/12/2016

Embedding Projector libéré par Google

Voici la dernière étape en date dans la stratégie d’ouverture de la firme de Mountain View : la publication en open source du projet Embedding Projector, une solution de visualisation des données liée au projet d’apprentissage machine Tensor Flow.

La visualisation pour les données multidimensionnelles

C’est la dernière annonce de Google sur le front de l’open source : la libération d’Embbedding Projector. Cette annonce se produit dans une tendance de fond du secteur de l’apprentissage machine. Les récentes avancées ont permis la multiplication des applications concrètes, de la reconnaissance d’image, à la traduction en passant par les diagnostics médicaux. L’adoption massive de cette technologie fournit de nombreux cas d’études aux chercheurs dans les différentes possibilités d’interprétations des données par les modèles. Google rappelle ainsi qu’un des défis les plus importants reste la capacité à explorer des ensembles de données multidimensionnels (parfois plusieurs milliers) et qu’il est nécessaire de construire des outils performants dans cette tâche.

La motivation première déclarée par la firme de Mountain View pour cette publication open source est donc la facilitation de l’exploitation des données grâce à des processus intuitifs. Embedding Projector se présente sous la forme d’une application web permettant une visualisation interactive pour l’analyse des données multidimensionnelles. Google livre aussi une version de bureau de son application via projector.tensorflow.org permettant la visualisation des données sans l’installation de TensorFlow.

2_dataviz

Exploration interactive

Un des problèmes posés par l’apprentissage repose sur les formats de données, non exploitables directement par les machines pour leur apprentissage. Pour traduire les données compréhensibles par l’homme (mots, sons et images) dans un format que les algorithmes peuvent traiter, il faut passer par une représentation mathématique, vectorielle, permettant de capturer différentes facettes ou dimensions d’une donnée. Un exemple donné par Google dans son annonce est le langage, ou les mots sont cartographiés avec une proximité relative à leur consonance. Embedding Projector permet de naviguer dans ce cas au sein des différentes vues en deux ou trois dimensions et d’effectuer des manipulations sur l’affichage grâce à des actions de clic et de défilement.

3_dataviz

Les méthodes de réduction des dimensions

Embedding Projector offre trois méthodes de réduction des dimensions parmi les plus populaires : PCA, t-SNE et projection linéaire personnalisée. PACA facilite la visualisation des données pour l’exploration de la structure interne des modélisations, pour en extraire la dimension la plus significative.

Source : research.googleblog.com

Actualités