10/06/2015

Quoi de neuf pour Apache Solr 5.2.0 ?

Apache Lucene et Solr 5.2.0 sont rendus disponibles avec de nombreuses nouvelles fonctionnalités, optimisations et correction de bugs. Un petit tour du –non- propriétaire s’impose !

Pour rappel Lucene Lucene est une bibliothèque open source écrite en Java qui permet d'indexer et de chercher du texte. Solr est la plateforme logicielle de moteur de recherche s'appuyant sur la librairie de recherche Lucene. Ces deux solutions sont proposées par la Fondation Apache.

Assignement des répliques fondées sur des règles

Cette fonctionnalité permet aux utilisateurs d’avoir un contrôle à grain fin sur l’emplacement des nouvelles répliques durant la mise en place de collections, répliques ou tesson (partage d’une donnée scindée sur plusieurs emplacements). Les règles sont définies par un ensemble de conditions comprenant les répliques, tessons et une étiquette, qui doivent être satisfaites avec la création d’une réplique. Cette fonction permet de restreindre la création de répliques et par exemple laisser moins de deux répliques d’une même collection sur un nœud ou interdire la création d’un tesson sur un une machine en particulier.

L’explication détaillée de cette nouvelle fonctionnalité est disponible dans un billet de Lucidworks.

API de restauration

Jusqu’à présent, Solr fournissait une fonctionnalité de sauvegarde d’un index existant. La nouvelle API permet de restaurer une sauvegarde existante avec une simple commande. La localisation de l’index est par défaut située dans le répertoire de données, mais l’utilisateur peut passer outre ce mécanisme grâce un paramètre d’appel.

Gestion des facettes

Dans la terminologie Solr les facettes sont un moyen de catégoriser les données. Pour améliorer ces capacités, Solr 5.2 embarque une nouvelle API permet de supporter nombreuses fonction JSON. Cette version introduit aussi une nouvelle manière de procéder par filtrage. Cependant  Solr 5.2 permet à l’utilisateur de choisir l’implémentation qui lui convient le plus : l’ancienne version fondée sur DocValues ou la nouvelle implémentation. Ces deux méthodes peuvent avoir des performances significativement différentes selon les cas d’utilisation. L’équipe de Solr met à disposition des utilisateurs quelques statistiques permettant de faire son propre choix.

Composant des statistiques

Le composant statistique de Solr supporte maintenant les estimations cardinales fondées sur l’algorithme HyperLogLog, il est utilisé notamment par la nouvelle API JSON Facet. Son utilisation permet notamment d’estimer la cardinalité d’un ensemble et la quantité de mémoire à allouer à une requête.

La sécurité

SolrCloud permettait l’hébergement de multiples collections, mais jusque la version 5.1, aucun mécanisme de restriction d’accès n’était disponible. Le framework d’authentification de la version 5.2 permet l’utilisation de plug-ins d’authentification personnalisés ou l’utilisation du plug-in Kerberos, fourni par défaut.

Les expressions de streaming dans Solr

Les expressions de streaming dans Solr fournissent un langage de requête simple pour SolrCloud qui rassemble les recherches dans un calcul en parallèle. Introduites dans la version 5.1, ces expressions sont complétées (cf. documentation).

Amélioration des performances d’indexation

Cette nouvelle version embarque des améliorations dans le processus d’indexation. Le bond de performances est de 100% par rapport aux versions 4.X. Les données de benchmark de la version 5.2 seront rapidement publiées.

 Source : lucidworks.com

Actualités