Apache Lucene et Solr 5.2.0 sont rendus disponibles avec de nombreuses nouvelles fonctionnalités, optimisations et correction de bugs. Un petit tour du –non- propriétaire s’impose !
Pour rappel Lucene Lucene est une bibliothèque open source écrite en Java qui permet d'indexer et de chercher du texte. Solr est la plateforme logicielle de moteur de recherche s'appuyant sur la librairie de recherche Lucene. Ces deux solutions sont proposées par la Fondation Apache.
Cette fonctionnalité permet aux utilisateurs d’avoir un contrôle à grain fin sur l’emplacement des nouvelles répliques durant la mise en place de collections, répliques ou tesson (partage d’une donnée scindée sur plusieurs emplacements). Les règles sont définies par un ensemble de conditions comprenant les répliques, tessons et une étiquette, qui doivent être satisfaites avec la création d’une réplique. Cette fonction permet de restreindre la création de répliques et par exemple laisser moins de deux répliques d’une même collection sur un nœud ou interdire la création d’un tesson sur un une machine en particulier.
L’explication détaillée de cette nouvelle fonctionnalité est disponible dans un billet de Lucidworks.
Jusqu’à présent, Solr fournissait une fonctionnalité de sauvegarde d’un index existant. La nouvelle API permet de restaurer une sauvegarde existante avec une simple commande. La localisation de l’index est par défaut située dans le répertoire de données, mais l’utilisateur peut passer outre ce mécanisme grâce un paramètre d’appel.
Dans la terminologie Solr les facettes sont un moyen de catégoriser les données. Pour améliorer ces capacités, Solr 5.2 embarque une nouvelle API permet de supporter nombreuses fonction JSON. Cette version introduit aussi une nouvelle manière de procéder par filtrage. Cependant Solr 5.2 permet à l’utilisateur de choisir l’implémentation qui lui convient le plus : l’ancienne version fondée sur DocValues ou la nouvelle implémentation. Ces deux méthodes peuvent avoir des performances significativement différentes selon les cas d’utilisation. L’équipe de Solr met à disposition des utilisateurs quelques statistiques permettant de faire son propre choix.
Le composant statistique de Solr supporte maintenant les estimations cardinales fondées sur l’algorithme HyperLogLog, il est utilisé notamment par la nouvelle API JSON Facet. Son utilisation permet notamment d’estimer la cardinalité d’un ensemble et la quantité de mémoire à allouer à une requête.
SolrCloud permettait l’hébergement de multiples collections, mais jusque la version 5.1, aucun mécanisme de restriction d’accès n’était disponible. Le framework d’authentification de la version 5.2 permet l’utilisation de plug-ins d’authentification personnalisés ou l’utilisation du plug-in Kerberos, fourni par défaut.
Les expressions de streaming dans Solr fournissent un langage de requête simple pour SolrCloud qui rassemble les recherches dans un calcul en parallèle. Introduites dans la version 5.1, ces expressions sont complétées (cf. documentation).
Cette nouvelle version embarque des améliorations dans le processus d’indexation. Le bond de performances est de 100% par rapport aux versions 4.X. Les données de benchmark de la version 5.2 seront rapidement publiées.
Source : lucidworks.com