Utilisation du module ORI-OAI-indexing

Ouvrir un navigateur web et, suivant l'installation effectuée, aller à l'adresse du module.
Si le module a été installé selon la documentation proposée avec un Tomcat par module, cette adresse devrait ressembler à :

http://NOM_SERVEUR_ORI:8182/ori-oai-indexing

Quelques fonctionnalités permettent de consulter et de gérer l'index et la base de données depuis le navigateur.

Accueil

La page se présente de la manière suivante :

Cette page indique que le module a été correctement déployé et qu'il est prêt à être utilisé. Cette page donne également le lien vers le site du projet ORI-OAI ainsi que le lien vers la documentation du module.

Explorer l'index

Visualisation de toutes les fiches

Cet onglet montre toutes les fiches présentes dans l'index. Voici une copie d'écran de cette page :

Il s'agit d'un tableau renseignant sur l'identifiant de chaque fiche indexée, les formats dans lesquels l'identifiant a été indexé, l'état de "traduction" de la fiche, ainsi que tout ce qui concerne la gestion des documents externes (concernant l'état de traduction et les documents externes, reportez-vous à la partie suivante pour avoir plus de détails sur ces fonctionnalités). Il faut noter que les identifiants ne sont pas triés dans l'ordre alphabétique mais dans l'ordre dans lequel ils ont été indexés, c'est-à-dire dans l'ordre croissant de leur position dans l'index Lucene.

Pour augmenter les performances de l'affichage de cette page, seules 50 fiches sont présentées par page. Vous trouverez en haut et en bas de la page des liens pour naviguer entre les différentes pages.
Par ailleurs les identifiants des fiches sont des liens cliquables. En cliquant sur l'un de ces identifiants, on peut en visualiser toutes ses données. La page se présente comme suit :

Actions possibles

4 boutons sont disponibles sur cette page :

Données provenant de l'index

Depuis la v2, le module ORI-OAI-indexing s'appuie sur le moteur d'indexation SOLR. Ce moteur est très performant pour gérer l'indexation et la recherche. Cependant, nous avons besoin de stocker des données de gestion qui n'ont rien à voir avec l'index SOLR. Par exemple des dates de traitement, des formats, des identifiants, etc. Tout un tas de données qui n'auraient pas leur place dans l'index. Ces données sont donc stockées dans une base de données relationnelle.

L'interface web permet donc de consulter à la fois les données indexées dans SOLR, et les données de gestion stockées dans la base de données :

La partie gauche présente les métadonnées indexées et la partie droite montre leur contenu. Ceci permet de vérifier notamment que la fiche est bien indexée et que toutes les métadonnées sont dans l'index.

Données provenant de la base de données

Dans les données de gestion, on distingue 3 niveaux :

Recherche

Cette page permet de lancer une requête SOLR. Pour se faire il suffit d'entrer votre requête (syntaxe de requête Lucene) dans le formulaire et de cliquer sur "Lancer la recherche". Voici une copie d'écran de cette page :

La copie d'écran suivante montre les résultats d'une recherche :


Les résultats se présentent sous la forme d'un tableau identique à celui que l'on retrouve lorsque l'on consulte toutes les fiches de l'index.

Valeurs indexées

Cette page permet de retrouver toutes les valeurs indexées d'un champ de l'index. Pour connaitre les valeurs indexées il suffit d'entrer le nom du champ dans la zone de saisie puis de cliquer sur le bouton "Lancer la recherche".

La copie d'écran suivante montre le résultat d'une recherche pour le champ mots-clefs en français du format LOM :

Le tri se fait par défaut sur l'identifiant. Pour une fiche, on a la liste de toutes les valeurs.
Il est aussi possible de trier par valeur et voir tous les identifiants de fiches qui possèdent cette valeur :

Gérer l'index

Cette section est utile lorsque vous souhaitez gérer l'index.

Optimiser l'index

Cette page lancera l'optimisation de l'index. L'index s'optimise automatiquement, mais pour tenter d'augmenter les performances dans un index très très volumineux, nous donnons la possibilité de lancer manuellement l'optimisation.

Vider l'index

Cela vous permettra de supprimer l'index et la base de données et de les recréer vides.

Suppression de fiches

Cette page permet de supprimer manuellement des fiches de l'index. Il est possible de supprimer toutes les fiches d'un entrepôt ou de supprimer une seule fiche, soit en saisissant directement son identifiant. Voici une copie d'écran de cette page :

Il est déconseillé d'utiliser la suppression manuelle dans un environnement de production.

Admin Solr

Comme vu précédemment, la v2 de ORI-OAI-indexing s'appuie sur le moteur SOLR. Cette page permet d'accéder à l'interface d'administration de SOLR.

Gestionnaires

Les 3 gestionnaires ci-dessous sont basés sur le même modèle.
Le lancement manuel ou automatique (par programmation) peut-être visualisé depuis la page et stoppé manuellement :

Traduction de fiches

La recherche sur une fiche de métadonnées ainsi que l'affichage de cette fiche nécessitent un traitement qui va "traduire" la fiche en différentes langues.

Au lieu de traduire les champs de recherche et de résultats au moment où la requête est construite, ou au moment où les résultats sont affichés, tout le traitement se fait en amont pour plus d'efficacité.

Les fiches ont besoin de certains vocabulaires pour être "traduites". Il est fort probable que ces vocabulaires ne soient pas tous complets et disponibles au moment de la première exécution du gestionnaire. La fiche sera alors retraduite successivement par le cron jusqu'à ce que la transformation soit complète.

Les deux possiblités de lancement du gestionnaire sont les suivantes :

Documents externes

Cet outil vous permettra de vérifier si le lien inclus dans la fiche descriptive est valide ou non.

Il est possible de définir dans le fichier configIndexing.xml le nombre de tentatives avant de considérer que le lien est réellement mort. A chaque lancement du gestionnaire on comptabilise une seule tentative. La valeur de la x-ième tentative est stockée dans la base de données. Si à la dernière tentative le lien n'est toujours pas actif, l'URL est alors considérée comme définitivement morte. Elle sortira de cet état dès qu'elle sera de nouveau accessible.

Important : Si le lien est actif, vous pouvez lancer l'indexation du plain texte sur la fiche ce qui indexera le plain texte associé à la fiche descriptive. Pour se faire il suffit de mettre la paramètre INDEXING_PLAIN_TEXT du fichier commons-parameters.properties à true. L'indexation du plain texte se lancera automatiquement.

Pour que l'indexeur de plain texte se lance automatiquement après le passage du gestionnaire, il faut positionner la valeur INDEXING_PLAIN_TEXT du fichier commons-parameters.properties du quick-install à true.

Vignettes

Le moteur de recherche ORI-OAI-search propose un affichage d'une petite vignette dans la liste des résultats.

Pour optimiser le temps de création et d'affichage de ces vignettes, le module ORI-OAI-indexing est chargé de communiquer la liste des URLs vers les documents au module ORI-OAI-search au moment où chaque fiche de métadonnées est indexée.

Cependant, si le module ORI-OAI-search n'est pas disponible au moment de l'indexation des fiches, il est possible de relancer par cette page la génération de l'ensemble ou d'une partie des vignettes.
Les deux possiblités de lancement du gestionnaire sont les suivantes :