Utiliser ORI-OAI-indexing (Indexation)

Utilisation du module ORI-OAI-indexing

Ouvrir un navigateur web et, suivant l'installation effectuée, aller à l'adresse du module.
Si le module a été installé selon la documentation proposée avec un Tomcat par module, cette adresse devrait ressembler à :

http://NOM_SERVEUR_ORI:8182/ori-oai-indexing

Quelques fonctionnalités permettent de consulter et de gérer l'index et la base de données depuis le navigateur.

Accueil

La page se présente de la manière suivante :

Cette page indique que le module a été correctement déployé et qu'il est prêt à être utilisé. Cette page donne également le lien vers le site du projet ORI-OAI ainsi que le lien vers la documentation du module.

Explorer l'index

Visualisation de toutes les fiches

Cet onglet montre toutes les fiches présentes dans l'index. Voici une copie d'écran de cette page :

Il s'agit d'un tableau renseignant sur l'identifiant de chaque fiche indexée, les formats dans lesquels l'identifiant a été indexé, l'état de "traduction" de la fiche, ainsi que tout ce qui concerne la gestion des documents externes (concernant l'état de traduction et les documents externes, reportez-vous à la partie suivante pour avoir plus de détails sur ces fonctionnalités). Il faut noter que les identifiants ne sont pas triés dans l'ordre alphabétique mais dans l'ordre dans lequel ils ont été indexés, c'est-à-dire dans l'ordre croissant de leur position dans l'index Lucene.

Pour augmenter les performances de l'affichage de cette page, seules 50 fiches sont présentées par page. Vous trouverez en haut et en bas de la page des liens pour naviguer entre les différentes pages.
Par ailleurs les identifiants des fiches sont des liens cliquables. En cliquant sur l'un de ces identifiants, on peut en visualiser toutes ses données. La page se présente comme suit :

Actions possibles

4 boutons sont disponibles sur cette page :

  • Actualiser les données : permet de mettre à jour les données affichées. Par exemple pour voir les données après traitement par un des gestionnaires
  • Supprimer la fiche : ceci permet de supprimer la fiche de l'index et de la base de données. Attention, elle sera toujours présente dans le workflow ou le harvester, et dans le cas d'une restauration, cette fiche sera ré-intégrée dans le module indexing
  • Démarrer le gestionnaire de traduction des fiches : depuis la v2, il existe un process qui "traduit" les fiches en vue de les afficher dans le module search. Dans les précédentes versions, cette "traduction" était faite à la volée au moment de l'affichage dans le module search. Depuis la v2, ceci est fait en amont par le module indexing pour gagner en performances au moment de l'affichage dans le moteur de recherche. Cette "traduction" est faite dans chacune des langues gérée par le module. Elle consiste à ajouter des données de traduction dans la fiche de métadonnées. Ces "traductions" sont une transcription en langage compréhensible par l'utilisateur de classifications ou autre vocabulaires liés à un format de métadonnées. La "traduction" permet aussi de détecter les relations entre les fiches (cas du format LOM pour les ressources pédagogiques par exemple). Le gestionnaire de traduction se lance à intervalles réguliers et vous n'avez logiquement rien à faire. Cependant, pour obtenir un résultat plus rapide, lors de phase de tests par exemple, il est possible de demander le lancement du gestionnaire manuellement depuis l'interface web
  • Démarrer le gestionnaire de documents externes : depuis la v2, au moment où une nouvelle fiche est indexée, le module détecte la liste des liens vers les ressources ("documents externes") à l'intérieur des métadonnées. Suivant la configuration qui a été choisie au moment de l'installation, un gestionnaire de documents externes se lance régulièrement et permet de détecter les liens morts, le type mime du document, l'extraction et l'indexation du plain texte ainsi que la demande de génération de vignettes au module ORI-OAI-thumbnail (module couplé au module ORI-OAI-search).

Données provenant de l'index

Depuis la v2, le module ORI-OAI-indexing s'appuie sur le moteur d'indexation SOLR. Ce moteur est très performant pour gérer l'indexation et la recherche. Cependant, nous avons besoin de stocker des données de gestion qui n'ont rien à voir avec l'index SOLR. Par exemple des dates de traitement, des formats, des identifiants, etc. Tout un tas de données qui n'auraient pas leur place dans l'index. Ces données sont donc stockées dans une base de données relationnelle.

L'interface web permet donc de consulter à la fois les données indexées dans SOLR, et les données de gestion stockées dans la base de données :

La partie gauche présente les métadonnées indexées et la partie droite montre leur contenu. Ceci permet de vérifier notamment que la fiche est bien indexée et que toutes les métadonnées sont dans l'index.

Données provenant de la base de données

Dans les données de gestion, on distingue 3 niveaux :

  • les formats de métadonnées (bleu) : permet de lister la liste des formats dans lesquelles la fiche est présente. La plupart du temps, un seul format est disponible, mais lors de moissons, il est possible qu'une fiche ait été moissonnées dans plusieurs formats à la fois
  • la traduction des fiches : permet d'afficher l'état de transformation de la fiche dans les différentes langues
  • les données concernant les URLs et les documents externes : on y retrouve ici toutes les données de gestion (adresse, date de dernier traitement, liens morts, vignette demandée ou non, etc.)

Recherche

Cette page permet de lancer une requête SOLR. Pour se faire il suffit d'entrer votre requête (syntaxe de requête Lucene) dans le formulaire et de cliquer sur "Lancer la recherche". Voici une copie d'écran de cette page :

La copie d'écran suivante montre les résultats d'une recherche :


Les résultats se présentent sous la forme d'un tableau identique à celui que l'on retrouve lorsque l'on consulte toutes les fiches de l'index.

Valeurs indexées

Cette page permet de retrouver toutes les valeurs indexées d'un champ de l'index. Pour connaitre les valeurs indexées il suffit d'entrer le nom du champ dans la zone de saisie puis de cliquer sur le bouton "Lancer la recherche".

La copie d'écran suivante montre le résultat d'une recherche pour le champ mots-clefs en français du format LOM :

Le tri se fait par défaut sur l'identifiant. Pour une fiche, on a la liste de toutes les valeurs.
Il est aussi possible de trier par valeur et voir tous les identifiants de fiches qui possèdent cette valeur :

Gérer l'index

Cette section est utile lorsque vous souhaitez gérer l'index.

Optimiser l'index

Cette page lancera l'optimisation de l'index. L'index s'optimise automatiquement, mais pour tenter d'augmenter les performances dans un index très très volumineux, nous donnons la possibilité de lancer manuellement l'optimisation.

Vider l'index

Cela vous permettra de supprimer l'index et la base de données et de les recréer vides.

Suppression de fiches

Cette page permet de supprimer manuellement des fiches de l'index. Il est possible de supprimer toutes les fiches d'un entrepôt ou de supprimer une seule fiche, soit en saisissant directement son identifiant. Voici une copie d'écran de cette page :

Il est déconseillé d'utiliser la suppression manuelle dans un environnement de production.

Admin Solr

Comme vu précédemment, la v2 de ORI-OAI-indexing s'appuie sur le moteur SOLR. Cette page permet d'accéder à l'interface d'administration de SOLR.

Gestionnaires

Les 3 gestionnaires ci-dessous sont basés sur le même modèle.
Le lancement manuel ou automatique (par programmation) peut-être visualisé depuis la page et stoppé manuellement :

Traduction de fiches

La recherche sur une fiche de métadonnées ainsi que l'affichage de cette fiche nécessitent un traitement qui va "traduire" la fiche en différentes langues.

Au lieu de traduire les champs de recherche et de résultats au moment où la requête est construite, ou au moment où les résultats sont affichés, tout le traitement se fait en amont pour plus d'efficacité.

Les fiches ont besoin de certains vocabulaires pour être "traduites". Il est fort probable que ces vocabulaires ne soient pas tous complets et disponibles au moment de la première exécution du gestionnaire. La fiche sera alors retraduite successivement par le cron jusqu'à ce que la transformation soit complète.

Les deux possiblités de lancement du gestionnaire sont les suivantes :

  • Lancer le gestionnaire de traduction des fiches ne s'exécute que sur les fiches qui n'ont jamais été traitées OU les fiches locales (produites par le workflow) transformées mais pas complètement
  • Lancer le gestionnaire de traduction des fiches (forcer toutes les fiches) lance le gestionnaire sur toutes les fiches, même celles déjà traitées

Documents externes

Cet outil vous permettra de vérifier si le lien inclus dans la fiche descriptive est valide ou non.

Il est possible de définir dans le fichier configIndexing.xml le nombre de tentatives avant de considérer que le lien est réellement mort. A chaque lancement du gestionnaire on comptabilise une seule tentative. La valeur de la x-ième tentative est stockée dans la base de données. Si à la dernière tentative le lien n'est toujours pas actif, l'URL est alors considérée comme définitivement morte. Elle sortira de cet état dès qu'elle sera de nouveau accessible.

Important : Si le lien est actif, vous pouvez lancer l'indexation du plain texte sur la fiche ce qui indexera le plain texte associé à la fiche descriptive. Pour se faire il suffit de mettre la paramètre INDEXING_PLAIN_TEXT du fichier commons-parameters.properties à true. L'indexation du plain texte se lancera automatiquement.

Pour que l'indexeur de plain texte se lance automatiquement après le passage du gestionnaire, il faut positionner la valeur INDEXING_PLAIN_TEXT du fichier commons-parameters.properties du quick-install à true.

Vignettes

Le moteur de recherche ORI-OAI-search propose un affichage d'une petite vignette dans la liste des résultats.

Pour optimiser le temps de création et d'affichage de ces vignettes, le module ORI-OAI-indexing est chargé de communiquer la liste des URLs vers les documents au module ORI-OAI-search au moment où chaque fiche de métadonnées est indexée.

Cependant, si le module ORI-OAI-search n'est pas disponible au moment de l'indexation des fiches, il est possible de relancer par cette page la génération de l'ensemble ou d'une partie des vignettes.
Les deux possiblités de lancement du gestionnaire sont les suivantes :

  • Lancer le gestionnaire de vignettes (non générées) ne s'exécute que sur les URLs qui n'ont jamais été traitées ou qui ont été envoyées au module ORI-OAI-search alors que celui-ci n'était pas disponible
  • Lancer le gestionnaire de vignettes (forcer toutes les vignettes) lance le gestionnaire sur toutes les URLs, même celles déjà envoyées au module ORI-OAI-search
  • No labels