Utiliser ORI-OAI-indexing (Indexation)

Utilisation du module ORI-OAI-indexing

Ouvrir un navigateur web et, suivant l'installation effectuée, aller à l'adresse du module.
Si le module a été installé selon la documentation proposée avec un Tomcat par module, cette adresse devrait ressembler à :

http://NOM_SERVEUR_ORI:8182/ori-oai-indexing

Quelques fonctionnalités permettent de consulter l'index depuis le navigateur.

Accueil

La page se présente de la manière suivante :


 
Cette page indique que le module a été correctement déployé et qu'il est prêt à être utilisé.  Cette page donne également le lien vers le site du projet ORI-OAI ainsi que le lien vers la documentation du module.

Visualisation des fiches

Cet onglet montre toutes les fiches présentes dans l'index. Voici une copie d'écran de cette page :


 
Il s'agit d'un tableau renseignant sur l'identifiant de chaque fiche indexée, l'état de ses liens, son état de crawling, ainsi que les formats dans lesquels l'identifiant a été indexé. Il faut noter que les identifiants ne sont pas triés dans l'ordre alphabétique mais dans l'ordre dans lequel ils ont été indexés, c'est-à-dire dans l'ordre croissant de leur position dans l'index Lucene.

Au dessus du tableau, les différentes valeurs de la colonne "Crawled" sont expliquées. [A noter : forbidden, pour ressources d'URL, de types MIME ou d'entrepôts dont le crawling n'est pas souhaité (configurable) ; unreachable, pour ressources dont l'URL est inaccessible au moment du crawling ou plus valide (typiquement erreur 404) ; some_unreachables, pour ressources dont l'URL est accessible, mais contenant elles-mêmes des liens qui n'ont pu être crawlés]

Pour augmenter les performances de l'affichage de cette page, seules 50 fiches sont présentées par page. Vous trouverez en bas de la page des liens "page suivante" et/ou "page précédente" pour naviguer entre les différentes pages.
Par ailleurs les identifiants des fiches sont des liens cliquables. En cliquant sur l'un de ces identifiants, on peut en visualiser toutes ses données. Pour retourner à la page de visualisation de toutes les fiches, il suffit de cliquer sur l'onglet "Visualisation de toutes les fiches" ou de cliquer sur le bouton "Page précédente" de votre navigateur. La page se présente comme suit :

 
La partie gauche présente les métadonnées indexées et la partie droite montre leur contenu. Ceci permet de vérifier notamment que la fiche est bien indexée et que toutes les métadonnées sont dans l'index.

Recherche

Cette page permet de lancer une requête Lucene. Pour se faire il suffit d'entrer votre requête dans le formulaire et de cliquer sur "Lancer la recherche". Voici une copie d'écran de cette page :


 
Il faut noter que le nom des métadonnées doit être encodé en UTF-8. Ainsi "//dc:title" devient "%2F%2Fdc%3Atitle". Ceci a pour objectif de ne pas utiliser le caractère ":" qui est déjà sollicité dans une requête Lucene pour faire la séparation entre la métadonnée et le contenu recherché.
La copie d'écran suivante montre les résultats d'une recherche :



Les résultats se présentent sous la forme d'un tableau contenant l'identifiant de la fiche ainsi que les formats indexés. Là encore l'identifiant est un lien cliquable qui aboutit à la visualisation de la fiche.

Valeurs indexées

Cette page permet de retrouver toutes les valeurs indexées d'un champ de l'index. Pour connaitre les valeurs indexées il suffit d'entrer le nom du champ dans la zone de saisie puis de cliquer sur le bouton "Lancer la recherche".

La copie d'écran suivante montre le résultat d'une recherche pour le titre du format LOM :

Gestion de l'index

Cette page est utile lorsque vous souhaitez réinitialiser l'index ou lorsque vous faites des recherches. Les caches permettent de ne pas trop solliciter l'index. Si une requête est lancée plusieurs fois, la première servira à mettre en cache les résultats de la requête. Les suivantes ne feront que consulter le cache. Trois boutons sont présents :

  • Réinitialiser l'index : cela vous permettra de supprimer l'index et de le recréer à vide. Le cache sera lui aussi vidé. [Attention ! Le bouton "Réinitialiser l'index" recrée l'index vide, mais ne réindexe pas les fiches. Pour réindexer les fiches reportez-vous à la page consacrée à la gestion de l'index.]
  • Optimiser l'index : ce bouton lancera l'optimisation de l'index. Depuis la version 1.6, l'index s'optimise automatiquement grâce à un processus qui se lance régulièrement. Un log en INFO indique le moment où est lancée l'optimisation automatique. Mais pour devancer cette phase vous pouvez utiliser ce bouton.
  • Vider le cache : cela supprimera toutes les entrées du cache. Cette fonctionnalité est utile notamment si l'index a été modifié après avoir effectué des recherches. Vider le cache permettra de prendre en compte ces modifications dans les résultats des recherches.

Un message de confirmation apparaitra alors et ce sur chacun des deux boutons.

Depuis la version 1.4, arrêter et relancer le Tomcat du module d'indexation ne permet plus de vider le cache.

La page de gestion de l'index se présente comme suit :

Gestion des liens et crawler web

Cet onglet permet de lancer le gestionnaire de liens ainsi que le crawler web. La copie d'écran suivante montre la page du gestionnaire :


 
Pour lancer le gestionnaire de liens manuellement il suffit de cliquer sur le bouton "Lancer le gestionnaire de liens".
Au bout de quelques secondes une nouvelle page indiquera la progression du gestionnaire. Cette page se rafraichit toutes les 10 secondes mettant ainsi à jour l'indicateur d'avancement du gestionnaire. 

Pour que le crawler web se lance automatiquement après le passage du gestionnaire, il faut positionner la valeur INDEXING_CRAWLER_FULL_TEXT du fichier commons-parameters.properties du quick-install à true. Si vous avez choisi une installation manuelle, il faut remplir la balise "crawlingAuthorized" du fichier configIndexing.xml à true.

1 - Quitter cette page ne stoppe pas le gestionnaire.
2 - Un bouton vous permet de stopper le gestionnaire de liens. Une attente de quelques secondes est alors nécessaire pour que les liens en cours d'analyse arrivent à terme correctement.

Métadonnées et UTF-8

Cette page vous permet d'encoder ou de décoder facilement vos xpaths en UTF-8. Ceci est utile lorsque vous souhaitez ajouter un nouveau xpath dans le fichier liusConfig.xml. La page se présente comme suit :

Pour encoder un xpath en UTF-8, entrez sa valeur dans le formulaire (exemple : //dc:title) et cliquez sur le bouton "Lancer l'opération". La copie d'écran suivante présente le résultat : 

Il est possible d'effectuer l'opération inverse en sélectionnant "decode" et en donnant le xpath encodé.

Suppression manuelle de fiches

Cette page permet de supprimer manuellement des fiches de l'index. Il est possible de supprimer toutes les fiches d'un entrepôt ou de supprimer une seule fiche, soit en saisissant directement son identifiant ou en sélectionnant son entrepôt puis en cliquant sur "Rafraichir" et enfin en sélectionnant son identifiant. Voici une copie d'écran de cette page :

Il est déconseillé d'utiliser la suppression manuelle dans un environnement de production.

  • No labels