Gestionnaire de liens brisés et Système de crawling

Configuration

Le gestionnaire de liens brisés permet de renseigner l'administrateur de l'indisponibilité de documents distants (liens morts).
Le crawler web permet d'enrichir la fiche de métadonnées d'une ressource en lui associant, dans une métadonnée appelée "fullText", le texte intégral du (des) document(s) au(x)quel(s) elle fait référence. Cette métadonnée "fullText" sera alors indexée, ce qui permettrait d'activer une recherche plein texte au niveau du moteur de recherche.

Vous pouvez lancer le gestionnaire :

manuellement, en vous rendant dans l'onglet "Gestion des liens et crawler web" de l'IHM du module ;
de manière automatique, grâce à la balise "scheduleCrawler" depuis le fichier commons-parameters.properties ou le fichier properties/configIndexing.xml si vous n'utilisez pas ori-oai-commons-quick-install.

Si vous ne souhaitez pas lancer le gestionnaire de liens brisés, il vous suffit de laisser la valeur INDEXING_SCHEDULE_CRAWLER du fichier commons-parameters.properties ou la balise "scheduleCrawler" du fichier properties/configIndexing.xml (dans le cas d'une installation manuelle) vide.

Il n'est pas possible de lancer le crawler web indépendamment du gestionnaire de liens morts. Par contre le gestionnaire de liens morts peut être lancé sans le crawler web en renseignant la balise "scheduleCrawler" et en indiquant "false" dans la balise "crawlingAuthorized". Pour que le système de crawling se lance après le gestionnaire de liens brisés il suffit de remplir à "true" la balise "crawlingAuthorized".

La valeur "0 15 23 * * ?" vous permet de lancer le gestionnaire tous les jours à 23h15. Il est recommandé de lancer cette tâche la nuit car c'est le moment où le module d'indexation et les serveurs distants sont moins sollicités. Pour plus d'informations sur la planification du gestionnaire, veuillez consulter le lien suivant : http://www.quartz-scheduler.org/docs/tutorials/crontrigger.html

Pour que le crawling web soit efficace il faut également créer une balise "repository" dans ce fichier.
Prenons l'exemple suivant :

<repository name="INP Toulouse Theses">
	<xpathToUrl format_id="dublin_core" value="//dc:relation" />
	<urlsToNotCrawl></urlsToNotCrawl>
	<depth>1</depth>
	<allowedMimeTypes>application/pdf,application/vnd.ms-powerpoint,application/msword</allowedMimeTypes>
</repository>

Le nom de l'entrepôt doit être le même que la valeur indexée dans la métadonnée "md-ori-oai-repository(...)" de la fiche.
Pour retrouver cette valeur il suffit de visualiser une des fiches concernées via l'onget "Visualisation de toutes les fiches".

Unknown macro: {span}

xpathToUrl

Indique le xpath contenant l'URL vers la ressource.
Il est possible de placer plusieurs balises de ce type. Dans ce cas la première balise sera prioritaire. Si une fiche est indexée dans différents formats, on regardera chaque balise xpathToUrl et la première qui correspondra à un format indexé sera utilisée pour retrouver le plein texte.

Unknown macro: {span}

urlsToNotCrawl

Permet de pas crawler certains serveurs, dont les URLs sont indiquées dans cette balise.
Les valeurs doivent être séparées par des virgules.

Unknown macro: {span}

depth

Indique la profondeur de crawling. Par défaut 1 est suffisant.

Unknown macro: {span}

allowedMimeTypes

Indique les types mime sur lesquels l'indexation plein texte sera appliquée, pour cet entrepôt. La valeur "all" permet d'autoriser tous les types MIME.
Dans notre exemple, on applique l'indexation plein texte uniquement aux ressources dont le format est PDF, Microsoft PowerPoint ou Microsoft Word.
NB : Le module d'indexation n'est pas capable d'indexer tous les types de fichiers !

Il peut y avoir plusieurs balises "repository".
Une balise <repository name="default"> peut servir de référence par défaut. Elle s'appliquera aux entrepôts pour lesquels aucune balise "repository" n'aura été définie. Si on souhaite avoir les mêmes paramètres de crawling quel que soit l'entrepôt d'origine de la fiche, la balise <repository name="default"> sera alors l'unique balise "repository" du fichier.

D'autre part, il est possible d'indiquer les entrepôts à ne pas crawler, à l'aide de la balise "doNotCrawl".
Les valeurs, séparées par des virgules, doivent correspondre à la valeur de la métadonnée "md-ori-oai-repository(...)" des fiches provenant de cet entrepôt.

Valeurs possibles

Dans la page "Visualisation de toutes les fiches" de la partie Administration du module une colonne indique l'état de crawling de chaque fiche. Les différents états sont :

no : La fiche n'a pas encore été crawlée

yes : La fiche a été crawlée avec succès

failed_x: La crawling a échoué x fois.

unreachable: Le document en texte intégral distant est injoignable

some_unreachables: Certains liens sont injoignables

forbidden: Le crawling est impossible sur cette fiche. Il peut s'agir d'un type mime non indexable ou d'une fiche dont l'entrepôt est interdit

Il est aussi possible de consulter l'état des liens :

unknown : Le gestionnaire n'est pas encore passé sur cette fiche

empty : La fiche ne contient pas de lien

active : Tous les liens de la fiche sont actifs

deadlink : Tous les liens sont inactifs

someDeadlinks : Au moins un lien est inactif

Envoi de mail

Il est possible d'envoyer un mail à l'administrateur en remplissant à "true" la balise "sendMail". Les balises "administratorMail" et "smtpEtablissement" doivent être correctement remplies par le biais du fichier commons-parameters.properties du quick-install ou directement dans le fichier configIndexing.xml si vous optez pour une installation manuelle.