Gestionnaire de liens brisés et indexation plein texte

Le gestionnaire de documents externes est un gestionnaire traitant les URLs spécifiées dans les fiches indexées. Il gère aussi bien la détection des liens morts que le "crawling". Ce dernier correspond à un processus qui permet d'explorer différentes URLs à partir d'une URL de départ. L'étendue de l'exploration est définie dans le fichier configIndexing.xml.
Pour chaque URL explorée il est possible de récupérer le plein texte associé.

Conditions d'activation du gestionnaire de documents externes

1) INDEXING_SCHEDULE_CRAWLER (défini dans common-parameters.properties) doit avoir une valeur (cron). Ce paramètre correspond au "cron" du gestionnaire de documents et non simplement du crawling. Il garde ce nom pour des raisons de compatibilité.

2) INDEXING_PLAIN_TEXT=true : si on souhaite récupérer le plein texte pour les URLs visitées.

3) Un autre gestionnaire de documents externes ne doit pas être en cours d'exécution.

Envoi de mail

Il est possible d'envoyer un mail à l'administrateur en remplissant à "true" la propriété DEAD_LINK_EMAIL_REPORT du fichier commons-parameters.properties de ORI-OAI-quick-install.
Les propriétés SMTP_ETABLISSEMENT, SMTP_PORT_ETABLISSEMENT, SMTP_ADMINISTRATOR_MAIL et SMTP_ADMINISTRATOR_NAME doivent être correctement remplies.

Configuration générale

La configuration de cette partie se passe dans le fichier [PATH_CUSTOM_CONFIG]/ori-oai-indexing/config/configIndexing.xml :

<deadLinkMaxAttempts></deadLinkMaxAttempts>

Nombre de tentatives successives avant de considérer qu'un lien est définitivement brisé

<recheckURLsAfter></recheckURLsAfter>

Nombre de jours après lesquels il est nécessaire de tester à nouveau une URL qui a été considérée précédemment comme un lien brisé

Configuration des documents à indexer

La configuration de cette partie se passe dans le fichier [PATH_CUSTOM_CONFIG]/ori-oai-indexing/config/configIndexing.xml :

Pour que l'indexation plein texte et le "crawling" web soient efficaces il est possible d'écrire des règles à adopter en fonction du serveur sur lequel est stocké le fichier ou en fonction du repository sur lequel a été moissonnée la fiche.

On peut définir :

allowedMimeTypes : le(s) type(s) mime qu'on autorise : ex. application/pdf, application/msword...
crawlingDepth : la profondeur d'exploration.
maxNbOfPagesToCrawl : le nombre maximum de pages à explorer.

Ces paramètres s'appliquent dans l'ordre suivant : plainTextUrlConfig (définition au niveau de l'URL en fonction du serveur d'hébergement), repository (définition au niveau du repository) , repository "default" (définition par défaut).

En fonction du serveur d'hébergement

Cette configuration est de la forme suivante :

    <plainTextUrlConfig urlPrefix="http://.......">
        <allowedMimeTypes>.....</allowedMimeTypes>
        <crawlingDepth>.....</crawlingDepth>
        <maxNbOfPagesToCrawl>.....</maxNbOfPagesToCrawl>
    </plainTextUrlConfig>

Exemples :
On n'autorise aucun document (aucun type mime) pour toutes les URLs commençant par http://www.serveur.com/

    <plainTextUrlConfig urlPrefix="http://www.serveur.com/">
        <allowedMimeTypes></allowedMimeTypes>
    </plainTextUrlConfig>

On autorise l'indexation plain texte et le crawling à une profondeur de 5 et une récupération maximum de 50 pages web pour toutes les URLs commençant par http://www.serveur.com/

    <plainTextUrlConfig urlPrefix="http://www.serveur.com/">
        <crawlingDepth>5</crawlingDepth>
        <maxNbOfPagesToCrawl>5</maxNbOfPagesToCrawl>
    </plainTextUrlConfig>

En fonction du repository sur lequel a été moissonnée la fiche de métadonnées

Cette configuration est de la forme suivante :

    <repository name="My repository">
        <allowedMimeTypes>.....</allowedMimeTypes>
        <crawlingDepth>.....</crawlingDepth>
        <maxNbOfPagesToCrawl>.....</maxNbOfPagesToCrawl>
    </repository >

Exemples :
On n'autorise aucun document (aucun type mime) pour toutes les URLs stockées dans les fiches provenant du repository dont le nom est My repository

    <repository name="My repository">
        <allowedMimeTypes></allowedMimeTypes>
    </repository >

On autorise l'indexation plain texte et le crawling à une profondeur de 5 et une récupération maximum de 50 pages web pour toutes les URLs stockées dans les fiches provenant du repository dont le nom est My repository

    <repository name="My repository">
        <crawlingDepth>5</crawlingDepth>
        <maxNbOfPagesToCrawl>5</maxNbOfPagesToCrawl>
    </repository >

La règle par défaut

Si l'URL en cours de traitement ne correspond ni à une règle de type <plainTextUrlConfig/> ni à une règle de type <repository/>, on tombe alors dans la règle par défaut définie par cette balise :

    <repository name="default">
        <allowedMimeTypes>application/msword,application/pdf,application/rtf,application/vnd.ms-excel,application/vnd.ms-powerpoint,application/vnd.oasis.opendocument.text,application/vnd.oasis.opendocument.spreadsheet,application/rss+xml,application/xhtml+xml,application/xml,application/zip,application/x-zip-compressed,text/html,text/plain,text/rtf,text/xml</allowedMimeTypes>
        <crawlingDepth>1</crawlingDepth>
        <maxNbOfPagesToCrawl>1</maxNbOfPagesToCrawl>
    </repository >

Indexing - Gestionnaire de liens brisés et indexation plein texte