Page History

Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.
Comment: Migrated to Confluence 4.0

...

Gestionnaire

...

de

...

liens

...

brisés

...

et

...

Système

...

de

...

crawling

...

Configuration

Le gestionnaire de liens brisés permet de renseigner l'administrateur

...

de

...

l'indisponibilité

...

de

...

documents

...

distants

...

(liens

...

morts).

...


Le

...

crawler

...

web

...

permet

...

d'enrichir

...

la

...

fiche

...

de

...

métadonnées

...

d'une

...

ressource

...

en

...

lui

...

associant,

...

dans

...

une

...

métadonnée

...

appelée

...

"fullText",

...

le

...

texte

...

intégral

...

du

...

(des)

...

document(s)

...

au(x)quel(s)

...

elle

...

fait

...

référence.

...

Cette

...

métadonnée

...

"fullText"

...

sera

...

alors

...

indexée,

...

ce

...

qui

...

permettrait

...

d'activer

...

une

...

recherche

...

plein

...

texte

...

au

...

niveau

...

du

...

moteur

...

de

...

recherche.

...

Vous

...

pouvez

...

lancer

...

le

...

gestionnaire

...

:

...

  • manuellement,

...

  • en

...

  • vous

...

  • rendant

...

  • dans

...

  • l'onglet

...

  • "Gestion

...

  • des

...

  • liens

...

  • et

...

  • crawler

...

  • web"

...

  • de

...

  • l'IHM

...

  • du

...

  • module

...

  • ;

...

  • de

...

  • manière

...

  • automatique,

...

  • grâce

...

  • à

...

  • la

...

  • balise

...

  • "scheduleCrawler"

...

  • depuis

...

  • le

...

  • fichier

...

  • commons-parameters.properties

...

  • ou

...

  • le

...

  • fichier

...

  • properties/configIndexing.xml

...

  • si

...

  • vous

...

  • n'utilisez

...

  • pas

...

  • ori-oai-commons-quick-install.
Warning

Si vous ne souhaitez pas lancer le gestionnaire de liens brisés, il vous suffit de laisser la valeur

{warning}Si vous ne souhaitez pas lancer le gestionnaire de liens brisés, il vous suffit de laisser la valeur

INDEXING_SCHEDULE_CRAWLER

du

fichier

commons-parameters.properties

ou

la

balise

"scheduleCrawler"

du

fichier

properties/configIndexing.xml

(dans

le

cas

d'une

installation

manuelle)

*

vide

*

.

Il

n'est

pas

possible

de

lancer

le

crawler

web

indépendamment

du

gestionnaire

de

liens

morts.

Par

contre

le

gestionnaire

de

liens

morts

peut

être

lancé

sans

le

crawler

web

en

renseignant

la

balise

"scheduleCrawler"

et

en

indiquant

"false"

dans

la

balise

"crawlingAuthorized".

Pour

que

le

système

de

crawling

se

lance

après

le

gestionnaire

de

liens

brisés

il

suffit

de

remplir

à

"true"

la

balise

"crawlingAuthorized".

{warning} {note}La valeur

Note

La valeur "0

15

23

*

*

?"

vous

permet

de

lancer

le

gestionnaire

tous

les

jours

à

23h15.

Il

est

recommandé

de

lancer

cette

tâche

la

nuit

car

c'est

le

moment

le

module

d'indexation

et

les

serveurs

distants

sont

moins

sollicités.

Pour

plus

d'informations

sur

la

planification

du

gestionnaire,

veuillez

consulter

le

lien

suivant

:

[

http://www.quartz-scheduler.org/docs/tutorials/crontrigger.html


Pour que le crawling web soit efficace il faut également créer une balise "repository" dans ce fichier.
Prenons l'exemple suivant :

Code Block
]
{note}

\\
Pour que le crawling web soit efficace il faut également créer une balise "*repository*" dans ce fichier.
Prenons l'exemple suivant :

{code}
<repository name="INP Toulouse Theses">
	<xpathToUrl format_id="dublin_core" value="//dc:relation" />
	<urlsToNotCrawl></urlsToNotCrawl>
	<depth>1</depth>
	<allowedMimeTypes>application/pdf,application/vnd.ms-powerpoint,application/msword</allowedMimeTypes>
</repository>
{code}

Le

...

nom

...

de

...

l'entrepôt

...

doit

...

être

...

le

...

même

...

que

...

la

...

valeur

...

indexée

...

dans

...

la

...

métadonnée

...

"md-ori-oai-repository(...)"

...

de

...

la

...

fiche.

...


Pour

...

retrouver

...

cette

...

valeur

...

il

...

suffit

...

de

...

visualiser

...

une

...

des

...

fiches

...

concernées

...

via

...

l'onget

...

"Visualisation

...

de

...

toutes

...

les

...

fiches".

...

Span

...

class

...

term

...

xpathToUrl

Indique le xpath contenant l'URL

...

vers

...

la

...

ressource.

...


Il

...

est

...

possible

...

de

...

placer

...

plusieurs

...

balises

...

de

...

ce

...

type.

...

Dans

...

ce

...

cas

...

la

...

première

...

balise

...

sera

...

prioritaire.

...

Si

...

une

...

fiche

...

est

...

indexée

...

dans

...

différents

...

formats,

...

on

...

regardera

...

chaque

...

balise

...

xpathToUrl

...

et

...

la

...

première

...

qui

...

correspondra

...

à

...

un

...

format

...

indexé

...

sera

...

utilisée

...

pour

...

retrouver

...

le

...

plein

...

texte.

...

Span
classterm
urlsToNotCrawl

Permet de pas crawler certains serveurs, dont les URLs sont indiquées dans cette balise.
Les valeurs doivent être séparées par des virgules.

Span
classterm
depth

Indique la profondeur de crawling. Par défaut 1 est suffisant.

Span
classterm
allowedMimeTypes

Indique les types mime sur lesquels l'indexation plein texte sera appliquée, pour cet entrepôt. La valeur "all" permet d'autoriser tous les types MIME.
Dans notre exemple, on applique l'indexation plein texte uniquement aux ressources dont le format est PDF, Microsoft PowerPoint ou Microsoft Word.
NB : Le module d'indexation n'est pas capable d'indexer tous les types de fichiers !


Il peut y avoir plusieurs balises "repository".
Une balise <repository name="default"> peut servir de référence par défaut. Elle s'appliquera aux entrepôts pour lesquels aucune balise "repository" n'aura été définie. Si on souhaite avoir les mêmes paramètres de crawling quel que soit l'entrepôt d'origine de la fiche, la balise <repository name="default"> sera alors l'unique balise "repository" du fichier.


D'autre part, il est possible d'indiquer les entrepôts à ne pas crawler, à l'aide de la balise "doNotCrawl".
Les valeurs, séparées par des virgules, doivent correspondre à la valeur de la métadonnée "md-ori-oai-repository(...)"

...

des

...

fiches

...

provenant

...

de

...

cet

...

entrepôt.

...

Valeurs

...

possibles

...

Dans

...

la

...

page

...

"Visualisation

...

de

...

toutes

...

les

...

fiches"

...

de

...

la

...

partie

...

Administration

...

du

...

module

...

une

...

colonne

...

indique

...

l'état

...

de

...

crawling

...

de

...

chaque

...

fiche.

...

Les

...

différents

...

états

...

sont

...

:

...

  • no : La fiche n'a

...

  • pas

...

  • encore

...

  • été

...

  • crawlée

...

  • yes : La fiche a été crawlée avec succès
  • failed_x

...

  • :

...

  • La

...

  • crawling

...

  • a

...

  • échoué

...

  • x

...

  • fois.

...

  • unreachable

...

  • :

...

  • Le

...

  • document

...

  • en

...

  • texte

...

  • intégral

...

  • distant

...

  • est

...

  • injoignable

...

  • some_unreachables

...

  • :

...

  • Certains

...

  • liens

...

  • sont

...

  • injoignables

...

  • forbidden

...

  • :

...

  • Le

...

  • crawling

...

  • est

...

  • impossible

...

  • sur

...

  • cette

...

  • fiche.

...

  • Il

...

  • peut

...

  • s'agir

...

  • d'un

...

  • type

...

  • mime

...

  • non

...

  • indexable

...

  • ou

...

  • d'une

...

  • fiche

...

  • dont

...

  • l'entrepôt

...

  • est

...

  • interdit

...

Il

...

est

...

aussi

...

possible

...

de

...

consulter

...

l'état

...

des

...

liens

...

:

...

  • unknown : Le gestionnaire n'est

...

  • pas

...

  • encore

...

  • passé

...

  • sur

...

  • cette

...

  • fiche

...

  • empty : La fiche ne contient pas de lien
  • active : Tous les liens de la fiche sont actifs
  • deadlink : Tous les liens sont inactifs
  • someDeadlinks : Au moins un lien est inactif

Envoi de mail

Il est possible d'envoyer un mail à l'administrateur en remplissant à "true" la balise "sendMail". Les balises "administratorMail" et "smtpEtablissement" doivent être correctement remplies par le biais du fichier commons-parameters.properties du quick-install ou directement dans le fichier configIndexing.xml si vous optez pour une installation manuelle.