...
Gestionnaire
...
de
...
liens
...
brisés
...
et
...
Système
...
de
...
crawling
...
Configuration
Le gestionnaire de liens brisés permet de renseigner l'administrateur
...
de
...
l'indisponibilité
...
de
...
documents
...
distants
...
(liens
...
morts).
...
Le
...
crawler
...
web
...
permet
...
d'enrichir
...
la
...
fiche
...
de
...
métadonnées
...
d'une
...
ressource
...
en
...
lui
...
associant,
...
dans
...
une
...
métadonnée
...
appelée
...
"fullText",
...
le
...
texte
...
intégral
...
du
...
(des)
...
document(s)
...
au(x)quel(s)
...
elle
...
fait
...
référence.
...
Cette
...
métadonnée
...
"fullText"
...
sera
...
alors
...
indexée,
...
ce
...
qui
...
permettrait
...
d'activer
...
une
...
recherche
...
plein
...
texte
...
au
...
niveau
...
du
...
moteur
...
de
...
recherche.
...
Vous
...
pouvez
...
lancer
...
le
...
gestionnaire
...
:
...
- manuellement,
...
- en
...
- vous
...
- rendant
...
- dans
...
- l'onglet
...
- "Gestion
...
- des
...
- liens
...
- et
...
- crawler
...
- web"
...
- de
...
- l'IHM
...
- du
...
- module
...
- ;
...
- de
...
- manière
...
- automatique,
...
- grâce
...
- à
...
- la
...
- balise
...
- "scheduleCrawler"
...
- depuis
...
- le
...
- fichier
...
- commons-parameters.properties
...
- ou
...
- le
...
- fichier
...
- properties/configIndexing.xml
...
- si
...
- vous
...
- n'utilisez
...
- pas
...
- ori-oai-commons-quick-install.
Warning |
---|
Si vous ne souhaitez pas lancer le gestionnaire de liens brisés, il vous suffit de laisser la valeur {warning}Si vous ne souhaitez pas lancer le gestionnaire de liens brisés, il vous suffit de laisser la valeurINDEXING_SCHEDULE_CRAWLER du fichier commons-parameters.properties ou la balise "scheduleCrawler" du fichier properties/configIndexing.xml (dans le cas d'une installation manuelle) *vide *. Il n'est pas possible de lancer le crawler web indépendamment du gestionnaire de liens morts. Par contre le gestionnaire de liens morts peut être lancé sans le crawler web en renseignant la balise "scheduleCrawler" et en indiquant "false" dans la balise "crawlingAuthorized". Pour que le système de crawling se lance après le gestionnaire de liens brisés il suffit de remplir à "true" la balise "crawlingAuthorized". {warning} {note}La valeur |
Note |
---|
La valeur "0 15 23 * * ?" vous permet de lancer le gestionnaire tous les jours à 23h15. Il est recommandé de lancer cette tâche la nuit car c'est le moment où le module d'indexation et les serveurs distants sont moins sollicités. Pour plus d'informations sur la planification du gestionnaire, veuillez consulter le lien suivant : [http://www.quartz-scheduler.org/docs/tutorials/crontrigger.html |
Pour que le crawling web soit efficace il faut également créer une balise "repository" dans ce fichier.
Prenons l'exemple suivant :
Code Block |
---|
] {note} \\ Pour que le crawling web soit efficace il faut également créer une balise "*repository*" dans ce fichier. Prenons l'exemple suivant : {code} <repository name="INP Toulouse Theses"> <xpathToUrl format_id="dublin_core" value="//dc:relation" /> <urlsToNotCrawl></urlsToNotCrawl> <depth>1</depth> <allowedMimeTypes>application/pdf,application/vnd.ms-powerpoint,application/msword</allowedMimeTypes> </repository> {code} |
Le
...
nom
...
de
...
l'entrepôt
...
doit
...
être
...
le
...
même
...
que
...
la
...
valeur
...
indexée
...
dans
...
la
...
métadonnée
...
"md-ori-oai-repository(...)"
...
de
...
la
...
fiche.
...
Pour
...
retrouver
...
cette
...
valeur
...
il
...
suffit
...
de
...
visualiser
...
une
...
des
...
fiches
...
concernées
...
via
...
l'onget
...
"Visualisation
...
de
...
toutes
...
les
...
fiches".
...
Span |
---|
...
|
...
|
...
xpathToUrl |
Indique le xpath contenant l'URL
...
vers
...
la
...
ressource.
...
Il
...
est
...
possible
...
de
...
placer
...
plusieurs
...
balises
...
de
...
ce
...
type.
...
Dans
...
ce
...
cas
...
la
...
première
...
balise
...
sera
...
prioritaire.
...
Si
...
une
...
fiche
...
est
...
indexée
...
dans
...
différents
...
formats,
...
on
...
regardera
...
chaque
...
balise
...
xpathToUrl
...
et
...
la
...
première
...
qui
...
correspondra
...
à
...
un
...
format
...
indexé
...
sera
...
utilisée
...
pour
...
retrouver
...
le
...
plein
...
texte.
...
Span | ||
---|---|---|
| ||
urlsToNotCrawl |
Permet de pas crawler certains serveurs, dont les URLs sont indiquées dans cette balise.
Les valeurs doivent être séparées par des virgules.
Span | ||
---|---|---|
| ||
depth |
Indique la profondeur de crawling. Par défaut 1 est suffisant.
Span | ||
---|---|---|
| ||
allowedMimeTypes |
Indique les types mime sur lesquels l'indexation plein texte sera appliquée, pour cet entrepôt. La valeur "all" permet d'autoriser tous les types MIME.
Dans notre exemple, on applique l'indexation plein texte uniquement aux ressources dont le format est PDF, Microsoft PowerPoint ou Microsoft Word.
NB : Le module d'indexation n'est pas capable d'indexer tous les types de fichiers !
Il peut y avoir plusieurs balises "repository".
Une balise <repository name="default"> peut servir de référence par défaut. Elle s'appliquera aux entrepôts pour lesquels aucune balise "repository" n'aura été définie. Si on souhaite avoir les mêmes paramètres de crawling quel que soit l'entrepôt d'origine de la fiche, la balise <repository name="default"> sera alors l'unique balise "repository" du fichier.
D'autre part, il est possible d'indiquer les entrepôts à ne pas crawler, à l'aide de la balise "doNotCrawl".
Les valeurs, séparées par des virgules, doivent correspondre à la valeur de la métadonnée "md-ori-oai-repository(...)"
...
des
...
fiches
...
provenant
...
de
...
cet
...
entrepôt.
...
Valeurs
...
possibles
...
Dans
...
la
...
page
...
"Visualisation
...
de
...
toutes
...
les
...
fiches"
...
de
...
la
...
partie
...
Administration
...
du
...
module
...
une
...
colonne
...
indique
...
l'état
...
de
...
crawling
...
de
...
chaque
...
fiche.
...
Les
...
différents
...
états
...
sont
...
:
...
- no : La fiche n'a
...
- pas
...
- encore
...
- été
...
- crawlée
...
- yes : La fiche a été crawlée avec succès
- failed_x
...
- :
...
- La
...
- crawling
...
- a
...
- échoué
...
- x
...
- fois.
...
- unreachable
...
- :
...
- Le
...
- document
...
- en
...
- texte
...
- intégral
...
- distant
...
- est
...
- injoignable
...
- some_unreachables
...
- :
...
- Certains
...
- liens
...
- sont
...
- injoignables
...
- forbidden
...
- :
...
- Le
...
- crawling
...
- est
...
- impossible
...
- sur
...
- cette
...
- fiche.
...
- Il
...
- peut
...
- s'agir
...
- d'un
...
- type
...
- mime
...
- non
...
- indexable
...
- ou
...
- d'une
...
- fiche
...
- dont
...
- l'entrepôt
...
- est
...
- interdit
...
Il
...
est
...
aussi
...
possible
...
de
...
consulter
...
l'état
...
des
...
liens
...
:
...
- unknown : Le gestionnaire n'est
...
- pas
...
- encore
...
- passé
...
- sur
...
- cette
...
- fiche
...
- empty : La fiche ne contient pas de lien
- active : Tous les liens de la fiche sont actifs
- deadlink : Tous les liens sont inactifs
- someDeadlinks : Au moins un lien est inactif
Envoi de mail
Il est possible d'envoyer un mail à l'administrateur en remplissant à "true" la balise "sendMail". Les balises "administratorMail" et "smtpEtablissement" doivent être correctement remplies par le biais du fichier commons-parameters.properties du quick-install ou directement dans le fichier configIndexing.xml si vous optez pour une installation manuelle.