Harvester - Configuration avancée

Filtrer le traitement des fiches par leurs identifiants


La propriété local.repositoryIdentifier désigne l'identifiant du repository local, qui permet d'exposer les fiches locales du workflow.

Cette propriété permet de filtrer le traitement des fiches locales afin qu'elles ne soient pas ré-indexées avec leur identifiant OAI, en doublon avec leur indexation depuis le workflow.

Plus généralement, pour empecher l'indexation de certaines fiches, on peut définir d'autres filtres en ajoutant des entrées dans la propriété idFilters du fichier conf/properties/harvester-domain.xml , dans le bean harvestServiceNoTx :

<property name="idFilters">
	<list>
		<value>${local.repositoryIdentifier}</value>
                <value>[filtre identifiant fiches]</value>
	</list>
</property>
  • [filtre identifiant fiches] représente la valeur avec laquelle doivent être filtrées les fiches.

Définir des moissons par fichier


Les moissons OAI peuvent être caractérisées par deux ensembles d'éléments disincts, les sources des moissons, définies par les éléments suivants :

  • les adresses des entrepôts OAI à moissonner
  • le type de format à moissonner pour chacun de ces entrepôts (LOM, Dublin Core, ETDMS...)
  • et optionnellement les ensembles (sets) OAI spécifiques
    et les destinations ou lieux de stockage de ces moissons, incluant ou non un traitement (base de données, indexation...).

Pour charger ce fichier dans la base du moissonneur, il faut renseigner les propriétés harvester.reloadconfig à true et harvester.initconfig avec le chemin complet vers le fichier XML, et lancer la target :

ant init-config

Un exemple de fichier de configuration est fourni , dans le répertoire WEB-INF/config de l'installation : harvesterConfig.example.xml.

Configuration des sections moissons


Les moissons proprement dites se configurent dans l'élément <harvests>, incluant une ou plusiers balises <harvest>:

La structure de cette balise est la suivante :

  • attributs de l'élément <harvest>
    • id : identifiant de la moisson
    • metadataPrefix : préfixe des metadonnées moissonnées
    • collection : permet un sous-classement à l'intérieur d'une moisson (optionnel)
  • sous-éléments <oaistore> de l'élément <harvest>
    • attributs de l'élément <oaistore>
      • url : adresse d'un entrepôt OAI.
  • sous-éléments <schedule> de l'élément <harvest>
    • attributs de l'élément <schedule>
      • cron : une chaine utilisant la syntaxe CRONTAB

Niveau de déboggage

Le niveau de débogage peut être modifier en éditant le fichier properties\log4j.*.properties. Deux modèles de fichiers sont fournis, log4j.prod.propeties en mode production, et log4j.debug.properties en mode débogage.

.Les niveaux disponibles sont : debug, info, warn, error et fatal, du plus prolixe au plus concis. Le niveau de déboggage influe sur les performances de l'application.

Note : il faut adapter les chemins des fichiers de log, par exemple à la ligne :

log4j.appender.R.File=E:\Java\jakarta-tomcat-5.0.28\logs\ori-harvester.log
  • No labels