Indexing - Choix techniques et références

Lucene

Lucene est un moteur de recherche appartenant à la fondation apache permettant l'indexation et la recherche de texte. Il est entièrement écrit en langage Java. La version utilisée dans cette version du module d'indexation est la 2.3.2.
http://lucene.apache.org/java/docs/index.html

LIUS

LIUS, qui signifie Lucene Index Update and Search, est un framework d'indexation basé sur le projet Jakarta Lucene. Il a été développé à partir d'un ensemble de technologies JAVA et d'applications entièrement "open source".
LIUS ajoute à Lucene plusieurs fonctionnalités d'indexation de type de documents tel que : Ms Word, Ms Excel, Ms PowerPoint, RTF, PDF, XML, HTML, TXT, la suite Open Office et les JavaBeans. Cet outil permet également d'effectuer une indexation mixte, qui a pour but d'intégrer tout le contenu d'un répertoire sous la même occurrence. Ceci est très utile lorsque l'utilisateur veut indexer des métadonnées en XML et le texte intégral en PDF ou dans un autre format. Ceci permet par la suite d'effectuer par exemple des recherches sur le titre, auteur et le texte intégral en même temps.
 
Toute la configuration de l'indexation, telle que le type de fichiers à indexer ou encore les champs par exemple, ainsi que la recherche sont définies dans un fichier XML, il ne reste plus qu'à écrire le code pour exécuter l'indexation ou la recherche.
http://www.bibl.ulaval.ca/lius/
http://sourceforge.net/projects/lius/

Luke

Luke est une interface graphique permettant de visualiser un index. Il peut être utile en tant qu'outil de diagnostic de ce dernier.
http://www.getopt.org/luke/

Ehcache

Il s'agit d'un gestionnaire de cache en Java. Il est capable de stocker des données en mémoire vive ou sur le disque. Ehcache est utlisé dans le cadre du projet ORI-OAI-Indexing en ce qui concerne la gestion des différents caches utiles à l'optimisation de la recherche dans l'index. La version de la librairie utilisée dans le module d'indexation est la 1.3.
http://ehcache.sourceforge.net/

Quartz

Cette application créée par OpenSymphony est utilisée dans le cadre d'Ori-Oai-Indexing pour la tâche planifiée de gestion des liens morts qui se déroule généralement la nuit. Quartz permet de créer des tâches planifiées très simples ou plus complexes.
http://www.opensymphony.com/quartz/

Crawler web

Le crawler utilisé par Ori-Oai-Indexing permet de visiter les pages web contenant des liens vers des documents plein texte. Il s'agit d'un crawler développé par Java qui présente divers avantages : il est facile d'utilisation, son intégration est simple. Il est également possible de limiter le nombre de liens visités ou la profondeur du crawling. Enfin ce crawler gère les redirections.
La version de crawler web utilisée par Ori-Oai-indexing est la 1.3 datant de juin 2009.
https://crawler.dev.java.net/

Technologies communes

Ainsi que toutes les technologies communes à tous les modules.

  • No labels