Recherche d'information - Définition

Source: Wikipédia sous licence CC-BY-SA 3.0.
La liste des auteurs de cet article est disponible ici.

- Introduction - Introduction - Groupes sur la recherche d'information - Composantes - Outils de recherche d'information - La recherche d'informations vue du côté de l’usager

Introduction

Abrégée en RI ou IR (Information Retrieval en anglais), la recherche d'information est la science qui étudie la manière de répondre pertinemment à une requête en retrouvant de l'information dans un corpus. Celui-ci est composés de documents d'une ou plusieurs bases de données, qui sont décrits par un contenu ou les métadonnées associées. Les bases de données peuvent être relationnelles ou non structurées, telles celles mises en réseau par des liens hypertexte comme dans le World Wide Web, l'internet et les intranets. Le contenu des documents peut être du texte, des sons, ses images ou des données.

La recherche d'information est un domaine historiquement lié aux sciences de l'information et à la bibliothéconomie qui visent a représenter des documents dans le but d'en récupérer des informations, au moyen de la construction d’index. L’informatique a permis le développement d’outils pour traiter l’information et établir la représentation des documents au moment de leur indexation, ainsi que pour rechercher l’information. Ainsi, la recherche d'information est aujourd'hui un champ transdisciplinaire, intéressant même les sciences cognitives.

Introduction

Recherche d'information sans ordinateur.

Avec l'apparition des premiers ordinateurs naquit l'idée d'utiliser des machines pour automatiser la recherche d'information dans les bibliothèques. Les premiers systèmes qui sont utilisés par des libraires permettent d'effectuer des recherches booléennes, c’est-à-dire des recherches où la présence ou l'absence d'un terme dans un document conduit à la sélection du document. Ces recherches nécessitent plusieurs intermédiaires et surtout de gros moyens : il faut en effet créer une nomenclature permettant de décrire l'ensemble des documents et sélectionner pour chaque document un ensemble de mots-clés.

Cette description par mots-clé (indexation matière) suppose du bibliothécaire une connaissance suffisante pour traduire une question, qui peut être plus ou moins précise, en un ensemble de descripteurs. De plus, le jeu de descripteurs n'est souvent ni suffisant, ni assez précis pour décrire n'importe quel document. Il se peut aussi, que pour des problèmes de synonymie, certains documents répondant à la question d'un utilisateur puissent ne pas être retrouvés. La description manuelle est donc un processus lent et qui ne garantit pas de bons résultats.

Or, il est possible d'extraire automatiquement un ensemble de descripteurs caractérisant un texte. Les premières expériences montrent que cette approche est tout à fait viable et compétitive par rapport à l'indexation manuelle. L'utilisation grandissante des logiciels de traitements de texte, et par là même la mise à disposition de quantités de plus en plus importantes de textes directement interprétables par l'ordinateur va alors entraîner le développement rapide des modèles de RI. Ces deux aspects, l'indexation et la recherche sont au cœur des problèmes abordés par la RI. L'indexation et la recherche ont très rapidement évolué d'une modélisation booléenne de la recherche (un terme représente ou ne représente pas le document dans le cas de l'indexation, un document répond ou ne répond pas à la question) à des modèles vectoriels ou probabilistes.

La pertinence d'un document pour une question dans des modèles qui sont basés sur une représentation imprécise des documents et des questions s'exprime dans les modèles de RI sous la forme d'un score. Ce score ne permet plus une validation automatique des systèmes de RI. En effet, pour la question « le document doit contenir le mot chèvre et élevage », un document contenant le mot « chèvre » et « élevage » est une bonne réponse, contrairement à un document qui ne les contiennent pas. Lorsque la question devient « le document doit avoir pour thème l'élevage des chèvres », un document qui parle de soin des chèvres sans utiliser le mot « élevage » sera une bonne réponse, mais aura un score moins important qu'un document qui parle directement de l'élevage des chèvres.

Il est donc impossible de prouver qu'un système de RI est performant puisque le score rend vague la notion de bonne réponse : un document répond plus ou moins bien à une question. La notion de pertinence d'un document pour une question émerge donc en même temps que les premiers systèmes de RI, avec les premières mesures permettant de comparer les différents résultats renvoyés par les systèmes de RI. Les premières mesures, encore largement employées aujourd'hui, sont la précision et le rappel. Un système de RI est très précis si presque tous les documents renvoyés sont pertinents. Un système de RI a un bon rappel s'il renvoie la plupart des documents pertinents du corpus pour une question. En général, ces deux mesures sont antagonistes et un système de RI doit effectuer un compromis entre les deux.

Des problématiques connexes se sont aussi greffées autour de la RI. Parmi les plus courantes et les plus utiles, l'interaction avec l'utilisateur permet d'obtenir progressivement des documents de plus en plus pertinents. Certains se sont ensuite essayés à simuler cette interaction, ou au moins une partie, en proposant des techniques permettant « d'enrichir » la question — en ajoutant par exemple des termes qui n'étaient pas dans la question originale. Cette technique est connue sous le nom d'expansion de requête.

De la recherche documentaire proprement dite, le domaine évolue vers des tâches proches, comme la classification qui permet de regrouper entre eux des documents ayant des thématiques proches, le classement qui a pour but de classer les documents dans un ensemble de catégories prédéfinies. Puis, à mesure que la notion de document et d'unité d'information devient plus floue, les tâches d'extraction d'information et de résumé automatique apparaissent. Actuellement, le domaine regroupe plusieurs thématiques de recherche et évolue avec l'apparition de nouveaux types de corpus, de documents et de besoins d'utilisateurs. Les conférences TREC et SIGIR donnent un aperçu de la diversité des recherches menées aujourd'hui dans le domaine général de la RI.

Recherche d'information - Définition

Introduction

Introduction

Précision de vocabulaire