2.1 Introduction

L’approche de la problématique de la gestion de l’information que nous avons choisie, contrairement aux méthodes habituelles des domaines de l’extraction d’information ou de question-réponse, est centrée sur l’analyse des textes plutôt que sur l’étude des données contenues dans la requête, dont le contexte est limité. Le volume des documents à étudier est de ce fait bien plus important que les énoncés des requêtes ou les quelques fragments de textes proposés comme réponse à la requête.

Par ailleurs, nous avons fait le choix de rejeter les méthodes statistiques au profit d’une approche linguistique du texte. Les informations contenues dans la base documentaire doivent donc être identifiées au cours d’une analyse linguistique. Ces données sont de trois types : morpho-lexical (les mots), syntaxique (les relations syntaxiques entre les mots) et lexico-sémantique (le sens des mots).

La démarche de la structuration de l’information est composée de deux phases étroitement interconnectées. Il s’agit d’abord de l’identification de l’information contenue dans les textes, qui consiste principalement en une série d’analyses linguistiques. Vient ensuite la phase d’enrichissement durant laquelle les résultats de l’analyse sont utilisés pour sélectionner l’information lexicale destinée à enrichir la structure informationnelle. La figure  2.1 page § illustre l’architecture du système de structuration de l’information d’une base textuelle. On peut y voir combien les deux phases du processus (identification de l’information par l’analyse et enrichissement des données identifiées) sont imbriquées l’une dans l’autre.


PIC
Fig. 2.1: Schéma de l’architecture du système de structuration des documents.


Ce chapitre est consacré aux outils d’analyse permettant de traiter l’information de la base documentaire. Pour identifier l’information contenue dans les textes, nous avons besoin d’analyseurs robustes capables d’identifier les mots (segmentation et analyse morphologique), les relations (analyse syntaxique) et le sens des mots (désambiguïsation sémantique). Comme la désambiguïsation sémantique est appelée à déterminer les enrichissements de la structure informationnelle, nous étudions plus en profondeur les différentes méthodes existantes avant de décrire la méthodologie qui nous semble la plus adaptée à notre démarche.