La création de la structure informationnelle est guidée par des besoins au confluent de deux mouvances : les disciplines d’extraction d’information et de question-réponse. La démarche choisie consiste à identifier dans un texte une information recherchée grâce aux différents aspects que cette information peut prendre. Toutefois, les formes sous lesquelles l’information peut se présenter ne sont pas produites au départ de la recherche (un type informationnel dans le cadre de l’extraction d’information, une requête dans une application de question-réponse), mais au départ de la base textuelle dans laquelle on recherche l’information. Ce choix a été motivé par la constatation que l’identification sémantique de données textuelles est facilitée par un contexte plus étendu. Ce contexte est généralement plus étendu dans le texte que dans un type informationnel ou dans une question.
La création d’une structure informationnelle permettant l’accès à l’information contenue dans une base textuelle repose sur deux principes : l’identification des éléments d’information contenus dans la base documentaire ainsi que des liens qui les unissent, et la production du plus grand nombre de formes différentes qui peuvent être prises par chaque donnée présente.
L’identification des éléments d’information est opérée par les différentes étapes d’analyse des documents : identification des lexèmes grâce à la segmentation et à l’analyse morphologique, identification des relations entre lexèmes et groupes de lexèmes au travers de l’analyse syntaxique, identification du sens des lexèmes grâce à la désambiguïsation sémantique. La collecte de ces résultats constitue l’épine dorsale de la structure informationnelle. L’ensemble de l’information textuelle que notre méthode est capable de recueillir y est présente.
Ensuite, la génération des expressions équivalentes aux formes originales doit respecter deux principes :
Les informations lexico-syntaxiques et lexico-sémantiques obtenues grâce aux ressources lexicales peuvent dès lors être ajoutées à la structure informationnelle pour l’enrichir.
Ce chapitre présente la méthode de constitution de la structure informationnelle et les techniques qui permettent d’obtenir les informations qui la constituent. Dans un premier temps, ce sont les résultats de l’analyse linguistique de la base textuelle qui en forment le squelette. Un nouveau système de réduction de l’ambiguïté sémantique mieux adapté aux besoins de la tâche est présenté. Ensuite, les traits sémantiques, les synonymes simples et les expressions synonymiques à mots multiples viennent enrichir la structure. Enfin, l’application de patrons syntaxiques permet d’ajouter les formes dérivées du lexique original et ainsi de compléter la structure informationnelle.