6.2 Analyse de la question

L’apport d’une réponse à une question ne peut se faire qu’en mettant en correspondance une information partielle présente dans l’énoncé de la question avec une information complète concordante dans la base documentaire que l’on interroge. Il s’agit dès lors d’extraire cette information partielle de la question sous une forme qui correspond à celle sous laquelle nous avons conservé les données de base et les enrichissements de la base documentaire à interroger. C’est donc sur la base d’une analyse semblable que nous devons traiter les questions posées au système.

Cette analyse ne sera cependant pas la même que celle qui est à l’origine de la construction de la structure de la base documentaire. En effet, les enrichissements ayant déjà été effectués lors de l’analyse des documents, il n’est en principe pas nécessaire de repasser par une telle procédure. De plus, le contexte de la question étant souvent bien plus restreint que celui d’un document réel, il est probable que les différentes méthodologies mises en œuvre au cours de notre approche ne pourraient prétendre à un même niveau d’exactitude.

Or chacun des enrichissements que notre système d’analyse a permis d’effectuer sur la base documentaire est potentiellement générateur de bruit dès lors que le résultat d’une analyse, tronqué par la limite de l’information contextuelle, présente des erreurs dans son interprétation. On se souviendra que c’est cette réserve quant à la richesse de l’information contextuelle de la requête qui nous a amené à considérer l’importance de l’enrichissement du document 1. Toutefois, l’analyse de l’énoncé de la requête requiert certaines des adaptations que nous avons apportées au lexique fourni à NTM ainsi qu’à la grammaire de XIP pour l’analyse du document, ainsi que d’autres particularités qui tiennent à la nature interrogative des requêtes présentées au système.

6.2.1 Traitements communs aux documents et à la question

Les traitements qui sont communs au traitement des documents de la base et à l’énoncé des questions proposées au système sont bien entendu l’analyse morpho-syntaxique de NTM-XIP, qui permet d’obtenir une réelle cohérence entre les traits morphologiques et syntaxiques extraits de la question et des fragments de textes, ainsi qu’entre les dépendances générées. Comme pour l’analyse des documents, certains de ces traits et de ces dépendances ne sont pas pris en compte : la catégorie grammaticale mise à part, les indications morphologiques ne sont pas prises en considération ; les relations que nous avons appelées « fonctionnelles » (cf. section  5.3.1 page §) sont également éliminées 2.

Certains des traitements appliqués aux questions posées au système sont donc les mêmes que ceux qui ont été utilisés pour les documents. Dès lors, nous ne nous attarderons pas à en décrire le fonctionnement, mais nous justifierons une nouvelle utilisation de ces méthodes.

Tout d’abord, nous soumettons les questions à l’analyse morpho-syntaxique de NTM-XIP afin de disposer d’informations morphologiques et syntaxiques cohérentes avec celles qui ont été indexées dans la structure syntaxico-sémantique de la base documentaire. De même qu’au cours de l’analyse des documents, nous ne conservons de l’information morphologique que des données relatives à la catégorie grammaticale des lexèmes.

Pareillement, les unités lexicales ne seront conservées que dans la mesure où elles apparaissent comme arguments de dépendances syntaxiques calculées par XIP. Et bien entendu, il est naturel de ne pas conserver les dépendances syntaxiques fonctionnelles qui ne peuvent correspondre à aucune des réalités emmagasinées dans la structure, puisqu’elles ont été rejetées lors de l’analyse des documents.

De plus, les lexiques utilisés pour effectuer cette analyse sont identiques à ceux qui ont été exploités lors de la construction de la structure documentaire. De ce fait, les traits sémantiques reprenant les domaines d’utilisation, les classes sémantiques et les catégories sémantiques, dont nous avons enrichi le lexique morphologique (cf. section 4.2.2 page §), seront assignées aux éléments extraits de l’énoncé de la requête lors de son analyse. Cette assignation de traits permettra, dans une certaine mesure, d’effectuer un typage de l’objet de la question.

C’est à ce stade de l’analyse de la requête que le traitement commence à diverger de celui qui a été appliqué aux textes de la base documentaire. En effet, les autres traitements concernent purement l’enrichissement de l’énoncé, que nous avons renoncé à appliquer à un texte aussi court qu’une question. Il est toutefois important d’indiquer que dès ce niveau d’analyse, on dispose du squelette de la phrase sur lequel est construit toute la méthodologie d’enrichissement et de construction de la structure syntaxico-sémantique de la base textuelle.

6.2.2 Divergences dans la méthode d’analyse

La première des libertés que prend le traitement de la requête par rapport à celui des documents réside dans un apport que nous avons fait à la grammaire et qui permet d’identifier l’objet de la question dans une certaine mesure – ou en tout cas de le catégoriser. En effet, pour pouvoir apporter une réponse à la question posée au système, il importe d’identifier le plus précisément possible les caractéristiques attachées à l’élément capable d’y répondre.

Apport lexical

Or comme les unités lexicales – pronoms, adjectifs ou adverbes – permettant d’introduire une interrogation n’existent qu’en nombre limité, et que leur nature permet de catégoriser souvent la réponse qu’ils attendent, nous avons ajouté à la grammaire du français de XIP plusieurs règles lexicales qui permettent d’attacher des traits sémantiques aux interrogatifs et ainsi de fixer certaines contraintes sur les réponses candidates fournies par le système.

Nous aurons par exemple un trait humain qui s’attachera au pronom interrogatif qui, des traits de temps ou de lieu qui marqueront respectivement les adverbes interrogatifs quand et où 3. Par contre, certaines unités lexicales interrogatives ne peuvent être catégorisées de cette manière. Ainsi, que ou quoi ne peuvent recevoir systématiquement de trait sémantique 4, et les traits portant sur les adjectifs interrogatifs sont susceptibles de varier en fonction du lexème qu’ils qualifient.

Nous avons donc réalisé autant que possible des règles lexicales XIP attribuant certains traits sémantiques aux interrogatifs suffisamment typés pour recevoir une telle affectation. Il a toutefois fallu trouver un autre procédé pour permettre la catégorisation de l’objet des questions dont l’interrogatif ne permet pas une telle détermination.

Une identification syntaxique : le FOCUS

Le focus d’une question est une notion introduite par [Lehnert, 1979]. Il correspond dans cet ouvrage à un concept présent dans la question qui englobe l’information attendue en réponse à cette question. Largement reprise et redéfinie par la suite, elle est pour [Ferret et al., 2002b] un mot ou un groupe nominal de la question qui représente le concept sur lequel une information est demandée par la question, et qui se trouve habituellement dans la réponse. De notre point de vue, le focus correspond à l’objet de la question. Il s’agit d’une unité lexicale qui détermine à l’intérieur de la question les caractéristiques sémantiques de ce que doit être la réponse. De plus, sa fonction syntaxique dans la question n’est pas quelconque : le focus entretient avec l’interrogatif une relation privilégiée quand il n’est pas lui-même l’interrogatif 5.

Nous avons donc créé un nouveau type de dépendance qui ne correspond à aucune relation syntaxique traditionnelle, mais prend en argument l’objet de la question. Ainsi, si c’est un adjectif qui introduit la requête et est porteur de sa fonction interrogative, l’unité lexicale dont il est épithète sera l’argument de cette dépendance, que nous avons appelée FOCUS. Par contre, lorsque c’est un pronom qui introduit la question, deux possibilités se présentent : si ce pronom est le sujet d’un verbe copule, le FOCUS portera sur son attribut ; dans le cas contraire, c’est le pronom interrogatif lui-même qui sera l’argument du FOCUS (cf. figure 6.1 page §).


FOCUS sur le nom dont l’interrogatif est épithète :
Quelle ville devint capitale de l’Empire Romain en 402 ?
FOCUS(ville)

FOCUS sur l’attribut de l’interrogatif :
Qui était le beau-père de Galère ?
FOCUS(beau-père)

FOCUS sur l’interrogatif :
Contre qui Constant Ier lutta-t-il ?
FOCUS(qui)

Fig. 6.1: Exemples des différents types de dépendance FOCUS.


Bien qu’elle n’apparaisse pas dans la structure de la base documentaire, cette dépendance est pourtant très importante pour le bon fonctionnement de la procédure d’interrogation. En effet, quoiqu’un certain typage de la réponse attendue soit possible d’un point de vue lexical grâce aux lexèmes interrogatifs qui n’existent qu’en nombre limité (cf. supra), la plupart des interrogations ne sont réellement catégorisées qu’à la faveur du contenu de la question, et notamment le contexte syntaxique immédiat de l’interrogatif qui introduit cette question. La dépendance FOCUS a pour mission d’identifier l’unité lexicale qui constitue dans la question la plus grande détermination relative à la réponse.

6.2.3 Exploitation des particularités de l’analyse des questions

Malgré les travaux effectués sur le typage de l’objet de la question, que ce soit au niveau lexical par détermination du type demandé par l’interrogatif introducteur de la requête ou du point de vue syntaxique avec l’unité lexicale constituant un contexte déterminant de l’interrogatif, encore faut-il être à même d’exploiter les informations que l’ensemble de cette analyse fournit. Or pour faire correspondre l’information que nous avons ainsi extraite de la question avec celle qui est contenue dans la structure syntaxico-sémantique de la base documentaire, la forme de cette information doit être compatible.

Le premier motif d’incompatibilité apparaît dans la présence d’un interrogatif dans les arguments des dépendances qui constituent le squelette de l’information extraite de la requête. Il est en effet bien rare que, dans une base textuelle élaborée pour contenir de l’information comme l’est l’ensemble des textes constitutifs d’une encyclopédie, on trouve des énoncés interrogatifs. Les unités interrogatives sont donc peu fréquentes et cette carence rend la plupart des dépendances des questions où intervient un interrogatif caduques pour leur mise en correspondance avec la base textuelle.

Pour éliminer cette incohérence entre les deux structures informationnelles, nous avons systématiquement supprimé l’unité lexicale interrogative, tout en maintenant le cas échéant les contraintes sémantiques qui lui étaient liées depuis l’application des règles lexicales XIP. Ainsi, une dépendance semblable, présentant pour ce même argument n’importe quel lemme, sera mise en correspondance avec la dépendance extraite de la question, à condition que ce lemme possède les mêmes traits sémantiques que l’interrogatif.


Qui persécutait les chrétiens ? (1)
(...) le monarque Châhpuhr II qui persécutait les chrétiens (...)(2)
Structure de (1)
Structure de (2)

SUBJ(persécutait,Qui[humain :+])

SUBJ[REL](persécutait,monarque[humain :+])

VARG[DIR](persécutait,chrétiens)

VARG[DIR](persécutait,chrétiens)

FOCUS(Qui)

NN[PROPER](Châhpuhr,II)

NN(monarque,Châhpuhr)


Fig. 6.2: Mise en correspondance d’une question avec une réponse candidate.


On peut voir dans l’exemple  6.2 page précédente que la structure informationnelle de la question ne peut pas s’apparier directement à celle de la réponse. La suppression de l’interrogatif est nécessaire car il n’est pas présent dans la réponse. Si l’identification du focus permet de catégoriser l’objet de la question et de remplacer l’unité lexicale qui est l’argument de cette dépendance (Qui) par sa catégorie sémantique (humain), il faut ensuite éliminer la dépendance FOCUS. Nous avons indiqué en caractères gras dans l’exemple les éléments de la structure informationnelle de la question qui sont maintenus après le traitement particulier de la question et permettent d’apparier la réponse avec la question.

Malgré cette suppression des interrogatifs, l’information extraite des requêtes n’est pas pleinement exploitable en l’état. En effet, le FOCUS est une dépendance qui n’apparaît qu’au cours de l’analyse des requêtes. Or, de ce fait, cette dépendance ne peut contribuer à une mise en correspondance de l’information de la question et celle des textes de la base documentaire. Et pourtant la catégorisation de l’objet de la réponse que cette dépendance effectue est capitale pour pouvoir apporter une réponse.

De la même manière que les règles lexicales sur les interrogatifs apportent une catégorisation de la réponse attendue par la requête, la dépendance FOCUS est en mesure de fournir une information sémantique sur l’objet de la réponse. Lorsque l’argument du focus est l’interrogatif lui-même, la dépendance fait double emploi, puisque ce sont les traits fournis par les règles lexicales qui sont appliquées pour assigner des traits sémantiques à l’interrogatif. Cette dépendance FOCUS est donc rejetée sans autre traitement.

Par contre, lorsqu’il s’agit d’une autre unité lexicale, ce sont les traits de ce mot qui sont maintenus comme condition à l’application de la règle. Toutefois, le lemme correspondant à ce lexème et son numéro de sens sont eux-mêmes des informations qui catégorisent la réponse attendue par la question. Ils sont donc maintenus eux aussi, mais nous y adjoignons un trait objetQuestion6, qui apparaîtra dans toutes les dépendances impliquant cette unité lexicale comme argument. Ce trait a pour fonction de signaler que l’unité lexicale qui la porte a été considéré comme le focus de la question. Nous verrons dans la section consacrée à la mise en correspondance de la question et des réponses candidates de quelle manière nous pourrons l’utiliser. Quant à la dépendance FOCUS, elle sera simplement éliminée une fois ces traitements effectués sur les autres dépendances.

Nous avons à présent extrait une importante information de la question posée au système, et nous l’avons manipulée de manière à ce qu’elle puisse être mise en correspondance avec celle qui est contenue dans la structure syntaxico-sémantique que nous voulons interroger. Il nous reste à décrire comment opérer pour apparier les réponses candidates et les questions.