C’est dans un but d’uniformisation que nous avons appliqué un même type d’analyse aux documents et à la requête. En effet, cette uniformité a pour but de comparer les éléments informationnels extraits de cette requête avec ceux emmagasinés dans la structure syntaxico-sémantique de la base documentaire. L’ensemble de cette information est présentée sous la forme de dépendances, d’arguments de dépendances et de traits portant soit sur les dépendances, soit sur leurs arguments. La méthode de mise en correspondance d’une réponse avec sa requête consiste à retrouver dans la structure de la base documentaire un texte ou un fragment de texte qui contient les éléments informationnels de cette requête ainsi que l’élément recherché tel qu’il a été catégorisé. La structure de la question devra donc se retrouver entièrement dans celle du fragment de texte qui en constitue la réponse. De plus, cette information devra être agencée de la même manière dans le texte et dans la question.
La méthode d’indexation et de stockage de l’information que nous utilisons [Roux et Jacquemin, 2002] permet deux présentations différentes de l’information à chaque niveau de segmentation du document (texte, paragraphe, phrase, dépendance) : soit il s’agit de la structure hiérarchique permettant d’identifier chaque élément d’information par rapport aux autres, soit il s’agit de la structure « à plat » qui énumère les éléments informatifs sans expliciter les liens qu’ils ont les uns avec les autres (cf. annexe A page §). Le parcours et la comparaison des structures plates est extrêmement rapide même s’il est peu approfondi. La comparaison des structures plates de la base documentaire avec celle de la requête va nous permettre d’éliminer le texte qui ne contient pas l’information contenue dans cette requête.
L’exemple 6.3 page précédente illustre le principe de création et d’utilisation de la structure plate d’un énoncé. Cette structure plate correspond à la liste des éléments d’information de la structure informationnelle de cet énoncé. Dans l’exemple, on peut voir l’intérêt de cette structure plate, qui permet, par une comparaison simple et rapide, l’élimination d’une réponse inexacte (énoncé (4) qui ne contient pas persécuter). On peut également en voir les limites avec l’énoncé (3), qui contient rigoureusement la même information que l’énoncé (2), mais qui agence cette information différemment. L’exploitation de la structure plate permet dès lors d’effectuer un tri et d’éliminer les phrases qui ne contiennent pas l’information requise. Il faut toutefois en passer par la structure informationnelle complète pour décider si les candidates qui passent ce premier filtre correspondent bien à la question posée.
Lorsque les réponses candidates ont été isolées, il faut vérifier que les liens entre les éléments informationnels correspondent à la syntaxe de la requête. Cette comparaison porte sur la nature des dépendances et sur les arguments des dépendances, les traits étant laissés de côté à ce stade de l’opération 7. La vérification la plus aisée et la moins coûteuse porte sur les dépendances simples, issues de l’analyse syntaxique, de l’enrichissement synonymique simple ou de l’enrichissement par dérivations morphologiques. En effet, ces dépendances sont directement disponibles dans la structure informationnelle hiérarchique maintenant exploitée. En cas de succès de cette comparaison, la réponse candidate est considérée comme une réponse pertinente à la question et présentée à l’utilisateur. Le processus passe alors au traitement d’une éventuelle autre réponse candidate.
À défaut d’une correspondance complète des deux structures informationnelles 8, la procédure d’interrogation préconise de compléter la structure de la réponse candidate avec les dépendances disjonctives. Cette phase demande un traitement particulier car les dépendances disjonctives ne peuvent être directement comparées à celles qu’extrait l’analyseur NTM-XIP qui a généré la structure informationnelle de la question.
À partir de chaque dépendance disjonctive, il s’agit de reconstituer toutes les dépendances de même nature que la dépendance disjonctive 9 en effectuant toutes les combinaisons possibles entre les arguments, chaque argument conservant toutefois son rang. La structure hiérarchique partielle est ainsi enrichie de plusieurs dépendances simples pour chaque dépendance disjonctive – qu’elles remplacent. La correspondance des structures de la question et de la réponse candidate peut alors être une nouvelle fois testée.
Le succès de la comparaison des structures déclenche la sélection de la réponse candidate et sa présentation à l’utilisateur comme réponse pertinente à la question posée. Le système passe ensuite à la réponse candidate suivante pour lui appliquer la même procédure si une autre candidate est proposée, ou bien s’arrête.
Mais s’il n’y a pas eu correspondance entre la structure locale de la question et celle de la réponse candidate, il est inutile d’avoir recours une nouvelle fois à la structure syntaxico-sémantique de la base textuelle pour y puiser une information supplémentaire à verser dans cette structure candidate. En effet, l’ensemble des données disponibles y sont maintenant présentes. Pourtant, il est possible que la réponse candidate apporte une réponse pertinente à la question, mais que les contraintes imposées pour mettre en correspondance réponses et question soient trop strictes pour que cette réponse convienne.
Deux possibilités de relâchement des contraintes se présentent alors :
L’application du relâchement sur la correspondance des structures de la requête et de la réponse candidate provoque l’attribution d’un score à cette réponse candidate qui correspond à la proportion des dépendances de la question présentes dans la réponse candidate. Les réponses candidates qui coïncident partiellement avec la structure de la requête sont conservées en mémoire et peuvent être classifiées en fin de traitement de la question en fonction du score qu’elles obtiennent. Du fait de leur plus faible correspondance avec la question, le niveau de confiance qui leur est attribué est susceptible de varier en fonction du score qui leur est attribué. Il est également possible d’éliminer certaines réponses candidates si leur score n’est pas suffisamment élevé. Le niveau du score d’élimination est paramétrable.
Au cours de notre examen d’un corpus de questions (cf. annexe B page §) posées à TREC (en anglais), nous avons noté que souvent l’unité lexicale qui détermine l’objet de la question à l’intérieur de la requête est soit un hyponyme, soit un hypéronyme du terme qui sera réellement utilisé dans le texte. Nous avons signalé que le dictionnaire EuroWordNet contient une taxinomie hyponymique pour un certain nombre d’unités lexicales, mais que nous n’avons pu mettre en œuvre son intégration dans la structure informationnelle (cf. section 4.3.2 page §).
Ce défaut de taxinomie hyponymique qui permettrait de construire un lien entre ce terme catégorisant l’objet de la question et le terme qui constitue son pendant dans le texte empêche une mise en correspondance des structures informationnelles de la question et de fragments de textes qui devraient être identifiés comme des réponses candidates. C’est également dans la perspective de combler cette lacune que nous avons imaginé la dépendance FOCUS qui a pour vocation d’identifier l’objet de la question.
En effet, nous exploitons ici l’identification de ce focus pour effectuer une diminution de la contrainte lexicale dans la construction de la structure informationnelle liée à la question. Ainsi, au même titre que l’interrogatif est éliminé des dépendances extraites de la question pour être remplacé, le cas échéant, par les traits sémantiques qui le caractérisent, l’unité lexicale correspondant au focus sera éliminée des dépendances dans lesquelles elle apparaît pour être remplacée par les traits sémantiques qui lui sont propres et qui constituent de ce fait une contrainte plus souple que l’apparition d’un lexème dans la structure informationnelle de la question.
Une fois cette opération effectuée, la méthode reste la même que pour la mise en correspondance des questions et des réponses avec des structures plates compatibles dans leur totalité. La procédure sélectionne d’abord des réponses candidates à partir des structures plates. Ensuite, elle vérifie leur correspondance avec la structure hiérarchique au niveau des dépendances simples, puis éventuellement au niveau des dépendances disjonctives. Si la réponse n’est pas confirmée à ce stade du traitement, on peut de nouveau relâcher les contraintes sur la correspondance et donner un score de coïncidence à la réponse candidate en fonction du nombre de ses dépendances qui correspondent parfaitement avec celles de la question.
Il faut noter que les relâchements de contraintes sont paramétrables par l’utilisateur, qui peut à sa guise demander l’un ou l’autre de ces assouplissements d’exigences et, dans le cas de l’attribution d’un score, fixer la mise en correspondance des structures à un certain niveau de confiance. Il est également possible d’approfondir le relâchement sur la question en supprimant d’autres unités lexicales des dépendances où elles apparaissent pour les remplacer par des contraintes sur leurs traits sémantiques. Nous n’avons pas progressé plus avant dans cette direction qui intuitivement suggère une génération importante de bruit, mais il est probable que le nombre de réponses correctes identifiées par le système s’en ressentirait favorablement. Toutefois, le fait qu’aucune désambiguïsation sémantique ne soit appliquée au niveau de la question autorise rapidement une très large augmentation des réponses candidates et sans doute des réponses jugées pertinentes, parfois à tort.
Une deuxième remarque concernant les capacités inexploitées de ce système porte sur la possibilité de placer des pondérations plus ou moins importantes sur les dépendances. En effet, toutes les dépendances syntaxiques ne possèdent pas le même pouvoir expressif, c’est-à-dire qu’elles n’expriment pas un sens avec la même intensité. Nous avons d’ailleurs éliminé les dépendances fonctionnelles au motif qu’elles n’avaient de rôle que syntaxique, et non syntaxico-sémantique ou sémantique. Il est donc possible, et même probable que certaines dépendances aient plus d’importance que d’autres dans la détermination de la validité d’une réponse candidate. Ces pondérations pourraient être utilisées notamment dans l’exploitation du relâchement sur la correspondance. Nous n’avons pas testé cette fonctionnalité qui s’éloigne des méthodes linguistiques classiques mais présente un intérêt réel dans le cadre d’une application fonctionnelle.
Il aurait enfin été intéressant d’effectuer un traitement de la question entièrement analogue à celui des documents de la base textuelle, et de profiter à ce niveau également de l’enrichissement. Nous avons parlé déjà des inconvénients et des dangers de ce choix. Nous renouvelons nos réticences tout en déplorant de n’avoir pu réaliser d’essai réel en ce sens.
Avec les traitements appliqués aux requêtes, tantôt parallèles à ceux des document et tantôt très différents, puis avec la procédure de mise en correspondance de ces requêtes avec des fragments de textes susceptibles d’y apporter une réponse, nous avons non seulement établi une méthode permettant de valoriser l’information contenue dans la structure syntaxico-sémantique construite à partir de la base textuelle, mais nous avons également fourni un outil d’interrogation largement paramétrable qui permet de répondre à des besoins très divers des utilisateurs. L’application de question-réponse en est une illustration, mais l’extraction d’information est également possible, et son interrogation au niveau du document permet de l’associer au filtrage de textes. Il nous reste à présent à évaluer les différents processus qui d’une part construisent la structure informationnelle et d’autre part se chargent de son interrogation plus ou moins stricte.