Analyse des erreurs

À la suite de ce passage en revue des résultats de l’interrogation de la structure documentaire, nous avons essayé d’établir une typologie des difficultés récurrentes rencontrées par notre système pour mettre en correspondance les questions et leurs réponses. En effet , il paraît intéressant d’identifier les causes de dysfonctionnement du système afin de pouvoir les pallier à l’avenir.

7.4.1 Erreurs liées aux ressources lexicales

Pour la création de la structure informationnelle, nous exploitons une information essentiellement extraite de dictionnaires. Cependant, les imperfections peuvent se glisser dans la structure informationnelle soit du fait de l’information elle-même, qui n’est pas irréprochable, soit à cause d’une exploitation incomplète de l’information présente. Nous avons décelé trois type d’imperfections récurrentes dans l’utilisation des ressources lexicales. Elles sont liées à la synonymie, à la dérivation morphologique ou aux verbes auxiliaires ¹⁸.

Synonymie

Dans de nombreux cas, des paires de synonymes qui paraissent évidentes ne sont pas connues par les dictionnaires. Il est vrai que nous avons souligné la médiocrité du dictionnaire de synonymes Bailly dont nous disposons. Par ailleurs, l’information extraite des dictionnaires sémantiques est restreinte et la synonymie ne constitue dans EuroWordNet qu’une relation sémantique étudiée parmi d’autres. Il serait donc intéressant de pouvoir disposer d’une information riche, fiable et spécifiquement synonymique pour améliorer cette phase d’enrichissement de la structure informationnelle. Nous avons relevé plus de quinze cas où une réponse ne pouvait être mise en rapport avec la question du fait d’une synonymie inconnue. Par exemple gendre n’est pas mis en relation avec beau-fils dans les dictionnaires dont nous disposons, alors qu’il est parfaitement synonyme d’au moins une de ses acceptions.

Dans la perspective d’un approfondissement de l’utilisation de la synonymie dans une structure où la syntaxe joue un rôle important, il est également important d’identifier les variations syntaxiques et syntaxico-sémantiques du contexte dans le cas où l’on considère, comme nous l’avons fait, qu’un synonyme remplace le mot de départ dans la phrase pour y former un nouvel énoncé de même sens.

X est fatal à Y ≈ Y meurt de X

Certains cas, proches de la synonymie, concernent plutôt l’instauration d’une hiérarchie hypéronymique ou holonymique qui permettrait de mettre en rapport deux termes contenus l’un dans une question et l’autre dans sa réponse à travers la généralisation de l’un ou la spécialisation de l’autre. En effet, dans plusieurs cas, le texte est plus précis dans l’emploi des termes que la question posée à son propos. Par exemple, une des questions posées demandait Quelle était la fonction de Marc Antoine en 44 ? tandis que le texte dit que Marc Antoine devint consul en 44. Le fait de savoir que la charge de consul est une fonction permettrait de mettre en rapport la question et sa réponse.

Dès la description des ressources lexicales, nous avons mis en évidence le caractère sémantique hiérarchique de EuroWordNet et le choix d’utiliser ce dictionnaire sémantique dans notre démarche a été déterminé autant pour ses possibilités généralisatrices que pour la richesse synonymique qu’elle a été capable de nous apporter.

Dérivation morphologique

Les remarques que nous avons faites sur les résultats décevants de l’enrichissement au travers de dérivés morphologiques sont justifiées. En effet, nous avons rencontré onze cas où l’utilisation de verbes dans la question ne pouvait amener à une mise en correspondance de l’information contenue dans cette question et de celle de la réponse correcte où l’entité de même sens appartenait à une autre catégorie grammaticale.

Qui protégeait Suétone ?
Lorsque meurt Pline le Jeune, protecteur de Suétone, Septicius, préfet du prétoire, introduit Suétone à la cour, lui permettant d’aborder une grande carrière publique sous le règne d’Hadrien.

Dans l’exemple, protecteur présent dans le texte ne trouve pas dans le Dubois l’information de dérivation qui permettrait d’établir son rapport avec protéger présent dans la question. Ce verbe possède pourtant l’information de dérivation qui permettrait de retrouver protecteur au départ de protéger. Or cette information n’est pas utilisée au départ de la question, dont le contexte n’est généralement pas suffisant pour assurer une désambiguïsation sémantique correcte et, de ce fait, une sélection des autres informations lexicales. Par ailleurs, certaines parentés entre noms sont signalées dans un sens et pas dans l’autre. Ainsi, biographe est relié à biographie, mais l’inverse n’est pas vrai.

Nous pensons donc qu’il serait judicieux d’approfondir ce type d’enrichissement. Ce peut être réalisé en utilisant une ressource qui permettrait d’établir une connexion morphologique et sémantique entre chaque sens de chaque unité lexicale et l’ensemble des mots qui en dérivent ou dont cette unité lexicale est elle-même le dérivé dans le sens étudié. Il est aussi possible de recourir à un enrichissement de l’information de la partie générale du Dubois à l’aide de sa partie verbale d’une manière semblable à celle que nous avons pratiquée pour la contextualisation des synonymes, en exploitant les domaines d’application.

(Semi-)auxiliaires

Les seuls auxiliaires identifiés par l’analyse morpho-syntaxique sont les unités verbales fonctionnelles qui servent à façonner les formes verbales composées (avoir et être). À ce titre, ils sont automatiquement exclus des dépendances significatives construites par l’analyseur et laissent la place au lemme du verbe à ses formes simples. Il y a pourtant une catégorie de « verbes qui, construits avec un infinitif, parfois avec un participe ou un gérondif, perdent plus ou moins leur signification propre et servent à exprimer diverses nuances de temps, d’aspect ou d’autres modalités de l’action » [Grevisse et Goosse, 1991], § 789. Or la présence dans l’énoncé de requêtes de ces auxiliaires, qui dans d’autres schémas syntaxiques possèdent généralement un tout autre sens, contrarie ordinairement l’identification de la réponse dans laquelle cet auxiliaire n’est pas présent.

Où se trouvent les champs Décumates ?
Qu’est-il arrivé à la famille de Julien lorsqu’il avait six ans ?

La présence des semi-auxiliaires se trouver et arriver dans ces exemples de questions perturbe le bon fonctionnement de l’appariement question-réponse, car le système réclame dans les propositions de réponse respectivement trouver et arriver, qui ont bien peu de chances de s’y trouver ([...] l’annexion des champs Décumates, territoires compris entre les cours supérieurs du Rhin et du Danube, a pour but [...] et [...] dès l’âge de six ans, après le massacre de sa famille, ordonné par les successeurs de Constantin (337), Julien [...]). Les deux cas présentés ne trouvent pas de semi-auxiliaire semblable dans la réponse et dans la question.

Ici encore, l’information présente dans le dictionnaire Dubois permet d’identifier ces lexèmes comme des auxiliaires sous certaines de leurs acceptions. Notre décision de ne pas effectuer de désambiguïsation sémantique sur les énoncés de questions ne permet pas toutefois de décider si le verbe est utilisé dans une de ces acceptions ou non. Il est toutefois possible de créer un nouveau cas de relâchement de contrainte comme celui que nous avons imaginé pour l’unité lexicale désignée par le focus, mais qui porterait cette fois sur les lexèmes verbaux dont une des acceptions le décrit comme un auxiliaire. Ce type de dégradation informationnelle de la requête permettrait d’éliminer le lexème des informations requises dans les réponses dans les cas où aucune réponse n’a été trouvée pour la question.

7.4.2 Erreurs liées à l’analyse du texte ou de la question

Nous avons noté au cours de l’évaluation du système que certains défauts récurrents provenaient de défauts de l’analyse appliquée aux documents ou à la question. Ils peuvent dépendre de trois niveaux d’analyse : morphologique, syntaxique ou résolution des coréférences.

Analyse morphologique

Dans un corpus comme celui que nous avons utilisé pour évaluer la pertinence de notre démarche, les noms propres qui sont entrés dans la langue comme noms communs sont très nombreux (césar, auguste, commode, galère etc.). Par ailleurs, certains autres noms propres ne sont simplement pas recensés dans les lexiques, et leur identification est problématique. Pompée, par exemple, sera plus souvent identifié comme une forme fléchie de pomper que comme le nom d’un général romain (cinq fois sur sept apparitions dans le corpus de questions). Ces confusions suscitent des erreurs dans l’extraction des dépendances sur lesquelles est fondée la structure informationnelle. Dès lors, certaines mises en correspondance de réponses avec la question ne peuvent s’effectuer.

Outre les noms propres, certains autres lexèmes ne sont pas identifiés correctement par l’analyse morphologique et la désambiguïsation catégorielle. Nous avons en effet décelé plusieurs cas de distinction douteuse entre nom et adjectif. Le mot partisan par exemple peut être nom ou adjectif. Cependant, la seule acception adjectivale de partisan dans le Dubois correspond à partial, ce qui provoque des erreurs d’enrichissement dans les cas où la catégorie adjectivale est sélectionnée par la désambiguïsation catégorielle et que cette acception n’est pas correcte. D’autre part, les lexèmes partisan nominal et adjectival ne coïncident pas dans notre méthode, et ne peuvent donc permettre la mise en correspondance de réponses avec la question.

Une erreur de désambiguïsation catégorielle est donc virtuellement à l’origine de nombreuses sources d’erreur : mauvaise correspondance des lexèmes présents dans la structure informationnelle, analyse syntaxique incorrecte, désambiguïsation sémantique fautive et donc enrichissements tout aussi fautifs. Une semblable erreur dans l’analyse d’une question ne résout pas le problème car nous ne pouvons prévoir que son analyse syntaxique erronée correspondra à celle qui a été effectuée dans le document. Par exemple, la question Qui l’usurpateur Magnence a-t-il assassiné ? ne peut être appariée à sa réponse Il périt assassiné par l’usurpateur Magnence. En effet, l’étiquetage du mot assassiné comme adjectif est fautif et il ne permet pas d’identifier usurpateur Magnence comme un complément d’agent. Dès lors, la mise en rapport du sujet d’un verbe actif ne peut être effectuée avec l’agent du même verbe passif.

Dépendances syntaxiques

Les erreurs d’analyse syntaxique qui ne sont pas issues d’un étiquetage erroné des unités lexicales sont relativement nombreuses, surtout en ce qui concerne la partie du traitement consacrée aux questions. En effet, la grammaire française que nous utilisons est expérimentale. De plus, elle a été écrite pour gérer du texte tout venant. Les questions sont relativement rares dans les textes utilisés pour construire les grammaires, qui sont généralement extraits de divers types d’articles de la presse. De plus, les questions présentes dans ces textes sont souvent oratoires et ne présentent donc pas forcément les mêmes caractéristiques que des questions réelles comme celles que nous avons à traiter dans le cadre de cette évaluation. Quoi qu’il en soit, l’analyseur rencontre des difficultés pour gérer les dépendances de base comme le sujet (SUBJ) ou l’objet (VARG[DIR] et VARG[INDIR]) à cause de la structure de la phrase, inversée fréquemment ou très particulière à cause de l’interrogation : -t- épenthétique (Où Marius a-t-il été fait prisonnier ?), répétition du sujet (Qui Nerva eut-il pour consul ?), particularités interrogatives (Quand est-ce que Théodose est mort ?), etc.

D’autres erreurs apparaissent dans l’analyse des documents eux-mêmes : nous avons par exemple noté des erreurs lorsque un nom est composé (Il fait édifier une muraille continue d’une mer à l’autre, le vallum Hadriani) ou lorsque les composantes d’une expression verbale sont très éloigné l’une de l’autre (Septime Sévère fut, à la mort de Pertinax (193), proclamé empereur par les légions d’Illyrie). Nous n’insistons pas sur les erreurs de rattachement prépositionnel ou de coordination, bien connues en analyse syntaxique automatique et loin d’être triviales à résoudre. D’autres dépendances sont simplement absentes.

Résolution d’anaphore

Nous avons suffisamment insisté sur l’importance de la résolution de la coréférence au cours de cette évaluation. La technique que nous avons adoptée, pour grossière qu’elle est, ne suffit pas moins à montrer la prépondérance de ce type de lien dans les applications de gestion de l’information à un niveau inférieur au texte. Nous n’avons pas manqué toutefois de signaler les limites de la méthode de résolution de coréférence utilisée : non seulement elle n’est pas extensible à d’autres types de corpus – et même dans le cas présent elle commet un nombre important d’erreurs qui ne sont pas directement sensibles dans les résultats de l’interrogation étant donné que l’apport de réponses exactes surclasse de beaucoup les réponses inexactes fournies – mais encore elle ne peut s’appliquer qu’aux pronoms personnels sujets.

Nous avons rencontré de nombreux cas où la résolution de coréférence de pronoms autres que les personnels sujets ou d’adjectifs possessifs permettrait la mise en correspondance de réponses avec la question. En effet, dans la phrase Octavien exploita l’indignation (...) pour abattre son rival, l’identification de l’entité déterminée par son à Octavien permettrait une correspondance de rival d’Octavien avec son rival. La grammaire de [Trouilleux, 2001] permet de relier adjectifs possessifs et pronoms avec leur coréférent. Son adaptation à la version de l’analyseur syntaxique que nous utilisons n’a été effectuée qu’après que nous avons mené cette évaluation et nous n’avons donc pas pu en exploiter les capacités.

7.4.3 Erreurs liées à un besoin de logique ou de connaissances du monde

Viennent ensuite diverses constatations d’erreurs ou de silences dus à des phénomènes sans rapport direct avec la linguistique, mais qui font appel au bon sens, au jugement ou à la pragmatique. Dans les spécifications que nous avons édictées sur le protocole d’évaluation établi et suivi, nous avons demandé aux utilisateurs de ne pas faire appel à un jugement ou à une déduction de la part du système. Certaines questions ont toutefois transgressé ces spécifications, alors que les utilisateurs connaissaient les textes. Il nous paraît donc évident que limiter un système de gestion de l’information selon ce type de critère est abusif. Nous avons dès lors tenté d’identifier certaines carences actuelles de notre système au niveau de la logique et de la pragmatique afin de déterminer d’éventuelles solutions.

Dans de nombreux cas, nous avons trouvé des questions pour lesquelles seule une déduction logique permettrait leur mise en correspondance avec le fragment de texte qui en constitue la réponse. Nous avons ainsi décelé des inversions de liens sémantique (Qui est le père de Caracalla ? – Caracalla est le premier fils de Septime Sévère), des implications (Quels étaient les adversaires de Julien lors de la bataille de Strasbourg ? – Il remporte sur les Alamans l’éclatante victoire de Strasbourg) ou des déductions logiques (Quel mois de l’année a été nommé en hommage à César ? – Le mois de sa naissance est nommé « juillet »¹⁹).

D’autres questions font appel au bon sens ou à la connaissance du monde. Ainsi, le véritable nom de Germanicus est Julius Caesar ²⁰. Aussi, lorsque la question Quel titre Julius Caesar se donne-t-il ? est posée, le système éprouve-t-il des difficultés à faire un choix entre les différents Caesar qui lui sont proposés. De même une connaissance du monde approfondie est-elle nécessaire pour apporter à la question Quel est le surnom de Metellus l’extrait de texte Caecilius Metellus, dit le Macédonique, ou à la question En quelle année Julien est-il proclamé empereur ? le fragment En 360, ses soldats se mutinent et le proclament auguste ²¹. La pragmatique et des connaissances générales plus ou moins approfondies entrent ici en jeu.

Cependant, un certain nombre de liens logiques peuvent être établis entre des unités lexicales de même catégorie grammaticale grâce à des ressources de type EuroWordNet dont les relations sémantiques permettent certains types d’inférence. Il en est ainsi du lien de filiation qui s’inverse selon qu’il est actualisé par fils de ou par père de. Une autre inférence, l’implication, relie le fait qu’il y ait victoire à Strasbourg et le fait qu’une bataille s’y est déroulée. Ces liens logiques peuvent dans certains cas pallier les manques logiques d’une approche purement linguistique.

7.4 Analyse des erreurs