Pour définir une stratégie d’évaluation qui décrive bien les qualités et les défauts d’une méthodologie, il faut avant tout identifier les objectifs et les capacités théoriques de cette méthodologie et en tenir compte pour ne pas établir des critères d’évaluation qui sortent de son domaine. En effet, il n’est pas raisonnable de juger la capacité d’une application à résoudre un problème auquel cette application n’est pas destinée.
La méthodologie proposée ici permet de gérer une requête en langage naturel à l’aide de méthodes linguistiques pour retrouver dans une base textuelle, analysée et traitée par des outils et des ressources tout aussi linguistiques, le ou les fragments de texte qui en constituent la réponse. Sa vocation est donc d’apporter une réponse aux questions ouvertes 1 qui lui sont proposées.
L’utilisation exclusive de méthodes linguistiques et le fait que seuls des fragments de texte existants constituent les réponses interdisent en effet les jugements de valeur de vérité sur la question, qui demandent généralement des réponses positives ou négatives. Pour les mêmes raisons, les réponses explicatives – par exemple à la plupart des questions introduites par « pourquoi » ou « comment » – ne sont pas envisageables.
Par ailleurs, la méthode que nous avons mise en place comporte deux lacunes par rapport aux traitements que nous avions initialement prévu de lui assigner. En effet, deux types de traitements n’ont pu être intégrés dans l’application faute de temps, et la structure informationnelle ne peut dès lors bénéficier de leurs apports :
Mener l’évaluation d’un système qui interroge de l’information d’une base documentaire sans avoir résolu, même partiellement, le problème de la coréférence d’entités n’aurait pas de sens, vu la fréquence de ce type de construction syntaxique dans les textes. Dans le type de texte que nous avons à interroger – un dictionnaire encyclopédique – c’est plus que jamais le cas car la plupart du temps, le mot-vedette de l’article n’est pas explicitement nommé dans le corps du texte : c’est un simple pronom qui y fait référence. Puisque la partie de la grammaire qui permettrait de gérer le problème de la coréférence n’a pu être intégrée à notre système faute de temps pour l’adapter, il a fallu nous résoudre à utiliser une simulation naïve de la coréférence, à l’efficacité relative, mais rapide à mettre en œuvre et permettant d’éliminer dans certains cas le problème visé.
La méthode que nous avons choisie ne pourra fonctionner pour tous les types de texte, mais elle ne se limite pas à un corpus d’évaluation car c’est une méthode qui se prête parfaitement à une structure de dictionnaire. En effet, le thème traité dans chaque article correspond à l’intitulé de cet article, parfaitement défini. C’est à cet intitulé que la plupart des anaphores contenues dans l’article font référence. La méthode consiste donc, pour toute dépendance de type SUBJ dont le second argument (c’est-à-dire le sujet du verbe qui constitue le premier argument) est un pronom personnel à la troisième personne, à construire une dépendance disjonctive. Dans cette dépendance, la disjonction porte sur l’argument sujet, et met en disjonction le pronom personnel présent dans la phrase et la vedette de l’article qui en constitue le thème.
Afin d’asseoir cette méthode, nous avons étudié environ trois cents articles de l’Encyclopédie pour constater que dans la plupart des cas, les sujets pronominaux renvoyaient à l’intitulé de cet article. C’est particulièrement sensible dans les sujets qui concernent des personnages. Bien entendu, ce n’est pas une règle absolue et dans certains cas (plus de 30%), l’identification du sujet pronominal à l’intitulé de l’article n’est pas correcte. Toutefois, l’introduction d’une dépendance disjonctive permet de ne pas perdre l’information de la dépendance initiale même dans les cas où une coréférence erronée s’est introduite dans la structure sous la forme d’une disjonction. De plus, l’assignation d’un trait coref à l’argument ajouté donne la possibilité de ne pas exploiter cette information lors de l’interrogation si elle est considérée comme trop peu sûre.
Par contre, nous n’avons pas trouvé de méthode rapide à mettre en œuvre pour gérer l’inférence logique. De ce fait, notre méthode est actuellement incapable de manier l’induction, la déduction ou toute autre opération d’ordre logique. Dès lors, l’information qu’elle est apte à détecter et manipuler doit être explicite dans la base documentaire, sans s’appuyer sur aucun artifice d’ordre logique. Par contre, toutes les formes linguistiques possibles de chaque énoncé sont envisageables dans le cadre de la grammaire du français.
Si la définition d’un protocole d’évaluation doit tenir compte des caractéristiques de l’application à tester, elle se doit également de respecter une réelle indépendance par rapport à cette application pour se garder de définir une expérience adaptée aux capacités matérielles de l’application, et non à ses objectifs méthodologiques. Pour éviter cet écueil, nous nous sommes intéressé aux campagnes d’évaluation menées dans le domaine. Essentiellement, nous avons étudié l’approche mise en œuvre lors des compétitions TREC (Text REtrieval Conference), ouvertes aux systèmes de question-réponse pour l’anglais depuis sa huitième édition [Voorhees et Harman, 1999b].
Toutefois, les critères d’évaluation de cette compétition évoluent à chaque édition, et tant la conception que le déroulement de cette évaluation sont de plus en plus exigeants en temps et en moyens. Dans la limite de nos possibilités, nous avons donc étudié le mode de fonctionnement de l’évaluation menée dans le cadre de TREC-8 [Voorhees, 1999].
Cette première version d’une évaluation de systèmes de question-réponse était effectuée à l’aide d’un ensemble de 198 questions factuelles appelant des réponses courtes extraites d’une base textuelle ou reconstruites à partir de cette base. Chacune des question possédait au moins une réponse pertinente dans les textes. En effet, ces questions ont été générées par des opérateurs humains à partir des documents de la base textuelle.
Les résultats attendus sont une liste de 5 paires [numéro de texte, chaîne de caractères-réponse] maximum ordonnées en fonction d’un score. Ce score correspond au degré de certitude que la réponse attendu est bien contenue dans le fragment de texte. Les réponses sont limitées soit à 250 caractères, soit à 50 caractères et peuvent constituer un fragment de texte issu de la base textuelle ou être générés à partir de l’information contenue dans la base textuelle.
L’évaluation de ces réponses est
dichotomique 2
et réalisée par des experts humains. La quantification s’effectue par attribution à
chaque question d’un score égal au nombre inverse du rang auquel apparaît la
première bonne réponse si cette réponse se trouve dans les cinq premières
fournies, et 0 sinon. Ainsi, une première bonne réponse au premier rang
sera créditée d’un score de 1 (), au deuxième rang d’un score de 0,5
(
), etc. Les questions n’obtenant pas de bonne réponse ou celles qui
n’obtiennent pas de réponse du tout ont un score nul. Le fait de donner
plusieurs bonnes réponses n’intervient pas sur le score accordé à la question
[Voorhees et Harman, 1999a]. Les éditions ultérieures de TREC vont modifier
plus ou moins ces critères. Ainsi, TREC-9 [Voorhees, 2000] constitue un
ensemble de 500 questions à partir de requêtes réellement posées sur
l’encyclopédie Encarta, et construit un corpus de textes à partir de ces
questions. Cependant, chaque question possède encore au moins une fois sa
réponse dans la base textuelle, ce qui n’est plus le cas lors de la conférence
TREC-10 [Voorhees, 2001]. Cette différence modifie les mesures d’évaluation
puisqu’il est correct de ne pas rendre de réponse lorsque la question
n’a pas de réponse dans la base textuelle. Cette réponse vide reçoit un
score de la même manière que les autres réponses, en fonction de son
rang dans la liste. Lors de cette dixième compétition, la réponse de 250
caractères est supprimée et seules des réponses de 50 caractères sont
acceptées.
Enfin, la onzième édition de TREC, qui s’est tenue en novembre 2002, modifie le calcul de l’évaluation d’une part en limitant à une seule les réponses attendues pour chaque question, d’autre part en réclamant la réponse réelle uniquement, et non plus une fenêtre déterminée par un nombre de caractères [Voorhees, 2002]. Nous n’avons pu tenir compte des caractéristiques de cette dernière conférence, qui a eu lieu alors que nous avions mis en place nos propres critères d’évaluation.
Conçues sur le modèle de TREC, deux autres conférences destinées à l’évaluation de systèmes de gestion de l’information ont vu le jour. Il s’agit d’abord de la conférence CLEF (Cross-Lingual Information Forum) qui intègre plusieurs langues européennes (anglais, allemand, français, italien, espagnol, néerlandais, suédois, finnois) [Peters, 2002], mais cette campagne d’évaluation n’intègre la tâche de question-réponse que dans son édition de 2003. L’autre conférence qui imite TREC s’appelle NTCIR (NII-NACSIS Test Collection for IR Systems) et est destinée aux langues asiatiques (japonais, coréen, chinois). La tâche de question-réponse y est définie par le seul système qui participe à la campagne d’évaluation pour cette discipline [Fukumoto et Kato, 2001, Fukumoto et al., 2003] et est comparable à celle de TREC-8.
Un cas de figure idéal nous verrait utiliser un protocole d’évaluation existant et reconnu par la communauté du domaine pour tester la qualité de notre approche. Toutefois, cette situation ne peut se présenter car aucune évaluation n’a jusqu’à présent obtenu de large consensus dans le domaine des applications de question-réponse en langue française. Par ailleurs, l’adaptation d’un protocole d’évaluation existant ne peut se faire qu’en considérant le manque relatif des moyens dont nous disposions pour la réaliser. En effet, nous n’avons pu obtenir les questions posées par les utilisateurs de la version en ligne de l’Encyclopédie Hachette Multimédia,3. De ce fait, il nous est impossible de construire une base textuelle nécessaire à l’expérience à partir d’un corpus de questions, comme c’est le cas à partir de la neuvième compétition TREC. D’autre part, il n’est pas réaliste de mener seul et dans le temps qui nous est imparti une évaluation de la même ampleur que celles qui sont proposées dans des structures telles que TREC. Un corpus de 200 questions nous semble raisonnable et déjà significatif.
Ces différentes considérations nous ont amené à préférer le mode d’évaluation choisi lors de la huitième conférence TREC [Voorhees, 1999] dont la procédure ne dépasse pas les 200 questions et qui constitue ce corpus de requêtes à partir des textes de la base documentaire assemblée a priori. Chaque question trouve au moins une fois sa réponse dans la base documentaire.
Toutefois, comme ce protocole évalue des applications qui traitent des textes en anglais, il nous est impossible de reproduire complètement l’expérience. De plus, notre méthode de structuration sémantique de l’information textuelle n’a pas pour seule vocation une application de question-réponse, mais cherche à faciliter tous les besoins de gestion de l’information. Il s’agit donc d’intégrer dans son évaluation des tests permettant de juger son efficacité dans d’autres secteurs du domaine, et notamment la mesure du rappel.
La constitution d’un corpus a répondu à ces besoins. Nous avons rassemblé un ensemble de 50 articles de l’Encyclopédie Hachette Multimédia représentant environ 20 000 mots. Ces articles sont de taille variable, les plus courts ne contenant que deux ou trois phrases (74 mots, 2 Ko) et les plus longs plusieurs paragraphes (2 576 mots, 25Ko). La taille réduite de ce corpus s’explique par le fait que nous devons en maîtriser entièrement l’information pour pouvoir juger du rappel du système et pour évaluer sa qualité dans des applications autres que la tâche de question-réponse. Dans ce but également, nous avons constitué ce corpus dans un domaine restreint et précis afin de pouvoir disposer d’une information qui se recoupe dans plusieurs articles. Cette information redondante permet de juger du rappel du système, et met également sa précision à l’épreuve, car ce type de corpus favorise une certaine confusion.
Le domaine que nous avons choisi pour construire ce corpus est celui des personnalités romaines de l’Antiquité. Le choix d’articles portant sur des personnages découle de la méthode de coréférence analogique que nous avons intégrée dans le traitement des textes. Il ne s’agit pas ici de tester cette méthode, dont nous avons dit la naïveté, mais plutôt de juger de ce qu’une méthodologie plus subtile pourrait apporter. Nous avons constaté que les articles portant sur des personnes physiques sont ceux qui bénéficient le plus de la technique que nous employons. C’est donc dans ce cadre que cette technique se rapproche au maximum des résultats que pourrait présenter une approche plus fiable et raffinée. Aussi ces articles nous permettront-ils de tirer des conclusions sur l’apport de la résolution des coréférences sur les performances de notre système.
Pour le reste, la construction du corpus de texte s’est effectuée automatiquement, sur la base des dates de naissance et de mort des personnages et de la caractéristique romain (ou romaine) signalée dans la balise XML Resume qui énonce brièvement les principales caractéristiques du sujet de l’article (cf. ce champ dans la figure 1 page §). Les articles du corpus sont sélectionnés au hasard dans la liste classée par ordre de taille des documents répondant aux spécifications.
La création des questions a été confiée à huit opérateurs qui n’ont pas participé à l’élaboration des outils que nous utilisons dans notre système, et qui ne sont que peu ou pas du tout informés de notre méthodologie. Nous avons de plus essayé de constituer deux ensembles de testeurs différents en choisissant quatre d’entre eux dans le domaine de la linguistique computationnelle mais en dehors du cadre de la gestion de l’information 4 et les quatre autres dans des domaines qui ne touchent ni à la linguistique ni à la recherche d’information.
Nous leur avons donné à chacun une partie du corpus correspondant à un huitième du total des textes en leur demandant d’en étudier le contenu pour poser des questions sur l’information qu’ils comportent. Ces questions doivent répondre à certaines exigences. Tout d’abord, elles doivent concerner un élément explicite du texte. La réponse doit donc être présente et ne pas dépendre d’une déduction logique basée sur le contenu du document. Par exemple, le système ne peut savoir que Jules César est défunt en 43 a.C.n. 5 que si cette information est formulée dans le texte, et non parce qu’il est indiqué qu’il est assassiné en 44 a.C.n. La réponse ne peut pas non plus porter un jugement sur l’énoncé de la question. Ainsi, des questions appelant une réponse positive ou négative (« Est-ce que... »), ainsi que celles qui peuvent attendre une explication (« Pourquoi... », « Comment... ») sont également proscrites, car généralement aucun extrait de texte ne leur répond.
Par ailleurs, comme notre système ne gère pas les listes – qui ne sont pas prises en compte non plus par la compétition TREC-8 – les réponses attendues doivent être élémentaires. Par contre, toutes les variations d’ordre linguistique sur l’énoncé de la question sont possibles. Nous avons demandé un minimum de 25 questions par testeur et un maximum de 28. Les trois questions surnuméraires permettent de remplacer les éventuelles transgressions des principes de création des questions. Si aucune des questions ne transgresse ces principes, ce sont les 25 premières qui sont conservées.
Une fois l’ensemble des questions rassemblées, nous les avons parcourues afin d’en corriger les éventuelles erreurs orthographiques ou grammaticales 6, et surtout nous avons vérifié le respect des critères que nous avions définis. Sur les 206 questions proposées par nos testeurs, nous en avons éliminé six dont plusieurs des règles de génération n’avaient pas été respectées. Nous avons donc conservé les 200 questions qui constituent la base de test de notre évaluation. Les testeurs proposaient une réponse par question posée.
Nous avons ensuite dû parcourir l’ensemble du corpus pour rechercher les autres possibilités de réponse pour chaque question. Nous avons donc obtenu pour chacune de ces requêtes une liste de coordonnées permettant de situer la réponse dans les documents. Cette liste permet de juger de la qualité des réponses données par le système, mais aussi de son rappel en comptabilisant les réponses exactes données par rapport aux questions attendues.
La fenêtre de réponse que nous utilisons ne correspond pas aux spécifications de TREC-8, qui prévoyaient un champ de 50 caractères ou de 250 caractères. En effet, ces fenêtres sont totalement arbitraires et ne correspondent à aucun découpage réaliste de l’information, qu’il soit syntaxique ou sémantique. La phrase est un élément unitaire de réponse plus pertinent. Elle est assez proche de la fenêtre de 250 caractères lorsqu’elle est longue, de celle de 50 caractères lorsqu’elle est courte 7. Moyennant des modifications importantes dans le module qui permet d’extraire du document le groupe syntaxique désiré, il est possible de réduire la fenêtre de réponse à un syntagme ou à une suite de syntagmes. La principale difficulté de cette modification vient de la reconstruction du syntagme à partir d’un groupe syntaxique partiel construit par l’analyseur syntaxique XIP.
Enfin, le calcul des résultats de cette évaluation présente deux aspects. D’abord, ils seront calculés conformément aux spécifications de TREC-8 dont nous nous sommes inspiré du mode opératoire. De ce fait, à chaque question est associée une liste de cinq réponses maximum 8, qui sont ordonnées selon leur degré de pertinence, ou selon le degré de confiance en leur validité. Dans notre système, ce degré de confiance correspond aux taux de coïncidence entre l’information des réponses retenues et l’information contenue dans la question. Chacune des réponses de la liste reçoit un score égal au nombre inverse du rang de classification de la première bonne réponse 9, et l’absence de bonne réponse aboutit à un score nul.
Un autre mode de calcul des résultats s’éloigne de la tâche de question-réponse pour se rapprocher des autres secteurs de la gestion de l’information. Dans ce mode de calcul des résultats, les réponses correctes, incorrectes et manquantes sont prises en compte au travers des mesures de précision et de rappel. La F-mesure propose une moyenne entre les résultats de précision et de rappel donnant la préférence tantôt à la précision (β = 0,5), tantôt au rappel (β = 2), tantôt en leur conférant une importance équivalente (β = 1) (cf. section 1.2.1 page §). Lorsque nous calculons ce type de résultats, nous fournissons également au niveau quantitatif le nombre de réponses exactes, le nombre de questions qui obtiennent au moins une réponse exacte et le nombre de réponses fausses.
Ce second mode de calcul nous amène à nous pencher sur la notion de fenêtre que nous avons abordée précédemment. En effet, le choix d’une fenêtre de réponse d’une phrase convient bien à la tâche de question-réponse, et éventuellement à celle d’extraction d’information. Mais d’autres applications peuvent chercher à exploiter l’information à d’autres niveaux. Par exemple, le filtrage de textes travaille au niveau du document. Nous avons déjà signalé que nous emmagasinons l’information à différents niveaux de profondeur : texte, paragraphe, phrase, dépendance. Ce dernier niveau n’est pas opérationnel actuellement, mais les autres niveaux sont parfaitement exploitables. Nous effectuons donc le calcul des résultats selon le second mode d’évaluation aux différents niveaux de stockage de l’information, ce qui implique également divers niveaux d’interrogation. Pour l’ensemble des mesures que nous calculons, que ce soit pour la tâche de question-réponse ou les autres secteurs de la gestion de l’information, nous établissons des résultats pour chaque variation des paramètres qui nous sont permis. Nous pouvons notamment faire varier :
Un niveau d’efficacité « plancher » 11 (baseline) a été défini pour les deux types de mesure. Ce plancher est calculé de la même manière que les autres résultats, mais à partir d’un corpus sans enrichissement ni analyse. Les mots de la question (substantifs, verbes et adjectifs) sont utilisés comme des mots-clefs pour rechercher la réponse dans les documents qui n’ont reçu aucun des traitements de notre approche. Pour juger l’efficacité d’un enrichissement synonymique contextuel par rapport à une expansion synonymique aveugle, un deuxième niveau plancher 12 est calculé où tous les mots sont enrichis avec toutes les possibilités de synonymie proposées par le dictionnaire Dubois.