La société de l’information dans laquelle nous vivons a fait des documents sous forme électronique et de la maîtrise de l’information qu’ils contiennent un enjeu majeur dans des secteurs aussi variés que la politique, l’économie, la culture, la défense... Toutefois, l’accès à cette information est rendu malaisé par deux facteurs. D’abord, ces documents électroniques sont actuellement si nombreux qu’aucun humain ne peut en avoir une idée claire, et encore moins en maîtriser le contenu – d’autant plus que le volume des textes continue d’augmenter de plus en plus vite. Ensuite, l’absence presque généralisée d’organisation au sein de cette profusion de textes ne facilite pas l’accès à une information précise.
Le domaine de la gestion de l’information textuelle, qui se penche précisément sur cette problématique, tente d’y remédier par des approches automatiques. Les différentes disciplines qui le composent se consacrent donc à élaborer des stratégies permettant de repérer la présence d’un ou plusieurs éléments d’information à l’intérieur de textes. Les disciplines les plus représentatives – car elles sont également les plus exigeantes – sont celles de question-réponse et d’extraction d’information. Toutes deux cherchent en effet l’identification précise d’une information dans les textes, soit parce qu’elle répond à une question posée, soit parce qu’elle correspond à un type informationnel prédéfini. La détermination précise de l’information recherchée constitue la grande difficulté de ces tâches.
Du fait de la grande activité du domaine, les méthodes mises en œuvre dans ce cadre sont multiples. Toutefois, les systèmes existants ont en commun une approche centrée sur l’étude de la nature de l’information désirée, c’est-à-dire la question en question-réponse et le type informationnel en extraction d’information. Ils effectuent ensuite une comparaison de cette information avec le contenu des textes, puis un calcul de distance entre information désirée et information obtenue. De ce fait, l’examen des documents est secondaire. D’autre part, la supériorité des systèmes qui intègrent les éléments d’analyse linguistique les plus complexes a été constatée [Ferret et al., 2002a]. Cependant, aucune approche n’a poussé le raisonnement jusqu’à se fonder entièrement sur des outils linguistiques.
Inscrite dans le cadre du TAL, la recherche que nous abordons dans cette thèse entend se pencher sur la problématique de la gestion de l’information à partir d’un angle nouveau. En effet, comme la désorganisation des documents électronique est un obstacle à l’accessibilité à l’information, notre idée est de construire à partir d’une base textuelle 1 la structure correspondant à l’information qui y est contenue. Cette structure constituerait de ce fait un point d’accès aisé à toute information désirée.
La construction de cette structure informationnelle doit se plier à deux impératifs. Tout d’abord, la profusion des textes demeurant un problème auquel le domaine doit faire face, il est essentiel que la démarche soit automatique et que l’intervention humaine la plus petite possible soit requise. Ensuite, puisque les processus linguistiques ont établi leur intérêt et que notre démarche se veut axée sur le TAL, nous avons décidé de privilégier les approches linguistiques des textes au détriment des méthodes statistiques et quantitatives. Ainsi l’examen des documents dont il nous faut construire la structure informationnelle doit-il reposer sur des outils d’analyse textuelle basés sur la grammaire de la langue et sur des dictionnaires. Les énoncés des documents, plus larges que ceux des requêtes (questions ou type informationnel désiré) conviennent d’ailleurs souvent mieux à une analyse linguistique.
La structure informationnelle se doit de contenir les éléments d’information contenus dans les textes (les mots), d’en identifier la nature (le sens des mots) ainsi que les rapports qu’ils entretiennent entre eux (les relations syntaxiques). Des analyses morphologique et syntaxique doivent donc être effectuées, ainsi qu’une désambiguïsation sémantique. Les résultats de ces opérations constituent le corps de la structure, qui permettent d’obtenir les fragments auxquels ils correspondent. Un dictionnaire, exploité par la désambiguïsation sémantique, sert de référent au niveau du sens.
La richesse de la structure est le garant de son utilité. Elle doit contenir l’ensemble de l’information présente dans les textes auxquels elle fait référence. Mais elle doit aussi comporter, pour chaque information, le plus grand nombre possible de leurs réalisations lexico-sémantiques ou syntaxiques, afin que chaque information puisse être atteinte quelle que soit la forme de la requête qui y fait référence. Là encore, les disciplines de question-réponse et d’extraction d’information agissent de manière similaire, l’une effectuant l’expansion de la requête, l’autre constituant des listes de patrons ou de tableaux correspondant au type informationnel recherché.
Toutefois, nous pensons que l’enrichissement apporté à la structure doit correspondre aux éléments d’information collectés, à leur nature et aux rapports qu’il y a entre eux. Dès lors, l’enrichissement devra permettre d’ajouter à la structure des données qui correspondent à des énoncés différents de ceux des textes, mais qui possèdent la même signification. Les données lexicales récoltées dans des dictionnaires, parfois modifiés de manière à en utiliser uniquement les éléments assignés au sens voulu, permettent de nombreuses adjonctions à la structure, et ouvrent l’accès à l’information qu’elle contient.
Cet accès peut s’effectuer de diverses manières, dont la plus simple est par mots-clefs. Toutefois, dans la perspective du TAL, il nous a paru intéressant de tenter d’accéder à l’information par requête en langage naturel. Le principe sera donc de constituer une structure locale à la requête et de la comparer à la structure informationnelle enrichie de la base documentaire interrogée. Les traitements appliqués à la requête sont semblables à ceux des documents, excepté la désambiguïsation sémantique – le contexte étant généralement trop exigu pour permettre son application – et l’enrichissement. De plus, certaines règles de grammaire permettent d’identifier dans l’énoncé l’objet de la requête, et d’éliminer les éléments interrogatifs de la structure locale. La comparaison entre la structure locale de la question et celle des documents peut alors avoir lieu, et les critères de correspondance entre la question et les fragments de texte susceptibles d’en constituer la réponse ont la possibilité d’être plus ou moins rigoureux. Les différents types d’enrichissement peuvent même être sélectionnés ou rejeter individuellement.
Enfin, pour tester la validité de notre approche, il est capital de disposer d’une base documentaire en langue française, de taille suffisante pour constituer un corpus de travail et un corpus d’évaluation cohérents et homogènes, qui permettent de tester non seulement la capacité de l’approche à apporter une réponse correcte à une question posée (question-réponse), mais aussi à en trouver toutes les réponses (extraction d’information).
Or notre thèse est effectuée dans le cadre d’une convention CIFRE entre le laboratoire ILPGA (Institut de Linguistique et Phonétique Générales et Appliquées, Université de la Sorbonne Nouvelle – Paris III) et XRCE (Xerox Research Centre Europe) à Grenoble. Ce dernier laboratoire dispose, dans le cadre d’un projet appelé CIRCE, d’une version électronique du texte de l’Encyclopédie Multimédia Hachette 2. Il s’agit d’un dictionnaire encyclopédique en français. Cet ouvrage présente divers avantages. Les documents sont relativement vierges d’erreurs orthographiques. Ils portent sur des sujets variés souvent susceptibles de recouper l’information d’autres documents tout en ne portant jamais sur le même sujet. Ils sont composés de telle manière qu’il est facilement possible de constituer des ensembles de textes comportant une information cohérente. Enfin, tous les documents présentent une constitution interne comportant un « cartouche » de texte structuré sémantiquement, composé du titre de l’article et de certaines informations résumées et formatées.
Le texte de ce dictionnaire encyclopédique se présente sous la forme d’une multitude de fichiers informatiques encodés en un langage balisé baptisé XML (eXtensible Markup Language). Il s’agit d’un langage-outil qui permet d’ajouter à un document différentes informations, comme une présentation particulière – de manière similaire au langage HTML d’Internet – ou des indications d’ordre sémantique. Chacun des fichiers correspond à un article de l’encyclopédie, la réalité traitée dans l’article en constituant le titre. Cette encyclopédie est donc constituée comme un dictionnaire et elle est alphabétiquement ordonnée. Elle contient d’ailleurs un dictionnaire de langue général composé de trente-cinq mille entrées 3 environ sur les quelque septante-cinq mille qui composent l’entièreté de l’ouvrage. Cette partie lexicale ne concerne pas la constitution d’une base de textes informationnelle étant donné que les énoncés qu’elle contient relèvent par nature du domaine spécialisé de la lexicographie.
En tant qu’encyclopédie générale, les sujets abordés sont aussi divers que l’histoire, l’économie, la littérature ou la chimie. La longueur des articles est elle aussi extrêmement variable, de quelques lignes à plusieurs pages 4 et le type des sujets traités, bien que portant le plus souvent sur des personnes physiques, peuvent également varier et concerner des pays, villes, œuvres, faits de société ou des événements. Cette variété concourt à rendre ce type de document propre à servir de base documentaire de test pour notre méthode de désambiguïsation sémantique.
Nous l’avons dit plus haut, le texte de l’encyclopédie n’est pas brut, mais il est enrichi de balises et de codes XML (cf. figure 1 page §). Ainsi, les articles de l’encyclopédie encodent-ils habituellement l’entrée de l’article comme Sommaire et comme Titre et les divers paragraphes de son corps comme Parency. Les différents types d’articles sont distingués entre eux, les entrées du dictionnaire de langue portant l’indication Entree.lang, tandis que celles propres à l’encyclopédie sont signalées par Entree.ency, et les légendes des illustrations comportent Entree.leg. Sémantiquement, le titre de l’article contient le nom et le prenom des personnages, les autres sujets qui ne concernent pas une personne sont quant à eux étiquetés simplement nom. D’un point de vue purement typographique, on peut voir dans l’exemple que le Nom (et le Prenom dans le cas d’un personnage) du Sommaire et du Titre est en caractères gras (bold). On a encore des indications de Lieu et de Date pour la naissance et la mort des personnages. Dans le corps même de l’article, outre la séparation en paragraphes dont nous avons parlé plus haut (Parency), les intitulés des œuvres, titres de journaux et toute entité à laquelle un article est susceptible d’être consacré portent l’étiquette Ref. Les formules mathématiques sont étiquetées Formule. Étant donné que les articles de langue ne nous concernent pas, nous ne mentionnons pas les étiquettes qui leur sont propres.
C’est donc sur base d’un corpus prélevé dans les différents articles de ce dictionnaire encyclopédique que les tests sont effectués au long de notre recherche et de la construction du système de construction de structure informationnelle. Un autre corpus est construit pour la phase d’évaluation du système complet.
Le premier chapitre de cette thèse se penche sur les conférences qui font référence dans le domaine visé, et plus particulièrement MUC, qui a défini les objectifs de l’extraction d’information, et TREC, qui a fait de même pour la tâche de question-réponse entre autre. Ce chapitre est également consacré à l’examen de diverses approches de ces deux disciplines, aux besoins qu’elles affichent et aux obstacles qu’elles rencontrent.
Le second chapitre est consacré à l’étude des outils linguistiques utilisés pour l’analyse textuelle, et plus particulièrement à la problématique de la désambiguïsation sémantique qui est essentielle dans l’identification de la nature de l’information rencontrée. À ce titre, elle sert aussi de référence pour l’enrichissement de la structure informationnelle.
Le troisième chapitre a pour objet la description et le choix d’un dictionnaire de référence qui sera utilisé par le système de désambiguïsation sémantique. D’autres ressources lexicales sont également sélectionnées qui auront leur utilité lors de la phase d’enrichissement de la structure informationnelle.
Dans le chapitre quatre, nous décrivons les traitements que nous appliquons aux différentes ressources lexicales pour en modifier certains aspects qui ne conviennent pas à notre méthodologie et pour les rendre compatibles les uns avec les autres.
Le cinquième chapitre se consacre à la construction de la structure informationnelle, d’abord à l’aide des résultats obtenus à travers l’analyse linguistique des documents, ensuite grâce aux différents types d’enrichissement mis en œuvre, qui sont décrits eux aussi.
La méthode d’interrogation de la structure informationnelle en langage naturel fait l’objet du sixième chapitre. Les traitements particuliers appliqués à la question ainsi que les différents niveaux de comparaison entre la question et la réponse y sont indiqués.
Le septième chapitre sanctionne la méthode élaborée par une évaluation. Un protocole d’évaluation est d’abord exposé, puis les résultats sont présentés et commentés.
Enfin, nous discutons des apports et des défauts de notre méthodologie, et nous en présentons les perspectives.