Conclusion

Dans une société où l’information a pris une importance vitale, la maîtrise des données contenues dans les documents électroniques est devenue un enjeu capital. Cependant, la gestion de l’information électronique, chaque jour plus volumineuse, n’est envisageable qu’avec l’aide de techniques automatiques, auxquelles on demande de trier, de classer, de filtrer, d’extraire ou d’interroger l’information en fonction des besoins propres à chaque utilisateur.

Les méthodes de gestion automatique de l’information se heurtent généralement à deux obstacles importants. Le premier de ces obstacles découle du grand nombre de possibilités d’actualisations d’une même information en langage naturel. Ce problème est traité de diverses manières par les méthodologies du domaine : synonymie, racinisation, constitution de matrices et de lexiques à partir de corpus étiquetés, etc. La plupart du temps, ces approches recourent à une spécialisation du domaine pour restreindre les possibilités de diversification de la forme ainsi que du type d’information à identifier, ou à des mesures statistiques qui tiennent peu compte du contenu réel des textes.

La seconde difficulté concerne la compréhension des énoncés afin d’identifier la pertinence d’une information dans le cadre du traitement considéré. L’identification de cette pertinence est habituellement effectuée par un calcul de similarité de vecteurs ou de matrices censés représenter l’information, ou par l’évaluation de la capacité d’une information à rentrer dans un tableau informatif précis. Ici encore, les solutions proposées sont statistiques et donc se penchent peu sur le contenu des textes, ou elles restreignent le domaine d’application de la méthodologie.

Nous constatons toutefois qu’au cours de l’histoire de l’élaboration des méthodes proposées pour la gestion de l’information, elles intègrent de plus en plus d’éléments linguistiques, d’abord des ressources lexicales, ensuite des outils de traitement, pour identifier et mettre en relation les différentes unités qui composent les textes. Ainsi, les systèmes actuels utilisent souvent une ou plusieurs de ces techniques : découpage en mots et normalisation des unités lexicales, analyse morphologique, constitution de syntagmes, établissement de relations syntaxiques, ébauches de traitement sémantique. L’apport de ces outils linguistiques est souvent constaté, mais reste généralement générique dans les méthodes existantes.

L’amélioration des performances et de la robustesse des analyseurs linguistiques permet actuellement d’envisager leur utilisation dans des applications réelles. Nous proposons donc d’utiliser exclusivement des approches de type linguistique pour construire un système de structuration de l’information générique qui permettra de manipuler une information dont le sens a été identifié. Cette méthodologie a pour objet d’étudier et d’identifier les contenus de documents sans restriction de domaine pour permettre leur maniement dans les différentes perspectives de la gestion de l’information.

Pour réaliser ce système, nous nous sommes appuyé sur une réflexion existante qui portait sur deux points : d’abord, l’enrichissement (aussi appelé expansion) d’un énoncé permet de donner un grand nombre d’actualisations différentes à un même énoncé ; ensuite, plus le contexte d’un mot est riche et précis, plus l’identification du sens de ce mot en est facilitée. Or les différents secteurs de la gestion de l’information s’appuient généralement sur une constatation de similitude entre deux informations. En conséquence, il nous a semblé judicieux d’effectuer l’identification du sens des unités lexicales à l’intérieur des documents dont le contexte est généralement plus riche que celui d’une requête, et d’enrichir ensuite chaque énoncé des documents sur la base des sens identifiés.

La construction d’une structure informationnelle s’appuie dès lors sur une analyse linguistique aussi complète que possible, c’est-à-dire l’identification des mots, l’analyse morphologique et l’établissement des relations syntaxiques. Cette analyse est nécessaire pour effectuer la désambiguïsation sémantique qui identifie le sens des unités lexicales en contexte. Par ailleurs, les liens syntaxiques sont susceptibles de permettre l’établissement de relations syntaxico-sémantiques (par exemple actant-action, action-patient, etc.). L’identification des schémas syntaxiques et du sens des mots des énoncés permet ensuite d’effectuer des enrichissements dont l’originalité est d’être soumis à l’identification des sens des mots et des schémas syntaxiques des phrases.

Les différents types d’enrichissements sont issus de techniques déjà testées dans le domaine : synonymie simple et expressions synonymiques, classes et catégories sémantiques, domaines d’application, dérivation morphologique. Toutes les données permettant d’enrichir les textes proviennent de ressources lexicales et lexico-sémantiques, et sont identifiées non au départ du lexème, mais à partir de son sens. De plus, l’utilisation d’unités lexicales dans l’enrichissement est basée sur le principe de l’interchangeabilité. En effet, ces enrichissements sont apportés de manière à ce que chaque lexème issu de l’enrichissement remplace dans l’énoncé le lexème qu’il enrichit et modifie éventuellement la structure syntaxique de manière à conserver un énoncé correct et sémantiquement équivalent à l’énoncé de départ.

En plus de ces enrichissements, une méthode simple permet d’identifier le coréférent des pronoms personnels sujets présents dans les textes de la base documentaire.

La structure informationnelle est un index des unités lexicales présentes dans le texte ou des lexèmes correspondant à leurs enrichissements reliées entre eux par des dépendances syntaxico-sémantiques. Cet index permet de retrouver dans la base documentaire les textes ou fragments de textes correspondant à une information déterminée.

Pour tester la qualité de la structure informationnelle, nous avons élaboré un module d’interrogation qui permet de l’interroger à trois niveaux : texte, paragraphe et phrase. L’interrogation s’effectue à partir de requêtes en langage naturel, qui sont analysées semblablement aux documents, mais ne sont ni désambiguïsées, ni enrichies car le contexte de ces requêtes est généralement trop pauvre pour permettre ce type de traitement. L’information obtenue à partir des résultats de l’analyse est comparée à l’information de la structure informationnelle pour obtenir les fragments de texte correspondants.

Divers traitements peuvent être appliqués à la requête pour assouplir les contraintes de correspondance, très élevées au départ, des réponses candidates avec la question. Ces contraintes portent essentiellement sur l’objet de la question et sur le taux de correspondance des dépendances syntaxiques entre la question et la réponse candidate.

L’évaluation que nous avons effectuée a porté sur deux types de tâches très exigeantes de la gestion de l’information. Il s’agit de la tâche de question-réponse, et d’un calcul de résultats se rapprochant de l’extraction d’information. Les résultats que nous avons obtenus dans les deux cas sont très honorables, et démontrent l’intérêt de l’identification du sens de unités lexicales qui constituent les documents pour effectuer un enrichissement contextuel. Dans la tâche de question-réponse, le fonctionnement du système avec un minimum de contraintes obtient le meilleur résultat car la classification des réponses permet d’éliminer les réponses candidates trop éloignées de la question. Dans le calcul des résultats en terme de précision et de rappel, le maintien de certaines contraintes (absence du lexème désigné par le focus et identification sémantique de l’objet de la requête, élimination des réponses dont les dépendances syntaxiques ne concordent qu’à moins de 20 % avec celles de la requête) permet d’obtenir le meilleur compromis entre la précision (78,29 %) et le rappel (44,89 %).

La qualité de l’information fournie par la dérivation morphologique se révèle excellente, mais elle est peu utilisée. L’importance de la résolution d’anaphores est capitale dans tous les cas. Par ailleurs, les traitements aveugles, comme l’enrichissement brut des unités lexicales dont le sens n’a pas été identifié, sont inutiles. De plus, les traitements relativement fins que nous appliquons sont moins déterminants à mesure que la fenêtre de réponse s’élargit. Par exemple, la résolution de coréférence n’améliore pas les résultats d’une interrogation au niveau du texte.

L’étude des résultats et des silences de la méthode permet d’identifier certaines de ses faiblesses et de proposer des améliorations au système. Ces amélioration sont de deux ordres :

Au niveau de l’enrichissement :
 
Au niveau de l’interrogation :
 

Par ailleurs, la disponibilité de ressources plus nombreuses et plus complètes pour l’anglais, ainsi que d’outils souvent plus aboutis rendrait intéressante l’adaptation de notre méthodologie à cette langue. En particulier, la richesse de la ressource WordNet et la mise à disposition de corpus étiquetés selon les sens qu’il décrit permet d’envisager un processus d’analyse et d’enrichissement fondé entièrement sur WordNet et qui exploiterait au maximum les différentes relations sémantiques décrites.