5.2 Extraction et stockage de l’information issue de l’analyse syntaxique

La structure de l’information contenue dans un texte correspond dans notre approche à l’ensemble des résultats que nous pouvons obtenir suite à une analyse linguistique de ce texte additionné de l’enrichissement que nous avons pu y apporter. L’analyse que nous effectuons repose sur un groupe d’outils – NTM et XIP – décrits dans la section 2.2 page §. Cette analyse est fonction de la qualité du lexique morphologique et du niveau de compétences de la grammaire de XIP. Le lexique morphologique permet le découpage du document en unités lexicales. La grammaire effectue la désambiguïsation morpho-syntaxique des interprétations morphologiques proposées par NTM, construit un arbre d’analyse qui constitue les unités lexicales de chaque phrase en syntagmes minimaux et enfin établit les dépendances syntaxiques entre les lexèmes et entre les syntagmes.

L’information qui nous est proposée à l’issue de cette phase d’analyse est donc lexicale, puisque le découpage en mots est réalisé, elle est aussi morphologique à travers l’analyse de la forme des mots et leur désambiguïsation catégorielle, elle est enfin syntaxique grâce aux syntagmes minimaux et dépendances. Parmi ces différentes données, nous devons déterminer celles qui composent une part de la structure informationnelle du texte afin de la stocker et de l’indexer pour y avoir accès lors d’une recherche d’information.

Ces données sont d’abord lexicales et le lemme de chaque unité lexicale doit impérativement être conservé en tant qu’entité porteuse de l’information sémantique de base dans le texte. D’un point de vue morphologique, il est important également de préserver la catégorie grammaticale de chaque lexème, car cette donnée est une indication importante pour toute la consultation ultérieure d’une ressource lexicale, et elle peut permettre de distinguer une interprétation parmi plusieurs propositions. Cette information morphologique ne doit être conservée que dans la mesure où la désambiguïsation catégorielle a déjà été effectuée.

Enfin, nous conservons principalement les données syntaxiques qui doivent servir de support aux relations syntaxico-sémantiques entre les concepts actualisés par les lexèmes. Dès lors, les syntagmes ne présentent pas un intérêt déterminant pour notre objectif contrairement aux dépendances qui sont porteuses de liens significatifs entre les concepts. Certaines de ces dépendances sont toutefois purement « fonctionnelles », et ne devront pas être stockées 1, tandis que d’autres sont plus significatives et doivent impérativement être conservées dans une perspective de relations syntaxico-sémantiques.

Ainsi, une dépendance DET(detX, nomY), qui indique qu’un article X détermine une unité lexicale nominale Y, ne doit pas être considérée comme une relation importante pour notre application. A contrario, la relation SUBJ(verbeA, nomB), qui indique que le nom B est sujet d’un verbe A, relie souvent un actant à une action, comme une dépendance VARG[DIR](verbeA, nomC), pour indiquer que le nom C est le complément d’objet direct du verbe A, relie souvent l’action au patient qui la subit.

Cependant, nous avons décidé de ne pas trop préjuger de l’intérêt ou non de telle ou telle dépendance. Pour les relations de type sujet et objet direct dont nous venons de parler, leurs caractéristiques syntaxico-sémantiques ne dénotent pas systématiquement des qualités d’actant, d’action ou de patient. Le lexique peut faire varier ces opérateurs, ainsi que le reste de la structure syntaxique de la phrase. Dès lors, nous éliminons les seules dépendances qui concernent des mots purement grammaticaux 2, partant du principe que ces mots vides ne sont pas descriptifs d’entités contenues dans le texte [Martinet, 1960]. Nous conservons toutefois les dépendances prépositionnelles, c’est-à-dire les dépendances permettant de relier la tête du groupe prépositionnel à la tête du groupe dont dépend ce groupe prépositionnel (NMOD[INDIR](X, prep, Y)). En effet, même si c’est la préposition qui est fondatrice de cette dépendance, la relation unit en réalité la tête des autres syntagmes décrite par chacun des autres arguments de la dépendance (X et Y).

Grâce aux possibilités de la méthode de stockage de Claude Roux (cf. [Roux et Jacquemin, 2002] et annexe  A page §), chaque élément d’information est classé dans une base de données. Cet élément reçoit une indexation à différents niveaux de découpage du document : dépendance, phrase, paragraphe, texte. Cette classification à différents niveaux permet de définir, lors de la phase d’interrogation, une échelle d’exigence dans l’étendue de la fenêtre dans laquelle les éléments de la réponse communs avec ceux de la requête doivent être trouvés.

Le stockage de l’information obtenue au niveau de l’analyse syntaxique n’est pas cependant la seule opération que nous effectuons à cette étape de notre méthode. En effet, dès ce niveau, nous entrons dans un domaine proche de la sémantique et certaines distinctions entre des dépendances, pertinentes dans le cadre strictement syntaxique, ne le sont plus en ce qui concerne le sens de l’énoncé.

Toutefois, notre action à ce stade de la méthode ne se limite pas au seul stockage de l’information obtenue au travers de l’analyse syntaxique. En effet, dès ce niveau, il est possible de toucher à certains aspects plus sémantiques des résultats collectés. Il s’agit de mettre en correspondance certaines dépendances syntaxiques dont la distinction pour notre application n’est pas pertinente, afin de préserver une unité dans le sens plutôt qu’une distinction dans la structure syntaxique.

Ainsi, certaines relations syntaxiques construites par XIP et bien distinctes dans sa grammaire sont considérées comme équivalentes du point de vue du sens. Les dépendances syntaxiques différentes mais équivalentes que l’analyse syntaxique génère doivent donc être fusionnées sous une seule dénomination avant d’être stockées dans la base de données qui conserve l’information identifiée ou extraite du texte. Les équivalences de dépendances syntaxiques que nous avons constatées correspondent à une amélioration que nous avions réalisée sur le module de désambiguïsation sémantique développé à XRCE (Xerox Research Centre Europe), et qui avait été testé avec succès [Brun et al., 2001]. Elles ont toutefois été adaptées à la grammaire de XIP et sont exposées dans le tableau  5.1 page §.





Dépendance syntaxique
Exemple
Dénomination équivalente



SUBJa

Une partie des troupes se rallia à Élagabal. SUBJ(rallia, partie)

SUBJ(rallia, partie)

DEEPSUBJb

Constantin fut proclamé auguste par les troupes de Bretagne. DEEPSUBJ(proclamé, troupes)

SUBJ(proclamé, troupes)

SUBJCLITc

« Qu’ils me haïssent, pourvu qu’ils me craignent », disait-il. SUBJCLIT(disait, il)

SUBJ(disait, il)




VARG[DIR]d

César [. . .] écrase une armée des partisans de Pompée à Thapsus. VARG[DIR](écrase, armée)

VARG[DIR](écrase, armée)

SUBJ[PASS]e

Constantin fut proclamé auguste par les troupes de Bretagne. SUBJ[PASS](proclamé, Constantin)

VARG[DIR](proclamé, Constantin)




NMOD[NOUN, SPRED]f

Antoine fut l’ami et le second de César. NMOD[NOUN, SPRED](Antoine, ami)

NMOD[NOUN, SPRED](Antoine, ami)

SEQNPg

Constance III épousa Galla Placidia, sœur d’Honorius. SEQNP(Galla Placida, sœur)

NMOD[NOUN, SPRED](Galla Placida, sœur)





Tab. 5.1: Correspondances sémantiques de dépendances syntaxiques.

Dans ce tableau, on peut voir que certaines constructions sont sémantiquement équivalentes à d’autres. Par exemple, la mise en correspondance de SUBJ[PASS](X, Y) et VARG[DIR](X, Y) permet d’inférer la conformité sémantique entre les énoncés Constantin fut proclamé auguste par les troupes de Bretagne , où proclamé et Constantin sont unis par une dépendance SUBJ[PASS](proclamé, Constantin) et un énoncé Les troupes de Bretagne proclamèrent Constantin auguste, où les mêmes lemmes sont unis par une dépendance VARG[DIR](proclamèrent, Constantin). Il en va de même pour les autres dépendances mises en correspondance. Du fait de ces rassemblement de dépendances sous une seule dénomination, c’est un fragment de la sémantique de la phrase elle-même qui est emmagasinée au travers de ces relations syntaxiques.