5.5 Exploitation de la dérivation morphologique

Lors de notre examen des ressources lexico-sémantiques, nous avons signalé diverses informations qui nous paraissaient aptes à apporter un enrichissement à des énoncés textuels. Parmi des données d’enrichissement textuel, nous avons déjà traité les divers traits sémantiques (domaines, classes et catégories) en élargissant le contenu du lexique morphologique, ainsi que l’information synonymique dont nous venons de décrire la méthodologie d’adjonction à la structure syntaxico-sémantique de la base documentaire.

Nous avons par ailleurs fait mention des indications de dérivation morphologique contenues dans le dictionnaire Dubois. De plus, nous avons été confronté au problème de la génération des dérivés, que nous avons résolue grâce à un outil de morphologie relationnelle déjà existant [Gaussier, 1999] (cf. section  3.3 page §). Enfin, nous avons étudié l’évolution du sens des différentes dérivations pour en déduire des tables de correspondances syntaxiques permettant de faire coïncider avec une forme originelle dans un texte une forme dérivée dans ce même texte (cf. section  4.2.2 page §). Il nous reste à étudier la manière dont nous allons exploiter ces dérivés que nous avons générés et ces tables de correspondance pour enrichir la structure syntaxico-sémantique.


  

Enonce presente

Pline le Jeune prot Su etone.

eriv Forme d

protecteur

Correspondance syntaxique :

VARG[DIR](verbe,X)

eriv ==> NMOD[INDIR](nom d

Evolution syntaxique de l’enonc

eger, Su VARG[DIR](prot

==> NMOD[INDIR](protecteur, PREP, Su


Fig. 5.16: Application d’une correspondance syntaxique pour un dérivé de protéger.


L’exemple  5.16 page précédente illustre le fonctionnement d’un schéma syntaxique extrait des tables de correspondances. Ainsi, dans la phrase Pline le Jeune protégea Suétone, le nom protecteur peut être proposé comme dérivation du verbe protéger. L’étude des dépendances obtenues lors de l’analyse de cet énoncé par XIP permet d’identifier dans les tables la correspondance entre une relation syntaxique de type objet direct entre un verbe et une autre unité lexicale, et une relation prépositionnelle entre le dérivé du verbe et cette autre unité lexicale. Cette correspondance syntaxique permet d’établir une conformité sémantique entre protéger Suétone et protecteur [de] Suétone 15. Toutefois, une telle correspondance syntaxique ne s’exprime pas au niveau d’un énoncé, qui devrait être généré, mais seulement au niveau de la dépendance NMOD[INDIR](protecteur,PREP,Suétone).

Ici encore, l’information indicative des possibilités de dérivation morphologique est distribuée non en fonction du mot-vedette, mais suivant les acceptions de cette vedette. Toute la procédure qui vise à un enrichissement par les dérivés est donc soumise à nouvaus au bon déroulement de la désambiguïsation sémantique. Par ailleurs, on a vu que l’intégration d’une forme dérivée à la structure syntaxico-sémantique ne peut se faire la plupart du temps que via une transformation du contexte syntaxique de la forme originale lorsque intervient le dérivé. Dès lors, l’application d’un enrichissement par dérivation à une unité lexicale est soumise à deux conditions : la sélection d’un sens de ce lexème qui préconise une dérivation, et la détection d’un des schémas syntaxiques permettant une adaptation correspondante de l’énoncé.

Une fois vérifiée la validité de la génération d’une forme dérivée pour le sens sélectionné de l’unité lexicale à enrichir, ainsi que la conformité du contexte syntaxique original de cette unité lexicale avec la table des correspondances syntaxiques propre à ce type de dérivé, la procédure d’enrichissement par forme dérivée consiste à construire le schéma syntaxique correspondant à partir de ce contexte syntaxique original. Les dépendances syntaxiques correspondant au schéma initial et celles qui en sont issues suivant les indications de la table des correspondances constituent l’ossature de deux expressions de même sens.

Le schéma syntaxique dérivé représente dès lors un enrichissement plus ou moins paraphrastique apporté à l’énoncé de départ, qui sera versé dans la structure syntaxico-sémantique au même titre que les résultats de l’analyse du même énoncé original ou que les informations provenant des autres enrichissements. Un trait identifiant le type de cet enrichissement est toutefois assigné aux dépendances créées suivant les directives de la table des correspondances syntaxiques.

Le système de base de données dans lequel sont stockées les informations issues de l’analyse des textes et de l’enrichissement occupe un espace bien plus important que celui des textes originaux. Le tableau 5.5 page § donne les détails de l’espace occupé par les données issues de 50 articles de l’Encyclopédie Hachette Multimédia utilisés au chapitre  7 page § pour effectuer l’évaluation du système. Ces textes occupent 0,2 Mo.








Analyse syntaxique
Tous enrichissements
Volume
# lignes
Volume
# lignes






Données langagières
2,8 Mo 9 132 l. 4 Mo 13 719 l.






Structures hiérarchiques
6 Mo 172 218 l. 10 Mo 324 314 l.






Structures plates
2,8 Mo 54 382 l. 4,5 Mo 90 720 l.
Niveau phrase 1,6 Mo 31 546 l. 2,49 Mo 50 079 l.
Niveau paragraphe 0,9 Mo 16 929 l. 1,45 Mo 29 272 l.
Niveau document 0,3 Mo 5 907 l. 0,56 Mo 11 369 l.






Total
11,6 Mo 235 732 l. 18.5 Mo 428 753 l.







Tab. 5.2: Espace relatif occupé par la structure informationnelle d’une base documentaire.

La ligne données langagières du tableau représente l’index de l’ensemble des données extraites des documents, c’est-à-dire les unités lexicales, les dépendances et les traits. Les structures hiérarchiques sont les index de chaque dépendance extraite avec ses traits, ses arguments et les traits des arguments tels qu’ils apparaissent lors de l’analyse du texte ou lors d’une phase d’enrichissement. Les structures plates représentent ces informations qui apparaissent au niveau de la phrase, du paragraphe ou du document après analyse ou après enrichissement, mais sans que les données soient structurées les unes vis-à-vis des autres. Les structures plates sont de simples listes des données contenues dans une phrase, dans un paragraphe ou dans un document (cf. section  6.2.2 page § et l’annexe  A page §). Le volume des données est indiqué après une simple analyse syntaxique et après tous les traitements d’analyse et d’enrichissement.

La grande importance de l’espace occupé par la structure informationnelle par rapport à la base documentaire provient de trois facteurs :