5.4 Adjonction des synonymes

Du fait de l’action des règles de désambiguïsation sémantique, certains traits sémantiques relatifs aux domaines, classes et catégories ont été maintenus sur les unités lexicales qui composent la base textuelle, tandis que d’autres ont été inhibés. La présence de ces traits constitue le premier enrichissement des textes de la base documentaire.

De plus, un ou des numéros de sens ont été ajoutés sur chaque nœud lexical des arbres d’analyse syntaxique partiels lors de la désambiguïsation sémantique. Bien que ces traits ne constituent pas à proprement parler un enrichissement important, ils sont à la base de l’accès à une information lexicale adaptée au sens des mots présents dans les documents. En effet, toutes les données qui vont contribuer à l’enrichissement ultérieur de la base documentaire sont rendues accessibles au travers des numéros de sens, et chaque enrichissement peut être assigné comme trait au mot qu’il enrichit grâce à l’attribut $STACK dont la valeur est justement l’enrichissement (cf. section  2.2.2 page §).

Le premier type d’enrichissement à réaliser à partir de ce résultat concerne l’apport de synonymes des unités lexicales au sens identifié. Grâce aux ressources lexicales que nous avons choisies (cf. chapitre  3 page §) ou que nous avons adaptées (cf. chapitre  4 page §), nous disposons d’ensembles synonymiques liés au sens des unités lexicales, et non plus à leur lemme. Nous pouvons donc aisément adjoindre aux lexèmes présents dans les documents les synonymes qui leur sont propres par simple consultation de leur numéro de sens.

Cependant, pour intégrer un synonyme dans les textes de la base documentaire, deux cas de figure peuvent se présenter : le synonyme est une seule unité lexicale, même composée ; ou bien il s’agit d’une expression formée de plusieurs lexèmes 9. Le traitement pour intégrer une expression synonymique dans une phrase sera différent de celui qui y insère un synonyme simple.

5.4.1 Enrichissement par synonymes simples

Dans un premier temps, nous avons développé une procédure élémentaire pour intégrer un synonyme simple à l’énoncé. Cette procédure consistait à dupliquer chaque dépendance impliquant le mot à enrichir pour ensuite remplacer ce mot par son synonyme dans chacune des dépendances ainsi générées. Chacune de ces nouvelles dépendances est alors indexée dans la structure syntaxico-sémantique et chaque enrichissement peut ainsi permettre de retrouver l’information originelle dans les documents.


Énoncé à enrichir :
« Son règne a favorisé la décadence de la vieille aristocratie. »

Synonymes de favoriser sous son sens numéro 4 :
privilégier
avantager
soutenir

Dépendances impliquant favoriser :
SUBJ(favorisé,règne)
VARG[DIR](favorisé,décadence)

Dépendances générées par l’enrichissement :
SUBJ(privilégier,règne)
SUBJ(avantager,règne)
SUBJ(soutenir,règne)
VARG[DIR](privilégier,décadence)
VARG[DIR](avantager,décadence)
VARG[DIR](favoriser,décadence)

Fig. 5.8: Enrichissement synonymique simple


L’exemple  5.8 page ci-contre illustre l’enrichissement synonymique du mot favoriser dans une phrase où son quatrième sens (apporter de l’aide à une « notion abstraite ») a été assigné par la désambiguïsation sémantique. Les synonymes correspondant à ce quatrième sens sont privilégier, avantager et soutenir. Deux dépendances seulement impliquent le lemme favoriser dans l’analyse syntaxique de l’énoncé. Étant donné qu’il y a trois synonymes de favoriser, ce sont six nouvelles dépendances qui sont créées, trois de chaque type dont l’argument correspondant à favoriser est remplacé successivement par chaque synonyme.

Cette méthode se révèle efficace dans divers tests que nous avons effectués, mais elle présente deux inconvénients majeurs : elle ne fonctionne réellement que si un seul des arguments des dépendances est enrichi, et elle génère un nombre de dépendances qui croît non seulement à mesure que la liste des synonymes est plus longue pour chaque unité lexicale, mais aussi en proportion du nombre de dépendances qui impliquent chaque unité lexicale enrichie.


Synonymes de décadence sous son sens numéro 1 :
déclin
corruption
déchéance

Dépendance impliquant favoriser et décadence :
VARG[DIR](favorisé,décadence)

Dépendances correspondantes générées par l’enrichissement de décadence :
VARG[DIR](favorisé,déclin)
VARG[DIR](favorisé,corruption)
VARG[DIR](favorisé,déchéance)

Dépendances manquantes après enrichissement :
VARG[DIR](privilégier,déclin)
VARG[DIR](avantager,déclin)
VARG[DIR](soutenir,déclin)
VARG[DIR](privilégier,corruption)
VARG[DIR](avantager,corruption)
VARG[DIR](soutenir,corruption)
VARG[DIR](privilégier,déchéance)
VARG[DIR](avantager,déchéance)
VARG[DIR](soutenir,déchéance)

Fig. 5.9: Lacune de la méthode élémentaire d’enrichissement synonymique simple.


Nous présentons dans l’exemple  5.9 page précédente une illustration des critiques adressées à la méthode élémentaire d’enrichissement. Tout d’abord, pour une seule dépendance reliant favoriser et décadence, on obtient six dépendances différentes supplémentaires 10, soit une par synonyme d’un argument. Ensuite, aucune des dépendances ainsi générées ne permet de relier deux unités lexicales apportées par l’enrichissement synonymique, ce qui laisse dans le cas présent neuf dépendances possibles inexploitées. Le volume informationnel est donc important, mais l’information est toutefois insuffisante par rapport à ce qu’elle pourrait être.

Il s’agit dès lors d’ajouter une information synonymique à l’intérieur de chaque dépendance impliquant le mot à enrichir sans la dupliquer à chaque fois, pour disposer non seulement de l’ensemble des synonymes d’un mot dans une même dépendance, mais aussi pour permettre toutes les compositions d’arguments au sein de la dépendance. Une disjonction entre le mot à enrichir et chacun de ses synonymes à l’intérieur de la dépendance permettrait de réaliser ces compositions à travers une seule dépendance. Toutefois, le formalisme de XIP se pose ici comme obstacle principal à cette réalisation. En effet, il n’autorise pas d’alternative dans l’expression des arguments d’une dépendance.

Cependant, il est possible d’emmagasiner une dépendance contenant des arguments disjonctifs comme s’il s’agissait d’une expression correspondant au formalisme XIP. Le système de stockage et d’indexation des réalités extraites de la base textuelle ou apportées par l’enrichissement permet en effet de présenter une structure à plat dans laquelle les différentes informations ne sont pas cataloguées les unes par rapport aux autres. Cette structure plate contient donc la dépendance, les mots qui en constituent les arguments et leurs enrichissements, mais rien ne détermine les rapports que ces différentes informations entretiennent les unes vis-à-vis des autres. En passant à un niveau inférieur – le niveau de la dépendance – il est possible de reconstituer l’ensemble des dépendances possibles seulement en cas de besoin lors de la phase de mise en correspondance de la question et des candidats réponse 11.


VARG[DIR]privilégiercorruption
favoriser avantager déclin
soutenir déchéancedécadence

Fig. 5.10: Structure plate contenant les données correspondant à la dépendance enrichie.


Dans l’exemple  5.10 page précédente, on peut voir que la structure plate permet de détecter la présence d’unités lexicales et de dépendances 12 dans un fragment de texte. Le fait de repérer les éléments recherchés dans la structure plate correspondant à une phrase déclenche une recherche au niveau de la dépendance. À ce niveau, c’est la dépendance disjonctive qui a été stockée (cf. figure  5.11 page §). Son aspect formel permet de reconstituer aisément dans un format conforme à l’analyse de XIP toutes les dépendances correspondant aux compositions d’arguments proposés par l’énoncé original et ses enrichissements.


         (  favoriser       d´ecadence   )
         |                              |
         ||      OU              OU      ||
         || privil ´egier     corruption  ||
VARG[DIR]||      OU       ,      OU      ||
         ||  avantager         d´eclin    ||
         |(      OU              OU      |)
             soutenir       d´ech ´eance

Fig. 5.11: Présentation disjonctive d’une dépendance enrichie.


Avec cette présentation de l’enrichissement par synonymie, nous gardons un accès total à l’information que nous ajoutons à l’analyse textuelle simple sans augmenter démesurément l’espace nécessaire à son stockage. Toutefois, une telle procédure ne peut fonctionner pour les enrichissements effectués au travers d’une expression synonymique constituée de plusieurs unités lexicales.

5.4.2 Enrichissement par expressions synonymiques

Le problème qui se pose lors d’un enrichissement avec expressions synonymiques vient du fait qu’elles sont composées de plusieurs unités lexicales et que de ce fait leur analyse syntaxique est complexe. Dans une tentative où la méthode d’enrichissement par ces expressions reste la même que celle qui exploite les synonymes simples, on obtient une ou plusieurs dépendances dont un des arguments au moins est une expression à mots multiples. Cependant, l’analyse syntaxique d’une phrase contenant la même expression dans son énoncé n’aboutit pas à une dépendance contenant la même expression, car celle-ci est analysée comme une suite d’unités lexicales et analysée comme telle. L’enrichissement d’un énoncé à travers une expression synonymique ne doit donc pas être réalisé selon la procédure utilisée pour les synonymes simples sous peine de n’être pas exploitable.


Énoncé à enrichir :
« Il commandait les légions de Germanie. »

expression synonymique de commander au sens n˚ 3, « gérer quelqu’un » :
exercer son autorité sur

Dépendances impliquant commander :
SUBJ(commandait,Il)
VAR[DIR](commandait,légions)

Dépendances issues d’un enrichissement élémentaire :
SUBJ(exercer son autoritésur,Il)
VARG[DIR](exercer son autorité sur,légions)
Analyse syntaxique de l’expression exercer son autorité sur dans un énoncé :
SUBJ(exerce,X)
VARG[DIR](exerce,autorité)
VARG[INDIR](exerce,sur,Y)

Fig. 5.12: Problèmes liés à un enrichissement élémentaire par expression synonymique.


L’exemple  5.12 page précédente montre un énoncé où le lexème commander est désambiguïsé sous son troisième sens, ce qui permet un enrichissement par l’expression synonymique exercer son autorité sur. Toutefois, le remplacement élémentaire de commander, dans toutes les dépendances où il apparaît, par exercer son autorité sur ne permet pas d’obtenir des dépendances compatibles avec celles qui résultent d’une phrase où apparaîtrait la même expression 13. Cette méthode est donc inopérante pour les expressions synonymiques de même que la méthode de construction de dépendances disjonctives.

Pour adapter l’information d’enrichissement apportée par une expression synonymique à mots multiples à un schéma compatible avec la structure dans laquelle nous emmagasinons toutes les réalités extraites de la base documentaire ou générées à partir d’elle, il s’agit de fournir une analyse linguistique de l’expression synonymique et des rapports que les unités lexicales qui la composent ont avec le reste de la phrase lorsqu’elle remplace dans le texte l’unité lexicale dont elle est synonyme. La méthode que nous appliquons consiste simplement à reconstruire la phrase concernée en remplaçant le mot à enrichir par son expression synonymique, puis à analyser la phrase ainsi générée selon les mêmes modalités que l’énoncé original.

Ainsi, après qu’une phrase présentée à notre système a été analysée par NTM-XIP et désambiguïsée, commence pour elle la phase d’enrichissement initiée par les processus liés à la synonymie. Les enrichissements liés aux synonymes simples sont effectués sur l’ensemble de la phrase en parallèle dans une étape précédant l’adjonction d’expressions synonymiques. Ensuite, chaque expression synonymique disponible donne lieu à la génération d’une nouvelle phrase. Pour réaliser cette génération, l’unité lexicale originale est remplacée successivement par chacune de ses expressions synonymiques. Chaque nouvelle phrase est ensuite analysée, désambiguïsée et enrichie – excepté les unités lexicales appartenant à l’expression synonymique qui enrichit la phrase originale. Ensuite, les dépendances syntaxiques issues de la nouvelle analyse et redondante par rapport aux résultats de l’analyse et de l’enrichissement de la phrase originelle sont éliminées tandis que les autres sont conservées comme enrichissement de la structure syntaxico-sémantique de la base documentaire.

Il est fréquent que dans un même énoncé, plusieurs unités lexicales possèdent un lien de synonymie avec une expression complexe. Lorsque c’est le cas, autant de nouvelles phrases sont générées qu’il y a de combinaisons possibles des lexèmes originaux et des expressions synonymiques qui les enrichissent entre les unités lexicales à enrichir.


Énoncé à enrichir :
« Il commandait les légions de Germanie. »

Synonymes pour commander (sens n˚ 3, « gérer quelqu’un ») et légion (sens n˚ 1, « armée romaine ») :

contrôler

troupe
exercer son autorité sur

armée

unité militaire


Dépendances syntaxiques extraites par NTM-XIP :
SUBJ(commande,il)
VARG[DIR](commande,légions)
NMOD[INDIR](légions,de,Germanie)

Enrichissement par synonymes simples :
SUBJ(                   )
  commande
|(     OU       ,  Il|)
   contr ˆoler
VARG[DIR](                         )
|                 troupe  |
||  commande         OU    ||
||      OU       ,  arm ´ee ||
(   contrˆoler       OU    )
                   l´egion
NMOD[INDIR](  troupe                        )
|                               |
||   OU                          ||
||  arm ´ee  ,  de  ,  Germanie   ||
(   OU                          )
   l´egion
Fig. 5.13: Enrichissement simple d’un énoncé présentant des possibilités d’enrichissement par expressions synonymiques.



Enrichissement de commander par expression synonymique :
Nouvel énoncé :
« Il exercer son autorité sur les légions de Germanie. »
Dépendances enrichies :
SUBJ(exerce,Il) VARG[DIR](exerce,autorité) NMOD[INDIR](                             )
|                     troupe  |
||                       OU    ||
||  exercer  ,  sur   , arm  ´ee ||
(                       OU    )
                       l´egion
NMOD[INDIR]( troupe                     )
|                            |
||   OU                       ||
||  arm´ee   , de  ,  Germanie ||
(   OU                       )
  l´egion
Enrichissement de légion par expression synonymique :
Nouvel énoncé :
« Il commande les unité militaire de Germanie. »
Dépendances enrichies :
SUBJ(                   )
   commande
|(     OU      ,  Il |)
   contr^oler VARG[DIR](                        )
|  commande              |
(      OU       , unit ´e )
    contrˆoler NMOD[ADJ](unité,militaire) NMOD[INDIR](unité,de,Germanie)

Fig. 5.14: Enrichissement par une expression synonymique dans un nouvel énoncé.



Enrichissement de commander et légion par expression synonymique :
Nouvel énoncé : « Il exercer son autorité sur les unité militaire de Germanie. »
Dépendances enrichies :
SUBJ(exercer,il)
VARG[DIR](exercer,autorité)
VARG[INDIR](exercer,sur,unité)
NMOD[ADJ](unité,militaire)
NMOD[INDIR](unité,de,Germanie)

Fig. 5.15: Combinaison des enrichissements par expressions synonymiques dans un seul énoncé.


L’exemple présenté dans les figures  5.13 page §,  5.14 page § et  5.15 page précédente montre la complexité qu’il y a à enrichir un texte à l’aide d’expressions synonymiques. Dans un premier temps (figure  5.13 page §), l’enrichissement par synonymes simples est effectué selon la méthode que nous avons expliquée plus haut, et les dépendances qui en résultent sont stockées provisoirement dans une liste.

Ensuite (figure  5.14 page §), toutes les unités lexicales dont l’enrichissement réclame l’exploitation d’une expression synonymique sont successivement remplacées par cette expression synonymique pour former à chaque fois un nouvel énoncé. Cet énoncé est à son tour analysé et enrichi de la même manière que la phrase originale, excepté les unités lexicales qui font partie de l’expression synonymique. Les dépendances obtenues à la fin de l’enrichissement sont comparées à celles de la liste provisoire des dépendances obtenues pour la phrase originale ainsi que pour les énoncés construits à partir de cette phrase. Les dépendances originales 14 sont conservées tandis que les autres sont éliminées.

Enfin, toutes les combinaisons d’enrichissements par expressions synonymiques sont tentées pour construire une nouvelle phrase à partir de l’énoncé original (figure  5.15 page précédente). Pour chaque combinaison différente, un nouvel énoncé est construit, analysé et enrichi, et les nouvelles dépendances sont emmagasinées tandis que les doublons sont rejetés. Lorsque toutes les combinaisons ont été testées, la liste provisoire contient l’ensemble de l’information d’enrichissement synonymique de l’énoncé. Elle est alors intégrée à la structure syntaxico-sémantique de la base textuelle tandis que le processus passe à un type d’enrichissement ultérieur.

Cependant, nous n’avons pas abordé le problème de l’analyse textuelle des nouveaux énoncés. En effet, ils sont créés non pas avec une forme fléchie mais avec la forme canonique de l’expression synonymique proposée pour l’enrichissement telle qu’elle apparaît dans le dictionnaire. Pour que l’analyse morpho-syntaxique des nouveaux énoncés ne pose pas de problème, nous soumettons chaque expression synonymique à une analyse morphologique afin de déterminer dans l’expression la première unité lexicale de même catégorie grammaticale que le lexème à enrichir. Nous pouvons dès lors transmettre les traits morphologiques du lexème à enrichir à ce que nous considérons comme la tête de l’expression synonymique, ce qui permet de contourner les problèmes d’analyse syntaxique liés à une analyse morphologique erronée ou à une mauvaise désambiguïsation catégorielle.

De cette manière, dans l’exemple précédent (figure 5.15 page §), exercer est considéré comme un verbe à l’indicatif présent, troisième personne du singulier dès avant son analyse morphologique, ce qui permet de lui donner une dépendance de type sujet qui n’apparaîtrait pas si le même énoncé était analysé avec la forme infinitive décelée par l’analyse morphologique. Après avoir résolu les différents problèmes rencontrés au cours des tests, nous sommes maintenant en mesure d’effectuer correctement un enrichissement à l’aide des synonymes. D’autres enrichissements peuvent dès lors être envisagés.