5.3 Une nouvelle implémentation de la désambiguïsation sémantique

L’analyse morpho-syntaxique nous a donc permis d’identifier précisément les unités lexicales présentes dans le document, ainsi que les relations syntaxiques qui les relient. Toutefois, cette identification ponctuelle n’est pas apte à résoudre notre problème. Il s’agit à présent de dépasser ses limites par la détermination du sens des lexèmes dans leur contexte afin d’approcher la sémantique des documents et des unités qui les composent. C’est sur cette opération que repose la procédure d’enrichissement destinée à favoriser la mise en correspondance de la réponse avec sa requête. La méthode de désambiguïsation sémantique de XRCE, que nous avons décrite dans la section  2.3 page § [Dini et al., 1998Segond et al., 1998], est appelée à remplir cette tâche d’identification de la signification des mots polysémiques en même temps qu’elle identifie des informations liées au sens des unités lexicales qui permettront d’effectuer un enrichissement du texte adapté à sa signification.

En effet, si nous avons choisi cette méthode de désambiguïsation sémantique pour identifier les concepts présents dans le texte, le système dans lequel cette méthodologie a été implanté n’est pas propre à une utilisation au sein de cette application. De fait, la plate-forme linguistique XeLDA ne dispose pas des analyseurs NTM et XIP que nous avons sélectionnés pour effectuer l’analyse morpho-syntaxique, ni des ressources lexicales qui nous seront utiles, à savoir Dubois, Memodata, Bailly et EuroWordNet, d’autant plus que nous avons amélioré ces ressources. De plus, la possibilité d’ajouter librement des règles à la grammaire de XIP va nous permettre de laisser la plus grande part de l’application des règles de désambiguïsation sémantique à l’analyseur syntaxique lui-même plutôt que de redéfinir toute une architecture d’application de ces règles sur le résultat fourni par l’analyse syntaxique. Du fait des besoins de notre méthodologie, les modifications à apporter au précédent système étaient si nombreuses et si profondes qu’une nouvelle implémentation s’est imposée, qui intègre de nouvelles fonctionnalités.

La méthodologie sur laquelle nous avons résolu de nous baser comporte deux étapes. Tout d’abord l’extraction de l’information lexicale permettant de définir les contextes d’une acception afin d’en déduire les règles de sélection de sens. Ensuite l’application de ces règles de sélection pour déterminer le sens des lexèmes polysémiques en fonction de leur contexte d’apparition. Ces deux étapes sont maintenues dans la nouvelle implantation que nous avons réalisée de la méthode de XRCE, mais certaines différences méritent d’être signalées.

5.3.1 Génération des règles de désambiguïsation

Le système de désambiguïsation sémantique de XRCE proposait un type de règles conditionnelles dont la condition s’appuyait sur le contexte du mot à désambiguïser 3. Le succès de cette condition lors de l’application de la règle permettait de proposer un numéro de sens à ce mot et le système se chargeait d’afficher le fragment de l’article du dictionnaire correspondant à ce sens. Nous avons maintenu ce principe de règle conditionnelle sans toutefois prévoir un affichage du sens correspondant. Nous verrons la raison de cette différence dans le paragraphe chargé de décrire l’application des règles de désambiguïsation sémantique.

La méthodologie originale fonde la partie conditionnelle de chaque règle sur l’information que le dictionnaire contient sur le contexte de chaque mot dans chacune de ses acceptions possibles. Dans notre système, l’énonciation conditionnelle du contexte linguistique de la cible dans chacun de ses sens est également fonction de l’information contextuelle disponible dans le dictionnaire qui sert de référence lexico-sémantique à cette tâche. Dans le cas du dictionnaire Dubois, le contexte linguistique de chaque lemme dans chacune de ses acceptions peut être exprimé de trois manières.

Les règles lexicales

La première des informations qui permettent d’identifier le contexte d’une expression à désambiguïser est lexico-sémantique. Elle correspond aux règles d’exemples du précédent système et consiste à établir une règle de désambiguïsation sémantique à partir de l’analyse syntaxique des exemples fournis par le dictionnaire. Chacune des dépendances extraites de l’exemple par l’analyse de NTM-XIP, et qui implique la cible, dénote en effet un contexte linguistique propre à ce mot dans le sens considéré. Chacune des dépendances extraites dont un des arguments est la cible est dès lors susceptible de constituer la condition contextuelle d’une règle de désambiguïsation permettant de discriminer le sens considéré de ce mot.

Cependant, nous avons signalé lors de la description du dictionnaire Dubois (cf. section  3.2 page §) que la présentation du champ informationnel de l’exemple se prêtait peu à un traitement automatique du fait de l’abréviation (l’initiale suivie d’un tilde représente une forme du lemme) de l’entrée dans son énoncé. Ainsi, l’exemple de la neuvième acception du verbe admettre 4 se présente sous la forme :

Ce texte a~ une seule interprétation. 5

Étant donné qu’une forme comme a~ ne peut être identifiée correctement, l’analyse de cet énoncé sera généralement erronée. La figure  5.1 page § montre que cet exemple ne peut être analysé tel quel : la forme a~ y est considérée comme un nom apposé au lexème texte (NN), et les seules autres dépendances construites relient soit seule à interprétation comme épithète (NMOD[ADJ]), soit les déterminants Ce et une au nom qu’ils déterminent (DETERM), respectivement texte et interprétation. Cette analyse est bien entendu incorrecte. Il s’agit donc de signaler à l’analyseur que la forme abrégée présente dans chaque exemple est un lexème qui appartient à la catégorie lexicale de l’entrée dans laquelle apparaît l’exemple. XIP dispose ainsi des éléments nécessaires pour effectuer au mieux son analyse.


$> echo "Ce texte a~ une seule interprétation." | xip

NMOD[ADJ](interprétation,seule)
NN(texte,a~)
DETERM(Ce,texte)
DETERM(une,interprétation)

0>GROUPE{NP{Ce texte} NP{a~} NP{une AP{seule} interprétation} .}
Fig. 5.1: Analyse problématique d’un exemple contenant une forme abrégée.


Une particularité de XIP est de permettre la création de règles lexicales capables de donner à un mot ou à une chaîne de caractère des traits quelconques, y compris une catégorie grammaticale. Lors de l’analyse du dictionnaire, nous sommes donc en mesure de générer pour chaque entrée une règle lexicale dans le formalisme XIP qui impose à toute unité lexicale se présentant sous la forme de l’initiale de la vedette suivie d’un tilde (ici : a~) un trait lui conférant la catégorie grammaticale de cette même entrée. Par la suite, la forme abrégée est interchangée avec le lemme du mot-vedette lors de la construction de la règle de désambiguïsation. La figure 5.2 page § présente un exemple de règle lexicale imposant la catégorie verbale à toute chaîne de caractères a~, puis le résultat de l’analyse de l’énoncé provenant du champ d’exemple du Dubois, qui présente correctement texte comme sujet de a~, ainsi que interprétation comme complément d’objet direct de a~.


Règle lexicale :
a~ = Verb

$> echo "Ce texte a~ une seule interprétation." | xip

SUBJ(a~,texte)
VARG[DIR](a~,interprétation)
NMOD[ADJ](interprétation,seule)
DETERM(Ce,texte)
DETERM(une,interprétation)

0>GROUPE{SC{NP{Ce texte} FV{a~}} NP{une AP{seule} interprétation} .}

Fig. 5.2: Analyse correcte d’un exemple par résolution de la forme abrégée.


Toutefois, certaines relations extraites d’un exemple ne doivent pas être considérées comme pertinentes pour la création de règles pour la sélection du sens des mots en contexte. En effet, dès lors que ces dépendances sont purement fonctionnelles 6, ou qu’elles font intervenir des mots grammaticaux, leur caractère devient trop général et trop commun pour réaliser une distinction pertinente entre les différentes acceptions d’un même lexème. Ces dépendances sont donc éliminées avant la construction des règles de désambiguïsation sémantique, exclusivement axées sur un lexique et des relations significatives.

Pour illustrer le mode de construction des règles lexicales, nous reprenons l’exemple extrait du neuvième sens du verbe admettre dans le dictionnaire Dubois (figures  5.1 page § et 5.2 page précédente). Cet exemple est présenté à la chaîne d’analyse NTM-XIP après que la règle lexicale correspondant à sa forme abrégée a été ajoutée dans la grammaire de XIP. Parmi les dépendances extraites, seules sont conservées celles qui impliquent le mot-vedette 7, à condition que ce ne soient pas des relations fonctionnelles. À partir de ces dépendances, la condition de la règle de désambiguïsation est construite dans le formalisme de XIP, #0 correspondant au lemme du mot-vedette tandis que les autres arguments des dépendances sont représentés par les autres variables en #.


$> echo "Ce texte a ~ une seule interprétation." | xip

SUBJ(a ~,texte) VARG[DIR](a ~,interprétation) NMOD[ADJ](interprétation,seule) DETERM(Ce,texte) DETERM(une,interprétation)

Fig. 5.3: Construction d’une règle lexicale de désambiguïsation.


Règles de sous-catégorisation

L’information syntaxico-sémantique est la deuxième à être exploitée pour déterminer le contexte typique d’un mot dans un sens donné. Il s’agit des données de sous-catégorisation fournies par le dictionnaire Dubois, qui précisent le ou les schémas syntaxiques propres à l’unité lexicale dans chacun de ses sens et fournissent le cas échéant un trait sémantique tenant à la nature de l’argument des dépendances (humain, animal, inanimé), sans que l’unité lexicale qui correspond à cet argument soit précisée.

Lors de l’examen des différents champs informationnels du dictionnaire, nous avons toutefois signalé certaines carences et certaines imprécisions dans le champ informationnel de sous-catégorisation. Principalement, nous n’avons pas pu résoudre le problème lié à la catégorisation prépositionnelle des compléments circonstanciels, et de ce fait, nous ne pouvons exploiter les directives qui portent sur la nature de la préposition introduisant ces groupes pour décider du sens à donner à un mot dans son contexte. Pour éviter des erreurs par trop évidentes, nous n’utilisons donc pas cette information prépositionnelle des circonstants dont nous ne pouvons être sûr dans une marge acceptable.

Comme nous le disions précédemment, les informations de sous-catégorisation dont la qualité est suffisamment satisfaisante pour que nous l’exploitions se présentent sous la forme de schémas syntaxico-sémantiques, c’est-à-dire que certaines relations syntaxiques qui impliquent le lemme de l’entrée sont obligatoires, possibles ou interdites selon les cas, et que des contraintes sémantiques peuvent peser sur les arguments de ces dépendances lorsqu’elles ne sont pas interdites.

Ainsi, des schémas syntaxiques de sous-catégorisation existent traditionnellement dans les ressources lexicales, avec les notions de pronominalité, de transitivité ou d’intransitivité d’un verbe, dénotant respectivement l’obligation d’une relation syntaxique entre le verbe et un pronom personnel réfléchi, la possibilité d’une relation sémantique – directe ou indirecte selon les cas – entre le verbe et son objet ou l’interdiction d’une relation directe entre le verbe et un objet. Outre ces informations syntaxiques fréquemment présentes dans les dictionnaires, d’autres schémas relationnels sont prescrits dans le Dubois. De plus, des contraintes sémantiques pèsent souvent sur les arguments unis par les relations syntaxiques à l’unité lexicale correspondant au lemme de l’entrée. Ces arguments doivent selon les cas présenter un trait humain, animal ou inanimé.

Pour former des règles de désambiguïsation sémantique, ces schémas de sous-catégorisation doivent être traduits en conditions d’application dans le formalisme de XIP. Ici encore, les fonctionnalités de cet outil d’analyse permettent de construire aisément ces règles. En effet, les dépendances syntaxiques de la grammaire du français peuvent facilement être mises en correspondance avec les relations syntaxiques prescrites par la ressource lexicale, et les contraintes sémantiques sur les arguments des relations peuvent être intégrées sous forme de traits obligatoires.

On se souviendra que les traits sémantiques qui correspondent aux contraintes sémantiques des schémas de sous-catégorisation ont été intégrés au lexique lors de la phase d’élargissement de l’information du lexique utilisé par NTM pour effectuer le découpage du texte et son analyse morphologique (cf. section  4.3.1 page §). De cette manière, ces traits sont automatiquement liés au vocabulaire utilisé dans les document lors de l’analyse linguistique de bas niveau. Ils sont donc accessibles dès l’application de la grammaire syntaxique et, à plus forte raison, lors de l’application des règles de désambiguïsation sémantique.





Entrée Sens Schéma



falloir 01besoin, convenance T3500
falloir 02nécessité N4a A40
falloir 03éloignement, manqueP4000



Construction des règles correspondant à chacun des schémas :
T3500 –>

verbe transitif, sujet (inanimé), complément direct

falloir : Verb =

if SUBJ(#0,#1[inanimé :+])

& VARG[DIR :+](#0, #2)

& #0[GRA=+,X2a=+] & #0[n1=+]

N4a –>

verbe transitif indirect, sujet (inanimé/complétive), complément indirect en à

falloir : Verb =

if ( SUBJ(#0,#1[inanimé :+])

|| COMPLETIVE(#0,#2)

|| INFINITIVE(#0,#3) )

& ~VARG[DIR :+](#0, #4)

& VARG[INDIR :+](#0, #5[lemme=à], #6)

& #0[GRA=+,X1a=+] & #0[n2=+]

A40 –>

verbe intransitif, sujet (inanimé/complétive)

falloir : Verb =

if ( SUBJ(#0,#1[inanimé :+])

|| COMPLETIVE(#0,#2) )

& ~VARG[DIR :+](#0, #3)

& #0[GRA=+,X1a=+] & #0[n2=+]

P4000 –>

verbe pronominal, sujet (inanimé/complétive)

falloir : Verb =

if SUBJ[PRON](#0,#1[inanimé :+])

& #0[QUA=+,X2a=+])&(#0[n3=+])

Fig. 5.4: Exemple d’extraction de règle de sous-catégorisation.


L’exemple  5.4 page précédente permet d’illustrer la technique de construction des règles de désambiguïsation sémantique à partir d’une information de sous-catégorisation. Le schéma syntaxique fourni par le dictionnaire Dubois impose à chaque sens de falloir une construction grammaticale différente. Chacun des sens possède en effet un schéma syntaxique propre et contraint la catégorie sémantiques des arguments de certaines relations syntaxiques impliquant le mot-vedette. La mutation des différentes relations syntaxiques des schémas proposés en dépendances XIP et l’adaptation des contraintes sémantiques sur les arguments de ces relations en traits placés sur les arguments des dépendances permet de poser une ou plusieurs conditions au choix d’un sens, d’un domaine et pour les verbes d’une classe sémantique. La condition de chaque règle peut donc porter sur la nature d’une ou plusieurs dépendances et sur un trait sémantique attaché à un argument de dépendance autre que le mot-vedette. Dans les cas de transitivité indirecte ou d’intransitivité, il est possible de refuser l’application de la règle si une relation d’objet direct apparaît, traduite sous la forme VARG[DIR]. Une restriction peut également apparaître sur le lexique, comme on peut le voir dans la définition de la préposition à qui introduit le complément indirect.

Les règles de domaine

Le troisième des différents types de règles de désambiguïsation sémantique correspond aux règles que le système de XRCE appelait « règles sémantiques » (cf. section 2.3.3 page §). De même que dans cette approche que nous avons choisie comme point de départ pour la gestion du sens dans notre méthodologie, nous constatons que les règles d’exemples sont très contraintes en même temps qu’elles sont extrêmement limitées dans leurs possibilités de s’appliquer, à moins que la cible se présente dans un contexte identique tant au niveau syntaxique que lexical. Il s’agit dès lors d’élargir les possibilités de couverture de ces règles.

À la suite des cognitivistes de l’intelligence artificielle [Masterman, 1961Quillian, 1968] et des spécialistes intéressés par le traitement de l’information [Voorhees, 1993], le précédent système de désambiguïsation s’est basé sur le principe de l’interchangeabilité relative d’unités lexicales appartenant à la même catégorie lexico-sémantique. Ces catégories correspondaient tantôt aux classes sémantiques du WordNet anglais, tantôt à la hiérarchie de AlethDic pour le français. L’utilisation de catégories à la place de lexèmes permettait de généraliser chaque règle de désambiguïsation lexicale.

Tout en conservant cette approche généralisatrice, nous avons fait le choix dans la présente application de privilégier l’exploitation du domaine plutôt que celle de la classe sémantique, partant de la constatation très tôt faite en traduction automatique que le choix d’un domaine précis restreint l’ambiguïté des mots, et donc facilite la désambiguïsation [Weaver, 1949Gale et al., 1992]. C’est donc une catégorie lexicale dépendante du domaine qui sert ici à élargir le champ d’application des règles d’exemple. Nous n’avons pas l’intention toutefois d’abandonner l’élargissement par classe de mots, mais le dictionnaire Dubois ne possède pas de taxinomie et l’intégration de celle de EuroWordNet dans le programme de génération des règles demandait un travail conséquent que nous n’avons pu mener à bien dans des délais raisonnables. Toutefois, les résultats apportés par ce type de règles sont d’un niveau plus élevé que ceux des règles sémantiques du précédent système de désambiguïsation [Jacquemin et al., 2002].

Nous construisons les règles de domaine directement à partir des règles de désambiguïsation lexicales. Ces règles, tirées de l’analyse syntaxique des exemples du Dubois, présentent en effet des contraintes sur les unités lexicales contenues dans les exemples et sur les relations syntaxiques qu’elles entretiennent entre elles. La génération des règles de domaine, plus générales, consiste à modifier les contraintes pour qu’elles portent non plus sur les unités lexicales, mais sur les domaines d’application que ces unités possèdent dans le dictionnaire Dubois.

Ainsi, dans la règle lexicale de notre exemple (cf. figure  5.3 page §), les contraintes d’application portent sur deux unités lexicales : texte et interprétation. Or ces lexèmes possèdent respectivement les domaines LIT (pour littérature) et LOQ (pour parole), SPE (pour spectacle), PSY (pour psychologie) dans le dictionnaire Dubois. D’autre part, les domaines d’application sont des traits sémantiques affectés à toute unité lexicale dès lors qu’une analyse de NTM est mise en œuvre. Les contraintes sur les lexèmes sont donc remplacées, dans les règles de domaine, par des contraintes sur les traits de domaine assignés aux lexèmes.


$> echo "Ce texte a~ une seule interprétation." | xip

Règle lexicale de désambiguïsation :
admettre : Verb =

if(SUBJ(#0,#1[lemme : texte]))

&VARG[DIR](#0,#2[lemme : interprétation])

&(#0[LIT=+,S4h=+]&(#0[n9=+]))


Domaines correspondant aux unités lexicales :
texte : LIT
Interprétation : LOQ
SPE
PSY


Règle de domaine :
admettre : Verb =

if(SUBJ(#0,#1[LIT :+]))

&VARG[DIR](#0,#2[LOQ :+ || SPE :+ || PSY :+])

&(#0[LIT=+,S4h=+]&(#0[n9=+]))

Fig. 5.5: Construction d’une règle de domaine pour la désambiguïsation sémantique.


La figure  5.5 page précédente illustre la méthode de construction des règles de domaine. Les domaines d’application des lemmes qui apparaissent dans la condition de chaque règle lexicale sont extraits du Dubois. Ensuite, les contraintes sur les unités lexicales sont remplacées par des contraintes sur les traits de domaine. Aucune condition n’apparaît plus sur la nature des unités lexicales. On peut constater que lorsqu’un des lexèmes de la règle lexicale possède plusieurs domaines, chacun de ces domaines est susceptible de permettre l’application de la règle.

Les règles non verbales

Ces trois types de règles sont ceux que nous avons pu réaliser à partir de l’information contenue seulement dans la partie verbale du dictionnaire Dubois. La partie généraliste de ce dictionnaire ne comporte en effet ni exemple, ni indication de sous-catégorisation. Il nous a donc fallu recourir à d’autres données pour pouvoir effectuer la désambiguïsation sémantique des lexèmes des catégorie grammaticale autres que verbales.

Les catégorie grammaticale qui nécessitent surtout une désambiguïsation du sens, à part les verbes, sont les noms et les adjectifs. Or le dictionnaire Dubois ne fournit, pour ces entrées, que peu d’information qui permette de distinguer leurs différentes acceptions. Il s’agit de la catégorie grammaticale elle-même, qui permet d’inhiber certaines propositions [Kelly et Stone, 1975], ainsi que des traits sémantiques (domaines d’application, catégories sémantiques pour les noms). Ces données sont donc seules en mesures de permettre une discrimination des sens des lexèmes nominaux et adjectivaux.

Dès lors, c’est sur base des catégorie grammaticale, des domaines d’application et des catégories sémantiques que les contraintes s’établissent pour la génération des règles de désambiguïsation sémantique des noms et des adjectifs. L’exploitation de la catégorie grammaticale ne pose aucun problème dès lors qu’une analyse morpho-syntaxique décide de la catégorie grammaticale de chaque unité lexicale présente dans un énoncé. Par contre, l’utilisation de contraintes sur les traits sémantiques n’est envisageable que dans la mesure où certains des traits sont activés et d’autres inhibés.

Les règles verbales de désambiguïsation sémantique font appel tantôt aux catégories sémantiques du contexte de la cible, lorsque ce sont des règles de sous-catégorisation, tantôt aux domaines d’application, lorsque le système fait appel à des règles de domaine. Il s’agit dès lors de donner un indice aux traits sémantiques utilisés par les règles verbales pour indiquer que ces traits ont été activés par la désambiguïsation sémantique. Les traits ainsi activés sur certaines unités lexicales dans le texte permettent de discriminer leurs acceptions.

Dans le corpus que nous avons constitué pour effectuer notre évaluation (cf.  7.2.3 page §), près de 40 % des substantifs ont une dépendance syntaxique en commun avec un verbe. De plus, plus de 45 % des noms qui n’ont pas de relation avec un verbe ont une dépendance commune avec un des noms reliés à un verbe. Par ailleurs, plus de 90 % des adjectifs sont soit épithète, soit attribut d’un nom. La plupart des autres adjectifs qualifient un pronom.

Les règles de désambiguïsation sémantiques pour les adjectifs et les noms consistent donc dans un premier temps à utiliser les indices laissés par la désambiguïsation sémantique des verbes sur les traits de leur contexte syntaxique. Ensuite, les traits activés se propagent aux autres noms et adjectifs à travers les relations syntaxiques qu’ils entretiennent avec les premières unités lexicales désambiguïsées. Nous verrons à la section suivante, consacrée à l’application des règles de désambiguïsation sémantique, de quelle manière ces règles s’agencent et fonctionnent.


générique 01

LIN

qui indique le type

adjectif/nom masculin inanimé

générique 02

CIN

indications initiales

nom masculin inanimé

générique 03

PHA

produit dans le domaine public

adjectif

Règle nominale :
générique : Noun =

if ( ?(#1[verb :+],#0[CIN :+,inanime :+,desamb :+])

|| (~ ?(#1[verb :+],#0)

& ( ?(#2[CIN :+,inanime :+,desamb :+],#0)

|| ?(#0,#3[CIN :+,inanime :+,desamb :+]))))


Fig. 5.6: Construction d’une règle nominale de désambiguïsation sémantique.


La figure  5.6 page précédente illustre la construction d’une règle de désambiguïsation sémantique pour la seconde entrée de générique. Deux de ses acceptions sont nominales, et deux peuvent être adjectivales. La désambiguïsation catégorielle ne suffit donc pas à établir le sens correct. La règle de désambiguïsation se borne donc à vérifier la présence de traits sémantiques communs (CIN pour cinéma, et inanimé) sur la cible elle-même si elle a une dépendance syntaxique commune avec un verbe, quelle qu’elle soit (le  ? indique que la dépendance n’est pas déterminée), ou sur un nom ou un adjectif avec lequel la cible entretient une relation syntaxique, si cette cible n’a pas de relation avec un verbe. Dans tous les cas, le trait desamb :+ est chargé de vérifier que l’unité qui sert à effectuer la désambiguïsation a elle-même été désambiguïsée.

Enfin, nous avons dû créer certaines « règles » d’assignation de sens pour les unités lexicales qui ne présentent pas d’ambiguïté sémantique. En effet, seuls les lexèmes qui comportent un numéro de sens pourront recevoir un enrichissement. Par ailleurs, ces unités lexicale n’étant pas ambiguës, elles peuvent être considérées comme désambiguïsées et servir dès lors de base à la désambiguïsation sémantique d’autres unités lexicales. La section suivante indique comment cette désambiguïsation peut s’effectuer.

5.3.2 L’application des règles de désambiguïsation sémantique

L’ensemble des règles dont nous avons décrit les différents modes de construction exploitent une information extraite du dictionnaire Dubois. Chaque règle concourt au choix d’un sens unique du lexème pour lequel elle a été élaborée, qui correspond au contexte dans lequel ce lexème apparaît. Cependant, la désambiguïsation sémantique n’est qu’une étape dans une approche plus large et l’application des règles peut dès lors varier en fonction des besoins de cette approche.

En effet, la phase de désambiguïsation sémantique s’inscrit ici dans un processus qui vise à construire une structure informationnelle qui correspond au contenu d’une base textuelle définie. Pour favoriser la manipulation des données contenues dans la base textuelle, cette structure doit être enrichie autant qu’il est possible de manière à présenter la plus grande variation de présentations sans que l’information qu’elle renferme ne soit modifiée. Tout enrichissement d’un énoncé étant susceptible de transformer le sens de cet énoncé, il s’agit en tout cas d’aboutir au meilleur compromis entre enrichissement maximal et sens inaltéré.

Dans notre méthodologie, toute la phase d’enrichissement est soumise à l’application de la désambiguïsation sémantique. Notre approche vise en effet une soumission de chaque information ajoutée au sens que possèdent les mots dans la phrase.

Cependant, la richesse de la structure sémantique est primordiale pour la gestion de l’information qu’elle contient. En effet, cette richesse seule permet d’atteindre une information souhaitée, quelle que soit la formulation de la requête. Par contre, la combinaison de plusieurs données dans une même requête constitue un filtre pour les informations enrichies fautivement dans la mesure où plusieurs de ces informations erronées correspondant à la requête n’apparaissent pas dans la même fenêtre de réponse.

Avec une précision de 74 % [Jacquemin et al., 2002], les résultats de cette désambiguïsation sémantique améliorent le potentiel de la méthode, mais ils ne sont pas suffisants car dans 26 % des cas, la désambiguïsation sémantique est fausse et provoque la perte de qualité de tous les enrichissements qui en découlent. Dès lors, notre position est de sélectionner parmi les sens proposés celui ou ceux qui sont les plus vraisemblables en fonction du contexte, au risque de sélectionner, à côté du sens exact, une ou plusieurs interprétations fausses, plutôt que de choisir un seul sens et de perdre le bon dans plus du quart des cas.

Les règles de désambiguïsation sémantique correspondent à un formalisme propre à XIP. Comme elles demandent une analyse morpho-syntaxique pour s’appliquer, c’est au cours du fonctionnement de XIP que la désambiguïsation sémantique est mise en œuvre, dès que l’analyse syntaxique est terminée.

Avant toute désambiguïsation réelle, ce sont les règles liées aux lexèmes monosémiques qui doivent s’appliquer. Elles assignent un numéro de sens 1 à tous les mots qui ne présentent pas d’ambiguïté sémantique, et leur assignent un trait dénotant que la désambiguïsation a été effectuée pour eux. Nous verrons lors de l’application des règles non verbales l’intérêt de ce trait.

Les règles verbales, qui sont les seules règles « polysémiques » à s’appliquer directement sur les résultats de l’extraction des dépendances, sont les premières présentées à l’analyseur. L’exploitation des règles portant sur les autres catégorie grammaticale se fait ultérieurement.

Comme pour la méthode initiale, l’application des règles de désambiguïsation sémantique est soumise au respect d’une condition syntaxique et lexicale ou sémantique. La satisfaction de cette condition déclenche l’assignation d’une acception à la cible sous la forme d’un trait correspondant à son numéro de sens dans le dictionnaire.

Cependant, nous nous éloignons ici de la méthodologie appliquée à XRCE sur différents points. Tout d’abord, l’application des règles de sous-catégorisation et de domaine passe par la correspondance sémantique du contexte de la cible avec les traits sémantiques du schéma syntaxico-sémantique qui forme la condition de ces règles. Or notre système active par un marquage les traits sémantiques qui ont été utilisés lors de l’application d’une règle de désambiguïsation, afin de pouvoir effectuer ultérieurement la désambiguïsation d’autres unités lexicales. Le système original ne tenait pas compte des unités lexicales désambiguïsées pour effectuer son travail.


Énoncé à désambiguïser :
Il fallait un peu d’inconscience à François Hinard et à ses collaborateurs pour s’y risquer.

Dépendances impliquant falloir produites par XIP :
SUBJ[IMPERSO](fallait,Il[humain,animal,inanimé])
VARG[INDIR](fallait,François Hinard)
VARG[DIR](fallait,peu)
egle de d R

falloir : Verb =

if SUBJ(#0,#1[inanim

& VARG[DIR :+](#0, #2)

& #0[GRA=+,X2a=+] & #0[n1=+]

Résultat de la désambiguïsation :
falloir[GRA :+,X2a :+n1 :+] : falloir01 besoin, convenance.

Fig. 5.7: Application d’une règle de désambiguïsation sémantique verbale (sous-catégorisation).


Ensuite, alors que l’application d’une règle de désambiguïsation faisait précédemment d’un sens de la cible un candidat privilégié pour devenir le sens unique de cette cible, chaque déclenchement d’une règle assigne maintenant directement le sens qui lui est propre à la cible, privilégiant en cela l’enrichissement et non la précision de la désambiguïsation sémantique.

Enfin, l’application des règles non verbales est postérieure à celle des règles verbales. En effet, ces règles non verbales dépendent de l’activation de traits sémantiques dont nous avons parlé précédemment. L’application des règles non verbales répond de fait à la satisfaction d’une condition syntaxico-sémantique dans laquelle les contraintes syntaxiques se résument à demander à une dépendance quelconque de mettre la cible en relation avec un lexème déjà désambiguïsé 8.

Si ce lexème est un verbe, les traits sémantiques correspondant à un sens au moins de la cible ont été activés et permettent d’assigner ce sens à la cible. Les liens syntaxiques qui unissent la cible et le verbe ont de plus été spécifiés par la règle verbale qui s’est appliquée et a activé certains traits sémantiques. Dans le cas où aucune dépendance ne relie la cible à un verbe désambiguïsé, la règle ne fonctionnera que dans la mesure où la cible est en relation syntaxique avec une unité lexicale désambiguïsée qui présente des traits communs avec un de ses sens. Le sens correspondant à ces traits sémantiques sera donc sélectionné. Dans ce dernier cas, aucune spécification particulière ne définit la dépendance syntaxique qui relie la cible et l’unité lexicale désambiguïsée.

Pour terminer, nous avons ajouté à l’application des règles une fonctionnalité en rapport direct avec le but poursuivi par notre démarche, à savoir un enrichissement maximal des documents analysés. Cette fonctionnalité n’est pas obligatoire. Après avoir constaté un rappel de 44 %, nous avons conclu que dans des cas trop nombreux, aucun enrichissement ne pourrait avoir lieu par défaut de sens choisi. Nous avons donc implanté la possibilité d’attribuer à toutes les unités lexicales non désambiguïsées l’ensemble des sens que le dictionnaire recense. Dès lors, les informations erronées ajoutées seront nombreuses pour ces unités lexicales, mais un enrichissement exact sera présent également.