4.3 Élargissement informationnel des ressources lexicales

Chacun des dictionnaires utilisés par notre système a maintenant reçu les corrections qui lui étaient nécessaires. Nous devons à présent nous intéresser au processus d’élargissement de l’information de certaines de ces ressources au moyen de données présentes dans d’autres dictionnaires. En effet, pour éviter d’avoir recours plusieurs fois à un même dictionnaire au cours de l’analyse séquentielle, chaque ressource sera disponible une seule fois mais l’ensemble de l’information lexicale utile sera disponible dans chaque dictionnaire.

L’élargissement informationnel de ressources que nous devons réaliser concerne essentiellement deux des dictionnaires : le lexique utilisé par NTM pour effectuer le découpage en mots et l’analyse morphologique, auquel il nous faut apporter l’information sémantique provenant des champs « classe » et « domaine » du Dubois, et le dictionnaire Dubois lui-même, qui ne dispose pas d’une hiérarchie sémantique taxinomique. Le premier de ces compléments est requis par le système de désambiguïsation sémantique pour permettre le fonctionnement des règles sémantiques. Le second doit permettre une généralisation des unités lexicales plus ou moins importante qui peut servir pour la mise en correspondance des questions et réponses lors de la phase d’interrogation.

4.3.1 Ajout de sémantique dans le lexique morphologique

Lorsque nous avons décrit la méthode de désambiguïsation sémantique (cf. section  2.3 page §) que nous avons choisie pour identifier la signification des éléments qui composent les textes à interroger, nous avons notamment décrit le fonctionnement des règles permettant la discrimination des sens des unités polysémiques. Or si certaines de ces règles étaient lexicales, et donc fonctionnaient grâce à l’identification des mots qui constituent le contexte de l’unité à désambiguïser, il en est d’autres que nous appelions sémantiques, axées sur l’appartenance des lexèmes du contexte à des groupes sémantiques, les classes d’AlethDic pour le français ou celles de WordNet pour l’anglais.

Pour permettre à ce type de règles de fonctionner aussi dans notre système, qui n’exploite pas la ressource AlethDic, il est important de fournir au désambiguïsateur sémantique l’information dont il a besoin sur la nature sémantique des mots à désambiguïser. Or l’étape d’analyse morphologique est la seule à effectuer une recherche dans un lexique sur tout le dictionnaire avant l’étape de désambiguïsation sémantique. Il est donc logique d’exploiter cette phase lexicale pour distribuer l’information sémantique nécessaire.

L’information sémantique que nous devons apporter au lexique morphologique provient du dictionnaire Dubois. Il s’agit des domaines d’application (pour l’ensemble du lexique) et des classes sémantiques (pour les verbes uniquement). Le lexique morphologique ne distingue pas les différents sens des lexèmes. Il n’en a pas besoin, aucune différenciation sémantique ne s’effectuant à ce niveau d’analyse. Chacune de ses entrées reçoit donc l’ensemble des étiquettes sémantiques correspondant au lemme de cette entrée. La distinction des sens et donc l’élimination des étiquettes erronées interviendra lors de la phase de désambiguïsation sémantique.

Pour illustrer l’adjonction de sémantique dans le lexique morphologique, nous avons présenté (cf. figure 4.7 page §) la forme commence de l’exemple d’analyse de NTM  2.2 page §. Le lexique morphologique présentait cinq possibilités d’interprétations morphologiques de cette forme de mot. Or le dictionnaire Dubois comporte sept entrées de commencer qui présentent une combinaison différente domaine-classe. Chacune des analyses de commence est donc multipliée par sept, une par combinaison domaine-classe. Le lexique morphologique comporte donc maintenant 35 entrées, dans lesquelles les domaines sont signalés par un préfixe DOM_ et les classes par un préfixe CLA_. À travers l’analyse morphologique de la forme commence par NTM (figure 4.7 page §), on peut voir que l’information du lexique morphologique a été élargie et que les étiquettes morphologiques sont affectées à chacune des propositions d’analyse. Ces étiquettes sémantiques sont assignées à la forme de mot durant l’analyse morphologique jusqu’à la décision du système de désambiguïsation sémantique.


fonctionnairefonctionnaire+InvGen+SG+DOM_ADM+human+Noun
commence commencer +avoir+parSN+IndP+SG+P1+DOM_TPS+CLA_X4a+Verb
commence commencer +avoir+parSN+IndP+SG+P1+DOM_TPS+CLA_M4b+Verb
commence commencer +avoir+parSN+IndP+SG+P1+DOM_TPS+CLA_X1a+Verb
commence commencer +avoir+parSN+IndP+SG+P1+DOM_ENS+CLA_M2c+Verb
commence commencer +avoir+parSN+IndP+SG+P1+DOM_VEH+CLA_L3a+Verb
commence commencer +avoir+parSN+IndP+SG+P1+DOM_TEC+CLA_R3a+Verb
commence commencer +avoir+parSN+IndP+SG+P1+DOM_PAT+CLA_M4b+Verb
commence commencer +avoir+parSN+IndP+SG+P3+DOM_TPS+CLA_X4a+Verb
commence commencer +avoir+parSN+IndP+SG+P3+DOM_TPS+CLA_M4b+Verb
commence commencer +avoir+parSN+IndP+SG+P3+DOM_TPS+CLA_X1a+Verb
commence commencer +avoir+parSN+IndP+SG+P3+DOM_ENS+CLA_M2c+Verb
commence commencer +avoir+parSN+IndP+SG+P3+DOM_VEH+CLA_L3a+Verb
commence commencer +avoir+parSN+IndP+SG+P3+DOM_TEC+CLA_R3a+Verb
commence commencer +avoir+parSN+IndP+SG+P3+DOM_PAT+CLA_M4b+Verb
commence commencer +avoir+parSN+Imp+SG+P2+DOM_TPS+CLA_X4a+Verb
commence commencer +avoir+parSN+Imp+SG+P2+DOM_TPS+CLA_M4b+Verb
commence commencer +avoir+parSN+Imp+SG+P2+DOM_TPS+CLA_X1a+Verb
commence commencer +avoir+parSN+Imp+SG+P2+DOM_ENS+CLA_M2c+Verb
commence commencer +avoir+parSN+Imp+SG+P2+DOM_VEH+CLA_L3a+Verb
commence commencer +avoir+parSN+Imp+SG+P2+DOM_TEC+CLA_R3a+Verb
commence commencer +avoir+parSN+Imp+SG+P2+DOM_PAT+CLA_M4b+Verb
commence commencer +avoir+parSN+SubjP+SG+P1+DOM_TPS+CLA_X4a+Verb
commence commencer +avoir+parSN+SubjP+SG+P1+DOM_TPS+CLA_M4b+Verb
commence commencer +avoir+parSN+SubjP+SG+P1+DOM_TPS+CLA_X1a+Verb
commence commencer +avoir+parSN+SubjP+SG+P1+DOM_ENS+CLA_M2c+Verb
commence commencer +avoir+parSN+SubjP+SG+P1+DOM_VEH+CLA_L3a+Verb
commence commencer +avoir+parSN+SubjP+SG+P1+DOM_TEC+CLA_R3a+Verb
commence commencer +avoir+parSN+SubjP+SG+P1+DOM_PAT+CLA_M4b+Verb
commence commencer +avoir+parSN+SubjP+SG+P3+DOM_TPS+CLA_X4a+Verb
commence commencer +avoir+parSN+SubjP+SG+P3+DOM_TPS+CLA_M4b+Verb
commence commencer +avoir+parSN+SubjP+SG+P3+DOM_TPS+CLA_X1a+Verb
commence commencer +avoir+parSN+SubjP+SG+P3+DOM_ENS+CLA_M2c+Verb
commence commencer +avoir+parSN+SubjP+SG+P3+DOM_VEH+CLA_L3a+Verb
commence commencer +avoir+parSN+SubjP+SG+P3+DOM_TEC+CLA_R3a+Verb
commence commencer +avoir+parSN+SubjP+SG+P3+DOM_PAT+CLA_M4b+Verb

Tab. 4.7: Exemple d’analyse de commence par le lexique morphologique après son élargissement sémantique.

Il faut cependant remarquer que lorsque le vocabulaire du lexique morphologique et celui du dictionnaire Dubois ne coïncident pas, aucun élargissement ne peut avoir lieu si le dictionnaire est plus étendu, mais aucun retrait ne peut se produire si le dictionnaire est lacunaire. De fait, lorsqu’un lemme du lexique est inconnu du Dubois ou que ses caractéristiques morphologiques sont différentes, aucun étiquetage sémantique n’est ajouté dans le lexique. À l’inverse, si un mot du Dubois est absent dans le lexique, cette entrée du Dubois n’est pas ajoutée au lexique malgré l’information morphologique présente dans le dictionnaire. En effet, cette opération d’insertion de nouvelles unités morpho-lexicales demande un important travail de reconstruction du transducteur qui constitue le lexique morphologique. Dans le cadre de cette recherche, il est irréaliste de s’engager dans une entreprise de cette ampleur, malgré l’intérêt que cela présente.

L’information sémantique liée aux domaines d’application et aux classes sémantiques est exploitée dans le cadre d’un type de règles de désambiguïsation déjà connu et appliqué dans le système développé à XRCE (Xerox Research Centre Europe). Toutefois, au cours de notre examen des ressources lexicales dont nous disposons, nous avons signalé une autre information d’ordre syntaxico-sémantique qui pourrait donner lieu au développement d’un nouveau genre de contrainte contextuelle et donc d’un nouveau type de règles de désambiguïsation sémantique. Il s’agit des schémas syntaxiques de sous-catégorisation.

Sans présumer de l’intérêt de cette information dans la cadre de la discrimination de l’acception correcte d’un mot polysémique en contexte (le travail de sélection du sens des mots et son importance dans notre démarche seront abordés plus loin dans la section  5.3 page §), le simple fait qu’elle ait retenu notre attention lors de l’examen du dictionnaire la rend susceptible d’être exploitée ultérieurement pour le traitement que nous avons à effectuer sur les documents. Nous avons dès lors décidé d’anticiper sur les besoins éventuels du traitement de la sémantique des lexèmes et d’intégrer l’information sémantique correspondant aux schémas de sous-catégorisation au lexique d’analyse morphologique.

Cette information se présente sous la forme de trois catégories sémantiques, limitées aux seuls substantifs : humain, animal, inanimé. Leur implantation dans le lexique d’analyse morphologique est semblable à celle du précédent étiquetage sémantique et est effectuée en même temps que cet élargissement de l’information dans le transducteur. En effet, lors de chaque addition d’une information liée à un nom présent dans le Dubois, il suffit d’ajouter non pas une étiquette correspondant au domaine d’application du lexème dans le sens visé, mais deux étiquettes, la première correspondant à ce domaine, la seconde au trait sémantique. Dans le cadre des noms monosémiques, ces information sont donc simplement ajoutées, tandis que les entrées polysémiques multiplient, comme précédemment, chaque proposition d’analyse par le nombre d’acceptions existant pour cette entrée.

L’exemple  4.7 page § montre deux cas d’analyse morphologique, l’une d’un mot monosémique (fonctionnaire) et l’autre d’un mot polysémique (commence). Chacune des propositions d’analyse comporte les deux types d’information sémantique prévus, c’est-à-dire la catégorie (humain) et le domaine (DOM_ADM) pour un nom, le domaine (DOM_TPS, DOM_ENS etc.) et la classe (CLA_X4a, CLA_M4b etc.) pour un verbe. Pour le nom monosémique, l’information sémantique a simplement été ajoutée à la proposition d’analyse. Pour le verbe polysémique, chaque proposition d’analyse a été reproduite autant de fois que ce verbe a de sens tout en recevant l’information sémantique d’un des sens.

4.3.2 Intégration d’une taxinomie sémantique hiérarchique

La mise en correspondance de requêtes avec les éléments textuels susceptibles d’y apporter une réponse n’est pas une opération triviale. Nous avons signalé déjà plusieurs techniques qui concourent à ce but, et il en existe d’autres. Une de ces techniques consiste à généraliser les unités lexicales qui constituent la requête en une forme sémantique plus ou moins abstraite et de faire de même avec les lexèmes qui forment les segments de texte candidats à y apporter une réponse [Voorhees, 1993Vossen, 1997]. Dès lors, si les formes sémantiques abstraites des éléments constitutifs de la requête et du texte coïncident, il est probable qu’ils désignent une même réalité, ou du moins une réalité semblable. Ainsi, les mots fille et enfant ne correspondent pas sur le plan lexical, mais la généralisation de ces lexèmes au travers du domaine d’application du dictionnaire Dubois fournit l’information PAR pour parenté.

Une généralisation peut donc être réalisée au travers de l’information sémantique du Dubois, le domaine d’application pour l’ensemble du lexique, la classe sémantique pour la catégorie verbale uniquement. Toutefois, ces domaines correspondent à une structure plate et ne sont pas hiérarchisés entre eux. Par exemple, pour les domaines ROM (antiquité romaine) et GRE (antiquité grecque), aucun domaine ANT (antiquité) n’existe qui regroupe les deux autres. Il faut dès lors se contenter d’un seul niveau de généralisation dont la granularité est définie par la ressource utilisée.

Or certaines ressources lexicales que nous avons précédemment mentionnées disposent d’informations sémantiques composées en classes hiérarchisées, qui permettent de faire varier le niveau de généralisation en l’augmentant ou en le diminuant par une navigation verticale entre les différents niveaux hiérarchiques. Ces ressources sont EuroWordNet français et AlethDic. Les importantes lacunes, notamment verbales, et les particularités lexicales du dictionnaire AlethDic ont justifié précédemment son élimination, mais EuroWordNet, quoique son étendue lexicale soit restreinte, peut sur une grande partie du lexique fournir ses indications hiérachiques importantes, tant dans la taxinomie hypéronymique que dans la taxinomie méronymique.

L’intégration de la structure sémantique à notre système pose toutefois certains problèmes. Tout d’abord, les entrées lexicales de EuroWordNet ne sont pas découpées en acceptions, mais la détermination de leurs différents sens n’a de réalité que dans la mesure où un même lexème peut appartenir à différents ensembles synonymiques (synsets), chacun de ces ensembles représentant une signification particulière du lexème. La hiérarchisation sémantique de EuroWordNet s’appuie d’ailleurs sur ces ensembles synonymiques qu’elle classifie et structure, plutôt que sur les unités lexicales. D’autre part, la limitation du lexique couvert par EuroWordNet, que nous avons signalée dans la section qui lui est consacrée (cf. section  3.4.3 page §), ne peut à l’évidence autoriser une généralisation que dans le nombre de cas, forcément limité, où les unités lexicales traitées dans les énoncés appartiennent au vocabulaire de la ressource.

Le problème de la répartition des différentes acceptions pour chaque lexème représenté s’apparente aux difficultés que nous avons rencontrées lors de la distribution des synonymes aux différentes acceptions d’un même mot. Dans le cas présent, les incompatibilités toujours affichées dans la subdivision sémantique de deux ressources lexicales s’y ajoutent, car lors de la distribution des synonymes proposés par EuroWordNet pour un lexème donné, nous n’avons tenu aucun compte des ensembles synonymiques qui forment la structure sémantique interne du réseau sémantique. Nous avons en effet pris le parti de respecter les choix du dictionnaire Dubois, car c’est essentiellement sa structure qui nous permet d’atteindre des informations adaptées au contexte lorsque la désambiguïsation sémantique est effectuée.

Dans le cas présent, nous proposons de choisir comme arbre taxinomique celui dans lequel ce lexème apparaît comme un nœud et où son nœud-mère présente avec le lexème les mêmes similitudes que celles que nous avons notées pour la distribution des synonymes. Les unités lexicales désignées par un nœud-mère doivent dès lors, si elles ne sont pas verbales, posséder le même domaine du Dubois que leur nœud-fille, et s’il s’agit d’unités verbales, elles doivent appartenir aux mêmes classe et sous-classe sémantiques que leur nœud-fille, ou posséder le même domaine et la même classe sémantique. Cette procédure est valable pour les deux types de taxinomies présents dans la ressource EuroWordNet.

Le temps nous a manqué pour réaliser ne serait-ce que le filtrage des arbres taxinomiques pour élargir à une structure hiérarchique l’information lexicale destinée à enrichir le texte. Dès lors, nous n’avons pas pu tester la validité de la méthode de choix des arbres taxinomiques, ni mettre en œuvre cette méthode. À plus forte raison nous n’avons pu réaliser la procédure de généralisation des termes que ce soit dans le corps des documents ou dans les requêtes proposées au système.