Les corrections que nous désirons apporter à certaines ressources lexicales ont été abordées dans le chapitre 3 pages § à § lorsque nous avons signalé au cas par cas les défauts que nous y rencontrions. Il s’agit d’abord de corriger le problème structurel de la distribution des synonymes, liée habituellement au lemme et non aux significations de ce lemme. Ce défaut apparaît dans la liste des synonymes, qui donne une proximité de sens à des mots qui n’en ont pas forcément dans le cas d’une entrée polysémique. L’autre erreur qu’il faut neutraliser a également été signalée auparavant. Nous avons en effet constaté que les informations du Dubois permettant de générer les formes dérivées à partir du lemme étaient sporadiquement fausses, ou du moins insuffisamment précises pour permettre la construction directe de ces mots. Nous avons pu remédier à ces problèmes.
Au vu de notre méthodologie d’enrichissement de l’information, dont une des caractéristiques prépondérantes consiste à exploiter une synonymie sémantiquement distribuée, le problème le plus saillant que nous ayons à considérer dans les ressources lexicales – excepté le Dubois – réside dans le mélange qui est fait des synonymes au sein de chaque entrée sans tenir compte d’une éventuelle polysémie du mot-vedette. Cet enchevêtrement atteint son paroxysme dans le Bailly, où aucune distinction de catégorie grammaticale n’est réalisée ni dans les synonymes, ni dans les entrées elles-mêmes. Des ressources comme le dictionnaire Memodata ou EuroWordNet français lient toutefois les groupes de synonymes à un sens plutôt qu’à un lemme, mais ne distinguent pas toutefois les différents sens d’un même lemme, si ce n’est par un numéro servant de pivot entre les langues.
Or, comme nous l’avons dit, nous nous employons à définir une approche contextuelle de l’enrichissement des textes. Cette approche vise à mettre en correspondance chacune des unités lexicales du texte avec l’ensemble des expressions qui lui sont synonymiques dans le sens que cette unité lexicale présente dans ce contexte. Pour ce faire, à l’intérieur de chaque entrée, il s’agit de définir les ensembles d’expressions synonymiques propres à chaque acception. La distribution des synonymes aura donc lieu non plus en fonction du mot-vedette uniquement, mais bien selon les acceptions de ce mot.
Afin de réaliser cette opération de redistribution synonymique, nous avons décidé d’exploiter l’information de notre ressource de référence, le Dubois, car il est le seul dictionnaire dont nous disposons à répartir l’ensemble de son information conformément à la signification des lemmes. Dans le cas présent, l’information que nous pouvons utiliser est sémantique, puisque c’est une distribution conforme à chacune des acceptions qui doit être effectuée.
Pour ce faire, nous avons mis au point une méthode de filtrage basée sur des informations d’ordre sémantique fournies par notre dictionnaire de référence, le Dubois. Ces informations sémantiques sont principalement les domaines d’application (pour l’ensemble du lexique) auxquels s’ajoutent les classe syntaxico-sémantiques (pour les verbes uniquement). Elles permettent de classifier de manière générale 1 les différents sens des entrées polysémiques ou d’étiqueter le sens unique des entrées monosémiques et d’identifier leur sémantique propre.
|
Face à des ressources lexicales qui proposent des groupes de synonymes liés strictement aux lexèmes sans égard particulier pour les éventuelles variations de sens de ces lexèmes, nous nous trouvons donc à même de constituer des ensembles parmi ces groupes. Ces ensembles sont constitués autour des étiquettes sémantiques dont sont porteuses les unités lexicales synonymiques dans le Dubois : le domaine d’application et, dans le cas des verbes, la classe syntaxico-sémantique. Cette particularité permet dès lors d’affecter chaque synonyme d’un mot aux seuls sens de ce mot qui partagent une étiquette sémantique avec le synonyme.
Notre méthode de classification des synonymes s’effectue comme suit. À chacun des candidats synonymes pour un mot donné dans une acception donnée, est associé son domaine dans le Dubois, et dans le cas d’un verbe, ses classe et sous-classe sémantiques. Hors du cas particulier des verbes, on conserve les candidats synonymes dont le domaine est le même que celui du mot de départ dans le sens considéré. Le domaine d’application est en effet le seul lien sémantique qu’il est possible d’établir entre un mot et son synonyme. Pour la catégorie verbale en revanche, si le domaine d’application apparaît également, la classe sémantique semble dénoter la sémantique de l’entrée elle-même plutôt que son contexte, du moins dans les deux premiers niveaux hiérarchiques, le dernier étant purement syntaxique. Nous avons donc tenté dans un premier temps de sélectionner comme synonymes les candidats présentant de mêmes classes et sous-classes sémantiques que celles du mot de départ dans le sens considéré. Le bilan de ce filtrage était probant en ce qui concernait la qualité de la distribution sémantique des synonymes, mais nous constations un problème de rappel, certains candidats intéressants étant rejetés par ce filtrage. L’examen effectué nous a donc amené à instaurer un autre cas de sélection des candidats synonymes. Nous avons décidé de maintenir également les candidats présentant le même domaine que le mot de départ à condition que, en outre, la classe sémantique (mais pas forcément la sous-classe) soit la même que celle du mot de départ dans le sens considéré. L’examen du dictionnaire ainsi filtré confirme le bien fondé de cette méthode 2.
|
Le traitement des expressions synonymiques composées de plusieurs lexèmes se démarque toutefois de la méthodologie de filtrage exposée ci-dessus pour contextualiser les synonymes. En effet, nous ne pouvons obtenir une étiquette sémantique cohérente, classe ou domaine selon les cas, pour les expressions à mots multiples car notre dictionnaire de référence, le Dubois, traite exclusivement les unités lexicales au travers de ses entrées. Cependant, notre approche vise surtout à restreindre un enrichissement excessif du texte en s’appuyant sur les indices fournis par le contexte. Si la délimitation idéale concerne un enrichissement lié au sens exact d’un lexème dans le texte, il ne s’agit pas de trancher dans les cas où une certaine ambiguïté sémantique se maintient, malgré la désambiguïsation. Cela signifie que plusieurs interprétations sémantiques peuvent être conservées lorsque les indices contextuels ne permettent pas de réduire les hypothèses à une seule acception. Notre stratégie ne nous permet pas de décider du sens qui se rapproche le plus d’une expression synonymique. Aussi avons-nous décidé de conserver les expressions à mots multiples synonymiques d’un mot comme synonymes pour chaque sens de ce mot.
Dans le même ordre d’idée, si le lexème correspondant à un synonyme n’est pas recensé dans le Dubois et ne porte de ce fait ni domaine, ni classe sémantique, il sera pareillement versé dans chacun des ensembles synonymiques de l’entrée du dictionnaire de synonymes dans laquelle il apparaît et en portera l’étiquette sémantique. En effet, il n’est pas possible d’affirmer ou d’infirmer l’appartenance d’un synonyme ou d’une expression synonymique à un ensemble sans disposer du moindre indice concernant son sens.
Une dernière difficulté peut encore apparaître au cours de ce type de traitement de la synonymie. Il est possible qu’un synonyme proposé soit lui-même polysémique, et de ce fait possède plusieurs étiquetages sémantiques distincts. Or dans le cas de l’enrichissement de dictionnaires, la désambiguïsation entre ses différents sens n’est pas possible puisqu’il n’y a pas de contexte permettant d’effectuer un choix parmi eux. Une fois de plus, nous avons décidé de conserver le plus grand nombre de synonymes au détriment peut-être de l’exactitude des ensembles de synonymes. En effet, nous partons du principe que si un des sens du synonyme est considéré comme proche de celui d’un sens donné de l’entrée, il est probable que ce sens ait provoqué le lien de synonymie. Nous versons donc un synonyme proposé dans un ensemble lorsque un de ses sens au moins présente la même étiquette sémantique que cet ensemble, en estimant que c’est cette signification qui constitue le synonyme de l’unité lexicale de départ.
L’exemple de ravir (table 4.1 page §) illustre bien la difficulté qu’il y a à mettre en concordance toutes les ressources lexicales en ce qui concerne l’information synonymique. À travers cet échantillon, nous montrons facilement en quoi consiste notre méthode de répartition des synonymes proposés. La première démarche consiste, à partir de chacune des propositions de synonyme, à établir un étiquetage sémantique correspondant aux informations du Dubois (les domaines et classes sémantiques dans la table 4.2 page §). Pour la deuxième acception de ravir dans le Dubois (table 4.1 page §, en gras), nous avons un domaine SOC pour sociologie, et une classe S4 – nous avons dit que le troisième niveau dans la hiérarchie de classes, exclusivement syntaxique, n’était pas pris en compte – pour saisir, serrer, posséder (S) avec un actant non animé dans un sens figuré (4). Les classe et sous-classe sémantiques permettent de regrouper sous ce sens les propositions de synonymes enlever, retirer, voler (table 4.2 page §, en gras). Ces synonymes ont été sélectionnés à bon escient, mais d’autres candidats tout aussi valables ne l’ont pas été avec cette première procédure.
L’adjonction d’un processus exploitant les domaines – le même processus que pour les autres catégorie grammaticale – permet d’ajouter aux synonymes s’approprier, dérober, passionner. Dans ce cas précis, passionner est erroné, et nous notons qu’aucune de ses acceptions ne le relie à la classe sémantique de ravir dans le premier sens du Dubois (pas de classe en S). Nous préférons donc exploiter à la fois le domaine et la principale classe sémantique, ce qui nous amène à conserver parmi les candidats, en plus des synonymes de classe, s’approprier, dérober (en caractères obliques), du fait de leur étiquetage semblable que ce soit au niveau du domaine (SOC) et de l’appartenance à la même classe (S). Les expressions synonymiques à mots multiples sont également conservées. Dans le cas présent, elles sont inexactes, mais ne peuvent être rejetées a priori. Elles correspondent au troisième sens de ravir dans le Dubois.
La figure 4.1 page § montre les tableaux d’évolution du contenu des dictionnaires lors de la phase de filtrage et également en fonction du type de filtrage appliqué. Il indique aussi la proportion de recouvrement des dictionnaires synonymiques les uns par rapport aux autres.
Dans notre prospection de techniques permettant de donner à un texte les formes de surface les plus diverses sans en modifier la signification, l’usage de la synonymie est prépondérant. Nous venons de décrire la méthode par laquelle nous entendons améliorer les dictionnaires qui ne sont pas aptes de prime abord à servir notre approche. Un autre procédé proposé pour atteindre notre but consiste à exploiter la parenté sémantique d’une unité lexicale – nous l’appelons « mot original » – avec ses dérivés [Church, 1995, Gaussier et al., 1997, Gaussier et al., 2000]. Cette proximité sémantique a été constatée également dans le Dubois qui, pour les lemmes polysémiques, relie les dérivés de la même unité lexicale tantôt à une acception, tantôt à une autre en fonction du sens de chaque forme dérivée.
Cependant, nous avons signalé au cours de l’examen du Dubois que l’information destinée à permettre la génération des formes dérivées était occasionnellement erronée ou imprécise. Ces défauts ne remettent pas en cause l’existence de dérivés du type signalé, mais ils empêchent souvent de générer la forme correcte. Pour effectuer cette génération, nous avons donc été amené à faire appel à l’outil de dérivation morphologique conçu par Éric Gaussier [Gaussier, 1999] dont nous avons décrit les fonctionnalités dans la section 3.3 page §. Cet outil est capable de nous fournir des formes dérivées avérées, que nous devons redistribuer, voire filtrer, selon les modalités prescrites dans le dictionnaire Dubois.
|
L’exemple présenté dans la figure 4.3 page ci-contre illustre bien de quelle manière les indications de la ressource lexicale permettent de filtrer les erreurs de surgénération d’un outil que nous employons sous contrainte minimale, avec pour seule exigence qu’il produise des unités lexicales avérées dans la langue. Ainsi, coupable n’est pas retenu par notre filtre car sa génération à partir d’un radical coup- et d’un suffixe -able ne correspond pas à la réalité de cette unité lexicale. On constate également que les formes dérivées sont distribuées exclusivement sur les acceptions du mot original pour lesquelles le Dubois en indiquait l’existence. On peut en effet constater que le mot coupeur dérive des sens 1 (synonymes rompre, trancher) et 29 (synonyme tailler un vêtement), mais pas d’autres significations de couper, comme par exemple 16 (synonyme interrompre) pour lequel interrupteur conviendrait mieux. Cette distribution permettra de sélectionner selon leur parenté de sens les dérivés lors de la désambiguïsation sémantique, comme c’est déjà le cas pour les synonymes.
La sélection sémantique des dérivés constitue en soi une amélioration importante de la technique d’enrichissement telle qu’elle est présentée dans [Gaussier, 1999] ou dans [Snover et al., 2002]. Le contrôle de ces dérivés grâce à l’exploitation de l’information d’une ressource lexicale décrivant les relation du mot original est aussi un perfectionnement notable. Toutefois, ni l’utilisation basique de la dérivation morphologique, ni ces évolutions ne tiennent compte des variations sémantiques qu’un dérivé accuse par rapport à son original. Or un mode d’enrichissement d’un énoncé idéal permet de remplacer dans le texte le segment à enrichir par l’enrichissement qui en découle sans que le sens de l’énoncé n’en soit modifié. Il s’agit donc d’étudier les paramètres susceptibles de modifier la signification de l’énoncé lors de la dérivation et de neutraliser leurs effets. Par exemple, pour un énoncé original le train entre en gare et une dérivation entrée, la génération d’un énoncé virtuel implique un schéma syntaxique différent pour conserver le sens original : l’entrée du train en gare. Cette modification de schéma syntaxique peut provenir soit de l’évolution du sens de l’unité lexicale lors de sa dérivation, soit du changement de catégorie grammaticale lors de cette dérivation.
Dans la section 3.3 page § consacrée à la morphologie dérivationnelle, nous avons signalé que le mode de fonctionnement de l’outil de génération des formes dérivées se base exclusivement sur une racinisation (stemming) du mot original suivie d’une suffixation. Cette technique de dérivation correspond bien aux indications dérivationnelles du Dubois, qui sont suffixales elles aussi. Le Dubois fait toutefois une petite entorse à ce principe : il est possible de construire des formes dérivées négatives à partir d’un mot original, grâce à une préfixation. Or l’outil de morphologie dérivationnelle dont nous disposons n’est pas capable d’effectuer cette opération.
Le champ informationnel du dictionnaire Dubois prévoit en effet de générer certaines formes négatives à l’aide d’un préfixe a- ou in-, ou une variation morphologique sur un de ces préfixes. Cette information est cependant insuffisamment précise dans la ressource pour pouvoir être exploitée directement. L’utilisation de l’outil de morphologie dérivationnelle ne permettant pas la préfixation, son exploitation ne pourra remédier au problème dans le cas présent. Toutefois, la sémantique d’une forme négative générée est inversée par rapport à la forme originale, et dès lors seule la négation d’une forme positive permettrait de mettre en rapport la forme positive et la forme négative. Or la grammaire française de XIP ne gère pas actuellement la négation. La sémantique des formes négatives est donc difficilement exploitable dans un contexte. Nous reconnaissons toutefois l’importance de cette lacune, qu’il serait intéressant de voir combler.
Le choix à la fois lexical et fonctionnel de baser la dérivation sur la suffixation nous a conduit à étudier les implications sémantiques de cette suffixation. En effet, si les formes dérivées ne présentent pas exactement la même signification que leur mot original, trois paramètres tangibles peuvent nous guider dans les mécanismes d’évolution du sens : la nature du suffixe utilisé, la catégorie grammaticale du mot original et celle de la forme dérivée.
Dans un premier temps, nous avons cherché à déceler des constantes dans le glissement sémantique qu’implique l’adjonction d’un suffixe à un mot donné. Pour ce faire, nous nous sommes basé sur les observations de [Grevisse et Goosse, 1991] §§168-170 pour l’ensemble des dérivations suffixales proposées par le dictionnaire Dubois. Nous avons classifié ces dérivés d’une part selon la catégorie grammaticale du mot original, et de l’autre selon celle de la forme dérivée. Les indications en caractères obliques correspondent aux observations où nous nous sommes démarqué de Grevisse.
Formation des dérivés adjectivaux dans la section « verbes » du Dubois :
Formation des dérivés nominaux dans la section « verbes » :
Formation des dérivés verbaux dans la section « mots » :
Formation des dérivés adjectivaux dans la section « mots » :
Formation des dérivés nominaux dans la section « mots » :
Nous nous sommes dès lors résigné à ébaucher des familles vastes et peu définies à partir des catégorie grammaticale, au sein desquelles la sémantique dérivationnelle reste assez vague et s’appuie essentiellement sur le sens du mot qui en constitue la base.
Nous avons donc abandonné l’idée d’exploiter le suffixe pour définir des schémas d’évolution sémantique de dérivation, car cette information est trop précise et trop diverse à la fois, pour tirer profit de la catégorie grammaticale du mot original et de celle de sa forme dérivée. Ainsi, nous avons :
Ces familles de sens très générales nous permettent d’appréhender partiellement
la signification des formes dérivées, l’identification du sens des mots originaux
donnant lieu à une identification plus précise de la signification de chacune des
unités lexicales générées. On peut dès lors envisager d’utiliser les formes
dérivées dans le cadre de l’enrichissement.
La maîtrise de la seule sémantique d’une forme dérivée ne peut toutefois suffire à l’enrichissement d’un énoncé. En effet, pour permettre de mettre en correspondance une question et son élément de réponse présent dans le texte, il s’agit de créer virtuellement un énoncé correspondant au texte original où la forme dérivée prend la place du mot original. Cependant, l’intégration brute de cette forme dans un contexte est susceptible d’altérer fortement le sens premier de ce contexte. L’énoncé virtuel, créé à partir du texte original, devra donc intégrer les différences de surface exigées par la forme dérivée pour maintenir la signification de départ. Ces modifications de surface s’affirment surtout dans les transformations que les relations entre les composantes de l’énoncé original doivent subir pour aboutir à un énoncé virtuel.
Il s’agit donc de modifier le schéma syntaxique et syntaxico-sémantique de la phrase pour que l’intégration de la forme dérivée soit optimale. Pour ce faire, il s’agit d’identifier les schémas syntaxiques typiques que les unités lexicales originelles présentent et de déterminer les transformations que ces schémas subissent lors de la modification de l’énoncé par dérivation de l’unité originale. Dans la perspective du recensement des constantes de modification du contexte syntaxico-sémantique, nous ne pouvons utiliser que les paramètres tangibles qui déjà ont dirigé notre examen de la sémantique de la dérivation suffixale : la catégorie grammaticale du mot original, la nature du suffixe utilisé, la catégorie grammaticale de la forme dérivée. Nous y ajoutons le schéma de sous-catégorisation prescrit par le dictionnaire Dubois, déjà utilisé pour les verbes dans la tentative de détermination du sens des dérivés par le suffixe.
Pour effectuer cet examen, nous avons effectué une recherche systématique d’exemples réels sur Internet, considéré pour l’occasion comme un gigantesque corpus. À chacune des combinaisons possibles des paramètres présentés ci-dessus, nous avons pris aléatoirement dans le dictionnaire trois entrées correspondant à ces paramètres (type de dérivation suffixale, catégorie grammaticale originale et dérivée, sous-catégorisation) et nous avons cherché vingt exemples d’utilisation de ces entrées à l’aide d’un moteur de recherche 3. Nous avons ensuite effectué une analyse syntaxique de ces exemples afin de conserver les dépendances qui concernaient le mot original, puis nous avons remplacé ce mot original par son dérivé et, le cas échéant, modifié la phrase pour qu’elle conserve son sens. Par la suite, nous avons effectué l’analyse syntaxique du nouvel énoncé ainsi constitué pour en extraire les dépendances qui concernent le dérivé. Pour les mêmes paramètres, nous avons retenu pour typiques les schémas syntaxiques récurrents présentant cinq occurrences au moins pour chacune des entrées.
|
|
|
Nous avons ainsi dégagé de cet examen la méthode de transformation d’une expression en une autre de même sens par le glissement morphologique d’une composante de cette expression. Les relations syntaxiques impliquant les verbes sont principalement celles qui le relient à son sujet (SUBJ), à son objet direct (VARG[DIR]), à un argument indirect (objet indirect VARG[INDIR] ou complément prépositionnel d’un verbe VMOD[INDIR]) et à un adverbe (VMOD[ADV]). Celles qui mettent en œuvre un nom le relient principalement à un verbe en tant que sujet (SUBJ) et objet direct (VARG[DIR]) ou indirect (VARG[INDIR]). Elles peuvent également le relier à une autre unité syntaxique en tant que tête d’un syntagme prépositionnel (NMOD[INDIR]). Enfin, les connexions relatives à l’adjectif sont essentiellement épithétiques et attributives (NMOD[ADJ] dans les deux cas pour XIP).
Les résultats de nos observations sont présentés dans les tableaux 4.4 page § et 4.5 page § pour les dérivations à partir de verbes et 4.6 page ci-contre pour les dérivations à partir des autres catégorie grammaticale. Ces tableaux constituent une concordance entre les schémas syntaxiques identifiés dans les énoncés contenant les mots originaux et les structures syntaxiques correspondantes dans les énoncés modifiés lors du remplacement du mot original par sa forme dérivée. L’information contenue dans la section verbale du Dubois, plus riche que dans la partie générale, a permis l’exploitation d’un paramètre supplémentaire (les propriétés syntaxiques des verbes) pour distinguer les différentes possibilités de schémas syntaxiques. Ce paramètre s’est révélé pertinent dans la plupart des cas. Pour les verbes, la nature du suffixe est également un paramètre discriminant entre les différents schémas syntaxiques. Pour les autres catégorie grammaticale en revanche, ni la sous-catégorisation, ni le type de suffixation n’ont permis de distinguer de différences de comportement syntaxico-sémantique au cours de la modification des énoncés.
Les dépendances syntaxiques recensées dans ce tableau correspondent aux relations dégagées de l’examen des énoncés que nous avons définies plus haut. Leurs arguments, qui reprennent en abrégé des catégorie grammaticale en lettres minuscules (nom, adj, vb, adv), correspondent au mot original traité ou à sa forme dérivée. Les lettres majuscules X et Y correspondent à des unités lexicales indéfinies, mais chaque lettre majuscule présente dans une relation dérivée désigne la même unité lexicale que la même majuscule dans la relation originale. L’argument PREP désigne une préposition sur la nature de laquelle nous ne nous prononçons pas. Le sigle & représente le AND booléen et définit un schéma syntaxique dans lequel deux dépendances sont nécessaires.
Lorsque le mot original et son dérivé possèdent la même catégorie grammaticale, nous n’avons décelé aucun schéma syntaxique qui soit capable de conserver le sens original de l’énoncé par une transformation simple et régulière. Les dérivés de ce type sont en effet presque des synonymes de leur original et seront utilisés au cours de l’enrichissement comme ces synonymes, tout en conservant l’indication de leur origine. Nous avons signalé ces cas par l’indication synonymie dans les tableaux de concordance. Dans certains cas, l’étude des schémas syntaxiques des exemples n’a pas permis de dégager de constante dans la modification de la structure. Cependant, pour éviter de perdre le bénéfice d’un enrichissement possible, nous avons choisi de conserver la forme dérivée sans lui adjoindre de schéma d’évolution syntaxique. Nous conservons toutefois l’information que cette forme ne convient pas au contexte syntaxique de l’énoncé dans lequel elle peut être placée. Nous avons indiqué cette lacune syntaxique par la mention maintien du schéma.
Toutes ces données peuvent être intégrées dans les ressources lexicales à l’intérieur des entrées et selon les sens définis au départ dans le champ « dérivation » du dictionnaire Dubois, afin d’être directement exploitables lors des phases d’analyse et d’enrichissement. Nous verrons dans le prochain chapitre, consacré à la réalisation d’un enrichissement de texte, de quelle manière les corrections apportées au dictionnaires peuvent être intégrées à notre démarche.