Les dictionnaires de synonymes

Le dictionnaire Dubois, malgré toutes les qualités qui nous ont conduit à sa sélection, comporte toutefois une lacune importante dans le domaine de la recherche d’information. En effet, comme il ne s’agit pas d’un dictionnaire consacré à la synonymie, ce champ informationnel reste relativement restreint. Il ne comporte de fait jamais plus de deux expressions synonymiques par entrée. Nous avons donc jugé que l’utilisation d’un ou plusieurs dictionnaires de synonymes en complément de l’apport du Dubois était indispensable, et nous nous sommes intéressé aux dictionnaires de synonymes français disponibles.

3.4.1 Dictionnaire multilingue Memodata

Il ne s’agit pas d’un dictionnaire spécialisé dans la synonymie, mais d’une ressource lexicale multilingue traitant cinq langues, dont le français ⁶. Comme il s’agit d’un lexique sémantique de traduction basé sur un index qui sert de pivot entre les langues, ce pivot peut toutefois être considéré comme un index de synonymie. En effet, chaque élément de l’index recouvre une signification ce qui permet de naviguer d’une langue à une autre au niveau sémantique. Chacune des langues comprend environ quarante-cinq mille entrées dont chacune comporte sa catégorie grammaticale ainsi que son numéro d’index permettant de faire le lien avec les mots des autres langues de même signification. Ces significations sont au nombre de 37 655.

Étant donné que nous traitons uniquement des documents en français, nous ne nous intéressons bien entendu qu’à la partie française de l’ouvrage et surtout à l’index-pivot qui permet de déceler les unités lexicales porteuses d’une même signification. Même si cette ressource n’est pas d’une grande richesse en ce qui concerne la synonymie, les quelques neuf mille mots partageant un sens avec une autre entrée permettent d’ajouter un certain matériel synonymique à celui dont nous disposons déjà à travers le Dubois. Il nous faudra toutefois effectuer un traitement sur cette information, l’identification d’un sens dans le dictionnaire Memodata n’étant pas toujours la même que dans le dictionnaire Dubois.

3.4.2 Le Dictionnaire des synonymes de la langue française de René Bailly

Le Dictionnaire des synonymes de la langue française ⁷ de René Bailly ⁸ [Bailly et Toro, 1947] dont nous disposons est la version numérisée du dictionnaire papier portant le même nom édité par Larousse. Il se présente sous la forme d’une série d’entrées classées alphabétiquement, mises en correspondances avec leurs synonymes. Ces entrées sont au nombre de 12 738 et l’ensemble des synonymes proposés totalise 28 420 unités lexicales, soit plus de deux synonymes par entrée.

Nous notons après examen de ce dictionnaire de synonymes que dans de nombreux cas il y a implication d’expressions à mots multiples tant dans le champ de synonymie que comme entrée. Cette caractéristique peut se révéler intéressante dans la mesure où nous ne nous intéressons pas seulement à la sémantique des unités lexicales mais également à celle de segments plus importants.

Il faut aussi remarquer que la catégorie grammaticale des entrées n’est pas indiquée dans les champs leur correspondant. Cette particularité peut rendre plus complexe l’exploitation du Bailly, car il peut rarement y avoir une équivalence sémantique réelle entre unités lexicales de catégories différentes – excepté bien sûr les cas d’expressions à mots multiples. Il nous reviendra donc de pallier à cette difficulté lors de l’utilisation du dictionnaire, et de restituer sa catégorie grammaticale à chaque entrée. Il faudra aussi, dans le cas des lemmes possédant plus d’une catégorie grammaticale, reconstituer les listes de synonymes propres à chacune des catégories représentées.

Enfin, nous avons constaté que dans de nombreux cas, les expressions synonymiques sont issues du parler argotique, et que de plus ces unités lexicales sont souvent obsolètes, le parler argotique évoluant parfois très vite. De plus, en parcourant les entrées, nous avons relevé un grand nombre d’erreurs, à moins qu’il ne s’agisse de cas où une signification est tellement désuète que les dictionnaires actuels ne la mentionnent plus. Il y a encore des cas où une entrée appartenant à une catégorie grammaticale reçoit dans ses équivalents synonymiques un ou plusieurs mots appartenant à d’autres catégorie grammaticale, qui sont parfois de simples dérivés du mot-vedette. Ces mots ne peuvent en être les synonymes en aucune façon.

Toutefois, malgré ces défauts nombreux et importants, ce dictionnaire reste essentiel pour notre application étant donné qu’il est le seul dictionnaire spécialement dédié à la synonymie que nous ayons pu nous procurer. D’autre part, nous y avons tout de même trouvé un grand nombre de synonymes intéressants et dont l’exploitation dans le module d’enrichissement pourra se révéler avantageuse dans la mesure où nous comptons appliquer un prétraitement rigoureux à cette ressource du fait de ses nombreuses faiblesses. Ce prétraitement devrait éliminer un grand nombre d’erreurs au prix d’un appauvrissement de la synonymie.

3.4.3 EuroWordNet français

La ressource lexicale française de EuroWordNet fait partie d’un ensemble de réseaux sémantiques électroniques régissant diverses langues européennes (néerlandais, italien, espagnol, allemand, français, tchèque et estonien) élaboré suivant le modèle anglo-américain WordNet mis en œuvre à l’Université de Princeton ⁹. Comme nombre de caractéristiques de EuroWordNet sont héritées de son prédécesseur WordNet, ou découlent d’une critique de celui-ci, il est normal de décrire les principes qui sont à la base de WordNet avant de présenter EuroWordNet.

WordNet, père d’EuroWordNet

WordNet [Miller et al., 1990, Fellbaum, 1998b] s’appuie sur les résultats de recherches psycholinguistiques sur le fonctionnement de la mémoire lexicale humaine [Miller, 1985] : les concepts et unités lexicales sont interconnectés par des relations d’ordre sémantique. Cette constatation a amené ses concepteurs à imaginer une ressource lexicale structurée en terme de sens plutôt qu’en terme de lexèmes. Dès lors, WordNet distingue sens de mots, en tant que concept désigné par un lexème, et forme de mot, en tant qu’actualisation physique de la désignation du concept. Une forme de mot peut donc avoir plusieurs sens, de même qu’un sens peut avoir plusieurs formes.

WordNet traite séparément les différentes catégorie grammaticale, leur assignant ainsi à chacune un système hiérarchique de classes sémantiques et les structurant par des relations sémantiques. Ces classes et ces structures sont hermétiques, et de ce fait aucune relation ne peut exister entre unités lexicales de classes grammaticales différentes ¹⁰. Quatre réseaux distincts et complètement imperméables sont ainsi disponible : verbes, noms, adjectifs et adverbes. La relation lexicale de synonymie occupe une place prépondérante dans chaque catégorie car elle gouverne toute la structure interne de WordNet. Cette relation est en effet constitutive d’ensembles synonymiques appelés synsets, et elle est définie relativement à un contexte :

Deux expressions sont synonymes dans un contexte linguistique C si la substitution de l’une pour l’autre en C ne modifie pas la valeur de vérité de la phrase dans laquelle la substitution est faite ([Miller et al., 1990], p. 242).

Les unités lexicales associées par une relation de synonymie constituent un ensemble synonymique. Chaque ensemble synonymique correspond à un sens de mots, et c’est entre ensembles synonymiques que sont établies les autres relations sémantiques exploitées dans WordNet. WordNet est donc construit comme un réseau sémantique dont les synsets sont les nœuds et dont les relations sémantiques sont les arcs. La relation de synonymie s’applique bien sûr à toutes les catégorie grammaticale.

Les relations sémantiques d’hypéronymie et d’hyponymie, aussi appelées relations d’héritage, concernent les noms et les verbes. Elles relient un concept général appelé hypéronyme à un concept plus spécialisé, son hyponyme. La relation qui va dans le sens de la généralisation est l’hypéronymie et celle qui va vers la spécialisation est l’hyponymie. L’ensemble de ces relations d’héritage forment la taxinomie implantée dans WordNet sous forme d’arbres dont la racine est le terme le plus général, les nœuds autant de concepts plus ou moins spécialisés par rapport à la racine, et les feuilles les entités les plus précises, les plus spécialisées. WordNet possède une telle taxinomie uniquement pour les noms et les verbes.

Les relations sémantiques d’holonymie et de méronymie concernent seulement des noms. Elles relient un concept holonyme représentant un tout à un concept méronyme qui constitue une partie du tout. La relation qui va dans le sens de l’entièreté est l’holonymie et celle qui va vers la partie est la méronymie. L’ensemble de ces relations partie-tout forme la partonomie, qui est aux relations d’holonymie et de méronymie ce que la taxinomie est aux relations d’héritage. La partonomie est réalisée sous forme d’arbres dont la racine est le terme le plus englobant, les nœuds des sous-parties plus ou moins subdivisibles et les feuilles les concepts les plus élémentaires, indivisibles. Seuls les noms sont dotés d’arbres partonomiques.

L’antonymie est la seconde relation lexicale présente dans WordNet. Elle associe donc deux lexèmes – généralement des adjectifs, mais aussi des noms et des adverbes qui souvent découlent d’adjectifs antonymes ou des verbes ¹¹ – et non deux ensembles synonymiques. Sa définition est complexe, car si elle définit en principe la relation unissant deux unités lexicales décrivant une valeur de vérité inverse (lexème x et lexème non-x, possible-impossible), elle est couramment appliquée à des unités lexicales qui sont opposées sans pour autant être inverses (man-woman, give-take).

La scalarité est une relation lexicale qui découle de l’antonymie. Deux adjectifs antonymes (hot-cold) peuvent en effet appartenir à une échelle de gradation sur laquelle ils se trouvent à des niveaux équivalents, mais opposés (torrid, hot, warm, tepid, cool, cold, frigid). Il s’agit d’adjectifs contraires, et non contradictoires comme ils le sont lorsqu’ils sont antonymes mais n’appartiennent à aucune échelle de gradation.

L’implication est une relation sémantique réservée aux seuls verbes. Elle découle de l’implication entre deux propositions contenant les verbes concernés :

La notion d’implication fait ici référence à la relation qui existe entre deux verbes V ₁ et V ₂ lorsque la phrase Quelqu’un V ₁ implique logiquement la phrase Quelqu’un V ₂ ([Fellbaum, 1998a], p. 77 ¹²).

Il faut donc qu’il n’y ait pas de situation concevable dans laquelle la première proposition soit vraie et la seconde fausse. [Fellbaum, 1990] note trois types d’implication verbale : la cause, la présupposition et la troponymie. La cause est une relation d’implication qui relie deux verbes dont le premier est causatif et le second résultatif (give-have, donner-avoir). La présupposition relie deux verbes dont l’application du procès du premier implique la réalisation préalable du procès du second (forget-know). La troponymie est une relation qui relie deux verbes dont l’un décrit une réalisation particulière du procès de l’autre (step-walk, boîter-marcher).

Les relations sémantiques ne sont pas les seules informations assignées aux ensembles synonymiques. Les classes sémantiques sont des étiquettes assignées à chacun des synset qui permettent de généraliser les sens de mots recensés dans la ressource et d’établir un rapport de sens entre des ensembles synonymiques qu’aucune des relations sémantiques établies ne permet. Les classes sémantiques sont affectées aux ensembles synonymiques en fonction de leur catégorie grammaticale. Les adjectifs possèdent trois classes sémantiques selon qu’ils sont descriptifs, relationnels ¹³ ou participiaux. Les classes sémantiques pour chaque ensemble synonymique de noms sont les racines des arbres taxinomiques auxquels ils appartiennent, l’hypéronyme le plus élevé (26 classes). Quant aux verbes, ils possèdent des classes sémantiques différentes, qui se rapprochent de domaines (par exemple consumpting pour les verbes d’ingestion physique comme eat manger et drink boire). Elles sont au nombre de 15 : 14 classes pour les actions et événements et 1 pour les états. Enfin, les adverbes ne possèdent pas réellement de classe sémantique. À part les relations de synonymie et d’antonymie, aucune relation sémantique ne les unit, et bien entendu ils n’appartiennent à aucune structure hiérarchique. De ce fait, ils n’appartiennent à aucune classe sémantique dans WordNet.

Certaines autres informations apparaissent aussi dans la base de données WordNet. On a tout d’abord une courte définition pour chacun des sens de chacune des entrées lexicales accompagnée d’un exemple de l’emploi du lexème dans le sens étudié. On peut également trouver un indice de familiarité de chaque unité lexicale dans une catégorie grammaticale donnée. Cet indice est donné à partir de la polysémie du lexème dans [Hanks, 1986], chaque nouveau sens dans ce dictionnaire incrémentant de un l’indice de familiarité [Tengi, 1998]. Il est toutefois dommage que cet indice de familiarité s’applique à l’unité lexicale plutôt qu’à chaque sens de cette unité.

EuroWordNet, un héritier critique

Le succès remporté par WordNet dans le monde anglophone est à l’origine de l’initiative EuroWordNet¹⁴ [Vossen, 1998], qui vise à fournir pour plusieurs langues européennes un équivalent de WordNet. L’architecture de base de WordNet se retrouve ainsi transférée dans chacun des réseaux de EuroWordNet, en particulier la notion d’ensemble synonymique ou synset dont [Vossen, 1998] donne une définition calquée sur celle de [Miller et al., 1990] (cf. page §) :

Un synset est un ensemble de mots de même catégorie grammaticale que l’on peut interchanger dans un contexte déterminé ([Vossen, 1998], p. 73).

Entre ces ensembles synonymiques qui constituent les nœuds du réseau sémantique sont établies des relations d’ordre conceptuel comme on en trouvait déjà dans WordNet : hyponymie et hypéronymie, méronymie et holonymie, implication, causalité, etc. La présence de liens hiérarchiques implique l’existence de taxinomies hypéronymiques et méronymiques.

Certaines différences provenant du multilinguisme de ce projet ou de critiques vis-à-vis de WordNet existent toutefois dans le projet de conception de EuroWordNet. La première est liée à l’index inter-langue (ILI), qui permet pour un concept donné de passer d’une langue à une autre. Cet index n’est pas structuré et donne simplement un numéro d’index à chaque ensemble synonymique. La structure reste donc monolingue, ce qui est important pour nous dans la mesure où nous ne traitons que le français.

Les critiques apportées à WordNet concernent surtout le manque de domaines, le compartimentage des catégorie grammaticale et la distinction trop fine des sens pour pouvoir être efficacement utilisée notamment en désambiguïsation de sens. Certaines relations sémantique peuvent également être redéfinies pour mieux correspondre à une réalité linguistique ou conceptuelle [Habert, 2000]. On a ainsi certaines relations nouvelles comme presque synonyme, concerné par, ou une répartition à l’intérieur d’une même relation, par exemple la méronymie qui se subdivise en localisation, fait à partir de, membre de et partie de. Notons que le projet EuroWordNet ne s’est penché que sur les verbes et les noms.

Cependant, le réseau sémantique français a suivi une voie de construction particulière du fait de son arrivée tardive dans le projet EuroWordNet. Du fait du manque de temps, ses concepteurs n’ont pu adapter complètement sa conception aux remarques faites sur WordNet et sur les besoins d’une telle ressource. La réalisation du réseau français a donc consisté en une traduction des ensembles synonymiques de WordNet 1.5 à l’aide d’une autre ressource, le Dictionnaire Intégral dicologique^TM ¹⁵ [Catherin, 1999]. Le calcul d’une distance entre les synsets de WordNet et ceux du Dictionnaire Intégral déterminent le maintien ou non d’un ensemble synonymique français. Ensuite, une validation manuelle est effectuée, notamment pour la reconstruction de l’hypéronymie, surtout dans le cas de concepts manquants, et de l’antonymie qui doit être intégralement redéployée. L’adjonction de la terminologie informatique est la dernière opération effectuée sur le réseau sémantique français. Il comporte de la sorte 22 745 ensembles synonymiques pour 18 777 entrées lexicales, soit nominales, soit verbales.

Les caractéristiques de EuroWordNet français sont très semblables à celles de WordNet. Comme pour son prédécesseur anglais, nous déplorons l’absence de domaines taxinomiques dont la présence permettrait une généralisation moins stricte que les relations sémantiques hiérarchiques existantes, ainsi que le manque de données syntaxiques et syntaxico-sémantiques indispensables à une désambiguïsation sémantique correcte. Les informations contenues dans cette ressource sont certes intéressantes, malgré la limitation à deux catégorie grammaticale seulement et l’étroitesse du lexique couvert (moins de 19 000 entrées ne correspondent pas même à un tiers d’un dictionnaire général comme le Petit Robert ¹⁶), mais elles ne peuvent intervenir qu’en tant que complément à une autre ressource lexicale qui traite une plus grande part du lexique et fournit une information à la fois morphologique, syntaxique et sémantique.

3.4.4 AlethDic, une information importante mais peu cohérente

La société Gsi-Erli ¹⁷ a développé naguère une ressource lexicale électronique en langue française dont dispose XRCE. Ce dictionnaire répond aux normes de description d’un dictionnaire générique édictées par le projet eureka genelex [Menon et Modiano, 1993, GENELEX, 1994]. Ce projet a pour but de concevoir le modèle conceptuel d’un fonds lexicographique dont la vocation est de servir de dictionnaire générique pour des applications informatiques traitant le langage naturel. Ces normes prescrivaient un minimum de redondance de l’information, d’où un format lexicologique en couches communicantes depuis le niveau lexical présentant les entrées de la ressource et passant par un niveau morphologique et un niveau syntaxique pour arriver aux données sémantiques, chaque donnée n’étant présente qu’une fois par couche. Le réalisme est également une priorité dans la constitution de cette base lexicale. En effet, l’objectif est de privilégier les besoins des utilisateurs d’un dictionnaire électronique. De ce fait, le projet ne tient aucun compte des théories linguistiques ou lexicologiques plus ou moins émergentes et concurrentes (théorie sens-texte, dictionnaire génératif etc.) et se borne à constituer une base de données lexicale très vaste et très complète. L’objectif de généricité d’un tel dictionnaire le destine à récupérer les informations des divers dictionnaires plus ou moins disparates et plus ou moins spécialisés dans une seule ressource lexicale.

Le dictionnaire AlethDic est dès lors une ressource de langue française d’environ 55 000 entrées, ce qui en fait un dictionnaire de taille voisine des dictionnaires généraux classiques. Il est réalisé à partir de différents lexiques spécialisés que Gsi-Erli a pu ou dû construire au cours des projets déjà menés. Il forme différentes couches selon le niveau linguistique de l’information.

La couche morphologique traite l’information orthographique (variations orthographiques) et phonologique en plus du comportement flexionnel du lemme, et indique ses catégorie et sous-catégorie grammaticales.

La couche syntaxique indique le comportement syntaxique de l’unité lexicale avec laquelle elle est en rapport. Il s’agit d’une sous-catégorisation des groupes syntaxiques reliés à l’entrée : sujet, compléments direct et indirect et prépositionnels pour les verbes, compléments prépositionnels pour les noms, adjectifs et adverbes, complémentation propositionnelle et modes utilisés, rôles de ces éléments composant le schéma syntaxique.

La couche sémantique décrit les unités lexicales grâce à deux artifices. Elle dispose d’abord d’une hiérarchie de classes sémantiques formant une taxinomie et de traits spécifiques qui permettent de raffiner l’information à l’intérieur de la hiérarchie. Ensuite, 192 domaines permettent de relier les substantifs uniquement à l’univers particulier dans lequel ils évoluent.

Malgré toute cette richesse d’information, nous avons décidé de ne pas exploiter cette ressource. En effet, outre la disparité extrême d’AlethDic du fait de sa construction à partir d’une multitude de dictionnaires spécialisés, nous rencontrons d’importantes lacunes dans la couche syntaxique du dictionnaire, ainsi que des incohérences dans les schémas syntaxiques de sous-catégorisation. Enfin, c’est de l’information sémantique que nous avons le plus grand besoin. Or le fait de ne pas disposer de la couche sémantique pour les verbes et de ne pas avoir de hiérarchie pour les domaines – exclusivement réservés aux noms, de surcroît – nous amène à rejeter cette ressource par trop hétérogène pour l’utilisation que nous désirerions en faire.