4.2 Correction de ressources

Les corrections que nous désirons apporter à certaines ressources lexicales ont été abordées dans le chapitre 3 pages § à § lorsque nous avons signalé au cas par cas les défauts que nous y rencontrions. Il s’agit d’abord de corriger le problème structurel de la distribution des synonymes, liée habituellement au lemme et non aux significations de ce lemme. Ce défaut apparaît dans la liste des synonymes, qui donne une proximité de sens à des mots qui n’en ont pas forcément dans le cas d’une entrée polysémique. L’autre erreur qu’il faut neutraliser a également été signalée auparavant. Nous avons en effet constaté que les informations du Dubois permettant de générer les formes dérivées à partir du lemme étaient sporadiquement fausses, ou du moins insuffisamment précises pour permettre la construction directe de ces mots. Nous avons pu remédier à ces problèmes.

4.2.1 Distribution sémantique des synonymes

Au vu de notre méthodologie d’enrichissement de l’information, dont une des caractéristiques prépondérantes consiste à exploiter une synonymie sémantiquement distribuée, le problème le plus saillant que nous ayons à considérer dans les ressources lexicales – excepté le Dubois – réside dans le mélange qui est fait des synonymes au sein de chaque entrée sans tenir compte d’une éventuelle polysémie du mot-vedette. Cet enchevêtrement atteint son paroxysme dans le Bailly, où aucune distinction de catégorie grammaticale n’est réalisée ni dans les synonymes, ni dans les entrées elles-mêmes. Des ressources comme le dictionnaire Memodata ou EuroWordNet français lient toutefois les groupes de synonymes à un sens plutôt qu’à un lemme, mais ne distinguent pas toutefois les différents sens d’un même lemme, si ce n’est par un numéro servant de pivot entre les langues.

Or, comme nous l’avons dit, nous nous employons à définir une approche contextuelle de l’enrichissement des textes. Cette approche vise à mettre en correspondance chacune des unités lexicales du texte avec l’ensemble des expressions qui lui sont synonymiques dans le sens que cette unité lexicale présente dans ce contexte. Pour ce faire, à l’intérieur de chaque entrée, il s’agit de définir les ensembles d’expressions synonymiques propres à chaque acception. La distribution des synonymes aura donc lieu non plus en fonction du mot-vedette uniquement, mais bien selon les acceptions de ce mot.

Afin de réaliser cette opération de redistribution synonymique, nous avons décidé d’exploiter l’information de notre ressource de référence, le Dubois, car il est le seul dictionnaire dont nous disposons à répartir l’ensemble de son information conformément à la signification des lemmes. Dans le cas présent, l’information que nous pouvons utiliser est sémantique, puisque c’est une distribution conforme à chacune des acceptions qui doit être effectuée.

Pour ce faire, nous avons mis au point une méthode de filtrage basée sur des informations d’ordre sémantique fournies par notre dictionnaire de référence, le Dubois. Ces informations sémantiques sont principalement les domaines d’application (pour l’ensemble du lexique) auxquels s’ajoutent les classe syntaxico-sémantiques (pour les verbes uniquement). Elles permettent de classifier de manière générale 1 les différents sens des entrées polysémiques ou d’étiqueter le sens unique des entrées monosémiques et d’identifier leur sémantique propre.





Entrée
Synonymes
Information sémantique



Dubois

ravir01

enlever, retirer

SOCt – S1a

ravir02

dérober, voler

SOCt – S4a

ravir03

charmer, enchanter

PSY – P2a




Memodata

ravir

émerveiller

13520

ravir

enchanter, jeter dans le ravissement, passionner, plonger dans le ravissement

14304




Bailly

ravir

charmer, enlever, s’approprier




EuroWordNet

ravir

exalter, enivrer

@20989@





Tab. 4.1: Synonymes du lemme « ravir » dans nos différentes ressources.

Face à des ressources lexicales qui proposent des groupes de synonymes liés strictement aux lexèmes sans égard particulier pour les éventuelles variations de sens de ces lexèmes, nous nous trouvons donc à même de constituer des ensembles parmi ces groupes. Ces ensembles sont constitués autour des étiquettes sémantiques dont sont porteuses les unités lexicales synonymiques dans le Dubois : le domaine d’application et, dans le cas des verbes, la classe syntaxico-sémantique. Cette particularité permet dès lors d’affecter chaque synonyme d’un mot aux seuls sens de ce mot qui partagent une étiquette sémantique avec le synonyme.

Notre méthode de classification des synonymes s’effectue comme suit. À chacun des candidats synonymes pour un mot donné dans une acception donnée, est associé son domaine dans le Dubois, et dans le cas d’un verbe, ses classe et sous-classe sémantiques. Hors du cas particulier des verbes, on conserve les candidats synonymes dont le domaine est le même que celui du mot de départ dans le sens considéré. Le domaine d’application est en effet le seul lien sémantique qu’il est possible d’établir entre un mot et son synonyme. Pour la catégorie verbale en revanche, si le domaine d’application apparaît également, la classe sémantique semble dénoter la sémantique de l’entrée elle-même plutôt que son contexte, du moins dans les deux premiers niveaux hiérarchiques, le dernier étant purement syntaxique. Nous avons donc tenté dans un premier temps de sélectionner comme synonymes les candidats présentant de mêmes classes et sous-classes sémantiques que celles du mot de départ dans le sens considéré. Le bilan de ce filtrage était probant en ce qui concernait la qualité de la distribution sémantique des synonymes, mais nous constations un problème de rappel, certains candidats intéressants étant rejetés par ce filtrage. L’examen effectué nous a donc amené à instaurer un autre cas de sélection des candidats synonymes. Nous avons décidé de maintenir également les candidats présentant le même domaine que le mot de départ à condition que, en outre, la classe sémantique (mais pas forcément la sous-classe) soit la même que celle du mot de départ dans le sens considéré. L’examen du dictionnaire ainsi filtré confirme le bien fondé de cette méthode 2.











Synonyme
Domaine
Classe
Synonyme
Domaine
Classe
Synonyme
Domaine
Classe









s’approprier

SOC

S3a

enlever (suite)

SOC

S1a

retirer (suite)

COM

E3c

ECN

U4b

PATt

F1b

DRO

D3f

charmer

PSY

P2a

MIL

S3g

MON

E4b

OCC

P2c

SOC

S4a

IND

E3c

dérober

MON

D2c

MAN

E3c

ECN

D2e

SOCf

S1a

PSYt

P2a

SOC

S4h

SOM

D3f

MUS

R4a

LIT

F4b

EQU

M1a

LIT

D2c

TYP

R3a

PAT

M3a

OBJ

D2c

LOC

E3a

SOC

S2b

exalter

LIT

C1i

SOC

E2a

BAT

R4c

OSY

P1a

LOC

E1a

LOCp

E1a

PSYt

P2c

MIL

E1a

PSYp

M2b

SOM

P2c

OCE

E3a

émerveiller

PSY

P2a

COL

M3c

voler

MON

D2c

PSY

P1c

PSY

P1a

MON

N1b

enchanter

OCC

H2h

jeter dans le ravissement

LIT

S4a

PSY

P1c

passionner

PSY

P1c

SOC

D2c

PSY

P2c

SOC

P2c

MON

N1b

enivrer

PSY

P1c

PSY

P1a

ZOO

M1a

BOI

T1b

plonger dans le ravissement

AER

M3a

enlever

SPO

S3d

retirer

JEU

E3c

AER

E3d

LOC

E3c

LOC

E3c

OBJ

M3a

TEX

F3c

LOC

E3c

LOC

E1d

HAB

D2d

HAB

D2d

SOC

E2c

CHI

D2d

OBJ

D2c

VEH

E3a

SOC

S4a

DRO

S1a

ECN

S1a

SOC

S4a

DRO

S1a

SOC

E2b











Tab. 4.2: Étiquetage par le Dubois des différents synonymes proposés.

Le traitement des expressions synonymiques composées de plusieurs lexèmes se démarque toutefois de la méthodologie de filtrage exposée ci-dessus pour contextualiser les synonymes. En effet, nous ne pouvons obtenir une étiquette sémantique cohérente, classe ou domaine selon les cas, pour les expressions à mots multiples car notre dictionnaire de référence, le Dubois, traite exclusivement les unités lexicales au travers de ses entrées. Cependant, notre approche vise surtout à restreindre un enrichissement excessif du texte en s’appuyant sur les indices fournis par le contexte. Si la délimitation idéale concerne un enrichissement lié au sens exact d’un lexème dans le texte, il ne s’agit pas de trancher dans les cas où une certaine ambiguïté sémantique se maintient, malgré la désambiguïsation. Cela signifie que plusieurs interprétations sémantiques peuvent être conservées lorsque les indices contextuels ne permettent pas de réduire les hypothèses à une seule acception. Notre stratégie ne nous permet pas de décider du sens qui se rapproche le plus d’une expression synonymique. Aussi avons-nous décidé de conserver les expressions à mots multiples synonymiques d’un mot comme synonymes pour chaque sens de ce mot.

Dans le même ordre d’idée, si le lexème correspondant à un synonyme n’est pas recensé dans le Dubois et ne porte de ce fait ni domaine, ni classe sémantique, il sera pareillement versé dans chacun des ensembles synonymiques de l’entrée du dictionnaire de synonymes dans laquelle il apparaît et en portera l’étiquette sémantique. En effet, il n’est pas possible d’affirmer ou d’infirmer l’appartenance d’un synonyme ou d’une expression synonymique à un ensemble sans disposer du moindre indice concernant son sens.

Une dernière difficulté peut encore apparaître au cours de ce type de traitement de la synonymie. Il est possible qu’un synonyme proposé soit lui-même polysémique, et de ce fait possède plusieurs étiquetages sémantiques distincts. Or dans le cas de l’enrichissement de dictionnaires, la désambiguïsation entre ses différents sens n’est pas possible puisqu’il n’y a pas de contexte permettant d’effectuer un choix parmi eux. Une fois de plus, nous avons décidé de conserver le plus grand nombre de synonymes au détriment peut-être de l’exactitude des ensembles de synonymes. En effet, nous partons du principe que si un des sens du synonyme est considéré comme proche de celui d’un sens donné de l’entrée, il est probable que ce sens ait provoqué le lien de synonymie. Nous versons donc un synonyme proposé dans un ensemble lorsque un de ses sens au moins présente la même étiquette sémantique que cet ensemble, en estimant que c’est cette signification qui constitue le synonyme de l’unité lexicale de départ.

L’exemple de ravir (table  4.1 page §) illustre bien la difficulté qu’il y a à mettre en concordance toutes les ressources lexicales en ce qui concerne l’information synonymique. À travers cet échantillon, nous montrons facilement en quoi consiste notre méthode de répartition des synonymes proposés. La première démarche consiste, à partir de chacune des propositions de synonyme, à établir un étiquetage sémantique correspondant aux informations du Dubois (les domaines et classes sémantiques dans la table  4.2 page §). Pour la deuxième acception de ravir dans le Dubois (table 4.1 page §, en gras), nous avons un domaine SOC pour sociologie, et une classe S4 – nous avons dit que le troisième niveau dans la hiérarchie de classes, exclusivement syntaxique, n’était pas pris en compte – pour saisir, serrer, posséder (S) avec un actant non animé dans un sens figuré (4). Les classe et sous-classe sémantiques permettent de regrouper sous ce sens les propositions de synonymes enlever, retirer, voler (table  4.2 page §, en gras). Ces synonymes ont été sélectionnés à bon escient, mais d’autres candidats tout aussi valables ne l’ont pas été avec cette première procédure.

L’adjonction d’un processus exploitant les domaines – le même processus que pour les autres catégorie grammaticale – permet d’ajouter aux synonymes s’approprier, dérober, passionner. Dans ce cas précis, passionner est erroné, et nous notons qu’aucune de ses acceptions ne le relie à la classe sémantique de ravir dans le premier sens du Dubois (pas de classe en S). Nous préférons donc exploiter à la fois le domaine et la principale classe sémantique, ce qui nous amène à conserver parmi les candidats, en plus des synonymes de classe, s’approprier, dérober (en caractères obliques), du fait de leur étiquetage semblable que ce soit au niveau du domaine (SOC) et de l’appartenance à la même classe (S). Les expressions synonymiques à mots multiples sont également conservées. Dans le cas présent, elles sont inexactes, mais ne peuvent être rejetées a priori. Elles correspondent au troisième sens de ravir dans le Dubois.

La figure  4.1 page § montre les tableaux d’évolution du contenu des dictionnaires lors de la phase de filtrage et également en fonction du type de filtrage appliqué. Il indique aussi la proportion de recouvrement des dictionnaires synonymiques les uns par rapport aux autres.


Potentiel synonymique des ressources avec et sans filtrage :









Dubois
EuroWordNet
Memodata
Bailly









Total ressource
173 390
26 749
7 450
28 420
Filtrage 1er type
173 390
17 791
5 535
22 157
Filtrage 2ème type
173 390
18 811
5 776
22 868









Mesures du recouvrement synonymique au filtrage de 1er type :









Dubois
EuroWordNet
Memodata
Bailly









Dubois 173 390100% 8 231 46,26%2 94453,19% 7 109 32,08%
EuroWordNet 8 231 4,75%17 791 100% 2 10638,05% 2 971 13,41%
Memodata 2 944 1,70% 2 106 11,84%5 535 100% 1 102 4,97%
Bailly 7 109 4,10% 2 971 16,70%1 10219,91%22 157 100%









Mesures du recouvrement synonymique au filtrage de 2ème type :









Dubois
EuroWordNet
Memodata
Bailly









Dubois 173 390100% 8 665 46,06%3 10253,70% 7 399 32,35%
EuroWordNet 8 665 5,00%18 811 100% 2 20438,16% 3 124 13,66%
Memodata 3 102 1,79% 2 204 11,72%5 776 100% 1 149 5,02%
Bailly 7 399 4,27% 3 124 16,61%1 14919,89%22 868 100%










Fig. 4.1: Filtrage des ressources synonymiques et taux de recouvrement de la synonymie.


4.2.2 Dérivation morphologique pour un enrichissement paraphrastique

Dans notre prospection de techniques permettant de donner à un texte les formes de surface les plus diverses sans en modifier la signification, l’usage de la synonymie est prépondérant. Nous venons de décrire la méthode par laquelle nous entendons améliorer les dictionnaires qui ne sont pas aptes de prime abord à servir notre approche. Un autre procédé proposé pour atteindre notre but consiste à exploiter la parenté sémantique d’une unité lexicale – nous l’appelons « mot original » – avec ses dérivés [Church, 1995Gaussier et al., 1997Gaussier et al., 2000]. Cette proximité sémantique a été constatée également dans le Dubois qui, pour les lemmes polysémiques, relie les dérivés de la même unité lexicale tantôt à une acception, tantôt à une autre en fonction du sens de chaque forme dérivée.

Cependant, nous avons signalé au cours de l’examen du Dubois que l’information destinée à permettre la génération des formes dérivées était occasionnellement erronée ou imprécise. Ces défauts ne remettent pas en cause l’existence de dérivés du type signalé, mais ils empêchent souvent de générer la forme correcte. Pour effectuer cette génération, nous avons donc été amené à faire appel à l’outil de dérivation morphologique conçu par Éric Gaussier [Gaussier, 1999] dont nous avons décrit les fonctionnalités dans la section  3.3 page §. Cet outil est capable de nous fournir des formes dérivées avérées, que nous devons redistribuer, voire filtrer, selon les modalités prescrites dans le dictionnaire Dubois.


Pour le verbe « couper » :



Formes générées
Instruction Dubois
Numéro de sens Dubois



coup suppression
coupure dérivé nominal en -ure 1, 7, 9, 10, 12, 14, 16
coupable suppression
coupage dérivé en -age 15
coupant adjectif verbal en -ant 1, 2
coupe dérivé nominal (– 1 lettre)1, 3, 9, 19
coupeur dérivé nominal en -eur 1, 29
coupé adjectif verbal en -é 14, 16, 19
coupée suppression
coupon suppression
couponnage suppression




Tab. 4.3: Génération et distribution ou filtrage par le dictionnaire Dubois des dérivés proposés.

L’exemple présenté dans la figure  4.3 page ci-contre illustre bien de quelle manière les indications de la ressource lexicale permettent de filtrer les erreurs de surgénération d’un outil que nous employons sous contrainte minimale, avec pour seule exigence qu’il produise des unités lexicales avérées dans la langue. Ainsi, coupable n’est pas retenu par notre filtre car sa génération à partir d’un radical coup- et d’un suffixe -able ne correspond pas à la réalité de cette unité lexicale. On constate également que les formes dérivées sont distribuées exclusivement sur les acceptions du mot original pour lesquelles le Dubois en indiquait l’existence. On peut en effet constater que le mot coupeur dérive des sens 1 (synonymes rompre, trancher) et 29 (synonyme tailler un vêtement), mais pas d’autres significations de couper, comme par exemple 16 (synonyme interrompre) pour lequel interrupteur conviendrait mieux. Cette distribution permettra de sélectionner selon leur parenté de sens les dérivés lors de la désambiguïsation sémantique, comme c’est déjà le cas pour les synonymes.

La sélection sémantique des dérivés constitue en soi une amélioration importante de la technique d’enrichissement telle qu’elle est présentée dans [Gaussier, 1999] ou dans [Snover et al., 2002]. Le contrôle de ces dérivés grâce à l’exploitation de l’information d’une ressource lexicale décrivant les relation du mot original est aussi un perfectionnement notable. Toutefois, ni l’utilisation basique de la dérivation morphologique, ni ces évolutions ne tiennent compte des variations sémantiques qu’un dérivé accuse par rapport à son original. Or un mode d’enrichissement d’un énoncé idéal permet de remplacer dans le texte le segment à enrichir par l’enrichissement qui en découle sans que le sens de l’énoncé n’en soit modifié. Il s’agit donc d’étudier les paramètres susceptibles de modifier la signification de l’énoncé lors de la dérivation et de neutraliser leurs effets. Par exemple, pour un énoncé original le train entre en gare et une dérivation entrée, la génération d’un énoncé virtuel implique un schéma syntaxique différent pour conserver le sens original : l’entrée du train en gare. Cette modification de schéma syntaxique peut provenir soit de l’évolution du sens de l’unité lexicale lors de sa dérivation, soit du changement de catégorie grammaticale lors de cette dérivation.

Identification sémantique des formes dérivées

Dans la section  3.3 page § consacrée à la morphologie dérivationnelle, nous avons signalé que le mode de fonctionnement de l’outil de génération des formes dérivées se base exclusivement sur une racinisation (stemming) du mot original suivie d’une suffixation. Cette technique de dérivation correspond bien aux indications dérivationnelles du Dubois, qui sont suffixales elles aussi. Le Dubois fait toutefois une petite entorse à ce principe : il est possible de construire des formes dérivées négatives à partir d’un mot original, grâce à une préfixation. Or l’outil de morphologie dérivationnelle dont nous disposons n’est pas capable d’effectuer cette opération.

Le champ informationnel du dictionnaire Dubois prévoit en effet de générer certaines formes négatives à l’aide d’un préfixe a- ou in-, ou une variation morphologique sur un de ces préfixes. Cette information est cependant insuffisamment précise dans la ressource pour pouvoir être exploitée directement. L’utilisation de l’outil de morphologie dérivationnelle ne permettant pas la préfixation, son exploitation ne pourra remédier au problème dans le cas présent. Toutefois, la sémantique d’une forme négative générée est inversée par rapport à la forme originale, et dès lors seule la négation d’une forme positive permettrait de mettre en rapport la forme positive et la forme négative. Or la grammaire française de XIP ne gère pas actuellement la négation. La sémantique des formes négatives est donc difficilement exploitable dans un contexte. Nous reconnaissons toutefois l’importance de cette lacune, qu’il serait intéressant de voir combler.

Le choix à la fois lexical et fonctionnel de baser la dérivation sur la suffixation nous a conduit à étudier les implications sémantiques de cette suffixation. En effet, si les formes dérivées ne présentent pas exactement la même signification que leur mot original, trois paramètres tangibles peuvent nous guider dans les mécanismes d’évolution du sens : la nature du suffixe utilisé, la catégorie grammaticale du mot original et celle de la forme dérivée.

Dans un premier temps, nous avons cherché à déceler des constantes dans le glissement sémantique qu’implique l’adjonction d’un suffixe à un mot donné. Pour ce faire, nous nous sommes basé sur les observations de [Grevisse et Goosse, 1991] §§168-170 pour l’ensemble des dérivations suffixales proposées par le dictionnaire Dubois. Nous avons classifié ces dérivés d’une part selon la catégorie grammaticale du mot original, et de l’autre selon celle de la forme dérivée. Les indications en caractères obliques correspondent aux observations où nous nous sommes démarqué de Grevisse.

Formation des dérivés adjectivaux dans la section « verbes » du Dubois :

–able
sert [...] à faire des adjectifs exprimant une possibilité passive (« qui peut être... ») à partir de verbes (portable).
é
se trouve dans les participes passés, éventuellement employés comme adjectifs (latinisé).
–ant
est la désinence des participes présents, éventuellement employés comme adjectifs (étincelant).

Formation des dérivés nominaux dans la section « verbes » :

–age
pour former des noms indiquant l’action à partir de verbes (abordage).
–ment
pour tirer des verbes [...] des noms exprimant l’action ou le résultat (abrutissement).
–ion
sert surtout à faire des noms d’action à partir de verbes (abdication).
–eur
suffixe ordinaire des noms d’agent (accompagnateur). Il sert aussi pour les appareils (pulvérisateur).
–oir
forme des noms désignant des noms d’endroit et des instruments (abattoir, sarcloir).
–ure
indique soit une action subie (contracture), soit le résultat concret de l’action (écriture).

Formation des dérivés verbaux dans la section « mots » :

–er
a formé et continue de former de nombreux verbes (abandonner).
–iser
a connu un développement considérable en français moderne (verbaliser).
–ifier
s’est surtout développé à l’époque moderne (densifier).

Formation des dérivés adjectivaux dans la section « mots » :

–al
et –el pour former des adjectifs dérivés de noms (frontal, industriel).
–aire
forme des adjectifs qui ont avec la base des rapports variés (actionnaire).
–ique
pour former des adjectifs, notamment dans la terminologie scientifique et technique (rabique).
–if
forme des adjectifs sur des bases verbales ou nominales (répulsif, narratif ).
–(i)en
et –ain sont devenus des suffixes autonomes marquant l’appartenance (alsacien, diocésain).
–able
et –ible servent [...] à faire des adjectifs exprimant une possibilité passive (« qui peut être... »). -ible est souvent tiré d’un nom en -ion par substitution du suffixe (perfectible, organisable).
–ois
et –ais se joignent à des noms pour former des noms et adjectifs désignant les habitants ou leur langue (genevois, français).
âtre
a donné des adjectifs exprimant la diminution et l’approximation, souvent avec une nuance péjorative (blanchâtre).
–eux
fournit des adjectifs indiquant une qualité, parfois l’abondance (courageux).
–eur
est le suffixe ordinaire des agents (pêcheur).
–u
forme des adjectifs tirés de noms (barbu).
–esque
sert à former des adjectifs à partir de noms propres, souvent avec une nuance dépréciative (carnavalesque).
–(i)er
forme des adjectifs exprimant une qualité, un rapport (plaisancier).
–in
marque un rapport : ressemblance, matière, origine (adultérin).
–oire
forme des adjectifs tirés de verbes, le plus souvent savant, auxquels correspondent des substantifs en -tion (tentatoire).
–ard
forme des adjectifs, souvent avec une nuance péjorative (fêtard).
–uple
forme des adjectifs et des noms à partir de nombres (centuple).
–i(a)que
forme des adjectifs dérivés de noms en -ie (orgiaque).
–iste
sert [...] à former des adjectifs indiquant simplement une relation (« qui concerne... ») (abstentionniste).
–ile
sert à former des adjectifs indiquant la capacité à effectuer une action (préhensile).

Formation des dérivés nominaux dans la section « mots » :

–(i)té :
les dérivés sont des noms abstraits tirés d’adjectifs (absurdité).
–isme
sert à former des noms masculins, indiquent soit une notion abstraite, soit une doctrine, une activité, une attitude morale ou politique, soit une tournure propre à une langue ou à un parler (racisme).
–ie
suffixe savant, on l’emploie aussi pour des noms de pays et de région (myopie, Wallonie).
–at
forme des noms dérivés de verbes pour indiquer une action ou un produit, de noms pour désigner des fonctions (au sens large), parfois le territoire sur lequel elles s’exercent (électorat, actionnariat).
–ier
forme des noms désignant des personnes (qui ont une activité en rapport avec la réalité désignée par le mot de base), des contenants, des arbres, des ustensiles divers (menuisier, fraisier).
–nce
s’ajoute à des verbes pour former des noms marquant l’action ou son résultat (abondance).
–aie
forme des noms désignant une collection, une plantation de végétaux désignés par la base (orangeraie).
–eur
produit des noms féminins abstraits dérivés d’adjectifs (blancheur) ;
est le suffixe [...] des noms d’agents et sert aussi pour des appareils (inspecteur, aspirateur).
–esse
donne des noms féminins abstraits tirés d’adjectifs (paresse).
–ure
indique soit une action subie, soit le résultat concret de l’action, ou un collectif (épluchure, agriculture).
–ard
forme des noms souvent avec une nuance péjorative (bagnard, thésard).
–iste
désigne des personnes qui ont une activité, une attitude ou une doctrine en rapport avec la réalité désignée par la base (pianiste, raciste).
ère
forme des noms féminins désignant des personnes (qui ont une activité en rapport avec la réalité désignée par le mot de base), des contenants, des arbres, des ustensiles divers (étagère, ardoisière).
–ice
forme des noms qui désignent le caractère de ce que l’adjectif détermine (avarice).
–ise
donne des noms abstraits, tirés d’adjectifs (bêtise).
–itude
donne des noms abstraits tirés d’adjectifs ou de noms (aptitude).
–ion
sert [...] à faire des noms d’action à partir de verbes (réaction).
–ment
pour tirer des verbes [...] des noms exprimant l’action ou le résultat (déménagement).
–age
pour former des noms indiquant l’action à partir de verbes (déballage).
é
forme des noms en rapport avec le mot d’origine (duché).
–al
forme principalement les noms d’alcools à partir d’éléments chimiques (chloral).
–ade
forme des noms indiquant une action (à partir de verbes) (bousculade), un produit, parfois une collection (à partir de noms) (cotonnade).
De cette étude, il ressort surtout que les cas sont rares où on peut déduire, même de manière imprécise et sommaire, la signification d’un dérivé à partir de ces seuls paramètres. En effet, nous n’avons pas été capable de définir un panorama cohérent de l’évolution sémantique due à la dérivation suffixale. Il est souvent hasardeux, subjectif ou même contradictoire de donner systématiquement une signification à ces suffixes. L’ajout d’un paramètre supplémentaire dans le cas de dérivations à partir de verbes ou donnant un verbe n’a pas permis de classification plus efficace. De plus, ce sont souvent des considérations historiques, culturelles, sociales apparemment aléatoires, en tout cas difficilement prévisible a priori qui interviennent dans l’explication de la formation des dérivés. Tout cela concourt à nous empêcher de déterminer avec suffisamment d’autorité des comportements sémantiques sûrs.

Nous nous sommes dès lors résigné à ébaucher des familles vastes et peu définies à partir des catégorie grammaticale, au sein desquelles la sémantique dérivationnelle reste assez vague et s’appuie essentiellement sur le sens du mot qui en constitue la base.

Nous avons donc abandonné l’idée d’exploiter le suffixe pour définir des schémas d’évolution sémantique de dérivation, car cette information est trop précise et trop diverse à la fois, pour tirer profit de la catégorie grammaticale du mot original et de celle de sa forme dérivée. Ainsi, nous avons :

 
Ces familles de sens très générales nous permettent d’appréhender partiellement la signification des formes dérivées, l’identification du sens des mots originaux donnant lieu à une identification plus précise de la signification de chacune des unités lexicales générées. On peut dès lors envisager d’utiliser les formes dérivées dans le cadre de l’enrichissement.

Détermination d’un schéma syntaxico-sémantique

La maîtrise de la seule sémantique d’une forme dérivée ne peut toutefois suffire à l’enrichissement d’un énoncé. En effet, pour permettre de mettre en correspondance une question et son élément de réponse présent dans le texte, il s’agit de créer virtuellement un énoncé correspondant au texte original où la forme dérivée prend la place du mot original. Cependant, l’intégration brute de cette forme dans un contexte est susceptible d’altérer fortement le sens premier de ce contexte. L’énoncé virtuel, créé à partir du texte original, devra donc intégrer les différences de surface exigées par la forme dérivée pour maintenir la signification de départ. Ces modifications de surface s’affirment surtout dans les transformations que les relations entre les composantes de l’énoncé original doivent subir pour aboutir à un énoncé virtuel.

Il s’agit donc de modifier le schéma syntaxique et syntaxico-sémantique de la phrase pour que l’intégration de la forme dérivée soit optimale. Pour ce faire, il s’agit d’identifier les schémas syntaxiques typiques que les unités lexicales originelles présentent et de déterminer les transformations que ces schémas subissent lors de la modification de l’énoncé par dérivation de l’unité originale. Dans la perspective du recensement des constantes de modification du contexte syntaxico-sémantique, nous ne pouvons utiliser que les paramètres tangibles qui déjà ont dirigé notre examen de la sémantique de la dérivation suffixale : la catégorie grammaticale du mot original, la nature du suffixe utilisé, la catégorie grammaticale de la forme dérivée. Nous y ajoutons le schéma de sous-catégorisation prescrit par le dictionnaire Dubois, déjà utilisé pour les verbes dans la tentative de détermination du sens des dérivés par le suffixe.

Pour effectuer cet examen, nous avons effectué une recherche systématique d’exemples réels sur Internet, considéré pour l’occasion comme un gigantesque corpus. À chacune des combinaisons possibles des paramètres présentés ci-dessus, nous avons pris aléatoirement dans le dictionnaire trois entrées correspondant à ces paramètres (type de dérivation suffixale, catégorie grammaticale originale et dérivée, sous-catégorisation) et nous avons cherché vingt exemples d’utilisation de ces entrées à l’aide d’un moteur de recherche 3. Nous avons ensuite effectué une analyse syntaxique de ces exemples afin de conserver les dépendances qui concernaient le mot original, puis nous avons remplacé ce mot original par son dérivé et, le cas échéant, modifié la phrase pour qu’elle conserve son sens. Par la suite, nous avons effectué l’analyse syntaxique du nouvel énoncé ainsi constitué pour en extraire les dépendances qui concernent le dérivé. Pour les mêmes paramètres, nous avons retenu pour typiques les schémas syntaxiques récurrents présentant cinq occurrences au moins pour chacune des entrées.


Catégorie de l’original : verbe ; catégorie du dérivé : nom.




Suffixe
Sous-cat.
Relation originale
Relation dérivée




-age Transitif VARG[DIR](vb,X) NMOD[INDIR](nom,PREP,X)
Pronominal SUBJ(vb,X) NMOD[INDIR](nom,PREP,X)
Intransitif SUBJ(vb,X) NMOD[INDIR](nom,PREP,X)
Trans. indirectSUBJ(vb,X) NMOD[INDIR](nom,PREP,X)




-eur Transitif VARG[DIR](vb,X) NMOD[INDIR](nom,PREP,X)
Pronominal SUBJ(vb,X) NMOD[INDIR](nom,PREP,X)
Intransitif tout schéma maintien du schéma
Trans. indirecttout schéma maintien du schéma




-ion Transitif VARG[DIR](vb,X) NMOD[INDIR](nom,PREP,X)
Pronominal SUBJ(vb,X) NMOD[INDIR](nom,PREP,X)
Intransitif SUBJ(vb,X) NMOD[INDIR](nom,PREP,X)
Trans. indirectSUBJ(vb,X) NMOD[INDIR](nom,PREP,X)




-ment Transitif VARG[DIR](vb,X) NMOD[INDIR](nom,PREP,X)
Pronominal SUBJ(vb,X) NMOD[INDIR](nom,PREP,X)
Intransitif SUBJ(vb,X) NMOD[INDIR](nom,PREP,X)
Trans. indirectSUBJ(vb,X) NMOD[INDIR](nom,PREP,X)
VARG[INDIR](vb,PREP,X)NMOD[INDIR](nom,PREP,X)




-oir(e) Transitif VARG[DIR](vb,X) NMOD[INDIR](nom,PREP,X)
Pronominal SUBJ(vb,X) NMOD[INDIR](nom,PREP,X)
Intransitif SUBJ(vb,X) NMOD[INDIR](nom,PREP,X)
Trans. indirecttout schéma maintien du schéma




-ure Transitif VARG[DIR](vb,X) NMOD[INDIR](nom,PREP,X)
Pronominal SUBJ(vb,X) NMOD[INDIR](nom,PREP,X)
Intransitif SUBJ(vb,X) NMOD[INDIR](nom,PREP,X)
Trans. indirectSUBJ(vb,X) NMOD[INDIR](nom,PREP,X)





Tab. 4.4: Correspondance des schémas syntaxiques pour les dérivations nominales des verbes.


Catégorie de l’original : verbe ; catégorie du dérivé : adjectif.




Suffixe
Sous-cat.
Relation originale
Relation dérivée




-able Transitif VARG[DIR](vb,X)NMOD[ADJ](X,adj)
Pronominal SUBJ(vb,X) NMOD[ADJ](X,adj)
Intransitif SUBJ(vb,X) NMOD[ADJ](X,adj)
Trans. indirectSUBJ(vb,X) NMOD[ADJ](X,adj)




-ant Tous SUBJ(vb,X) NMOD[ADJ](X,adj)




-é/-i/ Transitif VARG[DIR](vb,X)NMOD[ADJ](X,adj)
-u/-s Pronominal SUBJ(vb,X) NMOD[ADJ](X,adj)
Intransitif SUBJ(vb,X) NMOD[ADJ](X,adj)
Trans. indirectSUBJ(vb,X) NMOD[ADJ](X,adj)





Tab. 4.5: Correspondance des schémas syntaxiques pour les dérivations adjectivales des verbes.


Dérivés verbaux :



Cat. originale
Relation originale
Relation dérivée



Nom NMOD[INDIR](nom,PREP,X) VARG[DIR](vb,X)
SUBJ(X,Y) & VARG[DIR](X,nom) SUBJ(vb,X)
SUBJ(X,nom) & VARG[DIR](X,Y) VARG[DIR](vb,Y)
SUBJ(X,nom) SUBJ(X,vb)



Adjectif NMOD[ADJ](X,adj) SUBJ(vb,X)



Nom et AdjectifNMOD[INDIR](nom,PREP,X) VARG[DIR](vb,X)
SUBJ(X,Y) & VARG[DIR](X,nom) SUBJ(vb,X)
SUBJ(X,nom) & VARG[DIR](X,Y) VARG[DIR](vb,Y)
SUBJ(X,nom) SUBJ(X,vb)
NMOD[ADJ](X,adj) SUBJ(vb,X)



Dérivés nominaux :



Cat. originale
Relation originale
Relation dérivée



Nom tout schéma synonymie
Adjectif NMOD[ADJ](X,adj) NMOD[INDIR](X,PREP,nom)
Nom et adjectif tout schéma synonymie
NMOD[ADJ](X,adj) NMOD[INDIR](X,PREP,nom)



Dérivés adjectivaux :



Cat. originale
Relation originale
Relation dérivée



Nom NMOD[INDIR](X,PREP,nom) NMOD[ADJ](X,adj)
Adjectif tout schéma synonymie
Adverbe VARG[DIR](X,Y) & VMOD[ADV](X,adv)NMOD[ADJ](Y,adj)
SUBJ(X,Y) & VMOD[ADV](X,adv) NMOD[ADJ](X,adj)
Nom et adjectif NMOD[INDIR](X,PREP,nom) NMOD[ADJ](X,adj)
tout schéma synonymie




Tab. 4.6: Concordance des schémas syntaxiques pour les dérivations non verbales.

Nous avons ainsi dégagé de cet examen la méthode de transformation d’une expression en une autre de même sens par le glissement morphologique d’une composante de cette expression. Les relations syntaxiques impliquant les verbes sont principalement celles qui le relient à son sujet (SUBJ), à son objet direct (VARG[DIR]), à un argument indirect (objet indirect VARG[INDIR] ou complément prépositionnel d’un verbe VMOD[INDIR]) et à un adverbe (VMOD[ADV]). Celles qui mettent en œuvre un nom le relient principalement à un verbe en tant que sujet (SUBJ) et objet direct (VARG[DIR]) ou indirect (VARG[INDIR]). Elles peuvent également le relier à une autre unité syntaxique en tant que tête d’un syntagme prépositionnel (NMOD[INDIR]). Enfin, les connexions relatives à l’adjectif sont essentiellement épithétiques et attributives (NMOD[ADJ] dans les deux cas pour XIP).

Les résultats de nos observations sont présentés dans les tableaux 4.4 page § et 4.5 page § pour les dérivations à partir de verbes et  4.6 page ci-contre pour les dérivations à partir des autres catégorie grammaticale. Ces tableaux constituent une concordance entre les schémas syntaxiques identifiés dans les énoncés contenant les mots originaux et les structures syntaxiques correspondantes dans les énoncés modifiés lors du remplacement du mot original par sa forme dérivée. L’information contenue dans la section verbale du Dubois, plus riche que dans la partie générale, a permis l’exploitation d’un paramètre supplémentaire (les propriétés syntaxiques des verbes) pour distinguer les différentes possibilités de schémas syntaxiques. Ce paramètre s’est révélé pertinent dans la plupart des cas. Pour les verbes, la nature du suffixe est également un paramètre discriminant entre les différents schémas syntaxiques. Pour les autres catégorie grammaticale en revanche, ni la sous-catégorisation, ni le type de suffixation n’ont permis de distinguer de différences de comportement syntaxico-sémantique au cours de la modification des énoncés.

Les dépendances syntaxiques recensées dans ce tableau correspondent aux relations dégagées de l’examen des énoncés que nous avons définies plus haut. Leurs arguments, qui reprennent en abrégé des catégorie grammaticale en lettres minuscules (nom, adj, vb, adv), correspondent au mot original traité ou à sa forme dérivée. Les lettres majuscules X et Y correspondent à des unités lexicales indéfinies, mais chaque lettre majuscule présente dans une relation dérivée désigne la même unité lexicale que la même majuscule dans la relation originale. L’argument PREP désigne une préposition sur la nature de laquelle nous ne nous prononçons pas. Le sigle & représente le AND booléen et définit un schéma syntaxique dans lequel deux dépendances sont nécessaires.

Lorsque le mot original et son dérivé possèdent la même catégorie grammaticale, nous n’avons décelé aucun schéma syntaxique qui soit capable de conserver le sens original de l’énoncé par une transformation simple et régulière. Les dérivés de ce type sont en effet presque des synonymes de leur original et seront utilisés au cours de l’enrichissement comme ces synonymes, tout en conservant l’indication de leur origine. Nous avons signalé ces cas par l’indication synonymie dans les tableaux de concordance. Dans certains cas, l’étude des schémas syntaxiques des exemples n’a pas permis de dégager de constante dans la modification de la structure. Cependant, pour éviter de perdre le bénéfice d’un enrichissement possible, nous avons choisi de conserver la forme dérivée sans lui adjoindre de schéma d’évolution syntaxique. Nous conservons toutefois l’information que cette forme ne convient pas au contexte syntaxique de l’énoncé dans lequel elle peut être placée. Nous avons indiqué cette lacune syntaxique par la mention maintien du schéma.

Toutes ces données peuvent être intégrées dans les ressources lexicales à l’intérieur des entrées et selon les sens définis au départ dans le champ « dérivation » du dictionnaire Dubois, afin d’être directement exploitables lors des phases d’analyse et d’enrichissement. Nous verrons dans le prochain chapitre, consacré à la réalisation d’un enrichissement de texte, de quelle manière les corrections apportées au dictionnaires peuvent être intégrées à notre démarche.