Le domaine de la recherche d’information connaît diverses techniques d’enrichissement, centrées essentiellement sur la requête. Notre position qui vise principalement l’enrichissement du texte de la base documentaire interrogée ne nous interdit pas cependant de nous intéresser aux précédentes méthodes avérées. Or la dérivation morphologique des termes de la requête est un type d’enrichissement qui a déjà été testé avec succès.
Cet enrichissement repose sur une constatation : un lexème donné et les dérivés de ce lexème appartiennent ordinairement au même champ sémantique. De la sorte, toute dérivation d’un mot est susceptible d’avoir un sens proche et donc d’être un terme de recherche pertinent dans le cadre d’une requête portant sur la signification dont le mot de base est porteur. Il s’agit dès lors de reconstituer l’ensemble des dérivés de chaque mot.
Notre propos n’est pas de discuter les méthodologies appliquées pour l’apprentissage des règles de dérivation morphologiques et suffixales. Il s’agit généralement de méthodes probabilistes non supervisées dont on peut trouver un aperçu dans [Gaussier, 1999] ou [Snover et al., 2002]. Elles s’appuient sur une description morphologique de la langue observée et étudient de vastes corpus d’où elles extraient un modèle statistique des transformations suffixales constituant un ensemble de règles de dérivation.
Disposant du modèle probabiliste de Éric Gaussier, et de l’outil construit pour générer les dérivés d’un mot donné, nous avons décidé de l’exploiter en en diminuant les contraintes afin d’obtenir le nombre de dérivés le plus grand possible. En effet, le rappel devient notre seule préoccupation dans l’utilisation de cette ressource dès lors que le dictionnaire que nous utilisons nous permet de distinguer les dérivés corrects – ceux qui sont bel et bien issus du mot proposé – des autres, garantissant donc une excellente précision. Cet assouplissement des contraintes modifie du même coup toutes les performances de la ressource employée. Cette possibilité est à la base du choix qui nous l’a fait préférer à d’autres.
Il faut toutefois signaler que nous avons maintenu une exigence dans la génération des dérivés : chacun des termes produits doit obligatoirement apparaître dans le lexique du français pour être validé. Aussi les dérivés abusivement formés du fait de la réduction des contraintes sont-ils filtrés grâce à un dictionnaire général, celui qui permet à NTM d’effectuer une analyse morphologique.
Comme nous l’avons vu dans à la section 3.2 page §, le dictionnaire Dubois comporte une information qui nous permet d’éviter de nous soucier de la précision au cours de la tâche de génération des dérivés morphologiques. Un code identifie en effet pour chaque acception d’un lemme le ou les dérivés qui en sont issus. C’est à l’aide de cette information que nous évitons la surgénération après avoir augmenté le rappel en réduisant les contraintes. On peut voir dans l’exemple 3.1 page § de quelle manière nous effectuons le filtrage des pseudo-dérivés.
Seules les propositions qui trouvent leur confirmation dans le dictionnaire sont conservées. Les autres sont considérées comme fautives et éliminées. On voit bien par cet exemple l’importance de la suppression des contraintes : si nous les avions conservées, un seul dérivé aurait été trouvé au lieu de six. De plus, dans ce cas précis, le dérivé trouvé est erroné. Une fois les dérivés trouvés, encore faut-il les exploiter à bon escient. Habituellement, on se contente de faire intervenir ces dérivés comme de simples mots-clefs de la requête. Notre approche qui consiste à enrichir le texte plutôt que la requête nous contraint à une méthode plus complexe, mais plus précise. Nous verrons plus loin en quoi elle consiste (cf. section 4.2.2 page §).