Suite à un examen de différentes méthodologies appartenant aux disciplines les plus exigeantes vis-à-vis de la précision d’une information désirée, nous pouvons tirer certaines conclusions. Tout d’abord, dès lors qu’il s’agit de prendre connaissance du contenu d’un texte, l’analyse linguistique semble inévitable, même si certaines approches n’y font qu’un appel très marginal. Les systèmes les plus récents s’essaient d’ailleurs à des analyses linguistiques de plus haut niveau, y intégrant la syntaxe et surtout la sémantique. Ensuite, le principe appliqué pour détecter une information donnée est systématiquement de donner à cette information le plus grand nombre de présentations différentes et de comparer ces présentations avec le contenu des textes. L’extraction d’information constitue pour cela des listes de patrons ou de tableaux, tandis que la discipline de question-réponse y préfère l’expansion de requête. Dans les deux cas, des lexiques ou bases de connaissances sont fréquemment exploités.
Par ailleurs, cet examen nous a permis d’identifier les besoins que le domaine peut avoir d’une structure sémantique informationnelle constituée à partir d’une base textuelle. En fonction des approches étudiées, il s’agit d’effectuer une identification lexicale, morpho-lexicale, syntaxique voire sémantique de l’information. Il s’agit également de tenir compte d’une éventuelle structure textuelle (textes structurés ou semi-structurés) et de pouvoir en rendre compte.
Dès lors, l’analyse que nous allons faire du texte devra prendre en compte ces attentes, tout en se montrant capable de fournir une base à un enrichissement considérable de l’information présente. Par ailleurs, la structure devra se révéler accessible pour son interrogation. Le chapitre prochain va décrire les outils d’analyse qui permettront d’identifier l’information présente dans la base documentaire avant d’effectuer son enrichissement.