Claudia ZAVAGLIA
Universidade Estadual Paulista. Sao Paulo – Brasil
zavaglia@lem.ibilce.unesp.br

 

La Production d'Ontologies Spécifiques à réutiliser sur ordinateur: la modélisation de l'Onto-Eco

 

Notre recherche fait partie d'un programme développé à l'Université de l'État de São Paulo (Campus de São José do Rio Preto ­ Brésil) qui cherche à examiner la problématique concernant l'élaboration des bases de données lexicales et d'ontologies spécifiques de domaines spéciaux. A partir de l'ontologie proposée par Zavaglia (2002) visant au sous-domaine de l'Ecologie, nous avons restructuré les connaissances de spécialités de ce sous-domaine en catégories et sous-catégories, conformément aux principes de Gruber (1993), et décrit  formellement ses concepts et les rapports existant entre eux. Les ontologies sont à présent largement utilisées sur les représentations des connaissances de domaines spécifiques, notamment pour les systèmes automatiques de recherche d'information et d'indexation de documents en Traitement des Langues Naturelles ­ TLN, où leur application peut être plus efficace à cause du nombre fini des ensembles lexicaux. D'autre part, l'utilisation des ontologies sur les Bases de Connaissances Lexicales ­ BCL, par exemple, peut servir de support à l'information contenue dans l'ensemble lexical des bases, permettant de récupérer le signifié d'un item lexical de façon univoque.

L'Onto-Eco envisage trois sous-domaines de l'Ecologie, à savoir: l'Ecologie d'Ecosystèmes ­ EEc, l'Ecologie de Populations ­ Ep et l'Ecologie de Communautés ­ Ec, qui se sont avérés très féconds aussi bien dans le processus de catégorisation que dans celui de dénomination de termes. De cette façon, nous avons d'abord privilégié l'un de ces sous-domaines afin de commencer à tracer le contour de notre structure d'arbre. Cette même méthode pourra être employée pour l'esquisse ontologique des deux autres sous-domaines, déjà en marche. Dans le processus de la construction de l'ontologie, nous nous sommes servis aussi bien de l'approche top-down que de l'approche bottom-up, ce processus hybride s'étant avéré également efficace et fécond. Pour l'extraction des termes, nous avons élaboré un corpus d'Ecologie à partir de textes théoriques, revues et textes électroniques, ce corpus étant alimenté périodiquement et stocké dans un outil informatique pour la gestion de bases textuelles. !

 Dans l'étape d'extraction de termes proprement dite, nous sommes partis de l'identification manuelle pour procéder ensuite à son automatisation. Dans ce sens, nous avons utilisé un logiciel du Núcleo Interinstitucional de Lingüística Computacional ­ NILC-USP/São Carlos/Brésil et aussi la technique de la fréquence pour leur extraction. Les termes ont été validés après consultation de dictionnaires de spécialité et aussi d'un spécialiste en écologie. Ces termes ont étés ensuite étiquetés avec des informations morphosyntaxiques et sémantiques portant sur la Structure des Qualia du Lexique Génératif de Pustejovsky (1995). Après la distribution des items lexicaux dans la structure ontologique élaborée, nous avons défini et dressé le panorama des relations sémantiques existant entre eux.

Pour faire le stockage de toutes ces informations, nous avons utilisé l'éditeur d'ontologies Protégé-2000 qui, de par l'introduction d'une information sémantique moyennant un système à frames, permet: un comportement interopératoire de structures ontologiques, la réutilisation de ces structures à l'aide de systèmes de représentation de connaissances et la caractérisation de l'Onto-Eco par le moyen d'une Base de Connaissances.