Traduccion automatica de framenet al español basada en corpus y su aplicacion a la categorizacion textual

  1. CRESPO MIGUEL, MARIO
Supervised by:
  1. Antonio Frías Delgado Director

Defence university: Universidad de Cádiz

Fecha de defensa: 03 October 2008

Committee:
  1. Miguel Casas Gómez Chair
  2. Jacinto Espinosa García Secretary
  3. José Antonio Jiménez Millán Committee member
  4. Luis Fariñas del Cerro Committee member
  5. Pedro José Chamizo Domínguez Committee member
Department:
  1. Historia, Geografía y Filosofía

Type: Thesis

Teseo: 288395 DIALNET

Abstract

Esta tesis nace con el ánimo de tratar de paliar en cierta medida el gran problema de la escasez de recursos disponibles en castellano dentro del campo del Procesamiento del Lenguaje Natural, concretamente en el área de la Semántica Computacional. Estas descripciones estructuradas y detalladas de una deterniinada lengua son, en la mayoría de los casos, piezas centrales a la hora de crear aplicaciones lingilísticas. Tal sería el caso de EuroWordNet, VerbNet, PropBank o FrameNet. Este último se trata de un recurso on-line para el inglés basado en la Se de Marcos que pretende documentar la variedad de posibilidades sintáctico-semánticas de las palabras en inglés. De esta forma, las palabras del inglés se agrupan de acuerdo con su significado en tomo a un conjunto finito de situaciones o marcos situacionales, entendidos como escenarios estereotipados de la realidad. Como pricipal tarea, esta tesis se propuso la traducción al español y, como veremos, consecuentemente a otras lenguas, de las unidades léxicas del inglés o disparadores de los marcos situacionales del proyecto FrameNet. Cada marco situacional agrupa un conjunto de unidades léxicas que activan un determinado conocimiento sobre el inundo en el discurso. Los resultados reflejan que el 80.3% de los disparadores pudo ser asociado con un synset de EuroWordNet con tui 92.7% de precisión. Paralelamente, también se desanolló un procedimiento de categorización textual para el español tomando como referencia el modo de seleccionar marcos situacionales automáticamente para un determinado documento y partiendo de la traducción de FraineNet al español que se había realizado. Tal procedimiento se basa en la idea de que si un determinado ámbito se expresa refleja con un conjunto constante y limitado de marcos situacionales, la identificación de éstos puede ser usada para la categorización textual. Se entiende que el conjunto de marcos situacionales que se seleccionan para nn determinado texto pueden ser usados como rasgos que permitan identificar el conjunto al que el documento pertenece. Establecimos una clasificación en cuatro temas diferentes: médico, noticias, ciencia y productos y consumo. De esta manera y usando un clasificador lineal simple obtu'viuios un 94.6% de precisión en la identificación de documentos en español en estas cuatro categorías. Se demuestra, de esta forma, que los documentos o discursos sobre un tema determinado están formados por un conjunto limitado de marcos situacionales que evocan en la mente de los interlocutores un determinado conocimiento sobre lo que se está hablando. Esto explicaría que se pueda identificar el tema del texto recurriendo a los marcos situacionales que lo conforman.