Identificación y recuperación de corpus paralelos en la World Wide Web

  1. Yráyzoz Díaz De Liaño, María Eloísa
Zuzendaria:
  1. Antonio Tomeu Hardasmal Zuzendaria

Defentsa unibertsitatea: Universidad de Cádiz

Fecha de defensa: 2010(e)ko uztaila-(a)k 13

Epaimahaia:
  1. Buenaventura Clares Rodríguez Presidentea
  2. Ignacio Pérez Blanquer Idazkaria
  3. Francisco Manuel Solís Cabrera Kidea
  4. David Almorza Gomar Kidea
  5. Jorge Ramió Aguirre Kidea
Saila:
  1. Ingeniería Informática

Mota: Tesia

Teseo: 294330 DIALNET

Laburpena

Esta Tesis Doctoral es el resultado del trabajo realizado sobre la Identificación y Recuperación de Corpus Paralelos en la web, Los Corpus Paralelos son básicos como herramientas de trabajo en muchos campos de investigación. Para el desarrollo de la tesis se han considerado dos líneas diferentes: La primera línea de trabajo abarca todo lo relacionado con la elección de las características que nos van permitir identificar textos paralelos, mientras que la segunda línea de trabajo desarrolla una herramienta que nos permitirá recuperar dichos textos paralelos en la web. En la tesis, en primer lugar se ha construido una gran base documental obtenida del Parlamento Europeo. La base documental ha estado formada por documentos escritos en cinco idiomas distintos. Esta base documental es la que se ha utilizado para extraer las características de los documentos que nos permitirán identificar textos paralelos. Las características extraídas de dichos textos se han obtenido trabajando sobre dos parámetros distintos: El primer parámetro ha consistido en obtener características estadísticas de los documentos. Estos estudios estadísticos se han realizado sobre las siguientes variables: Número de caracteres del título de cada documento, número de palabras del título de cada documento y por último extensión del documento medida en Kb. El segundo parámetro trabajado ha consistido en estudiar datos referentes a la sintaxis de los documentos. La segunda línea de nuestro trabajo consiste en desarrollar una herramienta para la Recuperación de Corpus Paralelos. Nuestro prototipo es una WebCrawler implementada en lenguaje Java donde incorporamos los distintos parámetros obtenidos en la Identificación de los textos paralelos. Esta herramienta nos va a permitir rechazar aquellos documentos que sean falsos candidatos a ser textos paralelos y seleccionar sólo los posibles textos paralelos.