Integración y materialización de bases de datos espacio-temporales mediante el uso de ontologías
- Cecilia Delgado Negrete Director
- Francisco Araque Cuenca Co-director
Defence university: Universidad de Cádiz
Fecha de defensa: 07 June 2013
- Luis Martínez López Chair
- Antonio Tomeu Hardasmal Secretary
- Michael McTear Committee member
Type: Thesis
Abstract
El almacenamiento y análisis de grandes cantidades de datos espaciales, variables con el tiempo es, cada vez más, una característica importante de muchos dominios de aplicación. Esta cuestión ha tenido como consecuencia, la necesidad de desarrollar extensiones espacio-temporales a los modelos existentes y a sus capacidades asociadas de consulta. Hasta la fecha, mucho de este trabajo se ha centrado en el modelo de datos relacional, siendo menos considerados otros modelos. La importancia de los datos espacio-temporales ha crecido en los últimos años debido a la proliferación de los Sistemas de Información Geográfica y a las aplicaciones basadas en Sistemas de Posicionamiento Global (GPS). Cada vez más, las organizaciones se basan en este tipo de información para desarrollar su actividad y mejorar su productividad. Este trabajo, está orientado hacia el uso de ontologías como modelo común para la integración de fuentes de datos espacio-temporales, y para el diseño de un esquema que permita materializar los datos de interés. La razón fundamental que nos ha llevado a adoptar las ontologías, como base para desarrollar un modelo espacio-temporal, es que las ontologías proporcionan especificaciones formales y definiciones estándares de los términos utilizados para representar el conocimiento de dominios específicos, diseñados de manera que permitan una máxima intercomunicación con otros dominios. La importancia de las ontologías, ha sido reconocida desde campos muy diversos. Además, actualmente, la construcción, integración y evolución de ontologías, son cuestiones críticas para la denominada Web Semántica. Conseguir una ontología de alta calidad depende en gran medida de la disponibilidad de semánticas bien definidas y potentes herramientas de razonamiento. Los objetivos que se pretenden lograr en esta tesis son básicamente dos. Primero, definir un modelo de datos, basado en ontologías, que sirva como marco común para la integración de fuentes de datos espacio-temporales. En el contexto de este modelo se resolverán las discrepancias esquemáticas y se evaluarán las similitudes semánticas entre los esquemas de las fuentes a integrar. Además, se utilizará tanto para definir un esquema que permita acceso integrado a las diversas fuentes, como para derivar el esquema del repositorio que describirá los datos a materializar. Segundo, proponer una arquitectura funcional en la que se definan, claramente, los pasos a seguir hasta alcanzar un esquema integrado y un esquema para la materialización de los datos. Esta arquitectura servirá como referencia para el futuro desarrollo de herramientas que permitan automatizar, en la medida de lo posible, el proceso de integración. El uso de ontologías requiere de lenguajes bien diseñados y bien definidos. Su sintaxis debe ser intuitiva a los humanos y compatibles con los estándares Web (XML, RDF y RDFS). Su semántica debe estar formalmente definida y su poder expresivo debe ser el adecuado. Los candidatos ideales son los lenguajes basados en lógicas de descripción (SHIQ, SHOIN, etc.). A partir de ellos se derivan lenguajes estándares, más intuitivos, para la Web Semántica, tales como DAML+OIL y OWL. Una vez analizadas las ontologías más significativas, y comparados los lenguajes asociados para construirlas, se opta por utilizar OWL como base en la definición del modelo que servirá de marco para llevar a cabo la integración de fuentes de datos espacio-temporales. Un modelo que permita describir apropiadamente datos espacio-temporales debe incluir elementos específicos que reflejen las características propias de este tipo de datos. Por esta razón, se han examinado y comparado modelos de datos espaciales y temporales, lo cual ha permitido identificar los conceptos y construcciones que es necesario incluir en nuestra propuesta de modelo. La mayoría de los modelos examinados son extensiones de otros ampliamente conocidos y utilizados (p. e., relacional y orientado a objetos). Como se ha mencionado antes, se ha optado por la ontología y el lenguaje OWL como base para definir nuestra propuesta. Sin embargo, en el lenguaje OWL se aprecian una serie de carencias, como por ejemplo, la capacidad de especificar relaciones y funciones n-arias, elementos que se presentan, de manera muy habitual, entre objetos espaciales y temporales. Para superar estas limitaciones, en esta tesis se define la interfaz STOWL (Spatio-Temporal OWL). STOWL, es una extensión de OWL, que incorpora constructores y axiomas para definir relaciones y funciones n-arias, particiones y descomposiciones exhaustivas, y reglas. Este último elemento se ha introducido tomando como punto de partida, el lenguaje SWRL (Semantic Web Rule Language), lenguaje que ha sido ampliado para poder utilizar en una regla predicados n-arios que representen relaciones y funciones n-arias. Estos constructores no pretenden añadir nuevas capacidades, sino que su objetivo es facilitar y simplificar la descripción de los elementos mencionados. Puesto que el lenguaje estándar para la construcción de ontologías es OWL, se ha diseñado, también, un mediador que traduce código STOWL a código OWL. El uso del mediador permite, por una parte, poder definir ontologías de manera más simple y, por otra, seguir usando todas las herramientas disponibles para OWL (editores, motores de inferencia, etc.). Además, este mediador genera, para los constructores utilizados los metadatos correspondientes. La ontología STOWL se construye en dos fases. La primera de ellas consiste en extender la ontología OWL, de manera que se incluyan las clases y propiedades necesarias, que permitan describir los nuevos elementos introducidos en la interfaz STOWL; el resultado de esta etapa, es la denominada ontología STOWL básica. La segunda fase consiste en incorporar conceptos espacio-temporales específicos, como por ejemplo, punto, línea, región, instante, intervalo, etc. Estos conceptos han sido tomados de la versión 3.2.1 del modelo GML (Geography Markup Language), estándar geográfico propuesto por el Open Gis Consortium y que es reconocido por la gran mayoría de aplicaciones que tratan con este tipo de información. En respuesta al segundo de los objetivos, se propone una arquitectura funcional, cuyo propósito principal es la construcción de una ontología STOWL global que describa los datos a integrar y el conocimiento que de ellos se pueda derivar. La construcción de esta ontología se realiza, básicamente, en dos etapas. Primera, anotación semántica de las fuentes a integrar, mediante la traducción de sus esquemas a ontologías STOWL, y definición de las sub-ontologías que describan la parte de los datos que cada fuente va a poner a disposición del sistema global. Segunda, integración de esas sub-ontologías, utilizando operaciones de mezcla. Paso previo a esta integración será la resolución de las discrepancias esquemáticas y la evaluación de las similitudes semánticas. A partir de esta ontología STOWL global, se derivará el esquema del repositorio que se utilizará para materializar los datos. Uno de los módulos de esta arquitectura que recibe especial interés, es el que se encarga de llevar a cabo la integración de los datos. En general, para esta tarea, se utilizan operadores de agregación. En esta tesis, se propone una técnica basada en el operador OWA (Ordered Weighted Averaging), cuya eficiencia, frente a otras técnicas, se demuestra con resultados experimentales, principalmente en aquellos casos en los que los datos a integrar describen el mismo tipo de información, pero en los que las características temporales de las fuentes que los suministran son diferentes. Todos los módulos que componen la arquitectura trabajan de manera autónoma, a partir de los datos que reciben de otros módulos. En la última parte de este trabajo se describen cuáles son las responsabilidades de cada uno de ellos, cómo deben procesar la información que reciben y qué información deben suministrar al resto de módulos.