Tratamiento semántico de información textual en bases de datos

Torres Parejo, Ursula

Tratamiento semántico de información textual en bases de datos

Torres Parejo, Ursula

Dirigida por:

María Amparo Vila Miranda Director/a
Miguel Delgado Calvo-Flores Director/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 24 de enero de 2014

Tribunal:

Juan Luis Castro Peña Presidente/a
María José Martín Bautista Secretario/a
Jesús Cardeñosa Lera Vocal
Miguel Angel Sordo Díaz Vocal
Ernestina Menasalvas Vocal

Tipo: Tesis

Teseo: 354342 DIALNET DIGIBUG editor

Resumen

Con la llegada de las nuevas tecnologías a nuestra sociedad, es cada vez mayor la cantidad datos y conocimiento disponible para los usuarios. Un procesamiento adecuado de esta información es fundamental para poder hacer uso de ella y realizar tareas complejas como filtrado o clasificación. Cuando la información está estructurada, este procesamiento resulta sencillo, pero la complicación se va incrementando cuanto mayor es la falta de estructura en las fuentes de conocimiento. El exceso de información y la dificultad de procesar los datos no estructurados son inconvenientes presentes en los sistemas de bases de datos desde hace mucho tiempo. Este problema se acentúa con el creciente uso de Internet, pero el núcleo de la cuestión continúa siendo el mismo. Mucha información que se acumula no llega a transformarse en información útil para el usuario, debido a que las formas de procesarla y visualizarla no son lo suficientemente eficientes para presentarla de forma que pueda interpretarse y consultarse de manera satisfactoria. El hecho de no procesar correctamente la información textual de los atributos de una base de datos, se traduce en que habrá una parte muy útil de ésta que quedará inaccesible y también en que el sistema devolverá al usuario más información de la que le solicita y de forma desorganizada. Aunque los atributos textuales suelen ser objeto frecuente de consulta, la mayoría de los sistemas procesan estas consultas basándose en la búsqueda de coincidencias sintácticas y obviando cualquier tipo de semántica asociada al texto [1]. Una de las soluciones aportadas en Internet para mermar estos inconvenientes viene de la mano de los sistemas basados en etiquetado, que permiten al usuario categorizar las fuentes de información mediante las denominadas etiquetas, con el fin de poder recuperarlas con posterioridad. A su vez, estos sistemas han popularizado una herramienta de visualización de texto denominada "Tag Cloud'', en la que se muestran las etiquetas asignadas por los usuarios con mayor frecuencia, para de esta forma representar el contenido de la información etiquetada y navegar a través de ésta. La tag cloud es una herramienta muy conocida, sencilla, llamativa y fácil de usar [2], por lo que nos parece una buena idea emplearla para visualizar el contenido de la información textual en las bases de datos. La potencia de las tag clouds reside en el esfuerzo colaborativo de los usuarios que etiquetan y clasifican las fuentes de información. La frecuencia en el uso de una determinada etiqueta para una particular fuente de información, confiere a esa etiqueta cierta precisión como elemento de clasificación. En bases de datos, este tipo de etiquetado colectivo no es fácilmente aplicable, por lo que la forma de obtener la tag cloud es a partir de etiquetas extraídas del propio texto a través de algún método que les permita conservar su semántica. Por otro lado, tanto los sistemas basados en etiquetado como la propia tag cloud, han sido ampliamente criticados en la literatura debido a numerosas deficiencias [7,3], las cuales se deben al uso exclusivo de monotérminos en las etiquetas [2,6]. Con la intención de encontrar una solución que ofrezca al usuario un escenario donde pueda ver representado el contenido de la información y acceder a éste de forma precisa, obtenemos una forma de representación del conocimiento que mantiene la semántica de los atributos textuales en una base de datos. Dicha forma de representación, conocida como forma intermedia, se implementa como un Tipo de Dato Abstracto (TDA) que permite manejar los atributos de la base de datos y obtener una estructura global de conocimiento. Para generarla partimos de una estructura que fue desarrollada en el curso de otra investigación en nuestro grupo y que conocemos como estructura-AP [5]. Visualizamos la estructura-AP a través de una tag cloud multitérmino, que favorece la identificación del contenido de la información al discriminar el significado de los términos debido al empleo de términos relacionados en una misma etiqueta y que, por esta misma razón, está dotada de semántica. Además, está definida matemáticamente y posee un método estándar de generación, con lo que se solventan los principales defectos achacados a este tipo de visualización. Para poder representar esta estructura a través de una tag cloud, donde cada etiqueta tiene distinto tamaño según su frecuencia de aparición en el texto, se deben ponderar sus componentes según la frecuencia de éstos. Creamos así lo que conocemos como ``Estructura-AP Ponderada (Estructura WAP)''. El problema con la estructura-AP es que no discrimina según el orden de los términos en el texto ni según el tipo de adyacencia que presenten los unos con los otros. Al introducir orden y adyacencia en la estructura-AP creamos la ``Estructura-AP Ordenada (Estructura APO)'', que también deberá ser ponderada para facilitar su visualización a través de una {\em tag cloud}. Esto nos lleva a la ``Estructura-AP Ordenada Ponderada (Estructura WAPO)''. La metodología propuesta para obtener de forma automática esta representación visual de información textual con propósitos de resumen, consulta y recuperación, pasa por los siguientes pasos: 1. Preprocesamiento sintáctico y semántico 2. Generación de una forma intermedia de representación 3. Postprocesamiento 4. Visualización a través de una {\em tag cloud} En los experimentos realizados se valida todo el procedimiento planteado y la efectividad de la tag cloud generada para los fines especificados a través del cálculo de métricas y de encuestas de usuario. Bibliografía [1] J. R. Campaña, M. J. Martín-Bautista, J. M. Medina, and M. A. Vila. Semantic enrichment of database textual attributes. Flexible Query Answering Systems, pages 488¿499, 2009. [2] A. Don, E. Zheleva, M. Gregory, S. Tarkan, L. Auvil, T. Clement, B. Shneiderman, and C. Plaisant. Discovering Interesting Usage Patterns in Text Collections: Integrating Text Mining with Visualization. In Proceedings of the 16th ACM Conference on Information and Knowledge Management, pages 213¿222. ACM, 2007. [3] Y. Hassan-Montero and V. Herrero-Solana. Improving Tag-Clouds as Visual Information Retrieval Interfaces. In International Conference on Multidisciplinary Information Sciences and Technologies, pages 25¿28. Citeseer, 2006. [4] B.Y.L. Kuo, T. Hentrich, B.M. Good, and M.D. Wilkinson. Tag Clouds for Summarizing Web Search Results. In Proceedings of the 16th International Conference on World Wide Web, pages 1204¿1205. ACM, 2007. [5] M. J. Martín-Bautista, M. A. Vila, and S. Mart ¿¿nez-Folgoso. A New Semantic Representation for Short Texts. In Data Warehousing and Knowledge Discovery, volume 5182, pages 347¿356, 2008. [6] A. Panunzi, F. Marco, and M. Massimo. Integrating Methods and LRs for Automatic Keyword Extraction from Open Domain Texts. In Proceedings of the 5th International Language Resources and Evaluation (LREC), pages 1917¿1920, 2006. [7] J. Sinclair and M. Cardew-Hall. The Folksonomy Tag Cloud: When is it Useful? Journal of Information Science, 34:15¿30, 2008.