Nuevos modelos y métodos de clasificación y selección de características. Una perspectiva de optimización matemática

  1. Benítez Peña, Sandra
Dirigida por:
  1. Rafael Blanquero Bravo Director/a
  2. Emilio Carrizosa Priego Director/a
  3. Josefa Ramírez Cobo Directora

Universidad de defensa: Universidad de Sevilla

Fecha de defensa: 27 de julio de 2021

Tipo: Tesis

Resumen

El objetivo de esta tesis doctoral es el desarrollo de nuevos modelos de Clasificación Supervisada y Benchmarking, utilizando herramientas de Optimización Matemática y Estadística. En particular, abordamos la fusión de instrumentos de ambas disciplinas, con el objetivo de extraer conocimiento de los datos. De esta manera, obtenemos metodologías innovadoras que superan a las existentes, puenteando la Matemática teórica con problemas de la vida real. Los trabajos desarrollados a lo largo de esta tesis se han centrado en dos metodologías fundamentales en Data Science: máquinas de vectores de soporte (SVM) y Benchmarking. Respecto al primero, el clasificador SVM se basa en la búsqueda del hiperplano separador de margen máximo y se escribe como un problema cuadrático convexo. En el contexto de la evaluación comparativa, el objetivo es calcular las diferentes eficiencias mediante un enfoque determinista no paramétrico. En esta tesis nos centraremos en el Análisis Envolvente de Datos (DEA), que consiste en una formulación de Programación Lineal. Esta disertación está estructurada de la siguiente manera. En el Capítulo 1 presentamos brevemente los diferentes desafíos a los que se enfrenta esta tesis, así como su estado de la técnica. En la misma línea, se exponen las diferentes formulaciones utilizadas como modelos base, junto con la notación utilizada a lo largo de los capítulos de esta tesis. En el Capítulo 2, abordamos el problema de la construcción de una versión de la SVM que considere errores de clasificación errónea. Para hacer esto, incorporamos nuevas restricciones de desempeño en la formulación de SVM, imponiendo límites superiores a los errores de clasificación errónea. La formulación resultante es un problema convexo cuadrático con restricciones lineales. El Capítulo 3 continúa con la SVM como base y plantea el problema de proporcionar no solo un etiquetado rígido para cada uno de los individuos que pertenecen al conjunto de datos, sino también una estimación de probabilidad de clase. Además, se proporcionarán intervalos de confianza tanto para los valores de puntuación como para las probabilidades de clase posterior. Además, como en el capítulo anterior, llevaremos los resultados obtenidos al campo en el que se consideran los errores mal clasificados. Con tal propósito, tenemos que resolver un problema convexo cuadrático o un problema convexo cuadrático con restricciones lineales y variables enteras, y siempre aprovechando el ajuste de parámetros de la SVM, que generalmente se desperdicia. Según los resultados del Capítulo 2, en el Capítulo 4 tratamos el problema de la selección de características, tomando nuevamente en cuenta los errores de clasificación errónea. Para construir esta técnica, la selección de características está incrustada en el modelo de clasificador. Dicho proceso se divide en dos pasos diferentes. En el primer paso, se realiza la selección de características y, al mismo tiempo, los datos se separan mediante un hiperplano o un clasificador lineal, teniendo en cuenta las limitaciones de rendimiento. En el segundo paso, construimos el clasificador de margen máximo (SVM) utilizando las características seleccionadas del primer paso y nuevamente teniendo en cuenta las mismas restricciones de rendimiento. En el Capítulo 5, pasamos al problema del Benchmarking, donde se comparan las prácticas de diferentes entidades a través de los productos o servicios que brindan. Esto se hace con el objetivo de realizar algunos cambios o mejoras en cada uno de ellos. Concretamente, en este capítulo se propone una formulación de Programación Lineal Entera Mixta basada en Análisis Envolvente de Datos (DEA), con el objetivo de realizar la selección de características, mejorando la interpretabilidad y comprensión del modelo obtenido y las eficiencias. Finalmente, en el Capítulo 6 recogemos las conclusiones de esta tesis así como las futuras líneas de investigación.