Selección de modelos en regresión mediante la respuesta al ruido

Pizarro Junquera, Joaquín

Selección de modelos en regresión mediante la respuesta al ruido

Pizarro Junquera, Joaquín

Dirigida por:

Pedro Luis Galindo Riaño Director

Universidad de defensa: Universidad de Cádiz

Fecha de defensa: 13 de junio de 2003

Tribunal:

César Hervás Martínez Presidente/a
Luis Baumela Molina Vocal
Olga Pons Capote Vocal
Antonio Manuel Rodríguez Chía Vocal

Departamento:

Ingeniería Informática

Tipo: Tesis

Teseo: 93415 DIALNET

Resumen

Cuando aproximamos un modelo a un conjunto de datos, existe un dilema bien conocido entre bondad de ajuste y complejidad de la función o modelos, Si la función es muy compleja existe el riesgo de overfitting y el modelo será muy inestable en el sentido de que repetidas muestras recogidas del mismo proceso pueden conducirnos a un amplio rango de diferentes predicciones debido a la variabilidad en las variables extra. Si por el contrario la función es muy simple, las predicciones serán muy pobres debido a la falta de detalle en el modelo. Los procedimientos de selección de modelos son un intento de escoger entre un conjunto de modelos candidatos el más apropiado, donde puede existir más de una definición de "apropiado". Podemos destacar el Principio de Máxima Probabilidad, el Principio de Mínimo Riesgo Estructural, el Principio de Mínima Longitud, el Principio del Mínimo Riesgo de Predicción, etc. A partir de estos principios se han desarrollado numerosas estrategias (penalización a la complejidad, remuestreo, contrastes de hipótesis) que miden la "bondad de ajuste" de un modelo a los datos. Esta medida varía considerablemente dependiendo del tamaño de las muestras. Generalmente todos los criterios seleccionan los mismos modelos cuando el tamaño de las muestras es suficientemente grande, pero en pequeñas muestras difieren considerablemente. En esta tesis se propone un nuevo criterio de selección de modelos basado en penalizar la complejidad en modelos lineales con ruido gausiano. El método propuesto se basa en la relación de suma de cuadrados residuales procedente de generar salidas de ruido normal en el conjunto de entrenamiento y en un gran conjunto de validación. Este criterio es utilizado para determinar la complejidad óptima en problemas de regresión lineal, utilizando como conjuntos de funciones aproximadoras candidatas funciones lineales. El método estima el riesgo de predicción esperado utilizando todos los