Complejidad de generalización en redes neuronales artificiales. Aplicación al problema de la selección de arquitecturas para datos de entrada continua

  1. Gómez Gallego, Iván
Dirigida por:
  1. Leonardo Franco Codirector/a
  2. José Manuel Jerez Aragonés Codirector/a

Universidad de defensa: Universidad de Málaga

Fecha de defensa: 24 de octubre de 2012

Tribunal:
  1. Sergio A. Cannas Presidente/a
  2. Miguel Atencia Secretario/a
  3. David Elizondo Vocal
  4. Francisco Javier Veredas Navarro Vocal
  5. Ignacio José Turias Domínguez Vocal

Tipo: Tesis

Teseo: 332889 DIALNET

Resumen

Esta Tesis Doctoral presenta un modelo para la selección del tamaño óptimo de arquitectura para redes neuronales de tipo multi-capa ("feed-forward neural networks"), mediante el cual el diseñador de la red neuronal puede suavizar el tedioso proceso de búsqueda de una arquitectura adecuada para determinado problema, entendiendo como arquitectura adecuada aquella con la cual obtenemos unos valores de generalización óptimos o muy cercanos al óptimo al aprender los datos. El modelo está basado en una medida de complejidad de datos, denominada Complejidad de Generalización, ideada básicamente para cuantificar la dificultad que presenta una función binaria para ser aprendida por una Red Neuronal Artificial. Una vez realizada la aplicación del modelo a funciones binarias, el siguiente paso ha sido adaptar la medida de Complejidad de Generalización para que pueda ser aplicada a funciones con valores continuos en la entrada. Esta adaptación ha consistido principalmente en buscar un sustituto de la distancia Hamming en el espacio continuo, utilizándose la distancia euclídea y adaptando y verificando su definición. La validación de la adaptación propuesta se ha conseguido a través de un conjunto de funciones sinusoidales en las que el grado de fluctuación, y por tanto su complejidad, es parametrizado, comparando el comportamiento de la expresión continua de la complejidad con la versión discreta. La utilidad del modelo adaptado al caso de funciones con entrada continua se muestra mediante su generación para funciones de dimensión 4 y posterior aplicación a un conjunto de la misma dimensión de entrada pertenecientes a un repositorio de datos público. El análisis de las simulaciones ejecutadas ha proporcionado unos valores de mejor arquitectura muy próximos al predicho por el modelo propuesto, con un error de $+/- 5$ nodos en la capa oculta, circunstancia que hace válido el uso del método como una primera aproximación al problema de selección de arquitecturas. El método propuesto, que utiliza las funciones de Walsh como base para expandir los datos de entrada, presenta algunos problemas relativos a su complejidad computacional, ya que es necesario la diagonalización de matrices de gran tamaño, para calcular los coeficientes de la expansión. Como alternativa, se presenta un enfoque más directo con el cual sí es posible la utilización de funciones de dimensión mayor de $4$, y que consiste en aplicar un método de discretización a las funciones con entrada continua para después calcular la complejidad en su versión binaria. Para seleccionar el método de discretización apropiado, se ha calculado la complejidad de las funciones después de aplicar dos algoritmos de discretización diferentes, analizando los valores de generalización resultantes después de realizar simulaciones. Los resultados no muestran diferencias significativas dependiendo del método de discretización utilizado, concluyéndose por tanto que la elección del mismo no es un factor determinante, observándose que la relación entre complejidad y tamaño de capa oculta se sigue manteniendo, aunque para funciones individuales existe cierta variabilidad, indicando por tanto que el método debe de utilizarse como una primera aproximación para la obtención del tamaño adecuado de la capa oculta de la red neuronal.