Una aportación al procesado neuromórfico de audio basado en modelos pulsantes: desde la cóclea a la percepción auditiva

Miró Amarante, Lourdes

Una aportación al procesado neuromórfico de audio basado en modelos pulsantesdesde la cóclea a la percepción auditiva

Miró Amarante, Lourdes

Dirigida por:

Francisco de Asís Gómez Rodríguez Director/a
Ángel Jiménez Fernández Director/a

Universidad de defensa: Universidad de Sevilla

Fecha de defensa: 12 de julio de 2013

Tribunal:

Julio Abascal González Presidente/a
Alejandro Linares Barranco Secretario/a
Enrique Cabello Pardos Vocal
Arturo Morgado Estévez Vocal
Gabriel Jiménez Moreno Vocal

Tipo: Tesis

Teseo: 343934 DIALNET Idus editor

Resumen

El objetivo principal de esta tesis es abordar un nuevo sistema de procesado neuromórfico de audio basado en la representación pulsante de la información. Para ello se pretende desarrollar un nuevo sensor neuromórfico de audio, que imite la funcionalidad de la cóclea biológica así como la estructura y funcionalidad del sistema nervioso para la transmisión de la información; junto con un nuevo mecanismo de reconocimiento del habla basado en modelos pulsantes. También es objetivo de esta tesis implementar y probar con experimentos reales el nuevo sistema que se propone para verificar la viabilidad del mismo. Para ello se ha elegido una plataforma hardware basada en una FPGA, con el fin de obtener un sistema de bajo coste, bajo consumo y capaz de realizar un procesado paralelo en tiempo real. A continuación se enumeran los objetivos que se persigue en esta tesis, distinguiendo entre objetivos generales y específicos. Objetivos generales La tesis que se presenta, pretende desarrollarse dentro del marco científico de la Ingeniería Neuromórfica. Por tanto, los objetivos generales de la misma están centrados tanto en estudiar las posibilidades que tiene los sistemas neuromórficos para el procesamiento de audio; como en la posibilidad de obtener un mayor conocimiento sobre los procesos cognitivos relacionados con el procesamiento del habla. Estos objetivos son: * Analizar la posibilidad de implementar sistemas neuromórficos para el procesado de audio. * Aportar nuevas evidencias a las ventajas de usar la representación de la información en pulsos. * Y estudiar la viabilidad de uso de sistemas digitales en la construcción de sistemas neuromórficos, campo dominado por la electrónica analógica en los últimos tiempos. Objetivos específicos Para conseguir estos objetivos generales, tan amplios y ambiciosos, se han fijado un conjunto de objetivos específicos, más concretos y realistas en su ejecución. Ellos son: * Estudiar y diseñar un nuevo modelo de cóclea neuromórfica, basada en una representación en pulsos de la información. * Estudiar y crear nuevos modelos neuronales artificiales, que a partir de la información en pulsos de una cóclea artificial pulsante, sea capaz de reconocer un fonema vocálico de la lengua española. * Diseñar una arquitectura, basada en estos nuevos modelos de neuronas artificiales pulsantes, para la construcción de un sistema de reconocimiento automático del habla. * Implementar estos nuevos modelos sobre una FPGA, con los siguientes requisitos: - La implementación no debe incluir ningún computador convencional en el núcleo del procesado. - La implementación debe ser realista y realizable, modular y que permita demostrar empíricamente la viabilidad de la construcción de este nuevo sistema neuromórfico, que incluye tanto el sistema de sensado como el de procesado de audio. * Caracterizar los nuevos modelos desarrollados a partir de pruebas y experimentos sobre estímulos reales. Estructura de la tesis Esta memoria se ha estructurado en cinco partes que se detallan a continuación, con los capítulos que contiene cada una de ellas. Parte I. Introducción. Presenta todo el documento y contiene el capítulo actual. Capítulo 1. Introducción. Es el capítulo actual, en el que se presentan las motivaciones, los objetivos y la estructura del documento. Parte II. Estado del arte. Se hace una exposición de las diferentes materias en las que está centrada esta investigación así como aquellas que son necesarias para entender su desarrollo. Se divide en los siguientes capítulos: Capítulo 2. Estado de los desarrollos neuromórficos actuales. Se hace un repaso del estado de los desarrollos neuromórficos actuales basados en la representación AER. Capítulo 3. Caracterización de la señal de voz. Se describe el proceso de producción y percepción de la señal sonora; así como las características articulatorias, acústicas y perceptivas del habla. Capítulo 4. Modelos e implementaciones del Sistema Auditivo. Se hace un repaso exhaustivo de los diferentes modelos e implementaciones de cócleas artificiales. Capítulo 5. Sistemas de reconocimiento automático del habla. Se hace una introducción al proceso de reconocimiento automático del habla, recogiendo los conceptos básicos, detallando las etapas que lo componen y los métodos tradicionales de implementación existentes. Parte III. Aportación. Contiene la aportación al procesado neuromórfico de audio basado en modelos pulsantes. Se divide en los siguientes capítulos. Capítulo 6. Cóclea artificial pulsante. Se describe una cóclea neuromórfica basada en filtros digitales. Capítulo 7. Sistema de reconocimiento pulsante. Se presenta el sistema de reconocimiento propuesto, capaz de identificar palabras a partir del reconocimiento de los fonemas vocálicos de la lengua española. Capítulo 8. Experimentos. Se describe las pruebas realizadas sobre el sistema final para la evaluación de la robustez, versatilidad y precisión en el reconocimiento. Se concluye el capítulo con una interpretación de los resultados obtenidos. Parte IV. Conclusiones. Se recogen las conclusiones de esta investigación. Está formado por un único capítulo. Capítulo 9. Conclusiones y trabajos futuros. Las aportaciones y las conclusiones a las que se ha llegado en el desarrollo de esta tesis se recogen en este capítulo, así como las líneas de trabajo futuras. Parte V. Bibliografía y anexos. La última parte del documento contiene las referencias utilizadas en esta investigación, así como los scripts de Matlab usados en las pruebas y experimentos.