Nuevos algoritmos de detección de señales basados en un modelo de distribución gaussiana conjunta

PERNÍA FERNÁNDEZ, ÓSCAR

Nuevos algoritmos de detección de señales basados en un modelo de distribución gaussiana conjunta

PERNÍA FERNÁNDEZ, ÓSCAR

Dirigée par:

Juan Manuel Górriz Sáez Directeur/trice
Ignacio José Turias Domínguez Co-directeur
Carlos García Puntonet Co-directeur/trice

Université de défendre: Universidad de Cádiz

Fecha de defensa: 06 mars 2009

Jury:

Elmar Wolfgang Lang President
Francisco Javier González Gallero Secrétaire
Javier Ramírez Pérez de Inestrosa Rapporteur
Diego Pablo Ruiz Padillo Rapporteur
Rubén Martín Clemente Rapporteur

Département:

Ingeniería Informática

Type: Thèses

Teseo: 288670 DIALNET

Résumé

En este trabajo se presentan nuevos avances en el campo de la detección de actividad de voz (VAD, del inglés Voice Activity Detection para su aplicación a Reconocimiento robusto del Habla en entornos ruidosos. Se desarrolla un novedoso detector de actividad de voz (VAD), cuyo diseño ha sido objeto del estudio realizado durante este trabajo. Se propone como mejora a los esquemas de detección robusta de voz existentes en entomos ruidosos, enfocado desde la base de desarrollo de sistemas de reconocimiento de voz para aplicaciones de tiempo real. Sobre los métodos de realización de la decisión basados en modelos estadísticos, se de_ne una regla de decisión basada en cocientes de probabilidad (LRT: 'Likelihood Ratio Test'). Aplicado sobre un vector de observación múltiple, el algoritmo sobre el cual trabajamos utiliza un modelo de observación que denominamos generalizado complejo gaussiano_(GCG), el cual considera la dependencia entre observaciones adyacentes, contrarrestando las limitaciones introducidas por la hipótesis de independencia considerada por otros VADs de referencia. El rendimiento del VAD propuesto es superior en tasa de acierto de detección , cuando lo comparamos con los VADs estándar, como los de ITU-T G.729, ETSI GSM AMR y ETSI AFE, y con los recientemente publicados, usando las bases de datos más representativas de ETSI como son AURORA2&3, y al formar parte de un sistema automático de reconocimiento (ASR), mejoran sensiblemente la tasa de reconocimiento de palabra en entornos ruidosos.