Nuevos algoritmos de detección de señales basados en un modelo de distribución gaussiana conjunta

PERNÍA FERNÁNDEZ, ÓSCAR

Nuevos algoritmos de detección de señales basados en un modelo de distribución gaussiana conjunta

PERNÍA FERNÁNDEZ, ÓSCAR

unter der Leitung von:

Juan Manuel Górriz Sáez Doktorvater/Doktormutter
Ignacio José Turias Domínguez Co-Doktorvater
Carlos García Puntonet Co-Doktorvater/Doktormutter

Universität der Verteidigung: Universidad de Cádiz

Fecha de defensa: 06 von März von 2009

Gericht:

Elmar Wolfgang Lang Präsident/in
Francisco Javier González Gallero Sekretär
Javier Ramírez Pérez de Inestrosa Vocal
Diego Pablo Ruiz Padillo Vocal
Rubén Martín Clemente Vocal

Fachbereiche:

Ingeniería Informática

Art: Dissertation

Teseo: 288670 DIALNET

Zusammenfassung

En este trabajo se presentan nuevos avances en el campo de la detección de actividad de voz (VAD, del inglés Voice Activity Detection para su aplicación a Reconocimiento robusto del Habla en entornos ruidosos. Se desarrolla un novedoso detector de actividad de voz (VAD), cuyo diseño ha sido objeto del estudio realizado durante este trabajo. Se propone como mejora a los esquemas de detección robusta de voz existentes en entomos ruidosos, enfocado desde la base de desarrollo de sistemas de reconocimiento de voz para aplicaciones de tiempo real. Sobre los métodos de realización de la decisión basados en modelos estadísticos, se de_ne una regla de decisión basada en cocientes de probabilidad (LRT: 'Likelihood Ratio Test'). Aplicado sobre un vector de observación múltiple, el algoritmo sobre el cual trabajamos utiliza un modelo de observación que denominamos generalizado complejo gaussiano_(GCG), el cual considera la dependencia entre observaciones adyacentes, contrarrestando las limitaciones introducidas por la hipótesis de independencia considerada por otros VADs de referencia. El rendimiento del VAD propuesto es superior en tasa de acierto de detección , cuando lo comparamos con los VADs estándar, como los de ITU-T G.729, ETSI GSM AMR y ETSI AFE, y con los recientemente publicados, usando las bases de datos más representativas de ETSI como son AURORA2&3, y al formar parte de un sistema automático de reconocimiento (ASR), mejoran sensiblemente la tasa de reconocimiento de palabra en entornos ruidosos.