Nuevos algoritmos de detección de señales basados en un modelo de distribución gaussiana conjunta

  1. PERNÍA FERNÁNDEZ, ÓSCAR
Supervised by:
  1. Juan Manuel Górriz Sáez Director
  2. Ignacio José Turias Domínguez Director
  3. Carlos García Puntonet Director

Defence university: Universidad de Cádiz

Fecha de defensa: 06 March 2009

Committee:
  1. Elmar Wolfgang Lang Chair
  2. Francisco Javier González Gallero Secretary
  3. Javier Ramírez Pérez de Inestrosa Committee member
  4. Diego Pablo Ruiz Padillo Committee member
  5. Rubén Martín Clemente Committee member
Department:
  1. Ingeniería Informática

Type: Thesis

Teseo: 288670 DIALNET

Abstract

En este trabajo se presentan nuevos avances en el campo de la detección de actividad de voz (VAD, del inglés Voice Activity Detection para su aplicación a Reconocimiento robusto del Habla en entornos ruidosos. Se desarrolla un novedoso detector de actividad de voz (VAD), cuyo diseño ha sido objeto del estudio realizado durante este trabajo. Se propone como mejora a los esquemas de detección robusta de voz existentes en entomos ruidosos, enfocado desde la base de desarrollo de sistemas de reconocimiento de voz para aplicaciones de tiempo real. Sobre los métodos de realización de la decisión basados en modelos estadísticos, se de_ne una regla de decisión basada en cocientes de probabilidad (LRT: 'Likelihood Ratio Test'). Aplicado sobre un vector de observación múltiple, el algoritmo sobre el cual trabajamos utiliza un modelo de observación que denominamos generalizado complejo gaussiano_(GCG), el cual considera la dependencia entre observaciones adyacentes, contrarrestando las limitaciones introducidas por la hipótesis de independencia considerada por otros VADs de referencia. El rendimiento del VAD propuesto es superior en tasa de acierto de detección , cuando lo comparamos con los VADs estándar, como los de ITU-T G.729, ETSI GSM AMR y ETSI AFE, y con los recientemente publicados, usando las bases de datos más representativas de ETSI como son AURORA2&3, y al formar parte de un sistema automático de reconocimiento (ASR), mejoran sensiblemente la tasa de reconocimiento de palabra en entornos ruidosos.