Verbesserung der Spracherkennung bei Freisprechen durch die Kombination einer robusten Merkmalsextraktion und einer Adaption der Referenzmuster

Konferenz: Sprachkommunikation 2008 - 8. ITG-Fachtagung
08.10.2008 - 10.10.2008 in Aachen, Deutschland

Tagungsband: Sprachkommunikation 2008

Seiten: 4Sprache: DeutschTyp: PDF

Persönliche VDE-Mitglieder erhalten auf diesen Artikel 10% Rabatt

Autoren:
Hirsch, Hans-Günter; Pogscheba, Patrick (Fachbereich Elektrotechnik und Informatik, Hochschule Niederrhein, 47805 Krefeld)

Inhalt:
Es wird ein Verfahren zur robusten Spracherkennung vorgestellt, das aus der Kombination einer robusten Merkmalsextraktion und einer Adaption der zur Erkennung verwendeten Referenzmuster besteht. Die Extraktion der robusten Merkmale wird mit einem von ETSI standardisierten Verfahren vorgenommen. Damit lassen sich beachtliche Verbesserungen bei der Erkennung von in gestörter Umgebung aufgenommenen Sprachsignalen erzielen. Die Leistungsfähigkeit eines auf diesem Verfahren beruhenden Spracherkennungssystems verschlechtert sich allerdings bei einer Spracheingabe im Freisprechmodus in einer räumlichen Umgebung deutlich. Dabei beeinflusst neben den eventuell vorhandenen Störgeräuschen der Nachhall des Raumes das Sprachsignal. Es wird gezeigt, dass für diese Kombination von Störeinflüssen die Erkennungsraten durch den zusätzlichen Einsatz einer Adaption der Referenzmuster verbessert werden können. Dabei beruht die Adaption auf einer Schätzung der Nachhallzeit des Raumes. Eine derartige Adaption kann bei allen Spracherkennungssystemen eingesetzt werden, die auf einer Extraktion robuster spektraler Merkmale beruhen, um ihre Einsatzfähigkeit auf eine Spracheingabe im Freisprechmodus zu erweitern.