Verbesserung der Spracherkennung bei Freisprechen durch die Kombination einer robusten Merkmalsextraktion und einer Adaption der Referenzmuster
Conference: Sprachkommunikation 2008 - 8. ITG-Fachtagung
10/08/2008 - 10/10/2008 at Aachen, Deutschland
Proceedings: Sprachkommunikation 2008
Pages: 4Language: germanTyp: PDF
Personal VDE Members are entitled to a 10% discount on this title
Authors:
Hirsch, Hans-Günter; Pogscheba, Patrick (Fachbereich Elektrotechnik und Informatik, Hochschule Niederrhein, 47805 Krefeld)
Abstract:
Es wird ein Verfahren zur robusten Spracherkennung vorgestellt, das aus der Kombination einer robusten Merkmalsextraktion und einer Adaption der zur Erkennung verwendeten Referenzmuster besteht. Die Extraktion der robusten Merkmale wird mit einem von ETSI standardisierten Verfahren vorgenommen. Damit lassen sich beachtliche Verbesserungen bei der Erkennung von in gestörter Umgebung aufgenommenen Sprachsignalen erzielen. Die Leistungsfähigkeit eines auf diesem Verfahren beruhenden Spracherkennungssystems verschlechtert sich allerdings bei einer Spracheingabe im Freisprechmodus in einer räumlichen Umgebung deutlich. Dabei beeinflusst neben den eventuell vorhandenen Störgeräuschen der Nachhall des Raumes das Sprachsignal. Es wird gezeigt, dass für diese Kombination von Störeinflüssen die Erkennungsraten durch den zusätzlichen Einsatz einer Adaption der Referenzmuster verbessert werden können. Dabei beruht die Adaption auf einer Schätzung der Nachhallzeit des Raumes. Eine derartige Adaption kann bei allen Spracherkennungssystemen eingesetzt werden, die auf einer Extraktion robuster spektraler Merkmale beruhen, um ihre Einsatzfähigkeit auf eine Spracheingabe im Freisprechmodus zu erweitern.