Blinde Separation von Sprachsignalen basierend auf dem Kriterium maximaler Disjunktheit

Konferenz: Sprachkommunikation 2008 - 8. ITG-Fachtagung
08.10.2008 - 10.10.2008 in Aachen, Deutschland

Tagungsband: Sprachkommunikation 2008

Seiten: 4Sprache: DeutschTyp: PDF

Persönliche VDE-Mitglieder erhalten auf diesen Artikel 10% Rabatt

Autoren:
Anemüller, Jörn (Sektion Medizinische Physik, Institut für Physik, Universität Oldenburg)

Inhalt:
Die übliche Behandlung blinder Quellentrennung geschieht auf Basis der Optimierung von Kostenfunktionen, die statistische Maße wie Transinformation oder Korrelationfunktionen enthalten. In diesem Beitrag wird ein alternatives Modell zur Quellentrennung vorgestellt, welches auf dem Kriterium der maximalen Disjunktheit bzw. des minimalen Überlapps basiert. Unter Disjunktheit (engl. “disjointness”) zweier Signale wird dabei im idealen Grenzfall verstanden, dass zu jedem Zeitpunkt nur eines der Quellsignale “aktiv” ist, sich die Signale also nicht überlappen. Daraus resultiert direkt eine negative Korrelation der Signaleinhüllenden, im Gegensatz zur üblichen Annahme statistischer Unabhängigkeit. Ein Beispiel für nicht statistisch unabhängige Signale, die jedoch näherungsweise diskunkt sind, findet sich im Bereich der Sprachverarbeitung bei Sprachdialogen. In dieser Situation spricht (im idealen Fall) nur jeweils eine Person, während alle anderen Sprecher schweigen. Wir leiten aus der Annahme disjunkter Signalquellen einen iterativen Algorithmus ab, der dem bekannten Infomax Algorithmus verblüffend ähnelt. Die Annahme der Disjunktheit ist für reale Signale nur näherungsweise erfüllt. Es wird gezeigt, dass auch in diesem Fall durch Maximierung der Disjunktheit die Trennung der Quellensignale erreicht wird.