Poster entfällt: Entwicklung neuronaler Netze zur simultanen Lokalisation und Erkennung von Sprechern
* Presenting author
Abstract:
Algorithmen zur Lokalisation und zur Erkennung von Sprechern werden in einer zunehmenden Anzahl technischer Bereiche eingesetzt.
Zu den Mikrofonarraysystemen, die beide Probleme lösen müssen, gehören beispielsweise Hörgeräte oder auch Mikrofonsysteme in Smart-Speakern. Ein kombinierender Ansatz, der simultan lokalisiert und klassifiziert, kann in diesen Systemen von Vorteil sein.
Da sich die Verwendung von neuronalen Netzen in beiden Disziplinen als erfolgreich herausgestellt hat, ist es naheliegend, diese Methode auch für die gemeinsame Sprecherlokalisation zu nutzen. Bei dem hier vorgeschlagenen System zur Sprecherlokalisation soll ein wählbarer Ziel-Sprecher, der durch ein Sprecher-“Embedding” charakterisiert wird, lokalisiert werden. So können beide Subsysteme von spektralen und temporalen Informationen über das Sprachsignal des Ziel-Sprechers profitieren.
In diesem Beitrag werden verschiedene Ansätze für neuronale Netze, die eine simultane Sprecherlokalisation durchführen können, untersucht und gegen bekannte Systeme beider Aufgaben verglichen. Die verwendeten Sprecher-Embeddings werden mittels Long-Short-Term-Memory-Netzwerken (LSTM) aus Mel-Spektrogrammen berechnet, und zur Lokalisation kommt ein Feed-Forward-Netzwerk zum Einsatz, das mittels Kreuzkorrelationen die Schalleinfallsrichtung klassifiziert. Die vorgeschlagenen kombinierenden Ansätze umfassen zum einen eine einfache Kombination der Entscheidungsvariablen, als auch die Verarbeitung beider Merkmale in einer einzigen Struktur. Trainiert und getestet werden die vorgeschlagenen Ansätze in simulierten akustischen Umgebungen mit unterschiedlichen Störgeräuschpegeln.