Konferenzsystem

Article

Poster entfällt: Entwicklung neuronaler Netze zur simultanen Lokalisation und Erkennung von Sprechern

Authors

Fabian Alexander Radke

* Presenting author

Day / Time: 17.08.2021, 12:00-12:40

Room: Lehar 4

Typ: Poster

Session: SFB1330 Hörakustik: Perzeptive Prinzipien, Algorithmen und Anwendungen (Poster)

Article ID:

Information: Die Poster sind von Montag morgen bis Mittwoch nachmittag in der Mall bzw. hier als PDF im jeweiligen Posterbeitrag einsehbar. Das Posterforum zu diesen Postern findet am Dienstag von 16:00 - 16:40 Uhr im hier angegebenen Saal statt. Für weiterführende Diskussion verabreden Sie sich bitte mit der/dem jeweiligen Autor(in) am Poster oder nutzen Sie die Chatfunktion im virtuellen Posterausstellungsraum. Dieser steht bis Dienstag ca. 18:30 Uhr zur Verfügung.

Abstract: Algorithmen zur Lokalisation und zur Erkennung von Sprechern werden in einer zunehmenden Anzahl technischer Bereiche eingesetzt. Zu den Mikrofonarraysystemen, die beide Probleme lösen müssen, gehören beispielsweise Hörgeräte oder auch Mikrofonsysteme in Smart-Speakern. Ein kombinierender Ansatz, der simultan lokalisiert und klassifiziert, kann in diesen Systemen von Vorteil sein. Da sich die Verwendung von neuronalen Netzen in beiden Disziplinen als erfolgreich herausgestellt hat, ist es naheliegend, diese Methode auch für die gemeinsame Sprecherlokalisation zu nutzen. Bei dem hier vorgeschlagenen System zur Sprecherlokalisation soll ein wählbarer Ziel-Sprecher, der durch ein Sprecher-“Embedding” charakterisiert wird, lokalisiert werden. So können beide Subsysteme von spektralen und temporalen Informationen über das Sprachsignal des Ziel-Sprechers profitieren. In diesem Beitrag werden verschiedene Ansätze für neuronale Netze, die eine simultane Sprecherlokalisation durchführen können, untersucht und gegen bekannte Systeme beider Aufgaben verglichen. Die verwendeten Sprecher-Embeddings werden mittels Long-Short-Term-Memory-Netzwerken (LSTM) aus Mel-Spektrogrammen berechnet, und zur Lokalisation kommt ein Feed-Forward-Netzwerk zum Einsatz, das mittels Kreuzkorrelationen die Schalleinfallsrichtung klassifiziert. Die vorgeschlagenen kombinierenden Ansätze umfassen zum einen eine einfache Kombination der Entscheidungsvariablen, als auch die Verarbeitung beider Merkmale in einer einzigen Struktur. Trainiert und getestet werden die vorgeschlagenen Ansätze in simulierten akustischen Umgebungen mit unterschiedlichen Störgeräuschpegeln.