Voice Activity Detection in automatischen Mikrofonmischern
* Presenting author
Abstract:
Gegenstand dieses Beitrags sind automatische Mikrofonmischer für Sprachsignale als zentrale Komponente der Konferenztechnik. Von besonderer Bedeutung ist die Unterscheidung von Sprach- und Nichtsprachsignalen. Bestehende Verfahren, beispielsweise das Maxbus-Verfahren, sind nicht in der Lage, Sprachsignale von transienten Störgeräuschen zu unterscheiden. Auch das Blättern in einem Papierstapel wird im Mischsignal hörbar sein. Die Integration von Sprachdetektoren in einen automatischen Mikrofonmischer mag zunächst trivial erscheinen. Es ergeben sich dabei jedoch zwei Schwierigkeiten. Erstens erfordert die zuverlässige Unterscheidung von Sprach- und Störsignalen stets eine gewisse Zeit zur Analyse des Signals. Erfolgt die Aktivierung eines Kanals erst nach dieser Zeit, werden Anfangssilben abgeschnitten, was in der Regel nicht tolerierbar ist. Zweitens sorgt akustisches Übersprechen dafür, dass alle Mikrofone den von einer Schallquelle hervorgerufenen Schall empfangen. Ein empfindlicher Sprachdetektor wird in einem Kanal, der mit einem Störgeräusch beaufschlagt wird, Sprache erkennen, wenn ein entfernter Sprecher aktiv ist – der Sprachdetektor wäre wirkungslos. Mit diesem Beitrag wird ein Konzept vorgestellt, das die Nutzung von Sprachdetektoren in einem automatischen Mikrofonmischer trotz der bestehenden Schwierigkeiten möglich macht. Das Konzept ist nicht auf die Verwendung eines speziellen Sprachdetektors beschränkt und die erforderliche Rechenleistung wird, lässt man die Sprachdetektoren außer Acht, nur geringfügig erhöht.