Generative adversarial context encoder for long audio inpainting
* Presenting author
Abstract:
Wir stellen GACELA vor, ein conditional Generative Adversarial Netzwerk (cGAN), das entwickelt wurde, um fehlende Audiodaten mit einer Dauer zwischen Hunderten von Millisekunden und einigen Sekunden wiederherzustellen, d. h. für sogennantes long audio inpainting. Frühere Arbeiten betrachteten entweder kürzere Lücken oder basierten darauf verfügbare Informationen aus anderen Signalteilen zu kopieren.Durch die Verwendung paralleler Diskriminatoren-Netzwerke mit unterschiedlicher Auflösung berücksichtigt GACELA verschiedene Zeitskalen der Audioinformation. Zusätzlich zur Kontextinformation, d.h., der Signalinformation, die die Lücke unmittelbar umgibt, verwendet GACELA außerdem die latente Variable des cGAN, und erlaubt es so, die inhärente Multimodalität des Problems zu berücksichtigen und dem Benutzer mehrere Inpainting-Optionen zu bieten. GACELA wurde in Hörtests mit Musiksignalen unterschiedlicher Komplexität und unterschiedlichen Lückendauern von 375 bis 1500 ms evaluiert. Unter Laborbedingungen waren Testpersonen zwar oft in der Lage, das Inpainting zu erkennen, der Schweregrad der Inpainting-Artefakte wurde jedoch zwischen nicht störend und leicht störend eingestuft. GACELA stellt ein Framework dar, das in der Lage ist, zukünftige Verbesserungen zu integrieren, wie z.B. die Berücksichtigung von mehr auditiven oder musikalischen Merkmalen. Unsere Software und trainierten Modelle, sowie Beispiele, sind frei online verfügbar.