Zeit-Frequenz Darstellungen und Deep Learning
* Presenting author
Abstract:
Während der letzten Jahre hat Deep Learning (DL) einen Paradigmenwechsel in vielen Anwendungsbereichen eingeleitet und dabei haben sich sogenannte end-to-end Modelle als besonders beliebt erwiesen. Diese verarbeiten Rohdaten direkt, sodass es während des Trainings notwendig ist, alle strukturellen Relationen zwischen Input und Output zu lernen. Für akustische Daten schlüsseln Zeit-Frequenz Darstellungen viele wichtige Relationen bereits auf, wodurch gleichwertige Ergebnisse bei geringerer Modellkomplexität und kleineren Trainingdatensätzen erzielt werden können. Obwohl diese Art der Vorverarbeitung enormes Potential für die Verbesserung von DL Verfahren für Audio Anwendungen birgt, setzt ihr optimaler Einsatz ein gewisses Maß an Fachwissen und Erfahrung voraus und hält weiterhin Herausforderungen bereit. Wir präsentieren einen Überblick aktueller Ansätze für Zeit-Frequenz-basiertes DL und deren theoretische Untersuchung und präsentieren schließlich einfache Code-Beispiele, die demonstrieren wie LTFAT mit Python in einem typischen DL Framework verwendet werden kann um diese Ansätze umzusetzen.