Lehrstuhl für
Multimediakommunikation und Signalverarbeitung
Prof. Dr.-Ing. André Kaup

Vergleich von Verfahren zur Sprachaktivitätsdetektion für robotisches Hören

Betreuer:Dipl.-Ing. Stefan Meier (Raum 5.13)
Hochschullehrer:Prof. Dr.-Ing. Walter Kellermann
Student:Mack, Wolfgang
Beginn:14.12.2015
Datei:Abschlussarbeit-PDF
Info:

Eine häufige Problemstellung der Audiosignalverarbeitung ist die Detektion von Zeitblöcken zu welchen ein Zielquelle, typischerweise ein menschlicher Sprecher, aktiv ist (engl. voice activity detection, VAD). Anwendungen hierfür sind beispielsweise die automatische Spracherkennung, wo der Spracherkenner nur währen Nutzsignalaktivität aktiv sein sollte, oder Systemidentifikation, wo der akustische Pfad zwischen der Nutzquelle und den Mikrofonen während Störsignalpausen geschätzt werden soll. VAD-Methoden nutzen üblicherweise spektrale und zeitliche Charakteristika von Sprachsignalen aus, um zwischen Sprache (die relativ nichtstationär ist und harmonische Strukturen aufweist) und Hintergrundgeräuschen (die als über einen längeren Zeitraum stationär angenommen werden) zu unterscheiden.

In dieser Arbeit sollen Methoden, die bereits in der Literatur vorgeschlagen wurden, untersucht werden. Die Arbeit schließt eine fundierte Literaturrecherche ein, um einen Überblick über gängige Verfahren zu gewinnen. Vielversprechende Methoden sollen implementiert und miteinander verglichen werden. Die Evaluierung soll verschiedene Arten von Hintergrundgeräuschen (z.B. weißes Rauschen, Babble Noise) beinhalten und unter verschiedenen Umgebungsbedingungen (z.B. Hall, SNR) durchgeführt werden. Schließlich soll(en) die vielversprechendste(n) Methode(n) gefunden werden.

Es wird Wert auf gut dokumentierte und strukturierte Software gelegt. Die Arbeit kann in deutscher oder englischer Sprache verfasst werden.

Typ:Forschungspraktikum
Status:Beendet