Lehrstuhl für
Multimediakommunikation und Signalverarbeitung
Prof. Dr.-Ing. André Kaup

Evaluierung numerischer Optimierungsverfahren für die robuste Spracherkennung nach dem REMOS-Konzept

Betreuer:Prof. Dr.-Ing. Armin Sehr (Raum 5.10)
Hochschullehrer:Prof. Dr.-Ing. Walter Kellermann
Student:Roland Maas
Beginn:01.04.2009
Ende:30.09.2009
Datei:Abschlussarbeit-PDF
Info:Robuste Spracherkennung im Freisprechmodus ist für viele Anwendungen äußerst wünschenswert. Aufgrund der Mehrwegeausbreitung in realen akusti-schen Umgebungen nimmt das Mikrofon nicht nur das gewünschte Signal, sondern auch dessen Nachhall auf. Dadurch wird die Fehlerrate heutiger Spracherkennungssysteme erheblich erhöht. Da der Nachhall einen dispersiven Effekt auf die zur Erkennung verwendeten Merkmalfolgen hat, erreichen traditionelle Signalverbesserungs- und Modelladaptions-Algorithmen nur eingeschränkte Verbesserungen in halligen Umgebungen.

Ein neuartiges Konzept mit der Bezeichnung REverberation MOdeling for Speech recognition (REMOS) setzt eine Kombination eines Hidden Markov Models (HMM) und eines Nachhallmodells ein und erzielt auch in stark verhallten Umgebungen vielversprechende Ergebnisse. Das HMM modelliert die unverhallte Sprache, während das Nachhallmodell den Effekt des Nachhalls direkt im Merkmalsbereich beschreibt. Für die Spracherkennung wird eine erweiterte Version des Viterbi Algorithmus eingesetzt, die in jedem Iterationsschritt eine innere Optimierung ausführt, um die wahrscheinlichsten Beiträge des HMMs und des Nachhallmodells zum aktuellen verhallten Merkmalsvektor zu ermitteln. Bisher wurde das Verfahren nur für mel-spectral Merkmale implementiert.

Um das REMOS-Konzept für leistungsfähigere Sprachmerkmale, wie logarith-mische mel-spectral Merkmale oder MFCCs, zu erweitern, müssen numerische Optimierungsverfahren eingesetzt werden. In dieser Arbeit sollen verschiedene Formulierungen und verschiedene numerische Lösungen des inneren Optimierungsproblems evaluiert werden. Für die Implementierung der numerischen Methoden soll der vorhandene C-Code für einen Hidden Markov Model Toolkit (HTK)-basierten Erkenner mit Hilfe des „Open Source“ Software Pakets IPOPT (Interior Point Optimizer) erweitert werden.

Typ:Masterarbeit
Status:Beendet