Vorw\"artsmaskierung f\"ur cepstrum-basierte Spracherkennungssysteme

S. Wendt, G. A. Fink and F. Kummert
Elektronische Sprachsignalverarbeitung, pages 85-91, 2001.

Bonn

BibTeX PDF

Abstract

In der automatischen Sprachverarbeitung sind derzeit MFCC (Mel-frequency cepstral coefficients) oder LPCC (linear predictive cepstral coefficients) als Merkmale sehr verbreitet. Die Berechnung dieser Merkmale orientiert sich dabei i.a. nur rudimentär an der menschlichen Sprachwahrnehmung. Geht man jedoch davon aus, daß die Repräsentation von Sprache beim Menschen eine optimale Repräsentation darstellt, könnte eine stärkere Berücksichtigung von menschlichen Gehöreigenschaften zu einer Verbesserung von automatischen Spracherkennungssystemen führen. In diesem Beitrag wird ein Spracherkennungssystem mit einem von Strope und Alwan vorgestellten Modell zur Berechnung des Effektes der Vorwärtsmaskierung erweitert, wobei einige änderungen in der Anwendung des Modells vorgenommen wurden. Das Modell, das sich an der akustischen Wahrnehmung des Menschen orientiert, läßt sich sehr einfach in einem auf MFCC-Merkmalen beruhenden Spracherkennungssystem einsetzen, da nur wenige Anpassungen in der Merkmalsberechnung notwendig sind, und führt vor allem in geräuschvollen Aufnahmeumgebungen zu einer deutlichen Abnahme der Wortfehlerrate.