S. Wendt, G. A. Fink and F. Kummert
Elektronische Sprachsignalverarbeitung, pages 85-91, 2001.
Bonn
In der automatischen Sprachverarbeitung sind derzeit MFCC (Mel-frequency cepstral coefficients) oder LPCC (linear predictive cepstral coefficients) als Merkmale sehr verbreitet. Die Berechnung dieser Merkmale orientiert sich dabei i.a. nur rudimentär an der menschlichen Sprachwahrnehmung. Geht man jedoch davon aus, daà die Repräsentation von Sprache beim Menschen eine optimale Repräsentation darstellt, könnte eine stärkere Berücksichtigung von menschlichen Gehöreigenschaften zu einer Verbesserung von automatischen Spracherkennungssystemen führen. In diesem Beitrag wird ein Spracherkennungssystem mit einem von Strope und Alwan vorgestellten Modell zur Berechnung des Effektes der Vorwärtsmaskierung erweitert, wobei einige änderungen in der Anwendung des Modells vorgenommen wurden. Das Modell, das sich an der akustischen Wahrnehmung des Menschen orientiert, läÃt sich sehr einfach in einem auf MFCC-Merkmalen beruhenden Spracherkennungssystem einsetzen, da nur wenige Anpassungen in der Merkmalsberechnung notwendig sind, und führt vor allem in geräuschvollen Aufnahmeumgebungen zu einer deutlichen Abnahme der Wortfehlerrate.