Department of Computer Science LS XII - Pattern Recognition Group

{Untersuchung der Faktoren Dauer und Koartikulation bei der Modellierung von Sprechgeschwindigkeit in der Spracherkennung}

B. Wrede, G. A. Fink and G. Sagerer
Proc. Konf. Elektronische Sprachsignalverarbeitung, 2001.

Bonn

Abstract

Die Variabilität spontan gesprochener Sprache führt zu deutlichen Verminderungen der Leistung von Spracherkennungssystemen. Dabei ist die Sprechgeschwindigkeit ein einflußreicher Variabilitätsfaktor, der sich sowohl in der zeitlichen Dimension Dauer als auch in den spektralen Eigenschaften niederschlägt. Die meisten Ansätze zur Modellierung von Sprechgeschwindigkeit in der Spracherkennung verwenden dauerbasierte Maße. Dauer ist aber nicht der beste Prädiktor für akustische Reduktion. Ein direktes Maß der Reduktion, z.B. mittels Formanten, sagt spetrale Verzerrungen verläßlicher voraus. Es werden Erkennungsexperimente vorgestellt, die zeigen, daß die Wahl des Kriteriums zum Training dauer- oder reduktionsspezifischer Modelle zwar zu keinen signifikanten Unterschieden in der Erkennungsleistung führt. Da die Maße aber nicht miteinander korreliert sind, liegt die Annahme nahe, daß die verschiedenen Kriterien unterschiedliche Eigenschaften messen und adaptieren.