B. Wrede, G. A. Fink and G. Sagerer
Proc. Konf. Elektronische Sprachsignalverarbeitung, 2001.
Bonn
Die Variabilität spontan gesprochener Sprache führt zu deutlichen Verminderungen der Leistung von Spracherkennungssystemen. Dabei ist die Sprechgeschwindigkeit ein einfluÃreicher Variabilitätsfaktor, der sich sowohl in der zeitlichen Dimension Dauer als auch in den spektralen Eigenschaften niederschlägt. Die meisten Ansätze zur Modellierung von Sprechgeschwindigkeit in der Spracherkennung verwenden dauerbasierte MaÃe. Dauer ist aber nicht der beste Prädiktor für akustische Reduktion. Ein direktes Maà der Reduktion, z.B. mittels Formanten, sagt spetrale Verzerrungen verläÃlicher voraus. Es werden Erkennungsexperimente vorgestellt, die zeigen, daà die Wahl des Kriteriums zum Training dauer- oder reduktionsspezifischer Modelle zwar zu keinen signifikanten Unterschieden in der Erkennungsleistung führt. Da die MaÃe aber nicht miteinander korreliert sind, liegt die Annahme nahe, daà die verschiedenen Kriterien unterschiedliche Eigenschaften messen und adaptieren.