S. Wendt, G. A. Fink and F. Kummert
{Elektronische Sprachsignalverarbeitung}, pages 96-103, 2002.
Dresden
Bei der automatischen Spracherkennung müssen während des Erkennungsprozesses komplexe Zustandsräume durchsucht werden. Durch Einschränkung dieser Suchräume kann die Bearbeitungszeit deutlich reduziert werden, wobei jedoch i.A. auch die Wortakkuratheit (Erkennungsleistung) sinkt. Eine verstärkte Suchraumeinschränkung ist aber vor allem für zeitkritische Anwendungen, z.B. Interaktion mit agierenden Systemen oder mobilen Robotern, notwendig. Es gibt zwar eine Reihe von Verfahren zur Suchraumeinschränkung, die jedoch zumeist keine bestimmte Verarbeitungszeit garantieren können. Die meisten Verfahren werden über einen Parameter gesteuert, der i.d.R. heuristisch festgelegt werden muss und während des Erkennungsprozesses unverändert bleibt. Dadurch kann i.A. nur erreicht werden, dass die Spracherkennung in einem gewissen Zeitrahmen, nicht aber mit einer bestimmte Geschwindigkeit erfolgt. AuÃerdem ist der Zeitrahmen bei einem festgelegten Parameter stark ressourcenabhängig. Deshalb wurde ein Verfahren zur dynamischen Suchraumeinschränkung entwickelt, das während des Erkennungsprozesses die Parameter für verschiedene bekannte Verfahren durch Abschätzung der Verarbeitungsgeschwindigkeit und der Wortakkuratheit auf der Basis empirisch ermittelter Daten dynamisch optimiert. Dieses Verfahren ermöglicht es, Sprachsignale mit einer vorgegebenen Geschwindigkeit zu verarbeiten. Im Gegensatz zum Spracherkennungssystem ohne dynamische Suchraumeinschränkung, bei dem die Verarbeitungsgeschwindigkeit zwischen verschiedenen äuÃerungen stark variiert, zeigt das erweiterte System eine annähernd konstante Verarbeitungsgeschwindigkeit, wobei die Wortakkuratheit bei gleicher Verarbeitungszeit nicht signifikant sinkt. AuÃerdem kann eine vorgegebenen Verarbeitungsgeschwindigkeit unabhängig von den verfügbaren Ressourcen eingehalten werden. Darüber hinaus kann das erweiterte System jederzeit so beschleunigt werden, dass eine automatische Spracherkennung in Echtzeit erfolgt, wodurch z.B. eine reflexartige Reaktion von agierenden Systemen auf sprachliche Interventionen ermöglicht wird.