Daimler-Benz News vom 2.4.1995

Mit dem Computer im Dialog

Automatische Spracherkennung
bei Daimler-Benz

Hannover, 02. April 1995
Gesprochene Sprache ist nicht nur das wesentliche Element unserer zwischenmenschlichen Kommunikation, sie ist auch das Grundelement unserer gesamten Wissenschaftsverarbeitung. Wir denken sprachlich. Es ist deshalb nur natürlich, daß im Zeitalter der multimedialen Kommunikation und Informationsverarbeitung die Sprachverarbeitung eine zunehmende Bedeutung gewinnt.

Bis vor kurzer Zeit war die Maschine, mit der man sich fast in menschlicher Weise unterhalten könne, nur als Science-Fiction vorstellbar. Inzwischen hat die Forschung wesentliche Fortschritte auf dem Gebiet der automatischen Erkennung von gesprochener Sprache gemacht. Heute werden gesprochene Wörter auch unter akustisch ungünstigen Bedingungen zuverlässig erkannt. Das gelingt sogar unabhängig von unterschiedlichen Stimmen verschiedener Sprecher. Solche sprecherunabhängige Erkennung ist entscheidend für die Verwirklichung von telefonischen Informationsdiensten, bei denen nicht bekannt ist, wer einen solchen Dienst in Anspruch nimmt.

Während für manche telefonische Anwendungen nur ein kleiner Vorrat vor wenigen hundert Wörtern benötigt wird, brauchen Systeme, bei denen der Anwender im direkten Dialog mit dem Computer steht, in der Regel einen Vorrat von vielen tausend Wörtern, die dann auch noch kontinuierlich und nicht einzeln gesprochen werden. Diese unterschiedlichen Anforderungen wie Sprecherunabhängigkeit, Vokabularumfang und "Robustheit" der Erkennung münden letztlich in die Grundforderung nach hoher Erkennungssicherheit.

Daimler-Benz-Forscher demonstrieren die einzelnen Stufen eines Worterkenners. Wie beim menschlichen Gehör beginnt die Erkennung zunächst mit einer Schwingungsanalyse der einzelnen Frequenzen und ihrer Veränderung im Laufe einer Wortes. Dabei entsteht das Spektrum diese Wortes aus dem Schwingungssignal. Ein solches Spektrum enthält alle wesentlichen Informationen des Signals in sehr komprimierter Form. Am PC wird die Energieverteilung in farblicher Darstellung der verschiedenen Frequenzen gezeigt. Während bei stimmhaften Lauten ein großer Teil der Energie in tiefen Frequenzen konzentriert ist, findet sich für die stimmlosen Laute der Hauptanteil bei hohen Frequenzen.

Das Spektrum ist Grundlage des anschließenden Mustervergleichs. Dabei wird die Ähnlichkeit des zu klassifizierenden Spektrums mit Modellspektren für alle zu erkennenden Wörter gezeigt. Entscheidend ist dabei die richtige Wahl der zeitlichen Zuordnung vom zu erkennendem Spektrum und den vorgespeichertem Referenzmodell. Auf dem PC läßt sich die Übereinstimmung zwischen der Referenz und dem zu erkennenden Muster darstellen. Als "erkannt" wird schließlich dasjenige Referenzmuster ausgegeben, bei dem die Übereinstimmung optimal ist.

Der ganze Prozeß der Erkennung ist wegen des vieldimensionalen Vergleiches außerordentlich zeitaufwendig. Erst die Fortschritte der digitalen Signalverarbeitung in den letzten Jahren haben es möglich gemacht, derartige Verfahren in Echtzeit zu realisieren. Damit ist es inzwischen möglich, auch Spracherkenner zu realisieren, bei denen wegen eines Vokabulars von tausenden Wörtern tausende Vergleiche simultan passieren müssen.

Zurück zum Newsarchiv


© 1995 Daimler-Benz