Open menu
Bildung & Uni, Business, Tech

TU Graz bringt der KI das Österreichische bei – für Usability und gegen Demenz

TU Graz ©Markus Kaiser

Spracherkennung. Forschende der TU Graz haben eine neue Methode zur maschinellen Erkennung von österreichischer Umgangssprache entwickelt. Dies könnte etwa bei der Demenz-Diagnostik zum Einsatz kommen.

Fremdsprachige Menschen, die mit guten Deutschkenntnissen nach Österreich kommen, haben es unter Umständen manchmal schwer die lokalen Dialekte zu verstehen, heißt es in einer Aussendung der TU Graz (Anm.d.Red.: das gilt auch für viele „Native Speakers“ aus dem nördlichen Nachbarland). Ähnlich geht es Spracherkennungssystemen, die bislang häufig an der Entschlüsselung regional gefärbter Aussprache scheitern.

Barbara Schuppler vom Institut für Signalverarbeitung und Sprachkommunikation der TU Graz hat laut einer Aussendung nun gemeinsam mit Forschenden des Know Centers und der Uni Graz die Komplexität von Konversationssprache untersucht, eine Datenbank mit Konversationen in österreichischem Deutsch aufgebaut und neue Erkenntnisse zur Verbesserung der Spracherkennung gewonnen.

Die Ergebnisse wurden kürzlich in dem Paper „What’s so complex about conversational speech?“ im Journal Computer Speech & Language veröffentlicht. Gefördert wurde das fünfjährige Projekt vom Österreichischen Wissenschaftsfonds FWF.

Freie Gespräche im Tonstudio

Eines der Hauptziele des Projekts war, die Genauigkeit von Spracherkennungssystemen (Automatic Speech Recognition, ASR) in spontanen Konversationen mit Sprechenden aus Österreich zu verbessern. Das Team konzentrierte sich dabei auf die Herausforderungen, die sich aus der Spontanität, den kurzen Sätzen, der Überlappung von Sprechenden und der dialektalen Färbung der Aussprache in alltäglichen Gesprächen ergeben.

Um die passende Datenbasis zu haben, bauten die Forschenden die sogenannte „Graz Corpus of Read and Spontaneous Speech-Datenbank (GRASS) auf. Sie enthält Aufnahmen von 38 Personen, die sowohl gelesene Texte als auch spontane Gespräche umfassen, bei denen zwei Personen, die sich gut kannten, ohne Themenvorgabe im Tonstudio eine Stunde frei miteinander sprachen.

Auf Basis der Datenbank verglich das Team verschiedene ASR-Architekturen, darunter die schon lange existierenden HMM-Modelle (Hidden-Markov-Modelle) und die recht jungen Transformer-basierten Modelle. Dabei zeigte sich, dass Transformer-basierte Modelle, wie z.B. das Spracherkennungssystem Whisper, zwar bei längeren Sätzen mit viel Kontext sehr gut funktionieren, aber bei kurzen, fragmentarischen Sätzen, die in Konversationen häufig vorkommen, Probleme haben, so die Forscher.

Traditionelle HMM-basierte Systeme, die explizit mit Aussprachevariationen trainiert wurden, erwiesen sich demnach bei kurzen Sätzen und Dialektsprache als robuster. Die Forschenden wollten daher einen hybriden Systemansatz verfolgen, der die Stärken beider Architekturen kombiniert. So haben sie ein Transformer-Modell mit einem wissensbasierten Lexikon und einem statistischen Sprachmodell entwickelt.

Einsatz in medizinischer Diagnostik möglich

Darüber hinaus analysierte das Team, wie Merkmale wie die Sprechgeschwindigkeit, die Intonation und die Wortwahl die Genauigkeit der Spracherkennung beeinflussen. Diese Erkenntnisse könnten laut TU Graz dazu beitragen, ASR-Systeme zu entwickeln, die die menschliche Sprache in all ihren Nuancen besser verstehen.

Das Team will die Forschung in diesen Bereichen fortsetzen und die gewonnenen Erkenntnisse in die Entwicklung neuer Spracherkennungssysteme einfließen lassen. Die Ergebnisse des Projekts sollen aber auch darüber hinaus interessante Anwendungsmöglichkeiten, insbesondere in den Bereichen der medizinischen Diagnostik und der Mensch-Computer-Interaktion haben, hoffen die Forscher. So könnten ASR-Systeme zukünftig eingesetzt werden, um Demenz oder Epilepsie anhand von Sprachmustern in spontanen Gesprächen zu erkennen oder um die Interaktion mit sozialen Robotern natürlicher zu gestalten.

„Spontane Sprache, vor allem im Zwiegespräch, hat völlig andere Merkmale als eine vorgetragene oder gelesene Rede“, so Barbara Schuppler: „Gerade durch die Analyse von Mensch-Mensch-Kommunikation haben wir in unserem Projekt wichtige Erkenntnisse erreicht, die uns auch technisch weiterhelfen und neue Anwendungsbereiche aufmachen. Gemeinsam mit Partnern von der PMU Salzburg, Med Uni Graz und der Med Uni Wien arbeiten wir jetzt schon an Folgeprojekten, um auf Basis der Grundlagen, die wir im FWF-Projekt geschaffen haben, gesellschaftsrelevante Anwendungsmöglichkeiten zu schaffen.“

Weitere Meldungen:

  1. BMD und FinanzOnline: Zwei-Faktor-Authentifizierung startet
  2. Avelios Medical holt sich eine Serie A-Kapitalspritze mit Hogan Lovells
  3. Zementindustrie: Viktória Gável wird Forschungskoordinatorin
  4. Point-of-Sale: Luther berät beim Verkauf von Matrix POS