Nur ein Bruchteil der 7.000 bis 8.000 weltweit gesprochenen Sprachen profitiert von modernen Sprachtechnologien wie Sprache-zu-Text-Transkription, automatischer Untertitelung, sofortiger Übersetzung und Spracherkennung. Forscher der Carnegie Mellon University wollen die Anzahl der ihnen zur Verfügung stehenden Sprachen mit automatischen Spracherkennungstools von etwa 200 auf potenziell 2.000 erweitern.
„Viele Menschen auf dieser Welt sprechen verschiedene Sprachen, aber Sprachtechnologie-Tools werden nicht für alle entwickelt“, sagte Xinjian Li, Ph.D. Student am Language Technologies Institute (LTI) der School of Computer Science. „Die Entwicklung von Technologie und eines guten Sprachmodells für alle Menschen ist eines der Ziele dieser Forschung.“
Li ist Teil eines Forschungsteams, das darauf abzielt, die Datenanforderungen zu vereinfachen, die Sprachen benötigen, um ein Spracherkennungsmodell zu erstellen. Das Team, dem auch die LTI-Fakultätsmitglieder Shinji Watanabe, Florian Metze, David Mortensen und Alan Black angehören, präsentierte seine neueste Arbeit „ASR2K: Speech Recognition for Around 2.000 Languages Without Audio“ auf der Interspeech 2022 in Südkorea.
Die meisten Spracherkennungsmodelle erfordern zwei Datensätze: Text und Audio. Textdaten existieren für Tausende von Sprachen. Audiodaten nicht. Das Team hofft, den Bedarf an Audiodaten zu eliminieren, indem es sich auf sprachliche Elemente konzentriert, die vielen Sprachen gemeinsam sind.
In der Vergangenheit konzentrierten sich Spracherkennungstechnologien auf das Phonem einer Sprache. Diese unterschiedlichen Laute, die ein Wort von einem anderen unterscheiden – wie das „d“, das „dog“ von „log“ und „cog“ unterscheidet – sind für jede Sprache einzigartig. Aber Sprachen haben auch Telefone, die beschreiben, wie ein Wort physikalisch klingt. Mehrere Laute können einem einzelnen Phonem entsprechen. Obwohl verschiedene Sprachen unterschiedliche Phoneme haben können, könnten ihre zugrunde liegenden Laute dieselben sein.
Das LTI-Team entwickelt ein Spracherkennungsmodell, das sich von Phonemen wegbewegt und sich stattdessen auf Informationen darüber stützt, wie Telefone zwischen Sprachen geteilt werden, wodurch der Aufwand reduziert wird, separate Modelle für jede Sprache zu erstellen. Insbesondere koppelt es das Modell mit einem phylogenetischen Baum – einem Diagramm, das die Beziehungen zwischen Sprachen abbildet – um bei Ausspracheregeln zu helfen. Durch ihr Modell und die Baumstruktur kann das Team das Sprachmodell für Tausende von Sprachen ohne Audiodaten approximieren.
„Wir versuchen, diese Audiodatenanforderung zu beseitigen, was uns hilft, von 100 oder 200 Sprachen auf 2.000 zu wechseln“, sagte Li. „Dies ist die erste Forschung, die auf eine so große Anzahl von Sprachen abzielt, und wir sind das erste Team, das darauf abzielt, Sprachwerkzeuge auf diesen Bereich auszudehnen.“
Die Forschung befindet sich noch in einem frühen Stadium und hat bestehende Sprachannäherungswerkzeuge um bescheidene 5 % verbessert, aber das Team hofft, dass dies nicht nur für ihre zukünftige Arbeit, sondern auch für die anderer Forscher als Inspiration dienen wird.
Für Li bedeutet die Arbeit mehr, als Sprachtechnologien für alle verfügbar zu machen. Es geht um den Kulturerhalt.
„Jede Sprache ist ein sehr wichtiger Faktor in ihrer Kultur. Jede Sprache hat ihre eigene Geschichte, und wenn Sie nicht versuchen, Sprachen zu bewahren, könnten diese Geschichten verloren gehen“, sagte Li. „Die Entwicklung eines solchen Spracherkennungssystems und dieses Tools ist ein Schritt, um zu versuchen, diese Sprachen zu bewahren.“