Maschinelle Übersetzung 2020 – Von RBMT und SMT zur NMT

Über Maschinen, die traditionelle „Humanübersetzer“ ersetzen können, denkt man schon sehr lange nach. Bereits in den frühen 1970er Jahren begannen Industriegiganten, neben kontrollierter Sprache wie dem stark vereinfachten Simplified Technical English (STE) auch Systeme einzusetzen, die mit grammatisch-syntaktischen Transformationsregeln und Wörterbüchern Sätze von einer Sprache in die andere umwandeln sollten: Die regelbasierte Maschinenübersetzung (RBMT: rules-based machine translation) war geboren. Da alle Regeln von Hand geschrieben und auf unzählige sprachliche Sonderfälle angepasst werden mussten und es schwierig war, mit dem Wörterbuch-Ansatz Homonymen und idiomatischen Ausdrücken beizukommen, wird dieser Ansatz heute vor allem im Umfeld kontrollierter Sprache mit einem eindeutigen Vokabular verwendet. Ein bis heute entwickeltes Open-Source RBMT-Projekt ist Apertium.

Ein parallel dazu entwickelter Ansatz war die statistische Maschinenübersetzung (SMT: statistical machine translation), die in zwei wesentlichen Spielarten daherkommt: Eine satzbasierte SMT-Engine analysiert eine möglichst große Ansammlung von zwei- oder mehrsprachig vorhandenen Texten („Korpora“, Sg. Korpus) und wählt unter allen zueinander zugeordneten („alignierten“) Sätzen denjenigen aus, der statistisch die größte Übereinstimmung mit dem angefragten Satz zeigt. Eine beispielbasierte SMT-Engine arbeitet etwas feiner und zerlegt die Sätze in jeweils zu einem fremdsprachlichen Fragment zugeordnete Fragmente, welche dann aufgrund der höchsten statistischen Übereinstimmung zu einem neuen Satz zusammengefügt werden. Die Qualität von SMT-Engines steht und fällt mit der Qualität der Datenbasis (Wie gut sind die Übersetzungen? Wie fehlerfrei sind die Sätze im Bitext aligniert?) und der thematischen und Relevanz der Datenbasis (Rechtstexte, technische Texte, Zeitungsartikel, Allgemeinsprachliches, etc.) für den zu übersetzenden Text.

Dazu kamen nach und nach Hybridformen, also regelbasierte Übersetzungen, die mithilfe von Statistiken verbessert werden sollten ebenso wie statistische Übersetzungen, deren Ausgabe mithilfe von Regeln geprüft und nachjustiert wurde.

Die meisten von professionellen Übersetzern verwendeten Übersetzungsspeicher (TM; translation memory database) funktionieren bis heute ebenfalls nach dem SMT-Prinzip: Alles, was der Übersetzer je mit seinem Tool übersetzt hat, landet als zweisprachiges Satzpaar im TM und wird ihm bei ausreichend hoher Übereinstimmung wieder als Vorschlag angeboten. Da auch hier die Relevanz (s.o.) wesentlich für den Nutzen ist, legen Übersetzer in der Regel mehrere themen- und kundenspezifische TMs an. Neuere CAT-Tools ersetzen außerdem automatisch Zahlen und Einheiten, in der Terminologiedatenbank (TB) hinterlegte Begriffe oder reguläre Ausdrücke in den Übersetzungsvorschlägen, was dem oben skizzierten Hybridansatz entspricht. Das TM sorgt also für eine höhere Einheitlichkeit der Übersetzungen, aber auch für weniger Abwechslung und Einzigartigkeit, was z.B. bei Marketingtexten von Nachteil sein kann.

2014 – nachdem die beiden etablierten MT-Technologien etwa 40 Jahre vor allem als Unterstützung für Übersetzer gedient hatten, weil sie immer einer deutlichen Nachbearbeitung bedurften – kam dann eine neue Technologie auf den Markt: die von selbstlernenden neuronalen Netzen getriebene Neur(on)ale Maschinenübersetzung (NMT: neural machine translation). Noch immer werden möglichst große zweisprachige Korpora analysiert, aber die neuronalen Netze berechnen nun Wahrscheinlichkeiten für das jeweils folgende Wort eines Satzes und werden anhand von Korrekturen zu ihren Übersetzungsentscheidungen trainiert, wie sie bestimmte Satzelemente besser übersetzen, bis ihr statistisches Übersetzungsmodell den Ansprüchen genügt.

In der Praxis haben dieses für die Qualität entscheidende Training Millionen von Nutzern der „kostenlosen“ NMT-Systeme kostenlos für Google, Microsoft, Linguee/DeepL und andere Anbieter erledigt, die sich an allerlei im Internet zugänglicher mehrsprachig verfügbarer Texte als Datenbasis bedienten – ohne allzu sehr darauf zu achten, ob diese Texte gemeinfrei oder urheberrechtlich geschützt waren.

Damit stehen allerdings zwei wichtige Qualitätsfaktoren für gute maschinelle Übersetzungen in Frage: Wie gut war das Korpus übersetzt und wie gut waren die Korrekturentscheidungen der Benutzer? Tatsächlich waren die Ergebnisse bei allgemeinsprachlichen Texten nach kurzer Zeit überraschend gut. Da Fachtexte in deutlich geringerem Umfang mehrsprachig online verfügbar sind, muss man die maschinenübersetzten Fachtexte wegen der kleineren Datenbasis mit Vorsicht genießen. Außerdem können deutlich weniger menschliche „Trainer“ qualifizierte Korrekturentscheidungen treffen, was die Qualität weiter mindert.

Unternehmen, die MT produktiv einsetzen wollen – ob nun SMT oder NTM – sind daher gut beraten, keine „allgemeine“ Engine und schon gar keine der „freien“ Engines einzusetzen: Es gilt das GIGO-Prinzip! Stattdessen sollten idealerweise alle bisher vom Unternehmen selbst produzierten mehrsprachigen Texte für das Training einer maßgeschneiderten MT-Engine aligniert werden, gegebenenfalls erweitert um relevante Fachliteratur und Normen, wo dies lizenzrechtlich möglich ist. Qualifizierte Übersetzer, Terminologen oder Computerlinguisten sollten dann in Zusammenarbeit mit den Fachabteilungen das Training durchführen, um passgenaue, qualitativ hochwertige Ergebnisse zu erzielen. Dies kann auch beinhalten, die eigenen technischen Redakteure und Ingenieure durch Trainings an übersetzungsgerechtes Schreiben zu gewöhnen – die technische Redaktion geht dank DITA ohnehin mehr und mehr zum topic-basierten Schreiben über, da sollte dies keinen besonderen Mehraufwand darstellen.

One of the older and more established versions of NMT is the Encoder Decoder structure. This architecture is composed of two recurrent neural networks (RNNs) used together in tandem to create a translation model. And when coupled with the power of attention mechanisms, this architecture can achieve impressive results.
Quinn Lanners: Neural Machine Translation. (towards data science, 2019)

Diese (selbst-)lernenden Strukturen führen zu deutlich effizienteren Sprachmodellen als die herkömmliche statistische Maschinenübersetzung, sodass sie sowohl ressourcensparender als auch schneller arbeiten – bei höherer Genauigkeit! Dennoch bleibt auch NMT vor allem ein Werkzeug für Menschen, kein Ersatz für Menschen: Die Technologie macht weiterhin teils kritische Fehler, die durch die Komplexität der menschlichen Sprache bedingt sind und sich nicht einfach in statistische Wahrscheinlichkeiten umsetzen lassen – und Sie kennen es vom Karten- oder Würfelspiel: Egal, wie die Wahrscheinlichkeiten sind, manchmal fällt der Würfel in die andere Richtung. Für das eigene Verständnis fremdsprachiger Texte sind Maschinenübersetzer inzwischen oft „gut genug“, ebenso für die Bereitstellung von kurzlebigen oder unkritischen Texten, für die auch vorher niemand einen Übersetzer bezahlt oder gefunden hätte, denn die Menge an produzierten Texten steigt explosionsartig an und es gäbe gar nicht genug Übersetzer, um alles davon in jeder Sprache bereitzustellen! Wenn also dank NMT nun zum ersten Mal Texte überhaupt in einer Fremdsprache zur Verfügung gestellt werden können, dann ist dies ein Vorteil für die ganze Menschheit – wie krude die Übersetzung auch sein mag. Wenn die Texte allerdings für Sie aus Autor, als Herausgeber, als Unternehmen oder Institution eine Bedeutung haben, entweder weil sie rechtliche Implikationen haben (Verträge, compliance- und haftungsrelevante Dokumente, Urkunden, etc.) oder direkt oder indirekt zum Erfolg Ihrer Organisation beitragen (Marketing-Collateral, Produktbeschreibungen, Handbücher, etc.), ist dringend ein menschlicher Übersetzer angezeigt, der MT ebenso wie MT und andere CAT-Technologien in seinem Repertoire hat und weiß, wie er mit seinem Werkzeugkasten umzugehen hat, um das erforderliche Ergebnis zu erzielen.

Eine längere Diskussion, wie genau NMT Sätze von einer Sprache in die andere übersetzt, würde für diese Übersicht zu weit führen, aber hier sind ein paar Quellen für die technisch Interessierten:

Der oben zitierte Artikel von Quinn Lanners: Neural Machine Translation
TranslateFX: What is Neural Machine Translation and how does it work?
Das Google-AI-Blog zum Thema, in dem Google unter anderem vorstellt, wie es daran arbeitet, dass kleine Änderungen am Ausgangssatz nicht zu radikal anderen Ergebnissen führen.
Zum Ausprobieren: Graham Neubig hat ein Projekt mit Tipps zum Einrichten einer eigenen NMT-Engine auf GitHub veröffentlicht.

Das Übersetzerportal slator.com schrieb bereits im März 2019, die Menge an wissenschaftlichen Publikationen zum Thema NMT gehe durch die Decke, ebenso wie die Kommerzialisierung, ein Trend, der sich fortgesetzt hat. Im Juni 2020 kündigte schließlich auch der gegenüber Google und Microsoft langjährige Nachzügler Apple an, dass iOS 14 mit eigener Übersetzungs-App ausgeliefert würde. Es ist zu erwarten, dass die noch junge Technologie noch mehrere Jahre lang von signifikanten Fortschritten geprägt sein wird, bis die Kurve abflacht und NMT irgendwann von einer neuen, disruptiven Technologie ersetzt wird. Es bleibt also spannend!

Maschinelle Übersetzung 2020 – Von RBMT und SMT zur NMT

Maschinelle Übersetzung 2020 – Von RBMT und SMT zur NMT

Christopher Köbel

Schreibe einen Kommentar
Antworten abbrechen

Schreibe einen Kommentar

Maschinelle Übersetzung 2020 – Von RBMT und SMT zur NMT

Christopher Köbel

Schreibe einen Kommentar Antworten abbrechen

Schreibe einen Kommentar

Schreibe einen Kommentar
Antworten abbrechen