Maschinelle Übersetzung 2020 – Von RBMT und SMT zur NMT

Über Maschinen, die traditionelle “Humanübersetzer” ersetzen können, denkt man schon sehr lange nach. Bereits in den frühen 1970er Jahren begannen Industriegiganten, neben kontrollierter Sprache wie dem stark vereinfachten Simplified Technical English (STE) auch Systeme einzusetzen, die mit grammatisch-syntaktischen Transformationsregeln und Wörterbüchern Sätze von einer Sprache in die andere umwandeln sollten: Die regelbasierte Maschinenübersetzung (RBMT: rules-based machine translation) war geboren. Da alle Regeln von Hand geschrieben und auf unzählige sprachliche Sonderfälle angepasst werden mussten und es schwierig war, mit dem Wörterbuch-Ansatz Homonymen und idiomatischen Ausdrücken beizukommen, wird dieser Ansatz heute vor allem im Umfeld kontrollierter Sprache mit einem eindeutigen Vokabular verwendet. Ein bis heute entwickeltes Open-Source RBMT-Projekt ist Apertium.

Ein parallel dazu entwickelter Ansatz war die statistische Maschinenübersetzung (SMT: statistical machine translation), die in zwei wesentlichen Spielarten daherkommt: Eine satzbasierte SMT-Engine analysiert eine möglichst große Ansammlung von zwei- oder mehrsprachig vorhandenen Texten (“Korpora”, Sg. Korpus) und wählt unter allen zueinander zugeordneten (“alignierten”) Sätzen denjenigen aus, der statistisch die größte Übereinstimmung mit dem angefragten Satz zeigt. Eine beispielbasierte SMT-Engine arbeitet etwas feiner und zerlegt die Sätze in jeweils zu einem fremdsprachlichen Fragment zugeordnete Fragmente, welche dann aufgrund der höchsten statistischen Übereinstimmung zu einem neuen Satz zusammengefügt werden. Die Qualität von SMT-Engines steht und fällt mit der Qualität der Datenbasis (Wie gut sind die Übersetzungen? Wie fehlerfrei sind die Sätze im Bitext aligniert?) und der thematischen und Relevanz der Datenbasis (Rechtstexte, technische Texte, Zeitungsartikel, Allgemeinsprachliches, etc.) für den zu übersetzenden Text.

Dazu kamen nach und nach Hybridformen, also regelbasierte Übersetzungen, die mithilfe von Statistiken verbessert werden sollten ebenso wie statistische Übersetzungen, deren Ausgabe mithilfe von Regeln geprüft und nachjustiert wurde.

Die meisten von professionellen Übersetzern verwendeten Übersetzungsspeicher (TM; translation memory database) funktionieren bis heute ebenfalls nach dem SMT-Prinzip: Alles, was der Übersetzer je mit seinem Tool übersetzt hat, landet als zweisprachiges Satzpaar im TM und wird ihm bei ausreichend hoher Übereinstimmung wieder als Vorschlag angeboten. Da auch hier die Relevanz (s.o.) wesentlich für den Nutzen ist, legen Übersetzer in der Regel mehrere themen- und kundenspezifische TMs an. Neuere CAT-Tools ersetzen außerdem automatisch Zahlen und Einheiten, in der Terminologiedatenbank (TB) hinterlegte Begriffe oder reguläre Ausdrücke in den Übersetzungsvorschlägen, was dem oben skizzierten Hybridansatz entspricht. Das TM sorgt also für eine höhere Einheitlichkeit der Übersetzungen, aber auch für weniger Abwechslung und Einzigartigkeit, was z.B. bei Marketingtexten von Nachteil sein kann.

2014 – nachdem die beiden etablierten MT-Technologien etwa 40 Jahre vor allem als Unterstützung für Übersetzer gedient hatten, weil sie immer einer deutlichen Nachbearbeitung bedurften – kam dann eine neue Technologie auf den Markt: die von selbstlernenden neuronalen Netzen getriebene Neur(on)ale Maschinenübersetzung (NMT: neural machine translation). Noch immer werden möglichst große zweisprachige Korpora analysiert, aber die neuronalen Netze berechnen nun Wahrscheinlichkeiten für das jeweils folgende Wort eines Satzes und werden anhand von Korrekturen zu ihren Übersetzungsentscheidungen trainiert, wie sie bestimmte Satzelemente besser übersetzen, bis ihr statistisches Übersetzungsmodell den Ansprüchen genügt.

In der Praxis haben dieses für die Qualität entscheidende Training Millionen von Nutzern der “kostenlosen” NMT-Systeme kostenlos für Google, Microsoft, Linguee/DeepL und andere Anbieter erledigt, die sich an allerlei im Internet zugänglicher mehrsprachig verfügbarer Texte als Datenbasis bedienten – ohne allzu sehr darauf zu achten, ob diese Texte gemeinfrei oder urheberrechtlich geschützt waren.

Damit stehen allerdings zwei wichtige Qualitätsfaktoren für gute maschinelle Übersetzungen in Frage: Wie gut war das Korpus übersetzt und wie gut waren die Korrekturentscheidungen der Benutzer? Tatsächlich waren die Ergebnisse bei allgemeinsprachlichen Texten nach kurzer Zeit überraschend gut. Da Fachtexte in deutlich geringerem Umfang mehrsprachig online verfügbar sind, muss man die maschinenübersetzten Fachtexte wegen der kleineren Datenbasis mit Vorsicht genießen. Außerdem können deutlich weniger menschliche “Trainer” qualifizierte Korrekturentscheidungen treffen, was die Qualität weiter mindert.

Unternehmen, die MT produktiv einsetzen wollen – ob nun SMT oder NTM – sind daher gut beraten, keine “allgemeine” Engine und schon gar keine der “freien” Engines einzusetzen: Es gilt das GIGO-Prinzip! Stattdessen sollten idealerweise alle bisher vom Unternehmen selbst produzierten mehrsprachigen Texte für das Training einer maßgeschneiderten MT-Engine aligniert werden, gegebenenfalls erweitert um relevante Fachliteratur und Normen, wo dies lizenzrechtlich möglich ist. Qualifizierte Übersetzer, Terminologen oder Computerlinguisten sollten dann in Zusammenarbeit mit den Fachabteilungen das Training durchführen, um passgenaue, qualitativ hochwertige Ergebnisse zu erzielen. Dies kann auch beinhalten, die eigenen technischen Redakteure und Ingenieure durch Trainings an übersetzungsgerechtes Schreiben zu gewöhnen – die technische Redaktion geht dank DITA ohnehin mehr und mehr zum topic-basierten Schreiben über, da sollte dies keinen besonderen Mehraufwand darstellen.

One of the older and more established versions of NMT is the Encoder Decoder structure. This architecture is composed of two recurrent neural networks (RNNs) used together in tandem to create a translation model. And when coupled with the power of attention mechanisms, this architecture can achieve impressive results.

Quinn Lanners: Neural Machine Translation. (towards data science, 2019)

Diese (selbst-)lernenden Strukturen führen zu deutlich effizienteren Sprachmodellen als die herkömmliche statistische Maschinenübersetzung, sodass sie sowohl ressourcensparender als auch schneller arbeiten – bei höherer Genauigkeit! Dennoch bleibt auch NMT vor allem ein Werkzeug für Menschen, kein Ersatz für Menschen: Die Technologie macht weiterhin teils kritische Fehler, die durch die Komplexität der menschlichen Sprache bedingt sind und sich nicht einfach in statistische Wahrscheinlichkeiten umsetzen lassen – und Sie kennen es vom Karten- oder Würfelspiel: Egal, wie die Wahrscheinlichkeiten sind, manchmal fällt der Würfel in die andere Richtung. Für das eigene Verständnis fremdsprachiger Texte sind Maschinenübersetzer inzwischen oft “gut genug”, ebenso für die Bereitstellung von kurzlebigen oder unkritischen Texten, für die auch vorher niemand einen Übersetzer bezahlt oder gefunden hätte, denn die Menge an produzierten Texten steigt explosionsartig an und es gäbe gar nicht genug Übersetzer, um alles davon in jeder Sprache bereitzustellen! Wenn also dank NMT nun zum ersten Mal Texte überhaupt in einer Fremdsprache zur Verfügung gestellt werden können, dann ist dies ein Vorteil für die ganze Menschheit – wie krude die Übersetzung auch sein mag. Wenn die Texte allerdings für Sie aus Autor, als Herausgeber, als Unternehmen oder Institution eine Bedeutung haben, entweder weil sie rechtliche Implikationen haben (Verträge, compliance- und haftungsrelevante Dokumente, Urkunden, etc.) oder direkt oder indirekt zum Erfolg Ihrer Organisation beitragen (Marketing-Collateral, Produktbeschreibungen, Handbücher, etc.), ist dringend ein menschlicher Übersetzer angezeigt, der MT ebenso wie MT und andere CAT-Technologien in seinem Repertoire hat und weiß, wie er mit seinem Werkzeugkasten umzugehen hat, um das erforderliche Ergebnis zu erzielen.

Eine längere Diskussion, wie genau NMT Sätze von einer Sprache in die andere übersetzt, würde für diese Übersicht zu weit führen, aber hier sind ein paar Quellen für die technisch Interessierten:

Das Übersetzerportal slator.com schrieb bereits im März 2019, die Menge an wissenschaftlichen Publikationen zum Thema NMT gehe durch die Decke, ebenso wie die Kommerzialisierung, ein Trend, der sich fortgesetzt hat. Im Juni 2020 kündigte schließlich auch der gegenüber Google und Microsoft langjährige Nachzügler Apple an, dass iOS 14 mit eigener Übersetzungs-App ausgeliefert würde. Es ist zu erwarten, dass die noch junge Technologie noch mehrere Jahre lang von signifikanten Fortschritten geprägt sein wird, bis die Kurve abflacht und NMT irgendwann von einer neuen, disruptiven Technologie ersetzt wird. Es bleibt also spannend!

Die “human (dis-)parity” der maschinellen Übersetzung: Wie intelligent ist künstliche Intelligenz wirklich?

Heute morgen hat Heise.de-Gastautor Marcel Tilly mit seinem Einstieg in den interessanten Artikel “Künstliche Intelligenz – Zwischen Hype und Realität” hier ein Augenrollen verursacht:

  • 2018 wird im Bereich Übersetzung Human-parity erreicht. Das System kann einen Text von einer Sprache in eine andere so gut wie ein Dolmetscher übersetzen.

Google Translate weiß: "Economics (also known as economics [...]) is a branch of economics."

Ein Jahr nach dem Twitter-Mem ist vermutlich aufgrund von User-Feedback (der Link unten rechts) die Übersetzung ein wenig besser geworden.

Read More

DSGVO • RGPD • GDPR : DeFrEnTs deutsch-französisch-englische Terminologie des EU-Datenschutzes

Im Verlauf der letzten zwei Monate habe ich eine ganze Reihe von Datenschutzerklärungen übersetzt und der Fluss solcher Aufträge reißt auch gut einen Monat nach dem Stichtag zum 25. Mai 2018 noch nicht ab. Daher habe ich in einem ersten Schritt den gemeinfreien EU-Gesetzestext in den Fassungen der deutschen Datenschutz-Grundverordnung (DSGVO), des französischen Règlement général sur la protection des données (RGPD) und der englischen General Data Protection Regulation (GDPR) mit dem Open Source-Tool LFAligner aligniert und stelle sie Kollegen hier im Translation Memory eXchange-Format (.tmx) zur Verfügung. In einem zweiten Schritt habe ich mit den freien Konkordanz- und Terminologieextraktions-Tools AntConc und TermSuite aus den Korpora die verwendete Terminologie im TermBase eXchange-Format (.tbx) und MultiTerm-Datenbank (.sdltb) extrahiert.

Read More

Rückblick: 2 Jahre Ehrenamt im Bundesverband der Dolmetscher und Übersetzer (BDÜ)

Liebe Leser/-innen,

auch wenn ich nicht so oft blogge, wie ich gerne würde, war ich alles andere als untätig. Jetzt nähere ich mich einer Zäsur, die ein kurzes Innehalten verdient:

Meine ersten beiden Jahre als “Vorstandsmitglied für die Ressorts Öffentlichkeitsarbeit, Mitgliederzeitschrift Hessen-Info und Website” im “Bundesverband der Dolmetscher und Übersetzer (BDÜ) Landesverband Hessen e.V.“, kurz “BDÜ Hessen” oder “BDÜ LV HE” gehen zu Ende – allerdings stehe ich am 24. März erneut zur Wahl und bin zuversichtlich, das Ehrenamt auch die nächsten zwei Jahre ausfüllen zu können.

Treffen der BDÜ-Öffentlichkeitsarbeiter Bundesverband + 13 Mitgliedsverbände, ©Réka Maret

Jährliches Treffen der “ÖffAs” am 2. März 2018 in Fulda: Öffentlichkeitsarbeiter aller 13 BDÜ-Mitgliedsverbände erarbeiten mit dem Bundesverband gemeinsame Kommunikationsstrategien. Mittig in Grün: Christopher Köbel.

Ich würde gerne sagen können, dass es daran liegt, dass ich meine Aufgaben mit Herz und Hirn wahrgenommen habe und dass die Jahresmitgliederversammlung das am Samstag bestätigt. Eine traurige Tatsache ist jedoch, dass ich voraussichtlich – wie unser wiederzuwählender 1. Vorsitzender – außer Konkurrenz laufe, weil es im BDÜ Hessen nicht viel anders läuft als in allen anderen Vereinen, die ich von innen kenne: Einige wenige leisten immer den Großteil der Arbeit, dabei wäre es für alle einfacher, wenn die Arbeit auf mehr Schultern verteilt würde.

Zumindest würde ich das denken, wenn ich im letzten Jahr nicht den Großteil der Arbeiten für das 70. Verbandsjubiläum auf die Schultern der eigens gegründeten, fünfköpfigen “Jubi-AG” hätte auslagern können. Oder wenn unsere Verbandszeitschrift “Hessen-Info” nicht seit Jahren von einem dreiköpfigen Redaktionsteam hervorragend betreut würde, sodass ich im Wesentlichen nur mit der Kontrolle und Freigabe der Inhalte betraut bin. Oder wenn ich mich in Bezug auf die Verbands-Website nur um redaktionelle Inhalte kümmern muss, weil unsere Geschäftsstellenleiterin zuverlässig alle Termine einpflegt, die bei ihr zusammenlaufen. Man ist also zum Glück nie alleine.

Das heißt nicht, dass mein Ehrenamt nicht mindestens 2 Stunden pro Woche bindet. Ich muss über alle Verbandsentscheidungen und die Aufnahme von Neumitgliedern mit abstimmen und daher körbeweise E-Mails und Diskussionsgrundlagen lesen. Alle sechs Wochen geht ein ganzer Tag für Vorstandssitzungen drauf, in der Verbandspolitik, Veranstaltungen, die Unterstützung unserer Regionalgruppen und Übersetzerstammtische, Medienreaktionen, die Koordination mit den Schwester-Landesverbänden und dem Bundesverband sowie viele weitere – mal spannende und mal dröge – Themen “abgehakt” werden.  Neues Corporate Design: BDÜ Mitgliedslogos vor und nach 2017

Die letzten zwei Jahre waren für mich aber besonders geprägt von einer grundlegenden Neugestaltung des Corporate Designs des BDÜ, die nicht nur eine große Abstimmungsarbeit nach sich zog, sondern auch viele Diskussionen um Regularien und Change Management, also “interne Widerstände überwinden und Bedenkenträger überzeugen” , wie das im Corpspeak so schön heißt. In Hessen waren zum Beispiel viele traurig über den Abschied vom hessischen “Leo”, der jetzt nur noch in der internen Mitgliederzeitschrift erscheint. Nicht wenige Diskussionen führen musste ich auch rund um das Zentralisierungs-Thema “Aufgaben ‘nach oben’ an den Bundesverband weiterschieben, aber dabei bloß keine Entscheidungsgewalt abgeben”.

Im Rückblick muss ich daher sagen: Es war eine nicht unerhebliche, dafür aber unbezahlte* Zusatzbelastung zur Arbeit als freier Übersetzer. Sie war spannend, hat mir viele neue Einblicke gegeben, mich mit sehr interessanten Menschen zusammengebracht, mich aus meiner übersetzertypischen “Einsiedlerhöhle” zu Konferenzen nach Hamburg und Fulda gebracht und mich daran erinnert, wie gerne ich doch im Team arbeite, sowohl als Hirte als auch als Schaf (oder Hütehund?).

Daher mein Appell an die Young Professionals unter euch: Ich war 5 Jahre im Beruf, bevor ich mich zur Wahl stellte. Wenn ich geahnt hätte, dass Verbandsarbeit auch wertvolle Kontakte und ungeahnte Einblicke in Best Practices und den Übersetzermarkt sowie politische Rahmenbedingungen für das Freiberuflerdasein mitbringt, hätte ich mich wohl eher getraut. Das Klima im BDÜ Hessen ist gerade sehr gut dafür, auch als Einsteiger Verantwortung zu übernehmen: Die “alte Riege” wird zunehmend dünner, aber es sind noch genug von ihnen da, um wertvolles Wissen weiterzugeben, bevor man es sich in einigen Jahren neu erarbeiten müsste. Bringt euch jetzt ein!

Insbesondere suchen wir derzeit einen Nachfolger für unseren Referenten für Gerichtsdolmetscher, der vom derzeitigen Amtsinhaber sowohl einen Wissensschatz über den Umgang mit Juristen, als auch Kontakte zu den Entscheidungsträgern in Frankfurter Gerichten und Justizbehörden erben könnte. Idealerweise findet sich natürlich ein Nachfolger, der auch tatsächlich regelmäßig für die Justiz arbeitet oder arbeiten möchte und die Beziehungen unseres manchmal vernachlässigten – aber dank Migration immer unverzichtbareren – Berufsstandes zur Justiz verbessern möchte.

Meine Wenigkeit möchte – nachdem Corporate Design-Umstellung und Jubiläumsjahr vorbei sind – gerne eine Social Media-Redaktion aufbauen, die Verbandsnews, Seminartermine und wertvolle Informationen rund um Beruf und Verband einem breiteren Publikum bekannt macht, als dies über unsere vorwiegend internen Kanäle Newsletter und Hessen-Info möglich ist.

Interessiert?

Übrigens: In der Regel duzen wir uns unter Funktionsträgern, da wir alle freiwillig dabei sind und uns für gemeinsame Ziele engagieren. Niemand ist “zu unerfahren”, denn fast jeder von uns steigt als Neuling in die Verbandsarbeit ein, egal wie viele Jahre und Dienstjahre als Sprachmittler er oder sie auf dem Buckel hat.

In diesem Sinne: Hoffentlich auf weitere zwei Jahre im Dienste der Gemeinschaft der Sprachmittler und hoffentlich auch zusammen mit euch! Wir sehen uns am Samstag auf der JMV!

Euer
Christopher

JPMorgan Corporate Challenge Frankfurt 2017

Juchhu! DeFrEnT hat nach 43 Minuten den Start erreicht!

Christopher Köbel erreicht 43 Minuten nach dem Startschuss den Start…

Am 13. Juni 2017 startete Christopher Köbel zum zweiten Mal bei der JPMorgan Corporate Challenge in Frankfurt, einem Benefizlauf für Unternehmen, diesmal mit der Läufernummer 18459.

Mit dem Wettlauf in der Frankfurter Innenstadt über 5,6 km (3,5 Meilen) fördert die Stiftung der Investmentbank JPMorgan Chase & Co. nicht nur den Behindertensport, sondern auch den Teamgeist und den sportlichen Wettstreit in Unternehmen.

Read More

Ein Blick in die DIN EN ISO 17100 Übersetzungsleistungen

Im Mai 2016 wurde die neue DIN EN ISO 17100:2016 mit dem Titel Übersetzungsleistungen veröffentlicht, die ihren gleichnamigen Vorgänger DIN EN 15038:2006 und die alte DIN 2345 Übersetzungsaufträge beerbt. Im Juni 2016 hat die BDÜ Weiterbildungs- und Fachverlagsgesellschaft mbH des Bundesverbands der Dolmetscher und Übersetzer e.V. einen vergünstigten Sonderdruck für ihre Mitglieder herausgebracht, den sich Christopher Köbel von DeFrEnT in Folge einmal aus seiner Praxis-Perspektive ansieht.

Read More