Wie intelligent ist der Maschinenübersetzer wirklich?

Heute morgen hat Heise.de-Gastautor Marcel Tilly mit seinem Einstieg in den interessanten Artikel “Künstliche Intelligenz – Zwischen Hype und Realität” hier ein Augenrollen verursacht:

2018 wird im Bereich Übersetzung Human-parity erreicht. Das System kann einen Text von einer Sprache in eine andere so gut wie ein Dolmetscher übersetzen.

Google Translate weiß: "Economics (also known as economics [...]) is a branch of economics."

Ein Jahr nach dem Twitter-Mem ist vermutlich aufgrund von User-Feedback (der Link unten rechts) die Übersetzung ein wenig besser geworden.

Viele Kollegen werden sofort aufschreien: “Da hat schon wieder einer Übersetzer (schriftlich!) und Dolmetscher (mündlich!) durcheinander geworfen.” Ganz ehrlich: Geschenkt. Viel gefährlicher ist in meinen Augen die einleitende Erfolgsmeldung im Bereich Machine Translation (MT), die im Text leider nur indirekt über andere KI-Bereiche geradegerückt wird. Diese Einschätzung kann ich – obwohl und vielleicht gerade weil ich regelmäßig auf professioneller Basis mit “neuraler” MT verschiedener Anbieter arbeite – so nicht unwidersprochen stehen lassen: Die Systeme bringen in meinen “großen” Arbeitssprachen Deutsch, Französisch und Englisch nur noch selten grammatisch falsche Übersetzungen hervor, aber sie verfälschen deutlich häufiger als menschliche Kollegen inhaltliche Aussagen. Dies gilt insbesondere bei anspruchsvollen Übersetzungsproblemen wie beispielsweise dem im Deutschen so beliebten Passiv-Nominalstil, bei denen auch Menschen regelmäßig nachdenken müssen, wer da was mit wem anstellt. Auch Verneinungen gehen immer wieder mal daneben, was den Sinn ins Gegenteil verkehrt.

Zum Glück relativiert auch Herr Tilly die eingangs aufgezählten Erfolge der künstlichen Intelligenz, wenn auch leider nicht im Bezug auf maschinelle Übersetung. Er nennt jedoch aktuelle Zahlen zu Fehlerraten, eine Reihe von Fehlerquellen und verschweigt auch die Gefahr eines “bias” nicht – also einer Verzerrung der Ergebnisse durch eine zu geringe Quantität oder Qualität von Trainingsdaten. Ich würde dem Thema “bias” die Gefahr einer gezielten Auswahl von Trainingsdaten hinzufügen, um die “intelligente” Mustererkennung im Sinne bestimmter (politischer) Ziele zu formen. Neu für mich war die spannende Möglichkeit, bereits trainierte Erkennungsmuster durch absichtliche, für Menschen unsichtbare Strukturen in Bild- und Audiodaten zu sabotieren und irrezuleiten. Da auch die “intelligente” Autovervollständigung in Suchmaschinen immer wieder durch die Manipulation der Trainingsdaten angegriffen wird, um z.B. die Anfrage “Trump is” mit den Worten “totally incompetent” vervollständigen zu lassen, wäre für unseren Berufsstand natürlich eine spannende Frage, ob und wie maschinelle Übersetzungen durch bestimmte Zeichen- oder Wortfolgen oder durch unsichtbare Steuerzeichen im Ausgangstext irregeleitet werden können.

Herr Tilly schließt wie folgt:

Diese Beispiele beschreiben aber alle sehr fokussierte Aufgaben im Sinne einer schwachen KI und in manchen Bereichen ist gewiss auch noch etwas Arbeit notwendig. Im Grunde gilt: Je fokussierter die Aufgabe ist, desto besser funktioniert die KI. Bei breit aufgestellten Aufgaben kann es durchaus zu interessanten Nebeneffekten kommen.

[…] Allein die grundlegenden Funktionen von KI-Systemen, wie Computer Vision, NLP oder Robotik, lassen über neue Geschäftsmodelle und Möglichkeiten nachdenken. Für die werden dann aber vermutlich doch erst noch mal die Handwerker gebraucht.

Viel Arbeit und Qualitätsverbesserungen sind also noch nötig, bis KI thematisch “breit” zuverlässig eingesetzt werden kann. Um das auf mein Steckenpferd MT zurückzubinden: Die heutigen Systeme erbringen in der Tat in klar abgegrenzten Bereichen erstaunlich gute Leistungen. Diese sind aber zum einen auf Sprachkombinationen beschränkt, für die ein großes Trainingskorpus zur Verfügung steht (z.B. Englisch-Deutsch oder Englisch-Spanisch). Zum anderen liefern sie nur dann die eingangs versprochene “Human-parity”, wenn sie mit genau der Art von Texten konfrontiert werden, für die sie trainiert wurden, zum Beispiel die immer gleich strukturierten Patentschriften oder zahlenlastige Börsen- oder Sportberichte. Diese hohe Qualität erreichen natürlich nicht die “kostenlosen” Systeme der Internet-Giganten, sondern kostenpflichtige Maßanfertigungen für Businesskunden. Auf das Vertrauensproblem, das viele deutsche Unternehmen in Bezug auf sensiblen Firmendaten “irgendwo in der Cloud” – d.h. auf den womöglich im Ausland stehenden Servern von Dritten – haben, geht Herr Tilly verständlicherweise gar nicht erst ein.

Die “kostenlos” angebotenen MÜ-Systeme, deren User-Korrekturen eine wichtige Trainingsdaten-Quelle darstellen, sind inzwischen ausreichend gut, um sich fremdsprachige Texte aller Art zu erschließen, auch, wenn sie immer noch gerne zum Schmunzeln anregen. Da diese Systeme sehr “breit” mit allen möglichen Internetquellen trainiert wurden, findet sich naturgemäß auch jede Menge Datenmüll in den Trainingsdaten, so dass das GIGO-Prinzip (“garbage in, garbage out”) greift. Das ist aus meiner Sicht auch völlig in Ordnung: Das Kriterium “ausreichende Qualität” für die Anwendung “eigenes Textverständnis” oder für flüchtige Gebrauchstexte im Web liegt oft deutlich niedriger als die “ausreichende Qualität” für Anwendungen, bei denen Rechtssicherheit oder eine wirksame Kundenansprache gefragt sind, auch weil es gar nicht genug Übersetzer gibt, um all diese Texte von Menschen übersetzen zu lassen. Unternehmen werden sich aber auch mittel- bis langfristig an menschliche Profis wenden, die schon heute die maschinelle Übersetzung als weiteres Werkzeug neben Wörterbüchern, Thesauren, Rechtschreibprüfung, Grammatik- und Stilprüfung, Translation Memories und Terminologiedatenbanken für Produktivitätsgewinne nutzen. Sowohl Fachübersetzer als auch ihre Kunden wissen, dass man auch mit dem MT-Hammer sorgsam und gekonnt umgehen muss, statt damit auf Texte zu schlagen, die kein Nagel sind, um Herrn Tillys Metapher noch einmal aufzugreifen.

Ich würde mich jedenfalls freuen, ihn als KI-Experten bei der BDÜ-Konferenz “Übersetzen und Dolmetschen 4.0 – Neue Wege im digitalen Zeitalter” im November 2019 als Redner zu hören und mit ihm über die sich stets verschiebenden Grenzen des technisch Machbaren zu debattieren.

Christopher Köbel

Die “human (dis-)parity” der maschinellen Übersetzung: Wie intelligent ist künstliche Intelligenz wirklich?

Die “human (dis-)parity” der maschinellen Übersetzung: Wie intelligent ist künstliche Intelligenz wirklich?

Christopher Köbel

Leave a Reply
Cancel reply

Leave a Reply

Die “human (dis-)parity” der maschinellen Übersetzung: Wie intelligent ist künstliche Intelligenz wirklich?

Christopher Köbel

Leave a Reply Cancel reply

Leave a Reply

Leave a Reply
Cancel reply