CAT, TEnT, TM, TB, (RB/S)MT, PEMT: Geheimnisvolle t9n/xl8-Kurzworte 2

Auch die Übersetzungsbranche ist nicht verschont geblieben von total hippen Abkürzungen, besonders dort, wo sie sich mit der IT-Branche überschneidet (siehe auch Teil 1). DeFrEnT klärt auf!

Nachdem ich in Teil 1 der geheimnisvollen Übersetzer-Kurzworte sehr angesagte Numeronyme erklärt habe, bin ich gerade über den vierten Absatz von What the future did to translation… a note about tech-savvy translators (Text United/Semir Mehadžić) gestolpert. Natürlich, wir haben noch mehr Abkürzungen in der Schnittmenge von Übersetzung (#xl8 / #t9n) und Informationstechnik (IT) parat!

CAT oder Computer Assisted Translation (Deutsch: computerunterstützte Übersetzung, aber das sagt keiner) beschreibt den Bereich, in dem Software menschlichen Übersetzern dabei hilft, ihre Arbeit zu erledigen. Der Begriff umfasst Technologien wie TM und TB, aber auch alle anderen Hilfsmittel, die Computer dem Übersetzer anbieten können, also Rechtschreibprüfung, Grammatik- und Stilprüfungen, ja selbst Zeitmanagement-Software oder Spracherkennung – viele Kollegen schwören, dass sie doppelt so schnell diktieren wie tippen können. Ein wichtiger Teil von TEnTs sind auch QA-Komponenten.

TEnT oder Translation Environment Tool (Deutsch: Übersetzungsumgebungswerkzeug, wobei « Umgebung » und « Werkzeug » eigentlich ein Pleonasmus sind) ist eine spezialisierte Berufssoftware, die eine Reihe von Funktionen bereitstellt, die das Übersetzen einfacher und schneller machen (sollen). Der Begriff wurde von den Tool-Entwicklern geprägt, wird aber von Übersetzern eher selten verwendet: Diese sprechen von ihrem « CAT » oder, korrekter, ihrem « CAT-Tool« . Meist umfassen TEnTs die Komponenten TM, TB und QA sowie eine Reihe von Datei-Import/Export-Filtern. Sie stellen den zu übersetzenden Quelltext (source) und den übersetzten Zieltext (target) parallel dar, segmentweise (meist Satzweise, teils Absatzweise) nebeneinander oder übereinander.

Kommen wir zu den beiden Kernanwendungen der CAT, TM und TB:

TM oder Translation Memory (Deutsch: Übersetzungsspeicher) bezeichnet eine Möglichkeit, bereits übersetzte Segmente (einzelne Sätze, je nach Einstellung auch Absätze) paarweise abzuspeichern und dem Übersetzer automatisch anzubieten/einzufügen, sobald derselbe (100% match) oder ein ähnlicher Satz (fuzzy match) wieder vorkommt. Heutige Übersetzungsspeicher sind intelligent genug, nach bestimmten Algorithmen wie der Levenshtein-Distanz Teilübereinstimmungen zu erkennen, veränderte Zahlen auszutauschen, Einheiten zu konvertieren und andere hilfreiche Ersetzungen vorzunehmen. Dies erhöht die Arbeitsgeschwindigkeit bei Texten mit vielen Wiederholungen enorm (in einem Einkaufskatalog hatte ich letztens bis zu 39% automatisch eingefügte Matches), nützt aber bei Texten, bei denen jeder Satz einzigartig ist, zu keinem Vorteil – bei kreativen Texten wie Werbetexten, die möglichst einzigartig sein sollen, kann diese Technologie sogar schaden, weil man versucht ist, einfach « OK » zu drücken, anstatt sich etwas Neues einfallen zu lassen. Viele Programme nutzen ihre eigenen Datenbankformate, um diese Informationen zu speichern, aber es gibt ein bekanntes, XML-basiertes Austauschformat für Translation Memories, das Translation Memory eXchange (TMX, .tmx)-Format, das alle Tools verwenden können.

TB oder Term Base, Terminology Database (Deutsch: Terminologiedatenbank) ist das Gegenstück zum TM für Termini, also festgelegte Begriffe wie Fachwörter und Markennamen, rechtlich vorgeschriebene Begriffe, etc. Während ein TM bei der Arbeit die übersetzten Sätze erfasst und wieder anbietet, enthält eine TB Begriffspaare, die idealerweise schon vorher vom Kunden festgelegt wurden. In anderen Fällen wird der Übersetzer selbst den Ausgangstext auf zentrale Begriffe prüfen (terminology mining), mögliche Übersetzungen recherchieren und einen davon als « Verbindlich » festlegen, während die anderen Begriffe z.B. mit « Synonym », « Veraltet » oder « Verboten » markiert in die TB aufgenommen werden (terminology work, Terminologiearbeit). Bei kleinen Projekten und besonders, wenn der Kunde keine eigene Firmenterminologie pflegt, kann es durchaus sein, dass der Übersetzer Begriffe in die TB aufnimmt und für diesen Kunden festlegt, während er beim Übersetzen zum ersten Mal im Text auf sie stößt. Ja, unterschiedliche Kunden haben unterschiedliche Begriffe für dasselbe, also trägt man immer auch mit ein, für wen welches Wort wie übersetzt werden muss. Danach bietet die TB die korrekte Übersetzung in der Regel automatisch an, sobald der passende (oder ein sehr ähnlicher) Begriff im Text auftaucht. Dies erhöht nicht unbedingt die Geschwindigkeit, wohl aber die Konsistenz und Qualität der Übersetzung.

QA oder Quality Assurance (Deutsch: QS, Qualitätssicherung) ist ein oft übersehener Vorteil von CAT-Tools. Die großen TEnTs erlauben allesamt nach der Übersetzung menschliche Korrekturläufe, oftmals versioniert, und bieten automatisierte Prüfungen an. Diese erstrecken sich von den bekannten Rechtschreib-, Grammatik- und Stilprüfungen bis zu Prüfungen, ob alle Zahlen und Einheiten korrekt übernommen wurden, ob alle Code-Tags richtig platziert sind (z.B. XML Validierung), ob die vorgegebene Terminologie eingehalten wurde, ob Markennamen korrekt übernommen wurden (Schreibung? Fehlen ™ oder ® Zeichen?) und arbeiten oft auch mit benutzerdefinierbaren regulären Ausdrücken. Wer sich bei der Übersetzung an Qualitätsnormen wie der EN 15038 orientieren will, darf diesen Schritt nicht auslassen!

Die folgenden 2 Abkürzungen gehören zu den Reizthemen der Branche:

MT, RBMT, SMT oder Rule-based / Statistical Machine Translation (Deutsch: Regelbasierte / Statistische Maschinenübersetzung) sind 2 Arten von automatisierten Systemen, die menschliche Übersetzer in gewissen Szenarien ersetzen (sollen). Die ältere Technologie ist die regelbasierte MÜ (RBMT), die mit Wörterbüchern und Unmengen von Regeln versucht, die Satzstruktur in der Ausgangssprache zu analysieren (Subjekt, Prädikat, Objekt, …) und den Satz in der Zielsprache nach deren grammatischen Regeln zu rekonstruieren. Dies funktioniert für hochstrukturierte Texte mit einfachen Sätzen und klarem Wortschatz halbwegs gut, aber bei Alltagssprache mit all ihren Varianzen versagt diese Technologie. « Kontrollierte Sprachen » wie Simplified Technical English wurden unter anderem dafür geschaffen, « maschinenübersetzbar » zu sein, d.h. Verfasser bekamen genaue Regeln an die Hand, wie sie Dokumentationen zu schreiben hatten. Heutzutage setzt man eher auf die statistische MÜ (SMT), weil sie flexibler ist. Sie nutzt extrem große zweisprachige Datenbestände (okay, Big Data, jetzt hab ich’s gesagt) und statistische Verfahren, um zu ermitteln, in welchem Kontext welche Phrasen (Teilsätze, Satzfragmente) wie übersetzt wurden. Die in Tausenden von Texten am häufigsten vorkommende Übersetzung wird ja wohl die richtige sein, oder? Wiederum funktioniert SMT ziemlich gut für einfache Sätze, für die es viele Beispiele gibt und weniger gut für komplexere Sätze, ungewöhnliche Wendungen, Aussagen, Dialekte, Sprachformen, … da müssen dann wieder « echte » Übersetzer aus Fleisch und Blut dran. Nicht umsonst hat das Europäische Patentamt bei Google ein eigenes SMT-System eingekauft: Patentschriften sind hochstrukturierte Texte mit vielen wiederkehrenden Aussagen. Was viele zornige Kollegen nicht verstehen (wollen), ist, dass mit MT oft Texte übersetzt werden, für die nie im Leben jemals jemand einen Übersetzer bezahlt hätte, sei es, weil sie zu unwichtig oder zu kurzlebig sind (viele Texte im Web), oder weil es schlichtweg zu viele sind (noch mehr Texte im Web). Für einen groben Einblick in die ungefähre Aussage eines Textes reicht MT heutzutage – für kommerzielle oder gar rechtliche Texte kommen nur « Humanübersetzungen » in Frage. Wäre da nicht…

PEMT oder Post-Editing Machine Translation (Deutsch: Nachbearbeitung von Maschinenübersetzungen, ungebräuchlich), die « Rettung » für die Maschinenübersetzung. Findige Geschäftsmänner haben erkannt: Wenn ihr teures MÜ-System nicht von alleine gute (d.h. lesbare, verständliche, verkaufbare) Übersetzungen erstellen kann, müssen sie eben noch einmal von Menschen korrekturgelesen werden. Dafür muss man dann keine qualifizierten Übersetzer mehr einsetzen, denn « übersetzt » ist der Text ja schon, sondern irgendwelche Muttersprachler der Zielsprache, zum Beispiel Studenten oder Hausfrauen: Die kriegen das schon heraus, was das Kauderwelsch bedeuten mag, und da sie nach Leistung und nicht nach Recherchezeit bezahlt werden, ist PEMT spottbillig! Die Aussage, die man von professionellen Übersetzern hört, wenn man sie bittet, eine MÜ zu lektorieren, ist häufig: « Das lohnt nicht zu korrigieren, ich bin schneller, wenn ich es neu übersetze » und noch häufiger nicht druckreif. Auch hier gilt jedoch: Für kurzlebige Massentexte, die möglichst billig irgendwie die Kerninhalte transportieren sollen und nebenbei das Sozialsystem entlasten, weil sie Arbeitslosen und Rentnern ein Zusatzeinkommen bescheren, … aber ich tue Arbeitslosen und Rentnern Unrecht: Selbst Menschen in prekären Situationen sollten keine 3 MÜ-Texte am Stück korrigieren müssen.

Wow. Wie ist dieser Mikro-Lexikonartikel plötzlich so beißend geworden? « Machen Sie keinen Fehler », wie unsere englischsprachigen Mitmenschen sagen würden (zu Deutsch: « Täuschen Sie sich mal nicht »): MT und vermutlich auch PEMT haben ihre Berechtigung und ermöglichen eine bisher ungeahnte weltweite Kommunikation. Dennoch: Wenn Ihr Marketingerfolg, wenn Ihre Rechtssicherheit, wenn Ihr Überleben an einem Text hängen, beauftragen Sie einen Profi aus Fleisch und Blut. Sie sparen Geld, Zeit und Nerven.

Oder wollen auch Sie ein 10 Meter großes Schild mit der Inschrift « Translate Server Error« ?

Viele Grüße, Ihr
Christopher Köbel

CAT, TEnT, TM, TB, (RB/S)MT, PEMT: Geheimnisvolle t9n/xl8-Kurzworte 2

CAT, TEnT, TM, TB, (RB/S)MT, PEMT: Geheimnisvolle t9n/xl8-Kurzworte 2

Christopher Köbel

Laisser un commentaire
Annuler la réponse

Laisser un commentaire

CAT, TEnT, TM, TB, (RB/S)MT, PEMT: Geheimnisvolle t9n/xl8-Kurzworte 2

Christopher Köbel

Laisser un commentaire Annuler la réponse

Laisser un commentaire

Laisser un commentaire
Annuler la réponse