DSGVO • RGPD • GDPR : DeFrEnTs deutsch-französisch-englische Terminologie des EU-Datenschutzes

Im Verlauf der letzten zwei Monate habe ich eine ganze Reihe von Datenschutzerklärungen übersetzt und der Fluss solcher Aufträge reißt auch gut einen Monat nach dem Stichtag zum 25. Mai 2018 noch nicht ab. Daher habe ich in einem ersten Schritt den gemeinfreien EU-Gesetzestext in den Fassungen der deutschen Datenschutz-Grundverordnung (DSGVO), des französischen Règlement général sur la protection des données (RGPD) und der englischen General Data Protection Regulation (GDPR) mit dem Open Source-Tool LFAligner aligniert und stelle sie Kollegen hier im Translation Memory eXchange-Format (.tmx) zur Verfügung. In einem zweiten Schritt habe ich mit den freien Konkordanz- und Terminologieextraktions-Tools AntConc und TermSuite aus den Korpora die verwendete Terminologie im TermBase eXchange-Format (.tbx) und MultiTerm-Datenbank (.sdltb) extrahiert.

Lire la suite

File size observations on the IATE TBX Termbase

Is has been known for a while now that a database dump of IATE, the EU Terminology Database, has been made available as a download instead of a web search form in June 2014. The ZIP file is ~116 MB, the unpacked database 2.2 GB (!) large. Since it contains all EU languages, I split this file into 4 subfiles, and extracted four trilingual DE/FR/EN files using an XSL transformation sheet. xsltproc.exe from Apache’s Xerxes XML Parser package couldn’t cope with the complete file, but the four 550MB files passed through in about 10 minutes each and dropped to about half their original size.

Lire la suite