Thuispagina

Hoe werkt het veeltalige vertaalwoordenboek?

Het vertaalwoordenboek op de site van Majstro‐Aplikaĵoj kan afzonderlijke woorden tussen vele talen vertalen, en in dit artikel wordt uitgelegd hoe dat in zijn werk gaat. Wanneer men bedenkt hoe men zoiets moet aanpakken, is de eerste gedachte misschien om voor iedere combinatie van twee talen een tweetalige woordenlijst te maken. Wanneer het aantal talen niet te groot is, geeft deze eenvoudige aanpak de nauwkeurigste resultaten. Aan ieder woord in de ene taal kan men dan immers simpelweg de woorden in de andere taal koppelen die in een zekere context 1 een passende vertaling zijn.

Maar aan deze methode kleeft het nadeel dat naarmate het aantal ondersteunde talen toeneemt, het aantal benodigde woordenlijsten explosief snel stijgt. Zelfs voor de grootste organisaties wordt het samenstellen van zulke lijsten al gauw een onmogelijke taak. Weliswaar zijn er op het Internet vertaalwoordenboeken te vinden die deze methode gebruiken, maar deze zijn geheel of gedeeltelijk afhankelijk van de inbreng van vrijwilligers. Het laatste betekent dat het voor de beheerders lastig is om invloed op de kwaliteit van de vertalingen uit te oefenen, en ook dat er voor combinaties met minder vaak gesproken talen waarschijnlijk niet of nauwelijks vertalingen beschikbaar zijn. Waar vindt met bijvoorbeeld iemand die een woordenlijst IJslands‐Saterfries kan samenstellen—en ook bereid is dit, zonder betaling nog wel, te doen?

De bovengenoemde methode is er duidelijk niet een die voor het vele talen ondersteunende woordenboek van Majstro‐Aplikaĵoj geschikt is. De voor de hand liggende manier om bij een groter aantal taalcombinaties te werk te gaan, is het gebruik van een hulptaal. Als men dan van taal A naar B moet vertalen, wordt het te vertalen woord eerst naar de hulptaal vertaald. Vervolgens worden de vertalingen (het komt uiteraard vaak voor dat er meer dan één vertaling mogelijk is) naar taal B vertaald. In dat geval is er voor iedere taal die men wil ondersteunen, maar één tweetalige woordenlijst nodig.

Okee, we hebben vastgesteld dat we een hulptaal moeten gebruiken, maar welke taal kiezen we daarvoor? Op het eerste gezicht lijkt het Engels hiervoor wellicht een geschikte kandidaat. Het Engels is immers in het huidige tijdperk de belangrijkste internationale voertaal, en tevens een door talloze mensen in vele landen gesproken eerste taal. Dat betekent dat er talloze woordenboeken beschikbaar zijn met het Engels als bron‐ en/of doeltaal, wat natuurlijk een voordeel is bij het samenstellen van een nieuw woordenboek. Echter, het Engels heeft net als alle natuurlijke talen veel woorden met uiteenlopende betekenissen, die meestal niet allemaal overeenkomen met de betekenissen van een mogelijk equivalent in de brontaal. Bij gebruik van een natuurlijke taal als hulptaal kan deze eigenschap onnauwkeurige vertalingen in de doeltaal opleveren, of zelfs volkomen onjuiste vertalingen. Neem bijvoorbeeld het Engelse woord down, dat volgens het online woordenboek niet minder dan 20 mogelijke vertalingen in het Nederlands heeft. Daar zijn weliswaar woorden bij die—al dan niet in een bepaalde context—elkaars synoniemen zijn (bijvoorbeeld neerleggen en neerschieten), maar het aantal verschillende betekenissen is desondanks behoorlijk groot. Het Engels is dus voor dit doel niet zo geschikt als hulptaal, althans niet als primaire hulptaal. Voor het woordenboek van van Majstro‐Aplikaĵoj wordt het Engels echter wel als secundaire hulptaal gebruikt om de via de primaire hulptaal verkregen vertalingen nauwkeuriger te maken; hier komen we later nog op terug..

Het zal duidelijk zijn dat we een hulptaal moeten hebben waarbij de meeste woorden slechts een beperkt aantal, niet te ver uiteenlopende betekenissen hebben. Natuurlijke talen, zoals het Engels en het Nederlands, voldoen niet aan dit belangrijke criterium en zijn daarom minder geschikt. Weliswaar kan men het probleem verminderen door extra informatie aan de woorden te koppelen (bijvoorbeeld de woordsoort, wat al behoorlijk scheelt), maar het is veel gemakkelijkere als een groot deel van deze informatie al in het woord zelf is vervat. De hulptaal moet daarom een kunstmatige taal zijn, en de voor de hand liggende keuze hiervoor is het Esperanto, een kunsttaal die aan het eind van de 19e eeuw door Ludwik Lejzer Zamenhof werd geconstrueerd. Hoewel het Esperanto het in tegenstelling tot wat zijn schepper beoogde, nooit tot internationale voertaal heeft geschopt, is het tegenwoordig toch met grote voorsprong de meest gebruikte kunsttaal ter wereld. Het wordt gebruikt door een relatief groot aantal mensen met verschillende moedertalen en dit heeft het voordeel dat er woordenboeken bestaan, soms zelfs zeer uitgebreide, om woorden van veel van de belangrijkere talen in de wereld van en naar het Esperanto te kunnen vertalen.

Weliswaar is het Esperanto niet ontworpen om als hulptaal bij vertalingen te dienen, en volmaakt is het daarvoor ook niet, maar we moeten praktisch zijn. Het creëren van een taal is op zich al een levenswerk, en een speciaal voor dit doel gecreëerde taal zou bovendien waarschijnlijk toch niet zoveel beter zijn dat het de moeite loont om dit te doen.

Stel nu dat we het Duitse woord Stuhl door een computer naar het Nederlands willen laten vertalen. De software zoekt dit woord op in een tabel waarin Duitse woorden met hun mogelijke vertalingen in het Esperanto staan, en vindt het Esperanto‐woord seĝo. Feitelijk wordt om geheugenruimte te besparen en de software sneller te laten draaien vaak gebruik gemaakt van numerieke ID’s in plaats van woorden. In dit geval wordt de ID van seĝo uit de tabel gehaald en niet het woord zelf, maar dat zijn technische details die in dit verband van minder belang zijn. Het is nu dus bekend dat seĝo het equivalent is van Stuhl. Vervolgens wordt in een tweede tabel opgezocht welk Nederlands woord met seĝo correspondeert, wat het woord stoel oplevert. Het resultaat is uiteindelijk dat Stuhl naar stoel is vertaald.

In feite wordt, wanneer men werkelijk deze vertaling door het woordenboek laat uitvoeren, tevens het woord zetel als resultaat gegeven, omdat dit ook als mogelijke vertaling van seĝo in de tabel is opgenomen. Nu zal men in het Duits weliswaar meestal het woord Sessel gebruiken waar men in het Nederlands zetel gebruikt, en niet Stuhl, en Sessel en Stuhl overlappen elkaar niet geheel in betekenis evenmin als zetel en stoel dat in het Nederlands doen. Maar al met al levert zelfs deze eenvoudige methode in dit geval een alleszins acceptabel resultaat op.

Wel moeten we nog iets verzinnen om de voorkomen dat bijvoorbeeld het Duitse Heldin niet alleen naar het Nederlandse heldin wordt vertaald maar ook, geheel foutief, naar heroïne. Dit woord heeft namelijk beide betekenissen 2. De oplossing is dat we Esperanto‐woorden die elkaars homoniemen zijn, van elkaar onderscheiden door er (intern) een volgnummer achter te zetten, zodat ze toch als verschillende woorden behandeld worden. In feite is dit voor de software niet nodig, aangezien ieder woord in een bepaalde betekenis (of een verzameling verwante betekenissen) een uniek nummer heeft, maar voor de mensen die de woordenlijsten onderhouden, is het gebruik van woorden uiteraard een stuk makkelijker dan het gebruik van nummers.

Verder worden volgnummers nog gebruikt bij een handjevol Esperanto‐woorden die weliswaar strikt genomen geen homoniemen zijn, maar die tot verschillende woordsoorten kunnen behoren. Zo kan het woord kiam (wanneer) een vragend voornaamwoord zijn (Wanneer komt hij?), maar ook een betrekkelijk voornaamwoord (Weet je wanneer hij komt?). In veel talen wordt net als in het Esperanto hetzelfde woord voor beide doeleinden gebruikt, maar niet in allemaal, vandaar dat we het onderscheid moeten maken.

Goed, hiermee is het probeem van de homoniemen dus opgelost, maar we blijven zitten met het probleem van betekenissen die elkaar slechts gedeeltelijk overlappen, zoals de woorden stoel en zetel. Een stoel is een soort zetel, maar niet iedere zetel is een stoel. Als een gegeven vertaling een ruimere of engere betekenis heeft dat het vertaalde woord, of als de betekenissen elkaar slechts gedeeltelijk overlappen, hoeft dat niet zo’n probleem te zijn. Als iemand slechts wil weten wat een bepaald woord dat hij gelezen of gehoord heeft, betekent, kan hij met kennis van de oorspronkelijke context meestal wel beoordelen of een vertaling wel of niet klopt.

En wat het opzoeken van woorden voor vertaaldoeleinden betreft, de gebruiker van geen enkel woordenboek mag in zo’n geval voetstoots aannemen dat de gegeven vertaling geschikt is voor zijn specifieke doel. Hij zal zo mogelijk moeten controleren of dat wel zo is, ofwel door voorbeelden te vinden op het Internet ofwel door eventuele als voorbeeld gegeven citaten bij het desbetreffende woord op de Majstro‐site te bekijken.

Door het niet volledig overeenkomen van betekenissen tussen woorden in de brontaal, de hulptaal en/of de doeltaal zouden er bij gebruik van de hierboven geschetste methode echter soms vertalingen kunnen worden gegeven die men met de beste wil van de wereld niet als correct kan bestempelen (dat wil zeggen, in geen enkele mogelijke context). Hoe kunnen we dit voorkomen, of in ieder geval zo goed mogelijk beperken? Daartoe hebben we drie verschillende methoden bedacht.

Ten behoeve van de eerste methode hebben we de mogelijkheid geschapen om aan ieder woord in een natuurlijke taal verschillende attributen toe te kennen. Deze worden meestal gebruikt om woorden van elkaar te onderscheiden die weliswaar ongeveer dezelfde betekenis hebben, maar onder verschillende omstandigheden gebruikt worden. We kunnen bijvoorbeeld aangeven dat een bepaald woord dichterlijk is, wat erin resulteert dat het alleen als vertaling verschijnt wanneer het te vertalen woord eveneens dichterlijk is. Anderzijds kan een woord dat dichterlijk is, wel worden vertaald door een niet‐dichterlijk woord wanneer er geen dichterlijke vertaling bekend is. Bijvoorbeeld, sneven is aangegeven als er een dichterlijk woord, maar als daarvoor geen dichterlijk equivalent in de doeltaal bekend is, wordt zo mogelijk het equivalent van het gewonere sneuvelen gegeven.

Een ander attribuut geeft bijvoorbeeld aan dat de vertaling niet exact is, waarmee we in dit geval bedoelen dat het Esperanto‐woord waaraan het is gekoppeld, een veel ruimere, of juist een veel engere betekenis heeft, of dat de betekenissen elkaar maar voor een klein gedeelte overlappen. Bovendien moet er dan ook nog een nauwkeurigere vertaling beschikbaar zijn. Een voorbeeld van zo’n Esperanto‐woord is ujo, waarmee ieder object kan worden aangeduid waarin men iets kan bewaren, bijvoorbeeld een fles. Maar het woord botelo is een veel nauwkeurigere vertaling van fles, en dat zal dan ook worden gebruikt om bijvoorbeeld fles naar het Engelse bottle te vertalen. De enige reden dat fles toch aan ujo is gekoppeld, is om ervoor te zorgen dat dit woord zelf als mogelijke vertaling van fles wordt gegeven wanneer het Esperanto niet als hulptaal maar als doeltaal fungeert.

Er zijn momenteel 16 van dergelijke attributen gedefineerd, waarvan sommige gecombineerd kunnen worden (een woord kan bijvoorbeeld zowel dichterlijk als archaïsch zijn), en andere niet (een woord kan bijvoorbeeld niet tegelijk formeel en informeel zijn). De regels die de attributen gebruiken om de beste vertalingen te kiezen, zijn vrij gecompliceerd, maar waar het op neerkomt is dat gepoogd wordt om echt foute vertalingen te voorkomen (als het niet anders kan, wordt er helemaal geen vertaling gegeven), om de beste vertalingen te geven (bijvoorbeeld een dichterlijk woord als vertaling van een dichterlijk woord), en als het laatste niet kan, om dan maar een vertaling te geven die in ieder geval de juiste basisbetekenis heeft.

De tweede methode om de vertaling nauwkeuriger te maken, is door gebruik te maken van het Engels als secundaire hulptaal. De vertalingen die zijn verkregen via het Esperanto, worden vergeleken met die verkregen via het Engels, en de overeenkomende vertalingen worden getoond, tenzij er geen overeenkomsten zijn, in welk geval er niet gefilterd wordt.

De derde manier om nauwkeurigere vertalingen te verkrijgen is door aan Esperanto‐woorden omschrijvingen van de diverse betekenissen te koppelen. Bij de woorden van de natuurlijke talen die aan dergelijke Esperanto‐woorden gekoppeld zijn, kunnen we dan aangeven, welke van die betekenissen ook op het desbetreffende woord van toepassing zijn. Zo heeft het Esperanto een persoonlijk voornaamwoord dat voor de tweede persoon wordt gebruikt in zowel het enkel‐ als het meervoud (geheel vergelijkbaar met het Engelse you). Dat levert natuurlijk problemen op wanneer dit woord gebruikt wordt om persoonlijke voornaamwoorden te vertalen tussen talen die bijvoorbeeld bij de tweede persoon onderscheid maken tussen enkel‐ en meervoud, of tussen formeel en informeel gebruik. Die informatie zou normaal gesproken verloren gaan bij de stap waarin naar het Esperanto wordt vertaald, met als resultaat dat het Nederlandse jij bijvoorbeeld niet alleen in het Duits als du maar ook foutief als ihr (jullie) en Sie (u) zou worden vertaald 3.

Door nu bepaalde betekenissen aan zowel jij/vi als aan du/vi te koppelen, kunnen we ervoor zorgen dat de vertaling via vi toch correct geschiedt. In dit geval zijn de betekenissen (ten gerieve van de mensen die de database onderhouden meestal aangegeven met Engelse woorden of door omschrijvingen in het Engels) voor jij overigens emphatic, not emphatic en informal singular, wat betekent dat het woord zowel met als zonder nadruk kan worden gebruikt (in tegenstelling tot je, dat geen nadruk kan krijgen), en dat informeel en enkelvoud is. Aan het Duitse du zijn dezelfde betekenissen gekoppeld, waaruit de software concludeerd dat du dus een correcte vertaling is van jij. Anderzijds zijn aan ihr de betekenissen emphatic, not emphatic en informal plural gekoppeld. Dat komt niet overeen met de betekenissen van jij, en dus is ihr geen goede vertaling.

Nu is het niet zo dat de verzamelingen betekenissen exact overeen moeten stemmen voor een geldige vertaling, maar indien dat niet het geval is, moet de een wel een onderverzameling van de ander vormen. De betekenissen gekoppeld aan het Engelse you zijn bijvoorbeeld emphatic, not emphatic, informal singular, formal singular, informal plural en formal plural. Dat zijn alle betekenissen die jij ook heeft, plus twee extra. Hieruit volgt dat you een juiste vertaling van jij kan zijn, en andersom.

Dank zij toepassing van de hierboven beschreven methoden kan de nauwkeurigheid van een specifieke vertaling even goed gemaakt worden als bij een tweetalig woordenboek. Een moeilijkheid is echter dat het bij het invoeren van de data heel moeilijk is te voorspellen hoe nauwkeurig de resultaten bij elk van de talloze mogelijke taalcombinaties zullen zijn. Mocht u echter een vertaling aantreffen die volgens u niet helemaal (of helemaal niet) klopt, dan kunt u dat melden aan de redactie. Die kan dan vervolgens proberen de vertaling te verbeteren.

Noten

1) Bij een goed woordenboek is uiteraard door toelichtingen of voorbeelden aangegeven in welke context een bepaalde vertaling passend is

2) Er zijn wel homoniemen in het Esperanto, zoals heroino dat zowel heldin als heroïne kan betekenen. Het eerste woord is de vrouwelijke vorm van heroo, die zuiver toevallig gelijk is aan de naam van de chemische stof.

3) Nu zou een Nederlander wellicht in sommige gevallen jij gebruiken waar de wat formele Duitser Sie prefereert, maar dat is meer een kwestie van cultuur dan van taal, en de vertaling van ihr voor jij is hoe dan ook niet te rechtvaardigen.

Thuispagina