Een wereld waarin taal geen barrière vormt

In de afgelopen jaren is de populariteit en kwaliteit van vertaalmachines enorm gestegen. Zo ontvang je met een paar klikken op je muis binnen enkele seconden een vrijwel foutloze vertaling in het Engels, Russisch of Mandarijns. Toch is dit niet voor iedere taal zo vanzelfsprekend. Er zijn namelijk veel talen niet gedigitaliseerd, simpelweg omdat dit commercieel niet aantrekkelijk is. Dit kan voor vluchtelingen leiden tot beperking wanneer zij in een vreemd land hun leven opnieuw moeten opbouwen. Travis Foundation besloot daar iets aan te doen. De stichting digitaliseert talen om mensen over de hele wereld gelijke kansen te geven. De digitalisering van de taal Tigrinya is haar eerste project. Cornelis Jansen, managing director van Travis Foundation, vertelt over het digitalisatieproces, de ambities van de stichting en de samenwerking met SIDN fonds.

Travis Foundation is in 2017 opgericht door Travis B.V. Dat is de maker van een handzaam vertaalapparaatje waarmee je door een zin in te spreken direct de vertaling van deze zin in audio kunt beluisteren. Cornelis: “Het apparaatje kwam in 2017 op de markt en werd een grote hit. Al snel kwam het verzoek vanuit Nederlandse overheidsinstanties en hulporganisaties om het Tigrinya er ook op te zetten.” Alleen in Europa zijn er namelijk al zo’n 500.000 Eritrese vluchtelingen die baat hebben bij de digitalisatie van hun moedertaal Tigrinya. Men spreekt deze taal in Eritrea en het noorden van Ethiopië. “Als een taal niet gedigitaliseerd is, betekent dit dat de taal ook niet beschikbaar is voor verschillende toepassingen zoals Google Translate of andere (ver)taalapplicaties”, aldus Cornelis. Het doel van de Travis Foundation is dus om een belemmering in de communicatie, veroorzaakt door het verschil in taal, te overbruggen. Zij streeft naar een wereld waarin iedereen elkaar kan begrijpen ongeacht welke taal je spreekt. Cornelis: “Juist door taalbarrières te verkleinen kun je integratie versnellen. Door het probleem rondom taal op te lossen, kun je zoveel andere problemen sneller verhelpen.”

Hoe werkt het?

“Het digitaliseren van een taal bestaat uit 3 stappen. We begonnen met het verzamelen van een enorme hoeveelheid data. Je hebt een corpus, een hele grote hoeveelheid zinnen, over uiteenlopende onderwerpen nodig om de hele taal zo volledig mogelijk te bestrijken. Deze zinnen zijn in het Tigrinya en een vertaling in een andere taal, in ons geval Engels. Op dit moment bestaat het corpus uit zo’n 60.000 tot 80.000 zinnen, en het groeit elke dag. De volgende stap is om deze teksten in beide talen te voeden aan de computer en daarop machine learning toe te passen. Dit houdt in dat de computer patronen herkent zonder enige kennis en kunde van grammatica. Hij leert zichzelf de taal. Daaruit rollen algoritmes die je vervolgens bij stap 3 kunt toepassen in een vertaalmachine zoals Google Translate”, aldus Cornelis. Door middel van dit proces stelt de Travis Foundation tekst-naar-tekst vertaling beschikbaar.

Het artikel gaat verder onder de afbeelding.

_MG_6931

The Sentence Society

Het digitaliseren van een taal is een complex en tijdrovend proces. Cornelis en zijn team bedachten daar wat op. Cornelis: “We zijn begonnen met het vertalen door een aantal Eritrese statushouders in loondienst te nemen. Onwijs leuk om op deze manier samen te werken en kennis te maken met andere culturen, maar via deze weg vertalen bleek ontzettend tijdrovend. We besloten onze Eritrese collega’s in te zetten als ambassadeurs van de community om mensen wereldwijd te activeren om ons te ondersteunen in dit proces.” Om het vertalingsproces te versnellen lanceerde de Travis Foundation begin maart The Sentence Society. Dit is een game waarmee mensen wereldwijd, die zowel het Engels als het Tigrinya beheersen, hun steentje kunnen bijdragen. “We leveren een zin aan in het Engels en vragen de ‘speler’ de zin te vertalen in het Tigrinya. Dit doen we bewust op deze manier omdat het vertalen vanuit een 2e of 3e taal naar een moedertaal makkelijker is. Nadat ze hun vertaling hebben ingediend, vragen we de speler tweemaal om een andere vertaling te beoordelen. Dit doen ze door een vertaalde zin een score van 1, 2 of 3 duimpjes omhoog of een duimpje omlaag te geven. Zo kan men geheel anoniem een beoordeling geven en maken we gebruik van de peer-reviewmethode om de kwaliteit te borgen”, legt Cornelis uit. Zodra een vertaling meer dan 2 keer met een duimpje omlaag of slechts een duimpje omhoog is beoordeeld, wordt de zin uit de database verwijderd.

Het artikel gaat verder onder de afbeelding.

_MG_6385

Bijdrage van SIDN fonds

De realisatie van deze game werd mede mogelijk gemaakt door een financiële bijdrage van SIDN fonds. Cornelis: “Via een bekende werd ik gewezen op SIDN fonds. Tot mijn grote vreugde was het fonds geïnteresseerd in ons initiatief. Dankzij haar financiële bijdrage konden we onze begroting voor dit project sluiten, de game realiseren en ons project verder de wereld inbrengen. Daarnaast bood SIDN fonds ons ook ondersteuning door haar netwerk open te stellen. Ik had op een gegeven moment een juridische vraag rondom eigenaarschap van de vertalingen. SIDN fonds kende iemand die ons mogelijk kon helpen en regelde een consult met deze advocaat. Ook organiseerde zij een sessie waarin we brainstormden over de vervolgfinanciering.”

SIDN fonds

Marieke van der Kruijs, projectcoördinator bij SIDN fonds: “De inzet van machine learning voor vertaling op zichzelf is niet nieuw, maar wel de toepassing op minderheids- of bedreigde talen zoals Tigrinya. Dit is een reden dat we het project ondersteunen. Het project heeft aantoonbare maatschappelijke relevantie, als het slaagt is het een mooie toevoeging aan het publieke domein en kan het ook op andere minderheids- en bedreigde talen worden toegepast. De mogelijkheid voor innovatie is daarmee groot. Bovendien kan het resultaat de positie van een groep nieuwkomers in de Nederlandse samenleving verbeteren.”

Meer talen

Begin april hoopt Cornelis nog een eerste versie van de vertaalmachine naar buiten te brengen. Maar daar laat de Travis Foundation het niet bij, een volgende stap is het toevoegen van spraak. Cornelis: “We willen spraak toevoegen aan onze vertalingen. Dit kunnen we realiseren door zo’n 200 uur aan gesproken tekst te verzamelen. We verwerken dit vervolgens op eenzelfde manier via zelflerende computersystemen. Daarnaast is het doel om een applicatie te bouwen die je op je smartphone kunt installeren, waarmee je gemakkelijk in het Engels iets inspreekt en de gesproken vertaling in het Tigrinya terugkrijgt.”

Ook ligt er nog een flinke lijst op de plank met andere talen die nog niet gedigitaliseerd zijn. “Uit ons contact met vluchtelingenorganisaties weten we dat er een grote behoefte is aan bijvoorbeeld het digitaliseren van Kurmancî, een van de meeste gebruikte Koerdische talen, maar ook Pasjtoe, een taal die vooral in Afghanistan en Pakistan gesproken wordt.” Travis Foundation wil iedereen het recht geven om begrepen te worden en is dus lang niet klaar met haar missie om taalbarrières te doorbreken.

Benieuwd naar de game of meer weten over het initiatief van Travis Foundation? Bezoek de website van Travis Foundation voor meer informatie.

Reacties

Cornelis-Jansen

Cornelis Jansen

Managing director

cornelis@travis.foundation

Travis Foundation

  • dinsdag 26 februari 2019

    .nl-domeinnaam

    Domain Connect: nieuwe standaard die domeinnaamgebruik vereenvoudigt

    Thumb-domain-names-web-concept

    Een niet gebruikte domeinnaam, wordt vaak niet verlengd

    Lees meer
  • vrijdag 22 september 2017

    Veilig internet

    Veiliginternetten.nl: campagne om bewustzijn privacy te vergroten

    Thumb-Campagne-Je-deelt-meer-dan-je-weet

    Veiliginternetten.nl: je deelt meer dan je weet: wat doe jij voor je online privacy?

    Lees meer
  • donderdag 8 februari 2018

    Kennis

    Nederlandse basisschoolleerling moet digitaal vaardiger worden

    Onderzoek-digitale-vaardigeheden-in-het-onderwijs-2018-homepage

    Les in digitale vaardigheden moet vast onderdeel onderwijs zijn volgens leraren en ouders

    Lees meer

Sorry

De versie van de browser die je gebruikt is verouderd en wordt niet ondersteund.
Upgrade je browser om de website optimaal te gebruiken.