Foto's in dit verhaal: Shutterstock
Wil je in een multidisciplinair onderzoek de neuzen dezelfde kant op hebben, dan is het mooi meegenomen als alle deelnemers uit hetzelfde vocabulaire putten. De Wageningse TALK-tool helpt daarbij, en levert naast overeenstemming en begrip ook gespreksstof, inspiratie en nuttige data op.
Het Oude Testament waarschuwde er al voor: wanneer deelnemers aan een gezamenlijke onderneming niet dezelfde taal spreken of elkaar niet goed verstaan, is het hele gebeuren gedoemd te mislukken. De toren van Babel en de daaraan verbonden spraakverwarring is een metafoor die duizenden jaren later nog steeds niet aan kracht heeft ingeboet.
Maak een flinke tijdsprong en je vindt het bewijs dat ook anno nu een op het oog minimaal communicatieverschil een catastrofaal staartje kan krijgen. In 1999 verdampte de Mars Climate Orbiter (en daarmee 125 miljoen dollar) in de atmosfeer van de rode planeet, omdat twee teams letterlijk met verschillende maten hadden gewerkt: aan de ene kant van de oceaan met millimeters en meters, aan de andere zijde met inches, feet en pounds.
Voor communicatiestoringen met aardig wat consequenties hoef je niet helemaal naar Mesopotamië of naar Mars af te reizen, want die kunnen in elk onderzoek de kop opsteken – ook in de alledaagse praktijk in Wageningen.
Dat merkte ook Jan Top, van de Wageningse expertisegroep Food Informatics: “We zien dat men elkaar lang niet altijd begrijpt, zeker bij multidisciplinaire projecten waar bijvoorbeeld sociologen, economen en technici samenwerken. Of – en dat is mogelijk nog funester – dat men dénkt dat iedereen het over hetzelfde heeft, maar dat gaandeweg blijkt dat de participanten elk toch een eigen interpretatie van een term bezigen.”
Een typisch voorbeeld is het begrip ‘delta’, aldus Top. “Een wiskundige zal dan direct denken aan de Griekse letter voor verandering, maar voor een ander verwijst het naar de monding van een rivier. Nu zullen partijen in dit geval het mogelijke misverstand vrij snel achterhalen, maar er zijn ook voorbeelden uit de praktijk waarvan pas achteraf bleek dat er gedurende een project verschillende interpretaties zijn gehanteerd.”
‘Met deze tool heb je tijdens de kennismaking al een gemeenschappelijk vocabulaire ingericht’
Want taal mag eenvoudig lijken, de werkelijkheid is complex. Top: “Wat wordt er bijvoorbeeld precies bedoeld met security? Dat wordt doorgaans geassocieerd met cyber-security, maar in WUR-onderzoek ook vaak met voedselzekerheid. Een eenvoudig woord als ‘water’ kan slaan op drinkwater, oppervlaktewater, of verontreinigd water, dus zeer uiteenlopend. En wie wordt er bedoeld met een food producer: is dat de boer, of een bedrijf als Unilever?”
Het is zaak om eventuele interpretatieverschillen zo snel mogelijk boven tafel te krijgen, dus aan het begin van een project. Met dat doel ontwikkelde de expertisegroep Food Informatics de TALK-Tool. Daarmee kunnen de betrokken onderzoekers spelenderwijs de terminologie bepalen die voor hun specifieke project vereist is. De afkorting TALK verraadt eigenlijk al goed hoe de applicatie werkt, want het staat voor Team Associations for Linking Knowledge. Initiatiefnemer Top: “In wezen is het een uiterst eenvoudig spelletje dat een minuut of twintig duurt. De deelnemers kunnen stuk voor stuk een woord inbrengen dat zij belangrijk vinden voor het project. De TALK-tool genereert vervolgens op basis van teksten uit de WUR-bibliotheek automatisch woorden die verwantschap hebben met het startbegrip.”
Het voordeel is dat je zo de menselijke bias, die optreedt als je deelnemers zelf die woorden zou laten bepalen, vermijdt, aldus Top. “Het opgegeven woord staat in een cirkel in het midden van het scherm, het programma genereert daar automatisch een stuk of negen woorden omheen. De participant verwijdert vervolgens de termen die niet op zijn of haar begrip slaan en voegt andere, beter passende begrippen toe. Dat is heel interactief. Wanneer je dit zo met alle deelnemers doorloopt, heb je nog tijdens de kennismaking al een gemeenschappelijk vocabulaire ingericht. Een vocabulaire dat niet alleen duidelijk maakt wat je als groep bedoelt, maar zelfs richting kan geven aan het hele project.”
Een belangrijke exercitie dus, maar ook eentje die door de deelnemers amusant en inspirerend wordt gevonden (wat ook de succesfactor vergroot). Alleen is TALK meer dan alleen een ijsbreker en de daarmee gegenereerde woordenlijst geen eindstation. Top: “Want die woorden zijn weer een prima vertrekpunt voor het produceren van vocabulaires die nodig zijn om modellen en datasets aan elkaar te koppelen.”
‘We hebben een analyse gemaakt van samenvattingen uit de WUR-bibliotheek’
Foto: Jurjen Poeles
Doorgaans is dat een zeer tijdrovende taak, waarmee je met allerlei experts om de tafel moet zitten om samen de taxonomie op te bouwen. “Dat proces kan aanzienlijk worden bekort door een algoritme voorstellen te laten doen op basis van bestaande teksten. In de documentatie van een dataset kun je allerlei kenmerken van de data meenemen die nodig om de metingen te kunnen begrijpen. Dat is dus de metadata, en die is vandaag de dag enorm belangrijk. De metadata kunnen zó worden geformuleerd dat ze ook door machines kunnen worden begrepen en verwerkt.”
Gebruikmaken van bestaand materiaal klinkt logisch, maar wélke teksten je als basis neemt, maakt zeker uit.
Top: ‘Het onderliggende algoritme kan bijvoorbeeld werken op basis van Twitter en Google; het model meet hoe vaak woorden in de nabijheid van andere woorden voorkomen.’ Maar zulke bronnen zijn natuurlijk erg algemeen, en daar zullen begrippen die typisch zijn voor het Wageningse domein minder vaak voorkomen. “In WUR-teksten zullen vaker woorden als ‘enzym’ of ‘aminozuur’ vallen dan in het alledaagse sociale verkeer. Daarom hebben we een automatische analyse gemaakt van de samenvattingen uit onze bibliotheek op basis van de Word2Vec-methode, een techniek voor het verwerken van natuurlijke taal waarin de verwantschap van woorden op basis van hun nabijheid in een groot aantal teksten in getallen wordt uitgedrukt.”
‘Projectfinanciers eisen metadata, omdat die ook door machines kunnen worden begrepen’
Het gebruik van een goed vocabulaire is niet alleen een pré voor een soepel en vlot onderzoek, het is tegenwoordig ook steeds meer en meer een vereiste. “Onderzoeksfondsen en uitgevers eisen dat de data FAIR is: findable, accessible, interoperable en reusable. In gewone mensentaal: dat jouw data gevonden en begrepen kunnen worden, en voor hergebruik geschikt is. Het ontwikkelen van die vocabulaires helpt daar enorm bij.”
Het geheime wapen van de applicatie mag dan een pure statistische aangelegenheid zijn, maar de kunst schuilt hem in het leren rekenen met taal.
“Het opvallende van onze onderzoeksgroep is dat mensen veronderstellen dat we bij Food Informatics ontzettende getallenfreaks zijn, omdat we zo met computers en AI bezig zijn. Maar stiekem draait het veel meer om taal dan om getallen. Of misschien preciezer: we kijken meer naar de beschrijving van de getallen, dan naar de getallen zelf.”
De TALK-tool is open source en vrij te gebruiken. De intentie is om hem ook publiek beschikbaar te maken, door hem bijvoorbeeld op een website te publiceren, “vergelijkbaar met het taalraadspelletje semantle.be, dat volgens hetzelfde Word2Vec-principe werkt. Maar eerlijk gezegd vind ik onze TALK er fraaier uitzien hoor,” aldus Top.
Deel dit artikel
Onderzoeksproject TALK-tool: approach to interactive terminologies discussion
Team Bengü Öztürk, Jim Hoekstra, Julian Bianco Martinez, Mariëlle Timmer