Soms kun je een woord al horen aankomen nog voor het is gezegd (bijv. “peper en […]”). Gevoelsmatig spelen zulke mentale voorspellingen een belangrijke rol in taalbegrip. Maar in de taalwetenschap is het belang van voorspellingen en verwachtingen lange tijd omstreden geweest. Hoe kan dat? Om dat te snappen, moeten we het eerst hebben over de aard van taal zelf.

pc_micha_templateElke taal bestaat uit twee ingrediënten: woorden en regels. Deze combinatie zorgt ervoor dat taal zowel uiterst voorspelbaar als zeer onvoorspelbaar is. Een nogal vreemde situatie – noem het: de voorspellingsparadox.

Die gaat als volgt. Aan de ene kant is taal voorspelbaar omdat ze regelmatigheden volgt. Regelmatigheden kun je beschrijven middels statistiek. Dat betekent dat je, in principe, een complete taal – inclusief alle regels en subtiliteiten – zou kunnen begrijpen als een grote berg waarschijnlijkheden. Zulke waarschijnlijkheden kun je schatten via de samenhang van woorden. Door simpelweg te tellen kun je bijvoorbeeld zien dat ‘zij loopt’ een stuk vaker voorkomt – en dus waarschijnlijker is – dan ‘zij loop’ of ‘zij autoband’.

Gemotiveerd door dit inzicht probeerden wetenschappers in jaren vijftig van de vorige eeuw taal te vatten in termen van statistiek. Zo beschreef taalkundige Zelig Harris de connectie tussen grammatica en waarschijnlijkheid. En schatte wiskundige Claude Shannon de informatiedichtheid van het Engels via de voorspelbaarheid van woorden.

Elke taal bestaat uit twee ingrediënten: woorden en regels.

Taalkundige Noam Chomsky schreef een beroemde kritiek op dit programma. Chomsky zei dat de regelmatige combinatie van woorden tot zinnen taal juist onvoorspelbaar maakte. Zo onvoorspelbaar zelfs dat begrippen als waarschijnlijkheid compleet nutteloos zijn voor het begrijpen van taal.

Dit illustreerde Chomksy met de volgende, inmiddels beroemde zinnen:

Colourless green ideas sleep furiously

Furiously sleep ideas green colourless

Geen van deze zinnen, schreef Chomsky, zijn ooit eerder gezegd. Elke statistische benadering van taal zou ze daarom als even onwaarschijnlijk beoordelen. En toch zien we direct dat alleen (1) grammaticaal is. En dat we alleen van (1) de betekenis, hoe onzinnig ook, kunnen begrijpen. Taal kan dus nooit slechts een kwestie van waarschijnlijkheid zijn, aldus Chomsky.

Nu is dit punt niet beperkt tot Chomsky’s tamelijk bizarre voorbeeldzinnen. Ook in het dagelijks leven spreken we voortdurend zinnen uit die nog nooit iemand heeft gehoord. Wereldprimeurs dus – telkens weer. “Taal is het oneindige gebruik van eindige middelen,” schreef von Humboldt hier al over. Die oneindigheid maakt taal zo creatief. En zo onvoorspelbaar dus.

chomsky_speech
Noam Chomsky in Toronto (origienele foto van Wikipedia)

In de taalkunde hebben Chomsky’s argumenten diepe indruk gemaakt. Lange tijd was het gebruik van waarschijnlijkheid om taal te begrijpen suspect. En in de taalpsychologie ontstond het idee dat de rol van verwachtingen in taalbegrip hoogstens marginaal kon zijn. Want waarom zou ons brein het onvoorspelbare proberen te voorspellen?

De afgelopen decennia is dit idee gaan kantelen. In de jaren negentig bleken voor technologische toepassingen als spraakherkenners statistische modellen een stuk beter te werken dan Chomsky had gedacht. Een cruciaal inzicht was het belang van relatieve waarschijnlijkheid, met name voor schijnbaar onwaarschijnlijke zinnen.

Neem de zinnen van Chomsky. Na het zelfstandig naamwoord ‘ideas’ is een werkwoord (‘sleep’) een stuk waarschijnlijker dan een bijvoeglijk naamwoord (‘green’).  Op die manier is het woordpaar ‘ideas sleep’ uit (1), hoewel onwaarschijnlijk, nog altijd een stuk waarschijnlijker dan ‘ideas green’ uit (2).

Moderne technieken als Google Translate of Apple’s Siri werken allemaal statistisch. Zo gebruiken spraakherkenners niet alleen geluid dat binnenkomt, maar ook hun voorspellingen van hoe een zin waarschijnlijk verdergaat.

siri_greenideas
Apple’s Siri werkt statistisch en zou moeite hebben Noam Chomsky’s zin te inerpreteren. (originele foto)

Er is steeds meer bewijs dat ons brein iets vergelijkbaars doet. Zo lieten taalpsychologen via hersenmetingen zien dat ons brein heel anders reageert op woorden als deze onverwacht zijn in een context. En dat de snelheid waarmee we woorden lezen direct verband houdt met hun onvoorspelbaarheid. Het is, kortom, alsof we ieder woord lijken wegen tegen onze verwachtingen ervan.

Vandaag de dag is de vraag is dus niet of maar hoe ons talige brein voorspellingen doet. Werkt ons brein een beetje zoals Siri en voorspellen we onbewust ieder woord? Of voorspellen we alleen de meest voorspelbare? En als we voorspellen, voorspellen we dan hele woorden – inclusief klank en intonatie  – of alleen een abstracte categorie – zoals ‘DIER’ of ‘WERKWOORD’?

Over deze vragen gaat mijn promotieonderzoek. Ik onderzoek talige voorspellingen in de breedste zin: van het voorspellen van letters tijdens het herkennen van geschreven woorden, tot het voorspellen van grammatica en betekenis bij het luisteren naar een verhaal.

Uiteindelijk hopen we zo beter te snappen hoe ons brein taal omzet in begrip. Dit zou nuttig kunnen zijn om mensen bij wie het taalbegrip verstoord is beter te kunnen helpen, of om computers een beter taalgevoel te geven.

Wanneer er resultaten zijn gepubliceerd kan je er op deze plek als eerst iets over lezen.

Featured Foto: https://pxhere.com/en/photo/436302