Articles

1

De Wet van Zipf beschrijft hoe de frequentie van een woord in natuurlijke taal afhankelijk is van de rang in de frequentietabel. Dus het meest voorkomende woord komt twee keer zo vaak voor als het op een na meest voorkomende werk, drie keer zo vaak als het volgende woord, enzovoort tot het minst frequente woord. De wet is vernoemd naar de Amerikaanse taalkundige George Kingsley Zipf, die de eerste was die het probeerde uit te leggen rond 1935.”ik denk dat het veilig is om te zeggen dat de wet van Zipf het grootste mysterie is in de computationele taalkunde”, zegt Sander Lestrade, taalkundige aan de Radboud Universiteit in Nijmegen. “Ondanks tientallen jaren theoretiseren, blijft de oorsprong ervan ongrijpbaar.”Lestrade laat nu zien dat Zipf’ s wet kan worden verklaard door de interactie tussen de structuur van zinnen (syntaxis) en de Betekenis van woorden (semantiek) in een tekst. Met behulp van computersimulaties kon hij aantonen dat noch syntaxis noch semantiek voldoende is om een Zipfische distributie op zichzelf op te wekken, maar dat syntaxis en semantiek elkaar daarvoor ‘nodig’ hebben.

” in het Engels, maar ook in het Nederlands, zijn er slechts drie artikelen en tienduizenden zelfstandige naamwoorden”, legt Lestrade uit. “Omdat je een artikel voor bijna elk zelfstandig naamwoord gebruikt, komen artikelen veel vaker voor dan zelfstandige naamwoorden.”Maar dat is niet genoeg om de wet van Zipf te verklaren. “Binnen de zelfstandige naamwoorden vind je ook grote verschillen. Het woord ‘ding ‘bijvoorbeeld komt veel vaker voor dan’ onderzeeër ‘ en kan dus vaker worden gebruikt. Maar om daadwerkelijk vaak voor te komen, moet een woord ook niet al te algemeen zijn. Als je de verschillen in betekenis binnen woord klassen vermenigvuldigt, met de noodzaak voor elke woord klasse, vind je een prachtige Zipfian distributie. En deze verdeling verschilt slechts een beetje van het Zipfische ideaal, net als natuurlijke taal.”

niet alleen zijn voorspellingen gebaseerd op Lestrades nieuw model volledig consistent met fenomenen gevonden in natuurlijke taal, zijn theorie geldt ook voor bijna elke taal in de wereld, niet alleen voor Engels of Nederlands. Lestrade: “ik ben dolblij met deze bevinding, en ik ben overtuigd van mijn theorie. Toch moet de bevestiging van andere taalkundigen komen.”