Articles

1

ZIPFS lag beskriver hur frekvensen av ett ord på naturligt språk är beroende av dess rang i frekvenstabellen. Så det vanligaste ordet förekommer dubbelt så ofta som det näst vanligaste arbetet, tre gånger så ofta som det efterföljande ordet, och så vidare tills det minst frekventa ordet. Lagen är uppkallad efter den amerikanska lingvisten George Kingsley Zipf, som var den första som försökte förklara den omkring 1935.

största mysteriet inom beräkningslingvistik

”Jag tror att det är säkert att säga att ZIPFS lag är det största mysteriet inom beräkningslingvistik”, säger Sander Lestrade, lingvist vid Radboud University i Nijmegen, Nederländerna. ”Trots årtionden av teoretisering förblir dess ursprung svårfångat.”Lestrade visar nu att ZIPFS lag kan förklaras av samspelet mellan strukturen av meningar (syntax) och betydelsen av ord (semantik) i en text. Med hjälp av datorsimuleringar kunde han visa att varken syntax eller semantik räcker för att inducera en Zipfian-distribution på egen hand, men att syntax och semantik ’behöver’ varandra för det.

”på engelska, men också på nederländska, finns det bara tre artiklar och tiotusentals substantiv”, förklarar Lestrade. ”Eftersom du använder en artikel före nästan varje substantiv, förekommer artiklar mycket oftare än substantiv.”Men det räcker inte för att förklara ZIPFS lag. ”Inom substantiverna hittar du också stora skillnader. Ordet ’ sak ’är till exempel mycket vanligare än’ ubåt ’ och kan därmed användas oftare. Men för att faktiskt inträffa ofta bör ett ord inte vara för allmänt heller. Om du multiplicerar meningsskillnaderna inom ordklasser, med behovet av varje ordklass, hittar du en magnifik Zipfian-distribution. Och denna fördelning skiljer sig bara lite från Zipfian-idealet, precis som naturligt språk gör.”

inte bara är förutsägelser baserade på Lestrades nya modell helt i överensstämmelse med fenomen som finns i naturligt språk, hans teori gäller också för nästan alla språk i världen, inte bara för engelska eller nederländska. Lestrade: ”jag är överlycklig över detta konstaterande, och jag är övertygad om min teori. Ändå måste dess bekräftelse komma från andra lingvister.”