Articles

1

Zipf lov beskriver hvordan frekvensen av et ord i naturlig språk, er avhengig av sin rang i frekvens tabellen. Så det hyppigste ordet forekommer dobbelt så ofte som det nest hyppigste arbeidet, tre ganger så ofte som det påfølgende ordet, og så videre til det minst hyppige ordet. Loven er oppkalt etter den Amerikanske lingvisten George Kingsley Zipf, som var den første som prøvde å forklare den rundt 1935.»Jeg tror Det er trygt å si At Zipfs lov er det største mysteriet i datalingvistikk,» sier Sander Lestrade, lingvist Ved Radboud University I Nijmegen, Nederland. «Til tross for tiår med teoretisering, er dens opprinnelse fortsatt unnvikende.»Lestrade viser nå At Zipfs lov kan forklares av samspillet mellom setningens struktur (syntaks) og betydningen av ord (semantikk) i en tekst. Ved hjelp av datasimuleringer kunne han vise at verken syntaks eller semantikk er nok til å indusere En Zipfian-distribusjon alene, men at syntaks og semantikk ‘trenger’ hverandre for det.»på engelsk, men også på nederlandsk, er det bare tre artikler og titusenvis av substantiver,» forklarer Lestrade. «Siden du bruker en artikkel før nesten hvert substantiv, forekommer artikler oftere enn substantiver.»Men det er ikke nok til å forklare Zipfs lov. «Innenfor substantivene finner du også store forskjeller. Ordet ‘ting’, for eksempel, er mye mer vanlig enn ‘ubåt’, og dermed kan brukes oftere. Men for å faktisk forekomme ofte, bør et ord heller ikke være for generelt. Hvis du multipliserer forskjellene i mening innen ordklasser, med behovet for hvert ordklasse, finner du en fantastisk Zipfian-distribusjon. Og denne fordelingen er bare litt forskjellig Fra Zipfian-idealet, akkurat som naturlig språk gjør.»ikke bare er spådommer basert På lestrades nye modell helt i samsvar med fenomener som finnes i naturlig språk, hans teori gjelder også for nesten alle språk i verden, ikke bare for engelsk eller nederlandsk. Lestrade: «jeg er overlykkelig over dette funnet, og jeg er overbevist om min teori. Likevel må bekreftelsen komme fra andre språkbrukere.»