Articles

1

Sipfs lov beskriver, hvordan hyppigheden af et ord på naturligt sprog er afhængig af dets rang i frekvenstabellen. Så det hyppigste ord forekommer dobbelt så ofte som det næsthyppigste arbejde, tre gange så ofte som det efterfølgende ord osv. Loven er opkaldt efter den amerikanske sprogforsker George Kingsley, som var den første, der forsøgte at forklare det omkring 1935.

største mysterium i computational lingvistik

“Jeg tror, det er sikkert at sige, at Sipf’ s lov er det største mysterium i computational lingvistik,” siger Sander Lestrade, lingvist ved Radboud University i Nijmegen, Holland. “På trods af årtiers teoretisering forbliver dens oprindelse undvigende.”Lestrade viser nu, at Sipf’ s lov kan forklares ved samspillet mellem strukturen af sætninger (syntaks) og betydningen af ord (semantik) i en tekst. Ved hjælp af computersimuleringer var han i stand til at vise, at hverken syntaks eller semantik er tilstrækkelige til at fremkalde en Sipfian-distribution alene, men at syntaks og semantik ‘har brug for’ hinanden til det.

“på engelsk, men også på hollandsk, er der kun tre artikler og titusinder af navneord,” forklarer Lestrade. “Da du bruger en artikel før næsten hvert substantiv, forekommer artikler langt oftere end substantiver.”Men det er ikke nok til at forklare Sif’ s lov. “Inden for substantiverne finder du også store forskelle. Ordet ‘ ting ‘er for eksempel meget mere almindeligt end’ ubåd ‘ og kan således bruges oftere. Men for faktisk at forekomme ofte, bør et ord heller ikke være for generelt. Hvis du multiplicerer forskellene i betydning inden for ordklasser, med behovet for hver ordklasse, finder du en storslået Spidsfisk fordeling. Og denne fordeling adskiller sig kun lidt fra det Sipfiske ideal, ligesom det naturlige sprog gør.”ikke alene er forudsigelser baseret på Lestrades nye model helt i overensstemmelse med fænomener, der findes i naturligt sprog, hans teori gælder også for næsten alle sprog i verden, ikke kun for engelsk eller hollandsk. Lestrade: “jeg er meget glad for dette fund, og jeg er overbevist om min teori. Alligevel skal dens bekræftelse komme fra andre sprogkundskaber.”