Articles

1

legea lui Zipf descrie modul în care frecvența unui cuvânt în limbajul natural depinde de rangul său în tabelul de frecvență. Deci, cel mai frecvent cuvânt apare de două ori mai des decât a doua lucrare cea mai frecventă, de trei ori mai des decât cuvântul ulterior și așa mai departe până la cuvântul cel mai puțin frecvent. Legea poartă numele lingvistului American George Kingsley Zipf, care a fost primul care a încercat să o explice în jurul anului 1935.”cred că este sigur să spun că legea lui Zipf este cel mai mare mister în lingvistica computațională”, spune Sander Lestrade, lingvist la Universitatea Radboud din Nijmegen, Olanda. „În ciuda deceniilor de teoretizare, originile sale rămân evazive.”Lestrade arată acum că legea lui Zipf poate fi explicată prin interacțiunea dintre structura propozițiilor (sintaxa) și semnificația cuvintelor (semantica) dintr-un text. Folosind simulări pe computer, el a fost capabil să arate că nici sintaxa, nici semantica nu sunt suficiente pentru a induce o distribuție Zipfiană pe cont propriu, dar că sintaxa și semantica au nevoie una de cealaltă pentru asta.

„în limba engleză, dar și în Olandeză, există doar trei articole și zeci de mii de substantive”, explică Lestrade. „Din moment ce folosiți un articol înainte de aproape fiecare substantiv, articolele apar mult mai des decât substantivele.”Dar acest lucru nu este suficient pentru a explica legea Zipf. „În cadrul substantivelor, găsiți și diferențe mari. Cuvântul ‘lucru’, de exemplu, este mult mai frecvent decât’ submarin ‘ și, prin urmare, poate fi folosit mai frecvent. Dar, pentru a apărea frecvent, un cuvânt nu ar trebui să fie prea general. Dacă înmulțiți diferențele de semnificație în cadrul claselor de cuvinte, cu nevoia fiecărei clase de cuvinte, veți găsi o distribuție Magnifică Zipfiană. Și această distribuție diferă doar puțin de idealul Zipfian, la fel ca limbajul natural.”

nu numai că predicțiile bazate pe noul model Lestrades sunt complet compatibile cu fenomenele găsite în limbajul natural, teoria sa este valabilă și pentru aproape fiecare limbă din lume, nu numai pentru engleză sau olandeză. Lestrade: „sunt bucuros de această constatare și sunt convins de teoria mea. Totuși, confirmarea sa trebuie să vină de la alți lingviști.”