Articles

1

zipfův zákon popisuje, jak se frekvence slova v přirozeném jazyce, je závislá na jeho pořadí ve frekvenční tabulce. Takže nejčastější slovo se vyskytuje dvakrát častěji než druhé nejčastější dílo, třikrát častěji než následující slovo a tak dále až do nejméně častého slova. Zákon je pojmenován po americkém lingvistovi Georgovi Kingsleymu Zipfovi, který se ho jako první pokusil vysvětlit kolem roku 1935.

Největší záhada v komputační lingvistiky

„myslím, že to je bezpečné říkat, že zipfův zákon je největší tajemství v počítačové lingvistice,“ říká Sander Lestrade, lingvista na Radboud University v Nijmegen, Nizozemsko. „Navzdory desetiletím teoretizování zůstává jeho původ nepolapitelný.“Lestrade nyní ukazuje, že Zipfův zákon lze vysvětlit interakcí mezi strukturou vět (syntaxe) a významem slov (sémantika) v textu. Pomocí počítačové simulace byl schopen ukázat, že ani syntaxe nebo sémantiky stačí k vyvolání Zipfian distribuce na jeho vlastní, ale že syntaxe a sémantika „potřeba“ se navzájem.

„v anglickém jazyce, ale také v holandštině, existují pouze tři články a desítky tisíc podstatných jmen,“ vysvětluje Lestrade. „Protože používáte článek před téměř každým podstatným jménem, články se vyskytují mnohem častěji než podstatná jména.“Ale to nestačí k vysvětlení Zipfova zákona. „V podstatných jménech najdete také velké rozdíly. Například slovo „věc“ je mnohem běžnější než „ponorka“, a lze jej tedy používat častěji. Ale aby se skutečně vyskytovalo často, slovo by nemělo být příliš obecné. Pokud vynásobíte rozdíly ve významu v rámci tříd slov, s potřebou každé třídy slov, najdete nádherné zipfianské rozdělení. A toto rozdělení se jen trochu liší od zipfianského ideálu, stejně jako přirozený jazyk.“

nejen, že jsou předpovědi na základě Lestrades nový model zcela v souladu s jevy nalézt v přirozený jazyk, jeho teorie platí také pro téměř každý jazyk na světě, a to nejen pro anglicky nebo holandsky. Lestrade: „jsem z tohoto zjištění nadšený a jsem přesvědčen o své teorii. Jeho potvrzení však musí pocházet od jiných lingvistů.“