Articles

1

Zipf: n laki kuvaa, miten sanan esiintymistiheys luonnollisessa kielessä riippuu sen sijoittumisesta taajuustaulukossa. Yleisin sana esiintyy siis kaksi kertaa useammin kuin toiseksi yleisin teos, kolme kertaa useammin kuin seuraava sana ja niin edelleen, kunnes vähiten usein esiintyvä sana. Laki on nimetty yhdysvaltalaisen kielitieteilijän George Kingsley Zipfin mukaan, joka ensimmäisenä yritti selittää sitä vuoden 1935 tienoilla.

laskennallisen kielitieteen suurin mysteeri

”mielestäni on turvallista sanoa, että Zipfin laki on laskennallisen kielitieteen suurin mysteeri”, sanoo Sander Lestrade, kielitieteilijä Radboudin yliopistosta Nijmegenistä Hollannista. ”Vuosikymmenten teoretisoinnista huolimatta sen alkuperä on edelleen hämärän peitossa.”Lestrade osoittaa nyt, että Zipfin laki voidaan selittää lauseiden rakenteen (syntaksi) ja sanojen merkityksen (semantiikka) vuorovaikutuksella tekstissä. Tietokonesimulaatioiden avulla hän pystyi osoittamaan, että kumpikaan syntaksi tai semantiikka ei yksinään riitä aiheuttamaan Zipfi-jakaumaa, vaan että syntaksi ja semantiikka ’tarvitsevat’ toisiaan siihen.

”englannin kielessä, mutta myös Hollannissa, on vain kolme artikkelia ja kymmeniätuhansia substantiiveja”, Lestrade selittää. ”Koska käytät artikkelia ennen lähes jokaista substantiivia, artikkeleita esiintyy paljon useammin kuin substantiiveja.”Se ei kuitenkaan riitä selittämään Zipfin lakia. ”Substantiivien sisällä on myös suuria eroja. Esimerkiksi sana ”asia” on paljon yleisempi kuin ”sukellusvene”, joten sitä voidaan käyttää useammin. Mutta jotta sana todella esiintyisi usein, sen ei myöskään pitäisi olla liian yleisluontoinen. Jos sanaluokkien sisälliset merkityserot moninkertaistetaan jokaisen sanaluokan tarpeella, löydetään upea Zipfi-jakauma. Ja tämä jakauma eroaa vain vähän Zipfiläisestä ihanteesta, aivan kuten luonnollinen kieli tekee.”

sen lisäksi, että lestradesin uuteen malliin perustuvat ennustukset ovat täysin yhdenmukaisia luonnollisen kielen ilmiöiden kanssa, hänen teoriansa pätee myös lähes kaikkiin maailman kieliin, ei vain Englantiin tai Hollantiin. Lestrade: ”olen suunnattoman iloinen tästä löydöstä ja vakuuttunut teoriastani. Sen vahvistuksen täytyy kuitenkin tulla muilta kielitieteilijöiltä.”