Articles

1

Zipf’s Gesetz beschreibt, wie die Häufigkeit eines Wortes in natürlicher Sprache von seinem Rang in der Häufigkeitstabelle abhängt. So kommt das häufigste Wort doppelt so oft vor wie das zweithäufigste Werk, dreimal so oft wie das nachfolgende Wort und so weiter bis zum am wenigsten häufigen Wort. Das Gesetz ist nach dem amerikanischen Linguisten George Kingsley Zipf benannt, der als erster um 1935 versuchte, es zu erklären.

Größtes Rätsel in der Computerlinguistik

„Ich denke, man kann mit Sicherheit sagen, dass das Zipf-Gesetz das größte Rätsel in der Computerlinguistik ist“, sagt Sander Lestrade, Linguist an der Radboud University in Nijmegen, Niederlande. „Trotz jahrzehntelanger Theoretisierung bleiben seine Ursprünge schwer fassbar.“ Lestrade zeigt nun, dass das Zipfsche Gesetz durch die Wechselwirkung zwischen der Struktur von Sätzen (Syntax) und der Bedeutung von Wörtern (Semantik) in einem Text erklärt werden kann. Mit Hilfe von Computersimulationen konnte er zeigen, dass weder Syntax noch Semantik ausreichen, um eine Zipfsche Verteilung allein zu induzieren, sondern dass Syntax und Semantik sich dafür gegenseitig brauchen.

„In der englischen Sprache, aber auch auf Niederländisch, gibt es nur drei Artikel und Zehntausende von Substantiven“, erklärt Lestrade. „Da Sie einen Artikel vor fast jedem Substantiv verwenden, kommen Artikel viel häufiger vor als Substantive.“ Aber das reicht nicht aus, um Zipfs Gesetz zu erklären. „Innerhalb der Substantive findet man auch große Unterschiede. Das Wort ‚Ding‘ zum Beispiel ist viel häufiger als ‚U-Boot‘ und kann daher häufiger verwendet werden. Aber um tatsächlich häufig vorzukommen, sollte ein Wort auch nicht zu allgemein sein. Wenn Sie die Bedeutungsunterschiede innerhalb von Wortklassen mit der Notwendigkeit für jede Wortklasse multiplizieren, finden Sie eine großartige Zipfsche Verteilung. Und diese Verteilung unterscheidet sich nur wenig vom Zipfschen Ideal, genau wie die natürliche Sprache.“

Vorhersagen, die auf Lestrades neuem Modell basieren, stimmen nicht nur vollständig mit Phänomenen überein, die in der natürlichen Sprache zu finden sind, seine Theorie gilt auch für fast jede Sprache der Welt, nicht nur für Englisch oder Niederländisch. Lestrade: „Ich bin überglücklich über diesen Befund und von meiner Theorie überzeugt. Dennoch muss seine Bestätigung von anderen Linguisten kommen.“