Articles

1

La loi de Zipf décrit comment la fréquence d’un mot en langage naturel dépend de son rang dans le tableau des fréquences. Ainsi, le mot le plus fréquent se produit deux fois plus souvent que le deuxième travail le plus fréquent, trois fois plus souvent que le mot suivant, et ainsi de suite jusqu’au mot le moins fréquent. La loi porte le nom du linguiste américain George Kingsley Zipf, qui fut le premier à tenter de l’expliquer vers 1935.

Le plus grand mystère de la linguistique computationnelle

« Je pense qu’il est prudent de dire que la loi de Zipf est le plus grand mystère de la linguistique computationnelle », explique Sander Lestrade, linguiste à l’Université Radboud de Nimègue, aux Pays-Bas. « Malgré des décennies de théorisation, ses origines restent insaisissables. »Lestrade montre maintenant que la loi de Zipf peut s’expliquer par l’interaction entre la structure des phrases (syntaxe) et le sens des mots (sémantique) dans un texte. En utilisant des simulations informatiques, il a pu montrer que ni la syntaxe ni la sémantique ne suffisent à induire une distribution Zipfienne à elle seule, mais que la syntaxe et la sémantique « ont besoin » l’une de l’autre pour cela.

« En langue anglaise, mais aussi en néerlandais, il n’y a que trois articles et des dizaines de milliers de noms », explique Lestrade. « Puisque vous utilisez un article avant presque tous les noms, les articles se produisent beaucoup plus souvent que les noms. »Mais cela ne suffit pas à expliquer la loi de Zipf. « Dans les noms, vous trouvez également de grandes différences. Le mot « chose », par exemple, est beaucoup plus courant que « sous-marin » et peut donc être utilisé plus fréquemment. Mais pour se produire fréquemment, un mot ne doit pas non plus être trop général. Si vous multipliez les différences de signification au sein des classes de mots, avec le besoin de chaque classe de mots, vous trouvez une magnifique distribution Zipfienne. Et cette distribution ne diffère que légèrement de l’idéal zipfien, tout comme le langage naturel. »

Non seulement les prédictions basées sur le nouveau modèle de Lestrades sont complètement cohérentes avec les phénomènes trouvés dans le langage naturel, mais sa théorie vaut également pour presque toutes les langues du monde, pas seulement pour l’anglais ou le néerlandais. Lestrade: « Je suis ravi de cette découverte et je suis convaincu de ma théorie. Pourtant, sa confirmation doit venir d’autres linguistes. »