Articles

1

La legge di Zipf descrive come la frequenza di una parola in linguaggio naturale, dipende dal suo rango nella tabella delle frequenze. Quindi la parola più frequente si verifica due volte più spesso del secondo lavoro più frequente, tre volte più spesso della parola successiva e così via fino alla parola meno frequente. La legge prende il nome dal linguista americano George Kingsley Zipf, che fu il primo a cercare di spiegarlo intorno al 1935.

Il più grande mistero nella linguistica computazionale

“Penso che sia sicuro dire che la legge di Zipf è il più grande mistero nella linguistica computazionale”, afferma Sander Lestrade, linguista della Radboud University di Nijmegen, nei Paesi Bassi. “Nonostante decenni di teorizzazione, le sue origini rimangono inafferrabili.”Lestrade ora mostra che la legge di Zipf può essere spiegata dall’interazione tra la struttura delle frasi (sintassi) e il significato delle parole (semantica) in un testo. Usando simulazioni al computer, è stato in grado di dimostrare che né la sintassi né la semantica sono sufficienti per indurre una distribuzione Zipfiana da sola, ma che la sintassi e la semantica “hanno bisogno” l’una dell’altra per questo.

“Nella lingua inglese, ma anche in olandese, ci sono solo tre articoli e decine di migliaia di nomi”, spiega Lestrade. “Poiché si utilizza un articolo prima di quasi tutti i sostantivi, gli articoli si verificano molto più spesso dei nomi.”Ma questo non è abbastanza per spiegare la legge di Zipf. “All’interno dei nomi, si trovano anche grandi differenze. La parola “cosa”, ad esempio, è molto più comune di “sottomarino” e quindi può essere usata più frequentemente. Ma al fine di effettivamente verificarsi frequentemente, una parola non dovrebbe essere troppo generale sia. Se moltiplichi le differenze di significato all’interno delle classi di parole, con la necessità di ogni classe di parole, trovi una magnifica distribuzione Zipfian. E questa distribuzione differisce solo un po ‘ dall’ideale Zipfiano, proprio come fa il linguaggio naturale.”

Non solo le previsioni basate sul nuovo modello di Lestrades sono completamente coerenti con i fenomeni trovati nel linguaggio naturale, la sua teoria vale anche per quasi tutte le lingue del mondo, non solo per l’inglese o l’olandese. Lestrade: “Sono felicissimo di questa scoperta e sono convinto della mia teoria. Tuttavia, la sua conferma deve venire da altri linguisti.”