Число, показывающее сколько раз встречается слово в тексте, называется частотой слова в данном тексте. Рангом частоты называется ее порядковый номер в убывающей шкале частот. Вероятность обнаружения слова в тексте равна частоте вхождения слова, поделенной на число слов в тексте. Зипф установил, что если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина приблизительно постоянна для всех текстов на одном языке, т.е. закон Зипфа:
С = (частота вхождения слов X ранг частоты) / число слов