- Закон Зипфа
-
Закон Ципфа (Зипфа) — эмпирическая закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (так называемому рангу этого слова, см. шкала порядка). Например второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и т. д.
Закон носит имя своего первооткрывателя — американского лингвиста Джорджа Ципфа (George Kingsley Zipf) из Гарвардского университета.
В работе Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution. Wentian Li. Santa Fe Institute, 1660 Old Pecos Trail, Suite A, Santa Fe, NM 87501. Published in IEEE Transactions on Information Theory, 38(6), 1842-1845 (1992)было строго доказано, что случайная последовательность символов подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа по-вилимому является чисто статистическим феноменом, не имеющим отношения к семантике текста. Работу можно найти в Сети http://www.nslij-genetics.org/wli/pub/ieee92_pre.pdf Логика доказательства этого факта состоит (в общих чертах) в следующем. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов умньшается с ростом n в той же пропорции, в какой растет при этом номер этого слова в частотном списке.Потому произведение номера слова на его частоту есть константа. Несмотря на неопровержимую строгость этого доказательства, заключительный вывод ВенТьяна Ли представляется недостаточно обоснованным: все-таки естественные языки, на материале которых был открыт Ципфом его закон, очень сильно отличаются от предложенной ВенТьяном Ли модели. И все же результат этот сам по себе нельзя не признать крайне интересным и проливающим хотя бы какой-то свет на природу открытой Ципфом таинственной закономерности.
См. также
- Закон Мандельброта
- Частотный словарь
Wikimedia Foundation. 2010.