М.В. Арапов, Е.Н. Ефимова, Ю.А. Шрейдер
О СМЫСЛЕ РАНГОВЫХ РАСПРЕДЕЛЕНИЙ
§ 1. СОЦИАЛЬНЫЕ ОРГАНИЗМЫ И РАНГОВЫЕ РАСПРЕДЕЛЕНИЯ
Сегодня понятие рангового распределения в информатике стало вполне привычным. Идея «распределения» информационных потоков по закону Ципфа – Мандельброта (иначе Брэдфорда, Лотка и т.д.) принята общественным мнением « является теоретической основой изучения этих потоков. Формы соответствующих распределений несколько варьируются, но понятно, что речь идет о некоем едином типе ранговых распределений. Тот же самый тип распределений известен в лингвистике, в биологии, в экономике и в социологии. Отсюда возникает желание понять механизм, вызывающий появление подобных распределений. Но есть и одно сильно мешающее такому пониманию обстоятельство – стремление обязательно использовать аналогию с известными из физики и техники задачами, в которых некий общий механизм – случайный, или стохастический, процесс – приводит к нормальному или пуассоновскому распределению.
Впрочем, и сама идея возникает из физико-кибернетических аналогий. Чтобы понять смысл явления, не обязательно отыскивать такой процесс или механизм. Нужно другое – установить его связь с более глубинными явлениями и, через это, – место в ряду других явлений.
Мы считаем, что ранговые распределения можно рассматривать не только как распределения случайных величин, привычные для классической статистики, но и в совершенно иной понятийной «парадигме». Выполнение на данном объекте (тексте) рангового распределения типа закона Ципфа – это, с нашей точки зрения, признак «правильности» (хорошей организации) данного текста, взятого как единое целое. При таком подходе, например, свойство законченного языкового текста быть «ципфовским» рассматривается в том же ряду («парадигме»), что и его свойство быть представимым в виде совокупности проективных фраз, или члениться на непосредственные составляющие, или, шире, вообще быть построенным по законам грамматики данного языка. Реальные тексты, конечно, несколько уклоняются от идеальных образцов, – например, не являются вполне «ципфовскими».
В данной работе мы сначала попытаемся сформулировать «классическую» вероятностную точку зрения на ранговые распределения. (Приводимые в связи с ней соображения не столько отвергают эту концепцию, сколько показывают ее недостаточность и, главное, – ее необязательность). Затем мы дадим более адекватную (с нашей точки зрения) постановку задачи. Различие между двумя подходами, коротко говоря, состоит в следующем: «классическая» точка зрения исходит из существования инвариантных статистических свойств неких элементов (слов данного языка, документов по данной тематике, имен авторов и т.д.) в некоторой не очень четко определяемой совокупности, в которую входят и в которой употребляются эти элементы.
Предлагаемая нами точка зрения состоит в том, что надо изучать форму целостных совокупностей (организмов) как составленных из не очень четко определенных элементов, а свойства последних не столько определяют эту форму, сколько определяются ею. С этой точки зрения законы типа Ципфа – это инвариантные свойства формы целого. (Далее в первой части работы мы постараемся дать более точную формулировку этой идеи). Во второй части мы попробуем выяснить смысл другой, тесно связанной с предыдущей, идеи, а именно: что в действительности означает «родство организмов» – принадлежность текстов одному языку.
§ 2. НЕСКОЛЬКО ПРИМЕРОВ РАНГОВОГО РАСПРЕДЕЛЕНИЯ
Начнем с рассмотрения примеров нескольких ситуаций, в которых возникает ранговое распределение тина закона Ципфа.
Пример I. Пусть Т – множество всех слов некоторого связного законченного текста, a V={x} – множество различных слов в этом тексте (словарь данного текста). Под F(x) (понимается число вхождений слова x в текст Т (или, иначе – частота слова x).
Словарь V задает разбиение текста Т на надмножества в каком-то смысле одинаковых слов. Каждому слову xЄV соответствует подмножество Т(x) всех вхождений этого слова в текст Т. Очевидно, что F(x) =|Т(x)|.
Через L=|T| мы обозначим длину (объем) текста, а через N=|V| – объем его словаря.
Перенумеруем элементы словаря V={x1, x2, ...,xN} так, чтобы частота слова была невозрастающей функцией его номера:
F(x1)>F(x2)>...>F(xN). (1)
Ранговым распределением называется функция Ф(п)= F(xN), которая ставит в соответствие номеру или рангу п(х) слова xЄV частоту F(x) этого слова. Итак,
Ф:Ŋ→R,
где Ŋ – отрезок натурального ряда, a R – множество положительных вещественных чисел.
Пример II. Пусть Т – множество всех статей по определенной тематике, опубликованных за данный период в некотором множестве журналов V. Тогда для каждого журнала xЄV F(x) – это количество статей, опубликованных в данном журнале по данной тематике. Ранговое распределение характеризует здесь степень близости того или иного журнала данной тематике. Или, в соответствии с другой точкой зрения, – насколько публикации в данной области рассеяны по журналам**. И здесь V задает разбиение множества статей на подмножества опубликованных в одном журнале.
Пример III. Пусть V – коллектив ученых, а Т – множество выполненных в этом коллективе работ. Тогда F(x) – это число работ ученого x, и ранговое распределение характеризует распределение ученых по продуктивности или по престижу.
Множество статей Т здесь разбивается по авторам, хотя поскольку имеются общие статьи, эти классы пересекаются. Если существенно выполнение условия T=∑F(x), то «автором» можно считать любую группу соавторов.
Пример IV. Пусть V – множество журналов, Т – множество имеющихся в некотором массиве документов по определенной тематике библиографических ссылок на статьи в этих журналах. Тогда F(x) – это число ссылок на работы, помещенные в журнале x, которое характеризует «авторитетность» этого журнала в данной тематической области (пример взят из работы [2]). Множество V задает разбиение множества всех ссылок Т.
Наряду с этим, можно рассматривать ранговые распределения биологических родов определенного семейства по числу видов, принадлежащих данному роду; или людей по доходам; или морозных узоров различных типов по их встречаемости на окнах (пример А. А. Любищева); или красок по площади, занимаемой данной краской на картине; или городов по численности населения и т. д. Ряд других примеров ранговых распределений можно найти, в частности, в работах [3] и [4].
Сравнение этих и им подобных примеров показывает, что во всех этих примерах функции Φ(n) имеют между собой настолько много общего, что часто считают возможным говорить о едином законе рангового распределения, присваивая этому закону в разных его вариациях имена Ципфа, Брэдфорда, Лотки, Эсту, Виллиса, Мандельброта и т. д. (Иногда различие присваиваемых фамилий отражает некоторые отличия в формулировке закона, а иногда – отличия в области его применения). Этот факт заставляет задуматься о том, что содержательно связывает примеры подобного типа.
Приведенные примеры имеют уже то общее, что в них выступает некоторая, хотя бы относительно замкнутая, система объектов Т и множество V, с помощью которого эти объекты разбиваются на классы. О системе Т мы будем говорить как о коллективе или, используя терминологию примера I, который в некотором смысле является универсальным, как о тексте; элементы множества V будет называть членами коллектива, а само множество V – словарем. Подмножество Т(х), сопоставлено элементу словаря х, назовем территорией, занимаемой этим членом коллектива, а объем этой территории F(x) =|Т(x)| – частотой. Функция рангового распределения F при таком подходе несет определенную информацию о внутренней структуре коллектива, а именно: о распределении территории между членами коллектива, о своего рода «статусе» его членов.
В некоторых случаях границы коллектива оказываются достаточно размытыми. В примере II мы можем различным образом определить временные границы, в пределах которых анализируются периодические издания; в примере III – колебаться в том, следует ли относить работы данного ученого к рассматриваемой области или к смежной. Но у нас нет сомнений, что в примерах II и III мы хотели бы в идеале изучать два аспекта – «персональный» и «журнальный» – системы публикаций, сложившейся к определенному моменту в данной отрасли науки. Эта система может исторически смениться другой, с иным ранжированием журналов и авторов, но в каждый момент – это некоторый конечный объект. Даже в примере I у нас могут возникнуть трудности, когда мы попытаемся решить, следует ли данное конкретное речевое произведение считать суверенным целым или только частью более обширного текста, или, наоборот, конгломератом нескольких самостоятельных текстов.
Следует также заметить, что самый список членов коллектива зачастую формируется именно в процессе исследования этого коллектива (текста). Сначала имеется территория Т, в которой выделяются места, а затем уже выясняется, какие места следует считать закрепленными за одним членом коллектива. Так, когда мы имеем текст Т книги (или вообще некоторого документа), то, составляя ее словник V, одновременно принимаем соглашение об отождествлении разных форм слов, встречающихся в тексте: в одних случаях включаем в словник словоформы, в других – отождествляем словоизменительные формы одной лексемы, иногда различаем омонимы, а иногда – нет. При анализе ранговых распределений в текстах русских былин Ю. К. Орлов был вынужден отождествить в словнике формы оратай и ратай. Таким образом, в одном и том же тексте могут возникать различные ранговые распределения. Даже если принцип отождествления выбран заранее, тем не менее, при его осуществлении всегда проводится некоторая корректировка с тем, чтобы ранговое распределение получилось более "правильным" (более «красивым»). Если эта корректировка может быть естественно мотивирована (ср. пример Ю. К. Орлова), то исследователь готов считать полученное ранговое распределение разумным. В примере II можно, например, отождествлять или не отождествлять различные серии одного и того же журнала (например, две серии сборника «Научно-техническая информация»). Выбор того или иного решения здесь оправдывается результатом*.
Наконец, для ситуаций, упомянутых в примерах I–IV, характерно, что F(x)–целое число, причем среди членов коллектива значительную часть составляют такие, для которых F(x) = 1. Последнее обстоятельство является отдельным, важным свойством коллективов, которое никак не предсказывается формой закона распределения. И действительно, в некоторых названных выше случаях F(x) изменяется, как кажется, непрерывно: площадь, занимаемая данной краской или типом морозного узора измеряется в физических единицах, доход – в денежных единицах. Однако эти решения не так очевидны, как кажется: быть может, естественной единицей измерения и здесь является не мм2 или рубль, а площадь, занимаемая самым «маломощным», самым «редким» членом коллектива, т. е. наименее распространенным узором, или краской; или уровень минимального дохода, и т. п.
§ 3. ЕЩЕ ПРИМЕРЫ
Однако, кроме примеров, приведенных в §2, есть еще ряд ситуаций совсем иного рода, где обычно также усматривают распределение Ципфа.
Пример V. В качестве Т выступает случайным образом сформированная совокупность текстов и отрывков из текстов на данном языке общей длиной в L слов, а в качестве V – список всех различных слов, обнаруженный в этой совокупности текстов. Величину f (х) = F(x)/L интерпретируют как относительную частоту употребления слова х в данной выборке Т, а под генеральной совокупностью понимают язык или определенный стиль данного языка.
Пример VI. В качестве Т выступает случайным образом сформированная совокупность документов (например, рефератов) данной тематики, а в качестве V– список ключевых слов, извлеченных из этих документов. Величина F(x) интерпретируется как число рефератов из Т, в которых встретилось данное ключевое слово (ср. с работой [6]).
Сходство терминологии и близость графиков полученных распределений часто заставляют забыть, что в примерах I–V и в примерах V–VI мы задавали природе совершенно различные вопросы. В первой серии примеров нас интересовало "целое" – текст; инвариантом при переходе от одного текста к другому, от одного примера к следующему являлась форма рангового распределения. Во второй серии примеров на первом плане – отдельный элемент словаря. Составление частотных словарей для языка (как в примере V) имеет смысл, если относительная частота отдельного слова не зависит от того, как скомпонована выборка Т, лишь бы ее можно было считать случайной и она имела бы достаточный объем. В примерах I–IV полной индивидуальностью обладало только "целое" – текст, а членение его на части в какой-то мере (в меньшей для примера I и в большей для примеров II–IV) определялось этим "целым", тогда как в примерах V–VI – индивидуальность приписывается именно элементам словаря. В первой серии примеров не только не предполагается, что при переходе от одного текста к другому сохраняется "статус" элемента словаря, но и не ясно, всегда ли можно отождествить членов различных коллективов; во второй серии примеров не представляет специальной ценности само понятие отдельного коллектива.
При отождествлении мы не всегда можем ориентироваться на "имя". Действительно, ранжируя авторов (пример III), пишущих на данную тему, мы можем считать, "автором" некоторую устойчивую группу лиц, но в смежной области каждый из соавторов может выступать по отдельности иметь собственные, а не коллективное имя. Спрашивается, какова же связь между статусом "коллективного автора" и отдельных соавторов?
Вообще, пример с естественным языком является универсальным до тех пор, пока мы не выходим за границы проблемы отдельного текста. Но то, что от примера I можно, не совершая насилия над своей интуицией, перейти к примеру V, является, вероятно, некоторой специфической особенностью естественного языка. То, что мы интуитивно ощущаем разницу между частыми и редкими словами, причем слово, которое оказывается частым в одном тексте, почти всегда оказывается частым и в другом тексте, не представляется типичной ситуацией, если рассмотреть весь набор случаев, когда возникает ранговое распределение. Автор, который считается ведущим в своей области, крайне редко сохраняет такой высокий статус в другой области. Журнал, профильный по данной тематике, очевидно, не является профильным по другой, он может перестать быть профильным по данной тематике с течением времени и т. п. Одним словом, устойчивость статуса сама есть вещь скорее нуждающаяся в объяснении, чем такая, которая может что-либо объяснить.
Однако стохастическая концепция ранговых распределений исходит именно из устойчивости статуса отдельного элемента, давая этой устойчивости теоретико-вероятностную интерпретацию. Ранговое распределение в отдельном тексте в рамках этой концепции вторично, распределение в выборке просто "повторяет" распределение в генеральной совокупности. Таким образом, для всей широкой области, где наблюдаются ранговые распределения, гипостазируется ситуация, якобы имеющая место в естественном языке. Поэтому важно разобраться, какая именно модель предлагается для естественного языка и насколько хорошо эта модель, согласуется с известными фактами.
§ 4. ОПЫТ ВЕРОЯТНОСТНОЙ ФОРМАЛИЗАЦИИ
Перейдем к рассмотрению некоторой устоявшейся точки зрения на ранговые распределения в языке, которую сегодня уже можно назвать ортодоксальной. Для этой точки зрения существенно то, что ранг ("статус") члена коллектива рассматривается как его объективная характеристика. Это равносильно предположению о том, что каждое слово xЄV имеет в языке (или в одном из его диалектов или функциональных стилей) объективную вероятность появления f(x). Тогда, если сами слова упорядочить по убыванию вероятностей, то можно говорить о вероятности fn=f(xn) появления слова ранга п. Для этих вероятностей постулируется существование теоретического закона распределения, форма которого (на основе эмпирических соображений) принимается либо в виде классического закона Ципфа
(2)
либо в виде закона Ципфа – Мандельброта
(2')
где п – ранг слова х; а, γ, с – константы, удовлетворяющие условию нормировки:
(3)
fn в данном случае является теоретической оценкой значения наблюдаемой частоты n-oгo по рангу слова в выборке Т длиной в L слов. То есть мы надеемся, что закон больших чисел гарантирует нам высокую вероятность выполнения серии неравенств:
|fnL-Fn|<ε,
при удовлетворяющих исследователя значениях ε.
Такой подход удобен уже тем, что нам не нужно обеспечивать целочисленности fnL (напомним, что величины F(x) во всех примерах I–VI – целые числа). В то же время в экспериментах с совокупностями реальных текстов обнаружилось, что закон Ципфа плохо выполняется в области малых частот: число слов с малыми частотами оказывается регулярно меньше, чем он предсказывает. Поэтому в ряде работ либо в выражение (2) вводятся некоторые поправки, которые, в общем, не нужны для отдельных текстов, либо причина таких отклонений объясняется различными вероятностными соображениями.
Кроме того, из условия нормировки (3) следует, что язык может иметь бесконечный словарь только при; условии γ>1 так как только тогда ряд (3) сходится; Если на отдельных текстах и представительных совокупностях текстов мы экспериментально обнаруживаем, что γ≤1, то это значит, что соответствующая генеральная совокупность (в рамках ортодоксальной теории!) должна иметь конечный словарь.
Но эти трудности не самые серьезные из них, которые стоят перед изложенной вероятностной концепцией; гораздо серьезнее то обстоятельство, что, принимая подобный подход, мы обязаны придать соответствующим вероятностям fn некоторую разумную содержательную интерпретацию. Чтобы имело смысл говорить о fn как о вероятности вхождения слова ранга n в текст T, необходимо, чтобы выполнялись следующие предположения:
1) имеет смысл говорить о статистическом ансамбле "однородных" текстов с общим словарем V;
2) в этом словаре каждому слову можно приписать ранг, однозначно определяющий вероятность появления данного слова в любом тексте ансамбля.
Хотя уже в монографии Хердана [7] показано, что в различных текстах одни и те же слова имеют существенно различные ранги, а общим является только вид закономерности (2), исследователи все же часто предполагают, что однородные статистические ансамбли текстов, в которых ранги слов согласованы, можно получить, подбирая тексты, скажем относящиеся к одному стилю, или жанру, или имеющие общую тематику, и т. п., т. е. выделяя в данном языке некоторые подъязыки. Между тем, те, что в языке можно найти такие подъязыки, такие потенциально бесконечные совокупности текстов с общим частотным словарем,– это лишь нетривиальная гипотеза. При этом основная причина, по которой эта гипотеза принимается большинством исследователей, состоит, по-видимому, в том, что она хорошо отвечает традиционным вероятностным представлениям о физических процессах.
В работе [8] была высказана гипотеза, что каждому элементу х словаря V имеет смысл сопоставить некоторую характеристику сложности Е(х) – аналог энергии в термодинамике. Тогда можно искать наиболее вероятное состояние ансамбля при фиксированном среднем уровне сложности текста. Результат, как и следовало ожидать, совпадает с распределением Гиббса в статистической термодинамике:
(4)
где p(xi) – вероятность появления в данном тексте ансамбля слова xi, E(xi) –энергетическая характеристика этого слова, k и α – постоянные, характеризующие данный ансамбль текстов. В работе [8] показано, что вполне естественные соображения позволяют перейти от распределения (4) к законам типа (2). Впрочем, проведенные там рассуждения являются, по сути дела более абстрактной формулировкой рассуждений Мандельброта [9], которые, в свою очередь, перенесены из термодинамики. Новым же в работе [8] является лишь введение в лингвистику аналога энергии – абстрактного понятия сложности. У Мандельброта под Е(х) понималось число букв в слове, а при такой интерпретации его рассуждение вряд ли отвечает лингвистической реальности. Дело не столько в том, что Мандельброт рассматривал частный случай равновероятных букв (в работе [10] он сам указал способ учесть различие в "весе" букв), сколько в том, что частоты букв и соответствующих им в "устном" языке фонем так же нестабильны, как и частоты слов (см. [11]).
Интуитивно более убедительно было бы связать величину энергии не с буквенной структурой слова, а с его семантикой: слова с большой частотой имеют широкий спектр значений, а слова редкие – в подавляющем большинстве – терминологичны. При этом рассматриваются скорее "словарные" значения, т. е. такой подход не учитывает изменчивости значения слова и того "вклада", который вносит контекст в значение данного слова.
Но при всех критических замечаниях, которые можно сделать по его поводу, "энергетический" подход не бессмыслен. Бессмысленным он становится лишь тогда, когда его пытаются "обогатить" некоторыми идеями, которые с ним просто не совместимы. Так, Л.С. Козачков в своей монографии [1] вводит понятие "древесной" структуры коллектива, которую делает ответственной за возникновение ранговых распределений в информационных потоках. Но с другой стороны, эту древесную структуру он пытается описать в терминах, которые приобретают смысл только в предположении о существовании однородного статистического ансамбля таких коллективов.
§ 5. ЕЩЕ ОДНА ПОПЫТКА ВЕРОЯТНОСТЕЙ ФОРМАЛИЗАЦИИ
Кроме "энергетического", следует рассмотреть в общих чертах еще один вариант вероятностного подхода к ранговым распределениям – "процессуальный".
В книге [12] излагается следующая концепция текста. Предполагается, что существует вероятность появления определенного знака (буквы, слога, слова) после группы из k знаков. Тогда можно говорить, что порождение данного текста "разыгрывается" в зависимости от накопившейся предыстории. Каждый текст приобретает при этом определенную вероятность, а совокупность реализаций эргодического марковского процесса как раз и дает нам искомый однородный статистический ансамбль. Именно благодаря свойству эргодичности имеет смысл говорить и о вероятности того, что данный знак (элемент словаря V) появляется в данном месте текста.
В действительности и в этом подходе существенна только идея стохастического порождения текста, идея поиска механизма, гарантирующего статистическую однородность ансамбля текстов. В частности, следует обратить внимание на интересные попытки смоделировать статистическую структуру текстов с помощью порождающих исчислений, где применение определенной подстановки рассматривается как случайный акт с вероятностью, зависящей от предыстории порождения [13].
Нужно отметить, что убедительность конкретных выкладок, приводящих к обратно пропорциональной зависимости между частотой и рангом на основе различных допущений о структуре механизма порождения текста, – относительна. Дело а том, что благодаря своей исключительной простоте зависимость (2) содержит очень мало информации о своем "происхождении". Ее, как и массу сходных зависимостей, можно получить очень многими путями, допуская появление более или менее сложных промежуточных выражений. Остроумие чисто математических рассуждений оказывает иногда гипнотическое воздействие, тогда как настоящим критерием может быть лишь интерпретируемость выкладок в каждой из возможных ситуаций, в которых имеет место ранговое распределение типа (2).
Подводя итоги, перечислим те моменты, которые, с нашей точки зрения, не учитываются или не объясняются в рамках "ортодоксального" подхода.
1. Для объяснения существований ранговых распределений вероятностная теория предполагает существование гипотетического объекта – "ансамбля статистически однородных текстов".
Если даже согласиться с тем, что все тексты естественного языка или его "подъязыка" образуют такой ансамбль, то экстраполяция этой ситуации на другие области, где наблюдается ранговое распределение, в том числе на информатику, не представляется достаточно обоснованной.
2. В самом естественном языке устойчивость частот слов (=существование ансамбля статистически однородных текстов) вызывает сомнение.
Прежде всего, каждый целостный текст обладает индивидуальностью. Попытка найти реальные статистически однородные ансамбли текстов никому еще не удавалось. Точнее говоря, не удавалось наблюдать такой набор текстов, в которых слова встречались с одинаковым спектром частот. В то же время словник любого текста, который по разумным содержательным соображениям удается считать замкнутым, можно упорядочить, так, что для частот достаточно хорошо выполняется соотношение (2). Аналогично этому бессмысленно говорить о вероятности того, что данный ученый напишет три научных статьи. Тем не менее, общая форма рангового распределения ученых по продуктивности вполне устойчива. Более того, в прикладных исследованиях, например, посвященных отбору слов для обучения иностранному языку, частота используется лишь как одни из критериев "важности" слова наряду, в частности, с его "рангом" – числом отдельных текстов в выборке, в которых было отмечено данное слово. Этот показатель в рамках концепции "ансамбля текстов" является, по меньшей мере, странным, но он становится вполне осмысленным, если признать за текстами определенную индивидуальность.
3. После работ Ю. К. Орлова [14], который приложил много усилий, чтобы показать, что в полных текстах высокохудожественных произведений закон Ципфа–Мандельброта выполняется с большой точностью, возникает сомнение в том, что мы действительно наблюдаем идентичные формы распределения слов по частоте в отдельном тексте и в совокупности текстов (в частотном словаре). Для описания распределения слов в частотном словаре приходится вводить дополнительные поправки или, как это делает ряд исследователей, – переходить к другим функциям, имеющим мало общего с законом обратной пропорциональности (ср. [15, 18]),
Если бы статистика распределения слов в тексте определялась случайным порождающим процессом марковского типа, то норма состояла бы в том, что увеличение объема текста (объема статистической выборки) приводило бы к лучшим распределениям просто за счет закона больших чисел. Наоборот, для малых текстов мы никогда не наблюдали бы хороших эмпирических распределений. Но с текстами все происходит не так. На сравнительно небольших текстах наблюдается хорошее согласие с законом Ципфа, в то время как на слишком длинных текстах, состоящих из большого числа относительно самостоятельных замкнутых частей, закон нарушается. Естественно предположить, что при порождении текста автор учитывает "текст в целом", а не только написанную часть. Возникает ситуация, когда процесс порождения зависит не только от прошлого, но и от будущего – от той части текста, которая еще не написана. Можно, конечно, от подобных фактов отмахнуться и стараться втискивать картину в привычные рамки марковских процессов. Но может быть разумнее признать, что процессы, связанные с "живыми" системами, устроены по иным принципам. В частности, здесь вполне могут действовать целеполагающие факторы, и поэтому не нужно априори исключать возможность учета будущего результата в процессе порождения.
В описании свойств рангового распределения авторы настоящей статьи не хотят связывать себя привычными представлениями о статистических ансамблях, возникшими в рамках физики и стимулированных ею разделов математики.
§ 6. В ЧЕМ АЛЬТЕРНАТИВА "ОРТОДОКСАЛЬНОМУ"
Чтобы стать серьезной альтернативой описанному подходу, предлагаемая теория должна, как минимум, описывать как ситуации I−IV и V−VI, так и давать какое-то вразумительное объяснение связи между этими классами ситуаций. Первое соображение, уже неоднократно высказывавшееся выше, состоит в том, что сходство ситуаций I−IV, с одной стороны, и ситуаций V−VI, с другой стороны, – чисто кажущееся, и проблему следует разделить на две части. В соответствии с этим соображением, мы сначала рассмотрим ранговые распределения в замкнутых текстах. Здесь, как можно судить на основании примеров I−IV, мы имеем ряд сходных ситуаций, возникающих в весьма различных и мало связанных друг с другом областях. Основная трудность заключается в том, чтобы понять, что именно нужно объяснять по отношению к ранговым распределениям и как должно выглядеть принципиально "не вероятностное" объяснение.
После этого мы обратимся (в части II настоящей статьи) к специфическому случаю естественного языка с тем, чтобы на его примере отдельно обсудить ситуацию, когда статистические структуры отдельных текстов оказываются согласованными друг с другом, а именно: слово, имеющее "высокий статус" в одном тексте, с большой вероятностью сохраняет этот "статус" и в другом тексте. При этом мы постараемся найти такой механизм согласования текстов, который не опирался бы на предположение о существовании "статистически однородного ансамбля текстов".
Мы полагаем, что решение первой части проблемы будет достигнуто, если нам удастся:
1)
найти
подходящий язык для описания совокупности ситуаций, где наблюдается
феномен рангового,
распределения;
2) найти подходящий язык для описания самого феномена рангового распределения, т. к. известный способ аналитического задания зависимости типа (2) хотя и удобен для некоторых целей, в то же время оказывается и слишком "жестким";
3) найти другие сходные с ципфовским распределением феномены в той же области "живых" организмов.
§ 7. НЕСКОЛЬКО СЛОВ О СОВОКУПНОСТИ СИТУАЦИИ С РАНГОВЫМ РАСПРЕДЕЛЕНИЕМ
Введя для описания примеров I–IV термины "коллектива", "статуса" и т. д. мы фактически уже начали решать первую из только что сформулированных трех вопросов. Теперь мы попытаемся оправдать эту терминологию, а затем в ходе решения второй задачи – развить и уточнить ее.
Традиция требует объяснять свойства целого из свойств элементов. При традиционном подходе основным понятием является вероятность fn появления в тексте слова с рангом п, а задача состоит в том, чтобы найти механизм, объясняющий появление этих вероятностей. Понятие же текста вводится как вторичное, как нечто, случайным образом порождаемое из элементов, имеющих данные вероятности. При таком подходе одинаково имеют право называться текстом и весь роман "Евгений Онегин", и его первая глава, и даже совокупность всех строчек романа, имеющих женские рифмы.
И отличие от этого традиционного подхода предлагаем при изучении ранговых распределений взять в качестве первичного, не определяемого понятия – целостный текст. Тогда если в качестве целостного текста взят весь "Евгений Онегин", то любые его части, будь то отдельные главы или группы строчек, уже не образуют текста.
Наоборот, понятие "элемент текста" вводится как вторичное, производное и может оказаться более расплывчатым или существенно зависящим от задач и способа исследования. Это и есть цена, которую приходится платить за отказ от классических представлений. В биологии это соответствует морфологическому подходу, когда исходным считается понятие формы целого, а элементы возникают в процессе членения формы.
Практически, при изучении ранговых распределений устойчивыми являются лишь общие свойства формы распределения в целом; место же в этом распределении отдельных элементов текста окказионально и не может быть объектом прогноза. Можно предсказывать форму рангового распределения в будущем тексте, некоторые свойства гармонических отношений между его лексическими, морфологическими, семантическими и синтаксическими элементами, но невозможно сколько-нибудь достаточно предсказать частоту появления в будущем тексте каких-либо определенных слов или конструкций.
§ 8. ВНОВЬ О КОЛЛЕКТИВЕ ИЗ N УЧАСТНИКОВ
В значительной части терминология и обозначения, которые будут нужны нам для описания рангового распределения внутри конечного замкнутого текста, уже введены при обсуждении примеров I–IV. В данном параграфе мы, во-первых, систематизируем некоторые простые результаты, относящиеся к текстам, в которых выполняется распределение Ципфа в его простейшей форме (2), и во вторых, постараемся выработать такой язык для описания ранговых распределений, который будет существенно использовать конечность текста Т.
Итак, пусть мы имеем текст (коллектив) Т длиной L = | Т |, словарь V = {х} объемом в N = | V | слов (участников), упорядоченный по убыванию частоты F(x). Отношения между текстом Т и словарем V можно описать несколькими эквивалентными способами. Словарь V можно интерпретировать как конечное разбиение X множества Т, содержащее N классов эквивалентности x1, x2, … xn, (При этом F(х)=| x |. Иной способ описаний заключается в том, что задается отображение φ множества Т на множество V:
φ:T→ V
тогда F(х) = |φ-1 (x)| (под φ(х) имеется в виду, конечно, множество всех таких у, что φ (у) = x). Очевидно, что
Обратимся теперь к понятию ранга. Располагая элементы словаря, хЄV, по убыванию величины F(х), мы, вообще говоря, не определяем на V единственной нумерации слов, а именно: элементы словаря, имеющие одинаковую частоту ("статус"), могут произвольно меняться местами. Обозначим через М(F) множество элементов словаря, имеющих в слове V одну и ту же частоту, а через μ(F) = | M (F) | – число таких элементов. Далее, пусть – количество элементов словаря V, имеющих частоту, меньшую F, a – количество элементов словаря, имеющих частоту, большую или равную F.
Очевидно, что
Тогда есть по определению ранговый интервал, соответствующий множеству M(F) элементов словаря с частотой F. Если μ(F) = 1, т. е. равно один участник имеет такую долю, то ранговый интервал состоит из одного числа μ1(F). В этом и только в этом случае вполне корректна простейшая форма задания закона Ципфа (2). В более общей и реальной ситуации, когда значительная часть интервалов содержит более одного числа, выражение (2) становится не более, чем "метафорой", поэтому, прежде чем заниматься его обоснованием еще нужно придать точный смысл.
На самом деле, ранговое распределение состоит не в выполнении формулы (2) или какой-либо другой аналогичной ей, а в том, чтобы каждому элементу хЄV сопоставлялся ранговый определенный интервал m(х, F).
Одним из способов придания смысла рангового распределения выражению (2) была бы замена заданной этим выражением гиперболы на приближенную ее ступенчатую функцию (рис. 1), у которой точки разрыва лежали бы в целых точках, а "скачки" и были бы также целыми числами. Начиная с некоторой абсциссы, скачки оказались бы равными единице:
где Fk – ордината k-й ступеньки. Основание k-й ступеньки совпадает с k-м ранговым интервалом Соответственно размер основания этой ступеньки равен В начале оси абсцисс основания ступенек равны единице, а скачки – больше единицы. С некоторого момента, который соответствует частоте скачки становятся равными единице, а основания (ранговые интервалы) оказываются по длине больше единицы.
Рис. 1. Гипербола и приближающая ее ступенчатая функция
Длина таких интервалов изменяется с F следующим образом;
где Fmax = c согласно закону (2).
Итак, для частот меньших, чем (соответственно, для рангов больших, чем ), вместо зависимости (2) надо брать ассоциированную с гиперболой ступенчатую функцию (по терминологии Л. С. Козачкова – гиперболическую лестницу). Для малых рангов ступеньки имеют основания, равные единице, хотя отсюда не следует, что известная формула (2) хорошо описывает ситуацию для начала словаря V. Если для района малых частот существенна целочисленность частот, то для района больших частот известные "отклонения" от непрерывного закона (2) вызываются целочисленностью рангов. Но, конечно, уточнить закон Ципфа важнее всего для малых частот. Такие уточнения предлагали − в различных редакциях − Ципф [16], Хайг [4], А. Бут [17] и др., эти уточнения вошли в литературу под названием "теоретического закона распределения для малых частот". Все эти модификации исходят из предпосылки, что "отклонения" от закона Ципфа, т.е. случаи, когда nFn не равно с, а больше или меньше этой величины, полностью объясняются целочисленностью F.
Такое уточнение наталкивается, в сущности, на единственную трудность, состоящую в том, как соотносится последняя ступенька F и последний отрезок гиперболы (2). Если каким-то образом фиксировать взаимное положение гиперболы и последней ступеньки F, то соотношение всех остальных ступенек с гиперболой почти что само собой определяется.
Поскольку все согласны, что минимальное значение функции, т. е. "высота" последней ступеньки, равна 1, то вопрос сводится к тому, какое значение принимает на правом конце интервала т(1) гипербола, т. е. каково значение FN = Fmin = β.
Допустим, что нам удается каким-либо образом найти значение β. Тогда, во-первых, можно будет найти связь между длиной текста L и объемом словаря N, как она предсказывается законом Ципфа в его непрерывной форме (однако это не та связь, которую задает ступенчатая функция F). Действительно:
(5)
но
отсюда
(6)
Во-вторых, мы сможем вычислить размеры интервалов:
(7)
Из самых общих соображений видно, что причем крайние значения β соответствуют показанным на рис. 2 положениям "а" и "б" гиперболы относительно последней ступеньки функции F.
Отсюда, скажем, для длины интервала т (1) при заданной длине словаря N имеем неравенство
Аналогичные неравенства можно выписать для длины любого интервала m(F).
Рис. 2. Два крайних положения гиперболы относительно последней ступени: а)β=1, в) β=1/2
Однако, если мы выберем какое-либо конкретное значение β и, вычислив длины интервалов m(F), построим функцию площадь под этой функцией, как можно доказать, не будет совпадать со значением L, вычисленным по формуле (6) при том же β.
Естественно стремиться сохранить красивое соотношение (6) между длиной текста и объемом словаря. Оказывается, это требование можно учесть при построении ступенчатой функции F, причем оно приводит к выбору единственного β, которое не зависит от N. "Ценой", которую нужно заплатить за сохранение формы зависимости (6), является более сложное соотношение между фрагментами гиперболы и ступеньками F. Только одну ступеньку можно разместить так, чтобы границы интервала т(k) (k – целое число) совпадали с точками, где функция (2) принимает значения k+β–1 и k+β, и при этом соответствующий прямоугольник был бы равновелик по площади криволинейной фигуре, ограниченной участком гиперболы и опирающейся на данный интервал. Остальные ступеньки функции оказываются "сдвинутыми" на δk относительно соответствующих участков гиперболы (рис. 3), а в формулу (7) приходится ввести дополнительный член δk который, правда, стремится к нулю при k →∞.
Рис.3. Сдвиг δk ступенек при наложении ступенчатой функции на гиперболу; последняя ступенька не сдвинута и равна по площади криволинейной фигуре, опирающейся на интервал m(1)
Если "несмещенной" является последняя ступенька функции , то β=0,651…. Выбирая в качестве "несмещенной" другую ступеньку, мы изменим значение β, правда незначительно. Если, например, выбрать в качестве "неподвижного" не последний, а предпоследний интервал, m(2), где принимает значение 2, то соответствующее значение β=0,649….
Важно отметить, что, требуя равновеликости m(1) и площади под последним фрагментом гиперболы, мы, в сущности, формулируем некоторое важное условие "правильности" текста: текст не только должен содержать слова с частотой 1, но доля таких слов в объеме всего словаря V строго определена:
Все рассуждения, относящиеся к замене закона Ципфа в его простейшей форме (2) ступенчатой функцией, могут быть аналогично проведены и в случае, когда , причем оказывается, что β является функцией γ [5].
Параметр β (при фиксированном β) определяет в коллективе долю таких участников, которые в точности удовлетворяют минимальному "цензу", позволяющему им стать участниками коллектива, т.е. набрали частоту 1 (пример I), содержат по одной статье на данную тему (пример II) или написали по одной научной работе (пример III). Роль же параметра γ по-видимому, состоит в том, что он определяет "крупность" разбиения V, при котором данный текст становится "правильным", ципфовским, т. е. этот параметр имеет отношение к самому способу выделения участников коллектива.
Выше мы "модифицировали" закон Ципфа в его наиболее простой форме, не учитывая поправку Мандельброта. Мы имели на это некоторые основания. Если построить ступенчатую функцию F, равновеликую гиперболе (2), а затем сравнить значения функции F в точках n =1,2.3... со значением непрерывной функции Fп, вычисленной по формуле (2), в тех же точках, то окажется:
Так, (при γ =1) и т. д. В общем случае можно показать, что
Поскольку при n→∞ разность логарифмов стремится к 1/n, то . Например, при п = 20, .
Уменьшить по сравнению с F необходимо именно для того, чтобы сумма частот, накопленных на первых n ступеньках , совпала со значением интеграла (5). Это "отклонение" значений функции очень сильно напоминает отклонение экспериментальных данных от теоретической ципфовской функции в области малых рангов (1÷20). Для их устранения Мандельброт и ввел свою поправку в формулу (2') (см. рис. 3). Но конечно, вопрос, насколько предлагаемая форма описания рангового распределения соответствует разнообразным экспериментальным данным, остается открытым.
§ 9. ПРИБЛИЖЕННОЕ ОПИСАНИЕ РАНГОВОГО РАСПРЕДЕЛЕНИЯ В ЗАМКНУТОМ ТЕКСТЕ
В § 8 мы искали принципы перехода от непрерывной (или "точечной") формулировки закона Ципфа (2) к более корректной "интервальной" формулировке этого закона. Но даже если следовать тем принципам, которые были предложены, видно, что способов перехода много, а возможны и такие, когда соответствующая ступенчатая функция сохраняет не площадь, а какие-либо другие свойства гиперболы (подробнее см. об этом в работе [5]). Возможно, что некоторые из этих способов "продолжить" распределение Ципфа забракованы экспериментом, но очень трудно предполагать, что эксперимент может дать здесь окончательный ответ. Дело в том, что при сравнительной расплывчатости понятия замкнутого текста (коллектива) и неопределенности, возникающей в связи с членением его на элементы ("реализацией" разбиения V), весьма маловероятно, чтобы какое-либо, даже простое аналитическое соотношение могло выполняться точно (в частности поэтому представляются такими непрактичными теории, приводящие к очень сложным соотношениям между словарем и текстом). Даже в лингвостатистике, имеющей непрерывную традицию, восходящую к средневековым библеистам (если не к масоре), известны курьезные расхождения в определении длины одного и того же текста и его словаря разными исследователями (см. таблицу), в которой использованы данные Ш. Мюллера. Что говорить об информатике, где аналогичные исследования, можно сказать, только качались, а сколько-нибудь четкая система понятий еще не выработана.
Текст
|
Исследователь текста
|
Длина текста
|
Объем словаря
|
|
П. Корнель, "Сид"
П.Корнель, "Полиэкт"
А.С. Пушкин "Капитанская дочка"
|
1) П. Гиро 2) Конкорданс, составленный а Безансоне 3) Ш. Мюллер
|
15 300 16 424 16 690
|
1488 1536 1518 |
|
Вариация*, %
|
9 |
3 |
||
1) П. Гиро 2) Конкорданс, составленный а Безансоне 3) Ш. Мюллер
|
14 176 16 227 16 511
|
1619 1614 1609 |
||
Вариация*, %
|
16,5 |
0,5 |
||
1) Ю. К. Орлов 2) Г. Йоссельсон
|
28 621 29 345
|
4783 4900 |
||
Вариация*, %
|
2,5
|
2,5 |
||
*Вариация определялась по формуле:
|
||||
Эти расхождения не следует относить за счет арифметических ошибок в подсчетах. Все дело в том, что понятие слова как элемента текста достаточно расплывчато. Это еще раз подтверждает правильность выдвинутой выше идеи о том, что первичным понятием является целостный текст (коллектив ученых, тематическая область), а индивидуальные слова в этом тексте (авторы издания) не могут быть определены без известной доли произвола. Индивидуальностью обладает текст, а не слово − в противовес классической вероятностной концепции, считающей, что первоначальным понятием является как раз слово и можно говорить о "поведении" слова в разных текстах. При том подходе, который мы здесь предлагаем, индивидуальные характеристики слова (вообще, индивидуального элемента) принципиально имеют некоторую неопределенность.
В этих условиях методы, основанные на сравнении эмпирических распределений с теоретическими ступенчатыми функциями, которые строятся более или менее сложно, могут иногда оказаться "слишком точными". Наряду с ними нужны более грубые "робастные" способы описания ранговых распределений, где в центре внимания находятся некие интегральные свойства этих распределений.
Одним из таких способов остается известный метод построения графика распределения в билогарифмических координатах. Но он имеет существенный недостаток: отклонения от теоретического закона в области малых частот на таком графике из-за логарифмического масштаба видны плохо. Ниже мы сформулируем некоторый аналитический метод, который, как нам кажется, выдвигает на первый план выполнение наиболее существенных интегральных признаков распределения Ципфа.
Пусть n(x) – ранг слова х. Обозначим через λ(х)
сумму вида:
(8)
т. е. объем текста, покрываемый первыми по рангу n словами. В случае γ= 1 имеем приближенное выражение для суммы (8):
Отсюда приходим к важной и легко проверяемой в экспериментах формулировке закона Ципфа:
(9)
Выражение (9) говорит нам, что объемы текста, покрываемые, соответственно, первыми лил, словами, относятся, как логарифмы lg n и lg n1, (выбор оснований логарифмов в этом случае безразличен).
Для экспериментальной проверки соотношения (9) естественно выбрать такие слова х и х1, для которых отношение порядка определено.
Если выбрать n1 = N, то отношение (9) можно интерпретировать как долю текста, покрываемую первыми по рангу словами:
(10)
Если, например, размеры словаря текста N=103, то для того, чтобы покрыть 2/3 этого текста, нужно выбрать n=102 для того, чтобы покрыть 3/4 текста, полный словарь которого содержит 104 слов, нужно 103 слов и т. д. Т. е. чем больше текст, тем большую роль в нем играют 10% самых частых слов – в сравнительно коротких текстах порядка N=103 (L=0,65 N lnN≈4500) они покрывают 2/3 текста, но если длина словаря возрастает на порядок, до N =104, то те же 10% слов покрывают уже 3/4 текста. Обратно: роль остальных 90% словаря соответственно уменьшается с увеличением длины текста.
Эта последняя особенность распределения Ципфа − свойство "падающей концентрации" − наглядно проявляется, если зафиксировать длину словаря в формуле (10) и, увеличивая Zn, следить за ростом n − числа слов, необходимых для того, чтобы покрыть Zn долю текста:
(11)
Как видно из выражения (11), для того, чтобы увеличить Zn, нужно очень быстро наращивать n, приближая его к N, причем каждая следующая часть словаря, оказывается все более "бедной породой" (рис. 4).
Рис. 4. Число слов, необходимее для покрытия данной доли Zn текста с фиксированной общей длиной словаря N
Случаи, когда γ≠1, несложно преобразуется к виду (9). Интегрируя (2) в интервале [1, n] получаем
(12)
Обозначим α=γ–1 и представим nα в виде еαlnn. Разложив последнее выражение в ряд Тейлора, после некоторых преобразований приходим к представлению (12) в виде ряда:
Следовательно, соотношение объемов текста λα(n) (я) и λα(n1),. покрываемых n и n1словами, можно представить в виде частного двух рядов:
(13)
При такой записи видно, что частное логарифмов (9) при любом играет роль "нулевого приближения", а α=γ–1–"малого параметра".
Специфика распределения Ципфа еще более четко прослеживается при сравнении его с экспоненциальным распределением. Рассмотрим экспоненциальное распределение, заданное соотношением:
(14)
Очевидно, что следующее соотношение будет для него аналогом соотношения (9):
Разлагая е–α(n–1) по степеням n–1 и сокращая, получаем:
(15)
Выражение (15) совершенно аналогично выражению (13) при γ<1 с той разницей, что в (13) вместо самих рангов стоят их логарифмы. Любопытно, что роль "нулевого приближения" в (15) играет соотношение с помощью которого можно было бы охарактеризовать равномерное распределение, когда все элементы словаря имеют одинаковую частоту.
Таким образом, грубо можно противопоставлять два типа распределения: 1) распределения, где объемы текстов, покрываемые первыми по рангу п словами, пропорциональны логарифму п, и 2) такие, где объем текста, покрытый теми же п словами, пропорционален самому рангу п.
§ 10. ЗАКОН ЦИПФА И СЕМЕЙСТВО РАНГОВЫХ РАСПРЕДЕЛЕНИЙ
Обратим теперь внимание на другую особенность текстов с ципфовским распределением частот: вся информация о распределении, любые соотношения между его параметрами определяются всего двумя величинами – объемом словаря N и показателем γ. Выбрав значения для этих двух параметров, мы до самых мелких деталей определяем количественный лексический состав всего текста.
Далее мы считаем некоторый общий способ задания ранговых распределений и с его помощью постараемся "нащупать" и иные, хотя бы и виртуальные, но не ципфовские, распределения статуса в замкнутых текстах.
Рассмотрим каким-то образом упорядоченный словарь V={x} – происхождение этого порядка нас сейчас не интересует,– содержащий N слов. Функцию Е (п, N) назовем энергией п-го по порядку слова в словаре из N единиц (слова, между которыми отношение порядка не определено, имеют одинаковую энергию). Е (N, N) назовем полной энергией словаря, а разность:
Е1(n, N)=E(N, N)–E(n, N)
– дополнительной энергией п-го слова.
Конечно, здесь понятие энергии используется в другом смысле, чем, например, в работе [8] (см. выше § 4). Для нас энергия – это не инвариантная характеристика данного слова, определяющая его частоту во всех текстах данного языка, а величина, сопоставленная рангу и предсказывающая только форму распределения частот в данном тексте. (Сохраняя термин "энергия", мы хотим подчеркнуть аналогии, возникающие с законом сохранения энергии в замкнутой системе).
Функции χ = еЕ(n, N) и χ1 = еЕ1(n, N) будем называть соответственно характеристикой и дополнительной характеристикой слова x ранга h.
Очевидно, что
χ· χ1= еЕ(n, N)· еЕ1(n, N)= еЕ(N, N)=const.
Это равенство не нарушится, если умножить обе части на константу и возвести в одинаковую степень γ:
(16)
Выдвигаемая нами гипотеза ранговых распределений и предлагаемый способ описания заключается в том, что целый класс ранговых распределений можно представить в виде:
(16)
если подходящим образом выбрать функцию Е (п, N). При этом χi интерпретируется как частота слова ранга п; N – длина словаря – определяет тип распределения, параметр β – имеет смысл минимальной частоты.
Когда мы переходим от непрерывного распределения к ступенчатой функции, появляются дополнительные условия, связывающие параметр β с остальными параметрами распределения и "затемняющие" его смысл (см. выше – переход от непрерывных гиперболического и экспоненциального распределений к соответствующим ступенчатым функциям).
Таким образом, частота п-го по рангу слова детерминирована его местом в словаре, но как именно – определяется размерами словаря. Можно предположить, что при маленьких размерах коллектива вступление нового члена сильно изменяет общую энергию коллектива, но для больших коллективов, включающих тысячи участников, прирост энергии должен быть уже очень слабым.
Пусть
Е (п, N) = R(nR–l–1), (17)
где R ≥ 1 – монотонная функция от N; мы не будем рассматривать вопрос, какая конкретная функция наилучшим образом согласуется с опытными данными. Эту функцию разумно выбирать медленно растущей с ростом N, а соответствующие варианты распределений естественно классифицировать по значениям параметра R.
Рассмотрим частные случаи:
1) R=1, E(n)= γ(n–1).
Подставляя в (16) данное значение энергии, имеем
(18)
Это уже известный нам из (14) случай экспоненциального распределения. При γ = 0 этот случай вырождается в равномерное распределение, где для всех xЄV, F(х) = β.
2) R→∞, E(n)=lim γR(n1/R-1)= γ lnn.
Подставляя в (16), имеем закон Ципфа:
3) Наконец, в общем случае, когда 1≤R<∞, имеем семейство распределений:
(19)
Таким образом, мы нашли для описания закона Ципфа некоторый "контекст" виртуальных законов распределения. Постараемся показать, что, по крайней мере, некоторые из них имеют отношение к действительности.
§ 11. СЛУЧАЙ "MAЛЫХ ТЕКСТОВ"
Начнем с экспоненциального распределения (18). Более или менее установленным фактом можно считать, что по этому закону распределены частоты фонем и букв [14]. Размеры словаря здесь и впрямь ограничены несколькими десятками единиц (10<N<102), но сделать какие-то общие выводы все же трудно, так как традиция исследований в области фонологии не выдвинула никакого анализа, понятия замкнутого текста. Эксперименты здесь всегда проводились в предположении, что частота (ранг) являются объективной характеристикой, определяющей употребление фонемы в языке (ситуация примера V), хотя позднейшие исследования [11] ставят устойчивость частот в этой области под сомнение. Поэтому нам придется поискать примеры распределения (18) в другом месте.
"Подозрение" падает на тексты небольших, но легко обозримых художественных произведений: лирических стихотворений, коротких рассказов и выступлений. Эта гипотеза естественна в рамках предлагаемого подхода, так как именно в таких текстах завершенность, целостность, очевидна не только для теоретического сознания, но и для непосредственного чувственного восприятия читателем, и создание впечатления такой целостности часто является предметом специальных забот их авторов. С другой стороны, именно небольшие размеры этих текстов ставили их вне поля зрения традиционной лингвостатистики: статистический закон не может отчетливо проявиться в такой малой выборке.
Действительно, лексический состав кратких текстов резко отличается от состава ципфовских текстов, причем отклонения направлены всегда в одну сторон у,– в сторону гораздо большего разнообразия словаря, и соответственно, меньшей средней частоты слова в тексте. Если бы был справедлив стохастический подход, то наряду с текстами, имеющими богатый словарь, среди кратких текстов в таком же количестве примерно должны были бы встречаться и тексты с очень убогим словарем, являющиеся все же "не менее текстами", чем тексты с большим разнообразием словаря. Однако в действительности это не выполняется.
Средняя частота слова в ципфовском тексте (при γ=l) пропорциональна логарифму длины словаря этого текста:
В случае, когда γ≠l, эта величина может быть представлена в виде ряда:
При N=120 и параметре γ =0,95–1,05 величина – для ципфовского текста заключена в пределах (при γ =1, ). Но, например, для "малого" стихотворения "Анчар" А. С. Пушкина величина F составляет:
Еще более показательно сравнение объема словаря N и частоты самого частого слова. Теоретически она должна составлять 40–45% длины словаря N, но на самом деле частота самого частого слова в тексте "Анчара" – союза и – всего 15.
Однако прежде чем проверять гипотезу об экспоненциальном распределении для конкретных текстов, мы должны проделать с распределением (18) ту же работу по "проведению" его к дискретной интервальной форме, которую мы проделали выше с распределением Ципфа. Как и в том случае, мы заменим непрерывное распределение ступенчатой функцией, так чтобы площадь под ней была равна площади под экспонентой, и сохранялось отношение числа слов, имеющих частоту 1, к длине всего словаря N. Естественно, что и все изложенные соображения об известном произволе в выборе таких условий остаются в силе.
Для определения связи между параметрами распределения (18) имеем два уравнения:
(20)
(21)
где k–число слов с частотой 1–последняя ступенька функции (рис. 5).
Рис.5. Замена экспоненты ступенчатой функцией
Преобразуя (20), приходим к выражению
(22)
Далее, подставляя в (21) выражение для Fn: (18) и интегрируя, после образований имеем:
(23)
Сравнивая (22) и (23), приходим к следующим замечательным соотношениям:
γk=1; (23а)
(236)
Т. е. в случае экспоненциального распределения β постоянно и не зависит от углового коэффициента γ. Параметр γ определяется только количеством слов с частотой 1, k = m(l). Распределение (18) можно переписать следующим образом:
Из последнего равенства сразу видно, что гипотеза об экспоненциальном распределении плохо согласуется с экспериментальными данными для "Анчара", но по совершенно противоположным причинам, нежели те, которые вытекают из гипотезы о ципфовском распределении. Соотношение между общей длиной словаря и числом слов с частотой 1 для "Анчара" составляет: , что приводит к значениям Fmax порядка 2, а средней частоты F лишь слегка большей 1. Таким образом, если распределение (2) для этого текста является слишком "крутым", то экспоненциальное распределение – слишком "пологим". Возможно, что мы взяли распределение для малых текстов в "вилку".
Посмотрим, не ближе ли к экспериментальным данным распределение класса (19). Мы ограничимся здесь расcсмотрением сравнительно простого случая такого распределения при R = 2. Обозначим произведение γR через h:
(24)
Так же, как и в случаях экспоненциального и ципфовского распределения, заменим (24) ступенчатой функцией . Для определения связи между параметрами воспользуемся уравнениями, аналогичными (20) и (21).
Преобразуя первое из них, получаем:
(25)
Операции над вторым рассмотрим подробнее:
В подынтегральном выражении в правой части уравнения произведем замену переменных: n=t2; dn=2tdt;
(26)
Возвращаясь к первоначальной переменной h, подставляем пределы интегрирования:
Пользуясь равенством получаем:
(27)
Подставляя в (27) результаты преобразования первого условия (25) окончательно имеем:
(28)
Можно доказать (доказательство мы опускаем), что обе части уравнения (28) порознь равны 0. Отсюда:
и
где, как и выше, Полагая а =1,2 при µ(1)=100, приходим к значениям β≈0,65 и γ≈0,141 и несколько большим, по сравнению с распределением (18), значениям Fmax≈3. Приближается к экспериментальному значению и средняя частота, теперь она равна 1,2. Длина текста при этом вычисляется по формуле:
Возможно, что, выбирая несколько большие значения R=3, 4..., мы приблизились бы к наблюдаемому распределению еще ближе, но в этих случаях необходимы довольно громоздкие выкладки.
ЛИТЕРАТУРА
1. Козачков Л.С. Системы потоков научной информации. Киев, «Наукова Думка», 1973.
2. Маркусова В.А. О формальном методе оценки информационной значимости научных журналов – «НТИ», сер. 1, 1973, № 10, с. 8–18
3. Simоn Н.A. Some further notes on a class of skew distribution functions.– «Information and control»,
1960, 3, p. 80–81.
4. Haight T.A. Some statistical problems in connection with word association data.– «J. math, psychology», 1966, 3, p. 217–233.
5. Арапов М.В., Ефимова Е. Н. Понятие лексической структуры текста. (В печати)
6. Маршакова И.В. Классификация документов на основе лексики (по ключевым словам документов).– «НТИ», с. 3–10, сер. 2, 1974, № 5,
7. Неrdаn G. The Advanced Theory of Language as Choice and Chance. Berlin– Heidelberg–New York, 1966.
8. Шpeидep Ю.А. О возможности теоретического вывода статистических закономерностей текста.– В кн.: Проблемы передачи информации, М., 1967, вып. 1, 57–63.
9. Мандельброт Б. О рекуррентном кодировании, ограничивающим влияние помех.– В кн.: Теория передачи сообщений. М., 1957.
10. Мандельброт Б. Теория информации и психолингвистическая теория частот слов.– В кн.: Математические методы в социальных науках. М., «Прогресс», 1973, с. 316–337.
11. Сeгaл Д.М. Статистическая однородность текста на фонологическом уровне в польском языке. В кн.: Структурная типология языков. М., «Наука», с. 26–44.
12. Яглом А.М., Яглом И.М. Вероятность и информация. Изд. 3-е, перераб. и дополн. М., «Наука», 1973.511с.
13. Арсентьева Н.Г. О двух способах порождения предложений русского языка.– «Проблемы кибернетики», М„ 1965, № 14, с. 189–218.
14. Орлов Ю.К. О статистической структуре сообщений, оптимальных для человеческого восприятия(к постановке вопроса) – «НТИ», № 8, 1970, сер. 2, с. 11–16.
15. Саrrо11 I.В. A rationale for an asymptotic lognormal of word – frequency distribution. Princeton, 1969.
16. Zipf G.K. Human Behaviour and the Principle of Least Effort. Cambridge, Mass., 1949.
17. Booth A.D. A Law of Occurences for Words of Low Frequency.– In.: Introduction to Informational Science. New York–London, 1970, p. 219–222.