Арапов М.В. Квантитативная лингвистика. М., 1988.  С. 45–53.

(нумерация ссылок, рисунков и литературных источников приводится в соответствии с указанным изданием)

 

3. Закон Ципфа и структура реального текста

 

3.1. В предшествующем разделе была рассмотрена очень простая модель текста: текст рассматривался как множество словоупотреблений, разби­тых на два типа классов. В классы одного типа попадали различные упот­ребления одного слова (или словоформы), а в классы второго типа – все первые употребления каждого слова, вторые, k-тые. Было доказано, что с точки зрения некоторого "энтропийного" критерия наиболее вероятным является такое соотношение объемов выделенных классов, которое опи­сывается законом Ципфа. Этот закон устанавливает совершенно определен­ную связь между числом выделенных классов (число разных слов или, благодаря симметрии диаграмм, которые рассматривались в предшествую­щем разделе, частота самого частого слова) и объемом текста. На рис. 9 показано, как реально связано число словоупотреблений в тексте (L) и число различных слов  (N) в нем. Огромный разброс величины  которая была вычислена для нескольких сотен текстов в различных языках, частично объясняется различными значениями параметра γ самого закона. Этот параметр связан как с жанровыми особенностями текста, так и типо­логическими особенностями языка (на рис. 10 показаны типичные значе­ния γ для различных языков).

Однако   исследователям,   занимающимся   структурой   текста,   давно  известно, что по крайней мере часть наблюдаемого разброса величины  связана с тем, что наблюдаемое соотношение объемов классов в тексте значительно отличается от предсказанного законом Ципфа, Наиболее силь­ные отличия наблюдаются для наибольших классов, причем это относится как к X-классам, так и Y-классам. Было предложено огромное число мо­дификаций закона Ципфа, которые должны были улучшить соответствие между наблюдаемыми фактами и законом. Нам, однако, представляется, что введение в формулу дополнительных "подгоночных" параметров не лучший способ разобраться в сути проблемы. Мы видим эту суть в том, что закон Ципфа адекватно описывает те отношения, которые были зало­жены в первоначальной модели. Полный же набор отношений, которые нужно учесть, чтобы описать структуру текста с количественной стороны, гораздо сложнее.

В данном разделе мы постараемся показать, какие отношения между элементами текста нужно принять во внимание, если мы хотим объяс­нить отклонение от теоретически предсказанных наиболее крупных Y-классов, выражаясь технически, – "головы" распределения. В третьей главе мы сформулируем предположение, почему отклоняются от "идеальных" размеры X-классов.

3.2. Оказывается, для того, чтобы выяснить, почему "голова" реальных распределений отклоняется от теоретического закона Ципфа, нужно отве­тить на принципиально новый (конечно, в контексте данной главы) воп­рос: какие слова занимают в распределении для любого текста первые 5–15 мест, т.е. без каких слов вообще нельзя построить никакой текст. До сих пор все наши рассуждения касались того, как связан ранг (место) и частота, сопоставленная данному рангу, сколько есть "мест", но нас еще никогда не интересовал вопрос, какие слова занимают эти места. Мы задаем этот вопрос только сейчас, завершая обсуждение вопросов, связанных со структурой текста. Мы собираемся наметить основную нить рассуждений, позволяющую "перекинуть мостик" от проблематики ранговых распреде­лений в узком смысле к другому разделу статистического языкознания, имеющему отношение к измерению характеристик текста, так называе­мой стилометрике.

Рис. 9.   Зависимость  средней  частоты слова в тексте F от объема словаря текс­та N (точки – экспериментальные данные, кривые – расчетные,  при различных зна­чениях параметра γ).

 

Основная идея стилометрики заключается в том, что стиль данного текста можно охарактеризовать с помощью ограниченного числа парамет­ров, к которым относится длина предложения (или структурных единиц текста, сопоставимых по длине с предложением), соотношение частей речи, относительная частота некоторых "конструкционных" элементов текста: артиклей, предлогов, союзов, частиц и т.п. Из этого перечня видно, что речь в сущности идет о характеристиках синтаксической структуры текста, поэтому точнее было бы говорить не о стиле вообще, а о "синтаксическом стиле "текста.

Рис. 10. Типичные  значения параметра γ Для текстов  на различных языках при разном понимании термина "слово" (темные прямоугольники – лексемы, светлые – словоформы, черточкой отмечена медиана).

 

Рис. 11. Зависимость между рангом r и частотой f лексических единиц в двух отрывках из "Капитанской дочки" А.С. Пушкина (I – словоформы, II – лексемы), логарифмический масштаб по обеим осям; в верхней части графика заметны отклонения от прямой линии, соответствующей точному выполнению закона Ципфа 48 (из книги [81]).

 

Далее, в стилометрике делается ряд важных предположений о констант­ности этих параметров (или связей между этими параметрами) для одного автора, одной эпохи, литературного направления, жанра и т.п., т.е. о неза­висимости значений этих параметров от объема текста. Различные исследо­ватели, работающие в области стилометрии, естественно, придерживаются весьма разнообразных взглядов в отношении того, какой именно набор параметров сохраняется и при каких условиях он сохраняется. Однако для наших целей различия взглядов среди исследователей, работающих в этом направлении, не существенны. То положение стилометрики, которое для нас является определяющим, – независимость синтаксического стиля, т.е. локальных особенностей структуры текста, от его объема (оно и по­зволяет решать такие задачи, как атрибуция текстов, классификация их по стилю и пр.) – никем из специалистов не оспаривается. И вообще, если от него отказаться, то от стилометрии не останется буквально ничего.

Часто признаки, которые были перечислены выше как определяющие синтаксический стиль ("константные"), рассматриваются как независимые, а в увеличении числа этих признаков видят путь к более надежному реше­нию таких задач стилометрики, как установление авторства (атрибуции текстов)4. Это, по-видимому, не совсем так: между такими признаками, как относительная частота употребления различных структурных элемен­тов (например, союзов и предлогов) и длиной предложения существует заметная связь, хотя и далекая от функциональной (теснота корреляцион­ной связи между ними, большая или меньшая, сама может быть признаком стиля, см. в этом отношении известную работу Сомерса [151]). Почти очевидно, что увеличение "плотности" союзов и предлогов связано с уве­личением длины предложения, тогда как увеличение относительной часто­ты личных форм глагола связано с сокращением длины предложения. С другой стороны, увеличение числа предлогов связано с относительным увеличением числа существительных и т.п. Связи здесь столь многообраз­ны и сложны, что априори не видно, с какого конца распутывать этот клу­бок. Но ничто не мешает начать исследование тех следствий, которые вы­текают из постулатов стилометрики, с исследования постулата о констант­ности частоты структурных элементов словаря, оставив соотношение частей речи и распределения длин предложения для своего рода конт­роля.

Одно из основных утверждений, которое будет обсуждаться в данном разделе, состоит в том, что постулат о константности частот употребления структурных элементов словаря несовместим с предложением, что частоты этих элементов распределены по закону Ципфа.

3.3. Рассуждение, которое приводит нас к этому выводу, основывается на дополнительной гипотезе, практически всегда подтверждающейся, что первые 5–15 мест любого рангового распределения как раз и заняты лексическими структурными элементами. Эту гипотезу можно будет в значительной степени ослабить. Например, требовать, чтобы только первое место (ранг 1) было занято каким-то определенным структурным элемен­том, т.е. существовало служебное слово, которое в любом тексте употреб­ляется чаше, чем любое другое слово, например, в русской художественной прозе это союз и, в научно-технической литературе – предлог в, в драма­тургии – местоимение я и т.п. Если в качестве второй гипотезы мы при­мем, что существуют тексты разной длины, но с постоянной   частотой данного  структурного  элемента, то  сразу убедимся, что частота этого выделенного слова не может удовлетворять закону Ципфа.

Этот факт со всей очевидностью следует из того, что частота слова, имею­щего любой фиксированный ранг, в том числе ранг 1, зависит от объема текста L: F1(F1=N) – есть корень уравнения L=N lnN. Аналогичные зависимости не сложно выписать для любого варианта и любых значе­ний γ. Это, конечно, прямо противоречит гипотезе константности.

Вопрос о постоянстве относительной частоты самого частого слова многократно обсуждался в лингвостатистической литературе, особенно на раннем этапе, однако в несколько ином контексте [81, 121]. Высказы­вались даже предложения возвести постоянство частоты самого употреби­тельного слова в ранг лингвистической универсалии, но, по-видимому, стабильность этой величины тогда сильно преувеличивалась, сказывался недостаток эмпирических исследований. Реально частота самого частого слова заметно колеблется в зависимости от языка, стиля или жанра (однако, нам-то важно только то, что она не зависит при этом от длины текста).

3.4. Рассмотрим теперь другой способ аргументации, приводящий к выводу, что независимо от справедливости стилометрического постулата о константности частоты служебных слов наличие на месте с рангом 1 слу­жебного слова (вообще говоря, безразлично какого, пусть даже различно­го в разных текстах) несовместимо с выполнением закона Ципфа5.

Мы будем опираться на следующие гипотезы, которые эмпирически оправдываются практически всегда:

1) служебное слово, занимающее место с рангом 1, не имеет парадигмы;

2) данное слово остается самым частым в тексте при переходе от слова­ря слов к словарю словоформ (т.е. даже при суммировании частот различ­ных словоформ из одной парадигмы ни одно слово не в состоянии "обог­нать" по частоте данный служебный элемент).

Предположим теперь, что распределение как слов, так и словоформ для данного текста является ципфовским, хотя может быть с разными значе­ниями γ. Исключительно для упрощения выкладок положим, что для сло­воформ γ = 1, тогда, очевидно, для слов γ=1+e. Объем словаря слов и словоформ соотносится следующим образом:

Xсловоформ = XNслов.

Тогда, в силу предположений 1) и 2), можно выписать следующее уравнение для множителя  X:

Разлагая  X в ряд, после некоторых преобразований имеем:

Пренебрегая остатком ряда в знаменателе левой части можем написать:

Этот вывод можно интерпретировать двояким образом. Либо вместе с объемом словаря N (т.е. вместе с объемом текста) неограниченно воз­растает "сжимаемость" словаря: чем больше словарь, тем больше Xсредняя длина парадигмы, причем длина парадигмы, по крайней мере теоретически, ничем не ограничена. Либо средняя длина парадигмы пос­тоянна (Xконстанта), но тогда значение параметра γ = 1 + е зависит от длины текста, что совершенно неприемлимо. Как, впрочем, неприемлим и вывод о неограниченной длине парадигмы, лингвистически осмысленным был бы лишь результат Х→α<∞, при N→∞.

Собственно, даже если предполагать, что не существует текста с неогра­ниченно большим словарем и рост X ограничен, то и тогда этот результат противоречит стилометрическому постулату о стабильности соотношения различных частей речи, так как обозначает преобладание в текстах боль­шего объема слов с большой парадигмой – в основном глаголов.

3.4. В предшествующем параграфе мы показали, что строгое выполне­ние закона Ципфа для "структурных элементов" текста привело бы к тому, что морфология текстов большего объема заметно отличалась бы от морфологии более коротких текстов (перераспределение частей речи, удлинение парадигмы и т.п.). Косвенно это указывает и на то, что неизбеж­но должно было бы измениться и синтаксическое членение текстов. В дан­ном разделе мы попытаемся проследить связь между синтаксическим членением и выполнением закона Ципфа для некоторых служебных слов более детально.

Прежде всего мы покажем, что частоты некоторых слов текста коррелированы (положительно или отрицательно) с длиной предложений, на ко­торые этот текст членится. Далее, повторяя в несколько более общем виде те рассуждения, которые были проделаны выше, покажем, что стро­гое выполнение закона Ципфа для этих служебных слов привело бы к возникновению зависимости между объемом текста и его синтаксическим членением, что находится в явном противоречии с постулатами стилометрии. Среди высокочастотных служебных слов можно выделить грубо два типа: один тип – это слова, с которыми можно связать определенный тип синтаксических отношений, замыкающихся в пределах одного предло­жения (предлоги, союзы, артикли, если они представлены в данном языке), другой тип – слова, обслуживающие либо отношения, не замыкаю­щиеся всегда в одном предложении (местоимения, обслуживающие ана­форические связи), либо отношения, как правило, реализующиеся в пре­делах предложения только один раз (глаголы-связки, отрицательные час­тицы и т.п.). Возрастание частоты употребления слов первого типа приво­дит к увеличению средней длины предложения, а второго типа, наоборот, – к сокращению длины предложения.

Приведенные выше элементарные соображения можно подкрепить ссылками на эмпирические исследования. Так, в работе С. Фаик [113] и комментарии к этой работе Ш. Мюллера [143] рассматривается зави­симость между относительной частотой "слов-связок" (mots-charniéres) и частотой знаков препинания, т.е., в конце концов, размерами сегментов, на которые членится текст. На материале французской прозы (романы первой половины XIX в.) показано, что между этими частотами существует сильная (близкая к – 1) отрицательная корреляция, т.е. чем больше в тексте "плотность" слов, указывающих на отношения подчинения и сочи­нения, тем длиннее сегменты, на которые членится текст, и тем самым меньше "плотность" знаков препинания.

Аналогичные данные приводятся в работе коллектива авторов [74]. На материале современной украинской художественной литературы по­казано, что между частотой сочинительных союзов и средней длиной пред­ложения существует значимая корреляция (коэффициент ранговой кор­реляции ρ = +0,69, при критическом значении 0,48 для данного числа сте­пеней свободы 17–2=15; уровень существенности здесь и ниже выбран равным 0,05). Подсчитанный нами коэффициент корреляции Пирсона r составляет +0,64, что также является значимой величиной. Коэффициент корреляции между средней длиной предложения и частотой сочинительных союзов также положителен, но на принятом уровне не является статисти­чески значимым.

Используя данные А. Мортона [138-140], мы подсчитали корреляцию между средней длиной предложения и частотами некоторых служебных элементов для ряда древнегреческих и эллинистических авторов (см. табл. 1). Статистически значимые коэффициенты выделены в таблице полужирным шрифтом. Из приведенных в этой таблице числовых данных видно, что одни и те же факторы у разных авторов и в разные эпохи дейст­вуют примерно в одном направлении, хотя теснота связи между этими факторами и длиной предложения различна: едва заметна, например, у Фукидида и приближается к функциональной у апостола Павла6.

 

Таблица 2.1.

Какой же можно сделать вывод из сказанного выше? Предположим, что в нашем распоряжении набор текстов разной средней длиной предложе­ния, но имеющих одинаковый объем и одинаковое значение γ. Вместе с длиной предложения возрастает (хотя бы в среднем) и частота служебных "слов-удлинителей", которые, как мы знаем, плотно заполняют "го­лову" частотного словаря. Но известно также, что суммарная частота слов, занимающих любой фиксированный набор рангов, находится в жесткой связи с объемом текста. Остается один выход – эта жесткая связь не долж­на распространяться на голову словаря, т.е. для этих слов закон Ципфа не должен выполняться. (Вообще говоря, чисто логически, есть еще выход: с увеличением длины предложения увеличивается запас служебных слов, "обслуживающих" синтаксические связи, но эта возможность, по-видимо­му, не реализуется).

Бели частота данного слова не "ложится" на гиперболу, то остаются, очевидно, две возможности: она либо ниже той, которая предсказывается для него законом Ципфа, либо выше. Средняя частота союза и, который в нескольких десятках исследованных русских текстов занимал место с рангом 1, составляла около 5% всех словоупотреблений независимо от длины текста, которая изменялась в пределах от 102 до 106 словоупотреб­лений. Можно примерно представить себе, какую длину имел бы текст, в котором частота первого по рангу слова составила бы 5 %. Если γ = 0,95, как это наблюдается в "эталонных" текстах, то величина L имела бы по­рядок 600 тыс. словоупотреблений (при γ = 0,90 эта величина была бы меньше на целый порядок и составила всего (!) 56 тыс., но при γ = 1 тре­буемый объем возрос бы до 9 млн. словоупотреблений!) Для текстов меньшего объема частота F1 ниже той, которую следует ожидать, исходя из закона Ципфа. Но для служебного элемента со стабильной частотой в 3 % занимающего второе место (в этой роли в русском языке очень часто выступает предлог в), требуемый объем текста уже существенно меньше – всего 44 тыс. словоупотреблений при γ = 0,95. Таким образом, в тексте, имеющем объем достаточный, чтобы первое слово "легло" на гиперболу, второе окажется над гиперболой!

Смысл "отклоняющегося" поведения группы высокочастотных слу­жебных слов состоит в том, что природа предусмотрела дополнительную степень свободы: текст любой длины может иметь произвольное (в каких-то границах) синтаксическое членение, произвольный "синтаксический стиль".

 

 

 

4 См. в этом отношении, например, работы Мортона и его коллег [138-140], Сомерса [151], Кэррола [107] и др.

5 Вообще-то, совершенно не существенно и то, на каком именно месте стоит служебное слово, важно, чтобы оно не изменяло своего ранга при указанных ниже преобразованиях рангового распределения.

6 Собранные данные говорят, что такие обычные в стилометрике характеристи­ки стиля, как относительная частота употребления, средняя длина предложения и др. могут оказаться очень подвижными как для одного автора, так и для одного литературного жанра. Но это никак нельзя считать опровержением основного стилометрического постулата о независимости таких характеристик от объема текста, разве что предостережением против чрезмерно широкого толкования постулата "кон­стантности".

 

Литература

 

74. Статистичнi параметри стилiв. Кiев: Наук. думка, 1967.

81. Фрумкина Р.М. Статистические методы изучения лексики. М.: Наука, 1964.

107. Carrol J.B. Vectors of prose style // Style in Language. N.Y.; L., 1966.

113. Fäik S. Neutralisation de phénomenes parasites dans les calculus de frequence // Etudes de linquigtique appliqué. 1972. 6. Р. 19–27.

121. Herdan G. Language as chance and choice. Groningen, 1956.

138. Morton A.Q. The autorship of Greek prose // Jornal of the Rojal Statistical Society. Ser. A. 1965. 128. Pt. 2. P. 169−233.

139. Morton A.Q. The autorship of the Pauline Epistles, 1965.

140. Morton A.Q., McLeman J. Paul, the man and the myth. N.Y., 1966.

143. Muller Ch. Notes sur les correlation entre frequencies // Etudes de linquigtique appliqué. 1972. 6. Р. 2836.

151. Sommers H.H. Analyse statistique du style. Louvain, 1967.