Ю.К. Орлов

ДИНАМИКА  РАНГОВЫХ  РАСПРЕДЕЛЕНИЙ  И  ПРОБЛЕМЫ СТАТИСТИКИ  РЕДКИХ  СОБЫТИЙ

 

Ранговые распределения возникают при изучении многокомпонентных систем самой различной природы. В любой такой системе действует закон, удачно сформулированный в сборнике “Физики шутят”: “20 % людей выпивают 80 % пива”. Говоря более общо, в любой системе существуют компоненты, сравнительно немногочисленные, которые обладают, в некотором смысле, “высоким статусом” (частотой, распространённостью, доходом, стоимостью, потреблением электроэнергии и т.п.), и значительно больше компонентов с низким статусом, причём по мере понижения статуса число разных компонентов с этим статусом увеличивается. Зависимость эта носит обычно гиперболический характер; простейшая (но грубая) её форма, известная под названием “закон Ципфа” и полученная впервые на лингвистическом материале, имеет вид:

   i = 1, 2 ,... .

Здесь Рi - относительная частота i-го слова в списке, упорядоченном по убыванию частот, К - константа, значение которой лежит обычно в интервале 0,1¸0,2 (рис. 1). На графике в билогарифмическом масштабе ранг i - частота Рi эта зависимость имеет вид прямой линии с угловым коэффициентом  -1.

Существует множество более гибких выражений, призванных лучше аппроксимировать эмпирические данные. Можно отметить, например, формулу Б.Мандельброта [1]

                                      i = 1, 2,... ,                                   (1)

где В и g, хотя и имеют теоретическое обоснование, но обычно просто подбираются под эмпирику. Эта формула обычно значительно лучше описывает зону частых слов. Кроме того, наклон теоретической кривой на билогарифмическом графике может меняться (он равен - g). В работе [2] показано, что известное в экономике распределение Парето, описывающее доходы населения, в ранговой форме имеет также вид (1):

                                                i = 1, 2, ... ,                             (2)

где Рi - доля национального дохода, получаемая i-м лицом в списке, упорядоченном по убыванию доходов, К, В, g и а - подбираемые константы. При этом а имеет смысл минимального дохода, необходимого для поддержания жизнедеятельности. Параметр g, определяющий, как и в (1), общий ход наклонной кривой, имеет смысл важного показателя, характеризующего свойства социально-экономической системы. В книге О. Ланге [3] отмечается, что g » 0,7 (Ланге рассматривает обратную величину) и характеризует устойчивое в социально-экономическом смысле общество; когда высокие доходы не вызывают стремление масс перераспределить их в свою пользу.

Таким образом, ранговые распределения в сжатом виде весьма существенно характеризуют многокомпонентные системы. Понимание обстоятельства, что компонентное (видовое, лексическое, номенклатуры изделий) многообразие носит системный характер, позволило отыскать подходы к экономической оптимизации построения и эксплуатации электрических ценозов [4].

Однако существует одна общая проблема, связанная с ранговыми распределениями в тех случаях, когда Рi имеет смысл относительной частоты. Особенностью ранговых распределений в этих случаях является наличие множества компонент, встретившихся в обследованном материале  в чрезвычайно малом количестве - по 1, по 2, по 3 и.т.д. раз. Например, число особей-двигателей, встретившихся как вид по 1 разу каждое в годовом объеме электроремонта 1000-2000 шт. (это 300-500 видов), приблизительно равно половине этого словаря.

Это явление настолько характерно, что обычно редкочастотную зону приближают иными аналитическими выражениями, отличными от формул (1) и (2), но согласованными с ними. Так, например, выражение (1) при g=1 согласуется с зоной редкочастотных компонент, приближённых выражением:

                                               F = 1, 2, ... ,                                (3)

где VF - количество разных компонент, употребляемых (встретившихся в выборке) ровно F раз каждое, а выражение (2) при g = 1 с

                                          .                                             (4)

Константы в числителе подбираются, исходя из условия нормировки (см. [5]). Набор чисел {VF, F = 1, 2, ...} называется частотным спектром (в работах Б.И. Кудрина для каждого из этих чисел используется в качестве термина слово “каста”). Эмпирические члены частотного спектра мы будем обозначать с помощью “шапочки” - .

Следует подчеркнуть, что ни выражения (1) и (2), ни (3) и (4) сами по себе не являются сколько-нибудь универсальными и способными к прогнозированию. Как правило, лишь в сравнительно редких случаях ими удаётся удовлетворительно приблизить эмпирические ранговые распределения и, даже когда это удаётся сделать на выборке какого-либо конкретного объёма, остаётся совершенно неизвестным, как изменятся подобранные константы, если объём выборки будет существенно изменён - уменьшен или увеличен. Эмпирические распределения обнаруживают систематические деформации, которые не удаётся прогнозировать “жёсткими” формулами типа (1), (2), (3) и (4).

Это явление связано с тем, что наши наблюдения за количественным составом многокомпонентных систем являются недостаточными. Традиционно считается, что относительная частота является разумным приближением к соответствующей вероятности. Вдумаемся, однако, в такой простой пример: в языке (словаре) существует около полумиллиона разных слов (примерно так оценивался, например, объём лексических картотек ЛО ИЯ АН СССР). Предположим, что каждое слово имеет постоянную вероятность своего употребления (это, строго говоря, не так, но для больших выборок приблизительно верно). Сумма всех вероятностей (их полмиллиона!) равна, естественно, единице. По данным же частотного словаря русского языка [6], на миллионном корпусе текстов зафиксирован словарь объёмом около 40000 слов и сумма их относительных частот также равна единице. То есть в среднем частоты больше соответствующих вероятностей примерно в десять раз! А если учесть, что частоты частых слов относительно стабильны и достаточно близки к своим вероятностям, то это смещение падает на редкочастотную зону, и там оно значительно больше десятикратного. Никакой мистики в этом нет: в списках частотных словарей присутствуют только ненулевые частоты, попросту говоря, “счастливчики”, попавшие в выборку; нулевые же частоты тех слов, которые в выборку не попали, учесть при таких подсчётах, как правило, невозможно.

Именно это обстоятельство приводит к многочисленным парадоксам, связанным с ранговым распределением, и к невозможности использовать традиционный математический аппарат, явно или неявно предполагающий соответствие вероятностей и оценивающих их частот. С ростом объёма выборок непрерывно нарастает словарь (число видов, номенклатура изделий и т.п.), меняются степень смещённости редкочастотной зоны и параметры, аппроксимирующие ранговые распределения оказываются “зависимы и не обнаруживают сходимости при увеличении выборки”, при этом создаётся впечатление, что отсутствует математическое ожидание [4].

Все эти парадоксы снимаются, если рассматривать выборки из совокупностей с большим числом различных событий, как заведомо недостаточные для оценки вероятностей всех входящих в совокупность событий [7]. Основным результатом анализа является связь между ранговым распределением вероятностей, записанным в виде структурной функции z(р) (числом разных событий, имеющих вероятность не меньше р) и ожидаемым частотным спектром:

                                   F = 1, 2, ... ,               (5)

где С - нормировочная константа (см. ниже).

Таким образом, частотный спектр {VF(N), F=1,2, ...} является как бы “проекцией” теоретического распределения z(р) на конечный объём выборки N и сильно зависит от этого объёма. В типовых условиях на выборках сколько-нибудь реальных объёмов именно он и наблюдаем (в конкретных реализациях), а структурная функция z(р) ненаблюдаема. Поэтому есть смысл “перевернуть” обычный способ построения статистической гипотезы: формулировать её не как предположение о виде теоретического распределения z(р), а как гипотезу об аналитическом виде частотного спектра {VF(N), F=1, 2, ...}, вид же z(р) искать как решение уравнения (5). В качестве гипотезы о виде VF(N) естественно взять аналитические выражения, сглаживающие эмпирические частотные спектры. Ясно, что таким способом можно построить множество разных динамических моделей, описывающих деформации исходного спектра.

Конкретизация этой идеи применительно к ранговому распределению Ципфа-Мандельброта (1) и (3), рассматриваемому не как предельное,”настоящее” распределение в генеральной совокупности, а как реализацию этой зависимости на конечном фиксированном объёме N=Z, привела к следующей модели. Если на объёме Z выполняются соотношения, диктуемые законом Ципфа-Мандельброта:      

                                  i = 1, 2, ... , V(z) ,                                   (6)

где К, В и V(z) определяются из условия нормировки:

                                        ,

а зона редкочастотных компонент описывается модификацией формулы (3):

                                        ,                                       (7)

то на произвольном объёме N ¹ Z частотный ряд (6) сохраняется для зоны частых компонент и компонент со средней частотой, а редкочастотная зона обнаруживает систематические отклонения от (7): кроме того, меняется объём “словаря”:

                                     .                                (8)

Частотный спектр при этом имеет следующую зависимость от объёма выборки N:

                       .            (9)

Следует заметить, что эта формула удобна при N, не слишком сильно отличающихся от Z; при больших отличиях лучше пользоваться рекуррентными соотношениями:

                              ,                                 (9а)

                          .                     (9б)

Приведённые выражения отличаются от всех существующих аналитических выражений для описания и приближения ранговых распределений одним существенным обстоятельством: в них имеется в качестве независимой переменной объём выборки N. Это значит, что, определив раз значение параметра Z на каком-нибудь одном объёме выборки, можно затем сделать прогноз “словаря” и спектра на любой другой объём. (В некоторых случаях есть смысл рассматривать в качестве подбираемого параметра частоту самого частого слова Р1. Дело в том, что иногда в зоне частых слов наблюдаются нерегулярные “качания” частот, и в этом случае есть смысл сгладить их подбором Р1; способ такого сглаживания изложен в [8].) Зная объём фактического “словаря” V(N0) и относительную частоту самого частого “слова” Р1 на какой-либо выборке объёмом N0 , можно определить Z, решая относительно него уравнение:

                                    ;                                            (10)

методы его приближённого решения даны в [16,17].

Из выражений (8) и (9) видно, что с ростом N “словарь” V(N,Z) нарастает неограниченно; частотный же спектр стремится к конечному пределу:

                              ,                   (11)

т.е. принятие гипотезы о “ципфовском” спектре (3) на объёме Z влечёт за собой вывод о том, что генеральная совокупность, из которой выбрана выборка с таким спектром, имеет неограниченное разнообразие (“инвентарь”) компонент. Это, конечно, плохо согласуется с априорными соображениями о природе таких совокупностей в окружающем нас мире, но, тем не менее, как будет показано ниже, на выборках объёмов эта модель неплохо согласуется с реальностью.

Само же теоретическое ранговое распределение в форме структурной функции имеет вид:

                                                                      (12)

что совсем не похоже на исходную форму (3).

Продемонстрируем работу этой модели на техноценозном материале [9]. Этот эмпирический материал представляет собой статистические данные о поступающих в капитальный ремонт электродвигателях на Новосибирском металлургическом заводе; мы возьмём статистику за 1970 г. (сразу же оговоримся, что на данных за другие годы получаются аналогичные результаты). В качестве исходных чисел взяты показатели января-месяца: полное число особей-экземпляров поступивших двигателей (объём выборки) N0 = 103, из них разных видов (“словарь”) V(N0)=70 и 8 из поступивших двигателей были одного вида, что даёт Р1 = 8/103 = 0,07767. Этих трёх чисел достаточно для решения уравнения (10) и нахождения значения Z =5700; подставив это число (вместе с Р1) в формулы (8) и (9) и, меняя значение N, можно сделать прогноз словаря и спектра на любой объём (включая и исходный объём Р1).

Результат такого прогноза на 1970 год и его сопоставление с эмпирическими данными приведены в табл. 1. Прогнозируется объём “словаря” (т.е. количество разных видов электродвигателей) и наиболее редкочастотная зона спектра - количество видов электродвигателей, каждый из которых представлен одним, двумя, или тремя экземплярами. Прогнозы даны в столбиках, помеченных буквами /т/, соответствующие фактические данные содержатся в столбиках /факт/; о столбиках, помеченных /т'/, пойдёт речь ниже.

Как видно из таблицы, соответстие между прогнозами и фактическими данными носит вполне разумный характер. Даже десятикратный прогноз чисел разных видов “вперёд” (с января-месяца на весь год) расходится с действительностью менее, чем на 6% (344 и 326). Вместе с тем обращает на себя внимание тенденция к завышению теоретических чисел по сравнению с эмпирикой для числа видов, представленных единственным экземпляром и, наоборот, занижению прогнозов для видов, представленных двумя и тремя экземплярами. Это явление достаточно характерно и для литературных текстов, где подобное завышение теоретического числа одноразовых слов составляет в среднем около 8% от фактического числа одноразовых слов. Поэтому была разработана более сложная модель, “базовым” спектром для которой послужило выражение (4), в котором, меняя константу a, можно “регулировать” редкочастотную зону [8]. Принимая N=Z и подставляя (4) в правую часть (5), находим структурную функцию теоретического распределения:

                                                       (13)

а оно, в свою очередь, позволяет получить структурную функцию для выборок конечных объёмов:

                                                     (14)

Здесь zz,a(р) - число разных “слов”, абсолютная частота которых на выборке объёмом N компонент (словоупотреблений, экземпляров электродвигателей, биологических особей и т.д., и т.п.) не меньше F. Нормировочная константа С при не очень малых Z равна:

                                                                       (15)

Упорядоченный по убыванию набор относительных частот для объёма N=Z имеет вид:

                              ,                 (16)

где

                            ,                      (17)

а частотный спектр определяется через (14):

                                                 (18)

Особенностью распределения (13), существенно отличающей его от (5), является наличие при a<0 конечного предела для “словарного запаса”, равного:

                                 .                    (19)

Частотный же спектр в этом случае в пределе равен нулю (что совершенно естественно, так как при неограниченном росте объёма выборки и конечном словаре сколь угодно маловероятное событие повторяется неограниченное число раз; другими словами, одноразовые “слова” постепенно исчезнут, перейдя в двухразовые, двухразовые - в трёхразовые и т.д.).

Процедура подбора параметров Z и a сводится к численному решению (методом итераций) уравнений:

                                                                     (20)

Это значит, что мы добиваемся не только совпадения теоретического и эмпирического словаря по исходным данным (подобно уравнению (10)), но и совпадению по одноразовым элементам (возможны и другие способы подбора параметров Z и a). Подбор Z и a по данным всего 1970 года для Новосибирского завода (N=989; V=326 и V1=166) дал значения Z= 9000, a = -2,037; кроме этого, было подобрано также “сглаживающее” значение Р1¢= 0,033, при котором сумма первых 20 самых частых видов электродвигателей равна аналогичной сумме для их теоретических частот, определённых по формуле (16). Эти числа позволили сделать прогноз “назад” на месяц, квартал и полугодия 1970 года; в таблице 1 эти прогнозы приведены в столбцах, помеченных /т¢/. Видно, что соответствие теоретических и эмпирических чисел для членов спектра заметно лучше, чем в предыдущем варианте прогноза, когда моделью подразумевался неограниченный “словарь”. Однако прогнозы для самого “словаря” несколько завышены. Нужно заметить, что это явление имеет довольно глубокие корни, и его анализ невозможен в рамках данной статьи.

                                                                                                          Таблица 1     

Данные 

    за   

Объём

   N

“словарь” V(N)

               

 

прогноз   факт

   т       т¢

     Число F-разовых марок электродвигателей

 VF(N)                                    

           F=1                   F=2                   F=3    

прогноз  факт    прогноз  факт   прогноз     факт

    т      т¢               т       т¢               т        т¢

Январь

103

69,1

80,7

70

53,1

57,1

51

7,62

10,9

12

2,73

4,41

4

февраль

76

54,5

64,9

53

42,6

47.1

36

5,74

8,36

13

2,03

3,07

3

1 кварт.

27

144

15

149

104

99,4

100

10,5

24,3

24

7,00

10,1

7

2 кварт.

262

139

152

124

100

96,8

68

17,7

23,8

26

6,70

9,67

11

3 кварт.

223

123

13

120

90,3

89,0

78

15,3

21,0

23

5,70

8,38

8

4 кварт.

220

125

139

133

91,3

96,1

85

15,6

21,3

25

3,80

8,55

13

1 п/г

538

230

234

212

156

134

111

32,4

40,3

47

21,9

17,8

15

2 п/г

451

204

212

204

141

125

115

28,0

38,7

35

11,0

15,4

26

весь год

989

344

326

326

220

165

166

52,0

58,8

67

21,1

28,2

25

 

Любопытна оценка “предельного словаря” Vlim, полученного по данным 1970 года. Она равна 1127 разных видов электродвигателей; предлагаем специалистам оценить степень её правдоподобия. При этом нужно учитывать, что это объём ассортимента именно тех двигателей, которые вообще могут попасть на производство такого типа, как Новосибирский металлургический завод; кроме того, эта оценка предполагает стационарность ситуации (т.е. со временем не происходит появления совершенно новых видов, которых вообще не существовало в момент тех наблюдений, которые были взяты за основу расчётов).

Разброс этой оценки за ряд лет и полугодий для Новосибирского завода колеблется, в основном, в пределах 1000 ¸ 2000 (крайние оценки 686 ¸ 4195). Значительно больше эти числа для Карагандинского металлургического комбината - 1000 ¸ 15000 (крайние оценки - 4998 ¸ 26133). Для Западносибирского металлургического завода эти оценки примерно совпадают с оценками для Новосибирского завода; повидимому, они отражают “технологическую широту” того или иного производства.

На рис.1 представлены графические основные соотношения описанной модели в обеих её разновидностях и два эмпирических распределения. Кружочками и длинным прямоугольником изображен набор относительных частот разных марок двигателей, поступивших в ремонт на Новосибирском заводе в январе 1970 года. Жирными чёрными точками и горизонтальными линиями - такой же набор частот за весь 1970 год. Отчётливо виден эффект смещения, вызванный изменением объёма выборки - кружочки расположены заметно выше чёрных точек и линий. Точно так же взаимно расположены и теоретические прогнозы, изображённые тонкими “лесенками”; видно хорошее их соответствие эмпирическим “площадкам”. Зона частых слов приближается к кривой Рi, которая заканчивается в точке (1/z, V(z)). На том же рисунке нанесены два варианта теоретического распределения z2040,0(р) и z9000,- 2,04(р). Видно, что в среднечастотной зоне разница между ними невелика, они идут близко и параллельно. Но в зоне малых вероятностей (ниже 10-4 ) между ними наблюдаются заметные расхождения - вторая кривая явно ограничена пределом Vlim =1127, о котором шла речь выше. Для того, чтобы более наглядно представить динамику рангового распределения с изменением объёма выборки, в нижней части графика нанесена тонкая “лесенка” - прогноз частотного спектра на объём N = 20000; её нижняя “ площадка” находится на уровне относительной частоты Р = 5*10-5.

Из рис.1 отчётливо видно “взаимодействие” между теоретическим распределением вероятностей zz(р) или zz,a(р) и частотными ранговыми распределениями, наблюдаемыми на выборках конечных объёмов и от этих объёмов зависимыми. “Площадки” частотных спектров располагаются, в основном, теоретическими кривыми z... . В пределе, при бесконечном увеличении объёма, они должны слиться с этими кривыми. Но так как наши выборки весьма ограничены, возникает эффект свободного “плавания” всех характеристик эмпирических распределений.

Следует отметить, что на приведённом графике как эмпирические кривые, так и теоретические прогнозы имеют разный наклон, хотя параметра g , определяющего наклон в исходных формулах (1) и (2), в обоих вариантах моделей нет. Т.е. этот меняющийся наклон также вызван влиянием объёма выборки. Это связано с тем, что чем меньше частота, тем больше степень её смещения относительно соответствующей вероятности.

Успешный прогноз ранговых распределений возможен лишь при учёте важнейшей их статистической особенности - смещённости их в редкочастотной зоне, приводящей к расхождению наблюдаемых частот и соответствующих им теоретических распределений в генеральной совокупности. Нет никаких сомнений, что всё наблюдаемое разнообразие ранговых распределений, частотных структур и спектров имеет единую природу, а значительная часть их видимого разнообразия вызвана просто условиями наблюдения - недостаточными объёмами выборок и, как следствие, закономерными деформациями редкочастотной зоны. Описанная в настоящей работе статистическая модель обладает весьма высокой степенью универсальности - без всякой “переналадки” она работает на лингвистическом, музыкальном, биологическом материале, на информационных потоках, градостроительных планах, педагогических тестах  и многом другом; и, как показано в данной работе, на потоках “техноценологической” природы.

В заключение следует подчеркнуть, что моделирование и прогнозирование ранговых распределений - это только часть проблематики, связанной со статистическими задачами большого числа редких событий. Описанный в данной работе подход предполагает стационарность потоков событий, неизменность исходных вероятностей их появлений. Однако существуют проблемы, связанные с нестационарностью этих потоков, “разладки”, сравнения статистических характеристик, зависимости одних событий от других, в которых плохо работают традиционные статистические методы.

Литература

1. Б.Мандельброт - О рекуррентном кодировании, ограничивающем влияние помех. - В сб. “Теория передачи сообщений”. М., Иностр. лит-ра, 1957, с. 56-81.

2. Ю.К.Орлов - О связи между распределением Парето и обобщённым законом Ципфа-Мандельброта. - Сообщения АН ГССР, 83, №1, 1976, с. 57-60.

3. О.Ланге - Введение в эконометрику. М., 1964.

4. Б.И.Кудрин - Выделение и описание электрических ценозов.- Изв. высш. уч. зав., “Электромеханика”, изд. Новочеркасского политехн. ин-та, №7, 1985, с. 49-54.

5. Ю.К.Орлов - Обобщённый закон Ципфа-Мандельброта и частотные структуры информационных единиц различных уровней. - В сб. “Вычислительная лингвистика”, М., Наука, 1976, с. 179-202.

6. Частотный словарь русского языка. - Под ред. Л.Н.Засориной. - М., Русский язык, 1977, 537 с.

7. Ю.К.Орлов, Р.Я.Читашвили - О распределении частотного спектра из распределений с большим числом возможных событий. - Сообщения АН ГССР, 108, №2, 1982, с. 297-300.

8. Ю.К.Орлов, Р.Я.Читашвили - Обобщённое распределение, порождающее известные “ранговые распределения”. - Сообщения АН ГССР, 110, №2, 1983, с. 269-272.

9. Кудрин Б.И. Отбор: энергетический, естественный, информационный, документальный. Общность и специфика.- Электрификация металлургических предприятий Сибири. Вып. 5. - Томск: Изд-во ТГУ, 1981, с. 111-187.

10. Орлов Ю.К. Динамика ранговых распределений и проблемы статистики большого числа редких событий. Математическое описание ценозов и закономерности технетики. Философия и становление технетики. Вып. 1 и вып. 2 «Ценологические исследования». – Абакан: Центр системных исследований, 1996. С.79-93.

11. Электрификация металлургических предприятий Сибири. Вып. 8.  Томск: Изд-во Томск. ун-та, 1999.- 272 с.