17 Лекций по общей и прикладной ценологии
(применительно к электричеству)
Лекция 5. Негауссовость гиперболических H-распределений.
Для выживания человечества к концу этого века и благополучия уже сейчас отдельного (каждого) индивида-человека-особи необходимо вернуться к целостному видению окружающего глобализующегося мира (так ставили этот вопрос в античности).
Третья постнеклассическая научная картина мира не отменяет, а лишь дополняет целостное видение мира, которое (как думалось в своё время) вполне укладывается в представления Ньютона–Максвелла (первая механическая жёстко причинная научная картина мира), а затем – в пришедшую ей на смену вторую вероятностную научную картину мира Эйнштейна–Бора. Третья картина, как правильно заметил С. Д. Хайтун, не объясняет, почему мир ценологичен, и не объясняет даже, почему человек, живя в негауссовом мире, не видел этого.
По-прежнему грамотная часть человечества убеждена, что если и не всё можно точно и однозначно рассчитать (например, по Ому и Кирхгофу), то, используя среднее и дисперсию математической статистики, как в теории надёжности и страхования, можно получить вполне приемлемый результат. И если ваш вес 70 кг, и вы 10 мин шагаете, то в среднем, по Гауссу, вы расходуете 30 ккал, а если работаете один час за письменным столом – 110 ккал. "Каждый уверен в справедливости нормального закона: экспериментаторы потому, что это математическая теорема, математики – потому, что они думают, что это экспериментальный факт" (Анри Пуанкаре, 1912).
Гауссово (the Gauss distributions) нормальное распределение p(x) со средним μ и вычислимой σ ошибкой определяется (рис. 1) функцией:
exp. (1)
exp; μ=0; σ2=0,5; р(х)=0,564;
Рис. 1. Нормальное (гауссово) распределение.
Вероятностное распределение называют гауссовым, если для него выполняется центральная предельная теорема. Статистическое распределение называют гауссовым, если зависимость его среднего и дисперсии от объёма выборки несущественна в рамках данной конкретной задачи.
Но мы живём в мире, где "средней температурой по больнице" нельзя руководствоваться. Как нельзя, опираясь на паспорт, залить в бак машины расчётное количество горючего: достаточно попасть в пару пробок или ехать разбитой дорогой, чтобы "от Гаусса" ничего не осталось (ср. увеличение расхода электроэнергии холодильником при рождении в семье ребёнка). Среднее не характеризует большинство процессов, явлений, фактов. Есть Пушкин и его окружение, Кант и масса философов раздробленной в то время Германии. Н. Винер обобщил: "Вполне вероятно, что 95 % оригинальных научных работ принадлежит меньше чем 5 % профессиональных учёных, но большая часть из них вообще не была бы написана, если бы 95 % учёных не содействовали созданию общего, достаточно высокого уровня науки". Невозможно заранее выделить, кто из научного сообщества окажется высокопродуктивным в данной области.
Первыми учёными, формализовавшими интуитивные убеждения об обязательности неравенства в обществе (в отличие от утопий Т. Мора) – о неизбежности расслоения по доходам, стали экономисты (Бальби, 1830; Парето, 1897). Известен так называемый закон Парето: социальная устойчивость общества определяется разрывом в доходах 10 % самых богатых и 10 % самых бедных. В европейских странах этот децильный коэффициент d считается безопасным на уровне 8–10. Для москвичей, кстати, по данным Мосгорстата, он сегодня не 10, а 40; по стране – 15.
В современных обозначениях область значений распределений Парето: 1£x<+∞; параметр формы c>0; плотность вероятности cx–c–1; математическое ожидание c(c–1), c>1; дисперсия [c/(c–2)]–[c/(c–1)]2, c>2 (рис. 2). Гиперболический вид плотности вероятности наглядно отличает распределение Парето от нормального. Распределение Парето есть ранговое представление такого неравенства, широко известное в децильной форме: r=[x]=1, 2, …, 9, 10, когда все элементы объекта (ценоза) разбиты по какому-либо параметру. По Парето распределены удельные расходы по основным видам продукции генеральной совокупности металлургических предприятий страны за 1979–1990 гг. (см. сайт kudrindi.ru), но децильный коэффициент также не выдержан. По электропотреблению для 72 регионов России (как электроценоза) децильный коэффициент за 1999 г. составил 30,2, для 400 крупнейших компаний России (как бизнесценоза) d=64,1 % (2006), что явно нарушает закон Парето (правда, с 2004 г. положение медленно выправляется).
Рис. 2. Распределение Парето.
Яблонский вводит асимптотику и представляет закон Ципфа–Парето в виде:
(2)
где
Для распределения Парето при описании распределения доходов характерен показатель γ=1,5. В астрономии известно распределение Хольцмарка для интенсивности гравитационного поля звёздных систем, которое имеет вид устойчивого негауссова распределения с характеристическим показателем также γ=1,5. Яблонский делает вывод: "Распределение Парето может рассматриваться как эмпирический аналог асимптотики теоретического распределения Хольцмарка; …установленная связь между законами Ципфа–Парето и устойчивыми негауссовыми распределениями … приводит к определённым содержательным выводам; …отсутствие конечных моментов … указывает на необходимость критического отношения к прогнозированию по методу наименьших квадратов". Отметим, что В. Феллер, говоря о распределениях в экономике и соображениях Мандельброта для доказательства подчинённости устойчивым распределениям, называет их распределениями Леви–Парето.
Биологи начали изучать гиперболические зависимости чуть позже. Известны работы Watson (1859), давшего таблицу площадей и числа видов цветущих растений в Англии, и Wallace (1910) – по умеренному и тропическому климату; Kirby (1904), классифицировавшего 805 видов по 209 родам. Yule (1924), развивая представления J. C. Willis (1922) о hollow curve, объяснил закономерность тем, что шансы образования новых видов из других внутри одного рода в любой определённый промежуток времени (час, год, столетие) постоянны для всех времён. Он подчёркивает, что имеется почти прямая линия отношения логарифма числа видов, образующих один род, к логарифму числа родов.
Была показана применимость гиперболической модели для исследования структуры биоценозов (соотношения редко и часто встречающихся видов), и доказана устойчивость структуры вне зависимости от времени и пространства, от рассматриваемого семейства. Подтверждающая статистика обширна; отметим, что моделью не различимы, например, распределения птиц Приобья по длине крыла, млекопитающихся Туркмении по размерам, высоковольтных кабелей Запсиба по длине. Исследуются виды по числу особей, представляющих зоологический и ботанический виды в малых и больших районах; соотношение видов в высших группах, их распределение по классификации; разнообразие как измеримая характеристика популяции; распределение частот паразитов в организмах хозяев (или на них); проблемы внутривидового соревнования и статистической экологии.
С. В. Williams рассматривает неопубликованные тезисы Stanley Garthside (1928), сделавшего вывод: "несмотря на большое количество особей, которым характеризуются некоторые виды, большое количество видов представлено сравнительно малой численностью", и пишет (1964), что если n – число особей какого-либо вида (численность популяции) и данные значения представить логарифмами, то между n1=1 (ноева каста) и ni кривая близка к прямой (i – численность популяции каждого вида, образующего касту-группу видов одинаковой численности). Отношение количества видов к числу особей, численность которых одинакова для всей выделенной группы видов (касты), выражается равенством:
S=с/nm, (3)
где m и с – константы (очевидно, что (3) отличается от (2) только обозначениями). Прямолинейное отношение бывает, когда logS+mlogn=const, которая представляет гиперболу, если m=1.
Но основная модель, принятая Williams – логарифмический ряд Фишера (1943), в которой x – константа, меньшая единицы; n1=αx; число видов S=α(–log(1–x)) и число особей U=αx(1–x) (при x=1 ряд расходится). Фишер заметил ограничение 10 % на число особей для редких видов. Я говорю о 5–10 % особей, образующих ноеву касту (это 40–60 % видов), и 5–10 % числа видов – касту саранчёвую (40–60 % особей). Williams, отсылая к первоисточникам XIX в., где качественно описывается явление, многократно подчёркивает, что половина видов – редкие и, будучи уверенным в гиперболическом характере зависимости (3), приводит результат одной из своих выборок (рис. 3), имея собственную статистику (по Англии) числа насекомых в среднем за год – 3902 особи и 176 видов (1933–1936 гг.). Гипербола (см. рис. 3) удивительно точно соответствует 2,5 тыс. выборок электрических машин и трансформаторов, установленных в промышленности и охватывающих свыше 2 млн. штук-особей.
Рис. 3. Распределение числа насекомых, попавших в световую ловушку (Англия, 1933).
Первое статистическое исследование информценозов на основе массива публикаций провёл А. Лотка (1926), подсчитавший учёных, написавших одну n1 (ноева каста), две, три статьи и т. д. в журнале "Chemical Abstracts" за 1907–1916 гг., и получивший для числа учёных (видов) ni, опубликовавших i статей (особей), зависимость:
ni=n1/ i2; i=1, 2, …, imах, (4)
где imах – максимальная продуктивность учёного (удивительно, но статьи Эйлера, которых он написал около 1000, должны быть, согласно моей терминологии, отнесены к саранчёвой касте: и Эйлер остаётся видом (личностью) и в Н-теории, и в вечности).
Если L – общее число учёных-авторов (в нашей терминологии – словарь S) данного массива (текст Т), то вероятность числа одностатейников n1: р1= n1/L=0,6. После преобразования (деления обеих частей формулы на общее число авторов L(S)) получим частотное распределение
рi=0,6/i2 (5)
Это и есть закон Лотки (или закон обратных квадратов). Инвариантность закона Лотки (5) на множестве научных областей позволяет говорить о нём как об основной наукометрической закономерности распределения научной продуктивности в определённых (выделенных) информценозах. Но в общем случае показатель степени может быть не равен двум:
ni=n1/ i1+α=n1/iγ , (6)
где α – характеристический показатель (γ=1+α; 0≤α<1).
Соотношение (6) называют гиперболическим негауссовым распределением, говоря, что распределение научной продуктивности в общем виде определяется n1, α, imах (закон "квадратного корня" imах= в технике статистически не подтверждается).
Обратимся к закону Ципфа как наиболее известному закону негауссовой статистики. "Математики верят в закон Ципфа потому, что лингвисты постановили считать его лингвистическим законом, а лингвисты со своей стороны верят в него потому, что математики постановили считать его математическим законом" (Густав Хердан, 1962). С. Д. Хайтун различает термины ципфовое распределение [Zipfian distribution] и ципфово распределение [the Zipf distribution]. Ципфовое распределение, не являющееся распределением Ципфа, отклоняется от него в области малых значений переменной. Во многих случаях это отклонение является следствием процедуры формирования выборки.
В большинстве публикаций и в интернете на рассматриваемую тему говорят о первом законе Ципфа, где частота F встречаемости слова в тексте, достаточно цельном, примерно обратно пропорциональна его рангу r в частотном распределении "ранг–частота" (в моей терминологии – ранговидовое):
F=cr-1; c=Fr, (7)
где с – константа.
В (7) ранг r=1 присваивается наиболее часто встречающемуся слову, r=2 – следующему по встречаемости. Вот первые пять рангов из Лермонтовской энциклопедии: r=1 – слово-союз "И", F1=14021; r=2 – местоимение "Я", F2=10976; r=3 – предлог "В", F3=8636; r=4 – частица "НЕ", F4=7664; r=5 – местоимение "ОН", F5=7018. Элементарное попарное умножение приведённых цифр, по (7), указывает на значительное отклонение от закона Ципфа.
Поэтому, приступая к объяснению содержания феномена негауссовости и имея в виду социальные статистические распределения индивидов по доходам, учёных по числу публикаций и др. распределение Ципфа записываем в виде
n(x)=C/x, 0<x0≤x≤J, 0<α<∞. (8)
Второй закон Ципфа "количество–частота": когда по оси х откладывают частоту вхождения слова, а по оси у – количество слов в данной частоте. Это, в нашей терминологии, видовое распределение, и правильнее говорить не о частоте, а о численности популяции (по оси х), и это не ранг; по оси у – о количестве видов, популяции которых имеют одинаковую численность. Тогда при i=[x]=1 редкие уникальные виды образуют ноеву касту (выражение (8) в общем виде применимо для обоих законов).
Как отметил Мандельброт, теория частот слов возникла на грани двух научных направлений – теории информации и психолингвистики. Теория информации сформировалась окончательно в двух статьях Клода Шеннона, опубликованных в 1948 г. Её основу составляет своеобразное сочетание понятий алгоритм (первой научной картины мира) и случайность (второй) – древнейших и фундаментальнейших научных идей. Эти понятия проникли вначале в статистическую механику (ок. 1900 г.), а затем в квантовую механику (ок. 1925 г.). Работа К. Шеннона 1948 г. дала возможность описать структуру языка алгоритмами кодирования и учесть непредсказуемость при помощи марковской модели, которая родилась у Маркова при анализе "Евгения Онегина". Шеннону принадлежит заслуга интерпретации энтропии как "меры количества информации". Им была предложена также идея описания структуры системы с использованием степени её беспорядка, измеряемой функцией вероятностей различных событий.
Частóты отдельных букв в комбинациях, составленных из последовательностей букв, давно приняли во внимание криптографы и телеграфисты. За десятилетия до обоснования теории информации Самюэль Морзе знал, что возможно использование простейшей комбинации точек и тире для обозначения наиболее частых букв, а криптографы ещё за столетия до этого учитывали частоту букв. С точки зрения статистического моделирования, отдельные буквы слишком малы, чтобы быть существенными единицами; знание частоты распределения букв не облегчает работу с более длинными кусками текста. Слова удобны для теоретиков. Несомненно, понимание текста опирается на объекты, длина которых приблизительно равна длине слова, и имеются веские причины, чтобы начать с изучения слов, которые можно определить как последовательности букв между двумя ближайшими пробелами (первым исследователем в этой области был стенографист французского парламента Ж.-Б. Эступ, 1916).
Возьмём большой кусок текста одного автора и проранжируем все слова в порядке убывания частоты их появления (получим ранговидовое распределение). Слово ранга 1 чаще всего встречается в последовательности букв, заключённых между двумя ближайшими пробелами, в английском языке таким словом является the, но в некоторых случаях им может быть I. Слово ранга 2 чаще всего встречается в тексте, если исключить словá ранга 1. Слово ранга 3 чаще всего встречается, если исключить словá ранга 1 и 2 и так далее. По Мандельброту, существуют редкие слова, которые в данном куске текста встречаются один или два раза. Их ранг не определён и даже несуществен, и, таким образом, их можно ранжировать произвольно (для техники вообще и для электрики в частности это не так).
Б. Мандельброт называет два приближения, принимаемые Ципфом:
1) для выборки длиной К и i(r, k), где r – ранг, функция от log r представляет прямую линию с угловым коэффициентом -1;
2) закон справедлив для любого текста и любого языка. При этом он делает два замечания: 1) некоторые наиболее часто повторяющиеся слова не удовлетворяют этому закону; фактически в таких языках как французский определение "слова" неясно в случае сокращённых форм, например, как l’, принадлежащих к наиболее часто повторяющимся, подобно the в английском, и в русском, так что распределение наиболее частых слов недетерминированно; 2) найденные графики log i(r, k) не параллельны, и закон частот слов зависит от того, что называется "богатством словарного запаса" субъекта.
Обобщая, приходим к описанию ранговой дифференциальной формы распределением Мандельброта (или законом Ципфа–Мандельброта), исправляющего эффект рангового искажения (рис. 4):
ir=А/(r+B)1/2, (9)
где (n1/α)1/α=А; ni/αi=В. При imax→∞ (а следовательно В→0) приходим к гиперболическому ранговому распределению Ципфа.
Рис. 4. Закон Ципфа и Мандельброта в логарифмическом масштабе.
Возвращаясь к закону Лотки и принимая α=1, выражение (9) записываем в виде: ir= n1(r+ α), где α=n1/imах. При imах→∞ и это выражение переходит в закон Ципфа.
Ю. Орлов, независимо от значения параметра α в (8) и (9), утверждает, что существует большая группа одноразовых слов (ноева каста), что позволяет записать:
pn=1/N, (10)
где N – объём выборки (длина текста Т). Выборка, частотная структура которой подчинена обобщённому закону, определяется как ципфовский объём (представление о такой величине введено Ципфом под названием "оптимальный объём").
Модельный текст Орлова предполагает неограниченный статистически однородный текст: 1) вероятность употребления каждого слова не зависит от позиции этого слова и ранее использованных слов (разные распределения приводят к одинаковым математическим ожиданиям числа редко встречающихся слов); 2) на выборке любого объёма из текста имеются одноразовые слова (словарь текста бесконечен); 3) на выборках фиксированного объёма Z из этого текста выполняется обобщённый закон Ципфа–Мандельброта. При изменении объёма частóты частых (саранчёвых) слов останутся неизменными. Но последний член в эмпирическом наборе частот будет иным. Значит, если N<Z, набор будет иметь меньше членов, чем набор на объёме Ципфа; и наоборот, если N>Z. Орлов делает важный вывод: частотная структура модельного текста не может быть стабильной – она есть функция объёма выборки (при N<Z число одноразовых слов – больше половины словарного запаса).
"Таким образом, чем больше величина Z, тем быстрее с ростом выборки нарастает словарь*. Это значит, что не только от значения α, но и от значения объёма Ципфа зависит относительная насыщенность словаря текста, поскольку в пределах одного языка p1 и α можно считать вполне приемлемой мерой лексической концентрации". Целесообразность принятия гипотезы о "ципфовском" спектре защищается Орловым и на статистике электрики (ремонтируемые электродвигатели по месяцам и годам на Новосибирском металлургическом заводе).
Шрейдер, говоря о Ю. К. Орлове и обсуждая мои результаты, констатировал, что тот первым обратил внимание на значимость более тонких закономерностей ранговых распределений (наличие большого количества слов единичной встречаемости – ноевой касты) и на то, что "качество выполнения закона Ципфа для данного текста определяется не его объёмом, но свойством быть целостным текстом. Последнее уже явно не согласуется с вероятностной парадигмой, требующей, чтобы увеличение выборки влекло за собой улучшение соответствия между наблюдаемыми частотами и теоретически предсказанными вероятностями событий". Во всех случаях важно предположение о константности этих параметров для одного автора, одной эпохи, литературного направления, независимости значений этих параметров от объёма текста. Стиль текста можно охарактеризовать с помощью ограниченного числа параметров, к которым относятся длина предложения, соотношение частей речи, некоторые "конструкционные" элементы текста: артикли, предлоги, союзы, частицы. Речь, в сущности, идёт о характеристиках синтаксической структуры текста. Считая словоформой произвольную последовательность кириллических букв, В. А. Капустин и А. А. Ямсен исследовали ранговую статистику на монотематической коллекции русскоязычных текстов объёмом словоупотреблений около 68 млн (после очистки словоформ получено u=56.856.781 словоупотреблений – длина текста Т; объём V=S словаря – 351457 слов). Установлено заметное отличие от Ципфа (7): относительное отклонение в логарифмическом масштабе составило в среднем около 10 %, заметно превысив 50 % для точки с наивысшим учтённым рангом (292277). Была осуществлена подгонка по всем измеренным точкам двумя зависимостями с отклонением до 5 %:
первая с α=k1=0,76 для рангов до 4490;
вторая с α=1,76 – для бóльших рангов (переход от одной зависимости к другой лежит в области рангов 103–104).
Параметры видовых распределений различных ценозов.
Наименование ценоза |
S |
U |
A |
γ |
100σ |
|
d |
"Комсомольская правда", 18.12.1975 |
2966 |
7710 |
0,377 |
1,92 |
16,16 |
1,52 |
2,60 |
"Кузнецкий рабочий", 30.09.1976 |
3404 |
9165 |
ряд утерян |
2,69 |
|||
"Евгений Онегин" |
4596 |
20732 |
0,353 |
1,97 |
13,54 |
1,78 |
4,51 |
Карметкомбинат, май, 1976 |
1968 |
24721 |
0,182 |
1,80 |
4,92 |
2,91 |
12,56 |
Элементы, по Ферсману |
83 |
беск. |
0,507 |
1,50 |
0,91 |
1,56 |
– |
Изотопы, по Чердынцеву |
287 |
беск. |
0,349 |
1,93 |
14,05 |
1,54 |
– |
Творчество Ботвинника |
153 |
831 |
0,327 |
1,14 |
1,09 |
2,23 |
5,43 |
"Мастер и Маргарита" |
401 |
2089 |
0,501 |
не подсчитывали |
5,21 |
||
=Σ()ln() – показатель разнообразия Шеннона; d=U/S – повторяемость. |
Измеренные значения (как ранги, так и частоты) изменяются в области подгонки на шесть порядков. Это делает более или менее бессмысленным минимизацию суммы квадратов отклонений теоретической кривой от измеренных точек, поскольку для бóльших рангов (и, соответственно, малых частот) сами частоты (и, соответственно, отклонения теоретической кривой от измеренных точек) на шесть порядков отличаются от значений (и отклонений) в области малых рангов (высоких частот). Эти расхождения не следует относить на счёт арифметических ошибок в подсчётах (сравним, например, данные таблицы, а также исследования повести А. С. Пушкина "Капитанская дочка", в которых Ю. К. Орлов и Г. Йоссельсон раздельно получили соответственно Т(u), равное 28621 и 29345; V(S) – 4783 и 4900).
Понятие слова как элемента текста достаточно расплывчато. Первичным понятием является целостный текст (коллектив учёных), а индивидуальные слова в этом тексте (авторы) не могут быть определены без известной доли произвола. Индивидуальностью обладает текст, а не слово − в противовес классической вероятностной концепции, считающей, что первоначальным понятием является как раз слово, и можно говорить о "поведении" слова в разных текстах. Индивидуальные характеристики слова (вообще, индивидуального элемента) принципиально имеют некоторую неопределённость.
Показанная общность гиперболических моделей для социальной, биологической, информационной реальностей говорит о наличии единого структурного механизма формализования ценозов как целостности. Применительно к технической реальности я впервые в мире говорю не только об едином структурном механизме формирования всего технического (технетики) как целостности, но и направленном необратимом векторе техноэволюции, определяемом законом информационного отбора. Общность ставит вопрос о фундаментальности явления, о необходимости привлечения математических представлений, опирающихся на постнеклассическую третью научную картину мира. Соответствующий аппарат как негауссова математика разработан академиками Хинчиным, Колмогоровым, Гнеденко в 30–40-е годы ХХ в.
Гауссовая математическая статистика моментов базируется на допущении независимости моментов статистического распределения от объёма выборки. В общем случае выборки мыслятся как конечные объёмы. Для вероятностных распределений пределы применимости аппарата моментов определяются центральной предельной теоремой теории вероятностей, которая говорит о том, какую форму имеет распределение выборочного среднего 1/х. Если для распределения f(x) существуют конечные среднее и дисперсия, то с ростом объёма выборки распределение приобретает форму нормального распределения Гаусса (см. рис. 1).
Вероятностные распределения, для которых не выполняется центральная предельная теорема, называют негауссовыми. Для них первые два момента (математическое ожидание и дисперсия) оказываются бесконечными. Увеличение выборки, каждый раз конечной, не повышает точность (достоверность), а снижает её. Существует предельная теорема, принадлежащая Б. В. Гнеденко (1939) и В. Дёблину (1940), которая гласит: для сходимости распределений нормированных сумм одинаково распределённых независимых случайных величин к устойчивым распределениям, отличным от нормального, необходимо и достаточно, чтобы при имело место
~~,
.
Здесь – функции, медленно меняющиеся в смысле Карамата, т. е. такие, что для всех .
Устойчивые распределения, можно сказать, не выражаются в явном виде, что и определяет сложность их использования, которое возможно лишь через характеристические функции. В явном виде наиболее известны три устойчивых распределения: Гаусса – при α=2 и показателе асимметрии β=0; распределение, соответствующее α=0,5, β=1; Коши – при α=1, β=0, асимптотика которого при х→∞ р(х)А/х1,5.
Распределение с α=0,5 и β=1 имеет вид
p(x)=
При х→∞ p(x)= что можно записать в виде закона Ципфа–Парето: ρ(х)=А/х1+α=А/х1,5, А=1/, α=0,5.
Можно отметить существенные свойства устойчивых распределений.
1. Все устойчивые законы одновершинны.
2. Для каждого устойчивого закона V(x), за исключением нормального и единичного, существуют такие числа α (0<α<2) и с>0, что
lim xα{1–V(x)+V(-x)}=c.
x→+∞
Совокупность всех функций распределения F(x), притягивающихся к V(x), называют область притяжения закона V(x). Все устойчивые законы распределения (и только они) имеют области притяжения. Все устойчивые законы, за исключением несобственных, непрерывны и имеют непрерывные производные всех порядков.
3. Только нормальный закон среди всех устойчивых законов имеет конечную дисперсию. При 1<α<2 устойчивые законы имеют математическое ожидание, при 0≤α≤1 устойчивые законы не имеют ни дисперсии, ни математического ожидания.
Шрейдер постулирует, что минимальное значение гиперболической функции (2), т. е. высота последней ступеньки, равна единице (закон Парето–Ципфа этот вопрос не рассматривает (рис. 5)). Тогда вопрос сводится к тому, какое значение принимает на правом конце интервала m(1) гипербола для объёма словаря V и длины текста Т, т. е. каково значение Fmin=β, где β=Fmах/V. Тогда
Т=βVlnV. (13)
Из самых общих соображений 1≥β≥1/2 (рис. 6). Задаваясь неравенствами, определяющими "размер" ранга и требуя равновеликости m(1) и площади под последним фрагментом гиперболы, формируют некоторое важное условие "правильности" текста: текст не только должен содержать слова с частотой 1, но доля таких слов в объёме всего словаря V строго определена:
, (14)
а это 5–10 % объёма текста Т=U.
Присутствие слов с частотой 1 в любом тексте является важным и a рriori не очевидным свойством текстов, которое в рамках традиционной вероятностной концепции может быть объяснено только с помощью довольно искусственного, формулируемого ad hoc, требования на доверительные интервалы.
Все рассуждения, относящиеся к замене закона Ципфа в его простейшей форме (2) ступенчатой функцией, могут быть аналогично проведены и в случае, когда α≠1, причём оказывается, что β является функцией α. Параметр β (при фиксированном β) определяет в коллективе долю таких участников, которые в точности удовлетворяют минимальному "цензу", позволяющему им стать членами коллектива.
Всеобщность Н-запретов, взрыв исследований и публикаций по хаосу, самоорганизации, фрактальности, с одной стороны, а с другой, экономические и социальные проблемы глобализации, компьютеризация и интернетизация всех сфер общественной и частной жизни, требуют вразумительного объяснения, что есть окружающее, как в нём выжить, каково будущее и риски в нём. Не ставя целью предложить ответы, отметим несовершенство моделей Парето-Лотки-Виллиса-Ципфа-Мандельброта. Лермонтов употребил союз "И" 14091 раз; а если бы на 5 тыс. меньше или больше – стало бы лучше или хуже? Что такое "хвост" гиперболы и его физическая сущность? Разбору этого будет посвящена следующая лекция.
Существует мнение, что в человекомасштабных размерах основные законы бытия – открыты. Например, "Российский химический журнал" (2007. № 3) отметил, что создание общей теории химии в основном завершено, максимум в развитии пройден, и очень мала вероятность открытия новых законов, которые могли бы существенно изменить наши представления. Ситуация близка к положению в физике в начале прошлого века, когда "добрались" до атома; в биологии – до гена; в химии – до системы элементов Менделеева. На этом этапе развития науки и общества оказалось необходимым принять вероятностные представления второй картины мира.
Напомним, что именно время открытия основных законов и договорённость о единицах электричества дают основания назвать ХIХ век – веком электротехники. Сошлёмся на журнал "Электричество":
"1888 год не принёс ничего выдающегося в области теории электричества… Можно, повидимому, сказать, что в истории электротехники уже кончился первый период блестящих открытий, как различных приборов, так и новых процессов применений электричества".
А сегодня стало неизбежным осознание третьей научной картины мира.
Строгое математическое объяснение гиперболического распределения и экспериментальное подтверждение Н-зависимости в мёртвой и живой природе, технической, информационной, социальной реальностях позволяют говорить, во-первых, о фундаментальности открытого явления; во-вторых, об отсутствии объяснения самого факта неприменимости математического ожидания (среднего), удовлетворяющего научное сообщество. К сожалению, крайне медленно восприятие мировоззрения третьей научной картины мира властью, наукой, бизнесом и, как следствие – продолжающееся принятие решений, которые не учитывают ценологические ограничения.
Контрольные вопросы
1. Приведите из электромеханики примеры действия нормального распределения, поясните понятие «инженерная ошибка», оцените вероятность попадания (со смертельным исходом) под напряжение.
2. Охарактеризуйте гиперболические распределения на примере биоценозов и назовите ноевы и саранчёвые ограничения.
3. Поясните на конкретном примере технического текста (объёмом 1600 знаков) первый закон Ципфа.
4. На примере законченной газетной статьи (до 2000 знаков) поясните второй закон Ципфа.
5. Критически рассмотрите предложения Мандельброта по исправлению ципфовских построений.
6. Разберите подход Шрейдера, показавшего завершённость гиперболы для видового распределения при у=1, и сравните его ограничения с ограничениями, предлагаемыми для биоценозов.
7. Назовите существенные свойства устойчивых бесконечно делимых негауссовых распределений.
Б. И. Кудрин