Статистические исследования коммуникационных систем в обществе

С. А. Иванов

 

Понимание предметности коммуникационных систем пришло в конце 19 века с появлением первых мировых систем передачи данных, в первую очередь телеграфа и телефона. Первые математические модели для описания работы коммуникационной системы были предложены Эрлангом при исследовании функционирования первой автоматической телефонной станции в Нью-Йорке в 1905 г.

Исследование коммуникационных систем потребовало новых подходов для их анализа. Эти системы обладают памятью, в них накапливается информация, являющаяся основным объектом коммуникации между членами сообщества, которая влияет на основные свойства процессов передачи документальной информации.

В информатике выделяют два основных типа каналов коммуникации:

·        формальные, обмен информации через них происходит посредством документов;

·        неформальные, обмен информации происходит в результате межличностного общения.

Для построения теории коммуникационных систем важным фактором является принципиальное качество систем, создаваемые и хранящиеся документы в системе связаны между собой системой ссылок на предыдущие созданные документы.

С точки зрения математического описания процессов создания документов, между последовательными событиями появления новых документов существуют причинно-следственные связи, или эти события не являются независимыми. Для описания случайных процессов зависимых событий в математике находит широкое применение теория случайных марковских процессов. Эта теория были предложена русским математиком А. А. Марковым для предсказания последовательности букв в литературном тексте.

Наибольшее прикладное значение для моделирования процессов в области естественных наук получила ветвь этой теории – теория случайных ветвящихся процессов. Основоположниками этой теории стали английские математик Г. Юл и социолог Ф. Гальтон, российский математик А. Н. Колмогоров. Эту теорию применяют для описания каскадов космических ливней, размножения нейтронов в ядерных реакциях, для построения математической теории эволюции биологических видов.

Изучением ветвящихся процессов применительно к человеческому обществу занимался Ф. Гальтон. В первой половине 19 в. было замечено следующее интересное явление: некоторые знаменитые аристократические и простые фамилии постепенно исчезали. Объяснение этого явления было дано на основании изучения генеалогических древа известных семейств, в каждом поколении имеется отличная от нуля вероятность рождения только девочек. Вероятностное описание такого генеалогического древа с точки зрения теории случайных ветвящихся процессов было дано в классической работе Ф. Гальтона и Г. Ватсона [1].

Статистическими закономерностями коммуникационной системы, состоящей из городов, соединённых транспортной системой, занимался американский демограф Георг Ципф [2]. Много усилий предпринято для нахождения устойчивых закономерностей такой универсальной коммуникационной системы как естественный язык общения людей.

Результаты исследований перечисленных выше коммуникационных систем легли в основу математической теории коммуникационных процессов в науке.

Первой математической работой, посвящённой статистическому исследованию системы биологической классификации живого мира К. Линнея, является широко цитируемая на протяжении всего ХХ века статья английского математика Г. Юла (G. Yule) [3], основанием для использования этой работы является то, что происходит обмен биологическим материалом между индивидуумами, в результате чего возникают новые виды.

В этой пионерной работе на основе статистического анализа заполнения в бинарной классификационной схеме различными биологическими видами (genus) родов (genera), входящих в семейство родов на нижних уровнях классификации, Г. Юл предложил первую математическую теорию эволюции видов, основываясь на предположениях Ч. Дарвина. Эта работа оказала влияние на многих учёных, занимающихся проблемами эволюции в биологии, а также на ряд других областей науки, в частности, на проблемы теоретической информатики.

В начале 20 в. ещё не было открыты гены, материальные носители наследственности, не описаны законы мутации, являющиеся основным механизмом образования новых видов, но пионерние идеи Г. Юла уже тогда вызвали широкий отклик в научных кругах.

Основные положения математической модели эволюции видов Г. Юла. Случайный процесс видообразования, предложенный Г. Юлом, является одним из видов случайных ветвящихся процессов.

Возникновение новых видов в отдельном роде происходит с постоянной относительной скоростью при условии следующих предположений:

·        виды достаточно быстро достигают своей численности, определяемой окружающей средой, после чего увеличения численности уже не происходит;

·        различные виды слабо влияют друг на друга.

Одной из основных догадок Г. Юла стало предположение, что процессы мутаций происходят на разных уровнях эволюции по одинаковым законам, но с различной относительной скоростью. Относительные скорости мутаций, ответственные за образование новых видов, примерно одинаковые величины во всех родах, входящих в одно семейство родов.

Образование новых родов происходит также с постоянной  относительной скоростью, но её величина меньше, поскольку для образования новых родов требуются более значимые мутации, вызывающие более глубокие изменения в живых организмах.

Дифференциальное уравнение роста числа родов (родообразования) в семействе родов с постоянной относительной скоростью имеет вид:

   или    ,

где   относительная скорость родообразования.

Увеличение во времени числа родов в одном семействе родов происходит по экспоненциальной зависимости .

После возникновения нового рода (с входящим в него одним видом) в нём происходит возникновение новых видов с постоянной для всех родов в семействе родов относительной скоростью

 или ,

где   относительная скорость видообразования.

Число видов в отдельном роде будет расти по экспоненциальной зависимости , , с момента  – возникновения нового рода (первого вида в этом роде).

На рис. 1 показано частотное распределение родов по числу видов для семейства жуков Chrysomelida (627 родов, 9479 видов, 215 родов с одним видом) в двойных логарифмических координатах, по оси абсцисс – число видов в одном роде, по оси ординат – число родов с таким числом видов .

Представленные данные аппроксимируются в двойных логарифмических координатах прямой линией

, ,

где   число видов в одном роде;   число родов с одним видом;   число родов, в каждом из которых имеется ровно  видов;   показатель степени распределения.

На рис. 2 приведено ранговое распределение размеров родов того же семейства Chrysommelida, упорядоченных по мере уменьшения входящих в них видов. Полученным элементам вариационного статистического ряда присваивается порядковый номер  – ранг, начиная с первого (). По оси абсцисс отложены ранги родов, начиная с первого, а по оси ординат их размеры, число входящих в них видов. График рангового распределения родов в двойных логарифмических координатах аппроксимируется прямой линией:

, ,

где  – ранг рода;  число видов в роде 1-го ранга; * – число видов в роде r-го ранга;  – показатель степени распределения.

Отсутствие на сегодняшний день достоверных данных о моментах возникновения новых родов и входящих в них видов не позволяет определить непосредственно относительные скорости видо- и родо- образования.

 

Рис. 1. Частотное распределение родов по числу видов Chrysomelida

Рис. 2. Ранговое распределение родов по числу видов Chrysomelida

 

Г. Юл впервые установил, что в многоуровневой системе классификации биологических видов на нижних уровнях иерархии заполнение родов различными видами в одном семействе родов существенно неравномерно, так от 30 до 45 % родов включают в себя только по одному виду.

Математическая модель эволюции видов, предложенная Г. Юлом, легла в основу многих математических моделей, описывающих процессы возникновения и роста генеологических деревьев.

Второе классическое исследование коммуникационной системы принадлежит Г. Ципфу, он одним из первых обратил внимание на устойчивые статистические закономерности распределения размеров городов USA, объединённых единой транспортной сетью, и построил ранговое распределение городов страны по числу жителей.

На рис. 3 показано ранговое распределение городов страны по числу жителей в двойных логарифмических координатах (оригинальный рисунок из монографии Г. Ципфа). По оси абсцисс – ранги городов в порядке убывания численности жителей, по оси ординат – число жителей в городе,  тыс. человек (17901930 гг.).

Несмотря на приблизительность рисунка, построенного в докомпьютерную эпоху, можно отчётливо наблюдать, как со временем растёт коммуникационная системы страны, что отражается в пропорциональном увеличении как числа городов, так и их размеров.

Можно отметить, что численность жителей в некоторых городах может расти с большей скоростью, что приведёт к изменениям в ранговой последовательности вариационного ряда городов, но общий ансамбль при этом сохраняется.

 

Рис. 3. Ранговое распределение городов USA по числу жителей

 

Ранговые распределения городов для разных лет аппроксимируются гиперболической функцией:

,

где   число жителей в городе 1-го ранга;   число жителей в городе r-ранга;   показатель степени распределения.

За это время увеличилось как число городов (с числом жителей более 2,5 тыс. человек), так и их размеры, но коммуникационная система сохранила свои статистические закономерности. Возможно, что некоторые наиболее старые города изменили свои ранги с течением времени, но форма распределения сохранилась на всём временнóм интервале, величина  на протяжении полутора веков варьирует в пределах .

Представленные Г. Ципфом данные позволили построить динамику увеличения числа городов (с числом жителей более 2,5 тыс. человек) по движению графиков вдоль оси абсцисс на интервале 17901930 гг.:

,

где , время удвоения числа городов составляет .

Данные позволили также построить также динамику роста сáмого большого города первого ранга на интервале  1790-1930 гг. по движению графиков вдоль оси ординат

,

где , время удвоения числа жителей .

На рис. 4 показано увеличение числа городов (прямая 1) и числа жителей города первого ранга (прямая 2).

 

 

Рис. 4. Увеличение числа городов (1) и жителей в городе первого ранга (2)

 

Рис. 5. Ранговое распределение языков по семействам

 

Эти графики позволяют установить связь между гиперболическими ранговыми распределениями и экспоненциальным увеличением как числа элементов коммуникационной системы (городами), так и их размерами (числом жителей).

Реальная транспортная коммуникационная система обладает статистически устойчивыми закономерностями, выраженными в сохранении формы распределения на длительных интервалах времени.

Естественные языки являются наиболее универсальным средством коммуникации в человеческом обществе. Им присущи такие свойства коммуникационных систем как гиперболические ранговые распределения.

Человечество для передачи сообщений (коммуникации) использует естественный язык. Первоначально в науке для общения учёных использовалась латынь, в настоящее время основным языком науки стал английский язык.

Современные естественные языки стали результатом социального эволюционного процесса, аналогичного процессу биологической эволюции живого мира, который описал Ч. Дарвин.

В науке большинство учёных поддерживает генетическую классификацию языков, между которыми, возможно, имеется прямая или опосредованная связь.

Эти закономерности подтверждаются на основе статистического анализа распределений числа естественных языков по вхождению в различные семейства языков. С. Вихтман [4] приводит список 6826 естественных языков, объединённых 129 различных семейств. Ранговое распределение естественных языков, входящих в различные семейства языков, показано в двойных логарифмических координатах на рис. 5.

Распределение языков, входящих в различные семейства языков, аппроксимируется гиперболической функцией:

, где  , ,

где   число языков, входящих в семейство  ранга.

Особенностью гиперболического распределения языков по семействам является значение показателя степени больше единицы , что свидетельствует о большом числе исчезнувших языков и народов, на них говоривших.

Скорости возникновения новых языков во многом связаны с развитием цивилизации, и народы, не входящие в основные семейства языков народов мира, были обречены на исчезновение или ассимиляцию с другими народами.

Рассмотренные в этой главе гиперболические распределения в различных областях человеческой деятельности показывают универсальность этого распределения для различных типов коммуникационных систем.

Гиперболические распределения в мировой системе научной коммуникации. Развитие общественного сознания во многом определяется процессами становления и формирования научного мышления. Такое формирование началось с развития науки в её современном понимании в 15 веке. Одну из основных ролей в развитии сыграла мировая система научной коммуникации.

Закономерности формирования и развития системы научной коммуникации во многом определили научно-технический и социальный процесс человечества в 15– 20 веках.

Большие объёмы создаваемой научным сообществом документальной информации привели к возникновению мировой системы научной коммуникации: системе обмена информацией в научном сообществе.

Под научной коммуникацией называют совокупность процессов представления, передачи и получения научной информации в человеческом обществе, образующих основной механизм существования и развития науки [55].

Передача научной информации осуществляется как по неформальным каналам коммуникации (главным образом посредством межличностного общения людей), так и по формальным, через обмен документальной научной информацией при помощи научно-технической литературы.

В системе научной коммуникации особое место занимает книга – одно из древнейших средств сохранения и передачи знаний.

Потребность в более интенсивном обмене сведениями о результатах научных исследований, в интеграции разрозненных знаний приводила к спонтанному возникновению научных кружков, многие из которых получили в дальнейшем организационное оформление в виде научных обществ.

Из совершенно неоформленного вначале, а затем более регулярного обмена письмами между учёными возник научный журнал – новое, чрезвычайно эффективное средство научной коммуникации.

Первый периодический научный журнал "Le Journal des sçavans" вышел в Париже в 1665 г. в  форме бюллетеня с аннотациями писем учёных. Затем появились научные журналы в Германии "Acta Eruditorum" (лат., действия учёных, 1682 г.), в Италии "Giornale de’letterati" (1668 г.), в Великобритании "Philosophical Transactions" (1665 г.

В дальнейшем число журналов, издаваемых различными научными обществами и академиями по самым различным областям науки, быстро росло, и к 1800 г. их число достигло более 1000 единиц. К середине 20 в. выходит уже более 60 тыс. научных журналов, число статей в которых составляет 80–90 % от числа всех создаваемых научных документов.

Мировая система научной коммуникации является сложной пространственно и предметно распределённой системой, в которой обмен документальной информацией осуществляется между учёными, живущими и работающими в разных странах, говорящими на различных языках. Развитие науки происходит в рамках предметных областей или тематик, и мировая система научной коммуникации объединят усилия учёных всего мирового сообщества.

Одновременно с мировой системой периодических и продолжающихся изданий создавалась мировая система научных книжных издательств, публикующих различные справочники, энциклопедии и монографии, также входящая в мировую систему научной коммуникации. Одной из первых книг, известных всему научному сообществу, стал труд "Математические начала натуральной философии" И. Ньютона, изданный в 1779–1785 гг.

Процессы дифференциации и интеграции научного знания, а главное – рассеяние тематических статей по широкому кругу различных изданий привели к созданию в 19 веке вторичных информационных изданий реферативных журналов, организующих публикацию рефератов журнальных статей и научных книг по предметно-тематическому принципу. Первый реферативный журнал  "Pharmaceutisches Centralblatt" вышел из печати в 1830 г.

Для поступательного развития науки необходимо, чтобы учёные сообщали о своих идеях и полученных результатах исследований другим учёным и одновременно своевременно знакомились с новыми идеями и результатами других исследователей. Учёные делали и делают это путём написания и прочтения книг в любом физическом исполнении, участвуя в научных конференциях, в переписке, посещении лабораторий своих коллег и др. Все эти процессы образуют то, что получило общее название научной коммуникации.

Научные исследования, непосредственной целью которых является получение, накопление и интерпретация научной информации, есть деятельность коллективная. Учёный, движимый врождённым стремлением к познанию истины и задачами, которые ставит перед ним общество, определяет цели и методы научного исследования.

При этом он опирается на знания, полученные им в процессе обучения и предшествующей деятельности. Стремясь к получению исчерпывающих сведений о том, что сделано до него, и что делается в данном направлении в настоящее время, учёный обращается к научной литературе. Чтение научной литературы – основной механизм ознакомления учёного с необходимыми для его исследований идеями и фактами.

Созданная в процессе исследований эта научная информация доводится до других учёных вначале устным путём, чаще всего в форме выступлений и докладов на симпозиумах и конгрессах, а затем оформляется в виде научных документов, которые публикуются в научной литературе.

Специалистов интересуют главным образом опубликованные документы в их предметных областях, а периодические издания печатают статьи, ориентируясь на тематики, представляющие интерес для наиболее широкого круга потенциальных читателей. Это приводит к тому, что для ознакомления с новыми публикациями в различных периодических изданиях по узкой тематике специалистам необходимо просматривать большое число журналов.

Потребности научного сообщества в предметной структуризации статей, публикуемых в различных изданиях, привели к возникновению вторичных информационных изданий реферативных журналов, где печатаются рефераты и аннотации первичных научных документов по какой-либо отрасли знания или производства.

Важная особенность реферативных журналов: рефераты, помещённые в журнале, распределяются в нём в соответствии с информационно-справочным аппаратом и рубрикатором, организующих публикацию рефератов издаваемых статей и научных книг по предметно-тематическому принципу.

С возникновением реферативных журналов связано и создание специальных информационных служб для учёных и специалистов, главным образом, в научных и технических библиотеках, начало организованной научно-информационной деятельности и выделения её в отдельный вид научного труда, а также начало складывания информатики как науки об информации и научной коммуникации.

Развитие мировой системы научной коммуникации сопровождается следующими закономерностями:

·       быстрым увеличением численности журналов;

·       непрерывным ростом подписных цен на такие журналы;

·       "рассеянием" статей по любой отрасли, предмету и проблеме по очень широкому кругу журналов.

Для каждого отдельного научного направления документальные источники информации делятся на три части:

·       источники, прямо или безусловно относящиеся к данной науке, отрасли или проблеме;

·       источники, лишь частично относящиеся к этой науке, отрасли или проблеме;

·       источники, ни по каким внешним признакам – названиям и другим, не относящиеся к выбранным науке, отрасли или проблеме.

Одним из первых учёных, обративших внимание на закономерности рассеяния статей по отдельной тематике по широкому кругу журналов, был английский химик и библиограф С. Бредфорд (18781948), занимавшийся вопросами комплектования библиотечных фондов.

Основой для отбора научных журналов по их продуктивности, определяемой числом ежегодно публикуемых статей по соответствующей отрасли (предмету, тематике), стал эмпирический "закон рассеяния" журнальных статей, открытый С. Бредфордом в 1934 г.[5].

Задача, стоявшая перед С. Бредфордом, заключалась в том, чтобы в условиях нехватки ресурсов расширить полноту охвата журнальных статей в реферативных журналах за счёт выписки для них наиболее важных научных журналов и отказа от журналов, которые можно считать второстепенными.

С этого времени начинаются этап количественных исследований мировой системы научной коммуникации и становление информатики как самостоятельной науки, имеющей свой предмет исследований.

Известный американский учёный в области науковедения Д. Дж. С. Прайс [6] приводит в полулогарифмическом масштабе график увеличения числа научных журналов и вторичных информационных изданий (реферативных журналов, где отражаются в виде рефератов основные тезисы опубликованных в журналах статей) с момента возникновения современной системы научной коммуникации (рис. 6, дата создания первого научного журнала – 1665 г.).

С момента возникновения первых научных журналов в 15 веке к середине 20 в. издавалось около 60 тыс. научных журналов и около 300 реферативных журналов.

Линейному росту числа журналов в полулогарифмическом масштабе соответствует экспоненциальное увеличение их числа во времени:

,

относительная скорость роста , время удвоения числа издаваемых журналов .

В конце 20 в. ежегодное число публикаций в журналах составляет около 100000 журналов × 12 месяцев × 10 статей ≈ 10 млн статей.

Увеличение числа выходящих журналов в середине 20 в. привело научное сообщество к очередному информационному взрыву, поставило перед наукой задачу оптимизации коммуникационных процессов. Одну из первых программ исследования этого явления предложил Д. Дж. С. Прайс [7].

Для количественного изучения такой сложной системы как мировая система научной коммуникации, наиболее естественными являются статистические методы, позволяющие выявлять статистически устойчивые закономерности этой системы. Отбор объектов для выборочной статистической совокупности объектов в социальных науках представляет крайне сложную задачу.

Рис. 6. Увеличение числа научных периодических и вторичных реферативных журналов

Если в математической статистике неявно предполагается независимость значений признаков в однородной выборочной совокупности объектов, а отбор объектов для такого анализа производится случайно из генеральной совокупности, то в социальных и информационных системах между исследуемыми объектами существуют различные связи, и предположение об их независимости явно не выполняется.

Поэтому при анализе социальных явлений и для построения распределений приходится иметь дело в большинстве случаев с генеральной совокупностью объектов или с выборочной совокупностью с объёмом, близким к её генеральной совокупности. Только в этом случае действительно можно выявить устойчивые закономерности таких систем.

Как правило, в информатике такой совокупностью является представление отдельной предметно-тематической области полной библиографией научных документов с момента её возникновения. Такие библиографии подготавливаются ведущими научными школами и специалистами конкретного тематического направления в момент наибольшего интереса к нему научного сообщества на основе семантических принципов принадлежности документов в данной области знания.

Такая библиография представляет собой, с точки зрения статистики, генеральную совокупность, и для неё могут быть с достаточной точностью определены характеристики получаемых распределений.

Второй метод создания выборочной совокупности основан на формальных методах кластеризации документов на основе метода взаимного цитирования работ предшественников, разработанный одновременно И. В. Маршаковой [8] и Ю. Гарфилдом [9]. Этот подход в настоящее время используется, главным образом, для выявления новых предметных областей (карт науки).

В течение длительного времени количественные методы исследования науки сводились в основном к проверке экспоненциального роста числа создаваемых научных документов.

Как отмечалось выше, развитие науки происходит в рамках тематических исследований. Тематики возникают, как правило, в результате пионерных работ выдающихся учёных, проходят скрытый (латентный) период развития, в большинстве случаев связанный с работами неформальных объединений учёных; в дальнейшем, если некоторые из этих работ привлекают внимание большинства научного сообщества, получают признание, становятся частью научного знания. С этого момента времени в большинстве случаев для такой тематики наблюдается экспоненциальный рост публикаций во времени.

Отражением этих процессов в мировой системе научной коммуникации являются полные библиографии опубликованных документов. Желание обосновать новое научное направление при первых монографиях и в обзорных статьях авторы стараются собрать максимально полные библиографии по новой теме.

Особенно активно эта работа стала проводиться в последние годы, в связи с созданием мировой информационной сети Интернета. Многие научные школы на своих сайтах стали представлять полные библиографии по тематике своих исследований, чтобы можно было определить предмет исследований на основании уже опубликованных документов, установить связи с работами предшественников и привлечь внимание к этой проблеме научное сообщество.

Тематики зарождаются, развиваются и исчезают, давая почву для новых исследований. Исследование этой проблемы представляет крайне сложную задачу, в силу большого числа документов, создаваемых научным сообществом. Решение этой задачи началось в информатике в 60-х годах 20 века с использованием компьютеров.

Выдающийся учёный в области информатики Ю. Гарфилд создал The Institute of Science Information (Институт научной информации Ю. Гарфилда, ISI, USA). В Институте стали обрабатывать на компьютерах ежегодные массивы статей из периодических научных журналов, устанавливая связи между публикациями на основе цитирования авторами статей работ предшественников.

С 1964 г. Институт стал выпускать SCI (Science Citation Indexes), указатель ссылок из научных статей, опубликованных в текущем году. Накопленные документальные информационные массивы и связи между документами (цитирования) за более чем 40-летний период позволили построить современные карты науки.

Информационное пространство создаваемых научным сообществом документов проецируется на плоскость, где оно подразделяется на области (кластеры) наиболее связанных между собой ссылками документов.

Для классификации научных направлений (кластеров) использовался метод объединения статей на основе общего цитирования работ предшественников (co-citation method). Очевидно, что чем более длительна история научного направления, тем больше статей в его кластере.

Пионерами построения карт науки были Е. Гарфилд, Д. Прайс. Эта работа в настоящее время проводится в Центре планирования исследований [10], для моделирования также используются данные Института научной информации Ю. Гарфилда (Institute for Scientific Information, USA).

Для создания карты науки 2003 г. использовано 1,35 млн статей из 7506 журналов и 1206 докладов различных конференций, содержащих более 29 млн ссылок.

Укрупнённая междисциплинарная карта по естественным и гуманитарный наукам 2003 г. показана на рис. 7, кластеры выделены окружностями, чем больше их диаметр, тем больше статей в отдельном кластере. Линии между кластерами показывают информационные связи между отдельными научными направлениями, иногда говорят о междисциплинарных связях.

Карты науки, построенные формальными методами, основанные на объединении статей в кластеры на основании цитирования общих работ предшественников, показали, что как между отдельными научными направлениями, так и отдельными науками существуют устойчивые информационные связи.

Это ещё раз подтверждает междисциплинарный характер развития всей науки, цитирование в статьях работ предшественников происходит не только в рамках отдельной тематики, а охватывает всю науку в целом. В этом в цитировании выражается взаимное проникновение идей (диффузия идей) и обмен методами исследований между различными научными направлениями, что отражает невидимый механизм работы социального института науки.

Кластеры отражают предметно-тематические направления в науке, а документы в них являются тематическими библиографиями, построенными формальными методами на компьютерах.

Ван Раан [11] проанализировал ранговые распределения тематических кластеров, построенных по методу со-цитирования, по числу входящих в них статей. Данные взяты из SCI (Science Citation Indexes) и CSCI (Social Science Citation Indexes) Института научной информации Ю. Гарфилда (ISI, Institute for Scientific Information, USA) за 1984 г. Массив состоял из 660 тыс. статей с 10 млн ссылок на 6 млн различных статей.

 

Рис. 7. Междисциплинарная карта науки за 2003 г.

 

Число кластеров первого уровня (С1), объединяющих наиболее цитируемые статьи, составило 10 тыс. единиц. Число кластеров второго уровня (С2), объединяющих от 2 до 60 кластеров первого уровня (С1) 1400 единиц.

А число кластеров третьего уровня (С3), составленных из объединений кластеров второго уровня (С2), оказалось равным только 180 единицам, которые окончательно были объединены в 21 кластер четвёртого уровня (С4).

На рис. 8 в двойных логарифмических координатах показаны ранговые распределения кластеров второго (С2) и третьего (С3) уровней по числу входящих в них статей (небольшие по величине кластеры младших рангов на рисунке не показаны).

Ранговые распределения кластеров по числу входящих в них статей  и  представляют собой гиперболические распределения  и .

Приведённые Ван Рааном результаты статистического анализа предметно-тематических кластеров карты науки демонстрируют существенно неравномерное распределение кластеров по числу входящих в них документов. Во многом это объясняется нахождением тематик на разных стадиях развития и различного интереса к ним научного сообщества.

Описание тематических коллекций документов и составление рубрикаторов реферативных журналов каждого из этих кластеров составляют основную проблему классификации знания, так как в этих кластерах находятся документы, связанные между собой системой взаимных ссылок, образующих отдельные, самостоятельно развивающиеся тематики.

Документы, составляющие содержимое кластеров, во многом совпадает с предметно-тематическими библиографиями, подготавливаемыми научным сообществом на протяжении последних 100 лет, с момента возникновения научно-информационной деятельности как отдельного вида научного труда.

Рис. 8. Ранговые распределения кластеров по размерам основных научных направлений

Это связано с двумя существующими  в настоящее время подходами описания предметно-тематических областей:

·       семантического, основанного на отборе документов на основании профессионального опыта и знаниях учёных, принадлежащих отдельному научному направлению;

·       формального, основанного на информационных технологиях обработки больших информационных массивах документов, связанных между собой системой ссылок на работы предшественников.

Если первый подход широко используется научным сообществом более 100 лет для подготовки полных библиографий при первых монографиях по новым научным направлениям, то второй только начинает использоваться в Интернете на основе базы данных ISI.

 

 

 

Заключение.

Задачи, рассмотренные в этой статье, были сформулированы более 30 лет назад [12]. Развитие информационных технологий, создание мировой информационной сети Интернета делает актуальным построение единой теории коммуникационных процессов, основанной на теории случайных ветвящихся процессов. Вне зависимости от предметного пространства, как показывают статистические исследования, существуют объективные закономерности общения, присущие поведению человеческого сообщества.

Количественное описание процессов коммуникации в обществе невозможно без понимания информационных процессов передачи, структуризации, поиска и хранения документальной информации.

Создание новых систем коммуникации возможно только с учётом эмпирических гиперболических распределений, которые составляют одно из оснований теоретической информатики.

 

Литература

1. Watson H. W., Halton F. On the probability of the extinction of families // J. Anthropol. Inst. Great Britain and Ireland, 1874, v. 4, p. 138139.

2. Zipf G. K. Human behaviour and the principle of least effort.-Addison – Wesley, Cambridge, 1949.

3. Yule G. U. A mathematical theory of evolutionary based on conclusions of dr. J.C. Willis, F.R.S. // Philos. Trans. Royal. Soc. - 1924. - v. B213. - P. 2187.

4. Wichmann S. On the power-law distribution of language family sizes // J. lingvistic, 2005, v. 41. - p. 117–131.

5. Bradford S. C. The documentary chaos // In: Bradford S. C. Documentation. - London: Crosby Lockwood, 1948. - P. 106121.

6. Price de Solla D. J. The exponential curve of science // Discovery, 1956, V. 17, N 6, p. 240243.

7. Price de Solla D. J. Quantitative Measures of the Development of Science // Quatrieme Annee, 1951, N 14. - p. 8693.

8. Маршакова И. В. Система взаимосвязанных документов, основанная на общих ссылках // НТИ, сер. 2, 1973, N 6, с. 38.

9. Garfield E., Small H. The Geography of Science: Disciplinary and National Mapping // Current Contents, 1986, V. 343, p. 314.

10. Boyack R. W., Klavans R., Borner K. Mapping the backbone of science // Scientometrics, 2005, V. 64, No. 3, p. 351374.

11.Van Raan A. F. J. Fractal geometry of information space as represented by co-citation clustering // Scientometrics. - 1991, v. 20, N 3, p. 439449.

12. Михайлов А. И., Чёрный А. И., Гиляревский Р. С. Научные коммуникации и информатика. М.: Наука, 1976. 432 с.