// Электрика. – 2007. – № 7.– С. 36–41.

 

GZ-АНАЛИЗ РАНГОВОГО ПАРАМЕТРИЧЕСКОГО РАСПРЕДЕЛЕНИЯ ПО ЭЛЕКТРОПОТРЕБЛЕНИЮ

(Опыт применения пакета Mathcad-2001)

GZ-ANALYSIS RANG OF PARAMETRICAL DISTRIBUTION ON THE POWER CONSUMPTION

(A tentative of application of packet Mathcad-2001)

В. И. Гнатюк, Д. В. Луценко

Калининградский пограничный институт

V.I.Gnatyuk, D.V.Lutsenko

(The Kaliningrad boundary institute)

 

В статье изложена методика GZ-анализа ранговых параметрических распределений, позволяющая на этапе предварительной статистической обработки делать вывод об адекватной работе для объекта техноценоза G- или Z-методов прогнозирования.

 

In clause the technique of the GZ-analysis the rang parametrical distributions is stated, allowing at a stage of preliminary statistical processing to do a conclusion about adequate work for object of technocenos  G-or Z-methods of forecasting.

 

На этапе статистического анализа и построения эмпирической модели процесса ресурсопотребления осуществляется полномасштабная обработка данных, которая включает взаимосвязанные процедуры рангового анализа [1]. Это позволяет упорядочивать информацию, выявлять в динамике и наглядно представлять объекты с аномальным ресурсопотреблением, эффективно осуществлять прогнозирование и нормирование ресурсопотребления отдельными объектами и техноценозом в целом. С целью повышения точности расчётов стандартные процедуры рангового анализа дополняются соответствующими тонкими процедурами: верификацией базы данных по ресурсопотреблению, а также дифлекс-, GZ-, ASR-анализом рангового параметрического распределения [2]. В процедуре прогнозирования существенную сложность составляет операция выбора G- или Z-методологии. Предлагается данный выбор осуществлять на основе предварительного тонкого GZ-анализа параметрического распределения, а в качестве критерия выбора метода рассматривать определённое соотношение объёмов системного и гауссового ресурсов кластеров техноценоза, которое в пределе сводится к соотношению системного и гауссового доверительных интервалов объектов.

Под системным доверительным интервалом рангового параметрического распределения техноценоза понимается совокупность верхних и нижних доверительных границ, каждая из которых получается в результате статистической обработки выборки значений параметров, соответствующих данному рангу на протяжении определённого количества временных интервалов (независимо от объектов, которые "проходят" через ранг в процессе функционирования). Системный интервал характеризует разброс параметров техноценоза, при котором его функционирование можно считать нормальным. Фактически этот интервал отражает требования или ограничения, которые система выдвигает объектам, чтобы обеспечить своё устойчивое функционирование. Если эмпирическое значение параметра объекта выходит за пределы системного интервала – объект не подчиняется системным требованиям и проявляет индивидуальность. Сама же величина отклонения может рассматриваться как мера индивидуальности данного объекта. Ширина системного доверительного интервала определяется предысторией развития техноценоза, и если она невелика, это свидетельствует, что техноценоз развивается стабильно и сбалансированно, все изменения в нём происходят плавно. Напротив, широкий интервал свидетельствует о резких структурных изменениях.

Под гауссовым доверительным интервалом рангового параметрического распределения техноценоза понимается совокупность верхних и нижних доверительных границ, каждая из которых получается в результате статистической обработки выборки значений параметров, соответствующих данному объекту на протяжении определённого количества временных интервалов (независимо от рангов, которые он принимает в процессе функционирования). Гауссовый доверительный интервал характеризует разброс параметров объекта, при которых его функционирование можно считать нормальным. Ширина данного интервала задаётся предысторией развития объекта, и чем ширина меньше, тем стабильней его функционирование. В случае выхода эмпирического значения параметра объекта за границы гауссового интервала, можно говорить, что на самóм объекте произошли резкие изменения (модернизация оборудования, новые технологии), либо система предъявила новые требования, для выполнения которых объект вынужден резко изменить режим функционирования.

Таким образом, для каждого объекта можно получить отношение системного и гауссового интервалов, которое называется коэффициентом когерентности и показывает степень согласованности поведения объекта по отношению к техноценозу. Если коэффициент когерентности близок к единице, можно говорить о согласованном поведении, кроме того, он является индикатором для выбора наиболее эффективного метода прогнозирования для рассматриваемого объекта. При сравнительно больших значениях коэффициента лучше работают G-методы, в противном случае – Z-методы. Используем GZ-анализ для прогнозирования электропотребления объектов техноценоза. Следует сразу уточнить, что проблема выбора метода актуальна только при прогнозировании электропотребления отдельных объектов. В процессе прогнозирования электропотребления в целом всегда лучше работают Z-методы [2].

После сбора информации о годовом электропотреблении, кВтч, создаётся электронная база данных. Рекомендуется формировать её в виде файла Microsoft Excel, в котором должны содержаться только числовые значения, при этом столбцы должны соответствовать объектам техноценоза, а строки – годам. Перед началом обработки данные необходимо подвергнуть верификации и сохранить под именем "data_d.xls" в директории "c:\mathcad_dat", которая должна быть заблаговременно создана в корневом каталоге диска "c:\ ". Далее, уже программными средствами, осуществляется импорт данных из файла "data_d.xls" в тело mathcad-программы. В настоящем примере используются данные (за 10 лет) по электропотреблению реально существующего в Калининградской области техноценоза, состоящего из рассредоточенных по всей территории региона 69 объектов (подробно – см. [2]). Кроме того, в настоящей программе будет осуществлено сравнение полученных коэффициентов когерентности с кодами лучших методов прогнозирования, ранее объединённых в так называемую GZ-матрицу. Для этого в директории "c:\mathcad_dat" должен быть размещён файл с именем "GZ_matrix.xls" (имеется среди файлов примера – см. по адресу: http://gnatukvi.narod.ru/zip_files/task_mcd.zip).

1. Подготовка данных. Зададим начало отсчёта и импортируем данные по электропотреблению из внешнего файла [3].

 

 

V

 

 

Определим глубину базы данных, используемой для дальнейшей обработки. Здесь необходимо вручную задать число, равное глубине базы данных в годах (в данном случае q=9). Сформируем матрицу данных и создадим табулированное ранговое параметрическое распределение и вектор рангов.

 

 

 

 

 

 

2. Построение системного доверительного интервала. Расчёт системного доверительного интервала осуществляется на основе интерквартильного размаха применительно к матрице ранговых параметрических распределений [4]. В данной программе используется размах, соответствующий 95%-ному доверительному интервалу (подпрограмма Qvartil предназначена для нахождения значения случайной величины из заданной выборки по значению функции распределения; её аргументы: x – выборка случайной величины, p – значение функции распределения:

Подпрограмма RE предназначена для нахождения нижних и верхних границ доверительного интервала. Входным аргументом здесь является матрица ранговых параметрических распределений. На выходе получается матрица, первый столбец которой есть вектор верхних границ, второй – вектор нижних границ системного доверительного интервала:

Получаем верхнюю и нижнюю границы системного доверительного интервала, а затем визуализируем результаты расчётов (рис. 1):

; .

3. Построение гауссового доверительного интервала. Расчёт интервала осуществляется также на основе интерквартильного размаха применительно к матрице ранговых параметрических распределений [4]. Проделаем описанные в п. 2 операции для значений электропотребления не рангов, а объектов. По вектору значений электропотребления каждого объекта находим соответствующее медианное значение:

При помощи подпрограммы RE на основе интерквартильного размаха [4] определим доверительный интервал для каждого объекта, отсортируем его по медианным значениям, которые ранжируются по убыванию, а затем визуализируем результаты расчётов (рис. 2):

Рассчитаем ширину системного доверительного интервала для каждого ранга параметрического распределения: , далее − рассчитаем ширину гауссового доверительного интервала для каждого объекта техноценоза: .

4. Расчёт коэффициента когерентности. Вычислим коэффициент когерентности, наращивая глубину базы по электропотреблению до 9 лет (начиная с 5 лет – прибавлем по году), и сформируем матрицу, отражающую динамику изменения данного коэффициента (глубина базы устанавливается в начале программы присвоением соответствующего значения параметру q). По размеру и способу формирования данная матрица схожа с GZ-матрицей, описывающей динамику изменения методов прогнозирования [2].

Ниже приведена подпрограмма, при помощи которой определяется значение коэффициента когерентности для каждого объекта техноценоза.

 

 

 

Следует отметить, что полученный вектор коэффициентов когерентности Ind может быть использован в качестве индикатора при выборе наиболее эффективного метода прогнозирования. Однако для определения критериальных значений данного индикатора необходимо провести его юстировку путём статистического сравнения коэффициентов когерентности с индексами образцовой GZ-матрицы, полученной ранее в результате простого анализа методов прогнозирования техноценоза [2].

Итак, изменяя глубину базы данных, сформируем матрицу, отражающую динамику изменения коэффициента когерентности. Делается это следующим образом. Глубина базы устанавливается в начале программы присвоением соответствующего значения параметру q (см. п. 1 в начале данной программы). При этом следует сначала установить q=5 (так как общая глубина базы составляет 10 лет, мы резервируем первые 5 лет в качестве базовой матрицы данных). Затем необходимо осуществить расчёт программы, полученный вектор Ind вручную скопировать в первый столбец матрицы G (см. ниже); далее следует вернуться в начало программы, изменить значение q на 6, а полученный новый вектор Ind скопировать во второй столбец матрицы G. В итоге, изменяя q от 5 до 9, получим матрицу G (размерностью 69 на 5), в которой будут записаны значения коэффициентов когерентности для всех 69 объектов на протяжении пяти лет функционирования.

G:=

Подпись: 0,75	0,714	1,002	0,725	0,75
0,73	0,883	0,85	0,672	0,593
0,26	0,266	0,58	0,405	0,875
1,30	1,199	0,773	0,53	0,536
1,69	1,343	1,533	1,483	0,828
0,60	0,492	0,039	0,036	0,024
1,06	1,298	1,492	1,951	1,914
0,43	0,625	0,728	1,222	1,411

 

 

 

 

 

5. Юстировка коэффициента когерентности. Для дальнейшего анализа преобразуем матрицу коэффициентов когерентности в вектор и импортируем GZ-матрицу:

 

 

GZ

 

 

 

Следует отметить, что данная GZ-матрица получена ранее в результате последовательной многократной реализации различных методов прогнозирования применительно к базе данных по электропотреблению [2]. Столбцы этой матрицы – объекты, строки – последние 5 лет предыстории функционирования техноценоза: элемент матрицы – код метода, который давал для объекта наименьшую относительную годовую ошибку. Кодировка методов прогнозирования в GZ-матрице следующая:

1 – G-метод прогнозирования на основе модели авторегрессионного скользящего среднего (Garss);

2 – G-метод прогнозирования на основе модели декомпозиции временнóго ряда (Gmdvr);

3 – G-метод прогнозирования на основе анализа сингулярного спектра траекторной матрицы временнóго ряда (Gssa);

4 – Z-метод прогнозирования без фиксированной первой точки (Zbpt);

5 – Z-метод прогнозирования с фиксированной первой точкой (Zspt);

6 – Z-метод прогнозирования с делением на кастовые зоны (Zdkz).

Преобразуем значения в GZ-матрице по следующему правилу: если лучшим был G-метод прогнозирования, то значению элемента матрицы присваивается 1, если Z-метод – 2. После этого векторизуем полученную матрицу в вектор Kgz:

 

Объединим векторы, полученные из GZ-матрицы и матрицы коэффициентов когерентности: ; осуществим сортировку элементов по возрастанию значений коэффициента когерентности: ; определим максимальное и минимальное значения коэффициента когерентности: ;  ;  ;  .

Исследуем, насколько величина коэффициента когерентности связана с кодами методов прогнозирования. Ниже приведена подпрограмма D, которая по заданной ширине интервала значений коэффициента когерентности извлекает соответствующий вектор с кодами методов прогнозирования. Входные параметры подпрограммы: a – матрица, b и c – левая и правая границы интервала значений коэффициента когерентности. На выходе подпрограммы формируется вектор с кодами методов прогнозирования.

 

 

 

 

Подпрограммы Chast_G и Chast_Z определяют частоту встречаемости соответственно G- и Z-методов прогнозирования.

Сформируем матрицу результатов следующим образом. При определении параметров вектора M (см. выше) устанавливаем в качестве границ интервала (см. параметры b и c подпрограммы D) значения Mn и 0,5. Рассчитываем значения Chast_G и Chast_Z, после чего вручную вставляем их в соответствующую строку матрицы N (см. ниже). Затем повторяем описанные действия для интервалов: [0,5; 1,5) и [1,5; Mx]. Значения промежуточных границ интервалов юстировки (0,5 и 1,5) получены на основе предварительного анализа чувствительности, в ходе которого методом случайного поиска осуществлялось варьирование границами с целью определения таких значений, при которых коэффициент когерентности для Z- и G-методов различался бы в наибольшей степени:

.

 

 

Вызывает озабоченность достаточно большая ширина интервала изменения коэффициента когерентности [0,5, 1,5), где примерно одинаково работают как Z-, так и G-методы. Проведём углублённое статистическое исследование с целью выявления метода прогнозирования, наиболее часто встречающегося как наиболее эффективный в данном интервале. Для этого сформируем вектор из исходной GZ-матрицы, оё сортировку:

 

 

 

 

 

 

Рассчитаем частоту встречаемости методов прогнозирования в интервале, а также статистические параметры наиболее часто встречающегося метода (как видим ниже, таковым оказался Gssa).

 

 

 

 

 

6. Анализ полученных результатов. 1. Если значение коэффициента когерентности лежит в пределах от минимального до 0,5, объект ведёт себя нестабильно. В такой ситуации G-методы, выполняющие прогноз на основе анализа траектории электропотребления, дают значительные ошибки. Выходом может служить использование Z-методов, которые в условиях нестабильности способны осуществлять прогноз параметров объекта через поведение техноценоза, обладающего существенно большей инерционностью.

2. Если значение коэффициента когерентности лежит в пределах от 0,5 до 1,5, объект, в основном, ведёт себя согласованно с техноценозом. В данной ситуации можно ожидать в равной степени хорошей работы как G-, так и Z-методов прогнозирования. Однако в ходе углублённого статистического анализа установлено, что здесь лучше всего работает метод на основе анализа сингулярного спектра (Gssa) [5] (среднее значение коэффициента когерентности по всему техноценозу для данного метода составляет 0,899, а среднеквадратичное отклонение – 0,245).

3. Если значение коэффициента когерентности лежит в пределах от 1,5 до максимального значения, объект ведёт себя гораздо стабильнее системы, которая начинает претерпевать существенные структурные изменения. В данной ситуации для объектов лучше работают G-методы прогнозирования.

Вывод

Таким образом, коэффициент когерентности позволяет уже на этапе предварительной статистической обработки априорно судить о наиболее эффективных методах прогнозирования ресурсопотребления объектов, что существенно повышает скорость обработки данных и повышает точность прогноза (особенно если речь идёт о крупных базах данных, формирующихся автоматически и управляемых в реальном масштабе времени).

Список литературы

1. Кудрин Б. И. Введение в технетику. Томск: Изд-во ТГУ, 1993. 552 с.

2. Гнатюк В. И. Закон оптимального построения техноценозов. Вып. 29. "Ценологические исследования". М.: Изд-во ТГУ – Центр системных исследований, 2005. 384 с. (Компьютерная версия в сети Интернет – http://www.baltnet.ru/~gnatukvi/ind.html).

3. Дьяконов В. П. MATHCAD 8/2000: Специальный справочник. СПб.: Питер, 2001. 592 с.

4. Корн Г., Корн Т. Справочник по математике. М.: Наука, 1978. 832 с.

5. Данилов Д. Л., Жиглявский А. А. Главные компоненты временных рядов: Метод "Гусеница". СПб.: СПбГУ, 1997. 308 с. (Компьютерная версия в сети Интернет – см. на сайте http://www.gistatgroup.com/gus).

Основные понятия

Ранговый анализ – метод исследования больших технических систем (техноценозов), имеющий целью их статистический анализ, а также оптимизацию, и полагающий в качестве основного критерия форму видовых и ранговых распределений. Включает стандартные процедуры интервального оценивания, прогнозирования и нормирования. Более тонкий анализ рангового параметрического распределения позволяет существенно повысить эффективность рангового анализа. Он осуществляется в рамках следующих (так называемых "тонких") процедур: дифлекс-анализа (на этапе интервального оценивания), GZ-анализа (на этапе прогнозирования) и ASR-анализа (на этапе нормирования).

Дифлекс-анализ – тонкая процедура рангового анализа, осуществляемая на этапе интервального оценивания с целью разработки оптимального плана углублённых обследований "аномальных" объектов на среднесрочную перспек-тиву (до 5–7 лет). При этом предполагается, что основным индикатором дифлекс-анализа является дифлекс-параметр – отклонение эмпирического значения ресурсопотребления "аномального" объекта от верхней границы переменного доверительного интервала.

GZ-анализ – тонкая процедура рангового анализа, осуществляемая на этапе прогнозирования с целью повышения точности прогнозирования потребления ресурсов на среднесрочную перспективу (до 5–7 лет). В основе GZ-анализа техноценоза лежит процедура оценки коэффициента когерентности объектов.

ASR-анализ – тонкая процедура рангового анализа, осу-ществляемая на эта-пе нормирования с целью уточнения норм потребления ресурсов объектов техноценоза. Реализация процедуры ASR-анализа заключается в добавлении к прогнозируемому среднему нормы потребления ресурса объекта со-ответствующей его рангу ASR-нормы.


 

Рис. 1. Системный доверительный интервал: ордината – электропотребление, кВтч; абсцисса – ранг объекта; точки – эмпирические значения; ломаные линии – соответственно нижняя и верхняя границы интервала

Рис. 2. Гауссовый доверительный интервал: ордината – электропо-требление, кВтч; абсцисса – ранг объекта; точки – эмпирические медианные значения; ломаные линии – соответственно нижняя и верхняя границы интервала