Библиотека

Наши друзья

Менеджмент.com.ua .:. Интернет-портал для управленцев Consulting.ru Организация времени - тайм менеджмент и управление временем

О сайте

Проект “Vernikov.ru” — это библиотека, содержащая в себе уникальную и качественную подборку аналитических материалов по вопросам экономики, менеджмента и информационных технологий. Материалов в Интернете очень много. Мы не пытаемся опубликовать всё. Мы экономим Ваше время и публикуем только лучшее.

Помимо доступа к материалам, на сайте “Vernikov.ru” любой посетитель, столкнувшись с новыми и сложными задачами, может быстро и бесплатно получить консультацию у профессионалов.

Математический аппарат для инвестора

Автор: Горчаков А.А., Аудиторская и консалтинговая фирма «Росэкспертиза» 24 Июля 2009, 19:40

Книга содержит описание следующих методик:

  • Методика статистического анализа и прогнозирования
  • Дескриптивная статистика
  • Анализ временных рядов
  • Прогнозирование временных рядов
  • Корреляционный анализ
  • Регрессионный анализ
  • Факторный и компонентный анализ
  • Кластерный анализ
  • Частотный анализ
  • Работа с математическим аппаратом на компьютере

 Данная книга доступна для скачивания в формате PDF (863 КБ)

1. Методика статистического анализа и прогнозирования

При статистическом исследовании финансово-экономических показателей в ходе анализа вычисляют простейшие характеристики динамики их развития, выявляют закономерности прошлого развития и оценивают возможность их перенесения на будущее. Для успешного решения указанной задачи необходимо:

1. Иметь необходимый для проявления статистических закономерностей объем данных (для годовых наблюдений - не менее 5 уровней, для сезонных процессов - не менее трех периодов сезонности);

2. Обеспечить методологическую сопоставимость данных;

3. На основе содержательного анализа исследуемого показателя обосновать возможность переноса закономерностей прошлого на выбранный Вами период прогнозирования;

4. При помощи данной программы получить адекватную математическую модель и на ее основе построить точечные и интервальные прогнозы.

В случае невыполнения этапов (1-3) использовать математические методы бессмысленно!

Основной формой представления статистиче- ской информации являются временные ряды (ВР) наблюдений, т.е. ряды динамики, у которых в качестве признака упорядочения берется время. ВР, состоящий из N уровней x(1), x(2), ... x(N), может быть записан в компактной форме: X(t) t=1,2,...N, т.е. t - порядковый номер наблюдения.

Статистические методы исследования исходят из предположения о возможности представления уровней ряда в виде суммы нескольких компонент, отражающих закономерность и случайность развития, в частности, в виде суммы нескольких компонент:

Х(t) = f(t) + S(t) +E(t)

где

f(t) - тренд (долговременная тенденция) развития;

S(t) - сезонная компонента;

E(t) - остаточная компонента.

Тренд представляет собой устойчивое изменение показателя в течение длительного времени. Он выражается аналитической функцией, которая ис- пользуется для формирования прогнозных оценок.

Сезонная компонента характеризует устойчивые внутригодичные колебания уровней. Она прояв- ляется в некоторых показателях, которые представ- лены квартальными или месячными данными. Нали- чие устойчивых колебаний в суточных или недельных данных может рассматриваться как циклическое и отображается сезонной компонентой.

Остаточная компонента представляет собой расхождение между фактическими и расчетными значениями. Если построена адекватная (хорошая) модель, то E(t) является близкой к 0, случайной, независимой, подчиняющейся нормальному закону распределения компонентой. В противном случае модель является плохой.

Основной целью статистического анализа временных рядов является изучение соотношения между закономерностью и случайностью в формировании значений уровней ряда, оценка количественной меры их влияния. Закономерности, объясняющие динамику показателя в прошлом, могут быть использованы для прогнозирования его значений в будущем, а учет случайности позволяет определить вероятность отклонения от закономерного развития и их возможную величину.

Формирование уровней ряда определяется закономерностями трех основных типов: инерцией тенденции, инерцией взаимосвязи между последовательными уровнями ряда и инерцией взаимосвязи между исследуемым показателем и показателямифакторами, оказывающими на него причинное воздействие. Соответственно, различают задачи анализа и моделирования тенденций; взаимосвязи между последовательными уровнями ряда; причинных взаимодействий между исследуемым показателем и показателями-факторами. Первая из них решается с помощью методов компонентного анализа, вторая с помощью адаптивных методов и моделей, а третья на основе эконометрического моделирования, базирующегося на методах корреляционно-регрессионного анализа.

Статистический анализ выполняется в следующей последовательности:

1. Постановка задачи и подбор исходной информации.

2. Предварительный анализ исходных временных рядов и формирование набора моделей прогнозирования.

3. Численное оценивание параметров моделей.

4. Определение качества моделей (адекватности и точности).

5. Выбор одной лучшей или построение обобщенной модели.

6. Получение точечного и интервального прогнозов.

7. Содержательный комментарий полученного прогноза.

На первом этапе формулируется цель исследования, осуществляется содержательный (логический и экономический) анализ исследуемого процесса; решается вопрос о выборе показателя, характеризующего его наиболее полно; определяются показатели, оказывающие влияние на ход развития; определяется наиболее разумный период упреждения прогноза (горизонт прогнозирования, т.е. на сколько шагов вперед делается прогноз). Оптимальный горизонт прогнозирования определяется индивидуально для каждого показателя на основе содержательного суждения о его стабильности и с учетом статистической колеблемости данных. Он, как правило, не превышает 1/3 объема данных.

Предварительный анализ данных имеет целью определение соответствия имеющихся данных требованиям, предъявляемым к ним математическими методами (объективности, сопоставимости, полноты, однородности и устойчивости); строится график динамики, и рассчитываются основные динамические характеристики (приросты, темпы роста, темпы прироста, коэффициенты автокорреляции).

Набор моделей (исходная база моделей ) формируется на основе интуитивных приемов (таких, например, как анализ графика динамики ряда), формализованных статистических процедур (исследование приростов уровней), исходя из целей исследования и качества имеющейся информации, а также содержательного анализа. Предпочтение отдается наиболее простым моделям, которые могут быть содержательно интерпретированы. При использовании мощных ПЭВМ эту проблему можно переложить на программы, поручив провести вычисления по всем доступным моделям и методам.

Метод наименьших квадратов (МНК) лежит в основе численного оценивания параметров моделей кривых роста. Параметры адаптивных методов оцениваются с использованием специальных процедур многомерной численной оптимизации. Во всех случаях основная идея оценки параметров заключается в наилучшем, т.е. максимальном приближении модели к исходным данным. Экстраполяционные методы прогнозирования строят модели кривых роста и адаптивные модели, которые используют лишь один фактор "время". Этот фактор является условным представителем всей совокупности причинных факторов, влияющих на интересующий нас показатель. Кривые роста исходят из равноценности всех данных и отражают общую тенденцию развития, а адаптивные модели и методы исходят из большей значимости последних наблюдений и лучше отражают динамику изменения. Потенциально более мощным инструментом прогнозирования являются модели Бокса-Дженкинса и ОЛИМП. Поэтому именно они составляют основу рабочей базы моделей. Каждая построенная модель заносится в базу моделей. Максимальное количество моделей в базе моделей ограничено 20 (в текущей версии). Если рабочая база моделей заполнена (построено свыше двадцати моделей), то вновь построенная модель сравнивается с наихудшей моделью и вытесняет ее, если новая модель имеет лучшие характеристики качества. Внутренняя информация базы моделей включает в себя (для каждой модели): тип модели; количество и значения параметров построенной модели; вектор остатков; вектор прогнозов (включая границы) и ряд других.

Информация, содержащаяся в рабочей базе моделей, служит основой для построения прогноза как по лучшей модели, так и при формировании обобщенного прогноза. Методика измерения качества моделей в сочетании с высоким быстродействием современных вычислительных машин позволяет за короткое время просматривать большое количество моделей и оставлять из них наилучшие.

Качество модели с формальностатистической точки зрения оценивается на основе ее адекватности и точности. Адекватность моделей оценивается путем исследования свойств остаточной компоненты, т.е. расхождений, рассчитанных по модели уровней и фактических наблюдений. Точность модели характеризует степень близости расчетных данных к фактическим. На основе характеристик точности и адекватности рассчитывается обобщенный показатель качества модели, который используется для определения лучшей модели.

В качестве прогнозной модели может быть выбрана лучшая модель из числа построенных, либо на основе нескольких моделей сформирована обобщенная модель (см. "Построение обобщенного прогноза").

При выборе лучшей модели следует учитывать не только формальные статистические характеристики, но и интерпретируемость их траектории развития с содержательной точки зрения. В случае несовпадения результатов выбора по статистическому и содержательному критериям предпочтение отдается последнему.

На основе построенной модели рассчитываются точечный и интервальный прогноз. Экстраполяция лежит в основе точечного прогноза. Он формируется путем подстановки в модель (уравнение тренда) соответствующего значения фактора "Время", т.е. t=N+1, N+2...N+k. Интервальные прогнозы строятся на основе точечных.

Доверительная вероятность прогноза характеризует степень уверенности в попадании прогнозируемой величины в построенный интервал прогнозирования. Она изменяется в пределах от 0 до 100%. и задается пользователем. Следует помнить, что при ее увеличении интервальный прогноз расширяется, и потому полезность прогноза обратно пропорциональна доверительной вероятности. Можно построить прогноз, который свершится с вероятностью 99%, однако с практической точки зрения он будет бесполезен (например, прогноз погоды: ожидается температура воздуха от 5 до 25 градусов не дает необходимой информации для принятия правильного решения о форме одежды). С математической точки зрения доверительной вероятностью для расчета прогноза можно пользоваться лишь при получении адекватной математической модели.

После получения прогнозных оценок необходимо убедиться в их разумности и непротиворечивости. Полученный прогноз должен быть подвергнут критическому рассмотрению с целью выявления возможных противоречий известным фактам и сложившимся к настоящему моменту представлениям о характере развития на периоде упреждения прогноза. В качестве средства оценки эффективности математического аппарата при исследовании конкретных процессов часто применяют ретропрогноз. При наличии данных о динамике других показателей можно построить модель их влияния на основной исследуемый показатель и в случае ее высокого качества получить прогнозные оценки. Для формирования набора факторов кроме содержательных аспектов необходимо учитывать формально статистические, которые основываются на коэффициентах корреляции. Следовательно, перед регрессионным анализом необходимо воспользоваться корреляционным анализом, а при необходимости получения прогнозов еще и экстраполяционными моделями.

 

 

2. Дескриптивная статистика

 

Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.

Ниже приводятся формулы вычисления основных характеристик данных, в которых xi численные значения наблюдений переменной X, i=1,2,...,n.

Коэффициенты асимметрии и эксцесса позволяют сделать предварительные заключения о близости изучаемого распределения к нормальному. Распределение принято считать нормальным, если выполняются условия: AS ≤ 3SA и E ≤ 5SE ,

 

Для изучения пространственных данных используется технология их агрегирования путем построения интервального ряда. Ширина интервала для группировки (Н) определяется следующим образом :

где

L количество интервалов (округляется в большую сторону);

n число членов ряда.

Если установлен соответствующий параметр, то изменяется значение H и пересчитывается L. Каждый j-й интервал (j = 1,...L) характеризуется определенной частотой и частостью попадания в него соответствующих наблюдений заданного ряда.

Таблица интервального ряда распределений содержит разбивку данных на интервалы, числовую характеристику интервала (начало, середину и конец), а также частоту и частость наблюдений.

В качестве характеристик интервального ряда используются:

  • среднее значение
  • дисперсия
  • среднеквадратическое отклонение
  • коэффициенты асимметрии и эксцесса
  • мода и медиана

Смысл и назначение этих характеристик совпадает с вариационными характеристиками, а формулы вычисления содержат компоненту, учитывающую частоту попадания наблюдений в интервалы.

 

Бутстреп-оценки

Сущность метода сводится к дополнению данных фактических наблюдений данными численного моделирования. При этом моделирование производится только в рамках фактических данных. Входные параметры метода:

{X 1 , X 2 ,..., X n } исходная выборка;

k количество моделируемых выборок (k>50);

p вероятностный уровень оценки математического ожидания

(рекомендуемые значения 0.7-0.9).

Решается задача оценки математического ожидания для малой выборки по следующему алгоритму:

1. Моделирование выборок с использованием датчика натуральных чисел, равномерно распределенных в интервале от 1 до n

2. Для каждой выборки Vj ищется оценка математического ожидания:

3. Для вариационного ряда математических ожиданий выборки строится интервальный ряд, как описано в предыдущем разделе.

4. С хвостов построенного интервального ряда отсекаются интервалы таким образом, чтобы суммарная часть отброшенных интервалов не превосходила (1-р). Оставшиеся интервалы определяют интервальную оценку математического ожидания.

 

 

3. Анализ временных рядов

 

Характеристика динамики

Динамика изменения исследуемого показателя может быть охарактеризована по отношению к какому-то базисному (обычно первому) наблюдению и величиной изменения соседних уровней. В этой связи вычисляются базисные и цепные характеристики. В качестве статистических характеристик временного ряда  используются следующие величины:

Примечание. Использование показателя средней арифметической величины для характеристики процессов, представленных временными рядами с ярко выраженной тенденцией, является некорректным.

 

Оценка наличия тренда

Оценка наличия тренда в исследуемом временном ряду осуществляется при помощи методов Фостера-Стюарта и средних в соответствии с методикой, которая изложена в работе Четыркина Е.М.[27]. В случае противоречивости их выводов предпочтение отдается первому методу.

В соответствии с методом проверки существенности разности средних исходный временной ряд разбивается на две равные (или почти равные) части, после чего проверяется гипотеза о существенности разности средних для этих частей. Недостаток метода состоит в невозможности правильно определить наличие тренда в том случае, когда временной ряд содержит точку изменения тенденции в районе середины ряда.

В методе Форстера-Стюарта гипотеза об отсутствии тренда проверяется с помощью вспомогательных функций:

Проверяется гипотеза о том, что L=0. Для проверки строится t-статистика:

где

которая имеет распределение Стьюдента с T-1 степенями свободы. Гипотеза об отсутствии тенденции отклоняется, если расчетное t-значение больше табличного на выбранном уровне значимости 0.95.

 

Проверка однородности данных

Проверка однородности данных обычно проводится на основе критерия Ирвина, который основан на сравнении соседних значений ряда. В соответствии с ним рассчитывается характеристика λt :

Полученные значения сравниваются затем с табличными значениями. Однако критерий Ирвина недостаточно эффективен для выявления аномальности в динамических рядах, потому что величина σy характеризует отклонения значений показателя от среднего уровня по всей совокупности наблюдений, а значит, он не ловит выбросы внутри ряда наблюдений. В программе используется модифицированный метод, в соответствии с которым последовательно рассчитываются σy не по всей совокупности, а по 3-4 наблюдениям, и рассчитанные с такими скользящими значениями σy величины сравниваются с критическими значениями λ* для n=3.

Проверка не производится для временных рядов с периодом сезонности более единицы, а также для уровней на концах периода наблюдения.

 

Оценка автокорреляционных свойств

Оценка свойств сводится к исследованию автокорреляционной и частной автокорреляционной функции исходного и разностных рядов. Анализ автокорреляции выполняется с помощью графика и критических значений коэффициентов.

Автокорреляционная функция представляет собой совокупность коэффициентов автокорреляции, вычисленных для исследуемого показателя или разностного ряда.

Она используется для оценки тесноты взаимосвязи уровней ряда и подбора соответствующих авторегрессионных моделей. Анализ автокорреляции выполняется с помощью графика автокорреляции; коэффициенты автокорреляции для его построения вычисляются по формуле:

Частная автокорреляционная функция вычисляется по формуле:

где

K максимальная задержка (лаг) функции (обычно K<=n/4);

r автокорреляционная функция (АКФ).

"Чистые" авторегрессионые процессы имеют плавно затухающую АКФ и резко прерывающуюся ЧАКФ. В этом случае в качестве порядка АР-модели выбирают лаг, после которого все ЧАКФ имеют незначительную величину.

 

 

4. Прогнозирование временных рядов

 

Для прогнозирования несезонных и сезонных процессов используется различный математический аппарат.

Динамика многих финансово-экономических показателей имеет устойчивую колебательную составляющую. При исследовании месячных и квартальных данных часто наблюдаются внутригодичные сезонные колебания соответственно с периодом 12 и 4. При использовании дневных наблюдений часто наблюдаются колебания с недельным (пятидневным) циклом. В этом случае для получения более точных прогнозных оценок необходимо не только правильно отобразить тренд, но и колебательную компоненту. Решение этой задачи возможно только при использовании специального класса методов и моделей.

В основе сезонных моделей лежат их несезонные аналоги, которые дополнены средствами отражения сезонных колебаний. Сезонные модели способны отражать как относительно постоянную сезонную волну, так и динамически изменяющуюся в зависимости от тренда. Первая форма относится к классу аддитивных, а вторая к классу мультипликативных моделей. Большинство моделей имеет обе эти формы. Наиболее широко в практике используются модели Хольта-Уинтерса, авторегрессии, Бокса-Дженкинса.

 

Кривые роста

Для аналитического выравнивания временных рядов используются функции с одним параметром t, представляющим собой порядковый номер наблюдения (t=1,2,...N), который интерпретируется как "Время". Модели этого класса получили название "кривые роста". Оценка их параметров производится аналогично построению парной регрессии, в которой объясняющей переменной является время. Для кривых роста реализованы те же вычислительные процедуры, что и в парной регрессии. Как показывает практика, для целей краткосрочного и среднесрочного прогнозирования они являются надежным инструментом.

Метод наименьших квадратов является основным методом численной оценки параметров кривых роста. Оценка качества модели производится по критерию минимума средней квадратической ошибки. Аппроксимация наблюдений сложными функциями дает хорошее приближение к фактическим наблюдениям, но снижает устойчивость модели на периоде прогнозирования. Поэтому использовать для прогнозирования такие модели (например, полином выше второй степени) очень опасно. Особое место среди 18 задействованных в программе моделей занимают две функции, которые не сводятся к модели линейной регрессии. Это функции Гомперца и Логистическая кривая. Для поиска их параметров используется метод многомерной численной оптимизации (в настоящей версии программы метод деформируемого многогранника).

Экстраполяция траектории модели за период наблюдения, т.е. подстановка в модель очередного значения фактора "Время" t=N+1, N+2..., является основой прогнозирования трендовых моделей. Интервальный прогноз в каждой прогнозной точке определяется по соотношениям регрессионного анализа с заданной пользователем доверительной вероятностью.

 

 Адаптивные методы прогнозирования

При краткосрочном прогнозировании обычно более важна динамика развития исследуемого показателя на конце периода наблюдений, а не тенденция его развития, сложившаяся в среднем на всем периоде предыстории. Свойство динамичности развития финансово-экономических процессов часто преобладает над свойством инерционности. Поэтому более эффективными являются адаптивные методы, учитывающие информационную неравнозначность данных.

Адаптивные модели и методы имеют механизм автоматической настройки на изменение исследуемого показателя. Инструментом прогноза является модель (см. Базовые адаптивные модели), первоначальная оценка параметров которой производится по нескольким первым наблюдениям. На ее основе делается прогноз, который сравнивается с фактическими наблюдениями. Далее модель корректируется в соответствии с величиной ошибки прогноза и вновь используется для прогнозирования следующего уровня, вплоть до исчерпания всех наблюдений. Таким образом, модель постоянно "впитывает" новую информацию, приспосабливается к ней и к концу периода наблюдения отображает тенденцию, сложившуюся на текущий момент. Прогноз получается как экстраполяция последней тенденции. В различных методах прогнозирования процесс настройки (адаптации) модели осуществляется по-разному. Базовыми адаптивными моделями являются:

Модель Брауна;

Модель Хольта;

Модель авторегрессии.

Первые две модели относятся к схеме скользящего среднего, последняя к схеме авторегрессии. Многочисленные адаптивные методы базируются на этих моделях и различаются между собой способом числовой оценки параметров, определения параметров адаптации и компоновкой.

Согласно схеме скользящего среднего, оценкой текущего уровня является взвешенное среднее всех предшествующих уровней, причем веса при наблюдениях убывают по мере удаления от последнего (текущего) уровня, т.е. информационная ценность наблюдений тем больше, чем ближе они к концу периода наблюдений.

Согласно схеме авторегрессии, оценкой текущего уровня является взвешенная сумма "p" предшествующих уровней (их количество называется порядком модели). Информационная ценность наблюдений определяется не их близостью к моделируемому уровню, а теснотой связи между ними.

Обе эти схемы имеют механизм отображения колебательного (сезонного или циклического) развития исследуемого процесса.

 

Модель Брауна

Пусть X(t), t=1,..,n временной ряд наблюдений. Прогноз в момент времени t на τ шагов вперед может быть получен по формуле:

где a1,t и a2,t текущие оценки коэффициентов адаптивного полинома.

В модели Брауна модификация (адаптация) коэффициентов линейной модели осуществляется следующим образом:

где

β коэффициент дисконтирования данных;

et ошибка прогнозирования,

Начальные значения параметров модели определяются по МНК на основе нескольких первых наблюдений. Оптимальное значение параметра дисконтирования находится в переделах от нуля до единицы, определяется методом численной оптимизации и является постоянным для всего периода наблюдений.

Оператор В сдвигает всю последовательность на один шаг назад: Bx(t)=x(t-1). Применение оператора В к наблюдениям и к коэффициентам адаптивного полинома позволяет выразить модель Брауна в виде:

,

из чего следует, что модель Брауна можно трактовать как модель авторегрессии скользящего среднего АРСС(p,d,q) с p=0, d=2, q=2 и коэффициентами скользящего среднего -2β и β2 .

В таблице "Параметров модели" для модели Брауна отображается оптимальное значение коэффициента β .

 

Модель Хольта

В модели Хольта коэффициенты линейной модели

модифицируются по следующим соотношениям:

Начальные значения параметров модели находятся по МНК на основе нескольких первых наблюдений. Оптимальные значения параметров сглаживания α1 и α2 находятся в переделах от нуля до единицы. Они определяются методом многомерной численной оптимизации и являются постоянными для всего периода наблюдений.

Аналогично модели Брауна, модель Хольта в терминах АРСС-моделей представима в виде:

Формулировка адаптивных моделей в терминах линейных параметрических моделей авторегрессии скользящего среднего позволяет трактовать их как подмножество класса линейных параметрических моделей. Таким образом, устанавливается соответствие между двумя, вообще говоря, различными подходами к моделированию временных рядов.

В таблице параметров модели для модели Хольта отображаются оптимальные значения коэффициентов α1, α2.

 

Модель Хольта-Уинтерса

Модель для сезонных процессов существует в аддитивной форме и мультипликативной. Прогноз на τ шагов вперед для аддитивной формы строится по формуле:

а модификация параметров производится по соотношениям:

,

где

g фактор сезонности,

s период сезонного цикла.

Для несезонных временных рядов вычислительные формулы упрощаются за счет исключения сезонной компоненты. При построении модели производится численная оптимизация параметров адаптации, значения которых изменяются от нуля до единицы.

 

Модель авторегрессии

В модели авторегрессии AP(p) порядка "p" текущий уровень ряда представляется в виде взвешенной суммы "p" предыдущих наблюдений:

X(t)= a1*X(t-1)+a2*X(t-2)+...+a(p)*X(t-p)

Параметры модели могут быть оценены по МНК (простая авторегрессия) или иным методом (как в методе Бокса-Дженкинса). Порядок авторегрессии (величина "p") определяется путем перебора, а его начальная оценка формируется на основе анализа автокорреляционной функции. Лучшей считается величина, при которой достигнута наименьшая дисперсия ошибок.

В сезонной модели авторегрессии AP(p) порядок выбирается равной периоду сезонности (колебаний). Во многих случаях сезонная АР(р) модель с оценками по МНК оказывается "перегруженной" незначимыми коэффициентами, и вследствие этого она обычно уступает аналогичной модели Бокса-Дженкинса.

Для повышения устойчивости модели в большинстве случаев целесообразно строить ее для стационарного процесса, т.е. ряда с исключенной тенденцией. В программе удаление тенденции осуществляется на основе разностного оператора.

 

Метод Бокса-Дженкинса

Если временной ряд стационарный, что означает наличие статистического равновесия относительно постоянной средней с, он может быть представлен широким классом линейных моделей, называемых моделями авторегрессии-скользящего среднего (АРСС). Это значит, что

где

значения предварительно преобразованной переменной,

at - процесс "белого шума",

φ1,..., φp -параметры авторегрессии,

θ1,..., θq - параметры скользящего среднего.

Если использовать оператор сдвига назад B

то АРСС-модель можно записать в операторной форме:

Параметры должны удовлетворять следующим условиям:

Для стационарности корни уравнения φ(B) = 0 должны лежать вне единичного круга для оператора авторегрессии φ(B) (ряды находятся в статистическом равновесии относительно фиксированного среднего),

Для обеспечения обратимости корни уравнения θ(B) = 0 должны лежать вне единичного круга для оператора скользящего среднего θ(B) .

Чтобы добиться экономии параметров, в модель включают одновременно операторы авторегрессии и скользящего среднего.

В то время как авторегрессионые модели и модели скользящего среднего были известны относительно давно, их использование в моделировании временных рядов было затруднено по следующим причинам:

отсутствие соответствующих методов идентификации, оценивания и контроля этих моделей,

наличие неадекватных методов для описания нестационарных рядов.

При формализации нестационарных рядов используют такие классы моделей, которые пригодны для представления широкого диапазона практических ситуаций, т.е. используют конечные разности порядка d:

(Конечная разность первого порядка ).

Стационарный ряд можно затем представить в помощью АРСС модели

Определенная выше модель называется авторегрессионой интегрированной моделью скользящего среднего, или АРИСС(p,d,q). Взаимосвязанная статистическая методика, включающая в себя:

  • идентификацию временного ряда (т.е. определение размерностей операторов конечной разности, авторегрессии и скользящего среднего),
  • оценивание параметров модели,
  • проверку адекватности модели,
  • получила название метода Бокса-Дженкинса по имени авторов.

Сезонная модель Бокса-Дженкинса содержит сезонные операторы конечной разности, авторегрессии и скользящего среднего. В операторном виде она приобретает вид:

где

S - период сезонности,

- оператор сезонной конечной разности,

D - порядок сезонной конечной разности,

Φ - оператор сезонной авторегрессии порядка P,

θ - оператор сезонного скользящего среднего порядка Q,

d, φ , Q - определены выше.

Модель называется сезонной моделью авторегрессии-скользящего среднего (p,d,q)x(P,D,Q). Основные этапы разработки сезонной модели такие же, как и для несезонной модели.

 

Метод ОЛИМП

Метод ОЛИМП является распространением моделей авторегрессии скользящего среднего для моделирования нестационарных временных рядов. Нами теоретически доказано, что такое обобщение корректно для широкого класса временных рядов.

Формально соотношения модели ОЛИМП соответствуют модели АРСС(p,q), за исключением того, что на вход модели поступает нестационарный, вообще говоря, временной ряд. Так же как и для несезонных моделей, сезонная модель ОЛИМП отличается от АРСС-моделей тем, что на ее вход могут поступать нестационарные временные ряды, которые не приводятся к стационарным путем взятия конечных разностей. В операторном виде модель ОЛИМП (p,q)х(P,Q) имеет вид:

С точки зрения общих соображений размерности операторов авторегрессии для модели ОЛИМП должны быть несколько больше, чем для модели Бокса-Дженкинса при моделировании одинаковых временных рядов.

Если идентифицирована модель БоксаДженкинса с параметрами p,d,q, то соответствующая модель ОЛИМП должна иметь параметры: p'=p+d, q'=q.

В работе [3, 4], доказано следующее утверждение. Пусть процесс yt удовлетворяет стохастическому разностному уравнению порядка p (авторегрессионый процесс)

где

Φi - коэффициенты оператора авторегрессии,

Ut - последовательность независимых одинаково распределенных случайных величин с дисперсией , известны начальные значения y-p ,y -p+1 , ...,y-1. Тогда прогноз вида

где

E - оператор математического ожидания, будет иметь наименьшую дисперсию вне зависимости от значения корней характеристического уравнения.

Сравнительные характеристики двух подходов к моделированию авторегрессионных процессов приведены в таблице.

Оказалось также, что статистические оценки модели являются состоятельными также вне зависимости от значения корней характеристического уравнения. В практическом плане свойства состоятельности оценок оказываются вполне достаточны для их использования.

 

Оценка качества моделей

Качество модели оценивается, как правило, двумя дополняющими друг друга характеристиками: точностью и адекватностью. Каждая из них, в свою очередь, имеет несколько критериев. Они с разных сторон и не всегда однозначно характеризуют исследуемый процесс. Поэтому существует необходимость в их интегрированной оценке. На основе отдельных критериев точности и адекватности, рассмотренных ниже, формируется обобщенный критерий.

Схема формирования интегрированных критериев точности и адекватности, а также общего критерия качества прогнозирования состоит в следующем. С помощью механизма параметров пакета формируется состав отдельных критериев, на основе которых рассчитывается интегрированный показатель. Так, точность может характеризоваться только коэффициентом детерминации, или дисперсией и средней ошибкой аппроксимации, или всеми тремя перечисленными выше критериями точности.

Предварительно для каждого отдельного критерия разрабатывается процедура его нормировки. Нормированный критерий получается из исходной статистики критерия таким образом, чтобы выполнялись условия:

  • нормированный критерий равен 100, если модель абсолютно точная (адекватная),
  • нормированный критерий равен 0, если модель абсолютно неточная (неадекватная).

Проблема нормирования решается специальным образом для каждого из критериев качества модели прогнозирования. Числовое значение каждого показателя лежит в диапазоне от 0 до 100. То же самое относится к интегрированному критерию адекватности.

Обобщенный критерий качества модели формируется как взвешенная сумма обобщенного критерия точности и обобщенного критерия адекватности. Веса этих слагаемых составляют соответственно 0.75 и 0.25, т.е. точностным характеристикам придается больший вес. В качестве представителя характеристик точности используется нормированное значение средней относительной ошибки аппроксимации, а в качестве представителя критериев адекватности нормированное значение критерия Дарбина-Уотсона и характеристики нормального закона распределения остаточной компоненты. Числовое значение обобщенного критерия качества лежит в диапазоне от 0 до 100. Минимальное значение соответствует абсолютно плохой модели, а максимальное идеально отображающей развитие показателя. Обобщенный критерий качества модели сформирован в соответствии со схемой формирования интегрированных критериев. Наш опыт применения этого показателя показывает, что достаточно надежными являются модели, имеющие оценку качества не менее 75.

Формально-статистический выбор лучшей модели во многих случаях не дает полной уверенности в его правильности. Поэтому кроме указанной программой модели целесообразно просмотреть результаты прогнозирования других моделей, имеющих близкое значение критерия качества.

 

Адекватность моделей

АДЕКВАТНЫМИ моделями считаются такие, у которых остаточная компонента имеет свойства независимости, случайности и нормальности распределения.

Критерий Дарбина-Уотсона является наиболее распространенным критерием для проверки корреляции внутри ряда. Если величина

,

где

ei - расхождение между фактическими и расчетными уровнями, имеет значение, близкое к 2, то можно считать модель регрессии достаточно адекватной.

Для построения интервального прогноза необходимо выполнение свойства нормальности распределения остаточной компоненты. Оценка выполнения этого свойства осуществляется на основе коэффициентов асимметрии и эксцесса, которые приведены в разделе дескриптивных статистик.

При оценке адекватности уравнения регрессии учитывается также корреляционное отношение, которое характеризует долю дисперсии зависимой переменной, объясняемой уравнением регрессии. Корреляционное отношение рассчитывается по формуле:

где

- расчетные значения зависимой переменной,

-среднее значение.

 

Точность модели

Точность модели характеризует близость расчетных наблюдений к фактическим на периоде аппроксимации. Считается, что модели с меньшим расхождением между фактическими и расчетными значениями лучше отражают исследуемый процесс. Для характеристики степени близости используются:

  • среднее квадратическое отклонение (или дисперсия), учитывающее сложность модели;
  • коэффициент детерминации (чем ближе к 1, тем более точная модель);
  • средняя относительная ошибка аппроксимации (чем ближе к 0, тем точнее модель);
  • среднее значение (должно быть близко к нулю);
  • максимальное отклонение.

Статистически точность прогнозов можно оценить только используя ретропрогноз, суть его состоит в построении модели по усеченному объему данных (N-k) точек с последующим сравнением прогнозных оценок с известными (фактическими), но умышленно "забытыми" k уровнями ряда. По результатам сравнения вычисляются следующие показатели точности:

  • среднее значение;
  • среднеквадратическое отклонение;
  • средний модуль ошибок прогнозирования (%);
  • максимальное и минимальное отклонение.

Чем меньше значение этих величин, тем выше качество ретропрогноза. Этот подход дает хорошие результаты, если на периоде ретропрогноза не содержится принципиально новых закономерностей.

 

Построение обобщенного прогноза

На практике, часто встречается ситуация, когда среди построенных моделей несколько оказались адекватными, а различия между их характеристиками точности невелики. В этом случае целесообразно строить обобщенный прогноз. В программе он формируется как линейная комбинация частных прогнозов:

где

M - число объединяемых прогнозов;

pj - весовые коэффициенты частных прогнозов;

yj - частные прогнозы.

Весовые коэффициенты определяются из условия минимума дисперсии ошибок обобщающего прогноза т.е. максимума его точности, которая находится как сумма всех элементов ковариационной матрицы ошибок частных прогнозов с соответствующими весами:

где

kij - корреляционный момент, характеризующий совместное распределение ошибок

i и j - частных прогнозов;

σi, σj - средние квадратичные ошибки;

rij коэффициент корреляции между рядами ошибок частных прогнозов yi и yj .

На весовые коэффициенты накладывается ограничение: их сумма должна давать единицу. Это необходимое условие того, чтобы дисперсия обобщающего прогноза не превышала дисперсии частных прогнозов. Тогда ковариационная матрица ошибок частных прогнозов будет иметь вид:

Дисперсия обобщающего прогноза будет равна сумме всех элементов матрицы:

В точке минимума функции все (М-1) первые частные производные должны обращаться в нуль.

Приравняв к нулю все (М-1) первые частные производные по переменным p1,p2 ,...,pM-1 получаем систему (М-1) линейных уравнений с (М-1) неизвестными:

Коэффициенты при переменных составят матрицу В, элементы которой определяются следующим образом:

Вектор свободных членов будет состоять из элементов:

Такая система уравнений может быть решена одним из методов линейной алгебры.

Алгоритм объединения частных прогнозов можно представить в виде следующих последовательно выполняемых процедур:

1. Вычисляются дисперсии ошибок частных прогнозов и строится ковариационная матрица

где

ej - ошибки частных прогнозов

t - порядковый номер наблюдения

2. Строятся матрица В и вектор С по формулам:

3. Из решения системы линейных уравнений определяется (М-1) значение pj , а последний весовой коэффициент pM определяется по формуле:

4. Проверка условия:

Если условие не выполняется, прогнозы yj исключаются и производится перерасчет весовых коэффициентов (к пункту 2).

5. Если все весовые коэффициенты положительны, вычисляется значение обобщающего прогноза:

и коэффициент условной эффективности:

где

- дисперсия ошибок комплексного прогноза;

дисперсия ошибок наилучшего частного прогноза.

Так как в большинстве случаев точность прогнозов изменяется во времени, формулы оценки весовых коэффициентов модифицируются так, что более поздним ошибкам присваивается большее значение; таким образом происходит корректировка обобщающего прогноза путем изменения весовых коэффициентов в сторону наилучшего частного прогноза:

где

pjT - весовой коэффициент частного прогноза в момент времени Т;

yjT - частный прогноз в момент времени Т;

y0T - обобщенный прогноз в момент времени T.

Для повышения стабильности динамики изменения весов в алгоритме их корректировки используется схема экспоненциального сглаживания.

Для проведения обобщения необходимо иметь не менее двух адекватных моделей. В целях повышения устойчивости результатов количество обобщаемых частных прогнозов не должно превышать пяти.

 

 

5. Корреляционный анализ

 

Основными задачами корреляционного анализа являются:

  • измерение степени связи двух или более явлений;
  • отбор факторов, оказывающих наиболее существенное влияние на результативный признак на основании измерения степени связности между явлениями;
  • обнаружение ранее неизвестных причинных связей. Корреляция непосредственно не выявляет причинных связей между явлениями, но устанавливает численное значение этих связей и достоверность суждений об их наличии.

При проведении корреляционного анализа вся совокупность данных рассматривается как множество переменных (факторов), каждая из которых содержит n наблюдений; xik - наблюдение i переменной k; xk - среднее значение k-ой переменной; i=1,...,n.

Основными средствами анализа являются:

  • парные коэффициенты корреляции;
  • частные коэффициенты корреляции;
  • множественные коэффициенты корреляции.

Парные коэффициенты корреляции опосредованно учитывают влияние других факторов. Для исключения этого влияния определяют частные коэффициенты корреляции.

 

Парные коэффициенты корреляции

Парный коэффициент корреляции между k-м и L-м факторами вычисляется по формуле:

Он служит показателем тесноты линейной статистической связи, но только в случае совместной нормальной распределенности случайных величин, выборками которых являются k-й и L-й факторы.

При этих же предпосылках для проверки гипотезы о равенстве нулю парного коэффициента корреляции используется t-статистика, распределенная по закону Стьюдента с n-2 степенями свободы. В программе для парного коэффициента корреляции сначала рассчитывается критическое значение tстатистики,, а на его основе критическое значение коэффициента корреляции

Если расчетное значение больше критического, то гипотеза о равенстве нулю данного коэффициента корреляции отвергается на соответствующем вероятностном уровне. Аналогичные выводы имеют место при проверке значимости частных коэффициентов корреляции.

 

Частные коэффициенты корреляции

Частный коэффициент корреляции первого порядка между k-м и L-м факторами характеризует тесноту их линейной связи при фиксированном значении j-го фактора. Он определяется как

Он распределен аналогично парному коэффициенту при тех же предпосылках, и для проверки его значимости используется t-статистика, в которой число степеней свободы равно n-3. В программе частный коэффициент корреляции рассчитывается в общем виде, т.е. при условии, что все остальные переменные фиксированные:

Здесь Dij определитель матрицы, образованной из матрицы парных коэффициентов корреляции вычеркиванием i-й строки и j-го столбца. Для каждого частного коэффициента корреляции аналогично парному рассчитывается t-значение для проверки значимости коэффициента, а также доверительные интервалы. При этом дисперсия zпреобразованной величины будет равна 1/(n-L-3), где L- число фиксированных переменных (в программе L=m-2).

 

Множественные коэффициенты корреляции

Для определения тесноты связи между текущей k-й переменной и оставшимися (объясняющими) переменными, используется выборочный множественный коэффициент корреляции:

где

D - определитель матрицы парных коэффициентов корреляции.

Для проверки статистической значимости коэффициента множественной корреляции используется величина:

 

 имеющая F- распределение с L и (n-L-2) степенями свободы соответственно. Если рассчитанное F-значение больше значения F-распределения на соответствующем вероятностном уровне (0.9 и выше), то гипотеза о линейной связи между k-й переменной и остальными переменными не отвергается. В программе для каждого коэффициента множественной корреляции выводится F-значение и процентная точка F-распределения, которая ему соответствует.

 

 

6. Регрессионный анализ

 

В регрессионном анализе решаются следующие задачи:

  • установление форм зависимости (положительная, отрицательная, линейная, нелинейная);
  • определение функции регрессии. Важно не только указать общую тенденцию изменения зависимой переменной, но и выяснить, каково было бы действие на зависимую переменную главных факторов причин, если бы прочие (второстепенные, побочные) факторы не изменялись бы (находились бы на одном и том же среднем уровне), и если были бы исключены случайные элементы;
  • оценка неизвестных значений зависимой переменной.

Уравнение множественной линейной регрессии имеет вид:

y = a0 + a1x1+...+amxm

В каждом виде регрессионного анализа необходимо выбрать зависимую переменную Y (для которой строится уравнение регрессии) и одну или несколько независимых переменных xi (i=1,2,...m).

Это уравнение позволяет установить статистическую взаимосвязь изучаемых показателей и, в случае ее устойчивости, давать аналитические и прогнозные оценки.

На базовом периоде времени строится уравнение регрессии зависимой переменной. Далее производится расчет прогнозных значений зависимой переменной по рассчитанному уравнению регрессии. При этом для всех регрессоров заранее должны быть получены их прогнозные оценки и дописаны в конец исходных данных. Для зависимой переменной в таблицу исходных данных на глубину периода прогнозирования необходимо дописать нулевые значения.

 

Линейная множественная регрессия

В линейном регрессионном анализе рассматривается зависимость случайной величины Y от ряда исходных факторов (регрессоров) X1,X2 ,...,Xm , которая в силу влияния неучтенных факторов будет стохастической. В матричной записи она имеет вид:

Y = Xβ + ε

где

Y - вектор значений переменной,

X - матрица независимых переменных,

β - подлежащий определению вектор параметров,

ε - вектор случайных отклонений.

В регрессионном анализе действуют следующие предположения:

матрица X детерминирована и ее столбцы линейно независимы.

МНК-оценки находятся из условия минимума функционала:

(Y -Xβ )T (Y - Xβ)

Оценки параметров имеют вид:

и являются несмещенными и эффективными.

Пусть - эмпирическая аппроксимирующая регрессия.

Тогда элементы вектора

называются остатками. Анализ остатков позволяет судить о качестве построенного уравнения регрессии.

 

Пошаговая регрессия

Пошаговая регрессия является одним из методов определения наилучшего подмножества регрессоров для объяснения Y. Реализуется пошаговая процедура с последовательным включением переменных в уравнение регрессии.

Пусть в уравнение регрессии включено L переменных, т.е. сделано L шагов алгоритма, и осуществляется L+1 шаг. Основной вопрос, который решается на каждой итерации это вопрос о том, какую переменную включать в уравнение регрессии.

Для каждой переменной регрессии, за исключением тех переменных, которые уже включены в модель, рассчитывается величина Cj , равная относительному уменьшению суммы квадратов зависимой переменной. При включении переменной в уравнение регрессии она интерпретируется как доля оставшейся дисперсии независимой переменной, которую объясняет j-я переменная. Пусть k номер переменной, имеющей максимальное значение j-го элемента. Тогда если Ck где p заранее определенная константа, то анализ переменных прекращается, и больше переменных не вводится в модель. В противном случае k-я переменная вводится в уравнение регрессии. Константа p является параметром метода и может быть изменена пользователем.

 

Гребневая регрессия

Гребневая регрессия основана на гребневых оценках, направленных на оценивание множественных линейных регрессий в условиях мультиколлинеарности, т.е. сильной корреляции независимых переменных. Как известно, следствием мультиколлинеарности является плохая обусловленность матрицы X'X и бесконечное возрастание по этой причине дисперсии оценок линейной регрессии.

Матрица X'X регуляризуется путем добавления малого положительного числа к диагональным элементам. В программе реализован алгоритм построения однопараметрической гребневой оценки вида:

a(k) = (X'X +kD) X'Y, k >= 0 ,

где

k - параметр регуляризации;

D - матрица регуляризации, в качестве которой может быть выбрана единичная матрица или диагональная матрица, составленная из диагональных элементов матрицы X'X.

Для автоматического расчета параметра k выбрана формула

k=ms/a'a,

где

a - вектор оценок регрессии по МНК,

s - оценка остаточной дисперсии по МНК.

Тем не менее, пользователь имеет возможность произвольно изменять значения параметра регуляризации.

 

Парная регрессия

Парная регрессия устанавливает связь между откликом Y и функцией, зависящей от одной входной переменной X, т.е. регрессия имеет вид: Y = f(X). Функции f, включенные в парную регрессию в настоящем пакете, удовлетворяют двум основным условиям: они распространены в практике экономических исследований, каждое из уравнений регрессии путем преобразований типа логарифмирования и возведения в степень сводится к линейной модели.

Для реализации функции парной регрессии необходимо выбрать переменную Y (зависимая переменная), переменную X (объясняющая переменная), а также сформировать список функций парной регрессии.

Основные функции парной регрессии и соответствующие преобразования приведены в таблице:

Для каждой функции из списка будут найдены оценки регрессии по методу наименьших квадратов, а также рассчитан критерий. Критерием является величина:

где

k - число оцениваемых параметров функции.

Та функция, которой соответствует минимальное значение критерия, считается оптимальной. Для нее рассчитываются все параметры и результаты выводятся в протокол "Регрессионный анализ".

 

Экономическая интерпретация результатов

С помощью коэффициентов регрессии нельзя сопоставить факторы по степени их влияния на зависимую переменную из-за различий единиц измерения и степени колеблемости. Для устранения этого применяется:

  • коэффициент эластичности;
  • дельта-коэффициент;
  • бета-коэффициент.

Как с помощью частных коэффициентов эластичности, так и с помощью бета-коэффициентов можно проранжировать факторы по степени их влияния на зависимую переменную, т.е. сопоставить их между собой по величине этого влияния. Вместе с тем нельзя непосредственно оценить долю влияния фактора в суммарном влиянии всех факторов. Для этой цели используют дельта-коэффициенты.

 

Коэффициент эластичности

Для экономической интерпретации нелинейных связей обычно пользуются коэффициентом эластичности, который характеризует относительное изменение зависимой переменной при изменении объясняющей переменной на 1%. Если уравнение регрессии имеет вид y = f(x), то коэффициент эластичности рассчитывается как

где

- среднее значение переменной x,

- среднее значение переменной y.

Производная берется в точке .

Аналитические выражения для расчета коэффициента эластичности с точностью до знака приведены в таблице :

 

Дельта-коэффициент

Доля вклада каждого фактора в суммарное влияние всех факторов равна:

где

R2 - коэффициент множественной детерминации,

ri - коэффициент парной корреляции между i-м фактором и зависимой переменной,

- β-коэффициент.

При корректно проводимом анализе величины дельта-коэффициентов положительны, т.е. все коэффициенты регрессии имеют тот же знак, что и соответствующие парные коэффициенты корреляции.

Тем не менее, в случаях сильной коррелированности объясняющих переменных, некоторые дельта-коэффициенты могут быть отрицательными вследствие того, что соответствующий коэффициент регрессии имеет знак, противоположный парному коэффициенту корреляции.

 

Бета-коэффициент

Для устранения различий в измерении и степени колеблемости факторов используется коэффициент, или коэффициент регрессии в стандартизованном виде:

где

bj - коэффициент регрессии при j-й переменной,

Sj - оценка среднеквадратического отклонения j-й переменной,

Sy - оценка среднеквадратического отклонения независимой переменной.

Он показывает, на какую часть величины среднего квадратического отклонения меняется среднее значение зависимой переменной с изменением соответствующей независимой переменной на одно среднеквадратическое отклонение при фиксированном на постоянном уровне значении остальных независимых переменных.

 

 

7. Факторный и компонентный анализ

 

Компонентный анализ является методом определения структурной зависимости между случайными переменными. В результате его использования получается сжатое описание малого объема, несущее почти всю информацию, содержащуюся в исходных данных. Главные компоненты Y1,Y2 ,...,Ym получаются из исходных переменных X1 ,X2 ,...,Xm путем целенаправленного вращения, т.е. как линейные комбинации исходных переменных. Вращение производится таким образом, чтобы главные компоненты были ортогональны и имели максимальную дисперсию среди возможных линейных комбинаций исходных переменных X. При этом переменные Y1,Y2 ,...,Ym не коррелированны между собой и упорядочены по убыванию дисперсии (первая компонента имеет наибольшую дисперсию). Кроме того, общая дисперсия после преобразования остается без изменений. Итак, i-я главная компонента Yi:

Пусть R - корреляционная матрица переменных X. Тогда α 1 j - первый собственный вектор матрицы R, и т.д. Кроме того, дисперсия первой главной компоненты равна первому собственному числу матрицы R, дисперсия второй главной компоненты равна второму собственному числу матрицы R, и т.д.

Факторный анализ является более общим методом преобразования исходных переменных по сравнению с компонентным анализом. Модель факторного анализа имеет вид:

где

λij - постоянные величины, называемые факторными нагрузками,

Fj - общие факторы, используемые для представления всех p исходных переменных,

ei специфические факторы, уникальные для каждой переменной, p <= m.

Задачами факторного анализа являются: определение числа общих факторов, определение оценок λ, определение общих и специфических факторов.

Для получения оценок общностей и факторных нагрузок используется эмпирический итеративный алгоритм, который сходится к истинным оценкам параметров. Сущность алгоритма сводится к следующему.

Первоначальные оценки факторных нагрузок определяются с помощью метода главных факторов. На основании корреляционной матрицы R формально определяются оценки главных компонент:

Оценки общих факторов ищутся в виде:

где

λi - соответствующее собственное значение матрицы R.

Оценками факторных нагрузок служат величины

где

aij - оценки αij ,

Lij - оценки λij.

Оценки общностей получаются как

На следующей итерации модифицируется матрица R - вместо элементов главной диагонали подставляются оценки общностей, полученные на предыдущей итерации; на основании модифицированной матрицы R с помощью вычислительной схемы компонентного анализа повторяется расчет главных компонент (которые не являются таковыми с точки зрения компонентного анализа), ищутся оценки главных факторов, факторных нагрузок, общностей, специфичностей. Факторный анализ можно считать законченным, когда на двух соседних итерациях оценки общностей меняются слабо.

Примечание. Преобразования матрицы R могут нарушать положительную определенность матрицы R и, как следствие, некоторые собственные значения R могут быть отрицательными.

Для лучшей интерпретации полученных общих факторов к ним применяется процедура варимаксного вращения.

Если факторный анализ ведется в терминах главных компонент, то значения факторов могут быть вычислены непосредственно. Главные компоненты (без вращения) могут быть представлены в виде:

где

a jp - коэффициенты при общих факторах,

λ p - собственные значения,

x j  - исходные данные (вектор-столбцы),

Fp - главные компоненты (вектор-столбцы).

В случае вращения главных компонент соотношения, связывающие исходные переменные и значения факторов, несколько усложняются. Ниже в матричном виде приведено соотношение, оптимальное по скорости вычисления, а также независимое от метода вращения факторов:

 

где

B T - повернутая матрица A,

A - матрица коэффициентов при общих факторах,

Λm - диагональная матрица m собственных членов,

x - матрица исходных данных,

F - матрица m повернутых факторов.

При определении числа общих факторов руководствуются следующими критериями: число существенных факторов можно оценить из содержательных соображений, в качестве p берется число собственных значений, больших либо равных единице (по умолчанию), выбирается число факторов, объясняющих определенную часть общей дисперсии или суммарной мощности.

 

 

8. Кластерный анализ

 

Классификация объектов по осмысленным группам, называемая кластеризацией, является важной процедурой в различных областях научных исследований. Кластерный анализ (КА) это многомерная статистическая процедура, упорядочивающая исходные данные (объекты) в сравнительно однородные группы. Общим для всех исследований, использующих КА, являются пять основных шагов:

  • отбор выборки для кластеризации;
  • определение множества признаков, по которым будут оцениваться объекты в выборке;
  • вычисление значений той или иной меры сходства между объектами;
  • применение метода КА для создания групп исходных данных;
  • проверка достоверности результатов кластерного решения.

Каждый из перечисленных шагов играет существенную роль при использовании кластерного анализа в прикладном анализе данных. При этом 1, 2 и 5 шаги целиком зависят от решаемой задачи и должны определяться пользователем. Шаги 3 и 4 выполняются программой кластерного анализа.

Сделаем несколько замечаний общего характера.

Многие методы КА довольно простые процедуры, которые не имеют, как правило, строгого статистического обоснования. Другими словами, большинство методов КА являются эвристическими. Это позволяет повысить понимание метода и, таким образом, свести к минимуму вероятность допустить ошибку при трактовке результатов КА.

Разные кластерные методы могут порождать различные решения для одних и тех же данных. Это обычное явление в большинстве прикладных исследований. По-видимому, окончательным критерием является удовлетворенность исследователя результатами КА.

Разработанные кластерные методы образуют семь основных семейств:

  • иерархические агломеративные методы;
  • иерархические дивизимные методы;
  • итеративные методы группировки;
  • методы поиска модальных значений плотности;
  • факторные методы;
  • методы сгущений;
  • методы, использующие теорию графов.

По данным некоторых исследований, приблизительно 2/3 приложений КА используют иерархические агломеративные методы. Рассмотрим его сущность на примере наиболее простого метода одиночной связи.

Процесс кластеризации начинается с поиска двух самых близких объектов в матрице расстояний. На последующих шагах к этой группе присоединяется объект, наиболее близкий к одному из уже находящихся в группе. По окончании кластеризации все объекты объединены в один кластер. Отметим несколько важных особенностей иерархических агломеративных методов. Во-первых, все эти методы просматривают матрицу расстояний размерностью N*N (где N число объектов) и последовательно объединяют наиболее схожие объекты. Именно поэтому они называются агломеративными (объединяющими). Во-вторых, последовательность объединения кластеров можно представить визуально в виде древовидной диаграммы, часто называемой дендрограммой. Наконец, для понимания этого класса методов не нужны обширные знания матричной алгебры или математической статистики. Вместо этого дается правило объединения объектов в кластеры.

Для "ОЛИМП:СтатЭксперт" разработана программа кластерного анализа, основанная на иерархической агломеративной процедуре и позволяющая пользователю управлять процессом кластеризации. Коротко поясним сущность предлагаемого метода.

Сначала ищутся два наиболее близких объекта (предположим, A и B). Предположим, что расстояние между объектами A и B равно R. В один кластер объединяются объекты, расстояние между которыми меньше, чем (10-C)*R, где C четкость классификации, параметр управления процессом, принимающий значения от 1 до 10, который может меняться пользователем. При С=10 на каждом шаге объединяются только два самых близких элемента, т.е. имеет место иерархическая агломеративная процедура в чистом виде. Однако, как показывает практика использования КА, пользователю важнее выделить в пространстве группы объектов с разной плотностью. В этом случае величину С необходимо уменьшать. Минимальное расстояние R пересчитывается на каждом шаге кластерного анализа.

Объединение. На каждом шаге кластерного анализа происходит объединение объектов, т.е. из нескольких объектов образуется один кластер. Процедура кластеризации заканчивается тогда, когда все первичные объекты исчерпаны. Допустим, на k-м шаге объединяются n объектов. Из этих объектов образуется один кластер как центр тяжести этих объектов (среднее арифметическое по каждой координате).

Размерность задачи уменьшается на величину n-1 (n объектов удаляются, один добавляется). Далее производится пересчет матрицы расстояний.

В программе реализован кластерный анализ наблюдений, т.е. в результате вычислительной процедуры каждое наблюдение относится к той или иной группе. Кластеризация проводится на основе одной из двух метрик:

Евклидово расстояние:

Корреляционное расстояние:

где

x = { x1,x2 ,...,xk } и y ={y1,y2 ,...,yk } - две точки;

rxy - парный коэффициент корреляции между x и y.

 

Графическая интерпретация

Для графической интерпретации результатов кластерного анализа приводится график расположения исходных объектов в пространстве первых двух главных компонент. При этом объекты, попавшие в один кластер, отображаются одним цветом.

Примечание. Иногда объекты из разных кластеров расположены столь близко, что может создаться иллюзия о неправильной классификации. Это связано с тем, что классификация проводится по большому числу переменных, а график строится по двум координатам (хотя и отражающим основные особенности данных), поэтому некоторые расхождения между результатом классификации и графическим отображением неизбежны.

 

 

9. Частотный анализ

 

Вместе с долговременными изменениями во временных рядах часто появляются более или менее регулярные колебания. Эти изменения наблюдаемых значений могут быть строго периодическими или близкими к таковым и оцениваться в частотном аспекте. Для выявления наличия и устойчивости периода колебаний обычно используется следующий аппарат частотного анализа:

  • гармонический анализ
  • спектральный анализ
  • частотная фильтрация
  • кросс-спектральный анализ.

Этот аппарат позволяет с разных позиций анализировать исследуемый показатель, однако он эффективен лишь при наличии достаточно большого объема данных (по разным литературным источникам желательно иметь 200-300 наблюдений, но не менее 50 наблюдений), из которых предварительно исключена тенденция (за исключением методов частотной фильтрации).

Дадим определения основных терминов частотного анализа.

Интервал времени, необходимый для того, чтобы временной ряд начал повторяться, называется периодом. Он измеряется числом единиц времени за цикл и не является единственным. Если между пиками (высшими точками) или впадинами (низшими точками) проходит 10 месяцев, то период этого цикла равен 10 месяцам.

Величина, обратная периоду, называется частотой ряда. Она указывает число повторений цикла в единицу времени и поэтому измеряется числом циклов в единицу времени. Если между пиками (высшими точками) или впадинами (низшими точками) проходит 10 месяцев, то период этого цикла равен 10 месяцам, а частота 1/10.

Амплитуда периодического ряда это отклонение от среднего значения до пика или впадины.

Фаза представляет собой расстояние между началом отсчета времени и ближайшим пиковым значением.

 

Гармонический анализ

Временной ряд наблюдений может быть представлен с помощью линейных комбинаций функций времени синусов и косинусов, на основании конечного преобразования Фурье. Гармонический анализ позволяет выявить наиболее существенные гармоники. Пусть Y(t) временной ряд t=1,2...T. Тогда имеет место следующее представление ряда:

где

- оценка математического ожидания ряда Y(t). Последнее слагаемое добавляется в том случае, когда T четное число. Коэффициенты вычисляются по соотношениям:

Таким образом, временной ряд представлен в виде суммы гармоник. Мощность каждой гармоники равна

k-я гармоника считается статистически значимой, если она вносит существенный вклад в дисперсию временного ряда, то есть если отвергается статистическая гипотеза о том, что Rk =0. Для проверки гипотезы вычисляется критерий:

где

- оценка дисперсии отклонения вычисляемых значений от фактических:

Вычисляемая величина имеет F- распределение с n1 = 2 и ν2 = T - 3 степенями свободы. Гипотеза отвергается, то есть гармоника считается значимой, если вычисленная величина больше, чем 95% точка F-распределения с соответствующими степенями свободы.

 

Спектральный анализ

Рассмотрим алгоритм спектрального анализа. Пусть x(t), t = 0,1, ... , T временной ряд. Тогда его периодограмма рассчитывается как

Предполагается, что исходные данные квантованы с интервалом 1 и, следовательно, частота Найквиста для них равна 0,5. Поэтому периодограмма и спектральная плотность рассчитывается на интервале от 0 до 0.5. в точках f(j)=j/2M, j=0,1,...M.

Оценка спектральной плотности, реализованная в программе, основана на оценке Бартлетта, которая является усреднением периодограмм, вычисленных по непересекающимся отрезкам временных рядов. В программе спектральная плотность при T=L*V оценивается аналогично, только временные интервалы могут пересекаться. Пусть

где

V - ширина временного интервала;

l - номер интервала;

S - смещение текущего временного интервала относительно предыдущего.

Тогда оценка спектральной плотности получается как

Спектральные оценки сглаживаются при помощи "окон", которые применяются с целью уменьшения дисперсии выборочной спектральной плотности. На практике из большого числа известных окон, используются следующие три:

  • прямоугольное;
  • окно Тьюки Хеннинга;
  • окно Парзена.

Параметры, необходимые для расчета спектра мощности, рассчитываются по следующему алгоритму:

V=n/3 (n - число наблюдений)

при V<10 принимается V=10;

при V>50 принимается V=50 S=V/2

 

Кросс-спектральный анализ

Кросс-спектральный анализ оценивает связь между частотными составляющими двух временных рядов при помощи параметров когерентности , фазового сдвига и коэффициента усиления. Рассчитываются оценки взаимных ковариационных функций:

Оценка ко-спектра (действительной части спектра):

Оценка квадратурного спектра (мнимой части):

Оценка когерентности:

Оценка фазового сдвига:

Оценка коэффициента усиления:

Оценка спектра для ряда x в настоящем разделе имеет следующий вид:

Аналогично получается оценка спектра для ряда y.

Интерпретация результатов кроссспектрального анализа довольно тонкий процесс. Отметим, что когерентность аналогична квадрату коэффициента корреляции на соответствующей частоте и интерпретируется таким же образом. Коэффициент усиления есть, по сути, коэффициент линейной регрессии процесса по процессу на соответствующей частоте. Фазовый сдвиг характеризует временное смещение между составляющими двух процессов.

 

Частотная фильтрация

Фильтрация осуществляется при помощи высокочастотного и низкочастотного фильтра, для каждого из которых рассчитывается соответствующая силовая и фазовая характеристики. Низкочастотный фильтр предназначен для устранения тренда (низкочастотной составляющей временного ряда наблюдений). Высокочастотный фильтр, наоборот, предназначен для выделения тренда из исходных данных.

Выход низкочастотного фильтра et получается из выражения:

где

 Ω - частота отсечки,

et является оценкой высокочастотной составляющей. При оценке его теряются два первых наблюдения. Оценкой тренда в этом случае является ряд yt = xt - et .

Выход высокочастотного фильтра et получается из выражения:

 

где

Ω - частота отсечки,

et является оценкой низкочастотной составляющей. При оценке et теряются два первых наблюдения. Ряд может быть использован для прогнозирования.

 

 

10. Работа с математическим аппаратом на компьютере

 

В данной главе идет речь о программах времен Windows 3.1 и трехдюймовых дискет. Мы решили не выкладывать эту главу в текстовом виде; тем не менее, с ней можно по-прежнему ознакомиться в полной версии статьи в PDF-формате.

 

Защитный код
Обновить