Е.П.Чураков
МАТЕМАТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ В ЭКОНОМИКЕ Рекомендовано Учебно-методическим объединением по образованию в области математических методов в экономике в качестве учебного пособия для студентов высших учебных заведений, обучающихся по специальности 061800 "Математические методы в экономике" и другим экономическим специальностям
МОСКВА "ФИНАНСЫ И СТАТИСТИКА" 2004
УДК 330.4(075.8) ББК 65в6я73 Ч-93
РЕЦЕНЗЕНТЫ: кафедра экономической теории Рязанской государственной радиотехнической академии; Б. А. Лагоша, доктор экономических наук, профессор, заведующий кафедрой экономико-математического моделирования МЭСИ
Ч-93
Чураков Е. П. Математические методы обработки экспериментальных данных в экономике: Учеб. пособие. — М.: Финансы и статис тика, 2004. - 2 4 0 с: ил. ISBN 5-279-02745-6 Материал пособия базируется на результатах обработки разнообразной информации, определяющей состояние экономических объектов. Большое внимание уделено различным методам оценивания рефессионных парамет ров. Известные алгоритмы прогнозирования стохастических рядов, основан ные на моделях типа AR, МА, ARMA, AR1MA, обобщаются в форме матричновекторной модели в терминах стохастического вектора состояния, и на ее ос нове строится рекуррентный алгоритм прогнозирования калмановского вида. Для студентов экономических специальностей вузов и аспирантов, вы полняющих научные исследования в области математических методов.
„ ^
1602090000-238 .^. _^^ 010(01)-2004 •^"^-^""•*
ISBN 5-279-02745-6
УДК 330.4(075.8) ББК65в6я73
© Е. П. Чураков, 2004
ПРЕДИСЛОВИЕ Управленческое решение, как правило, опирается на анализ эм пирических сведений, почерпнутых и представленных тем или иным образом и содержащих в себе информацию, необходимую для его принятия. В простейших ситуациях анализ имеющихся в распоряжении лица, принимающего решение, сведений может быть осуществлен непосредственно автором решения в соответст вии с его профессиональной подготовкой, опытом, интуицией, даром предвидения и т.п. Однако сложные ситуации, в том числе характеризуемые большим объемом данных, часто противоречи вых, с не всегда известной степенью взаимодействия, что харак терно для большинства реальных экономических явлений и про цессов, не позволяют достаточно глубоко проникнуть в их суть только средствами не вооруженного современными математиковычислительными методами человеческого разума. Новые ин формационные технологии, базирующиеся на последних дости жениях в области вычислительных средств и мощном аппарате прикладной математики, позволяют выработать глубоко обосно ванные формализованные рекомендации по принятию конкрет ного решения, создавая тем самым средства его поддержки. В общем виде процедура выработки рекомендаций по приня тию решения может быть сведена к следующей триаде: 1) разработке средствами математического моделирования формализованной математической модели, с помощью которой должно приниматься решение на основании содержательного су щества проблемы и с учетом всех существенных ограничений и имеющихся эмпирических данных, создающих основу принима емого решения; 2) выбору из арсенала средств прикладной математики мето да обработки данных с использованием уже построенной их ма тематической модели и разработкой соответствующего алгорит мического обеспечения; 3) машинной реализации разработанных алгоритмов и пере дача получаемых рекомендаций заинтересованным лицам. В настоящем учебном пособии рассматриваются вопросы, ча стично касающиеся первого элемента этой триады и более фун даментально — второго: математических методов обработки экс-
периментальных данных. Пособие рассчитано прежде всего на студентов специальности 061800 «Математические методы в эко номике». Поэтому предполагается, что подлежащие обработке данные имеют «экономическое происхождение». Как следствие, в пособии отражается основная проблематика задач, связанных с обработкой экономических «измерений», и излагаются наиболее характерные математические методы решения этих задач. Хотя сами по себе математические методы носят универсальный ха рактер и применимы для обработки экспериментальных данных практически любой природы, часто их адаптация к экономичес ким приложениям сопровождается определенными терминоло гическими построениями и специфической расстановкой акцен тов на приоритетах как самих методов, так и способов использу емых доказательств. Это обстоятельство учитывается в пособии, что тем не менее не лишает книгу возможности быть полезной студентам других специальностей и направлений, «сопричаст ных» проблемам обработки экспериментальных данных. Традиционно включаемые в пособие материалы относят к на учной дисциплине, называемой эконометрикой. Лаконичное оп ределение этой дисциплины, как отмечается в курсе эконометри ки Я.Р. Мангуса, П.К. Катышева и А.А. Перецкого, дать трудно. Тем не менее, следуя курсу прикладной статистики С.А. Айвазя на и B.C. Мхитаряна, условимся под эконометрикой понимать самостоятельную экономико-математическую йаучную дисцип лину, П03В0ЛЯЮШ1УЮ на основе экономической теории и исход ных статистических данных и в соответствии с математико-статистическими методами придавать конкретное количественное содержание общим (качественным) закономерностям, обуслов ленным экономической теорией. Традиционно математико-статистические методы эконометрики, как отмечается в указанных курсах, включают в себя: • классическую и обобщенную линейные модели множест венной регрессии; • классический и обобщенный методы наименьших квадра тов; • модели и методы статистического анализа временных рядов; • системы одновременных эконометрических уравнений. Если последнюю позицию этого перечня можно считать спе цифичным «детищем» эконометрики, то материалы, сосредото ченные в предшествующих трех позициях, активно развиваются
и используются во многих смежных научных направлениях, в ча стности в теории стохастических систем управления, в статисти ческой радиотехнике, при вторичной обработке траекторной ин формации о движущихся объектах, при обнаружении сигналов в шумах, в задачах классификации ситуаций и др. Современный специалист в области математических методов не может в своей профессиональной деятельности ограничиваться только «эконометрическими» наработками, но для него весьма полезна инфор мированность о методах и подходах к решению аналогичных за дач в смежных областях. Поэтому в данном пособии, не затраги вающем проблематики одновременных уравнений, традицион ные эконометрические подходы, широко и всесторонне освеща емые в прекрасных изданиях последнего времени, таких, как уже упоминавшийся курс С.А. Айвазяна и B.C. Мхитаряна, «Введе ние в эконометрику» К. Доугерти, «Эконометрика» под редакци ей И.И. Елисеевой и других, пополняются некоторыми положе ниями, расширяющими кругозор будущего специалиста в облас ти математических методов и способствующими формированию многоальтернативных подходов к решению задач. К элементам новизны можно отнести такие методы оценивания регрессион ных параметров, как рекуррентный метод наименьших квадратов (МНК), максимум апостериорной плотности вероятностей, бай есовский и минимаксный методы, проблему обусловленности МНК-оценок, проблему стохастической сходимости, калмановские методы прогнозирования временных рядов и др. Аналогич ные соображения определили необходимость включения в посо бие фрагментов функционального анализа, кратко затрагиваю щих понятия банаховых и гильбертовых пространств, ортого нальных систем непрерывных и дискретных функций, обобщен ных рядов Фурье и способствующих расширению класса моделей трендов и их математической интерпретации. Ограниченное внимание, уделяемое теории случайных процессов в таких дис циплинах, как «Теория вероятностей» и «Математическая стати стика», вынудило автора предпослать стохастическим временнь1м рядам элементы этой теории, в основном касающиеся той ее части, которую принято называть корреляционной. В целом представляется, что включенные в пособие материалы могут ока заться полезными при изучении таких «родственных» дисцип лин, как «Эконометрика», «Методы социально-экономического прогнозирования», «Эконометрическое моделирование», преду-
смотренных Государственным образовательным стандартом спе циальности 061800 «Математические методы в экономике». Материал книги изложен в двух частях, из которых первая по священа математическим методам восстановления зависимостей по экспериментальным данным, а вторая — математическим ме тодам обработки временных рядов. В последние годы наблюдается обширная экспансия (в хоро шем смысле этого слова) современных информационных техно логий в эконометрические методы и их проникновение во все сферы человеческой деятельности. Эта несомненно плодотвор ная тенденция ярко проявляется и в экономических приложени ях. На вооружении экономистов-математиков оказались много численные пакеты прикладных программ (например, Statistica, Mathcad, MatLab, Matematica и др.), средствами которых реша ются практически все эконометрические задачи. Однако крайне важно, чтобы пользователь этих пакетов не оказался механичес ким приложением к ним, слепо использующим возможности со временных вычислительных систем без глубокого погружения и проникновения в сущность соответствующих математических проблем и их алгоритмического завершения. Творческий подход к решению прикладных задач немыслим без фундаментальной подготовки специалиста в области математико-статистических методов, и самый совершенный вычислительный инструмента рий не в состоянии компенсировать пробел в образовании, если таковой был заложен еще в вузовские времена. Автор надеется, что настоящее пособие будет способствовать уменьшению вероятности появления дискомфортных ситуаций в общении исследователя и компьютера, порожденных недоста точной математической культурой первого. Успех будет сопро вождать тех, кто сможет эффективно сочетать глубокую теорети ческую подготовку с универсальными возможностями современ ных информационных технологий. Автор выражает глубокую благодарность и признательность рецензентам книги — доктору экономических наук, профессору Б.А. Лагоше и кафедре экономической теории Рязанской госу дарственной радиотехнической академии (заведующий кафедрой доктор экономических наук, профессор В.И. Терехин). Все заме чания читателей автор примет с благодарностью.
Первая часть МАТЕМАТИЧЕСКИЕ МЕТОДЫ ВОССТАНОВЛЕНИЯ ЗАВИСИМОСТЕЙ ПО ЭКСПЕРИМЕНТАЛЬНЫМ ДАННЫМ Глава 1 ЗАДАЧИ РЕГРЕССИОННОГО АНАЛИЗА И ПРЕДВАРИТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ Ы . Проблема восстановления зависимостей по экспериментальным данным Одной из важных проблем, возникающих при исследовании эко номических процессов, явлений, систем и т.п. (обобщенно — объектов исследования (ОИ)), выступает поиск и математичес кое описание зависимостей между различными величинами, тем или иным образом взаимодействующими между собой и опреде ляющими состояние изучаемого объекта. Так, при исследовании сельскохозяйственного процесса может представлять интерес за висимость урожайности некоторой культуры от количества вно симого удобрения; при решении социальных проблем исследова нию может быть подвергнута зависимость среднедушевых сбере жений от среднедушевых доходов семьи; при анализе технологи ческого процесса небезынтересной может оказаться зависимость производительности технологической установки от некоторых характеристик используемого сырья и т. п. В подобного рода си туациях все участвующие в формировании изучаемой проблемы величины целесообразно разбить на две группы. Входящие в пер вую группу величины непосредственно характеризуют состояние
объекта исследования, их количественные значения являются отражением наших представлений о том, насколько хорошо или плохо «выглядит» исследуемый объект. Эти величины изменяют ся под действием различного рода факторов, влияющих на них и образующих вторую группу величин. Так, в упомянутых примерах первая группа будет соответственно включать в себя урожай ность, среднедушевые сбережения, производительность, вторая — количество удобрений, среднедушевые доходы, характеристи ки сырья. Механизм взаимодействия между величинами обеих групп, вообще говоря, неизвестен. Поэтому исследуемый объект можно представить как «черный ящик», причем величины пер вой группы удобно интерпретировать как своеобразные выходы «ящика», а величины второй группы — как входы этого «ящика» (рис. 1.1).
Вход
Объект исследования
Выход
черный ящик Рис. 1.1. Структура формирования эконометрических данных Выходы, таким образом, определяются входами и внутренни ми свойствами ОИ, однако «заглянуть» внутрь «ящика» и вы явить механизм взаимодействия выходов и входов в большинстве практических задач невозможно. Вместе с тем в подобных зада чах удается установить численное соответствие между входами и выходами, понимаемое в следующем смысле: предполагается, что при различных известных значениях всех или некоторых вхо дов можно измерить (зарегистрировать) соответствующие им численные значения выходов. Полученные экспериментальные данные теперь можно использовать для разработки математичес кой модели, связывающей входы и выходы «черного ящика» без проникновения в существо последнего. В этом и заключается со держательный смысл проблемы восстановления зависимостей по экспериментальным (эмпирическим — полученным из экс перимента) данным. 8
Прежде чем двигаться далее, полезно преодолеть барьер тер минологических особенностей, сопутствующих задаче восста новления зависимостей. В современном научном обиходе выход ные величины принято называть зависимыми переменными, от кликами, эндогенными (внутренними), результирующими, объяс няемыми переменными. Входные переменные принято подраз делять на две части. К первой из них относят те переменные, ко торые поддаются количественной оценке, т.е. в процессе прове дения исследования их можно «измерить» и указать их числен ные значения. Эту часть входных переменных называют незави симыми, факторами-аргументами, предикторами, экзогенными (внешними), объясняющими переменными. Вторая часть вход ных переменных не поддается экспериментальной регистрации, а о существовании части из них мы можем даже не подозревать. В совокупности их нгiзывдiют латентными (скрытыми) переменны ми и обычно интерпретируют как некие случайные величины с известными или неизвестными вероятностными свойствами. Обозначим символом ¥= [Y^^^ Y^^^... K^^^]^G R^ вектор эндо генных переменных, где, как обычно, R^ — к-мерное координат ное пространство. Аналогично А'= [Х^^^ Х^^^... Х^^^]^е К^ - вектор экзогенных переменных и Р= [Р^^^ Р^^^... Р^^^еR^- вектор ла тентных переменных. Здесь и далее ^ ~ символ транспонирова ния. Как уже отмечалось, в результате проведения некоторого (пассивного или активного) эксперимента можно зарегистриро вать ряд значений вектора А'и соответствующие значения векто ра К Так, можно указать количество вносимых удобрений и соот ветствующую урожайность за ряд лет. Можно путем опроса мно гих семей выявить их среднедушевые доходы и соответствующие сбережения. При различных значениях характеристик сырья можно зарегистрировать производительность технологической установки и т.п. Предположим, что эксперимент организуется так, что в про цессе его проведения экзогенные переменные принимают значе ния A:I,JC2, ...,jc^, аэндогенные переменные —значения3^1,>;2, .••,Д^«Запись Х= дс/ будет означать, что вектор А^при /-м измерении при нял конкретное значение дс/ = [xf^^ хр\... xf^^]^, при этом хр^ численное значениеу-й компоненты Х^^ вектора ЛГ при /-м изме рении (/ = 1, 2,..., п). Аналогична запись для вектора У. В резуль тате проведения эксперимента получим две числовые матрицы:
1
v.(l)
Х2
v(2)
Х2
[ДГ, ДГ2 ... Х„] =
\еК'
(1.1)
х<^>
У?' [У1 У2 ••• Уп]- У^'
. ^ • ^
З'^^^
••
• У^'>'
•• •
А'' yi'' ::•
/^' еК кхп
(1.2)
у^\
Здесь и далее символ R^^^ используется для обозначения мно жества матриц размерностью а на Ь. Теперь можем более определенно сформулировать существо проблемы восстановления зависимостей. Располагая экспери ментальными данными в объеме (1.1), (1.2), требуется разрабо тать математическую модель, устанавливающую связь между эн догенными Y и экзогенными X переменными и учитывающую присутствие неконтролируемых латентных переменных. Разуме ется, это чисто качественная формулировка замысла и она будет уточняться в процессе последующего изучения проблемы. Одна ко ряд вопросов, порожденных сформулированным намерением, можно выявить уже сейчас. Основные из них следующие. 1. С какой целью строится математическая модель? 2. Имеется ли вообще какая-либо связь между всеми из вве денных переменных или только между некоторыми из них? Как оценить степень этой связи? 3. В классе каких математических моделей предполагается ис кать зависимость эндогенных переменных от экзогенных? 4. Как адаптировать выбранную в некотором классе модель к экспериментальным данным (1.1), (1.2), т. е. как установить кон кретный вид модели по экспериментальным данным? 5. Как оценить эффективность построенной модели и в каком смысле эту эффективность следует понимать? Наиболее просто дать ответ на первый вопрос. Будем пола гать, что математическая модель строится для того, чтобы можно было вычислять значения эндогенных переменных при любых 10
значениях экзогенных переменных, не охваченных эксперимен тальными данными (1.1), (1.2), и при необходимости управлять эндогенными переменными путем выбора надлежащих значений экзогенных переменных. Подобные цели формируют задачи вос становления (по иной терминологии - интерполяции) и прогно за (предсказания, экстраполяции). Ответы на остальные вопросы дают методы регрессионного (и частично корреляционного) анализа.
1.2. Функция регрессии и регрессионная модель эндогенных переменных Подчеркнем прежде всего, что эндогенные переменные даже при фиксированных (принявших определенные конкретные значе ния ) экзогенных переменных являются случайными величина ми. Это утверждение понимается в следующем смысле. Пусть в некотором эксперименте экзогенные переменные приняли зна чение X (Х= дс), а эндогенные переменные - у (Y= у ). Если те перь провести второй эксперимент, в котором опять же обеспе чить равенство ^ = дс, то из-за влияния неучитываемых латент ных переменных и неизбежных ошибок в результатах измерений окажется Y^y . Аналогичная ситуация возникнет в третьем и по следующих экспериментах. Таким образом, последовательность значений эндогенных переменных, полученных в ряде экспери ментов при одном и том же значении экзогенных переменных, следует рассматривать как реализации случайной величины У, имеющей некоторую, как правило, неизвестную плотность веро ятностей (о(у \Х= х) или короче со(у I х). Если бы условная плот ность о)(у\х) случайной величины Убыла известна, можно было бы попытаться найти значение эндогенной переменной У, соот ветствующее значению экзогенной переменной Х= х, пост>ттив следующим образом. Отметим прежде всего, что точное значение эндогенной переменной Уиз-за влияния латентных переменных принципиально найти нельзя. Можно отыскать некоторую вели чину У, в каком-то смысле близкую к У, но не равную У Вектор У—У определяет отклонение того, что можно найти, от того, что хотелось бы найти. В таких случаях вектор У называют оценкой вектора У, а разность У-Y — ошибкой оценивания. Величину ошибки оценивания как вектора принято характеризовать нор мой ||У - У II, понимаемой для определенности в евюшдовом П
смысле. Эта норма в силу указанных причин является случайной величиной. Тогда в качестве меры близости величин УиУможно выбрать какую-либо н е с л у ч а й н у ю характеристику случайной величины IIУ — УII или, что математически удобнее, величины ||У~У|р. Наиболее простой такой характеристикой является сред нее значение (математическое ожидание), найденное при усло вии A'=jc, т.е. при условии, что экзогенные переменные равны ве личине jc: Af{||y~y|pI Л'= дс}, где М - символ усреднения. В раз вернутом виде M{\\Y-Yf\X = x}=l\\y^Yf(^(y\X
= x)dy,
(1.3)
где дифференциал dy понимается как многомерный dy = dy^^^dy^^... d^^^ и соответственно интеграл понимается как А:-мерный. Очевидно, оценка У в среднем наиболее «близка» к У, если она минимизирует величину (1.3), т.е. находится в результате ре шения оптимизационной задачи M{\\Y-Yf\X
= x}--> min.
(1.4)
Если В качестве нормы принять евклидову, т.е. ]|У — У |р = = (Y—Y)^(Y—Y), то необходимое условие минимума в задаче (1.4) сведется к уравнению V M { | | y - y f I A^ = x} = A/{V(y-y)'^(y-y)|;^=jc} = = -2М{(У-У)|^=х} = 0^,
^^-^^
где V — градиент по вектору У; 0^^ - А:-мерный нулевой вектор. Так как в (1.5) вектор Уне зависит от У, то из (1.5) непосред ственно получаем Y = M{Y\X=^x}==] y(a(y\X = x)dy.
(1.6)
—сх>
функцию У=У(дс), определяемую соотношением (1,6) и по су ществу представляющую собой условное среднее вектора У, при нято называть функцией регрессии, или просто регрессией величи ны Уна X. Традиционно ее обозначают символом ту{х). Заметим 12
еще раз, что здесь и далее вьщеленные полужирным шрифтом символы указывают на их векторную природу. Таким образом, при известной условной плотности (х)(у\х= х) величины Кв качестве оценки Уэтой величины следу ет принять ее условное среднее - функцию регрессии. Тогда саму случайную величину Кпри фиксированном значении экзогенных переменных Л" = jc можно представить как сумму ее среднего зна чения ту(х) и некоторого случайного отклонения е(дс), случайная природа которого порождена как влиянием латентных перемен ных, так и случайными ошибками, неизбежно сопутствующими процессу измерения эндогенных переменных. Это слагаемое мо жет в общем случае зависеть от значений экзогенных перемен ных, что и отображается в записи e(jc) = г(Х= х). Итак, в соответствии с проведенными построениями связь эндогенных и экзогенных переменных, косвенно учитывающая влияние латентных переменных, сводится к соотношению ¥=ту(Х=х) + г(Х=х).
(1.7)
Из (1.7) непосредственно следует М{г(х) \Х= х} =^0^^, т.е. век тор е является центрированным. Дополнительно предполагается, что при любых X ковариационная матрица этого вектора являет ся конечной (все элементы матрицы ограничены). Выражение (1.7) принято называть регрессионной моделью эн догенных переменных. Его можно было бы рассматривать как конечный результат наших исследований на пути построения ис комой математической модели. К сожалению, это преждевре менный оптимизм, так как условная плотность (х)()\Х= х) реаль но неизвестна и, как следствие, неизвестна функция рефессии. Поэтому выражение (1.7) отражает принципиальную структуру искомой модели, но не содержит той конкретики, которая соста вила бы инструментарий практической деятельности и алгорит мическое руководство ею.
L3. Модели, аппроксимирующие функцию регрессии. Гоуссовскоя регрессия Итак, практически построить модель (1.7) не удается, так как не известна условная плотность соО?|Л'= JC) И, как следствие, функ ция регрессии ту(Х= х). Однако проблемы, порожденные при13
кладными задачами, заставляют искать выход из возникшей до статочно сложной ситуации. И этот выход таков. Условимся прежде всего в последующем рассматривать слу чай одной эндогенной переменной, т.е. положим размерность к вектора Уравной единице. Соответственно функция регрессии в этом случае оказывается скалярной. Основная идея построения искомой модели заключается в следующем: зададимся некото рым классом S функций, которому принадлежит неизвестная функция регрессии. Четко сформулированных и формально обоснованных рекомендаций по выбору этого класса функций нет. Поэтому выбор определяется опытом и интуицией исследо вателя, предварительным анализом экспериментальных данных (1.1), (1.2), априорными представлениями о сущности искомой зависимости и т.п. Подчеркнем тем не менее, что правильный выбор класса Е в значительной степени определяет успех всех по следующих исследований, и поэтому удача здесь не только жела тельна, но и необходима. Наиболее апробированный подход за ключается в формировании класса S как множества определен ных с точностью до вектора параметров в функций (параметри ческое семейство функций) S = {f{X\Q)). Если действительно ту{Х = х)еЕ, то параметры в можно подобрать так, что ту(Х= х) =/{Х;0). Если все же ту(Х = х)€Е, то есть надежда на основе эмпирических данных (1.1), (1.2) подобрать такое значе ние в вектора в, что с приемлемой точностью, определяемой в том или ином смысле, можно представить ту{Х=х) ^J{X; в), и в обоих случаях вместо (1.7) положить Y=^f(Xie) + E(X),
(1.8)
считая при этом функцию/(^; в) аппроксимацией неизвестной регрессии. Чтобы иметь какое-либо начальное представление о форми рующих класс 5 функциях, рассмотрим не претендующий на общность случай двух гауссовских скалярных величин Уи А'и най дем регрессию УнаХ, используя определение (1.6). В этом случае каждая из величин и совместно обе являются гауссовскими, т.е. У~ Nyimy, а/), Х- N,{m,, с,^), Z=^[YX\'^- N^(m,, К,), где N(.) — символ гауссовской плотности с указанными в скобках па раметрами. 14
в развернутом виде, как известно, 7 1 Ny(my,Cy)= I
i2not
^х('Пх,Ох)
expj
•-^iy-m,,^
(1.9)
—(x-m^f
(1.10)
^QXp<
i
2UGy
N,(m,^,)
. pnf\K,\
2ai
-cxpi-^iz-m.fK^^z-m,)}, I 2
(1.11)
где \KJ и K^~^ - определитель ковариационной матрицы и обратная ковариационная матрица соответственно (подобные обозначения используются и далее). В соответствии с определением представим Kz =
к'^ух СТ2 ^х
и тогда совместная плотность вероятностей со(у, х) величин YwX после проведения соответствующих операций в (1.11) с учетом симметрии куу^ = к^у примет вид 1 (х^{у,х) = М^{т^,К^)^ ^{2т1)\с]с1-к1^) (1.12) хехр-^
1
{О1У^
-2kyJx-¥olx^)\
2(c^v^x~^vx) jyyjx '^yxf
где у —у — гПу, X =х — Шх — центрированные величины. Чтобы вычислить рефессию (1.6), необходима условная плот ность со(у|х), которая находится делением выражения (1.12) на выражение (1.10). Осуществив эту операцию, найдем показатель соответствующей экспоненты 15
(ol^y^ -2кухУХ'Ьо1х^)-\-0,5о^'х'^ = A^y^x
-^yx)
(1.13) "
r ¥ ~^y-^y 2(ОуСх-кух)
-l^yx^x^(x-ni^)f.
Так как гауссовская величина Кпри фиксированном значении величины X по-прежнему остается гауссовской, то условная плотность со(у| х) является гауссовской и может быть представле на в виде o^(y\x) = Ny{my{x),Dy{x))=
.
^Щ'^^п^
pnDyix)
Лу-гпу{х)^
[ ЩМ
J
Но тогда из сопоставления с (1.13) следует, что слагаемое Шу + кухО^'^(х — Шх) в (1.13) есть не что иное как условное матема тическое ожидание величины Y, т.е. функцию регрессии при гауссовских величинах ¥и А" удается найти без проведения опера ций интегрирования (1.6), а путем анализа структуры условной гауссовской плотности со(у|х). Итак, получаем: ку my(x) = M{Y\X = x} = my+^(x-mx). а: При этом сомножитель
^ ^
(1,14)
j - в (1.13) определяет услов-
^у^х ~ '^ух
ную дисперсию Dy{x) величины У, т.е. D{y\X = x) = Dy{x) = M{{Y-myf\X = x}= ^ \
^\ (1.15)
Соотношения (1.14), (1.15) иногда удобнее использовать в другой редакции, если обозначить Ы
_„
^УХ _
\^х
.У
16
Тогда
, ту(х) = М{У\Х = х}=ту'\-Гух M - ( x - w ^ ) ,
(1.16)
0(У\Х=х) = а/(1-ГуЛ
(1.17)
Проанализируем полученные результаты. 1. Принципиально важным является то, что при гауссовских величинах 7и ^регрессия Кна доказывается линейно зависящей от значения х величины X. 2. Мерой связи величин ¥и Jf оказывается коэффициент кор реляции Гух. Если Гух = О, то, как следует из (1.16), условное мате матическое ожидание величины У вообще не зависит от значения величины X, т.е. из некоррелированности гауссовских случайных величин следует их независимость. 3. Условная дисперсия (1.17) величины Кне зависит от прини маемых величиной ^значений. Если |r^J = 1, то Д 7| JSr= х) = О, а это означает, что при фиксированном X = х величина Y также оказывается фиксированной, причем, как следует из (1.16), на уровне ту± - ^ ( х - т ^ . ) . То обстоятельство, что при фиксированном А"величина ^принимает также фиксированное значение, в свою очередь, означает, что в этом случае, т.е. при |r^J = 1, вели чины THWY связаны функциональной зависимостью у = ту± {ay\-Y^'\x - т^). Из этих трех выводов обратим внимание на первый: функция регрессии в указанных условиях оказывается линейной. Это об стоятельство позволяет и в иных ситуациях, пусть не гауссовских, исходить из предположения о линейной структуре неизвестной функции регрессии, т.е. класс функций S ограничивать множест вом линейных зависимостей вида E = {{в,x*)}ЛieiXЩ,
(1.18)
- скалярное произведе ние векторов в и X*. 17
Здесь вектор экзогенных переменных ЛГ расширен до вектора X*, с тем чтобы в составе функции регрессии можно было управ лять «постоянной составляющей», независимой от экзогенных переменных (аналогичная составляющая присутствует в (1.16)). Класс линейных относительно экзогенных переменных и па раметров в функций (1.18) является в настоящее время одним из наиболее используемых. Этому способствуют не только строгое обоснование этой модели при гауссовских величинах, но и, как будет показано далее, изящность, и простота получения значе ний параметра в на основе экспериментальных данных (1.1), (1.2). Вместе с тем не следует считать класс функций (1.18) един ственно применяемым. Естественным обобщением является множество вида s = Д0,л|/д;^) к
(1.19)
где \|//(Х), / = О, 1, 2, ..., m — выбранные из определенных соображе ний базисные функции. Линейный случай (1.18) является частным случаем (1.19). Могут быть применены и более сложные модели элементов мно жества S с нелинейной зависимостью от вектора параметров в :
E = |ix|/,(^r,e)l где, например, щ{Х, в) = 0о(А^^^У(Х^2))/> c = 0s,
^^{s)y^ а^виЬ^
(1.20) 02,...,
\|//(Z,e) = 0,/=l,2,...,^.
Подчеркнем еще раз, что выбор и обоснование класса S явля ется наиболее уязвимым и слабо защищенным теоретическими средствами местом в проблеме аппроксимации функции регрес сии. В последующем мы еще раз возвратимся к этому вопросу и дадим ряд дополнительных рекомендаций, направленных на уп рощение или усложнение аппроксимирующих моделей, если не обходимость в этом будет выявлена. В целом же нужно стремить ся к тому, чтобы класс Н не оказался недопустимо упрощенным (это может привести к потере наиболее характерных свойств ап18
проксимируемой функции регрессии), но и не был бы чрезмерно усложненным, ибо за этим могут последовать вычислительные осложнения обработки экспериментальных данных (1.1), (1.2) без достижения заметного положительного эффекта в качестве решения задачи восстановления зависимостей, понимаемого в том или ином смысле.
1.4. Некоторые специальные случайные величины и их свойства
Приводимые далее сведения известны из курса теории вероятно стей и математической статистики. Однако чтобы опрометчиво не полагаться на память читателя, кратко напомним их. Определение 1.1. Случайная величина г - N(0, 1), т.е. гауссовская с нулевым математическим ожиданием и единичной дис персией, называется стандартной гауссовской случайной величи ной. Определение 1.2. Пусть еь 82, ..., е^ ~ последовательность не зависимых стандартных гауссовских случайных величин. Тогда случайная величина
x(«)=ie?, говорят, имеет %^-распределение с п степенями свободы. В таком случае пишут х ~ %^(л). Доказывается, что т^ = п, Сх^ = п^. Определение 1.3. Пусть EQ, Е\, £2, ..., г^ — последовательность независимых стандартных гауссовских случайных величин. Тогда случайная величина У =
1Д
2
П
-п}^' Гп''^''^ говорят, имеет распределение Стьюдента, или /-распределение с п степенями свободы. В таком случае пишут;; ~ t(n). Доказывает ся, что при п> 2ту = 0,Оу^ = п(п — 2)"^. Определение 1.4. Пусть ei, 82,..., Е^, r|i, г|2,..., Лл"~ последова тельность независимых стандартных гауссовских случайных ве личин. Тогда говорят, что случайная величина 19
1 w 2
--Se/
1
-~x(m)
^ ^ /=l _ m 1 '^ 0 1
имеет распределение Фишера, или jp-распределение ст,п степе нями свободы. В таком случае пишут z ~ F{m, п). При л > 4 дока зывается: п 2 2п (mi-n-l) ^^-2 m(n-4){n-2f Определение 1.5. Случайный векторЛ^= [Xi Х^ ... Xj^ называ ется гауссовским, или нормально распределенным, если совмест ная плотность вероятностей CO^.(JC) его компонентов определяется выражением ^A:W= / =-ехр{-0,5(дс-/Пд^)^А'~^(лс-1У1;с)}, V(27if l i f j где mjc. R'* и Ад^ € R'*^'^ - параметры распределения. В этом случае сокращенно пишут X - Щт^, Кх). Функцию cOxW называют л-мерной гауссовской плотностью вероятностей. При п = 1ип='2 мы с нею уже встречались в (1.9) - (1.12). Дока зывается, что гПх = М{Х} — математическое ожидание вектора X, Кх = МЦХ— тхКХ— ntx)^} — его ковариационная матрица. Определение 1.6. Пусть случайная величина X имеет непре рывную функцию распределения вероятностей F(x) = Р(Х < х), где Р{.) - вероятность соответствующего события; де(0, 1) — не которое число. Тогда квантилью (или квантилем [21]) уровня q, или ^-квантилью распределения F(x) называется такое число Ug, 4ToF(Ug) =
P(X
Определение 1.7. Пусть в условиях предыдущего определения d
—•F(x) — симметричная относительно оси ординат плотность ах вероятностей случайной величины X, Тогда двусторонней д-квантилью распределения F(x) называют такое число tg, что Р{\Х\
1—I—Г -1.5 -1 -0,5
О
0,5
1
X
Рис. 1.2. Функция распределения вероятности Ug = >vioo(i - q) Определение 1.8. Пусть задано число Q G (0,100). Тогда Q-npoцентной точкой непрерывного распределения F(x) называется та кое число WQ, ЧТО выполняется условие 1 - F(WQ) = Р(Х > WQ) = \^~^Q, Очевидно, Uq = У^\щ\-д) (рис. 1.2).
1.5. Предварительный (дорегрессионный) анализ зависимости эндогенной и экзогенных переменных 1.5.1. Общие принципы Обычно при поиске зависимости между эндогенной и экзоген ными переменными предполагается, что еще на этапе предвари тельного анализа составлен «список» экзогенных переменных, влияющих, по нашему мнению, на эндогенную переменную. Во многих случаях уже из содержательного существа проблемы на личие влияния можно считать непреложной истиной и не под вергать его сомнению. Так, например, покупательные возможно сти семьи наверняка зависят от ее среднедушевого дохода. Одна ко в иных ситуациях такая прозрачность в априорной оценке влияния экзогенной переменной на эндогенную отсутствует и необходимо соответствующее обоснование с привлечением оп ределенных формализованных подходов. Трудно заранее, напри мер, утверждать, что производительность технологической уста новки зависит именно от этой, а не иной характеристики исполь зуемого сырья. 21
С к а л я р н а я э к з о г е н н а я п е р е м е н н а я . Рассмотрим случай скалярных эндогенной ¥и экзогенной Jf переменных. Ес ли Уи X— гауссовские и нормально связанные (в смысле совмест ной гауссовской плотности вероятностей) величины, то, как бы ло показано в п. 1.3, мерой их статистической связи является ко эффициент корреляции Гу^. Для совместно гауссовских величин из равенства Гу^ — О следует их независимость. При негауссовских величинах это не всегда так, и даже при Гу^ = О величины могут оказаться функционально зависимыми. Чтобы подчеркнуть факт равенства нулю коэффициента корреляции, случайные величи ны при Гух = О называют некоррелированными. Такие величины могут оказаться зависимыми, но эту зависимость средствами гру бого для исследования подобных ситуаций инструментария в ви де коэффициента корреляции зарегистрировать не удается. Тем не менее коэффициент корреляции используется как своеобраз ный индикатор связи и при негауссовских величинах. По опреде^ лению коэффициент корреляции
I
i
с»
оо
J J
{y--my){x-m^)iii{y,x)dy6x.
cjal
Однако практически таким аналитическим способом вычис лить коэффициент корреляции не удается, так как обычно неиз вестны не только совместная плотность вероятностей co(j, х), но и даже числовые характеристики величин ¥и X. На помощь при ходит предположение о том, что можно провести эксперимент, в котором экзогенной переменной Jf придаются значения х^, Х2,..., х^ и регистрируются (измеряются) соответствующие значения >^i, У2^ "-^ Уп эндогенной переменой Y. Набор значений экзогенной переменной может быть следствием какого-либо естественного процесса ( п а с с и в н ы й э к с п е р и м е н т ) или сформирован ис кусственно из определенных соображений ( а к т и в н ы й э к с п е р и м е н т ) . Независимо от природы экспериментальных данных они позволяют найти приближенное значение Гу^ коэффициента корреляции Гух, которое принято называть эмпирической (выбо рочной) оценкой. Хотя принципиально эту оценку можно найти 22
различными способами, каждый из которых приводит к своему результату, наиболее распространенной оказывается оценка вида
fyx= I ^'"^
^
(1.21)
Ji(y/-p)^i(x,-x)2 V/=i ^
\ ^
где у=-1з^/,
_
/=i
1 '^
x= -Sx,.
Ha множестве возможных значений случайной величины Y величина (1.21) является также случайной. Чтобы можно было по ней судить о корреляционной связи величин 7и X, нужны стати стические характеристики самой величины (1.21) или какой-ли бо иной величины, но функционально связанной с Гу^. Пусть та кой величиной (часто говорят — статистикой) является некая величина у = Wyjd- Тогда последующий анализ проводится по до статочно типовым для подобных исследований схемам. В рассмотрение вводятся две гипотезы: HQ: корреляционная связь между Yn ^отсутствует (г^ = 0); Hi: величины Ум Хкоррелированы {Гу^ ^ 0). Любое последующее решение проблемы сопровождается дву мя возможными ошибками: ошибка первого рода — принять гипотезу Hj, когда в действи тельности справедлива гипотеза HQ; ошибка второго рода — принять гипотезу HQ, когда в действи тельности справедлива альтернатива Н]. Обозначим через а = P(Hi|Ho) вероятность ошибки первого рода, через Р = P(Ho|Hi) — вероятность ошибки второго рода. Ве личина 1 — а является условной вероятностью правильного ре шения при выполнении гипотезы HQ, аналогично 1 ~ Р есть веро ятность правильного решения при условии, что справедлива ги потеза Hj. Величину а часто нгзыъдiютуровнем значимости крите рия, величину 1 — р — мощностью критеррш. Решение задачи должно сводиться к обоснованному выбору одной из двух гипотез: Но или Н| на основе значения величины у, полученного по эмпирическим данным Сиь xj), (у2, Х2),..., (Уп^ х^). Величина уе R, где R, как обычно, множество всех вещественных 23
чисел. Тогда геометрически решение можно интерпретировать так: множество возможных значений величины у, т.е. R, следует разбить на два подмножества Го и Tj (Го и Г1 = R) так, чтобы на илучшим в некотором смысле образом из условия уе Го следовало принятие гипотезы Но, а при условии ys Г\ предпочтение отдава лось гипотезе Hi. Чтобы формализовать этот замысел, прежде всего нужно выявить смысл словосочетания «наилучшим обра зом», т.е., по существу, сформулировать критерий оптимальнос ти, закладываемый в процедуру решения задачи. Возможны сле дующие варианты (п. 1.5.2 — 1.5.5).
1.5.2. Критерий идеального наблюдателя Уже отмечалось, что любое решение задачи сопровождается ошибками первого и второго рода с соответствующими вероят ностями а и р. Если известны априорные вероятности Ро ^ Р\ справедливости гипотез Но и Hi соответственно (иначе можно принять/?о = P i = 0,5), то величина/?oOt +/^iP будет безусловной вероятностью ошибочного решения. Первое слагаемое здесь яв ляется безусловной вероятностью ошибки первого рода, т.е. веро ятностью выполнения двух событий: справедлива гипотеза Но с априорной вероятностью/7о, но принимается гипотеза Hj с услов ной вероятностью а. Аналогична структура второго слагаемого. Очевидно, решение задачи целесообразно искать так, чтобы бе зусловная вероятность ошибочного решения оказалась наимень шей. Это значит, что подмножества Го и Г1 (или только Г^ так как Го = Л \ ri) следует находить в процессе решения оптимизацион ной задачи /?oa+/?i|3-^ niin.
(1.22)
Условие (1.22) называют критерием идеального наблюдателя (иногда — критерием Котельникова). Рассмотрим его более вни мательно. Пусть известны условные плотности вероятностей со(у|Но) и (O(Y |HI) величины у соответственно при выполнении гипотез Но и Hi. Тогда a=|co(y|Ho)dy, 24
|3=Jco(y|Hi)dy,
и условие (1.22) переписывается так: PQ J CO(Y I Ho)dY + Pi J co(Y I Hi)dY -> min. П Го Поскольку Jco(Y|Hi)dY=Ja)(Y|Hi)dY+Ja)(Y|Hi)dY = l, R П Го оптимизационная задача может быть записана в новой редакции: А - J (РМУ I Н] ) - /?о^(У I Ho))dY ^ min. г, Чтобы эта целевая функция была минимальна, значение интефала должно быть максимальным. Это достигается, если под множество Г] выбрано так, что во всех принадлежащих ему точ ках подынтегральная функция неотрицательна, т.е. /;I(O(Y|HI)-POCO(Y|HO)>0.
(1.23)
Таким образом, если при найденном по эмпирическим дан ным значении величины Y выполняется неравенство (1.23), то принимается гипотеза Hj. При противоположном неравенстве предпочтение отдается альтернативе HQ. Лаконично это записы вается так: a)(Y|Hi) (O(Y|HO)
^'
.
(1.24)
< —=>Но А
Выражение (1.24) совместно с правилом вычисления Y пред ставляет собой алгоритм решения задачи по критерию идеально го наблюдателя.
1.5.3. Критерий Неймана - Пирсона Второй возможный подход к решению задачи основывается на так называемом критерии Неймана - Пирсона. Его целесообраз но применять в тех случаях, когда последствия от ошибок перво го и второго рода не являются равноценными. В этих случаях ре25
шение задачи ищут таким образом, чтобы вероятность одной из ошибок оказалась ограниченной некоторой малой величиной, а вероятность второй при этом приняла наименьшее значение. На пример, /7i(3 —> min прироа = 5 = const, (1.25) где 5 — выбранная малая величина. Эти условия и формируют критерий Неймана — Пирсона. «Рычагом» их реализации по-прежнему является выбор опти мальных подмножеств Го и Г]. Задача (1.25) относится к классу задач на условный экстремум и решается методом неопределен ных множителей Лагранжа. С этой целью составляется функция Лагранжа L=Pi^-hX(poa-3), где Л. - неопределенный множитель Лагранжа. Используя предыдущую схему преобразований, записываем функцию Лагранжа в иной форме: i: = /7il(o(Y|Hi)dY + M;^oJco(Y|H,)dY-5) = Г,
Го
= /?! - J[/?iCo(Y|Hi)-A/7oCO(Y|Ho)]dY-X5. Г)
Опять же минимальное значение функции L достигается при максимальном значении интеграла, что, в свою очередь, обеспе чивается выбором подмножества Г} таким образом, чтобы во всех принадлежащих ему точках подынтегральная функция была по ложительной. Отсюда по аналогии с (1.24) вытекает правило >^=>Hi CO(Y|HI) (O(Y|HO)
<-—=»Но Рх -1 отличающееся от (1.24) только выбором порога XpQPi~ . Чтобы окончательно найти этот порог, следует вычислить множитель Лафанжа X. Принципиально это делается на основе ограничения Роа = 5 , но данная задача нетривиальная. 26
1.5А. Критерий проверки гипотезы HQ при скалярной экзогенной переменной Рассмотренные два подхода предполагают, что известны вероят ностные свойства величины у при обеих гипотезах HQ и Н|. Во многих практических задачах такую статистику найти не удается, но можно установить величину у с известными вероятностными свойствами при справедливости одной из гипотез. Тогда задача формулируется и решается так. Пусть проверяется справедливость гипотезы HQ И известна ус ловная плотность вероятностей (о(у|Но). Задавшись вероятностью а ошибки первого рода (наиболее часто принимают а = 0,05), на ходят такое подмножество Го с R, что Р(уе Го|Но) = 1 - а .
(1.26)
Если теперь по экспериментальным данным найдено кон кретное численное значение величины у и оказалось, что уе Го, то с доверительной вероятностью 1 — а признается справедливость гипотезы Но- Если же окажется у^ Го, то гипотеза Но отвергается с вероятностью ошибиться а. В задачах эконометрики, в частно сти применительно к обсуждаемой здесь конкретной проблеме установления связи эндогенной и экзогенной переменных, этот подход используется наиболее широко. Итак, возвратимся непосредственно к нашей задаче (п. 1.5.1). Уже отмечалось, что коэффициент Гу^ на множестве значений эн догенной переменной Гявляется случайной величиной, и дока зывается (например, [1]), что при совместно гауссовских величи нах ¥иХ,п> 200 и \гу^ < 1 приближенно Гу^. ~ N(ryx, (1 - Vy^^ln). Однако практически этим свойством воспользоваться не удается из-за невыполнения условий, при которых оно справедливо. Известен [1] более полезный для наших целей результат: ве личина Y=0^ /
.
(1.27)
при малых I Гуд: I и выполнении гипотезы Но приблизительно рас пределена по закону Стьюдента с п-1 степенями свободы. Это об стоятельство позволяет величину (1.27) использовать для разра27
ботки критерия проверки гипотезы Но в соответствии с принци пом (1.26). Учитывая четность и, как следствие, симметричность /-распределения, множество Го будем искать в виде отрезка Го = l—g, g], причем величину g найдем из условия g
J a)(Y|Ho)dY=l-a, -g
где CO(Y|HO) — плотность вероятности величины у при гипотезе Но, т.е. /-распределение с п-2 степенями свободы. С учетом нормировки плотности вероятности это равенство можно переписать так: a = J(o(Y|Ho)dY+ f(o(Y|Ho)dY=2fa)(Y|Ho)dY=27(o(Y|Ho)dY. -оо
^
-оо
g
Отсюда следует, что - g = Ua/2, g = wiooa/2 («a/2 = -vviooa/2), где Wot/2 — oc/2 — квантиль распределения Стьюдента с п—2 степенями свободы, wiooa/2 ^^ть lOOa/2-процентная точка того же распреде ления. Это позволяет сформулировать следующий критерий про верки гипотезы Но. Пусть проведен активный или пассивный эксперимент и на основе полученных данных по формуле (1.21) найдено конкрет ное значение эмпирического коэффициента Гух. Тогда если ока жется, что у п-2
^ух Ij
_^ V 22 ^ << V
^|l-r},
^
^Jn-2
или Гу^-т^ r^^-j=_>iVioOa/2. ИЛИ
^1
ТО гипотеза Но об отсутствии корреляционной связи между ¥иХ отвергается с вероятностью ошибиться а. Эти оба неравенства можно выразить одним: \fyx\ I
^^ >>^100а/2-
(1.28)
Таким образом, если по экспериментальным данным найдена величина Гух, а по соответствующим таблицам (или машинным 28
образом - см. далее) ~ величина wiooa/2 и окажется справедли вым неравенство (1.28), то гипотеза Но об отсутствии связи меж ду переменными У и X отвергается с вероятностью а ошибиться. При противоположном неравенстве гипотеза HQ считается не противоречащей экспериментальным данным с вероятностью 1 — а правильности этого решения. Заметим, что таблицы, содер жащие характерные точки различных распределений и приведен ные во многих литературных источниках (например, [1], [3], [15], [30] и др.), мы не тиражируем, так как эти данные легко получить средствами большинства современных пакетов прикладных про грамм. Так, при а = 0,05 и л = 15 величина Wiooa/2 распределения Стьюдента с л — 2 степенями свободы легко находится с помо щью, например, такой микропрограммы в Mathcad'e а: = 0,05 л: = 15 ( а ^ : 2,161. rooti pt(x,n-2)-l + 'z, X, 0,10 V 2 у Если найдена оценка (1.21), можно найти доверительный ин тервал для истинного значения коэффициента корреляции Гу^. С этой целью используется предложенная Р. Фишером статистика 1, 1 + ^ух г=- 1 п ^ ,
(1.29)
которая уже при небольших п оказывается приближенно гауссовской с параметрами ^
1 2
1 + О'^ ''ух 1-Гух 2(/2-1)'
2 1 ^ /7-3'
Если задаться доверительной вероятностью 1 - а , то можно найти соответствующую интервальную оценку величины z, удов летворяющую традиционному условию ^^i^^<^2)=l-oc,
(1.30)
где Zi,Z2- фаницы интервала. Так как гауссовская плотность симметрична относительно математического ожидания, границы zu ^2 будем искать в виде 29
Z\- т^ — ^, Z2 = w^ + ^, где ^ — подлежащая определению величи на, обеспечивающая условие (1.30). Запишем равенство (1.30) в развернутом виде: I J expHz-/w^)^/2a^}d^=l-a, ^|2nGl '«гЧ или же, заменив переменную (z ~ yn^l^z. "^ ^, 1
^
I —
о
JJ ^exp{-5^/2}dy
л12п~ь
= l-a,
b = ^/c^.
Это соотношение, если учесть нормировку плотности вероят ностей, легко преобразуется к виду 1 ~ о I ~ь a = -p=-Jexp{-5'^/2}dy + -T==- J expf-^"^/2}d5 = 1
-^
0
л/2я J exp{-5'^/2}dy, откуда следует ^ = —G^Ua/i, где Wcc/2 есть a/2 — квантиль стандарт ного гауссовского распределения N{0, 1). Следовательно, с веро ятностью 1 — а имеем ^z + ^z^a/2 <1<т^-' ajUa/2 => Z + a^Woc/2 < m^ < г - а^^а/2.
с учетом определения w^ получим ^ '
г_ 1{п-Х)
1+^ 1-^а 0^
л, 2(/2-1)
Найдем приближенное решение этого неравенства относи тельно Гух, заменив на границах неравенства величину Гу^ ее оцен к о й ГууГ,
с<0,51п-^^<^, 30
(1.31)
,^d^Q^5ln\^±^-^. ^-fyx л1п-3 2(л-1)
(1.32)
Из левого неравенства (1.31) имеем Гу^ > (е^' - 1) / (е^' + 1) = (е' - е^') / ( / + e'') = th с, где th с — гиперболический тангенс с. Аналогично из правого неравенства Гу^ < th d. Следовательно, с вероятностью 1 — а lhc
'ух
1.5.5. Критерий проверки гипотезы Щ при векторной экзогенной переменной В заключение настоящего раздела остановимся еще на одном до статочно важном обстоятельстве. Ранее предполагалось, что эн догенная переменная определяется единственной экзогенной пе ременной и что выявляется степень связи между ними. Во многих задачах экзогенных переменных несколько. Если по эксперимен тальным данным анализируется связь с одной из экзогенных пе ременных (говорят — парная связь), то оставшиеся экзогенные 31
переменные выступают в роли мешающих параметров и сущест венно влияют на результаты анализа. Поэтому эксперимент дол жен быть организован так, чтобы всем значениям исследуемой экзогенной переменой соответствовали одни и те же неизменные (постоянные) значения оставшихся экзогенных (мешающих) пе ременных. При этом не исключено, что результаты анализа будут зависеть от того, какие именно неизменные значения принимают мешающие экзогенные переменные. Все это существенно услож няет анализ парных связей. Есть условие, при выполнении которого отмеченные пробле мы практически себя не проявляют. Оно заключается в том, что совместно эндогенная переменная Y и экзогенные переменные Х^^\ Х^^\ ..., Х^^^ подчинены (s + 1)-мерному гауссовскому рас пределению. В этом случае частный коэффициент корреляции ро/ между эндогенной переменной Y и j-й экзогенной переменной ^(/) (у = 1 2,..., s), вычисленный в предположении, что остальные зкзогенные переменные приняли некоторые фиксированные значения, не зависит от уровней, принимаемых остальными (ме шающими) экзогенными переменными, и может быть рассчитан по формуле [1] Роу=- /^ i
>
(1.34)
i^o^M где Ry — алгебраическое дополнение /у-го (/,у = О, 1...., 5) элемента корреля (1) V^r ...,X^'\T.Q. ционной матрицы R случайных величин У,Х^\Х 1
R=
^01
По 1
(1.35) 1
Здесь Гу — коэффициент корреляции величин чем принято Х^^^ =У.В частности, при 5 = 2 получим: Р01 =
^20 "^21^10
Р02 =
^(1-П2)(1-4)
при
^
12)0-1)1)
Дальнейшая технология практического применения этих со отношений сводится к следующему. Пусть получены экспери32
ментальные данные в объеме д^/, хР\ xf^\ ..., х/'^^ / = 1 , 2 , . . . , п. По формулам, подобным (1.21), находятся эмпирические коэффи циенты корреляции Гу величин Х^^\ Х^\ i = О, 1, 2, ..., s - 1, у = /'+ 1, / + 2, ..., 5. Из этих величин с учетом их симметрии со ставляется матрица R аналогичным (1.35) образом и с помощью (1.34) рассчитываются эмпирические частные коэффициенты корреляции, роу, у = 1, 2,..., 5. Для истинного значения каждого из них строится доверительный интервал, подобный (1.33), причем границы интервала находятся подобным (1.32) образом, но с од ной существенной поправкой: величина п заменяется на « - 5 + 1, где число S — 1 представляет собой количество мешающих пара метров. В связи со случаем многих экзогенных переменных полезно остановиться на особенностях применения линейных регресси онных множеств вида (1.18), при которых модель (1.8) будет вы глядеть так: Г= 00 + 0iA^<^> + 02^^^^ + ... + 0Д(^> + е.
(1.36)
Для выявления факта зависимости эндогенной переменной Y от совокупности экзогенных переменных Х^^\ Х^^\ ..., Х^^"^ ис пользуется множественный коэффициент корреляции Ry^, опреде ляемый равенством [1] Rl^=l-\R\/Roo,
(1.37)
где \R\ - определитель матрицы (1.35), У?оо — как и в (1.34), алгебраи ческое дополнение элемента гоо = 1 этой матрицы. Пусть матрица (1.35) построена по эмпирическим данным. Тогда доказывается, что выборочный коэффициент Ry^, вычис ленный в соответствии с (1.37), но по эмпирической матрице Л, оказывается таков, что величина n-S-l
Y=—; ^
RyY
=~7~ l-R
(1-38)
в случае справедливости гипотезы HQ: Л ^ ^ = О подчинена распреде лению Фишера с (s, п — S — I) степенями свободы, те. F(s, n — s—l)распределению. Последующий анализ проводится по схеме, по33
добной той, которая ранее привела нас к правилу (1.28). А имен но: задаются вероятностью а ошибки первого рода или, что экви валентно, доверительной вероятностью 1 — а справедливости ги потезы Но; по соответствуюш;им справочным или программным материалам находят величину и^юоа» т. е. 100а%-ную точку рас пределения Фишера с числом степеней свободы числителя s и знаменателя п — s — 1. Если окажется у > W\QQ^, ТО гипотеза Но отвергается с вероятностью ошибиться а (уровень значимости критерия). При противоположном неравенстве предпочтение от дается гипотезе Но с вероятностью 1 — а правильности этого ре шения. Полезное свойство модели (1.36) проявляется также в том, что изложенный алгоритм анализа ситуации сохраняет свои свойства и при отклонении совместной плотности вероятностей величин У, Х^^\ Х^^\ ..., Х^^^ от гауссовской [1].
Глава 2 МЕТОДЫ ОЦЕНИВАНИЯ ПАРАМЕТРОВ РЕГРЕССИОННЫХ МОДЕЛЕЙ 2.1. Проблема оценивания и общие характеристики точечных оценок. Неравенство Рао - Крамера Пусть, как и ранее, Y— единственная эндогенная переменная, за висящая от S экзогенных переменных Х^^\ Х^'^\ ..., Х^^\ Предпо лагается, что сам факт зависимости установлен на основе предва рительного анализа экспериментальных данных в соответствии с вышеизложенными методами или является логическим следст вием содержательного существа изучаемого явления. Пусть да лее, обоснована модель представления эндогенной переменной в форме (1.8). Аппроксимирующая неизвестную регрессию функ ция/(Л", в ) определена с точностью до вектора неизвестных пара метров в и принадлежит множествам вида (1-18), (1.19). Для оп ределенности будем руководствоваться более общим случаем (1.19); таким образом, связь эндогенной и экзогенных перемен ных определяется соотношением
Г = f е,л|/дх^^>,л^<2>,...,л^<^>)+£(х^^>,х(2\...,^^^>), (2.1) /=0
или,более лаконично, y=\|f'^(A)e + e(A),
(2.2)
где использованы естественные обозначения в = [0о, Эь •» ^т]\ Х= [Х^'\ Х^^\ ..., X^'^f, v^ = [i|/o, 1|/ь .^., V|/J. Следствием проведенного эксперимента является совокуп ность величин (1.1), (1.2) (для скалярной эндогенной перемен ной в (1.2) следует положить к = I), которая в терминах модели (2.2) опишется соотношениями yj = \|г'^(дс,)в + Bj(xj),j = 1 , 2 , ..., п,
(2.3)
где символ Ej(xj) представляет собой ошибку ву-й точке эксперимен та (upHX=xj). 35
в матрично-векторных обозначениях п выражений (2.3) сво дятся к одному: j; = Y e + e, (2.4) где у - Lvi, У2, ..., УпУ — вектор значений эндогенной переменной и
\4'' >р =
V'^(X2)
^^ix„)
G R их(от+1)
ei
!хР , е = £2 .^\
.^«J
Последующая задача построения регрессионной модели (2.2) сводится к определению вектора параметров в по результатам эксперимента, представленного апостериорной выборкой у. Этот вектор связан с параметрами в соотношением (2.4), в котором матрица Y определена через экспериментально полученные зна чения экзогенных переменных и известна, а вектор е представля ет собой совокупность неизвестных величин, обобщенно тракту емых как ошибки эксперимента. Если бы ошибок эксперимента не было, то для определения величин во, 01, ..., 0;;j достаточно было бы провести т + 1 изме рений эндогенной переменной при надлежащем выборе такого же количества значений вектора экзогенных переменных и из т + 1 уравнений yj = \|Г^(дсу)в,У = 1, 2,..., m + 1, найти интересую щие нас параметры (проблему разрешимости этих уравнений мы здесь не обсуждаем). Однако каждое реальное наблюдение из (2.3), помимо неизвестных величин ©о, ©ь ..., &пг^ содержит не известную ошибку эксперимента, поэтому сколько бы измере ний ни проводилось, точно определить параметры в невозмож но. Но при достаточно большом числе измерений (п> m-h I) вли яние ошибок можно путем рациональных операций над экспери ментальными данными у уменьшить и найти по наблюдениям (2.4) некоторые величины ©о, ©ь ..., ©^^ в определенном смысле близкие к истинным, но неизвестным значениям параметров ©о, ©1, ..., ©^. Эти величины Идiзыв2iю^ точенными оценками параме тров е . В связи с поиском оценок возникают два вопроса: как форма лизовать понятие близости вектора оценок в = [©о, ©i,.--, &т\^ и оцениваемых параметров в (в каком смысле понимать близость) 36
и как найти оценки, наилучшие с позиции установленного смыс ла близости. Ответ на первый вопрос приводит к понятию крите рия качества оценивания. Ответ на второй вопрос позволяет опре делить вычислительные операции, которые надо провести над экспериментальными данными у, чтобы получить наилучшие в смысле этого критерия оценки как функции экспериментальных данных в/ = 0/ (уи У2, •••. Уп) = ©/(у). ^ = 0. Ь •••, ^, т.е. получить алгоритм оптимального оценивания. В зависимости от объема и характера наших знаний о свойст вах оцениваемых параметров и ошибок эксперимента, предшест вующих самому эксперименту, применяют тот или иной метод оценивания. Информацию, содержащуюся в вероятностных ха рактеристиках параметров и ошибок, которая может быть как из вестной, так и неизвестной до проведения эксперимента, назы вают априорной. Так, может быть известна априорная совместная плотность вероятностей а)е(е) вектора ошибок е. Вектор парамет ров в может классифицироваться как неизвестный или как слу чайный. В первом случае он является неслучайным, но априори мы о нем ничего не знаем и полагаем, что его компоненты могут при нимать любые значения в диапазоне от —со до 4-оо. Во втором слу чае считается, что вектор в принимает значения в соответствии с априорной плотностью вероятностей сое(в). В общем случае эта плотность исследователю может быть и неизвестна, но объективно существует. Неизвестный вектор в часто удобно интерпретировать как случайный с бесконечно большими дисперсиями его компо нент и нулевым средним значением. Плотности сое(е) и сое(в) уста навливают на основании каких-либо аналитических расчетов или специально организованных экспериментов, предшествующих проведению основного эксперимента с исходными данными (2.4). Независимо от способа вычисления оценки &(у) по результа там у проведенного эксперимента с ней связывают ряд определе ний. 1. Оценку в называют условной, если априорная информация, используемая при ее вычислении, ограничена условной плотнос тью вероятностей L(y\&) экспериментальных данных, найденной в предположении, что вектор параметров в принял некоторое фиксированное значение. Условные оценки обычно применяют при решении задач с неслучайными параметрами. 2. Оценку в называют безусловной, если априорная информа ция, используемая при ее вычислении, сводится к безусловной 37
совместной плотности вероятностей со(у, в ) экспериментальных данных и оцениваемых параметров. Безусловные оценки ищутся в задачах со случайными параметрами, априорные свойства кото рых в объеме их совместной плотности вероятностей сое(в) долж ны быть известны. Заметим, что условная оценка может относиться и к случай ному параметру, если априорная информация о нем неизвестна или не используется из-за существенного усложнения алгоритма оценивания. Для таких ситуаций безусловная оценка может быть найдена путем усреднения условной оценки по всем возможным значениям вектора параметров в . 3. Условную оценку в называют состоятельной, если при нео граниченном объеме выборки (п -> оо) каждый ее компонент схо дится по вероятности к соответствующему компоненту вектора в , т.е. если при V6 > О Иш Р{|ё/ - 0/1 > 5} = О при « -^ оо, / = о, 1, ..., т. 4. Безусловную оценку в называют состоятельной, если при неограниченном увеличении объема выборки каждый ее компо нент по вероятности сходится к среднему значению соответству ющего компонента вектора в , т.е. если при V5 > О lim P{\Qi - M{ei}\ > 5} = О при л -> оо, / = О, 1,..., т. 5. Условную оценку в называют несмещенной, если среднее значение этой оценки, полученное ее усреднением по возмож ным значениям вектора у при фиксированном векторе 9, равно самому оцениваемому параметру: Myiemy)} = 1 e(y)L(y I e)d>; = в.
(2.5)
—со
Здесь Му^^{.,.} — символ условного усреднения. 6. Безусловную оценку в называют несмещенной, если среднее значение этой оценки, полученное ее усреднением по возмож ным значениям вектора >? при всех возможных значениях вектора в , равно среднему значению оцениваемого параметра: с»
Му{ё{у)}= J e(y)(ayiy)dy=-M[e}. —оо
38
(2.6)
Здесь Му{...} — символ безусловного усреднения, (Оу(у) - безус ловная плотность вероятностей вектора данных у и интегралы понимаются как многомерные [как и в (2.5)]: оо
оо
оо
оо
f dy= j i ...f —оо
—оо —оо
йу1йу2..Лу^.
—оо
7. Условную оценку вэ называют эффективной, если среднее значение квадрата отклонения каждого ее компонента от соот ветствующего компонента вектора в не больше среднего квадра та отклонения для любой другой оценки: ^>1в{(ё/э - е/)2} = min0M^|e{(e, - 0,)2}, / = О, 1,..., т. Здесь усреднение проводится по всем значениям вектора у при фиксированном векторе в , т.е. понимается в смысле (2.5). 8. Аналогичным образом определяется эффективная безуслов ная оценка, однако усреднение проводится по всем возможным значениям векторов >? и в , т.е. понимается в смысле (2.6). 9. Оценку называют достаточной, если для ее вычисления нет необходимости знать каждый компонент>'i, >^2? •••» З^л апостериор ной выборки у, а достаточно иметь одну или несколько функций от выборки, через которые и выражается оценка. Эти функции называют достаточными статистиками. В настоящее время теория статистических решений и матема тическая статистика рекомендуют много способов вычисления оценок. Эти способы отличаются объемом используемой априор ной информации, критериями оценивания, сложностью вычис ления оценок, соответствующих различным критериям, и т.д. Однако как бы ни был совершенен метод оценивания, принци пиально при конечном числе п экспериментальных данных не удается добиться полного совпадения оценок в и оцениваемых параметров в . Чтобы судить о степени приближения к оценивае мым параметрам, в рассмотрение вводят понятие ошибки оцени ваниях], определяемой естественным образом: г\(у, в ) = в (у) - в . Так как вектор наблюдений у случаен и вектор параметров в так же может быть случайным, то вектор ошибок всегда случаен и по этому не может быть надежной мерой качества оценивания. Для описания точности оценивания используют неслучайные пока затели, построенные на основе случайной ошибки. Для условной 39
оценки, которой соответствует неслучайный оцениваемый пара метр, такими показателями являются величина смещения т^т = М^^{г\(у, в)} = My\Q{e {у)) - в, представляющая собой среднее значение ошибки оценивания, и ковариационная матрица ошибок оценивания ^л = ^>'|в{[ЛО', в) - ш^Св)] [л(у, в) - /п^(в)]^},
элементы главной диагонали которой представляют собой дис персии ошибок оценивания отдельных компонентов вектора в, а остальные элементы — ковариации между этими ошибками. Для несмещенных ошибок {m^{&) = 0^+1) ковариационная матрица ошибок принимает вид К^ = М^е{[^(У) - в] [в(у) - ef),
(2.7)
и элементы ее главной диагонали имеют смысл дисперсий откло нений оценок от оцениваемых параметров, те. являются мерой разброса оценки относительно оцениваемого параметра. Точность безусловной оценки, которая соответствует случай ному оцениваемому параметру, принято характеризовать матри цей вторых моментов отклонений оценки от оцениваемых пара метров: Кг^ = Му^е {[в(у) - в] [е(у) - в]'^}. (2.8) Элементы главной диагонали этой матрицы представляют со бой средние квадраты ошибок оценивания отдельных компонен тов случайного вектора в, а остальные элементы являются вто рыми смешанными моментами этих ошибок. Как уже отмечалось, степень приближения оценок к оцени ваемым параметрам является ограниченной снизу Это значит, что при любом способе оценивания нельзя получить оценки, точность которых будет выше определенных значений, являю щихся границами принципиально достижимых результатов. Эти границы задаются с помощью неравенства Рао — Крамера. Для несмещенных условных оценок справедливо К^ = Му1е{[ё(у) - в] [ё{у) - ef} > ф-\ 40
(2.9)
Здесь Ф — так называемая информационная матрица Фишера, определяемая двумя эквивалентными способами: Ф = Мут ^^-Ыу\е)
де
1пД>^|в) (2.10)
=-л/ у\е где
д^1пДу|в)
•1пДу|в)
Эв^
определяется
как
вектор-строка,
—jlnL(y | в ) - матрица вторых производных (матрица Гессе, ее С/в
определение дано в п. 2.2). Нижняя фаница в неравенстве Рао Крамера, заметим, достигается при эффективных оценках. Ана логичные соотношения существуют для смещенных и безуслов ных оценок (например, [29]).
2.2. Операции многомерного дифференцирования Выше мы уже встречались с операциями дифференцирования, отличающимися от традиционно изучаемых в курсе высшей ма тематики их аналогов. Разумеется, это отличие чисто «организа ционное», не затрагивающее сущности и свойств дифференциро вания как математической операции. Рассмотрим наиболее ха рактерные ситуации, нуждающиеся в соответствующих коммен тариях. 1. Пусть у = Лх) и/К'^ -> R, т.е. рассматривается скалярная функция у от п переменных дс = [xi JC2 ... Xfj]^. Тогда по определе нию dfjx) Шх)_Шх)_ _§А£) (2.11) djc dx Эх^ дх2 дх^ т.е. производная от скалярной функции по векторному аргументу определяется как вектор-строка частных производных. Векторстолбец 41
-iT V/(JC):
(2.12)
djc
образует градиент функции/(jc) в точке х. Рассмотрим два характерных случая. Пусть у = х^Ах, Ае ^^'^. При П-2(А= [Qij], ij = 1 , 2 ) легко получаем у = awXi" + {ац + + ^21)^1-^2 "'• ^22^2 и в соответствии С определенисм 6х
= {2aixXi+{ai2+a2\)x2{ai2+a2x)xx-\-2a22X2\ = = [^1^2]
2^11
^12+^21
^12 "'"^21
2(322 1Л
= [XiX2]
^11
^12
^11
«21
^21
^22.
.«12
«22 4/
= д:'^(^ + ^'^).
По аналогии и для общего случая {п > 2) можем получить —Х'^АХ djc
= Х'^(А + А'^),
(2.13)
VX^AX = (A + A^)X,
Соответственно при симметрической матрице А, т.е. для кваX
Q
тг
Т
Т
дратичной формы х Ах, имеем —х Ах = 2х А, Vx Ах = 2Ах. Аналогичным образом для линейной формы у = с х находим d X dx
т
,-, т
2. Для функции/. R'' -^ R вводится понятие второй производ ной по вектору X. По определению
djc^
д^/(х) д^Ах) дх1 ЭХ|ЭХ2 д^Ях) aV(>:) ЭхгЭх! дх^ 3V(Jc) ЭУ(д:) Эх^Эх] Эх^Эх2
42
эУ(ж) ЭУ(л:) Эх2Эх„ e R '
эУ(х)
(2.14)
Эту матрицу называют матрицей вторых производных, или матрицей Гессе, а ее определитель — гессианом. В частности, V^JTAX -А-^А^И при симметрической матрице VVAX = 2А. 3. Пусть д' = / W и / : R'^ ~> R'", т.е. рассматривается w-мерная вектор-функция/(jc) = [/i(jc)/2(jc) ...fm(x)V от п переменных. Тог да по определению
df(x) 6х
dfi(x) dxi ЩХ) dxi
дМх) дх2 д/2(х) дх2
¥тМ
df„{x)
Эх1
Эх-)
дА(х)
дх„ д/2(х)
дх„
eR тхп
(2.15)
dfmix) дх„
Эту матрицу принято называть матрицей Якоби, а ее опреде литель (при т^п)— якобианом. В частности, для функции у = Ах, где ^GR"""", имеем ^-Ах^А.
(2.16)
4. Если JCGR'^ И W(A:)GR'", V(JC)GR'" — две вектор-функции, то производная по вектору х скалярного произведения этих функ ций определяется как вектор-строка -^{u{x),v(x)) = u^ix)-^v{x) + v^{x)-^u{x) ox
QX
(2.17)
ox
И, как следствие, производная от квадрата нормы, согласованной со скалярным произведением, и градиент находятся из выраже ний: - f II и{х) f = -^{и{х)Мх)) = 2и^{х)-^и{х), дх 6х 6х (2.18) V||ii(x)f = 2
djc
и{х) и{х). 43
2.3. Метод наименьших квадратов 2.3.1. МНК-оценки Возвратимся теперь к проблеме оценивания параметров в рег рессионной модели (2.3). Дополнительно уточним некоторые по ложения, касающиеся этой модели. Прежде всего условимся в последующих процедурах вектор в классифицировать как неиз вестный, что соответствует отсутствию всякой априорной ин формации о его свойствах. Далее будем полагать, что ошибки Ej{Xj) = Ejj' =1,2,..., п. Т.е. не зависят от значений экзогенных пе ременных, принимаемых при проведении эксперимента. Допол нительно эти ошибки полагаем центрированными, не коррели рованными друг с другом и имеющими при всеху одну и ту же, во обще говоря неизвестную, дисперсию а^ (в таких случаях измере ния (2.3) принято Hdi3biBaThравноточными). Таким образом, M{Ej}=0, M{EiEj} = \^2 ^.^'^-
i. J = h2, ..., п.
(2.19)
Итак, предполагается, что результатом проведения некоторо го эксперимента является совокупность наблюдений (апостери орная выборка) (2.3), упорядоченных в форме (2.4). Матрица \Р определяется выбранной системой функций при аппроксимации неизвестной функции регрессии и значениями экзогенных пере менных при проведении эксперимента. Векторы в и е в (2.4) соответствуют сделанным выше комментариям. Задача заключа ется в поиске оценки в(у) вектора в как функции наблюде ний}?. Одним из наиболее распространенных подходов к решению сформулированной задачи в настоящее время является метод на именьших квадратов (МНК). Его особенность прежде всего про является в отсутствии каких-либо жестких претензий к априор ной информации об оцениваемых параметрах и эксперименталь ных ошибках. И это очень важно для эконометрических задач, которые, как правило, не допускают экспериментального повто рения и в этом смысле являются однократными. Поэтому МНК, несмотря на свою большую историю (он применялся еще Гауссом и Лежандром), в экономических исследованиях занимает лиди рующую позицию. Существо метода заключается в следующем. 44
в рассмотрение вводится целевая функция J=ilyj-yv'^(xj)ef,
(2.20)
представляющая собой сумму квадратов удаления эксперимен тальных данных от значений, определяемых регрессионной со ставляющей в модели наблюдений (2.3). Заметим, что именно эти значения наблюдались бы в эксперименте, если бы функция регрессии действительно относилась к классу (1.19) , отсутство вали латентные переменные и сам процесс измерений эндоген ной переменной был идеален. Структура целевой функции (2.20) является характерным признаком МНК. Наилучшей (оптималь ной) оценкой (МНК-оценкой), найденной по этому методу, счи тается такое значение параметра в, при котором функция (2.20) достигает своего минимума. Таким образом, МНК-оценка ищет ся из условия e(3;) = argmin/ = argmin S [у,-- y\f'^(х Asf. в
(2.21)
в у=1
Если, используя обозначения (2.4), целевую функцию (2.20) переписать в эквивалентной, но более компактной форме J==(y- 4fef(y - Ч'в) = \\у- YGlp, то задача (2.21) будет формулироваться так: e(y) = 3irgmin\\y~wef, (2.22) е Запишем необходимое условие минимума для этой задачи, вычислив в соответствии с (2.18), (2.16) градиент функции / и приравняв его нуль-вектору: Vib' - Тв|р = -Т¥^(у - Ч'в) = 0^ + 1 => W^We = 4f^y. (2.23) Уравнение (2.23) представляет собой матрично-векторную форму записи системы линейных неоднородных алгебраических уравнений, состоящей из /и + 1 скалярных уравнений и содержа щей такое же число неизвестных ©о, ©ь ..., Э^. Прежде чем при ступить к поиску решения данной системы, сформулируем ряд необходимых для этой цели положений. 45
Определение 2.1. Матрица AeR^^" называется матрицей полного ранга, если ее ранг rank ^ удовлетворяет условию гапк^ = = min (п, т). Утверждение 2.1. Для произвольной матрицы А справедливо: rank А = rank А^А = rank AJV . Доказательство утверждения можно найти, например, в [8, 9]. Утверждение 2.2. Пусть в (2.23) матрица Y^e R^'" ^ ^^^'^ являет ся матрицей полного ранга и « > ( т + 1). Тогда матрица Y^T яв ляется невырожденной. Действительно, матрица Y ^ Y G R^'" ^ ^^^^'^ "^ ^\ и в силу ограни чения « > Аи + 1 и предьщущего утверждения имеем гапкЧ'^Т = = rank Ч? = m + 1. Но это значит, что определитель |Y^Y| Ф О, т.е. матрица Y^Y не вырождена. Возвратимся теперь к системе уравнений (2.23). Из невырож денности матрицы Y^Y вытекает существование обратной мат рицы (^^Т) , что позволяет найти решение системы в форме в = QV^^y^^ у. Так как целевая функция /является выпуклой, то необходимое условие ее минимума является и достаточным, поэтому найденное решение системы (2.23) представляет собой решение задачи (2.22) и, следовательно, МНК-оценка вектора в определяется выражением е(у)^{1!^'9)~^'9^у,
(2.24)
Если учесть определение матрицы Y, данное в комментариях к (2.4), то эту оценку можно представить в другой редакции: -1
е{у)
п
Ev(^/)3^/.
(2.25)
/=1
При линейной относительно оцениваемых параметров моде ли наблюдений МНК-оценка оказывается линейной относитель но вектора наблюдений у. Офаничение п> тЛ- 1, физически оз начающее, что число наблюдений при организации эксперимен та должно быть больше числа оцениваемых параметров регресси онной модели, является существенным и означает, что лишь в этом случае можно успешно справиться с влиянием неконтроли руемых ошибок е. При п< т+ I rank Y = rank W^4f <пи матрица W^4f оказывается вырожденной. В этом случае система (2.23), да же если она совместна, не является определенной. 46
2.3.2. Основные свойства МНК-оценок. Теорема Маркова
Займемся теперь анализом основных свойств найденной оценки. Покажем прежде всего, что МНК-оценка (2.24) является несме щенной. С этой целью, используя (2.4), находим М^е{^(у)} = M^e{(4f'^4^)-'4f^y} = Л/,|в{(^^^)-^Т^в + е)} = в, что и является условием несмещенности. Второй важнейшей характеристикой оценки является кова риационная матрица ошибки. Для несмещенной оценки она оп ределяется как (2.7). Ошибка оценивания находится естествен ным образом: Л(у, в) = в(у) - в = (Ч^^ЧО" V^>; - в =
(2.26) = (Y^40~^^^(Ye + 8) - в = (Ч'^^-^Ч'^е и, следовательно, К^ = М{г\г^) = {'V^^y^'V^Mizz^YV (Т'^Т)"^ = = (Т'^Т)~^Т'^Хе "Р (Ч''^'F)-^ где К^ - ковариационная матрица вектора е. Так как в соответствии с (2.19) К^ = о^Е, где Е — еди ничная матрица, окончательно находим Кг^ = М{г\х\^} = о\^^^-\
(2.27)
Соотношение (2.27) принципиально позволяет выявить точ ностные возможности метода наименьших квадратов. К сожале нию, практическая значимость этого результата невелика, так как в большинстве эконометрических задач дисперсия а^ экспе риментальных ошибок неизвестна. Однако МНК-оценкам при суще еще одно важное свойство. Теорема Маркова. Пусть модель наблюдений имеет структуру (2.4), вектор е удовлетворяет условиям (2.19), матрица Ч'является матрицей полного ранга и л > m + 1. Тогда МНК-оценка (2.24) яв ляется наилучшей (в смысле наименьшей дисперсии ошибок оценивания) среди всех линейных несмещенных оценок. Для доказательства теоремы предположим, что мы хотим найти наилучшую в указанном смысле линейную несмещенную оценку к-то компонента 0у^ вектора в. Этот компонент очевид ным образом выразим через сам вектор: 0^^^ = А^^^в, где А^ - век47
тор, у которого на (к + 1)-й позиции (А: = О, 1, ..., т ) находится единица, а остальные компоненты равны нулю. Оценку % вели чины 0^ будем искать в классе линейных функций наблюдений, т.е. в виде 0^ = И^Л, где Wj^ — вектор подлежащих определению весовых коэффициентов. Пусть щ — ошибка оценивания, т.е.
Первое слагаемое в этом выражении зависит от неизвестного вектора в и поэтому его величину нельзя оценить даже ориенти ровочно. Чтобы ошибку оценивания сделать независимой от оце ниваемого вектора, потребуем yp^W,-h,-(i^^,,
(2.28)
При этом дополнительно оказывается М{щ} — О, т.е. соотно шения (2.28) оказываются условиями несмеш;енности. В развер нутом виде выражение (2.28) представляет собой систему линей ных неоднородных алгебраических уравнений, состоящую из /w + 1 уравнений с п неизвестными в виде компонентов вектора Wj^. Так как п > т -^ \ м^ — матрица полного ранга, то при указанной стр>ж:туре вектора А^ эта система совместна, но не определена, т.е. имеет неофаниченное число решений. Если равенство (2.28) вы полняется, ошибка оценивания будет определяться только ошиб ками эксперимента и искомой весовой функцией: r\j^ = И^^^в, причем дисперсия Cj^ этой ошибки оказывается равной а^' = а^ Wt^Wj,,
(2.29)
Последующая задача заключается в поиске на множестве ре шений системы (2.28) такого вектора Wj^, который минимизирует величину (2.29). Эта традиционная задача на условный экстре мум решается методом неопределенных множителей Лагранжа. Составим функцию Лагранжа L{ W,, Я) = а^ Wj W, + X\4f^W, - h), где X — вектор неопределенных множителей Лагранжа. Стационарные точки этой функции находятся из условия ра венства нулевым векторам ее градиентов по векторам Wi^ и X: 48
2aV^-TX = 0„Y^^F^-A^ = 0^ + i. Выразив из первого уравнения этой системы вектор W/c и под ставив его значение во второе, получим 0,5а~^Т^ТХ - Ajt = 0^ + i. Так как матрица ^ ^ Т по доказанному не вырождена, то отсюда однозначно находится вектор X, подстановка значения которого в первое уравнение предыдущей системы позволяет найти иско мый вектор весовых коэффициентов >F^ = Y(Y^Yr^Ab
(2.30)
что приводит к следующему выражению оценки, наилучшей в классе линейных несмещенных оценок: 0^ = hj
(Y'^40-^YY
^ = О, 1,..., т.
(2.31)
Упорядочив все эти т + 1 оценок в форме одной векторной оценки, получим Ло^
№^V)"^vV
Но первый матричный сомножитель в этом выражении есть не что иное, как единичная матрица, и, следовательно.
Этот результат полностью совпадает с ранее полученной МНК-оценкой (2.24). Таким образом, МНК-оценка действитель но оказывается наилучшей в классе линейных несмещенных оце нок. Значение теоремы Маркова становится еще более важным, если предположить, что вектор экспериментальных ошибок яв ляется гауссовским, а именно 8 ~ 7V(0, G^E). Покажем, что в этом случае МНК-оценка оказывается наилучшей и среди всех нелиней ных несмещенных оценок, т.е. эффективной. С этой целью обратим ся к неравенству Рао - Крамера (2.9) и найдем информационную 49
матрицу Фишера, воспользовавшись вторым определением из (2.10). Прежде всего необходимо найти условную плотность экс периментальных данных /.сив). Если в модели наблюдений (2.4) вектор в зафиксирован, то природа «случайности» вектора у по рождена аналогичным качеством вектора е, так как иных источ ников случайности в этой модели нет. Поэтому вектор >? при фик сированном в будет также гауссовским с ковариационной матри цей о^Е и математическим ожиданием Ч'в, что непосредственно следует из (2.4). Таким образом, ПуЩ = Nyi'VQ, о^Е) => In 1(у\в) = const - 0,5а-^|1у - Тв|р, где через const обозначено независимое от в слагаемое. Дважды продифференцировав последнюю функцию по в (см. (2.14)), найдем
Но этот результат полностью совпадает с ковариационной матрицей ошибки оценивания (2.27). Следовательно, при гауссовских некоррелированных экспериментальных ошибках нера венство Рао — Крамера вырождается в равенство, соответствую щее точной нижней фани неравенства, а это и является призна ком эффективности МНК-оценки в указанных условиях. 2.3.3. МНК-оценки параметров производственной функции Кобба - Дугласа В качестве своеобразной иллюстрации техники построения МНК-оценок рассмотрим одну частную, но важную для многих эконометрических приложений задачу. Производственными функциями принято называть соотноше ния между используемыми в производстве материальными и тру довыми ресурсами (обобщенно — производственными ресурса ми) и выпускаемой продукцией. Пусть некоторое предприятие (отрасль, объединение, фирма и т.п.) в течение определенного промежутка времени производит q наименований продукции со ответственно в количествах wi, W2, ..., Ug, представленных в нату ральных единицах измерения или в денежном эквиваленте. Что бы производить эту продукцию, необходимы S видов ресурсов со50
ответственно в количествах vi, V2, ..., v^, также представленных в определенных единицах измерения. Тогда неявная функция F(u,v,A)^0, связывающая вектор выпускаемой продукции м = [«j W2 ... w^]^, вектор используемых ресурсов v = [vi V2 ... vj и вектор а = [ai ai... йр]^ параметров, представляет собой производствен ную функцию. Причина для включения вектора параметров в со став производственной функции та же, что и в случае регресси онной модели: точно указать характер аналитической зависимос ти между векторами и и v невозможно; однако можно предвидеть параметрический класс функций, которому принадлежит произ водственная функция; в последующем эти параметры можно оценить по результатам надлежащим образом поставленного экс перимента. Суть последнего может заключаться в следующем: регистрирз^отся объемы выпускаемой продукции при различных объемах используемых ресурсов, что приводит к массиву экспе риментальных данных, подобному (1.1), (1.2); на основе этих данных находятся, например, МНК-оценки вектора а. В настоящее время наиболее часто производственные функ ции применяют при решении однопродуктовых экономических задач \q- 1) с несколькими материальными и трудовыми ресур сами (^ > 1). В этом случае и = и — скалярная величина, и произ водственную функцию, разрешив относительно w, представляют в виде и = Ду, а) и часто называют функцией выпуска. Вид функцииУ(.) не может быть совершенно произвольным. Она должна удовлетворять определенным условиям. Вот некото рые из них. 1. Производство невозможно при отсутствии хотя бы одного из ресурсов, т.е. ЛО, V2, V3,..., v^, а) =y(vb О» ^з, ...,v^, а) = = ... =Дуь ...,v^_bO, л) = 0. Заметим, что если некоторый вид ресурса может компенсиро ваться другими, записанные условия относительно этого ресурса могут и не выполняться. 51
2. При увеличении затрат производственных ресурсов выпуск продукции не уменьшается, т.е. для дифференцируемой произ водственной функции ЧЛ^» л) ^ 0. 3. Увеличение одного ресурса при неизменных значениях других ресурсов должно приводить ко все меньшим приростам выпускаемой продукции. Это достигается, если —r-/(v,a)<0, / = 1, 2, ..., 5", что эквивалентно требованию положительной зна коопределенности матрицы -Vyf[y, а). Одной из наиболее ранних производственных функций явля ется предложенная в 1928 г П. Дугласом и Д. Коббом функция для определения влияния величины затрачиваемого капитала (vi) и объема труда (v2) на объем выпускаемой продукции (и) в обра батывающей промышленности США. Эта функция была предло жена в форме u=-avi^ v{, а>0, А>0,с>0, й + с = 1 . Здесь в терминах предьщущих обозначений а = [а й с]^ — век тор параметров, оцениваемых по экспериментальным данным. В качестве этих данных использовались зафиксированные в проме жутке с 1899 по 1922 г. объемы затрачиваемого капитала vi^\ труда V2^^ и соответствующий им объем выпускаемой продукции Ду=1,2,...,24. Характерная особенность предложенной производственной функции проявляется в нелинейной зависимости от параметров, что существенно усложняет процедуру их последующего оцени вания по экспериментальным данным. Поэтому оказалось целе сообразным предварительное логарифмирование этой функции, приводящее к очевидному результату: In W ~ In V2 = In а + 6(1П VI — In V2),
уже линейно зависящему от параметров \nawb. Тогда математи ческую модель экспериментальных данных можно отобразить равенством In w^^' - In vs^"^ = In й + й(1п vi^"^ - In V2^*^) + e^\y =1,2,..., 24, в котором слагаемое e^^ моделирует неизбежные отклонения ре зультатов эксперимента от предполагаемых теоретических значе52
.(/•) ^- IIn n V .W НИИ. Если теперь ввести обозначения: vj = In и^^ V2^^, ©о = = In а ©1 = Z>, в = [©о ©,]'^, xj = In vi^^ ^ In V2^'^), v'^(xy) = [1 xy], 8y = e^^ и положить n = 24, экспериментальные данные опишутся соотношением yj=yV^(xj)e + Бу ,У = 1, 2,..., л.
что полностью совпадает с регрессионной моделью (2.3). В тер минах этого совпадения величиныyj и Xj,j = 1, 2,..., л, можно ин терпретировать как экспериментальную выборку соответственно эндогенной и экзогенной переменных данной экономической системы. МНК-оценка вектора параметров в находится с помо щью уже известного правила (2.24), которое с учетом введенных обозначений и после проведения соответствующих матричновекторных операций может быть конкретизировано следующим образом: во=р-х01, Bi
(хЪ-Зс^
где, в свою очередь, использованы обозначения \ п
x = -Xxj,
\ п
y=-^yj,
in
kxy=-llxjyj,
~
(x) =
I '^ л
-j,xj.
Зная оценки параметров ©о и ©i, не представляет труда найти оценки исходных параметров а, Ь, с производственной функции. Следует заметить при этом, что исследование свойств этих оце нок может породить самостоятельную задачу. Обратим внимание еще на одну особенность полученных оценок: они выражаются не через отдельные компоненты у\уУ2, --',Уп экспериментальных данных, а через функции у, к^у этих данных. Поэтому найденные оценки можно классифицировать как достаточные, а функции У, кху рассматривать как достаточные статистики. 2.3.4. Идемпотентные матрицы Для последующего анализа нам потребуются матрицы, обладаю щие определенными специфическими свойствами. Одной из них является идемпотентная. 53
Определение 2.2. Матрица Ре R^^^ называется идемпотентной, если выполняется условие Р^ = РР = Р, т.е.квадрат идемпотентной матрицы равен самой матрице. Как следствие этого определения, очевидно, /^ = Рпри V/: G N. Идемпотентные матрицы обладают рядом замечательных свойств. Ограничим рассмотрение важным для нас случаем сим метрических матриц. Утверждение 2.3. Собственные числа идемпотентной матри цы равны нулю или единице. Действительно, пусть v и z — собственное число и соответст вующий ему собственный вектор матрицы Р. Тогда по определе нию /% = VZ => P^z = vPz => Pz = v\ т.е. V = v^, что выполняется при V = О или V = 1. Утверждение 2.4. Ранг симметрической идемпотентной мат рицы Р равен ее следу: rank P=Sp Р. Так как Р — симметрическая матрица, то существует ортого нальная матрица 1] диагонализирующая матрицу Р, т.е. обладаю щая свойствами Г J = Е, JFPT== V, где v = diag [V/], i= 1,2, ...,q, - диагональная матрица из собственных чисел матрицы Р. Отсю да, учитывая, что 'Г = Т~^, получаем Р = IVJ^. Так как Г - невы рожденная матрица, то rank Р = rank v. Но ранг диагональной ма трицы V равен числу ее ненулевых строк. Число же таких строк совпадает с количеством собственных чисел, равных единице, т.е. со следом матрицы v: rank v = Sp v. В свою очередь, Sp Р = = Sp (IS^'f) = Sp(IT^v) = Sp V и, следовательно, rank P = Sp P. Заметим, что здесь и далее используются свойства следа матрицы: Sp (АВ) = Sp (ВА); Sp (А) = Sp {А\ Sp (^ + J?) = Sp ^ + + Sp В; Sp (АА^) = Sp (А^А) - А^А, где Ае К"". Обратим внимание еще на одну особенность идемпотентной матрицы, по существу являющуюся следствием доказанного ут верждения: так как ранг ненулевой матрицы является целым по ложительным числом, сумма диагональных элементов симметри ческой идемпотентной матрицы представляет собой положитель ное целое число. Утверждение 2.5. Пусть 8GR^— стандартный гауссовский век тор {М{г} = 0^, М{ег^} == а^Е) и Р — идемпотентная ^-матрица. Тогда случайная величина \х = е^Рв подчинена j^{r) распределе нию, где г = rank Р. 54
Действительно, г^Ре = e'^TVT^e = (J^e)'^v( J^e). Так как J - ор тогональная матрица, то Т^е ~ Л^(0^, с^Е), т.е. также стандартный гауссовский вектор. Но тогда случайная величина е РЕ = = (J^e)^v(r^8) представляет собой сумму г квадратов стандартных гауссовских величин и распределена, следовательно, по закону
xV). 2.3.5. Несмещенная оценка дисперсии экспериментальных ошибок и ее свойства Выше было получено выражение (2.27), определяющее точность МНК-оценок, и одновременно отмечена ограниченность его применения, обусловленная неизвестностью дисперсии а^ экс периментальных ошибок в большинстве реальных эконометрических задач. Поэтому оказывается целесообразным оценивание параметров в рефессионной модели совместить с оцениванием дисперсии экспериментальных ошибок, чтобы в последующем иметь возможность аргументированно анализировать свойства МНК-оценок регрессионных параметров. С целью получения оценки дисперсии найдем минимальное значение целевой функции (2.20), соответствующее МНК-оценке регрессионных параметров, т.е. mmJ = mmj;,lyf-'\^'^(Xi)ef=mm\\y--Wef=\\y-^^f' в у=1 в Легко устанавливается
(2.32)
\\у - т е |р = CF ~ "Vef (у - "¥&) = у^(у - Тв) -e^4f^(y ~ ^в). Так как в силу необходимого условия (2.23) оптимальности МНК-оценки вычитаемое справа в этом выражении представля ет собой нуль, то получаем
Ь-Ч^в|р=/(>;-Тв). В свою очередь, если учтем модель экспериментальных дан ных (2.4) и выражение МНК-оценки (2.24), получим (у - Ч?в) = (Еп - Ч'СР^ЧГ}-^Ч^^)г,
(2.33)
где, как обычно, £„ - единичная л-матрица. 55
Если теперь еще раз воспользоваться моделью (2.4) и учесть то обстоятельство, что матрица ^^(Е^ — Y(Y^Y)~^4'^) является нулевой, то установим окончательно min / = г^(Е^ - 4f(W^Wr^4f^)E.
(2.34)
Величина (2.34) является случайной. Найдем ее среднее зна чение М{тт J). Пусть Е^ - ^ ( ^ т ^ ) - 1 ^ т _ j^,,.j^ .j ^ j 2^ _^ п. Тогда z^{E^-4{4f^wr^W^)z=
i i
aytitj.
Усредняя это выражение, с учетом (2.19) получаем M{mmJ} =
a^^aii=G^Sp(E„-'¥{W^^)^^). /=1
Используя свойства следа матрицы, находим М{тт J] = a\SpEn - Sp W(4f^4^)-^4?^) = о\п - Sp СР^Ч?(Ч?^ЧГ}-^)) = с\п - Sp JF^ + i) = с\п
(2.35) -m-l).
Рассмотрим случайную величину ^9
о^=
1
п-т~1
-min/.
(2.36)
Из сопоставления с (2.35) следует, что среднее значение этой величины M{G^} = а^. Но это означает, что величина а^ может быть принята в качестве несмещенной оценки дисперсии а экспе риментальных ошибок. Таким образом, окончательно 5^ =
^—; i (У! -y\f^(xj)ef n-m-\j:=l ^
=
Ц-11 j ; - W e f = п-т-1 (2.37)
п-т-1 Оценка (2.37) позволяет конкретизировать точностные свой ства МНК-оценки регрессионных параметров, если в подвергав56
шемся критическим комментариям выражении (2.27) дисперсию а^ заменить ее оценкой (2.37). Так как эта оценка является слу чайной величиной, при обширном ее использовании в процеду рах эконометрических исследований недостаточно знания толь ко ее математического ожидания, но необходим более обширный спектр вероятностных характеристик. Установим одну из них. Для этого воспользуемся определением (2.36) и откорректируем его в соответствии с (2.34): а^ =
^—-e'^iE^ -W(W^wr^W^)e.
(2.38)
Утверждение 2.6. Матрица Е^ - Y(Y^M[')~*Т^ является идемпотентной с рангом rank (Е„ - Y ( Y ' ^ T ) ~ ^ T ' ^ ) = п-т-\. Справедливость утверждения проверяется непосредственно: {Еп - Т(Ч'^^-^Ч^^)2 = (Еп - Y(Y^40"^Y^)(^« - Ч ' ( Т ^ Т ) - ^ ^ ^ ) = = £^-Т(Т^Ч')"^Ч^^; rank {En - Y(Y'^Y)-^4P'^) = Sp {En - Т(Т'^ЧО~^Ч''^) = м - w - 1. Ориентируясь на перспективу применения этого утвержде ния, следующим образом подкорректируем выражение (2.38):
Ъ^{п-т--\) а^
/л (г^ т (^^-v(v^v)~^v^i\^J Iо
(2.39)
Так как вектор е/а представляет собой стандартный гауссовский вектор, стоящая справа в (2.39) случайная величина в соот ветствии с утверждением 2.5 подчинена х^-распределению с п — т — \ степенями свободы. Таким образом, получен следую щий важный результат. ^^ ^
.
a^(At-Aw-l)
Утверждение 2.7. Случайная величина
^ подчинеа на х^-распределению сп — т— I степенями свободы, т.е. распре делению х"'{п — т— 1). Оценки а^ и в обладают еще одним любопытным свойством. Обе они являются функциями вектора наблюдений у. И тем не менее справедлив следующий результат. 57
Утверждение 2.8. Оценки а (у) и В(у) некоррелированы, а при гауссовских экспериментальных ошибках е независимы. Для доказательства МНК-оценку (2.24), используя модель данных (2.4), представим в виде в = в + (4f^4r}-^4f^B.
(2.40)
Воспользовавшись (2.33), построим величину (у - Ч?в)в^ = {Е- 4fCr^4r}-^4f^)e(B^4f(4f^Wr^ + в^) и найдем ее среднее значение
М{(у - Ув)в'^} = (£- WC¥^4ri-^4'^)M{eB^}4'(W^W)'^ = Опх(т где Опх{т +1) "" нулевая пх{т + 1)-матрица. Здесь учитывается, что М{г} = О и М{8е } = с^£. Следовательно, векторы у - YO и в не коррелированы. Но тогда не коррелированы случайная величина \\у - 4fB\f и случайный вектор в, а это влечет за собой некоррели рованность самих оценок Ъ^ и в , так как первая из них непосред ственно выражается через \\у - Т в |р. Если дополнительно вектор е экспериментальных ошибок является гауссовским, то векторы J? - Y ^ и в также гауссовские и из их некоррелированности следует независимость, порождающая независимость и оценок а^
ив.
Зная оценку д^ и учитывая то обстоятельство, что при гауссовском векторе е оценка в ~ N(B, a^(Y^Y)"'^), можно построить доверительные интервалы для компонентов вектора в. Действи тельно, приближенно примем в - N{B, a^(Y^Y)"' ), заменив ис тинное, но неизвестное значение дисперсии ее оценкой, и зада димся доверительной вероятностью 1 ~ а. Для /-го компонента Э/ вектора в имеем Э/ ~ М©/, ^V//)? где \i/// — /-й диагональный эле мент матрицы (Y^Y)~^ Найдем такую величину Л, при которой Р(в/ - А < ё/ < 0/ + Л) = 1 - а, т.е. 1
®'+'' 1 -, J ехр---—(0,-0,)2 d e i = l - a , • J ехр -^я.-йл2 2ла?в,-А [ 2а,где Ъ,^ =ст^\|//,.После замены переменной а, ' (в, — Q,) = Zi это ра венство преобразуется к виду
i
58
1 .2 L_« ^.-^.;,-\ \ exp-^ -тг,[dz/ ==—, Л = hdj => A = -djUa/2, где Wa/2 есть а/2-квантиль стандартного гауссовского распределе ния. Таким образом, с вероятностью 1 — а выполняется неравен ство 0/ + a/Woc/2 ^ 0/ < 0 / - &/"а/2» из которого следует в/ + сг/М(х/2 < < 0/ < 0/ - a/Wcx/2, / = О, 1, 2,..., m. Это и будут доверительные ин тервалы для регрессионных параметров. Далее эти неравенства будут уточнены.
2.3.6. Проблема обусловленности МНК-оценок. Векторные и матричные нормы Выражение (2.24) для вычисления МНК-оценки внешне подку пает своей простотой и математической изящностью. Однако присутствие в нем операции обращения матрицы представляет собой тот айсберг, встреча с которым может привести к непредви денным последствиям, если к этой встрече не подготовиться предварительно. Природа опасения заключается в следующем. Матрица (Ч'^^)" в (2.24) преобразует вектор W^y в оценку &(у). В практических задачах вектор у отображает результаты определенного эксперимента, которому сопутствуют неизбеж ные ошибки и неточности, обусловленные несовершенством из мерительных технологий, методологии организации экспери мента и др. Все это приводит к тому, что реально вместо вектора у* = ^ в , объективно отражающего состояние исследуемого явле ния, придется оперировать вектором у Ф у*, который после его подстановки в (2.24) приведет к величине Q(y) = (Y^Y)"^Y^>? Ф в(У*) "^ aV^^y^^^y^. Это неравенство порождает крайне сущест венный вопрос: если ^^(у* — у) - Av, где Ду - некоторое откло нение, то к каким последствиям в смысле величины изменения 6 в = вСк*) - %(у) МНК-оценки отклонение Ьу приведет? Есте ственным является желание иметь при малых в некотором смыс ле отклонениях Ду малые изменения 5 в . Однако это пожелание далеко не всегда достигается. Поэтому нужно выявить механизм, определяющий характер взаимодействия величин 8 в и Ду, с тем чтобы, раскрыв этот механизм, суметь достичь желаемого резуль тата. Сформулируем ряд основополагающих в данной проблеме положений. 59
Пусть z G В^, yeR^ и z - (p(y) — решение некоторой задачи, найденное как функция вектора у. Тогда: Определение 2.3. Решение z = фС^) Hдiзыв2icтcя устойчивым, ес ли при V8 > О 35(8) > О такое, что из неравенства \\у\ — У2\\ < 5(e) сл дует ||zi - Z2II < е, где у\ и У2 — произвольные элементы из R'^, Z]=(f(y\),Z2='(p(y2)'
По существу, это определение означает, что решение устойчи во, если малым по норме изменениям 8у аргумента j; соответству ют малые по норме изменения 8z в решении z, так что ||8z||~>0 при IISjiHO.
Определение 2.4. Задача поиска решения z = ф(у) называется корректно поставленной на паре пространств R'^, R'", если вы полняются условия: 1) для \/уе Я^ существует решение ze R'"; 2) решение определено однозначно, т.е. единственно; 3) решение устойчиво. Задачи, не удовлетворяющие перечисленным требованиям, называют некорректно поставленными. В связи с поиском МНКоценок наибольшее беспокойство вызывает третье условие, что и порождает, как уже отмечалось, необходимость найти своеобраз ный критерий устойчивости решения. Осуществим это намере ние в связи с поиском решения системы алгебраических уравне ний y=-Az,AER'''^, (2.41) подобной определяющей МНК-оценку системе (2.23). Для этого нам понадобятся некоторые дополнительные сведения о вектор ных и матричных нормах. Определение 2.5. Пустъу= [J/]GR'^, т.е. /= 1, 2,..., п. Тогда чис ло М = (ly/+ ЬГ + ... + \УпГ)'^^Р>и (2.42) называется гельдеровой нормой вектора у. В зависимости от/? получают ту или иную частную норму Так, при/7 = 1 получают октаэдрическую [9], или /i-норму [26]; при /? = 2 имеем уже широко нами использовавшуюся евклидову, или /2-норму; при /7 = оо получим кубическую, или /оо-норму |[у|| = maxjlyj, / = 1,2,..., п). В зависимости от характера решаемой задачи применяют ту или иную частную норму. 60
Определение 2.6. Пусть А = [а,у]е R'"^ и \\у\\е R^. Тогда число ;;GR^з;^0„ II А'II называется нормой матрицы А, согласованной с нормой вектора;?. Помимо трех традиционных аксиом, которым удовлетворяет норма любого математического объекта из линейного простран ства, матричная норма (2.43) обладает еще одним свойством: еслиАеК'^'^иВеК"'^,то |И^|<|И1|хМ. (2.44) В зависимости от способа определения векторной нормы по лучают определенную матричную норму Так, если \\у\\ - /i-нор ма, то т
М||=тахЕ|%| 1<А:<л/=:1
И называется максимальной столбцовой нормой. Если ||у|| /оо-норма, то п
М||=тах I \а^1,\ \
И называется максимальной строчной нормой. Если Щ — евкли дова норма, то MlhV^max» где Хтах - максимальное собственное число матрицы А^А и назы вается спектральной нормой. Используются и другие матричные нормы. Например, т п
^
MJhJX Y^afj, илиприт = А/ \\А\\=п max \ац,\, V/=U=1
\
Полезно иметь в виду \\Щ > 1, |И"^|| > l|J£ll/IMI, где Е, Ае R^^^ Возвратимся теперь к системе (2.41). Пусть вместо точного значения у получено приближенное значение у = у + 5у. Тогда вместо точного решения z системы получим приближенное 61
z= z + 6z, причем отклонения связаны уравнением Ьу = Adz или 5z = ^~^б>^. Переходя к нормам, получаем с учетом (2.44) ||5г|| ^ |И~^11 X 1|5у|1- Рассмотрим относительную ошибку решения ||Sz||/||zl|. Из (2.44) следует ||j; || < \\А\\ х ||/||. Перемножив два послед них неравенства, получим NIxllFll^lNlxIM-'llxIMilxllzlH ^2 45) =>W/||z1|:S|H-4|x|MI|x||5j;||/|ly'||. Отсюда следует, что относительная ошибка в решении, вы званная неточным заданием входных данных j;*, тем больше, чем больше число ЦА'^Ц х \\A\l которое может служить своеобразным индикатором устойчивости решения. Определение 2.7. Число D^ = Ы~Ч х 1И11 Для невырожденной матрицы ^ и D^ = оо для вырожденной называется числом обуслов ленности матрицы А. Некоторые характерные свойства числа обусловленности [19]: max! И l^minl"~ наибольшее И Наи меньшее по модулю собственные числа матрицы А; D^B ^ D^D^ для произведения АВ матриц. Матрицы с большим числом обус ловленности называются плохо обусловленными в противовес хорошо обусловленным матрицам, которым соответствуют малые числа обусловленности. Таким образом, чем больше число обусловленности матрицы, тем большая относительная ошибка решения порождается одной и той же относительной ошибкой задания входных данных >?. При этом следует иметь в виду, что конкретное значение числа обус ловленности зависит от способа задания нормы \\А\\ матрицы А, Заметим, что современные пакеты прикладных программ преду сматривают вычисление чисел обусловленности матриц при раз личных заданиях их норм. Выявленные особенности системы (2.41) свойственны, разу меется, и системе (2.23), используемой для поиска МНК-оценки (2.24). Если матрица Т Т оказывается плохо обусловленной, ис пользовать выражение (2.24) как средство практического вычис ления МНК-оценки рискованно, так как даже малые ошибки в задании вектора Ч^^у могут привести к большим отклонениям ре шения, т.е. к большим ошибкам МНК-оценки. Несложно полу чить аналогичное (2.45) неравенство для уравнения (2.23). Пусть У* = \ff^Q __ гипотетический вектор экспериментальных данных, 62
соответствующих идеальному случаю безошибочных наблюде ний, и j ; = Y ^ e + 8 — результат реальных наблюдений. Тогда по аналогии с (2.45) получаем не - в|| / ||в|| < l^'^^'ll X ||(W)-^|| X {^''eW I II^^Vll. Отсюда следует, что при плохо обусловленной матрице Y^Y нужны иные, нежели (2.24), принципы поиска решения системы (2.23). Эти принципы и при плохо обусловленной матрице Y^Y должны гарантировать приемлемо малые ошибки оценивания. Успехи вычислительной математики в этом направлении в по следнее время связаны с разработкой так называемых .we/wc?(3oe/?^гуляризации, объединенных в весьма разветвленную математиче скую теорию решения некорректных задач (например, [24]). Да лее, не вдаваясь в терминологические и принципиальные осо бенности методов регуляризации, рассмотрим один из алгорит мов, позволяющих обеспечить устойчивость решения при вычис лении МНК-оценок и организовать достаточно рациональную вычислительную схему поиска этих оценок. 2.3.7. Рекуррентный метод наименьших квадратов Предположим, что поиск МНК-оценки осуществляется не по всему массиву >^1, yj-, '•••>Уп экспериментальных данньис, а лишь по части^1,^2» •••» Уь к<п. Это означает, что целевая функция (2.20) и соответствующая оптимизационная задача приобретают вид /jt = X [У] - W^(xj)ef
-^ min по е.
(2.46)
Техника решения задачи (2.46) уже известна, и ее «материали зация» может быть представлена в форме (2.25) в^^> =
к
lv(xi)yr
(2.47)
Здесь индекс у оценки указывает на объем эксперименталь ных данных, используемых при ее вычислении. Выражение (2.47) введено чисто формально в том отношении, что проблема обра63
щаемости матрицы в (2.47) не обсуждается, так как в последую щем она легко снимается. Утверждение 2.9. Пусть матрицы Р, Q, R таковы, что образуют невырожденную матрицу Р~^ 4- Q^RT^Q. Тогда справедливо пред ставление (Р-* + Q^R-^Q)-^ =Р-
PQ^iQPQ^ + Ry^QP.
(2.48)
Доказательство этой так называемой леммы об обращении ма трицы можно найти, например, в [20], и мы не будем на нем ос танавливаться. Введем обозначение ^-l
51^ =
Ev(^/)v (^/) =
-1
к-\
1 V(^/)V (Xi) + V(XA:)¥ (Xk)
(%-i~^+Wk)V(x,)rK
Воспользовавшись леммой об обращении матрицы, предста вим % = %-1 - '3ik.Mxk)(W^(xj,) 3if,_Mxk) + l)~V(Xk) ^k~h
(2.49)
Это позволяет следующим образом преобразовать выражение (2.47): fk-i ] ё^^^=щ lw(Xi)yi-^\V(xk)yk \ =
к-\ = i^k-l -Qk-l^-l)
1 WiXi)yi+^kW(Xj,)yk, /=l
где обозначено ^^_i = 9l^_iV(X)t)(\|f^(x^) 3ik-Mxk) По аналогии с (2.47)
^k-ilv(Xi)yi^e^^-^^ и, следовательно, в(к) = в<^-^> - ^,_1 в(^-^> + %^(Хк)Ук^ 64
+ l)"V^(^it).
в соответствии с введенными обозначениями имеем: Sik-Г^ = 91^-^ - yif(Xk)yv^(Xk) => Qk-i = ^к У¥(хк)У¥^{Хк). Это позволяет окончательно записать в(к) = в^^-1)^ 9i;t W(Xk)(yk- V(Xk)e^^-'^), k=h2,...,
п. (2.50)
Совокупность выражений (2.49), (2.50) обычно и принято на зывать рекуррентным методом наименьших квадратов (РМНК). Вычисления по этому методу организуются последовательно. Вначале полагают к= I; задают начальные условия, наиболее ча сто в виде 9^^^ = 0,91о = уД где у = const >> 1; из (2.49) находят 9li, а из (2.50) — в^^\ что формально соответствует поиску оценки в^^^ регрессионных параметров по единственному эксперимен тальному результату;;!. Разумеется, никакого серьезного внима ния к оценке в^^^ проявлять нельзя, она лишена какого-либо практического смысла и должна рассматриваться как формаль ный «эпизод» на пути получения МНК-оценки. Далее принима ют А: = 2, из (2.49) находят 912 » ^ из (2.50) — в^^\ что соответству ет уточненной по второму экспериментальному наблюдению У2 оценке. Далее аналогичным образом проводятся вычисления при /: = 3,4,..., л, что приводит к оценке в^'^^ принимаемой за МНКоценку. Как видно, при такой схеме вычислений не приходится обра щать плохо обусловленную матрицу, что стимулирует получение устойчивого решения. Чтобы более явно раскрыть механизм это го явления, поступим следующим образом. С использованием матрицы 91;^ МНК-оценку (2.25) можем представить в следующем виде:
в=
Еп V(Xi)yi = 91„ Е yv(Xi)yi. (=1
(2.51)
/=1
Матрица 91„ вычисляется последовательно. Будем иметь: % = (%Г^ + v(jc,)v^(xi))-'; 9l2 = (91,-' + Щх2)у/^(Х2)Г^ = = (91о-' + v(aci)\|fVi) +
W2)v\x2)r^;...;
65
Если учесть результат последовательного вычисления матри цы 91;^, выражение (2.51) перепишется так: f
п.
в=
\
-1
и 1=1
(2.52) -1
^
Ч
1
"
'=1
Т
^
П
/
/=1
Как видим, оценки (2.51), (2.52) различаются: если в (2.51) т ^ т матрица ^ ^=E¥(J^/)V (^/) плохо обусловлена, то ее аналог /=1
-1
'^
Т
-1
Y V^" + S ¥(^/)¥ (^/) в (2.52) благодаря начальному условию у J? может оказаться хорошо обусловленной матрицей, что и обеспе чивает устойчивость решения. Чтобы получить представление об эффективности РМНК, приведем результаты одного вычислительного эксперимента. Его существо заключается в следующем. Были заданы конкретные матрица Y размерностью /7 = 10на/г7 + 1 = 3 и вектор в. Матри ца Т строилась случайным образом, но так, что один из ее столб цов отличался от соседнего только одним элементом, изменение которого позволяло варьировать число обусловленности матри цы Y^Y. Далее решалась прямая задача, в результате чего находи ли вектор j ; * = ^ в . Этот вектор искажался случайным «шумом» е с независимыми и равномерно распределенными на [-с, с] ком понентами, что приводило к формированию вектора у - у -^ г. Построенный таким образом вектор у использовался при реше нии обратной задачи, т.е. при поиске оценки в вектора в в соот ветствии с регулярным (2.24) и рекуррентным (2.49), (2.50) мето дами наименьших квадратов. Результаты вычислений содержатся в табл. 2.1. В таблице использованы следующие обозначения: D = ЦЧ'^Ч?!! т -1 т Цф'^еИ ||(^ 40 II - число обусловленности матрицы Ч? Т; " ^ " -
llwVll
относительная ошибка при формировании свободных членов
Таблица 2.1 Точностные характеристики МНК и РМНК
1 1|в-в|| 1 1|в-в|| lieil
D
Diag(y'^^-1
lieil 1 для РМНК 0,258
II^Vll
для МНК
4 • iO~^
-
3,810-^
6,9310^
0,257
810-^ 1,110^^ 1,М0^^
3,910"^
704,3
0,23
8-10-^ 1,М0^ 1,М0^
3,310"^
43,79
0,342
5,110"^
7,12
410-^
0,507
3,37-10"^
0,187
0,187
8-10-^ 4,69 4,42
j
2,310^
595
3,8-10"^
0,066
0,066
810-^ 1,26 1,1
1 1
310-^
0,029
0,029
8-10-^ 0,102 0,044
1
3,210-^
9,810-^
8-10"^ 0,057 0,011
1 i
оо
5,56-10^2
5,56-10^^
-
' 5,56-10^
8-10"^ 1,110^ 1,110^
1
8-10""^ 5,5610^
2,5-10'^
36
'
19,68
i
3,18 1,Ы0^ 0,506
9,810-^
8-10-^ 49,9 49,1
1
67
системы уравнений (2.23);
||е~е||
ц^., для МНК - относительная 11^11
ошибка МНК-оценки (2.24); ^*
^^ для РМНК - относитель-
II в II пая ошибка оценки, найденной рекуррентным методом наи меньших квадратов-diag (4f^W)~^ — столбец диагональных эле ментов матрицы (Т Т)~^ определяющей точность МНК-оцен ки. При проведении вычислений применялись евклидова вектор ная и спектральная матричная нормы. Содержащиеся в табл. 2.1 данные получены усреднением по десяти реализациям вектора е, ковариационная матрица которого в эксперименте принималась равной (2/3)xlO""^jE'. Истинное значение вектора в формирова лось случайным образом и оказалось равным в^ = [4,063 0,053 1,655]. Первая строка в табл. 2.1 соответствует вырожденной мат рице 4f^4f. Из таблицы видно, что при плохо обусловленных мат рицах 4f^4f рекуррентный метод, в отличие от регулярного, ведет себя вполне «пристойно». По мере уменьшения числа обусловленности матрицы Y^Y точностные характеристики методов сближаются. Наблюдаемое ухудшение точности рекуррентного метода в «среднем» диапазо не чисел обусловленности можно объяснить тем, что все исследо вания проводились при одном и том же значении параметра у, определяющего начальную матрицу ^Q = уЕ в структуре рекур рентного алгоритма (было принято у = 10 ). Вместе с тем иссле дования свидетельствуют об определенной чувствительности ал горитма к значению этого параметра, которое полезно адаптиро вать к числу обусловленности матрицы Y^Y. Так, если при D = 5,56 X 10 положить у = 10^, то относительная ошибка рекуррентно найденной оценки оказывается равной 0,723 (вместо 3,18 при у = 10"^). Выбор оптимального значения параметра у здесь не обсуждается. 2.3.8. Коэффициент детерминации. Послерегрессионный анализ регрессионной модели Коэффициент детерминации. Рассмотренные выше методы рег рессионного анализа предполагали, что регрессионная модель (2.2) (число и характер экзогенных переменных, структура и раз мерность вектор-функции Щх) и т.п.) выбрана и обоснована 68
средствами предварительного анализа регрессионной модели (см. п. 1.5). После проведения рефессионного анализа исследова тель располагает большей информацией о свойствах модели, так как для регрессионных параметров модели и дисперсии экспери ментальных ошибок получены МНК-оценки и установлены их основные свойства. Это позволяет с позиций новых знаний еще раз возвратиться к модели (2.2), подвергнуть ее дополнительному анализу и при необходимости подкорректировать. В эконометрических задачах существенная часть послерегрессионного анализа связана с применением так называемого коэффициента детерминации. Чтобы его определить (здесь воз можны различные подходы), рассмотрим вариацию (разброс) вар(у) экспериментальных данных (2.4) относительно их средне го значения, которую по определению примем равной 1«
eap{y) = -^(yi-yY
-.7
rii^i
где y=^iyi,
\
- 9 1
^-Wy-ysW n
^-i.y-ys)
- Т
n
{y-ys),
5 = [1 1 ... i f GR^
Введем обозначения: / = Т в - оцененные значения регрес сионных составляющих в наблюдениях у, г= у —/ есть оценки экспериментальных ошибок, и представим 1 - - -> т - - вар{у) = '-'{у - f + f - ysy {у - f -v f - ys) = n = -(y-ff(y-f)-^'(f-ysf(f-ys) n n
+ n
^iy-ff(f-ys)=^
1 ~ 2 = ~e'^e + ea/7(/) + - e ^ ( / - > ; s ) , n n 1 - - T (f-ys) -^ где величина eap(f) = —(f-ys)
^^-^^^
характеризует разброс
регрессионных составляющих наблюдений относительно средне го значения наблюдений. Покажем, что последнее слагаемое в (2.53) равно нулю. Действительно, имеем: ё = д ; - Ч ' в = ^ в + е - '¥(4f^4fy^4f^(We + е) = (£ -
WCP^W)-^W^)E.
69
Следовательно, (2.54) (2.55) Рассмотрим структуру матрицы Y^, вытекающую из ее опре деления: ¥o(^l) \\fl(xi)
¥0(^2) \\fi(x2)
Wm(Xi) WmiXl)
...
Wo(Xn) y¥i{xj
-
Wm(Xn)
(2.56)
где \\foix)y \|/i(jc),..., y\fm(x) - компоненты вектора \|г(дс). Тогда из равенства (2.54) следует i4'f,(Xi)ei=0,
V^ = 0, 1, 2, ..., m,
(2.57)
где ё/ — /-й компонент вектора е. Регрессионные модели обычно конструируют таким образом, что компонент ©о вектора регрессионных параметров в имити рует «постоянную составляющую» функции регрессии, не зави сящую от экзогенных переменных. Для этого обычно полагают \\foix) = 1. Но тогда из (2.57) при к = 0 следует (2.58)
/=1
Совместное выполнение условий (2.55), (2.58) приводит к тому, ЧТО 8 (/— ys) = О, И выражение (2.53) упрощается: 1 -.т-^ вар (у) =вар (/) +—е' е.
(2.59)
Определение 2.8. Коэффициент 1
£ £
"^ вар {у)
вар {у)
Л
lilP
\\y-yst называется коэффициентом детерминации. 70
(2.60)
Содержательно этот коэффициент определяет, какая часть ва риации экспериментальных данных объясняется разбросом рег рессионной (детерминированной) составляющей этих данных. Из определения вытекает К^^ [О, 1], Если К^ = О, то eap{f) = О, т е . / = Ч'в = 75 => i|f^(jc/)e = y,i=' \,2, ..., А7. А это можно интер претировать как независимость эндогенной переменной от экзо генных переменных. Если же К^ = 1, то ё = 0^, т.е. регрессионная поверхность проходит точно через все экспериментальные точки j^/ (/ = 1, 2,..., л) в смысле выполнения равенств у^ = V^(JC/) в (/ = 1, 2, ..., п). Разумеется, если положить т -^ I = п и матрицу Т е R'^^^ выбрать невырожденной, это условие будет достигнуто, так как МНК-оценка (2.24) в этом случае приобретает вид е = {^^ЧГ}~^'¥^у = ЧГ^Ч'^У^Ч^^у = Т " V =^4^0 = у. Однако это условие, вообще говоря, не является признаком хорошо подобранной рефессионной модели, так как такая мо дель будет «отслеживать» все случайные составляющие 8 в ре зультатах эксперимента >?, а это недопустимо. Проверка гипотезы HQ: ©i = ©2 = ... = в^;, = 0. Введенный ко эффициент детерминации широко используется для подтвержде ния (или опровержения) предположения о том, что эндогенная переменная действительно зависит от выбранных экзогенных пе ременных. С этой целью в рассмотрение вводятся две гипотезы: Но:©1=©2 = ... = ©;„ = 0; Hi:©o,©b©2, ...,©^^^0. В качестве «индикатора» правомочности одной из этих гипо тез используется величина к] Y=—^
п-т-1 ,
которая с учетом определения коэффициента детерминации пре образуется к врщу Y=
1Фв-д^5|р сх\\1 |>^-Фв
п-т-\ т
Для последующих доказательств это выражение целесообраз но представить так: 71
TT.Il2 1 \\4fe-ys\\
1 \\we-ys\ m
(2.61)
m
1
ll>^-ye|
n-m-\
r?-
Найдем распределение этой величины при справедливости ги потезы Но . Прежде всего обратим внимание на знаменатель. Ес ли мысленно его умножить и разделить на число п — т — 1, то величина (п-т-1)—г»
^^^ было уже доказано, будет подчинена
Х^-распределению с л — m — 1 степенями свободы. СледовательV
но, знаменатель в (2.61) можно представить как ";—~—г» гдеслу2/
1\
n—m —v
чайная величина v - % {п —т—Х). Рассмотрим теперь числитель в (2.61). С учетом модели на блюдений (2.4) и определения МНК-оценки (2.24) находим: 1 'Г 1 'Г 1 X ys = —55 у = —SS w e + —SS е, п п п we = W(W^W)~^W^y = Y e + W{W^W)~^W^t и, следовательно. 1|Г(фТ^)-1фТ
^^Т
\
п Если справедлива гипотеза HQ, т.е. ©i = ©2 = ... = ©^ = О, то we = 5©о, так как первый столбец матрицы W состоит из единиц, т.е. представляет собой вектор 5. Но тогда WO:
Е„ — S S
f С 1 ^ ^ Т Е^ — S S seo=o^
и получаем упрощенное выражение (
we-ys = i | r ( ^ T ^ ) - l i i r T
1 л ^^Т
е.
(2.62)
Докажем теперь важное для последующего вывода утвержде ние. 72
Утверждение 2.10. Пусть матрица Y = [\|fo Vi ... Vm]. где \|//€ R^ - столбцы матрицы. Тогда справедливы равенства хр(хр^хр)-^хр^щ = у., / = о, 1,..., т. (2.63) Векторы Vo, ¥ ь ••• ^Vm являются линейно независимыми, так как rank ^ = т + I < п. Построим подмножество б^"^^с R'^, кото рое состоит из векторов z, допускающих разложение по векторам \|Го, Vi, •-, ¥m как по базису, т.е. G^^^ =\zeR'^:z= Sa,\|f^, а,бК1 и в пространстве R'^ образует линейное (т + 1)-мерное подпростт
ранство. Рассмотрим вектор v e = Е€)/\|//.Из этого разложения следует ^ в е G^'^^. Величина / = ||у — Тв|р представляет собой квадрат расстояния между векторами у и Ч^В. Тогда величина min/определяет наименьшее расстояние от вектора >? до подпро странства С^"^^ т.е. расстояние до такого векторам изб'^^^ кото рый является ортогональной проекцией Пр вектора у на множе ство СГ^^: Z = Пр^б^^^ С другой стороны, min/ = Цу - Y e f и, следовательно^ Т в = T(T^Y)~^Y^>? = z*. Но отсюда вытекает, что матрица Y(Y Y)~^Y^ является матрицей ортогонального про ецирования на подпространство G^ ^ Эта матрица любой век тор, принадлежащий множеству 6^"*"^ преобразует в себя, т.е. из условия zeG^"^^ следует Y(^P^Y)~^Y^z = z. Так как \|Го, Vi,..., V,^2 ^ G G^'^^ то равенства (2.63) справедливы. Заметим, что непосред ственно это равенство вытекает из тождества T(Y T)~^T^Y = ^. Следствие. Так как вектор s является столбцом матрицы Y, а именно S = \|Го, то справедливы равенства y^iy^^y^y^y^^s = 5,
s^WCV^Wy^^^^ = s^.
(2.
Утверждение 2.11. Матрица Y(Y^T)~^Y^-— S5^ является идемпотентной и ее ранг равен т. ^ Доказательство проводится непосредственно: ( Y ( Y ' ^ ^ - ^ Y ^ - ^ SS^)^ = ^f^^fTy^-\^fT^^(^fT^^-\y^T
+ }_ ^^Т ^^Т _
73
где учтены условия (2.64) и очевидное s s — п; аналогично
= Sp yp^xp(xp^yif)-^ - SP ~ ss^ = /w. Воспользовавшись выражением (2.62) и утверждением 2.11, теперь можем числитель в (2.61) представить в виде 1
тГ
\we-ysf/G^=^
^(^Т^)-1фТ
^
^^Т
п
где е/а -стандартный гауссовский вектор. Так как матрица Y(Y Ч') 4f — " ss является идемпотентной, то в соответствии с утверждением 2.5 эта величина подчине на х^(т)-распределению. Таким образом, выражение (2.61) мо жет быть представлено в эквивалентной форме 1
—W
у=
tn 1 п-т-1
где W ~ %^(АЯ), V ~ х^{п — т— I) — случайные величины. Ранее при доказательстве утверждения 2.8 было показано, что при гауссовском векторе е вектор у — Ч^&и оценка а независи мы. Но тогда независимы вектор Т в — >i и та же оценка 5^, т.е. числитель и знаменатель в (2.61). Последнее порождает незави симость случайных величин w и v, а это означает, что случайная величина у при справедливости гипотезы Но подчинена распре делению Фишера с т степенями свободы числителя и п — т — I степенями свободы знаменателя, т.е. у ~ F(m, п — т — 1), что поз воляет сформулировать следующий критерий проверки гипотезы Но (или альтернативы Hi). На основе экспериментальных данных построим величину
\\we-ysf 1 Y= 74
z^
о2
т ,
(2.65)
где в — МНК-оценка (2.24) регрессионных параметров, а^- оценка (2.37) дисперсии экспериментальных ошибок. Зададимся доверительной вероятностью q ипо таблицам или с помощью вычислительных средств найдем ^-квантиль Ug рас пределения Фишера с т,п — т — I степенями свободы. Тогда ес ли окажется у < Ug, то с вероятностью q считается справедливой гипотеза Но; если же у > Ug, то с вероятностью 1 — q ошибиться предпочтение отдается альтернативе Hi. Проверка гипотезы HQ: Э/ = в/ (/ = О, 1, ..., т). Пусть в соответствии с какими-либо априорными соображе ниями появились основания предполагать, что параметр 0/ рег рессионной модели принимает гипотетическое значение ©Д Требуется на основе имеющихся экспериментальных данных подтвердить или опровергнуть это предположение. С этой целью в рассмотрение вводятся две гипотезы: Но:е, = еЛН1:0,^0Д Анализ ситуации проводится следующим образом. В случае гауссовской регрессионной модели, как было показано выше, в - N{0, a^(Y^T)~^) и, следовательно, при справедливости гипо тезы Но 0/ - 0/ ~ Л^(0, а^), al = аV//, где \|/// - /7-й элемент матрицы (T^Y)~ . Тогда случайная величина (0/ - &i^)/Gi - N(0,1), т.е. представляет собой стандартную гауссовскую случайную ве личину. Построим случайную величину
в,-е? Y=-
Нп-т-1)а^ (j2
fi-m-l
где5^ = lb-Ч'в|р/(«-/"-!)• Так как случайные величины, формирующие числитель и знаменатель этого выражения, статистически независимы и /„
•^
^у. l^rr'^
-^—Х^{п-т-\),
то в соответствии с определением 75
y~t(n-mI). Если учесть, что а/^ = aV// и а^ = о\ц, то оказы вается удобным представить Y = "^^^^ -t(n-m-l),
(2.66)
что справедливо, таким образом, при выполнении гипотезы HQ. Принятие последующего решения осуществляется по уже извест ной схеме (см. вывод критерия (1.28)). В соответствии с результа тами регрессионного анализа находится величина (2.66). Далее при выбранной доверительной вероятности 1 — а по таблицам для распределения Стьюдента сп — т—1 степенями свободы или машинным образом находится lOOa/2-процентная точка >viooa/2Если окажется |у| < >viooa/2> то с вероятностью 1 - а считается справедливой гипотеза Но; при противоположном неравенстве, т.е. в случае |у| > >V|ooa/2> гипотеза HQ отвергается как не согласую щаяся с экспериментальными данными с вероятностью а ошиб ки первого рода. Для линейных рефессионных моделей, построенных с ис пользованием множества (1.18), величина (2.66) позволяет до полнительно решить вопрос о целесообразности включения /-й экзогенной переменной в состав величин, влияющих на эндоген ную переменную. Отсутствие такого влияния можно интерпрети ровать как равенство 0/^ = 0. Тогда, если окажется |0J < a/Wiooa/25 то с вероятностью 1 — а целесообразно считать, что /-я экзоген ная переменная не оказывает влияния на эндогенную перемен ную; при противоположном неравенстве гипотезу HQ: 0/ = О сле дует отвергнуть с вероятностью а ошибиться. Выражение (2.66) позволяет построить доверительные интер валы для параметров регрессионной модели. Действительно, с вероятностью 1 — а должно выполняться «а/2 -
'яС
' ^ " V 2 =>®/ +S/V2 <0/ ^^/ - S / V 2 ' ^* = ОЛ, ..., т.
Здесь Ua/2 есть а/2-квантиль распределения Стьюдента с п — т — I степенями свободы. Если учесть уже доказанное для данного случая равенство wiooa/2 "^ —««/25 то найденный интервал запишется так: 0/ - a/Wiooa/2 < ©/ ^ ©/ + 5/>^iooa/276
2.3.9. Нелинейные регрессионные модели. Проблема стохастической сходимости Характерная особенность рассмотренных выше регрессионных моделей проявляется в их линейной зависимости от параметров ©о, 01, ..., Qni- Вместе с тем не исключается перспектива приме нения моделей с нелинейной зависимостью от регрессионных параметров, подобно тому, как это было в случае производствен ной функции Кобба—Дугласа. Так, если множество потенциаль ных функций регрессии задается соотношением (1.20), то вектор экспериментальных данных >;, определенный подобным (2.4) об разом, будет представлен выражением J; = Y(в) + e,>^R^вeR^т+\
(2.67)
в котором вектор-функция ^ ( в ) определена естественным для (1.20) образом:
¥л(^ьв) ^(в)=Е ¥)t(^2»e)
Как и ранее, МНК-оценка в вектора параметров в ищется в соответствии с условием
/Н1>^-^(в)Г-^тш, е
(2.68)
причем стационарные точки в функции /удовлетворяют тради ционному условию V/( в) = 0;;,+1. Однако из-за нелинейного включения вектора в в состав минимизируемой функции / най ти оценку в как явную функцию в (у) экспериментальных дан ных, в отличие от (2.24), не удается. Поэтому применяют различ ные численные алгоритмы нелинейного оценивания [25]. Несмо тря на многообразие подобных методов, можно выделить некото рые общие принципы, в соответствии с которыми конструирует ся большинство из них. Детальный анализ этих принципов не яв ляется целью настоящего пособия. Однако некоторые справоч ные сведения, касающиеся процедуры решения задачи (2.68), привести полезно. 77
Определение 2.9. Говорят, что вектор he R'"'*"^ задает направле ние убывания функции /(в) в точке в, если при всех малых р > О выполняется условие
/(в + РА) < /(в). Утверждение 2.12. Для того чтобы вектор h задавал направле ние убывания функции /(в) в точке в, необходимо и достаточно, чтобы в этой точке выполнялось условие (А, У/(в)) < О, т.е. ска лярное произведение вектора А и вычисленного в точке в гради ента функции У(в) должно быть отрицательным. Доказательство этого утверждения, несмотря на его простоту, мы опускаем, так как оно несущественно для последующего из ложения. Определение 2.10. Последовательность точек в^^\ в^^^ 0Р'\ ... в пространстве R'"'^^ будем называть минимизирующей функцию /(в), если выполняются условия /(в^^^) > /(в^^^ > JiQp-^ > .... Определение 2.11. Последовательность точек в^^^, В^^\ 0Р'\ ... в пространстве R'""^^ будем называть сходящейся к некоторой ста ционарной точке в G R'""^^ функции /(в), если при V5 > О 3iV(5) > О, так что при к > iVвыполняется условие ||в^^^ — ё|| < 5 или, что эк вивалентно, lim II в^^^ — в II = О при /: —> оо. Заметим, что в общем случае минимизирующая и сходящаяся последовательности могут не совпадать. Основываясь на введенных понятиях, можно предложить правило вычисления последовательности точек в^^\ в^^\ в^^^ ... в пространстве R'""^ , минимизирующей функцию /(в). В доста точно общем виде это правило таково: 0(^+1) = в^^) + a^hb А: = О, 1, 2,...,
(2.69)
где вектор А^ задает направление убывания функции /(в) в точке в^^^, а скалярная величина aic>Q определяет величину шага пере мещения. В зависимости от того, как конкретно выбираются па раметры а^ и А^, получают конкретный вычислительный алго ритм минимизации функции /(в). В частности, если принять hj^ = — V/(e^ О? что соответствует утверждению 2.12, то получим семейство градиентных алгоритмов. Из всего многообразия по добных методов остановимся на одном -- методе последователь ной линеаризации. Суть его заключается в следующем. Пусть в соответствии с какими-либо предварительными со ображениями можно указать предполагаемое значение в^^^ оцен78
ки е. Если таковые соображения отсутствуют, примем в^^^ = 0;„-f 1- Назовем эту величину нулевым приближением к оцен ке е. Полагая функцию Т(в) дифференцируемой, разложим ее в окрестности точки в^^^ в ряд Тейлора, офаничив разложение первой частичной суммой. Приближенно получим:
Подставив это разложение в (2.68), получим функцию /, ква дратично зависящую от отклонения Ыд^^\ Найдем вектор Дв^^\ минимизирующий /. Очевидно, эта задача аналогична задаче (2.22), решается теми же средствами и приводит к подобному (2.24) результату: Ав^^^ = {{D^^^)^ D^^Y\D^^Viy -^^(в^^^)). Это позволяет найти первое приближение ^^^^ к оценке в в(1) = в<^) + ((/)(0))Т /)(0))-1(/)(0))Т(^ _ 4^(0(0))).
Если теперь функцию Т(в) линеаризовать в окрестности точ ки в^^^ и повторить всю операцию, получим второе приближение. Обобщение процесса линеаризации с последующей минимиза цией квадратичной целевой функции порождает следующее релаксационное правило последовательного приближения к МНК-оценке: (2.70) А: = 0, 1,.... Несложно заметить, что сомножитель {D^^^)^(y - 4^(6^^^)) в (2.70) коллинеарен антиградиенту функции /, вычисленному в точке в^^^: (/><^))Т(з; _ ^а0%
= -0,5V/(e^^^).
Поэтому правило последовательных вычислений (2.70) мож но представить в эквивалентной форме: 0(^+1) ^Qik) _ о^5((/)(^>)'Г />^^W/(e^^>), )к = О, 1, ....
(2.71)
Следовательно, построенный алгоритм можно классифици ровать как градиентный со специфичной матрицей весовых ко эффициентов. В сопоставлении с (2.69) имеем h^ = — ((D^^^)^x 79
x2)^^^)~^V/(e^^^), ajc = 0,5 = const. Покажем, что в первом прибли жении этот алгоритм определяет минимизирующую последова тельность. С этой целью сопоставим значения функции / в точках ©v^^^) и в^ \ снова использовав частичную сумму ряда Тейлора:
- 0,5 (V/(e^^>))'^((i>^^>)'^/>^^>)-V/(e^^>).
Так как матрица (D^^^)^D^^^ является положительно опреде ленной [26], получаем /(в^^^^^) - /(в^^^) < О, т.е. в рамках исполь зуемых допущений последовательность величин, найденных в соответствии с (2.71), действительно является минимизирующей. Заметим, что факт выполнения этого неравенства можно непо средственно контролировать в процессе проведения расчетов в соответствии с (2.71) и в случае его нарушения коэффициент 0,5 в (2.71) может быть уменьшен до значения, обеспечивающего получение минимизирующей последовательности. Вычисления прекращаются на некотором s-u шаге, если на этом шаге сраба тывает выбранное правило останова, имеющее, например, вид ЦУДв^"^^)!! < V, где V — назначенная малая величина. В этом случае принимается в « 6^*^^ Полезно обратить внимание на следующее: если минимизирующая последовательность оказывается и сходя щейся, то в точке в, как следует из (2.71), должно выполняться условие V/(e) = О, т.е. точка в является стационарной точкой функции (2.68). Это означает, что в случае сходимости алгоритм (2.71) определяет одну из точек локального минимума целевой функции (2.68). Эта функция в силу ее нелинейной структуры может оказаться многоэкстремальной, и алгоритм (2.71) приво дит к одному из экстремумов, ближайшему в некотором смысле к начальной точке в^ . Поиск глобального минимума в задаче (2.68) требует привлечения дополнительных методов многоэкст ремальной оптимизации. Прежде чем обсуждать проблему сходимости алгоритма (2.71), обратим внимание на различие смыслового содержания внешне одинаковых обозначений в алгоритмах (2.50) и (2.71): в рекуррентном методе наименьших квадратов (2.50) символ д^^^ означает оптимальную оценку вектора в, найденную по экспери ментальным данным у\, У2, ..., Ук- В то же время в (2.71) символ в^^^ представляет собой /:-е приближение к оценке в, которая ищется по всем наблюдениям у\,У2, ..., Уп80
Существующие пакеты прикладных программ, о которых упоминалось во введении, позволяют решать задачи нелинейно го оценивания параметров в подобных (2.68) задачах без глубоко го проникновения в существо используемого алгоритмического обеспечения и его математических особенностей. Но чтобы об щение с этими пакетами было не механистическим, а созидатель ным процессом, пользователь должен обладать определенной ма тематической культурой, позволяющей ему осознанно восприни мать существо используемых вычислительных процедур и сопут ствующих им математических закономерностей. Поэтому корот ко остановимся на одной важной характеристике алгоритма (2.71), определяющей его принципиальную «жизнеспособность» и известной как сходимость последовательности точек в^ \в^^\ в^^^ ..., определяемых средствами этого алгоритма, к некоторой точке е. При обсуждении сходимости алгоритма (2.71) возможны два концептуально различных взгляда на эту проблему. При первом из них вектор у экспериментальных данных, участвующий в фор мировании градиента функции /, рассматривается как конкрет ный числовой вектор, соответствующий результатам проведен ного эксперимента. И в этом случае можно найти условия, обес печивающие сходимость последовательности полученных с по мощью правила (2.71) точек Q^^\&^^\&^^\ ... к некоторой точкев именно при этом конкретном векторе у. Однако если теперь про вести другой эксперимент при тех же значениях экзогенных пе ременных, то в силу случайной природы эндогенной переменной получим новую реализацию у экспериментальных данных, и ра нее полученные условия сходимости при этой реализации, вооб ще говоря, могут не выполняться. Поэтому нужны такие условия сходимости, которые будут обеспечивать сходимость при всех пмерных реализациях эндогенной переменной, образуемых в со ответствии с (2.67). В первом случае принято говорить о детерми нированной сходимости, во втором — о стохастической. Для нас больший интерес представляют условия стохастической сходи мости, так как именно они гарантируют успешную работоспо собность алгоритма (2.71) при всех возможных исходах проводи мого эксперимента. Проблема стохастической сходимости или, по иной термино логии, стохастической устойчивости решений разностных урав нений интенсивно развивается в последние десятилетия (напри81
мер, [18]). Не ставя перед собой задачи детального проникнове ния в существо проблемы, кратко остановимся на ряде основопо лагающих понятий. Прежде всего отметим, что понятие стохастической сходимо сти не является однозначным (впрочем, как и детерминирован ным) — бывают сходимость по вероятности, р-сходимость и част ный ее вариант среднеквадратическая сходимость, экспоненци альная сходимость, сходимость с вероятностью единица (почти наверное сходимость) и др. Из всех этих видов сходимости наи более сильной является сходимость с вероятностью единица, так как при выполнении соответствующих условий все реализации случайных последовательностей, получаемые по правилу (2.71) на множестве значений случайного вектора;?, кроме, быть может, реализаций с нулевой вероятностью, сходятся к вектору в в обычном понимании сходимости, соответствующем определе нию (2.11). Поэтому нас будут интересовать именно условия схо димости с вероятностью единица. Для последующего изложения удобно алгоритм (2.71) пере писать в отклонениях относительно стационарной точки в. С этой целью введем обозначение ц^^^ = в^^^— в. Тогда можем запи сать ^ik^l) ^^(к) _o,5JQ(e-f Y|i^^^)|i^^MY, о
(2.72)
где матрица 0(в) является матрицей Якоби вектора (/)'^(в)1)(в))"^/(в), вычисленной в точке ( в + yji^^^), т.е. Q(e + уц^^^) = -^((/)'^(в)2)(в))-^ V/(e)), ав в = в + уц^^^ A(e) = ^ V ( e ) .
Интеграл в (2.72) формирует отклонение вектора (j5W)T^W^-i v/(e^^^) из (2.71) от его значения в стационарной точке в, т.е. относительно O^+i [14]. В обозначениях (2.72) про блема поиска условий стохастической сходимости последова тельности векторов S^^\ Q^^\ S^^\ ... к точке в эквивалентна за даче поиска аналогичных условий сходимости последовательно сти \1^^\ \1^^\ \1^^'\ ... к точке 0;;,+1- Дадим теперь определение по нятию стохастической сходимости с вероятностью единица. 82
Определение 2.12. Будем говорить, что последовательность ц(0)^ цО)^ j|(2)^ ^ вероятностью единица сходится к точке O^^j+i, если при V5 > О Зр(5) > О такое, что для всех \\\i^^^\\ < р(5) выполня ется Ит p]sup|||i^^V5[ = 0, где Р{...}, как обычно, - вероят^->°°
[k>N
J
ность соответствующего события. По существу, это определение означает следующее: в случае сходимости с вероятностью единица почти все реализации слу чайной последовательности векторов {р.^^^} (за исключением множества реализаций меры нуль), образованные по правилу (2.72) при различных значениях вектора >? и начальных значениях из некоторой окрестности точки О^+х, сходятся к этой точке в обычном детерминированном смысле. Величина sup|||i^ ^|| k>N
представляет собой наибольшее уклонение реализаций от нуле вого значения, начиная с (7V + 1)-го элемента последовательнос ти и до бесконечного. Если указанное наибольшее уклонение для всех реализаций при N -^ оо стремится к нулю, то это означает сходимость к нулю всех реализаций. Неравенство в определении 2.12 означает, что доля несходящихся реализаций стремится к нулю. Проблема выявления условий сходимости с вероятностью 1 весьма сложна. Наиболее общим математическим подходом к ее решению в настоящее время является применение стохастиче ских функций Ляпунова с использованием свойств супермартин галов. Определение 2,13. Положительно определенная непрерывная функция V{x) векторного аргумента дс, обладающая свойствами К(0) = О, V{x) конечна при всех х с конечной нормой ||jc|| и V(x) -> —> оо при |(х||—>оо, называется функцией Ляпунова. Определение 2.14. Пусть случайная последовательность век торов zo, Z\, Z2, ... обладает свойствами: M{z/c} < ^ , M{zfJi zo, Z\, ..., Zk-i) ^ Zk-\- Тогда эта последовательность называется супермар тингалом. Применение введенных понятий для выявления условий схо димости с вероятностью 1 последовательности векторов [1^^\ ii^^\ |Li^^\ ..., образованных в соответствии с (2.72), к точке O^+i осно вывается на следующем утверждении. 83
Утверждение 2.13- Пусть К(ц) — функция Ляпунова и последо вательность V(\i^^^), V(\i^^^), V{\i^'^b, ... значений этой функции, вычисленная на элементах случайной последовательности {ц^^П, является супермартингалом. Тогда последовательность ц^^\ [1^^\ li^^\ ... с вероятностью 1 сходится к точке O^+j. Мы не будем останавливаться на доказательстве этой теоремы и ограничимся некоторыми комментариями к ее физическому содержанию. С этой точки зрения величину К(ц^^^) можно интер претировать как «обобщенную энергию» некоторой динамичес кой системы, описываемой разностным уравнением (2.72). То об стоятельство, что функция Ляпунова оказывается супермартин галом, означает уменьшение в среднем энергии в точке ц^^^ по сравнению с ее значением в предыдущей точке li^^'^K а это влечет за собой соответствующее уменьшение величины \\iv^\ Применим утверждение 2.13 для анализа стохастической схо димости последовательности (2.72). С этой целью введем в рас смотрение стохастическую функцию Ляпунова V(\i) = \\1л\\ и рас смотрим условное математическое ожидание
= М{\\ |1<^> - 0,51 Q(e + Y|i^^^)|i^^>dY 11= О 1
= A/{liJ(^m+I -0,5Q(e + Y|i^^^))l*^^Wl|. О
Из этого соотношения следует
О
Пусть выполняется условие тахМ{\\£^^^ ~0,5(2(в)||}<1, е
(2.73)
т.е. наибольшее значение математического ожидания нормы слу чайной матрицы Efn+\ — 0,5Q(e) меньше единицы. Тогда 84
или же M{F<^^^> I fi<^>, \i^^\ ji^2>, ..., JA<^>} < И^>, где И^> = \\ii^% Из последнего неравенства следует, что последовательность V^^\ у(\)^ у(2)^ образует супермартингал. Но тогда последователь ность \i^^\ [i^^\ \i^^\ ...в силу утверждения (2.13) оказывается схо дящейся с вероятностью I. Следовательно, условие (2.73) являет ся достаточным для того, чтобы последовательность приближе ний в^^^,в^^^ в^^\ ..., вычисляемых по правилу (2.71), при лю бом векторе наблюдений у, удовлетворяющем определению (2.67), с вероятностью 1 сходилась к стационарной точке в. Практическая проверка этих условий требует дополнительных усилий. Рассмотрим ряд частных случаев. Пусть функция Т(в) являет ся линейной: Т(в) = YO, Y G R'^^^'^'^^ Тогда D{e) = ^i4Fe) = W, de
V / = -T¥^(y-4fe),
Q = ^((/>^i>)~W) = 2E^+i и условие (2.73)
вырождается в тривиальное maxA/{||0(^^.i)x(w+i) 11}<Ь где 0(/w+i)x(w+i)" нулевая квадратная матрица, т.е. алгоритм (2.71) ус тойчив при любой матрице Т и любой начальной точке 0^^\ При рода этого результата совершенно очевидна: из (2.71) в этом слу чае уже при к = 1 следует в^^^ = в^^^ + (Т'^^)-^Т'^(д; ~ "Гв^^^) = = (If^W) Ч^^у = в, т.е. алгоритм (2.71) при линейной модели на блюдений за одну итерацию определяет МНК-оценку, что и отра жается в тривиальности условий сходимости. Пусть теперь с целью уменьшения вычислительных затрат в алгоритме (2.71) используется постоянная матрица весовых ко эффициентов, т.е. положим 0,5((/)^^^)^D^^^)~^ = G = const, где G — некоторая положительно определенная постоянная матрица. Пусть, как и выше, функция Т(в) = Y&, т.е. является линейной. В этом случае Q = 4GT^4^ и условия (2.73) приобретают форму неравенства
т.е. сводятся к ограничению на норму стационарной матрицы. Если это условие выполняется, алгоритм (2.71) сходится при лю85
бом начальном условии в^^^ и любом векторе наблюдений у, со ответствующем модели (2.4). Известно [26], что при любой норме квадратной матрицы С справедливо неравенство ||C||>max|?iy |, где Xj, у = 1, 2,... — собственные числа матрицы С. Но тогда усло вия сходимости алгоритма (2.71) при постоянной матрице весо вых коэффициентов и линейной модели наблюдений можно сформулировать так: для того, чтобы в указанных условиях алго ритм (2.71) сходился с вероятностью 1 при любых начальных ус ловиях в^^ (в таком случае говорят о сходимости в целом), доста точно, чтобы собственные числа матрицы Ещ+х—'^ G^^^ по абсо лютному значению были меньше единицы. Можно показать, что эти достаточные условия в данном случае являются и необходи мыми. Действительно, положив в (2.71) 0,5((D^^^)^/)^^^)"* = G, V/(e^^O = -2Y'^(V - Тв^^^), запишем алгоритм (2.71) в форме
Это соотношение представляет собой линейное неоднород ное разностное уравнение, для устойчивости решений которого, как известно (например, [10]), необходимо и достаточно, чтобы собственные числа матрицы Е^^+х — 2GV^^ по абсолютным зна чениям были меньше единицы. Легко найти установившееся зна чение в решения этого уравнения. В случае сходимости должно выполняться равенство в = {Ет+х - 2GV^'¥)Q + IGV^y => GV^We = = CPV'^y => в = (Ч'^Т)" V V т.е. установившимся значением по-прежнему оказывается МНКоценка.
2А. Максимально правдоподобные оценки регрессионных параметров Большим достоинством метода наименьших квадратов, в значи тельной степени определившим его широкое применение в эконометрических приложениях, являются Офаниченные «претен зии» к объему априорной информации. По существу, эта инфор мация ограничивается моделью экспериментальных данных и 86
предположением о центрированности и некоррелированности ошибок эксперимента. Вместе с тем если исследователь распола гает большим объемом априорных сведений о переменных, уча ствующих в постановке проблемы, их нужно пытаться рацио нально использовать в надежде добиться более высоких по точ ности результатов, нежели это регламентировано методом наи меньших квадратов. Одним из источников потенциального про гресса может явиться более глубокое проникновение в природу влияния латентных переменных и измерительных технологий на эндогенную переменную. Если соответствующий анализ пока жет, что вектор е, участвующий в формировании апостериорных данных, не является гауссовским или является гауссовским, но с коррелированными компонентами, имеет смысл методу наи меньших квадратов предпочесть нечто иное, способное исполь зовать выявленные особенности экспериментальных ошибок. Методом, рационально учитывающим априорную информацию об ошибках эксперимента в предположении, что регрессионные параметры по-прежнему классифицируются как неизвестные, является метод максимального правдоподобия. Основой метода является совместная плотность вероятностей экспериментальных данных у, полученная при фиксированном значении регрессионных параметров в , т.е. условная плотность вероятностей LO^I в ) . Чтобы ее найти, необходимо знать модель вектора 3? и статистические свойства вектора е. Будем для опреде ленности ориентироваться на регрессионную модель (2.67) как более полную. Пусть щ{г) - плотность вероятностей вектора е и эта плотность известна. Проблема ее поиска здесь не обсуждает ся. При фиксированных параметрах в причиной «случайности» вектора J' в (2.67), как уже отмечалось, является вектор е. Поэто му знания плотности соЕ(е) вполне достаточно для вычисления ус ловной плотности Ыу I в ) . Векторы J? и е в этом случае различают ся только математическими ожиданиями М{у \ в} = Т ( в ) + Л/{е}, и можем записать Z/(j^|e)=C0g(e). _^.^.. Таким образом, условная плотность L(y 1 в ) получается из совместной плотности вероятно стей сое(е) ошибок е заменой аргумента е на д^ — ^(в). Определение 2.15. Пусть в процессе проведения эксперимен та эндогенная переменная У приняла значения д? = \ух, У2,..., Уп]^ и построена условная плотность вероятностей L(y\&). Если те перь в выражении условной плотности аргумент у заменить на 87
конкретные результаты проведенного эксперимента, получим функцию, зависящую только от вектора в . Эту функцию называ ют функцией правдоподобия. В последующем по традиции функцию правдоподобия будем обозначать так же, как и условную плотность, — L{y \ в ) . Однако следует иметь в виду, что условная плотность 1(у\в) является {тЛ-1 )-параметрической функцией вектора j;; в то же время функ ция правдоподобия, в составе которой вектор >^ фиксирован, рас сматривается как функция вектора в. Определение 2.16. Значение в вектора в , при котором функ ция правдоподобия Ь{у\&) или, что то же самое, функция InLO^Ie) достигает наибольшего значения, называется макси мально правдоподобной оценкой вектора в регрессионных параме тров. Таким образом, максимально правдоподобная оценка нахо дится из условия e = arg тах1пД>;|в). (2.74) в Смысл этого условия таков: если в результате проведения экс перимента эндогенная переменная Y приняла конкретные значе ния у, то в качестве оценки в следует принять то значение векто ра в , при котором вероятность наблюдать в эксперименте имен но этот вектор J? оказывается наибольшей. Вычислительная процедура поиска максимально правдопо добных оценок в случае модели наблюдений (2.67) может быть организована с использованием тех же принципов, что и при по иске МНК-оценок. Для этого достаточно общий подход (2.69) «адаптировать» к задаче максимизации логарифма функции правдоподобия. Рассмотрим более детально случай линейной рефессионной модели (2.4) и гауссовского вектора е. Пусть е ~ Л^(0, К^, т.е. ^Е(е) = /
ехр] ---^^Kl^z \,
Как следствие, получаем In 1(у\в) = const - 0,5(у- Ч?в)^К^-^(у- ^ в ) , где const = In .
= ,
V(2^)"l^el 88
т.е. не зависящее от в слагаемое.
Воспользовавшись необходимым условием экстремума VlnZ/(y I в ) = О, которое обычно называют уравнением правдоподо бия, получим уравнение Y^ii:e-^(y-Te) = o, из которого следует максимально правдоподобная оценка векто ра в при линейной гауссовской модели в = Cr^Kf^^r^-^W^Ki^^y.
(2.75)
Если сопоставить эту оценку с МНК-оценкой (2.24), легко обнаружить ее отличительную особенность: оценка (2.75) учиты вает коррелированность экспериментальных ошибок в объеме ковариационной матрицы К^. Если эти ошибки не коррелированы, т.е. К^ = a^iS'nxn? то максимально правдоподобная оценка (2.75) вырождается в МНК-оценку (2.24), что является вполне ожидаемым и естественным результатом. Заметим, что иногда оценку (2.75) получают не в терминах правдоподобия, а путем модификации метода наименьших квадратов, сопровождае мой заменой целевой функции (2.20) / = |1у — Тв|р на функцию / = (у — yPQ)^K^~^(y — Т в ) с последуюш.ей ее минимизацией. При подобном подходе оценку (2.75) принято называть обобщенной МНК-оценкой. Изучим основные свойства оценки (2.75). Прежде всего пока жем, что она является несмещенной. Действительно, М{в} = (4f'^Ke~^4r)-^W^Ke-^M{y} = = CV^K^-^^Ti-^^f^K^-^Milfe + е} = е. Далее найдем ковариационную матрицу К^^ ошибки Tj = в - в . Имеем Т) = CV^K^~^4f)~^4^^K^~^ и, следовательно, Kr. = M{W} = C¥'^K-^4f)-\
(2.76)
При некоррелированных ошибках получаем уже известный результат (2.27). Несложно убедиться, что соотношение (2.76) при условиях (2.4) и е ~ N(0, К^) соответствует эффективной оценке. Действительно, матрица Фишера, определяемая в соот ветствии с (2.10), в данном случае оказывается равной Ф = -V^ lnL(y\&) = W^K^'^W. Из сопоставления этого результа89
та с (2.9) и (2.76) следует К^^ = Ф~^ что и является доказательст вом эффективности максимально правдоподобной оценки при линейной гауссовской модели экспериментальных данных. Если Ае = cT^i?nxn? но дисперсия а^ неизвестна, метод макси мального правдоподобия позволяет легко решить проблему оце нивания неизвестной дисперсии, совместив соответствующую процедуру с поиском оценки в. В этом случае функция правдо подобия максимизируется в (т + 2)-мерном пространстве по пе ременным в, а^. Уравнения правдоподобия приобретают вид \^^1пЦу\В) = 0, —г1пД>^|в) = 0 и в случае (2.4) конкретизирудс ются следующим образом: су-2ч'Т(^-Ч'в) = 0, -«0^ + ^-4^911^ = 0. Решая совместно эту систему, находим в = (Ч'^\Р)~^Ч'^3^, й = —11з^-^в|| . Оценка в вектора в, как следует из этих ре зультатов, совпадает с МНК-оценкой (2.24), однако оценка а^ дисперсии а^, оптимальная по критерию максимального правдо подобия, в отличие от ее аналога (2.37), оказывается смещенной. Максимально правдоподобные оценки и в общем случае, особенно при малых объемах экспериментальных данных, имеют некоторое смещение и неминимальную дисперсию. Однако они обладают рядом достоинств, особенно проявляющихся при ста тистически независимых ошибках ei, Е2,..., e« эксперимента и за ключающихся в следующем. 1. Если для вектора в существует эффективная оценка, то уравнение максимального правдоподобия имеет единственное решение. 2. Если для вектора в существует достаточная оценка, то каж дый корень уравнения правдоподобия является функцией доста точной оценки. 3. Максимально правдоподобная оценка является состоя тельной и асимптотически, т.е. при стремлении объема экспери ментальной выборки к бесконечности (п —> ©о), эффективной и гауссовской (в смысле ее плотности вероятностей). На практике эта асимптотика проявляется достаточно хорошо уже при десяти независимых наблюдениях на один скалярный параметр, подле жащий оцениванию. 90
Эти свойства максимально правдоподобных оценок делают их весьма привлекательными при решении многих прикладных задач.
2.5. Метод максимума апостериорной плотности вероятностей в регрессионных моделях, параметры которых оценивались в соответствии с методами наименьших квадратов и максималь ного правдоподобия, вектор параметров в классифицировался как неизвестный. И это было принципиально в том смысле, что никакая априорная информация об этом векторе при построе нии процедур оценивания не использовалась. Вместе с тем воз можны ситуации, в которых опыт предшествующей работы с ре грессионной моделью в аналогичных исследуемой прикладных задачах позволяет считать вектор параметров в принадлежащим некоторой генеральной совокупности с известной плотностью вероятностей сов(в). В подобных случаях вектор в классифици руется как случайный с известной плотностью вероятностей, ко торая совместно с плотностью вероятностей сое(е) эксперимен тальных ошибок и структурой модели отражает наши априорные представления о свойствах регрессионной модели. Этой инфор мацией теперь надо рационально распорядиться, с тем чтобы по высить эффективность оценивания. Одним из способов, позво ляющих это сделать, является метод максимума апостериорной плотности вероятностей. Существо метода заключается в следу ющем. В рассмотрение вводится условная плотность вероятностей )я(в|>') вектора параметров в, полученная в предположении, что результаты эксперимента приняли некоторое фиксированное значение у. Найти эту плотность формально можно в соответст вии с формулой Байеса: \1(е\у) = (^е(в)1(у\в)/(х)у{у), где o^yiy) — безусловная плотность вероятностей наблюдений у. Так как сю
co,,(j;)= /а)в(в)Д>'|в)с1в,
91
то условная плотность |11(в | у) выражается непосредственно через функции (Ов(в) и L(y I в ) : ц(в|у) = сов(в)Х(>;|в)/ 7 (Oe(e)L(y\e)de,
(2.77)
Таким образом, если известны априорные плотности вероят ностей сов(в), (Ое(е) и модель экспериментальных данных у, на пример, в форме (2.4) или (2.67), то условная плотность |11(в|>^) принципиально вычислена. Определение 2.17. Пусть проведен эксперимент, в котором вектор значений эндогенной переменной принял конкретное численное значение}?. Если именно этот конкретный вектор под ставить в условную плотность |Li(e|j?), то получим функцию ц(в|з?), зависящую только от вектора в . Эту функцию называют апостериорной плотностью вероятностей вектора регрессионных параметров в . Таким образом, отличие апостериорной плотности вероятно стей ii(Q I у) от условной плотности |1(в I у) проявляется в том,- что у первой вектор у принимает не любое фиксированное значение, а именно то, которое соответствует проведенному эксперименту. При этом обе плотности традиционно обозначаются единообраз но и из контекста ясно, о какой из них идет речь. Определение 2.18. Пусть известна апостериорная плотность вероятностей ц(в|>?). Тогда значение в вектора в , при котором апостериорная плотность |1(в|>') или, что то же самое, 1п|11(в|>^) достигает максимума, называется оценкой, оптимальной по крите рию максимума апостериорной плотности вероятностей. Итак, оценка, оптимальная по критерию максимума апосте риорной плотности вероятностей, находится из условия в = arg max In |л(в | у). е Так как знаменатель в (2.77) не зависит от в , то практически этот критерий принимает вид e = argmax(lna)e(e) + lnl(>?|e)). е
(2.78)
Снова ограничим рассмотрение случаем линейной гауссовской модели (2.4), положив в ней в ~ М{т^, KQ), г ~ N(0, К^). 92
Векторы в н е принимаются некоррелированными. Задача (2.78) при этих ограничениях конкретизируется следующим образом: e = argmax(const-0,5(e-me)^i:e^(e-we)-0,5(j;-4'e)'^i:e"^(3^-4'(e)), 0
где, как и выше, под const понимается не зависящее от в слагае мое. Необходимое условие экстремума VgCconst - 0,5(6 - те^Ке~\в - те) - 0,5(у ~ WefK^~^(y - Ув)) = О^н в этой задаче приобретает форму уравнения Ке\^
- те) - Ч'^Л:е"'(У - ^ в ) = 0^+1,
из которого следует искомая оценка в = (Ч'^ЛГе-^Ч' + Хв"У кЧ^'^^е" V + ЛГв" W ) .
(2.79)
Таким образом, оценка (2.79), в отличие от максимально правдоподобной оценки (2.75), существенно определяется апри орной информацией об оцениваемом векторе в в объеме ковари ационной матрицы ^0 и математического ожидания ше- Однако если эта информация оказывается «расплывчатой» в том смысле, что диагональные элементы матрицы К^ чрезмерно велики, то оценка (2.79) практически вырождается в максимально правдо подобную. Диагональные элементы матрицы Ае являются дис персиями компонентов вектора в, и если они велики, влияние априорной информации значительно снижается, и по своим свойствам случайный вектор приближается к неизвестному. Фор мально неограниченно большие диагональные элементы матри цы /Те порождают нулевую обратную матрицу Aв~^ что и превра щает оценку (2.79) в оценку (2.75). С другой стороны, если априорная информация достаточно содержательная, алгоритм (2.79) перестает «доверять» апостери орным данным и в большей степени ориентируется на априор ные сведения. Так, если допустить, что К^ -^ 0(m-u)x(m+i)? то Ле~^ -^ оо и в (2.79) можно слагаемыми Y^Ae~^Y и Т Ae~V пре небречь, откуда следует в = т^- В этом предельном случае, таким образом, алгоритм (2.79) вообще не использует эксперименталь ные данные и полагается только на априорную информацию. Это 93
вполне объяснимый результат: устремляя матрицу KQ К нулевой, мы тем самым превращаем гауссовскую плотность Щт^, KQ) В дельта-функцию 5(в - /ие) с «центром» в точке т^. Но это, в свою очередь, означает, что априори известно в = т^ и нет необ ходимости не только в доверии к экспериментальным данным, но и в самом эксперименте. Оценку (2.79) часто оказывается удобным представлять в ином виде, поступая следующим образом. Представим в = т е + (W^K^-^W + Ke-Y\W^^K^-^y + Ке~^те) ~ шв =
откуда следует в = шв •+• (Ч'^К^'^Ч? + Ke-Y^W^K^-^(y - 4fme).
(2.80
Это выражение имеет определенный «философский» смысл: оценка определяется как сумма двух слагаемых, первое из кото рых отображает наши априорные представления о среднем зна чении параметра в , а второе формирует апостериорную поправ ку к этому среднему значению. Сама поправка содержит сомно житель >? - Ywe, который представляет собой отклонение резуль татов проведенного эксперимента от ориентированного только на априорные представления прогнозируемого исхода экспери мента. «Вес» поправки определяется априорными свойствами ре грессионной модели. Выявим основные свойства оценки (2.80). Покажем прежде всего, что она является несмещенной. Действительно, при в - М(те,Ке), е ~ N(0, KQ) ИЗ (2.4) следует М{у} = WntQ. Но тогда непосредственное усреднение оценки (2.80) приводит к очевид ному результату М{в} = /ие, т.е. оценка по максимуму апостери орной плотности вероятностей как безусловная оценка оказыва ется несмещенной. Далее находим ковариационную магрицу ошибки оценива ния Т1 = в — е. Используя соотношения (2.80) и (2.4), получаем •'F^Jfe-'e- -(E-D'
'Y^JfeГ ' ^ ( в - -тв) =
Y^ife" ' e - D-\D-
Y^ite" •Y) (в
= z>-''•F^Ae-'e 94
D -'Jfe-''(в -
- тв) =
me),
где для упрощения записей использовано обозначение D = Y^ifTe" X + KQ"^. Следовательно, ковариационная матрица Х^ ошибки при условии некоррелированных векторов в н е нахо дится в результате следующей последовательности операций: - (в - mef
KQ-^D-^)}
= Z>-V^Xe~^Y/)"^ + D-^ Ke ^D'^ =
DK
При этом выводе учитывается симметричность матрицы D. Итак, окончательно: Ку^ = D'^ = (4f^K^^4f + Ke~Y^'
(2.81)
Интересно сопоставить этот результат с аналогичной форму лой (2.76) метода максимального правдоподобия. Принципиаль ным является присутствие в (2.81) ковариационной матрицы KQ вектора в, которая может существенно влиять на матрицу К^^. До статочно наглядно это проявляется при скалярном параметре e = 0 G R ( w + l = l). В этом случае Ч^е R'^^^ W^K^'^'V ~ скаляр ная величина и Cj^ = {^^К^'^Ч^ + сг©"^)"^ где а^^^, ае^ - соответ ствующие дисперсии. Отсюда следует, что максимально правдо подобная оценка скалярного параметра всегда по точности хуже аналогичной оценки, найденной по методу максимума апостери орной плотности вероятностей. Преимущество последней обус ловлено именно априорной информацией — в данном случае дис персией а0^. Чем она меньше, т.е. чем меньше разброс реализа ций параметра 0 относительно его математического ожидания, тем это преимущество существеннее. При а©^ ~> О, что, как уже отмечалось, соответствует, по существу, детерминированной си туации, дисперсия а,^^ ошибки оценивания по методу максимума апостериорной плотности вероятностей также стремится к нулю. В методе максимального правдоподобия это свойство, разумеет ся, не проявляется. Если же GQ^ —> ©о, что практически соответст вует полному отсутствию априорной информации об оценивае мом параметре, точности обеих оценок равны. Выявленные зако номерности, естественно, проявляются таким же образом и при векторном регрессионном параметре в. Однако следует иметь в виду, что за выявленное преимущество приходится платить до полнительными усилиями, направленными на приобретение и обоснование априорной информации. 95
2.6. Байесовские оценки регрессионных параметров Среди большого числа методов, рекомендуемых современной те орией статистических решений для поиска оценок параметров, наиболее универсальным является байесовский метод. Условия его применимости те же, что и в методе максимума апостериор ной плотности вероятностей: задана модель экспериментальных данных, векторы рефессионных параметров в и эксперимен тальных ошибок е классифицируются как случайные, известна соответствующая априорная информация в объеме плотностей вероятностей сое(в), сое(е). Содержательное существо метода за ключается в следующем. Использование любого метода оценивания сопровождается ошибкой г\(у, в) =0(у) — в, которая зависит от конкретной реа лизации экспериментальных данных у, будучи при одних реали зациях малой, при других — большой. Естественным является стремление с большими ошибками встречаться как можно реже. Это намерение можно попытаться реализовать, если процедуру оценивания «наказывать» за большие ошибки. С этой целью в рассмотрение вводят некоторую функцию С(в, в), которая, как правило, зависит от ошибки г\(у, в) и называется функцией стои мости, или функцией потерь. Выбор этой функции в значительной степени субъективен. Однако структура С{г\(у, в)) обычно тако ва, что функция возрастает (или, по крайней мере, не убывает) с ростом любого компонента аргумента и достигает наименьшего значения при TiO;, в) = 0. Такой характер функции обеспечивает возрастающую стоимость больших ошибок оценивания, за кото рые система должна подвергаться «наказанию». Среди функций с указанным свойством наиболее часто применяющимися оказы ваются следующие. Функция потерь, зависящая от модулей ошибок, т
с(л)=1|е,-0,|. Квадратичная функция потерь
С(л)=Е(0/-©,Г=11в-вГ (=0
96
Прямоугольная функция потерь
fi,|e,-e,|>A, т С(Г|) = S С:, С/ = \ где А — некоторая константа. Находит применение и простая функция потерь С(л) = с - 1 5 ( 0 , - 0 , ) , /=0
где с > О — константа, 5(0/ — 0/) - дельта-функция Дирака. Функция стоимости является неслучайной функцией случай ного аргумента Т] и на множестве значений аргумента принимает случайные значения. Среднее значение функции стоимости, по лученное усреднением ее по всем возможным значениям векто ров Qay, называют средними потерями или средним риском (бай есовским риском): J = il С(ц(у,в)Му,е)йвйу,
(2.82)
ув
где \;(у, в) — совместная плотность вероятностей векторов у и в. Индексы у интегралов символически отражают тот факт, что интегрирование ведется по всем пространствам существования векторов J? и е . Так как ошибка оценивания ц(у, в ) = в (у) - в за висит от оценки в , т.е. от способа оценивания, то и средний бай есовский риск зависит от алгоритма оценивания. Очевидно, можно допустить существование такого алгоритма, при котором средние потери окажутся наименьшими по сравнению с потеря ми, сопутствующими другим алгоритмам. Определение 2.19. Функция в(у) экспериментальных данных, при которой средние потери достигают минимума, называется оптимальной по Байесу оценкой, или байесовской оценкой регрес сионных параметров. Таким образом, байесовская оценка определяется условием e(>^) = argmin/. е Если воспользоваться представлением v(y, в ) = {\)у(у)\л{&\у), то сформулированная оптимизационная задача примет вид 97
/ = \(^y(y)(f СЫу,в)Ые I у)йв)йу -^ min. у
e
(2.83)
^(y)
Так как плотность вероятностей (£>у(у) неотрицательна, то ус ловие (2.83) выполняется, если минимального значения достигает внутренний интеграл в (2.83) при любом значении вектора >?, те. J С{г\(у,е)Ые I >^)de -> min. е
(2.84)
^iy)
Последующее решение задачи (2.84) требует конкретизации функции стоимости. В настоящее время из всех вышеприведен ных функций наибольшее распространение в прикладных зада чах получила квадратичная функция стоимости. Это обусловлено относительной простотой математического аппарата, сопровож дающего связанные с этой функцией преобразования, и хоро шим соответствием функции требованиям задачи оценивания: с возрастанием ошибки оценивания «наказание» существенно воз растает. Утверждение 2.14. При квадратичной функции стоимости байесовская оценка регрессионных параметров представляет со бой апостериорное среднее оцениваемых параметров. Действительно, при квадратичной функции стоимости задача (2.84) принимает вид JII в - в |р \х(е I >;)de -^ mill. е ^(у)
Воспользовавшись необходимым условием минимума /Ув11в-в|рц(в|д;)с1в-^0^+1, е
получим уравнение /||e-eilV(e|y)de = 0^^i, е
из которого с учетом независимости величин в и в и нормиров ки условной плотности |Li(e I у) получим e(y) = jevi{e\y)ue.
е 98
(2.85)
Если в (2.85) под >? понимать конкретный результат проведен ного эксперимента, то выражение в правой части (2.85) принято называть апостериорным средним вектора в. Итак, байесовская оценка при квадратичной функции стои мости является апостериорным средним оцениваемого парамет ра. И это очень важный для приложений результат. Для ряда ап риорных плотностей вероятностей сое(в) и сое(е) и рефессионных моделей (2.67) интегрирование в (2.85) удается провести ана литически и получить оценку в(у) в виде явной зависимости от экспериментальных данных >?. Можно вычислить и минимальное значение байесовского риска, соответствующее оптимальной оценке (2.85). Для этого байесовский риск (2.82) при квадратич ной функции стоимости представим в виде / = J J в'^(в -e)v(3;,e)dedj; - J J в'^(в - e)v(>^,e)ded>; = = / S ^ i ^ y { y ) \ ( в - в ) ^ 1 ( в I y ) d e d y - / /e'^ev(>;,e)ded>; + у
S
уВ
+Je'^eJv(>;,e)d>^de. e у
В силу необходимого условия минимума первое слагаемое в правой части этого выражения обращается в нуль и после не сложных преобразований получаем min/ = J e'^ea)e(e)de -1J в^ц(в | y)useiii у{у)Ау = е д^е = / e'^ea)e(e)de-/e'^ea)3;(3^)dj;. в у
Полезно обратить внимание на структуру полученного выра жения. Первое слагаемое в нем определяет ту часть средних по терь, которая обусловлена априорными сведениями об оценива емых параметрах. Второе слагаемое (вычитаемое) показывает, на сколько уменьшаются средние потери в связи с проведенной операцией оценивания. Так как в в = Х®/) после усреднения в первом слагаемом по в выражение для минимального риска можно представить так: 99
min/ = SPKQ^ fn^m^ - /в^ва)^(>^)с1у,
(2.86)
у
где KB, niQ — ковариационная матрица и математическое ожидание вектора в соответственно. Аналогичным образом можно представить и второе слагаемое. Рассмотрим теперь частный случай задачи, позволяющий на основании (2.85) получить алгоритм оценивания как явную функцию от экспериментальных данных у. Этот случай охваты вает линейную модель (2.4) при гауссовских некоррелированных векторах в н е , т.е., как и ранее, принимается в ~ Л^(/пе, Ае)? е ~ Л^(0, Ае). Необходимая для оценивания апостериорная плот ность |ы(в [д') находится в соответствии с (2.77). Запишем в явном виде формирующие ее функции:
рпГ^^\Кв\
Общий показатель экспоненты, образующийся после подста новки этих функций в (2.77), представим в удобной для последу ющего интегрирования форме (в - me)^ Ке-\е ^те)^(у^ "FOfx^-^iy - Тв) = = ^ + (в - G)^D(e - G). Величины д, G, D находим из условия тождественного выпол нения последнего соотношения q = we^ Ks'^ те + / Ае" V - G^DG, D = ^^Kf^^ + Ке-\ G = D-\KS-^
me + 4f^K^-^y),
Подставив с использованием этих преобразований функцию (2.77) в (2.85), получим оо
оо
в= Jeexp{-0,5(e-G)'^Z)(e-G)}de/ Jexp{-0,5(e-G)'^Z)(e-G)}de. —(Х>
100
—оо
Дальнейшее многомерное интегрирование осуществляется следующим образом (например,[29]). Так как матрица D симмет рическая, существует ортогональная матрица R, диагонализирующая матрицу Z), те. обладающая свойствами R^R = Е, R^DR = = 5 = diag [5/], / = 1, 2,..., w + 1, где 5 - диагональная матрица из собственных чисел 5/ матрицы D. Исходя из существования такой матрицы, введем новую переменную Q, которая с вектором в связана соотношением в - G = RQ =» dO = \R\ dQ. Так как R - ор тогональная матрица, можем положить |i?| = 1, т.е. d e = dQ. В ре зультате выражение для оценки в принимает вид оо
e-^G-R\
оо
вехр{-0,5Q^SQ}dQI \ ехр{-0,5Q'^5Q}dQ. w+l
Пусть Q= [q\ ^2 -• ^m+il • Тогда Q SQ= ^ SIQI И многомерНЫЙ интеграл в числителе оценки в в развернутом виде оказыва ется таков: оо
оо
—оо—оо
оо
Яг
expj-0,5 S SiQi d9id^2-d?/n+l-
—оо
Ят+1
Так как в силу нечетности подынтегральной функции оо
J ^/exp{-0,55ygj}d^y =0, у =1, 2 ..., АИ + 1, —оо
то второе слагаемое в выражении для в обращается в нуль и окончательно получаем п-1/шТг^-1 в = G:=. = D'CP^K^-'y + Ке'- 1 ,те).
(2.87)
Оптимальная байесовская оценка, таким образом, при ли нейной гауссовскай модели экспериментальных данных и квад ратичной функции стоимости оказывается линейной относи тельно вектора наблюдений у. Линейность проявляется именно при этих условиях. Если же модель экспериментальных данных окажется нелинейной относительно вектора параметров в или 101
хотя бы один из векторов в, е будет негауссовским, байесовский алгоритм становится нелинейным. Легко видеть, что байесовский алгоритм (2.87) полностью совпадает с оценкой (2.79), оптимальной по критерию максиму ма апостериорной плотности вероятностей. И это не случайно. Гауссовская апостериорная плотность вероятностей вектора в достигает наибольшего значения в точке, являющейся апостери орным средним этого вектора. Но и байесовская оценка (2.85) представляет собой апостериорное среднее. Этим и объясняется совпадение обеих оценок. Подобное совпадение обнаруживается при всех унимодальных и симметричных относительно моды апостериорных плотностях вероятностей. Следствием совпаде ния оценок (2.79), (2.87) оказывается совпадение и их свойств: байесовская оценка (2.87) является несмещенной и имеет кова риационную матрицу ошибки (2.81). Минимальное значение min /байесовского риска (2.82) в данном случае находится доста точно просто. По определению min/ = М{\\ в - в|р} = = М{(ё - в)^(в - в)}, где в - байесовская оценка (2^87). С дру гой стороны, из (2.81) для этой же оценки имеем М{(0 — в)Об - в)^} = D~\ Но М{(ё ~ в)^(в - в)} = Sp М{(в - в ) ( в - в)^} и, следовательно, min J'= SpD . Следует отметить, что байесовский подход является наиболее универсальным средством оценивания. Можно показать, напри мер, что максимально правдоподобные оценки соответствуют минимуму так называемого условного байесовского риска (см. далее) при простой функции потерь. Оценки, соответствующие максимуму апостериорной плотности вероятностей, могут быть получены из условия минимума среднего (безусловного) риска (2.82) также при простой функции потерь.
2.7. Минимаксные оценки регрессионных параметров Познакомимся еще с одним методом оценивания, который в эконометрических задачах не имеет широкого применения, но потенциально может оказаться полезным. Этот метод формирует так называемые минимаксные оценки и применяется в тех случа ях, когда априорная плотность со0(в) случайного параметра в неизвестна и оценивание осуществляется в расчете на наиболее неблагоприятную обстановку. 102
Снова обратимся к средним байесовским потерям (2.82). Вос пользуемся уже неоднократно применявшимся представлением v(y,&) = (i)Q(Q)L(y I в) и запишем средний риск в новой форме: / = Jr(e)a)e(e)de, (2.88) е где функция г(в) называется условными потерями (условным рис ком) и определяется очевидным образом: /-(в) = J С(еМу))Цу I e)d>;.
(2.89)
Пусть каким-либо образом найдена л/обал оценка в\(у). Если эту оценку подставить в (2.89), то, проинтегрировав, найдем ус ловный риск как функцию параметра в. Обозначим эту функцию символом ri(e). При некотором в функция ri(e) достигает наи большего значения. Пусть это будет в точке в = в ь т.е. Qi = = arg max ri(e), и в этой точке условный риск принимает значе ние ri{Qi) = max ri{S). Если, далее, взять какую-либо другую оценку В2(У) и проделать те же самые операции, то при сохране нии того же принципа обозначений получим ^2(02) = max ^2(6). Для оценки ^з(У) аналогичным образом найдем /'з(вз) = max гз(в). Если теперь абстрактно представить, что удалось перебрать все мыслимые оценки, то найдется такая оценка в (у), которой будет соответствовать значение г*(в ) = max г*(в), меньшее, чем при любой другой оценке. Эта оценка и называется минимаксной. Формально, таким образом, минимаксная оценка в опреде ляется условием тахг(в,в*) = min шах г(в,в), е е е
(2.90)
т.е. при минимаксной оценке максимум условного риска по век тору регрессионных параметров в оказывается наименьшим среди всех максимумов при любых других оценках, что и определяет название этого метода оценивания. Критерий (2.90) минимакса на практике часто оказывается не совсем удовлетворительным, так как по сравнению с другими минимаксная оценка может дать выигрыш в очень малой облас ти значений вектора в, реальные значения которого этой облас ти могут и не принадлежать. Дополнительно на пути поиска ми103
нимаксных оценок встречаются не всегда преодолимые аналити ческие трудности. В теории статистических решений доказывается следующее. 1. Минимаксная оценка существует и представляет собой байесовскую оценку при некоторой априорной плотности веро ятностей сов (в) вектора в, которая называется наименее благо приятной априорной плотностью. Плотность сое (в) является та кой, что оптимальная байесовская оценка при этой плотности ха рактеризуется большим средним риском, чем оптимальная байе совская оценка при любой другой плотности сое(в) и той же функции стоимости. Таким образом, минимаксная оценка дает наилучший результат в наихудших условиях, которые, вообще го воря, могут и не соответствовать решаемой конкретной задаче. 2. Если существует такая байесовская оценка в^(у), при кото рой условный риск (2.89) оказывается константой, не зависящей от вектора в, то эта оценка будет минимаксной, т.е. в (у) = в'^(у). Если же условный риск обращается в константу при небайесов ской оценке в(у), то это не означает, что в(у) является минимакс ной оценкой. Вторым свойством иногда удается воспользоваться для на хождения наименее благоприятной плотности Ш0 (в). Для этого байесовскую оценку как функцию записанной в общем виде ап риорной плотности со0(в) (например, как апостериорное среднее при квадратичной функции стоимости) подставляют в выраже ние для риска (2.89) и пытаются найти такую плотность сое(в), при которой условный риск обращается в не зависящую от в константу. В случае удачи соответствующая плотность сое(в) ока зывается наименее благоприятной плотностью Ше (в), при кото рой байесовская оценка оказывается минимаксной. В ряде случа ев, в частности при линейной модели (2.4) экспериментальных данных и квадратичной функции стоимости, наименее благопри ятной плотностью является равномерная.
Вторая часть МАТЕМАТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ВРЕМЕННЫХ РЯДОВ Глава 3 СТРУКТУРНО ДЕТЕРМИНИРОВАННЫЕ ВРЕМЕННЫЕ РЯДЫ ЗЛ. Математические модели структурно детерминированных временных рядов Часто анализ какого-либо экономического явления сопровожда ется изучением свойств некоторой функции y{t), характеризую щей его развитие и представляющей собой функцию времени. Такую изменяющуюся во времени функцию принято называть процессом. Так, например, могут представлять интерес ежемесяч ный объем продукции, выпускаемой некоторым предприятием, ежемесячная заработная плата какой-либо семьи, ежегодная уро жайность определенной сельскохозяйственной культуры, изме нение температуры в течение того или иного промежутка време ни и т.п. Область определения подобных процессов может быть как непрерывной, так и дискретной. Температура непрерывно изменяется во времени, что может быть измерено прибором и квалифицировано как функция с непрерывной областью опреде ления. Заработная плата обычно фиксируется один раз в месяц и, следовательно, определена на дискретном множестве значений ее аргумента. Но независимо от исходной природы процесса практически регистрация его значений обычно осуществляется в дискретные, как правило, равноотстоящие моменты времени 105
/i, /2? •••5 ^м ^/+1 — //= const, следствием чего является совокупность величин Я/]), y{t2)y..., y(tn)- Эти величины удобно обозначить бо лее лаконичными символами у\, У2, -••, Ум или yi, / = 1, 2, ..., N. Упорядоченную во времени последовательность наблюдений yi, / = 1, 2,..., iV, принято называть временным рядом. Элементы, или уровни, УиУ2, '•••> з^л^ временного ряда являются случайными величинами в том смысле, что заранее, до проведе ния эксперимента, точные значения их предсказать невозможно. Так, едва ли кто-либо совершенно точно может сказать, какая температура будет в шесть часов утра такого-то числа или какая урожайность пшеницы будет в /-м году Даже заработная плата человека, находящегося на окладе, может претерпевать заранее мало ожидаемые изменения. Временной ряд, отражающий эволюцию какого-либо эконо мического процесса, используется для формирования определен ных суждений о развитии этого процесса. Чтобы это суждение (решение) выработать, элементы ряда следует подвергнуть мате матической обработке по определенному правилу (алгоритму). Но для этого необходимо математически описать сам ряд, т.е. со ставить его математическую модель. Мы будем придерживаться двух взглядов на математическую природу временного ряда. При первом из них зарегистрирован ную последовательность уровней УьУг^ ••-> }^лг интерпретируем как реализацию некоторого случайного процесса (случайной после довательности) и соответствующую математическую модель строим на основе аппарата теории случайных процессов. Полу ченную таким образом математическую модель временного ряда будем называть стохастической. Изучение и применение таких моделей даны в следующей главе. Вторая точка зрения заключается в том, что мы считаем вре менной ряд состоящим из двух слагаемых, первое из которых представляет собой полностью определенную с точностью до не скольких параметров функцию (такие функции часто называют квазидетерминированными или структурно детерминированны ми), а второе слагаемое является последовательностью независи мых центрированных случайных величин. Временные ряды с та кой трактовкой структуры их модели будем называть структурно детерминированными (или квазидетерминированными). Их изу чению посвящена настоящая глава. 106
Итак, в соответствии со второй концепцией полагаем: yi=fi+Pbi=^\a.-^,N,
(3.1)
где/- =Л^/) - квазидетерминированная составляющая, обычно назы ваемая трендом временного ряда,/?/— случайная составляющая. Математически первая из них принимается известной с точ ностью до некоторой совокупности неизвестных параметров ^0, ^ь ..., л^, как правило, линейно входящих в выражение тренда /(//). Весьма распространенной такой зависимостью является ли нейная комбинация известных функций щ{(), А: = О, 1,..., q\ fi =f{ti)= i ai,i^,,{ti), / = 1, 2, ..., N.
(3.2)
A:=0
Частным случаем модели (3.2) является полиномиальная, в которой 9)t(//) = // и, следовательно, fi-
icij^tf.
(3.3)
А:=0
В ЭТОМ случае детерминированная составляющая временного ряда (тренд) является многочленом ^-го порядка с неизвестными коэффициентами aj^,k = Q, 1, 2,..., q. Этим коэффициентам мож но придать определенный физический смысл, если функцию/(/), считая ее q раз дифференцируемой, разложить в ряд Тейлора в ок рестности, например, точки t\ и ограничить разложение {q + 1)-й частичной суммой
В ЭТОМ случае Ф^а/) = ^(^/ -h)\ aj, =/^\н),
к = 0,1,..., q, т.е.
неизвестные параметры физически представляют собой значение функции ДО? скорости ее изменения, ускорения и т. д. в точке Если ввести в рассмотрение (q + 1)-мерные векторы а = [ао ai... agf, Ф/ = [фо(//) Щ^д ... Ф^(//)]^, 107
то выражение (3.2) можем переписать в более удобной форме: /;=(Ф,,/|) = Ф А ,
/=1,2,...,7V,
(3.4)
где, как и ранее, (,) - символ скалярного произведения, ^- символ транспонирования. Случайная составляющая в (3.1), как уже отмечалось, облада ет свойствами: Л/{/;,} = 0, М{л/7,.} = Г ^ ' ' ' = А [О, 1Ф]
(3.5)
Здесь, как и ранее, М— символ усреднения. Дисперсия а^ мо жет быть как известной, так и, что наиболее часто наблюдается в реальных задачах, неизвестной. Последовательность случайных величин со свойствами (3.5) обычно принято называть дискрет ным белым шумом. Второе условие в (3.5) является следствием не зависимости величин/7/ и/?, при i^L а дисперсия, вообще говоря, может меняться во времени, т.е. а = аД но мы пока ограничим рассмотрение случаем (3.5). Таким образом, в случае структурно детерминированного временного ряда имеем M{yi) = (Ф,, а) = фДа, M{(yrf} = а\ где у° - центрированная случайная величина. Временной ряд (3.1) имеет детерминированное с точностью до вектора а математическое ожидание, и члены ряда относи тельно его среднего совершают случайные отклонения со свойст вами (3.5). Эти отклонения обусловлены случайными изменени ями самого ряда, а также могут быть порождены неточностью из мерений, сопровождающих эксперимент. В связи с моделью (3.1), (3.4) возникает ряд важных вопросов, в частности: как выбрать функции щ(0, чтобы в последующем получить достаточно «комфортные» алгоритмы обработки ряда; какое число д составляющих модели следует принять, чтобы по лучить модель, адекватную реальным наблюдениям; как посту пать с неизвестной дисперсией а^ и, наконец, для какой цели ис пользуется временной ряд. 108
Ответим прежде всего на последний вопрос. С использова нием рядов могут решаться различные прикладные задачи. При оритетной из них мы будем считать следующую: временной ряд используется для того, чтобы по имеющимся наблюдениям у,, / = 1, 2, ..., 7V, спрогнозировать будущее значение ряда для како го-либо момента tfn > ^м т.е. найти оценку 9^^ = Y(t^) = Ут(Уь Уг ...,у^) будущего значения ряда как функцию имеющихся в нашем распоряжении наблюдений yuy2y;yN- Такую задачу принято на зывать задачей прогнозирования (предсказания, экстраполяции) временного ряда. Ответы на остальные вопросы, так же как и jwa вопрос о том, как найти «хорошую» в каком-то смысле оценку У;„, будем искать в процессе последующего изложения материала. В заключение обратим внимание на внешнее сходство моде ли (3.1), (3.4) временного ряда и рассмотренных в первой части пособия регрессионных моделей. По существу они отличаются только физической содержательностью. Если время / в (3.1) ин терпретировать как экзогенную переменную, а значения ряда как значения эндогенной переменной, то формально модели окажут ся эквивалентными. Это позволяет в теорию временных рядов привнести многое из рефессионного анализа, расмотренного ра нее. По этой же причине структурно детерминированные модели временных рядов иногда называют регрессионными.
3.2, Ортонормированные системы функций 3.2.1. Банаховы и гильбертовы пространства Как уже было отмечено, при разработке математической модели временного ряда большое внимание должно быть уделено свой ствам функций (Pk(0, к = О, I, ..., д, используемых для описания детерминированной составляющей (3.2) временного ряда. Удач ный выбор этих функций существенно определяет вычислитель ную простоту и точность решения задачи. Хотя универсальных и общепринятых рекомендаций по выбору этих функций нет, мож но указать класс функций, во многих задачах оказывающихся предпочтительными. Этот класс составляют ортогональные и ор тонормированные системы функций. Дадим соответствующие определения. При этом будем ориентироваться на основные по нятия конечномерных линейных пространств, изложенные, на109
пример, в [14], и опустим соответствующие пространные ком ментарии. Определение 3.1. Множество Л, элементами которого являют ся вещественные функции (для определенности, времени t) или временные последовательности с установленными соотношени ями между элементами, будем называть вещественным функцио нальным пространством. Определение 3.2. Функциональное пространство 3 называют линейным, если для любых двух элементов u(t) и v(t) из этого про странства (т.е. u(t), v(t)e 3) и любых чисел Xj, ^2 GR линейная комбинация z(t) = X]w(/) + X2v(t) также принадлежит мно жеству 3. В этом определении операции умножения функций на число и сложения функций понимаются в обычном алгебраическом смысле (в этом же смысле указанные операции понимаются и да лее). Определение 3.3. Линейное функциональное пространство 3 называется нормированным, если существует правило, ставящее в соответствие каждому элементу Д/)^ 5 вещественное число, на зываемое нормой (или длиной) функции ДО? символически обозначаемое \\f{t)\\ и удовлетворяющее трем аксиомам нормы ко нечномерных линейных пространств [14]: 1.11Д011 > О приЛО ^ О и 11Д011 = О « Л О = 0; 2.||V(0ll = W«A0l|npHVXGR; 3. Г(0 + у(011 ^ 11Д011 + \Ш1 при \/у(0,Л0^3 Определение 3.4. Функциональное пространство 3 называет ся метрическим, если существует правило, ставящее в соответст вие любым двум функциям u(t) и v(/) из Л неотрицательное веще ственное число, называемое метрикой (расстоянием) простран ства Л, символически обозначаемое p{u(t), v(/)) и удовлетворяю щее трем аксиомам метрики конечномерных линейных прост ранств [14]: l.p(w(0,v(0) = 0«w(0 = v(0; 2. p(u(t), v(0) = p(v(/), «(/)); 3. p(u(t), v(0) < p{u{t), z(t)) + pizit), v(0). Определение 3.5. Линейное функциональное пространство 3 называется евклидовым (или пространством со скалярным произ110
ведением), если существует правило, ставящее в соответствие любым двум функциям u(t) и v(0 из Л вещественное число, назы ваемое скалярным произведением функций u(t) и v(/), символичес ки обозначаемое (w(0, v(/)) и удовлетворяющее четырем аксио мам скалярных произведений конечномерных линейных прост ранств [14]: 1.(^(0, v(0) = (v(/),t/(0); 2. (^(0 + z(th v(/)) = (u(t), v(/)) + (z(0, v(0); 3. (Xu(t), v(0) = X (u(t), v(0) при VAG R; 4. (w(0, w(0) > 0 при M(0 9t 0 И (u(t), u(t)) = 0^w(0 = 0. Если в линейном функциональном пространстве определено скалярное произведение, то обычно принимают: 11/(011=л/(/(0, /(О),
(3.6)
р(и(0, v(0) =11 u(t) - v{t) 11= V(w(0 - v(0, u{t) - v(t))
(3.7)
и в зависимости от способа определения скалярного произведе ния получают те или иные норму и метрику. В таком случае гово рят, что норма (метрика) порождена скалярным произведением. Заметим, что если отвлечься от математической аккуратности мышления, то норму можно интерпретировать как своеобразную меру «величины» функции и указать, какая функция по норме больше, а какая меньше. С аналогичной степенью строгости ме трику можно рассматривать как «расстояние» между двумя функ циями. Для функциональных пространств одной из фундаменталь ных является проблема сходимости последовательности элемен тов этого пространства. Определение 3.6. Пусть {fnit)}°°n = i ~ последовательность функ ций из метрического пространства 3. Если для Ve > О ЗЛ^(8) > О та кое, что при всех п > Л/^выполняется р(/п(0,ЛО) "^ £» где/(Ое Л, то говорят, что последовательность {fn(t)}°°n = i в метрике простран ства Л сходится к функцииДО^Д Другими словами, последовательность функций {fn(0}'^n=\ сходится в метрике пространства Л к функции^/) из этого прост ранства, если Итр(/^(0,ЛО) == О при л —> оо. Это означает, что с ростом п «расстояние» между элементами последовательности 111
{fn{t)} и функцией ДО становится сколь угодно малым. Если не возникает недоразумений, то в подобных случаях пишут: fnit) -^At) при п-^оо. Если пространство нормировано и метрика порождена нор мой, то в случае lim ||/« (0-/(011=0 говорят, что последовательность {fn{t)} ПО норме сходится к/(0. в последующем, как прави ло, именно в этом смысле будем понимать сходимость. Определение 3.7. Последовательность функций {^(0}°°л = i из метрического пространства 3 называют последовательностью Коши или фундаментальной последовательностью, если для Ve > О 3iV(e) > О такое, что для всех т,п> Щг) выполняется нера венство pifniiOJniO) < е. У фундаментальной последовательности, таким образом, «расстояние» между ее элементами при достаточно больших но мерах элементов становится сколь угодно малым. Утверждение 3.1. Если некоторая последовательность {^(0}°^=lC:Л, где Л— метрическое пространство, сходится к функ ции f{t)G Д то эта последовательность является фундаменталь ной. Действительно, пусть последовательность {^(0}°^=ic:5 схо дится к функции ДО^ 3. Это значит, что при Ve > О 3N{E) > О та кое, что при п > iV справедливо неравенство p(fn(t),f{t)) < е. Так как в соответствии с одной из аксиом метрики p(fn{t), fm{t)) < p(fnit),AO)
+ Р ( Д О , / т ( 0 ) , ТО при П,т-^оо
ВЫПОЛНЯСТСЯ НС-
равенство pifmit), fn(0) ^ 2е, т.е. при достаточно больших п, т «расстояние» между любыми двумя элементами сходящейся по следовательности становится сколь угодно малым. Но в соответ ствии с определением 3.7 последовательность {/«(0}°^=i тогда яв ляется фундаментальной. Сходящаяся последовательность, таким образом, всегда фун даментальная. Но фундаментальная последовательность функ ций, в отличие от числовой последовательности, оказывается не всегда сходящаяся. В некоторых метрических пространствах уда ется построить такие последовательности Коши, которые не схо дятся ни к какой функции из этого пространства. Вместе с тем су ществуют и пространства, в которых фундаментальные последо вательности оказываются сходящимися, причем сходящимися 112
именно к какому-либо элементу этого же пространства. Такие пространства принято выделять в самостоятельный класс. Определение 3.8. Если в метрическом пространстве 3 любая фундаментальная последовательность сходится к некоторому элементу этого же пространства, то пространство 3 называется полным. Определение 3.9. Нормированное линейное пространство, полное относительно метрики p(w(/), v(/)) = \\u{t) — v(/)||, порож денной его нормой, называется банаховым пространством. Определение 3.10. Линейное функциональное пространство 3 со скалярным произведением (w(0, v(0) называется гильберто вым, если оно полно относительно нормы, порожденной его ска лярным произведением. Таким образом, если в нормированном пространстве «рассто яние» между функциями определено через норму пространства и любая фундаментальная последовательность в этом пространстве сходится по норме к элементу этого пространства, то такое нор мированное пространство принято называть банаховым. Если дополнительно функциональное пространство является евкли довым, норма в нем выражена через скалярное произведение и любая фундаментальная последовательность по этой норме схо дится к некоторому элементу этого пространства, то такое евкли дово пространство называют гильбертовым. 3.2.2. Пространство L2
Абстрактные функциональные пространства в эконометрических приложениях не находят широкого применения. Обычно ис пользуют множества с конкретным заданием скалярного произ ведения, нормы и метрики. Распространенным множеством та кого вида является пространство Li. Определение 3.11. Функция^/) называется функцией с интег рируемым квадратом, или квадратично интегрируемой на отрезке [/ь /2], если Jr(Odr
(3.8)
h т.е. интефал существует и конечен. 113
Квадратично интефируемые функции обладают рядом полез ных для последующего свойств. В частности: 1) квадратично интегрируемая функция является интегрируе мой; 2) произведение двух квадратично интегрируемых функций является интегрируемой функцией; 3) сумма двух квадратично интегрируемых функций является квадратично интегрируемой функцией; 4) если Л О квадратично интефируема, то и ХДО квадратично интегрируема, где Хе R. Таким образом, линейная комбинация квадратично интефируемых функций является квадратично интефируемой, а это зна чит, что множество квадратично интефируемых функций образу ет линейное пространство. Определим на множестве квадратично интефируемых функ ций следующую интефальную операцию над некоторыми функ циями ДО и u(t): {m,u(t))=fii(t)mu(t)dt,
(3.9)
h
где |х(0 - произвольная положительная интефируемая функция. Несложно убедиться, что выражение (3.9) удовлетворяет всем четырем аксиомам скалярного произведения и, следовательно, является скалярным произведением в линейном пространстве квадратично интефируемых функций. Определение 3.12. Линейное функциональное пространство, состоящее из квадратично интефируемых на [^i, /2] функций, со скалярным произведением (3.9) называется пространством L2. Норма и метрика в этом пространстве определяются соответ ственно выражениями:
11/(011= JjM(0/(0^d/,
р(/(о, u(t))=Jjiimf(t)-u(t)fdt, 114
(3.10)
(3.11)
в евклидовом пространстве, как известно, выполняются не равенства Коши—Буняковского и треугольника (Минковского) имеющие в общем случае соответственно вид:
m.u{t))4m.At)){u{t\u{t)\ ид/) + ^/(/)||<||Д011 + И/)||. в пространстве L2 эти неравенства таковы: ]\i{t)mu{t)dt
<^^i(0/(0^drJц(rMO^d^
(3.12)
h
jV(0(/(0 + w(0)^d/ < jj^i(0/(0^cir +\]\i{t)u{t)^dt. (3.13) Доказывается (например, [14]), что пространство bi является полным, т.е. представляет собой гильбертово пространство со скалярным произведением (3.9). Во многих случаях принимается |Li(0 = 1, и тогда приведенные соотношения упрощаются. Сходимость последовательности функций {fn{i)Yli=\^^i к функцииУ(0^ L2 понимается в смысле равенства lim||Li(/)(/,(/)-/(/))2d/ = 0,
и в этом случае говорят, что последовательность функций {fn{t)Tn^\ сходится к функцииЛО в среднеквадратическом смысле. 3.2.3. Ортогональные и ортонормировонные системы функций Рассмотрим некоторую систему функций \fn{t)Y°n = 1 ^^2, te {t\, ^2], у которой ни одна из функций тождественно не обращается в нуль на [t\, tj\. Определение 3.13. Система функций {fn{t)Y^=^ 1 называется линейно независимой на отрезке [^ь /2]^ ^сли любая конечная сово115
купность этих функций/х! W'/cx2 ^^)' '•">fan(0 являстся линейно независимой при всех te[t\, ti], т.е. равенство SP//a.(O = 0 воз можно лишь тогда, когда все Р/ = 0. ' Отметим, что в функциональных пространствах в общем слу чае можно указать систему из произвольного конечного числа линейно независимых функций. Поэтому такие пространства (в том числе и hi) называют бесконечномерными. Определение 3.14. Система функций {4(0}"^ = i называется ор тогональной на отрезке [/], /2], если любые две функции/(О, J^CO (/ ^j) из этой системы обладают свойством: (fi{t),fj{t)) = 0. Сами функции в этом случае также называются ортогональными. Определение 3.15. Система функций {fn{t)Y°n = 1 называется ортонормированной на отрезке [t\, ti], если любые две функцииУ/(0, fj{t) из этой системы ортогональны и каждая из них имеет единич ную норму, т.е. [1, /=У. В этом случае говорят, что сама функция нормирована. Ортогональную систему функций легко превратить в ортонормированную путем перехода к функциям fi (t) = fi(t)/^t)\\, /=1,2,.... Ортогональная система функций является линейно не зависимой. Действительно, рассмотрим равенство SP//)(0 = 0. Умножив обе его части скалярно на функцию/|;(/), с учетом орто гональности получим РА:11/А:(01Г ~ О => РА: ~ О? Т.е. линсйная комби нация ортогональных функций обращается в нуль только при равных нулю весовых коэффициентах, что является признаком линейной независимости. Опять же, любую линейно независи мую систему функций с помощью специальной операции ортогонализации можно превратить в ортогональную или в ортонормированную. Определение 3.16. Ортогональная (ортонормированная) сис тема функций называется полной в Li, если в этом пространстве нет ни одной функции, кроме нулевой, которая была бы ортого нальна ко всем функциям данной системы. Доказывается, что в пространстве L2 существуют полные ор тогональные системы функций. Приведем рад таких систем, характерных для приложений. 116
1. Основная тригонометрическая система функций 1, cos/, sin/, cos 2/, sin 2/, cos3/, sin3/,.... Система является ортогональной на отрезке [—тс, я]. Действи тельно, пусть / Ф], Тогда при ц(/) == 1 (cos//, COS Jt)= j COS it COS jt d/ = - / (cos(/-y)/+cos(/ + y))d/ = 0, - ^ —TT
—-rr
(sin//, siny/)= / sin// siny/ dt = — j (cos(/~y)/--cos(/ + y))d/ = 0, -^-TC
- Я
я Jя (cos//, siny/)= / cos// siny/ d/ = — J (sin(/+ у)/- sin(/- у )/)d/= 0, ^-я
-Я
я (1, cos//)= J cos//d/ = 0, -Я
я (1, sin//)= J sin//d/=0. -Я
Система не нормирована, так как
l|l|hJj^d/=V2^, II cos //11= I J (cos //)^d/ = л/я,
IIsin//11= J J (sin//)^d/ = VTC. Ортонормированная основная тригонометрическая система имеет вид: 1 1 1 . 1 . 1 . ^ 1 , 1 . , -т=-, -T=cos/, -p^sin/, -?=cos2/, -r=-sin2/, -j=cos3/, -7=sin3/, ... . V27C
л/тс
л/тс
л/тс
л/тс
л/тс
л/тс
117
2. Тригонометрическая система общего вида 1, cos (О/, sin (О/, cos 2со/, sin 2Ш, cos ЗсоГ, sin Зсо/,.... Система ортогональна на отрезке
"2'2
|, где 7" = —. Дока
зательство аналогично предыдущему. Ортонормированная триго нометрическая система общего вида такова: 7 ^ ' J-^ cos со/, J~sino)/, J ^ cos 2(0/, J~sin2co^
^~cos3co/, ^ ^ sin 3(0/, 3. Многочлены Чебышева первого рода Т^О) Эти многочлены задаются рекуррентным правилом
r,+i(o = 2tTr,{t) - т; _ i(o,« = 1,2,3,... при начальных условиях 7о(0 — \,T\(t) — t. Они являются ортого нальными на отрезке [—1, 1] с весом jbi(/) = l / V l - / ^ , причем О, />y, (T,(t), Tjit))=l
\ Ti(t)Tj{t)
'
\
dt = \ 71, / = y=0.
Ортогональные многочлены Чебышева, таким образом, име ют вид:
-^го(о, ^т), ^т,т,
^т,....
4. Многочлены Чебышева второго рода 1/^(0 задаются рекуррентным соотношением Un+i(t) = 2tU„(t) -Un- i(0, At = 1, 2, 3,... 118
при начальных условиях t/o(/) = 1, U{(t) = 2/. Эти многочлены ор тогональны на отрезке [—1, 1] с весом ц(0 = V1 -/^, при этом О, /Vy,
(f/ДО, Uj(t))= J Vb^f//(/)f/y(Od/ = Ортонормированная система имеет вид ^Uo(t), ^U,it),
^U,it),
^U,it),
...
5. Многочлены Лежандра Р/О, вычисляемые по правилу Pn^i(0 =ft-t—Tt^n(t)--rrPn-i(0, I /1 + 1
« = 1, 2, 3, ...
при начальных условиях Ро(0 = 1^ Pi(0 ~ ^- Многочлены Лежанд ра ортогональны на отрезке [-1, 1] с весом ^i(/) = 1, причем {P,(t),Pj(t))=jP^(t)Pj{t)dt = -1
О, i^j, 2 . . Т Т 7 ' ^=-^' 2AZ + 1
что позволяет построить ортонормированную систему многочле нов Лежандра:
jjPoit), ]|л(/), j^Piit), -J|P3(0,.... В прикладных задачах находят применение и другие системы функций: многочлены Эрмита, многочлены Лагерра, функции Радемахера, функции Хаара, функции Уолша и др. Заметим, что все перечисленные системы функций, исключая функции Раде махера, являются полными. 119
3.2.4. Обобщенные ряды Фурье Напомним, что в л-мерном конечномерном линейном пространст ве (т.е. в пространстве, где максимальное число линейно незави симых векторов равняется п, а любые л + 1, « + 2 и т.д. векторов линейно зависимы) можно любой элемент этого пространства единственным образом представить в виде линейной комбина ции линейно независимых векторов. Если {^,-}/= i - система ли нейно независимых векторов их — произвольный вектор из это го пространства, то, таким образом, справедливо равенство x=iciei,
(3.14)
известное как разложение по базису. Если векторы с/, / = 1, 2,..., л, взаимно ортогональны, коэффициенты разложения С/, обычно называемые координатами вектора дс в базисе {е/}^= ь определя ются соотношениями Q=(jc,e,.)/lrf,/= 1,2, ...,«.
(3.15)
Возвратимся теперь к функциональному пространству L2. Как уже отмечалось, в этом пространстве существует неограни ченное число линейно независимых элементов. Пусть {в,(0}7= i ~ одна из таких систем. Пусть, далее,/(/) — некоторая функция из Li- Тогда становится логичной мысль о возможности представить функцию/(0 подобным (3.14) образом, т.е. в виде f(t)-icMO,
(3.16)
где С/ — некоторые весовые коэффициенты. Здесь, в отличие от (3.14), знак равенства заменен символом соответствия ~ по той причине, что не оговорено, в каком смыс ле понимается соответствие между функцией ДО и стоящим справа рядом. Представляется вполне естественным знак соот ветствия заменить знаком равенства, если правый ряд в каком-то смысле сходится к функцииДОПусть S„(t) — п-я частичная сумма ряда из (3.16), т.е.
120
Будем говорить, что ряд Y.Ciei{t) сходится по норме к функ ции Д/), если ^""^ l i m | | 5 , ( 0 - / ( 0 l P = 0.
(3.17)
В случае выполнения (3.17) будем писать /(0=Sq^/(0
(3.18)
/=1
и говорить, что функция д о задана разложением по системе функций {^/(0)7= 1- Если выполняется (3.18), несложно опреде лить соответствующие этому равенству коэффициенты с/, / = 1,2, ... . Для этого обе части (3.18) умножим скалярно на ejjj), вос пользуемся свойствами скалярного произведения, справедливы ми и в случае ряда, и учтем ортогональность функций ejjj) и ^,(0 при (Фк.В результате получим подобное (3.15) выражение Ck = (ДО, е^и))/\\еМ\\ к=^\Л,...,
(3.19)
или с^ = (Д0,^л(0)Д=1,2,...,
(3.20)
если система функций {^/(017= i ортонормирована. Коэффициен ты (3.19), (3.20) HdiZhiBd^OT коэффициентами Фурье. Итак, предположим, что выполняется (3.17), хотя пока мы и не знаем, при каких условиях это выполняется. В этом случае, по нашей договоренности, справедливо соотношение (3.18). Определение 3.17. Пусть {в,(0}7= i ~ некоторая система орто гональных (ортонормированных) функций из bi и/{1)е Li. Пусть, оо
далее, выполняется (3.17). Тогда ряд S CiCiit), где С/, / = 1 , 2 , . . . , /=1
коэффициенты Фурье (3.19), (3.20), называется обобщенным ря дом Фурье функции/(0 по системе функций {е,(0}7= i и использу ется запись (3.18). В этом случае будем говорить, что функция ДО представлена обобщенным рядом Фурье по системе функций {в,(0}Г= ь Если же для некоторой функции ДОе Li построен ряд S с/вД/) с коэф фициентами Фурье (3.19) или (3.20), но не доказана сходимость 121
ряда к функции Д/) или выявлено, что ряд сходится, но не к функции ДО, то такой ряд принято называть формальным рядом Фурье функции ДО и использовать запись (3.16). Если некоторая система функций {е,(0} '**'/= i обеспечивает ра венство (3.18) для любой функции ДО из L2, то такую систему функций называют ортогональным (ортонормированным) базисо пространства Ьг3.2.5. Минимальное свойство коэффициентов Фурье Использование обобщенного ряда Фурье как математической модели некоторого процесса ДОеЬг при решении практических задач часто приводит к избыточно громоздким результатам. По этому стараются ограничиться приближенными моделями, менее точными, но позволяющими получить вполне реализуемые соот ношения при обработке временных рядов. Подобная модель мо жет быть получена, если использовать частичную сумму ряда по некоторой системе ортогональных (ортонормированных) функ ций {е/(0}7= 1- В этом случае, таким образом, приближенно пред ставляем /(0-iV/(0,
(3.21)
где bi, 1= 1,2, ..., q— некоторые неизвестные пока коэффициен ты. Эти коэффициенты, очевидно, следует выбрать так, чтобы обеспечить наивысшую в некотором смысле точность приближе ния (часто говорят, аппроксимации) (3.21). Функцию
E{t) =
nt)-ibMO
назовем ошибкой аппроксимации (3.21). Величину этой ошибки условимся характеризовать ее нормой или квадратом нормы ||8(/)|р. Тогда коэффициенты 6/, / = 1, 2,..., q, следует выбрать в со ответствии с условием |е(/)|Р =
-^ V
/=1
min
A:=l
обеспечивающим наивысшую точность аппроксимации. 122
, (3.22)
Утверждение 3.2. Величина ||8(0|Р достигает наименьшего зна чения, если в качестве коэффициентов 6/ принять коэффициен ты Фурье С/, те. положить bi = Cj, i= 1,2,.... д. Для доказательства удобно ||е(0|Р записать в развернутом виде 1|е(0|Р = (/(0, / ( 0 ) - 2 1 АД/(/),еД/))+ i i bM^iit), ^И0) = /=i
i=\k=\
(3.23)
HI/(Of ~2Е /^ДЛО,^/(0)+ i bf |кД0|Р. /=1
/=1
Запишем необходимое условие минимума величины (3.23) ^1|£(0|Р = -(/(0, ej,{t))-^bj,\\ek(t)f = 0, к^\, 2, ..., ^,(3.24) откуда непосредственно следует bk = (ДО,
^А(011
/ 1к(0|Р = ^ь /fe = й " .
Так как V^||e(0|P = 2£ > О, т.е. матрица вторых производных V^||e(0|P является положительно определенной, полученный ре зультат действительно является решением задачи (3.22). Итак, аппроксимация (3.21) оказывается наилучшей в смыс ле минимума нормы ошибки, если в качестве весовых коэффи циентов bi использовать коэффициенты Фурье С/. В этом и прояв ляется свойство минимальности коэффициентов Фурье. Заме тим, что система уравнений (3.24) приобрела простейший вид, при котором каждое из уравнений системы содержит лишь одну неизвестную величину благодаря ортогональности системы функций {^/(0)1= ь Если бы эти функции были неортогональны ми, система уравнений, полученная в соответствии с условием минимума величины (3.23), не распалась бы на q независимых уравнений, каждое из уравнений содержало бы все q неизвест ных, и решение системы не свелось бы к коэффициентам Фурье. Найденное решение обладает еще одним замечательным качест вом: если по каким-либо причинам количество слагаемых q в ап проксимирующей модели (3.21) оказалось недостаточным и его следует увеличить, то все коэффициенты не надо пересчитывать, а нужно вычислить лишь новые коэффициенты 6^ = сд^, /с = ^ + 1, 123
^ + 2 и т.д., сохранив все предыдущие коэффициенты. Если бы использовалась неортогональная система функций, пришлось бы пересчитывать все коэффициенты. Найдем минимальное значение величины (3.23) — min||8(/)|p. С этой целью представим
Ht)f=\\mf Л bi(m, ^до)+i А/НЛО, ^/(0)+*/ WeMh Эта величина в соответствии с доказанным будет минималь на, если выполняется (3.24) и bi = С/. Но тогда min||e(0|P = ||/(Of -ЕсДЛО, e/(0) = ll/(Of Лс} ЫО\\\
(3.25)
Так как min ||е(0|Р ^ О, то из (3.25) следует \\f(t)f>icf\\eM^
(3.26)
при ортогональной системе функций {б,(0}^= i и
\\f(t)f>icf
(3.27)
1=1
при ортонормированной системе {^/(О}^ = ь Выражения (3.26), (3.27) называют неравенствами Бесселя. Рассмотрим состоящий из неотрицательных членов числовой ряд Ес/ 11^/(011 . Так как в силу (3.26) частичные суммы этого ряда ограничены, то ряд сходится и, следовательно, справедливы общие результаты
||/(0|Р>1с?|кдо|р /=1 при ортогональной системе функций {^,(0}1= i и
124
при ортонормированной системе {е/(/)}^ = i. Как следствие, из сходимости ряда имеем С/^||е,(0|Р —> О при / -> ©о для ортогональной системы функций и с} -> О при / -^ ©о для ортонормированной си стемы. 3.2.6. Сходимость обобщенных рядов Фурье Прежде чем обсуждать проблему сходимости рядов Фурье, рас смотрим небольшой пример, не имеющий практической значи мости, но иллюстрирующий технику представления (аппрокси мации) некоторой функцииД0^Ь2 частичной суммой обобщен ного ряда Фурье. Прежде всего отметим, что функция Д/) и ис пользуемая ортогональная (ортонормированная) система функ ций {е|(0}% 1 могут быть определены на разных множествах. Что бы воспользоваться изложенным аппаратом, их нужно «привес ти» к единому множеству определения. Это можно сделать, на пример, так. Пусть функция ДО определена на отрезке [а, й], т.е. /е [а, 6], а система функций {е/(т)}^/= i ортогональна на отрезке [с, d\, те. TG[C, d\. В качестве аргумента системы функций записана пере менная X именно для того, чтобы подчеркнуть тот факт, что пере менные / и т принадлежат разным множествам. Чтобы привести их к единому множеству, представим г = а + Л(й - а), т = с + A,(rf - с), XG [О, 1]. Выразив X, например, из первого соотношения и подставив во второе, найдем т = с + (/ - d){d - c)l(b - а). Если теперь в со ставе функций {^/(т)}^/ = 1 аргумент т заменить в соответствии с последним выражением, получим систему функций [ех (/)}^ = i, ортогональную на множестве [а, 6], на котором определена и функция ДО- Если же подобным образом выразить / = <з + Н- (т — с)ф — d)l{d — с) и это значение подставить в выражение функции Л0> получим новую функцию /(т), определенную на [с, d\, на котором ортогональна исходная система функций {е,(т)}^/= 1. Оба приема, разумеется, эквивалентны в смысле полу чения одного и того же результата и позволяют после такой заме ны аргументов воспользоваться изложенными результатами. После сделанного замечания рассмотрим следующий пример. Пусть мы хотим функциюДО = 1+ /, /G [О, 2], представить в виде 125
частичной суммы обобщенного ряда Фурье по многочленам Лежандра, ограничив приближение первыми тремя слагаемыми. В данном случае, таким образом, ei(T) = Ро{т) = 1, е2(т) = PI(T) = т, ез(^) = Р2(^) = 3TV2 - 1 / 2 , причем т е [ - 1 , 1], т.е. [а, Ь] = [О, 2], [с, d] = [-1, I]. Переопределим функции Лежандра так, чтобы они оказались ортогональными на отрезке [О, 2]. С этой целью выражаем т = / — 1 и получаем PQ (t) = 1, Pi (t) = t — 1, P2 (t) = = 3/^/2 — 3/ + 1. Теперь нам необходимо найти коэффициенты Фурье Со, сь С2, которые с наивысшей, как мы выяснили, точнос тью позволят представить ЛО ~ ^о^о (О + ^1Л (О "^ ^2^2 (О- Эти коэффициенты находятся в соответствии с (3.19):
Ci=m.Pi\tMp;(t)\\\i==o,i,2. Имеем: \\Po(t)f = iPo4t)dt = 2; \\P;(t)f==jPP(t)dt = 2/3; О о ll^2(0f = J/'2^Wd/ = 2/5; О
(ЛО, Po{t)f=Ul^t)dt о
= 4; (fit), P;(t)f=Ul о
+ t)(t-l)dt = 2/3;
(fit), P2*(0)^=J(l + 0 ( 3 r V 2 - 3 / + l)d/ = 0 о и, следовательно, CQ = 2, ci = 1, С2 = О, что приводит к окончатель ному результату: ЛО = CQPO (/) + C]Pi (О = 1 + /. В этом простей шем случае, как врщим, с помощью всего лишь двух слагаемых ряда Фурье удалось совершенно точно описать функцию Д/) = = 1 + /, что, еще раз подчеркнем, объясняется простотой задачи. В общем случае такой «блестящий» результат не достигается, но при удачном выборе системы функций {е,(т)}^ = i и достаточно большом их количестве q можно сколь угодно близко к нему по дойти. Определение 3.18. Ортонормированная (ортогональная) сис тема функций {^,(т)}7 = 1 называется замкнутой, если любую функциюДОе L2 можно по норме этого пространства приблизить 126
с любой точностью линейными комбинациями конечного числа элементов этой системы. Утверждение 3.3. Если система функций {е,(т)}'^= i замкнута, то для любой функции ДО^Ьг неравенства Бесселя (3.26), (3.27) переходят в точные равенства соответственно
\\f{t)t-ic}\\e,{t)\t /=1
||/(OlP=ic/, /=1
называемые равенствами Парсеваля. Ограничим доказательство вторым из этих равенств, относя щимся к ортонормированной системе функций. Из определения замкнутой системы следует, что при Ve > О 3^ > О такое, что 0
(3.28)
Но это эквивалентно условию
lim|||/(/)f-ic?]=0, так как при возрастании q сумма в (3.28) может только возрастать. Последнее эквивалентно второму из записанных равенств Парсе валя. Утверждение 3.4. Если система функций {е,(т)}'7= i замкнута, то формальный ряд Фурье для любой функции /(/)€ L2 сходится по норме пространства L2 к этой функции, т.е. Г
lim
д
\
1/(0-1^^/(011
:0.
/=1
Действительно, в соответствии с (3.25) для ортонормированных функций имеем
wm-^icicM -\\т\? Лс} /=1
/=1
Так как при возрастании q правая часть последнего равенства стремится к нулю, приходим к данному утверждению. 127
Существует еще одно очень важное свойство функциональ ных пространств, которое мы приведем без доказательства. Утверждение 3.5. В пространстве hz всякая полная ортого нальная (ортонормированная) система функций является замк нутой, и наоборот. И вообще, в функциональных пространствах справедливы выводы: если ортогональная (ортонормированная) система функций {е/(т)}°]= 1 является полной, то она оказывается замкну той; с помощью линейной комбинации ее элементов с любой точностью можно представить произвольную функцию/(Ое L2; формальный ряд Фурье функции ДО сходится по норме к самой функции; выполняется равенство Парсеваля. Такая система яв ляется ортогональным (ортонормированным) базисом в прост ранстве L2. Соответственно, если выполняется равенство Парсе валя, то такая система функций является базисом в пространстве L2, т.е. выполнение равенства Парсеваля эквивалентно сходимо сти формального ряда Фурье функции^/) к этой функции. 3.2.7. Ортогональные (ортонормированные) системы дискретных функций При определении временного ряда было указано, что он форми руется на основе наблюдений, проводимых в дискретные, как правило равноотстоящие, моменты времени /ь /2> •••> ^л^- Это в яв ном виде отражено в модели тренда (3.2). Изложенные же выше основы теории обобщенных рядов Фурье используют концепцию квадратично интефируемых непрерывных функций с интефальным определением скалярного произведения, нормы, метрики и других основанных на этих понятиях характеристик. Поэтому не посредственно использовать полученные результаты для матема тического описания временных рядов принципиально невоз можно. Однако можно построить системы функций, определен ных на дискретных множествах значений их аргумента, которые обладают свойствами и характеристиками, подобными прису щим квадратично интефируемым функциям. Итак, рассмотрим множество функций, определенных в точ ках /i, t2, ..., tj\f. Условимся символом У(//), / = 1, 2, ..., N, обозна чать некоторую из них. Величину 128
(/(^/), «(//))= Е/(//М//) (3.29) /=о назовем скалярным произведением функций /(//) и w(//). Нормой функции Д//) назовем число
ll/(^/)hV(/(^/)'/(^/))=J^/^(^/)-
(3.30)
Пол расстоянием между функциями/(//) и w(//) условимся по нимать величину Р(/(^/), «(^/))HI/(//)-«(^/) 11= 4U{ti)-u{U), f{ti)-u{U)) = =JI(/(//)-«(//))^ Можно убедиться, что все введенные величины удовлетворя ют соответствующим аксиомам. Функции У(//) и u{ti) будем называть ортогональными, если (Д//), w(//)) = О, и ортонормированными, если, помимо условия ор тогональности, выполняется нормировка ||Д//)|| = ||w(^/)|| = 1. Обра тим внимание на то, что все введенные определения подобны их аналогам из пространства Li, но интегральные операции замене ны конечными суммами. В выражении (3.29) скалярного произ ведения могут быть предусмотрены весовые коэффициенты, мо делирующие функцию ц(/) в определении (3.9). Систему функций {^А:(^/)}\ = о? где / = 1 , 2 , ..., N, будем назы вать ортогональной на множестве {ti, /2, ..., ^л^} дискретных значе ний ее аргумента, если любые две функции е^(//) и еу(//) этой сис темы при к Ф] ортогональны, и ортонормированной, если
где S/cj — дельта-символ Кронекера. Все введенные понятия удобно переформулировать в терми нах линейных конечномерных пространств. Действительно, не которую функцию/(//), определенную на множестве дискретных 129
значений ее аргумента //, / = 1, 2, ..., N, можно отождествить с Л^-мерным арифметическим вектором /, компоненты которого равны соответствующим значениям функции Д//), т.е. /'^=1Л/1)Л^2)...Л^/^)]еК^.
(3.32)
Тогда в соответствии с обычными векторными операциями выразим т). и(т = (Г, и) ^/и = uV, (3.33)
Р(/(^/), «(0))=11/-«11=л/(/-и. /-«)=V(/-«)V~«). (3-35) Пусть теперь {^;^(^/)}\= ь ^* ~ 1, 2,..., N, - это Л^линейно неза висимых функций, определенных в Л^дискретных точках. Тогда N векторов еь ^2,..., ^м сформированных по принципу (3.32), так же линейно независимы в пространстве R^ и, так как простран ство R^ — ЭТО Л^-мерное, образуют в нем базис. Любую функцию f{ti), / = 1,2, ..., Л^, можно единственным образом представить в виде линейной комбинации этих функций: /(Г/)=ХР^е^(Г,),
(3.36)
А:=1
Причем весовые коэффициенты разложения (координаты) одно значно находятся из системы линейных алгебраических уравне ний /=ХР^^ь
(3.37)
являющейся совместной и определенной. Если ввести обозначе ния 1?= [ех ei... ^л^], Р = [Pi Р2 ... Рл^]^, система (3.37) приобретает в и д / - £Р, откуда следует ее решение Р = £"!/:
(3.38)
Поиск этого решения существенно упрощается, если функ ции eiJJi), а следовательно, и векторы е^ ортогональны (ортонормированы), т.е. ei^Bj = О при к Ф], Такие функции, как уже отме130
чалось, линейно независимы и образуют ортогональный (ортонормированный) базис. В этом случае достаточно обе части ра венства (3.37) скалярно умножить на ву, чтобы получить Ру = {ерЛ I \\4 = ^ / / / ^ Л при ортогональных векторах и Р/ = (^у,/) = ^ / /
(3.39) (3.40)
при ортонормированных векторах. Последний результат непо средственно следует и из (3.38), так как в этом случае матрица Е оказывается ортогональной и для нее Е~^ = Е^. Полученные вы ражения обладают явным вычислительным преимуществом пе ред общим результатом (3.38), не будучи связанными с трудоем кими операциями обращения матрицы. Обратим внимание на внешнее совпадение соотношений (3.39), (3.40) и ранее получен ных определений коэффициентов Фурье (3.19), (3.20). Поэтому и величины (3.39), (3.40) обычно Yidi^bY&2i\Qni коэффициентами Ф Возвратимся теперь к математической модели (3.1), (3.2) вре менного ряда. Предположим, что в качестве функций ФА:(//) вы браны ортогональные (ортонормированные) функции ву^(^/)> А: = О, 1, ..., ^. Модель тренда должна быть достаточно простой, чтобы работа с ней не порождала дополнительные трудности, но и не настолько элементарной, чтобы оказаться не адекватной изучаемому экономическому явлению. Поэтому соблюдается ус ловие ^ + 1 < Ж В этом случае система {ei^{ti)]\ = о Уже не может быть базисом в Л^-мерном пространстве R^, в силу чего произ вольную функциюД//), / = О, 1,..., Л^, нельзя абсолютно точно за дать разложением по этим функциям. Возможно приближение /(//)= i ci,ei,(t{), / = 1,2, ..., TV, или f^ 2 с^е^,, (3.41) Как и в пространстве L2, коэффициенты разложения должны обеспечить условие q
2
Эта задача подобна рассмотренной ранее задаче (3.22), реша ется аналогичным образом и приводит к тому же результату: 131
Ck =(
, k = Q, 1, ..., q,
(3.42)
при ортогональных функциях и Ck =(f,ek)=lf(ti)ek(ti),
k = 0, 1, ..., g,
(3.43)
при ортонормированных функциях. Точность приближения вы ражается подобным (3.25) образом: minll/- i СкСк f = \\ff -icl
Wck \t
(3.44)
Обратим внимание на одно важное обстоятельство, касающе еся результатов (3.42), (3.43). По существу, используемая целевая функция J та же, что ранее использовалась нами в методе наи меньших квадратов при поиске оценки параметров линейной ре грессионной модели. Поэтому соотношения (3.42), (3.43) можно рассматривать как обычные МНК-оценки вектора с = [CQ ...С^]^, но полученные с учетом ортогональных свойств приближения (3.41). Действительно, если использовать обычный аппарат мето да наименьших квадратов, то минимизация целевой функции J=\\f- JLckek\?=\\f-Ect,TjxQE-=^[eQex ... еJ, приведет к уже известному результату с = {E^E)~^£^f. С учетом ортогональности столбцов матрицы Е имеем Е^Е = diag [|Ыр], Л = О, 1, ..., ^, т.е. (Е^Е)-^ = diag [Ы'\ Так какE^f= [V/^i /..• ejj\^, приходим к вычислительно более предпочтительным соотношениям (3.42). Таким образом, если модель временного ряда (3.1) имеет квазидетерминированную структуру: У/= t Ckek(ti)-^Pi, / = 1, N, то МНК-оценки параметров модели определятся соотношения ми (3.42), (3.43), в которых вектор/и его компоненты следует за менить на вектору= \у\,У2, ••-, Ум1 и его компоненты соответст венно. Это же относится и к (3.44). 132
3.2.8. Ортогональные системы тригонометрических и полиномиальных дискретных функций Рассмотрим теперь некоторые конкретные системы функций, ортогональных на дискретных множествах значений их аргумен тов. Начнем рассмотрение с тригонометрических функций. В п. 3.2.3 отмечалось, что тригонометрическая система общего вида 1, cos со/, since/, cos2co/, sin2co/, cos3co/, sin3co/, ... является ортого нальной в смысле пространства bi на отрезке [-я/со, тг/со]. Стро го говоря, эта система является ортогональной на любом отрезке длительностью 27i/co. Предположим теперь, что отрезок [О, 2я/со] точками /Q» ^ь •••, /дг разбит на Л^ непересекающихся участков длительностью In/odN каждый. В этих точках, таким образом, // = 2я//соЛ^, / = О, 1, ..., Ж Рассмотрим свойства тригонометрической системы в # дискрет ных точках /ь /2,..., tN- При этом из всей бесконечной совокупно сти функций, формирующих тригонометрическую систему, огра ничимся первыми Л^ функциями, т.е. функциями 1, cos со/, sin со/, cos 2со/, sin 2со/,..., cos 7Vco//2 при TV четном и функциями 1, cos со/, sin со/, cos2co/, sin2co/, ..., sin (Л'^ — 1)со//2 при 7V нечетном . В /-й точке // (/ = 1, 2, ..., N) эти функции принимают соответственно значения 1, cos2ni/N, sm2ni/N, ..., cosя/и 1, cos2ni/N, sin2ni/N, ..., sin (TV- \)ni/N, Доказываются (например, [3]) важные для нас свойства этих функций: [0,0
N
(3.45)
Л, у = 0, 1, ..., [N/2],
(3.46)
0,0<кФ]<Щ2], YJ sin 2nji/N sin 2nki/N • N/2, 0
(3.47)
X cos 2nji/N sin 2nki/N=0, N
N
'Zcos2nki/N=0,
к = 1,2, ..., [N/2],
(3.48)
k = \,2, ..., [N/2],
(3.49)
N
Ysm2nki/N=0,
133
где [Л//2] = N11, если TV четное, и [ЛУ2] = (N- 1)/2 при нечетном N. Соотношения (3.46), (3.49) показывают: если N четное, то функции 1, COS Ini/N, sin Ini/N, cos4ni/N, sm4ni/N, ..., cos (Л^ — l)ni/N, sin (N - l)ni/N, cos ni = (-1)' образуют ортого нальную на дискретном множестве точек t\, ti, ..., /^v систему функций; при нечетном 7V таким свойством обладает система 1, cos Ini/N, sin Ini/N, cos4ni/N, sin Ani/N, ..., cos (TV — l)ni/N, sin(N— \)ni/N. Эти функции не нормированы, а именно: \\coslnki/Nf='L{coslnki/NY=N/l,
Q
(3.50)
/=l
||sin27iA://A^|r=S(sin27cA://TV)2=TV/2, 0<^<[TV/2], (3.51) /=1
l|l|P = TV,
(3.52)
ll(-l)f = TV.
(3.53)
Имея в виду (3.50)~(3.53), легко построить соответствующие нормированные функции. Но независимо от нормировки эти функции в пространстве R^ образуют базис (ортогональный или ортонормированный) и, следовательно, любая функция f(t^, / = 1, 2, ..., TV, может быть единственным образом представлена разложением по этому базису подобным (3.36) образом: при четном TV iV/2-l
/(/.) = ^0 + S {bkcosInki/N
+ ct^ sinInki/N) + b^^ni-iy,
(3.54)
ih cos Inki /N-hCf^ sin 27iA:/ / TV),
(3.55)
A:=l
при нечетном TV {N-\)/l
fiti) =flo+
2
где no аналогии с (3.42) ao=-^lf(ti), TV /=i
bk=-^lf(ti)cos2nki/N,
TV /=i
(3.56) c^ = - | I f{ti)sin2nki/N, 134
6^/2 = - - S /(r,)(-l)^
Эти функции применяют для математического представле ния тренда, содержащего периодические составляющие. Модель тренда формируют подобным (3.41) образом со всеми последую щими выводами (3.42) — (3.44). Вторым важным для эконометрических приложений классом функций являются ортогональные на множестве {/Q, ^Ь ..., ^Л^} мно гочлены. Обычно задача построения таких многочленов ставится так. На отрезке [а, Ь] задана некоторая функцияД/). Этот отрезок равноотстоящими точками tQ = a,ti,t2, ...,t]^= b разбивается на N непересекающихся участков, так что ti = а + i(b - a)/N и, как следствие, )^т1Л, Ь-а
1 = 0, 1, .... N.
(3.57)
Требуется построить Л^+ 1 многочленов PQ, М)^ Л , NUI)^ •••» f^N, лК^/) соответственно нулевого, первого и т.д. 7V-ro порядков, определенных и ортогональных на множестве {/Q, / Ь ..., /ДГ} И ПОЗ ВОЛЯЮЩИХ аналогично (3.36) представить /(//)= I cj^P^M^,), / = 0, 1, ..., N,
(3.58)
где Ck — определяемые подобным (3.39) или (3.42) образом коэф фициенты Фурье. Чтобы не быть привязанными к конкретным значениям величин /Q, / j , . . . , /дг, обычно ищут многочлены Д , NU]^ к = О, I, ..., N, ортогональные на целочисленном множестве {О, 1,..., Л^ значений их аргумента, а после того как такие много члены найдены, при необходимости аргумент / в них заменяют на // в соответствии с (3.57). Известны [15, 16] явные выражения для многочленов Д^ дг1/], к = 0, I,..., N\ Pk^NU]= i {-ircici^'^ii/Nr,
(3.59)
где Cj^ —k\ I m\(k — m)\ — биномиальные коэффициенты. В част ности, 2/
^,7vW = l - ^ , 135
^
,., ,
6/
6/(/-1)
N '
... ^ 12/-
N(N-iy
30/(/-1)
Л^ N(N-1)
20/(/-1)(/~2)
N(N-l){N-2)
Многочлены (3.59), часто называемые дискретными полино мами Лежандра— Чебышева, обладают свойством 0, ki^s, /=0
{N-\-k + \){N + k)^ , ', k=s {2k + \)N^
(3.60)
т.е. многочлены ортогональны, но не нормированы. Их исполь зование для моделирования тренда аналогично общему случаю (3.41) с естественной заменой функций ei^{tj) на ортогональные многочлены,
3.3. Предварительное (локальное) сглаживание временных рядов Одной из часто используемых операций, направленных на уменьшение влияния случайной составляющей ряда на точность оценивания параметров тренда, является локальное сглаживание ряда. Сущность этой операции заключается в следующем. Пусть наблюдается ряд (3.1). Зададимся некоторой величиной m«N и рассмотрим фрагмент ряда, срответствующий отрезку yi-mji+ml
Т.е. совокупность ВСЛИЧИН y'^Zi = [У/-т У1-т+\ - У1 -
yi+fn] . Здесь предполагается i>m'^ 1 vii
i + m], п<2т, п<д, (3.61)
У1-т
1 1
м=
= МЬ+Р11^,
-т
т
-(W-1) (/И-1Г О 1 2
О 1 4
{-т-\)" О 1 2"
(3.62)
т
Z + /W
г„
1 1
> Pi-m ~\.Pi-m---Pi+mi •
Используя наблюдения (3.62), находят МНК-оценку Р векто ра Л: rT»^-UVr,./+m р = (м'м)-'м*>;;
(3.63)
с помощью которой вычисляют сглаженное значение>^/ /-го уров ня ряда j^/, соответствующего середине отрезка локального сгла живания [//_;„, //+;„]. В соответствии с моделями наблюдений (3.61), (3.62) при 5 = / принимают Tft_
yi^^Mm+i Р = Р о , тг
где Mfn+i — (m + 1)-я строка матрицы М, Ро — первый компонент вектора р. Из выражения (3.63) следует Ро = Qi yll^, где d ^ -первая строка матрицы {АГМу^М^. Следовательно, yi=Q]y'i-m=
S дЦ-т+\-кУк, k-i-m
(3.64)
где q\j—j'Vi элемент строки Q^. Несложно рассчитать вектор ве сов Q^ при различных тип. Так, при п = О имеем М = = [1 1 ... ireR^'^+^H 137
yi
i+m 1 2in + lk=i
(3.65)
т.е. происходит простейшее усреднение элементов ряда на отрез ке локального сглаживания. Этот алгоритм принято называть скользящим средним. При я = 1 находим \l
М=\
1 1
-т
-{т-\)
2m + l
, м'^м^
0
0 m
1 s
s=-m
т т S yt^s ^•^
У1-т
т 2 syi^, j=~m
_
И после вычисления Po приходим к тому же результату (3.65), т.е. скользящее среднее является алгоритмом локального сглажива ния как для многочлена нулевого, так и первого порядка. Можно показать, что для многочленов второго и третьего порядков так же будет общий алгоритм локального сглаживания и т.д. Приве денная далее машинная распечатка (рис. 3.1) процедуры вычис ления весовых коэффициентов локального сглаживания для раз личных тип позволяет в этом убедиться. Нетрудно оценить эффективность локального сглаживания. Предварительно условимся под этим термином понимать отно шение р дисперсий случайной составляющей /-го уровня ряда после сглаживания и до сглаживания. В результате сглаживания величина у/ преобразуется в р/ в соответствии с (3.65), случайная составляющая 8/которой, что видно из (3.62), оказывается равной £/ ^ бЛ Pi^' Дисперсия GI ЭТОЙ величины легко вычисляется: а,2 = M{Qi^PiLVr {QiPi-mY} = OWQU где с^ - дисперсия слу чайной составляющей исходного наблюдения у^. Следовательно, Р ~ бЛбь и эффективность локального сглаживания, таким об разом, просто оценивается. Так, например, при А1 = 2 и З и т = 5 имеем Qi^ = [-0,086 0,343 0,486 0,343 -0,086] и, значит, р = 0,486. Аналогично для тех же w и m = 7 имеем Qi^ = [—0,095 0,143 0,286 0,333 0,286 0,143 -0,095] и р = 0,333. Вообще следует иметь в ви138
исходные обозначения: 2m+1 - количество точек, участвующих в локальном сглаживании; п - порядок сглаживающего многочлена; z(n,m) - вектор весовых коэффициентов локального сглаживания 0RIGIN:=1 z(n,m):=
for jG1..n+1 for iei..2*m+1 M::<-(i-m-1)i-'^ Q<-M(M'^M)-'^ M1<-Q<^>
z(2,2)= (-0.086 0.343 0.486 0.343 -0.086) z(2.3)= (-0.095 0.143 0.286 0.333 0.286 0.143 -0.095) z(2,4)= (-0.091 0.061 0.169 0.234 0.255 0.234 0.169 0.061 - 0.091) z(3,2)= (-0.086 0.343 0.486 0.343 - 0.086) z(3,3)= (-0.095 0.143 0.286 0.333 0.086 0.143 -0.095) z(3,4)= (-0.091 0.061 0.169 0.234 0.255 0.234 0.169 0.061 -0.091) z(4,2)= ( 0 0 1 0 0 ) z(4,3)= (0.022 -0.13 0.325 0.567 0.325 -0.13 0.022) 2(4.4)= (0.035 -0.128 0.07 0.315 0.417 0.315 0.07 -0.128 0.035) z(5,2) не существует, так как число п+1 оцениваемых параметров превышает количество 2т+1 используемых наблюдений и, как следствие, матрица М' М является вырожденной z(5,3)= ( 0.022 -0.13 0.325 0.567 0.325 -0.13 0.022) z(5,4)= (0.035 -0.128 0.07 0.315 0.417 0.315 0.07 -0.128 0.035) и так далее.
Рис. 3.1. Результат машинного вычисления весовых коэффициентов локального сглаживания 139
ду, что эффективность локального сглаживания возрастает с уве личением т и падает с ростом п. При практических расчетах це лесообразно Офаничиваться п <2и т<4. Дополнительно обра тим внимание на то, что при изложенной организации локально го сглаживания несглаженными оказываются первые и послед ние т элементов исходного временного ряда. Этот недостаток можно устранить, применив на этих участках алгоритмы типа ре куррентного метода наименьших квадратов.
3.4. Линейное прогнозирование структурно детерминированных рядов приступим теперь к рассмотрению одного из наиболее важных вопросов анализа временных рядов — прогнозированию их по следующих значений по результатам наблюдения за ними на не котором фиксированном отрезке времени. Итак, полагаем, что в нашем распоряжении имеются N наблюдений, математически отображаемых моделями (3.1), (3.2). Базисные функции ф)^(^/), А: = О, 1, ..., ^, / = 1,2, .,., N, выбраны или в классе полиномиаль ных функций, или в более широком классе ортогональных функ ций. Ряд может быть подвергнут локальному сглаживанию, но мы сохраняем исходные обозначения (3.1). Задача, как уже отме чалось, заключается в поиске наилучшей в некотором смысле оценки tfn ненаблюдаемой величины Уг^, т > N, по результатам наблюдений у-\у\У2'-' Ум]^ Прогнозированное значение ряда у,^ будем искать в классе линейных операторов, позволяющем представить Ym=W\
(3.66)
где W— пока неизвестный вектор весовых коэффициентов. Этот вектор попытаемся найти таким образом, чтобы точность про гнозирования, понимаемая в далее определяемом смысле, оказа лась наивысшей. Чтобы конкретизировать содержание послед ней фразы, обозначим символом У\='Ут-Ут
(3.67)
ошибку прогнозирования и более детально изучим ее структуру Для этого удобно вектор наблюдений у в соответствии с (3.1), (3.2) представить в матрично-векторной форме 140
(3.68)
у = Фа +р, где Ро
«0
Ф=
ФоСг)
Ф1('2)
-
Ф?(^2)
, в=
«1
, р=
л.
Pi _PN \
Тогда Ц^Ут-ГУЧФа+Р). Теперь сделаем важное допущение: будем полагать, что мо дель тренда (3.2), введенная выше на отрезке [/^ /дг], справедлива и на множестве [/j, t^]. Это позволяет представить Ут = Фт « + Р/и, где т _ [ ф о ( и Ф1(^т) - Ф ^ ( и ] . С использованием этого допущения записываем (3.69) Из (3.69) следует, что ошибка прогнозирования содержит де терминированную и стохастическую составляющие. Первая из них определяет среднее значение ошибки прогнозирования и, так как вектор а неизвестен, также является величиной неизвест ной. Так как вектор ^Гпока не найден, потребуем Фя
Ф^^=0,
(3.70)
где О - нулевой {q + 1)-вектор. Соотношение (3.70) обеспечивает равенство М{г\} = О и, следовательно, является условием несме щенности. Относительно компонентов вектора W^OHO представ ляет собой систему линейных алгебраических уравнений, содер жащую q + 1 уравнений с 7V неизвестными. Так как q+ \ < М,то при выполнении условий совместности Кронекера—Капелли си стема оказывается неопределенной, т.е. имеет бесконечное число решений. Для поиска конкретного решения следует задать до141
полнительное условие, которому это решение должно удовлетво рять. За таковое примем следующее. Если выполняется (3.70), то ошибка прогнозирования (3.69) содержит только случайную составляющую. В этом случае точ ность прогнозирования можно характеризовать дисперсией ошибки прогнозирования D{r\) = М{г]^}, и точность прогнозиро вания окажется наивысшей, если вектор W, помимо выполнения условий (3.70), обеспечит минимальное значение дисперсии /){г|}. В результате приходим к следующей оптимизационной за даче поиска вектора W: M{r]^} = G^(\-\-W^W)-^
min
,
Х={1УеК^:(р^-ф^}У=0},
(3.71) (3.72)
Смысл задачи (3.71), (3.72), таким образом, следующий: на множестве решений системы (3.70) найти то, которое минимизи рует дисперсию ошибки прогнозирования. Подобная задача встречалась ранее при доказательстве теоремы Маркова и, как отмечалось, решается методом неопределенных множителей Лагранжа. Поэтому, не прибегая к подробным комментариям, огра ничимся основными этапами решения. Функция Лагранжа L(W, X) = c^W^W+ 2А.^(ф^-ф'^»0. Необходимые условия рассматриваемого условного минимума G V - ФЛ
= ON, (fm - Ф^^= 0^+1.
Решение: W= Ф(ф'^Ф)-^ф^.
(3.73)
Алгоритм прогнозирования: Ут = fV^y = ф / ( Ф ' ^ Ф ) - ' Ф ^
(3.74)
Таким образом, наилучшее линейное прогнозирование вре менного ряда в сформулированных условиях заключается в ли нейном преобразовании вектора наблюдений j? линейным опера142
тором, отождествляемым с вектором (3.73). Легко обнаружить, что сомножитель (Ф^Ф)~^Ф^>' в (3.74) представляет собой не что иное, как МНК-оценку а вектора параметров а, ^«айденную по наблюдениям у. Поэтому кратко можно записать: Yf^ = (рщ^^- Точ ность оптимального прогнозирования определяется минималь ным значением дисперсии (3.71), которая в случае (3.73) оказы вается равной а^2 = min М{г]^} = 0^(1 + ф/(ф'Гф)-1ф^.
(3.75)
Можно, вычислив (3.74), построить доверительные интерва лы для истинного значения у^ прогнозируемой величины. Пусть вначале дисперсия а^ известна. Так как вектор заявляется гауссовским, то ошибка прогнозирования г\ является центрированной гауссовской величиной: ц ~ N(0, Сц ) и, следовательно, ц/а^ = = (jfTj -Yfn)/(y^ - N(0, 1) — стандартная случайная гауссовская ве личина. При доверительной вероятности а должно выполняться ^Ил/с^л! ^ Ya) "^ ос, где Ya — двухсторонняя а-квантиль стандартно го гауссовскогр распределения, Р — символ вероятности. Но тог да ~Ya^ (Ут -^т)/^ц "^ Ya И С ВСрОЯТНОСТЬЮ а ВЫПОЛНЯСТСЯ Ущ - УаС^л ^Ут<Ут
+ Уа^^ц-
(3.76)
Если дисперсия а^ неизвестна, то, как это делалось в рефессионном анализе, вычисляется ее МНК-оценка
где Ф^^ - к-я строка матрицы Ф, и находится оценка дисперсии (3.75) Э^2 = э2(1+ф/(Ф^Ф)Лт). Далее находится величина г|/а^ и средствами, подобными применявшимся в аналогичной ситуации в п. 2.3.8, доказывает ся, что эта величина распределена по закону Стьюдента с N—q—l степенями свободы: г\/Ъ^ - t{N— ^ - 1). Но тогда прихо дим к подобному (3.76) результату: Ут-УоРх\^Ут<Ут^УоРц,
(3.77) 14Э
где Ya — двухсторонняя а-квантиль распределения Стьюдента с N - q-\ степенями свободы. Алгоритм прогнозирования существенно упрощается, если столбцы матрицы Ф ортогональны. Используя общий результат (3.74), несложно найти: N
м
(3.78)
к=0 \ /=1 / гг2
-^2
г
я 1+ Е
(3.79)
^l(fm)
А:=0| ^
9
ХФИ^/)
V/=l /у V Решение (3.74) легко распространяется на случай/> ~ 7V(0, А^), f^iPmP) ~ 0> т.е. на случай коррелированного гауссовского вектора р, но не коррелированного с величиной/^^^j. Соответствующие ве личины оказываются равными: Т/лТгг-1лч-1лТгг-1 , _ ^
Т^
Ут = ifm\
3.5. Рекуррентное прогнозирование структурно детерминированных рядов Распространенный метод прогнозирования временных рядов ос нован на применении рекуррентных алгоритмов типа экспонен циального сглаживания. В этом методе используется полиноми альная модель тренда к=0 И в зависимости от порядка полинома q, который обычно не пре вышает 2, применяют тот или иной алгоритм экспоненциально144
го сглаживания. Начнем рассмотрение с простейшего случая ^ = О, которому соответствует модель ряда }^/ = ^о+А',/=1,2,...,Ж
(3.80)
Существо метода заключается в последовательном использо вании вычислительного алгоритма Si = ayi + Р^/.ь / = 1, 2,..., Л^, а + Р = 1, ае [О, 1], (3.81) или, что то же самое, 5'/ = 5^_i + a0;,._5/_i)
(3.82)
при некотором начальном условии i^o. Величину Si принято называть экспоненциальной средней, параметр а — коэффициентом (параметром) сглаживания. Из (3.81) последовательно имеем: Si = ау1 + Р^о, 52 = ау2 + P^i = а(у2 + P^i) + Р^^о, ^з = (3.83) = а(уз+Р>'2+Р^1) + Р Х . . . , Si =a(yi ч-РУМ +р2>;,_2 +... + p'-Vi) + P % =а Е р ^ ' Ч +Р%. Таким образом, величина Si представляет собой линейную комбинацию всех предшествующих /-му моменту элементов ряда и /-Г0 элемента, причем вес каждого элемента ряда в формирова нии величины Si в соответствии с показательной закономернос тью, определившей название метода, становится тем меньше, чем дальше во времени этот элемент отстоит от /-го момента. По следнее можно интерпретировать как стремление алгоритма в большей степени доверять новым наблюдениям и в меньшей более ранним, устаревающим. С ростом / количество участвую щих в образовании 5/ наблюдений возрастает, причем вес ранних из них становится все меньшим. В случае (3.80) Si =аоа i Р'-^ +а i р'Л/t +Р% = к=1 к=\ i
= (l-P')ao+aSP'-4+P%к=\ 145
Математическое ожидание и дисперсия этой величины ока зываются соответственно равными: M{Si} = (l^^)ao + &So,
(3.84) (3.85) 2
Так как P < 1, то при / -> ©о M{Si}-^ao, /){5/} -^ • Таким об разом, при достаточно больших /, что, в свою очередь, возможно при большом объеме TV выборки временного ряда, величина 5/ мо жет рассматриваться как несмещенная оценка не изменяющегося во времени тренда а^. При этом параметр р, характеризующий а эффективность сглаживания, оказывается равным р = т-;^~<1. Формально наивысшая эффективность достигается при а = 0. Однако этот результат лишен практического содержания, так как в этом случае -5*/ = So = const и говорить о каком-либо сглажива нии ряда бессмысленно. При использовании алгоритма (3.82) возникают по крайней мере, два важных в прикладном отношении вопроса: как выбрать начальное условие SQ И параметр сглаживания а. Однозначных ответов на эти вопросы нет. Из приведенных соотношений следу ет, что малые значения а обеспечивают высокую эффективность сглаживания, но при этом может недопустимо «затянуться» про цесс достижения величинами M{Si} и /){5/} их предельных значе ний, соответствующих наилучшему сглаживанию и условию не смещенности. Большие значения а ускоряют переходный про цесс, но ухудшаются сглаживающие свойства алгоритма. Требу ется компромиссное решение. Часто рекомендуют выбирать а в пределах [0,1; 0,3]. Но известны [16] и аргументированные возра жения против этих рекомендаций. Аналогичные проблемы воз никают и при выборе iSo- В идеале хотелось бы иметь i^o = ^о и тог да из (3.84) следует M{Si} = GQ независимо от /. Но это практичес ки недостижимое фантазирование, так как тренд ао неизвестен (иначе не было бы задачи). Иногда вполне приемлемым оказыва1 '" ется решение 5о =— S УА:» где m - некоторое количество началь146
ных членов ряда. В качестве прогнозированного значения У^ ря да в случае (3.80), (3.82) принимается А
При выполнении (3.80) в качестве альтернативного методу экспоненциального сглаживания можно рассмотреть рекуррент ный метод наименьших квадратов, изложенный выше. В этом случае МНК-оценка йо/ величины UQ, найденная по наблюдени ям у\, У2, ..., Уь рекуррентно выражается через оценку 5o(/_i), со ответствующую наблюдениям yi, yi,..., ^/-ь и /-е наблюдение: ^о/=^0(/-1)+т(>'/-йо(М))» ^* = 1. 2. - •
(3.86)
Внешне алгоритмы (3.82) и (3.86) очень похожи. Различие проявляется в том, что вес а второго слагаемого справа в (3.82) постоянен, а в (3.86) аналогичный весовой коэффициент т явля ется переменным во времени. Но это казалось бы незначительное различие порождает принципиально разные последствия. Рас пространив технологию преобразований (3.83) на (3.86), получим . 1 1. Г , «01=>'Ь ^02 = 2>'2 + 2^^^"2^^1"^^2). 1 2 1 1/ <3-«^> ^03 =^УЪ +Т^02 =Т(Л +>' 2 +>'3). ••%• =7 ^ Ук5 5 i I f^-x МНК-оценка (3.87), таким образом, как и экспоненциальное среднее (3.83), является линейной комбинацией наблюдений у\, У2,..., yi, НО, В отличие от (3.83), в (3.87) эти наблюдения входят с одним и тем же весом т, т.е. алгоритм не «забывает» более ранние наблюдения и для него все наблюдения одинаково важны. Если тренд действительно не изменяется на отрезке [1,7V], т.е. выпол няется (3.80), то это свойство алгоритма (3.86) не порождает ка ких-либо критических замечаний. Но если вопреки (3.80) вели чина ^0 изменит свое значение в какой-то момент t^s (/j, /дг), алго ритм (3.86) будет медленно реагировать на это изменение, так как проявляется сильное влияние ранних наблюдений, соответству ет
ющих прежнему значению тренда GQ. Алгоритм (3.82) более опе ративно среагирует на это изменение, ибо в его структуре ранние наблюдения играют менее значимую роль, нежели поздние, соответствз^ющие произошедшему изменению в тренде. В силу анало гичных причин алгоритм экспоненциального сглаживания мо жет оказаться предпочтительнее и в случаях медленно «дрейфую щего» тренда GQ. Однако если (3.80) выполняется, то M{aoi} = aonpu\/iG[l,N], т.е. рекуррентный МНК формирует несмещенную оценку тренда, начиная с первого наблюдения ух, а не ассимптотически, как в случае (3.84). Дисперсия D{aoi} = {l/i^}M\ i Е/?^/?Л = -^г—^Опри/->оо, что также предпочтительнее (3.84). Дополнительно обратим вни мание на то, что для алгоритма (3.86) не существует проблемы выбора начального условия 5оо, так как алгоритм нечувствителен к этой величине. Но еще раз подчеркнем, несмотря на эти досто инства, рекуррентный МНК менее чувствителен к возможным эволюциям тренда, нежели алгоритм экспоненциального сгла живания. И объясняется это именно тем обстоятельством, что при формировании МНК-оценки все наблюдения принимают участие с одним и тем же весом. В то же время при экспоненци альном сглаживании более ранние по отношению к текущему моменту времени наблюдения сопровождаются существенно меньшими весами, нежели наблюдения, приближенные к этому моменту. Это в значительной степени объясняет широкую попу лярность экспоненциального сглаживания при обработке вре менных рядов, включая и задачи прогнозирования. Алгоритм (3.82) ориентирован на случай (3.80). Несложно вы явить его поведение, если в действительности тренд окажется не постоянным, а, например, линейно меняющимся: fi = ao + aiiJ^l,2,...,N.
(3.88)
Чтобы это сделать, удобно (3.82) переписать в виде 5,4-1 - (1 - ос№ = осУ;+ь / = О, 1,..., ЛГ- 1, 148
(3.89)
где принято ;?/+! = 0. Выражение (3.89) представляет собой про стейшее неоднородное разностное уравнение первого порядка с постоянными параметрами. Найдем его решение, соответствую щее начальному условию SQ. С этой целью предварительно полу чим общее решение этого уравнения. Как известно, оно склады вается из общего решения Sj однородного уравнения 5'/+,-(1-а)5'/ = 0
(3.90)
**
и какого-либо частного решения Si неоднородного уравнения (3.89). Уравнению (3.90) соответствует характеристическое урав нение Z—(1-ос) = 0с единственным корнемzi = 1 - а. Следова тельно, Si = с(1 — а)', где с — постоянная «интегрирования». Ча стное решение уравнения (3.89) в случае (3.88) ищем в виде S** ~ йо "^ ^1^ ^'Д^ ^0' ^1 ^ некоторые пока неизвестные констан ты. Для их определения функции 5/ и (3.88) подставляем в (3.89) и, рассматривая получающееся выражение как тождество, со ставляем систему уравнений аЬо + 6i = а(ао + ui), ab\ = aa\^ji3 которой следует b^ — a^ — ^iP/a, b\ = a\. Таким образом, 5/ = = До - «iP/oc + a\i и рбщее решение уравнения (3.89) оказывается равным Si = с(1 — а)' +fifQ— а\^/а + ац. Для решения задачи Коши используем начальное условие ^SQ = с + ^о — t/i(3/a, из которого сле дует с = iSo - ^0 "^ ^iP/oc, что позволяет окончательно записать ^/ == (-^Ь - «о + ^iP/oc)(l - а)' + До ^ ^iP/ot + a\iy (3.91) /=1,2,..., Ж Таким образом, если тренд изменяется по линейному закону, алгоритм экспоненциального сглаживания (3.82) формирует по следовательность величин (3.91), которые отличаются от (3.88). Величину 5/= 5 , - / = (5о-«о + ^iP/oc)(l - а)'*- P^i/a
(3.92)
можно назвать ошибкой преобразования линейно изменяющего ся тренда оператором экспоненциального сглаживания. При до статочно больших / первое слагаемое в (3.92) становится сколь угодно малым и, как говорят, в установившемся режиме, т.е. по сле завершения переходного процесса, будет наблюдаться уста новившаяся ошибка буст = —P^i/a. Этот результат следует пони149
мать так: при достаточно больших / рассчитанная по правилу (3.82) величина Si будет меньше соответствующей величины/ на P^i/a, т.е. расчетные значения «запаздывают» относительно ис тинных. Аналогичный анализ можно провести и при трендах с более сложной моделью, выявив соответствующие ошибки. На личие ошибок говорит о том, что при отличии модели тренда от (3.80) необходимо алгоритм экспоненциального сглаживания (3.82) видоизменить таким образом, чтобы он оказался более приспособленным к новой модели тренда, нежели (3.82). Такие алгоритмы разработаны и, по существу, представляют собой мно гократное применение изложенного алгоритма экспоненциаль ного сглаживания. Приведем некоторые из них, не прибегая к де тальному анализу. Пусть д = I, т.е. модель тренда представлена выражением (3.88). В этом случае алгоритм экспоненциального сглаживания представлен двумя рекуррентными соотношениями: Si = Si_^-^a(yi-Si_0, Qi = Qi-i + OL(Si- a_i), / = 1, 2,..., Л^,
(3.93) (3.94)
из которых второе представляет собой также алгоритм экспонен циального сглаживания, но в предположении, что «входом» для него служат «выходы» первого алгоритма. Для организации вы числений теперь нужно иметь два начальных условия. Они зада ются в виде: ^0=^00-—йю,
Qo='Soo-—aiQ,
(3.95)
где ^00, ^10 — некоторые начальные оценки параметров модели тренда. Их можно найти, например, методом наименьших квад ратов на основании небольшого числа начальных элементов об рабатываемого временного ряда. После обработки всего ряда оценки параметров тренда находят по формулам: Долг = 25лг- QN, aijsi = a(Sj^- Ол^)/р, что позволяет прогноз выразить соотношением (3.96) = (2 + а(т - N)/^)SN150
(1 + a(m - А0/Р)(2лг.
Заметим, что вычисления могут быть организованы не обяза тельно в терминах экспоненциальных средних (3.93), (3.94), но и в терминах текущих оценок ао/ иац параметров модели ряда а^, а\. Действительно, по аналогии с (3.95) имеем: Si =aoi - P5i//a, Q/ = % - 2^au/a. Подставив эти выражения в (3.93), (3.94), получим: % - ^Sii/a = ау1 + Р(5о(/_1) - ^ащ^х)), Soi - 2pai//a = а(ао/ - &ац/а) + p(5o(/_i) - 2pai(/_i)/a). Из этой системы находим: % = ^о(/-1) + ^1(/-1) + (1 - Р y^h ^/ ^Д'/- 5о(/_1) - 5i(/_i), ^1/ = ^1(/-1) + осе/, /= 1, 2,..., Ж
(3.97)
Аналогичные соотношения для тренда, описываемого поли номом второго порядка/- = ло + ^i^/ "^ <^2^/V2, приобретают вид:
е/=а-1 + сх(5,-ам), if, = Л/_1 + а ( а - Л/-1), / = 1, 2,..., Л^ при
.
"
.
Р
, Р(2-а)^
2р
, р(3~2а)
^
а
ЗР.
^=^00~—^10+
«
Зр(4~3а). 5
^20>
2а^
текущие оценки: aon=^3Sn-3Qn + Rn, dm = а((6 - 5a)Sn - 2(5 ^ 4а)(3„ + (4 - Зa)Л,)/2p^ a2n-=a\Sn-2Q„+R^yf; 151
прогноз Ущ = SON ^{m-N)axN-^{m-
М)^а2м/2.
Как и в предыдущем случае, этот алгоритм может быть выра жен через текущие оценки параметров модели тренда.
3.6. Анализ адекватности модели тренда временного ряда Правильно обоснованная модель тренда в значительной степени определяет успешность решения задачи прогнозирования вре менного ряда. К сожалению, универсальных рекомендаций по выбору модели, гарантирующей последующий успех, нет. Интуи тивные догадки, следующие из результатов начального визуаль ного обзора рада, умозрительные заключения, основанные на анализе природы ряда и обусловливающих его причинно-следст венных явлений, опыт решения прогностических задач, квали фикация исследователя — все это способствует удаче, приближа ет, но не обеспечивает ее. Поэтому часто оказывается целесооб разным задаться несколькими моделями, а в последующем, под вергнув их надлежащему дополнительному анализу, отдать пред почтение наиболее соответствующей (адекватной) результатам наблюдений. Но для этого необходимо иметь набор критериев, выявляющих данную адекватность. В подборе таких критериев также нет общепризнанного мнения. Остановимся на одном час то практикуемом подходе. В его основе лежит исходная гипотеза о том, что случайные составляющие р/, / = 1, 2,..., 7V, в составе ря да (3.1) образуют последовательность центрированных независи мых нормально распределенных случайных величин. Поэтому если модель тренда выбрана удачно и правильно оценены ее па раметры, остаток ряда я et =3^1 - S hN^kiU)^ к=0
i = h 2, ..., Л^,
(3.98)
должен также образовывать последовательность типа дискретно го белого шума. Поэтому адекватной признают модель, которая порождает остаточный ряд (3.98) со случайными центрирован ными некоррелированными нормально распределенными 152
элементами. Тогда проверка адекватности сводится к выявлению перечисленных свойств остаточного ряда. Это осуществляется так. Проверка случайности элементов остаточного ряда проводит ся по критерию серий или критерию поворотных точек. При п вом из них по результатам сравнения двух соседних элементов ос таточного ряда составляется последовательность нулей и единиц. Если первая разность Ав/ = e/+i — е/ > О, то в последовательности ставится нуль, иначе — единица. Далее подсчитывается число се рий v(AO, представляющих собой фрагменты последовательнос ти, состоящие только из нулей или единиц, и продолжительность ^тах самой ДЛИННОЙ ссрии. Остаточный ряд с вероятностью 0,95 считается случайным, если ^тах<^0(А^); v ( ^ ) > [ ( 2 i V - l ) / 3 - 2 V ( 1 6 7 V - 2 9 ) / 9 0 ] .
Здесь/:о(ЛО = 5 при N< 26 и k{^{N) = 6 при 7V>26; [...] -символ це лой части. При использовании менее строгого критерия поворотных то чек поступают так: сравнивают элемент ряда остатков с двумя со седними; если он окажется меньше или больше их, то соответст вующая точка признается поворотной; далее подсчитывается число S всех поворотных точек; если окажется s>[2(N-2)/3-2^j(l6N-29)/90], остаточный ряд считается состоящим из случайных элементов. Проверка центрированности проводится с использованием t'Kpumepun Стьюдента. С этой целью формируется статистика YH/WJVA^/O,,
(3.99)
ще
т.е. среднее значение и среднеквадратичное отклонение остаточ ного ряда. Далее задаются уровнем значимости а или доверитель ной вероятностью 1 -- а и находят lOOa/2-процентную точку wiooa/2 ^распределения с N— 1 степенями свободы. Если окажет ся у > wiooa/25 то гипотеза о центрированности остаточнохо ряда 153
отвергается как не соответствующая экспериментальным дан ным с вероятностью ошибиться а. При противоположном нера венстве ряд признается центрированным с вероятностью 1 — а правильности этого решения. Проверка независимости уровней остаточного ряда преследует цель подтвердить отсутствие систематической составляющей в составе ряда и проводится с применением критерия Дарви на—Уотсона, В соответствии с этим критерием вычисляется вели чина N ^ л^ S (ек^-е^-О к=2 = 2(l-i?), = 3 1 k=2 k=l
k^l
J
где R — так называемый коэффициент автокорреляции первого порадка. Таблица 3.1 Нижний di и верхний di пороги Сложность модели тренда q
Объем выборки Л^
2
1
4
3
5
di
di
di
di
di
d2
dx
di
dx
di
15
1,08
1,36
0,95
1,54
0,82
1,75
0,69
1,97
0,56
2,21
20
1,20
1,41
1,10
1,54
1,00
1,68
1,90
1,83
0,79
1,99
30
1,35
1,49
1,28
1,57
1,21
1,65
1,14
1,74
1,07
1,83
50
1,50
1,59
1,46
1,63
1,42
1,67
1,38
1,72
1,34
1,47
100
1,65
1,69
1,63
1,72
1,61
1,71
1,59
1,76
1,57
1,78
Величина ^следующим образом подвергается анализу. Преж де всего если окажетсяrf> 2, то заменяют dnad =4 — f/и после дующая работа ведется с ^ по тому же алгоритму, что ncd.B рас смотрение вводятся два порога: нижний di и верхний ^2- Значе ния этих порогов определяются объемом выборки N, сложностью 154
модели тренда q, уровнем значимости а и при а = 0,05 система тизированы в табл. 3.1 [27]. Если d (или d )G(0, d\), то это является признаком сильной автокоррелированности элементов остаточного ряда, и предпо лагаемая модель тренда признается неадекватной. Если d{d )G {dj, 2), то элементы остаточного ряда классифицируются как незави симые, а модель тренда - адекватной. При d{d*)^{d\, di) одно значный вывод не делается и применяют дополнительные мето ды исследования. Дополнительный анализ проводят с использованием корреля ционной функции tim) остаточного ряда, которую определяют сле дующим образом: N-m
г{т) = A:=l
Значение этой функции R = r{\), называемое коэффициентом автокорреляции, уже встречалось при формировании критерия Дарбина-Уотсона, и оно же используется для анализа независи мости. Величина R сравнивается с порогом у, зависящим от объ ема выборки и доверительной вероятности. При уровне значимо сти 0,05 (доверительной вероятности 0,95) значения порога со держатся в табл. 3.2 [11]. Таблица 3.2 Зависимость порога от объема выборки Объем N
10
15
20
25
30
Порог у
0,360
0,328
0,300
0,276
0,257
Если окажется /? > у, то принимается решение о существен ной корреляции элементов остаточного ряда и, следовательно, о неадекватности модели тренда. Иногда оказывается целесообразным применение более ком плексного критерия, основанного на корреляционной функции г{т). Рассчитывается коэффициент 155
где J< N/3. Доказывается, что статистика G подчинена х^-распределению с (N — J — I) степенями свободы. Тогда если окажется G < iviooa» где iviooa ^сть ЮОа-процентная точка х^-распределения с (А^— / ~ 1) степенями свободы, то с вероятностью 1 — а элемен ты остаточного ряда признаются некоррелированными, а если они гауссовские, то и независимыми. Проверка на нормальное распределение остаточного ряда мо жет проводиться многочисленными методами, разработанными в математической статистике. Остановимся на двух из них, пола гая, что предыдущие тесты по анализу случайности, центриро ванности и независимости дали положительные результаты. Распространенным методом проверки гипотезы о нормаль ном распределении является'ji^-KpumepuuПирсона. В кратком из ложении его существо заключается в следующем. Пусть ^min и ^тах соотвстственно наименьший и наибольший элементы ряда остатков. Отрезок [е^^^, ^тюА разбивают на s рав ных непересекающихся интервалов так, чтобы в каждый из них попало не менее пяти элементов ряда. Иногда рекомендуют S = 1пЛ71п2. Символами hwNj{j= 1,2,..., s) обозначены соответ ственно длина интервала и число элементов остаточного ряда, попавших в У-й интервал. Границы у-го интервала обозначены символамиХу, Xj+ \,Xj = (xj + Xj+ \)/2 - центр интервала. Далее под считывают теоретические вероятности Pj попадания случайной величины нау-й интервал: Pj =h 1 exp' д/2яа^
2al
строят статистику Пирсона
'P/P_ Затем задаются уровнем значимости а и находят ЮОа-процентную точку vviooa х^-квадрат распределения с ^ - 3 степенями свободы. Если окажется у < wiooa» то с вероятностью 1 — а нет ос нований отвергать гипотезу о нормальном распределении эле156
ментов остаточного ряда; при противоположном неравенстве ги потеза отвергается с вероятностью а совершить ошибку. Более простым, хотя и менее обоснованным, является метод асимметрии и эксцесса. Его сущность такова [21]. По экспериментальным данным (остаточному ряду) строятся эмпирические коэффициенты асимметрии Аа и эксцесса Аэ* N
л^ Кэ='
^а=N
^ к=\
А:=1
^
Если эти коэффициенты близки к нулю, то появляются осно вания считать остаточный ряд гауссовским. Для усиления этих оснований вычисляются среднеквадратические отклонения коэффициентов [И, 21]: ая =
6(N-l) (7V+1)(JV + 3 ) '
24Л^(7У-2)(А^-3) 1(7^-1)^(ЛГ+3)(Л^+5)*
Если |Аа| < 1,5аа, |Аэ1 - 1 »5аэ, то считают, что распределение ос таточного ряда не противоречит гипотезе о нормальном распре делении. Если хотя бы один из коэффициентов оказывается больше двух среднеквадратических отклонений, гипотеза о нор мальности отвергается. Важной характеристикой модели является ее точность. Су ществуют различные определения этого понятия. Достаточно распространенной и простой мерой точности является относи тельная ошибка 1 ^1^-1 '^отн
Если окажется ной.
ЕОТН
=^Sp|ioo;
^ 15%, то точность признается достаточ
Глава 4 СТОХАСТИЧЕСКИЕ ВРЕМЕННЫЕ РЯДЫ 4.1. Случайные процессы (начальные определения и классификация) Теория стохастических временных рядов базируется на соответ ствующей теории случайных (стохастических) процессов. Приве дем некоторые исходные положения, полагая, что читатель зна ком с терминологией теории вероятностей и элементами вероят ностных операций. Пусть проводится случайный эксперимент и (Q, F, Р) — соот ветствующее ему вероятностное пространство, COGQ - элемен тарное событие. Определение 4.1. Вещественная функция ^ = ф((о) элементар ного события со называется случайной величиной, если для VxG (—оо, оо) множество тех со, для которых ф(со) < х, принадлежит множеству JF, т.е. {со: ф(со) < x}c F, и Р(ф(со)е (-оо, оо)) = 1. Так как для каждого события из /^определена вероятность Р, то условие {со: ф(со) < х}с /"означает, что при любом х может быть определена вероятность события ф(со) < х. Случайная величина, таким образом, представляет собой величину, значение которой до проведения эксперимента точно предсказать нельзя, однако можно указать вероятность того, что в эксперименте случайная величина JSf окажется меньше любого числа х. Определение 4.2. Вещественная функция ДО = ф(со, О, где /е Т и имеет смысл времени, называется случайным, или стохастичес ким, процессом, если при каждом фиксированном / = Г величина Х(/*) = ф(о), / ) является случайной величиной. Множество Г задает область определения процесса. Сам слу чайный процесс, что следует из его определения, можно рассма тривать как параметрически заданную на множестве ^случайную величину. Значение случайного процесса при фиксированном аргументе / принято называть сечением процесса. Если в экспери менте элементарное событие со примет определенное значение со = co*G Fy то функция ф(со , i) оказывается детерминированной 158
функцией времени и называется реализацией (траекторией) про цесса. Таким образом, случайный процесс как функцию двух пе ременных / и со можно рассматривать или как семейство завися щих от параметра / случайных величин, или как семейство реали заций (содержащее, вообще говоря, бесконечное их число). Если множество значений случайного процесса и область его определения непрерывны, то процесс принято называть непрерывнозначным. Если, кроме того, в отдельных реализациях отсут ствуют разрывы, случайный процесс называют непрерывным. Случайный процесс называют дискретным (разрывным, дис кретным процессом с непрерывным временем), если множество x(t)
x(t)
x{t)
x{t)
ч в
Рис. 4.1. Реализации случайного процесса: а — непрерывный процесс, б — дискретный процесс, в — случайная последовательность, г — дискретная случайная последовательность
159
значений представляет собой дискретное множество, а область определения Г непрерывна. Если у случайного процесса множество значений непрерыв но, а область определения представляет собой конечное или счетное дискретное множество Г= {ti, ^2, ..J, то его принято на зывать случайной последовательностью. Наконец, случайный процесс принято называть дискретной случайной последовательностью, если и область определения, и множество значений являются дискретными множествами. На рис. 4.1 представлены примеры реализаций x(t) различных слу чайных процессов X(t) в соответствии с данной классификацией. Возможны более сложные конструкции случайного процесса. Так, случайный процесс X(t) может быть не скалярным, а много мерным. Если X(t) — вектор-функция, каждый компонент кото рой представляет собой случайный процесс, то такой процесс X(t) принято называть векторным. Аргумент t также может быть векторным: например, совмещать время и пространственные ко ординаты какого-либо изменяющегося во времени и распреде ленного в пространстве явления, скажем температуры. Такой процесс X(t) принято называть случайным полем.
4.2. Одномерные характеристики случайного процесса Основное внимание далее уделяется процессам с непрерывным множеством их значений — непрерывным случайным процессам и случайным последовательностям. Этот выбор определяется эконометрической направленностью пособия, так как именно такие процессы наиболее характерны для эконометрических приложений. При этом мы не будем обсуждать такие «деликат ные» понятия, как среднеквадратичные непрерывность, дифференцируемость, интегрируемость случайных процессов, стохас тические дифференциальные уравнения Ито и Стратоновича и многое другое, отражающее современный математический уро вень теории стохастических процессов, а ограничимся тем мини мумом сведений, который необходим цдя решения основных прикладных задач. Математическое описание случайных после довательностей будем совмещать с аналогичным представлением непрерывных процессов, делая соответствующие комментарии в 160
случае необходимости в них. Непрерывные случайные процессы условимся обозначать прописными символами — Д/), Y(t) и т.п., а их реализации строчными — соответственно x(t), y(t) и т.п. Ана логичным образом за случайными последовательностями закре пим обозначения Xi, Yi и т.п. (/ = 1, 2,...), а за их реализациями X/, J//и т.п. При этом если множество значений индекса / конечно, т.е. / = 1, 2, ..., N, то случайную последовательность будем назы вать стохастическим временным рядом. Будем полагать, что как последовательность, так и ряд сформированы на основе равно мерно поступающих во времени данных, т.е. // = //_i + ^, где ^ = const - так называемый период дискретизации. При рас смотрении характеристик, общих для непрерывных процессов и последовательностей, будем использовать единый символ X(t), если это не порождает каких-либо недоразумений. Характеристики случайных процессов принято разделять на одномерные, относящиеся к одному конкретному сечению, и многомерные, отражающие свойства процесса совместно в не скольких сечениях. Так как в сечении случайный процесс являет ся случайной величиной, то его одномерные характеристики сов падают с аналогичными характеристиками случайных величин, известными из курса теории вероятностей, что позволяет доста точно кратко изложить их. Пусть / = // - фиксированное сечение процесса X(t). Определение 4.3. Функция Fx{x; //) = P(X{ti) < х) называется одномерной функцией распределения вероятностей случайного процесса ДО в момент времени //. Функция распределения, таким образом, представляет собой вероятность того, что в сечении // случайный процесс X{t) примет значение, меньшее некоторой величины х. Хотя формально она записана как функция двух переменных, ее аргументом является переменная jc, а присутствие величины // объясняется желанием указать «адрес» сечения, к которому эта функция относится. Ес ли не возникает недоразумений, эту величину не указывают. Ха рактерные свойства этой функции таковы: 1./М-оо;/.) = 0; 3. F^b- и) - Fx{a\ и) = Р{а < X{ti) < b), где а, be R; 4. F;^b; ti)>Fx(a;td при b> а; 161
5. Функция распределения непрерывна слева, т.е. /л<^о;^/) ~ = lim Fx{x\ и) при X ^ дсо - О и P{X{td < XQ) = Р{х^\ //); 6. P{X{ti) = fl) = О, если функция F(x; t^ в точке а непрерывна, и P{X(ti) = a)- lim Fx{b\ ti)-Fx(a; t^), если в этой точке имеетСЯ разрыв первого рода. Одномерная функция распределения, таким образом, являет ся неубывающей, непрерывной слева с множеством значений [О, 1]; она имеет участки монотонного возрастания, участки по стоянства и в некоторых точках может иметь разрывы первого рода. Определение 4.4. Пусть существует функция/^х; //) такая, что можно представить Ux(x;ti)dbc = Fx(x;ti),
(4.1)
—оо
или при дифференцируемой функции Рх{х; //) fx(x;ti)^-^Fx(x;ti).
(4.2)
Тогда функция /у(х; //) называется одномерной плотностью вероятностей случайного процесса X(t) в сечении //. Смысл плотности вероятностей заключается в том, что с точ ностью до бесконечно малых высших порядков выполняется ра венство Мх; ti)dx = Р{х<X(ti) <x + dx), и функция fx{x; ti) показывает, как эта вероятность распределяет ся вдоль оси X. В справедливости равенства несложно убедиться, если представить jc+cbc
x+dx
J fxix\ti)dx^ ;c
X
J fx{x\ti)ux- \ fx{x\ti)6x^ —
-co
(4.3)
=Fx{x + ux\td-Fx{x\ ti) и функцию Fx(x + djc; ti) «линеаризовать» в окрестности точки х. Из (4.1) следует равенство 162
—oo
обычно называемое условием нормировки плотности вероятнос тей. Поступая аналогичным (4.3) образом, получаем еще один важный результат: ffxix; ti)dx = Fx(b; ti)-Fx(a; ti) = Р{а<ХЦ^)<Ь).
(4.4)
a
Наконец, полезно заметить, что плотность вероятностей fx{x\ //) как производная от неубывающей функции Fx(x; ti) явля ется неотрицательной функцией. Если функция Fx(x; //) имеет разрывы, то плотность вероятностей и в этих точках формально может быть определена введением 5-функций с интенсивносгями, равными величинам скачков (разрывов). Введенные характеристики процесса X(t) полностью отража ют в сечении // его вероятностные свойства. Однако во многих случаях можно офаничиться более скромной информацией о процессе, сосредоточенной в его числовых характеристиках. В качестве таковых, как и для случайных величин, используют ма тематическое ожидание (среднее значение) m^iti), средний квад рат Cx(ti), дисперсию D^iti) и среднеквадратическое отклонение pj^//). По определению имеем: mx(ti)=^M{X(t,)}=l xf(x',ti)dx', Cx(ti) = M{xHti)}= J xV(x; //)ck; —oo
Dx(ti) = M{(X\ti)f}=l
(x-mx(ti)ffx(x;
//)dbc;
^x(^i) = Px(^i)Здесь, как и ранее, Л/{...} — символ усреднения, X°(ti) - цент рированная случайная величина. В соответствии с определения ми все эти характеристики являются неслучайными числовыми величинами, причем математическое ожидание mx(ti) представ163
ляет собой ту величину, относительно которой разбросаны от дельные реализации процесса X(t) в сечении //, а дисперсия явля ется мерой этого разброса. Полезно отметить ряд очевидных свойств:
где CjE R, Xj(t) — случайные процессы;
если g(t) — неслучайная функция, то M{gm=^g(td. M{Y(td=g(ti)Xm =g(tdmxitil DY(td=g^{ti)DM^ Если процесс X(t) является непрерывным и аргумент // пробе гает все возможные значения в соответствии с областью опреде ления Т процесса, то его математическое ожидание и дисперсия могут рассматриваться как детерминированные функции време ни соответственно mx(t) и Dx(t), Для случайной последовательно сти Xi аналогичным образом получим детерминированные ре шетчатые функции m^^i] = mx(ti) и D^ii] = D^ti), / = 1 , 2 , . . . .
4.3. Многомерные характеристики случайного процесса. Марковские процессы
Как уже отмечалось, одномерные характеристики случайного процесса X{t) отражают его свойства в одном сечении и, следова тельно, не содержат никаких данных о поведении процесса во времени, т.е. в динамике. Этой цели служат многомерные распре деления — двумерные, трехмерные и т.д. Рассмотрим вначале дву мерный случай. Итак, пусть X(t) — случайный процесс. Выделим какие-либо два сечения Д//) и X(tj) этого процесса, соответствующие момен там времени // и tj, и зададимся произвольными числами Xi и Х2, относящимися соответственно к /-му иу-му сечениям. Определение 2.5. Функция Fx(xi, x-i, ti, tj) = P{{X{t^ < x\)r\{X{tj) < Х2)) называется двумерной функцией распределения вероятнос тей случайного процесса X(t) в моменты времени // и tj. 164
Таким образом, двумерная функция /ЗК^ь ^ъ U^ 0 представ ляет собой вероятность совместного выполнения двух событий: процесс X(t) в момент времени // принимает значение, меньшее некоторой величины хь а в момент tj — меньшее Х2. Аргументами этой функции являются переменные xi и X2, а величины //, tj ука зывают сечения, к которым эта функция относится. Основные ее свойства. 1. Функция Fxixi, Х2; //, tj) неотрицательная, неубывающая и непрерывная слева по каждому из аргументов х\ и Х2. 2. Если хотя бы один из аргументов стремится к —©о, функция распределения вероятностей стремится к 0. 3,F(oo,oo;ti,tj)=l.
4. Fxixu 00; ti, tj) = Fx(xx\t^\ Fx{oo, X2\ tb tj) = Fx{x2,tj). 5. F(xi,X2; //, //) = Fix2, xu tj, //). 6. 0 < F(xi, X2\ ti, tj) < 1 при Vxi, X2. Определение 4.6. Пусть существует функция/^xi, Х2; //, tj), та кая, что можно представить 1 J fxi^b ^ъ и^ tj)6xx^2 =Рх(^ь ^ъ t'n tj),
(4.5)
или при дифференцируемой функции F{x\, Х2\ ti, tj) fx(Xi,
X2\ ti, ^ y ) = g ^ g ^ F{Xx, X2\ //,
tj).
(4.6)
Тогда функция yV(^b ^i\ ^ь {/) называется двумерной плотнос тью вероятностей случайного процесса X(t) в моменты времени U^tj,
Характерные свойства этой функции. 1-Л(^ь ^ъ th /y)cbcidx2 = Р{хх <X{t^ <xi + (^xxrsx2^X(tj) <Х2 + dx2). 00
00
2. J J fxi^iy ^ъ U^ ^y)dxidx2 =1 (условие нормировки). —oo—oo
Ъ.МХх, X-i, ti, (j) =fx(X2, Xu tj, tj). ^•fxiXl, X2; ti, tj) > 0 при VX,, X2. 00
^- / fxi^u ^2; ti, tj)dxi =fx(x2; tj); —00
00
/ fxi^u
X2; ti, tj)dx2 =fx(xu
til
—00
165
Определение 4.7. Функция /ж(хь/,|х2.0)=
^^^^^.^.^
.
(4.7)
где принимается/^Х2; ^2) '^ 0> называется условной плотностью еероятностей процесса X{t) в момент времени // при условии, что в момент tj процесс принял значение xi. По аналогии вводится ус ловная плотность /х(^2. О ^ ь ^/) =
у^ (^ . ^^
> /^Ui; ^/)^0.
(4.8)
Условные плотности/^jci; //|х2; tj),fx(x2\ tj\x\\ /,) не следует пу тать с одномерными плотностями у^к^ь ^d^fxi^b {/)» которые час то называют в целях противопоставления безусловными: безуслов ная плотность вероятностей в одном из сечений строится незави симо от поведения процесса в другом сечении; в то же время ус ловная плотность в одном из сечений строится в предположении, что процесс во втором сечении принял некоторое фиксирован ное значение. Как плотность вероятностей, условная плотность обладает теми же свойствами, что и безусловная плотность веро ятностей. В соответствии с (4.7), (4.8) двумерная плотность выражается через одномерные =
fxiXbtj)xMXuti\X2;tj).
Если же поведение процесса в одном из сечений не зависит от его поведения во втором, то Мхь ti\Kb tj) =Mxh ti)Jx(x2\ ^Мь и) = = М^ъ
tj)Jx{Xb Хъ tb Ь) =МХь
,^ щ
ti)MX2; tj),
и сечения Д//), Д//) называют независимыми. При независимых сечениях двумерная плотность оказывается равной произведению одномерных. Принцип определения двумерных законов распределения ве роятностей и плотностей вероятностей распространяется на про извольное число п сечений случайного процесса ДО, что приво166
дит к понятию соответствующих л-мерных характеристик. Рас смотрим п сечений случайного процесса, относящихся к какимлибо п моментам времени /^ t2, ..., /^, и зададимся п числами хь ^2,..., Хп. Тогда по определению принимается Fx(Xi,
Х2, ..., Xfjl / j , t2, ...,
tfj)-P\
f](X(t^)<Xj)
т.е. я-мерный закон распределения вероятностей представляет собой вероятность совместного выполнения п указанных собы тий и является функцией п аргументов хь JC2, ..., х^. Аналогичным образом определяют л-мерные плотности вероятностей
—оо
—оо
f^xiP^l^ ^2» --^ Xfil ^Ь ^2> ^2» •••> 0> ИЛИ же при дифференцируемой функции F;^Xi,X2,..., х„; ^j, /2, •••, ^л) ^-^—^f^ix^,
Х2, ..., x„;ti, ..., t„) =
"^fxi^h ^ъ •••> ^п\ h-> h^ •••> ОЭти функции обладают свойствами, подобными перечислен ным выше в связи с двумерными характеристиками, и мы их опу скаем. Особо отметим, что
/К^ь ^ъ - , ^п\ h. h. •', tn) =fx(xu ti)fx(x2l h\xh Н)/х(хз; /з|х1, X2; h, /2)... •"fx(Xn, tn\xbX2, ...,x,,_i; tu t2,..., tn-i),
(4.11)
где смысловое содержание условных плотностей сохраняется прежним. Если же выбранные сечения независимы, соотноше ние (4.11) существенно упрощается и л-мерная плотность выра жается через одномерные fxixi, Х2, ..., x„;ti, ..., t„)=nfx(Xi;
U),
(4.12) 167
Выражение (4.12) подкупает своей простотой по сравнению с общим выражением (4.11). К сожалению, его применимость ог раничена случаем независимых сечений, что в практических за дачах встречается не часто. Вместе с тем есть определенный класс случайных процессов, для которых представление многомерной плотности занимает промежуточное положение между (4.11) и (4.12). Такими процессами являются марковские. Определение 4.8. Случайный процесс X(t) называется марков ским, если при любом выборе последовательности аргументов ^ь ^2» •••» ^« выполняется равенство fxiXn', Фи
Х2, ..., Х„_и tu t2, ..., tn-l)
=МХп;
tnK-U
t^-i),
(4.13)
т.е. условная плотность процесса в л-м сечении при фиксирован ных значениях процесса в предыдущих (п — I) сечениях зависит от значения процесса только в предыдущем (п — 1)-м сечении и не зависит от «предыстории». Это означает, что если марковский процесс в какой-то момент времени т принял значение х, то рас пределение вероятностей в любой последующий момент времени / > т определяется его значением х именно в этот момент т и со вершенно не зависит от его реализаций до момента т. Для марковского процесса соотношение (4.11) принимает вид: /Л^Ь = fxiXb
h)MX2\
Х2У
••., Хп\ h, tj, ..., tfi) =
t2\Xb h)MXi\
t^\K2\ t2)"MXn\
Фп-Ъ
tn-x)-
Иными словами, дг-мерная плотность марковского процесса выражается через одномерную плотность первого сечения и ус ловные одномерные плотности последующих сечений при фик сированных значениях только единственного предыдущего сече ния. Если воспользоваться определениями (4.7), (4.8), получим Мх\,х2, ...,х^; h, t2,..., о = А7-1
П-\
П/(^/, ^/чь и, ti^x)
П/(^/, ^/ч-ь ti, //+i)
^М
,, ,,, (4.14)
/=1
П/(х,;г,)
П//(х,-,
i=2
/=2-оо
Таким образом, «-мерная плотность вероятностей марков ского процесса выражается через двумерные плотности. Это бо168
лее сложное представление, чем простейшее (4.12), но значитель но проще общего случая (4.11). И если случай независимых сече ний является прикладной «экзотикой», то марковская модель широко распространена при описании весьма разнообразных ре альных процессов и явлений.
4.4. Ковариационные и взаимные ковариационные функции случайных процессов. Белый шум Двумерные плотности вероятностей характеризуют свойства слу чайного процесса совместно в двух сечениях. Однако поиск этих плотностей не является тривиальной процедурой. Поэтому при решении прикладных задач стремятся использовать более до ступные в практическом отношении характеристики случайного процесса, пусть менее точно, но тем не менее отражающие вза имные свойства двух сечений процесса. В качестве своеобразной меры статистической связи двух сечений случайного процесса, относящихся к моментам времени // и tj, применяют так называе мую ковариационную функцию A'jK^/» {/)• Прежде чем дать соот ветствующее определение, условимся центрированным называть процесс Х°(/) = X(t) — mjdt), имеющий нулевое математическое ожидание. Определение 4.9. Неслучайная функция переменных // и tj Kx(ti,tj) = M{X^{tdX^{tj) = (4.15) J J (xi-mx(ti))(x2-mx(tj))fx(xi,
X2\ //, tj)6xx6x2
—oo —oo
называется ковариационной функцией случайного процесса X{t). Таким образом, ковариационная функция представляет со бой среднее значение произведения двух центрированных сече ний случайного процесса. Хотя в ее формальном определении присутствует двумерная плотность вероятностей, предполагает ся, что при практическом вычислении ковариационной функции удастся обойтись без этой плотности. Функцию Rx(ti,tj)=
, ^ ^ " '' pxiti)Dx{tj)
(4.16) 169
называют корреляционной функцией случайного процесса X(t), или нормированной ковариационной функцией. Если Лд^//, tj) = О, то ворят, что сечения Д//) и X(tj) процесса ДО не коррелированы. В частности, если эти сечения независимы, то они и не коррелиро ваны. Действительно, при независимых сечениях выполняется (4.10), двойной интеграл в (4.15) распадается на два одномерных, каждый из которых равен нулю. Из равенства R^tt, /^) = О в общем случае не следует независимость сечений, но эту зависимость с помощью ковариационной (корреляционной) функции не удает ся зарегистрировать. Из неравенства Лл^^ь {/) "^ О вытекает зависи мость сечений. Приведем наиболее характерные свойства ковариационной функции. 1. Kx{th tj) = Kx(tj, //), что непосредственно следует из опреде ления (4.15). 2. Kx{ti, //) = Dx{ti) ^ О, что опять же следует из (4.15). 3. Для любых т вещественных чисел 9ь ^2> •••>?/« и моментов времени t\,t2, ...,t^ выполняется неравенство т т S lqiqjKx(ti.tj)>0. (4.17) /=1у=1
Чтобы убедиться в справедливости неравенства, достаточно построить случайную величину т] = X QiX'^iJi) и вычислить М{г| }. /=1
Функции со свойством (4.17) принято называть неотрицательно определенными. 4. {Kxitb tj)f < Ыи. td Mtj, tj) = DMD^tj), что является аналогом известного неравенства Коши-Буняковского. Это неравенство следует из (4.17), если положить /w = 2,
5. Если Z{t) = g{t) + X{t), где g{t) — детерминированный про цесс, ДО - случайный процесс, то Kzlifi, tj) = K^ti, tj), т.е. неслу чайное слагаемое не изменяет ковариационную функцию слу чайного процесса. Это объясняется легко получаемым равенст вом Z°(0 =^°(0. 6. Если Z(t) = g(t)X(t), где g{t) — детерминированный процесс, ДО — случайный процесс, то А2(//, tj) "= g(ti)g(tj)Kx{ti, tj). Это нера венство несложно получить, воспользовавшись определением ковариационной функции. 170
Полезно подчеркнуть, что все приведенные определения и свойства справедливы как для непрерывных случайных процес сов, так и для случайных последовательностей. Однако для не прерывного процесса моменты //, /) могут быть любыми в непре рывной области определения процесса, а для случайной последо вательности они должны совпадать с дискретными моментами существования элементов последовательности. При построении математических моделей непрерывных про цессов большое значение имеет случайный процесс, называемый белым шумом. Определение 4.10. Случайный процесс X(t) называется белым шумом, если M{X{t)} = О и А';^//, tj) = с6(/у — ^/), где с = con^t — ин тенсивность белого шума, 5(0 — дельта-функция Дирака, облада ющая свойствами 5(0 = ^ ' , J5(0d/ = 1 при V E > 0 . [о, / ^ 0 _е Из этого определения следует, что любые два сечения белого шума при ti Ф tj некоррелированы, а дисперсия Dy/^t) = ©о. В силу этих обстоятельств белый шум является чисто гипотетическим процессом, реально не существующим, но представляющим со бой весьма полезную математическую модель, широко применя емую при решении многих практических задач. Используется и более широкое толкование белого шума, при котором с = c{t) — функция времени. При решении задач, основанных на концепции случайных последовательностей, используют другое понятие белого шума. Хотя применительно к иной ситуации это понятие уже использо валось, дадим соответствующее определение. Определение 4.11. Случайная последовательность Х\, Х^, ... называется дискретным белым шумом, если элементы этой после довательности независимы, М{Х^ = О и K^^ti, tj) = M{XiXj} = c5/j, где, как и выше, с = const — интенсивность, 5/у - дельта-символ Кронекера, уже встречавшийся ранее и определяемый так:
hj-l 1, i = J 171
Таким образом, дискретный белый шум представляет собой последовательность независимых центрированных случайных величин с постоянной дисперсией с. При более общем определе нии дискретного белого шума допускается с = с(//). Ковариационная функция Kxiti, tj) случайного процесса X{t), как уже отмечалось, является мерой статистической связи двух сечений этого процесса. Для количественной оценки аналогич ной связи, но двух различных процессов используют понятие взаимной ковариационной функции. Дадим соответствующие определения. Пусть X{t) и Y{t) — два случайных процесса. Определение 4.12. Функция Fx^ }{х, у\ Г/, tj) = P((X(ti) < х)п{ Y{tj)< < у)) называется совместным распределением вероятностей про цессов X{t) и Y(t) в моменты времени //, tj. Определение 4.13. Если Fx yix, у; //, tj) — дифференцируемая функция, то функция Д у{х, у; //, /у) = - ^ Fx^ у(х, у; //, tj) называ ется совместной плотностью вероятностей процессов X{t) и Y(t) соответственно в моменты времени // и tj. Определение 4.14. Взаимной ковариационной функцией KxA^h ^j) двух случайных процессов X(t) и Y{t) называется неслу чайная функция переменных //, t/. Kxy{t,,tj) = M{X4ti)Y^(tj)}== оо
оо
J J (x-nix(ti))(y-mY(tj))fxj(x,
у; //, tj)dxdy.
—оо—оо
Эта функция, представляющая собой среднее значение про изведения двух центрированных сечений процессов X{t) и Y(t), используется в качестве меры статистической связи этих процес сов. Если при некоторых //, tj Kxyith Ф ~ О, то говорят, что сече ния X{ti) и Y{tj) некоррелированы. Если же это равенство выпол няется при любых ti и tj, то процессы называют некоррелирован ными на всем множестве их определения. В соответствии с опре делением Kxy{ti, tj) = Kyx^tj, ti). Если Z(/) = ДО + Г(0, где X(t) и Y{t) - два случайных процесса, то Kziti, tj) = M{Z^(tdZ%tj)} = = Kxiti, tj) + Kniti, tj) + KY)({ti, tj) + Ky{ti, tj), 111
Если же процессы не коррелированы, то KzfJi, tj) = Kxitj, tj) + + KyiU, tj). Ковариационные и взаимные ковариационные функции ес тественным образом распространяются и на векторные сучайные процессы, но в этих случаях соответствующие ковариационные функции оказываются матричными. Так, если X(t)e R", Y{t)e R™ два векторных случайных процесса, то по определению: Kxitb tj) = M{X^{t;){X%tj))^)eBP''\ Kyitb tj) = M{F°(/,)(F°(/,))'^}€R'"^'", Kx^ti, tj) = M{X\ti){Y\tj))^)^ R'^^, Ky^iti, tj) = M{Y\ti){X%))')€ R'"^^
4.5. Стационарные и эргодические случайные процессы Все случайные процессы принято делить на два широких класса — стационарные и нестационарные процессы, что связано с ря дом принципиальных различий в их характеристиках. Определение 4.15. Случайный процесс X{t) называется стацио нарным в узком смысле, если все конечномерные функции распре деления вероятностей любой размерности инвариантны относи тельно сдвига во времени, т.е при Vw, t: ^Л'(^Ь ^ 2 , - , ^Ai; ^Ь ^2, •••» О
=
(4.18) = ^Л'(^Ь ^2, - , ^п\ t\ + t\ t2 + t\ ..., tn + Л. Из определения следует, что процессы X(t) и Д/ + / ) имеют одинаковые распределения. Процессы, не удоволетворяющие определению (4.18), принято называть нестационарными в узком смысле. Из (4.18) вытекает ряд свойств. 1- /\<^Ь ^2» •••) Хт t\, ti, ..., tn) = = / А ( ^ Ь ^Ъ -М ^п\ t\ + t\ ti + t\ ..., /„ + {),
так как плотность вероятностей как производная от (4.18) также инвариантна относительно сдвига / . 173
2. Пусть л = 1 и выберем / = —//. Тогда/Y(X; //) =/х(х; ti+ t) = =fxix), т.е. одномерная плотность вероятностей стационарного в узком смысле процесса одна и та же во всех сечениях процесса. 3. Пусть л = 2 и выберем / = —//. Тогда^хь ху, //, tj) =/х(х\, Х2\ tj — ti) =/И^ь ^г?'^)) "^ ^ b^^h т.е. двумерная плотность вероятнос тей стационарного в узком смысле случайного процесса не зави сит от того, как выбраны сечения //, tj, а зависит лишь от расстоя ния т между сечениями. 4. Математическое ожидание стационарного в узком смысле процесса является постоянной величиной: оо
шх = M{X(t)} = J xfx(x)6x = const. —оо
5. Дисперсия стационарного в узком смысле процесса являет ся постоянной величиной: % =Л/{(ХЧО)^}= 1 (х-mxffхМ6х
= const
—оо
6. Ковариационная функция стационарного в узком смысле процесса не зависит от моментов времени //, tj, а зависит от рас стояния 'I- tj — ti между ними: оо
оо
J^x(ti, tj)= / J (xi-mx)(x2-mx)fx(xu
X2\ T)dxick2 = Ад^(т).
—оо—оо
l.Dx-KM^ Помимо процессов, стационарных в узком смысле, вьщеляют класс процессов, стационарных в широком смысле. Определение 4.16. Случайный процесс X(t) называется стаци онарным в широком смысле, если его математическое ожидание и дисперсия постоянны, а ковариационая функция зависит только от расстояния между сечениями, те. m^^t) — гпх— const, D^t) — Dx— = const, Kj^ti, tj) = Kx(tj ~ ti) = Kx{x). Из сопоставления двух последних определений следует, что стационарный в узком смысле процесс одновременно является стационарным и в широком, но не наоборот. Понятия стацио нарности в обоих смыслах совпадают лишь для так называемых гауссовских процессов, у которых одномерные и многомерные распределения являются гауссовскими. Аналогичным образом вводится понятие совместно стационарно связанных случайных 174
процессов. В этом случае M{X(ti)Y(tj)} = Kxiitj — //) = Kxyit). По лезно заметить, что сумма двух нестационарных случайных про цессов может оказаться процессом стационарным. Свойства числовых характеристик стационарных процессов не противоречат их общим свойствам, изложенным выше. Тем не менее удобно заново их указать с учетом стационарности про цессов. 1. Kxit) = Kjd—x) — четная функция. 2.\Kx(x)\ ©о. Величина т^^ такая, что |А;^<т)| ~ О при х > Ху^, называется временем 1 ~ корреляции процесса. Часто принимают xj^ = - — J | Кх (х) | dx. 5.КхЛ^) = Кух{-^х). ""' 6. {Kxy(x)f < Кх{0)Ку(0) = DxDy. 7. Если Z(/) = X(t)Y(t), где X{t) и Y(t) - стационарные центрированные независимые случайные процессы, то Kz(x) = = M{Z^(t)Z^(t + X)} = Кх(т)Ку{т), 8. Если 7(0 -g{t)X(t), где^(0 -детерминированная функция, X{t) - стационарный случайный процесс, то /Гу(//, ф = =^g(ti)g(tj)Kx(x). Понятие стационарности распространяется как на непрерыв ные процессы, так и на случайные последовательности. Однако в последнем случае необходимо иметь в виду, что расстояние меж ду сечениями представляет собой целое число периодов дискре тизации (х = /и^, m = О, ±1, ±2,...), а ковариационная функция яв ляется решетчатой и ее обозначают символом Кх[т]. Среди стационарных случайных процессов выделяют класс так называемых эргодических процессов, наиболее привлека тельный с практической точки зрения. Пусть X(t) — стационар ный случайный процесс и x(t) - некоторая его реализация, при чем теоретически /G(—©о, ©о). Построим по этой реализации сле дующие величины: 1 ^ 1 ^ п т = lim — J x(t)dt, /)= lim —7 J (xiO-mydt, ^T = lim — / {.x{f)-fh)(,x{f + x)-m)ut. 7'—>oo Li
_rr
175
Далее положим, что процесс X{t) имеет математическое ожи дание, дисперсию и ковариационную функцию, определяемые обычным образом: ^Х = / xfx(x)dx, Dx = / (х-шх) /(x)dx. ^х('^)= / / (x\-mxKx2-mx)fx(Xb
^i\ T)dxidx2.
—со—oo
Определение 4.17. Стационарный (в узком смысле) случай ный процесс ДО называется эргодическим по математическому ожиданию и ковариационной функции, есл^1 с вероятностью единица вьшолняются равенства: т = гпх, К{х) = А^^т) и, как следствие, D = DxТаким образом, принципиальная особенность эргодического процесса праявляется в том, что основные его числовые характе ристики могут быть определены по одной реализации процесса до статочно большой длительности без использования плотностей вероятностей. Усреднение проводится по времени, те., как гово рят, «вдоль процесса». Для неэргодического процесса эти же харак теристики приходится искать в соответствии с их классическим определением, использующим плотности вероятностей, поиск которых, в свою очередь, основывается на обработке множества реализаций процесса. Поэтому говорят, что характеристики неэр годического процесса находятся усреднением по множеству реа лизаций или «поперек процесса». Не любой случайный процесс является эргодическим. Существуют специальные условия, вы полнение которых обеспечивает эргодичность. В частности, гауссовский процесс является эргодическим, если lim Kx{i) = 0. Понятие эргодичности распространяется и на случайные по следовательности. Однако интегральные операции при проведе нии временного усреднения здесь уже принципиально неприме нимы и усреднение, если Х/, / = О, ±1, ±2,... — реализация случай ной последовательности, принимает вид: \
^
-
1 7V
'"^ ^™ ^^77 ^ ^'п ^ = 1™ Т77 ^ (^/-^) ^ IN К[т]= lim-— S (х/-/й)(х,+^~/й). 176
4,6. Спектральная плотность случайного процесса
Определение 4.18. Пусть X{t) — непрерывный стационарный слу чайный процесс с абсолютно интегрируемой ковариационной функцией Кх(т). Тогда спектральной плотностью ij^co) процесса X(t) называют двустороннее преобразование Фурье от его ковари ационной функции Sx((o)=l Kx(T)e-J''4T,
(4.19)
—оо
где со — параметр, обычно называемый частотой; j — мнимая еди ница (/^=-1). Так как К;^т) - четная функция и е"-^^'^ = cos сот -ysincox, то можно записать оо
Sx((o) = 2j KX(T)COS coxdi, о откуда следует, что Sx((xy) является четной функцией со. Справедливо обратное представление 1
оо
1 ^^
Кх (х) = — J Sx (co)e-^''^^dco = -'jSx (co)cos coxdco. Из последнего равенства вытекает важное следствие Dx=Kx(0) = -]sx(o^)d(o.
(4.20)
Выявим физический смысл спектральной плотности. С этой целью дополнительно предположим, что X(t) - эргодический центрированный процесс. Тогда Dx = lim т ^ J (x(t)fdt. Последнее соотношение показывает, что дисперсия представ ляет собой среднюю мощность процесса. Это обстоятельство позволяет следующим образом интерпретировать равенство (4.20): случайный процесс X{t) условно можно представить как 177
линейную комбинацию бесконечного количества составляющих гармонического типа, частоты которых непрерывно заполняют 1 весь диапазон [О, «»); тогда величину •г5л<со)<1(о можно тракто вать как среднюю мощность составляющих процесса, частоты которых принадлежат отрезку [со, со + dco]; суммирование (интег рирование) этих мощностей по всему диапазону частот приводит к средней мощности всего процесса. Следовательно, сама спект ральная плотность с точностью до множителя 1/я представляет собой плотность распределения мощностей гармонических со ставляющих процесса по частотам. Спектральные плотности для большинства случайных про цессов, моделирующих реальные явления, построены и система тизированы в различных литературных источниках. Приведем некоторые. 1. Кх{х) = с5(х), с = coast => 5Y(CO) = с. 2а^а 2. ^;^(т) = а2ехр{-а|х|}=>5;^(а)) = 2 2' 3. ^;^(T) = a^exp{-a|T|}cosPT=>5;i'(co) = —г
—
—г.
4. Kxii) = о^ ехр {-а | х |} cos (Зх + -r-sinP | х | _, . . 4aVco^+a^) => 5д^ (ш) = (со^-а^-р2)^+4а2а)^ Полезно отметить еще одно свойство пары «ковариационная функция — спектральная плотность»: чем шире фафик ковариа ционной функции, тем уже график спектральной плотности, и наоборот. Объясняется это следующим обстоятельством. Широ кий график ковариационной функции говорит о том, что процесс характеризуется большим временем корреляции, т.е. его реализа ции медленно меняются во времени. Но это означает, что мощ ность процесса определяют низкочастотные составляющие, и график спектральной плотности концентрируется в области низ ких частот. Узкому фафику ковариационной функции соответст вует малое время корреляции, реализации процесса меняются 178
быстро и в них превалирует роль высокочастотных составляю щих, что «расширяет» график спектральной плотности. Имеются и более строгие доказательства этого свойства. Понятие спектральной плотности распространяется и на слу чайные последовательности. Однако поскольку ковариационная функция Ajrf/w] случайной последовательности является решет чатой, применить к ней интегральное преобразование вида (4.19) невозможно. Поэтому по определению под спектральной плот ностью Sxliz) стационарной случайной последовательности пони мают двустороннее ^-преобразование ковариационной функции Ыт]: Sx{z)= 1 KxMz-'',
(4.21)
где z — комплексная переменная, и предполагается, что функция Кх[т] удовлетворяет условиям сходимости ряда (4.21). Часто функцию (4.21) удобнее представить в виде: Sx(z) = SUz)-^SHz-^)-Kx[Ol
Sx(z)= iKxMz'-'',
(4.22)
m=0
где Sx^iz) — одностороннее ^-преобразование ковариационной функции, для которого существуют обширные справочные мате риалы. Заменой z = в^^% (о^е[~я, п] спектральную плотность Sxiz) часто переводят в частотную область, но в данном случае в этом нет необходимости.
4.7. Преобразование случайного процесса линейным оператором Пусть X{t) — случайный процесс с известными математическим ожиданием ntxit) и ковариационной функцией Kx{ti, tj)j- в ре зультате воздействия заданным линейным оператором А преоб разуется в случайный процесс 7(0, т.е. Y(t) =-AX(t),
(4.23)
Задача заключается в поиске числовых характеристик случай ного процесса Y(t) и взаимных ковариационных функций про цессов ДО и 7(0179
Решение задачи начнем с вычисления математического ожида ния myit) процесса Y(t). По определению имеем myit) = M{Y(t)} = = M{AX(t)}, Оператор усреднения М, как и оператор А, является линейным, причем оба оператора действуют в одном и том же функциональном пространстве случайных процессов. Поэтому, хотя в общем случае линейные операторы не коммутативны, в данном случае можно изменить последовательность их действия и записать ту{0 =AM{X(t)}, что приводит к первому важному ре зультату: myit) -=Am;^t),
(4.24)
Ковариационную функцию Kyitj, tj) процесса Y(t) ищем, ис пользуя тот же принцип рассуждений. По определению Ky{ti, tj) = = М{Г°(//)Г°(/))}. Так как Г°(0 = Y{t) - mj{t) ^AX(t) -Amx{t) = =-Ar{t), получаем ЛГ^//, tj) = М{ДТ°(//)4-ЛГ°(0}, где индексы у операторов подчеркивают, по каким переменным (// или tj} они действуют. Снова изменяя последовательность действия операто ров Л/, Ai и Ар получаем второй важный результат: Ky{ti,tj)^AiAjK^ti,tj)
(4.25)
и, как следствие, Dy{t) = Ky{t, t). Поиск взаимных ковариационных функций не будем сопро вождать развернутыми комментариями: Ку)({и. tj) = M{Y^{t,)X\tj)) = M{AiX\ti)X\tj)) = AiKxiti, tj), (4.26) KxYitb tj) = M{X%t,)Y^{tj)} = M{X%tdAjX^{tj)) = AjKxiti, tj). (4.27) Аналогичным образом решается задача поиска вероятност ных характеристик процесса У(/), полученного преобразованием двух случайны^ процессов X{t) и Z{t) соответственно линейными операторами Л^и 5 по правилу У(0 = AX{t) + BZ{t). Прежняя методика преобразований позволяет установить, что: my{t)^Am^t)
+ Bmz^t),
Kyitb tj) = AiAjK^ti, tj) + ABjKxziti, tj) + BiAjKzxiti, tj) +B^Kz(tb tj), 180
KY^U, tj) = AiKxiU, tj) + BiKz)({tb tj), Kyzktb tj) = AiKxz{ti, tj) + BiKz^tb tj), Kxyitb tj) = AjKxiU, tj) + BjKxzitb tj), KzM tj) = AjKzx{tb tj) + BjKz{ti, tj), где символика обозначений не требует дополнительных поясне ний.
4.8. Преобразование случайного процесса оператором свертки Оператор свертки является частным сл^-чаем линейного операто ра, широко применяемым при исследовании самых разнообраз ных динамических процессов и явлений, математическая модель которых представлена линейным дифференциальным или разно стным уравнением с постоянными (для простоты) параметрами. Природа оператора такова. Пусть два случайных процесса Y{t) и ДО связаны друг с дру гом дифференциальным уравнением вида aoy(t) + aiy^'\t) + a,y^^\t) + ... + aj'\t) = box(t) + bix^'\t) +
=
^^ ^^^
...'^b^^^\t),
где y^^^(t) — производная /-го порядка и n < т. Такие уравнения принято называть стохастическими. Изучение современной тео рии стохастических уравнений требует высокой математической культуры, и мы не будем в нее погружаться, ограничив рассмот рение стандартными приемами интегрирования дифференци альных уравнений в рамках операционного подхода (см. прило жение 1). Преобразовав это уравнение по Лапласу при отсутствии искусственных ограничений на начальные условия, сведем его к следующему алгебраическому соотношению: y(s) = lV(s)x(x), W(s) = ^ ,
(4.29)
A{s)
где s - комплексная переменная Лапласа, y(s) — изображение функции y(t), x(s) — изображение функции x(t), A(s) = ^о + ais + 181
+ a2S^ + ... + aj", B{s) = Z>o -+• ^i^^ + bis^ + ... + bm^. Чтобы из (4.29) выразить функцию y{i), необходимо это выражение подвергнуть обратному преобразованию Лапласа, которое на основании од ного из свойств преобразования Лапласа можно представить в виде y{t) = \k{\i)x{t-yi)dvi,
(4.30)
о где k{t) - обратное преобразование Лапласа от функции W{s). Выражение (4.30) и принято называть оператором свертки. Таким образом, оператор свертки является одной из форм представле ния решения дифференциального уравнения (4.28) при отсутст вии предварительных ограничений на начальные условия. Итак, теперь предположим, что X{f) - случайный процесс с известными числовыми характеристиками и связан с процессом Y(t) оператором (4.30). Необходимо найти аналогичные характе ристики процесса Y{t) и установить статистическую связь между обоими процессами. Поиск решения задачи проводим в соответ ствии с общими результатами (4.24)—(4.27): 1. mY(t) =
\k(\i)mx{t-\xW\
о
2. Ку(ti,tj) = Ai J к{\х)Кх{tiJj -\х)й\х = О
= / / k(v)k(ix)Kx(ti - V, tj -yOdiidv; 00
3. DY(t) = ]]k(v)k([i)Kx(t-v,
/-^)d^dv;
00
4. KxY(ti, tj)=jk{ix)Kxiti,
t-\x)dii;
0
5. Kyxiti, tj) = ik(v)Kx(ti-v,
tj)dv.
Если процесс X(t) является стационарным, эти выражения упрощаются: 182
t
1. mY{t) = mx\k(\x)d\i\ 0
2. KY{ti,tj)^\\k{y)k{Vi)Kx{x-'\i^v)d\idv,
x = tj-ti;
00
3. Dy(t) =
!fk(v)k(^)Kx(y''li)dlidv; 00
4. /:лт(//, 0)=/A:([x)i:x(T-fx)d^; 0
5. KYx(ti,tj) = lk(v)Kx(T-^v)dv. Эти равенства показывают, что в общем случае процесс Y(t) даже при стационарном процессе X(t) является нестационарным. Однако существуют условия, при выполнении которых процесс Y(t) при достаточно больших //, tj становится стационарным. Пусть процесс X{t) — стационарный и k(t) —> О при / -^ ©о таким образом, что все интегралы в предьщущих выражениях сходятся при t, ti, tj-^ оо. Можно показать, что сходимость интегралов обес печивается, если все корни уравнения A(s) = О, называемого ха рактеристическим, имеют отрицательные вещественные части. Тогда: оо
1. ту (/) = тх / k(\i)d\x = ту ^ const; О
2. Kyiti, tj)^llk(v)k{ii)Kx(T-^^v)diidv
= Ky(xy,
00 оооо
3. Dy(t)=jjk(v)k(\i)Kx(v~[i)d|Lidv
= Dy= const;
00
4. Kxyiti, tj)^lk(ii)Kx(x-\x)dii
= KxY('^);
0
5. Kyxit^, tj) = ]k(v)KxiT-^v)dv = KxY(T). 0
183
Таким образом, при выполнении указанных условий процесс Y{t), будучи при малых t нестационарным, со временем «превра щается» в стационарный с перечисленными характеристиками. В этом, как говорят, установившемся режиме можем дополнитель но определить его спектральную плотность SY((O)=
J
J J k(v)k{\x)Kx(T - |ы + v)d|idv
•^•^dx.
00
Изменив последовательность операций интегрирования и обозначив т — |ы + V = Y, dx = dy, получим SY{co)=Jlk(vMii)\
J ^;i^(X-|Ll + v)e"-^''^Mx
djLidv =
00
= Sx (CO) J k(v)e-^'^4v J ^(^i)e^^^dfx. 0
0
Так как по определению J k(v)e -^^^dv = W^(yw), j k([i)e-^^^d[i = 0
0
= Щ—yco), окончательно находим Syico) = lV(j(oW(-J(o)Sx((^) (4.31) |2
= |^(усо)р^дг(со) = ВОЪ) Sx((^l Жусо) Таким образом, если эндогенная и экзогенная переменные связаны друг с другом дифференциальным уравнением (4.28), эк зогенная переменная представляет собой стационарный случай ный процесс со спектральной плотностью Sxi(i^) и корни характе ристического уравнения имеют отрицательные вещественные ча сти, то спектральная плотность эндогенной переменной в уста новившемся режиме достаточно просто выражается через спект ральную плотность экзогенной переменной и параметры уравне ния (4.28). Аналогичные соотношения можно установить и для случай ных последовательностей 7^, А'^, « = О, 1, 2, ..., связанных друг с 184
другом линейным разностным уравнением к-то порядка с посто янными параметрами: ^аУ« + (2\Уп+1 + «2У/1+2 + - + ^кУп+к =
.^ 32)
= ЬоХп + biXn+i + b2Xn+2 + .- + brrpcn+m. к>т. Подвергнув это уравнение при отсутствии умышленных огра ничений на начальные условия ^-преобразованию (см. приложе ние 1), получим, подобно (4.29), y(z) = W(z)x(z), mz) = ^ , A{z)
(4.33)
где y{z), x(z) — изображения соответственно функций у„, х^ и Aiz) = «о + aiz + a2Z^ + ... + д^^, B(z) = 6о + biz + Z^2^ + ... + b^z!^. Пе реходя от (4.33) в область оригиналов, получаем п
Уг,= Y.kiX^-i.
(4.34)
/=0
что является оператором свертки, отождествляемым с решением разностного уравнения (4.33). Решетчатая функция ki в (4.34) яв ляется оригиналом изображения W{z)- Последующая работа с оператором (4.34) проводится точно так же, как и с оператором (4.30), но в конечных соотношениях интегральные операции сле дует заменить суммированием. Так как соответствующее редак тирование сложностей не порождает, приведем окончательные результаты для случая стационарной случайной последователь ности X/, / = О, 1, 2, ... при дополнительном ограничении: корни характеристического уравнения A{z) = О по модулю меньше еди ницы, что обеспечивает сходимость соответствующих рядов и позволяет представить: оо
ту=тх 1 kji /=0 оо
оо
Ку1т]= 1 lk,k^Kx[T-[i
+ v];
у=Оц=0
DY=1
1 k^k^Kx[v-\x]; у=Оц=0
185
v=0
Эти соотношения, как и их непрерывные аналоги, напомним, относятся к установившемуся режиму, в котором процесс 1/ можно рассматривать как стационарный. В предшествующем пе реходном режиме последовательность У^ является нестационар ной. Подвергнув ковариационную функцию К}{т] двустороннему ^-преобразованию, найдем спектральную плотность процесса 1/, относящуюся к установившемуся режиму: 5yU)= I
Z 1 kyk^KxlT-ii-^v]\z
v=:On=o
'
Снова, изменив последовательность операций суммирования и обозначив X — ц + V = Y, получим
ц=0
v=0
(4.35)
.-Ь A(z)A(z-^) Соотношение (4.35), таким образом, позволяет найти спект ральную плотность случайной последовательности }^, если зада но разностное уравнение (4.32) и известна спектральная плот ность Sxiz) последовательности Х^.
4.9. Формирующие фильтры При разработке математических моделей стохастических процес сов важную роль играет понятие формирующего фильтра. С ма тематической точки зрения под формирующим фильтром пони мают некоторое стохастическое уравнение, решение которого, будучи обусловленным порождающим белым шумом, представ186
ляет собой случайный процесс с заданными вероятностными свойствами. Универсального отработанного способа построения такого уравнения нет, однако для процессов с дробно-рациональ ными спектральными плотностями соответствующая методоло гия известна. Рассмотрим вначале случай непрерывного случай ного процесса. Пусть Y(t) — стационарный случайный процесс со спектраль ной плотностью iSj^co). Ранее уже отмечалось, что эта плотность является четной функцией частоты со и для большинства имею щих практическую значимость процессов аппроксимируется дробно-рациональным выражением ДсоЪ где С((о^) = Со + cico^ + сгсо'* + ... + с^со^"^, Дсо^) = do + dxix?'4+ + ^/20' + ...+ 4co^^A2>w. Характерная особенность многочленов, зависящих от четных степеней аргумента со, проявляется в том, что их можно предста вить в виде произведения двух одинаковых многочленов, но один из которых зависит отусо, а второй — от (—усо). Например, а^ + со^ = = (а + усо)(а + (—/со)). Это позволяет представить С(со^) = = 5(/со)5(~усо), Дсо ) = ^(/co)v4(-yco), где 5(/со) и Л(/со) - многочле ны поусо соответственно порядков тип. Подобную операцию принято называть факторизацией. В случае ее проведения полу чим факторизованную спектральную плотность ^'
ЖУсоМ(-усо)
виъ) A(M
(4.36)
Сопоставим это выражение и ранее полученное выражение (4.31). Если в (4.31) положить -5';^<со) = 1, то оба выражения совпа дают, причем соотношение (4.31) получено на основе уравне ния (4.28) при предположении, что X(t) является случайным про цессом со спектральной плотностью i^j^co). Следовательно, и (4.36) можно считать результатом, порожденным уравнением (4.28), но при условии, что процесс X(t) имеет единичную спект ральную плотность 5Y(CO) = 1. Как уже отмечалось, таким процес187
COM является белый шум с единичной интенсивностью. Но тогда процесс Y(t) можно интерпретировать как решение уравнения (4.28), в котором левая и правая части построены по результатам факторизации (4.36), при порождающем белом шуме ДО с еди ничной интенсивностью. Это уравнение при такой его содержа тельности и принято называть формирующим фильтром. Процеду ра его построения, таким образом, сводится к следующему. Про водится факторизация заданной спектральной плотности ^^со), следствием чего являются многочлены .4(/со) и 5(/со). Технология этой операции отработана, содержится, например, в [7] и может быть усовершенствована с привлечением современных вычисли тельных возможностей. Полезно обратить внимание на то, что при правильно выполненной факторизации корни многочленов A(s) и B(s) имеют отрицательные вещественные части. По резуль татам факторизации составляется уравнение A(p)y(t) = d
= B(p)x(t), где /^ = 77 - оператор дифференцирования. Если X(t) белый шум с единичной интенсивностью, то это уравнение и бу дет представлять собой формирующий фильтр. Заметим, что если природа уравнения (4.28) не связана с результатами факториза ции, но X{t) — белый шум, то это уравнение позволяет белый шум преобразовать в процесс Y{t), не обязательно стационарный, со свойствами, определяемыми операторами А(р) и В(р). Подобная идея построения формирующего фильтра распро страняется и на случайные последовательности, но здесь форми рующий фильтр отождествляется не с дифференциальным, а с разностным стохастическим уравнением и дискретным белым шумом. В основе соответствующего подхода лежит соотношение (4.35), вытекающее из разностного уравнения (4.32). Итак, пусть рассматривается случайная последовательность J^, / = 1, 2, ... с известной спектральной плотностью Syiz), построенной в соот ветствии с (4.22). Функции Sy^iz) и SY^(Z~^) обычно являются дробно-рациональными функциями аргументов zn z"^ соответ ственно, причем нули и полюсы функции Sy^iz) лежат внутри ок ружности единичного радиуса. Если правую часть в выражении функции Syiz), соответствующем определению (4.22), привести к общему знаменателю, то снова получим дробно-рациональное выражение. Его знаменатель представляет собой произведение двух одинаковых многочленов, но один из них зависит от^, а вто рой — от г~^ В числителе же окажется так называемый возврат188
ный многочлен вида qoz"^ + Q\Z~^^^ + ..• + Qk-iz"^ + ^^ + Qk-\Z + ... + ^i^~^ + QQZ!^. Особенность таких многочленов проявляется в том, что их можно представить в виде произведения двух одина ковых многочленов, из которых один зависит от z, а второй - от z~^ Для этого достаточно вычислить корни многочлена, разло жить его на элементарные сомножители, сгруппировать сомно жители, содержащие корни, по модулю меньшие единицы, и со множители с большими по модулю корнями и затем преобразо вать к требующемуся виду. Например: Iz"^ + 5 + 2г = 2z~ (г^ + + 1 ^ + 1 ) = 2z^\z + ^ )(z + 2) = 2(z + I )(1 + 2z-^) = 2(z + + - )2(г"^ "*" 7 )' искомые сомножители 2(z + Ч ) ^ 2(z~^ "*" 9" ^• С использованием современных вычислительных средств подоб ную процедуру несложно реализовать для возвратных многочле нов произвольного порядка. В результате этой процедуры, кото рую также называют факторизацией, спектральную плотность Sy(z) удается представить в виде
A{z)A{z-'^) где A{z) — знаменатель функции Sy^iz), B(z) — результат факториза ции ее числителя.
Из сопоставления выражений (4.37) и (4.35) следует, что при S)^z) = 1 оба выражения совпадают. Но соотношение (4.35) полу чено на основе разностного уравнения (4.32), в котором последо вательность Xi принималась случайной стационарной со спект ральной плотностью S]^z). Тогда выражение (4.37) можно также считать следствием уравнения (4.32), но для последовательности Jf/, имеющей единичную спектральную плотность. Такой после довательностью является дискретный белый шум с ковариацион ной функцией К^т\ = 5^^ о и» *^^к следствие, со спектральной плотностью S^z) ~ 1. Стохастическое разностное уравнение (4.32), в котором последовательность Jf/ принимается дискрет ным белым шумом с единичной интенсивностью, принято назы вать дискретным формирующим фильтром для стационарно случайной последовательности со спектральной плотностью 189
(4.37). Построение этого уравнения, таким образом, сводится к следующему. Пусть у;, / = О, 1, ..., — стационарная случайная последова тельность с ковариационной функцией Ку{т]. Подобным (4.22) образом строятся функции SHz)=
1 KYWZ-"^,
SY(Z) =
S^(Z)-^SHZ-^)-KYIO].
/и=0
После приведения к общему знаменателю функция Sy(z) при обретает вид Syiz) = —, где A(z) — знаменатель функции A(z)A(z ) Sy^iz), а Q(z) — некоторый возвратный многочлен. Этот много член подвергается факторизации, в результате чего его удается представить в виде Q(z) = B{z)B(z~^) с очевидным следствием SY(Z) =
Г"- Функция ^ ( ^ ) = ~тгт, называемая часто ле;;еAiz)A(z-b ^(^) даточной, определяет разностное уравнение (4.32) формирующе го фильтра. Принцип его построения легко обнаруживается из сопоставления уравнения (4.32) и структуры многочленов A(z) и Biz). В иллюстративных целях рассмотрим следующий пример. Пусть Ку{т] = a V ^ W . Тогда SHz) = o^ S (е'^-'Г--^^ т=о z-e ^ что справедливо п р и е ^\z \ < 1. Далее находим SY(Z) = а2(1-^-2«)
Zl—I^' iz-e-'^Kz-'-e-'^)
т.е. в этом простейшем случае Q(z) =
= а^(1 - е ^") и, следовательно, B{z) = ci4l-e^^, A{z) ^ z- е ". Это позволяет уравнение формирующего фильтра представить в виде н 1 - ^ ">^,, = a V l - e ^"^х^. Обратим внимание на одно очень важное обстоятельство. Ра нее уже отмечалось, что выражения (4.31), (4.35) справедливы по истечении большого, теоретически бесконечного, промежутка 190
времени. При офаниченном времени процессы, порождаемые уравнениями (4.28), (4.32), оказываются нестационарными. Что бы их сделать стационарными при любых значениях времени, не обходимо надлежащим образом подобрать начальные условия. Это, разумеется, касается и формирующих фильтров. В продол жение предьщущего примера покажем, как это можно осущест вить. В целях лаконичности перепишем уравнение формирующе го фильтра в виде Уп^\-аУп-^Ьх^, t? = e-«, Z^ = aVl-e"2«.
(4.38)
Для формирования последовательности}';,, л = О, 1, ..., обра зованной в соответствии с (4.38), предполагается, что с помощью некоторого генератора создается последовательность х^, AZ = О, 1, ... как реализация дискретного белого шума единичной интенсив ности и при каждом п по правилу (4.38) вычисляется соответству ющее значение д^л+1- Но чтобы «запустить» алгоритм, необходимо задать начальное условие у^. Попытаемся это сделать таким обра зом, чтобы процесс Y^, реализации которого образуются на осно вании (4.38), имел постоянную дисперсию а^ при всех п, С этой целью положим, что у^^ является реализацией случайной величи ны Уо) имеющей нулевое математическое ожидание m^Q] = О и пока неизвестную дисперсию D^Q] = DQ. Найдем эту дисперсию. Усредняя обе части рекуррентного выражения (4.38), получаем т^п + 1] = ат^п] + Ьт)^п\ = О => т^п] = О при \/л, т.е. последовательность Y^ является центрированной. Далее воз ведем обе части того же выражения в квадрат и усредним. В ре зультате получим: Dy{n + 1] = a^D^n] 4- b^D^n] => Dy[\] = = O^DQ + b^, Dy{2] = O^DQ + a V + 6^ ...,
/=o
a^-l
Так как a^ < 1, то при л —> «>, т.е. в установившемся режиме, Dy = —Z— = а . Потребуем, чтобы это равенство выполнялось а -1 при всех п\ 191
И-^Ч-ьИ''-^^^-l)-^ = - 4 ^ = ^ i ) o - - ^ Таким образом, если начальное условие в (4.38) является не произвольным, а представляет собой центрированную случайную величину с дисперсией DQ = а^, то множество реализаций, полу ченных из белого шума с помощью формирующего фильтра (4.38), образует последовательность с постоянной при всех п дисперсией а^. Покажем, что и ковариационная функция этой последователь ности будет удовлетворять условиям стационарности. Для этого п-\
«свернем» алгоритм (4.38), записав и найдем
.
У^ =^Vo+*5^ ^'^л-ь/' '"^
/=0у=0
Так как Xi — дискретный белый шум, то M{Xn-\-iXj^_\_j} рав няется единице при n — i — k—jw нулю в остальных случаях. По этому при п> к имеем i = п — к +j,j = О, 1,..., к— 1и
Аналогичным образом при k> n выразим у = /: — л + /, / = О, 1, ..., « - 1 и у.
1
(=0 9
9
Последние два соотношения в совместной записи приобрета ют вид: М{YnYk} = Ку{п ~к] = c^J'^-^ = а2е-«1'^-^, 192
т.е. ковариационная функция последовательности У}, / = О, 1, ..., построенной с помощью формирующего фильтра, определяется только расстоянием между сечениями, и сама последователь ность действительно при всех / является стационарной с задан ной ковариационной функцией.
4.10. Типовые модели стохастических временных рядов эконометрики традиционно в эконометрических приложениях используют оп ределенный класс моделей стохастических временных рядов, по лучивших широкое распространение в практике обработки вре менных рядов и включенных во многие пакеты прикладных про грамм. Все эти модели можно рассматривать как частные случаи линейного разностного уравнения (4.32) при определенном вы боре параметров и порождающем дискретном белом шуме Х^, AZ = О, 1, ..., т.е. как своеобразные формирующие фильтры. Для удобства запишем еще раз это уравнение: аоУп^ахУп+\ + а^п-¥2+'- + акУп+к=^ = Ь^Кп + *ix^+i + Ь2Хпл-2 + - + ЬггРСп^гпу
,^ ^^, (4.39) к>т.
Конкретизацию этого уравнения удобно осуществить, перей дя к операторному представлению уравнения. Для этого введем в рассмотрение оператор сдвига q, такой, что qy^ = к+i, q^y^ == Уп+2 и т.д. Тогда уравнение (4.39) примет вид (^о + ^i? + ^2S + ••• + ^1А}Уп "= = (bo + biq + b2q^ + ... + Ьт^^)Хп или же
что и будет операторной формой записи разностного уравнения. Положим bo = bi = ... = bp_i = bp+2 = - = *m = О, ap+i = a^+2 = ... = 0 и обозначим С/=—^-^ (/= 1, ...,р), Z^ = ~^. Тогда, возвратившись к обычной форме записи уравнения и изменив нумерацию аргу ментов переменных переходом отп +ркп, получим уравнение Уп = С1Уп-1 + С2у„-2 + ... + СрУп-р + Ьх^, *
(4.40 193
Соотношение (4.40) принято называть авторегрессионной р-то порядка моделью стохастического временного ряда и обозначать символом АР(р) или в зарубежном варианте AR(/?). Рассмотрен ную ранее модель (4.38) можно рассматривать как частный вари ант модели АР(1). Иногда в этой модели предусматривают еще од но слагаемое, моделирующее средний уровень ряда, и тогда мо дель записывают в форме:^;j = ^о "^ ^гУп-! "^ ^2V«-2 + ••• + с^^п-р + Ьх^. Это слагаемое можно интерпретировать как ненулевое математи ческое ожидание порождающего шума х^. Второй не менее распространенной в эконометрических при ложениях моделью является так называемая модель скользящего среднего. Ее также можно получить, исходя из уравнения (4.32), ес ли положить ^0 = ^1 = ... = Gg^i = Qg+i = ... = ajt = о, 6^4-1 = V 2 "" =... = Л;;, = 0. Обозначая «/ =
»/ = О, 1,..., q, и заменяя в нуме-
рации переменных л + ^ на «, получаем модель скользящего сред него порядка q\ Уп = d^n + dxXn-x + ... + dqXn_,g,
(4.41)
которую в литературе часто сокращенно обозначают как CC{q) или МА(^). Если в уравнении (4.32) положить йр^х = ^^+2 = ... =flf;t~ 0> 6о = Ьх = ... = Ьр_д_х = О, Ьр^х "^ Ьр+2 = ••• == ^т "= О» ввести обозн чения С;=—-р-(/=1,2, ...,/7), rf = - 2 L ± ^ / = 0 , 1,...,/7-^)И0ПЯТЬ же изменить нумерацию аргументов переменных, заменив п -^ р на п, получим модель, известную под названием смешанной мо дели авторегрессии — скользящего среднего порядка р, q (сокра щенно АРСС(/7, q) или ARMA(/?, q)) и имеющую, таким образом, вид Уп = СхУп-\ + С'2Уп-2 + ... + СрУп-р + doX^ + dxXn-X + ••• + dgX^-g. (4.42)
Модель (4.32) определяет как стационарные, так и нестацио нарные временные стохастические ряды. Можно показать, что если все корни алгебраического уравнения A(z) = ло + ^\Z + a2Z^ + ... + a^z!" = О, 194
(4.43)
называемого, как и в аналогичном непрерывном случае, харак теристическим, находятся в комплексной плоскости строго вну три окружности единичного радиуса, т.е. по модулю меньше еди ницы, то определяемый уравнением (4.39) процесс в установив шемся режиме оказывается стационарным. Если же хотя бы один из корней этого уравнения находится за пределами единичной окружности или принадлежит ей, последовательность Y^ будет нестационарной. Проиллюстрируем эту мысль на примере урав нения (4.38). Соответствующее ему характеристическое уравне ние Z — л = О имеет единственный корень z\ = а. Дисперсия Dy{n\ определяемого этим уравнением временного ряда Y^, как бы ло показано выше, имеет вид Ву[п\ = а^''В^ +Z>2'l a'^^ ^a^^'Do +(а^'' -1)-^—.
Легко обнаружить, что при а > 1 дисперсия D}{n] оказывается возрастающей функцией п, и это является признаком нестацио нарности ряда. При а = 1 получаем Оу{п] = />о + Ь^п, что также свидетельствует о нестационарности ряда. И только при а < 1 дисперсия стремится к установившемуся значению, а ковариаци онная функция, что также было уже показано, перестает зависеть от «адресов» сечений, т.е. последовательность Y„ становится ста ционарной. Подобное свойство проявляется и при многочленах A(z) произвольной структуры, если только корни многочлена ^(г) не компенсируются аналогичными корнями многочлена B{z). В эконометрических приложениях среди всех возможных вариан тов расположения корней характеристического уравнения особо выделяют случай, когда небольшая часть корней (один, два) ока зывается равной единице, а остальные корни — внутри единич ной окружности. Эта ситуация приводит к нестационарному ря ду Yn, но такому, что разность некоторого порядка этого ряда ока зывается стационарной. Покажем это. Прежде всего воспользуемся введенным оператором сдвига С, и дополнительно определим оператор первой разности Ау^ = = Уп+1 —Уп = (С — ^)Уп- ^^алогично второй разностью Д^>'^ назов первую разность первых разностей А^л = AVw+i - Ау^ = Уп^2 — — 2уп+х •*" >^л = (С — 1) Уп- Подобным образом можно ввести разно сти произвольных порядков, функцию Yn назовем первообразной функции>^я, если выполняется условие AF^ = Y^+x _ Y^-yn- Спра195
-1 ""'^ ведливо легко проверяемое условие ^и = А Уп= ^ У!- Поэтому /=0
операцию суммирования часто интерпретируют как обратную по отношению к операции взятия разности (подобно соотношению между операциями дифференцирования и интегрирования). В алгебраизированном виде уравнение (4.32) можно записать так: А(<;)Уп = В(с)Хп. где A(q) = ^о + a^q + ^2?^ + ••. + ^к^!", B{Q = йо + + bi<; + />2? + ••• "*" ^w?'"- Пусть теперь характеристическое уравне ние (4.43) имеетflfравных единице корней и, следовательно, мож но представить A(z) = Ai(z)(z — 1)^, причем все корни многочлена (к — ^ - г о порядка^!(г) находятся внутри окружности единичного радиуса. Но этому представлению многочлена A(z) соответствует запись уравнения (4.32) в виде ^4]((;)((; — 1)^у^ = В(с)Хп. Теперь чисВ(0 то формально запишем Уп~~ j^n и обозначим (/^^ = 5(с;)х,„ ^i(Q(C-l) что соответствует модели скользящего среднего; A\(c)Vn = q^, что 1 .-d соответствует модели авторегрессии; Ул = т^л=Д ^/i» что (С-1) соответствует оператору ^-кратного суммирования. Из последне го равенства следует А^у^ = v^^. Но последовательность v^ в устано вившемся режиме является стационарной, так как корни много члена A\(z) расположены внутри окружности единичного радиу са. Следовательно, и d-я разность временного ряда Y^ также обра зует стационарный процесс. Нестационарные временные ряды, порожденные стохастическим разностным уравнением (4.32), ха рактеристическое уравнение которого имеет d равных единице корней, а остальные корни по модулю меньше единицы, приня то называть процессами авторегрессии — проинтегрированного скользящего среднего (АРПСС) порядка (к, d, т) или ARIMA (к, d, т). Важная особенность модели, таким образом, проявляется в том, что она задает процесс нестационарный, но со стационар ной разностью d-TO порядка. Названия всех перечисленных мо делей не очень благозвучны для русского восприятия и не явля ются безупречно содержательными, но они устоялись и подвер гать их ревизии нецелесообразно. Проведенный формальный переход от уравнения (4.32) к ча стным моделям AR(p) (4.40), МА(^) (4.41), ARMA (4.42), ARIMA 196
упростится, если предварительно провести следующее измене ние в уравнении (4.32): обозначим п + к = in перепишем уравне ние в виде С10У!-к + «\У1-к+1 + «2У/-А:+2 + • • • + ^AJ^/ = = boXi_k + *I^/-yt+l + hXi-k+2 + . - + bfrPCi^k+rn, ^ ^ W
ИЛИ же, в целях унификации символики обозначив i = пи поло жив к = т,в виде ^кУп + ^к-1Уп-\ + ^к-2Уп-2 + - + ^ОУ/1-yt = = bkXn + ijt-l^Ai-l + bk-2Xn~2 + ••• + *O^Ai-)t-
Тогда легко обнаруживается, что это уравнение превращается в уравнение AR{p) (4.40), если положить ао = ai = ... = а/с-р-\ = О, Ьг\ =^ Ь\ = ... = Ьк-\ = О и обозначить ^\ -—:;—» ^2 -—~—» -J с« = -, Ь--^. Если В ЭТОМ же уравнении принять а^ — а\ = ^ ^к Ч = ... = а^_1 = Q, Ь^ — Ьх = ... = bi^_q_\ = о и обозначить й?о = — , di = - ^ ^ , ..., rf^ =——, то получим модель МА(^) (4.41). (^к <^к ^к Наконец, при а^ = ai=^... = Лу^-/?-1 = О и йо =" *i = ••• =" ^А:-^-! = О И сохранении введенных обозначений для параметров с/, dj полу чим модель ARMA(/?, ^) (4.42). Если дополнительно среди корней уравнения а^ + cik-\Z~^ "^ %-2^~^ + ... + cik-pC^ ^ О «предусмотреть» flf корней, равных 1, получим модель ARIMA(/?, ^f, ^). При выборе модели стохастического временного ряда возни кают те же проблемы, что и при построении квазидетерминированной модели: какой вид модели обоснованно предпочесть, как определить наилучший порядок модели, как по эксперименталь ным данным оценить параметры модели. Ответы на эти вопросы частично созвучны ранее найденным применительно к задачам регрессионного анализа и достаточно полно освещены в литера туре по исследованию типовых моделей стохастических рядов (например, [2, 4]). 197
4Л L Стохастический вектор состояния. Обобщенная матрично-векторная модель временного ряда Характерная особенность современных методов обработки слу чайных последовательностей проявляется в широком примене нии рекуррентных алгоритмов, подобных ранее рассмотренному рекуррентному методу наименьших квадратов. Поэтому попыта емся все ранее рассмотренные модели стохастических рядов, на званные нами типовыми, представить в форме одной модели, со ответствующей основным принципам построения рекуррентных алгоритмов обработки экспериментальных данных. Обратимся к разностному уравнению (4.32) и перепишем его в форме ^кУп+к - Ьк^п-\-к ••" ^к-\Уп+к-\ "" *А:-1^л+А:-1 + .•• + + а\Уп+\ - hXn^x + аоУ« - 6^^ = О
ИЛИ же, используя оператор сдвига, ^\а^Уп - hxn) + ^^~\а^-\Уп - Ьк-\Хп) + ... + + <; (ахУп - Ь\Хп) + (аоУп - Мл) = 0. Введем новые переменные Zi,n'='^kyn-bkKn, ^2, л = ^1,/!+1 + «А:- 1Уп - bk- \Хп, Z3, п "= ^2,л+1 + ЛА:-2У« ~ bk-^i^m
Zk, п = Zk-\,n+\ + С1\Уп ~ ЬхХп,
Из первого уравнения выразим 1 Ьь yn=—zu-^'^x„ (4.44) ^к ^к и, подставив это значение в оставшиеся уравнения, найдем: 198
4-\h
+ *i'k-\
<^к (ljc-2
Z2,n+\ =
:;—Zin +^3,/7 +
"k
+ h-iW
^k
Of,
\
«,
(4.45)
^^k
( + 6i
^\
к ^k
в результате проведенной операции единственное разностное уравнение (4.32) ^-го порядка заменяется системой из к разност ных уравнений 1-го порядка, разрешенных относительно новых переменных в момент « + 1. Решение исходного уравнения (4.32) выражается через решение системы (4.45) в соответствии с (4.44). Уравнения (4.44), (4.45) удобно переписать в матрично-векторной форме: (4.46) (4.47)
Zn+\ ^ AZf^-^ ВХп,
где использованы естественным образом следующие из представ лений (4.44), (4.45) обозначения:
£t±
1 0
4 Ч-2
0
1 0 .. 0
0
0
1 .. 0
0
0
0 .. 1
0
0
0 .. 0
0 . .. 0
Ok
Z2,n
^к
Ок-Ъ
^k
(4.48)
Zk-ln Zk,n
-fL Ч .fo. 4
199
^kh-i-^k-ih ^kh-3-^к-зЬк
в
, c=
0
aj^bQ-a^bj,
Вектор Zn, определяемый стохастическим матричным уравне нием (4.47), по сложившейся традиции назовем стохастическим вектором состояния. Этот вектор путем линейного преобразова ния (4.46) формирует решение у^ уравнения (4.32). Как из уравне ния (4.32) в качестве частных случаев были получены модели AR, МА, ARMA, ARIMA, так и из системы (4.46), (4.47) путем введе ния соответствующих ограничений на параметры характеристик (4.48) можно сформировать те же модели, но в терминах вектора состояния. Положив в (4.48) к=р, Ьо = bi = ... = bp^\ = О, ЬрЧ^^О, т.е. В^ = = -Ь[ар_\ ар^2 ••• ^о]^ и сохранив^, С в виде (4.48), получим авто регрессионную модель AR(p). Покажем это для случая/? = 2, вос пользовавшись чисто формальной процедурой. Обозначим: «о «1 С2=q=—-, «2 так что «2
А=
, с ^2_ 2
B = b2 С2
О
И, воспользовавшись оператором сдвига, запишем ((^E2—A)Zn = Вхп или же Zn = (<;Е2 —А)~^ВХп, где Еу единичная матрица размерности два. Тогда у^ = С^{с,Е2 — Ау~п х,+ bXft. Осуществив формальные операции, получим Z?2(C|C-HC2)
Уп
-x„-tbx„
«2(C^-qC-^2)
Умножим обе части этого выражения на q — Ciq — С2 и учтем смысл оператора q. В результате находим Уп+2 — (^1Уп+\ ~ ^тУп = beiXfj+i + bc2Xn + bXn+2 — bc\Xn+\ — ^^2^/i, ЧТО после замены « + на п приводит к окончательному результату (4.40): 200
Уп = С]У„-1 + С:2У„_2 + Ьх„.
Если в выражениях (4.48) положить k = q,aQ = a\ =... = а^_| = О, т.е. О 1 О ... о" О о 1 ... 0
'Г
bq-\
0 0
bq-2
, в=
А= 0 0
0 0
0 ... 1 0 ... 0
«9
. *0 .
OJ
ТО получим модель скользящего среднего МА(^), в чем можно убедиться подобным предыдущему образом. Положив в соотношениях (4.48) к=р,Ьо = bi = ... = bp_g_i = О, bp_g Ф О, bp^qj^x Ф О, ..., Ьр Ф О, получим модель авторегрессии скользящего среднего АкМА(р, q). Наконец, если представить A{z) = Ax{z){z - 1)^, выразить коэффициенты многочлена У4(^) че рез коэффициенты многочлена A\{z) и построить соответствую щую матрицу У4, получим матрично-векторную модель ARIMA(/7, q). Таким образом, уравнения (4.46), (4.47) при надлежащем оп ределении структурных параметров (4.48) можно рассматривать как обобщенную матрично-векторную стохастическую модель временного рада, отражающую современные тенденции описа ния случайных последовательностей. Модель (4.46), (4.47) является достаточно гибкой в том смыс ле, что легко адаптируется к рядам, содержащим не только стоха стические составляющие, но и детерминированные. Так, если на блюдения (4.46) дополнительно содержат гармоническую составляющую/j == wsin(w«) с неизвестной амплитудой и и известной ча стотой w, имитирующую сезонные колебания, то можно, расши рив вектор состояния, свести описание ряда к той же модели (4.46), (4.47), но увеличенной размерности. С этой целью зададим амплитуду и как решение уравнения Uy^ = w„_i, добавив его к сис теме (4.45), и величину Un включим в качестве {к + 1)-го компо нента в состав вектора Z^j. Как следствие, это приведет к возрас танию размерностей всех матричных величин (4.48), которые окажутся равными: 201
о'
... 0 ... 0
0
... 0
0
О О О ... 1 0 0 0 ... 0 0 0 0 ... 0
0 0
Oil
1 0
021 аз1
0 0
0 1 0 0 1
А=
2п =
а*-1,1 ак\ О
и„
1J
О О
В=
о
О sin(w/j)
Здесь для упрощения записей использованы более лаконич ные обозначения элементов матриц А, В, С, но их смысл тот же, что и в (4.48). Аналогичным образом можно поступить и в случае совместно неизвестных и viw, введя дополнительное уравнение для частоты Wn = У^^П-U ^ТО еще на единицу увеличит размерность модели и сделает ее нелинейной. Воспользовавшись аналогич ным подходом, можно надлежащим выбором матрицы А предус мотреть присутствие в составе ряда полиномиального тренда и иных детерминированных составляющих.
4.12. Рекуррентный алгоритм прогнозирования стохастических временных рядов (калмановский фильтр) Уточним постановку задачи. Будем полагать, что наблюдается временной ряд д'ь у 2, ..., ум- Элементы (уровни) этого ряда пред ставляют собой аддитивную смесь полезной составляющей ряда и сопутствующих любому эксперименту измерительных ошибок (шумов, возмущений). Полезная составляющая ряда линейным образом выражается через ненаблюдаемый стохастический век тор состояния. Математическая модель ряда, таким образом, имеет подобный (4.46), (4.47) вид: 202
3;, = C'^Z« + /?„/z = l,2,...,iV,
(4.49)
Z ^ = ^ ^ _ , + 5x^_i.
(4.50)
Здесь обозначены: Pn - N{0, a^) — экспериментальные ошиб ки типа гауссовского белого шума; х^ ~ Л^(0, о^^) — порождащий белый шум, причем M{ppCj) = О при V/,y; Z{^ ~ N{m^, К^) — опре деленное в вероятностном смысле начальное состояние, не зави сящее от jco; параметры модели С, А, В предполагаются известны ми. Отличие модели (4.49), (4.50) от ее прототипа (4.46), (4.47) проявляется в том, что в (4.49) включены экспериментальные шумы, но отсутствует слагаемое Ьх^, фигурирующее в (4.46). Фор мально это означает, что в уравнении (4.32) т< киЬ^ = 0, что ха рактерно для многих приложений. В последующем мы это огра ничение снимем. Обозначим у^* = C^Zn. Решаемая далее задача заключается в следующем: располагая наблюдениями в объеме (4.49), требуется найти наилучшую в некотором смысле оценку Ущ величины у^*, где т> N. Эта оценка ищется в виде Y,^ = C^Z^, mQZfn — прогнозированное значение стохастического вектора со стояния. В свою очередь, как будет показано, Z,,, = A^~^Zj^, гдeZдг — оценка вектора состояния Ъ^, найденная по наблюдениям ух, У25 •••» Ум- Таким образом, задача прогнозирования сводится к по иску наилучшей в определенном смысле оценки Z/v вектора Zj^. Обозначим символом j^i'' вектор наблюдений с компонентами Уь )^25 •••5 Уп^ т.е. у\^ = [У1У2 ••• Уп]^-> и по этим наблюдениям найде оценку 2п (у\^) вектораZn как функцию наблюденийух^, макси мизирующую апостериорную плотность вероятностей co(Z,j|yi'^) этого вектора. Таким образом, в качестве наилучшей принимает ся оценка Z^ =arg max a)(Z„ \y^),
(4.51)
Напомним, при рассмотрении байесовского метода оценива ния параметров регрессионной модели было показано, что для линейной гауссовской модели наблюдений и квадратичной функции стоимости байесовские оценки совпадают с оценками по критерию максимума апостериорной плотности вероятнос тей. Это справедливо и в данном случае. Поэтому задача (4.51) эквивалентна условию 203
MdlZ.-ZjPljfl-^min, т.е. решение задачи (4.51) обеспечивает наилучшее приближение оценки Zn к оцениваемому вектору Z^, но аналитически опериро вать с (4.51) удобнее. Для решения задачи (4.51) прежде всего установим структуру апостериорной плотности. Так как модель (4.49), (4.50) является линейной и гауссовской, то и условная плотность {i^{Z^{^) будет также гауссовской. Как известно, условная гауссовская плотность определяется двумя параметрами: условным математическим ожиданием M{Zn\y\^} и условной ковариационной матрицей MiZ^"" (Z^° )^lyi'^}, где, как и ранее, ° — символ центрирования. Но математическое ожидание гауссовской величины соответствует максимуму ее плотности вероятностей, в силу чего M{Z„\yi"} =Д^. Дополнительно обозначим Af{Z^°(Z,,°)'^lyi''} = M{(Z^ - zJ)(Z„ — Zfj)^\yi^} = Rn. Эту матрицу, характеризующую точность оцени вания вектора Z^ по данным ух", принято обычно называть апос териорной ковариационной матрицей. Таким образом, (})(Z„\yi^) = = N(Z„, R„). Аналогичным образом и по тем же причинам выразим co(Z>,"-') = МД,,«-ь Kf-ih где Д,,«-1 = М{2„\УГ\ Rn, «-i = ^_1 принято назы вать априорной ковариационной матрицей. Вектор Z„n-\ является оценкой вектора состояния Z^, найденной по наблюдениям j^i'^"^ = "= \У\У2 ••• Уп-\]^у ^^то принципиально отличает его от оценки Z^ того же вектора, но найденной по наблюдениям j^j'^. По существу, величина Zfjfj^i является прогнозированным значением вектора Zfj-i на один шаг вперед, найденным по наблюдениям yi, У2, ..., Уп-1-
Установим связь между условными плотностями (x)(Zfj\yi^) и Ci)(Zn\y\^~^). Для этого предположим, что найдена условная плот ность (d(Zn-i\yi^~^), и рассмотрим ряд соотношений, основанных на общих свойствах плотностей вероятностей: co(Z„ УП\УГ') = (o(Zn\yr') (0(yn\Z,,yrb
= ОУ(УП\УГ') (^(Z,\y,"y
Из этого равенства следует интересующее нас соотношение c^iZn^ 204
= cMZn\yr')
co(y,|Z„>;i'^-^) = cMZnly^')
о^(УпЮ, (4.52)
где Сп = I/COCH^JIVI'^"^) И учтено, что при фиксированном векторе Zf^ величина Уп не зависит от предшествующих наблюдений у\^~^, в силу чего co(y«|Z,j .vi'^"^) = co(yjZ^). Входящая в выражение (4.52) условная плотность co(y^|Z^) находится из (4.49): о^{уп\^п) ~ = N{C^Zn, Ор^). Так как с„ не зависит от Z^^, а обе плотности (x)(Zfj\yi ) и cd(yn\Zn) из (4.52) являются гауссовскими, то общий показатель экспоненты произведения (o(Zn\y\'^~^) х (jdiynlZ^) имеет вид:- i ( Z ^ ~ 4 « _ i ) X « - r ^ ( ^ A . - 4 / i - i ) - ~a/2(^,_C^Z,)lHo тогда задача (4.51) в силу (4.52) эквивалентна задаче J = (Zn-Z,^„_0'^R;},_^(Z„-Z„^,.O^cf{y„
- C ^ Z j 2 _>min. (4.53)
Запишем необходимое условие минимума: V / = 2i?-^_i(Z^ -Д,,«_1) + 2af^C(yn - C^Z,) = 0^ где 0;t "~ нулевой /:-вектор. Решение этого уравнения и будет представлять собой оценку Д,. Таким образом, Zn = {R-n]n-\ + Op-^CC^)-\R-n]n-x Z^,n-i + V ' C v , ) .
(4.54)
Воспользовавшись леммой об обращении матрицы, предста вим (4.55) "^ Rn, n-i — Rn, п-\С(С i?/i,Ai-lC'+ Gp)
С
Rn,n-b
a на основе (4.50) запишем Zn,n-i = MiZnlyi""'} = M{AZn-x + Bxn-iW'} =
=
AM{Z,.,)yr')=AZ,_u
откуда следует важное соотношение 4 « - 1 = >4Д,_1.
(4.56)
Выражения (4.55), (4.56) позволяют следующим образом от редактировать формулу (4.54): 205
Обозначив Кп = л., п-хС{С^ Л,, ,_iC + a / ) - ^
(4.57)
из последнего выражения получим Zn-AZn-x + Kniyn-C^AZn-x^n^ia.-^-.N,
(4.58)
Выражение (4.58) позволяет последовательно вычислять оценки Zb Z2, 2з, ..., причем каждая последующая оценка выра жается через предьщущую и очередное наблюдение, т.е. алгоритм носит рекуррентный характер. Это выражение часто называют уравнением фильтрации. Для завершения алгоритма необходимы дополнительные со отношения, определяющие матрицу i?^,«-i в выражении (4.57). Займемся их поиском. Обратимся к выражению (4.52) и рассмотрим его правую часть, т.е. функцию co(Z;j|yi'^~^)co(3^jZ;,)/co(>'«|yi''~ ). Дополнитель но к уже найденным определим условную плотность co(y«lyi'^'"*). При линейной гауссовской модели (4.49), (4.50) эта плотность также является гауссовской и определяется двумя параметрами — условными математическим ожиданием и дисперсией. Найдем их: М{Уг)уГ') = M{C^Z, +/7>ГП = C^Z,,,.!; M{(y,-C^Z,,,_i)V"'} = M{(C^{Zn-Zn,n-i) ^Pn)\r')
=
И, таким образом, ^{у,}у\^~^) = N{C^ Zn^n-ъ C^^n, n-\C + o^^). Те перь, используя определение гауссовской плотности, построим 206
функцию p(Z«), являющуюся показателем экспоненты в выраже нии b^{Zn^ri^iyn\Zn)/^iynW'^Y p(Zn) "^ - Т (Zn'-Zn^n-l)
^ \ n-i(Zn —Zfj^n-l) ~
Разложим эту функцию в ряд Тейлора в окрестности точки Z^. Так как функция квадратичная, разложение будет содержать лишь три слагаемых: p(Z,) = p(Z,) + ^ ^ ^ ( Z , ~ Z , ) + ~ ( Z , - Z , ^ ^
В силу оптимальности оценки Z^ выполняется условие - ~ 7 ^ ^ = 0. Так как в (4.52) co(Z>i'') = N{Zn, R^), то показатель dZ„ экспоненты плотности co(Z;jlyi'') при Z^ = Д, обращается в нуль. Но тогда и функция p(Z^) в этой точке обращается в нуль, т.е. p(Z;,) = О, и, следовательно,
p{z„)=i(z„-i„)Ti^(z„-z„). ^
oZ„
Показатель экспоненты функции (o(Z^lyi'*) = 7У(Дг, Rn) равня ется - -• (Z^ - Zft)^Rn''\Zft - Д,), и так как должно выполняться равенство (4.52), он должен равняться функции p(Z;j). Но это равенство достигается, если
~^ = (-Л~^), что после дифференaz2 цирования приводит к соотношению R^^ = Rn!n-\ "*" Ор^СС^, Об ращая обе части этого равенства и применяя к правой части лем му об обращении матрицы (4.55), с учетом (4.57) получаем Rn = (£-KnC^)Rn^„^b
(4.59) 207
Теперь установим связь между матрицами R^^ „^i и Rn-i- Для этого рассмотрим последовательность равенств
Rn, n-i = M{(Zn^Zn,n-x)(Zr, -z,,«-i)''h"'~H = -- ARr^.xA^ Л^ (5^BB^,
из которых следует Кп-\ = ARr^^i^ + 0,251?'^.
(4.60)
Совокупность соотношений (4.57) ~ (4.60) образует рекур рентный калмановскии алгоритм оценивания стохастического вектора состояния. Вычисления по этому алгоритму организуют ся следующим образом. 1. В соответствии с априорной информацией ZQ ~ Щт^, K^Q) принимаются начальные условия для алгоритма ZQ = т^, RQ = 2. Пусть я = 1. 2.1. В соответствии с (4.60) вычисляется матрица i?i^o2.2. На основе (4.57) находится вектор К\, 2.3. Используя (4.58), находят оценку Zi вектора Zj, соответ ствующую наблюдению У1. 2.4. Из выражения (4.59) находится матрица J?i. 3. Пусть п = 2. 3.1. На основе (4.60) вычисляется матрица J?2,i3.2. В соответствии с (4.57) вычисляется вектор К2. 3.3. Из (4.58) находят оценку Z2, соответствующую наблюде ниям >;ь>'2; 3.4. Вычисляют матрицу i?2? используя (4.59). Последующие расчеты проводятся аналогичным образом при л = 3, 4,..., 7V, результатом чего будет оценка Z^. Прогнозирован ное значение}^ = C^Z^ ряда обосновывается результатом (4.56) и принимает вид Y^ = C^A^~^Z/s/. Апостериорная ковариационная матрица Rj^ определяет точность оценивания вектора состояния Z]^, соответствующая величина С^А^"^ — Rj\/(A^~^)^C характери зует точность прогнозирования. 208
4.13. Нелинейная параметрическая идентификация модели стохастического временного ряда При построении калмановского алгоритма прогнозирования предполагалось, что параметры^, В, С модели (4.49), (4.50) и вхо дящих в нее белых шумов известны. Однако одна из особеннос тей эконометрических задач проявляется в том, что это предпо ложение оказывается излишне оптимистическим, и параметры, прежде чем решать задачу прогнозирования, еще следует опреде лить. Источником соответствующей информации при этом явля ется сам временной ряд Ух, У2, ..., Ум- Ранее уже отмечалось, что для традиционных моделей ряда вида AR, МА, ARMA разработа ны алгоритмы оценивания их параметров, широко представлен ные в литературе. Поэтому, воспользовавшись этими методами, можно идентифицировать неизвестные параметры, а затем пост роить модель ряда в терминах стохастического вектора состоя ния, но уже с известными параметрами, и решить задачу прогно зирования калмановскими средствами. Покажем, что калмановская идеология позволяет избежать этой двухэтапной процедуры и совместить в рамках общего алгоритма решение задач иденти фикации и прогнозирования. Обратимся к соотношениям (4.49), (4.50). Неизвестными па раметрами этой модели, что следует из (4.48), являются первый столбец матрицы А, вектор Д первый элемент вектора С, диспер сия Gr?, Введем для них обозначения: ^11
Zi =
, Z2=B, Z3 =
Так как эти параметры являются стационарными и во време ни не меняются, условно их можно задать как решения простей ших разностных уравнений: ^1,/? - ^ 1 , « - Ь ^2,А1 ~ ^1,п-Ъ
^3,А1 ~ ^ 3 , д | - 1 -
(4.61)
Введем в рассмотрение блочные векторы и матрицу соответ ственно: 209
^1
ER 3k+2
z =
В =
^2k+2
eR 3k+2
Z
A = ^kxk
0kxk
^kx2
0kxk
^k
^kx2
^kxk
^2xk
^2xk
^2
^2xk
^kxk
^kxk
^kx2
, i^(3k+2){3k+2)
A^i)
где 0/xy ~ нулевая матрица размеростью / нау. О/ ~ нулевой /-век тор и подчеркнута зависимость матрицы А от вектора Zj. Вос пользовавшись этими обозначениями, уравнения (4.50), (4.61) можно представить в виде одного (Зк + 2)-мерного уравнения Z„ = = /(Zi,^_i)Z*_i + B\Z2^n-\)Xn-\ или же
z;=o(z;_i)+i?*(z;_i)x,_b o(z;.i)=A\Z,^
.-I)Z;_I.
(4.62)
Вектор Z fi назовем расширенным стохастическим вектор состояния. Особенность описываюш^его его динамику разност ного уравнения (4.62) проявляется в том, что это уравнение, в от личие от (4.50), является нелинейным. Далее введем в рассмотрение (Зк -^ 2)-мерную вектор-строку Сг'^\ у которой на 5-й позиции находится единица, а остальные элементы равны нулям. Тогда слагаемое C^Zfj из (4.49) с исполь зованием новых обозначений можно записать как g<2^-f i)2'^*g<2/:+3)2^ Второе слагаемое р^ из этого же выражения, имеющее неизвестную дисперсию а^^, следующим образом выра жается через стандартную гауссовскую величину /7^: Рп = G^^^'^^^ZnP*n- Само уравнение (4.49) в новых обозначениях приобретает вид
y,-hi/,)^G^''-'%pl
(4.63)
где нелинейная функция A(Z*) = G^^^'^^^Z*C?^^^"^-^^Z*;,. Таким обра зом, и модель наблюдений (4.49) при неизвестных параметрах оказывается нелинейно зависящей от расширенного вектора со стояния Zft. Последующую задачу можем сформулировать так. 210
Временной ряд представлен уровнями, математически выра жаемыми через ненаблюдаемый расширенный вектор состояния Zn в соответствии с (4.63). Сам вектор состояния формируется из порождающего белого шума, как это предусмотрено разностным уравнением (4.62). Случайные составляющие х^ и р* в обоих уравнениях являются независимыми гауссовскими белыми шу мами с единичными дисперсиями. Задача, как и в предыдущем разделе, заключается в поиске оценки Д^ вектора состояния Z,^* по вектору наблюдений j^i^ и в последующем использовании этой оценки в целях прогнозирования. Отличие этой задачи от преды дущей проявляется прежде всего в нелинейной структуре моде лей (4.62), (4.63). Иным будет и результат решения задачи: в этом случае наряду с оцениванием вектора состояния Z« проводится оценивание и неизвестных параметров модели (4.49), (4.э0), включая дисперсии случайных составляющих. Платой за пер спективу совместной параметрической идентификации и, как го ворят, фильтрации оказывается размерность задачи. Решение сформулированной задачи, как и выше, ищем в со ответствии с критерием максимума апостериорной плотности ве роятностей, аналогичным (4.51). Однако нелинейный характер модели существенно усложняет как сам процесс поиска точного решения, так и соответствующий алгоритм. Поэтому удобнее прибегать к помощи различных процедур линеаризации нелинейностей для получения более простых алгоритмов, подобных их линейному аналогу. Если, вооружившись идеей линеариза ции, пройти путь, подобный приведшему к алгоритму (4.57)-(4.60), получим систему рекуррентных соотношений для совместной параметрической идентификации модели и фильтра ции вектора состояния. В систематизированном виде эти уравне ния таковы: алгоритм фильтрации Zn = Z;«-i + Кп(Уп - h{Z\,_{))\
(4.64)
алгоритм одношагового прогнозирования Z\n-x = Ф(^л-1);
(4.65) 211
априорная ковариационная матрица ошибок dZ
dZ
(4.66)
n p H / = Z*_i;
апостериорная ковариационная матрица ошибок Т/
^п - ^п,п-\ ~ ^п,п-\
dZ
TKZ)
bZ
-A(Z)if„,„_,
-KZ) dZ' (4.67)
^G<^''''R„,„-^iG^''^'V\ •:^KZ')R„^., bZ
при Z*=Z;„_i;
коэффициент усиления K^^RA
T^/r(Z*)r(G<^^-^>J?,,,.l(G<^^^^>)^)-^ 3^ ^ ^ npnZ '=Zn^n-\'
(4.68)
Входящие в выражения (4.66)~(4.68) производные могут быть конкретизированы. Так как в данном случае 0(Z*) = / ( Z i ) Z = [Zx^ Z^ Z^ Z^A^iZOf, TO в блочных обо значениях
dZ
-ФiZ ) =
^kxk
^k
^kx2
^kxk
^Ixk
(^2xk
^2
f^2xk
.^(3^+2)x(3/:+2)^
(4 59)
где через z\ обозначен первый компонент вектора Z, 5 = [1 1 ... 1]^€ R^, jFJ^_.iG R^^^~^^ и представляет собой единичную {к ~ 1)-матрицу £^_1, окаймленную снизу нулевой строкой. Аналогичным образом несложно установить 9Z
212
9Z
(4.70)
где Zi — /-Й компонент вектора Z. Таким образом, в данной зада че матрица (4.69) и вектор-строка (4.70) существенно разрежены, что, несмотря на возросшую размерность задачи, способствует упрощению программной реализации алгоритма (4.64)—(4.68). Организация вычислений в соответствии с этим алгоритмом осу ществляется так же, как и в случае (4.57)—(4.60). Отличие прояв ляется лишь в том, что вычислению оценки Z^ предшествует вы числение прогноза Z;j,j_i по правилу (4.65). Это же правило используется для проведения одношагового прогнозирования после обработки всех уровней временного ря да: ^ ? YJ,^, = h(Zм^,,N) = h(ФiZJ;)). Если принять Z^+2, N = Ф(^//+1, jv), то можно построить про гноз на два шага, и т. д. (см. приложение 2).
4.14. Обобщенный рекуррентный алгоритм прогнозирования стохастических временных рядов При построении и последующем изучении модели (4.49), (4.50) было опущено слагаемое Ьх^ в составе соотношения (4.49). Хотя во многих прикладных задачах это условие выполняется, модель (4.49), порожденная традиционными эконометрическими моде лями типа AR, МА, ARMA, ARIMA, это слагаемое содержит. По этому целесообразно калмановскии алгоритм прогнозирования обобщить и на этот случай. Итак, пусть временной ряд представлен моделями Уп = C^Z, + bXn^Pn, л = 1, 2,..., N, Z^ = ^ « _ i + ^x,_,.
(4.71) (4.72)
Отличительная особенность этого представления временного ряда проявляется в том, что теперь шумы р^ = Ьх^ + /?« и Bx^_^i в обоих уравнениях оказываются коррелированными, а именно: ^{Рп^к) ^ Фп,ь где д = M{p*„Xfj} = ba^ и 5;^ ^;^ ~ дельта-символ Кронекера. Чтобы воспользоваться прежним способом вывода алго ритма прогнозирования, воспользуемся идеей «раскоррелирования» шумов [20]. Существо идеи заключается в следующем. 213
Перепишем уравнение (4.72) в таком виде: Zn^^=AZn^Bxn+W{y^~C^Zn-bXn-Pn), или же
Найдем такой вектор W, при котором величины х^ и р^ ока жутся некоррелированными, т.е. потребуем М{ХпРп} = = М{{{В - bW)Xn - Щ^пКЬХп-^Рп)} = 0. Усреднив, получим уравне ние (В - ЬЩЬо^ - WOp = О, из которого следует Ь Ох+Ор
Таким образом, при выполнении (4.73) временной ряд опи сывается уравнениями y« = C'^Z, + /;;,
(4.74)
Z, = ^*Z,_i+>F);,_i + x;,
(4.75)
эквивалентными (4.71), (4.72), но содержащими некоррелиро ванные шумы и в этом смысле подобными (4.49), (4.50). Присут ствие известного слагаемого H^^-i в (4.75) не препятствует теперь по модели (4.71), (4.72) получить алгоритм прогнозирования тем же образом, что и в случае (4.49), (4.50). Опуская доказательства, приведем окончательную редакцию алгоритма в обозначениях выражений (4.71), (4.72):
Zn.n~\ = AZr,_x+ W(yn-C^Zn-{). Кп = Rn, n-xC(C^Rn. n-xC + bW + CT/)-^ Rn,/1-1 = (^ - WC^)Rr,.i{A - WC^)^ + G^BB^ + ф^о^ 4- a/)WW Rn^ i^-
^rP )Rn, n-h
Это Правило рекуррентных вычислений мы и называем обоб щенным калмановским алгоритмом. Конкретная организация вычислений по этому алгоритму проводится точно так же, как и в случае (4.57)--(4.60). Отличие, как и в предьщущем случае, про является только в вычислении прогнозированного значения ^n,n-h предшествующего оценке Д,.
ПРИЛОЖЕНИЕ 1 Операционные методы исследования динамических систем при исследовании различного рода явлений, процессов, законо мерностей и т.п. (обобщенно-динамических систем), описывае мых линейными дифференциальными или разностными уравне ниями с постоянными параметрами, широкое распространение получили так называемые операционные методы, основанные на преобразовании Лапласа и z-преобразовании. Привлекательная сторона этих методов проявляется в возможности превращения дифференциального или разностного уравнения в алгебраичес кое, содержащее одну неизвестную функцию и легко разрешимое относительно нее. Правда, полученное решение алгебраического уравнения определено в ином пространстве, нежели решения ис ходных уравнений. Поэтому требуются дополнительные усилия на переход в пространство искомых решений. Но это окупается общим упрощением процесса поиска решений. Кратко изложим существо этих методов. Определение П1Л. Функцию y(t), где для определенности / — время, называют оригиналом, если 1)>;(0 = 0приУ/<0; 2) y(t) Ф О при всех или некоторых / > О и является однознач ной, непрерывной или кусочно-непрерывной функцией; 3) ЗЛ/, с > О такие, что ^(i)\<Me^K
(П1,1)
Определение П1.2. Функция ^{s) комплексного аргумента s называется изображением или прямым преобразованием Лапласа оригинала д'СО, если оо
y{s)=\y{t)e-'^dt.
(П1.2)
О
Утверждение Hl.L Если y{t) — оригинал, то несобственный интефал в (П1.2) сходится, причем абсолютно, при всех j , для ко215
торых Re 5 > Со, где CQ — точная нижняя грань множества значений параметра с, удовлетворяющих неравенству (П1.1). Соотношение (П1.2) часто записывают лаконично y(s) = = L{y(t)}, понимая под Ц...} стоящий в правой части (П1.2) опе ратор (интеграл) Лапласа. Прямое преобразование Лапласа уста навливает по оригиналу изображение. Существует обратная опе рация, устанавливающая по изображению оригинал и известная как обратное преобразование Лапласа: Y(t) = L-Uy(s)} = ':^ ' Т ^ y(s)e''6s,
(П1.3)
^Ц/ -уоо+Ц
где У - мнимая единица (/^ = — 1) и интегрирование проводится в комплексной плоскости по прямой, параллельной мнимой оси и отстоящей от нее на расстоянии Ь | 1 = Re 5. Для элементарных и многих неэлементарных функций составлены таблицы соответ ствия оригиналов и изображений, а также разработаны операции вычисления оригиналов по изображениям без непосредственно го использования интефальной процедуры (П1.3), но при про дуктивном использовании свойств преобразования Лапласа. Приведем без доказательств, не вызывающих больших за труднений, основные свойства преобразования Лапласа, исполь зуя при этом обозначение y(s) = L{y(t)}. 1. Теорема линейности \к
]
к
/^ Еа^уДО =Есх/^{з^/(0}, ау= const. 2. Теорема подобия 1 ( s\ L{y(at)} = — д — , а = const # 0. а'^' V ' а ) 3. Теорема смещения L{e^^y(t)}=y(s —а), а = const 4. Теория запаздывания оригинала L{y(t-T)} = e-''y(s). 216
(m.4)
5. Теорема о дифференцировании изображения 1-Ч-^Я^) =(-1)"^"М0, « = 1, 2,3,.... 6. Теорема о дифференцировании оригинала
где /: = 1, 2, 3, ..., /^^(0 — оригинал и У'^0+) — ^'-я правая^произ водная оригинала в точке t = 0. 7. Теорема об интегрировании оригинала
о
J ^
8. Теорема об интегрировании изображения
9. Теорема об изображении периодической функции: если Я 0 = 3^(^+7), то y{s)^—^\y{t)e-''dt.
\-е ^^ о
10. Теорема о свертке L-^ {yii^mi^)} = b i ('^)У2и - T)dT = } л (/ - T)j;2(i:)dT, где
УКО? )^2(0
(Ш .6)
~ оригиналы, соответствующие изображениям
his), Ms)11. Теорема о начальном значении оригинала lim y(t) = lim sy(s). 111
12. Теорема о предельном значении оригинала limy(t)=limsy(s). 13. Формула Хевисайда: если У\^) =
(П1.7) , где 5^(^) и У4;^(5) -
многочлены по степеням s соответственно т-то и п-го порядков, причем п> т,то при простых корнях 5/, / = 1 , 2 , ..., л, уравнения У4^(5) = О справедливо /=1 ^ (Si)
Существуют обобщения этой формулы на случай кратных корней того же уравнения A(s) = 0. Рассмотрим существо операционного метода в связи с реше нием следующей задачи Коши. Пусть задано линейное диффе ренциальное уравнение с постоянными параметрами а^^'^О + oi,_,/"-'\t) + ... + аау(0 = (111.6) = ^mX^"'\t) + ^m^iX^'^-'kt) + ... + РоХ(0, П>т,
где а/, Ру - известные постоянные параметры, x(t) - заданная функция-оригинал. Требуется найти решение уравнения (П1.8), удовлетворяющее начальным условиям /\04.)=>;о/,/ = 0, 1,...,А2-1.
(П1.9)
Для решения задачи обе части уравнения (П1.8) подвергнем преобразованию Лапласа. Воспользовавшись теоремами линей ности и дифференцирования оригинала и сгруппировав слагае мые, содержащие y(s) = L{y(t)}, x(s) = L{x(t)} и одни и те же на чальные условия, получим Л(^)К*)-
л-1 т-\ , 5:Ф/(5)>'О,=5„(5)Х(5)- I V;t(^)^ /=0 к=0
где использованы обозначения: A„(s) = а^ + a„_i/-i + ... + оо, 5„(5) = p„y" + P„_i/'-' + ... + Po, 218
(0+). (П1.10)
ФХ5) = а^^-^-^ + ап-х^-^-^ + ... + ai+/, / = 0, 1,..., «-2;ф„_1(5) = а„,
А: = о, 1,..., т-2\ y^rn-\{s) = ^тПолученное в результате преобразования выражение (ШЛО) является линейным алгебраическим уравнением, содержащим единственную неизвестную функцию y{s), которая легко нахо дится из этого уравнения: п-\
«^"^ад^^^^
т-\
tfe
...
• <"'•">
Функция (П1.11) является изображением искомого решения задачи (П1.8), (П1.9). Для поиска оригинала следует осуществить переход из пространства изображений в пространство оригина лов:
что во многих случаях делается на основании формулы Хевисайда (П1.7) или путем разложения изображения (П1.11) на простей шие слагаемые с последующим установлением оригиналов этих слагаемых. В этом и заключается суть операционного метода интефирования линейного дифференциального уравнения с посто янными параметрами. Соотношение (П1.11) существенно упрощается, если на на чальные условия /'чО+) никаких офаничений типа (П1.9) не нало жено. В этом случае начальные условия порождены непосредст венно функцией х(0, а это приводит к тому, что второе слагаемое в (П1.11) обращается в нуль, и, как следствие, оказывается, что y{s) = ^f^x{s).
(П1.12)
вmis) Комплексный коэффициент пропорциональности W{s) = ^ , ,, связывающий изображения y{s) и x{s), принято называть переда точной функцией динамической системы, описываемой диффе219
ренциальным уравнением (П1.8). Очевидно, передаточная функ ция сама является изображением решения уравнения (П1.8), но при такой функции х(0, изображение которой x(s) = 1. Такой функцией является дельта-функция Дирака 5(0, обладающая свойствами: 8(0 = Г ' ^ " ^
b(Oci/ = l, Ve>0,
]mz(t)dt^z(0),
В силу последнего равенства принимается L{5(0} = T8(0^"'^d/ = l. о Заметим, что иногда значение этого интеграла считают рав ным ~ . Решение уравнения (П1.8) при x(t) = 5(/) называют весо вой функцией, или импульсной характеристикой динамической системы. Обозначим ее символом со(0, т.е. со(0 = L~^{lV{s)}. Тогда оригинал изображения (П1.12) можно найти на основании теоре мы о свертке y(t) = J(O(T)X(/ - x)dx = Ja)(/ - т)х(т)с1т. (П1.13) о о Каждое из интефальных выражений в этом соотношении на зывают оператором свертки. Оператор свертки, таким образом, позволяет при отсутствии ограничений на начальные условия найти решение уравнения (П1.8) при произвольной функции х(0, если известно решение при x{t) = 5(0, представленное функ цией со(0. Аналогичная методология решения распространяется на ли нейные разностные уравнения. Изложению соответствующего подхода, как и ранее, предпошлем ряд начальных определений. Определение П1.3. Пусть>'(0, te Т— непрерывная или кусочно непрерывная функция, определенная не непрерывном множест ве Г, и {^0, ti, t2, ...}сГ— дискретное подмножество точек из Т, причем t^+i — tn = const, л = О, 1,.... Тогда функция , 1 ЫО, t = t^, п = 0, 1, 2, ..., у[п] = i [О, t*t„ называется решетчатой. 220
с решетчатыми функциями связывают ряд понятий, уподоб ляющих их непрерывным. В частности, функцию
Ау[п]=у1п+1]-у[п] называют первой разностью, или разностью первого порядка ре шетчатой функции и рассматривают как своеобразный аналог производной от непрерывной функции. Первую разность первых разностей принято называть второй разностью (второго порядка) и обозначать А^у[п]-=Ау[п+ 1]-Ау[п]. Подобным образом первую разность (кределяют как к-ю разность
I) -х разностей оп
А^у[п] = A^~V[« + 1] - A^"V[«1. Воспользовавшись методом математической индукции, не сложно убедиться, что к-я разность выражается непосредственно через значения решетчатой функции по правилу
v=0
v!(A:-v)!
и наоборот, y[n^q]-Y.Cgl^y[n\ /=0
функцию Y[n], для которой АУ[л] = у{п], называют первооб разной функции y{t). Справедлив непосредственно проверяемый результат: yin] = 'iy[i]-^c, /=о где с = const, в частности с = 0. Пусть у[п] — неизвестная решетчатая функция, х[п] — извест ная. Тогда алгебраическое соотношение, связывающее разности различных порядков функций у[п] и х[п], назывгаот разностным уравнением. Если разности выразить в соответствии с (П1.14), уравнение окажется записанным в терминах самих решетчатых 221
функций. Распространенный вариант такого уравнения имеет вид аоу[п] + aiy[n + 1] + а2у[п + 2] + ... + af^[n -^к] = = Рох[л] + pix[Az + 1] + Р2Х[« + 2] + ... + ^^[п + т], где а/, Ру — заданные константы и /: > т . В этом случае уравнение называют линейным разностным А:-го порядка с постоянными параметрами. Поиск решения этого уравнения, удовлетворяю щего начальным условиям: У10]=УО,
У11]=Уи (П1.16)
у[к~1]=ук-ь называют по аналогии с дифференциальными уравнениями зада чей Коши. Хотя эта задача легко решается в «числе», используют различные аналитические подходы с целью получения решения в аналитической форме. Среди таких подходов широкое распрост ранение получил операционный. Его сущность подобна основан ному на преобразовании Лапласа варианту, но отражает особен ности (в частности, недифференцируемость) решетчатых функ ций. Определение IT1.4. Решетчатую функцию >^[/7] со свойствами: 1)у[п]шО,п<0, 2) у[п] Ф О при всех или некоторых л > О, 3) ЗЛ/, с > О такие, что [у[л]| < Ме^^ называют оригиналом. Определение П1.5. Функция 'yiX) комплексного аргумента z называется изображением, или ^-преобразованием оригинала у[п\, если y{z) = Z{y[n])^ S y[n]z-\
(П1.17)
/7=0
Утверждение П1.2. ЕСЛИ>'[А2] — оригинал, то ряд в (П1.17) схо дится, причем абсолютно, при всех г, для которых |^ > е^^, где С{^ определено аналогичным утверждению П1.1 образом. 222
Изображение yiz) отождествляется с суммой ряда (П1.17). Су ществует обратная операция, позволяющая установить оригинал по изображению и называемая обратным ^-преобразованием: y[n] = Z-Uy(z)} = :^ly(z)z''~^dz, «>0,
(П1.18)
2njQ
где G - любой несамопересекающийся контур, содержащий вну три себя окружность радиуса /^. Интеграл (П1.18) может быть вычислен в соответствии с теоремой о вычетах. Как и для непре рывных функций, построены обширные таблицы соответствия решетчатых оригиналов и их изображений. Опуская достаточно несложные доказательства, приведем на иболее характерные свойства ^-преобразования. 1. zhciyi[n]\ = lCiZ{yi[n]}, c,.=const. 2. Z{y[n + k]} = z^y(z)-^i\^''yUl 3.Z{y[n^k]}^z~^y{z),k>0. 4. Z{A^y[n]} =
(z-l)^y(z)-zi(z-l)^-^-'A'y[Ol v=0
5. ZjEЯ/][=-Ц•Жг). [/=0 J Z-l 6. Z-^{Mz)y2(z)}= i yiUWn-i]-
i yi[n-l]y2\il
где j^i[w] иу2[п] — оригиналы, соответствующие изображени ям >?i(z) и >^2(^). 7. у[0] = lim y(z). 8. nmyln] = lim(z-l)y(z). Рассмотрим теперь существо операционного метода решения задачи (П1.15), (П1.16). Логическая направленность метода пол223
ностью соответствует предьщущему изложению, относящемуся к дифференциальным уравнениям. Вооружившись свойствами 1 и 2 ^-преобразования и началь ными условиями (П1.16), подвергаем обе части уравнения (П1.15) z-преобразованию. Обозначим y(z) = Z{j^[«]}, x{z) = Z{X[A2]}H сгруппируем вместе слагаемые, содержащие y(z), x{z) и одинако вые начальные условия, обусловленные офаничением (П1.16) и процессом х[п]. В результате получим подобное (П1.10) алгебра ическое уравнение с единственной неизвестной функцией y{z): k-l
m-l
^
Akiz)y{z)- 1 (Pi(z)yi =B^(z)x(z)-
1 y\fj(z)x[Jl
откуда следует очевидное k-l
m-\
n / 4-^ ^i(z)yi- S Wj(z)x[J] B^(Z) , . /=0 7=0 Смысл обозначений в (П1.19) таков: Mz) = ссо + aiz + агг^ + ... + а^г^, Ф/й) = (^к^~^ + сх^-1^~'"^ + ... + cti+^, / = О, 1,..., к-2; (Pk-\(z) = a,,z, ^j(z) = ^n^z!"-' + ^m-i^-'-^ ^m-l(z) = Pm^.
+ ... + Pi4-yz,y = 0, 1,..., m-2;
Подвергнув изображение (П1.19) обратному z-преобразова нию, получим решение исходной задачи (П1.15), (П1.16). Выра жение (П1.19) значительно упрощается, если, подобно предыду щему, снять Офаничения (П1.16) на начальные условия и считать их естественным проявлением влияния функции х[п]. Это приво дит к взаимной компенсации определяемых начальными услови ями слагаемых и в результате оказывается y(z) = ^^f^xiz). 224
(П1.20)
Последующие понятия подобны ранее введенным. Функцию Bmiz)
Щ1) = -
Mi)
называют передаточной функцией динамической системы, мате матическая модель которой сведена к разностному уравнению (П1.15). Понятно, что эта функция сама является изображением решения уравнения (П1.15), если у{7) = 1. Функцией с таким изо бражением является дельта-символ Кронекера [О, пФ^. Следовательно, передаточная функция W{7) представляет со бой изображение решения разностного уравнения (П1.15) при х\п\ = 5^ о и отсутствующих ограничениях на начальные условия. Соответствующий оригинал со[л] = Z~^{W(z)}, т.е. само решение уравнения (П1.15) при х[п] = Ь^^о, принято называть весовой функцией динамической системы. Вычислив эту функцию и вос пользовавшись свойством 6 ^-преобразования, решение уравне ния (П1.15) при произвольной функции х[п] и выполнении (П1.20) можно представить в виде п
п
у[п] = S со[/]х[л - /] = Е «И - ^ЫЯ /=0
/=0
Каждую из этих сумм, подобно (П1.13), принято называть оператором свертки.
ПРИЛОЖЕНИЕ 2 Калмановскоепрогнозированиеразвития отдельных отраслей экономики России Результаты прогнозирования, в частности краткосрочного (до 1 года), развития отдельных отраслей экономики России представ ляют большой интерес для многих управляющих органов страны. Это стимулирует разработку большого числа подходов к реше нию данной проблемы. Краткая аннотация этих подходов содер жится в работе [31], где построена и успешно реализована автор ская модель экономики России, представленная системой одно временных уравнений и идентифицированная на квартальных макроэкономических данных (4-й квартал 1994 г. — 1-й квартал 2001 г.) из официальньЕх: статистических источников. Покажем, что эти данные позволяют построить модели соответствующих временных рядов в терминах стохастического вектора состояния и использовать их для разработки алгоритмов прогнозирования калмановского типа, обладающих не худшими по сравнению с [31] характеристиками. Данные, используемые нами далее для разработки стохасти ческих моделей рядов, представлены на рис. П2.1 — П2.5. Здесь же указаны относительные ошибки прогнозирования, проведен ного с помощью системы одновременных уравнений (СОУ) на 1 и 2 квартала 2001 г. [31] (2001:1 и 2001:2). Технология соответ ствующего анализа изложена в [31] и здесь не детализируется. На ша цель заключается в разработке по имеющимся апостериорным данным рекуррентного алгоритма прогнозирования калмановско го типа и исследовании его свойств по аналогии с [31]. Визуальный анализ эмпирических данных позволяет интер претировать их как аддитивную смесь квазидетерминированной и случайной составляющих. Первую из них в соответствии со структурой эмпирических данных аппроксимируем многочленом 3-го порадка. Случайную составляющую представляем в форме стохастического процесса, на который наложен независимый бе лый шум. Так как для всех 5 радов техника формализации являет ся общей, далее изложение ведется без конкретной адресации. Таким образом, если Уп — п-й уровень ряда, причем л = 1, 2,..., 25 226
Совокупное потребление
30 Модельное значение — о — Прогнозное значение Наблюдаемое значение Относительное отклонение по: Калману СОУ 2001:1 2,3% 2.4% 2001:2 6,9% 13.3%
20 10
• ^ г - см со T f 0 C P OD < 0 Г^ h - 1^^ - 1r ^^ hЬ » о 0р 0 о 0 0 O O O Q T - T р 0о 0р0о0рCоn ) 00>) Cф3о>>0 о) о 0 > 0 > G D C D 0 > 0 ) 0 ) 0 > 0 > 0 > 0 > 0 ) 0 ) 0 > 0 > O O Q O O O 0 > 0 > 0 ) 0 ) 0 > 0 > 0 ) 0 > 0 > 0 > 0 > 0 > 0 ) 0 > 0 > C 7 > 0 > 0 > 0 > 0 > 0 > 0 0 0 0 0 0 ' « - i t - T - T - T - T - T - ^ T - ' r - ' r - t - T - C M C M O I C N C N J C N J
^ ю in ю ur> со < cfi оу о> _ . о> Oi - . _Cfi .
Рис. П2Л. Эмпирические, модельные и прогнозные значения переменной СО
ВВП 140 J 120 j 100 j 80 j •о— Модельное значение — D — Прогнозное значение Наблюдаемое значение Относительное отклонение по: Калману СОУ 2001:1 2,2% 3.4% 2001:2 16,4% 21,3%
60-j 40 20 H
-Г"
Cf> Oi
0>
Oi
CD 0> 0> О)
т- "Т-
-Г"
т- -т- -т—
^ CN СО -^ т- СЧ со Т". ^ *Я Т*! у. ^ *Г} Т*! Г". со (О (р h^' ь^ i^ ы 66 66 со 0 _ 0 0 ) 0 ) 0 ) 0 5 0 0 0 0 ^ о> о> О) - - _ - _- _- _- _- о- оо _о _ -. -. — OiO>0)0)€f>0>0>G)0}0)OiGi о о о о о _ см см см см см <м
Tt т. 9^ *!?"!''. Т- СЧ <*>
^* Ю 1Л «П Ю
Рис. П2.2. Эмпирические, модельные и прогнозные значения переменной Y 227
Экспорт
35^ 30252015-
— о - Модельное значение —о— Прогнозное значение Наблюдаемое значение Относительное отклонение по: Калману СОУ 2001:1 4.2% 3.4% 2001:2 4.3% 3,6%
105п-
1
1
1
1
-ч*; Y : CSI со ^
1
Г-—Т
1
1
1
1
1
1
1
1
1
CMCO^T-CNICO^tT-CNlCO Г^* N i Г^ Г^ О)О> Ofi О} Cfi Ф ^. ф _- О >
О)О)О>О)О>0> 0> €f> 0> Cfi 0> W О) 0> О)
§1 0>
О) о
Г—Т
Г—Т
1
1
1
1
1
1
•ча-'г-смсо'чг^-смсотгт-см
0 > 0 > 0 > 0 ) 0 > 0 0 0 0 0 0 0> О) С Г > 0 > 0 > 0 > 0 > 0 ) 0 0 0 0 0 0 T-iT-T-T-r-r-CMCNJCMCMCNJCM
Рис. П2.3. Эмпирические, модельные и прогнозные значения переменной X Денежные доходы населения
40 30-1 20 1 10 1
Модельное значение - Прогнозное значение - Наблюдаемое значение Относительное отклонение по: Калману СОУ 2001 1 12% 6.7% 2001:2 3,4% 10,5% - т - "т-
-т-
-Г"
-»
г" т - пг- "1
г-
^
Ю Ю 1Г> Ю 0D 0 ) 0 > 0 > 0 ) 0 ) 0 ) 0 ) 0 > 0 > 0 > 0 > 0 > 0 ) 0 > 0 ) 0 > 0 > 0 ) 0 ) 0 ) 0 0 0 0 0 0 С Г > 0 ) 0 > 0 > 0 > 0 > 0 ) О С 7 > 0 > 0 > 0 ) 0 ) 0 0 > 0 > 0 > 0 ) 0 ) 0 > 0 ) 0 0 0 0 0 0
Рис. П2.4. Эмпирические, модельные и прогнозные значения переменной Л^ 228
Импорт 25 20 15 10
5i
• — о - Модельное значение — о - Прогнозное значение Наблюдаемое значение Относительное отклонение по: Калману СОУ 2001:1 5,3% 3,8% 2001:2 6,2% 17.4%
T r - r - C M C O - ^ T - C M C O ^ - r - C N C O T f - r - C N C O ^
СМ СО -St т -
С>4 СО
Ю Ю Ю 1 Л ( 0 ( О С О ( 0 ^ - Г > ^ Г ^ Г ^ О О О О С О О О О > 0 ) а ) 0 > 0 0 0 0 0 ) 0 ) 0 > 0 ) 0 > 0 > 0 ) 0 > 0 ) 0 ) 0 > 0 > 0 > 0 > 0 > 0 ) 0 ) 0 > 0 ) 0 > 0 0 0 0 ^ 0 > 0 ) 0 > 0 > 0 ) 0 > 0 > 0 > 0 > 0 > 0 > 0 > 0 > 0 ) 0 ) 0 ) 0 ) 0 ) 0 > 0 > C D O O O
^ — O O O
см см см см см см
Рис. П.2.5. Эмпирические, модельные и прогаозные значения переменной М
В соответствии с объемом наблюдений, <<пригодных» для разра ботки алгоритмов, то У«=/п+е«+/^т«=Ь25.
(П2Л)
Детерминированная составляющая/, описывается простейймо^ шей моделью/j = ^о "^ d\n + djn^ + di^r?, или в векторных обозначениях т
(П2.2)
где ^Т_
.2^3
Т
- 1
с^ = [1пп^ п% dn = rf„_b
(П2.3)
Стохастическая составляющая £„ отождествляется со случай ной последовательностью типа ARMA и описывается разност ным уравнением вида (4.32) афп "+" ^i^/i+i + ^2^п+2 "^ ^о^л "^ ^Л+i с порождающим белым шумом х„ единичной интенсивности. В терминах состояния, как показано в разд. 4.11, это уравнение эквивалентно представлению 229
е„ = с % Оц
1
А = aix 0_
¥„=A¥n-i+Bx„_u (П2.4) В-
hi
причем элементы матриц А, В и с выражаются через параметры исходного уравнения. Введем теперь в рассмотрение следующие блочные конструкции: Уп-
А=
£4
^^4x2
^^2x4
А
, в= о; ,' с„/I ='^п сJ в
(П2.5)
Тогда ряд (П2.1), составляющие которого определяются вы ражениями (П2.2) - (П2.3), можем представить следующей обоб щенной моделью: Уп-С^Уп^Рш y,=^y,_i+5jc,_b
(П2.6) (П2.7)
в которой первое соотношение представляет собой уравнение на блюдения, а второе — уравнение стохастического состояния. Эта модель содержит ряд неизвестных параметров, именно: ац, ^21, *1Ь *2Ь ^ь ^р^ где Ор — дисперсия помехи/?^. Поэтому задача про гнозирования должна сопровождаться решением задачи иденти фикации неизвестных параметров, т. е. в соответствии с разд. 4.13. Для построения подобной (4.62) и (4.63) модели формирует ся расширенный вектор состояния У* = \а\\ ^21 ^^п Ъц с\ Ор d^ У^]^ € R , которому соответствуют структуры: 2?*=[0|оЙ11б21Г, ^*
^10
^10x2
^2x10
^
Ф(У*) = [an ац Ьп bix q Gpd^ {а^Ух + п) ^пУх^, /i(y:«;=cjrf + ci5?b где J b 5^2 — компоненты вектора Yud= [do di di d^]. В терми нах расширенного вектора состояния модель временного ряда приобретает ввд: у,=л(у;)+с^^>у;р;, (П2.8) Yn =Ф(У.-1)+1?(У.-1)х,_1. 230
(П2.9)
Соответствующий этой модели алгоритм совместной фильт рации, идентификации и прогнозирования определяется следую щими вычислительными процедурами: алгоритм фильтрации и идентификации ^v*
,л*
Уп =Y„,„_i+K„(y„-h(Y„,„_,)y, алгоритм одношагового прогнозирования
априорная ковариационная матрица ошибок *«,«-! =^Ф(¥')Я„,,^Ф''(¥*) oY oY
+ В\¥*)В*''(¥*) при
¥'=?и
апостериорная ковариационная матрица ошибок ^п - ^п,п-\
тГ ( э Th{Y) -Н(¥ " ^п,п-\ Ъ¥ иг
)Л„„_1
{д¥
7^(¥)
+С(6)Л„,„_,(С<6>)Т)" __Л(У*)Л„,„_1 при ¥' = У;„_,; oY коэффициент усиления ^п
-^п
dY
-A(y*)J (G<^4,„-I(G<^>)'^)' при F* = y,Vi.
в соответствии с принятыми определениями в этом алгоритме
д¥
-Ф(Г) =
-^10
Л/(Л)
®10х2
^ ,
,
Л/(й) =
л о о о л о
GR 2x10
Э 2_3 7/j(F, и) = [О О О О j?! О 1 л и^ л^ ci 0] Данный алгоритм совместно с определяющими его величи нами положен в основу разработанной MATHCAD-программы (разработка программы и проведение соответствующих вычис231
лений выполнены экономистом-математиком А.Ю. Поляко вым). Идентификация модели, сопровождаемая «подгонкой» модельных данных к каждому из 5 наблюдаемых рядов, осуще ствлялась циклическим применением алгоритма идентифика ции и фильтрации к каждому из рядов с использованием в каче стве начальных условий очередного цикла конечных значений предыдущего. Для задач, не решаемых в натуральном масштабе времени, т. е. в процессе поступления данных, это обстоятельст во не является обременительным. Начальные значения компо нентов расширенного вектора состояния в 1-м цикле принима лись равными 1, начальное значение апостериорной ковариа ционной матрицы задавалось в виде матрицы с единицами на главной диагонали и остальными элементами, равными 0,1. Прогнозирование временного ряда на один шаг (квартал) проводится после обработки всех N = 25 его уровней по правилу >?^^1=Л(У;+1,л^)=Л(Ф(У;)). Прогноз на два шага (квартала) сопровождается вычислением З^Л^+2 = Л(У^+2, N)^ JOV+2, Л^ = ^(Ум+и N)Результаты соответствующего вычислительного эксперимен та даны на рис. П2.1 ~ П2.5, где, помимо наблюдаемых уровней рядов и точностных характеристик прогноза по алгоритму [31], указаны модельные значения рядов, полученные после иденти фикации («подгонки») калмановских моделей, и относительные ошибки калмановского прогноза. Последние, как и в [31], пони маются в ретроспективном смысле, т. е. как отношение модуля отклонения прогнозированного на данный квартал значения ря да от его реально наблюдаемого значения к этому наблюдаемому значению. Анализ полученных вычислительных материалов сви детельствует о полнейшей дееспособности построенных нели нейных алгоритмов совместной нелинейной фильтрации, иден тификации и прогнозирования сложных экономических процес сов. Полезно обратить внимание на то, что при их реализации удается офаничиться только апостериорными сведениями о са мих прогнозируемых рядах и не прибегать к помощи дополни тельной и весьма емкой информации, используемой в структуре одновременных уравнений.
ЛИТЕРАТУРА 1. Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики. - М.: ЮНИТИ, 1998. 2. Андерсон Т, Анализ временных рядов. - М.: Мир, 1976. 3. Афанасьев В. Я., Юзбашев М. М. Анализ временных рядов и прогнозирование. — М.: Финансы и статистика, 2001. 4. Бокс Дж., Дженкинс Г. Анализ временных рядов, прогноз и уп равление. - М.: Мир. Вып. 1, 2, 1974. 5. Боровиков В. П., Боровиков И. П. Statistica. Статистический ана лиз и обработка данных в среде Windows. — М.: Филинъ, 1998. 6. Боровиков В. П., Ивченко Г. И Прогнозирование в системе Statistica в среде Windows. - М.: Финансы и статистика, 2000. 7. Быков В. В. Цифровое моделирование в статистической радио технике. - М.: Сов. радио, 1971. 8. Воеводин В. В., Кузнецов Ю. А. Матрицы и вычисления. — М.: Наука, 1984. 9. Гантмахер Ф. Р. Теория матриц. — М.: Наука, 1988. 10. ГельфондА, О. Исчисление конечных разностей. - М.: Наука, 1967. 11. Горчаков А. А, Орлова И. В, Компьютерные экономико-мате матические модели. — М.: ЮНИТИ, 1995. \1. Доугерти К. Введение в эконометрику. — М.: Инфра-М, 2001. 13. Илюхин А. Г., Коваленко В. П. Численные методы обработки информации при исследовании динамических систем. - Киев.: Наукова думка, 1971. 14. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функционального анализа. — М.: Наука, 1968. 15. Кремер И. Ш., Путко Б. А. Эконометрика. - М.: ЮНИТИ, 2002. 16. Лукашин Ю. П. Адаптивные методы краткосрочного прогно зирования. — М.: Статистика, 1979. 17. Магнус Я. Р., Катышев П. К, Перецкий А, А, Эконометрика. Начальный курс. — М.: Дело, 1997. 18. Пакшин П. В. Дискретные системы со случайными парамет рами и структурой. — М.: Физматлит, 1994. 19. Самарский А. А,, ГулинА. В. Численные методы. - М.: Наука. 1989. 20. Сейдж Э., Меле Дж. Теория оценивания и ее применение ь связи и управлении. — М.: Связь, 1976. 233
21. Смирнов Н. В., Дунин-Барковский Н,В. Курс теории вероятно стей и математической статистики для технических приложений. — М.: Наука, 1965. 23. Суетин /7. К. Классические ортогональные многочлены. — М.: Наука, 1976. 24. Тихонов А, Н., Уфимцев М. В. Статистическая обработка ре зультатов эксперимента. — М.: МГУ, 1988. 25. Химмельблау Д. Прикладное нелинейное программирование. -- М.: Мир, 1975. 26. Хорн Р., Джонсон Ч. Матричный анализ. - М.: Мир, 1989. 27. Четыркин Е. М. Статистические методы прогнозирования. — М.: Статистика, 1977. И.Чуев Ю. В., Михайлов Ю. В., Кузьмин В, И. Прогнозирование количественных характеристик процессов. - М., Сов. радио, 1975. 29. Чураков Е. П. Оптимальные и адаптивные системы. — М.: Энергоатомиздат, 1987. 30. Эконометрика/Под ред. Я. И. Елисеевой. - М.: Финансы и статистика, 2002. 31. Эконометрическое моделировние: Учеб. пособие для вузов. — Вып. 2: Модель экономики России для целей краткосрочного про гноза и сценарного аналйза/В. Л. Макаров, С. А. Айвазян, С. В. Бо рисов, Э. А. Лакалин. - М.: МЭСИ, 2002.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Алгоритм — градиентный 78 — оценивания 37 калмановский 208 — скользящего среднего 13 Аппроксимация регрессии 14
Критерий — Дарбина-Уотсона 154 — идеального наблюдателя 24 — качества оценивания 37 — Неймана—Пирсона 25 — поворотных точек 153 — серий 153
Вектор состояния Лемма об обращении матрицы 64 —стохастический 200 расширенный 210 Математическое ожидание случай Величина смещения 40 — стандартная гауссовская случай ного процесса 163 Матрица ная 19 — апостериорная ковариационная 204 Время корреляции 175 — априорная ковариационная 204 Выборка апостериорная 44 Матрица — Гессе 43 Гессиан 43 — идемпотентная 54 Градиент 42 — ошибки оценивания ковариаци онная 40 Дельта-символ Кронекера 129, 225 — полного ранга 46 Дельта-функция 171, 220 — Фишера информационная 41 Дисперсия случайного процесса 163 — Якоби 43 Метод Задача — асимметрии и эксцесса 157 — корректно поставленная 60 — наименьших квадратов рекуррент — прогнозирования (предсказания, ный 65 экстраполяции) 109 — неопределенных множителей ЛагЗакон распределения вероятностей ранжа 26,48 случайного процесса л-мерный — последовательной линеаризации 78 167 МНК-оценка 46 МНК-оценка обобщенная 89 Идентификация и фильтрация сов Многочлены местная параметрическая 211 ~ Лежандра 119 Информация априорная 37 — Чебышева второго рода 118 — Чебышева первого рода 118 Квантиль 20 Модель Коэффициент — авторегрессии скользящего сред — детерминации 70 него 194 — корреляции 17 проинтегрированного скользя множественный 33 щего среднего 196 частный 32 — авторегрессионная 194 эмпирический 22 — скользящего среднего 194 Коэффициенты Фурье 121 Мощность критерия 23 235
Полиномы Лежандра ~ Чебышева дискретные 136 Последовательность — Коши 112 — минимизирующая 78 — случайная 160 — сходящаяся 78 — фундаментальная 112 Потери (риск) условные 103 Преобразование Лапласа 215 Проверка центрированности 153 Прогноз калмановский 213 Произведение функций скалярное Оператор свертки 182, 185 111, 114 Оценка Пространство Ьх 114 — байесовская 97 — Банахово 113 — безусловная 37 — Гильбертово 113 — достаточная 39 — максимально правдоподобная 88 — Евклидово 110 — линейное 110 — минимаксная 103 -метрическое 110 — несмещенная 38 — нормированное 110 ~ состоятельная 38 — полное 113 — точечная 36 — функциональное НО — условная 37 Процесс случайный — эффективная 39 дискретный 159 — оптимальная по критерию макси марковский 168 мума апостериорной плотности непрерывный 159 вероятностей 92 стационарный в узком смысле Ошибка 173 — аппроксимации 122 в широком смысле 174 — второго рода 23 эргодический 176 — оценивания 39 — первого рода 23 Равенство Парсеваля 127 — прогнозирования 140 Разности решетчатой функции 221 — регрессионной модели относи Раскоррелирование шумов 213 тельная 157 Распределение Неравенство — Бесселя 124 — Коши—Буняковского 115 — Минковского 115 — Рао-Крамера 40 Норма — вектора гельдерова 60 — функции 114 Нормы — векторные частные 60 — матричные 61
Переменная эндогенная 9 Плотность — вероятностей апостериорная 92 случайного процесса «-мерная 167 одномерная 162 случайных процессов совмест ная 172 условная 166 — непрерывного случайного процес са спектральная 177 — случайной последовательности спектральная 179 236
— вероятностей случайных процес сов совместное 172 — Гаусса 20 — Стьюдента 19 — Фишера 20 Реализация случайного процесса 159 Регрессия гауссовская 16, 17 Риск байесовский (средний) 97 Ряд временной стохастический 106 — структурно детерминированный 106 — Фурье обобщенный 121 формальный 122
Сглаживание — локальное 136 — экспоненциальное 144 Сечение случайного процесса 158 Система — общего вида тригонометрическая 118 — функций замкнутая 126 ортогональная 116 — ортонормированная 116 — основная тригонометрическая 117 полная 116 Среднее апостериорное 99 Статистика достаточная 39 — Фишера 29 Супермартингал 83 Сходимость детерминированная 81 — с вероятностью единица 83 — среднеквадратичная 115 — стохастическая 81 Теорема Маркова 47 Точка процентная 21 Точность модели 157 Уравнение — правдоподобия 89 — разностное 185 — характеристическое 183, 185 Уровень значимости 23 Условие нормировки 163, 165
Факторизация 187, 189 Фильтр формирующий дискретный 189 непрерывный 188 Функции квадратично интегрируе мые 113 Функция - взаимная ковариационная 172 — выпуска 51 — Ляпунова 83 стохастическая 84 — нормированная 116 - потерь квадратичная 96 - правдоподобия 88 — производственная 50 - распределения вероятностей слу чайного процесса одномерная 161 — рефессии 12 - решетчатая 220 - случайного процесса ковариаци онная 169 корреляционная 170 — стоимости (потерь) 88 Число обусловленности 62 Шум белый дискретный 171 непрерывный 171 Якобиан 43 Х^-критерий Пирсона 156 ^-преобразование 222
ОГЛАВЛЕНИЕ
Предисловие
3
Первая часть. МАТЕМАТИЧЕСКИЕ МЕТОДЫ ВОССТАНОВЛЕНИЯ ЗАВИСИМОСТЕЙ ПО ЭКСПЕРИМЕНТАЛЬНЫМ ДАННЫМ Гпава 1. Задачи регрессионного анализа и предварительный ана лиз данных 1.1. Проблема восстановления зависимостей по экспери ментальным данным 1.2. Функция регрессии и регрессионная модель эндо генных переменных 1.3. Модели, аппроксимирующие функцию регрессии. Гауссовская регрессия 1.4. Некоторые специальные случайные величины и их свойства 1.5. Предварительный (дорегрессионный) анализ зависи мости эндогенной и экзогенных переменных 1.5.1. Общие принципы 1.5.2. Критерий идеального наблюдателя 1.5.3. Критерий Неймана-Пирсона 1.5.4. Критерий проверки гипотезы Но при скалярной экзогенной переменной 1.5.5. Критерий проверки гипотезы Но при векторной экзогенной переменной
7 11 13 19 21 21 24 25 27 31
Diasa 2. Методы оценивания параметров регрессионных моделей 2.1. Проблема оценивания и общие характеристики то чечных оценок. Неравенство Рао-Крамера 2.2. Операции многомерного дифференцирования 2.3. Метод наименьших квадратов 2.3.1. МНК-оценки , 2.3.2. Основные свойства МНК-оценок. Теорема Мар кова 2.3.3. МНК-оценки параметров производственной функции Кобба—Дугласа 238
35 41 44 44 47 50
2.3.4. Идемпотентные матрицы 2.3.5. Несмещенная оценка дисперсии эксперимен тальных ошибок и ее свойства 2.3.6. Проблема обусловленности МНК-оценок. Век торные и матричные нормы 2.3.7. Рекуррентный метод наименьших квадратов 2.3.8. Коэффициент детерминации. Послерегрессионный анализ регрессионной модели 2.3.9. Нелинейные регрессионные модели. Проблема стохастической сходимости 2.4. Максимально правдоподобные оценки регрессион ных параметров 2.5. Метод максимума апостериорной плотности вероят ностей 2.6. Байесовские оценки регрессионных параметров 2.7. Минимаксные оценки рефессионных параметров ...
53 55 59 63 68 77 86 91 96 102
Вторая часть. МАТЕМАТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ BPEMEHHbix РЯДОВ
Глава 3. Структурно детерминированные временные ряды 3.1. Математические модели структурно детерминиро ванных временных рядов 3.2. Ортонормированные системы функций 3.2.1. Банаховы и гильбертовы пространства 3.2.2. Пространство L2 3.2.3. Ортогональные и ортонормированные системы функций 3.2.4. Обобщенные ряды Фурье 3.2.5. Минимальное свойство коэффициентов Фурье.. 3.2.6. Сходимость обобщенных рядов Фурье 3.2.7. Ортогональные (ортонормированные) системы дискретных функций 3.2.8. Ортогональные системы тригонометрических и полиномиальных дискретных функций 3.3. Предварительное (локальное) сглаживание времен ных рядов 3.4. Линейное прогнозирование структурно детермини рованных рядов
105 109 109 113 115 120 122 125 128 133 136 140 239
3.5. Рекуррентное прогнозирование структурно детерми нированных рядов 3.6. Анализ адекватности модели тренда временного ряда
144 152
Гпава 4. Стохастические временные ряды 4.1. Случайные процессы (начальные определения и классификация) 4.2. Одномерные характеристики случайного процесса .. 4.3. Многомерные характеристики случайного процесса. Марковские процессы 4.4. Ковариационные и взаимные ковариационные функции случайных процессов. Белый шум 4.5. Стационарные и эргодические случайные процессы 4.6. Спектральная плотность случайного процесса 4.7. Преобразование случайного процесса линейным оператором 4.8. Преобразование случайного процесса оператором свертки 4.9. Формирующие фильтры 4.10. Типовые модели стохастических временных рядов эконометрики 4.11. Стохастический вектор состояния. Обобщенная матрично-векторная модель временного ряда 4.12. Рекуррентный алгоритм прогнозирования стохас тических временных рядов (калмановский фильтр) 4.13. Нелинейная параметрическая идентификация мо дели стохастического временного ряда 4.14. Обобщенный рекуррентный алгоритм прогнозиро вания стохастических временных рядов
213
Приложение 1. Операционные методы исследования динами ческих систем
215
Приложение 2. Калмановское прогнозирование развития от дельных отраслей экономики России
226
Литература
233
Предметный указатель
235
158 160 164 169 173 177 179 181 186 193 198 202 209
Учебное издание
Чураков Евгений Павлович МАТЕМАТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ В ЭКОНОМИКЕ Заведующая редакцией Л. А. Табакова Редактор В. В. Космин Младший редактор Я. Л. Федорова Художественный редактор Ю. И. Лртюхов Технический редактор И. В. Завгородняя Корректоры Т. К. Колпакова, Г. В. Хлопцева Художественное оформление Н. Н. Биксентеева Компьютерная верстка Н. Л. Пыминовой ИБ№4642
Подписано в печать 15.10.2003 г. Формат 60x88/16. Печать офсетная Гарнитура «Тайме». Усл. п. л. 14,7. Уч.-изд. л. 12,84 Тираж 3000 экз. Заказ 865. «С» 238 Издательство «Финансы и статистика» 101000, Москва, ул. Покровка, 7 Телефон (095) 925-35-02, факс (095) 925-09-57 E-mail: [email protected] http://www.fmstat.ru ГУП «Великолукская городская типография» Комитет по средствам массовой информации Псковской области, 182100, Великие Луки, ул. Полиграфистов, 78/12 Тел./факс: (811-53) 3-62-95 E-mail: VTL@MARTRU