Вопросы региональной экономики №1(6) 2011


Вопросы региональной экономики №1(6) 2011



Pdf көрінісі
бет13/13
Дата03.03.2017
өлшемі2,69 Mb.
#7569
1   ...   5   6   7   8   9   10   11   12   13

Вопросы региональной экономики №1(6) 2011 
120 
Как  видно  из  (7)  -  (9), 
(11)  –  (12)  задача  ЛП  при  вы-
числении 

ой  компоненты 
имеет 
2
1
n
i
 
  нетривиаль-
ных ограничений и 
2
1
n
p


 
неизвестных  переменных,  что 
при  значительных  объемах  на-
блюдений  может  приводить  к 
большим  объемам  вычислений. 
С  этой  точки  зрения  задача ЛП, 
двойственная  к  задаче  (7)  -  (9), 
(11)  –  (12),  требует  меньших 
объемов  вычислений  и,  более 
того,  двойственные  оценки  со-
держат, как увидим ниже, инди-
каторную  информацию  о  самих 
точках. 
Сформулируем 
задачу 
ЛП,  двойственную  к  задаче  оп-
тимизации (7) - (9), (11) – (12) в 
случае  вычисления 

ой  ком-
поненты на 

ой итерации: 
, ,
min,
  


                             
(13) 
(
)
0,
T
e




                   
(14)
 
0
ˆ
ˆ
)
(
)
1
(
1







k
T
i
T
c
C
X




                
(15)
 
(
) 1,
t
e




                    
(16) 
0,
0,




 
 
где 

  и 

  вектора  двойствен-
ных  переменных  размерности 
n
,  относящиеся,  соответствен-
но,  к  ограничениям  (5)  и  (6) 
прямой  задачи,  вектор 

  имеет 
размерность 
1

,  его  компо-
ненты  не  ограничены  в  знаке  и 
являются  двойственными  оцен-
ками  для  ограничений    (8),  пе-
ременная 

  относится  к  огра-
ничению  (9).  Отметим,  что  чис-
ло ограничений (13) – (16) всего 
лишь 
2


Минимаксная  плоскость 
и  пара  граничных  плоскостей, 
которые она индуцирует, имеют 
в многомерном случае свойства, 
известные  нам  в  одномерном: 
все  наблюдения  находятся  меж-
ду  максимальным  и  минималь-
ным  значениями,  выборочная 
оценка  центра  -  средняя  точка 
находится на равном расстоянии 
от  этих  значений  и  устойчива  к 
колебаниям  внутренних  точек 
выборки. В многомерном случае 
роль  максимальных  и  мини-
мальных  значений  выполняют 
пары  граничных  плоскостей  и 
опорные точки (т.е. наблюдения, 
лежащие  на  плоскостях),  число 
которых  для  каждой  пары  не 
менее 
1

  (это  справедливо в 
случае  отсутствия  условий  (11) 
ортогональности;  каждое  усло-
вие  ортогональности  уменьшает 
число 
1

  на  единицу).  Ос-
тальные  точки  внутренние  и, 
если  при  их  колебаниях  они  не 
выходят  из  области,  ограничен-
ной  парой  параллельных  плос-
костей,  то  минимаксная  плос-
кость  остается  прежней,  т.е.  в 
указанном смысле эта плоскость 
устойчива к внутренним точкам. 
Эти  и  другие  свойства  мини-
максной  регрессии  более  под-
робно  рассматривались  автором 

 
Вопросы региональной экономики №1(6) 2011
 
121
[4]. 
Неотрицательные  двой-
ственные оценки 
i

  и 
i

  отно-
сятся  к 

  наблюдению  и  яв-
ляются  его  важной  характери-
стикой.  Если  в  оптимальном 
решении  (13)  -  (16)  при  вычис-
лении 

  ой  плоскости  имеем 
i

=
i

=0,  то 

е  наблюдение 
лежит  внутри  ее  пары  гранич-
ных  плоскостей.  Если 
0
i



то 
0
i


, из этого следует, что 

е  наблюдение  опорное  и  ле-
жит на одной из плоскостей па-
ры.  В  случае 
0
i


  и 
0
i


 
точка  лежит  на  другой  плоско-
сти  этой  пары.  Область  значе-
ний 
i

  и 
i

  является  отрезком  
[0, 0.5], при этом (см. (14) и (16)) 
сумма  по  всем 
i

  равна  0.5  и 
равна сумме по всем 
i


4. Численный эксперимент 
Для  проверки  примени-
мости  минимаксного  подхода  к 
определению  главных  компо-
нент  использовались  статисти-
ческие  данные,  взятые  из  от-
крытого 
источника 
http://data.cemi.rssi.ru/GRAF/Inp
Dat.php  сайта  ЦЭМИ  РАН 
«Эконометрическая 
модель 
экономики России» (В.Макаров, 
С.Айвазян  и  др.).  Нахождение 
начального приближения в этом 
методе обеспечивалось простым 
в  реализации  методом  макси-
мального  размаха,  предложен-
ным  автором  специально  для 
этой  цели.  Однако  этот  метод, 
как оказалось,  при сравнении с 
классическим  методом  главных 
компонент, показал  свойства  не 
уступающие,  а  в  изложенном 
ниже примере и превосходящие 
его.  В  этой  связи  метод  макси-
мального  размаха  заслуживает 
отдельного изложения. 
 
4.1. Метод максимального 
размаха. 
Пусть 
X
  —  матрица 
числовых 
данных 
размером 
*
n
p

p
  -  число  показате-
лей,  регистрируемых  в  каж-
дом  наблюдений, 
n
  —  число 
наблюдений, 
1
n
p


,  мат-
рица 
X
 имеет ранг 
p
. Наблю-
дения 
(1)
(2)
( )
,
,......,
n
x
x
x
об-
разуют 
* (
1) / 2
n

  различ-
ных пар 
( )
( )
(
),
k
l
x
x
k
l


. В 
качестве  меры  расстояния  (раз-
маха)  между  наблюдениями  па-
ры  будем  использовать  обыч-
ную 
евклидову 
метрику 
( )
( )
||
||
k
l
x
x


Определим  первую  глав-
ную  компоненту  как  направле-
ние  (вектор 
1
ˆc
),  на  котором 
достигается  максимальная  ве-
личина  проекции  среди  всех 
пар наблюдений и направлений, 
т.е. 
,
1
,
(
max
min
arg
сˆ
 
)
(
)
(
*
1



c
x
x
c
l
k
 
(17) 

 
Вопросы региональной экономики №1(6) 2011 
122 
где 
( )
( )
* (
)
k
l
c
x
x

  –  скаляр-
ное произведение и при условии 
нормировки 
|| || 1

  является 
величиной  проекции  вектора 
( )
( )
(
)
k
l
x
x

  на  направление 
c

В  постановке  (17)  на-
правление  первой  главной  ком-
поненты,  очевидно,  будет  сов-
падать  с  вектором,  соединяю-
щим  два  наблюдения,  расстоя-
ние  между  которыми  макси-
мально.  Если  таких  пар  не-
сколько,  то  решение  не  единст-
венно. Этот случай здесь не бу-
дем  рассматривать.  Другими 
словами,  определение  первой 
главной компоненты сводится к 
нахождению  пары наблюдений 
с максимальным расстоянием. 
В  общем  случае 

я 
главная  компонента  вычисля-
ется  следующим  алгоритмом. 
Пусть 
1
2,.......
1
ˆ ˆ
ˆ
,
i
c c
c

  нормиро-
ванные  вектора  вычисленных 
ранее  главных  компонент.  Про-
ектируем  все  наблюдения  на 
пространство, 
образованное 
указанными  векторами.  В  ре-
зультате  получаем  вектора  про-
екций 
(1)
2
( )
||
||
||
,
,....,
n
pr
pr
pr
x
x
x
  на-
блюдений. Из разложения 
( )
( )
( )
||
,
1,
j
j
j
pr
pr
x
x
x
j
n




 
получаем 
последовательность 
проекций 
наблюдений 
(1)
2
( )
,
,....,
n
pr
pr
pr
x
x
x



  на  про-
странство,  ортогональное  к  ра-
нее  найденным  главным  компо-
нентам.  Далее  следуют  дейст-
вия,  аналогичные  вычислению 
первой  компоненты:  получен-
ные  проекции  образуют,  как 
выше, 
набор 
* (
1) / 2
n

 
возможных пар и среди них  на-
ходим  пару  с  максимальным 
расстоянием.  Вектор,  соеди-
няющий  эту  пару,  определяет 
направление  и  значение 

ой 
главной компоненты. 
Заметим,  что  проекцион-
ная матрица 
1
i
P

 для получения 
последовательности 
(1)
(2)
( )
||
||
||
,
,....,
n
pr
pr
pr
x
x
x
  на 

ой 
итерации  в  случае  ортонорми-
рованных 
векторов 
главных 
компонент имеет простой вид 
1
1
1
T
i
i
i
P
C C





где 
1
i
C

-  матрица,  составлен-
ная  из  векторов 
1
2,.......
1
ˆ ˆ
ˆ
,
i
c c
c

 
главных  компонент,  размером 
* (
1)
m


Для  подтверждения  дее-
способности  данного  подхода 
рассмотрим  его  применение  на 
классических  данных  цветков 
Ириса  [6],  которые,  зачастую, 
используются  для  тестирования 
предлагаемых  методов  анализа 
многомерных  данных.  Данные 
заимствованы  из  открытого  ис-
точника  [5]  репозитория  UCI 
тестовых  статистических  мас-
сивов,  организованного  в  уни-
верситете  г.  Ирвин  (Калифор-
ния,  США).  Содержательно  это 
выборка  из  150  наблюдений 

 
Вопросы региональной экономики №1(6) 2011
 
123
цветков Ириса, для каждого из-
мерены  4  классификационных 
ботанических  признака.  Цветки 
Ириса принадлежат трем видам, 
которые  в  выборке  представле-
ны подвыборками по 50 наблю-
дений  каждого  вида.  Известно, 
что один вид линейно отделяет-
ся от двух других, для которых, 
однако,  нет  линейного  дискри-
минатора. 
Эксперимент  состоит  в 
проверке  -  повторит  ли  изло-
женный  выше  подход  извест-
ные  результаты  по  разделению 
видов цветка Ириса в координа-
тах его первых двух компонент. 
Исходные ботанические данные 
предварительно  масштабирова-
лись  путем  деления  измерений 
признака  на  его  максимальный 
размах. Результаты метода мак-
симального  размаха  приведены 
на рис.1. Для сравнения на рис. 
2  дано  представления  наблюде-
ний  на  плоскости  первых  двух 
собственных  векторов  класси-
ческого  метода  главных  компо-
нент.  Результаты  по  классиче-
скому  методу  рассчитаны  авто-
ром,  аналогичные  результаты 
приведены ранее [2]. 
Обозначения  на  рисун-
ках  наблюдений:    -  вид  Iris-
versicolorI,     

-  вид  Iris-
virginica,     - вид Iris-setosa. 
 
 
Рис.1 Представление данных           
методом максимального размаха 
    Рис.2 Представление данных     
классическим методом 
 
 
Как  видно,  качественно 
рисунки  близки,  однако  на 
рис.1  наблюдения  различных 
классов  более  «разнесены», 
чем  на  рис.2.  Другими  слова-
ми,  представление  данных  в 
координатах  первых  двух  ком-
понент,  полученных  методом 
максимального  размаха,  имеет 
несколько  более  четко  выра-

 
Вопросы региональной экономики №1(6) 2011 
124 
женную 
классификационную 
структуру. 
Подтверждением  близо-
сти результатов обоих методов 
в  данном  примере  является 
таблица  1,  где  приведены  зна-
чения  косинусов  углов  векто-
ров  главных  компонент  с  каж-
дой координатой (значения для 
классического  метода  даны 
вторым  числом  через  слеш  /). 
Серым 
цветом 
обозначены 
ячейки  с  большими  значения-
ми  косинусов.  Как  видно,  их 
значения  весьма  близки  для 
обоих методов. 
 
 
Табл. 1. Значение косинусов углов векторов главных компонент 
максимального размаха и классического методов 
№ век-
тора 
1
x
 
2
x
 
3
x
 
4
x
 

0.57/0.52 
-0.1/-0.26 
0.59/0.58 
0.55/0.57 

0.36/0.37 
0.92/0.92 
-0.13/0.02 
-0.06/0.06 

0.7/0.72 
-0.35/-0.24 
-0.19/-0.14 
-0.59/-0.63 

0.2/0.26 
-0.15/-0.12 
-0.77/-0.8 
0.58/0.52 
 
Отличие 
результатов 
максимального  размаха  и  клас-
сического методов имеют место 
лишь  в  нагрузках  на  каждую 
компоненту.  Для  рассматривае-
мого метода нагрузки в процен-
тах для всех четырех компонент 
составляли: 48%, 29%, 15%, 8% 
(рассчитывалась как отношение 
размаха  по  данной  компоненте 
к суммарному размаху по всем). 
Для  классического  метода,  со-
ответственно,  получаем:  73%, 
22.5%,  4%,  0.5%  (процентные 
значения собственных значений 
ковариационной  матрицы).  Ка-
залось  бы,  классический  метод 
предпочтительней 
в 
смысле 
распределения изменчивости по 
главным  компонентам.  Однако 
следует  отметить,  собственные 
значения 
это 
квадратичная 
функция  от  исходных  данных, 
тогда как размах зависит от них 
линейно.  Если  извлечь  корень 
из  собственных  значений  и 
вновь  вычислить  процентное 
соотношение, то получим: 53%, 
30%,  12,5%,  4.5%.  Как  видим, 
вновь получаем близкие резуль-
таты для обоих методов. 
 
4.2 Численный эксперимент с 
минимаксным методом. 
Данные 
представляют 
поквартальные  наблюдения,  на-
чиная  с  четвертого  квартала 
1995  года  по  2008  год  включи-
тельно, 
следующих 
четырех 
макропоказателей РФ: 

 
Вопросы региональной экономики №1(6) 2011
 
125
1
x
-  значение валового внутрен-
него продукта (ВВП), 
2
x
-  величина  инвестиций  с  ла-
гом в 4 квартала, 
3
x
-  квартальное  приращение 
курса доллара, 
4
x
-  значение  ВВП  с  лагом  в 
один квартал. 
Таким образом, фактиче-
ские  данные  представляют  53 
точки  в  четырехмерном  про-
странстве 
53

 и 
4


Эмпирические  распреде-
ления  используемых  показате-
лей приведены на рис.3 и следу-
ет  отметить,  что  визуально  они 
весьма  отличаются  от  нормаль-
ного. В этом случае применение 
классического  метода  главных 
компонент, 
основанного 
на 
нормальном 
распределении 
данных, 
не 
представляется 
обоснованным. 
 
ВВП                                                       Инвестиции                                               Приращение доллара
Рис.3. Эмпирические плотности распределений показателей 
 
В  результате  примене-
ния  изложенной  выше  проце-
дуры 
определения 
главных 
компонент  путем  многократно-
го  решения  задачи  (13)  –  (16) 
получен  параллелепипед,  коси-
нусы  углов ребер (направление 
компонент)  которого с  коорди-
натами приведены в таблице 2. 
Длины  ребер  параллелепипеда 
в  процентном  отношении  рав-
ны: первое по длине составляет 
61%  от  общей  суммы  всех  че-
тырех  ребер,  второе  –  30%  и 
два последних по 5% и 3%. От-
метим,  что  исходные  данные 
предварительно  масштабирова-
лись  путем  деления  значений 
каждого  показателя  на  его  раз-
мах  и  центрировались  вычита-
нием  его  минимального  значе-
ния. 
Для  сравнения  по  этим 
данным  вычислена  ковариаци-
онная  матрица  и  найдены  ее 
собственные  значения  и  векто-
ра,  т.е.  определены  главные 
компоненты  классическим  ме-
тодом [Айвазян (1989)].  В  про-
центном  отношении  эти  собст-
венные  значения  следующие: 
первое составляет - 88.4%, вто-
рое – 11%, третье – 0,5% и чет-
вертое  –  0,1%.  Как  в  первом 
эксперименте,  переходим  от 
квадратичной  характеристики 
изменчивости  к  линейной  (т.е. 
извлекаем  корень  из  собствен-
ных значений и пересчитываем 
процентные  соотношения).  В 

 
Вопросы региональной экономики №1(6) 2011 
126 
результате  получаем:  первая 
компонента  содержит  –  68,5%, 
вторая  –  24%,  третья  –  5%  и 
четвертая  –  2,5%,  что  вновь 
близко  к  минимаксному  мето-
ду. 
Также  главные  компо-
ненты вычислялись первым ме-
тодом из условия максимально-
го  размаха.  Представим  в  виде 
триады  процентные отношения 
для  всех  трех  методов.  Первая 
тройка чисел  – это процент на-
грузки  первой  главной  компо-
ненты, 
соответственно, 
для 
первого,  второго  и  классиче-
ского  методов,  вторая  тройка 
чисел  –  это  процент  второй 
компоненты и т.д. 
57%-61%-68.5%,      34%-30%-
24%,      6%-6%-5%,      3%-3%-
2.5% 
Как  видно  из  приведен-
ных  значений,  в  классическом 
методе  суммарная  изменчи-
вость  на  направлениях  первого 
и  второго  собственного  векто-
ров  практически  равна  измен-
чивости 
по 
первым 
двум 
«длинным»  ребрам  параллеле-
пипедов  рассматриваемых  ме-
тодов. 
Матрица 
нормирован-
ных  векторов  ребер  (косинусы 
углов  векторов  с  координата-
ми)  приведена в таблице 2, где 
первое и второе число в ячейке 
относится к первому и второму 
минимаксному методу, а третье 
число  -  косинусы  собственных 
векторов  для  классического 
случая.  Серым  цветом  выделе-
ны  ячейки,  где  имеют  место 
минимальные  углы  с  соответ-
ствующими  осями  и  отметим, 
что  в  данном  примере  выде-
ленные  ячейки  совпадают  для 
всех  методов  на  первых  двух 
компонентах. 
 
Табл. 2. Косинусы углов главных компонент с координатами 
для трех методов 
№ 
век
то-
ра 
1
x
 
ВВП 
2
x
 
Инвестиции 
3
x
 
Изменение курса 
доллара 
4
x
 
ВВП с лагом 

0.66/0.7/0.71 
0.1/0.12/0.11 
-0.47/-0.33/-0.1 
0.58/0.63/0.68 

0.24/0.22/0.06 
0.13/0.14/0.05 
0.87/0.94/0.99 
0.41/0.22/0.07 

0.66/0.62/0.17 
0.26/0.24/0.98 
0.11/0.0/0.03 
-0.7/-0.74/-0.01 

-0.29/-0.28/-0.67 
0.95/0.95/-0.12 
-0.1/-0.1/0.01 
0.07/0.08/0.72 
 
Из  таблицы  косинусов 
следует,  что  значения  первого 
самого  длинного  ребра опреде-
ляются,  в  основном,  первым  и 
четвертым  показателями  (ВВП 
и ВВП с лагом в один квартал), 
причем  вклад  каждого  из  них 
примерно  одинаков.  Второе 
ребро имеет весьма малый угол 
с  показателем  «приращение 

 
Вопросы региональной экономики №1(6) 2011
 
127
курса  доллара»,  т.е.  связано,  в 
основном,  с  этим  показателем. 
Нагрузки на третье и четвертое 
ребро  для  минимаксных  мето-
дов и классического расходятся 
и  если  пытаться  их  интерпре-
тировать,  то  получим  разные 
версии.  
Сравнение  первого  и 
второго методов показывает их 
хорошее  согласие  на  всех  ком-
понентах.  Сравнение  этих  ме-
тодов  с  классическим  показы-
вает,  в  целом,  хорошее  согла-
сие  на  первых  двух  векторов. 
На  двух  последних  компонен-
тах, которые учитывают малую 
долю  изменчивости,  согласие 
между  минимаксными  и  клас-
сическим методом не наблюда-
ется. 
В  целом,  эксперимент 
на  использованных  реальных 
данных  демонстрирует, на наш 
взгляд,  разумные  результаты, 
во  многом  хорошо  согласован-
ные  с  расчетами  классическим 
методом  наименьших  квадра-
тов. Для изучения эффективно-
сти 
минимаксного 
подхода 
требуются,  естественно,  допол-
нительные  теоретические  ис-
следования  и  эксперименты, 
которые определят области  его 
предпочтительного 
примене-
ния.  
Заметим,  однако,  что 
минимаксный  подход  следует 
рассматривать  не  только  как 
альтернативу 
классическим 
главным  компонентам,  но,  как 
нам  представляется,  он  дает 
дополнительную  полезную  ин-
формацию.  В  частности,  как 
уже  отмечалось,  локализация 
многомерных  данных  в  про-
стом  геометрическом  образе 
(параллелепипеде),  на  гранях 
которого  находится  часть  на-
блюдений,  позволяет  получить 
ряд  содержательно  интересных 
результатов. 
 
4. Заключение 
1. 
Рассмотренные  методы 
вычисления  главных  компо-
нент  показали  в  численных 
экспериментах 
результаты 
(распределение  изменчивости 
по  главным  компонентам  и  их 
направление), которые не усту-
пают свойствам оценок класси-
ческого  метода  наименьших 
квадратов. 
2. 
Вычислительная 
про-
стота  и  наглядность  метода 
максимального  размаха  делают 
полезным  его  применение  на 
стадии  предварительного  ана-
лиза  эконометрических  дан-
ных,  также  он  интересен  как 
альтернативный  взгляд  на  дан-
ные  при  использовании  клас-
сического метода. 
3. 
Минимаксный 
метод 
помимо  определения  главных 
компонент  перспективно  ис-
пользовать  в  задачах  локализа-
ции многомерных данных. 
4. 
Теоретические  свойства 
оценок в предложенном методе 
построения    главных  компо-
нент  пока  не  изучены,  но,  как 
известно, в одномерном  случае 
минимаксная  оценка  (середина 
выборочного 
размаха) 
при 

 
Вопросы региональной экономики №1(6) 2011 
128 
равномерном 
распределении 
случайной  величины  имеет 
скорость  сходимости 
1/ n
,  то-
гда  как  выборочное  среднее 
значение  в  модели  нормально-
го  распределения  имеет  ско-
рость 
1/ n
.  По  аналогии 
можно ожидать эффективность 
рассмотренных  методов  в  мо-
делях  с  равномерным  законом 
распределения 
наблюдений, 
где  параллелепипед  является 
оценкой  максимального  прав-
доподобия. 
 
Литература 
 
1. 
Гольштейн Е.Г. Теория двойственности в математическом про-
граммировании и ее приложения. М., Наука, 1971. 
2. 
Зиновьев А.Ю. Визуализация многомерных данных. Издатель-
ство  Красноярского  государственного  технического  университета, 
2000. — 180 с
3. 
Киселев  Н.И.  Альтернативные  методы  оценивания  главных 
компонент. Прикладная эконометрика, т.49, М., Наука, 2010 
4. 
Киселев  Н.И.  Линейное  программирование  в  экстремальных 
задачах  статистики.  Ученые  записки  по  статистике,  т.49,  М.,  Наука, 
1985 
5. 
Asuncion  A.,  Newman  D.J.  UCI  Machine  Learning  Repository 
(
http://www.ics.uci.edu/~mlearn/MLRepository.html
,  дата  обращения 
10.09.10г.).  Irvine,  CA:  University  of  California,  School  of  Information 
and Computer Science. 2007. 
6. 
Fisher R.A. "The use of multiple measurements in taxonomic prob-
lems" Annual Eugenics, 7. Part II, 179-188 (1936); 
 


Достарыңызбен бөлісу:
1   ...   5   6   7   8   9   10   11   12   13




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет