Вопросы региональной экономики №1(6) 2011

жүктеу/скачать 2,69 Mb.

Pdf көрінісі

бет	13/13
Дата	03.03.2017
өлшемі	2,69 Mb.
	#7569

1 ... 5 6 7 8 9 10 11 12 13

Вопросы региональной экономики №1(6) 2011
120
Как  видно  из  (7)  -  (9),
(11)  –  (12)  задача  ЛП  при  вы-
числении
i 
ой  компоненты
имеет
2
1
n
i
 
  нетривиаль-
ных ограничений и
2
1
n
p



неизвестных  переменных,  что
при  значительных  объемах  на-
блюдений  может  приводить  к
большим  объемам  вычислений.
С  этой  точки  зрения  задача ЛП,
двойственная  к  задаче  (7)  -  (9),
(11)  –  (12),  требует  меньших
объемов  вычислений  и,  более
того,  двойственные  оценки  со-
держат, как увидим ниже, инди-
каторную  информацию  о  самих
точках.
Сформулируем
задачу
ЛП,  двойственную  к  задаче  оп-
тимизации (7) - (9), (11) – (12) в
случае  вычисления
i 
ой  ком-
поненты на
k 
ой итерации:
, ,
min,
  



(13)
(
)
0,
T
e





(14)

0
ˆ
ˆ
)
(
)
1
(
1







k
T
i
T
c
C
X





(15)

(
) 1,
t
e





(16)
0,
0,





где

  и

  вектора  двойствен-
ных  переменных  размерности
n
,  относящиеся,  соответствен-
но,  к  ограничениям  (5)  и  (6)
прямой  задачи,  вектор

  имеет
размерность
1
i 
,  его  компо-
ненты  не  ограничены  в  знаке  и
являются  двойственными  оцен-
ками  для  ограничений    (8),  пе-
ременная

  относится  к  огра-
ничению  (9).  Отметим,  что  чис-
ло ограничений (13) – (16) всего
лишь
2
p 
.
Минимаксная  плоскость
и  пара  граничных  плоскостей,
которые она индуцирует, имеют
в многомерном случае свойства,
известные  нам  в  одномерном:
все  наблюдения  находятся  меж-
ду  максимальным  и  минималь-
ным  значениями,  выборочная
оценка  центра  -  средняя  точка
находится на равном расстоянии
от  этих  значений  и  устойчива  к
колебаниям  внутренних  точек
выборки. В многомерном случае
роль  максимальных  и  мини-
мальных  значений  выполняют
пары  граничных  плоскостей  и
опорные точки (т.е. наблюдения,
лежащие  на  плоскостях),  число
которых  для  каждой  пары  не
менее
1
p 
  (это  справедливо в
случае  отсутствия  условий  (11)
ортогональности;  каждое  усло-
вие  ортогональности  уменьшает
число
1
p 
  на  единицу).  Ос-
тальные  точки  внутренние  и,
если  при  их  колебаниях  они  не
выходят  из  области,  ограничен-
ной  парой  параллельных  плос-
костей,  то  минимаксная  плос-
кость  остается  прежней,  т.е.  в
указанном смысле эта плоскость
устойчива к внутренним точкам.
Эти  и  другие  свойства  мини-
максной  регрессии  более  под-
робно  рассматривались  автором

Вопросы региональной экономики №1(6) 2011

121
[4].
Неотрицательные  двой-
ственные оценки
i

  и
i

  отно-
сятся  к
i 
  наблюдению  и  яв-
ляются  его  важной  характери-
стикой.  Если  в  оптимальном
решении  (13)  -  (16)  при  вычис-
лении
j 
  ой  плоскости  имеем
i

=
i

=0,  то
i 
е  наблюдение
лежит  внутри  ее  пары  гранич-
ных  плоскостей.  Если
0
i


,
то
0
i


, из этого следует, что
i 
е  наблюдение  опорное  и  ле-
жит на одной из плоскостей па-
ры.  В  случае
0
i


  и
0
i



точка  лежит  на  другой  плоско-
сти  этой  пары.  Область  значе-
ний
i

  и
i

  является  отрезком
[0, 0.5], при этом (см. (14) и (16))
сумма  по  всем
i

  равна  0.5  и
равна сумме по всем
i

.
4. Численный эксперимент
Для  проверки  примени-
мости  минимаксного  подхода  к
определению  главных  компо-
нент  использовались  статисти-
ческие  данные,  взятые  из  от-
крытого
источника
http://data.cemi.rssi.ru/GRAF/Inp
Dat.php  сайта  ЦЭМИ  РАН
«Эконометрическая
модель
экономики России» (В.Макаров,
С.Айвазян  и  др.).  Нахождение
начального приближения в этом
методе обеспечивалось простым
в  реализации  методом  макси-
мального  размаха,  предложен-
ным  автором  специально  для
этой  цели.  Однако  этот  метод,
как оказалось,  при сравнении с
классическим  методом  главных
компонент, показал  свойства  не
уступающие,  а  в  изложенном
ниже примере и превосходящие
его.  В  этой  связи  метод  макси-
мального  размаха  заслуживает
отдельного изложения.

4.1. Метод максимального
размаха.
Пусть
X
  —  матрица
числовых
данных
размером
*
n
p
;
p
  -  число  показате-
лей,  регистрируемых  в  каж-
дом  наблюдений,
n
  —  число
наблюдений,
1
n
p


,  мат-
рица
X
имеет ранг
p
. Наблю-
дения
(1)
(2)
( )
,
,......,
n
x
x
x
об-
разуют
* (
1) / 2
n
n 
  различ-
ных пар
( )
( )
(
),
k
l
x
x
k
l


. В
качестве  меры  расстояния  (раз-
маха)  между  наблюдениями  па-
ры  будем  использовать  обыч-
ную
евклидову
метрику
( )
( )
||
||
k
l
x
x

.
Определим  первую  глав-
ную  компоненту  как  направле-
ние  (вектор
1
ˆc
),  на  котором
достигается  максимальная  ве-
личина  проекции  среди  всех
пар наблюдений и направлений,
т.е.
,
1
,
(
max
min
arg
сˆ

)
(
)
(
*
1



c
x
x
c
l
k

(17)

Вопросы региональной экономики №1(6) 2011
122
где
( )
( )
* (
)
k
l
c
x
x

  –  скаляр-
ное произведение и при условии
нормировки
|| || 1
c 
  является
величиной  проекции  вектора
( )
( )
(
)
k
l
x
x

  на  направление
c
.
В  постановке  (17)  на-
правление  первой  главной  ком-
поненты,  очевидно,  будет  сов-
падать  с  вектором,  соединяю-
щим  два  наблюдения,  расстоя-
ние  между  которыми  макси-
мально.  Если  таких  пар  не-
сколько,  то  решение  не  единст-
венно. Этот случай здесь не бу-
дем  рассматривать.  Другими
словами,  определение  первой
главной компоненты сводится к
нахождению  пары наблюдений
с максимальным расстоянием.
В  общем  случае
i 
я
главная  компонента  вычисля-
ется  следующим  алгоритмом.
Пусть
1
2,.......
1
ˆ ˆ
ˆ
,
i
c c
c

  нормиро-
ванные  вектора  вычисленных
ранее  главных  компонент.  Про-
ектируем  все  наблюдения  на
пространство,
образованное
указанными  векторами.  В  ре-
зультате  получаем  вектора  про-
екций
(1)
2
( )
||
||
||
,
,....,
n
pr
pr
pr
x
x
x
  на-
блюдений. Из разложения
( )
( )
( )
||
,
1,
j
j
j
pr
pr
x
x
x
j
n





получаем
последовательность
проекций
наблюдений
(1)
2
( )
,
,....,
n
pr
pr
pr
x
x
x



  на  про-
странство,  ортогональное  к  ра-
нее  найденным  главным  компо-
нентам.  Далее  следуют  дейст-
вия,  аналогичные  вычислению
первой  компоненты:  получен-
ные  проекции  образуют,  как
выше,
набор
* (
1) / 2
n
n 

возможных пар и среди них  на-
ходим  пару  с  максимальным
расстоянием.  Вектор,  соеди-
няющий  эту  пару,  определяет
направление  и  значение
i 
ой
главной компоненты.
Заметим,  что  проекцион-
ная матрица
1
i
P

для получения
последовательности
(1)
(2)
( )
||
||
||
,
,....,
n
pr
pr
pr
x
x
x
  на
i 
ой
итерации  в  случае  ортонорми-
рованных
векторов
главных
компонент имеет простой вид
1
1
1
T
i
i
i
P
C C




,
где
1
i
C

-  матрица,  составлен-
ная  из  векторов
1
2,.......
1
ˆ ˆ
ˆ
,
i
c c
c


главных  компонент,  размером
* (
1)
m
i 
.
Для  подтверждения  дее-
способности  данного  подхода
рассмотрим  его  применение  на
классических  данных  цветков
Ириса  [6],  которые,  зачастую,
используются  для  тестирования
предлагаемых  методов  анализа
многомерных  данных.  Данные
заимствованы  из  открытого  ис-
точника  [5]  репозитория  UCI
тестовых  статистических  мас-
сивов,  организованного  в  уни-
верситете  г.  Ирвин  (Калифор-
ния,  США).  Содержательно  это
выборка  из  150  наблюдений

Вопросы региональной экономики №1(6) 2011

123
цветков Ириса, для каждого из-
мерены  4  классификационных
ботанических  признака.  Цветки
Ириса принадлежат трем видам,
которые  в  выборке  представле-
ны подвыборками по 50 наблю-
дений  каждого  вида.  Известно,
что один вид линейно отделяет-
ся от двух других, для которых,
однако,  нет  линейного  дискри-
минатора.
Эксперимент  состоит  в
проверке  -  повторит  ли  изло-
женный  выше  подход  извест-
ные  результаты  по  разделению
видов цветка Ириса в координа-
тах его первых двух компонент.
Исходные ботанические данные
предварительно  масштабирова-
лись  путем  деления  измерений
признака  на  его  максимальный
размах. Результаты метода мак-
симального  размаха  приведены
на рис.1. Для сравнения на рис.
2  дано  представления  наблюде-
ний  на  плоскости  первых  двух
собственных  векторов  класси-
ческого  метода  главных  компо-
нент.  Результаты  по  классиче-
скому  методу  рассчитаны  авто-
ром,  аналогичные  результаты
приведены ранее [2].
Обозначения  на  рисун-
ках  наблюдений:    -  вид  Iris-
versicolorI,

-  вид  Iris-
virginica,     - вид Iris-setosa.

Рис.1 Представление данных
методом максимального размаха
    Рис.2 Представление данных
классическим методом

Как  видно,  качественно
рисунки  близки,  однако  на
рис.1  наблюдения  различных
классов  более  «разнесены»,
чем  на  рис.2.  Другими  слова-
ми,  представление  данных  в
координатах  первых  двух  ком-
понент,  полученных  методом
максимального  размаха,  имеет
несколько  более  четко  выра-

Вопросы региональной экономики №1(6) 2011
124
женную
классификационную
структуру.
Подтверждением  близо-
сти результатов обоих методов
в  данном  примере  является
таблица  1,  где  приведены  зна-
чения  косинусов  углов  векто-
ров  главных  компонент  с  каж-
дой координатой (значения для
классического  метода  даны
вторым  числом  через  слеш  /).
Серым
цветом
обозначены
ячейки  с  большими  значения-
ми  косинусов.  Как  видно,  их
значения  весьма  близки  для
обоих методов.

Табл. 1. Значение косинусов углов векторов главных компонент
максимального размаха и классического методов
№ век-
тора
1
x

2
x

3
x

4
x

1
0.57/0.52
-0.1/-0.26
0.59/0.58
0.55/0.57
2
0.36/0.37
0.92/0.92
-0.13/0.02
-0.06/0.06
3
0.7/0.72
-0.35/-0.24
-0.19/-0.14
-0.59/-0.63
4
0.2/0.26
-0.15/-0.12
-0.77/-0.8
0.58/0.52

Отличие
результатов
максимального  размаха  и  клас-
сического методов имеют место
лишь  в  нагрузках  на  каждую
компоненту.  Для  рассматривае-
мого метода нагрузки в процен-
тах для всех четырех компонент
составляли: 48%, 29%, 15%, 8%
(рассчитывалась как отношение
размаха  по  данной  компоненте
к суммарному размаху по всем).
Для  классического  метода,  со-
ответственно,  получаем:  73%,
22.5%,  4%,  0.5%  (процентные
значения собственных значений
ковариационной  матрицы).  Ка-
залось  бы,  классический  метод
предпочтительней
в
смысле
распределения изменчивости по
главным  компонентам.  Однако
следует  отметить,  собственные
значения
это
квадратичная
функция  от  исходных  данных,
тогда как размах зависит от них
линейно.  Если  извлечь  корень
из  собственных  значений  и
вновь  вычислить  процентное
соотношение, то получим: 53%,
30%,  12,5%,  4.5%.  Как  видим,
вновь получаем близкие резуль-
таты для обоих методов.

4.2 Численный эксперимент с
минимаксным методом.
Данные
представляют
поквартальные  наблюдения,  на-
чиная  с  четвертого  квартала
1995  года  по  2008  год  включи-
тельно,
следующих
четырех
макропоказателей РФ:

Вопросы региональной экономики №1(6) 2011

125
1
x
-  значение валового внутрен-
него продукта (ВВП),
2
x
-  величина  инвестиций  с  ла-
гом в 4 квартала,
3
x
-  квартальное  приращение
курса доллара,
4
x
-  значение  ВВП  с  лагом  в
один квартал.
Таким образом, фактиче-
ские  данные  представляют  53
точки  в  четырехмерном  про-
странстве
53
n 
и
4
m 
.
Эмпирические  распреде-
ления  используемых  показате-
лей приведены на рис.3 и следу-
ет  отметить,  что  визуально  они
весьма  отличаются  от  нормаль-
ного. В этом случае применение
классического  метода  главных
компонент,
основанного
на
нормальном
распределении
данных,
не
представляется
обоснованным.

ВВП                                                       Инвестиции                                               Приращение доллара
Рис.3. Эмпирические плотности распределений показателей

В  результате  примене-
ния  изложенной  выше  проце-
дуры
определения
главных
компонент  путем  многократно-
го  решения  задачи  (13)  –  (16)
получен  параллелепипед,  коси-
нусы  углов ребер (направление
компонент)  которого с  коорди-
натами приведены в таблице 2.
Длины  ребер  параллелепипеда
в  процентном  отношении  рав-
ны: первое по длине составляет
61%  от  общей  суммы  всех  че-
тырех  ребер,  второе  –  30%  и
два последних по 5% и 3%. От-
метим,  что  исходные  данные
предварительно  масштабирова-
лись  путем  деления  значений
каждого  показателя  на  его  раз-
мах  и  центрировались  вычита-
нием  его  минимального  значе-
ния.
Для  сравнения  по  этим
данным  вычислена  ковариаци-
онная  матрица  и  найдены  ее
собственные  значения  и  векто-
ра,  т.е.  определены  главные
компоненты  классическим  ме-
тодом [Айвазян (1989)].  В  про-
центном  отношении  эти  собст-
венные  значения  следующие:
первое составляет - 88.4%, вто-
рое – 11%, третье – 0,5% и чет-
вертое  –  0,1%.  Как  в  первом
эксперименте,  переходим  от
квадратичной  характеристики
изменчивости  к  линейной  (т.е.
извлекаем  корень  из  собствен-
ных значений и пересчитываем
процентные  соотношения).  В

Вопросы региональной экономики №1(6) 2011
126
результате  получаем:  первая
компонента  содержит  –  68,5%,
вторая  –  24%,  третья  –  5%  и
четвертая  –  2,5%,  что  вновь
близко  к  минимаксному  мето-
ду.
Также  главные  компо-
ненты вычислялись первым ме-
тодом из условия максимально-
го  размаха.  Представим  в  виде
триады  процентные отношения
для  всех  трех  методов.  Первая
тройка чисел  – это процент на-
грузки  первой  главной  компо-
ненты,
соответственно,
для
первого,  второго  и  классиче-
ского  методов,  вторая  тройка
чисел  –  это  процент  второй
компоненты и т.д.
57%-61%-68.5%,      34%-30%-
24%,      6%-6%-5%,      3%-3%-
2.5%
Как  видно  из  приведен-
ных  значений,  в  классическом
методе  суммарная  изменчи-
вость  на  направлениях  первого
и  второго  собственного  векто-
ров  практически  равна  измен-
чивости
по
первым
двум
«длинным»  ребрам  параллеле-
пипедов  рассматриваемых  ме-
тодов.
Матрица
нормирован-
ных  векторов  ребер  (косинусы
углов  векторов  с  координата-
ми)  приведена в таблице 2, где
первое и второе число в ячейке
относится к первому и второму
минимаксному методу, а третье
число  -  косинусы  собственных
векторов  для  классического
случая.  Серым  цветом  выделе-
ны  ячейки,  где  имеют  место
минимальные  углы  с  соответ-
ствующими  осями  и  отметим,
что  в  данном  примере  выде-
ленные  ячейки  совпадают  для
всех  методов  на  первых  двух
компонентах.

Табл. 2. Косинусы углов главных компонент с координатами
для трех методов
№
век
то-
ра
1
x

ВВП
2
x

Инвестиции
3
x

Изменение курса
доллара
4
x

ВВП с лагом
1
0.66/0.7/0.71
0.1/0.12/0.11
-0.47/-0.33/-0.1
0.58/0.63/0.68
2
0.24/0.22/0.06
0.13/0.14/0.05
0.87/0.94/0.99
0.41/0.22/0.07
3
0.66/0.62/0.17
0.26/0.24/0.98
0.11/0.0/0.03
-0.7/-0.74/-0.01
4
-0.29/-0.28/-0.67
0.95/0.95/-0.12
-0.1/-0.1/0.01
0.07/0.08/0.72

Из  таблицы  косинусов
следует,  что  значения  первого
самого  длинного  ребра опреде-
ляются,  в  основном,  первым  и
четвертым  показателями  (ВВП
и ВВП с лагом в один квартал),
причем  вклад  каждого  из  них
примерно  одинаков.  Второе
ребро имеет весьма малый угол
с  показателем  «приращение

Вопросы региональной экономики №1(6) 2011

127
курса  доллара»,  т.е.  связано,  в
основном,  с  этим  показателем.
Нагрузки на третье и четвертое
ребро  для  минимаксных  мето-
дов и классического расходятся
и  если  пытаться  их  интерпре-
тировать,  то  получим  разные
версии.
Сравнение  первого  и
второго методов показывает их
хорошее  согласие  на  всех  ком-
понентах.  Сравнение  этих  ме-
тодов  с  классическим  показы-
вает,  в  целом,  хорошее  согла-
сие  на  первых  двух  векторов.
На  двух  последних  компонен-
тах, которые учитывают малую
долю  изменчивости,  согласие
между  минимаксными  и  клас-
сическим методом не наблюда-
ется.
В  целом,  эксперимент
на  использованных  реальных
данных  демонстрирует, на наш
взгляд,  разумные  результаты,
во  многом  хорошо  согласован-
ные  с  расчетами  классическим
методом  наименьших  квадра-
тов. Для изучения эффективно-
сти
минимаксного
подхода
требуются,  естественно,  допол-
нительные  теоретические  ис-
следования  и  эксперименты,
которые определят области  его
предпочтительного
примене-
ния.
Заметим,  однако,  что
минимаксный  подход  следует
рассматривать  не  только  как
альтернативу
классическим
главным  компонентам,  но,  как
нам  представляется,  он  дает
дополнительную  полезную  ин-
формацию.  В  частности,  как
уже  отмечалось,  локализация
многомерных  данных  в  про-
стом  геометрическом  образе
(параллелепипеде),  на  гранях
которого  находится  часть  на-
блюдений,  позволяет  получить
ряд  содержательно  интересных
результатов.

4. Заключение
1.
Рассмотренные  методы
вычисления  главных  компо-
нент  показали  в  численных
экспериментах
результаты
(распределение  изменчивости
по  главным  компонентам  и  их
направление), которые не усту-
пают свойствам оценок класси-
ческого  метода  наименьших
квадратов.
2.
Вычислительная
про-
стота  и  наглядность  метода
максимального  размаха  делают
полезным  его  применение  на
стадии  предварительного  ана-
лиза  эконометрических  дан-
ных,  также  он  интересен  как
альтернативный  взгляд  на  дан-
ные  при  использовании  клас-
сического метода.
3.
Минимаксный
метод
помимо  определения  главных
компонент  перспективно  ис-
пользовать  в  задачах  локализа-
ции многомерных данных.
4.
Теоретические  свойства
оценок в предложенном методе
построения    главных  компо-
нент  пока  не  изучены,  но,  как
известно, в одномерном  случае
минимаксная  оценка  (середина
выборочного
размаха)
при

Вопросы региональной экономики №1(6) 2011
128
равномерном
распределении
случайной  величины  имеет
скорость  сходимости
1/ n
,  то-
гда  как  выборочное  среднее
значение  в  модели  нормально-
го  распределения  имеет  ско-
рость
1/ n
.  По  аналогии
можно ожидать эффективность
рассмотренных  методов  в  мо-
делях  с  равномерным  законом
распределения
наблюдений,
где  параллелепипед  является
оценкой  максимального  прав-
доподобия.

Литература

1.
Гольштейн Е.Г. Теория двойственности в математическом про-
граммировании и ее приложения. М., Наука, 1971.
2.
Зиновьев А.Ю. Визуализация многомерных данных. Издатель-
ство  Красноярского  государственного  технического  университета,
2000. — 180 с.
3.
Киселев  Н.И.  Альтернативные  методы  оценивания  главных
компонент. Прикладная эконометрика, т.49, М., Наука, 2010
4.
Киселев  Н.И.  Линейное  программирование  в  экстремальных
задачах  статистики.  Ученые  записки  по  статистике,  т.49,  М.,  Наука,
1985
5.
Asuncion  A.,  Newman  D.J.  UCI  Machine  Learning  Repository
(
http://www.ics.uci.edu/~mlearn/MLRepository.html
,  дата  обращения
10.09.10г.).  Irvine,  CA:  University  of  California,  School  of  Information
and Computer Science. 2007.
6.
Fisher R.A. "The use of multiple measurements in taxonomic prob-
lems" Annual Eugenics, 7. Part II, 179-188 (1936);

жүктеу/скачать 2,69 Mb.

Достарыңызбен бөлісу:

1 ... 5 6 7 8 9 10 11 12 13