Вопросы региональной экономики №1(6) 2011
120
Как видно из (7) - (9),
(11) – (12) задача ЛП при вы-
числении
i
ой компоненты
имеет
2
1
n
i
нетривиаль-
ных ограничений и
2
1
n
p
неизвестных переменных, что
при значительных объемах на-
блюдений может приводить к
большим объемам вычислений.
С этой точки зрения задача ЛП,
двойственная к задаче (7) - (9),
(11) – (12), требует меньших
объемов вычислений и, более
того, двойственные оценки со-
держат, как увидим ниже, инди-
каторную информацию о самих
точках.
Сформулируем
задачу
ЛП, двойственную к задаче оп-
тимизации (7) - (9), (11) – (12) в
случае вычисления
i
ой ком-
поненты на
k
ой итерации:
, ,
min,
(13)
(
)
0,
T
e
(14)
0
ˆ
ˆ
)
(
)
1
(
1
k
T
i
T
c
C
X
(15)
(
) 1,
t
e
(16)
0,
0,
где
и
вектора двойствен-
ных переменных размерности
n
, относящиеся, соответствен-
но, к ограничениям (5) и (6)
прямой задачи, вектор
имеет
размерность
1
i
, его компо-
ненты не ограничены в знаке и
являются двойственными оцен-
ками для ограничений (8), пе-
ременная
относится к огра-
ничению (9). Отметим, что чис-
ло ограничений (13) – (16) всего
лишь
2
p
.
Минимаксная плоскость
и пара граничных плоскостей,
которые она индуцирует, имеют
в многомерном случае свойства,
известные нам в одномерном:
все наблюдения находятся меж-
ду максимальным и минималь-
ным значениями, выборочная
оценка центра - средняя точка
находится на равном расстоянии
от этих значений и устойчива к
колебаниям внутренних точек
выборки. В многомерном случае
роль максимальных и мини-
мальных значений выполняют
пары граничных плоскостей и
опорные точки (т.е. наблюдения,
лежащие на плоскостях), число
которых для каждой пары не
менее
1
p
(это справедливо в
случае отсутствия условий (11)
ортогональности; каждое усло-
вие ортогональности уменьшает
число
1
p
на единицу). Ос-
тальные точки внутренние и,
если при их колебаниях они не
выходят из области, ограничен-
ной парой параллельных плос-
костей, то минимаксная плос-
кость остается прежней, т.е. в
указанном смысле эта плоскость
устойчива к внутренним точкам.
Эти и другие свойства мини-
максной регрессии более под-
робно рассматривались автором
Вопросы региональной экономики №1(6) 2011
121
[4].
Неотрицательные двой-
ственные оценки
i
и
i
отно-
сятся к
i
наблюдению и яв-
ляются его важной характери-
стикой. Если в оптимальном
решении (13) - (16) при вычис-
лении
j
ой плоскости имеем
i
=
i
=0, то
i
е наблюдение
лежит внутри ее пары гранич-
ных плоскостей. Если
0
i
,
то
0
i
, из этого следует, что
i
е наблюдение опорное и ле-
жит на одной из плоскостей па-
ры. В случае
0
i
и
0
i
точка лежит на другой плоско-
сти этой пары. Область значе-
ний
i
и
i
является отрезком
[0, 0.5], при этом (см. (14) и (16))
сумма по всем
i
равна 0.5 и
равна сумме по всем
i
.
4. Численный эксперимент
Для проверки примени-
мости минимаксного подхода к
определению главных компо-
нент использовались статисти-
ческие данные, взятые из от-
крытого
источника
http://data.cemi.rssi.ru/GRAF/Inp
Dat.php сайта ЦЭМИ РАН
«Эконометрическая
модель
экономики России» (В.Макаров,
С.Айвазян и др.). Нахождение
начального приближения в этом
методе обеспечивалось простым
в реализации методом макси-
мального размаха, предложен-
ным автором специально для
этой цели. Однако этот метод,
как оказалось, при сравнении с
классическим методом главных
компонент, показал свойства не
уступающие, а в изложенном
ниже примере и превосходящие
его. В этой связи метод макси-
мального размаха заслуживает
отдельного изложения.
4.1. Метод максимального
размаха.
Пусть
X
— матрица
числовых
данных
размером
*
n
p
;
p
- число показате-
лей, регистрируемых в каж-
дом наблюдений,
n
— число
наблюдений,
1
n
p
, мат-
рица
X
имеет ранг
p
. Наблю-
дения
(1)
(2)
( )
,
,......,
n
x
x
x
об-
разуют
* (
1) / 2
n
n
различ-
ных пар
( )
( )
(
),
k
l
x
x
k
l
. В
качестве меры расстояния (раз-
маха) между наблюдениями па-
ры будем использовать обыч-
ную
евклидову
метрику
( )
( )
||
||
k
l
x
x
.
Определим первую глав-
ную компоненту как направле-
ние (вектор
1
ˆc
), на котором
достигается максимальная ве-
личина проекции среди всех
пар наблюдений и направлений,
т.е.
,
1
,
(
max
min
arg
сˆ
)
(
)
(
*
1
c
x
x
c
l
k
(17)
Вопросы региональной экономики №1(6) 2011
122
где
( )
( )
* (
)
k
l
c
x
x
– скаляр-
ное произведение и при условии
нормировки
|| || 1
c
является
величиной проекции вектора
( )
( )
(
)
k
l
x
x
на направление
c
.
В постановке (17) на-
правление первой главной ком-
поненты, очевидно, будет сов-
падать с вектором, соединяю-
щим два наблюдения, расстоя-
ние между которыми макси-
мально. Если таких пар не-
сколько, то решение не единст-
венно. Этот случай здесь не бу-
дем рассматривать. Другими
словами, определение первой
главной компоненты сводится к
нахождению пары наблюдений
с максимальным расстоянием.
В общем случае
i
я
главная компонента вычисля-
ется следующим алгоритмом.
Пусть
1
2,.......
1
ˆ ˆ
ˆ
,
i
c c
c
нормиро-
ванные вектора вычисленных
ранее главных компонент. Про-
ектируем все наблюдения на
пространство,
образованное
указанными векторами. В ре-
зультате получаем вектора про-
екций
(1)
2
( )
||
||
||
,
,....,
n
pr
pr
pr
x
x
x
на-
блюдений. Из разложения
( )
( )
( )
||
,
1,
j
j
j
pr
pr
x
x
x
j
n
получаем
последовательность
проекций
наблюдений
(1)
2
( )
,
,....,
n
pr
pr
pr
x
x
x
на про-
странство, ортогональное к ра-
нее найденным главным компо-
нентам. Далее следуют дейст-
вия, аналогичные вычислению
первой компоненты: получен-
ные проекции образуют, как
выше,
набор
* (
1) / 2
n
n
возможных пар и среди них на-
ходим пару с максимальным
расстоянием. Вектор, соеди-
няющий эту пару, определяет
направление и значение
i
ой
главной компоненты.
Заметим, что проекцион-
ная матрица
1
i
P
для получения
последовательности
(1)
(2)
( )
||
||
||
,
,....,
n
pr
pr
pr
x
x
x
на
i
ой
итерации в случае ортонорми-
рованных
векторов
главных
компонент имеет простой вид
1
1
1
T
i
i
i
P
C C
,
где
1
i
C
- матрица, составлен-
ная из векторов
1
2,.......
1
ˆ ˆ
ˆ
,
i
c c
c
главных компонент, размером
* (
1)
m
i
.
Для подтверждения дее-
способности данного подхода
рассмотрим его применение на
классических данных цветков
Ириса [6], которые, зачастую,
используются для тестирования
предлагаемых методов анализа
многомерных данных. Данные
заимствованы из открытого ис-
точника [5] репозитория UCI
тестовых статистических мас-
сивов, организованного в уни-
верситете г. Ирвин (Калифор-
ния, США). Содержательно это
выборка из 150 наблюдений
Вопросы региональной экономики №1(6) 2011
123
цветков Ириса, для каждого из-
мерены 4 классификационных
ботанических признака. Цветки
Ириса принадлежат трем видам,
которые в выборке представле-
ны подвыборками по 50 наблю-
дений каждого вида. Известно,
что один вид линейно отделяет-
ся от двух других, для которых,
однако, нет линейного дискри-
минатора.
Эксперимент состоит в
проверке - повторит ли изло-
женный выше подход извест-
ные результаты по разделению
видов цветка Ириса в координа-
тах его первых двух компонент.
Исходные ботанические данные
предварительно масштабирова-
лись путем деления измерений
признака на его максимальный
размах. Результаты метода мак-
симального размаха приведены
на рис.1. Для сравнения на рис.
2 дано представления наблюде-
ний на плоскости первых двух
собственных векторов класси-
ческого метода главных компо-
нент. Результаты по классиче-
скому методу рассчитаны авто-
ром, аналогичные результаты
приведены ранее [2].
Обозначения на рисун-
ках наблюдений: - вид Iris-
versicolorI,
- вид Iris-
virginica, - вид Iris-setosa.
Рис.1 Представление данных
методом максимального размаха
Рис.2 Представление данных
классическим методом
Как видно, качественно
рисунки близки, однако на
рис.1 наблюдения различных
классов более «разнесены»,
чем на рис.2. Другими слова-
ми, представление данных в
координатах первых двух ком-
понент, полученных методом
максимального размаха, имеет
несколько более четко выра-
Вопросы региональной экономики №1(6) 2011
124
женную
классификационную
структуру.
Подтверждением близо-
сти результатов обоих методов
в данном примере является
таблица 1, где приведены зна-
чения косинусов углов векто-
ров главных компонент с каж-
дой координатой (значения для
классического метода даны
вторым числом через слеш /).
Серым
цветом
обозначены
ячейки с большими значения-
ми косинусов. Как видно, их
значения весьма близки для
обоих методов.
Табл. 1. Значение косинусов углов векторов главных компонент
максимального размаха и классического методов
№ век-
тора
1
x
2
x
3
x
4
x
1
0.57/0.52
-0.1/-0.26
0.59/0.58
0.55/0.57
2
0.36/0.37
0.92/0.92
-0.13/0.02
-0.06/0.06
3
0.7/0.72
-0.35/-0.24
-0.19/-0.14
-0.59/-0.63
4
0.2/0.26
-0.15/-0.12
-0.77/-0.8
0.58/0.52
Отличие
результатов
максимального размаха и клас-
сического методов имеют место
лишь в нагрузках на каждую
компоненту. Для рассматривае-
мого метода нагрузки в процен-
тах для всех четырех компонент
составляли: 48%, 29%, 15%, 8%
(рассчитывалась как отношение
размаха по данной компоненте
к суммарному размаху по всем).
Для классического метода, со-
ответственно, получаем: 73%,
22.5%, 4%, 0.5% (процентные
значения собственных значений
ковариационной матрицы). Ка-
залось бы, классический метод
предпочтительней
в
смысле
распределения изменчивости по
главным компонентам. Однако
следует отметить, собственные
значения
это
квадратичная
функция от исходных данных,
тогда как размах зависит от них
линейно. Если извлечь корень
из собственных значений и
вновь вычислить процентное
соотношение, то получим: 53%,
30%, 12,5%, 4.5%. Как видим,
вновь получаем близкие резуль-
таты для обоих методов.
4.2 Численный эксперимент с
минимаксным методом.
Данные
представляют
поквартальные наблюдения, на-
чиная с четвертого квартала
1995 года по 2008 год включи-
тельно,
следующих
четырех
макропоказателей РФ:
Вопросы региональной экономики №1(6) 2011
125
1
x
- значение валового внутрен-
него продукта (ВВП),
2
x
- величина инвестиций с ла-
гом в 4 квартала,
3
x
- квартальное приращение
курса доллара,
4
x
- значение ВВП с лагом в
один квартал.
Таким образом, фактиче-
ские данные представляют 53
точки в четырехмерном про-
странстве
53
n
и
4
m
.
Эмпирические распреде-
ления используемых показате-
лей приведены на рис.3 и следу-
ет отметить, что визуально они
весьма отличаются от нормаль-
ного. В этом случае применение
классического метода главных
компонент,
основанного
на
нормальном
распределении
данных,
не
представляется
обоснованным.
ВВП Инвестиции Приращение доллара
Рис.3. Эмпирические плотности распределений показателей
В результате примене-
ния изложенной выше проце-
дуры
определения
главных
компонент путем многократно-
го решения задачи (13) – (16)
получен параллелепипед, коси-
нусы углов ребер (направление
компонент) которого с коорди-
натами приведены в таблице 2.
Длины ребер параллелепипеда
в процентном отношении рав-
ны: первое по длине составляет
61% от общей суммы всех че-
тырех ребер, второе – 30% и
два последних по 5% и 3%. От-
метим, что исходные данные
предварительно масштабирова-
лись путем деления значений
каждого показателя на его раз-
мах и центрировались вычита-
нием его минимального значе-
ния.
Для сравнения по этим
данным вычислена ковариаци-
онная матрица и найдены ее
собственные значения и векто-
ра, т.е. определены главные
компоненты классическим ме-
тодом [Айвазян (1989)]. В про-
центном отношении эти собст-
венные значения следующие:
первое составляет - 88.4%, вто-
рое – 11%, третье – 0,5% и чет-
вертое – 0,1%. Как в первом
эксперименте, переходим от
квадратичной характеристики
изменчивости к линейной (т.е.
извлекаем корень из собствен-
ных значений и пересчитываем
процентные соотношения). В
Вопросы региональной экономики №1(6) 2011
126
результате получаем: первая
компонента содержит – 68,5%,
вторая – 24%, третья – 5% и
четвертая – 2,5%, что вновь
близко к минимаксному мето-
ду.
Также главные компо-
ненты вычислялись первым ме-
тодом из условия максимально-
го размаха. Представим в виде
триады процентные отношения
для всех трех методов. Первая
тройка чисел – это процент на-
грузки первой главной компо-
ненты,
соответственно,
для
первого, второго и классиче-
ского методов, вторая тройка
чисел – это процент второй
компоненты и т.д.
57%-61%-68.5%, 34%-30%-
24%, 6%-6%-5%, 3%-3%-
2.5%
Как видно из приведен-
ных значений, в классическом
методе суммарная изменчи-
вость на направлениях первого
и второго собственного векто-
ров практически равна измен-
чивости
по
первым
двум
«длинным» ребрам параллеле-
пипедов рассматриваемых ме-
тодов.
Матрица
нормирован-
ных векторов ребер (косинусы
углов векторов с координата-
ми) приведена в таблице 2, где
первое и второе число в ячейке
относится к первому и второму
минимаксному методу, а третье
число - косинусы собственных
векторов для классического
случая. Серым цветом выделе-
ны ячейки, где имеют место
минимальные углы с соответ-
ствующими осями и отметим,
что в данном примере выде-
ленные ячейки совпадают для
всех методов на первых двух
компонентах.
Табл. 2. Косинусы углов главных компонент с координатами
для трех методов
№
век
то-
ра
1
x
ВВП
2
x
Инвестиции
3
x
Изменение курса
доллара
4
x
ВВП с лагом
1
0.66/0.7/0.71
0.1/0.12/0.11
-0.47/-0.33/-0.1
0.58/0.63/0.68
2
0.24/0.22/0.06
0.13/0.14/0.05
0.87/0.94/0.99
0.41/0.22/0.07
3
0.66/0.62/0.17
0.26/0.24/0.98
0.11/0.0/0.03
-0.7/-0.74/-0.01
4
-0.29/-0.28/-0.67
0.95/0.95/-0.12
-0.1/-0.1/0.01
0.07/0.08/0.72
Из таблицы косинусов
следует, что значения первого
самого длинного ребра опреде-
ляются, в основном, первым и
четвертым показателями (ВВП
и ВВП с лагом в один квартал),
причем вклад каждого из них
примерно одинаков. Второе
ребро имеет весьма малый угол
с показателем «приращение
Вопросы региональной экономики №1(6) 2011
127
курса доллара», т.е. связано, в
основном, с этим показателем.
Нагрузки на третье и четвертое
ребро для минимаксных мето-
дов и классического расходятся
и если пытаться их интерпре-
тировать, то получим разные
версии.
Сравнение первого и
второго методов показывает их
хорошее согласие на всех ком-
понентах. Сравнение этих ме-
тодов с классическим показы-
вает, в целом, хорошее согла-
сие на первых двух векторов.
На двух последних компонен-
тах, которые учитывают малую
долю изменчивости, согласие
между минимаксными и клас-
сическим методом не наблюда-
ется.
В целом, эксперимент
на использованных реальных
данных демонстрирует, на наш
взгляд, разумные результаты,
во многом хорошо согласован-
ные с расчетами классическим
методом наименьших квадра-
тов. Для изучения эффективно-
сти
минимаксного
подхода
требуются, естественно, допол-
нительные теоретические ис-
следования и эксперименты,
которые определят области его
предпочтительного
примене-
ния.
Заметим, однако, что
минимаксный подход следует
рассматривать не только как
альтернативу
классическим
главным компонентам, но, как
нам представляется, он дает
дополнительную полезную ин-
формацию. В частности, как
уже отмечалось, локализация
многомерных данных в про-
стом геометрическом образе
(параллелепипеде), на гранях
которого находится часть на-
блюдений, позволяет получить
ряд содержательно интересных
результатов.
4. Заключение
1.
Рассмотренные методы
вычисления главных компо-
нент показали в численных
экспериментах
результаты
(распределение изменчивости
по главным компонентам и их
направление), которые не усту-
пают свойствам оценок класси-
ческого метода наименьших
квадратов.
2.
Вычислительная
про-
стота и наглядность метода
максимального размаха делают
полезным его применение на
стадии предварительного ана-
лиза эконометрических дан-
ных, также он интересен как
альтернативный взгляд на дан-
ные при использовании клас-
сического метода.
3.
Минимаксный
метод
помимо определения главных
компонент перспективно ис-
пользовать в задачах локализа-
ции многомерных данных.
4.
Теоретические свойства
оценок в предложенном методе
построения главных компо-
нент пока не изучены, но, как
известно, в одномерном случае
минимаксная оценка (середина
выборочного
размаха)
при
Вопросы региональной экономики №1(6) 2011
128
равномерном
распределении
случайной величины имеет
скорость сходимости
1/ n
, то-
гда как выборочное среднее
значение в модели нормально-
го распределения имеет ско-
рость
1/ n
. По аналогии
можно ожидать эффективность
рассмотренных методов в мо-
делях с равномерным законом
распределения
наблюдений,
где параллелепипед является
оценкой максимального прав-
доподобия.
Литература
1.
Гольштейн Е.Г. Теория двойственности в математическом про-
граммировании и ее приложения. М., Наука, 1971.
2.
Зиновьев А.Ю. Визуализация многомерных данных. Издатель-
ство Красноярского государственного технического университета,
2000. — 180 с.
3.
Киселев Н.И. Альтернативные методы оценивания главных
компонент. Прикладная эконометрика, т.49, М., Наука, 2010
4.
Киселев Н.И. Линейное программирование в экстремальных
задачах статистики. Ученые записки по статистике, т.49, М., Наука,
1985
5.
Asuncion A., Newman D.J. UCI Machine Learning Repository
(
http://www.ics.uci.edu/~mlearn/MLRepository.html
, дата обращения
10.09.10г.). Irvine, CA: University of California, School of Information
and Computer Science. 2007.
6.
Fisher R.A. "The use of multiple measurements in taxonomic prob-
lems" Annual Eugenics, 7. Part II, 179-188 (1936);
Достарыңызбен бөлісу: |