Предположим, что имеется взаимно зависимая информация (И):
группа критериев A = {1, . . . , r} важнее группы B = {r+1, . . . , r+t} с
двумя заданными наборами положительных параметров {w
1
, . . . , w
r
}
и {w
r+1
, . . . , w
r+t
}, а группа критериев B, в свою очередь, важнее
группы A с двумя наборами положительных параметров {γ
r+1
, . . . ,
γ
r+t
} и {γ
1
, . . . , γ
r
}, r + t ≤ m.
Были получены условия непротиворечивости в следующем виде.
Теорема 1. Набор информации (И) непротиворечив тогда и
только тогда, когда существуют номера i ∈ A и j ∈ B, для ко-
торых выполняется неравенство
w
i
w
j
>
γ
i
γ
j
.
(1)
Результат учета взаимно зависимой информации зависит от того,
для какого числа номеров i ∈ A и j ∈ B имеют место неравенства
(1). Ограничимся рассмотрением одного из возможных случаев.
557
Теорема 2. Пусть выполнены аксиомы «разумного» выбора и
задана непротиворечивая информация (И) об относительной важ-
ности критериев, причем неравенства (1) выполняются для всех
i ∈ A и j ∈ B всех j ∈ B. Тогда для любого непустого множества
выбираемых векторов Sel(Y ) имеют место включения
Sel(Y ) ⊂ P (Y ) ⊂ P (Y ),
(2)
где P (Y ) = f (P
g
(X)), а векторный критерий g размерности
q = m − (r + t) + 2rt имеет компоненты
g
ij
= w
j
f
i
+ w
i
f
j
для всех i ∈ A и для всех j ∈ B,
g
ji
= γ
j
f
i
+ γ
i
f
j
для всех i ∈ A и для всех j ∈ B,
g
s
= f
s
для всех s ∈ I \ (A ∪ B).
(3)
Для иллюстрации теоремы рассмотрим задачу с тремя критери-
ями f
1
, f
2
, f
3
. Предположим, что A = {1, 2}, B = {3}. Пусть имеется
набор информации о том, что группа A важнее группы B с двумя
наборами параметров {2, 4} и {5}; в свою очередь, группа B важнее
A с двумя наборами параметров {6} и {1, 3}. Для указанных набо-
ров параметров неравенства (1) имеют место при всех i ∈ A и всех
j ∈ B, т.е. 2/5 > 1/6, 4/5 > 3/6. Поскольку все условия теоремы 2
выполнены, пересчет критериев следует производить в соответствии
с формулами (3). В итоге q = 3 − (2 + 1) + 2 · 2 · 1 = 4, а новые
критерии
g
13
= 5f
1
+ 2f
3
, g
23
= 5f
2
+ 4f
3
, g
31
= 6f
1
+ f
3
, g
32
= 6f
2
+ 3f
3
.
Литература
1. Ногин В.Д. Принятие решений в многокритериальной среде: ко-
личественный подход. М.: Физматлит, 2002. 176 с.
558
Козловская Н.В.
Санкт-Петербургский государственный университет
Теоретико-игровая модель сокращения выбросов
вредных веществ в атмосферу
Рекомендовано к публикации профессором Петросяном Л. А.
Введение. В работе [1] рассмотрена модель сокращения выбро-
сов вредных веществ в атмосферу, при этом продолжительность иг-
ры была фиксирована. Решение задачи было получено при помощи
решения уравнения Гамильтона – Якоби – Беллмана [4]. В настоящей
работе будет рассмотрена модель со случайной продолжительностью
игры [3].
Постановка задачи. Рассмотрим модель регулирования вред-
ных выбросов, предложенную в работе [1].
Пусть I – множество стран, вовлеченных в игру сокращения вы-
бросов в атмосферу, I = {1, . . ., n}.
Игра начинается в момент времени t
0
из начального состояния
S
0
. Момент окончания игры является случайной величиной. Для
случайной величины T (момента окончания игры) задана функция
распределения F (t), которая определена при t ∈ [t
0
, ∞) и удовле-
творяет условию нормировки:
∞
t
0
dF (t) = 1. Будем решать задачу в
случае, когда случайная величина T распределена экспоненциально:
F (t) = 1 − e
−ρ(t−t
0
)
, t ∈ [t
0
, ∞), где ρ – ставка дисконтирования.
Выбросы игрока i (i = 1, . . . , n) в момент времени t, t ∈ [t
0
, ∞),
обозначим как e
i
(t). Пусть S(t) – это запас накопленного загрязне-
ния за время t. Рост запаса загрязнения определяется следующим
уравнением:
s(t) =
i∈I
e
i
(t) − δS(t),
(1)
где S(0) = S
0
, δ – коэффициент, характеризующий долю впитывае-
мого загрязнения.
Каждый игрок стремится минимизировать суммарные издержки
за уменьшение выбросов и возмещение убытков.
Введем следующие обозначения: C
i
(e
i
) – это издержки за умень-
шение выбросов, которые несет страна i, когда она превышает свой
допустимый уровень выбросов ¯
e
i
:
559
C
i
(e
i
) =
γ
2
(e
i
− ¯
e
i
)
2
, 0 ≤ e
i
≤ ¯
e
i
, γ > 0.
(2)
Пусть D
i
(S) – это издержки за возмещение убытков:
D
i
(S) = πS, π > 0.
(3)
Эти функции полагаются непрерывно дифференцируемыми и
выпуклыми: C (e
i
) < 0, D (S) > 0.
Поставим следующую задачу: при потоке загрязнения (1) необ-
ходимо минимизировать общие суммарные издержки игроков:
W (I, S, t
0
) = min
e
i
,i∈I
i∈I
∞
t
0
ρe
−ρ(t−t
0
)
t
t
0
{C
i
(e
i
) + D
i
(S)}dτ dt,
(4)
где ρ – ставка дисконтирования.
Решение задачи. Для решения данной задачи будем использо-
вать уравнение Гамильтона – Якоби – Беллмана [1] общего вида для
игр со случайной продолжительностью, полученное в [2].
Ранее была решена следующая задача: найти минимум функции
W (x, θ) = min
u
∞
ϑ
f
ϑ
(t)
t
ϑ
H(x(τ ), u(τ ))dτ dt +
∞
ϑ
S(x(ϑ))f
ϑ
(t)dt
для уравнения динамики
˙x = g(x, u
1
, . . . , u
n
),
x ∈ R
m
,
x(t
0
) = x
0
.
Решением этой задачи является решение уравнения:
f (ϑ)
1 − F (ϑ)
W (x, ϑ) =
∂W (x, ϑ)
∂ϑ
+
+ min
u
H(x(θ), u(ϑ)) +
f (ϑ)
1 − F (ϑ)
S(x(ϑ)) +
∂W (x, ϑ)
∂x
g(x, u) .
В случае экспоненциально распределенного момента окончания игры
функция Беллмана записывается в виде:
560
W (x, ϑ) = min
u
∞
ϑ
ρe
−ρ(t−ϑ)
t
ϑ
H(x(τ ), u(τ ))dτ dt+
+
∞
ϑ
S(x(t))ρe
−ρ(t−ϑ)
dt
.
Тогда уравнение Гамильтона – Якоби – Беллмана совпадает с урав-
нением для задачи оптимального управления с дисконтированием [4]
и имеет следующий вид:
ρW (x, t) =
∂W (x, t)
∂t
+
+ min
u
[H(x(t), u(t)) +ρS(x(t)) +
∂W (x, t)
∂x
g(x, u)
(5)
В условиях данной задачи полагаем: ϑ = t и x = (I, S). Тогда функ-
ция Беллмана примет следующий вид:
W (I, S, t
0
) =
= min
e
i
,i∈I
n
i=1
∞
t
0
ρe
−ρ(t−t
0
)
t
t
0
γ
2
(e
i
− ¯
e
i
)
2
+ πS dτ dt ,
(6)
˙
S =
n
i=1
e
i
− δS, S(t) = S
I
(t).
Подставляя заданные функции (2), (3) в уравнение (5), в силу
системы (1), получаем следующее уравнение:
ρW (I, S, t) =
∂W (I, S, t)
∂t
+
+ min
e
i
n
i=1
γ
2
(e
i
− ¯
e
i
)
2
+ πS
+
∂W (I, S, t)
∂S
n
i=1
e
i
− δS
.
(7)
Решая уравнение (8) в силу системы (1), минимизируем суммар-
ные издержки всех игроков (6), (7).
Дифференцируя выражение, стоящее под знаком суммы в правой
части уравнения по управлениям e
i
, приравниваем его к нулю, и тем
самым находим значения e
i
, при которых достигается минимум:
561
γ(e
i
− ¯
e
i
) +
∂W
∂S
= 0.
Поскольку вторая производная по e
i
этого выражения больше ну-
ля, найденные значения действительно являются точками, в кото-
рых достигается минимум. Таким образом, получили оптимальные
управления:
e
I
i
= −
1
γ
∂W
∂S
+ ¯
e
i
.
(8)
Функцию Беллмана будем искать в виде [4]:
W = AS + B.
(9)
Тогда частные производные функции Беллмана будут выглядеть
следующим образом:
∂W
∂S
= A,
∂W
∂t
= A ˙
S.
Подставляем в систему (1) полученные выше оптимальные управ-
ления e
I
i
и выражения для частных производных, в результате чего
система (1) переписывается в виде:
˙
S =
n
i=1
e
I
i
− δS = −
n
γ
∂W
∂S
+
n
i=1
¯
e
i
− δS = −
nA
γ
+
n
i=1
¯
e
i
− δS. (10)
Подставляя в уравнение (7) выражение для функции Беллмана (9)
в силу системы (10) и найденные оптимальные управления (8), по-
лучаем:
ρW =
∂W
∂t
−
n
2γ
∂W
∂S
2
+
∂W
∂S
n
i=1
e
i
− δS .
(11)
Далее, подставляя в уравнение (11) выражение для функции Белл-
мана (9) и группируя подобные слагаемые, находим значения A и
B:
A =
nπ
ρ + 2δ
,
B =
nπ
ρ(ρ + 2δ)
2
n
i=1
¯
e
i
−
3n
2γ
nπ
ρ + 2δ
.
Таким образом, получаем выражение для функции Беллмана:
W (I, S, t
0
) = min
e
i
,i∈I
i∈I
∞
t
0
ρe
−ρ(t−t
0
)
t
t
0
{C
i
(e
i
) + D
i
(S)}dτ dt .
562
Далее полагаем t
0
= 0. Оптимальные управления принимают вид:
e
I
i
= −
1
γ
nπ
ρ + 2δ
+ ¯
e
i
.
Следовательно, имеем оптимальную траекторию:
S
I
(t) = S
0
e
−δt
+
1
δ
n
i=1
¯
e
i
−
n
2
π
γ(ρ + 2δ)
(1 − e
−δt
).
Окончательно, получаем минимальные суммарные издержки:
W (I, S
I
(t), N ) =
=
nπ
ρ + 2δ
S
0
e
−δt
+
1
δ
n
i=1
¯
e
i
−
n
2
π
γ(ρ + 2δ)
(1 − e
−δt
) +
+
nπ
ρ(ρ + 2δ)
2
n
i=1
¯
e
i
−
3n
2γ
nπ
ρ + 2δ
.
Литература
1. Petrosjan L. A., Zaccour G. Time-consistent Shapley Value Allocation
of Pollution cost Reduction // Journal of Economic Dynamics and
Control, 2003. Vol. 27. C. 381–398.
2. Шевкопляс Е.В. Уравнение Гамильтона – Якоби – Беллмана для
кооперативных дифференциальных игр со случайной продолжи-
тельностью // Устойчивость и процессы управления: Труды меж-
дун. конф., посвященной 75-летию со дня рождения В.И. Зубова.
Россия, СПб, 29 июня – 1 июля 2005 г. / Под ред. Д.А. Овсян-
никова, Л.А. Петросяна. – СПб.: СПбГУ, НИИ ВМ и ПУ, ООО
ВВМ, 2005. Т. 1. С. 630–639.
3. Петросян Л. А., Шевкопляс Е.В. Кооперативные дифференциаль-
ные игры со случайной продолжительностью // Вестник СПбГУ.
Сер. 1, 2000. Вып. 4 (№ 25). C. 18–23.
4. Dockner E. J., Jorgensen S., van Long N., Sorger. G. Differential
Games in Economics and Management Science. Cambridge University
Press, 2000.
563
Козьмина Ю.А.
Санкт-Петербургский государственный университет
Одна задача макроэкономического управления
Рекомендовано к публикации профессором Прасоловым А.В.
1. Постановка задачи и ее интерпретация
1.1. Нелинейный случай. В этой работе решается задача по-
иска управления в системе дифференциальных уравнений. Наблю-
дая за двумя объектами, можно построить системы, которые их опи-
сывают. Зная положение первого объекта в каждый момент време-
ни, можно найти управление для второй системы, чтобы в задан-
ный момент времени T второй объект догнал первый. Решение этой
задачи можно применять в экономике и механике. В механике она
может быть представлена как поиск управления для перехода с од-
ной орбиты на другую. Управление в этом случае — топливо. Эко-
номическое представление задачи — развитие двух стран, системы
строятся по макроэкономическим показателям: ВВП, ВНП, индекс
стоимости жизни. Управлением можно считать денежные средства,
которые необходимы, чтобы достичь желаемого уровня развития. Из
этих интерпретаций видно, что управление должно быть ограничен-
ной величиной, так как объемы топлива и инвестиций не могут быть
бесконечно большими.
Сформулируем задачу математически. Для этого введем две
нелинейные системы дифференциальных уравнений.
˙
X = F (X),
X(0) = X
0
.
(1)
˙
Y = G(Y ) + U,
Y (0) = Y
0
.
(2)
В нашем случае векторы X, Y, F, G, U имеют размерность 2, но зада-
чу можно рассматривать и в случае n-мерных систем. Необходимо
найти такое управление, чтобы в заданный момент времени эти два
объекта встретились, т.е. Y (T ) = X(T ). Если брать ряд значений T,
то получим зависимость U (T ). Учитывая ограничения на управле-
ние, получим допустимое решение. Введем функционал
V (T, U ) = X(T ) − Y (T, U ).
Эта величина представляет собой расстояние между двумя объек-
тами в конкретный момент времени T . Наша задача — найти пару
564
(U, T ), которая обращает в ноль функционал V (T, U ). Она харак-
теризует тот момент, когда объекты встречаются и управление, с
помощью которого это достигается. Функцию X(T ) находим, решив
первую систему. Решение Y (T, U ) будем искать в общем случае, ко-
гда U — неизвестный параметр. Обозначим решение системы (2) че-
рез
Φ(t, U ) =
ϕ
1
(t, U )
ϕ
2
(t, U )
.
Представим решение Y (T, U ) в виде двух первых членов ряда Ма-
клорена по U :
Y (T, U ) ≈ Y (T, 0) +
∂Φ
∂U
T
U =0
U.
(3)
Y (T, 0) можно найти, решив систему (2) при U=0.
Теперь, для того чтобы полностью найти Y (T, U ), вычислим мат-
рицу
∂Φ(t,U )
∂U
= Ψ(t, U ). Для этого рассмотрим систему (2). По теоре-
ме о зависимости решения от параметров решение системы Φ(t, U )
будет иметь по параметрам U непрерывные производные [1]. Пусть
Φ(t, U + ∆U ) – решение системы ˙
Y = G(Y ) + U + ∆U. Подставля-
ем решения в соответствующие им системы и, вычитая из второй
первую, получим:
˙Φ(t, U +∆U)− ˙Φ(t, U) = G(Φ(t, U +∆U))+U +∆U −(G(Φ(t, U))+U),
˙Φ(t, U + ∆U) − ˙Φ(t, U) = G(Φ(t, U + ∆U)) − G(Φ(t, U)) + ∆U,
d∆Φ(t, U )
dt
=
∂G(Φ)
∂Φ
∆Φ(t, U ) + ∆U.
(4)
Разделим (4) на ∆U , получим систему для определения
Φ(t,U )
U
.
d
Φ(t,U )
U
dt
=
∂G(Φ)
∂Φ
∆Φ(t, U )
∆U
+ E,
(5)
где E – единичная (2 × 2)-матрица. Правая часть (5) по условию
задачи непрерывна и ограничена по своим переменным. Определим
∆Φ(t,U )
∆U
при ∆U = 0 так, чтобы
∆Φ(t,U )
∆U
|
U =0
= 0. При ∆U → 0 величи-
на
Φ(t,U )
U
стремится к определенному пределу. Значит, существует
производная
∂Φ(t,U )
∂U
= Ψ(t, U ). Получим систему
˙
Ψ =
∂G(Φ)
∂Φ
Ψ + E,
Ψ(0) = 0.
(6)
565
Функция Y (T, U ) полностью найдена, и можно подставить ее
значение в формулу для функционала V (T, U ). Теперь функци-
онал определен, это функция от T, U . Найдем решение системы
V (T, U ) = 0. Получаем U ≈ (Ψ
T
)
−1
(X(T ) − Y (T, 0)). Можно опре-
делить решение при ограничениях: |U (T )| < C, где C — константа.
Для этого подставляем в последнее неравенство выражение для U и
находим ограничения на T . Таким образом, можно сформулировать
теорему.
Теорема. Пусть даны две системы дифференциальных уравне-
ний:(1),(2). Тогда управление U (T ) такое, что при заданном T ре-
шения систем близки: X(T ) ≈ Y (T ), ищется следующим образом:
U ≈ (Ψ
T
)
−1
(X(T ) − Y (T, 0)).
1.2. Линейный случай. В линейном случае эта задача решается
проще. Системы приобретают вид:
˙
X = AX,
X(0) = X
0
.
˙
Y = BY + U,
Y (0) = Y
0
.
Приравниваем решения систем в момент времени T для вычисления
U :
U = (e
BT
− E)
−1
B(X
0
e
AT
− Y
0
e
BT
).
2. Применение в экономике
Как уже сказано, в экономике этот алгоритм применяется для
поиска величины инвестиций, необходимых чтобы одна страна или
фирма вышла на заданный уровень развития, который определяется
второй преуспевающей страной или фирмой.
2.1. Решение задачи, в которой движение объекта опре-
деляется набором его положений в конкретные моменты
времени. В реальных приложениях, как правило, не известны ко-
эффициенты систем, описывающих движение объектов. С помощью
наблюдения можно лишь определить их положения через равные
промежутки времени и тогда по этим значениям построить систему.
Пусть даны X
1
, X
2
, X
3
– положения объекта через равные проме-
жутки времени h, восстановим систему методом А.В. Прасолова [2].
˙
X = AX,
X
1
(t) = e
At
,
X
2
(t + h) = e
A(t+h)
= e
At
e
Ah
= X
1
e
Ah
,
X
3
(t + 2h) = e
A(t+2h)
= e
At
e
2Ah
= X
2
e
Ah
.
566
Составим следующие матрицы: {X
2
, X
3
} и {X
1
, X
2
}. Они связаны со-
отношением: {X
2
, X
3
} = e
Ah
{X
1
, X
2
}, A =
1
h
Ln({X
2
, X
3
}{X
1
, X
2
}
−1
).
Матрица B вычисляется аналогично.
2.2. Иллюстративный пример. Теперь рассмотрим, как ра-
ботает этот алгоритм на конкретном примере. Пусть X
1
= (−1, 0)
T
,
X
2
= (0, 3)
T
,
X
3
= (1, 0)
T
— состояния системы при t = −
π
3
, −
π
6
, 0.
h = π/6 – период между наблюдениями. Найдем матрицу системы
A =
0
1
−9 0
.
Построим управление. Считаем, что вторая система нам известна.
˙
Y =
0
1
−1 0
+ U,
Y (0) =
1/4
0
.
-1.5-1-0.5 0.5 1
1
-3
-2
-1
1
2
3
2
Рис. 1. Движение объектов
567
|