Процессы управления и устойчивость



Pdf көрінісі
бет51/57
Дата27.12.2016
өлшемі30,48 Mb.
#549
1   ...   47   48   49   50   51   52   53   54   ...   57

Предположим, что имеется взаимно зависимая информация (И):

группа критериев A = {1, . . . , r} важнее группы B = {r+1, . . . , r+t} с

двумя заданными наборами положительных параметров {w

1

, . . . , w



r

}

и {w



r+1

, . . . , w

r+t

}, а группа критериев B, в свою очередь, важнее



группы A с двумя наборами положительных параметров {γ

r+1


, . . . ,

γ

r+t



} и {γ

1

, . . . , γ



r

}, r + t ≤ m.

Были получены условия непротиворечивости в следующем виде.

Теорема 1. Набор информации (И) непротиворечив тогда и

только тогда, когда существуют номера i ∈ A и j ∈ B, для ко-

торых выполняется неравенство

w

i

w



j

>

γ



i

γ

j



.

(1)


Результат учета взаимно зависимой информации зависит от того,

для какого числа номеров i ∈ A и j ∈ B имеют место неравенства

(1). Ограничимся рассмотрением одного из возможных случаев.

557


Теорема 2. Пусть выполнены аксиомы «разумного» выбора и

задана непротиворечивая информация (И) об относительной важ-

ности критериев, причем неравенства (1) выполняются для всех

i ∈ A и j ∈ B всех j ∈ B. Тогда для любого непустого множества

выбираемых векторов Sel(Y ) имеют место включения

Sel(Y ) ⊂ P (Y ) ⊂ P (Y ),

(2)

где P (Y ) = f (P



g

(X)), а векторный критерий g размерности

q = m − (r + t) + 2rt имеет компоненты

g

ij



= w

j

f



i

+ w


i

f

j



для всех i ∈ A и для всех j ∈ B,

g

ji



= γ

j

f



i

+ γ


i

f

j



для всех i ∈ A и для всех j ∈ B,

g

s



= f

s

для всех s ∈ I \ (A ∪ B).



(3)

Для иллюстрации теоремы рассмотрим задачу с тремя критери-

ями f

1

, f



2

, f


3

. Предположим, что A = {1, 2}, B = {3}. Пусть имеется

набор информации о том, что группа A важнее группы B с двумя

наборами параметров {2, 4} и {5}; в свою очередь, группа B важнее

A с двумя наборами параметров {6} и {1, 3}. Для указанных набо-

ров параметров неравенства (1) имеют место при всех i ∈ A и всех

j ∈ B, т.е. 2/5 > 1/6, 4/5 > 3/6. Поскольку все условия теоремы 2

выполнены, пересчет критериев следует производить в соответствии

с формулами (3). В итоге q = 3 − (2 + 1) + 2 · 2 · 1 = 4, а новые

критерии


g

13

= 5f



1

+ 2f


3

, g


23

= 5f


2

+ 4f


3

, g


31

= 6f


1

+ f


3

, g


32

= 6f


2

+ 3f


3

.

Литература



1. Ногин В.Д. Принятие решений в многокритериальной среде: ко-

личественный подход. М.: Физматлит, 2002. 176 с.

558


Козловская Н.В.

Санкт-Петербургский государственный университет

Теоретико-игровая модель сокращения выбросов

вредных веществ в атмосферу

Рекомендовано к публикации профессором Петросяном Л. А.

Введение. В работе [1] рассмотрена модель сокращения выбро-

сов вредных веществ в атмосферу, при этом продолжительность иг-

ры была фиксирована. Решение задачи было получено при помощи

решения уравнения Гамильтона – Якоби – Беллмана [4]. В настоящей

работе будет рассмотрена модель со случайной продолжительностью

игры [3].

Постановка задачи. Рассмотрим модель регулирования вред-

ных выбросов, предложенную в работе [1].

Пусть I – множество стран, вовлеченных в игру сокращения вы-

бросов в атмосферу, I = {1, . . ., n}.

Игра начинается в момент времени t

0

из начального состояния



S

0

. Момент окончания игры является случайной величиной. Для



случайной величины T (момента окончания игры) задана функция

распределения F (t), которая определена при t ∈ [t

0

, ∞) и удовле-



творяет условию нормировки:

t



0

dF (t) = 1. Будем решать задачу в

случае, когда случайная величина T распределена экспоненциально:

F (t) = 1 − e

−ρ(t−t

0

)



, t ∈ [t

0

, ∞), где ρ – ставка дисконтирования.



Выбросы игрока i (i = 1, . . . , n) в момент времени t, t ∈ [t

0

, ∞),



обозначим как e

i

(t). Пусть S(t) – это запас накопленного загрязне-



ния за время t. Рост запаса загрязнения определяется следующим

уравнением:

s(t) =

i∈I


e

i

(t) − δS(t),



(1)

где S(0) = S

0

, δ – коэффициент, характеризующий долю впитывае-



мого загрязнения.

Каждый игрок стремится минимизировать суммарные издержки

за уменьшение выбросов и возмещение убытков.

Введем следующие обозначения: C

i

(e

i



) – это издержки за умень-

шение выбросов, которые несет страна i, когда она превышает свой

допустимый уровень выбросов ¯

e

i



:

559


C

i

(e



i

) =


γ

2

(e



i

− ¯


e

i

)



2

, 0 ≤ e


i

≤ ¯


e

i

, γ > 0.



(2)

Пусть D


i

(S) – это издержки за возмещение убытков:

D

i

(S) = πS, π > 0.



(3)

Эти функции полагаются непрерывно дифференцируемыми и

выпуклыми: C (e

i

) < 0, D (S) > 0.



Поставим следующую задачу: при потоке загрязнения (1) необ-

ходимо минимизировать общие суммарные издержки игроков:

W (I, S, t

0

) = min



e

i

,i∈I



i∈I

t



0

ρe

−ρ(t−t



0

)

t



t

0

{C



i

(e

i



) + D

i

(S)}dτ dt,



(4)

где ρ – ставка дисконтирования.

Решение задачи. Для решения данной задачи будем использо-

вать уравнение Гамильтона – Якоби – Беллмана [1] общего вида для

игр со случайной продолжительностью, полученное в [2].

Ранее была решена следующая задача: найти минимум функции

W (x, θ) = min

u



ϑ



f

ϑ

(t)



t

ϑ

H(x(τ ), u(τ ))dτ dt +



ϑ

S(x(ϑ))f



ϑ

(t)dt


для уравнения динамики



˙x = g(x, u

1

, . . . , u



n

),

x ∈ R



m

,

x(t



0

) = x


0

.

Решением этой задачи является решение уравнения:



f (ϑ)

1 − F (ϑ)

W (x, ϑ) =

∂W (x, ϑ)

∂ϑ

+

+ min



u

H(x(θ), u(ϑ)) +

f (ϑ)

1 − F (ϑ)



S(x(ϑ)) +

∂W (x, ϑ)

∂x

g(x, u) .



В случае экспоненциально распределенного момента окончания игры

функция Беллмана записывается в виде:

560


W (x, ϑ) = min

u



ϑ



ρe

−ρ(t−ϑ)


t

ϑ

H(x(τ ), u(τ ))dτ dt+



+

ϑ



S(x(t))ρe

−ρ(t−ϑ)


dt

 .



Тогда уравнение Гамильтона – Якоби – Беллмана совпадает с урав-

нением для задачи оптимального управления с дисконтированием [4]

и имеет следующий вид:

ρW (x, t) =

∂W (x, t)

∂t

+



+ min

u

[H(x(t), u(t)) +ρS(x(t)) +



∂W (x, t)

∂x

g(x, u)



(5)

В условиях данной задачи полагаем: ϑ = t и x = (I, S). Тогда функ-

ция Беллмана примет следующий вид:

W (I, S, t

0

) =


= min

e

i



,i∈I

n

i=1



t

0



ρe

−ρ(t−t


0

)

t



t

0

γ



2

(e

i



− ¯

e

i



)

2

+ πS dτ dt ,



(6)

˙

S =



n

i=1


e

i

− δS, S(t) = S



I

(t).


Подставляя заданные функции (2), (3) в уравнение (5), в силу

системы (1), получаем следующее уравнение:

ρW (I, S, t) =

∂W (I, S, t)

∂t

+

+ min



e

i

n



i=1

γ

2



(e

i

− ¯



e

i

)



2

+ πS


+

∂W (I, S, t)

∂S

n

i=1



e

i

− δS



.

(7)


Решая уравнение (8) в силу системы (1), минимизируем суммар-

ные издержки всех игроков (6), (7).

Дифференцируя выражение, стоящее под знаком суммы в правой

части уравнения по управлениям e

i

, приравниваем его к нулю, и тем



самым находим значения e

i

, при которых достигается минимум:



561

γ(e

i

− ¯



e

i

) +



∂W

∂S

= 0.



Поскольку вторая производная по e

i

этого выражения больше ну-



ля, найденные значения действительно являются точками, в кото-

рых достигается минимум. Таким образом, получили оптимальные

управления:

e

I



i

= −


1

γ

∂W



∂S

+ ¯


e

i

.



(8)

Функцию Беллмана будем искать в виде [4]:

W = AS + B.

(9)


Тогда частные производные функции Беллмана будут выглядеть

следующим образом:

∂W

∂S

= A,



∂W

∂t

= A ˙



S.

Подставляем в систему (1) полученные выше оптимальные управ-

ления e

I

i



и выражения для частных производных, в результате чего

система (1) переписывается в виде:

˙

S =


n

i=1


e

I

i



− δS = −

n

γ



∂W

∂S

+



n

i=1


¯

e

i



− δS = −

nA

γ



+

n

i=1



¯

e

i



− δS. (10)

Подставляя в уравнение (7) выражение для функции Беллмана (9)

в силу системы (10) и найденные оптимальные управления (8), по-

лучаем:


ρW =

∂W

∂t



n



∂W

∂S

2



+

∂W

∂S



n

i=1


e

i

− δS .



(11)

Далее, подставляя в уравнение (11) выражение для функции Белл-

мана (9) и группируя подобные слагаемые, находим значения A и

B:

A =



ρ + 2δ


,

B =


ρ(ρ + 2δ)

2

n

i=1



¯

e

i



3n



ρ + 2δ


.

Таким образом, получаем выражение для функции Беллмана:

W (I, S, t

0

) = min



e

i

,i∈I



i∈I

t



0

ρe

−ρ(t−t



0

)

t



t

0

{C



i

(e

i



) + D

i

(S)}dτ dt .



562

Далее полагаем t

0

= 0. Оптимальные управления принимают вид:



e

I

i



= −

1

γ



ρ + 2δ


+ ¯

e

i



.

Следовательно, имеем оптимальную траекторию:

S

I

(t) = S



0

e

−δt



+

1

δ



n

i=1


¯

e

i



n

2



π

γ(ρ + 2δ)

(1 − e

−δt


).

Окончательно, получаем минимальные суммарные издержки:

W (I, S

I

(t), N ) =



=

ρ + 2δ



S

0

e



−δt

+

1



δ

n

i=1



¯

e

i



n

2



π

γ(ρ + 2δ)

(1 − e

−δt


) +

+



ρ(ρ + 2δ)

2

n



i=1

¯

e



i

3n



ρ + 2δ



.

Литература

1. Petrosjan L. A., Zaccour G. Time-consistent Shapley Value Allocation

of Pollution cost Reduction // Journal of Economic Dynamics and

Control, 2003. Vol. 27. C. 381–398.

2. Шевкопляс Е.В. Уравнение Гамильтона – Якоби – Беллмана для

кооперативных дифференциальных игр со случайной продолжи-

тельностью // Устойчивость и процессы управления: Труды меж-

дун. конф., посвященной 75-летию со дня рождения В.И. Зубова.

Россия, СПб, 29 июня – 1 июля 2005 г. / Под ред. Д.А. Овсян-

никова, Л.А. Петросяна. – СПб.: СПбГУ, НИИ ВМ и ПУ, ООО

ВВМ, 2005. Т. 1. С. 630–639.

3. Петросян Л. А., Шевкопляс Е.В. Кооперативные дифференциаль-

ные игры со случайной продолжительностью // Вестник СПбГУ.

Сер. 1, 2000. Вып. 4 (№ 25). C. 18–23.

4. Dockner E. J., Jorgensen S., van Long N., Sorger. G. Differential

Games in Economics and Management Science. Cambridge University

Press, 2000.

563


Козьмина Ю.А.

Санкт-Петербургский государственный университет

Одна задача макроэкономического управления

Рекомендовано к публикации профессором Прасоловым А.В.

1. Постановка задачи и ее интерпретация

1.1. Нелинейный случай. В этой работе решается задача по-

иска управления в системе дифференциальных уравнений. Наблю-

дая за двумя объектами, можно построить системы, которые их опи-

сывают. Зная положение первого объекта в каждый момент време-

ни, можно найти управление для второй системы, чтобы в задан-

ный момент времени T второй объект догнал первый. Решение этой

задачи можно применять в экономике и механике. В механике она

может быть представлена как поиск управления для перехода с од-

ной орбиты на другую. Управление в этом случае — топливо. Эко-

номическое представление задачи — развитие двух стран, системы

строятся по макроэкономическим показателям: ВВП, ВНП, индекс

стоимости жизни. Управлением можно считать денежные средства,

которые необходимы, чтобы достичь желаемого уровня развития. Из

этих интерпретаций видно, что управление должно быть ограничен-

ной величиной, так как объемы топлива и инвестиций не могут быть

бесконечно большими.

Сформулируем задачу математически. Для этого введем две

нелинейные системы дифференциальных уравнений.

˙

X = F (X),



X(0) = X

0

.



(1)

˙

Y = G(Y ) + U,



Y (0) = Y

0

.



(2)

В нашем случае векторы X, Y, F, G, U имеют размерность 2, но зада-

чу можно рассматривать и в случае n-мерных систем. Необходимо

найти такое управление, чтобы в заданный момент времени эти два

объекта встретились, т.е. Y (T ) = X(T ). Если брать ряд значений T,

то получим зависимость U (T ). Учитывая ограничения на управле-

ние, получим допустимое решение. Введем функционал

V (T, U ) = X(T ) − Y (T, U ).

Эта величина представляет собой расстояние между двумя объек-

тами в конкретный момент времени T . Наша задача — найти пару

564


(U, T ), которая обращает в ноль функционал V (T, U ). Она харак-

теризует тот момент, когда объекты встречаются и управление, с

помощью которого это достигается. Функцию X(T ) находим, решив

первую систему. Решение Y (T, U ) будем искать в общем случае, ко-

гда U — неизвестный параметр. Обозначим решение системы (2) че-

рез


Φ(t, U ) =

ϕ

1



(t, U )

ϕ

2



(t, U )

.

Представим решение Y (T, U ) в виде двух первых членов ряда Ма-



клорена по U :

Y (T, U ) ≈ Y (T, 0) +

∂Φ

∂U

T



U =0

U.

(3)



Y (T, 0) можно найти, решив систему (2) при U=0.

Теперь, для того чтобы полностью найти Y (T, U ), вычислим мат-

рицу

∂Φ(t,U )


∂U

= Ψ(t, U ). Для этого рассмотрим систему (2). По теоре-

ме о зависимости решения от параметров решение системы Φ(t, U )

будет иметь по параметрам U непрерывные производные [1]. Пусть

Φ(t, U + ∆U ) – решение системы ˙

Y = G(Y ) + U + ∆U. Подставля-

ем решения в соответствующие им системы и, вычитая из второй

первую, получим:

˙Φ(t, U +∆U)− ˙Φ(t, U) = G(Φ(t, U +∆U))+U +∆U −(G(Φ(t, U))+U),

˙Φ(t, U + ∆U) − ˙Φ(t, U) = G(Φ(t, U + ∆U)) − G(Φ(t, U)) + ∆U,

d∆Φ(t, U )

dt

=



∂G(Φ)

∂Φ

∆Φ(t, U ) + ∆U.



(4)

Разделим (4) на ∆U , получим систему для определения

Φ(t,U )

U

.



d

Φ(t,U )


U

dt

=



∂G(Φ)

∂Φ

∆Φ(t, U )



∆U

+ E,


(5)

где E – единичная (2 × 2)-матрица. Правая часть (5) по условию

задачи непрерывна и ограничена по своим переменным. Определим

∆Φ(t,U )


∆U

при ∆U = 0 так, чтобы

∆Φ(t,U )

∆U

|



U =0

= 0. При ∆U → 0 величи-

на

Φ(t,U )


U

стремится к определенному пределу. Значит, существует

производная

∂Φ(t,U )


∂U

= Ψ(t, U ). Получим систему

˙

Ψ =


∂G(Φ)

∂Φ

Ψ + E,



Ψ(0) = 0.

(6)


565

Функция Y (T, U ) полностью найдена, и можно подставить ее

значение в формулу для функционала V (T, U ). Теперь функци-

онал определен, это функция от T, U . Найдем решение системы

V (T, U ) = 0. Получаем U ≈ (Ψ

T

)

−1



(X(T ) − Y (T, 0)). Можно опре-

делить решение при ограничениях: |U (T )| < C, где C — константа.

Для этого подставляем в последнее неравенство выражение для U и

находим ограничения на T . Таким образом, можно сформулировать

теорему.

Теорема. Пусть даны две системы дифференциальных уравне-

ний:(1),(2). Тогда управление U (T ) такое, что при заданном T ре-

шения систем близки: X(T ) ≈ Y (T ), ищется следующим образом:

U ≈ (Ψ

T

)



−1

(X(T ) − Y (T, 0)).

1.2. Линейный случай. В линейном случае эта задача решается

проще. Системы приобретают вид:

˙

X = AX,


X(0) = X

0

.



˙

Y = BY + U,

Y (0) = Y

0

.



Приравниваем решения систем в момент времени T для вычисления

U :


U = (e

BT

− E)



−1

B(X


0

e

AT



− Y

0

e



BT

).

2. Применение в экономике



Как уже сказано, в экономике этот алгоритм применяется для

поиска величины инвестиций, необходимых чтобы одна страна или

фирма вышла на заданный уровень развития, который определяется

второй преуспевающей страной или фирмой.

2.1. Решение задачи, в которой движение объекта опре-

деляется набором его положений в конкретные моменты

времени. В реальных приложениях, как правило, не известны ко-

эффициенты систем, описывающих движение объектов. С помощью

наблюдения можно лишь определить их положения через равные

промежутки времени и тогда по этим значениям построить систему.

Пусть даны X

1

, X



2

, X


3

– положения объекта через равные проме-

жутки времени h, восстановим систему методом А.В. Прасолова [2].

˙

X = AX,



X

1

(t) = e



At

,

X



2

(t + h) = e

A(t+h)

= e


At

e

Ah



= X

1

e



Ah

,

X



3

(t + 2h) = e

A(t+2h)

= e


At

e

2Ah



= X

2

e



Ah

.

566



Составим следующие матрицы: {X

2

, X



3

} и {X


1

, X


2

}. Они связаны со-

отношением: {X

2

, X



3

} = e


Ah

{X

1



, X

2

}, A =



1

h

Ln({X



2

, X


3

}{X


1

, X


2

}

−1



).

Матрица B вычисляется аналогично.

2.2. Иллюстративный пример. Теперь рассмотрим, как ра-

ботает этот алгоритм на конкретном примере. Пусть X

1

= (−1, 0)



T

,

X



2

= (0, 3)


T

,

X



3

= (1, 0)


T

— состояния системы при t = −

π

3

, −



π

6

, 0.



h = π/6 – период между наблюдениями. Найдем матрицу системы

A =


0

1

−9 0



.

Построим управление. Считаем, что вторая система нам известна.

˙

Y =


0

1

−1 0



+ U,

Y (0) =


1/4

0

.



-1.5-1-0.5 0.5 1

1

-3



-2

-1

1



2

3

2



Рис. 1. Движение объектов

567



Достарыңызбен бөлісу:
1   ...   47   48   49   50   51   52   53   54   ...   57




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет