Процессы управления и устойчивость

жүктеу/скачать 30,48 Mb.

Pdf көрінісі

бет	3/57
Дата	27.12.2016
өлшемі	30,48 Mb.
	#549

1 2 3 4 5 6 7 8 9 ... 57

управляемое целями поведение. Одним из возможных способов опи-

сания цели агента является определение оценочной функции

goal : P → [0, 1].

Эта функция позволяет агенту для каждого восприятия состо-

яния среды определить, насколько оно соответствует поставленной

перед ним цели. Часто можно встретить ситуацию, когда цель аген-

та является “неделимой”, т.е. агент либо достигает цель полностью,

либо не достигает её вообще.

Обычно агент преследует не одну конкретную цель, а некоторый

их набор, при этом цели агента являются частью его внутреннего со-

стояния I = I × 2

Goals

, где Goals = {g | g : P → [0, 1]} есть конечное

множество всех оценочных функций, а I есть остальная часть со-

стояния агента, не относящаяся к целеполаганию. Тогда общая оце-

ночная функция агента для состояния (i, G) может быть определена,

например, так:

goal(p) =

|G|

g∈G

g(p),

где p есть оцениваемое восприятие состояния среды. В случае, когда

агент не имеет ни одной цели (G = ∅), значение оценочной функции

определяется равным нулю (goal

= 0).

На практике чаще всего цели агента имеют различный приоритет.

В этом случае структура множества целей усложняется: Goals =

{(g, w) | g : P → [0, 1], w ∈ [0, +∞)}, где w есть неотрицательное

число, определяющее приоритет конкретной цели для агента. Общая

оценочная функция агента для состояния (i, G) тогда может иметь

вид

goal(p) =

(g,w)∈G

(w · g(p)).

(2)

В случае, когда агент не имеет ни одной цели с ненулевым прио-

ритетом, то есть G = ∅ или

(g,w)∈G

w = 0, значение оценочной функ-

ции определяется равным нулю (goal

= 0).

Однако для эффективного управляемого целями поведения аген-

ту недостаточно просто определить свои цели. Необходимым усло-

вием для эффективности является способность предсказывать по-

следствия своих действий. Как часть своего состояния агент должен

включать прогнозирующую функцию

prog : P × A → 2

P ×[0,1]

принимающую в качестве параметров текущее восприятие состоя-

ния внешней среды и действие агента, а возвращающая множество

возможных восприятий состояний среды, в одно из которых она пе-

рейдет после выполнения действия, вместе с вероятностью перехода.

Прогнозирующая функция является важной составляющей внут-

реннего состояния агента и строится на основе его аккумулированно-

го опыта. Обозначим множество всех прогнозирующих функций че-

рез P rogs = {prog | prog : P ×A → 2

P ×[0,1]

}. В этом случае структура

внутреннего состояния агента примет вид: I = I × 2

Goals

× P rogs.

Использование прогнозирующих функций позволяет представить

задачу принятия решения агентом как задачу нахождения точки

максимального значения функции потенциального эффекта дей-

ствия v : A → [0, +∞), выражаемой через функции goal и prog. Для

простой прогнозирующей функции это v(a) =

p∈prog(p

cur

,a)

goal(p),

где p

cur

есть восприятие текущего состояния внешней среды. Для ве-

роятностной

прогнозирующей

функции

выражение

сложнее:

v(a) =

(p,θ)∈prog(p

cur

,a)

(θ · goal(p)). Если же обратиться к вычисле-

нию функции goal, см. (2), то можно получить следующее итоговое

выражение функции v для агента с состоянием (i, G, prog) и внешней

среды в состоянии, воспринимаемом как p

cur

v(a) =

(p,θ)∈prog(p

cur

,a)







(g,w)∈G

(w · g (p))





 .

6. Планирование. Важной для агента способностью является

возможность планирования своих действий на несколько шагов впе-

ред. Таким образом, помимо оперативных целей, достигаемых на

текущем действии (именно такие цели рассматривались в предыду-

щем разделе), у агента появляются перспективные цели, для дости-

жения которых агенту потребуется выполнить последовательность

из нескольких действий.

Процесс планирования включает также поддержание вспомога-

тельной структуры данных, являющейся частью общего состояния

агента. Обозначим множество всех таких структур как P lans, тогда

состояние агента будет включать множество перспективных целей,

прогнозирующую функцию, информацию о плане и остальную вспо-

могательную информацию: I = I × 2

Goals

× P rogs × P lans . В итоге

процесс планирования можно смоделировать с помощью планирую-

щей функции

plan : 2

Goals

× P rogs × P lans × P → P lans,

которая на основе данных перспективных целей формирует структу-

ру с описанием плана, используя для этого прогнозирующую функ-

цию и восприятие текущего состояния внешней среды, а также функ-

ции формирования оперативных целей

oper : P lans → 2

Goals

,

14

которая на основе плана осуществляет формирование множества

оперативных целей.

Можно отметить, что в большинстве случаев процесс планирова-

ния имеет б´ольшую вычислительную сложность, чем процесс при-

нятия решения о конкретном оперативном действии. Для оптимиза-

ции этого процесса можно запоминать основу однажды составлен-

ного плана и адаптировать её к возникающим задачам, что может

оказаться значительно эффективнее создания нового плана “с нуля”.

Литература

1. Wooldridge M.J., Jennings N.R. Intelligent Agents: Theory and

practise // The Knowledge Engineering Review, 1995.

2. Wooldridge M.J. The Logical Modeling of Computational Multi-

Agent Systems: phd thesis. Manchester, 1992. 153 p.

3. Wooldridge M.J. Intelligent Agents // Multiagent Systems, 2001. P.

27–79.

4. Huhns M.N. , Stephens L.M. Multiagent Systems and Societies of

Agents // Multiagent Systems, 2001. P. 79–121.

5. Jennings N.R., Wooldridge M.J. Applications of Intelligent Agents.

London: Queen Mary & Westﬁeld College, University of London,

2000. 27 p.

6. Miraftabi R. Agents on the Loose: An overview of agent technologies.

Joensuu: Department of Computer Sciense, University of Joensuu,

2000. 17 p.

7. Van Dyke Parunak H. Industrial and Practical Application of DAI

// Multiagent Systems, 2001. P. 27–79.

Галайко А.С.

Санкт-Петербургский государственный университет

Об асимптотической устойчивости при переходе

от непрерывной системы к разностной системе

Рекомендовано к публикации профессором Прасоловым А.В.

Цель данной работы заключается в исследовании сохранения

свойства асимптотической устойчивости и оценки области притяже-

ния при переходе от непрерывной системы к разностной.

Рассматривается система из двух уравнений Лотки – Вольтерры:

˙x = x(1 − x − y),

˙y = y(1 − αx − βy).

(1)

Данная система имеет асимптотически устойчивое нетривиаль-

ное положение равновесия

∗

=

β − 1

β − α

∗

1 − α

β − α

(2)

при ограничениях на параметры α и β [1]: α ∈ (0, 1) , β > 1, и обла-

стью её притяжения является открытый положительный квадрант,

или, после перехода к системе в отклонениях x = x − x

∗

, y = y − y

∗

область:

x > −

β − 1

β − α

y > −

1 − α

β − α

(3)

Этот факт для системы (1) получен с использованием известной

функции Ляпунова [1]

V (x, y) = x − x

∗

− x

∗

+ y − y

∗

− y

∗

(4)

Рассмотрим переход к разностной системе через переход к инте-

гральным уравнениям

x(t

k+1

) = x(t

) exp(

k+1

(1 − x(s) − y(s))ds),

y(t

k+1

) = y(t

) exp(

k+1

(1 − αx(s) − βy(s))ds).

Положим t

= kh, t

∈ R

, h – шаг дискретизации. Обозначим:

x(t

k

) = x

, y(t

) = y

. Пользуясь приближениями экспоненты и ин-

теграла и сохраняя прежние обозначения, получаем более простой

вид дискретной системы:

k+1

= x

(1 + h(1 − x

− y

)),

k+1

= y

(1 + h(1 − αx

− βy

)).

(5)

Данная система имеет нетривиальное положение равновесия (2).

Положительный квадрант инвариантен по отношению к системе

(1), но не инвариантен по отношению к системе (5). Инвариантным

же по отношению к системе (5) будет подмножество положительного

квадранта, определяемое системой неравенств

1 + h(1 − x

− y

) > 0,

1 + h(1 − αx

− βy

) > 0.

Или, после преобразования:

+ y

k

<

h

+ 1,

αx

+ βy

k

<

+ 1.

Делая замену x = x − x

∗

, y = y − y

∗

, получим:

k

+ y

k

<

+ 1 −

β−1

β−α

−

1−α

β−α

αx

+ βy

k

<

+ 1 − α

β−1

β−α

− β

1−α

β−α

(6)

Область притяжения содержится в множестве, которое является

решением системы неравенств (6) с учетом ограничений (3).

Теперь проверим, будет ли асимптотически устойчиво положение

равновесия (2) дискретной системы (5).

Утверждение. Для системы (5) асимптотическая устойчи-

вость положения равновесия будет иметь место при ограничениях

на шаг дискретизации: h ∈ (0, 1) ∪ (1, 2) и при α ∈ (0, 1) , β > 1.

Доказательство. Система линейного приближения системы в

отклонениях

k+1

= 1 − h

β−1

β−α

− h

β−1

β−α

k+1

= −

1−α

β−α

hαx

+ 1 −

1−α

β−α

hβ y

имеет следующие собственные числа:

= |1 − h|,

= −

h + βαh − hα − βh + β − α

α − β

.

17

Как известно [2], для асимптотической устойчивости собственные

числа матрицы линейного приближения должны быть по модулю

меньше единицы. Решая полученную систему неравенств, приходим

к приведенному в утверждении ограничению на шаг h.

Проведём оценку области притяжения дискретной системы снизу.

Для этого воспользуемся методом функций Ляпунова [2].

Разложение функции Ляпунова (4) в ряд Тейлора для дискрет-

ного случая имеет вид:

V (x

k

, y

) =

β − α

β − 1

β − α

1 − α

+ o(x

, y

где o(x

, y

) – члены более высокого порядка.

Обозначим

V (x

, y

) =

β − α

β − 1

β − α

1 − α

Справа стоит положительно-определённая квадратичная форма

в каноническом виде.

Приращение функции V (x

, y

) должно быть отрицательно опре-

делено. Отрицательная определенность приращения функции в силу

линейной системы следует из критерия Сильвестра. Таким образом,

ещё раз показано локальное сохранение свойства асимптотической

устойчивости в окрестности положения равновесия.

Приращение функции Ляпунова в силу всей системы имеет вид:

∆V =

h −2 x

β − 1

β − α

β − 1

+ h x

β − 1

β − α

β − 1

+hα y

1 − α

β − α

1 − α

+ x

h − x

β − 1

β − α

β − 1

+ x

β − 1

β − α

β − 1

− α y

1 − α

β − α

1 − α

+hαβ y

1 − α

β − α

1 − α

h h x

β − 1

β − α

β − 1

−

−2β y

1 − α

β − α

1 − α

+ hβ

1 − α

β − α

1 − α

Для отрицательной определённости функции ∆V выражения,

стоящие в квадратных скобках, должны быть меньше либо равны

нулю.

После преобразований получаем неравенства

β−1

β−α

−

α y

1−α

β−α

1−α

β−1

≤ 1,

(7)

β−1

β−α

−

β−α

β−1

β−α

β−1

hβ

β−α

1−α

β−α

−

2hβ

β−α

1−α

αβh

β−α

β−1

hβ

β−α

1−α

≤ 1,

(8)

β − 1

β − α

≤

≤ −β

1 − α

β − α

β − 1

1 − α

+ 2β y

1 − α

β − α

β − 1

1 − α

(9)

Исследования показали, что неравенство (9) не влияет на область

притяжения.

Обозначим Ω – решение системы неравенств (6), (7), (8). Таким

образом, можно сформулировать утверждение:

Утверждение. Точка (x

, y

), принадлежащая области Ω, бу-

дет являться точкой области притяжения положения равновесия

(2) системы (5).

Литература

1. Прасолов А.В. Математические модели динамики в экономике.

СПб: Изд-во СПбГУ Экономики и Финансов, 2000. 247 c.

2. Александров А.Ю., Жабко А.П. Устойчивость разностных си-

стем: Учебное пособие. СПб: НИИ Химии СПбГУ, 2003. 112 c.

Демидова А.М.

Санкт-Петербургский государственный университет

Решение граничной задачи для линейной

нестационарной системы в классе дискретных

управлений

Рекомендовано к публикации профессором Квитко А.Н.

Объектом исследования является система

˙y = P (t)y + Q(t)w + f (t),

(1)

где

y = (y

, . . . , y

)

∗

; w = (w

, . . . , w

)

∗

, w ∈ R

, r ≤ n; t ∈ [0, 1];

P (t) = {p

(t)}, i, j = 1, n ; Q(t) = {q

(t)}, i = 1, n, j = 1, r,

ij

(t), q

(t) ∈ C

), f = (f

, . . . , f

)

∗

;

y < C

w < C

(2)

Рассмотрим разбиение интервала [0,1] точками 0 = t

0

< t

1

< . . . <

m−1

< t

= 1. Функцию w(t) ≡ w

при t ∈ [t

, t

k+1

), k = 1, m − 1,

где w

k

принадлежит области (2), будем называть дискретной управ-

ляющей функцией.

Постановка задачи. Пусть заданы состояния

y(0) = 0, y(1) = y

; y

= (y

, . . . , y

)

∗

1

< C

(3)

Требуется найти дискретное управление w(t), заданное на некото-

ром разбиении интервала [0,1] так, чтобы для решения y(t) системы

(1) были выполнены условия

y(0) = 0,

y(t

) − y

≤ ε

; t

∈ [t

m−1

, 1], |t

− 1| ≤ ε

(4)

В (4) t

— заранее неизвестный момент времени; ε

> 0, ε

> 0 —

произвольные фиксированные числа.

Решение задачи. Введем обозначения

P

ij

= {p

(1)}, i, j = 1, n;

= {q

(1)}, i = 1, n, j = 1, r.

Предположим, что

rank( ˜

Q, ˜

P ˜

Q, . . . , ˜

n−1

Q) = n.

(5)

Пусть имеется некоторое управление w

(t) и соответствующая

ему

траектория y

(t), удовлетворяющие (1).

Сделаем замену переменных

y(t) = x(t) + y

(t),

w(t) = u(t) + w

(t).

(6)

После подстановки (6) в систему (1) получим

˙x = P (t)x + Q(t)u.

(7)

Теорема. Пусть выполняется условие (5). Тогда существуют

такое ε > 0 и такое h

> 0, что для всех x

1

< ε и при шаге

дискретности h : 0 < h < h

существует решение поставленной

задачи.

Доказательство. Выберем u

∈ R

; u

= (u

, . . . , u

)

∗

, u

1

<

. Используя свойства (2) систему (7) можно записать в виде

˙x

j=1

(1)x

j=1

(1)u

j=1

(1)(x

− x

) +

j=1

(1)(u

− u

j=1

(1)x

(t − 1) +

j=1

(1)u

(t − 1)+

j=1

(˜t)x

(t − 1)

j=1

(˜t)u

(t − 1)

(8)

˜t = 1 + θ

(t − 1),

0 < θ < 1

Будем искать решение поставленой задачи в виде

i

(t) = a

(t) + tx

, i = 1, n ,

(9)

(t) = b

(t) + tu

, j = 1, r .

(10)

После подстановки соотношений (9), (10) в систему (8) получим

следущую систему

˙a = ˜

P a + ˜

Qb + R

, u

, t),

(11)

j=1

− x

j=1

∂p

∂t

(1)(t − 1)x

j=1

∂q

∂t

(1)(t − 1)u

j=1

∂

∂t

(˜t)(t − 1)

x

j

j=1

∂

жүктеу/скачать 30,48 Mb.

Достарыңызбен бөлісу:

1 2 3 4 5 6 7 8 9 ... 57