Процессы управления и устойчивость



Pdf көрінісі
бет3/57
Дата27.12.2016
өлшемі30,48 Mb.
#549
1   2   3   4   5   6   7   8   9   ...   57

управляемое целями поведение. Одним из возможных способов опи-

сания цели агента является определение оценочной функции

goal : P → [0, 1].

Эта функция позволяет агенту для каждого восприятия состо-

яния среды определить, насколько оно соответствует поставленной

перед ним цели. Часто можно встретить ситуацию, когда цель аген-

та является “неделимой”, т.е. агент либо достигает цель полностью,

либо не достигает её вообще.

Обычно агент преследует не одну конкретную цель, а некоторый

их набор, при этом цели агента являются частью его внутреннего со-

стояния I = I × 2

Goals


, где Goals = {g | g : P → [0, 1]} есть конечное

12


множество всех оценочных функций, а I есть остальная часть со-

стояния агента, не относящаяся к целеполаганию. Тогда общая оце-

ночная функция агента для состояния (i, G) может быть определена,

например, так:

goal(p) =

1

|G|



g∈G

g(p),


где p есть оцениваемое восприятие состояния среды. В случае, когда

агент не имеет ни одной цели (G = ∅), значение оценочной функции

определяется равным нулю (goal

.

= 0).



На практике чаще всего цели агента имеют различный приоритет.

В этом случае структура множества целей усложняется: Goals =

{(g, w) | g : P → [0, 1], w ∈ [0, +∞)}, где w есть неотрицательное

число, определяющее приоритет конкретной цели для агента. Общая

оценочная функция агента для состояния (i, G) тогда может иметь

вид


goal(p) =

1

(g,w)∈G



w

(g,w)∈G


(w · g(p)).

(2)


В случае, когда агент не имеет ни одной цели с ненулевым прио-

ритетом, то есть G = ∅ или

(g,w)∈G

w = 0, значение оценочной функ-



ции определяется равным нулю (goal

.

= 0).



Однако для эффективного управляемого целями поведения аген-

ту недостаточно просто определить свои цели. Необходимым усло-

вием для эффективности является способность предсказывать по-

следствия своих действий. Как часть своего состояния агент должен

включать прогнозирующую функцию

prog : P × A → 2

P ×[0,1]

,

принимающую в качестве параметров текущее восприятие состоя-



ния внешней среды и действие агента, а возвращающая множество

возможных восприятий состояний среды, в одно из которых она пе-

рейдет после выполнения действия, вместе с вероятностью перехода.

Прогнозирующая функция является важной составляющей внут-

реннего состояния агента и строится на основе его аккумулированно-

го опыта. Обозначим множество всех прогнозирующих функций че-

рез P rogs = {prog | prog : P ×A → 2

P ×[0,1]


}. В этом случае структура

внутреннего состояния агента примет вид: I = I × 2

Goals

× P rogs.



Использование прогнозирующих функций позволяет представить

задачу принятия решения агентом как задачу нахождения точки

13


максимального значения функции потенциального эффекта дей-

ствия v : A → [0, +∞), выражаемой через функции goal и prog. Для

простой прогнозирующей функции это v(a) =

p∈prog(p


cur

,a)


goal(p),

где p


cur

есть восприятие текущего состояния внешней среды. Для ве-

роятностной

прогнозирующей

функции

выражение



сложнее:

v(a) =


(p,θ)∈prog(p

cur


,a)

(θ · goal(p)). Если же обратиться к вычисле-

нию функции goal, см. (2), то можно получить следующее итоговое

выражение функции v для агента с состоянием (i, G, prog) и внешней

среды в состоянии, воспринимаемом как p

cur


:

v(a) =


(p,θ)∈prog(p

cur


,a)



θ

(g,w)∈G



w

·

(g,w)∈G



(w · g (p))



 .

6. Планирование. Важной для агента способностью является

возможность планирования своих действий на несколько шагов впе-

ред. Таким образом, помимо оперативных целей, достигаемых на

текущем действии (именно такие цели рассматривались в предыду-

щем разделе), у агента появляются перспективные цели, для дости-

жения которых агенту потребуется выполнить последовательность

из нескольких действий.

Процесс планирования включает также поддержание вспомога-

тельной структуры данных, являющейся частью общего состояния

агента. Обозначим множество всех таких структур как P lans, тогда

состояние агента будет включать множество перспективных целей,

прогнозирующую функцию, информацию о плане и остальную вспо-

могательную информацию: I = I × 2

Goals

× P rogs × P lans . В итоге



процесс планирования можно смоделировать с помощью планирую-

щей функции

plan : 2

Goals


× P rogs × P lans × P → P lans,

которая на основе данных перспективных целей формирует структу-

ру с описанием плана, используя для этого прогнозирующую функ-

цию и восприятие текущего состояния внешней среды, а также функ-

ции формирования оперативных целей

oper : P lans → 2

Goals

,

14



которая на основе плана осуществляет формирование множества

оперативных целей.

Можно отметить, что в большинстве случаев процесс планирова-

ния имеет б´ольшую вычислительную сложность, чем процесс при-

нятия решения о конкретном оперативном действии. Для оптимиза-

ции этого процесса можно запоминать основу однажды составлен-

ного плана и адаптировать её к возникающим задачам, что может

оказаться значительно эффективнее создания нового плана “с нуля”.

Литература

1. Wooldridge M.J., Jennings N.R. Intelligent Agents: Theory and

practise // The Knowledge Engineering Review, 1995.

2. Wooldridge M.J. The Logical Modeling of Computational Multi-

Agent Systems: phd thesis. Manchester, 1992. 153 p.

3. Wooldridge M.J. Intelligent Agents // Multiagent Systems, 2001. P.

27–79.

4. Huhns M.N. , Stephens L.M. Multiagent Systems and Societies of



Agents // Multiagent Systems, 2001. P. 79–121.

5. Jennings N.R., Wooldridge M.J. Applications of Intelligent Agents.

London: Queen Mary & Westfield College, University of London,

2000. 27 p.

6. Miraftabi R. Agents on the Loose: An overview of agent technologies.

Joensuu: Department of Computer Sciense, University of Joensuu,

2000. 17 p.

7. Van Dyke Parunak H. Industrial and Practical Application of DAI

// Multiagent Systems, 2001. P. 27–79.

15


Галайко А.С.

Санкт-Петербургский государственный университет

Об асимптотической устойчивости при переходе

от непрерывной системы к разностной системе

Рекомендовано к публикации профессором Прасоловым А.В.

Цель данной работы заключается в исследовании сохранения

свойства асимптотической устойчивости и оценки области притяже-

ния при переходе от непрерывной системы к разностной.

Рассматривается система из двух уравнений Лотки – Вольтерры:

˙x = x(1 − x − y),

˙y = y(1 − αx − βy).

(1)


Данная система имеет асимптотически устойчивое нетривиаль-

ное положение равновесия

x



=



β − 1

β − α


,

y



=

1 − α


β − α

(2)


при ограничениях на параметры α и β [1]: α ∈ (0, 1) , β > 1, и обла-

стью её притяжения является открытый положительный квадрант,

или, после перехода к системе в отклонениях x = x − x

, y = y − y



,

область:



x > −

β − 1


β − α

,

y > −



1 − α

β − α


.

(3)


Этот факт для системы (1) получен с использованием известной

функции Ляпунова [1]

V (x, y) = x − x

− x



ln

x



x

+ y − y



− y


ln

y



y

.



(4)

Рассмотрим переход к разностной системе через переход к инте-

гральным уравнениям

x(t


k+1

) = x(t


k

) exp(


t

k+1


t

k

(1 − x(s) − y(s))ds),



y(t

k+1


) = y(t

k

) exp(



t

k+1


t

k

(1 − αx(s) − βy(s))ds).



Положим t

k

= kh, t



k

∈ R


1

, h – шаг дискретизации. Обозначим:

x(t

k

) = x



k

, y(t


k

) = y


k

. Пользуясь приближениями экспоненты и ин-

теграла и сохраняя прежние обозначения, получаем более простой

вид дискретной системы:

16


x

k+1


= x

k

(1 + h(1 − x



k

− y


k

)),


y

k+1


= y

k

(1 + h(1 − αx



k

− βy


k

)).


(5)

Данная система имеет нетривиальное положение равновесия (2).

Положительный квадрант инвариантен по отношению к системе

(1), но не инвариантен по отношению к системе (5). Инвариантным

же по отношению к системе (5) будет подмножество положительного

квадранта, определяемое системой неравенств

1 + h(1 − x

k

− y



k

) > 0,


1 + h(1 − αx

k

− βy



k

) > 0.


Или, после преобразования:

x

k



+ y

k

<

1

h

+ 1,



αx

k

+ βy



k

<

1

h



+ 1.

Делая замену x = x − x

, y = y − y



, получим:

x

k

+ y



k

<

1

h



+ 1 −

β−1


β−α

1−α



β−α

,

αx



k

+ βy


k

<

1

h



+ 1 − α

β−1


β−α

− β


1−α

β−α


.

(6)


Область притяжения содержится в множестве, которое является

решением системы неравенств (6) с учетом ограничений (3).

Теперь проверим, будет ли асимптотически устойчиво положение

равновесия (2) дискретной системы (5).

Утверждение. Для системы (5) асимптотическая устойчи-

вость положения равновесия будет иметь место при ограничениях

на шаг дискретизации: h ∈ (0, 1) ∪ (1, 2) и при α ∈ (0, 1) , β > 1.

Доказательство. Система линейного приближения системы в

отклонениях

x

k+1



= 1 − h

β−1


β−α

x

k



− h

β−1


β−α

y

k



,

y

k+1



= −

1−α


β−α

hαx


k

+ 1 −


1−α

β−α


hβ y

k

,



имеет следующие собственные числа:

λ

1



= |1 − h|,

λ

2



= −

h + βαh − hα − βh + β − α

α − β

.

17



Как известно [2], для асимптотической устойчивости собственные

числа матрицы линейного приближения должны быть по модулю

меньше единицы. Решая полученную систему неравенств, приходим

к приведенному в утверждении ограничению на шаг h.

Проведём оценку области притяжения дискретной системы снизу.

Для этого воспользуемся методом функций Ляпунова [2].

Разложение функции Ляпунова (4) в ряд Тейлора для дискрет-

ного случая имеет вид:

V (x

k

, y



k

) =


1

2

x



2

k

β − α



β − 1

+

1



2

y

2



k

β − α


1 − α

+ o(x


k

, y


k

),

где o(x



k

, y


k

) – члены более высокого порядка.

Обозначим

V (x


k

, y


k

) =


1

2

x



2

k

β − α



β − 1

+

1



2

y

2



k

β − α


1 − α

.

Справа стоит положительно-определённая квадратичная форма



в каноническом виде.

Приращение функции V (x

k

, y


k

) должно быть отрицательно опре-

делено. Отрицательная определенность приращения функции в силу

линейной системы следует из критерия Сильвестра. Таким образом,

ещё раз показано локальное сохранение свойства асимптотической

устойчивости в окрестности положения равновесия.

Приращение функции Ляпунова в силу всей системы имеет вид:

∆V =


1

2

x



2

k

h −2 x



k

+

β − 1



β − α

β − α


β − 1

+ h x


k

+

β − 1



β − α

2

β − α



β − 1

+

+hα y



k

+

1 − α



β − α

2

β − α



1 − α

+ x


k

y

k



h − x

k

+



β − 1

β − α


β − α

β − 1


+

+ x


k

+

β − 1



β − α

2

β − α



β − 1

− α y


k

+

1 − α



β − α

β − α


1 − α

+

+hαβ y



k

+

1 − α



β − α

2

β − α



1 − α

+

1



2

y

2



k

h h x


k

+

β − 1



β − α

β − α


β − 1

−2β y



k

+

1 − α



β − α

β − α


1 − α

+ hβ


2

y

k



+

1 − α


β − α

2

β − α



1 − α

.

18



Для отрицательной определённости функции ∆V выражения,

стоящие в квадратных скобках, должны быть меньше либо равны

нулю.

После преобразований получаем неравенства



h

2

x



k

+

β−1



β−α

1



h

2

1



+

h

2



α y

k

+



1−α

β−α


2

1−α


β−1

≤ 1,


(7)

1

2



x

k

+



β−1

β−α


1

2



2

β−α


β−1

β−α


β−1

+

α



β−α


1−α

+

1



2

y

k



+

1−α


β−α

1



2hβ

2

β−α



1−α

αβh


β−α

β−1


+

α



β−α

1−α


≤ 1,

(8)


x

k

+



β − 1

β − α


≤ −β


2

y

k



+

1 − α


β − α

2

β − 1



1 − α

+ 2β y


k

+

1 − α



β − α

β − 1


1 − α

h.

(9)



Исследования показали, что неравенство (9) не влияет на область

притяжения.

Обозначим Ω – решение системы неравенств (6), (7), (8). Таким

образом, можно сформулировать утверждение:

Утверждение. Точка (x

k

, y



k

), принадлежащая области Ω, бу-

дет являться точкой области притяжения положения равновесия

(2) системы (5).

Литература

1. Прасолов А.В. Математические модели динамики в экономике.

СПб: Изд-во СПбГУ Экономики и Финансов, 2000. 247 c.

2. Александров А.Ю., Жабко А.П. Устойчивость разностных си-

стем: Учебное пособие. СПб: НИИ Химии СПбГУ, 2003. 112 c.

19


Демидова А.М.

Санкт-Петербургский государственный университет

Решение граничной задачи для линейной

нестационарной системы в классе дискретных

управлений

Рекомендовано к публикации профессором Квитко А.Н.

Объектом исследования является система

˙y = P (t)y + Q(t)w + f (t),

(1)

где


y = (y

1

, . . . , y



n

)



; w = (w

1

, . . . , w



r

)



, w ∈ R

r

, r ≤ n; t ∈ [0, 1];



P (t) = {p

ij

(t)}, i, j = 1, n ; Q(t) = {q



ij

(t)}, i = 1, n, j = 1, r,

p

ij

(t), q



ij

(t) ∈ C


2

(R

1



), f = (f

1

, . . . , f



n

)



;

y < C


1

,

w < C



2

.

(2)



Рассмотрим разбиение интервала [0,1] точками 0 = t

0

< t

1

< . . . <

t

m−1



< t

m

= 1. Функцию w(t) ≡ w



k

при t ∈ [t

k

, t


k+1

), k = 1, m − 1,

где w

k

принадлежит области (2), будем называть дискретной управ-



ляющей функцией.

Постановка задачи. Пусть заданы состояния

y(0) = 0, y(1) = y

1

; y



1

= (y


1

1

, . . . , y



n

1

)



,

y



1

< C

1

.



(3)

Требуется найти дискретное управление w(t), заданное на некото-

ром разбиении интервала [0,1] так, чтобы для решения y(t) системы

(1) были выполнены условия

y(0) = 0,

y(t


1

) − y


1

≤ ε


1

; t


1

∈ [t


m−1

, 1], |t


1

− 1| ≤ ε


2

.

(4)



В (4) t

1

— заранее неизвестный момент времени; ε



1

> 0, ε


2

> 0 —


произвольные фиксированные числа.

Решение задачи. Введем обозначения

˜

P

ij



= {p

ij

(1)}, i, j = 1, n;



˜

Q

ij



= {q

ij

(1)}, i = 1, n, j = 1, r.



Предположим, что

rank( ˜


Q, ˜

P ˜


Q, . . . , ˜

P

n−1



˜

Q) = n.


(5)

20


Пусть имеется некоторое управление w

0

(t) и соответствующая



ему

траектория y

0

(t), удовлетворяющие (1).



Сделаем замену переменных

y(t) = x(t) + y

0

(t),


w(t) = u(t) + w

0

(t).



(6)

После подстановки (6) в систему (1) получим

˙x = P (t)x + Q(t)u.

(7)


Теорема. Пусть выполняется условие (5). Тогда существуют

такое ε > 0 и такое h

0

> 0, что для всех x



1

:

x



1

< ε и при шаге

дискретности h : 0 < h < h

0

существует решение поставленной



задачи.

Доказательство. Выберем u

1

∈ R


r

; u


1

= (u


1

1

, . . . , u



r

1

)



, u


1

<

C

2



. Используя свойства (2) систему (7) можно записать в виде

˙x

i



=

n

j=1



p

ij

(1)x



j

1

+



r

j=1


q

ij

(1)u



j

1

+



+

n

j=1



p

ij

(1)(x



j

− x


j

1

) +



r

j=1


q

ij

(1)(u



j

− u


j

1

)+



+

n

j=1



dp

ij

dt



(1)x

j

1



(t − 1) +

r

j=1



dq

ij

dt



(1)u

j

1



(t − 1)+

+

n



j=1

d

2



p

ij

dt



2

(˜t)x


j

1

(t − 1)



2

+

r



j=1

d

2



q

ij

dt



2

(˜t)u


j

1

(t − 1)



2

,

(8)



˜t = 1 + θ

i

(t − 1),



0 < θ < 1

Будем искать решение поставленой задачи в виде

x

i

(t) = a



i

(t) + tx


i

1

, i = 1, n ,



(9)

u

j



(t) = b

j

(t) + tu



j

1

, j = 1, r .



(10)

После подстановки соотношений (9), (10) в систему (8) получим

следущую систему

˙a = ˜


P a + ˜

Qb + R


1

(x

1



, u

1

, t),



(11)

R

i



1

=

n



j=1

p

ij



x

j

1



+

r

j=1



q

ij

u



j

1

− x



i

1

+



21

+

n

j=1



∂p

ij

∂t



(1)(t − 1)x

j

1



+

r

j=1



∂q

ij

∂t



(1)(t − 1)u

j

1



+

+

n



j=1

2



p

ij

∂t



2

(˜t)(t − 1)

2

x

j



1

+

r



j=1

2





Достарыңызбен бөлісу:
1   2   3   4   5   6   7   8   9   ...   57




©emirsaba.org 2024
әкімшілігінің қараңыз

    Басты бет