управляемое целями поведение. Одним из возможных способов опи-
сания цели агента является определение оценочной функции
goal : P → [0, 1].
Эта функция позволяет агенту для каждого восприятия состо-
яния среды определить, насколько оно соответствует поставленной
перед ним цели. Часто можно встретить ситуацию, когда цель аген-
та является “неделимой”, т.е. агент либо достигает цель полностью,
либо не достигает её вообще.
Обычно агент преследует не одну конкретную цель, а некоторый
их набор, при этом цели агента являются частью его внутреннего со-
стояния I = I × 2
Goals
, где Goals = {g | g : P → [0, 1]} есть конечное
12
множество всех оценочных функций, а I есть остальная часть со-
стояния агента, не относящаяся к целеполаганию. Тогда общая оце-
ночная функция агента для состояния (i, G) может быть определена,
например, так:
goal(p) =
1
|G|
g∈G
g(p),
где p есть оцениваемое восприятие состояния среды. В случае, когда
агент не имеет ни одной цели (G = ∅), значение оценочной функции
определяется равным нулю (goal
.
= 0).
На практике чаще всего цели агента имеют различный приоритет.
В этом случае структура множества целей усложняется: Goals =
{(g, w) | g : P → [0, 1], w ∈ [0, +∞)}, где w есть неотрицательное
число, определяющее приоритет конкретной цели для агента. Общая
оценочная функция агента для состояния (i, G) тогда может иметь
вид
goal(p) =
1
(g,w)∈G
w
(g,w)∈G
(w · g(p)).
(2)
В случае, когда агент не имеет ни одной цели с ненулевым прио-
ритетом, то есть G = ∅ или
(g,w)∈G
w = 0, значение оценочной функ-
ции определяется равным нулю (goal
.
= 0).
Однако для эффективного управляемого целями поведения аген-
ту недостаточно просто определить свои цели. Необходимым усло-
вием для эффективности является способность предсказывать по-
следствия своих действий. Как часть своего состояния агент должен
включать прогнозирующую функцию
prog : P × A → 2
P ×[0,1]
,
принимающую в качестве параметров текущее восприятие состоя-
ния внешней среды и действие агента, а возвращающая множество
возможных восприятий состояний среды, в одно из которых она пе-
рейдет после выполнения действия, вместе с вероятностью перехода.
Прогнозирующая функция является важной составляющей внут-
реннего состояния агента и строится на основе его аккумулированно-
го опыта. Обозначим множество всех прогнозирующих функций че-
рез P rogs = {prog | prog : P ×A → 2
P ×[0,1]
}. В этом случае структура
внутреннего состояния агента примет вид: I = I × 2
Goals
× P rogs.
Использование прогнозирующих функций позволяет представить
задачу принятия решения агентом как задачу нахождения точки
13
максимального значения функции потенциального эффекта дей-
ствия v : A → [0, +∞), выражаемой через функции goal и prog. Для
простой прогнозирующей функции это v(a) =
p∈prog(p
cur
,a)
goal(p),
где p
cur
есть восприятие текущего состояния внешней среды. Для ве-
роятностной
прогнозирующей
функции
выражение
сложнее:
v(a) =
(p,θ)∈prog(p
cur
,a)
(θ · goal(p)). Если же обратиться к вычисле-
нию функции goal, см. (2), то можно получить следующее итоговое
выражение функции v для агента с состоянием (i, G, prog) и внешней
среды в состоянии, воспринимаемом как p
cur
:
v(a) =
(p,θ)∈prog(p
cur
,a)
θ
(g,w)∈G
w
·
(g,w)∈G
(w · g (p))
.
6. Планирование. Важной для агента способностью является
возможность планирования своих действий на несколько шагов впе-
ред. Таким образом, помимо оперативных целей, достигаемых на
текущем действии (именно такие цели рассматривались в предыду-
щем разделе), у агента появляются перспективные цели, для дости-
жения которых агенту потребуется выполнить последовательность
из нескольких действий.
Процесс планирования включает также поддержание вспомога-
тельной структуры данных, являющейся частью общего состояния
агента. Обозначим множество всех таких структур как P lans, тогда
состояние агента будет включать множество перспективных целей,
прогнозирующую функцию, информацию о плане и остальную вспо-
могательную информацию: I = I × 2
Goals
× P rogs × P lans . В итоге
процесс планирования можно смоделировать с помощью планирую-
щей функции
plan : 2
Goals
× P rogs × P lans × P → P lans,
которая на основе данных перспективных целей формирует структу-
ру с описанием плана, используя для этого прогнозирующую функ-
цию и восприятие текущего состояния внешней среды, а также функ-
ции формирования оперативных целей
oper : P lans → 2
Goals
,
14
которая на основе плана осуществляет формирование множества
оперативных целей.
Можно отметить, что в большинстве случаев процесс планирова-
ния имеет б´ольшую вычислительную сложность, чем процесс при-
нятия решения о конкретном оперативном действии. Для оптимиза-
ции этого процесса можно запоминать основу однажды составлен-
ного плана и адаптировать её к возникающим задачам, что может
оказаться значительно эффективнее создания нового плана “с нуля”.
Литература
1. Wooldridge M.J., Jennings N.R. Intelligent Agents: Theory and
practise // The Knowledge Engineering Review, 1995.
2. Wooldridge M.J. The Logical Modeling of Computational Multi-
Agent Systems: phd thesis. Manchester, 1992. 153 p.
3. Wooldridge M.J. Intelligent Agents // Multiagent Systems, 2001. P.
27–79.
4. Huhns M.N. , Stephens L.M. Multiagent Systems and Societies of
Agents // Multiagent Systems, 2001. P. 79–121.
5. Jennings N.R., Wooldridge M.J. Applications of Intelligent Agents.
London: Queen Mary & Westfield College, University of London,
2000. 27 p.
6. Miraftabi R. Agents on the Loose: An overview of agent technologies.
Joensuu: Department of Computer Sciense, University of Joensuu,
2000. 17 p.
7. Van Dyke Parunak H. Industrial and Practical Application of DAI
// Multiagent Systems, 2001. P. 27–79.
15
Галайко А.С.
Санкт-Петербургский государственный университет
Об асимптотической устойчивости при переходе
от непрерывной системы к разностной системе
Рекомендовано к публикации профессором Прасоловым А.В.
Цель данной работы заключается в исследовании сохранения
свойства асимптотической устойчивости и оценки области притяже-
ния при переходе от непрерывной системы к разностной.
Рассматривается система из двух уравнений Лотки – Вольтерры:
˙x = x(1 − x − y),
˙y = y(1 − αx − βy).
(1)
Данная система имеет асимптотически устойчивое нетривиаль-
ное положение равновесия
x
∗
=
β − 1
β − α
,
y
∗
=
1 − α
β − α
(2)
при ограничениях на параметры α и β [1]: α ∈ (0, 1) , β > 1, и обла-
стью её притяжения является открытый положительный квадрант,
или, после перехода к системе в отклонениях x = x − x
∗
, y = y − y
∗
,
область:
x > −
β − 1
β − α
,
y > −
1 − α
β − α
.
(3)
Этот факт для системы (1) получен с использованием известной
функции Ляпунова [1]
V (x, y) = x − x
∗
− x
∗
ln
x
x
∗
+ y − y
∗
− y
∗
ln
y
y
∗
.
(4)
Рассмотрим переход к разностной системе через переход к инте-
гральным уравнениям
x(t
k+1
) = x(t
k
) exp(
t
k+1
t
k
(1 − x(s) − y(s))ds),
y(t
k+1
) = y(t
k
) exp(
t
k+1
t
k
(1 − αx(s) − βy(s))ds).
Положим t
k
= kh, t
k
∈ R
1
, h – шаг дискретизации. Обозначим:
x(t
k
) = x
k
, y(t
k
) = y
k
. Пользуясь приближениями экспоненты и ин-
теграла и сохраняя прежние обозначения, получаем более простой
вид дискретной системы:
16
x
k+1
= x
k
(1 + h(1 − x
k
− y
k
)),
y
k+1
= y
k
(1 + h(1 − αx
k
− βy
k
)).
(5)
Данная система имеет нетривиальное положение равновесия (2).
Положительный квадрант инвариантен по отношению к системе
(1), но не инвариантен по отношению к системе (5). Инвариантным
же по отношению к системе (5) будет подмножество положительного
квадранта, определяемое системой неравенств
1 + h(1 − x
k
− y
k
) > 0,
1 + h(1 − αx
k
− βy
k
) > 0.
Или, после преобразования:
x
k
+ y
k
<
1
h
+ 1,
αx
k
+ βy
k
<
1
h
+ 1.
Делая замену x = x − x
∗
, y = y − y
∗
, получим:
x
k
+ y
k
<
1
h
+ 1 −
β−1
β−α
−
1−α
β−α
,
αx
k
+ βy
k
<
1
h
+ 1 − α
β−1
β−α
− β
1−α
β−α
.
(6)
Область притяжения содержится в множестве, которое является
решением системы неравенств (6) с учетом ограничений (3).
Теперь проверим, будет ли асимптотически устойчиво положение
равновесия (2) дискретной системы (5).
Утверждение. Для системы (5) асимптотическая устойчи-
вость положения равновесия будет иметь место при ограничениях
на шаг дискретизации: h ∈ (0, 1) ∪ (1, 2) и при α ∈ (0, 1) , β > 1.
Доказательство. Система линейного приближения системы в
отклонениях
x
k+1
= 1 − h
β−1
β−α
x
k
− h
β−1
β−α
y
k
,
y
k+1
= −
1−α
β−α
hαx
k
+ 1 −
1−α
β−α
hβ y
k
,
имеет следующие собственные числа:
λ
1
= |1 − h|,
λ
2
= −
h + βαh − hα − βh + β − α
α − β
.
17
Как известно [2], для асимптотической устойчивости собственные
числа матрицы линейного приближения должны быть по модулю
меньше единицы. Решая полученную систему неравенств, приходим
к приведенному в утверждении ограничению на шаг h.
Проведём оценку области притяжения дискретной системы снизу.
Для этого воспользуемся методом функций Ляпунова [2].
Разложение функции Ляпунова (4) в ряд Тейлора для дискрет-
ного случая имеет вид:
V (x
k
, y
k
) =
1
2
x
2
k
β − α
β − 1
+
1
2
y
2
k
β − α
1 − α
+ o(x
k
, y
k
),
где o(x
k
, y
k
) – члены более высокого порядка.
Обозначим
V (x
k
, y
k
) =
1
2
x
2
k
β − α
β − 1
+
1
2
y
2
k
β − α
1 − α
.
Справа стоит положительно-определённая квадратичная форма
в каноническом виде.
Приращение функции V (x
k
, y
k
) должно быть отрицательно опре-
делено. Отрицательная определенность приращения функции в силу
линейной системы следует из критерия Сильвестра. Таким образом,
ещё раз показано локальное сохранение свойства асимптотической
устойчивости в окрестности положения равновесия.
Приращение функции Ляпунова в силу всей системы имеет вид:
∆V =
1
2
x
2
k
h −2 x
k
+
β − 1
β − α
β − α
β − 1
+ h x
k
+
β − 1
β − α
2
β − α
β − 1
+
+hα y
k
+
1 − α
β − α
2
β − α
1 − α
+ x
k
y
k
h − x
k
+
β − 1
β − α
β − α
β − 1
+
+ x
k
+
β − 1
β − α
2
β − α
β − 1
− α y
k
+
1 − α
β − α
β − α
1 − α
+
+hαβ y
k
+
1 − α
β − α
2
β − α
1 − α
+
1
2
y
2
k
h h x
k
+
β − 1
β − α
β − α
β − 1
−
−2β y
k
+
1 − α
β − α
β − α
1 − α
+ hβ
2
y
k
+
1 − α
β − α
2
β − α
1 − α
.
18
Для отрицательной определённости функции ∆V выражения,
стоящие в квадратных скобках, должны быть меньше либо равны
нулю.
После преобразований получаем неравенства
h
2
x
k
+
β−1
β−α
−
1
h
2
1
+
h
2
α y
k
+
1−α
β−α
2
1−α
β−1
≤ 1,
(7)
1
2
x
k
+
β−1
β−α
−
1
2
2
β−α
β−1
β−α
β−1
+
α
hβ
β−α
1−α
+
1
2
y
k
+
1−α
β−α
−
1
2hβ
2
β−α
1−α
αβh
β−α
β−1
+
α
hβ
β−α
1−α
≤ 1,
(8)
x
k
+
β − 1
β − α
≤
≤ −β
2
y
k
+
1 − α
β − α
2
β − 1
1 − α
+ 2β y
k
+
1 − α
β − α
β − 1
1 − α
h.
(9)
Исследования показали, что неравенство (9) не влияет на область
притяжения.
Обозначим Ω – решение системы неравенств (6), (7), (8). Таким
образом, можно сформулировать утверждение:
Утверждение. Точка (x
k
, y
k
), принадлежащая области Ω, бу-
дет являться точкой области притяжения положения равновесия
(2) системы (5).
Литература
1. Прасолов А.В. Математические модели динамики в экономике.
СПб: Изд-во СПбГУ Экономики и Финансов, 2000. 247 c.
2. Александров А.Ю., Жабко А.П. Устойчивость разностных си-
стем: Учебное пособие. СПб: НИИ Химии СПбГУ, 2003. 112 c.
19
Демидова А.М.
Санкт-Петербургский государственный университет
Решение граничной задачи для линейной
нестационарной системы в классе дискретных
управлений
Рекомендовано к публикации профессором Квитко А.Н.
Объектом исследования является система
˙y = P (t)y + Q(t)w + f (t),
(1)
где
y = (y
1
, . . . , y
n
)
∗
; w = (w
1
, . . . , w
r
)
∗
, w ∈ R
r
, r ≤ n; t ∈ [0, 1];
P (t) = {p
ij
(t)}, i, j = 1, n ; Q(t) = {q
ij
(t)}, i = 1, n, j = 1, r,
p
ij
(t), q
ij
(t) ∈ C
2
(R
1
), f = (f
1
, . . . , f
n
)
∗
;
y < C
1
,
w < C
2
.
(2)
Рассмотрим разбиение интервала [0,1] точками 0 = t
0
< t
1
< . . . <
t
m−1
< t
m
= 1. Функцию w(t) ≡ w
k
при t ∈ [t
k
, t
k+1
), k = 1, m − 1,
где w
k
принадлежит области (2), будем называть дискретной управ-
ляющей функцией.
Постановка задачи. Пусть заданы состояния
y(0) = 0, y(1) = y
1
; y
1
= (y
1
1
, . . . , y
n
1
)
∗
,
y
1
< C
1
.
(3)
Требуется найти дискретное управление w(t), заданное на некото-
ром разбиении интервала [0,1] так, чтобы для решения y(t) системы
(1) были выполнены условия
y(0) = 0,
y(t
1
) − y
1
≤ ε
1
; t
1
∈ [t
m−1
, 1], |t
1
− 1| ≤ ε
2
.
(4)
В (4) t
1
— заранее неизвестный момент времени; ε
1
> 0, ε
2
> 0 —
произвольные фиксированные числа.
Решение задачи. Введем обозначения
˜
P
ij
= {p
ij
(1)}, i, j = 1, n;
˜
Q
ij
= {q
ij
(1)}, i = 1, n, j = 1, r.
Предположим, что
rank( ˜
Q, ˜
P ˜
Q, . . . , ˜
P
n−1
˜
Q) = n.
(5)
20
Пусть имеется некоторое управление w
0
(t) и соответствующая
ему
траектория y
0
(t), удовлетворяющие (1).
Сделаем замену переменных
y(t) = x(t) + y
0
(t),
w(t) = u(t) + w
0
(t).
(6)
После подстановки (6) в систему (1) получим
˙x = P (t)x + Q(t)u.
(7)
Теорема. Пусть выполняется условие (5). Тогда существуют
такое ε > 0 и такое h
0
> 0, что для всех x
1
:
x
1
< ε и при шаге
дискретности h : 0 < h < h
0
существует решение поставленной
задачи.
Доказательство. Выберем u
1
∈ R
r
; u
1
= (u
1
1
, . . . , u
r
1
)
∗
, u
1
<
C
2
. Используя свойства (2) систему (7) можно записать в виде
˙x
i
=
n
j=1
p
ij
(1)x
j
1
+
r
j=1
q
ij
(1)u
j
1
+
+
n
j=1
p
ij
(1)(x
j
− x
j
1
) +
r
j=1
q
ij
(1)(u
j
− u
j
1
)+
+
n
j=1
dp
ij
dt
(1)x
j
1
(t − 1) +
r
j=1
dq
ij
dt
(1)u
j
1
(t − 1)+
+
n
j=1
d
2
p
ij
dt
2
(˜t)x
j
1
(t − 1)
2
+
r
j=1
d
2
q
ij
dt
2
(˜t)u
j
1
(t − 1)
2
,
(8)
˜t = 1 + θ
i
(t − 1),
0 < θ < 1
Будем искать решение поставленой задачи в виде
x
i
(t) = a
i
(t) + tx
i
1
, i = 1, n ,
(9)
u
j
(t) = b
j
(t) + tu
j
1
, j = 1, r .
(10)
После подстановки соотношений (9), (10) в систему (8) получим
следущую систему
˙a = ˜
P a + ˜
Qb + R
1
(x
1
, u
1
, t),
(11)
R
i
1
=
n
j=1
p
ij
x
j
1
+
r
j=1
q
ij
u
j
1
− x
i
1
+
21
+
n
j=1
∂p
ij
∂t
(1)(t − 1)x
j
1
+
r
j=1
∂q
ij
∂t
(1)(t − 1)u
j
1
+
+
n
j=1
∂
2
p
ij
∂t
2
(˜t)(t − 1)
2
x
j
1
+
r
j=1
∂
2
Достарыңызбен бөлісу: |