Лекции по теории управления : учебное пособие

Принцип максимума Понтрягина

жүктеу/скачать 3,95 Mb.

Pdf көрінісі

бет	39/43
Дата	04.09.2023
өлшемі	3,95 Mb.
	#106068
түрі	Лекции

1 ... 35 36 37 38 39 40 41 42 43

Байланысты:
Фурсов В.А. Лекции по теории управления 2021

15.5. Метод динамического программирования

15.4. Принцип максимума Понтрягина
Метод разработан для решения задач с ограничениями на управление в
виде неравенств. Часто оптимальное управление в таких задачах имеет раз-
рыв. В этом случае метод множителей Лагранжа не позволяет определить
число и положение этих точек.
Задача формулируется следующим образом.
( , , ),
1,
i
i
x
f x u t
i
n


;
(15.27)
0
0
( )
,
( )
N
N
x t
x
x t
x


;
(15.28)

122
0
0
( , , )
min
N
t
t
J
f x u t dt



.
(15.29)
Эта задача существенно отличается от сформулированной выше. В дан-
ном случае функция управления
( )
u t
может быть кусочно-непрерывной и
не требуется гладкость (непрерывная дифференцируемость)
( , , )
i
f x u t
по
u
.
Cоставим функцию Лагранжа


0 0
1
1
( , , , , )
( , , )
n
n
i
i
i
i i
i
i
L x u
t
f
f x u t
x
H
x
 












,
(15.30)
где
0
( , , )
n
i
i
i
H
f x u t




–
Гамильтониан (функция Понтрягина). Далее задача
сводится к следующей:
0
( , , , , )
max
N
t
t
J
L x x u
t dt




;
(15.31)
0
0
( )
,
( )
N
N
x t
x
x t
x


.
(15.32)
Функционал (15.31) максимизируется, т.к. коэффициент
0

при
0
f
принят
0
1

 
.
Пусть , ,
x u




решение задачи (15.31), (15.32). Очевидно, что эта за-
дача равносильна следующим двум:
0
1
( , ,
, , )
max
N
t
t
J
L x x u
t dt





;
(15.33)
0
2
(
,
, ,
, )
max
N
t
t
J
L x x u
t dt







(15.34)
или
0
1
1
( ,
, , )
max
N
t
n
i
i
i
t
J
H x u
t
x dt















;
(15.35)
0
2
1
(
, ,
, )
max
N
t
n
i
i
i
t
J
H x u
t
x
dt


















.
(15.36)
Задача (15.35) – простейшая задача вариационного исчисления, кото-
рую мы рассмотрели выше. Для нее необходимые условия экстремума да-
ются уравнениями Эйлера:
x
H
 
ψ
;
(15.37)

123

H

 
x
.
(15.38)
Решение задачи (15.36) очевидно: управление
( )
u t

доставляет макси-
мум исходному критерию в том и только в том случае, если всюду на интер-
вале


0
,
N
t t
, кроме точек разрыва
( )
u t

max
( , ,
, )
( ,
,
, )
H x u
t
H x u
t
u U









.
(15.39)
Соотношения (15.37), (15.38) вместе с (15.39) составляют необходимые
условия исходной задачи (15.27) – (15.29). Уравнение (15.37) называют со-
пряженными уравнениями или сопряженной системой. Уравнения (15.38)
совпадают с уравнениями объекта, поэтому их можно не рассматривать.
Таким образом (
принцип максимума Понтрягина
), для того чтобы пара
( ),
( )
u t x t


была решением задачи (15.27) – (15.29) необходимо, чтобы суще-
ствовали такие, не обращающиеся одновременно в нуль, константы
0
0



и решение
1
2
,
,...,
T
n
 







 

ψ
сопряженной системы при
( )
( )
x t
x t


и
( )
( )
u t
u t


, что при всех


0
,
N
t
t t

,
кроме точек разрыва
( )
u t

, функция
( )
(
, ,
, )
H u
H x u
t




(15.40)
достигает при
( )
( )
u t
u t


максимума.
15.5. Метод динамического программирования
Основой метода динамического программирования является принцип
оптимальности Беллмана, который формулируется следующим образом.
Каковы бы ни были начальное состояние и решение на начальном
этапе, решения на последующем этапе должны составлять оптимальную
стратегию относительно состояния, которое получено в результате при-
нятия решений на начальном этапе.
Например, если
( )
( )
x t
x t


минимизирует функционал
( , , )
J x u t
на ин-
тервале
 
0,
t
, то участок траектории на интервале
 
,
t T
может рассматри-
ваться как самостоятельная траектории, причем она оптимальна, если мини-
мизирует функционал
( , , )
J x u t
на интервале
 
,
t T
.
Построим основное функциональное уравнение Беллмана. Рассмотрим
задачу
( , , ),
1,
i
i
x
f x u t
i
n


;
(15.41)

124
0
0
( )
x t
x

;
(15.42)
0
( , , )
min
T
Q
G x u t dt



,
(15.43)
где
T
–
фиксирована, а
 
x T
–
заранее неизвестна.
Пусть существует, соответствующее оптимальной траектории, мини-
мальное значение
( , )
S x

функционала (15.43). Возьмем любое управление
( )
u t
для перехода из точки
 
x

в точку
 
x T
и оптимальное
( )
u t

для пе-
рехода из точки
 
x s
в точку
 
x T
.
Тогда функционал примет значение
0
0
( , , )
( , )
T
Q
G x u t dt
S x s



.
(15.44)
Ясно, что
( , )
( , , )
( , )
s
S x
G x u t dt
S x s





.
(15.45)
Если
( , )
S x

дифференцируема, то ее можно представить в виде
1
( , )
( , )
(
)
(
)
(
)
n
i
i
i
S dx
dS
S x s
S x
s
s
o s
x ds
d









 
 



. (15.46)
Подставим ( , )
S x s
из (15.46) в (15.45), при этом вместо
i
dx
ds
подставим
правую часть (15.41):
1
1
(
)
( , , )
( , , )
(
)
s
n
i
i
i
S
S
s
G x u t dt
f x u t
s
x
s



















.
(15.47)
Переходя к пределу при
s


получаем
1
( , , )
( , , )
n
i
i
i
S
S
G x u t
f x u
x











.
(15.48)
Причем, если управление оптимальное, то неравенство превращается
в равенство:
1
( ,
, )
( ,
, )
n
i
i
i
S
S
G x u t
f x u
x















.
(15.49)
Это линейное уравнение первого порядка типа Гамильтона-Якоби
называется уравнением Беллмана. Оно дает лишь необходимые условия
оптимальности.

125


Лекция 16. АДАПТИВНЫЕ СИСТЕМЫ
УПРАВЛЕНИЯ
16.1. Основные понятия и определения,
классификация адаптивных систем
Адаптивные системы управления – это класс систем, в которых имеется
возможность изменять параметры алгоритмов управления или структуру
блока управления в зависимости от изменения характеристик объекта
управления или действующих на объект управления внешних возмущений.
Адаптивное управление широко применяется при построении систем авто-
матического управления (САУ).
Адаптивные САУ делятся на две большие группы:
1.
Самонастраивающиеся
системы, в которых перестраиваются только
параметры алгоритмов управления.
2.
Самоорганизующиеся
системы, в которых перестройке подвергается
также структура блока (алгоритмов) управления.
По способу определения текущих характеристик объекта системы ав-
томатического управления делятся на
1. Поисковые.
2. Беспоисковые.
Целью поисковых систем является поддержание системы в точке экс-
тремума заданного критерия эффективности САУ. В таких системах для
определения управляющих воздействий, обеспечивающих движение к экс-
тремуму, к управляющему сигналу добавляется поисковый сигнал. Поиско-
вые системы, в которых задан критерий эффективности, часто называют
также экстремальными.
В беспоисковых системах отсутствует поисковый сигнал, а пере-
стройка параметров блока управления осуществляется либо по заданной
эталонной динамической модели системы с заданным качеством, либо с ис-
пользованием параметров модели объекта, определяемых путем идентифи-
кации. В соответствии с указанными способами
получения информации
рас-
сматривают:

126
1. Системы с эталонной моделью (ЭМ).
2. Системы с настраиваемой моделью (НМ).
В адаптивных системах с настраиваемой моделью могут быть реализо-
ваны следующие принципы управления:
1. Прямой.
2. Косвенный (непрямой).
При косвенном адаптивном управлении сначала делается оценка (иден-
тификация) параметров объекта. После этого на основании полученных оце-
нок определяются требуемые значения параметров блока управления и про-
изводится их подстройка.
При прямом адаптивном управлении используется связь между пара-
метрами объекта и блока управления. В силу этой связи осуществляется
непосредственная оценка и перестройка параметров блока управления в за-
висимости от текущих параметров объекта.

жүктеу/скачать 3,95 Mb.

Достарыңызбен бөлісу:

1 ... 35 36 37 38 39 40 41 42 43