МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ УРАЛЬСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
Радиотехнический факуль...
33 downloads
175 Views
728KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ УРАЛЬСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
Радиотехнический факультет
Кафедра теоретических основ радиотехники Секция “Современная математика в инженерном образовании”
Ченцов А.Г. ПРОСТЕЙШИЕ ЗАДАЧИ УПРАВЛЕНИЯ ЛИНЕЙНЫМИ СИСТЕМАМИ
Екатеринбург – 2005
Содержание 1 Введение
4
2 Общие сведения
7
3 Линейные управляемые системы
13
4 Область достижимости и простейшая задача терминального управления 18 5 Оптимизация программных управлений
34
6 Линейная задача управления с геометрическими ограничениями
39
7 Простейшие примеры решения задачи управления с геометрическими ограничениями 50 8 Управляемые линейные системы: примеры и обсуждение
66
Приложение
76
Список литературы
96
3
1
Введение
В настоящем пособии ставится цель: дать наглядное представление о подходе к решению задач оптимального управления линейными системами, предложенном и развитом Н.Н.Красовским; см. [1] – [4]. Мы ограничиваемся здесь рассмотрением только одной очень частной постановки: речь пойдет о задаче сближения с множеством в заданный момент времени. В упомянутых работах [1, 2] и монографиях [3, 4] Н.Н.Красовским были рассмотрены различные классы задач, разобраны примеры и даны необходимые сведения общематематического характера. Отметим, что упомянутые оригинальные исследования (см. [3, 4]) составили важное направление в интенсивно развивающейся в те годы теории оптимального управления, выдающимся достижением которой является принцип максимума Л.С.Понтрягина (см. [5, 6]). В [1] – [4] и в целом ряде других работ Н.Н.Красовским построены эффективные варианты принципа максимума, в рамках которых удается максимально конкретизировать соответствующие параметры в соотношениях экстремумов. Упомянутое направление получило мощное развитие в последующих работах Н.Н.Красовского и его учеников; сейчас отметим только применения в теории дифференциальных игр [4, 7, 8]. В рамках этой теории Н.Н.Красовским была построена принципиально новая формализация управления по принципу обратной связи, которая позволила детально исследовать (см. [7, 8]) задачи управления в условиях неопределенных помех и противодействия. Ключевое значение имеет в этих исследованиях фундаментальная теорема об альтернативе Н.Н.Красовского и А.И.Субботина; см. [7]. Идея принципа максимума Л.С.Понтрягина нашла свое отражение в методе экстремального сдвига (в другом варианте — экстремального прицеливания) Н.Н.Красовского. Упомянутые подходы связаны с решением более сложных задач управления с помехами и в данном пособии не рассматриваются; мы рекомендуем читателю обратиться к монографиям [7, 8] (см. также библиографию [7, 8]). В нашем дальнейшем изложении мы придерживаемся конструкций программного управления для систем, в которых не предполагается действие каких-либо помех, что (с принципиальной точки зрения) позволяет ориентироваться на построение управлений как программ, намечаемых заранее применительно к тем или иным начальным условиям. Сама система предполагается известной. Известны также и наши возможности в части выбора управляющих программ, т.е. ограничения на выбор управлений, понимае4
мых как функции времени. Каждый такой выбор приводит к реализации вполне определенной траектории, являющейся непрерывной функцией на заданном временном промежутке (мы рассматриваем здесь только задачи управления на конечном промежутке времени). Более того, траектория удовлетворяет векторному дифференциальному уравнению, полагаемому в данной работе линейным относительно фазовой переменной и управляющего параметра. Если управление-программа задана, то построение траектории осуществляется методами теории дифференциальных уравнений и, собственно говоря, относится к вопросам этой теории. Мы сосредоточимся далее на решении несколько иной задачи: как выбрать управление (т.е. программу своих последующих действий) для того, чтобы получаемая с его помощью траектория обладала бы требуемым качеством. Разумеется, при таком исследовании необходимо использовать многие факты теории дифференциальных уравнений. Но возникает и целый ряд других обстоятельств. В самом деле, нам надлежит выбрать функцию из заданного бесконечного (как правило) множества в функциональном пространстве. Какое-либо исследование перебора функций из этого множества с целью поиска наилучшей (функции) обычно не является возможным. Нужно что-то узнать о самом характере оптимальных управлений, узнать то, что прояснило бы в существенной части вид объекта (здесь — управляющая функция), наилучшего с нашей точки зрения. Именно такую роль играет принцип максимума Л.С.Понтрягина. В рассматриваемом ниже случае линейных задач управления появляются дополнительные возможности, определяемые конструкциями Н.Н.Красовского и, по всей видимости, наиболее полно реализуемые в случае геометрических ограничений на выбор управления: в терминах решения некоторой конечномерной двойственной экстремальной задачи (выпуклого программирования) удается установить, что в каждый (или, для более “изощренного” случая измеримых управляющих программ, в почти каждый) момент времени мгновенное управление должно доставлять экстремум в некоторой конечномерной задаче оптимизации, полностью определяемой вышеупомянутым решением весьма конкретной двойственной задачи. Этот момент исследования является главным для настоящей брошюры. Мы не доводим, даже на уровне примеров, свое решение до реализации численной процедуры, что существенно увеличило бы объем и потребовало много деталей, не являющихся существенными с точки зрения основного принципа решения. Но мы стремимся (и не только для примеров) свести сложные задачи бесконечномерной, вообще говоря, оптимизации к 5
принципиально более простым, хотя и достаточно сложным (в ряде случаев) в вычислительном отношении конечномерным задачам на экстремум. Именно такое сведение и составляет основную проблему. Подбор нужных численных методов решения более простых задач оптимизации мы обычно оставляем читателю, который найдет далее целый ряд полезных примеров для самостоятельного исследования. Особо следует сказать о приложениях. Теория управления возникла под влиянием актуальных инженерных задач. Среди последних можно отметить задачи космической навигации, управления различными летательными аппаратами, морскими судами и т.д. Особую популярность в связи с упомянутыми конкретными постановками приобрела задача быстродействия; см., в частности, [5, 6] (мы настоятельно рекомендуем в этой связи заинтересованным читателям ознакомиться с монографией [6], материал которой представляется вполне доступным широкому кругу математиков и инженеров). Позднее стали возникать, из соображений инженерной практики, и другие классы задач управления. Одной из них является рассматриваемая далее задача с фиксированным временем окончания. Во многих случаях она представляет самостоятельный интерес; в других случаях (в частности, в упомянутой задаче быстродействия) рассматриваемая далее задача может использоваться как вспомогательная. Существо рассматриваемого варианта исследуемой задачи управления можно пояснить следующим образом. Заданы некоторый момент времени и целевое множество, на которое требуется привести или, если это не удается при имеющихся ресурсах управления, приблизить, насколько это возможно, вектор существенной части координат процесса в упомянутый момент времени. Фиксация последнего может быть вызвана конкретными потребностями инженерной задачи (возможно, при некоторой их идеализации). Так, например, в работе аэропорта, принимающее большое число пассажирских самолетов, важно выдерживать временной график прибытия. Для каждого конкретного самолета соответствующий фрагмент этого графика можно представить как требование к обеспечению момента посадки, задаваемого директивно. Целевое множество можно определить как желательную часть полосы, определяемую конкретными условиями посадки. Можно указать и целый ряд других содержательных задач, для которых момент окончания процесса фиксирован. В связи с тем, что предлагаемое пособие ориентировано на преподавателей, сотрудников, аспирантов и студентов радиотехнического факультета, 6
имеет смысл отметить, что оно может быть полезным прежде всего для изучения разделов курса “Радиоуправление” (более того, представляется полезным своеобразный диалог инженеров, работающих в области технических систем, обслуживаемых курсом радиоуправления, и математиков, специализирующихся в области теории управления и дифференциальных игр).
2
Общие сведения
Мы придерживаемся традиционных обозначений; используем связки (&, ∨, =⇒, ⇐⇒) и кванторы (∀, ∃) в целях сокращения записи тех или иных положений как заменители слов. Выражение ∃ ! заменяет фразу “существует и единственно”. Мы полагаем известными основные теоретико-множественные операции: ∪, ∩, \ и т.д. Если h — какой-либо объект, то через {h} обозначаем одноэлементное множество, содержащее h (т.е. синглетон): h ∈ {h} и, 4 ˜ = h ∀h ˜ ∈ {h}. Через = кроме того, h обозначаем далее равенство по опре4
делению; R — вещественная прямая с обычным порядком ≤, N = {1; 2; . . .} (натуральный ряд). Используем для обозначения промежутков R только квадратные скобки (например, 4
]a, b[ = {ξ ∈ R | (a < ξ) & (ξ < b)} , где a ∈ R и b ∈ R; мы допускаем, кстати, случай b ≤ a, для которого ]a , b[ = ∅). В N также вводим промежутки: 4
p, q = {i ∈ N | (p ≤ i) & (i ≤ q)} ∀p ∈ N ∀q ∈ N ; 4 − →= s,−∞ {i ∈ N | s ≤ i} ∀s ∈ N .
Разумеется, 1, k = {i ∈ N | i ≤ k} при k ∈ N . Нам понадобятся векторы, т.е. упорядоченные конечные наборы вещественных чисел; мы введем их несколько позднее. Функции, векторы. Используем традиционное определение функции в виде правила, сопоставляющего каждому элементу одного множества единственный элемент другого множества; см., например, [9]. Для нас важно в дальнейшем рассматривать множества функций. Если A и B — множества, то через B A обозначаем (как в [10]) множество всех функций, действующих из A в B: содержательно B A = {A −→ B} . 7
(2.1)
Вектор конечной размерности также можно рассматривать как функцию в условиях, когда A = 1, k, где k ∈ N , а B = R. В интересах строгости обозначений условимся о соглашении: элементы R (вещественные числа) не являются множествами. В этих предположениях, как обычно, используем символ Rk вместо R1,k , где k ∈ N ; здесь уже традиционное Rk нельзя истолковать в смысле (2.1). Если k ∈ N , то, как обычно (в линейной алгебре), линейные операции в Rk определяются покомпонентно на основе соответствующих операций в вещественной прямой R. Если α ∈ R, β ∈ R, x ∈ Rk и y ∈ Rk , то α x + β y ∈ Rk понимается как (α x) + (β y). Такого рода соглашения, упрощающие обозначения, мы применяем и в более сложных случаях операций над вектор-функциями (можно сказать так: у нас сложение разделяет сильнее, чем умножение на скаляр). Нам понадобится скалярное произведение: если x = (xi )i∈1,k ∈ Rk и y = (yi )i∈1,k ∈ Rk , то k 4 X 0 xy= xi yi ∈ R . (2.2) i=1
Замечание 2.1. В (2.2) и далее мы придерживаемся традиционного соглашения: если k ∈ N и z ∈ Rk , то при i ∈ 1, k, через zi , (а не через z(i)) мы обозначаем, если не возникает двусмысленность, i-ю компоненту (координату) вектора z. Если нам потребуется так или иначе индексировать сами вектора, то, по мере возможности, будем использовать верхние индексы, сохраняя нижние для компонент. Так, например, для m ∈ N , последовательности (z (k) )k∈N = (z (k) )∞ k=1 (k)
в Rm и номера j ∈ 1, m мы, в виде (zj )k∈N имеем числовую (вещественнозначную) последовательность j-х компонент векторов исходной последовательности. 2 Отметим простое, но полезное свойство, связанное с (2.2): если k ∈ N , то отображение (x, y) 7−→ x0 y : Rk × Rk −→ R , где Rk × Rk — декартово произведение [9, 10] множества Rk на себя (позднее мы обсудим это важное понятие в более общем виде), билинейно, т.е. линейно по каждой из компонент. Именно, если фиксировать x ∈ Rk , то y 7−→ x0 y : Rk −→ R есть линейное отображение (т.е. x0 · (α˜ y ) = α · (x0 y˜) при α ∈ R, y˜ ∈ Rk , и x0 (y1 + y2 ) = x0 y1 + x0 y2 при y1 ∈ Rk и y2 ∈ Rk ); если же фиксировано 8
y ∈ Rk , то является линейным отображение x 7−→ x0 y : Rk −→ R. При m ∈ N и x ∈ Rm мы, в виде 4
kxk =
√
x0 x ∈ [0, ∞[ ,
(2.3)
имеем евклидову норму вектора x. Существенно следующее Замечание 2.2. Напомним весьма важное неравенство Коши-Буняковского (см., например, [9]): если m ∈ N , x ∈ Rm и y ∈ Rm , то |x0 y| ≤ kxk · kyk .
(2.4)
Фиксируя упомянутые m, x и y, рассмотрим для полноты доказательство неравенства (2.4). Через O обозначаем здесь вектор из Rm , для которого Oi = 0 ∀i ∈ 1, m. В силу (2.2) и (2.3) имеем, что (2.4) вполне очевидно в случае, когда (x = O) ∨ (y = O); напомним, что ∨ заменяет у нас слово “или”. Осталось рассмотреть случай, когда (x 6= O) & (y 6= O), для которого в силу (2.3) имеем: (kxk ∈]0, ∞[ ) & (kyk ∈]0, ∞[ ) .
(2.5)
4
Если λ ∈ R, то введем вектор z (λ) = x + λy ∈ Rk . С учетом (2.2), (2.3) имеем 0 ≤ kz (λ) k2 = (x + λy)0 (x + λy) = x0 x + λ · (x0 y) + λ · (y 0 x) + λ2 · (y 0 y) = = kxk2 + 2λx0 y + λ2 kyk2
(2.6)
(аналог формулы полного квадрата), где учтено вытекающее из (2.2) равенство x0 y = y 0 x. Для случая λ=
kxk kyk
(см. (2.5))) имеем из (2.6) очевидное неравенство kxk x0 y 0 2 0 ≤ kxk + 2 · (x y) + kxk = 2kxk(kxk + ), kyk kyk 2
откуда (см. (2.5)) вытекает, что x0 y 0 ≤ kxk + , kyk 9
т.е., как следствие, имеем оценку − x0 y ≤ kxk · kyk .
(2.7)
Полагая теперь λ = − kxk kyk , мы из (2.6) имеем: 2
kxk · (x0 y) ≤ 2kxk2 . kyk
Как следствие, получаем оценку x0 y ≤ kxk · kyk .
(2.8)
Из (2.7), (2.8) получаем (2.4) для случая x 6= O и y 6= O. Итак, (2.4) полностью доказано. Из (2.2), (2.3) непосредственно следует, что при y = α x, где α ∈ R, непременно x0 y = α kxk2 и выполнено равенство |x0 y| = |α| · kxk2 = kxk · kyk .
(2.9)
В дальнейшем (2.4), (2.9) используем без дополнительных пояснений. 2 Возвращаясь к обсуждению функций, особо выделяем случай, когда в (2.1) в качестве множества B используется Rk при некотором k ∈ N ; эти функции условимся именовать вектор-функциями; для упомянутых вектор-функций мы вводим линейные операции (сложение, умножение на скаляр) поточечно, используя оговоренное ранее соглашение об аналогичных операциях в Rk : если A — непустое множество (случаем A 6= ∅ можно ограничиться в дальнейшем), то 1) при α ∈ R и ϕ : A −→ Rk функцию αϕ : A −→ Rk мы определяем правилом 4 (αϕ)(x) = αϕ(x) ∀x ∈ A ; 2) если ϕ : A −→ Rk и ψ : A −→ Rk , то ϕ + ψ действует из A в Rk по правилу 4 (ϕ + ψ)(x) = ϕ(x) + ψ(x) ∀x ∈ A . Упомянутые правила распространяются на случай k = 1, т.е. (фактически) на случай функций из A в R. Оговорим, однако, этот случай дополнительно, имея в виду использование для соответствующих “поточечных” определений первичные линейные операции в R. Именно, если A — непустое множество, то: 10 ) для α ∈ R и ϕ : A −→ R имеем α ϕ : A −→ R, причем 4
(αϕ)(x) = αϕ(x) ∀x ∈ A ; 10
20 ) для ϕ : A −→ R,
ψ : A −→ R 4
имеем ϕ + ψ : A −→ R, причем (ϕ + ψ)(x) = ϕ(x) + ψ(x) ∀x ∈ A. Мы располагаем теперь большим набором линейных пространств, структура которых в значительной мере определяется свойствами R. Заметим, что в построениях, упомянутых выше, основным будет тот случай, когда A = [t0 , ϑ0 ], где t0 ∈ R, ϑ0 ∈ R, t0 < ϑ0 ; допускаем также вариант A = [t0 , ϑ0 [. Последний соответствует рассмотрению (программных) управлений, в то время как первый ориентирован на построение траекторий управляемых систем. Среди прочих понятий общего характера для нас важным является понятие выпуклости множеств, обсуждение которого вынесено в Приложение (см. также [11, 12] и др.). Сейчас ограничимся определениями. Начнем с множеств в конечномерных пространствах. Если m ∈ N и A — подмножество Rm (т.е. A ⊂ Rm ), то называем A выпуклым, если ∀x ∈ A ∀y ∈ A ∀α ∈ [0, 1] αx + (1 − α)y = y + α(x − y) ∈ A .
(2.10)
Подчеркнем, что в (2.10) мы использовали линейные операции в Rm , понимаемые в покоординатном смысле, как и было оговорено ранее. Если X — непустое множество, m ∈ N и Y — подмножество множества {X −→ Rm } (см. (2.1)) всех m-вектор-функций на X, то называем Y выпуклым, если ∀ϕ ∈ Y ∀ψ ∈ Y ∀α ∈ [0, 1] αϕ + (1 − α)ψ ∈ Y . Здесь уже линейные операции понимаются в поточечном смысле. Всюду в дальнейшем при m ∈ N 4
Lm = {x ∈ Rm | kxk ≤ 1}
(2.11)
есть евклидов шар единичного радиуса с центром в начале координат. Кроме того, 4 ∂Lm = {x ∈ Rm | kxk = 1} ∀m ∈ N . (2.12) В (2.11) имеем выпуклое множество; ∂Lm ⊂ Lm при m ∈ N . В Приложении множества (2.11), (2.12) используются при решении одной очень нужной в дальнейшем, хотя и вспомогательной по смыслу, задачи о метрической проекции. 11
Мы используем далее традиционное понятие непрерывной функции: если m ∈ N , A есть непустое подмножество Rm (т.е. A ⊂ Rm ) и ϕ : A −→ R , то, как обычно, называем функцию ϕ непрерывной (на A), если при всяком выборе последовательности (x(k) )k∈N в A и вектора x ∈ A ((kx(k) − xk)k∈N −→ 0) =⇒ ((ϕ(x(k) ))k∈N −→ ϕ(x)) ;
(2.13)
функция ϕ может быть при этом сужением некоторой функции ϕ˜ : Rm −→ R, что означает свойство ϕ(x) = ϕ(x) ˜ ∀x ∈ A . В этом последнем случае будем говорить, что функция ϕ˜ непрерывна на множестве A, если непрерывно ее сужение ϕ в смысле (2.13), т.е. если ((kx(k) − xk)k∈N −→ 0) =⇒ ((ϕ(x ˜ (k) ))k∈N −→ ϕ(x)) ˜ при всяком выборе последовательности (x(k) )k∈N в A и вектора x ∈ A. Свойство (2.13) и в этом случае является определяющим. Особенно важен случай, когда в упомянутом построении множество A, A 6= ∅, является ограниченным и замкнутым, т.е. (секвенциально) компактным. В этом случае каждая функция ϕ из A в R со свойством непрерывности (2.13) непременно достигает своих минимума и максимума, т.е. для некоторых x∗ ∈ A и x∗∗ ∈ A имеет место ϕ(x∗ ) ≤ ϕ(x) ≤ ϕ(x∗∗ ) ∀x ∈ A . Это свойство следует из общих положений о достижимости экстремума на компактных пространствах, связанных с теоремой Вейерштрасса; см. в этой связи [9]. Это важное свойство неоднократно используется в дальнейшем и, в ряде случаев, оговаривается дополнительно. Разумеется, мы используем при этом только очень частные случаи известных общих положений о непрерывности и ограниченности функции, а также о достижимости экстремума; см. [9]. Если p ∈ N и q ∈ N , то через M[p; q] обозначаем множество всех (p×q) матриц.
12
3
Линейные управляемые системы
В этом разделе мы приводим совсем краткую сводку требуемых фактов, отсылая заинтересованного читателя к [1] – [4]. Особо отметим конструкции Н.Н.Красовского в замечательной монографии [3]. Фиксируем два момента времени t0 ∈ R и ϑ0 ∈ R, для которых t0 < ϑ0 . Для краткости полагаем далее 4
4
I = [t0 , ϑ0 [ ,
I0 = [t0 , ϑ0 ] .
Кроме того, фиксируем n ∈ N и рассматриваем n-мерное арифметическое пространство Rn , именуемое далее фазовым. Фиксируем матричнозначное отображение t 7−→ A(t) : I0 −→ M[n; n] , (3.1) все компоненты которого непрерывны: если i ∈ 1, n и j ∈ 1, n, то зависимость t 7−→ (A(t))i,j : I0 −→ R есть непрерывная на I0 функция. В терминах матрицанта (3.1) мы определяем т.н. однородную систему x˙ = A(t) x .
(3.2)
В левой части (3.2) предполагается использование производных векторфункций с n-компонентами. Кроме того, фиксируем p ∈ N и матричнозначное отображение t 7−→ B(t) : I0 −→ M[n; p] ,
(3.3)
все компоненты которого также непрерывны на I0 . Замечание 3.1. Для наших целей существенно лишь сужение t 7−→ B(t) : I −→ M[n; p] .
(3.4)
Однако, мы оговариваем свойство непрерывности для (3.3), что полезно в связи с компактностью [9] I0 . Компоненты отображения (3.4) оказываются при этом равномерно непрерывными [9] функциями на I. 2 Основной предмет дальнейшего рассмотрения составляет для нас система x˙ = A(t) x + B(t) u , (3.5)
13
где u ∈ Rp является управляющим параметром. В дальнейшем этот параметр будет конкретизироваться в виде значений той или иной функции времени. Введем теперь в рассмотрение некоторое множество U кусочно-постоянных (к.-п.) и непрерывных справа (н.спр.) функций из I в Rp . Элементы этого множества, т.е. к.-п. и н.спр. вектор-функции на I, будем рассматривать в качестве (программных) управлений. Обычно U не совпадает с множеством всех к.-п. и н.спр. функций U : I −→ Rp ,
(3.6)
что связано с ограничениями, обычно присутствующими в задачах управления. Рассмотрим несколько характерных примеров таких ограничений. Случай геометрических ограничений на выбор управляющих воздействий. Пусть P — непустое, ограниченное, замкнутое и выпуклое подмножество Rp ; полагаем в данном частном случае, что U есть множество всех к.-п. и н.спр. функций (3.6), для каждой из которых U (t) ∈ P ∀t ∈ I .
(3.7)
В (3.7) мы имеем традиционные для классической теории управления геометрические ограничения, систематическое исследование которых было начато Л.С.Понтрягиным. Отметим в отношении (3.7) важное свойство: множество U, определяемое сейчас в терминах (3.7), является выпуклым. Данное свойство легко следует из выпуклости множества P (если U (1) ∈ U, U (2) ∈ U и α ∈ [0, 1], 4
то для U = α U (1) + (1 − α) U (2) имеем U (t) = α U (1) (t) + (1 − α) U (2) (t) ∈ P при t ∈ I, коль скоро U (1) (t) ∈ P и U (2) (t) ∈ P ; см. определения раздела 2). Отметим еще одно свойство: наше множество U является интегрально ограниченным, т.е. для некоторой константы a ∈]0, ∞[ имеет место Zϑ0 kU (t)k dt ≤ a ∀U ∈ U .
(3.8)
t0
Подчеркнем, что подинтегральная функция в (3.8) является всякий раз к.-п. и н.спр.; интеграл (Римана) определяется корректно. Разумеется, для целей интегрирования на I0 = [t0 , ϑ0 ] мы продолжаем к.-п. и н.спр. функцию на I по непрерывности до к.-п. и н.спр. функции на I0 , учитывая то обстоятельство, что исходная функция постоянна на промежутке [t∗ , ϑ0 [, где 14
t∗ ∈ I — некоторое, зависящее от этой функции число. Укажем конкретный способ определения числа a в (3.8). Для этого напомним об ограниченности множества P : для некоторого числа b ∈]0, ∞[ имеет место вложение P ⊂ {x ∈ Rp | kxk ≤ b} . Тогда можно полагать, что a = b (ϑ0 − t0 ) .
(3.9)
В самом деле, для обоснования возможности (3.9), заметим, что по свойствам интеграла Римана, Zϑ0 kU (t)k dt ≤ b (ϑ0 − t0 ) ∀U ∈ U . t0
Действительно, U (t) ∈ P при U ∈ U и t ∈ I. Ограничения импульсного характера, 1. Рассмотрим случай, когда задано число c ∈ ]0, ∞[, а U есть множество всех к.-п. и н.спр. функций (3.6) таких, что Zϑ0 kU (t)k dt ≤ c (3.10) t0
(свойство, подобное (3.8), здесь постулируется). Грубо говоря, (3.10) определяет ограничение на запас топлива для двигателя, ориентация которого может выбираться произвольной. Из свойств нормы мы имеем с очевидностью выпуклость множества U (следует учесть неравенство треугольника, справедливое для всякой нормы, и простейшие свойства интеграла). Свойство интегральной ограниченности следует из определения. Ограничения импульсного характера, 2. Пусть c ∈ ]0, ∞[, а U есть множество всех к.-п. и н.спр. функций U (3.6) таких, что ϑ0
p Z X
| (U (t))i | dt ≤ c .
(3.11)
i=1 t 0
Итак, мы рассматриваем сейчас такие функции (3.6), у которых компоненты t 7−→ (U (t))j : I −→ R , (3.12) 15
где j ∈ 1, p, подчинены требованию (3.11). Условимся обозначать каждую из функций(3.12), соответствующую исходной вектор-функции (3.6), через Uj . Итак, для U (3.6) полагаем, при j ∈ 1, p, что Uj есть вещественнозначная функция (3.12). Тогда U есть (см. (3.11)) множество всех функций U (3.6), для каждой из которых ϑ0
p Z X
|Ui (t)| dt ≤ c .
(3.13)
i=1 t 0
Смысл условий (3.11), (3.13) состоит, грубо говоря, в следующем: имеется p двигателей с ограничением на общий запас топлива, в пределах которого можно варьировать выбор вектор-функции (3.6) как угодно. Из свойств операции взятия модуля и простейших свойств интеграла следует, что и в данном случае множество U выпукло. Также очевидно и свойство интегральной ограниченности U. Но мы все же его проверим, учитывая хорошо известное соотношение для норм в Rp . Наряду с евклидовой нормой, рассмотрим норму n : Rp −→ [0, ∞[ (3.14) (не путать с числом n — размерностью фазового пространства), определяемую по правилу p 4 X n(u) = |ui | ∀u ∈ Rp . (3.15) i=1
С учетом (3.11), (3.14) и (3.15) мы получаем, что в нашем случае U есть множество всех функций U (3.6), для каждой из которых Zϑ0 n(U (t)) dt ≤ c .
(3.16)
t0
Сравним kuk и n(u) при u ∈ Rp . Для этого заметим сначала, что из (2.2), (2.3) и (3.15) вытекает свойство 2
(n(u)) ≥
p X
u2i = kuk2 .
i=1
Поэтому n(u) ≥ kuk при u ∈ Rp . С учетом (3.16) мы и получаем теперь в рассматриваемом случае неравенство (3.10) для каждой функции U ∈ U, поскольку kU (t)k ≤ n(U (t)) ∀t ∈ I . 16
Итак, условие интегральной ограниченности множества U также выполнено в данном примере. 2 Возвращаясь к общим определениям, будем предполагать, что U — произвольное непустое, выпуклое и интегрально ограниченное подмножество множества всех к.-п. и н.спр. функций вида (3.6). Итак, в частности, у нас, при некотором выборе числа a ∈]0, ∞[, выполняется (3.8). Если выбрано управление U ∈ U, то мы получаем конкретное векторное дифференциальное уравнение x(t) ˙ = A(t) x(t) + B(t) U (t) (3.17) на отрезке I0 , начальные условия для которого мы полагаем заданными. Именно, всюду в дальнейшем фиксирован вектор x0 ∈ Rn и мы предполагаем, что при всяком выборе U ∈ U решение системы (3.17) должно удовлетворять условию x(t0 ) = x0 . (3.18) Итак, в (3.18) мы задали вектор начальных условий для системы (3.5), допуская произвольный выбор U ∈ U. Этот выбор будет подчинен достижению некоторой конкретной цели. Возвращаясь к (3.5), (3.17), отметим, что первое из этих соотношений характеризует лишь наши возможности в осуществлении тех или иных движений (ни о каких решениях уравнения (3.5) говорить не приходится), в то время как (3.17), (3.18) определяют в наших условиях единственную траекторию, зависящую от U . Мы понимаем (3.17) как соотношение, в котором равенство может нарушаться не более, чем в конечном числе точек из I0 (напомним, кстати, что наши управления U ∈ U могут иметь лишь конечное число точек разрыва). К счастью, уравнения вида (3.17) хорошо изучены (см., например, [1] – [4], [12], [13]). Их решение определяет т.н. формула Коши (см. [12, 13]), к рассмотрению которой мы сейчас и переходим. Для этого полезно сначала вернуться к однородной системе (3.2), отвечающей (непрерывному) матрицанту (3.1). Известно [3], [12, 13], что при всяком выборе позиции (t∗ , x∗ ), где t∗ ∈ I0 и x∗ ∈ Rn , решение однородного уравнения x(t) ˙ = A(t) x(t), x(t∗ ) = x∗ ,
(3.19)
рассматриваемое на отрезке [t∗ , ϑ0 ] (нам достаточно такого рассмотрения) имеет вид x(t) = Ф(t, t∗ ) x∗ .
17
Здесь Ф(t, τ ) ∈ M[n; n] при t0 ≤ τ ≤ t ≤ ϑ0 есть т.н. фундаментальная матрица решений или матрицант однородной системы (на самом деле упомянутые значения матрицанта можно определить при любых t ∈ I0 и τ ∈ I0 , но для наших целей достаточно рассматривать лишь упомянутые пределы временных переменных; см. в этой связи [3, c. 37 - 39]). Мы считаем здесь известными основные положения теории систем линейных дифференциальных уравнений; см. [12, 13]. В частности, используем свойство непрерывности фундаментальной матрицы решений по второй переменной. Учитываем также, как уже отмечалось, формулу Коши (см. [3], [12, 13]), которая реализует представление каждого решения уравнения (3.17): если выполняется (3.18) и выбрано управление-программа U ∈ U, то траектория ϕU = (ϕU (t) ∈ Rn , t0 ≤ t ≤ ϑ0 )
(3.20)
определяется следующим образом: при каждом ϑ ∈ I0 ϕU (ϑ) = Ф(ϑ, t0 ) x0 +
Zϑ Ф(ϑ, τ ) B(τ ) U (τ ) dτ .
(3.21)
t0
Разумеется, интеграл вектор-функции в (3.21) понимается покомпонентно. Для удобства в последующих выкладках условимся о соглашении: если моменты t ∈ I0 и ϑ ∈ I0 таковы, что t ≤ ϑ, то 4
H(ϑ, t) = Ф(ϑ, t) B(t) .
(3.22)
В (3.22) мы всякий раз имеем (n × p) – матрицу. Отметим свойство непрерывности получающегося матрицанта по второй переменной. В качестве ϑ используем обычно ϑ0 . Тогда из (3.21), (3.22) имеем при U ∈ U равенство ϕU (ϑ0 ) = Ф(ϑ0 , t0 ) x0 +
Zϑ0 H(ϑ0 , t) U (t) dt .
(3.23)
t0
4
Область достижимости и простейшая задача терминального управления
Задача, которую мы хотели бы далее рассматривать, будет сводиться к сближению терминального состояния (см. (3.23)) нашей системы с заданным выпуклым ограниченным и замкнутым множеством по части координат фазового вектора системы. 18
Мы фиксируем натуральное число m ∈ 1, n; если x ∈ Rn , то через π[x] обозначаем далее такой вектор x˜ ∈ Rm , для которого x˜i = xi ∀i ∈ 1, m .
(4.1)
Тем самым, в (4.1) определен оператор π : Rn −→ Rm ,
(4.2)
сопоставляющий каждому вектору x = (xi )i∈1,n ∈ Rn вектор 4
π[x] = (xi )i∈1,m первых m координат вектора x. Если говорить о той или иной траектории (3.20) нашей управляемой системы, то, при x = ϕU (t), где t ∈ I0 , мы именуем π[x] вектором геометрических координат. Предполагаем, что задано непустое, выпуклое, ограниченное и замкнутое множество M, M ⊂ Rm . (4.3) Множество (4.3) рассматриваем как целевое, стремясь таким образом осуществить встречу π [ϕU (ϑ0 ) ] ∈ M (4.4) посредством некоторого выбора управления-программы U ∈ U. Если же встреча (4.4) невозможна ни при каком U ∈ U, мы стремимся осуществить сближение π [ϕU (ϑ0 ) ] с множеством M (4.3), насколько это возможно при заданном множестве U. Иными словами, наша реальная задача имеет вид min kπ[ϕU (ϑ0 )] − yk −→ min, U ∈ U . y∈M
(4.5)
Разумеется, (4.5) можно интерпретировать и так: kπ[ϕU (ϑ0 )] − yk −→ min, y ∈ M, U ∈ U .
(4.6)
Отметим важный частный случай: M = {y 0 }, где y 0 ∈ Rm ; иными словами, задача (4.5), (4.6) может рассматриваться как обобщение задачи сближения с заданной точкой. Отметим одну важную особенность рассматриваемой задачи: результат res = res(U ), доставляемый тем или иным управлением U ∈ U, зависит только от точки π[ϕU (ϑ0 )] ∈ Rm , создаваемой этим управлением в виде терминального состояния системы по ее геометрическим координатам: U −→ π[ϕU (ϑ0 )] −→ res . 19
(4.7)
Поэтому для определения потенциально достижимого качества нам достаточно осуществить перебор всех возможных точек U ∈U,
π[ϕU (ϑ0 )],
и среди них выбрать ближайшую к целевому множеству. Упомянутые точки — терминальные состояния системы по геометрическим координатам — удобно объединить в множество, которое будем именовать областью достижимости (ОД) по части координат. Последнюю оговорку будем часто опускать, имея в виду одну фиксированную далее задачу. Итак, наша ОД есть множество 4
G = {π[ϕU (ϑ0 )] : U ∈ U} ,
(4.8)
содержащееся в Rm : G ⊂ Rm . Задача (4.5) сводится в естественном смысле (см. (4.8)) к задаче min k˜ y − yk −→ min, y∈M
y˜ ∈ G .
(4.9)
Именно, задачи (4.5), (4.9) имеют один и тот же экстремум (который, правда, может и не достигаться). Кроме того, задача (4.6) сводится к следующей задаче конечномерной оптимизации k˜ y − yk −→ min,
y ∈ M, y˜ ∈ G .
(4.10)
Собственно говоря, задачи (4.5), (4.6) и (4.9), (4.10) можно и не различать. По некоторым причинам, связанным с конструкцией вспомогательных задач (см. Приложение) уместно говорить о задаче (4.5) как об основной, а о задаче (4.6) как о вспомогательной. В аналогичном смысле понимаем задачи (4.9), (4.10). В этой связи введем отображение 4
ρ(· , M ) = (ρ(z, M ))z∈Rm , действующее из Rm в полуось [0, ∞[ по следующему правилу ρ(˜ z , M ) = min k˜ z − yk ∀˜ z ∈ Rm . y∈M
(4.11)
Посредством (4.11) мы введем критерий нашей экстремальной задачи: полагаем 4 γ(U ) = ρ(π[ϕU (ϑ0 )], M ) ∀U ∈ U . (4.12) Теперь эта задача может быть сформулирована в следующем виде: γ(U ) −→ min, 20
U ∈U.
(4.13)
Редакция, принятая в (4.13), удобнее по ряду причин в сравнении с (4.5), (4.6). Вместе с тем, задача (4.13) сохраняет в силу (4.12) естественную связь с (4.9). Упомянутая задача (4.13) характеризуется значением 4
γ0 = inf γ(U ) ∈ [0, ∞[
(4.14)
U ∈U
4
и множеством всех ее (оптимальных) решений U0 = {U ∈ U | γ(U ) = γ0 }. Однако, в рассматриваемом классе управлений возможен случай, когда U0 = ∅ (напомним, что мы ограничились в своем рассмотрении только к.-п. и н.спр. управлениями, т.е. управлениями релейными). Поэтому будем рассматривать также последовательности (Uj )j∈N в множестве U, для которых (γ(Uj ))j∈N −→ γ0 . (4.15) Последовательность такого типа непременно существует по самому определению точной нижней грани; см. (4.14). Последовательность (Uj )j∈N в множестве U со свойством (4.15) будем называть аппроксимативным решением задачи (4.13). Из (4.8), (4.12) и (4.14) мы получаем, что γ0 = inf ρ(y, M ) . y∈G
(4.16)
В (4.16) мы учитываем специфику рассматриваемой задачи (4.13), которая связана с (4.7). В свою очередь, из (4.11) и неравенства треугольника легко следует, что |ρ(y (1) , M ) − ρ(y (2) , M )| ≤ ky (1) − y (2) k ∀y (1) ∈ Rm ∀y (2) ∈ Rm .
(4.17)
В самом деле, пусть y (1) ∈ Rm и y (2) ∈ Rm фиксированы, а y˜(1) ∈ M и y˜(2) ∈ M удовлетворяют условиям ρ(y (1) , M ) = ky (1) − y˜ (1) k ,
(4.18)
ρ(y (2) , M ) = ky (2) − y˜ (2) k .
(4.19)
При этом в силу неравенства треугольника имеем | ky (1) − y˜ (1) k − ky (2) − y˜ (1) k | ≤ ky (1) − y (2) k ,
(4.20)
| ky (1) − y˜ (2) k − ky (2) − y˜ (2) k | ≤ ky (1) − y (2) k .
(4.21)
Далее, из (4.11) мы получаем неравенства (см. (4.18), (4.19)) ρ(y (1) , M ) ≤ ky (1) − y˜ (2) k , 21
(4.22)
ρ(y (2) , M ) ≤ ky (2) − y˜ (1) k .
(4.23)
В свою очередь, из (4.18) – (4.21) следуют неравенства |ρ(y (1) , M ) − ky (2) − y˜ (1) k | ≤ ky (1) − y (2) k ,
(4.24)
|ρ(y (2) , M ) − ky (1) − y˜ (2) k | ≤ ky (1) − y (2) k .
(4.25)
Из (4.22), (4.25) получаем теперь, в частности, что ρ(y (1) , M ) − ρ(y (2) , M ) ≤ ky (1) − y (2) k ;
(4.26)
точно так же из (4.23), (4.24) получаем: ρ(y (2) , M ) − ρ(y (1) , M ) ≤ ky (1) − y (2) k .
(4.27)
Из (4.26), (4.27) следует (4.17), коль скоро выбор y (1) , y (2) был произвольным. Итак, мы установили (4.17) и, как следствие, свойство равномерной непрерывности функции ρ(· , M ). В результате получаем (с учетом теоремы Вейерштрасса), что при всяком выборе непустого ограниченного и замкнутого множества K, K ⊂ Rm , непременно ∃x0 ∈ K : ρ(x0 , M ) ≤ ρ(x, M ) ∀x ∈ K .
(4.28)
Иными словами, (4.28) означает, что функция ρ(·, M ) достигает на каждом таком множестве K своего минимума. В то же время множество G (4.8) свойством замкнутости может, вообще говоря, не обладать, поскольку мы ограничивались весьма примитивными управлениями, составляющими множество U. С другой стороны, множество G, G ⊂ Rm , является ограниченным и выпуклым. Проверим справедливость данных свойств. Однако, предварительно введем матрицант t 7−→ H(t) : I0 −→ M[m; p] .
(4.29)
Именно, мы полагаем, что при t ∈ I0 , i ∈ 1, m и j ∈ 1, p коэффициент Hi,j (t) = (H(t))i,j ∈ R матрицы H(t) определяется условием 4
Hi,j (t) = (H(ϑ0 , t))i,j =
n X
Фi,s (ϑ0 , t) Bs,j (t) ,
s=1
где учтено (3.22). Иными словами, H(t) получается отбрасыванием у H(ϑ0 , t) строк с номерами, б´ольшими, чем m. Тогда из (3.23) и определения (4.2) имеем Zϑ0 π[ϕU (ϑ0 )] = π[Ф(ϑ0 , t0 ) x0 ] + H(t) U (t) dt ∀U ∈ U . (4.30) t0
22
Разумеется, все компоненты H (4.29) непрерывны на I0 . Ограниченность. Напомним, что множество U удовлетворяет условию (3.8), где a — строго положительное число. Рассмотрим второе слагаемое в (4.30): если U ∈ U, то Zϑ0 k
Zϑ0 H(t) U (t) dtk ≤
t0
kH(t) U (t)k dt .
(4.31)
t0
Мы докажем (4.31), а сейчас заметим, что в силу непрерывности компонент матрицанта H и того, что U есть к.-п. и н.спр. вектор-функция, мы получаем, что вещественнозначная функция t 7−→ kH(t) U (t)k : I −→ [0, ∞[ ограничена, кусочно-непрерывна, непрерывна справа и имеет пределы слева в каждой точке t0 , t0 < t0 ≤ ϑ0 . Она интегрируема по Риману (для этой цели мы доопределяем, как и ранее, эту функцию в точке ϑ0 , используя существование предела слева). Для доказательства неравенства (4.31) достаточно заметить, что для всякого вектора l ∈ Lm (см. (2.11)) l0
Zϑ0
Zϑ0 H(t) U (t) dt =
t0
l0 H(t) U (t) dt ,
(4.32)
t0
где использовано свойство линейности интеграла (Римана). В левой части (4.32) используется интеграл вектор-функции, вычисляемый покомпонентно, а в правой — интегрируется вещественнозначная функция (напомним, что U ∈ U). При этом |l0 H(t) U (t)| ≤ kH(t) U (t)k ∀t ∈ I .
(4.33)
Здесь мы учли (2.4), (2.11). Мы получили из (4.32), (4.33), что ∀l ∈ Lm |l0
Zϑ0
Zϑ0 H(t) U (t) dt| ≤
t0
|l0 H(t) U (t)| dt ≤
t0
Zϑ0 kH(t) U (t)k dt .
(4.34)
t0
Рассмотрим левую часть (4.34), которая в силу (2.4) не превосходит (при l ∈ Lm ) числа Zϑ0 k H(t) U (t) dt k ∈ [0, ∞[ . (4.35) t0
23
На самом же деле выражение в левой части (4.34) совпадает со значением (4.35) при подходящем выборе l. Действительно, в случае, когда вектор Zϑ0
H(t) U (t) dt ∈ Rm
(4.36)
t0
является нулевым, т.е. имеет все компоненты, совпадающие с 0, то при всяком l ∈ Lm выражение в левой части (4.34) — нулевое и, стало быть, требуемое свойство имеет место. Пусть вектор (4.36) отличен от нулевого. Тогда число в левой части (4.35) строго положительно и для вектора Zϑ0
1
4 ¯l =
k
Rϑ0
H(t) U (t) dt ∈ ∂Lm
H(t) U (t) dtk t0
t0
мы получаем следующее равенство ¯l 0
Zϑ0
Zϑ0 H(t) U (t) dt = k
t0
H(t) U (t) dtk , t0
из которого вытекает требуемое утверждение и в случае, когда (4.35) больше нуля. Стало быть, из (4.34) вытекает неравенство (4.31) во всех возможных случаях. В этой связи рассмотрим правую часть (4.31), учитывая, что p X (H(t) U (t))i = Hi,j (t) Uj (t) (4.37) j=1
при t ∈ I и i ∈ 1, m. Выражение в правой части (4.37) можно всякий раз истолковать как скалярное произведение (см. (2.2)). Для этой цели введем при t ∈ I и i ∈ 1, m вектор h(i) [t] ∈ Rp , для которого 4
h(i) [t]j = Hi,j (t) ∀j ∈ 1, p . Тогда с учетом (2.4) получаем для (4.37) следующее представление |(H(t) U (t))i | = |h(i) [t]0 U (t)| ≤ kh(i) [t]k · kU (t)k . В свою очередь, данное неравенство означает, что |(H(t) U (t))i |2 ≤ kh(i) [t]k2 kU (t)k2 , 24
где t ∈ I и i ∈ 1, m. Используя (2.3), получаем при t ∈ I 2
kH(t) U (t)k ≤
m X
(i)
kh [t]k
2
2
· kU (t)k =
i=1
p m X X
2
(Hi,j (t))
· kU (t)k2 .
i=1 j=1
(4.38) В связи с (4.38) напомним, что по построению все компоненты матрицанта H непрерывны на I0 , а тогда непрерывна на I0 и следующая вещественнозначная функция t 7−→
p m X X
(Hi,j (t))2 : I0 −→ [0, ∞[ ;
i=1 j=1
поэтому она достигает на I0 своего максимума и, в частности, ограничена сверху, т.е. для некоторого числа λ0 ∈ ]0, ∞[ p m X X
(Hi,j (t))2 ≤ λ0 ∀t ∈ I .
i=1 j=1
Существенно, что λ0 от U не зависит. В итоге, из (4.38) получаем при t ∈ I оценку p kH(t) U (t)k ≤ λ0 kU (t)k . Из (4.31) мы извлекаем теперь следующую оценку Zϑ0 k
ϑ0
p Z p H(t) U (t) dtk ≤ λ0 kU (t)k dt ≤ λ0 a ,
t0
(4.39)
t0
где учтено (3.8), предполагаемое при выборе U. Поскольку в (4.39) выбор U ∈ U был произвольным, то установлено тем самым важное свойство: Zϑ0 k
H(t) U (t) dtk ≤ a
p λ0 ∀U ∈ U .
t0
Из (4.30) получаем, с учетом неравенства треугольника требуемое положение об ограниченности в Rm : p kπ [ϕU (ϑ0 )]k ≤ kπ [Ф(ϑ0 , t0 ) x0 ] k + a λ0 ∀U ∈ U . Из (4.8) получаем теперь свойство: G — ограниченное множество в Rm . 25
Проверим выпуклость G. В самом деле, пусть y ∈ G, z ∈ G и θ ∈ [0, 1]. Рассмотрим вектор 4 w = θ y + (1 − θ) z ∈ Rm . Используя (4.8), подберем U (1) ∈ U и U (2) ∈ U так, что при этом (y = π [ϕU (1) (ϑ0 )]) & (z = π [ϕU (2) (ϑ0 )]) .
(4.40)
Учтем свойство выпуклости U. Тогда (см. раздел 2) 4
U = θ U (1) + (1 − θ) U (2) ∈ U .
(4.41)
Поэтому (см. (4.8)) имеем включение π [ϕU (ϑ0 )] ∈ G .
(4.42)
Для представления вектора (4.42) воспользуемся выражением (4.30). С учетом линейности интеграла и (4.41) π [ϕU (ϑ0 )] = π [Ф(ϑ0 , t0 ) x0 ]+θ
Zϑ0
H(t) U (1) (t) dt+(1−θ)
t0
= θ · (π [Ф(ϑ0 , t0 ) x0 ] +
Zϑ0
Zϑ0
H(t) U (2) (t) dt =
t0
H(t) U (1) (t) dt) + (1 − θ) · (π [Ф(ϑ0 , t0 ) x0 ]+
t0
Zϑ0 +
H(t) U (2) (t) dt) =
t0
= θ π [ϕU (1) (ϑ0 )] + (1 − θ) π [ϕU (2) (ϑ0 )] = θ y + (1 − θ) z
(4.43)
(мы учли (4.30) и (4.40)). Из (4.42), (4.43) вытекает, что θ y + (1 − θ) z ∈ G . Поскольку выбор y, z и θ был произвольным, выпуклость множества G установлена (см. (2.10)). Введем теперь в рассмотрение замыкание множества G в пространстве m R с обычной покоординатной сходимостью, которая эквивалентна сходимости в евклидовой норме. Это замыкание условимся обозначать в данном ˜ , имея в виду использование конструкций Приложения: разделе через W 26
˜ есть множество всех точек y ∈ Rm , для кажитак, в настоящем разделе W дой из которых можно указать последовательность (y (i) )i∈N : N −→ G ,
(4.44)
для которой имеет место сходимость (ky (i) − yk)i∈N −→ 0 .
(4.45)
˜ содержит множество G Оказывается, что так построенное множество W и является непустым, замкнутым, выпуклым и ограниченным. Проверим эти свойства. ˜ следует из (4.44), (4.45), где, при заданной точВложение G ⊂ W ке y ∈ G, следует только определить последовательность (4.44) условием: y (i) = y ∀i ∈ N . Поскольку G 6= ∅ то, как следствие, мы получаем, что ˜ 6= ∅. Свойство ограниченности также следует из аналогичного свойW ства G. В самом деле, пусть b ∈ ]0, ∞[ обладает тем свойством, что k y˜ k ≤ b ∀˜ y ∈ G. Тогда для каждой точки y ∈ Rm со свойством аппроксимативной реализации элементами G посредством последовательности (4.44), (4.45) имеем неравенство k y k ≤ b, что является простым следствием неравенства тре˜ Осталось угольника и свойства (4.45). Мы получаем, что k z k ≤ b ∀z ∈ W ˜. проверить выпуклость W ˜ , w(2) ∈ W ˜ и ζ ∈ [0, 1]. Рассмотрим вектор Пусть w(1) ∈ W 4
w¯ = ζ w(1) + (1 − ζ) w(2) ∈ Rm .
(4.46)
По выбору w(1) , w(2) имеем (см. (4.44), (4.45)) свойство: для некоторых последовательностей (ˆ y (i) )i∈N : N −→ G, (˜ y (i) )i∈N : N −→ G истинны следующие утверждения о сходимости: ( kˆ y (i) − w(1) k )i∈N −→ 0, ( k˜ y (i) − w(2) k )i∈N −→ 0 .
(4.47)
Если i ∈ N , то yˆ (i) ∈ G, y˜ (i) ∈ G и ζ ∈ [0, 1]. Как следствие, имеем, что 4
y¯ (i) = ζ yˆ (i) + (1 − ζ) y˜ (i) ∈ G ∀i ∈ N . Стало быть, (¯ y (i) )i∈N : N −→ G . Если j ∈ N , то (см. (4.46), (4.48)) k¯ y (j) − wk ¯ = kζ (ˆ y (j) − w(1) ) + (1 − ζ) (˜ y (j) − w(2) ) k ≤ 27
(4.48)
≤ ζ kˆ y (j) − w(1) k + (1 − ζ) k˜ y (j) − w(2) k . Из (4.47) мы получаем теперь сходимость ( k¯ y (i) − wk ¯ )i∈N −→ 0 . ˜ (см. (4.44), (4.45)). ПоПоследнее означает с учетом (4.48), что w¯ ∈ W скольку выбор w (1) , w(2) и ζ был произвольным, установлено свойство вы˜. пуклости W ˜ установлены: W ˜ есть непустое, ограниченное, Итак, нужные свойства W замкнутое и выпуклое подмножество Rm . К этому следует добавить тот факт, что в силу (4.16), (4.17), (4.44) и (4.45) γ0 = min ρ(z, M ) , ˜ z∈W
(4.49)
˜ обладает свойством (секвенциальной) компактности, а где учтено, что W также равномерная непрерывность функции ρ( · , M ), что позволяет утверждать справедливость следующего свойства: минимум в правой части (4.49) действительно достигается. Введем теперь множество – разность 4 ˜ , z (2) ∈ M } ∈ P(Rm ) . W = {z (1) − z (2) : z (1) ∈ W
(4.50)
˜ и M . Оно выДанное множество W ограничено, поскольку ограничены W ˜ и M . В самом деле, пусть x˜ ∈ W , пукло, поскольку такими же являются W ˜ и z˜(2) ∈ M так, что xˆ ∈ W и λ ∈ [0, 1]. С учетом (4.50) подберем z˜(1) ∈ W ˜ и zˆ (2) ∈ M так, при этом x˜ = z˜(1) − z˜(2) . Кроме того, подберем zˆ (1) ∈ W что при этом xˆ = zˆ (1) − zˆ (2) . Тогда λ˜ x + (1 − λ)ˆ x = λ(˜ z (1) − z˜ (2) ) + (1 − λ)(ˆ z (1) − zˆ (2) ) =
(4.51)
= (λ˜ z (1) + (1 − λ)ˆ z (1) ) − (λ˜ z (2) + (1 − λ)ˆ z (2) ) ∈ W , ˜ и λ z˜ (2) + (1 − λ)ˆ поскольку λ˜ z (1) + (1 − λ)ˆ z (1) ∈ W z (2) ∈ M . Из (4.51) имеем требуемое свойство выпуклости W , коль скоро выбор x˜, xˆ и λ был произвольным. Отметим, наконец, что W есть множество замкнутое в Rm (с оснащением последнего евклидовой нормой). В самом деле, пусть (z (i) )i∈N : N −→ W , z ∈ Rm
(4.52)
таковы, что ( kz (i) − zk )i∈N −→ 0. Покажем, что z ∈ W . Для этого напом˜ , упомянутым ранее, мы имеем: данное множество ним, что, по свойствам W 28
˜ (секвенциально) компактно, т.е. из каждой последовательности элеменW ˜ можно извлечь сходящуюся подпоследовательность. В силу (4.50), тов W (4.52) можно указать (используя счетную форму аксиомы выбора; см. [10]) последовательности ˜ , (ˆ (˜ z (i) )i∈N : N −→ W z (i) )i∈N : N −→ M , такие, что для последовательности (z (i) )i∈N в (4.52) имеем следующее представление z (j) = z˜ (j) − zˆ (j) ∀j ∈ N . (4.53) ˜ и Привлекая вышеупомянутое свойство компактности, подберем w˜ ∈ W (строго возрастающее) отображение α : N −→ N со свойствами: 1) α(j) < α(j + 1) ∀j ∈ N ; 2) ( k˜ z (α(i)) − w˜ k )i∈N −→ 0. В этом случае для вектора 4
wˆ = w˜ − z ∈ Rm мы получаем следующее положение: если j ∈ N , то k zˆ (α(j)) − wˆ k = k (˜ z (α(j)) − z (α(j)) ) − (w˜ − z) k =
(4.54)
= k (˜ z (α(j)) − w) ˜ − (z (α(j)) − z) k ≤ k˜ z (α(j)) − wk ˜ + kz (α(j)) − zk ∀j ∈ N . Отметим, что по выбору (4.52) и свойствам α ( kz (α(i)) − zk )i∈N −→ 0 .
(4.55)
В итоге, из (4.54) и (4.55) имеем свойство сходимости ( kˆ z (α(i)) − wk ˆ )i∈N −→ 0 .
(4.56)
Из (4.52) и (4.56) имеем по свойствам M (используется замкнутость M ) включение wˆ ∈ M . Тогда z = w˜ − wˆ ∈ W ; см. (4.50). Поскольку выбор (4.52) был произвольным, замкнутость W установлена. Мы получили (см. (4.50)), что W (4.50) — непустое, ограниченное, выпуклое и замкнутое подмножество Rm . 29
Вернемся к (4.49). С учетом (4.11) легко видеть, что γ0 = min k z k . z∈W
(4.57)
˜ таково, что γ0 = ρ(z 0 , M ). Тогда В самом деле, пусть (см. (4.49)) z 0 ∈ W z 0 ∈ Rm . С учетом (4.11) выберем вектор y 0 ∈ M , для которого ρ(z 0 , M ) = kz 0 − y 0 k. Тогда в силу (4.50) z0 − y0 ∈ W . Как следствие, получаем, что min k z k ≤ k z 0 − y 0 k = γ0 . z∈W
(4.58)
Пусть, напротив, z ∗ ∈ W обладает свойством оптимальности k z ∗ k = min k z k . z∈W
(4.59)
˜ и zˆ ∗ ∈ M , имеем При этом (см. (4.50)), для некоторых z˜ ∗ ∈ W z ∗ = z˜ ∗ − zˆ ∗ . С учетом (4.11) получаем, что справедливо неравенство ρ(˜ z ∗ , M ) ≤ k z˜ ∗ − zˆ ∗ k = k z ∗ k . В силу (4.49) имеем тем более γ0 ≤ k z ∗ k, что, с учетом (4.59), означает: γ0 ≤ min k z k . z∈W
С учетом (4.59) мы и получаем теперь требуемое равенство (4.57). Теперь, используя ранее установленные свойства W , мы (с учетом (4.57)) приходим к задаче о метрической проекции, подробно исследуемой в Приложении (см. (П.2), (П.5)). В этих терминах γ0 = val, а функция v ∗ (П.20) определяется, с учетом (П.46), условием v ∗ = (k x k)x∈W . Стало быть, в (4.57) мы имеем задачу v ∗ (z) −→ min,
z∈W.
(4.60)
Мы можем использовать (П.58) и предложение П.5. В частности, мы получили, что задача (4.60) имеет единственное решение w ∈ W : k w k = γ0 . 30
(4.61)
В связи с (4.61) отметим также, что γ0 = V ∗ ; см. (П.22). Но тогда в силу предложения П.4 Приложения γ0 = V∗ , где V∗ определяется в (П.28) и (П.52); итак (см. (П.46), (П.52)), γ0 = max min l0 z .
(4.62)
l∈Lm z∈W
С учетом (4.61) мы, подобно (4.57), имеем при l ∈ Lm равенство min l0 z = min l0 z˜ − max l0 zˆ zˆ∈M
˜ z˜∈W
z∈W
(4.63)
(данное простое рассуждение мы предоставляем читателю). Второе слагаемое в (4.63) определяется т.н. опорной функцией 4
µ = (max l0 x)l∈Rm ,
(4.64)
x∈M
действующей из Rm в R ; µ(l) = max l0 x при всяком l ∈ Rm . Поскольку x∈M
множество M известно, то и функция µ нам также известна (в частном случае, когда M одноточечно, т.е. M = { y ∗ }, где y ∗ ∈ Rm , имеем µ(l) = l0 y ∗ ∀l ∈ Rm ). Из (4.63), (4.64) имеем равенства min l0 z = min l0 z˜ − µ(l) ∀l ∈ Lm . ˜ z˜∈W
z∈W
(4.65)
˜ (см. (4.44), (4.45)). С учетом непрерывНапомним теперь определение W ности функции, характеризующей скалярное произведение, мы получаем из (П.61), что при l ∈ Lm min l0 z = inf l0 y − µ(l) . z∈W
y∈G
В свою очередь, с учетом (4.8) мы приходим теперь к представлению min l0 z = inf l0 π [ϕU (ϑ0 )] − µ(l) ∀l ∈ Lm . z∈W
U ∈U
Осталось воспользоваться представлением (4.30): min l0 z = (l0 π [Ф(ϑ0 , t0 ) x0 ] − µ(l) ) + inf l0
Zϑ0 H(t) U (t) dt ∀l ∈ Lm . (4.66)
U ∈U
z∈W
t0
Как следствие, из (4.62) и (4.66) мы получаем равенство γ0 = max[(l0 π [Ф(ϑ0 , t0 ) x0 ] − µ(l)) + inf (l0
Zϑ0 H(t) U (t) dt) ] .
U ∈U
l∈Lm
t0
31
(4.67)
Мы получили сейчас (в (4.67)) двойственное представление интересующего нас экстремума. Дальнейшая конкретизация (4.67) зависит от конкретного выбора множества U. В этой связи в следующем разделе мы рассмотрим вариант, для которого (4.67) сводится к достаточно простой задаче на экстремум в конечномерном пространстве. Сейчас, однако, полезно получить один естественный вариант в общем случае (4.67), являющийся конкретизацией предложения П.6 Приложения. Для этого учтем (4.66), (П.46) и (П.52). Тогда (4.66) определяет v∗ (l), где l ∈ Lm . Поэтому (см. предложение П.6) γ0 = sup({0; max [(l0 π[Ф(ϑ0 , t0 ) x0 ] − µ(l)) + inf (l0
Zϑ0 H(t) U (t) dt) ]} ) .
U ∈U
l∈∂Lm
t0
(4.68) Представление (4.68) оказывается удобным в некоторых конкретных постановках, для которых двойственное представление обладает изотропностью в смысле тех или иных компонент функции под знаком максимума в (4.67). В связи со свойствами, изложенными в Приложении, напомним (4.57), (4.62): γ0 = min k z k = max min l0 z . (4.69) z∈W
l∈Lm z∈W
По поводу (4.69) полезно напомнить предложение П.8. Эти соображения будут полезны в связи с построением минимизирующих последовательностей в U, т.е. в связи с поиском управлений, разрешающих поставленную задачу с любой степенью точности. Для обсуждения этого вопроса вернемся к (4.61). Мы напомним (П.5), что означает в силу (4.57) равенство γ0 = val .
(4.70)
Поэтому из (4.70) и предложения П.5 Приложения мы получаем свойство: если (x(i) )i∈N — последовательность в W , то (( k x(i) k )i∈N −→ γ0 ) =⇒ (( k x(i) − w k )i∈N −→ 0 ) .
(4.71)
Последовательность (x(i) )i∈N можно связать с той или иной минимизирующей последовательностью в U (см. в этой связи (4.15)). Однако, предварительно уместно коснуться важного свойства w, имеющего смысл своеобразного условия минимума. Для этого мы напомним предложение П.5, из которого следует (см. (4.61), (П.58)), что w ∈ XIopt . 32
(4.72)
Кроме того, используем (П.59). С учетом (П.57) мы получаем, что (w, l∗ ) ∈ S ∀l∗ ∈ YIIopt .
(4.73)
С учетом (П.60) получаем, в частности, свойство: если l∗ ∈ YIIopt , то l∗0 w = min l∗0 x .
(4.74)
x∈W
В отношении выбора вектора l∗ в (4.74) полезно учесть (4.70) и предложение П.7. Мы будем предполагать до конца настоящего раздела, что 0 < γ0 .
(4.75)
Случай (4.75) является, с практической точки зрения, наиболее интересным в смысле поиска оптимальных решений. Дело в том, что согласно (4.70) и предложению П.7 в нашем случае (см. (4.75)) YIIopt ⊂ ∂Lm .
(4.76)
Более того, как видно из предложения П.8 Приложения, YIIopt = {l0 } ,
(4.77)
где l0 определяется в (П.12); при этом для w (4.72) со свойством k w k = γ0 (см. (4.70), (П.58)) имеет место равенство l0 =
1 w ∈ ∂Lm . γ0
(4.78)
В свою очередь, из (4.74) и (4.77) получаем, что l00 w = min l00 x .
(4.79)
x∈W
Отметим здесь же, что в силу (4.70), (4.77) и (П.58) реализуется равенство min l00 x = γ0 .
(4.80)
x∈W
С учетом (4.66), (4.67) и (4.80) имеем теперь цепочку равенств l00 π[Ф(ϑ0 , t0 ) x0 ] − µ(l0 ) + inf (l00
Zϑ0 H(t) U (t) dt) =
U ∈U
t0
33
= max [l0 π[Ф(ϑ0 , t0 ) x0 ] − µ(l) + inf (l0
Zϑ0 H(t) U (t) dt)] =
U ∈U
l∈Lm
(4.81)
t0
= max [l0 π[Ф(ϑ0 , t0 ) x0 ] − µ(l) + inf (l0
Zϑ0 H(t) U (t) dt)];
U ∈U
l∈∂Lm
t0
мы учли здесь (4.78). Итак, требуемый вектор l0 (4.78) мы определяем из (4.81). Этот вектор следует задействовать в (4.79), (4.80) для целей определения w. В свою очередь, знание w позволяет использовать (4.71) для поиска минимизирующей последовательности в U. Этой проблеме посвящен следующий раздел. Что же касается основного результата настоящего раздела, то его следует связать с выражением (4.67), которое позволяет в принципе рассчитывать в целом ряде случаев экстремум γ0 нашей основной задачи управления без предварительного построения управлений из U, точно или приближенно этот экстремум доставляющих.
5
Оптимизация программных управлений
Мы рассматриваем сейчас вопрос об определении последовательности (Uj )j∈N : N −→ U
(5.1)
со свойством (4.15). Будем в этой связи говорить об определении последовательности (5.1), (4.15), т.е. об определении аппроксимативного решения задачи (4.13). Итак, фиксируем в этом разделе последовательность (5.1) со свойством (4.15); это соглашение соблюдается до тех пор, пока не будет оговорено противное. В силу (5.1) мы получаем также последовательность (π[ϕUj (ϑ0 )] )j∈N : N −→ G ;
(5.2)
см. (4.6). При этом согласно (4.10) имеет место γ(Uj ) = ρ (π[ϕUj (ϑ0 ) ], M ) ∀j ∈ N .
(5.3)
Для последующей более краткой записи основных соотношений полагаем, что 4 y(j) = π[ϕUj (ϑ0 ) ] ∀j ∈ N . (5.4) 34
Тогда из (5.2), (5.4) мы получаем, что (y(j) )j∈N : N −→ G .
(5.5)
В свою очередь, из (5.3), (5.4) мы имеем свойство γ(Uj ) = ρ (y(j) , M ) ∀j ∈ N .
(5.6)
Итак, в (5.5), (5.6) мы имеем более естественную запись соотношений (5.2), (5.3) соответственно. Отметим, что из (5.5) следует, в частности, что ˜ . (y(j) )j∈N : N −→ W
(5.7)
Возвращаясь к (5.6), отметим, что ∀j ∈ N ∃z ∈ M : γ(Uj ) = k y(j) − z k .
(5.8)
Мы учитываем здесь (4.9) и свойство компактности множества M , а также непрерывность функции, определяемой нормой расстояния от фиксированного вектора в Rm до произвольного вектора в том же пространстве. Учитывая (5.8) (а также аксиому выбора [10] в ее счетной форме), мы подбираем последовательность (m(j) )j∈N : N −→ M ,
(5.9)
обладающую следующим экстремальным свойством: γ(Uk ) = k y(k) − m(k) k ∀k ∈ N .
(5.10)
Из (5.9), (5.10) следует, что m(j) может рассматриваться как точка z в (5.8); j ∈ N . Из (4.50), (5.7) и (5.9) вытекает, что 4
z(j) = y(j) − m(j) ∈ W
∀j ∈ N .
(5.11)
Итак, согласно (5.11) мы получили последовательность (z(i) )i∈N : N −→ W .
(5.12)
Заметим в этой связи, что (см. (5.4)) для элементов (5.11), (5.12) z(j) = π[ϕUj (ϑ0 ) ] − m(j) ∀j ∈ N . Напомним, что в силу (5.10), (5.11) γ(Uj ) = k z(j) k ∀j ∈ N . 35
(5.13)
Из (5.13) имеем по выбору последовательности (5.1) сходимость ( k z(j) k )j∈N −→ γ0 .
(5.14)
Итак, (5.12) есть такая последовательность в W , что выполнено (экстремальное) свойство (5.14). Теперь следует воспользоваться предложением П.5 Приложения, используя также (4.70) и (4.71). Из (4.71), (5.12) и (5.14) вытекает, что ( kz(i) − wk )i∈N −→ 0 , (5.15) где w ∈ W определено в (4.61). С учетом (4.74), (5.15) и свойства непрерывности скалярного произведения по каждой из переменных мы получаем, что ∀l∗ ∈ YIIopt (l∗0 z(i) )i∈N −→ min l∗0 x . (5.16) x∈W
В (5.16) следует, при условии (4.75), учитывать (4.78), (4.79). Мы ограничимся сейчас этим наиболее важным частным случаем: при условии (4.75) имеем из (5.16) сходимость (l00 z(i) )i∈N −→ min l00 x .
(5.17)
x∈W
Полезно учесть также (4.80). Мы рассмотрим некоторые следствия (5.17). Итак, полагаем до конца настоящего раздела, что выполнено (4.75). Рассмотрим правую часть (5.17). С учетом (4.66) имеем min l00 z = (l00 π[Ф(ϑ0 , t0 ) x0 ] − µ(l0 )) + inf (l00
Zϑ0 H(t) U (t) dt ) .
U ∈U
z∈W
(5.18)
t0
С учетом (3.23), (5.4) мы получаем, с другой стороны, что l00 z(j) = l00 π[ϕUj (ϑ0 ) ] − l00 m(j) = = l00 π[Ф(ϑ0 , t0 ) x0 ] + l00
Zϑ0
H(t) Uj (t) dt − l00 m(j) ∀j ∈ N .
t0
Из (5.17), (5.18) мы получаем теперь (l00
Zϑ0
H(t) Uj (t) dt − l00 m(j) )j∈N −→ inf (l00
Zϑ0
U ∈U
t0
t0
36
H(t) U (t) dt) − µ(l0 ) . (5.19)
Предложение 5.1 Имеет место (при условии (4.75)) сходимость (l00
Zϑ0
H(t) Uj (t) dt)j∈N −→ inf l00
Zϑ0 H(t) U (t) dt .
U ∈U
t0
t0
Доказательство следует здесь фактически прямо из (5.19), но мы все же рассмотрим его достаточно подробно. Рассмотрим выражение (5.19). Тогда, как легко видеть, ((l00
Zϑ0
H(t) Uj (t) dt − inf (l00
Zϑ0
U ∈U
t0
H(t) U (t) dt)) + (µ(l0 ) − l00 m(j) ))j∈N −→ 0 .
t0
(5.20) При этом, согласно (5.1), имеем 0 ≤ l00
Zϑ0
H(t) Uj (t) dt − inf (l00
Zϑ0 H(t) U (t) dt) ∀j ∈ N .
U ∈U
t0
(5.21)
t0
Далее, из (4.64), (5.9) мы получаем также, что 0 ≤ µ(l0 ) − l00 m(j) ∀j ∈ N .
(5.22)
Итак, в левой части (5.20) мы имеем последовательность, получаемую суммированием двух неотрицательных последовательностей вещественных чисел. При этом (см. (5.20)) имеет место свойство: ∀ε ∈ ]0, ∞[ ∃s ∈ N : 0 ≤ (l00
Zϑ0
H(t) Uj (t) dt − inf (l00
Zϑ0 H(t) U (t) dt)) +
U ∈U
t0
t0
(5.23) 0
00
(j)
+(µ(l ) − l m ) < ε . С учетом (5.21) – (5.23) имеем тем более, что ∀ε ∈ ]0, ∞[ ∃s ∈ N : 0 ≤ l00
Zϑ0
H(t) Uj (t) dt − inf (l00
Zϑ0 H(t) U (t) dt) < ε .
u∈U
t0
t0
(5.24) Из (5.24) мы и получаем требуемую (в условиях предложения) сходимость. 2 37
Предложение 5.1 может рассматриваться в качестве необходимого условия асимптотической оптимальности последовательности (Uj )j∈N . Последняя (см. (5.1)) выбиралась у нас как произвольная последовательность в U, обладающая свойством (4.15). Стало быть, наше основное свойство имеет следующий вид. Предложение 5.2 Если γ0 > 0, (U (j) )j∈N : N −→ U и при этом (γ(U (j) ))j∈N −→ γ0 ,
(5.25)
то для вектора l0 ∈ ∂Lm , удовлетворяющего (4.81), непременно имеет место сходимость (l00
Zϑ0
H(t) U (j) (t) dt)j∈N −→ inf (l00
Zϑ0 H(t) U (t) dt) .
U ∈U
t0
(5.26)
t0
Следствие 5.1 Пусть γ0 > 0 и U 0 ∈ U таково, что γ(U 0 ) = γ0 . Тогда l00
Zϑ0
H(t) U 0 (t) dt = inf l00
Zϑ0 H(t) U (t) dt .
U ∈U
t0
(5.27)
t0
Доказательство. Введем последовательность (U (j) )j∈N в U посредством условия 4 U (j) = U 0 ∀j ∈ N . Тогда (5.25) выполняется очевидным образом. Стало быть, и (5.26) имеет место. Но в нашем случае l00
Zϑ0 t0
H(t) U (j) (t) dt = l00
Zϑ0
H(t) U 0 (t) dt ∀j ∈ N .
t0
Поэтому (5.26) означает на самом деле справедливость равенства (5.27). 2 Полученное свойство (5.27) можно квалифицировать как вариант принципа максимума Л.С.Понтрягина. Оно (это свойство) получилось у нас при достаточно ограничительном предположении о достижимости экстремума в исходной задаче управления. Эта ограничительность связана (у нас) с тем, что множество U априори было “составлено” из функций достаточно простой природы (точнее, из функций к.-п. и н.спр.), т.е. функций, весьма примитивных. По-видимому, для таких (релейных) функций свойство 38
(5.26) выступает как своеобразная “норма”, а (5.27) — как “счастливый случай”. Полезно, однако, иметь в виду, что в современной теории управления при ограничениях (3.7) используются, в аналогичном качестве, функции весьма изощренные, а именно измеримые (по Лебегу или по Борелю), что предполагалось и в [3, 4] при рассмотрении аналогичных вопросов. В упомянутых более изощренных редакциях множества U основное условие последнего следствия можно считать выполненным, поскольку оптимальное программное управление, понимаемое теперь расширительно (т.е. управление измеримое), непременно существует. Подчеркнем, что мы говорим здесь об ограничениях (3.7), т.е. о геометрических ограничениях. В этом случае (5.27) (а точнее аналог (5.27), в правой части которого интеграл Римана заменяется интегралом Лебега) уже становится основным в числе необходимых условий оптимальности. Мы не рассматриваем в данной работе положения теории меры и интеграла, нужные для отмеченной модификации рассуждений. В этой связи заинтересованного читателя мы отсылаем к [1] – [6], где он может познакомиться с необходимыми условиями вида (5.27), известными как принцип максимума Л.С.Понтрягина; особо отметим оригинальный подход Н.Н.Красовского (см. [1] – [4]). В последующем изложении мы сосредоточимся на рассмотрении вышеупомянутого случая задачи управления с геометрическими ограничениями (см. (3.7)). Такие ограничения широко распространены в современной технике (ограничения на силу тяги двигателя, на угол поворота рулей и т.п.). В этом конкретном случае будет достигнуто существенное продвижение в вопросах построения оптимального решения на основе двойственных конструкций Н.Н.Красовского (см. [3, 4]), связанных с применением конечномерных экстремальных задач, решение которых может быть найдено посредством достаточно эффективных алгоритмов с использованием ЭВМ.
6
Линейная задача управления с геометрическими ограничениями
Итак, мы приступаем к систематическому рассмотрению нашей задачи управления (4.5) в условиях ограничений (3.7), где P — непустое, ограниченное, замкнутое и выпуклое подмножество Rp . Стало быть, в нашем случае U есть (см. (3.7)) множество всех к.-п. и н.спр. функций U : I −→ P .
39
(6.1)
Для этого конкретного случая мы детализируем общие соотношения предыдущего раздела. Заметим, что данный вариант задачи управления в более общей и сложной игровой постановке был исследован Н.Н.Красовским в [4], куда мы и отсылаем заинтересованного читателя (см. также [1] – [3]). Прежде всего, мы конкретизируем выражение (4.67) для экстремума задачи управления. Для этого предварительно отметим свойство: если l ∈ Lm , то функция t 7−→ min(l0 H(t) u) : I0 −→ R u∈P
(6.2)
(минимум достигается) непрерывна на отрезке I0 . Для этого достаточно заметить, что матрицант (4.29) непрерывен на I0 ; кроме того, если t1 ∈ I0 и t2 ∈ I0 , то |l0 H(t1 ) u − l0 H(t2 ) u | ≤ k l k k H(t1 ) u − H(t2 ) u k ≤ ≤ k H(t1 ) u − H(t2 ) u k = k ( H(t1 ) − H(t2 ) ) u k . С учетом упомянутой непрерывности (на самом деле, равномерной непрерывности) функции (6.2) мы и получаем, что Zϑ0
min (l0 H(t) u ) dt ∈ R ∀l ∈ Lm . u∈P
t0
Далее, при l ∈ Lm , U ∈ U и t ∈ I имеем (см. (6.1)) неравенство min (l0 H(t) u ) ≤ l0 H(t) U (t) . u∈P
Как следствие, из простейших свойств интеграла Римана вытекает оценочное свойство: ∀l ∈ Lm ∀U ∈ U Zϑ0
min (l0 H(t) u ) dt ≤ l0
Zϑ0 H(t) U (t) dt .
u∈P
t0
t0
В свою очередь, система последних неравенств позволяет утверждать, что Zϑ0
min (l0 H(t) u) dt ≤ inf (l0 u∈P
Zϑ0 H(t) U (t) dt ) .
U ∈U
t0
(6.3)
t0
Оказывается, что в действительности в (6.3) имеет место равенство; это устанавливается в следующем утверждении 40
Предложение 6.1 Если l ∈ Lm , то имеет место равенство inf l0
Zϑ0
Zϑ0 H(t) U (t) dt =
U ∈U
t0
min (l0 H(t) u) dt . u∈P
(6.4)
t0
Замечание. Равенство, подобное (6.4), но рассматриваемое в случае применения измеримых управляющих функций, следует из хорошо известных в настоящее время теорем измеримого выбора (см., например, [12]). Такой вариант использовался, в частности, в [3, 4]. Мы анализируем здесь, как уже отмечалось, случай примитивных управляющих функций и, по этой причине, вынуждены использовать другой способ рассуждений. Заметим, что в предложении 6.1 не утверждается, что для какого-либо управления U ∈ U l0 H(t) U (t) = min l0 H(t) u ∀t ∈ I . (6.5) u∈P
Иными словами, мы не используем здесь идею непрерывного выбора значений управляющей функции среди точек экстремума в правой части (6.5). 2 Доказательство предложения 6.1. Используя непрерывность H и свойства скалярного произведения, можно легко убедиться в том, что функция (t, u) 7−→ l0 H(t) u : I0 × P −→ R (6.6) непрерывна по совокупности своих переменных. С другой стороны, множества I0 и P обладают свойством (секвенциальной) компактности; см. [9]. Тогда множество – произведение I0 × P = {(t, u) : t ∈ I0 , u ∈ P } также компактно в смысле [9], что, с учетом вышеупомянутого свойства непрерывности, означает факт равномерной непрерывности функции (6.6). Итак, ∀ε ∈ ]0, ∞[ ∃δ ∈ ]0, ∞[ ∀t(1) ∈ I0 ∀u(1) ∈ P ∀t(2) ∈ I0 ∀u(2) ∈ P (( |t(1) − t(2) | < δ) & ( k u(1) − u(2) k < δ)) =⇒ =⇒ ( |l0 H(t(1) ) u(1) − l0 H(t(2) ) u(2) | < ε) . Фиксируем произвольно число ε0 ∈ ]0, ∞[ и полагаем, что ε0 ε0 = . 4(ϑ0 − t0 ) 4
41
(6.7)
Ясно, что ε0 ∈ ]0, ∞[ ; это число используем в (6.7) вместо ε. С учетом (6.7) подбираем δ0 ∈ ]0, ∞[ так, что ∀t(1) ∈ I0 ∀u(1) ∈ P ∀t(2) ∈ I0 ∀u(2) ∈ P ((| t(1) − t(2) | < δ0 ) & ( k u(1) − u(2) k < δ0 )) =⇒
(6.8)
=⇒ ( |l0 H(t(1) ) u(1) − l0 H(t(2) ) u(2) | < ε0 ) . Подберем далее настолько большое число N ∈ N , что ϑ0 − t0 < δ0 . (6.9) N Число h0 ∈ ]0, ∞[, определяемое в (6.9) будем рассматривать как шаг разбиения промежутка I, согласованного с δ0 в (6.8). Пусть теперь 4
h0 =
4
τs = t0 + s h0 ∀s ∈ 0, N . Посредством (τs )s∈0,N конструируем требуемое разбиение I: I=
N [
[τs−1 , τs [ .
s=1
При этом, конечно, имеет место свойство: ∀s1 ∈ 1, N ∀s2 ∈ 1, N ( [τs1 −1 , τs1 [ ∩ [τs2 −1 , τs2 [ 6= ∅) =⇒ (s1 = s2 ) . Отметим, что (см. (6.9)) при всяком выборе s ∈ 1, N и t ∈ [τs−1 , τs ] | t − τs−1 | = t − τs−1 ≤ h0 < δ0 .
(6.10)
Сейчас мы построим управление из множества U, постоянное на каждом промежутке [τs , τs−1 [. Для этого первоначально мы построим конечный набор (u(j) )j∈1,N : 1, N −→ P , (6.11) полагая, что выполнены равенства l0 H(τs−1 ) u(s) = min l0 H(τs−1 ) u ∀s ∈ 1, N . u∈P
(6.12)
Построение векторов u(1) , . . . , u(N ) (6.11), (6.12) всегда возможно в силу свойства непрерывности скалярного произведения и уже упоминавшегося свойства компактности множества P (из всякой последовательности в P можно извлечь подпоследовательность, сходящуюся к некоторому вектору из P ). Будем полагать теперь, что U˜ ∈ U определяется условиями 4 U˜ (t) = u(s) ∀s ∈ 1, N ∀t ∈ [τs−1 , τs [ .
42
(6.13)
Для допустимого управления – программы U˜ (6.13) мы рассмотрим следующее число Zϑ0 Zϑ0 l0 H(t) U˜ (t) dt = l0 H(t) U˜ (t) dt , t0
t0
учитывая оценку (6.10). Выберем произвольно k ∈ 1, N и t¯ ∈ [τk−1 , τk ]. При этом ( t¯ < τk ) =⇒ (l0 H(t¯) U˜ (t¯) = l0 H(t¯) u(k) ) (6.14) в силу (6.13). Кроме того, из (6.12) следует равенство l0 H(τk−1 ) u(k) = min l0 H(τk−1 ) u . u∈P
(6.15)
Согласно (6.10) имеем следующую оценку | t¯ − τk−1 | = t¯ − τk−1 < δ0 . В силу (6.8) мы получаем теперь неравенство |l0 H(t¯) u(k) − l0 H(τk−1 ) u(k) | < ε0 .
(6.16)
С другой стороны, справедливо неравенство | min l0 H(t¯) u − min l0 H(τk−1 ) u| < ε0 . u∈P
u∈P
(6.17)
В самом деле, в силу (6.12), (6.17) имеем: min l0 H(t¯) u − min l0 H(τk−1 ) u ≤ l0 H(t¯) u(k) − l0 H(τk−1 ) u(k) ≤ u∈P
u∈P
≤ |l0 H(t¯) u(k) − l0 H(τk−1 ) u(k) | и, с учетом (6.16), получаем неравенство min l0 H(t¯) u − min l0 H(τk−1 ) u < ε0 . u∈P
u∈P
(6.18)
Выберем теперь u¯ ∈ P так, что при этом l0 H(t¯) u¯ = min l0 H(t¯) u . u∈P
(6.19)
Возможность такого выбора обосновывается подобно тому, что говорилось в связи с (6.12). Тогда в силу (6.8) и (6.10) мы получаем следующую оценку |l0 H(t¯) u¯ − l0 H(τk−1 ) u¯ | < ε0 . 43
(6.20)
Из (6.19), (6.20) мы получаем следующее неравенство min l0 H(τk−1 ) u − min l0 H(t¯) u ≤ l0 H(τk−1 ) u¯ − l0 H(t¯) u¯ ≤ u∈P
u∈P
(6.21)
≤ | l0 H(t¯) u¯ − l0 H(τk−1 ) u¯ | < ε0 . Из (6.18), (6.21) вытекает требуемое неравенство (6.17). Теперь с учетом (6.15) – (6.17) имеем | l0 H(t¯) u(k) − min l0 H(t¯) u | ≤ | l0 H(t¯) u(k) − l0 H(τk−1 ) u(k) | + u∈P
(6.22)
+| l0 H(τk−1 ) u(k) − min l0 H(τk−1 ) u |+ u∈P
+| min l0 H(τk−1 ) u − min l0 H(t¯) u | < ε0 + 0 + ε0 = 2ε0 . u∈P
u∈P
Итак, мы установили, что ∀s ∈ 1, N ∀t ∈ [τs−1 , τs ] | l0 H(t) u(s) − min l0 H(t) u | < 2ε0 .
(6.23)
u∈P
С учетом (6.13) и (6.23) мы получаем следующую систему неравенств | l0 H(t) U˜ (t) − min l0 H(t) u | < 2ε0 ∀t ∈ I ; u∈P
отметим, кроме того, что |l0 H(ϑ0 ) u(N ) − min l0 H(ϑ0 ) u | < 2ε0 . u∈P
Из определения величины ε0 и двух последних соотношений имеем по свойствам интеграла Римана: |l0
Zϑ0
H(t)U˜ (t)dt−
t0
Zϑ0
min(l0 H(t)u)dt| = |
Zϑ0
u∈P
t0
t0
l0 H(t)U˜ (t)dt−
Zϑ0
min l0 H(t)u dt| = u∈P
t0
Zϑ0 = | ( l0 H(t) U˜ (t) − min l0 H(t) u ) dt | ≤ u∈P
t0
Zϑ0 ≤
ε0 0 ˜ | l H(t) U (t) − min l H(t) u | dt ≤ 2ε0 (ϑ0 − t0 ) = < ε0 . u∈P 2 0
t0
44
В частности, мы получили оценку l0
Zϑ0
H(t) U˜ (t) dt <
t0
Zϑ0
min (l0 H(t) u) dt + ε0 . u∈P
(6.24)
t0
Поскольку U˜ ∈ U, то из (6.24) следует тем более неравенство inf l0
Zϑ0
Zϑ0 H(t) U (t) dt <
U ∈U
t0
min(l0 H(t) u ) dt + ε0 . u∈P
t0
Поскольку выбор ε0 , ε0 > 0, был произвольным, имеем неравенство inf l0
Zϑ0
Zϑ0 H(t) U (t) dt ≤
U ∈U
t0
min(l0 H(t) u ) dt , u∈P
t0
что с учетом (6.3) означает справедливость равенства (6.4). 2 Из (4.67) и предложения 6.1 следует, в рассматриваемом сейчас случае задачи управления с геометрическими ограничениями, равенство γ0 = max[ l0 π[Ф(ϑ0 , t0 ) x0 ] − µ(l) +
Zϑ0
min (l0 H(t) u ) dt ] . u∈P
l∈Lm
(6.25)
t0
В связи с (6.25) мы отметим, что в данном конкретном случае согласно (4.68) и предложения 6.1 имеет место также следующее равенство γ0 = sup({0; max [(l0 π[Ф(ϑ0 , t0 ) x0 ] − µ(l)) +
Zϑ0
min (l0 H(t) u) dt ]}) . (6.26) u∈P
l∈∂Lm
t0
В (6.25), (6.26) приведены выражения, позволяющие находить экстремум основной задачи, т.е. число γ0 , из решения конечномерных экстремальных задач, в частности, двойственная задача, используемая в (6.25), есть задача выпуклого программирования и для ее решения можно использовать развитые методы теории математического программирования. Обратимся теперь к вопросу о необходимых условиях оптимальности, придерживаясь подхода, изложенного в разделе 5. Будем предполагать до конца настоящего раздела, что γ0 > 0, т.е. выполнено (4.75). В этих условиях, как и в разделе 4, будем использовать 45
вектор l0 ∈ ∂Lm , удовлетворяющий (4.81) с должной конкретизацией: l00 π[Ф(ϑ0 , t0 ) x0 ] − µ(l0 ) +
Zϑ0
min(l00 H(t) u) dt = u∈P
(6.27)
t0
= max [ l0 π[Ф(ϑ0 , t0 ) x0 ] − µ(l) +
Zϑ0
min(l0 H(t) u) dt ] = u∈P
l∈Lm
t0
= max [l0 π[Ф(ϑ0 , t0 ) x0 ] − µ(l) +
Zϑ0
min(l0 H(t) u) dt ] . u∈P
l∈∂Lm
t0
В этих терминах предложение 5.2 приобретает следующую редакцию. Предложение 6.2 Пусть γ0 > 0, а (U (j) )j∈N : N −→ U обладает свойством (5.25). Тогда (l00
Zϑ0
H(t)U (j) (t) dt )j∈N −→
t0
Zϑ0
min(l00 H(t) u) dt . u∈P
t0
Наконец, следствие 5.1 принимает в нашем случае следующий вид: если γ0 > 0 и U 0 ∈ U — оптимальное управление, т.е. γ(U 0 ) = γ0 , то l00
Zϑ0 t0
H(t) U 0 (t) dt =
Zϑ0
min(l00 H(t) u) dt . u∈P
(6.28)
t0
Равенство (6.28) определяет вариант принципа максимума Л.С.Понтрягина, в котором конкретизировано, посредством (6.27), значение сопряженной переменной. Упомянутая конструкция принципа максимума была построена Н.Н.Красовским (см. [1] – [4]) в классе измеримых управлений, где не возникает проблемы существования оптимального управления U 0 . В нашем случае достаточно примитивного класса управлений основной формой необходимых условий является, по-видимому, предложение 6.2. Тем не менее мы рассмотрим некоторые следствия (6.28), придерживаясь соглашений о том, что U 0 ∈ U, γ(U 0 ) = γ0 , где γ0 > 0. Тогда U 0 есть к.-п. и н.спр. функция из I в P . Это означает, что можно указать число r ∈ N и кортеж (t(i) )i∈0,r : 0, r −→ I0 , 46
для которого при каждом k ∈ 0, r − 1 t(k) < t(k+1) и функция U 0 постоянна на [t(k) , t(k+1) [, t(0) = t0 и t(r) = ϑ0 . Заметим, кстати, что функция t 7−→ l00 H(t) U 0 (t) : I −→ R
(6.29)
доопределяется в точке ϑ0 значением l00 H(ϑ0 ) U 0 (tr−1 ) при интегрировании по Риману в (6.28). С учетом этих конкретизаций легко проверяется, что в условиях, обеспечивающих (6.28), непременно l00 H(t) U 0 (t) = min (l00 H(t) u) ∀t ∈ I . u∈P
(6.30)
Свойство (6.30) как раз и является принципом максимума в его наиболее традиционной форме (заметим, что использование в (6.28), (6.30) минимума, а не максимума, как в [5, 6], связано всего лишь с ориентацией l0 , более удобной в нашем конкретном варианте задачи управления). Итак, покажем, что из (6.28) непременно следует (6.30). В самом деле, допустим, что (6.28) верно, а (6.30) нарушено. Стало быть, можно указать момент времени t∗ ∈ I, для которого l00 H(t∗ ) U 0 (t∗ ) > min (l00 H(t∗ ) u) . u∈P
(6.31)
Тогда (см. (6.31)) можно указать единственным образом индекс j ∈ 1, r, для которого t∗ ∈ [t(j−1) , t(j) [ . (6.32) При этом на полуинтервале [t∗ , t(j) [ значения функции (6.29) — суть числа l00 H(t) U 0 (t∗ ) = l00 H(t) U 0 (t(j−1) ) . Напомним теперь, что все компоненты матрицанта H непрерывны на I0 , а тогда и функция t 7−→ l00 H(t) U 0 (t∗ ) : I0 −→ R (6.33) непрерывна (на I0 ). Ранее уже отмечалось и свойство непрерывности функций (6.2). В частности, непрерывна на I0 функция t 7−→ min (l00 H(t) u) : I0 −→ R . u∈P
(6.34)
С учетом упомянутых свойств и (6.32) мы имеем при некотором выборе чисел ζ ∈ ]0, ∞[ и t∗ ∈ ]t∗ , t(j) ] свойство l00 H(t) U 0 (t) > min (l00 H(t) u) + ζ u∈P
47
∀t ∈ [t∗ , t∗ [ .
(6.35)
В самом деле, пусть первое из упомянутых чисел определяется условием 4
ζ=
1 00 (l H(t∗ ) U 0 (t∗ ) − min (l00 H(t∗ ) u)); u∈P 3
(6.36)
из (6.32), (6.36) имеем, что ζ ∈ ]0, ∞[. Учитывая непрерывность функции (6.33), подберем δ1 ∈ ]0, ∞[ так, что |l00 H(t) U 0 (t∗ ) − l00 H(t∗ ) U 0 (t∗ )| < ζ
∀t ∈ I0 ∩ ]t∗ − δ1 , t∗ + δ1 [ .
(6.37)
Далее, используя непрерывность функции (6.34), подберем δ2 ∈ ]0, ∞[ так, что | min (l00 H(t) u) − min (l00 H(t∗ ) u)| < ζ u∈P
u∈P
∀t ∈ I0 ∩ ]t∗ − δ2 , t∗ + δ2 [ . (6.38)
4
Пусть δ3 = inf({δ1 ; δ2 ; t(j) − t∗ } ); тогда δ3 ∈ ]0, ∞[ и мы полагаем 4
t∗ = t∗ + δ3 ;
(6.39)
тогда t∗ ∈ ]t∗ , t(j) ]. Выберем произвольно t¯ ∈ [t∗ , t∗ [. Тогда t¯ ∈ [t∗ , t∗ +δ1 [ ∩ I0 и потому (см. (6.37)) | l00 H(t¯) U 0 (t∗ ) − l00 H(t∗ ) U 0 (t∗ ) | < ζ .
(6.40)
По выбору t∗ (см. (6.39)) имеем t¯ ∈ [t(j−1) , t(j) [, а тогда l00 H(t¯) U 0 (t¯) = l00 H(t¯) U 0 (t∗ ) . Поэтому из (6.40) вытекает неравенство | l00 H(t¯) U 0 (t¯) − l00 H(t∗ ) U 0 (t∗ ) | < ζ .
(6.41)
Далее,по выбору t¯ имеем из (6.38) неравенство | min( l00 H(t¯) u) − min( l00 H(t∗ ) u) | < ζ . u∈P
u∈P
(6.42)
Рассмотрим теперь (6.37), (6.41) и (6.42) в их естественной комбинации. При этом l00 H(t¯) U 0 (t¯) − min ( l00 H(t¯) u) = l00 H(t∗ ) U 0 (t∗ )− u∈P
−( l00 H(t∗ ) U 0 (t∗ ) − l00 H(t¯) U 0 (t¯)) − min ( l00 H(t∗ ) u)− u∈P
−(min ( l00 H(t¯) u ) − min ( l00 H(t∗ ) u )) ≥ u∈P
u∈P
48
≥ l00 H(t∗ ) U 0 (t∗ ) − | l00 H(t∗ ) U 0 (t∗ ) − l00 H(t¯) U 0 (t¯)| − min( l00 H(t∗ ) u )− u∈P
−| min ( l00 H(t¯) u ) − min (l00 H(t∗ ) u ) | > 3 ζ − 2 ζ = ζ . u∈P
u∈P
Иными словами, мы получили неравенство l00 H(t¯) U 0 (t¯) > min( l00 H(t¯) u ) + ζ.
(6.43)
u∈P
Поскольку выбор t¯ был произвольным, то требуемое свойство (6.35) установлено. Из (6.35) по свойствам интеграла Римана следует, что Zt∗
l00 H(t) U 0 (t) dt ≥
t∗
Zt∗
min(l00 H(t) u) dt + ζ (t∗ − t∗ ), u∈P
(6.44)
t∗
где ζ (t∗ − t∗ ) > 0. Отметим здесь же, что Zt∗
Zt∗
l00 H(t) U 0 (t) dt ≥
min(l00 H(t) u) dt,
(6.45)
u∈P
t0
t0
Zϑ0
l00 H(t) U 0 (t) dt ≥
t∗
Zϑ0
min(l00 H(t) u) dt
(6.46)
u∈P
t∗
(напомним, что функцию (6.31) мы продолжаем по непрерывности до функции на I0 ; “продолженная” функция используется в качестве подинтегральной). Из (6.44) – (6.46) мы получаем с использованием простейших свойств интеграла Римана неравенство Zϑ0
l00 H(t)U 0 (t)dt =
t0
Zt∗
l00 H(t)U 0 (t)dt +
t0
Zt∗ ≥
min(l00 H(t)u)dt +
Zt∗
min(l00 H(t)u)dt +
=
Zϑ0
l00 H(t)U 0 (t)dt ≥
t∗
Zϑ0
u∈P
min(l00 H(t)u)dt + ζ (t∗ − t∗ ) = u∈P
t∗
t∗
Zϑ0
l00 H(t)U 0 (t)dt +
t∗
u∈P
t0
Zt∗
min(l00 H(t)u)dt + ζ (t∗ − t∗ ) >
Zϑ0
u∈P
t0
u∈P
t0
49
min(l00 H(t)u)dt,
что противоречит условию (6.28). Полученное, в предположении о нарушении (6.30), противоречие доказывает справедливость (6.30). В свою очередь, (6.28) характеризует каждое оптимальное управление. Итак, мы получили следующее Предложение 6.3 Если γ0 > 0 и U 0 ∈ U оптимально в том смысле, что γ(U 0 ) = γ0 , то непременно выполняется (6.30). Подчеркнем еще раз, что при должном “усовершенствовании” множества U (использование измеримых функций на I со значениями в P ; при этом можно использовать измеримость по Борелю или измеримость по Лебегу) (6.30) при несущественной редакции (равенство следует понимать, в упомянутой редакции, как равенство почти всюду на I) исчерпывающим образом характеризует оптимальное управление, которое в данном “усовершенствованном” множестве, заменяющем U, непременно существует. Условие (6.30) (принцип максимума Л.С.Понтрягина) является, таким образом, мощным инструментом исследования нашей основной задачи управления с геометрическими ограничениями.
7
Простейшие примеры решения задачи управления с геометрическими ограничениями
В связи с построениями предыдущих разделов отметим важный частный случай системы (3.17), у которой матричное отображение (3.1) постоянно; условимся обозначать порождающую это отображение (n × n)– матрицу через A. Далее мы этим случаем и ограничимся: во всех последующих рассуждениях A(t) = A ∀t ∈ I0 . (7.1) В упомянутом случае фундаментальная матрица решений однородной системы (3.19) зависит только от разности своих аргументов. Иными словами, при t0 ≤ τ ≤ t ≤ ϑ0 Ф(t, τ ) = Ф0 (t − τ ) , (7.2) где Ф0 есть отображение из [0, ϑ0 − t0 ] в M[n; n]; разумеется, все компоненты (Ф0 )i,j этого отображения Ф0 непрерывны на I0 . Представление (7.2) несколько упрощает соотношения для H, используемые в (4.67), (4.81), (6.28), (6.30). Свое рассмотрение здесь мы ограничим самыми простыми примерами модельных задач, имеющими своей целью иллюстрацию теоретических положений предыдущих разделов. 50
Одна задача управления материальной точкой. В данном примере мы рассматриваем модель, приводящую к второму закону Ньютона. Речь идет об управлении материальной точкой единичной массы с целью ее “мягкого” сближения в последний момент времени с движущейся точкой, траектория которой известна. Пример такого рода рассматривался, в частности, в [18, §1]; мы, в целях экономии объема, будем к этому рассмотрению обращаться (заметим, что данная управляемая система рассматривалась многими авторами применительно к самым разнообразным постановкам задач управления; сейчас отметим только [3, гл. 1]). Итак, рассмотрим систему x˙ 1 = x2 , ,
x˙ 2 = u ,
(7.3)
функционирующую на отрезке времени [0, 1 ]. Заданы значения x1 (0) и x2 (0), а выбор управляющего параметра u стеснен ограничением | u | ≤ a, где a ∈ [0, ∞[. Случай a = 0 соответствует неуправляемой системе. Имеется точка y 0 ∈ R2 . Требуется построить управление, как функцию времени u = u(t), для которого евклидово расстояние от вектора x(1) до y 0 было бы наименьшим. В переводе на “физический” язык наша постановка имеет следующий смысл. Для заданного начального состояния x1 (0) ∈ R и заданной начальной скорости x2 (0) ∈ R мы рассматриваем ту или иную процедуру выбора u(t) ∈ [−a, a] на промежутке [0, 1[. Цель нашего выбора состоит, грубо говоря, в сближении (по координате) точки x1 (1) с точкой y10 ∈ R и, кроме того, в минимизации отклонения скорости x2 (1) относительно числа y20 . Можно говорить о причаливании к y10 в момент t = 1. Можно, разумеется, считать, что в момент t = 1 мы стремимся минимизировать рассогласование по координате и скорости с движущейся (на прямой) точкой, у которой координата в момент t = 1 есть y10 , а скорость в тот же момент совпадает с y20 . Строго говоря, в данной содержательной постановке уместно применение многокритериальной (векторной) оптимизации; см., например, [19] (в связи с таким подходом см. также рассуждение в [18, c. 19]). Однако, известные затруднения (см. [19]) приводят нередко к применению скаляризаций векторного критерия; такое рассуждение приведено, в частности, в [18, c. 18 – 20]. Мы, применяя в качестве оценки близости евклидово расстояние, также идем здесь по пути скаляризации, имея в виду, что при малых (евклидовых) расстояниях между x(1) и y 0 рассогласования | x1 (1) − y10 | , 51
| x2 (1) − y20 |
также малы. Заметим, что в (7.3) записано управляемое дифференциальное уравнение в нормальной форме с тем, чтобы в дальнейшем обеспечить более простое согласование данной конкретной постановки с весьма общими рассуждениями предыдущих разделов (см. в этой связи подробное обсуждение в [3, §1.3], включающее необходимые сведения из механики). Заметим, что (7.3) — вариант системы (3.17), (7.1), для которого при t0 = 0 и ϑ0 = 1 0 1 0 A= , B(t) = ∀t ∈ I0 . (7.4) 0 0 1 Множество U раздела 3 совпадает здесь с множеством всех к.-п. и н.спр. функций из [0, 1[ в отрезок [−a, a]. Стало быть, наши ограничения соответствуют (3.7), где множество P есть отрезок [−a, a]; полагая P = [−a, a] мы (понятно) не различаем R и R1 . Далее, в нашей постановке m = n = 2, x01 = x1 (0), x02 = x2 (0). Оператор π (4.2) здесь является тождественным: π(x) = x ∀x ∈ R2 . Матрицанты H(1, · ) = H(ϑ0 , · ) и H в данном случае также совпадают. Множество M (4.3) здесь одноточечно, т.е. M = {y 0 }. Из (7.3), (7.4) имеем следующую однородную систему x˙ 1 = x2 ,
x˙ 2 = 0 .
(7.5)
Если система (7.5) дополнена начальными условиями x(t∗ ) = x∗ ∈ R2 , где t∗ ∈ I0 = [0, 1 ], то решение t 7−→ Ф0 (t − t∗ ) x∗ : [t∗ , 1 ] −→ Rn (см. систему (3.19) и свойства решений этой системы) системы (7.5) при данной начальной позиции (t∗ , x∗ ) очевидно: (Ф0 (t − t∗ ) x∗ )1 = x∗1 + (t − t∗ ) x∗2 ;
(7.6)
(Ф0 (t − t∗ ) x∗ )2 = 0 x∗1 + x∗2 .
(7.7)
Разумеется, мы последовательно проинтегрировали, для получения (7.7), второе в (7.5) уравнение, получая функцию — константу x∗2 = (x(t∗ ))2 . Эту константу подставили в первое уравнение системы (7.5) и получили равномерное прямолинейное движение из начального состояния x∗1 = (x(t∗ ))1 . Мы используем, конечно, и свойство единственности решения системы (3.19), которое в нашем случае (системы (7.5)) вполне очевидно. Из (7.6), (7.7) легко извлекается вся матрица Ф0 (t − t∗ ): 1 t − t∗ Ф0 (t − t∗ ) = . 0 1 52
Если вспомнить теперь о том, что выбор t∗ был произвольным, мы приходим к следующему выражению для Ф0 (τ ) при τ ∈ [0, 1 ]: 1 τ . (7.8) Ф0 (τ ) = 0 1 Напомним (7.2): Ф(t, ξ) = Ф0 (t − ξ) при 0 ≤ ξ ≤ t ≤ 1. С учетом (3.21) мы получаем теперь следующее конкретное выражение для траектории (3.21). Именно, при U ∈ U компоненты ϕU,1 : I0 −→ R ,
ϕU,2 : I0 −→ R
вектор-функции ϕU , т.е. функции t 7−→ (ϕU (t))1 : I0 −→ R , t 7−→ (ϕU (t))2 : I0 −→ R , имеют следующий вид: при ϑ ∈ I0 ϕU,1 (ϑ) = x01 + ϑ x02 +
Zϑ (ϑ − τ ) U (τ ) dτ ,
(7.9)
0
ϕU,2 (ϑ) = x02 +
Zϑ U (τ ) dτ .
(7.10)
0
Соотношения (7.8), (7.9) исчерпывающим образом определяют траекторию системы (7.3), порожденную управлением U из начального состояния x0 . С учетом (3.22), (7.4) и (7.8) мы получаем, что (в нашем случае) 1 ϑ−t 0 ϑ−t H(ϑ, t) = = (7.11) 0 1 1 1 при 0 ≤ t ≤ ϑ ≤ 1. В (7.11) мы имеем конкретизацию (3.23), где учитываются, конечно, соотношения (7.9) и (7.10). Напомним, что в нашем случае π(x) = x при x ∈ R2 . По этой причине из (4.11), (4.12) извлекается следующая конкретизация критерия задачи управления: γ(U ) = k ϕU (1) − y 0 k .
(7.12)
Ее экстремум (значение задачи) γ0 имеет в нашем случае вид: γ0 = inf k ϕU (1) − y 0 k . U ∈U
53
(7.13)
Для (7.13) мы из (4.67), (4.68) и (6.24) извлекаем следующую конкретизацию γ0 = max [l1 ((x01 + x02 ) − y10 ) + l2 (x02 − y20 ) +
Z1 min (l1 (1 − t) + l2 ) u dt ] . (7.14)
| u |≤a
l∈L2
0
Разумеется, мы учли здесь тот факт, что при t ∈ I0 выполняется равенство 1−t , H(t) = H(1, t) = 1 вытекающее из определения H в разделе 4 и равенства m = n. Из (7.14) имеем с очевидностью, что γ0 = max[ l0 z 0 − a
Z1 | l1 (1 − t) + l2 | dt ] ,
l∈L2
(7.15)
0
где (здесь и ниже в данном примере) z 0 ∈ R2 есть (плоский) вектор с координатами 4 4 z10 = (x01 + x02 ) − y10 , z20 = x02 − y20 . Заметим, что из (6.26) мы получаем полезное добавление к (7.15): γ0 = sup( { 0; max [ l0 z 0 − a
Z1 | l1 (1 − t) + l2 | dt ] } ) .
l∈∂L2
(7.16)
0
В (7.15), (7.16) мы получаем принципиальную возможность для вычисления экстремума γ0 без предварительного определения оптимального управления. Пусть 4
L = { l ∈ L2 | l0 z 0 − a
Z1 | l1 (1 − t) + l2 | dt = γ0 } ,
(7.17)
0 4
L∂ = { ¯l ∈ ∂L2 | ¯l 0 z 0 − a
Z1
| ¯l1 (1 − t) + ¯l2 | dt =
0
= max [ l0 z 0 − a
Z1 | l1 (1 − t) + l2 | dt ] } .
l∈∂L2
0
В (7.17), (7.18) мы имеем два непустых множества (см. (7.15)). 54
(7.18)
Предложение 7.1 l0 z 0 ≥ 0
∀l ∈ L.
Доказательство. Допустим противное: ˜l 0 z 0 < 0 для некоторого вектора ˜l ∈ L. При этом ˜l ∈ L2 и ˜l 0 z 0 − a
Z1
| ˜l1 (1 − t) + ˜l2 | dt = max [ l0 z 0 − a
Z1 | l1 (1 − t) + l2 | dt] ;
l∈L2
0
(7.19)
0
4 см. (7.15), (7.17). Рассмотрим теперь вектор ˆl = −˜l ∈ L2 . Тогда
ˆl 0 z 0 = −( ˜l 0 z 0 ) > 0
(7.20)
и тем более ˆl 0 z 0 > ˜l 0 z 0 . Кроме того, | ˆl1 (1 − t) + ˆl2 | = | ˜l1 (1 − t) + ˜l2 | ∀t ∈ I0 .
(7.21)
В итоге из (7.20), (7.21) мы получаем, что ˆl 0 z 0 − a
Z1
|ˆl1 (1 − t) + ˆl2 | dt > ˜l 0 z 0 − a
Z1
0
| ˜l1 (1 − t) + ˜l2 | dt ,
0
что противоречит (7.19), т.к. ˆl ∈ L2 . Полученное противоречие показывает, что наше предположение неверно и, стало быть, справедливо утверждение доказываемого предложения. 2 С учетом (7.15), (7.16) мы имеем, конечно, что l0 z 0 ≥ 0 ∀l ∈ L∂ .
(7.22)
Доказательство (7.22) осуществляется точно так же, как и доказательство предложения 7.1 (при этом учитывается, что для l ∈ ∂L2 всегда имеет место свойство: −l ∈ ∂L2 ). Мы получили, таким образом, следующую достаточно простую в вычислительном отношении задачу для определения γ0 : располагая вектором z 0 нам, в случае ненулевого вектора z 0 , следует на полуокружности { l ∈ ∂L2 | l0 z 0 ≥ 0 } (7.23) определить максимум выражения в квадратных скобках (7.16). В свою очередь, точки упомянутой полуокружности (7.23) можно параметризовать, например, скалярами из отрезка [−π, π ], интерпретируемыми каждый как угол, образуемый вектором на единичной окружности по отношению к z 0 (если же z 0 — нулевой вектор, то в силу (7.15) и (7.16) γ0 = 0). Упомянутая 55
процедура одномерной оптимизации каких-либо принципиальных затруднений не представляет, хотя и требует, при проверке на экстремальность того или иного вектора из (7.23), вычисления интеграла, используемого в правой части (7.15), (7.16). Данное вычисление, однако, реализуется просто в силу особенностей подинтегральной функции, с которыми мы далее столкнемся при обсуждении вопроса о построении оптимального управления. Из общих соображений, изложенных ранее (см. предложение 6.2), следует, что, при γ0 > 0, после определения максимизирующего вектора l0 следует искать минимизирующую последовательность в U, которая, конечно, непременно существует. Однако, применение соотношений (6.28), (6.30) оказывается гораздо более эффективным и мы попытаемся воспользоваться в нашем примере именно этими двумя соотношениями, а точнее, свойством (6.30). Дело в том, что в рассматриваемой задаче (оптимальное) управление U 0 ∈ U, γ(U 0 ) = γ0 , непременно существует. Этот факт можно проверить различными способами, но мы, в рамках данной работы, это проделывать не будем, а лишь воспроизведем нужный вариант рассуждения, о котором уже говорилось в заключении предыдущего раздела. Далее мы полагаем, что величину γ0 уже удалось найти и при этом оказалось выполненным (4.75), т.е. 0 < γ0 . Итак, полагая, что оптимальное управление U 0 ∈ U существует, мы воспользуемся (6.30) для определения его структуры. Для этого, конечно, мы должны располагать вектором l0 , используемым в (6.30). Для этого вектора (см. (4.78)) выполняется (6.27). Мы конкретизируем сейчас данное соотношение: вектор l0 ∈ ∂L2 с необходимостью удовлетворяет равенству l0 0 z 0 − a
Z1
| l10 (1 − t) + l20 | dt = max [ l0 z 0 − a
Z1 | l1 (1 − t) + l2 | dt ] . (7.24)
l∈∂L2
0
0
Разумеется, в силу (7.18) и (7.24) имеем свойство l0 ∈ L∂ , а тогда в силу (7.22) l0 0 z 0 ≥ 0 (в нашем случае γ0 > 0 вектор z 0 обязательно является ненулевым). Теперь непосредственно обратимся к (6.30). С учетом (7.11) имеем (1 − t) u l0 0 H(t) u = l0 0 = [ l10 (1 − t) + l20 ] u ∀t ∈ I ∀u ∈ P = [−a, a ] . u Поэтому в нашем случае (6.30) имеет вид: [ l10 (1 − t) + l20 ] U 0 (t) = −a |l10 (1 − t) + l20 | . 56
(7.25)
Число a полагаем далее строго положительным: a > 0. Из (7.25) имеем представление: при t ∈ I = [ 0, 1 [ U 0 (t) = a в случае l10 (1 − t) + l20 < 0 и U 0 (t) = −a при l10 (1 − t) + l20 > 0. Введем теперь функцию h0 : R −→ R по следующему правилу: при каждом t ∈ R 4
h0 (t) = l10 (1 − t) + l20 . Напомним, что l0 ∈ ∂L2 , а тогда хотя бы одно из значений l10 , l20 отлично от нуля; h0 (0) = l10 + l20 , h0 (1) = l20 . Функция h0 , при l10 6= 0, обращается в нуль в единственной точке t0 ∈ R, l20 t =1+ 0; l1 0
если же l10 = 0, то l20 6= 0 и h0 (t) ≡ l20 . С учетом ранее упомянутых представлений для U 0 мы получаем, что U 0 (t) = a при h0 (t) < 0, U 0 (t) = −a при h0 (t) > 0; здесь t ∈ I. Если при этом окажется, что t0 ∈ I, то U 0 (t0 ) определяем по непрерывности, учитывая то, что U 0 н.спр., как всякая функция из U. Итак, мы получили, что U 0 (t) = −a sign h0 (t) при t ∈ I со свойством h0 (t) 6= 0; если же h0 (t) = 0, что может осуществляться самое большее в одной точке из I, то значение U 0 (t) должно совпадать со значениями функции U 0 в точках, следующих за упомянутой точкой зануления h0 . Так, например, при h0 (0) < 0 и h0 (1) > 0 имеем t0 ∈ I, U 0 (t) = a ∀t ∈ [ 0, t0 [ ,
(7.26)
U 0 (t) = −a ∀t ∈ [ t0 , 1 [ .
(7.27)
Тем самым управляющая функция полностью определена (при условиях l10 + l20 < 0 < l20 ). Точно так же это можно сделать во всех возможных случаях реализации l0 в виде решения задачи (см. (7.24)) l0 z 0 − a
Z1 | l1 (1 − t) + l2 | dt −→ max ,
l ∈ ∂L2 .
0
Читателю предлагается построить вычислительную процедуру для решения этой задачи (желательно обеспечить при этом возможность выбора 57
различных значений x01 , x02 , y10 , y20 ). Мы же ограничимся сейчас обсуждением на данном примере той возможности обращения к (6.28) и (6.30), которая собственно и позволила установить структуру U 0 (см., в частности, (7.26), (7.27)). Этот вопрос соприкасается с проблемой, которая не затрагивается обычно при решении конкретных задач, а именно, — с проблемой существования оптимального управления в том классе, который был избран при исследовании задачи. В нашем случае речь идет о множестве U, “составленном” из функций, чрезвычайно удобных с точки зрения реализации, но “плохо” устроенном с общематематической точки зрения. Ранее мы неоднократно использовали свойство (секвенциальной) компактности ограниченных и замкнутых множеств в конечномерных пространствах в связи с вопросом о достижимости экстремума. Сейчас нечто подобное требуется иметь для множества U, или хотя бы для тех или иных множеств – посредников, от которых зависит достигаемый результат (см. в этой связи (4.7)). Напомним в этой связи, что U0 (см. раздел 4) есть как раз множество всех экстремальных управлений. Мы обсуждаем фактически свойство U0 6= ∅, которое может, к сожалению, отсутствовать в общем случае задачи управления раздела 4. В этой связи отметим сейчас только один простейший Иллюстративный пример. Пусть m = n = 1 и рассматривается простейшая управляемая скалярная система x˙ = b(t) u,
|u| ≤ 1,
(7.28)
на отрезке [ 0, 1 ]. Функция b(t) определяется следующим образом: 1 ∀t ∈ ] 0, 1 ] . (7.29) t Пусть M = { 2 } и x0 = 0. Для этой задачи в качестве U используем аналогичное множество из примера, рассмотренного ранее, при условии a = 1. Легко видеть, что точка 2 не достижима никаким управлением U ∈ U. Лучшее, что можно делать — это просто стремиться к максимизации ϕU (1), а для этого следует отслеживать знак b(t), 0 ≤ t < 1, используя функцию U , модуль значения которой равен 1, и стремясь, таким образом, реализовать в качестве ϕU (1) значение 4
b(0) = 0,
4
b(t) = t sin
Z1 | b(t) | dt > 0 .
(7.30)
0
Последнее, однако, невозможно в классе к.-п. и н.спр. функций, т.к. число смен знака нашей (непрерывной) функции b(· ) бесконечно; см. (7.29). 58
Поэтому к величине (7.30) мы можем только сколь угодно приближаться, подбирая должным образом U ∈ U. Расширения же U до множества всех борелевских (измеримых по Борелю) функций приводит к ситуации, когда наилучшее управление U0 уже существует: его можно определить в виде U0 (t) = sign ( b(t) ) ∀t ∈ I = [ 0, 1 [ . Здесь функцию sign, действующую из R в двоеточие {−1; 1 } определяем традиционно: sign ( ξ ) = −1 при ξ ∈ ] − ∞, 0 [ , sign (ξ) = 1 при ξ ∈ [ 0, ∞ [. Так построенная функция U0 будет оптимальным, на множестве всех борелевских функций из I в [−1, 1 ], управлением. 2 В нашей задаче управления системой (7.3) нет, разумеется, экзотики типа (7.28), (7.29). Мы, однако, не занимаемся (интересной и важной) проблемой существования оптимального управления (т.е. проблемой исследования условий, когда U0 6= ∅); наши цели скромнее. Мы стремимся обнаружить данное свойство для того, чтобы использовать (6.28), (6.30), а не менее продуктивное условие предложения 6.2. Следует, однако, напомнить (без доказательства; см. в этой связи [3, 4]), что в классе измеримых управлений оптимальное управление — аналог нашего управления U 0 — уже обязательно существует (здесь можно, кстати, ограничиться измеримостью по Борелю) и этот аналог удовлетворяет соотношению (6.30) (в общем случае) или, в нашей конкретизации — соотношению (7.25) почти всюду, т.е. всюду за исключением, быть может, множества лебеговой меры нуль (см. [3, 9]). Важно и то, что борелевское управление, отличающееся от оптимального почти всюду (в упомянутом смысле), само оптимально; оно, кстати, формирует ту же самую траекторию (понимаемую в смысле Каратеодори; см. [12]). Отсюда мы и получаем полезный инструмент: если все борелевские (для определенности) управления, удовлетворяющие (7.25), почти всюду совпадают с к.-п. и н.спр. функцией из U, то эта последняя оптимальна уже в нашем смысле. В нашем случае (7.25) это свойство имеет место. Стало быть, у нас U0 6= ∅ и для поиска U 0 ∈ U0 можно применять (7.25), как конкретный вариант (6.30). Разумеется, наше рассуждение нельзя признать строгим доказательством; нам следовало бы для этого исследовать основную задачу в классе измеримых управлений (а для этого потребовалось бы знакомство с элементами теории меры и интеграла), т.е. познакомиться с расширениями задач управления, с общей теорией принципа максимума Л.С.Понтрягина (см. [5]) и т.д. Отметим, что в целом ряде случаев рассматриваемой задачи решение достигается в классе постоянных управлений. Пусть, например, наша система 59
(3.17) (мы возвращаемся сейчас к обсуждению общего случая) такова, что m = p и при этом H(t) = h(t) I(m) ∀t ∈ I0 , (7.31) (m)
(m)
где I(m) — единичная (m × m)–матрица (Ii,j = 0 при i 6= j, Ii,i = 1 при i ∈ 1, m ), а h есть непрерывная неотрицательная функция из I0 в R. Будем предполагать, кроме того, что множество P есть замкнутый евклидов шар в пространстве Rp = Rm с центром u∗ ∈ Rp и радиусом κ∗ ∈ ] 0, ∞[ , т.е. пусть P = { u ∈ Rp | k u − u∗ k ≤ κ∗ } . (7.32) Замечание 7.1. Если для системы (7.3) исследовать случай, когда m = 1, а точка, определяющая целевое множество задана на вещественной прямой, то получится вариант условий (7.31), (7.32). 2 В рассматриваемом случае системы (3.17) формула, определяющая значение (экстремум) задачи, существенно упрощается. Удобнее говорить в данном случае о конкретизации (6.26). В самом деле, при l ∈ ∂Lm и t ∈ I0 имеем min ( l0 H(t) u ) = h(t) min ( l0 u ) = h(t) ( l0 u∗ − κ∗ ) , u∈P
u∈P
см. в этой связи (2.4), (2.8). В результате (6.26) принимает в нашем случае следующий вид γ0 = sup( { 0; max [ l0 (π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ ) − µ(l) ] − h∗ κ∗ } ) , l∈∂Lm
(7.33)
где через h∗ обозначен следующий интеграл ∗ 4
Zϑ0 h(t) dt ≥ 0 .
h = t0
Допустим теперь, что множество M одноэлементно, т.е. M = { y 0 }, где y 0 ∈ Rm . Тогда (7.33) преобразуется к следующему виду γ0 = sup( {0; k π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 k − h∗ κ∗ } ) .
(7.34)
Вычисления в (7.34) сводятся к определению числа h∗ , нахождению длины вектора π[ Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 и к вычитанию из упомянутой длины числа h∗ κ∗ . В некоторых случаях эти вычисления не требуют даже применения ЭВМ. 60
Обсудим вопрос о структуре оптимального управления в нашем случае (см. (7.31), (7.32)); напомним, что мы предполагали выполненным равенство m = p. В этой части уместно вспомнить задачу о метрической проекции (см. (4.16), (4.57)). Для этого рассмотрим свойства ОД (4.8). С учетом (4.30),(7.31) мы получаем, что G есть множество всех векторов π[ ϕU (ϑ0 ) ] = π[ Ф(ϑ0 , t0 ) x0 ] +
Zϑ0 h(t) U (t) dt ,
U ∈U.
(7.35)
t0
Множество P , определяемое в (7.32) удобно представить в виде сдвига { u∗ + v : v ∈ P ∗ } 4
множества P ∗ = { v ∈ Rp | k v k ≤ κ∗ } , являющегося шаром с центром в начале координат. В этой связи U = { U∗ + U : U ∈ U∗ } ,
(7.36)
где U ∗ : I −→ Rp есть функция-константа, U ∗ (t)≡u∗ , а U ∗ есть множество всех к.-п. и н.спр. функций, действующих из I в P ∗ . Разумеется, в (7.36) используется операция поточечного сложения в пространстве векторфункций (см. раздел 2). Из (7.35) и (7.36) мы получаем, что ОД есть множество всех векторов ( π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ ) +
Zϑ0 h(t) U (t) dt ,
U ∈ U∗ .
(7.37)
t0
С учетом (4.12), (4.14) и представления (7.37) определение γ0 сводится к нахождению точной нижней грани числового множества { k (π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 ) +
Zϑ0
h(t) U (t) dt k : U ∈ U ∗ } ;
t0
в этой связи см. (4.16). По свойствам нормы имеем для каждого управления U ∈ U∗ Zϑ0 k π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 k − k h(t) U (t) dtk ≤ (7.38) t0
61
≤ k ( π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 ) +
Zϑ0 h(t) U (t) dt k . t0
С учетом этой оценки имеет смысл заняться минимизацией левой части (7.38). Для этого учтем оценку, подобную (4.31): Zϑ0 k
Zϑ0 h(t) U (t) dt k ≤
t0
h(t) k U (t) k dt ∀U ∈ U ∗ .
t0
Как следствие, из определения h∗ , P ∗ и U ∗ мы получаем, что Zϑ0 k
h(t) U (t) dt k ≤ h∗ κ∗ ∀U ∈ U ∗ .
t0
Стало быть, из (7.34) и (7.38) мы имеем следующую оценку результатов, достигаемых посредством управлений U ∈ U ∗ : γ0 ≤ k ( π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 ) +
Zϑ0 h(t) U (t) dt k .
(7.39)
t0
Оценка (7.39) находится в полном согласии с общей теорией. Но для нас важно сейчас, что данная оценка точна, т.е. при некотором U0 ∈ U ∗ (7.39) превращается в равенство. Для обоснования этого рассмотрим два возможных в (7.34) случая: 1) γ0 > 0 ; 2) γ0 = 0. 1) Пусть γ0 > 0. Тогда в силу неравенства h∗ κ∗ ≥ 0 имеем из (7.34), что k π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 k > 0 и можно ввести вектор 1 4 · ( π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 ) ∈ ∂Lm , l∗ = 0 ∗ ∗ 0 k π[Ф(ϑ0 , t0 ) x ] + h u − y k (7.40) посредством которого конструируется управляющий вектор 4
u∗ = −κ∗ l∗ ∈ P ∗ .
(7.41)
Пусть U∗ ∈ U ∗ есть функция-константа, для которой U∗ (t)≡u∗ . Тогда k ( π[ Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 ) +
Zϑ0 h(t) U∗ (t) dt k = t0
62
(7.42)
= k ( π[ Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 ) + h∗ u∗ k . Однако, из (7.40), (7.41) вытекает, что справедливо равенство ( π[ Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 ) + h∗ u∗ =
(7.43)
= (k π[ Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 k − κ∗ h∗ ) · l∗ , где в силу (7.34) и предположения (4.75) справедливо неравенство k π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 k − κ∗ h∗ > 0 . Тогда с учетом (7.34), (7.40), (7.42) и (7.43) имеем k (π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 ) +
Zϑ0 h(t) U∗ (t) dt k = γ0 .
(7.44)
t0 4
Полагаем теперь U 0 = U ∗ + U∗ ; U 0 ∈ U в силу (7.36). Тогда γ(U 0 ) = k π[ϕU 0 (ϑ0 ) ] − y 0 k = k π[Ф(ϑ0 , t0 ) x0 ] +
Zϑ0
h(t) U 0 (t) dt − y 0 k =
t0
= k π[Ф(ϑ0 , t0 ) x0 ] +
Zϑ0
h(t) U ∗ (t) dt +
t0
Zϑ0
h(t) U∗ (t) dt − y 0 k =
t0
= k (π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 ) +
Zϑ0 h(t) U∗ (t) dtk = γ0 ; t0
см. (7.44). Итак, U 0 — оптимальное управление, т.е. U 0 ∈ U0 . При этом U 0 (t) ≡ u∗ + u∗ ∈ P . 2) Пусть γ0 = 0. В этом случае речь пойдет фактически не об оптимизации рассогласования, а об обеспечении точного перевода системы в целевую точку y 0 по геометрическим координатам. Заметим, что в нашем случае (согласно (7.34)) 4
λ∗ = k π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 k ≤ h∗ κ∗ .
(7.45)
Будем использовать (7.45) для построения (оптимального) управления U 0 ∈ U, для которого γ(U 0 ) = 0. Для этого нам достаточно построить требуемую компоненту этого управления, являющуюся элементом U ∗ . 63
Если π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 — вектор, все компоненты которого нулевые, то и требуемую компоненту U∗0 ∈ U ∗ полагаем “нулевой”, т.е. определяем при любом t ∈ I вектор U∗0 (t) ∈ P ∗ как вектор, все компоненты 4
которого — нулевые. Управление U 0 реализуем в виде U 0 = U ∗ + U∗0 , т.е. U 0 = U ∗ . С учетом (7.35) мы получаем в данном случае π[ϕU 0 (ϑ0 ) ] = π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ , откуда следует равенство (см. (4.11), (4.12)) γ(U 0 ) = γ(U ∗ ) = k π[ϕU ∗ (ϑ0 ) ] − y 0 k = k π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 k = 0 , т.е. γ(U 0 ) = γ(U ∗ ) = γ0 , U 0 = U ∗ ∈ U0 . Пусть теперь вектор π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 не является нулевым (в упомянутом выше смысле). Тогда, действуя в соответствии с (7.40), мы построим вектор l∗ ∈ ∂Lm , т.е. l∗ =
1 ( π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 ) ; ∗ λ
см. (7.45). В рассматриваемом сейчас случае λ∗ > 0, что возможно только при h∗ > 0 (см. (7.45)). Более того, ∗ 4 λ ¯ λ = ∗ ≤ κ∗ . h
¯ λ ¯ > 0, мы имеем по определению P ∗ свойство: Для данного числа λ, 4 ¯ l∗ ∈ P ∗ . u¯ = −λ
Пусть U¯ ∈ U ∗ есть постоянное на I управление, для которого U¯ (t) ≡ u¯. Определяем теперь U 0 ∈ U в следующем виде: U 0 = U ∗ + U¯ .
(7.46)
Разумеется, (7.46) понимается в поточечном смысле. Тогда в силу (7.35), (7.46) π[ϕU 0 (ϑ0 ) ] = π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ + h∗ u¯ . (7.47) Как следствие, мы получаем в рассматриваемом случае, что γ(U 0 ) = k π[ϕU 0 (ϑ0 ) ] − y 0 k = k (π[Ф(ϑ0 , t0 ) x0 ] + h∗ u∗ − y 0 ) + h∗ u¯k = 64
¯ h∗ ) ) l∗ k = k 0 · l∗ k = 0 , = kλ∗ l∗ + h∗ u¯k = k ( λ∗ − ( λ ¯ h∗ = λ∗ . Снова γ(U 0 ) = γ0 , т.е. U 0 ∈ U0 . т.к. λ Итак, в случае 2) также существует постоянное оптимальное управление (все возникающие в этом случае возможности мы проверили). В заключении данного рассуждения приведем конкретный пример системы, упомянутой в (7.31), (7.32). Пусть рассматривается следующее векторное управляемое дифференциальное уравнение: x˙ 1 = x3 , x˙ 2 = x4 , x˙ 3 = u1 , x˙ 4 = u2 ,
(7.48)
где u ∈ R2 и k u k ≤ κ∗ . В (7.48) мы имеем комбинацию двух материальных точек, “связываемых” в единое целое, т.е. в материальную точку на плоскости, посредством совокупного ограничения на управляющий вектор. Пусть в данном случае (7.48) m = 2; ясно также, что p = 2. Смысл такого условия очевиден: для нас значащими являются только “настоящие” координаты векторной материальной точки, определяющие ее положение на плоскости. Это положение мы и стремимся перевести на целевое множество M (также лежащее в плоскости) в момент ϑ0 . Скорости, с которыми мы завершаем в этот момент требуемый процесс сближения, для нас несущественны. Заметим, что при упомянутых соглашениях фундаментальная матрица решений однородной системы x˙ 1 = x3 , x˙ 2 = x4 , x˙ 3 = 0, x˙ 4 = 0 имеет следующий вид, определяемый фактически комбинацией двух блоков вида (7.8): 1 0 τ 0 0 1 0 τ Ф0 (τ ) = (7.49) 0 0 1 0. 0 0 0 1 Здесь τ ∈ [ 0, ϑ0 − t0 ]. В силу (7.48) 0 0 1 0 0 0 0 0 0 1 , B(t) ≡ 0 0 . A(t) ≡ A = 0 0 0 0 1 0 0 0 0 0 0 1 Стало быть, из (3.22) и (7.49) мы получаем ϑ0 − t 0 0 ϑ0 − t H(ϑ0 , t) = 1 0 0 1 65
.
Наконец, по определению матрицанта (4.29) имеем с очевидностью при t ∈ I0 ϑ0 − t 0 . H(t) = 0 ϑ0 − t Если полагать h(t) = ϑ0 − t при t ∈ I0 , то мы получаем соответствующий вариант (7.31). Множество P ∗ , получаемое здесь для формализации ограничений в (7.48), есть круг радиуса κ∗ : P ∗ = { u ∈ R2 | k u k ≤ κ∗ } . Мы получили конкретный вариант (7.32). Заметим, что системы вида (7.48) широко используются в задачах механики.
8
Управляемые линейные системы: примеры и обсуждение
В настоящем разделе мы рассмотрим несколько более сложные примеры, имеющие своим источником модельные, но уже весьма содержательные задачи. Наше достаточно краткое изложение следует (по желанию читателя) дополнить достаточно подробными рассуждениями в [3, гл.2] и [13, §§14,29] (имеется и много других источников). Сначала рассмотрим достаточно простую линейную модель движения материальной точки по кривой в вертикальной плоскости. Упомянутая упрощенная модель приведена в [3, c.40]; последовательное обсуждение исходной содержательной задачи дано в [3, §3]. Итак, при m = n = 2 мы рассматриваем систему x˙ 1 = x2 ,
x˙ 2 = − ω 2 x1 + u ,
(8.1)
где | u | ≤ a, a ∈ ]0, ∞[ задано. Наши обозначения соответствуют [3, c.40,41]; содержательный смысл параметра ω в (8.1) обсуждается в [3, §3]; сейчас отметим только, что для простоты мы полагаем массу материальной точки единичной (ω 2 = ε g, где g — ускорение свободного падения, ε, ε > 0 — некоторая постоянная, выбираемая [3, c.22] из соображений, связанных с построением линейной модели). Мы рассматриваем случай t0 = 0, ϑ0 = 1. Тогда I0 = [0, 1], I = [0, 1 [. Множество M отождествляем с { y 0 }, где y 0 ∈ R2 — заданный вектор. Итак, наша цель состоит в организации такого управления – программы u = u(τ ), которая позволит из заданной начальной точки x0 с координатами x01 ∈ R, x02 ∈ R подойти в момент t = 1 к y 0 на наименьшее (среди возможных) расстояние. При этом 66
сила, которую в каждый момент времени из отрезка I0 можно прикладывать к системе, ограничена по величине положительной константой a и действует только по второй координате (мы имеем в виду фазовые координаты; по смыслу вторая координата отвечает в модели [3, c.21-23] скорости, что естественно для ньютоновой механики). Отметим, что в модели (8.1) мы пренебрегли силой трения. Системе (8.1) соответствует однородная система x˙ 1 = x2 , x˙ 2 = − ω 2 x1 . (8.2) Стало быть, матрица A в (7.1) имеет в нашем случае следующий вид 0 1 A= . (8.3) −ω 2 0 0 Кроме того, B(t) = ∀t ∈ I0 . Фундаментальная матрица решений Ф0 1 указана в [3, c.41]: при t ∈ [0, 1 ] 1 cos ωt sin ωt ω Ф0 (t) = . −ω sin ωt cos ωt Стало быть, для решения x(t) = x(t, t∗ , x∗ ) системы (8.2), стартующего в момент t∗ ∈ I0 из состояния x∗ ∈ R2 , имеет место представление ∗ x∗1 cos ω(t − t∗ ) + xω2 sin ω(t − t∗ ) . (8.4) x(t) = −x∗1 ω sin ω(t − t∗ ) + x∗2 cos ω(t − t∗ ) Мы предлагаем читателю проверить справедливость (8.2) для функции (8.4), включая проверку начальных условий. В отношении множества U (в согласии с (8.1)) мы сохраняем предположение, сделанное при рассмотрении системы (7.3): U — множество всех к.-п. и н.спр. функций из I в множество P = [−a, a] (здесь P определяется в виде отрезка R). Траектория, порожденная управлением U ∈ U из состояния x0 в начальный момент t = 0 определяется [3, c.41] выражениями x02 1 0 ϕU,1 (t) = x1 cos ωt + sin ωt + ω ω
Zt U (τ ) sin ω(t − τ ) dτ ,
(8.5)
U (τ ) cos ω(t − τ ) dτ .
(8.6)
0
ϕU,2 (t) = −x01 ω sin ωt + x02 cos ωt +
Zt 0
67
В нашем случае m = n = 2 как и при рассмотрении системы (7.3), π[ x ] = x для x ∈ R2 . Матрицанты H и H(ϑ0 , · ) = H(1, · ) совпадают; µ(l) = l0 y 0 при l ∈ Lm . Из (6.24), (6.26) извлекается выражение для определения экстремума γ0 = max [ l0 z 0 +
Z1 min (( l1
|u|≤a
l∈L2
1 sin ω(1 − t) + l2 cos ω(1 − t)) u ) dt ] = (8.7) ω
0
= max [ l0 z 0 − a
Z1 |
l∈L2
l1 sin ω(1 − t) + l2 cos ω(1 − t)| dt ] = ω
0
= sup( { 0; max [ l0 z 0 − a
Z1 |
l∈∂L2
l1 sin ω(1 − t) + l2 cos ω(1 − t) | dt ] } ) ∈ [0, ∞[ , ω
0
где вектор z 0 ∈ R2 имеет координаты z10
=
x01 cos
x02 ω+ sin ω − y10 , ω
z20 = −x01 ω sin ω + x02 cos ω − y20 . Как и для случая системы (7.3), имеем из (8.7) следующие свойства: вектор l0 ∈ L2 , для которого 00 0
Z1
l z −a
l10 | sin ω(1 − t) + l20 cos ω(1 − t) | dt = γ0 , ω
0
непременно обладает свойством l00 z 0 ≥ 0. Кроме того, вектор ˜l 0 ∈ ∂L2 , являющийся решением задачи l0 z 0 − a
Z1 |
l1 sin ω(1 − t) + l2 cos ω(1 − t) | dt −→ max , ω
l ∈ ∂L2 , (8.8)
0
непременно обладает свойством ˜l 00 z 0 ≥ 0. Мы снова получили задачу скалярной оптимизации, для которой, как и в разделе 7, следует построить вычислительную процедуру. В результате будет определено значение γ0 и, в случае γ0 > 0, реализуется возможность использования принципа максимума. Соответствующее выражение подобно в логическом отношении (7.25). Его обсуждение мы опускаем, поскольку 68
оно практически дословно повторяет соображения, изложенные в разделе 7 в связи с построением конкретизации (6.30). Ограничимся по этой причине конкретизацией соответствующих соотношений, учитывая, что 1 sin ω(1 − t) H(t) = H(ϑ0 , t) = Ф0 (1 − t) B(t) = ω ∀t ∈ I0 . (8.9) cos ω(1 − t) Для определения l0 ∈ ∂L2 следует решить задачу (8.8), которая получается из (6.27) подстановкой выражения (8.9). Далее, при γ0 > 0 следует конкретизировать (6.30): при t ∈ I [
l10 sin ω(1 − t) + l20 cos ω(1 − t) ] U 0 (t) = ω
(8.10)
l10 = − a | sin ω(1 − t) + l20 cos ω(1 − t) | . ω Здесь U 0 — оптимальное управление: U 0 ∈ U0 . В связи с проблемой существования U 0 опять-таки следует заметить, что таковое всегда существует в более общем классе измеримых управлений, где, однако, равенство в (8.10) должно выполняться лишь почти всюду в смысле меры Лебега. Сейчас мы предлагаем просто отыскать функцию U 0 : I −→ [− a, a ] , которая бы удовлетворяла (8.10) во всех точках из I. Для этого, как и в разделе 7 введем функцию h0 : R −→ R по правилу l10 sin ω(1 − t) + l20 cos ω(1 − t) . h (t) = ω 0
4
Тогда в точках t ∈ I, для которых h0 (t) 6= 0, следует полагать U 0 (t) = − a sign h0 (t) .
(8.11)
Точки зануления h0 следует искать из тригонометрического уравнения (напомним, что l0 ∈ ∂L2 , а потому (l10 6= 0) ∨ (l20 6= 0)). В этих точках, имея своей целью построение управления из U, следует доопределить (8.11) по непрерывности справа. Мы не будем сейчас проделывать эти построения, оставляя их читателю для серьезной самостоятельной работы (включая исследование свойств h0 ), в которой сочетаются элементы теории и компьютерного моделирования. Рассмотрим теперь один естественный пример применения задачи сближения с множеством в заданный момент времени для решения задачи 69
быстродействия. Будем рассматривать движение материальной точки в плоскопараллельном поле силы тяжести, что соответствует на идейном уровне движению в окрестности заданной точки в околоземном пространстве. Итак, наша (модельная) система имеет вид x˙ 1 = x4 , x˙ 2 = x5 , x˙ 3 = x6 ,
(8.12)
x˙ 4 = u˜1 , x˙ 5 = u˜2 , x˙ 6 = u˜3 − g . Здесь g > 0 — ускорение силы тяжести, направленное “вниз” (третья координата x соответствует у нас вертикальной оси), u˜1 , u˜2 и u˜3 — суть координаты управляющего вектора. Массу материальной точки для простоты полагаем единичной. Мы постулируем, что управляющий вектор u˜ ограничен по величине, т.е. по норме: k u˜ k ≤ a, где a ∈ ]0, ∞[. Пусть, кроме того, независимо реализуется заданная траектория y(· ): y(t) ∈ R3 , где t ≥ 0. Мы рассматриваем случай, когда для системы (8.12) задан вектор начальных условий x0 ∈ R6 , первые три компоненты которого определяют начальное положение, а последние три компоненты — вектор начальной скорости нашей материальной точки. Начальный момент t0 предполагается нулевым: t0 = 0. Момент окончания, т.е. ϑ0 , здесь фиксировать не будем. Стало быть, мы рассматриваем различные случаи ϑ0 , ϑ0 > 0, (мы предполагаем, что вектор с компонентами x01 , x02 , x03 не совпадает с y(0)). Мы стремимся найти такой наименьший момент ϑopt 0 > 0, при котором с помощью некоторой к.-п. и н.спр. управляющей функции U˜ = (U˜ (t), t ≥ 0 ) удается добиться совмещения opt opt opt x˜1 (ϑopt ˜2 (ϑopt ˜3 (ϑopt 0 ) = y1 (ϑ0 ), x 0 ) = y2 (ϑ0 ), x 0 ) = y3 (ϑ0 ),
(8.13)
где x˜ = x˜(· ) — траектория системы (8.12), порожденная управлением U˜ . Разумеется, нам следует убедиться и в том, что встреча, подобная (8.13), возможна хоть в какой-то момент времени. Это обстоятельство требует, в частности, некоторых предположений о характере функции y(· ) = ( y(t), t ≥ 0 ) . Будем предполагать в дальнейшем, что компоненты этой функции соответствуют каждая равномерному прямолинейному движению: при t ≥ 0 y1 (t) = y10 + v1 t , y2 (t) = y20 + v2 t , y3 (t) = y30 + v3 t . 70
Здесь y10 , y20 , y30 , v1 , v2 , v3 — заданные числа; через v условимся обозначать вектор с компонентами v1 , v2 , v3 . Для исследования упомянутой задачи введем прежде всего нужный вариант системы (3.17), что в нашем случае сводится к выбору множества P , определяющего геометрические ограничения на выбор управления. Пусть ~g ∈ R3 — вектор, у которого две первые компоненты — нулевые (~g1 = ~g2 = 0 ), а третья удовлетворяет условию ~g3 = − g. Определяем множество 4
P = { u˜ + ~g | u˜ ∈ R3 , k u˜ k ≤ a } = { u ∈ R3 | k u − ~g k ≤ a } ,
(8.14)
получая евклидов шар радиуса a со смещенным центром. Ясно, что рассмотрение системы (8.12) можно свести к исследованию системы x˙ 1 = x4 , x˙ 2 = x5 , x˙ 3 = x6 ,
(8.15)
x˙ 4 = u1 , x˙ 5 = u2 , x˙ 6 = u3 , где u ∈ P . В виде (8.15) имеем нужный вариант (3.17). Здесь n = 6 и по соображениям, изложенным в содержательной части нашего обсуждения, логично полагать m = 3. В нашем случае 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 A(t)≡A = 0 0 0 0 0 0 , B(t) ≡ 1 0 0 . 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 Фундаментальная матрица решений однородной системы x˙ = A x имеет следующий вид 1 0 0 t 0 0 0 1 0 0 t 0 0 0 1 0 0 t Ф0 (t) = 0 0 0 1 0 0 , t ≥ 0. 0 0 0 0 1 0 0 0 0 0 0 1 Нам предстоит рассматривать варианты задачи управления с различной фиксацией конечного момента времени. В этой связи мы будем снабжать
71
матрицант (4.29) соответствующим указанием в виде индекса. Итак, в согласии с (3.22) определяем при 0 ≤ t ≤ ϑ ϑ−t 0 0 0 ϑ−t 0 0 0 ϑ − t . H(ϑ, t) = Ф0 (ϑ − t) B(t) = 1 0 0 0 1 0 0 0 1 Напомним, что в нашем случае m = p = 3. Поэтому при каждом ϑ0 , ϑ0 > 0, имеем из (4.29) следующую версию матрицанта H(· |ϑ0 ), получаемую отбрасыванием в каждый момент t ∈ [0, ϑ0 ] у матрицанта H( ϑ0 , t ) четвертой, пятой и шестой строк. Стало быть, при ϑ0 ∈ ]0, ∞[ и t ∈ [0, ϑ0 ] ϑ0 − t 0 0 ϑ0 − t 0 = (ϑ0 − t) I(3) , H(t|ϑ0 ) = 0 0 0 ϑ0 − t где I(3) = I(m) соответствует (7.31). Итак, мы получаем при каждом ϑ0 , ϑ0 > 0, вариант (7.38), где для t ∈ [0, ϑ0 ] h(t) = h(t|ϑ0 ) = ϑ0 − t .
(8.16)
Это важное наблюдение позволяет использовать положения раздела 7, связанные с условиями разрешимости задачи сближения (в фиксированный момент времени) в классе постоянных управлений. В этой связи имеем 4
h∗ [ϑ0 ] =
Zϑ0 0
Zϑ0 ϑ2 h(t|ϑ0 ) dt = (ϑ0 − t) dt = 0 ∀ϑ0 ∈ ]0, ∞[ . 2
(8.17)
0
Здесь же, наряду с (8.17), отметим, что (8.14) вполне соответствует представлению, предшествующему (7.36) и реализуемому при условии, что u∗ = ~g и κ∗ = a; см. (7.32) и (8.14). Тогда из (7.34) мы получаем (при m = 3, n = 6) нужную конкретизацию (7.34) для каждого фиксированного момента ϑ0 , ϑ0 > 0. Итак, конкретизируем требуемые параметры формулы (7.34), где ϑ0 > 0; 0 x1 + ϑ0 x04 π[ Ф(ϑ0 , 0) x0 ] = π[ Ф0 (ϑ0 ) x0 ] = x02 + ϑ0 x05 ∈ R3 ; x03 + ϑ0 x06 72
π[ Ф(ϑ0 , 0) x0 ] + h∗ [ ϑ0 ] ~g − y(ϑ0 ) = (8.18) x01 − y10 + (x04 − v1 ) ϑ0 x01 + ϑ0 x04 − y10 − v1 ϑ0 = . x02 − y20 + (x05 − v2 ) ϑ0 x02 + ϑ0 x05 − y20 − v2 ϑ0 = 2 2 x03 − y30 + (x06 − v3 ) ϑ0 − g 2ϑ0 x03 + ϑ0 x06 − g ϑ20 − y30 − v3 ϑ0 Для краткости условимся обозначать (8.18) через Π(ϑ0 ): 4
Π(ϑ0 ) = π[ Ф(ϑ0 , 0) x0 ] + h∗ [ ϑ0 ] ~g − y(ϑ0 ) ∈ R3 ; здесь ϑ0 > 0. Заметим сразу, что g ϑ20 k Π(ϑ0 ) k ≤ κ1 + κ2 ϑ0 + , 2
(8.19)
где κ1 есть евклидова норма вектора (в R3 ) с компонентами x01 − y10 , x02 − y20 ,
x03 − y30 ,
κ2 есть евклидова норма трехмерного вектора с компонентами x04 − v1 ,
x05 − v2 ,
x06 − v3 .
Правую часть (8.19) можно преобразовать, используя формулу полного квадрата g ϑ20 g 2 κ1 + κ2 ϑ0 + = (ϑ20 + κ2 ϑ0 ) + κ1 = (8.20) 2 2 g g κ2 κ2 κ2 g κ2 2 = (ϑ20 + κ2 ϑ0 + 22 ) − 2 + κ1 = (κ1 − 2 ) + (ϑ0 + )2 . 2 g g 2g 2g 2 g Теперь уже мы можем воспользоваться (7.34): при ϑ0 > 0 значение γ0 [ ϑ0 ], определяемое в (4.14) и совпадающее с нужной модификацией (7.34), есть a ϑ20 }). (8.21) 2 Напомним, что по предположению κ1 > 0. При этом выражение в правой части (8.18) имеет, при ϑ0 = 0, норму, совпадающую с κ1 . Стало быть, и при всех достаточно малых значениях ϑ0 , ϑ0 > 0, γ0 [ ϑ0 ] > 0. Для нас важны те значения ϑ0 ∈ ]0, ∞[, для которых γ0 [ ϑ0 ] = 0. Однако, для того, чтобы такие значения существовали, требуется достаточное значение параметра a > 0 (ограничение на силу тяги двигателя). В самом деле, при малых значениях этого параметра, как видно уже из (8.12), наша материальная точка может начать с какого-то момента терять высоту (третья координата фазового вектора) под действием силы тяжести и, если траектория y(· ) γ0 [ ϑ0 ] = sup( { 0; k Π( ϑ0 ) k −
73
имеет достаточно большую третью компоненту y3 (t), t ≥ 0, то требуемого сближения материальной точки и y(t) достичь вообще не удастся (мы имеем в виду случай, когда y30 и v3 положительны и достаточно велики). В этой связи мы проведем сейчас некоторый оценочный анализ зависимости ϑ 7−→ k Π(ϑ) k −
a ϑ2 : ]0, ∞[ −→ R . 2
(8.22)
Здесь, в свою очередь, имеет смысл учесть (8.19) и (8.20), поскольку k Π(ϑ) k −
κ2 g κ2 2 a ϑ2 a ϑ2 ≤ ( κ1 − 2 ) + (ϑ + ) − = 2 2g 2 g 2
(8.23)
√ √ κ22 1 √ κ2 κ2 √ = (κ1 − ) + ( g(ϑ + ) − aϑ)( g(ϑ + ) + aϑ). 2g 2 g g Будем исследовать второе слагаемое в последнем выражении. Рассмотрим неравенство √ κ2 √ g(ϑ + (8.24) ) − aϑ < 0 g на множестве всех ϑ > 0. Решения этого неравенства находятся совсем легко, если сделать ряд естественных для такого рода задач предположений. Мы принимаем условие a > g, естественное в смысле “доминирования” по отношению к силе тяжести. Тогда (8.24) выполнено, если κ2 (8.25) √ √ √ < ϑ. g( a − g) Стало быть, для таких значений ϑ второе слагаемое в (8.23) отрицательно. Здесь же следует заметить, что √ √ κ2 κ2 √ √ g (ϑ + ) − aϑ = √ − ( a − g)ϑ. g g Как следствие, мы получаем (при нашем условии на a) оценку √ √ κ2 κ2 √ √ ) − aϑ| ≥ ( a − g)ϑ − √ . | g(ϑ + g g
(8.26)
При нашем предположении относительно a мы имеем в правой части (8.26) функцию, строго возрастающую с ростом ϑ. В частности, при выполнении (8.25) с некоторым запасом, мы имеем для всех достаточно больших значений ϑ “хорошую” оценку снизу. В самом деле, если κ2 ϑ>√ √ (8.27) √ + 1, g( a− g) 74
то (8.25) выполнено и, кроме того, имеет место √ √ √ κ2 κ2 κ2 √ √ √ ( a − g)ϑ − √ > √ + ( a − g) − √ = a − g. g g g В итоге, при условии (8.27) второе слагаемое в правой части (8.23) строго отрицательно, причем (см. (8.26)) √ √ 1 √ κ2 κ2 √ | ( g(ϑ + ) − aϑ)( g(ϑ + ) + aϑ)| > 2 g g √ √ √ √ κ2 κ2 √ √ √ √ > ( a − g) ( g(ϑ + ) + aϑ) = ( a − g) (( a + g)ϑ + √ ). g g Из (8.23) следует теперь, что при условии (8.27) √ √ κ2 ( a − g ) κ22 a ϑ2 < ( κ1 − ) − ((a − g) ϑ + ). (8.28) k Π(ϑ) k − √ 2 2g g Поскольку a > g, то правая часть (8.28) станет, при всех достаточно больших ϑ со свойством (8.27), отрицательной. Это означает, что, согласно (8.21), γ0 [ϑ] обращается в нуль для всех достаточно больших ϑ. Поскольку зависимость ϑ 7−→ γ0 (ϑ) : ]0, ∞[−→ [0, ∞[ непрерывна, то среди значений ϑ > 0, для которых γ0 (ϑ) = 0, непременно есть наименьшее (мы учитываем, что при всех достаточно малых ϑ > 0 значение γ0 (ϑ) строго положительно), т.е. для некоторого значения ϑopt 0 ∈ ]0, ∞[ выполнено opt (γ0 (ϑopt 0 ) = 0 ) & ( ∀ϑ ∈ ]0, ∞[ ((γ0 (ϑ) = 0 ) =⇒ (ϑ0 ≤ ϑ))) .
(8.29)
Теперь, имея (8.29), следует построить численную процедуру поиска ϑopt 0 , реализующую наименьший корень функции (8.22). Итак, следует решить задачу a ϑ2 ϑ −→ min , ϑ > 0, k Π(ϑ) k − = 0. (8.30) 2 Мы знаем уже, что при нашем условии на выбор a (т.е. при a > g) задача (8.30) непременно разрешима. После нахождения ϑopt 0 (8.28) мы, по рецепту раздела 7, строим программное управление, постоянное и оптимальное в задаче сближения с точкой y(ϑopt 0 ) в момент времени, удовлетворяющий (8.29). В этой части решения следует использовать конструкцию, реализуемую в условиях (7.31), (7.32) для случая 2); см. (7.45) и далее. Данное построение не доставляет каких-либо затруднений и предлагается читателю для самостоятельного решения. 75
Приложение Cвойства, связанные с выпуклостью множеств. Подробное изложение конструкций, связанных с выпуклостью, можно найти, например, в [11]. Сейчас мы ограничиваемся простейшими построениями, связанными с теоремами отделимости в конечномерном случае. Пусть m ∈ N . Мы рассматриваем сейчас пространство Rm ; в этом пространстве фиксируем непустое, выпуклое, ограниченное и замкнутое множество W, W ⊂ Rm . По предположению, стало быть, W содержит все свои предельные точки, т.е. все пределы сходящихся последовательностей в W (сходимость можно понимать как сходимость в евклидовой норме пространства Rm ; см. (2.3)). Кроме того, из предположений следует, что W содержится в евклидовом шаре (пространства Rm ) достаточно большого радиуса с центром в начале координат. Такие (замкнутые и ограниченные) множества принято называть компактными. Мы, однако, ограничимся сейчас упоминанием только одного варианта (секвенциальной) компактности W : каждая последовательность в W обладает подпоследовательностью, сходящейся к некоторой точке множества W . С учетом этого свойства и хорошо известных [9] положений о достижимости экстремумов, связываемых обычно с теоремой Вейерштрасса, имеем утверждение: каждая непрерывная функция h : W −→ R достигает (на W ) минимума и максимума, т.е. для некоторых точек w(1) ∈ W и w(2) ∈ W имеет место h(w(1) ) ≤ h(w) ≤ h(w(2) ) ∀w ∈ W .
(Π.1)
Мы рассмотрим сейчас следующую задачу о метрической проекции начала координат на множество W : k x k −→ min ,
x∈W.
(Π.2)
Сразу же отметим, что (П.1) применимо к функции h вида x 7−→ k x k : W −→ [0, ∞[ .
(Π.3)
В самом деле, если y ∈ W и z ∈ W , то |kyk − kzk| ≤ ky − zk,
(Π.4)
что легко следует из неравенства треугольника, справедливого для всякой нормы (имеется в виду свойство k p + q k ≤ k p k + k q k ∀p ∈ Rm ∀q ∈ Rm ; 76
заметим, кстати, что в нашем случае обоснование этого свойства можно получить с помощью (2.4)). Из (П.4) вытекает непрерывность функции (П.3). Возвращаясь к задаче (П.2), отметим, что последняя характеризуется значением 4 val = min k x k ∈ [0, ∞[ (Π.5) x∈W
и некоторым решением w ∈ W : k w k = val . Решение задачи (П.2) подразумевает определение величины val (П.5) и вектора w. Предложение П.1. k w k2 ≤ w0 x ∀x ∈ W . Доказательство. Допустим противное: w0 x < k w k2 для некоторого x ∈ W . В силу выпуклости W имеем 4
z (λ) = w + λ ( x − w ) ∈ W
∀λ ∈ [0, 1 ] .
Как следствие, val = k w k ≤ k z (λ) k ∀λ ∈ [0, 1 ]. Поэтому k w k2 ≤ k z (λ) k2 ∀λ ∈ [0, 1 ] .
(Π.6)
С учетом (2.3) имеем, для λ ∈ [0, 1 ], представление k z (λ) k2 = z (λ)0 z (λ) = (w + λ(x − w))0 (w + λ(x − w)) = = w0 (w + λ(x − w)) + λ(x − w)0 (w + λ(x − w)) = = k w k2 + λ w0 (x − w) + λ (x − w)0 w + λ2 k x − w k2 =
(Π.7)
= k w k2 + λ w0 (x − w) + λ w0 (x − w) + λ2 k x − w k2 = = k w k2 + 2 λ w0 (x − w) + λ2 k x − w k2 (формула полного квадрата); см. (2.2). Из (П.7) вытекает, что k z (λ) k2 = k w k2 + λ ( 2 w0 (x − w) + λ k x − w k2 ) .
(Π.8)
По выбору x имеем, однако, неравенство w0 x < w0 w; см. (2.3). Тогда 4
κ = 2 w0( x − w ) = 2 ( w0x − w0w ) < 0 , где, в согласии с (П.8), имеет место k z (λ) k2 = k w k2 + λ (κ + λ k x − w k2 ) .
(Π.9)
Подчеркнем, что (П.9) справедливо при любом λ ∈ [0, 1 ]. Ограничим, однако, свой выбор случаем λ > 0. При этом из (П.6), (П.9) вытекают неравенства λ (κ + λ k x − w k2 ) ≥ 0 ∀λ ∈ ]0, 1 ] . 77
Это возможно только тогда, когда κ + λ k x − w k2 ≥ 0 ∀λ ∈ ]0, 1 ] .
(Π.10)
Отметим, что по выбору x имеем свойство x 6= w (в противном случае w0 x = k w k2 ). Стало быть, вектор x − w = x + (−w) ∈ Rm является ненулевым, т.е. имеет отличную от нуля компоненту. Поэтому k x − w k2 > 0 и, как следствие, 4
κ0 = −
κ ∈ ]0, ∞[ . k x − w k2
В этом случае ]0, 1] ∩ ]0, κ0 [ 6= ∅. В самом деле, inf( {
κ0 2
< κ0 , а тогда
κ0 ; 1} ) ∈ ]0, 1] ∩ ]0, κ0 [ . 2
Выберем произвольное число µ ∈ ] 0, 1 ] ∩ ] 0, κ0 [ , после чего получаем утверждение (П.10) при λ = µ: κ + µ k x − w k2 ≥ 0 .
(Π.11)
Однако, с другой стороны имеем (по выбору µ) µ k x − w k2 < κ0 k x − w k2 = − κ , что означает: κ+µ k x−w k2 < 0 вопреки (П.11). Полученное противоречие доказывает требуемое утверждение. 2 В качестве следствия отметим одно очевидное свойство: пусть val ∈ ] 0, ∞[, а w — решение задачи (П.2), т.е. w ∈ W и k w k = val . Тогда вектор 1 4 l0 = w ∈ Rm (Π.12) kwk является элементом единичной сферы, т.е. k l0 k = 1, и при этом (см. предложение П.1) l0 0 w = val = k w k = min l0 0 x . (Π.13) x∈W
Обоснование (П.13) вполне очевидно. Мы получили некоторое условие минимума, которое, как мы увидим в дальнейшем, допускает ряд интересных 78
интерпретаций, одна из которых связана с принципом максимума Л.С.Понтрягина. Сейчас отметим только, что w ∈ W является решением задачи l0 0 x −→ min , x ∈ W . (Π.14) Значение (экстремум) задачи (П.14) совпадает с val , а w является ее решением. Вектор l0 играет, по сути дела, роль некоторой сопряженной переменной. Элементы теории антагонистических игр: простейшие сведения. До сих пор (в Приложении) мы обсуждали “обычные” задачи на экстремум, связанные с вычислением минимума или максимума. Сейчас нам предстоит познакомиться с т.н. минимаксами и максиминами в связи с понятиями теории игр. Элементы этой теории мы используем (в основной части пособия), однако, только в целях решения тех же “обычных” экстремальных задач в качестве своеобразного инструмента. Между тем существует много содержательных задач практического характера, где конструкции самой теории игр являются определяющими для постановки и последующего успешного решения; см., например, [4], [14] – [17]. Тем не менее, и в наших, сугубо вспомогательных конструкциях, возникают достаточно интересные и полезные построения, характеризующие явления игровой природы. Пусть фиксированы два натуральных числа p ∈ N и q ∈ N , а также непустые ограниченные и замкнутые множества X, X ⊂ Rp , и Y, Y ⊂ Rq . Будем называть X и Y пространствами стратегий игроков I и II соответственно. Пусть, наконец, f : X × Y −→ R
(Π.15)
есть непрерывная (по совокупности своих переменных) функция, которая будет использоваться в качестве т.н. платежной функции. Итак, (П.15) есть правило (x, y) 7−→ f (x, y) : X × Y −→ R , которое каждой паре (x, y), где x ∈ X и y ∈ Y , сопоставляет число f (x, y) ∈ R. Мы называем, как уже отмечалось, x ∈ X и y ∈ Y стратегиями игроков; тогда (x, y) именуется партией (игры), а число f (x, y) играет роль “денег”, которые игрок I, выбравший стратегию x, отдает игроку II, выбравшему стратегию y. Мы отмечали уже свойство непрерывности f (П.15). Для нашей постановки оно эквивалентно непрерывности
79
секвенциальной: если (x(i) )i∈N — последовательность в X, (y (i) )i∈N — последовательность в Y , x ∈ X и y ∈ Y , то (( k x(i) − x k)i∈N −→ 0 ) & ((k y (i) − y k )i∈N −→ 0 )) =⇒
(Π.16)
=⇒ (( f (x(i) , y (i) ))i∈N −→ f (x, y) ) . Свойство (секвенциальной) непрерывности (П.16) при несколько ином взгляде на вещи приводит (в силу компактности X и Y ; см. [9]) к более сильному, вообще говоря (т.е. при более общих предположениях относительно X и Y ), свойству: для нашей функции f имеет место следующее свойство равномерной непрерывности. Именно, если ε ∈ ]0, ∞[ , то существует δ ∈ ]0, ∞[ (зависящее от ε) такое, что ∀x0 ∈ X ∀y 0 ∈ Y ∀x00 ∈ X ∀y 00 ∈ Y (( k x0 − x00 k < δ ) & ( k y 0 − y 00 k < δ )) =⇒ ( |f (x0 , y 0 ) − f (x00 , y 00 )| < ε ) . (Π.17) Разумеется, из (П.16) и (П.17) следуют свойства: 10 ) если x ∈ X, то функция y 7−→ f (x, y) : Y −→ R (Π.18) непрерывна (на Y ); 20 ) если y ∈ Y , то функция x 7−→ f (x, y) : X −→ R
(Π.19)
непрерывна (на X). С учетом известных положений (см., например, [9]), связанных с теоремой Вейерштрасса, мы получаем, при фиксированном x ∈ X, что функция (П.18) достигает максимума и минимума на Y ; если же фиксировано y ∈ Y , то функция (П.19) также достигает максимума и минимума на X. По самому смыслу платежной функции игрок I заинтересован в минимизации значений f (x, y), а игрок II — в максимизации этих значений. Если x ∈ X, то max f (x, y) ∈ R y∈Y
определяет значение гарантии для возможных потерь игрока I. Введем в этой связи функцию v ∗ : X −→ R (Π.20) по следующему правилу: если x ∈ X, то 4
v ∗ (x) = max f (x, y) . y∈Y
80
(Π.21)
Назовем v ∗ (П.20), (П.21) функцией гарантии игрока I. Данная функция равномерно непрерывна (и, в частности, непрерывна) на X. В самом деле, воспользуемся (П.17). Пусть ε ∈ ]0, ∞[ , а δ ∈ ]0, ∞[ выбрано (при данном ε) так, что верно (П.17), где x0 ∈ X, y 0 ∈ Y , x00 ∈ X и y 00 ∈ Y . Пусть x(1) ∈ X и x(2) ∈ X таковы, что k x(1) − x(2) k < δ. Подберем с учетом (П.21) y (1) ∈ Y так, что при этом v ∗ (x(1) ) = f (x(1) , y (1) ) . Тогда (см. (П.17)) | v ∗ (x(1) ) − f (x(2) , y (1) ) | < ε и, в частности, v ∗ (x(1) ) − ε < f ( x(2) , y (1) ) ≤ v ∗ (x(2) ) , т.е. v ∗ (x(1) ) − v ∗ (x(2) ) < ε. Пусть y (2) ∈ Y таково, что v ∗ (x(2) ) = f (x(2) , y (2) ) , а потому (см. (П.17)) | f (x(1) , y (2) ) − v ∗ (x(2) ) | < ε и, в частности, v ∗ (x(2) ) − ε < f (x(1) , y (2) ) ≤ v ∗ (x(1) ) . Последнее означает неравенство v ∗ (x(2) ) − v ∗ (x(1) ) < ε, что, по ранее доказанному, реализует оценку | v ∗ (x(1) ) − v ∗ (x(2) ) | < ε . Коль скоро выбор δ — близких стратегий x(1) и x(2) — был произвольным, имеем ∀x0 ∈ X ∀x00 ∈ X ( k x0 − x00 k < δ) =⇒ ( | v ∗ (x0 ) − v ∗ (x00 ) | < ε ) . Поскольку и ε > 0 выбиралось произвольно, требуемое свойство v ∗ установлено. С учетом теоремы Вейерштрасса функция v ∗ достигает на X своего минимума. Пусть 4 V ∗ = min v ∗ (x) ; (Π.22) x∈X
мы знаем уже, что v ∗ (¯ x) = V ∗ для некоторого x¯ ∈ X. Как следствие, множество 4 XIopt = {x0 ∈ X | v ∗ (x0 ) = V ∗ } (Π.23) непусто: XIopt 6= ∅. Из (П.21) и (П.22) следует, что V ∗ = min max f (x, y) . x∈X
y∈Y
81
(Π.24)
Мы получили минимакс f (см. (П.22), (П.24)), являющийся одновременно значением задачи v ∗ (x) −→ min , x ∈ X . (Π.25) Задачу (П.25) именуем задачей игрока I; (П.25) — типичная задача оптимизации гарантии. Отметим, что игрок II при выборе y ∈ Y имеет в виде min f (x, y) ∈ R x∈X
значение гарантии для своих “приобретений”, соответствующих данной стратегии y. Мы введем функцию v∗ : Y −→ R
(Π.26)
по следующему правилу: если y ∈ Y , то 4
v∗ (y) = min f (x, y) . x∈X
(Π.27)
Так же, как и в случае v ∗ , проверяется (с учетом (П.17)), что функция v∗ непрерывна на Y и достигает своего максимума. Мы полагаем 4
V∗ = max v∗ (y) y∈Y
(Π.28)
и получаем, стало быть, что множество 4
YIIopt = { y 0 ∈ Y | v∗ (y 0 ) = V∗ }
(Π.29)
непусто: YIIopt 6= ∅. Из (П.27), (П.28) получаем равенство V∗ = max min f (x, y) . y∈Y
x∈X
Мы пришли в (П.28), (П.29) к задаче v∗ (y) −→ max ,
y∈Y .
(Π.30)
Сравним V∗ и V ∗ ; легко видеть, что V∗ ≤ V ∗ .
(Π.31)
В самом деле (см. более подробно в [14] – [16]), для всяких x ∈ X и y ∈ Y v∗ (y) ≤ f (x, y) ≤ v ∗ (x) ; 82
(Π.32)
см. (П.21), (П.27). Из (П.28), (П.32) следует, что V∗ ≤ v ∗ (x) ∀x ∈ X .
(Π.33)
Переходя к минимуму в правой части (П.33), мы и получаем (П.31). Определение П.1. Будем говорить, что игра, определяемая триплетом (X, Y, f ), имеет цену, если V∗ = V ∗ . Определение П.2. Пару (x∗ , y ∗ ) ∈ X × Y стратегий x∗ ∈ X и y ∗ ∈ Y называем седловой точкой (игры, соответствующей триплету (X, Y, f )), если ∀x ∈ X ∀y ∈ Y f (x∗ , y) ≤ f (x∗ , y ∗ ) ≤ f (x, y ∗ ) .
(Π.34)
Из (П.34) видно, что в основу понятия седловой точки заложен принцип устойчивости: ни у одного из игроков I, II нет стимула в том, чтобы в одиночку отступать от поведения, определяемого конкретной седловой точкой. Седловая точка может, однако, не существовать; возможен и случай, когда седловых точек несколько. В этой связи отметим ряд известных (см. [14] – [16]) и полезных положений. Предложение П.2. Пусть игра имеет цену, т.е. V∗ = V ∗ . Тогда при всяком выборе x0 ∈ XIopt и y 0 ∈ YIIopt пара (x0 , y 0 ) ∈ X × Y является седловой точкой игры (X, Y, f ) и при этом f (x0 , y 0 ) = V∗ = V ∗ . 4
Доказательство. Введем обозначение V = V ∗ . Тогда V = V∗ по условиям предложения. Пусть x0 ∈ XIopt и y 0 ∈ YIIopt . Мы получаем тогда из (П.23) и (П.29) цепочку равенств v ∗ (x0 ) = V = v∗ (y 0 ) .
(Π.35)
Из (П.21), (П.27) и (П.35) имеем ∀x ∈ X ∀y ∈ Y f (x0 , y) ≤ V ≤ f (x, y 0 ) .
(Π.36)
В частности, можно полагать в (П.36) x = x0 , y = y 0 . Тогда f (x0 , y 0 ) = V .
(Π.37)
С другой стороны, из (П.36), (П.37) вытекает, что ∀x ∈ X ∀y ∈ Y f (x0 , y) ≤ f (x0 , y 0 ) ≤ f (x, y 0 ) . Последнее означает (см. определение П.2), что (x0 , y 0 ) — седловая точка; это, с учетом (П.37), означает справедливость предложения в целом. 2 83
Введем в рассмотрение множество 4
S = { (x∗ , y ∗ ) ∈ X × Y | f (x∗ , y) ≤ f (x∗ , y ∗ ) ≤ f (x, y ∗ ) ∀x ∈ X ∀y ∈ Y } (Π.38) всех седловых точек исследуемой здесь игры. Напомним также, что XIopt × YIIopt есть (непустое) множество всех упорядоченных пар (x0 , y 0 ), x0 ∈ XIopt , y 0 ∈ YIIopt , компонентами которых являются индивидуально оптимальные стратегии, т.е. решения задач (П.25) и (П.30). Из предложения П.2 вытекает свойство ( V∗ = V ∗ ) =⇒ ( XIopt × YIIopt ⊂ S ) .
(Π.39)
Предложение П.3. Если (x∗ , y ∗ ) есть седловая точка, т.е. (x∗ , y ∗ ) ∈ S, то x∗ ∈ XIopt и y ∗ ∈ YIIopt , причем f (x∗ , y ∗ ) = V ∗ = V∗ . Доказательство. Пусть (x∗ , y ∗ ) ∈ S. Тогда (см. (П.38)) ∀x ∈ X ∀y ∈ Y f (x∗ , y) ≤ f (x∗ , y ∗ ) ≤ f (x, y ∗ ) . Это, в частности, означает, что f (x∗ , y ∗ ) = v ∗ (x∗ ) = v∗ (y ∗ ) ;
(Π.40)
см. (П.21), (П.27). Из (П.40) следует в силу определений V∗ , V ∗ , что V ∗ ≤ f (x∗ , y ∗ ) ≤ V∗ . С учетом (П.31) мы получаем теперь цепочку равенств f (x∗ , y ∗ ) = V∗ = V ∗ .
(Π.41)
Из (П.40), (П.41) имеем, кроме того, равенства (v ∗ (x∗ ) = V ∗ ) & (v∗ (y ∗ ) = V∗ ) . Поэтому (см. (П.23), (П.29)) x∗ ∈ XIopt и y ∗ ∈ YIIopt . Предложение доказано (см. (П.41)). 2 Следствие П.1. S ⊂ XIopt × YIIopt . Следствие П.2. Если в игре (X, Y, f ) существует седловая точка, т.е. S 6= ∅, то игра имеет цену. Доказательства упомянутых следствий являются вполне очевидными. Из (П.39) и следствия П.1 вытекает импликация (V∗ = V ∗ ) =⇒ (S = XIopt × YIIopt ) . 84
(Π.42)
Соотношение (П.42) означает следующее: если игра имеет цену, то множество всех ее седловых точек является декартовым произведением непустых множеств (П.23), (П.29). В частности, (V∗ = V ∗ ) =⇒ (S 6= ∅) .
(Π.43)
Помимо (П.42) и (П.43) отметим свойство, не столь важное для наших целей, но существенное в общей теории антагонистических игр: из предложения П.2 и (П.42) вытекает, что при V∗ = V ∗ для каждой седловой точки (x∗ , y ∗ ) ∈ S выполняется цепочка равенств f (x∗ , y ∗ ) = V∗ = V ∗ , т.е. все седловые точки эквивалентны по результату. С учетом (П.43) и следствия П.2 получаем свойство: (V∗ = V ∗ ) ⇐⇒ (S 6= ∅) ;
(Π.44)
(П.44) означает полноту решения задачи о представлении множества S. Итак, если S 6= ∅, т.е. седловые точки существуют, то S непременно имеет прямоугольную структуру, позволяющую игрокам I и II их разыгрывать независимо друг от друга. Последний тезис сводится к следующему утверждению: если V∗ = V ∗ , то (x0 , y 0 ) ∈ S ∀x0 ∈ XIopt ∀y 0 ∈ YIIopt .
(Π.45)
В (П.45) наглядно проявляется роль задач (П.25), (П.30). Задача о метрической проекции и ее двойственное представление. Конструкцию, связанную с игрой (X, Y, f ) предыдущего пункта мы рассматриваем в детализации, связанной с задачей (П.2). Будем использовать также обозначения раздела 2. Итак, в согласии с условиями задачи (П.2) полагаем p = q = m, X = W, Y = Lm . (Π.46) В связи с детализацией (П.46) полезно заметить, что в силу (2.4), (2.8) kxk = max l0 x = max l0 y ∀x ∈ Rm . l∈Lm
l∈Y
(Π.47)
В самом деле, при x ∈ Rm (П.47) очевидно в случае, когда kxk = 0, т.е. все компоненты x нулевые (см. (2.3)). Если же kxk = 6 0, то для вектора x¯ =
1 x ∈ Lm kxk 85
имеем в силу (2.8) равенство x¯0 x = kxk. Осталось учесть, что в силу (2.4) l0 x ≤ |l0 x| ≤ kxk ∀l ∈ Lm . Как следствие, имеем (П.47) во всех возможных случаях. Дополним теперь детализацию (П.46) условием f (x, y) = x0 y ∀x ∈ W ∀y ∈ Lm .
(Π.48)
Для обоснования непрерывности f (П.48) мы (с учетом (П.46)) отметим, что при x(1) ∈ X, y (1) ∈ Y , x(2) ∈ X и y (2) ∈ Y |f (x(1) , y (1) ) − f (x(2) , y (2) )| ≤ ≤ |f (x(1) , y (1) ) − f (x(2) , y (1) )| + |f (x(2) , y (1) ) − f (x(2) , y (2) )| =
(Π.49)
0
= |y (1) (x(1) − x(2) )| + |(y (1) − y (2) )0 x(2) | ≤ ≤ kx(1) − x(2) k + ky (1) − y (2) k · kx(2) k . Напомним теперь, что по выбору W имеем при некотором c ∈ ]0, ∞[ свойство kxk ≤ c ∀x ∈ W . С учетом данного свойства из (П.49) имеем в рассматриваемом случае f неравенство |f (x(1) , y (1) ) − f (x(2) , y (2) )| ≤ kx(1) − x(2) k + c ky (1) − y (2) k . Последнее означает (равномерную) непрерывность f (П.48). Итак, в (П.46), (П.48) определена модель игры (X, Y, f ) предыдущего пункта (легко видеть, что W и Lm — суть непустые, ограниченные и замкнутые подмножества Rm ). С учетом этого мы конкретизируем v∗ , v ∗ , V∗ , V ∗ , XIopt и YIIopt для данного варианта игры (см. (П.46), (П.48)). Из (П.21), (П.47) легко следует, что v ∗ (x) = kxk ∀x ∈ X. В этом случае из (П.5) и (П.22) получаем равенство V ∗ = val .
(Π.50)
Напомним, что w ∈ X имеет свойство kwk = val . Тогда v ∗ (w) = V ∗ в силу (П.50) и, с учетом (П.23), имеем w ∈ XIopt .
(Π.51)
В (П.50), (П.51) мы имеем требуемую характеризацию задачи (П.25). 86
Обратимся к задаче (П.30) в требуемом для дальнейшего конкретном варианте. Для этого введем функцию v∗ ; см. (П.26), (П.46). В самом деле, из (П.27), (П.46) следует, что v∗ (y) = min x0 y = min y 0 x ∀y ∈ Y . x∈W
x∈W
(Π.52)
Как следует из (П.28), V∗ есть наибольшая из величин v∗ (l), l ∈ Y . Справедливо неравенство (П.31). Предложение П.4. При условиях (П.46), (П.48) V∗ = V ∗ . Доказательство. В силу (П.31) достаточно установить неравенство V ∗ ≤ V∗ .
(Π.53)
Напомним, что (см. (П.50)) V ∗ ≥ 0. Обсудим отдельно следующие два случая: 1) V ∗ > 0; 2) V ∗ = 0. 1) Пусть V ∗ > 0. Тогда (см. (П.13), (П.50)) kwk > 0 и для вектора l0 ∈ Y (см. (П.46)) имеем в силу (П.13), (П.52) неравенство v∗ (l0 ) ≤ V∗ .
(Π.54) 0
С другой стороны, из (П.13) и (П.50) имеем: V ∗ = l0 w = v∗ (l0 ). С учетом (П.54) V ∗ ≤ V∗ в случае 1). Итак, (V ∗ > 0) =⇒ (V ∗ ≤ V∗ ) .
(Π.55)
2) Пусть V ∗ = 0. В силу (П.50) и определения w имеем kwk = 0. Это означает, что wi = 0 ∀i ∈ 1, m. Тогда w ∈ Lm и, стало быть, w ∈ Y , причем f (x, w) = w0 x = 0 ∀x ∈ W . Поэтому для нашего нулевого вектора w v∗ (w) = 0 ≤ V∗ ; (см. (П.28), (П.52)). Стало быть, и в данном случае 2) V ∗ ≤ V∗ . Мы установили, что (V ∗ = 0) =⇒ (V ∗ ≤ V∗ ) . (Π.56) Из (П.55) и (П.56) получаем (П.53). 2 Итак, рассматриваемая у нас простейшая (и сугубо вспомогательная) игра имеет цену. Стало быть, согласно (П.42) и (П.43) мы имеем свойства: множество S всех ее седловых точек непусто и, более того, имеет прямоугольную структуру S = XIopt × YIIopt . (Π.57) 87
Разумеется, символ S используется здесь в конкретизации (П.46), (П.48). В этой связи проведем (в интересах читателей) необходимые переобозначения: XIopt = {x0 ∈ W | v ∗ (x0 ) = val } = {x0 ∈ W | val = kx0 k}
(Π.58)
(здесь мы учли (П.50) и ранее упомянутое представление v ∗ в терминах нормы; полезно иметь в виду (П.51)), YIIopt = {˜l ∈ Lm | v∗ (˜l ) = val } = {˜l ∈ Lm | min ˜l 0 x = val } x∈W
(Π.59)
(см. в этой связи (П.52)) и, наконец, в силу (П.38), (П.46) и (П.48) 0
0
S = {(x∗ , l∗ ) ∈ W × Lm | l0 x∗ ≤ l∗ x∗ ≤ l∗ x ∀x ∈ W ∀l ∈ Lm } . (Π.60) Разумеется (см. (П.57)), каждое из множеств (П.58) – (П.60) непусто. Далее, в силу (П.51), (П.57) и (П.60) мы получаем: 0
0
l∗ w = min l∗ x ∀l∗ ∈ YIIopt , x∈W
0
l∗ w = max l0 w ∀l∗ ∈ YIIopt . l∈Lm
(Π.61) (Π.62)
Данные свойства общего характера можно дополнить более частными соображениями. В этой связи отметим, что (П.58) — синглетон, т.е. одноэлементное множество. Именно, справедливо следующее Предложение П.5. XIopt = {w}, где {w} есть множество, содержащее единственную точку w. Доказательство. Из (П.51) следует вложение {w} ⊂ XIopt . Допустим, что XIopt \ {w} = 6 ∅. (Π.63) Пусть (см. (П.63)) w˜ ∈ XIopt \{w}, т.е. w˜ ∈ XIopt и w˜ 6= w. Тогда, в частности, w˜i 6= wi для некоторого i ∈ 1, m. Вектор 4
s = w˜ − w ∈ Rm не равен нулю тождественно: ksk > 0. При этом w˜ = w +s. Из (П.58) имеем kwk2 = (val )2 = kwk ˜ 2. С другой стороны, имеем равенство kwk ˜ 2 = kw + sk2 = kwk2 + 2 w0 s + ksk2 . 88
Из двух последних соотношений получаем, что 2 w0 s + ksk2 = 0, а тогда w0 s < 0. С учетом выпуклости W имеем (поскольку w ∈ W и w˜ ∈ W ) свойство 1 1 1 1 1 4 1 y = (w + w) ˜ = w + w˜ = w + (w + s) = w + s ∈ W , 2 2 2 2 2 2 а тогда kyk ≥ val . С другой стороны, 1 1 kyk2 = kwk2 + w0 s + ksk2 = kwk2 + (4 w0 s + ksk2 ) = (Π.64) 4 4 1 = kwk2 + [ (2 w0 s + ksk2 ) + 2 w0 s] , 4 где выражение в квадратных скобках строго отрицательно, ибо, как уже отмечалось, ( 2 w0 s + ksk2 = 0) & (w0 s < 0) . Это означает, что (см. (П.64)) kyk2 < kwk2 ; тогда kyk < kwk = val , что невозможно. Полученное противоречие опровергает (П.63). Стало быть, XIopt ⊂ {w} и, как следствие, XIopt = {w}. 2 Предложение Π.50 . Если (x(i) )i∈N есть последовательность в W (т.е. x(j) ∈ W при любом j ∈ N ), то ((kx(i) k)i∈N −→ val ) =⇒ ((kx(i) − wk)i∈N −→ 0) .
(Π.65)
Доказательство. Пусть истинна посылка импликации (П.65), т.е. ( kx(i) k )i∈N −→ val . Это означает, что →. ∀ε ∈ ]0, ∞[ ∃ s ∈ N : | kx(i) k − val | < ε ∀i ∈ − s,−∞
(Π.67)
Допустим, тем не менее, что следствие импликации (П.65) не выполняется, т.е. ¬ ( ( kx(i) − w k )i∈N −→ 0 ) , (Π.68) где ¬ — знак “не”. Из (П.68) вытекает, что для некоторого числа κ ∈ ]0, ∞[ имеет место свойство → : κ ≤ k x(j) − w k . ∀s ∈ N ∃ j ∈ − s,−∞ Соотношение (П.69) можно записать иначе. Именно, пусть 4
→ | κ ≤ k x(j) − w k } ∀s ∈ N . Ns = { j ∈ − s,−∞ 89
(Π.69)
Тогда каждое из множеств Ns , s ∈ N , является непустым подмножеством N и обладает, стало быть, наименьшим элементом µs . Итак, 4
µs = inf(Ns ) ∈ Ns ∀s ∈ N .
(Π.70)
Введем теперь отображение ν : N −→ N такое, что 4
ν(s) = µs ∀s ∈ N . Ясно, что ν(s) ∈ Ns ∀s ∈ N . В частности, s ≤ ν(s) при s ∈ N . Кроме того, из (П.70) имеем: κ ≤ k x(ν(s)) − w k ∀s ∈ N . 4
В дальнейшем полагаем y (s) = x(ν(s)) последовательность в W , т.е.
(Π.71)
∀s ∈ N , получая в виде (y (s) )s∈N
(y (s) )s∈N : N −→ W . Из (П.71) получаем также последовательность неравенств: κ ≤ k y (s) − w k ∀s ∈ N .
(Π.72)
С другой стороны, из (П.67)и (П.70) мы имеем свойство сходимости последовательности ( k y (s) k )s∈N к числу val . В самом деле, пусть ε¯ ∈ ]0, ∞[, а r ∈ N обладает свойством →. | k x(i) k − val | < ε¯ ∀i ∈ − r,−∞
(Π.73)
→ т.е. s ∈ N и r ≤ s . Тогда s ≤ ν(s ). Поэтому Пусть s∗ ∈ − r,−∞, ∗ ∗ ∗ ∗ →, ν(s∗ ) ∈ − r,−∞ а тогда для y (s∗ ) = x(ν(s∗ )) мы в силу (П.73) имеем неравенство | k y (s∗ ) k − val | = | k x(ν(s∗ )) k − val | < ε¯ . Поскольку выбор s∗ был произвольным, установлено, что →. | k y (s) k − val | < ε¯ ∀s ∈ − r,−∞
(Π.74)
Коль скоро и ε¯, ε¯ > 0, выбиралось произвольно, из (П.74) мы получаем сходимость ( k y (s) k )s∈N −→ val . (Π.75) 90
Воспользуемся теперь свойством (секвенциальной) компактности множества W ; см., например, [9]. Это свойство позволяет выделить из (y (s) )s∈N сходящуюся подпоследовательность, причем предел последней также будет элементом W . Данное свойство удобно сейчас представить в следующем виде: для некоторого z ∈ W и последовательности η : N −→ N имеют место свойства: 1) η(j) < η(j + 1) ∀j ∈ N ; 2) справедливо утверждение ( k y (η(k)) − z k )k∈N −→ 0 . (Π.76) Из свойства 1) вытекает, что k ≤ η(k) ∀k ∈ N . Последнее свойство легко проверяется рассуждением по индукции (т.к. η(1) ≥ 1 и, кроме того, η(j) + 1 ≤ η(j + 1) при j ∈ N ). Как следствие, из (П.75) вытекает факт сходимости ( k y (η(k)) k )k∈N −→ val . (Π.77) Рассмотрим (П.76) и (П.77) в естественной комбинации. В силу неравенства треугольника имеем для всяких двух векторов x ∈ Rm и y ∈ Rm kxk = ky + (x − y) k ≤ kyk + kx − yk , kyk = kx + (y − x) k ≤ kxk + kx − yk ; поэтому | kxk − kyk | ≤ kx − yk. В частности, имеем | ky (η(k)) k − kzk | ≤ ky (η(k)) − zk ∀k ∈ N .
(Π.78)
Из (П.76) и (П.78) вытекает следующее свойство сходимости: ( ky (η(k)) k )k∈N −→ kzk .
(Π.79)
Но тогда (см. (П.77), (П.79)) kzk = val . Стало быть, z ∈ W : kzk = val . Это означает в силу (П.58) справедливость включения z ∈ XIopt . В силу предложения П.5 z = w. С другой стороны, из (П.72) следует, что κ ≤ ky (η(k)) − wk ∀k ∈ N . Как следствие, имеем при k ∈ N неравенство κ ≤ ky (η(k)) − wk ≤ ky (η(k)) − zk + kz − wk , 91
которое удобно переписать в следующем виде κ − ky (η(k)) − zk ≤ kz − wk .
(Π.80)
Рассмотрим теперь комбинацию (П.76) и (П.80): κ − kz − wk ≤ ky (η(k)) − zk ∀k ∈ N .
(Π.81)
Правая часть неравенства в (П.81) становится (см. (П.76)) сколь угодно малой. Поэтому κ − kz − wk ≤ 0 , т.е. κ ≤ kz−wk, где κ > 0. Стало быть, kz−wk > 0 и, как следствие, вектор z − w ∈ Rm не является нулевым (противоречие). Иными словами z 6= w, т.е. z ∈ / {w}. Но в этом случае z ∈ XIopt \ {w}, что невозможно (см. предложение П.5). Полученное, при условии (П.68), противоречие показывает, что само предположение (П.68) неверно и в действительности ( kx(i) − w k )i∈N −→ 0 . 2 Вернемся к предложению П.4, из которого вытекает, что (см. (П.50)) val = max v∗ (l) = max min l0 x . l∈Lm x∈W
l∈Lm
(Π.82)
Заметим, что в (2.12) определено непустое, ограниченное и замкнутое множество, т.е. множество компактное (это свойство мы уже отмечали у W ). В этой связи напомним свойство непрерывности функции v∗ , в силу которого она достигает максимума на множестве ∂Lm , т.е. ∃ l ∈ ∂Lm :
v∗ (˜l) ≤ v∗ (l) ∀˜l ∈ ∂Lm .
Предложение П.6. Справедливо равенство val = sup ( { 0; max v∗ (l) } ) . l∈∂Lm
Доказательство. Поскольку Lm содержит нулевой вектор, на котором значение функции v∗ обращается в нуль (см. (П.52)), и ∂Lm ⊂ Lm , то из (П.82) имеем, что число 4
a = sup ( { 0; max v∗ (l) } ) ∈ [0, ∞[ l∈∂Lm
(Π.83)
непременно удовлетворяет неравенству a ≤ val . 92
(Π.84)
Если val = 0, то из (П.83) вытекает, что a ≥ val . Итак, в силу (П.84) (val = 0) =⇒ (val = a) .
(Π.85)
Поскольку число val неотрицательно (см. (П.5)), осталось обсудить случай val > 0 .
(Π.86)
Итак, пусть выполнено неравенство (П.86), что означает, в частности, справедливость свойства kwk > 0. Тогда, поскольку kwk 6= 0, можно использовать конструкцию на основе (П.12), где l0 ∈ ∂Lm и, согласно (П.13) и (П.52), имеет место равенство v∗ (l0 ) = val , где (см. (П.83)) v∗ (l0 ) ≤ a. Стало быть, у нас val ≤ a и (см. (П.84)) val = a в случае, определяемом в (П.86). Установлена импликация (val > 0) =⇒ (val = a) .
(Π.87)
Из (П.5), (П.85), (П.87) имеем во всех возможных случаях равенство val = a. 2 Предложение П.7. Если 0 < val , то YIIopt ⊂ ∂Lm . Доказательство. Пусть val > 0 и ¯l ∈ YIIopt . В силу (П.59) имеем равенство v∗ (¯l ) = val . (Π.88) Стало быть, v∗ (¯l ) > 0 и, согласно (П.52), вектор ¯l не является нулевым, т.е. k ¯l k > 0. Более того, k ¯l k = 1. В самом деле, допустим противное: k ¯l k = 6 1. При этом (см. (П.59)) ¯l ∈ Lm т.е. k ¯l k ≤ 1 (см. (2.11)). Поэтому 0 < k ¯l k < 1. Введем новый вектор 4 1 ¯ ˆl = l ∈ Rm . ¯ klk
Ясно, что k ˆl k = 1, т.е. ˆl ∈ ∂Lm и, в частности, ˆl ∈ Lm . При этом 1 1 0 0 0 v∗ (ˆl ) = min ˆl x = min ¯ · ¯l x = ¯ min ¯l x = x∈W x∈W k l k k l k x∈w
(Π.89)
1 ¯l ) = 1 val = val . v ( ∗ k ¯l k k ¯l k k ¯l k Мы учли (П.88). Но val > 0 и k ¯l k < 1, а потому k 1¯l k > 1 и (см. (П.89)) v∗ (ˆl ) > val , что невозможно (см. (П.50), предложение П.4). Полученное, =
93
в предположении k ¯l k 6= 1, противоречие показывает, что k ¯l k = 1, т.е. ¯l ∈ ∂Lm . Поскольку выбор ¯l был произвольным, установлено требуемое вложение YIIopt ⊂ ∂Lm . 2 Предложение П.8. Если 0 < val , то множество YIIopt является одноэлементным, причем YIIopt = {l0 }, где l0 определяется в (П.12). Доказательство. Мы знаем уже, что YIIopt 6= ∅. Далее, из (П.12) имеем, что l0 ∈ ∂Lm , причем, согласно (П.13) и (П.52), v∗ (l0 ) = val . Согласно (П.59) l0 ∈ YIIopt . Покажем, что YIIopt \ {l0 } = ∅
(Π.90)
((П.90) означает, что в YIIopt нет элементов, отличных от l0 ). Допустим, что (П.90) не выполняется, т.е. YIIopt \ {l0 } = 6 ∅. Пусть l00 ∈ YIIopt \ {l0 } . Тогда l00 ∈ YIIopt и l0 6= l00 . Заметим, что v∗ (l00 ) = val (см. (П.59)). Рассмотрим теперь вектор 1 1 4 1 0 ¯l = (l + l00 ) = l0 + l00 ∈ Rm . 2 2 2 При этом, конечно, k¯l k ≤ 21 kl0 k + 12 kl00 k ≤ 1; ¯l ∈ Lm . Кроме того, в силу (П.52) 1 1 1 0 0 0 0 v∗ (¯l ) = min · (l0 + l00 )0 x = min (l0 x + l00 x) ≥ · (min l0 x + min l00 x) = x∈W 2 x∈W 2 x∈W 2 x∈W 1 1 (v∗ (l0 ) + v∗ (l00 )) = (val + val ) = val . 2 2 Это означает, что ¯l ∈ Lm : v∗ (¯l ) = val . В этой связи см. (П.28), (П.50) и предложение П.4. С учетом (П.59) получили, что ¯l ∈ YIIopt и, в силу предложения П.7, ¯l ∈ ∂Lm , т.е. k ¯l k = 1. Заметим, однако, что =
l0 = ¯l +
1 0 (l − l00 ) ∈ ∂Lm . 2
(Π.91)
Кроме того, отметим полезное свойство ¯l 0 (l0 − l00 ) = 1 (l0 + l00 )0 (l0 − l00 ) = 2 =
1 1 0 0 ( kl0 k2 + l00 l0 − l0 l00 − kl00 k2 ) = ( kl0 k2 − kl00 k2 ) = 0 , 2 2 94
(Π.92)
поскольку в силу предложения П.7 kl00 k = 1. Вернемся к (П.91): 1 1 0 kl0 k2 = k ¯l k2 + ¯l (l0 − l00 ) + kl0 − l00 k2 = k ¯l k2 + kl0 − l00 k2 ; 4 4 мы учли (П.92). Поскольку kl0 k = 1, то k ¯l k2 +
1 0 kl − l00 k2 = 1 . 4
(Π.93)
При этом вектор l0 − l00 ∈ Rm является (следствие предположения) ненулевым, а тогда kl0 − l00 k > 0 . Последнее означает, в силу (П.93), что k ¯l k2 < 1. Это невозможно, ибо ¯l ∈ ∂Lm . Полученное противоречие означает, что наше предположение о непустоте множества YIIopt \ {l0 } ошибочно и на самом деле справедливо (П.90). В этом случае YIIopt ⊂ {l0 } и, поскольку l0 ∈ YIIopt , имеем требуемое равенство YIIopt = {l0 }. 2
95
Список литературы [1] Красовский Н.Н. Лекции по теории управления, ч.1: Обыкновенное программное управление линейными системами. УрГУ. Свердловск, 1968. 47 с. [2] Красовский Н.Н. Лекции по теории управления, ч.2: Обобщенное программное управление линейными системами. УрГУ. - Свердловск, 1968. 45 с. [3] Красовский Н.Н. Теория управления движением М.: Наука, 1968. 475 c. [4] Красовский Н.Н. Игровые задачи о встречи движений. М.: Наука, 1970. 420 с. [5] Понтрягин Л.С., Болтянский В.Г., Гамкрелидзе Р.В., Мищенко Е.Ф. Математическая теория оптимальных процессов. М.: Наука, 1976. 392 c. [6] Гамкрелидзе Р.В. Основы оптимального управления. Тбилиси: Изд-во Тбил. ун-та, 1977. 252 с. [7] Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М.: Наука,1974. 455 с. [8] Красовский Н.Н. Управление динамической системой. Задача о минимуме гарантированного результата. М.: Наука, 1985. 518 с. [9] Колмогоров А.Н., Фомин C.В. Элементы теории функций и функционального анализа. М.: Наука, 1976. 543 с. [10] Куратовский К., Мостовский А. Теория множеств. М.: Мир, 1970. 416 с. [11] Рокафеллар Р.Т. Выпуклый анализ. М.: Мир, 1973. 469 с. [12] Варга Дж. Оптимальное управление дифференциальными и функциональными уравнениями. М.:Наука, 1977. 624 с. [13] Понтрягин Л.С. Обыкновенные дифференциальные уравнения. М.: Наука, 1965. 322 с. [14] Мак-Кинси Дж. Введение в теорию игр. М.: Физматгиз, 1960. 420 с. 96
[15] Оуэн Г. Теория игр. М.: Мир, 1971. 230 с. [16] Фон Нейман Дж., Моргенштерн О. Теория игр и экономическое поведение. М.: Наука, 1970. 707 с. [17] Субботин А.И., Ченцов А.Г. Оптимизация гарантии в задачах управления. М.: Наука, 1981. 288 с. [18] Ченцов А.Г. Приложения теории меры к задачам управления. – Cвердловск: Средн.-Урал.кн.из-во, 1985. – 128 c. [19] Подиновский В.В., Ногин В.Д. Парето-оптимальные решения многокритериальных задач. М.: Наука, 1982. 254 с.
97