This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
(х)ф (х) — угол , определенная для всех игр (N, v) и удовлетворяющая аксиомам 1 — 3. 10.3. Доказательство теоремы опирается на следующие резуль таты. Лемма. Пусть для любой коалиции SczN игра (N, ws) определя ется следующим образом: (/,0)=0, «=1,2,...; ?(«,;)=0, /=1, 2,..., k;j=\, 2,...; (p(i,j)= min 2СО&(р, 0=a>{/R и. 10. (Игра «шофер-убийца». Понижение размерности.) Предположим, что на плос кости выбрана подвижная система координат, связанная с автомобилем Р. Коор динаты пешехода у\, у2 можно рассматривать в этой системе как составляющие единственного переменного вектора х; ось хг будем считать всегда направленной вдоль вектора скорости автомобиля.
(4.6)
для любой непрерывной функции q> (x), хеХ. _ Лемма. В условиях теоремы п. 4.4 множества смешанных стратегий 7 и Y(MHOжества борелевских вероятностных мер) — метрические компакты в топологии слабой сходимости. Приведем схему доказательства для множества смешанных стратегий 7 (для Т — рассуждения аналогичны). Пространство борелевских мер It, заданных на борелевской £-алгебре х ко мпактного метрического пространства X, метризуемо, поскольку в X можно ввести метрику 78
pQi', ц")=тах(р', p"), где р' и p" — нижние границы таких чисел г' а г" соответственно, что для любого замкнутого множества F
Известно [85], что сходимость в этом метрическом пространстве равноснльна слабой СХОДИМОСТИ, а семейство мер ц на борелевской <т-алгебре пространства X слабо компактно (т. е. компактно в описанном выше метрическом пространстве всех борелевских мер) тогда и только тогда, когда это семейство равномерно ограничено ц(.Х)<с (4.7) я равномерно плотно, т. е. для любого г>0 существует такой компакт А Я X, что ц(Х\А)^в. (4.8) Условие (4.8) следует из компактности X, а (4.7) — из того, что меры цеХ нормированы (ji(X) = \). 4.6. Заметим, что в условиях теоремы п. 4.4 множество сметанных стратегий 7(7) игрока / (2) является компактом и в обычном смысле, поскольку в данном случае слабая сходимость последовательности мер {ц„}, п=1, 2, ..., равносильна сходимости в обычном смысле: lim ц„(А)=ц(А) л-*ао
для любого борелевского множества АяХ такого, что его граница А' имеет меру нуль: ft(Ar)=0. Доказательство этого результата представляет определенные технические слож ности. Его можно найти, например, в [4, с. 367].
4.7. Обозначим через v л v соответственно нижнее и верхнее значения игры Г=(АГ, Y, К): »=sup inUKQi, у), ii=inf supK(x, v). д
у
v
(4.9)
х
Лемма. В условиях теоремы п. 4.4 экстремумы в (4.9) достига ются, поэтому D=max minК(ц, у), i;=min maxK(x, v). цеХ
yeY
yeY
(4.10)
хеХ
Доказательство. Так как Н{х, у) непрерывна, то по лемме п. 4.3 для любой меры /хе X функция K(M,y) = jH(x,y)dfi(.x) X
непрерывна по у. Так как Y — компакт, то К(ц, у) в некоторой его точке будет достигать минимума. 79
По определению « для любого и существует такая мера ц„еХ, что minK(p.„,y)^v-lln. У
Поскольку X — компакт в топологии слабой сходимости (лемма п. 4.5), то из последовательности {/^}^.ь ц„еХ, можно выбрать слабо сходящуюся подпоследовательность. Пусть сама последова тельность {n„}%L\ слабо сходится к некоторой мере ц0еХ. Тогда lim KQim у) = ton j H(x, y)dnn (х) = J #(х, y)dfi0 (х)=К(ц0, у), yeY. я-юо
в-»ооХ
X
Но К(ц0, у) не меньше v для каждого yeY.
Следовательно,
minK(p,0, ; ) > « и на ц0еX достигается требуемый максимум. Аналогично доказывается, что inf sup в (4.9) можно заменить на min max. 4.8. Перейдем непосредственно к доказательству теоремы п. 4.4. Доказательство. Так как X я Y — метрические компакты, то для любого целого и существуют конечные (1/л)-сети Хя={х\, ..,, х»,п}, Х„ с X, Yn={y\, ..., yin), Y„ a Y, соответственно множеств Хя Y. Это означает, что для любых точек хеХ я yeY найдутся такие точки х?е Х„ и у\е Y„, что Pl(x,
xf)<-, p2(y,yj)<-, п
(4.11) п
где pt(), р2(') — метрики пространств Хя Yсоответственно. Для произвольного целого п построим матричную игру с мат рицей А„={а$, где о?,=Я(х?, yj), х?еХп, y)eYn.
(4.12)
Игра с матрицей А„ имеет значение 0„ и оптимальные смешанные стратегииp„ = (ifi,..., я?„), t„={xnb ..., TJJ игроков 1 я 2 соответственно (см. теорему п. 6.1 гл. I). Функция Н(х, у) непрерывна на декартовом произведении Хх Y метрических компактов, поэтому она равномерно непрерывна, т. е. для заданного е>0 можно найти такое 5>0, что как только р^х, Xе)<5, р2{у, /)<<5, то 80
\Н(х,у)-Н(,х',У)\<8. (4.13) Выберем и_настолько большим, чтобы 1/п<8, и определим стратегию ц„ е X по правилу lxn{F)=
£
"Г
(414)
{•IxJeF, х"еХ„}
для каждого борелевского множества F пространства X. Имеем
Если PzC^' )?)<^ то согласно (4.4), (4.5) и (4.13) получаем \H{x,y)-H{x,yl)\<s, \K(fin,y)-K<jimy])\<8.
Следовательно, для любого ye Y (Y„—(1/и)-сеть множества У) К(ця,у)>в„-Е.
(4.16)
Так как min K(jx„, у) достигается (лемма п. 4.7), то У
v>6„-e. Аналогично можно показать, что И<в„ + Е.
(4.17) (4.18)
Из (4.17) и (4.18) получаем v > v — 2е. Но по лемме п. 2.2 гл. I неравенство v^v вьшолняется всегда. Учитывая произвольность е>0, получаем" « = «; (4.19) тогда из леммы п. 4.7 и (4.19) следует утверждение теоремы (см. п. 2.1). 4.9. Следствие. Имеет место равенство v=\im9n,
(4.20)
я-»оо
где 0„=v(A„) — значение матричной игры с матрицей (4.12). 4.10. Из доказательства теоремы п. 4.4 следует, что непрерывную игру можно с любой степенью точности аппроксимировать конеч ными играми. Более того, справедлив следующий результат. 81
Теорема. Бесконечная антагонистическая игра Г=(Х, Y, Н), где X, Y — метрические компакты, а Н — непрерывная функция на их произведении, при любом Е > 0 имеет ^.-оптимальные смешанные стратегии с конечным спектром. Доказательство теоремы следует из доказательства (п. 4.8) теоремы п. 4.4. Действительно, по игре Г построим матричные игры с матрицами А„ и смешанные стратегии ц„еХ, определяемые соот ветственно (4.12), (4.14) для произвольного целого и. Стратегии v„e У игрока 2 по аналогии определяются следующим образом: v.(G)=
I
т?,
(4.21)
{J^eG.^e Y„)
где f"=(Ti, ..., т ^ — оптимальная смешанная стратегия игрока 2 в игре с матрицей А„ и значением в„. По построению имеем D,= n « t ; = % v J ,
.
(4.22)
(-1 ) - \
где К(р, v) — выигрыш в смешанных стратегиях (ji, v) в игре Г. Из (4.16) и аналогичного неравенства для стратегии v„ получаем, что для произвольного £>0 найдется номер п такой, что К{х, v„)-e<en
Пример 10. (Игра на квадрате, не имеющая значения в смешанных стратегиях [67]). Рассматривается антагонистическая игра Г ={Х, Y, Н), где Х= У=[0, 1], а функция выигрыша Н имеет вид —1, если х<у<х+1/2, 0, если х=у или x=x+\j2, 1, если у<х или x+\j2
{
Эта функция имеет разрывы на прямых у=х и Покажем, что sup inf ОД, v) = 1/3; inf sup ОД, v)=3/7. /
I
V
V
у=х+1/2. (4.24)
Ц
Пусть ц — вероятностная мера 1на [0,1 1]. тЕсли ц ([0, 1/2))^1/з> т о о положим Уц=1. Если же ц ([0, /2))> /з> выберем 8>0, чтобы 1 >1 и 1 V- (№> 1г~^]) /з> положим Уц= 12 — Ь- В каждом из этих случаев получаем неравенства inf К(ц, v)^K(v,
yj^l/l,
V
которые доказываются непосредственной проверкой. С другой стороны, если ц выбрано так, что ц ({0}) = ^ ({ 1 / 2 })=^ 1 ({1}) = / 3 , то для всех уе[0, 1] имеем J H(x, у№(х)=1/3[Я(0, у)+Н(\/2, у) + Щ1, у)]>1/3. о Следовательно, доказано первое из равенств (4.24). Теперь пусть v — какая-либо вероятностная мера на [0, 1]. Если vflO, 1))>3/7, то положим х,= 1. Если v ([0, 1))<3/7, то v({l})>4/7, и в этом случае положим ху=0, если v([0, 1 / 2 ))
С другой стороны, если v выбрано так, что v({l/4}) = l/7, v({l/2}) = 2/7, v({l})=4/7, то для любого хе[0, 1] имеем ]н(х,у)а\(у)=1р[Н{х, о
1/4)+2Я(х, 1/2)+4Я(х, 1)]<3/7.
Таким образом, доказано второе из равенств (4.24). 83
§ 5. ИГРЫ С ВЫПУКЛОЙ ФУНКЦИЕЙ ВЫИГРЫША
В § 4 при достаточно общих предположениях было доказано существование решения в бесконечных антагонистических играх с непрерывной функцией выигрыша и компактными множествами стратегий. Вместе с тем представляет теоретический и практический интерес выделение таких классов игр, когда один или оба игрока имеют оптимальные чистые стратегии. Такие игры рассматривают ся в данном параграфе. 5.1. Определение. Пусть XcR", YCR"— компакты, множе ство Y— выпукло, функция H:Xx.Y-*Rl непрерывна по совокуп ности аргументов и выпукла по yeY при любом фиксированном значении хеХ. Тогда игра Г(Х, Y, Н) называется игрой с выпуклой функцией выигрыша (выпуклая игра). Приведем симметричное определение относительно игрока 1. Определение. Если XcR™, YcR"— компакты, множество X выпукло, функция выигрыша Н непрерывна по совокупности ар гументов и вогнута по хеХпри любом фиксированном у е Y, то игра Г=(Х, Y, Н) называется игрой с вогнутой функцией выигрыша (вогнутая игра). Если же XcR™, YcR" — выпуклые компакты, а непрерывная по совокупности аргументов функция выигрыша Н(х, у) вогнута по х при любом фиксированном у и выпукла по у при каждом х, то игра Г(Х, Y, Н) называется игрой с вогнуто-выпуклой функцией выигрыша (вогнуто-выпуклая игра). Рассмотрим игры с выпуклой функцией выигрыша. Аналогич ные результаты справедливы и для вогнутых игр. Теорема. Пусть Г=(Х, Y, Н) — выпуклая игра. Тогда игрок 2 имеет оптимальную чистую стратегию, при этом значение игры равно «==minmax#(jc, у). уеТ
(5.1)
хеХ
Доказательство. Так как X и Y— метрические компакты (в метрике евклидовых пространств R™ и R"), а функция Я непрерывна на произведении Хх, Y, то согласно теореме п. 4.4 в игре Г существу ет значение v и оптимальные смешанные стратегии /х*, v*. Известно, что множество вероятностных мер с конечным носителем всюду плотно в множестве всех вероятностных мер на Y [85]. Поэтому существует последовательность смешанных стратегий v" с конечным спектром, слабо сходящаяся к v*. Пусть спектр стратегии v" состоит из точек у*, ..., yfy, и они выбираются с вероятностями п\, ..., г\\п. Тогда в силу выпуклости функции Н имеем 84
K(x, v")= § п1Н{х, ?„)>Н(х, у"),
(5.2)
где y"=Yirljyl>i- Переходя к пределу при л-юо в неравенстве (5.2) j-i
(если необходимо, то следует рассмотреть подпоследовательность {у"}), получаем К(х, v*)^H(x, у), хеХ, (5.3) где у — предельная точка последовательности {у"}. Из (5.3) и лем мы п. 4.2 имеем та\К(х, v*)^maxH(x, у). X
(5.4)
X
Пусть неравенство (5.4) строгое. Тогда
v=maxK(x, v*)>ma&H(x, y)^min ma.xK(x, v)=«, X
X
X
V
что невозможно. Таким образом, max#(x, y)=maxK(x, v*)=v и из _
X
X
теоремы п. 3.5 получаем, что у — оптимальная стратегия игрока 2. Установим справедливость равенства (5.1). Так как "yeY— оп тимальная стратегия игрока 2, то v=maxH(x, y)^min max#(x, у). у
х
х
С другой стороны, вьшолняется неравенство «=min тахК(х, v)<min maxH(x, у). v
х
у
х
Сравнивая последние неравенства, получаем (5.1). 5.2. Напомним, что функция (р: У-»ЛХ, Y с Rn, Y—выпуклое множество, строго выпукла, если для всех Ле(0, 1) вьшолняется строгое неравенство <Р (ЛУ1 + 0 ~ % г ) < *9 (У1> + 0 - 1 ) 9 (Уг); У\Уг е Y, yt Фуг. Теорема. Пусть Т=(Х, Y,H) — выпуклая игра со строго выпук лой функцией выигрыша. Тогда игрок 2 имеет единственную оп тимальную стратегию, которая является чистой. Доказательство. Пусть ц* —оптимальная стратегия игрока U (p(y)=K(ji*, у) и v — значение игры. Если у — точка спектра оптимальной стратегии игрока 2, то вьшолняется равенство (п.4.2). 85
Однако для всех yeY имеем неравенство K(ji*, y)^v, поэтому ср (у)=min ср (у)=v. yeY
Функция <р(у) является строго выпуклой, поскольку для Ле(0, 1) имеет место неравенство ср {ку, + (1 -Х)уг)=JЩх,
ЛУ1 + (1 - % 2 ) Ф * (*)<
X
<XiH(x,yl)dfx*(x) + (l-X)^H(x,y2)dfi*(x)
=
= Аф(у1) + (1-А)ф(у2). (5.5) Из (5.5) следует, что функция ср(у) не может достигать минимума в двух различных точках. С другой стороны, существование точки минимума У функции ср(у) гарантируется теоремой п. 5.1, что завершает доказательство. 5.3. Приведем без доказательства результаты, симметричные теоремам по п. 5.1 и 5.2 для вогнутых и вогнуто-выпуклых игр. Теорема. Пусть Г = (Х, Y, Н), X с FT, У с Л " — вогнутая игра. Тогда значение игры v вычисляется по формуле w=max min#(.x, у), *
(5.6)
У
каждая чистая стратегия х*. на которой достигается max min (5.6), является оптимальной для игрока 1. Если, кроме того, функция Н(х, у) строго вогнута по х при каждом фиксированном yeY, то оптимальная стратегия игрока 1 единственна. Теорема. Пусть Г=(Х, Y, Н), X
х
y)=max min#(;e, у). х
(5.7)
у
В игре Г всегда существует ситуация равновесия (х*, у*) в чистых стратегиях, где х* е X, у* е Y — чистые стратегии игроков 1 и 2, на которых достигаются внешние экстремумы в (5.7). Если при этом функция Н (х, у) строго вогнута (выпукла) по переменной х (у) при любом фиксированном yeY (хеХ), то игрок 1 (2) имеет единствен ную оптимальную стратегию, которая является чистой. 5.4. Выясним структуру оптимальной стратегии игрока 1 в вы пуклой игре Г=(Х, Y, Н). Теорема. В выпуклой игре Г=(ЛГ, Y, Н), Г с R" игрок 1 имеет 86
оптимальную смешанную стратегию ц* с конечным спектром, со стоящим не более чем из (л + 1)-й точки множества X. Доказательство этого результата основано на известной теореме Хелли о выпук лых множествах, которую мы приведем без доказательства [63, с. 210; 3, с. 107]*. Теорема (теорема Хелли). Пусть К— семейство из не менее чем п + 1 выпуклого множества в R , причем каждое множество из К компактно. Тогда, если каждые п + 1 из множества семейства К имеют общую точку, то существует точка, общая всем множествам семейства К.
Прежде чем перейти непосредственно к доказательству теоремы, докажем ряд вспомогательных утверждений. Пусть функция Н(х, у) непрерывна на произведении Хх Y ком пактных множеств X с Rm, Y а R". Обозначим Х'=Хх ... х X декар тово произведение г множества X. Рассмотрим функцию >: X' х X-^R1: q>(xv ..., х„ у)=тахН(хи у). Лемма. Функция (р(хх,..., хг, у) непрерывна на X'xY. Доказательство. Функция Н(х, у) непрерывна на компактном множестве Хх Y, поэтому и равномерно непрерывна на нем. Тогда для любого 8>0 найдется 5>0 такое, что из неравенств рх (Зс, х)<5, Рг(У1> Уг)<Ь следует неравенство \Н(х, y^-Hfx, у2)\<е, где р х (), р2() — расстояния в Л™ и Л" соответственно. Имеем \<р(х1г ..., х„ yj-
y2).
Если p x (3c,, xt)<8 для i= 1,..., r, p2{yv y2)Н(х1г, Уг), то 0^H(xti, yx)-H(xi2, j> 2 )<# (xfl, ух)-Н{х^ у2)<е. Аналогичные неравенства имеют место в случае H(xit, у^^Н^х^,
у2).
Лемма. В выпуклой игре Y=(X, Y, H), Y с R" значение игры •Вопросы, связанные с обобщениями и приложениями теоремы Хелли, подробно изложены в книге: Данцер Л., Грюнбаум Б., Кли В. Теорема Хелли. М., 1968. 87
v равно v=min тахЯ(л, у)= max У
*
xt
min max H(xh у),
Jt n+ i
у
(5.8)
1«|«л + 1
где ye F, xteX, i'=l, ..., n+l. Доказательство. Обозначим через 6= max *i
min max H(xt, y).
*л+1
У
Ki<« +I
Так как min max H(xt, y)^mitx maxH(x, y)=v для каждой систеy
1<Кл+1
%
у
х
мы точек (xl5 ..., x„+i)eX" , то 0<«. (5.9) Для произвольного фиксированного набора стратегий xteX, i = l , ...,л+1, рассмотрим систему неравенств относительно у Н (xhyHe,yeY, i = l , ..., и+1. (5.10) Покажем, что система (5.10) имеет решение. Действительно, 0>min max H(xhy)= у
1«<л-Н
max
H(Xi,y)^H(xhy),i=l,n+l.
ЦКл+1
Таким образом, у удовлетворяет системе (5.10). Следовательно, система (5.10) имеет решение для любых xieX, i'=l,2, ..., и+1. Зафиксируем х и рассмотрим множество Dx={y:H(x,y)<6}. Функция Н{х, у) выпукла и непрерывна по у, поэтому множество Dx выпукло и замкнуто при каждом х. Множества {Dx} образуют систему выпуклых компактных множеств в R", причем в силу того, что неравенства (5.10) всегда имеют решение, любой набор по (и+ 1)-му множеству системы {Dx} имеет непустое пересечение. По этому по теореме Хелли существует точка у0 е Y, общая для всех множеств D„ т. е. такая, что Н(х,уо)<0 (5.11) при любых хеХ. Предположим, что вфк. Тогда из (5.9) и (5.11) 88
имеем 0<«=min max#(jc, y)^maxH(x, у
х
j 0 )<S,
x
т. е. в<в. Полученное противоречие и доказывает (5.8). Перейдем к доказательству теоремы. Доказательство. Из предыдущей леммы имеем v= max
min max Н{х„у)=тахп. max H(xb y)=
ж,, ..., дгп+1
у
1<;<я + 1
у
1^/<п+1
я+1
=min max £ #(х,> j)71» У
Р
(5-12)
'=1
где Зс15 ..., Зсл+, —векторы, на которых достигается внешний мак симум в (5.8), Я+1
р = (пи ..., ял+1)еЛл+1, я.^О, J] я,= 1.
(5.13)
Рассмотрим функцию К(р, y)=t Ж** У)Щ, У* Y, реР, где Р — состоит из векторов, удовлетворяющих (5.13). Функция К(р, у) непрерывна иорау, выпукла по у и вогнута по р, а множест ва Y с FC, Р С R" — компакты в соответствующих евклидовых пространствах. Поэтому по теореме п. 5.3 и из (5.12) имеем я+1
л+1
«=min max £ H(xh д/)я,=тах min £ H (хь у)щ. у
p
i-l
p
у
(5.14)
i-l
Из (5.8) и (5.14) следует существование таких р*еР и у* в Y, что для всех хеХ и уе У выполняется неравенство я+ 1
;-|
Теорема доказана. Сформулируем теорему о структуре оптимальной стратегии иг рока 2 в вогнутой игре Г = (Х, Y, Н). Теорема. В вогнутой игре Т = {Х, Y, Н), X a Rm игрок 2 имеет оптимальную смешанную стратегию v* с конечным спектром, со стоящим не более чем из (т+1)-й точки множества Y. Доказательство теоремы аналогично доказательству предыду щей теоремы. 5.5. Суммируем результаты теорем для выпуклых игр, доказан ные в этом параграфе. 89
Теорема. Пусть Г=(Х, Y, Н), X a jf, Yс Л" — выпуклая игра. Тогда значение v игры Г определяется по формуле w=min тах#(л:, у). У
*
Игрок 1 обладает оптимальной смешанной стратегией /х0 с конеч ным спектром, состоящим не более чем из (и+ 1)-й точки множест ва X. В то же время все чистые стратегии у0, на которых достига ется min max H{x, у), являются оптимальными для игрока 2. Если, У
х
кроме того, функция Н(х, у) при каждом фиксированном хеХ строго выпукла по у, то оптимальная стратегия игрока 2 единст веннаПроиллюстрируем эти результаты на примере. Пример 11. Рассмотрим частный случай примера 1 (см. п. 1.2). Пусть 5'1 = 5' 2 =5 и множество S представляет собой замкнутый круг на плоскости с центром в точке О и радиусом R. Функция выигрыша Н(х, у)=р(х, y),xeS,yeS, где р() — функ ция расстояния в R2, является строго вьшуклой по у при любом фиксированном х, a S — выпуклое множество. Поэтому согласно теореме п. 5.5 значение игры v равно «=min maxp(x, у). yeS
(5.15)
xeS
Вычисляя min max в (5.15), получаем, что v=R (см. пример 8 п. 2.6). При этом точка yQeS, на которой достигается минимум выражения тах/>(х, у), единственная и совпадает с центром круга S (т. е. xeS
точкой О). Эта точка и является оптимальной стратегией игрока 2 (минимизирующего). Теорема утверждает, что у игрока 1 (мак симизирующего) существует оптимальная смешанная стратегия, предписывающая положительную вероятность не более чем трем точкам множества S. Однако вследствие симметрии множества S в действительности оптимальная смешанная стратегия ц0 игрока 1 предписывает с вероятностью 1/2 выбирать любые две диамет рально противоположные точки на границе множества S. Для до казательства оптимальности стратегий /х0, у0 достаточно устано вить, что К(х, y0)^K(pi0, y0)^K(jx0, у) для всех х, yeS, где К — математическое ожидание выигрыша, К(р0, y0)=RI2 + R/2 = R. Действительно, К(х, yo)=p(0, x)^R и К(ц0, y)=p(xv y)/2 + p(x2, y)/2^R, где х1ах2 — произвольные диаметрально противополож ные точки на границе круга S. Оптимальность стратегий /х0 и у0 доказана. 5.6. Рассмотрим частный случай выпуклой игры Г=(Х, Y, Н), 90
когда X=Y=[0, 1], т. е. выпуклую игру на единичном квадрате. Из теоремы п. 5.5 следует, что игрок 2 всегда имеет оптимальную чистую стратегию }>ое[0, 1]» а. игрок 1 — смешанную, сосредоточен ную не более чем на двух точках, при этом значение игры равно v = min max Н(х, у).
(5.16)
>б(0, 1] *б[0, 1]
Множество всех существенных стратегий {х} с [0, 1] игрока 1 явля ется подмножеством решений уравнений (п. 4.2) H(x,yo)=v,xe[0, 1], (5.17) где у0 — оптимальная стратегия игрока 2. Чистые стратегии х игро ка 1, удовлетворяющие равенству (5.17), иногда называются урав новешивающими. Множество всех уравновешивающих стратегий иг рока / замкнуто и ограничено, т. е. компактно. Оптимальной чистой стратегией игрока 2 является любая точка у0 = [0, 1], на которой достигается (5.16). Обозначим через Н'у (х, у) частную производную функции Н по у (при у=0 и у=1 понимается соответственно правая и левая производные). Лемма. Если у0 — оптимальная стратегия игрока 2 в выпуклой игре на единичном квадрате с функцией выигрыша Н, дифференциру емой по у и у0>0, то найдется уравновешивающая стратегия х? игрока 1, для которой Н'у(х!,уо)^0. (5.18) Если же у0<1,то существует такая уравновешивающая стратегия х" игрока 1, что Ну(х»,уо)>0. (5.19) Доказательство. Докажем (5.18). (Вторая часть леммы до казывается аналогично.) Предположим противное, а именно: для каждой уравновешивающей стратегии х игрока / выполняется нера венство Ну(х, уо)>0, т. е. функция Н(х, •) в точке у* строго возрастает. Это означает, что найдутся такие е(рс)>0 и 0(х)>О, что для^ер), 1], удовлетворяющих неравенству в(х)>у0 —у>0, выпол няется неравенство Н(х,у)<Н(х, У0)-Е(Х). В силу непрерывности функции Н имеем, что для каждой урав новешивающей стратегии х и е(Зс)/2 найдется такое 5(х)>0, что при в(х)>уо—у>0 выполняется неравенство Н(х, у)<Н(х, у)-е(х)12<Н(х, Уо)-е(х)/2 = =Н(х, у0)-е(х)/2 для всех, уравновешивающих стратегий х, для которых \x—x\<S(x). 91
Множество уравновешивающих стратегий компактно, поэтому его можно покрыть конечным числом таких д (х)-окрестностей. Пусть Е — наименьшее из всех соответствующих чисел е (х). Тогда имеем неравенство, справедливое для всех уравновешивающих стратегий х (в том числе и для всех существенных стратегий) Н(х, у)4:Н(х, у0)-е/2, где у0-тшв(х)<у<у0. Пусть (i0 — оптимальная смешанная стратегия игрока /. После днее неравенство справедливо для всех точек спектра стратегии ц0, поэтому, интегрируя, получаем К(цй, y)^KQi0, y 0 )-e/2=i>-e/2, что противоречит оптимальности стратегии ц0. Теорема. Пусть Г—выпуклая игра на единичном квадрате с функцией выигрыша Н, дифференцируемой по у при любом х, Уо — чистая оптимальная стратегия игрока 2,av — значение игры. Тогда: 1) если уо=1, то среди оптимальных стратегий игрока 1 имеет ся чистая стратегия х', для которой выполняется (5.18); 2) если уо=0, то среди оптимальных стратегий игрока 1 имеет ся чистая стратегия х", для которой выполняется (5.19); 3) если 0<уо<1,то среди оптимальных стратегий игрока 1 най дется такая, которая является смесью двух существенных страте гий х? их",удовлетворяющих (5.18), (5.19), с вероятностями а и 1 — а, а с [0, 1]. При этом а является решением уравнения «Я; (х1, у0) + (1 - а)Щ {х", у0)=0. (5.20) Доказательство. Пусть у0=1- Тогда найдется уравновешива ющая стратегия х" игрока 1, для которой выполняется (5.18). Тогда из выпуклости функции Н(х', у) следует, что она не возрастает по у на всем промежутке [0, 1], достигая при у=\ своего минимума. Это означает, что # ( х \ у0НН(х', у) (5.21) при всех уе[0, 1]. С другой стороны, из (5.17) следует, что Н(х, у0)^Н(х; у0) (5.22) при всех хе[0, 1]. Неравенства (5.21), (5.22) показывают, что (х1, у0) — ситуация равновесия. Случай уо=0 исследуется аналогично. Перейдем к случаю 3. Бели 0<>>0<1, то имеются две уравновешивающие стратегии х! и х", удовлетворяющие (5.18), (5.19) соответственно. Рассмотрим функцию
q>(fi)=№'yV, y0)Hl-P)H;(x", у0). Из (5.18), (5.19) следует, что <р(0)>0, <р(1)<0. Функция q>(fj) непре рывна, поэтому найдется <хе[0, 1], для которого <р(а) = 0. 92
Рассмотрим смешанную стратегию ц0 игрока 1, заключающую ся в выборе стратегии х' с вероятностью а и стратегии х" с вероят ностью 1 —а. Функция К(ц0, у)=аН{х!, у)+(1-«)Н(х", у) выпукла по у. Ее производная по у в точке у=у0 равна
K'y(ji0, Уо)=хн;(х', у0)+у -«)#;(*", Уо)=о.
Следовательно, в точке у0 функция К(ц0, у) достигает минимума. Отсюда, учитывая (5.17), имеем К(Ио> yo)
y0)^H(x,
у0)
X
при всех хе[0, 1] и уе[0, I], что и доказывает оптимальность стратегий ц0 и у0. 5.7. Теорема п. 5.6 дает способ отыскания оптимальных страте гий, который мы проиллюстрируем на примере. Пример 12. Рассмотрим игру на единичном квадрате с функцией выигрыша Н(х, у)=(х—у)2. Это есть одномерный аналог примера И, только в качестве функции выигрыша здесь взят квадрат рассто яния. Поэтому естественно ожидать, что значение v игры будет равно v= 1/4, оптимальной стратегией игрока 2 является середина отрезка у0= 1/2, а оптимальной стратегией игрока / — выбор с ве роятностью 1/2 крайних точек 0 и 1 отрезка [0, 1]. Покажем это, используя теорему п. 5.6. Заметим, что д2Н(х, у)/ду2 = 2>0, так что игра Г — строго выпуклая, поэтому игрок 2 имеет единственную оптимальную стра тегию, которая является чистой (теорема п. 5.5). Пусть у — фик сированная стратегия игрока 2. Тогда если у<Л\1, тах(х если >>>1/2. X Таким образом, из (5.16)
-*-{"-*
»=min< min (1— у)2,
min y2>.
Оба внутренних минимума достигаются на у0=1/2 и принимают значение 1/4. Поэтому ю= 1/4, а у0 = 1/2 — единственная оптималь ная стратегия игрока 2. Найдем оптимальную стратегию игрока 1. Для этого заметим, что 0<у0<1 (у0=1/2). Найдем существенные стратегии игрока 1. Уравнение (5.17) в данном случае принимает вид (х—1/2)2 = 1/4. Откуда J C 1 = 0 H X 2 = 1 , T . е. существенными для игрока 1 являются крайние точки отрезка [0, 1]. 93
Вычислим производные Я Ж , Jo)=l >0, Н'у(хг, у2)=-1<0. Составим уравнение (5.20) относительно а. Имеем 2а—1 = 0, откуда а =1/2. Таким образом, оптимальная стратегия игрока 1 состоит в выборе им чистых стратегий 0 и 1 с вероятностью 1/2. 5.8. В заключение параграфа приведем результат, аналогичный п. 5.6 для вогнутой игры. Теорема. Пусть Г — вогнутая игра на единичном квадрате с функцией выигрыша Н, дифференцируемой по х при любом фик сированном у, х0 — чистая оптимальная стратегия игрока 1, av — значение игры. Тогда: 1) если JC0= 1, то среди оптимальных стратегий игрока 2 имеет ся чистая стратегия у', для которой выполняется неравенство Н'х(хо,У)>0; (5.23) 2) если х0 = 0, то среди оптимальных стратегий игрока 2 имеет ся чистая стратегия у", для которой H'x(xo,y"H0; (5.24) 3) если 0< х0 < 1, то среди оптимальных стратегий игрока 2 най дется такая, которая является смесью двух существенных страте гий у' и у", удовлетворяющих (5.23), (5.24), с вероятностями /? и 1 — /?. При этом число /?е[0, 1] является решением уравнения
рн'Лч, /)+0-№(*о> У)=о. § 6. ОДНОВРЕМЕННЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ
В этом параграфе приведено решение некоторых одновременных игр преследования, у которых функция выигрыша или множества стратегий игроков невыпуклые. К таким играм не применимы ре зультаты § 5, поэтому решение для обоих игроков находится в клас се смешанных стратегий. Существование решения в этом классе гарантируется теоремой п. 4.4. 6.1. Пример 13. (Одновременная игра преследования в кольце.) Эта игра является частным случаем примера 1 п. 1.2, когда множества St = S2 = S и S представляют собой кольцо. Радиусы внешней и вну тренней окружностей кольца S обозначим соответственно R и г, R>r. Покажем, что оптимальными стратегиями игроков 1 я 2 являют ся выборы точек с равномерным распределением на внутренней (для игрока 2) и внешней (для игрока 1) окружностях кольца S. Обозначим эти стратегии fi* (для игрока 1) и v* (для игрока 2). При указанных стратегиях среднее значение выигрыша (рас стояния) равно 94
2я 2я
Гy/R2+r2-2Rrcos(
K(ji*, v*)=-^ | о о
4j>
+ r2-2Rrcos{ dt, = Ф(г, Д),
(6.1)
где \//и q> — полярные углы чистых стратегий игроков 1 и 2 соответ ственно. Если игрок 1 выбирает точку х с полярными координатами р, ф, то ожидаемое расстояние (игрок 2 придерживается стратегии v*) равно 2я
-£Р
y/r2 +
К(х,у*)=Ф(г,р)=-
p2-2prcostdt
о
При r^p^R функция q>(p)=p2 + r2—2prcos<j; монотонно воз растает. В частности, (p(p)^q>(R) при r^p^R. Отсюда имеем Ф(г, р)^Ф(г, R). Поэтому для любой стратегии игрока 1 ожидаемое расстояние не больше Ф (г, R). Рассмотрим теперь ситуацию (ц*, у), в которой yeS, p и ц> — полярные координаты точки у. Имеем 2я
K(M*,y)=0(p,R)=-
[ JR2 + p2-2Rpcos{{, 2n J
r^p^Rt
0
Зафиксируем R и рассмотрим функцию Ф(р, Л) на отрезке O^p^R. Дифференцируя по р, можно убедиться, что —
= 0, — — — > 0 , 0<р<Л.
Поэтому функция Ф (р, R) монотонно возрастает по р, следователь но, Ф (г, R) <Ф(р, R) K(x,v*HK(M*,v*HK(p.*,y) для всех х, у G S. Таким образом, оптимальность стратегий ц* и v* доказана, а значение игры v равно v = K(ji*, v*), где К(ц*, v*) определяется (6.1). В частности, если S—окружность радиуса R (случай г=Л), то значение игры равно 4R\n. 6.2. Пример 14. Рассмотрим одновременную игру, когда игрок 2 выбирает пару точек у = {yt, у2}, где уг eS,y2eS,& игрок 1, не зная выбора игрока 2,— точку xeS. Выигрыш игрока 1 полагаем рав ным min р2 (x, yt). Приведем решение для случая, когда множество i-l, 2
95
S представляет собой круг радиуса R с центром в начале координат (точке О): S=S(0,R). Рассмотрим функцию Ф(г, р) = г2 + р2—4гр/я, где г и р принима ют значения из промежутка г, ре [О, R]. Установим свойства функ ции Ф (г, р). Лемма 1. Функция Ф(г, R) (как функция переменного г) являет ся строго выпуклой и достигает абсолютного минимума в единст венной точке r0 = 2R/n. Доказательство. Имеем д2Ф/дг2=2>0. Следовательно, функ ция Ф(г, р), re [О, R] строго выпукла, а производная дФ(г,К) or
— - — = 2г
4R я
(6.2)
строго монотонна. Очевидно, что функция (6.2) в единственной точке r0=2R/n обращается в нуль. В силу строгой вьшуклости Ф(г, R) точка г0 является единственной точкой абсолютного минимума. Лемма доказана. Лемма 2. Функция Ф(г0, р) строго выпукла по р и достигает абсолютного максимума в точке p0=R. Доказательство. В силу симметрии функция Ф(г, р) строго выпукла по р. Поэтому максимум этой функции достигается в од ной из точек 0 или R. Имеем Ф(г0, Д)-Ф(г 0 , 0)=г§ + Л 2 -4г о Л/я-г§ = =R2-4/n(2Rln)R=R2 (я 2 -8)/л 2 >0. Лемма доказана. Из лемм 1, 2 вытекает, что пара (r0, R) является седловой точкой функции Ф: Ф(г 0 ,р)<Ф(г 0 ,Л)<Ф(г,Л). Теорема. Оптимальными смешанными стратегиями являются: для игрока 2 — выбор точки yt с равномерным распределением на окружности S(0, r0) с центром в точке О и радиусом г 0 (у 1 = —у2), для игрока 1 — выбор точки х с равномерным распределением на окружности 5(0, R). Значение игры равно величине Ф(г0, R). Доказательство. Указанные в теореме стратегии обозначим через ц* и v* для игроков 1 я 2 соответственно. Пусть игрок / придерживается стратегии ц*, а игрок 2 — произвольной чистой стратегии y={ylt у2), yi=(riCOS(pi, r,sin
К{ц*,у)=~ \ [R2 +г2-2Rr cos (ф-(р)Щ = 2я J 96
• R2 + r2^R2 + r2— (Лг) = Ф(г, К).
(6.3)
Тогда по лемме 1 имеем К(р*, у)^Ф(г0, К). В дальнейшем будем предполагать, что у1 Фу2. Введем на плос кости полярную систему координат следующим образом. За начало координат возьмем точку О, за полярную ось — луч, выходящий из точки О перпендикулярно хорде АВ (множеству равноудаленных от у\ и у2 точек круга S(0, R)). Для простоты записи предположим, что и относительно новой системы координат точка yt имеет те же координаты (rjCoscpi, r,sin 93,). Тогда (рис. 6) выигрыш первого игро ка равен 2я А
min [R2 + rf — 2RriCos(}l/ — q)d\chl/ =
К(ц*,у)- :— р
~2п J
[R2 + r\- 2Rr2 cos (ф - ср2)] # +
2я-0
+ 2-я
[R2 + г\ -2Rrt cos (ф - (pi)] йф.
Пусть ^i() = [(Л2 + г22)р-2Rr2sinpcos(p]/n, -p^cp^p; R2 F2() = K + Л)(n-P) + 2Rrt sinpcosф\/п, р^(р^2п~р. Стационарными точками функций Fl и F2 являются 0 и я соответст2
венно, так как имеем 0?<я/2 и функция F[ (ср) = - Rr2sin P sincp,
Рис. 6
Рис. 7 97
2
F'2((p)= —Rr l sin /? sin q>, причем 0 и я — точки абсолютного минип мума функций F. и F2 (F[ (ф) < 0 при <р е (—/?, 0), F[ (ф) > 0 при ф е (0, /?); аналогично, Р'2((р)<0 при фе(/?, л), F'2((p)>0 при фе(я, 2я — /J)). Следовательно, ^(^*,>;) = Р' 1 (ф 2 )+^ 2 (ф 1 )^,Р 1 (0)+^ 2 (я) =
-if (Л + г| - 2Лг cos ф)(А1/ + 2
2
2ir-0
1
Н
+(JR2 + rf-2 J Rr 1 cos(^- m ))#, (6.4) 2я J т. е. игрок 1 при использовании игроком 2 стратегии yl=(— rl5 0) ^ 2 = {г2, 0} получит меньший выигрыш, чем при использовании стратегии U=(r,cos
i/r(a, r)=— [(Л cos ^ - Л cos a - г ) 2 + Л 2 sin2 ф]4ф + 2я J 2я-«
+—
—a
[(i?cos^-J?cosa+f) 2 + i? 2 sin 2 ^]# =
-iW-
2Rcos\l/(Rcosa + r) + (Rcosa+r)z]dil/+
—a 2ff-ct
+— 2я J
[i? 2 -2J?cos^(i?cosa-r)+CRcosa-r) 2 ]#=
a
= - {[i?2 + (i?cosa + r) 2 ]a-2i?sina(i?cosa + r) + n
+[.R2 + (i?cosa-r) 2 ](7c-a)4-2i?sinax(J?cosa-r)}. 98
Покажем, что функция ф(а, г) при фиксированном г достигает минимума по а при а = я/2. В результате элементарных вычислений получим дф/да = {2Rsinu[(it—2a)r — nRcos а]}/ж, поэтому для доста точно малых значений а имеем дф(а, г)/оа<0, так как sin a > О, r(n — 2a) — nRcosa<0 (в предельном случае гя—яЛ<0). Вместе с тем дф (я/2, г)/да = 0. При каждом фиксированном г функция дф(а, г)/8а не имеет нулей по а, кроме а=я/2. Предположим противное. Пусть ai — нуль этой функции в интервале (0, я/2). Тогда при <х=а1 обратится в нуль и функция G(a) = (n—2a)r—nRcosa. Таким образом, G(a,) = G(rc/2) = 0. Очевидно, что G(a)>0 для всех ae(a 1 , я/2). Это противоречит выпуклости функции G(a) (G"(a) = nRcosa>0). Поэтому дф(а, г)/да<0 при ae(0, я/2) и дф(п/2, г)/да=0. Следовательно, функция ф(а, г) достигает абсолютного минимума по а при а=я/2: ф(а, г)^ф(п/2, г). Значит, и в этом случае имеем К(Ц*, у)=Ф(ос, г)^ф(п/2, г) = Ф(г, К)>Ф(г0, R). (6.5) Из соотношений (6.3) — (6.5) вытекает, что для любой чистой стратегии у={у^, у2} справедливо неравенство K(n*,y)>Q>(r0,R). (6.6) Пусть игрок 2 применяет стратегию v*, а игрок 1 — произвольную чистую стратегию х=(рсо&ф, рыпф). Тогда игрок 1 получает выигрыш К(х, v*)=— тт\р2 + г1-2рг0со${ф-<р), 2я J о In
p2+r% + 2pr0costy-(p)]d
min(p2 + r § -
-2pr0cos£, p2 + rl+2pr0cos£)dl;=Q>(r0, p) и в силу леммы 2 имеем *(х,у*)=Ф(г 0 ,рКФ(г 0 ,Л). (6.7) Из неравенств (6.6) и (6.7) получаем, что р.* и v* являются оптималь ными стратегиями игроков, а Ф(г0, R) — значение игры. Теорема доказана. 6.3. Пример 15. Пусть игрок 2 выбирает набор из т точек у = {yv ••-, Ут), где yteS, i= 1, ..., т, а игрок 1 одновременно с ним — точку xeS. Вьшгрыш игрока 1 полагаем равным min р(х, у). Решим Ы1, ..., т
99
игру в случае, когда множество S совпадает с отрезком [—1, 1]. Теорема. Оптимальная смешанная стратегия v* игрока 2 за ключается в равновероятном выборе двух наборов из т точек: 4/
1 +2/И-1 ,
1 = 0 , 1, ...,
4/
1_ —
т-\>,
1 = о, 1, .., т-\
Ъп-\
Оптимальная стратегия ц* игрока 1 состоит в выборе точек -, /=0, 1, ...,2т-1
Ъп-\
с вероятностями 1/(2/и). Значение игры равно 1/(2/и— 1). Доказательство. Пусть р* и v* — смешанные стратегии иг роков 1 и 2 соответственно, оптимальность которых нужно до казать. Введем следующие обозначения: , Г2т-2.-1 2m-2i+l"| . , „ li=\———,——— , i = l , 2, ..., 2 m - 1 . Покажем вначале, что К{х, v*)
2m—4J—l 2m-l
1 /
2m-2j-l\
2\
2m-\
=-[x
1
-2m+4i+l
+-mm
2m-l
1 /2m-2/+l
— +/
2 \
\
1
/
2/w-l
x =
2w-l
.
(6.8)
Пусть теперь игрок 1 выбирает смешанную стратегию ц*, а иг рок 2 — произвольную чистую стратегию у={у1, .., ут). Обозначим 2т—2/—1
х,=-
2т-1
Тогда
У=0, 1,
...,Ьп-\.
2т-1
1
К{ц*, 3>)= Е min p(x / ,y j )~ = = Г" S
т1П
Р (*»->' ^ ) + m i Q P(*V-2. У|) > 1
2
>— • т • 2т
2т-1
1
=
. 2т-1
Из неравенств (6.8), (6.9) вытекает утверждение теоремы. 100
(6.9)
§ 7. ОДИН КЛАСС ИГР С РАЗРЫВНОЙ ФУНКЦИЕЙ ВЫИГРЫША
Для игр, у которых функции выигрыша разрывны, нельзя гаран тировать существование значения игры в смешанных стратегиях (см. пример п. 4.12). Однако часто именно разрывность функции выигрыша позволяет найти оптимальные стратегии и значение иг ры. Нахождению решения помогают также эмпирические предполо жения о виде оптимальных стратегий игроков. 7.1. В данном параграфе будут исследованы игры с выбором момента времени или игры типа дуэли (см. примеры 4.5 п. 1.2). Основной особенностью этого класса игр на квадрате является разрывность функции выигрыша Н(х, у) вдоль диагонали х=у. Рассмотрим игру на единичном квадрате с функцией выигрыша
{
\1/(х, у), если х<у, ср(х), если х=у, в(х, у), если х>у,
где ф(х, у) — определена и непрерывна на множестве 0 < х < ^ < 1 , функция (р непрерывна на [0, 1], а в(х, у) определена и непрерывна наг множестве 0<j><;c< 1. Предположим, что игра Г=(Х, Y, Н), где А =У=[0, 1], Н—задана (7.1), имеет оптимальные смешанные стратегии ц*, v* игроков 1 и 2 соответственно. Более того, пред положим, что оптимальные смешанные стратегии /х*, v* являются распределениями вероятностей, которые имеют непрерывные плот ности /* (х) и g* (x) соответственно. Далее в этом параграфе будем обозначать искомую стратегию / (соответственно g), понимая под этим плотность распределения. Выясним свойства оптимальных стратегий. Пусть/— стратегия игрока 1. Для уе[0, 1] имеем K(f, у) = ] Ф (х, УУ(х)сЬс+\в(х, yV(x)dx. О
(7.2)
У
Предположим, что / и g — оптимальные стратегии игроков 1т 2. Тогда для любой точки у0, в которой g(yo)>0 (7.3) (точки спектра стратегии g), выполняется Ktf, y0)=v, (7.4) где v — значение игры. Но равенство (7.3) строгое, поэтому суще ствует <5>0 такое, что для всех у: \у—у0\<5, неравенство (7.3) сохраняется. Таким образом, для этих у сохраняется и неравенство (7.4), т. е. выполняется равенство K(f, y)=v. Это означает, что dK(f, у)/ду=0. (7.5) 101
Уравнение (7.5) перепишем в виде [в(У, У)-Ф(У, У)¥(у) = ] ФЛ*> y¥(*)dx+ о + R ( * , y)f(x)dx, yeS(y0, 8).
(7.6)
У
Следовательно, получено интегральное уравнение (7.6) относите льно искомой стратегии/ 7.2. Пример 16. Рассмотрим бесшумную дуэль, сформулирован ную в примере 5 п. 1.2. Функция выигрыша Н(х, у) в игре имеет вид (7.1), где ij/(x,y)=x-y+xy; (7.7) в(х,у)=х-у-ху; (7.8) р(х) = 0. (7.9) Заметим, что данная игра является симметричной, поскольку Н (х, у)=—Н(у,х) (кососимметричная функция выигрыша). Поэто му анализ, аналогичный проведенному в п. 9.2 гл. 1, показывает, что значение v игры, если оно существует, равно нулю, а оптимальные стратегии игроков (если они также существуют) должны быть оди наковыми. Имеем: ф,(зс,у)= - 1 +х; ву(х, у)= - 1 -х; в(у,у)-ф(у,у)=-2у2 и интегральное уравнение (7.6) принимает вид -2у2№
= ] (х-l)f(x)dx-\ О
(x+ l)f(x)dx.
(7.10)
у
Будем искать стратегию / в классе дифференцируемых плотностей распределения, принимающих положительные значения в интервале (а, /?) с: [0, 1] (интервал (а, /?) — спектр стратегии J). Тогда (7.10) можно записать следующим образом: -2угт
у
Д
= [ (x-\)f(x)dx-l «
(x+ l)f(x)dx.
(7.11)
У
Дифференцируя обе части (7.11) по у, получим дифференциальное уравнение вида -4yf-2y2f = (y-l)f+(y+l)f или J*r=-3/Xy*0). (7.12) Интегрируя уравнение (7.12), имеем f
Теперь осталось найти а, /? и у. Напомним, что оптимальные стратегии игроков в рассматриваемой игре одинаковы. Из нашего предположения о спектре стратегии/следует, что Wy) = Q (7.14) для всех у е (a, /?). Пусть /?< 1. Поскольку функция K(f, у) непрерывна по у, из (7.14) имеем K(f, /0=0. Следовательно, а J (x-p+Px)f(x)dx=0. (7.15) а
Однако в случае /?< 1 из (7.15) следует K(f, 1) = J (х-1
+x)f(x)dx<0,
а
что противоречит оптимальности стратегии/ Таким образом, fi= 1 и K(f, 1)=0. Тогда, подставляя (7.13) в (7.15) при /?=1, получаем 1
f2x-l ,
j — <ь=о,
7^0.
Откуда вытекает За 2 -4а+1=0. (7.16) Решая уравнение (7.16), найдем два корня а=1 и а =1/3, первый из которых посторонний. Следовательно, а= 1/3. Коэффициент у нахо дится из условия нормировки/(у)
\ f(y)dy=y J r 3 efy=l, 1/3
1/3
откуда у = 1/4. Таким образом, получено решение игры примера 5 п. 1.2: значе ние игры равно v = 0, оптимальные стратегии/и g обоих игроков (как плотности распределения) равны между собой и имеют вид П } = 50, е с л3 и х < 1 / 3 ' (1/(4х ), если х>1 •1/3. 7.3. Пример 17. Найдем решение игры «шумная дуэль» (см. пример 4 п. 1.2) для функций меткости pY (х)=х и р2 (у)=у. Функция выигрыша Н(х, у) в игре имеет вид (7.1), где ф(х,у)=2х-1; (7.17) 9(х,у) = 1~2у; (7.18) <р(х) = 0. (7.19) ПХ)
юз
Игра является симметричной, поэтому v = 0, а оптимальные стратегии игроков совпадают. Здесь оба игрока имеют чистую оптимальную стратегию ;с*=>>* = 1/2. Действительно, #(1/2, у)=6 (1/2, у) = 1 - 2 у > О, если у < 1/2, Я(1/2, у)=ср (1/2) = 0, если у= 1/2, Я(1/2, у)=ф(112, у)=0, если у>1/2. С точки зрения интерпретации игры решение предписывает дуэлян там стрелять одновременно, когда каждый пройдет половину диста нции до барьера. В заключение следует отметить, что класс игр с выбором момен та времени хорошо изучен (см. [6, 3, 23]). § 8. РЕШЕНИЕ БЕСКОНЕЧНЫХ ОДНОВРЕМЕННЫХ ИГР ПОИСКА
В этом параграфе будет приведено решение игр поиска с бес конечным числом стратегий, сформулированных в п. 1.2. Первая из рассматриваемых игр интересна тем, что в ней оба игрока имеют оптимальные смешанные стратегии с конечным спектром. 8.1. Пример 18. (Поиск на отрезке). Рассмотрим задачу поиска на отрезке (см. пример 2 п. 1.1), которая моделируется игрой на единичном квадрате с функцией выигрыша Н(х, у) вида j l , если | * - , | < / , /е(0, 1), я ( (О в противном случае. Заметим, что при /> 1/2 у игрока 1 имеется чистая оптимальная: стратегия х* = 1/2 и значение игры равно единице, поскольку в этом случае Н(х*, у)=Н(1/2, у)=1, так как \у-1/2|^ 1/2^/_для всех уе[0, 1]. Предположим, что /< 1/2. Заметим, что стратегия х=1 доминиру ет все чистые стратегии х<1, а стратегия x=l — I — все стратегии х> 1—1. Действительно, Щх,у)=Н(1,у)=\1пПрЯуе[°>Ц> (О в противном случае, и если х<1, то
Щх,у)=\1пПрЯуе[°>1+Х]' (О в противном случае. Таким образом, при х<1: Н(х, у)^Н(1, у) для всех уе[0, 1]. Анало гично имеем при уе[\-21, 1], Н(х,у)-.)=Н(\-1,у)=!} „ ч . .,„ 1П [О в противном случае, 104
и если хе[1 —I, 1], то H(x,y)=Sn
\\ при уе[х—1, 1],
О в противном случае. Таким образом, при хе[1 — /, 1] Н(х, у)^Н(1 —/, у) для всех>>е[0, 1]. Рассмотрим следующую смешанную стратегию ц* игрока ). Пусть l=xl<x2<...<xm=l — I — точки, для которых расстояние между любой парой соседних точек не превосходит 21. Стратегия ц* выбирает каждую из этих точек с равными вероятностями \\т. Очевидно, что при этом любая точка уе[0, 1] попадает в /-окре стность хотя бы одной точки хк. Следовательно, К(ц*,у)>11т. (8.2) Пусть теперь v* — стратегия игрока 2, которая состоит в равнове роятном выборе точек 0=у1<у2<-.<уя=1, причем расстояние между парой соседних точек больше 21. Тогда, очевидно, существует не более одной точки ук, в /-окрестности которой содержится точка х. Следовательно, К(х, v*)
(i-1), i=\, 2, ..., и,
(8.5)
л—1
отстоят друг от друга не более чем на 21, а расстояние между соседними точками yj=—:»
7=1,2,
...,R,
(8.6)
п— 1
строго больше 21. Таким образом, 1/и — значение игры, а опти мальные стратегии ц*, v* являются равновероятными смесями чис тых стратегий, определяемых формулами (8.5), (8.6). 8.2. Пример 19. Рассмотрим обобщение предыдущей задачи в том случае, когда игрок 1 (ищущий) выбирает систему из s точек *!, .., xs, х,е[0, 1], i = l , ..., s, а игрок 2 (прячущийся) выбирает 105
независимо и одновременно с игроком / точку уеГО, 1]. Игрок 2 считается обнаруженным, если находится такое je{\, ..., s), что \у — Xj\^l, />0. В соответствии с этим функция выигрыша (выигрыш игрока 1) определяется следующим образом:
{
1, если min
\у—х^1, (8.7)
О в противном случае.
Предположим, что игрок 1 располагает точки х1г ..., х„ в точках Xi=l+{\—2l)(i—\)l{n — \), 1^и, являющихся точками спектра стратегии fi* из предыдущего примера. Очевидно, что располагать две точки хЛ, х]г в одной точке отрезка [0, 1] (т. е. выбирать совпадающие точки) невыгодно. Пусть ц, — стратегия игрока 1, выбирающая равновероятно любые 5-наборы не равных друг другу точек {3CJ}. Если s^n, то, расположив в каждой из точек х\ по точке Xj, игрок 1 полностью покроет отрезок [0, 1] интервалами длины 2/ с центрами в точках Зс, и тем самым обеспечит, что для любой точки уе[0,1] будет иметь место min \xj—j>|, т. е. в этом случае значение игры равно единице. Поэтому будем считать, что s
К(ц*, y)=-LH(xh, ...,~Xi-у) (±\>Щ
=
*-.
Действительно, точка у обнаруживается, если она попадает_ в /-окрестность хотя бы одной из выбранных стратегией (if точек {Зс,}. Для того чтобы это произошло, необходимо игроку 1 выбрать точку xt из /-окрестности точки у. Число наборов, удовлетворяющих этому требованию, не менее C„Z\. Предположим теперь, что игрок 2 использует стратегию v* из предыдущего примера, а игрок ] — произвольную чистую страте гию x=(xv ..., xs). Тогда "
1
s
K(xv ..., xs; v*)= £ H(xu ..., xs; yj)~^-. Таким образом, значение игры равно sin и ц*, v* — оптимальные стратегии игроков. Значение игры линейно зависит от количества выбираемых ищущим игроком точек. 106
8.3. Пример 20. (Поиск на сфере). Рассмотрим игру поиска на сфере (см. пример 3 п. 1.2). Функция выигрыша Н(х, у) имеет вид 1, если уеМх, (8.8) О в противном случае,
{
S
где х={х1У ..., х, — набор s точек на сфере С и Ms= \J S(xj, г); S(XJ, r) — гсферическая окрестность точки Xj. Множество смешанных стратегий игрока 1 пред ставляет собой семейство вероятностных мер {М}, определенных на декартовом произведении s сфер Сх Сх... х C—Q, т. е. на fl=C. Множество смешанных стратегий игрока 2 определим как семейство вероятност ных мер {v}, определенных на сфере С. Рассмотрим конкретную пару стратегий (p.*, v*). В качестве стратегии v* выберем равномерную меру на сфере С, т. е. потребуем, чтобы
I
L(a) Л * = — -2, 4nR
(8.9)
где L(a) — лебегова мера (площадь) множества А. Будем предполагать, что параметры игры 5, г и Л таковы, что можно выбрать систему точек х=(хи х2,..., ха), удовлетворяющих условию я
L{Mx)=Y.L(S{xj,r)),
(8.10)
J-i
(сферические сегменты S(xp r) не пересекаются). Зафиксируем фигуру М, на некоторой сфере С. Тогда смешанная стратегия ц* порождается случайным бросанием этой фигуры Мх на сферу С. Для этого в фигуре Мх фиксируется некоторая внутренняя точка z, с которой жестко связываются два неколлинеарвых вектора а, Ъ (с углом tp>0 между ними), расположенных в касатель ной плоскости к Мх в точке z. Точка z «бросается» на сферу С в соответствии с равномерным распределением, т. е. плотностью 1/(4яА2). Пусть в результате реализуется точка / е С . Фигура Мх с фиксированными на ней векторами параллельно переносится на сферу С так, чтобы точки z и z7 совпали. Таким образом, векторы а, Ъ будут лежать в касательной плоскости к сфере С в точке т!. Затем на промежутке [0, 2п] выбирают в соответствии с равномерным рас пределением угол <р\ и вектор b в касательной плоскости поворачивают вместе со связанной с ним фигурой Мх на угол ц> по часовой стрелке. В результате фигура Мх и вектор Ъ переходят в новое положение на сфере С. Случайное размещение множества Мх на сфере в соответствии с описанной двухэтапнои процедурой и поро ждает случайный выбор точек x!v x!2, ..., x"s, соответствующих смешанной стратегии ц*, а именно: игрок / выбирает точки У,,..., У еС, в которых оказались центры хи ..., х~, сферических окрестностей S(xj, г), составляющих множество Мх. Мера ц*, построенная таким образом, оказывается инвариантной, т. е. вероят ность покрытия множеством Мх любой точки уе С не зависит от у*. Действительно, 107
найдем вероятность этого события. Пусть П={со} —пространство всевозможных размещений Мх на сфере С. Тогда средняя площадь, покрываемая на сфере С при бросании на нее множества Мх (математическое ожидание площади), равна L (Мх), в то же время L{Mx)=HJ(y,io)dydy*, (8.11) ас где J (у, со) — характеристическая функция множества на сфере С, покрываемого областью Мх. По теореме Фубини имеем f J J(y, co)dydii*= J J J(y, co)dy*dy. а с с а
(8.12)
Однако в силу инвариантности меры ц* интеграл \ J [у, о>)ф*, совпадающий с веро ятностью покрытия точки у множеством Мх, от у не зависит и равен р . Тогда из (8.11), (8.12) имеем L{MX) Е *•№(*>')) J Р= —J- ° ~' . D2 • (8.13) 4nR2 4nR2 Обозначим через K(ji, v) математическое ожидание выигрыша при использовании игроками смешанных стратегий Л 6 {д} и ve{v}. Если один из игроков использует чистую стратегию, то К(х, v)=J Н(х, y)
С
KQi, у)= J Н(х, у№=[ ЦХ, У№'Ъ(уеМх), а о и в этом случае математические ожидания соответственно имеют смысл вероят ностей попадания случайной точки в фиксированную область и накрытия случайной областью фиксированной точки. Для всех у и х=(хи ..., х,) в силу условий (8.9) и (8.13) имеем L(MX) К{х, v*)
4яЛ2
lL(S(xj,r)) <*=*
| 1 - / 1 - ( - ) ), 2\ V W )
4яЛ2
S
£ L(S(xj, r)) KQi*,y) = i~l
-
и-ш
AnR2 2 так как L{S{xj, г ) ) = 2 я Л ( Л - ^ Л 2 - г 2 ) . Из определения седловой точки и полученного неравенства K(ji*, у)~^К{х, v*) •См., например: Саитало Л. А. Интегральная геометрия и геометрические вероятности. М., 1983. 108
к
1
^'\{Ч -$)
— значение рассмотренной игры поиска. 8.4. Рассмотрим вариант предыдущей игры, полагая, что игрок 2 выбирает некоторое односвязное множество Ус С и целью игрока 1 является максимизация площади пересечения
М Г О ^ ^ ^ П U S(X/,r)\ j-i
Цель игрока 2 противоположна. В остальном игра совпадает с игрой, рассмотренной в начале параграфа. Стратегия ц* игрока 1 совпадает с таковой в предыдущей игре. Смешанная стратегия v* игрока 2 строится аналогично стратегии р* и заключается в случайном бросании множества У на сферу (в предыдущем случае игрок 2 случайно выбирал точки yeQ. Таким образом, v* строится как инвариантная мера, которая состоит из случайного (в соответствии с равномерным распределением на С) выбора одной из фиксированных точек множества У на С и далее поворота У вокруг этой точки на случайный угол (в соответствии с равномерным распределением на [0, 2л]). Пусть К(х, v), К(ц,у) соответствуют математическим ожиданиям площади пересече ния L(Y\)MX). Тогда КОЛ у)=К{х, v*)=K0i», v*)
L{Y)L{MJ —г—. 2яЛ2
Если У— г-окрестность точки у, то значение игры равно K(fl*, V*) = *5 (R-y/tf-t3). Упражнения • задачи 1. Игра нападения — защиты. Игрок 1 силами А единиц намерен атаковать один из объектов Ci С„, ценность которых определяется числами tx>О, х2>О,.... т„>0, причем т 1 >т 2 >...>т я . Чистой стратегией х игрока 1 является вектор Jc=(ft (п), л
£ ii=A, где £i — часть сил, выделенных для атаки объекта Q. Суммарные силы обороняющейся стороны (игрок 2) равны В. Чистой стратегией у игрока 2 является выбор набора неотрицательных чисел y=(Vi, —> >ы)> удовлетворяющих условию л
£ t\i=B, где щ — часть сил, предназначенных для защиты объекта Cj. Результат £таки на объект С, пропорционален разности £/ — щ, если силы атакующих превос ходят силы защищающихся, а в остальных случаях он равен нулю. Построить функцию выигрыша. 2. Игра на единичном квадрате имеет функцию выигрыша Н(х,у)=ху-1/Зх-\12у. Показать, что (1/2, 1/3) — ситуация равновесия в этой игре. 3. Показать, что игра на единичном квадрате с функцией выигрыша H(x,y)=siga(x-y) имеет седловую точку. 4 Показать, что игра на единичном квадрате типа дуэли с функцией выигрыша 109
Г-1/х 2 , x>y, H(x, y)- = < 0,
l
x=y,
1/У, x
имеет ситуацию равновесия (0, 0). 5. Показать, что игра на единичном квадрате с функцией выигрыша Н(х, у)*=(х—у)2 не имеет ситуации равновесия в чистых стратегиях. 6. Показать, что в игре на единичном квадрате с функцией выигрыша Х+у, „,
ч
<
Х 1+
1 У>
Х?И, уфО, хш1
>
"*0-
1/2+х, хф\, >=0, 2,
х=1, у=0
пара (х„ >>,), где х, = 1 —e,yt=e, является ситуацией е-равновесия. Имеет ли эта игра значение? 7. Решить игру «поиска шумного объекта», сформулированную в примере 6 п. 1.2. 8. Вычислить выигрыш игрока 1 в игре на единичном квадрате с функцией выигрыша Н(х, у) в ситуации (F(x), G(y)) (FuG — функции распределения), если: а) Н(х, y)=(x+y)/(4xy), F(x)=x*, G(y)=>>2; б) H(x,y) = \x-y\(l-\x-y\), F(x) = x, G(y)=y; в) H(x, y)={x-y)2, F(x) = l/2/ 0 (x)+l/2/ 1 (x), G(y)=Im{x), где /jt(x) — ступенчатая функция. 9. Игра дискретного поиска. Рассматривается следующая бесконечная игра. Стра тегия игрока 2 заключается в выборе точки, равномерно распределенной на окружно сти радиуса у, где у может принимать значения из интервала [0, 1]. Игрок 1 может просмотреть в единичном круге односвязную область Q, площадь которой e ( 0 = e=const, где а<А, Л = п — площадь единичного круга. Его стратегия х за ключается в выборе формы области Q, имеющей площадь а, которая целиком лежит в единичном круге. Выигрыш Н(х, у) игрока 1 равен вероятности обнаружения, т. е. Н(х, y)=Ti(yeQ). Под смешанной стратегией g{y) игрока 2 будем понимать функ цию плотности распределения случайной величины >>е[0, 1]. Найти решение игры. 10. Доказать теорему Хелли п. 5.4. 11. Рассмотрим непрерывный аналог игры «обороны города» (п. 1.3 гл. 1). Игрок 1 должен направить силы х, хе[0, 1] в наступление на первую позицию и силы (1-х) — в наступление на вторую позицию. Игрок 2 должен направить силы.у, уе[0, 1] для обороны первой позиции и силы (1 —у) — для обороны второй, на которой уже расположены постоянные оборонительные силы размером 1/2. Один игрок платит другому единицу на каждой позиции, если его силы на этой позиции меньше сил противника, и ничего не платит, если их силы равны. Построить функцию выигрыша Н(х, у) игры на единичном квадрате. Показать, что данная игра не имеет решения в смешанных стратегиях. Указание. Воспользоваться результатом примера 10 п. 4.12. 12. Показать, что в непрерывной игре с функцией выигрыша стратегии F*(x)=Ii/2(x), G*(y)=l/2I0(y) + l/2I2(y) — оптимальны для игроков 1 и 2 соответственно. ПО
13. Доказать, что значение симметричной непрерывной игры на единичном квадрате равно нулю, а оптимальные смешанные стратегии совпадают (игра симмет ричная), если функция выигрыша кососимметрична, т. е. Я (х, у) = —Н(у, х). 14. Определить оптимальные стратегии и значение игры на единичном квадрате с функцией выигрыша Н(х, у)=у3 — 3ху+х3. 15. Показать, что в игре с функцией выигрыша Н(х, у)=еУ
y/l-^/y2,
хе[х0, xj, уе\у0, ух], у>0,
игрок 2 имеет оптимальную чистую стратегию. Выяснить вид этой стратегии в зави симости от параметра у > 0. Что можно сказать об оптимальной стратегии игрока 1. 16. Проверить, что функция выигрыша из примера 11 п. 5.5 Н(х, у)=р(х, у), xeS(0, l), yeS(0, l), где iS(0, /) — круг с центром в 0 и радиусом /, р(#) —расстояние в R2, строго выпукла по у при любом фиксированном х. 17. Показать, что сумма двух выпуклых функций выпукла. 1 18. Доказать, что если выпуклая функция <р: [а, Д-»/? ограничена, то она непрерывна в любой точке х е (а, fS). Вместе с тем на концах ни/1 промежутка (а, /J) выпуклая функция <р полунепрерывна сверху, т. е. lim
(аналогично при х-*Р). 19. Пусть дана игра Г=(ЛГ, Y, Н), X=Y=[0, 1] с выпуклой ограниченной функцией выигрыша Н(х, •): [0, \]-*Р1. Показать, что игрок 2 в этой игре имеет либо оптимальную чистую стратегию, либо для каждого 8>0 чистую г-оптималъную стратегию. Относительно игрока 1 справедлив результат теоремы п. 5.6. Указание. Использовать результат упр. 18 и рассмотреть вспомогательную игру r 0 = (JT, Y, Н0), где г ^ я ( х ^ есш у е ^ I lim Я(х, у„), если у=0 или у=\. 20. Решить игру «нападение — защита», сформулированную в упр. 1. 21. Рассматривается одновременная игра преследования на плоскости (см. при мер 1 п. 1.2), когда множества стратегий Sl=S2 — S, где S — некоторое замкнутое выпуклое ограниченное множество. а) Показать, что значение рассматриваемой игры равно R, где R — радиус минимального круга S(0, R), содержащего 5, оптимальная стратегия игрока 2 явля ется чистой и заключается в выборе центра О круга S (О, К). б) Показать, что оптимальная стратегия игрока 1 является смешанной и являет ся смесью либо двух диаметрально противоположных точек касания множества S с кругом S (О, R) (если такие точки xt и х2 существуют), либо таких трех точек касания x!v x"2, х'3, что точка О лежит внутри треугольника, вершинами которого являются данные точки. 22. Решить одновременную игру преследования на плоскости, рассмотренную в упр. 21, в предположении, что игрок 2 выбирает не одну точку у е S, а т точек ух ут е S. Функция выигрыша игры имеет вид Н(х,у)=-
1 т
т
£р2(х,Уд,
ы\ где р (•) — расстояние в R2. 23. Игрок / выбирает системы х из т точек промежутка [—1, 1], т. е. х=(£,, ... ..., £„,, £,е[— 1, 1], /=1, ..., т. Одновременно и независимо от него игрок 2 выбирает 111
систему у из п точек того же промежутка [—1, 1], т. е. у = (г\и ..., ri„), ^ е [ — 1 , 1],у'=1, 2, ..., п. Функция выигрыша Н(х, у) имеет вид Н(х, y) = l/2 I max min |f,—fy|+max min |£,—t\j\ J. ^
'
У
j
i
'
Найти решение игры. 24. Рассмотреть обобщение задачи п. 8.3, а именно игру поиска, в которой игрок 2 выбирает систему у из к точек у = {уи ..., Ук) на сфере С, а игрок 1, как и прежде, систему х из 5 точек x=(Xi, ..., xs) на сфере С. Функция выигрыша имеет вид Я(х, у)-{М\М=\{у,}\
:yieS(Xj, г);у=1, ..., л},
где 5 (xj, г) — сферический сегмент с вершиной в точке Xj и радиусом основания г; (запись |{у,-}| означает количество точек множества {уг})- Точка >>,- считается об наруженной, если yteS{xj,
г) хотя бы для одного Xj. Таким образом, значение
функции выигрыша имеет смысл числа обнаруженных точек в ситуации (х, у). Найти решение игры.
ГЛАВА III
НЕАНТАГОНИСТИЧЕСКИЕ ИГРЫ
§ 1. ОПРЕДЕЛЕНИЕ БЕСКОАЛИЦИОННОЙ ИГРЫ В НОРМАЛЬНОЙ ФОРМЕ
1.1. В предыдущих главах были рассмотрены антагонистические игры двух лиц, т. е. игры, в которых интересы сторон прямо противоположны. Однако реальные задачи принятия решения в условиях конфликта характеризуются большим числом участ ников и, как следствие этого, неантагонистичностью конфликтной ситуации. Если говорить о конфликте двух лиц и его моделях, то можно заметить, что он также не исчерпывается только антагони стическим случаем. Дело в том, что интересы игроков могут пересе каться, но не быть обязательно противоположными. Это, в частно сти, может приводить к ситуациям, взаимовыгодным обоим игро кам (в антагонистическом конфликте это невозможно), что делает осмысленным кооперирование (выбор согласованного решения), приводящее к увеличению выигрыша обоих игроков. Однако воз можны такие конфликты, когда кооперация или соглашение невоз можны по правилам игры. Поэтому в неантагонистических играх различают бескоалиционное поведение, когда соглашения между игроками запрещены правилами (см. § 1 — 5), и кооперативное поведение игроков, когда разрешается кооперация типа выбора совместных стратегий (см. § 6 — 8) и совершения побочных плате жей (см. § 9 — 11). Рассмотрим первый случай. 1.2. Определение. Система r=(N, {Xt}leN, {Ht}leN), в которой N={1, 2, ..., п) — множество игроков, Xt — множество стратегий игрока i, Hi — функция выигрыша игрока i, определенная п
на декартовом произведении множеств стратегий игроков Х= Y[ Xt (множество ситуаций игры), называется бескоалиционной игрой. Бескоалиционная игра и лиц происходит следующим образом. Игроки одновременно и независимо друг от друга выбирают свои стратегии xt из множеств стратегий Хи /=1, 2, ..., и, в результате ш
чего формируется ситуация х=(х1г ..., хп), xteXt. После этого каж дый игрок i получает выигрыш Н, (х). На этом игра заканчивается. Если множества чистых стратегий игроков X, конечны, то игра называется конечной бескоалиционной игрой п лиц. 1.3. Бескоалиционная игра Г, в которой принимают участие два игрока, называется игрой двух лиц. Таким образом, бескоалицион ная игра двух лиц Г в нормальной форме определяется системой Т=(Хи Х2, Ни Н2), где Xt — множество стратегий первого игрока, Хг — множество стратегий второго игрока, Ху х Х2 — множество ситуаций игры, a. H1:XlxX2->Rl, Н2:Хх хX2-*Rl — функции вы игрыша соответственно 1 и 2 игроков. Конечная бескоалиционная игра двух лиц называется биматричной. Это объясняется тем, что перенумеровав множества чистых стратегий игроков числами 1, 2, ..., т и 1, 2, ..., п соответственно, функции выигрыша можно записать в виде двух матриц 4 1 - •&\п
Ht=A =
н2=в= -.Рт\"'Ртп_
_ * m l " "&mn
При этом элементы ау и /?у матриц А, В являются соответственно выигрышами игроков 1я2в ситуации (i,j), ieM,jeN, M= {1,..., m}, #={1,...,й}. В соответствии с изложенным выше биматричная игра проис ходит следующим образом. Первый игрок выбирает номер i строки, а второй (одновременно и независимо) номер j столбца матрицы. Тогда игрок 1 получает выигрыш щ=Нх (хи у^, а игрок 2 — выиг рыш #,-#2 (х,, у]). Заметим, что биматричную игру с матрицами А и В можно также задать (т х и) матрицей (А, В), каждый элемент которой есть пара (аф fiij), г'=1, 2, ..., т; j=\, 2, ..., п. Игру, определяемую матрицами An В, будем обозначать Г {А, В). Если бескоалиционная игра Г двух лиц такова, что Н1(х, у)=—Н2 (х, у) для всех хе Хи уеХ2, то Г оказывается антагонисти ческой игрой, рассмотренной в предыдущих главах. В частном случае, когда в биматричной игре ац=—^ц, мы получаем матрич ную игру, рассмотренную в гл. 1. 1.4. Пример 1. («Семейный спор».) Рассматривается биматричная игра с матрицей в1
_ 01
(Л л - Г (Л
114
}
(4,1)
02 _
(0 0)
'
' * - « 2 | ( 0 , 0) (1,4)
Имеются различные интерпретации этой игры, но наиболее извест ная [44] следующая. Муж (игрок 1) и жена (игрок 2) могут выбрать одно из двух вечерних развлечений: футбольный матч (а 1; ^) или театр (<х2, /J2). Если они имеют разные желания (a l5 /J2) или (а 2 , /?t), то остаются дома. Муж предпочитает футбольный матч, а жена — театр. Однако обоим гораздо важнее провести вечер вместе, чем участвовать в развлечении (хотя и предпочтительном) одному. Пример 2. (Игра «перекресток» [10] J Два автомобилиста двига ются по двум взаимно перпендикулярным дорогам и одновременно встречаются на перекрестке. Каждый из них может остановиться (1-я стратегия ах или /^) и ехать (2-я стратегия а 2 или /?2). Предполагается, что каждый из игроков предпочитает остано виться, а не пострадать в аварии и проехать, если другой сделал остановку. Этот конфликт может быть формализован биматричной игрой с матрицей
<х2[_(2, 1-е) (0, 0) (неотрицательное число е соответствует неудовольствию от того, что игрок остановился и пропустил партнера). Пример 3. (Выбор способа передвижения /io городу [10] J Пусть число игроков п велико и каждое из множеств X, состоит из двух элементов: ^,={0, 1} (для определенности: 0 — воспользоваться автомобилем, 1 — использовать общественный транспорт). Функ ция выигрыша определяется следующим образом: a(t) при х,= 1, Hi(xu
..., л;„)=
b(t) при х, = 0,
где /= 'J-I
Пусть а и Ъ имеют вид, изобра женный на рис. 8. Из вида функций a(t) и b{i) следует, что если доля иг роков, выбирающих 1, больше tv то уличное движение настолько свободно, что водитель чувствует себя лучше, чем пассажир в общественном транс порте. Если же доля автомобилистов больше 1 —/0, то движение настолько интенсивное (при естественном при оритете общественного транспорта), что сравнение теперь в пользу пасса жиров общественного транспорта.
н : /
1
4
но
' / а(1)
' / / / а(0) 1(0) / /
и
/
/ 1 1
1 1 1 1
t„ t,
1 't
Рис. 8 115
Пример 4. (Распределение ограниченного ресурса с учетом ин~ тересов потребителей [52]J Предположим, что п потребителей имеют возможность расходовать (накапливать) некоторый ресурс, объем которого ограничен величиной А>0. Обозначим объем ресурса, который расходует (накапливает) i-й потребитель, через х,. В зависимости от значений вектора х=(хи х2, ..., х„) потребители получают выигрыш, который оценивается для i-ro потребителя функцией hi{xu x2, ..., х„), если общий объем израсходованного (накопленного) ресурса не превосходит заданной положительной величины 6<А, Т. е. я
Если выполняется противоположное неравенство, то выигрыш г'-го потребителя вычисляется с помощью функции gt(xlt x2 х„). При этом предполагается, что полезность ресурса резко снижается, если л
£ xt>0, т. е. в этом случае i-l
gi(xt, x2,..., xa)
Ы(х1г ..., х„), £ Xi^d, 1-1 л
" i V * l > *2> • " ' ^ л ) =
i-l л
Х,=[0, а], 0<а,<Л, £ а,=А, N={1, 2
и}.
Игроками в этой игре являются потребители ресурса. Пример 5. (Теоретико-игровая модель охраны воздушного бассей на от загрязнений [52]J В промышленном районе расположено л предприятий, каждое из которых имеет один источник, выбрасы вающий в атмосферу вредную примесь. В районе имеется экологи чески значимая зона ft, уровень загрязнения в которой не должен превышать предельно допустимого значения. Усредненное по вре мени и области значение концентрации вредной примеси в атмос фере при наличии и источников можно приближенно рассчитать по формуле 116
q= £ см,
i=\, 2, ..., n, 0<*,<
1-Х
Пусть в < Y, c&i — значение предельно допустимой концентрации (ПДК) вредной примеси. Считая предприятия игроками, построим игру, моделирующую конфликтную ситуацию загрязнения атмосферы. Предположим, что каждое предприятие i может снижать свои эксплуатационные рас ходы, увеличивая выброс х,, однако если в зоне Q уровень загрязне ния превышает ПДК, на предприятие накладывается штраф 5,>0. Пусть игрок / (предприятие) имеет возможность выбирать зна чения Л:, ИЗ множества Xt=[0, а]. Функции выигрыша игроков имеют вид
{
h,(xlt x2, ..., х„), q^d,
ft,(*i> х2, ..., x„)-s{, q>V, где A,(xl5 x2, ..., х„) — непрерывные и возрастающие по аргументу х, функции. § 2. ПРИНЦИПЫ ОПТИМАЛЬНОСТИ В БЕСКОАЛИЦИОННЫХ ИГРАХ
2.1. Известно, что для антагонистических игр принципы минимакса, максимина и равновесия совпадают (если они реализуемы, т. е. существует равновесие, а максимин и минимакс достигаются). В та ком случае они определяют единое понятие оптимальности и реше ния игры. В теории неантагонистических игр нет единого подхода к выработке принципов оптимальности. По существу имеется целое множество таких принципов, каждый из которых основывается на некоторых дополнительных предположениях о поведении игроков и структуре игры. Естественно предположить, что в игре Г каждый из игроков стремится к достижению ситуации х, в которой значение его функ ции выигрыша было бы наибольшим. Однако функция выигрыша Я, зависит не только от стратегии /-го игрока, но и от стратегий, выбираемых другими игроками, поэтому ситуации {х}, дающие большее значение выигрыша для f-ro игрока, могут не быть таковы ми для других игроков. Таким образом, так же как и в случае антагонистической игры, стремление игроков получить наибольший выигрыш носит конфликтный характер и сама формулировка того, какое поведение является «хорошим» или оптимальным в игре, является проблематичной. Здесь имеется несколько подходов. Од117
ним из них является равновесие по Нэшу и его различные обобще ния. В случае, когда игра Г является антагонистической, равновесие по Нэшу совпадает с понятием равновесия, которое представляет собой основной принцип оптимальности в антагонистической игре. Пусть х—{хх, ..., *;_!, х,, xi+i, ..., х„)— произвольная ситуация в игре Г, а х,- — некоторая стратегия игрока i. Построим ситуацию, которая отлична от х только тем, что стратегия х,- игрока i заменена на стратегию х\. В результате мы получаем ситуацию (х 1; ..., х,_], xj, Xi+u —> х„), которую будем обозначать через (x||xj)- Очевидно, что если х, и xj совпадают, то (x||xj)=x. Определение. Ситуация x*=(xf, ..., xf, ..., х*) называется ситуацией равновесия по Нэшу, если для всех x^XjU i=l,.... п имеет место неравенство Я,(х*)^Я,(х*||х;). (2.1) Пример 6. Рассмотрим игру примера 3 п. 1.4. Равновесными по Нэшу здесь являются ситуации, для которых выполняется условие t0^t*-l/n, t* + l/n^tu
(2.2)
л
где f*=(l/n) Y, ХТ- Из условия (2.2) следует, что переключение 7-1
„
каждого отдельного игрока с одной чистой стратегии на другую при условии, что другие игроки своих стратегий не изменяют, не влияет на его выигрыш. Пусть в игре реализовалась ситуация х, которой соответствует t=(l/ri) £ Xj, te{t0, tj], и пусть величина «5 — доля игроков, реши вших переключиться со стратегии 0 на стратегию 1. Заметим, что если 8 таково, что b(t) = a(t)
но на стратегию 1. При осуществлении этого желания доля л
1/и • Y, XJ увеличится и вновь вернется на отрезок [/0, /J. 2.2. Из определения ситуации равновесия по Нэшу следует, что ни один из игроков i не заинтересован в отклонении от стратегии х*, входящей в эту ситуацию (согласно (2.1) его выигрыш при исполь зовании стратегии xt вместо xf разве лишь уменьшится при усло вии, что остальные игроки придерживаются стратегий, образующих ситуацию равновесия х*). Таким образом, если игроки договори лись предварительно об использовании стратегий, входящих в ситу ацию равновесия JC*, TO индивидуальное отклонение от договора невыгодно отклонившемуся игроку. Определение. Стратегия xfeXj называется равновесной, если она входит хотя бы в одну ситуацию равновесия по Нэшу. Для бескоалиционной игры двух лиц r = (Z l5 Х2, Ни Н?) ситу ация (х*, у*) является ситуацией равновесия, если неравенства Н, (х, y*HH, (х*, у*), Н2(х*, уНН2(х*, у*) (2.3) выполняются для всех xeXt uyeY2. В частности, для биматричной (т хи)-игры Г (Л, В) пара (г*, /*) будет ситуацией равновесия по Нэшу, если неравенства «<./<«!••/, &•>?•*/
(2-4)
выполняются для всех номеров строк ieM и столбцов jeN. Так, в примере 1 равновесными являются ситуации (<х19 /?х) и (а2, /?2), в примере 2 — (о^, fl2) и (а2, fix)Напомним, что для антагонистической игры Г = (ЛГ1, Хг, Н) пара (х*, y*)eXt хХ2 является ситуацией равновесия, если Н(х, у*НН(х*, у*)^Н(х*, у), хеХи уеХ2. При этом имеют место следующие основные свойства антагонисти ческих игр. I0'. Игроку невыгодно информировать своего противника о стратегии (чистой или смешанной), которую он собирается приме нить. (Конечно, если игрок собирается использовать оптимальную стратегию, то его выигрыш не уменьшится от того, что он объявит об этом, но он ничего и не выигрывает.) 2°. Если (х, y)eZ(T), (JC', / ) e Z ( r ) — ситуации равновесия в игре Г, a v — значение игры, то V,y)eZ(T),(x,/)eZ
4°. Если в игре Г существует ситуация равновесия, а х — максиминная и у — минимаксная стратегии соответственно 1 и 2 иг роков, то (х, y)eZ (Г) — ситуация равновесия, и наоборот. Выясним, выполняются ли эти свойства для биматричных игр. Пример 7. Рассмотрим игру «семейный спор» (см. пример 1 и п. 1.4). Как уже отмечалось, в ней есть две равновесные ситуации (а1; /?х) и (<х2, ft2)- Однако 1-я ситуация выгодна игроку i, a 2-я — игроку 2. Это противоречит (2.6), поскольку выигрыши игроков в этих ситуациях различны. Далее заметим, что, несмотря на равновес ность ситуаций (аи /?х), (<х2, j82), пары (ах, /?2) и (а2, р\) не являются ситуациями равновесия по Нэшу, т. е. не выполнено свойство 2 (см. (2.5)). Если игрок 1 информирует партнера о намерении выбрать стра тегию ах и если игрок 2 убежден, что тот будет упорствовать, то ему ничего не остается, как объявить первую стратегию /?х. Аналогич ные рассуждения можно провести и за игрока 2. Таким образом, каждому из игроков выгодно первому объявить свою стратегию, что противоречит свойству 1° для антагонистических игр. Предположим, что игроки не общаются до начала игры, а дела ют выбор одновременно и независимо друг от друга (как и предус мотрено правилами бескоалиционной игры). Проведем рассужде ния за игрока 1. Ему выгодно, чтобы реализовалась ситуация (<xl5 Pt). Но игроку 2 выгодна ситуация (<х2, /?2). Поэтому, если игрок 1 выберет стратегию at, то игрок 2 может выбрать стратегию /?2, и они оба проиграют (вектор выигрышей (0, 0)). Тогда игроку 1 имеет смысл выбрать стратегию а2, поскольку в ситуации (<х2, fy он получает выигрыш 1. Но игрок 2 может рассуждать аналогично и выбрать Ри тогда в ситуации (а2, /?х) они оба опять проиграют. Таким образом, имеет место случай, когда ситуация выгодна (и поэтому неустойчива) для игрока 1. Аналогично (с точки зрения игрока 2) можно исследовать ситуацию (<х2, /?2). Поэтому игрокам выгодно общаться перед началом игры и договариваться о совмест ном плане действий, что противоречит свойству 3°. Затруднения возникают также из-за того, что пара максиминных стратегий не является равновесной. Таким образом, мы имеем пример игры, когда не выполнено ни одно из свойств 1° — 4° антагонистической игры. Итак, в различных ситуациях равновесия по Нэшу векторы выигрышей игроков могут быть различны. Кроме того, множество ситуаций равновесия по Нэшу в отличие от множества ситуаций равновесия в антагонистической игре не является прямоугольным. Если х=(хи ..., xh ..., х„) и x' = (jti, ..., x'j, ..., х'л) — две различные ситуации равновесия, то ситуация х", состоящая из стратегий, кото рые образуют ситуации х и х', и не совпадающая ни с одной из этих ситуаций, равновесной может не являться. Ситуация равновесия по Нэшу является множественным принципом оптимальности в том 120
смысле, что различные ситуации равновесия могут быть в разной степени предпочтительными для различных игроков. Таким обра зом, остается не решенным вопрос: какую из ситуаций равновесия можно принять как устраивающий всех игроков принцип оптималь ности? В дальнейшем будет показано, что множественность принци па оптимальности является существенной характерной чертой оп тимального поведения в конфликтных управляемых процессах со многими участниками. Заметим также, что в отличие от антагонистического случая равновесная стратегия i-го игрока JC* далеко не всегда обеспечивает получение, по крайней мере, выигрыша Я;(х*) в ситуации равнове сия по Нэшу, поскольку это существенно зависит от того, выберут ли остальные игроки стратегии, входящие в данную ситуацию равновесия по Нэшу. Поэтому равновесную стратегию не следует трактовать как оптимальную стратегию f-го игрока. Такая трактов ка осмыслена только для набора стратегий игроков, т. е. для ситуаций. 2.3. Важная особенность ситуации равновесия по Нэшу заключа ется в том, что отклонение от нее двух игроков и более может привести к увеличению выигрыша одного из отклонившихся иг роков. Пусть S с N — некоторое подмножество множества игроков (коалиция) и пусть x=(xt, ..., х„) — ситуация в игре Г. Обозначим через (х\\х'л) — ситуацию, которая получается из ситуации х при замене в ней стратегий xh ieS, на стратегии x'ieXi, ieS. Иными словами, в ситуации (x\\x's) игроки, входящие в коалицию S, заменя ют свои стратегии xt на стратегии JCJ. Если х* — ситуация равнове сия по Нэшу, то из (2.1) вовсе не следует, что Я, (х*) > Я, (xf \\xs) для всех ie S. (2.7) Это будет показано далее на простейших примерах. Можно усилить понятие равновесия по Нэшу, потребовав выпо лнения условия (2.7) или ослабленного условия (2.7) хотя бы для одного из игроков ieS. Тогда мы приходим к следующему опреде лению. Определение. Ситуация х* называется сильно равновесной, если для любых коалиций S а N и xse J~[ X, выполняется неравенство ieS
£#,(*•)> Ел,***!!**). /65
(2.8)
ieS
Условие (2.8) гарантирует нецелесообразность соглашения меж ду игроками с целью вступления в некоторую коалицию S, так как в любой коалиции находится игрок /, которого это соглашение не 121
устраивает. Любая сильно равновесная ситуация является равновес ной. Если бы сильное равновесие существовало в достаточно широ ком классе игр, то оно могло бы явиться приемлемым принципом оптимальности в бескоалиционной игре. Однако оно существует крайне редко. Пример 8. Рассмотрим биматричную игру с матрицей
h а
(5 5)
(Л {А тВ) > Г '
> ~а:г L(10,0)
Pz (0
'
10)
1
(1,1)}
Здесь одна ситуация равновесия (а2, /?2) (не сильно равновесная), которая дает игрокам вектор выигрышей (1, 1). Однако если оба игрока сыграют (al5 0Д то они получат вектор выигрышей (5, 5), что выгодно обоим. Эта ситуация не является равновесной, но она лучшая для обоих игроков. Таких парадоксов в антагонистических играх не бывает. Если говорить об этом конкретном случае, то данный результат является следствием того, что при одновремен ном отклонении от равновесной стратегии каждый из игроков мо жет выиграть еще больше. 2.4. Пример 8 приводит к мысли о возможности других принци пов оптимальности в бескоалиционной игре, приводящих к ситуаци ям, более выгодным обоим участникам, чем в случае равновесных ситуаций. Таким принципом оптимальности является оптималь ность по Парето. Рассмотрим множество векторов {Н(х)} = {(Я1 (х), ..,, я
Н„(х))}хеХ, X=J\ Xi, т. е. множество значений вектор-выигрышей •-I игроков во всех возможных ситуациях хеХ. Определение. Ситуация х в бескоалиционной игре Г называется оптимальной по Парето, если не существует ситуации хеХ, для которой имеют место неравенства Hi (x)>Hi(x) для всех ieNM Htl)(x)> Щ(х) хотя бы для одного i0eN. Множество всех ситуаций, оптимальных по Парето, будем обозна чать через X*. Содержательно принадлежность ситуации х множеству Хр оз начает, что не существует другой ситуации х, которая была бы предпочтительнее ситуации JC для всех игроков. Следуя [2], отметим содержательное различие понятий ситуации равновесия и ситуации, оптимальной по Парето. В первой ситуации ни один игрок, действуя в одиночку, не может увеличить своего 122
выигрыша, во второй — все игроки, действуя совместно, не могут (даже не строго) увеличить выигрыш каждого. Заметим также, что соглашение о выборе фиксированной ситу ации равновесия удерживает каждого индивидуального игрока от отклонения от нее. В оптимальной по Парето ситуации отклонив шийся игрок может в некоторых случаях получить существенно больший выигрыш. В то же время сильно равновесная ситуация безусловно является и оптимальной по Парето. Так, в примере 8 ситуация (а2, р"2) равновесна, но не оптимальна по Парето. Вместе с тем ситуация (а15 р\), наоборот, оптимальна по Парето, но не является равновесной. В игре «семейный спор» обе равновесные ситуации (at, p\), (а2, /J2) сильно равновесны и оптимальны по Парето, но, как уже отмечено в примере 7, не являются взаимозаме няемыми. Такая же картина имеет место и в следующем примере. Пример 9. Рассмотрим игру «перекресток» (см. пример 2 п. 1.4). Ситуации (<х2, /?,), (<х15 /?2) равновесны и оптимальны по Парето (ситуация (al5 /Q оптимальна по Парето, но не равновесна). Для каждого игрока равновесной является стратегия аи р\ «остановить ся», если другой игрок решил проехать перекресток, и, наоборот, выгодно выбрать стратегию <х2, /?2 «ехать», если другой игрок остановился. Однако выигрыш в две единицы каждый из игроков получает только при выборе стратегии а2 (fi2) — «ехать», поэтому здесь неизбежна борьба за лидерство, т. е. каждый из игроков заинтересован первым заявить, что он выбрал стратегию «ехать». Заметим, что точно к такому же выводу мы пришли при анализе игры «семейный спор» (см. пример 7). 2.5. Проанализируем поведение типа лидер — ведомый в игре двух лиц Г=(ЛГ1> Х2, Ни Н2). Обозначим Z 1 , Z 2 множества наилуч ших ответов игроков 1 и 2 соответственно, где Zl = {(xt, Xa)l#i(*i> * 2 ) = SUP Hi(yi> хг)}'>
(2-9)
Ух
2
Z = {(xi, x2)\H2(x1, x2) = sup H2(xv y2)}
(2.10)
(предполагается, что супремумы в (2.9) и (2.10) достигаются). Определение. Назовем ситуацию (х1} х2)еХ1хХ2 i-равновесием по Штакельбергу в игре двух лиц Г, a Hi i-выигрышем, если (хи x2)eZ? и выполняется равенство Hi=Hi(xl,x2)= sup
Hi(yltyJ,
(2.11)
(Уи y2)eZl
где /=1, 2, /?*/. Понятие /-равновесия можно интерпретировать следующим об разом. Игрок 1 (лидер) знает функции выигрыша обоих игроков Н1г 123
Я 2 , а тем самым и множество наилучших ответов Z 2 игрока 2 (ведо мого) на любую стратегию xt игрока 1. Тогда он, обладая этой информацией, максимизирует свой вьшгрыш, выбирая стратегию х1 из условия (2.11). Таким образом, Я, — это вьшгрыш i-ro игрока, действующего оптимально в качестве «лидера» в игре Г. Лемма. Пусть Z(T) — множество ситуаций равновесия по Нэшу в игре двух лиц Г. Тогда Z(T)=Z1f]Z2, (2.12) 1 2 где Z , Z — множества наилучших ответов (2.9), (2.10) игроков 1, 2 в игре Г. Доказательство. Пусть (xv jc2)eZ(T) — ситуация равновесия по Нэшу. Тогда неравенства •#i(*i» x2)^:Hl(x1, х2), Н2(х1, х'2)^Н2(х1, х2) выполняются для всех x\eXl ~&x'2eX2. Откуда получаем # i (*i, х2)=sup Я х (*i, х2);
(2.13)
Н2 (*i, x2)=sup H2 (хи х!2).
(2.14)
Таким образом, (хи x2)eZl и (xlt x2)eZz, т. е. (xlt x2)eZ1f]Z2. Обратное включение непосредственно следует из (2.13), (2.14). Лемма доказана. Определение. Будем говорить, что в игре двух лиц Г=(АГ1, Х2, Нх, Н2) имеет место борьба за лидерство, если не существует такой ситуации (хи х2)еХх хХ2, что Н^Н^х,, х2), 1=1,2. (2.15) Теорема. Если игра двух лиц Г=(ХХ, Х2, Я15 Н2) имеет по крайней мере две оптимальных по Парето и равновесных по Нэшу ситуации (xt, x2), (уи у2) с различными векторами выигрышей (Ях (хи х2), Н2(хи х2))Ф(Н, (уи у2), Нг (уи у2% (2.16) то в игре Г имеет место борьба за лидерство. Доказательство. В силу (2.12) для всякой ситуации равнове сия по Нэшу (zu z2)eZ(T) справедливы неравенства Hl{z1,z2)^Hi,i=i, 2. Предположим противное, т. е. что в игре Г нет борьбы за лидерст во. Тогда существует ситуация (zlt z2)eX^ xX2, для которой Щхи x^Ht^H,(zlt z2); (2.17) Hi(yt, y^H,^H,(zlt z2), (2.18) 124
/ « I , 2. Ho (xl5 x2), (уи у?) — ситуации, оптимальные по Парето. Поэтому неравенства (2.17), (2.18) выполняются как равенства, что противоречит (2.16). Теорема доказана. В заключение заметим, что игры «семейный спор» и «перекре сток» (п. 1.4) удовлетворяют условиям теоремы п. 2.5, поэтому в них имеет место борьба за лидерство. § 3. СМЕШАННОЕ РАСШИРЕНИЕ БЕСКОАЛИЦИОННОЙ ИГРЫ
3.1. Рассмотрим бескоалиционную игру двух лиц Г=(Хи Х2, Ни Hi). В антагонистическом случае мы уже убедились, что ситуация равновесия в обычных чистых стратегиях, вообще говоря, не суще ствует. Даже матричные игры в общем случае имеют ситуацию равновесия лишь в смешанных стратегиях. Поэтому естественно искать равновесие по Нэшу в бескоалиционной игре в классе сме шанных стратегий. Как и в случае антагонистических игр, смешанную стратегию игрока мы отождествляем с вероятностным распределением на множестве чистых стратегий. Предположим для простоты, что мно жества стратегий X, конечны, и введем понятие смешанного рас ширения игры. Пусть Г=(ЛГ, {Х<}ы„, {H,}leN) (3.1) — произвольная конечная бескоалиционная игра. Для определен ности предположим, что игрок 1 в игре Г имеет /и, стратегий. Обозначим через nt произвольную смешанную стратегию игрока /, т. е. некоторое вероятностное распределение на множестве страте гий Xh которые назовем чистыми стратегиями. Через /i,(x,) будем обозначать вероятность, которую стратегия ц, приписывает конк ретной чистой стратегии х{еХ(. Множество всех смешанных страте гий игрока / будем обозначать через Xh Пусть каждый из игроков ieN применяет свою смешанную стратегию ц(, т. е. выбирает чистые стратегии с вероятностями Ht(x). Будем предполагать, что вероятность появления ситуации x=(xlt ... хп) равна произведению вероятностей выборов составля ющих ее стратегий, т. е. /iW=/ii (xi) x ц2 (х2) х... х n„(x„). (3.2) Формула (3.2) определяет вероятностное распределение на мнол
жестве всех ситуаций Х= J][ X„ определяемое смешанными страте1-1
125
гиями fit, ц2, ..-, /V Набор n=(jiv ..., ц„) называется ситуацией в смешанных стратегиях. Ситуация в смешанных стратегиях ц ре ализует различные ситуации в чистых стратегиях с некоторыми вероятностями, поэтому значение функции выигрыша каждого из игроков оказывается случайной величиной. В качестве значения функции выигрыша 2-го игрока в ситуации ц принимается математи ческое ожидание этой случайной величины: Ki(ji)=Yu Н,(рс)ц(х)= £ ... Е Н,(хи ..,х„)х ^еЛ-!
хеХ
*л6-*я
х /ix (xt) х... х fi„(x„), ieN, x=(xx
х„)еХ.
(3.3)
Введем обозначение
Вд|*;)= 1 - Е xleXl
xj_ieXj^i
Е ... Е н<(х\№ П *(**)• (з.4> xJ+leXJ+l
хпеХп
k+)
Пусть fij — произвольная смешанная стратегия игрока j в игре Г. Умножив (3.4) на $(ху) и просуммировав по всем x)eXj, получаем
Евд^)4(*;)=ад|/*;). _ Определение. Игра T = (N, {Xt}ieN{K,}ieN), в которой N — мно жество игроков, Xt — множество смешанных стратегий каждого игрока г, а функция выигрыша определяется равенством (3.3), назы вается смешанным расширением игры Г. Если для любой чистой стратегии х, игрока i имеет место неравенство Kj(ji\\xi)^a, то для любой смешанной стратегии ц[ вы полняется неравенство К}{р.Щ)^а. Справедливость этого вытекает из (3.3) и (3.4) стандартным переходом к смешанным стратегиям. 3.2. Для биматричной (тхи) игры Г (А, В) можно определить множества смешанных стратегий Xif X2 соответственно 1 и 2 иг роков в виде *J
Xt = {x\xu=l, х^О, хеВГ}, X2={y\yw=l,y>0,yeR"}, где и = (1, ..., l)elf, w = (l,..., 1)еЛ", а также выигрыши игроков Kt и К2 в ситуации (х, у) в смешанных стратегиях как математическое ожидание выигрыша &i (х, у)=хАу, К2(х, у)=хВу, хеХъ уеХ2. 126
Следовательно, формально построено смешанное расширение Г (А, В) игры Г (А, В), т. е. бескоалиционная игра двух лиц Г (А, В) = ={Xi, л 2, К1} К2). Для биматричной игры (как и для матричной) множество •Л/*={/|£>0) будем называть спектром смешанной стратегии x—(£i, •••> £m) игрока 1, а стратегию х, для которой МХ=М, М={\, 2, ..., т) —вполне смешанной. Аналогично, Ny={j\nj>0} —спектр смешанной стратегии у={п1,..., п„} игрока 2 в биматричной (т х п)игре Г (А, В). Ситуацию (х, у), в которой обе стратегии х и у вполне смешанные, будем называть вполне смешанной. Покажем на примере игры «семейный спор», что введение сме шанных стратегий не снимает те трудности, которые возникают при анализе бескоалиционной игры (см. пример 7 п. 2.2). Пример 10. Пусть в игре «семейный спор» игрок 1 хочет мак симально увеличить свой гарантированный выигрыш. Это означает, что он намерен выбрать смешанную стратегию х° = (^°, 1 — £°), 0<£°^1 так, чтобы максимально увеличить наименьшую из двух величин Kt (x, /?х) и Kt (x, fl2), т. е. , max min {К, (х, В,), К, (х, В2)} =min {К, (х°, J8J, Kt (x°, /J2)}. X
Максиминная стратегия х° игрока / имеет вид х°=(1/5, 4/5) и дает ему средний гарантированный выигрыш 4/5. Если игрок 2 выберет стратегию Ви то выигрыши игроков будут равны (4/5, 1/5), если же он воспользуется стратегией /?2, то (4/5, 16/5). Таким образом, если игрок 2 догадается, что его партнер приде рживается стратегии х°, то он выберет /?, и получит выигрыш 16/5 (Если игрок 1 может обосновать выбор р 2 за игрока 2, то он может улучшить и свой выбор.) Аналогично, пусть игрок 2 придерживает ся максиминной стратегии, она имеет вид у0 = (4/5, 1/5), и если игрок 1 выбирает стратегию ах, то выигрыши игроков равны (16/5, 4/5), а если а2, то (1/5, 4/5), поэтому ему выгодно против максиминной стратегии у° применять свою стратегию a t . Если оба игрока будут рассуждать таким образом, то они прихо дят к ситуации0 (al5 B2), в которой вектор выигрышей (0, 0). Здесь ситуация (х°, у ) в максиминных смешанных стратегиях не является ситуацией равновесия по Нэшу. 3.3. Определение. Ситуация ц* называется ситуацией равнове сия по Нэшу в смешанных стратегиях в игре Г, если для любого игрока i и для любой его смешанной стратегии p.t имеет место неравенство Ki(ji*\\piHKi(n*),i=l,...,n. Как показывает пример 10, ситуация в максиминных смешанных 127
стратегиях не обязательно является ситуацией равновесия по Нэшу в смешанных стратегиях. Пример 11. В игре «перекресток» (см. пример 9 п. 2.4) имеются две ситуации равновесия по Нэшу в чистых стратегиях: (а1; /i2) и (а2, /?!). Эти же ситуации оптимальны по Парето. В смешанном рас ширении игры возникает еще одна ситуация равновесия, а именно пара (х*, у*):
где щ = (1, 0), и2 = (0, 1) или х*=у* = ((1-е)1(2-в), 1/(2-в)). Действительно, имеем JTi («!,>*)=— + - = 1 - — , 2-е
2-е 2-е
2-е 2—8
Более того,—так как для любых смешанных стратегий х=(£, 1—£) У=(*1г 1 */) выполняются равенства
и
^ (х, у*) = ^
(а15 у») + (1 - № (<х2, >>*)= 1 - - ^ , 2-е
K2(x*,y)=r,K2(x*, fIJ+Q-riWtix*,
Pz)=l--^, 2-е
то получаем К, (х, y*)=Kt (**, у»), К2 (х*, у)=К2 (х*, у*) для всех смешанных стратегий xeXt и уеХ2. Поэтому (х*, у*) — ситуация равновесия по Нэшу. Более того, это вполне смешанная ситуация равновесия. Однако ситуация (х*, у*) не является оп тимальной по Парето, так как вектор К(х*, у*)=[ 1 ,1 ) у 2-е 2—sJ строго меньше (покомпонентно) вектора выигрышей (1, 1) в ситу ации (al5 Pi). Пусть K(p*)={Ki(n*)} —вектор выигрышей в некоторой ситу ации равновесия по Нэшу. Обозначим Vi=Ki(ji*) и t>={«,}. Заметим, что если в антагонистических играх значение v функции выигрыша в ситуации равновесия было одним и тем же для всех ситуаций равновесия, а следовательно, осуществлялось единственным обра зом для каждой антагонистической игры, в которой существовала ситуация равновесия, то в неантагонистических играх вектор v опре деляется неоднозначно. Таким образом, здесь можно говорить лишь о равновесном выигрыше v, = K,{p*) игрока i в ситуации 128
равновесия ц*, ц*еХ, Х= П ^ - Так, в игре «перекресток» в ситуации равновесия (аи /52) вектор равновесных выигрышей (юх, «,) имеет вид (1-е, 2), а в ситуации (л:*, j>*) он равен ( 1 \
,1 2-е
1 2—EJ
(см. пример 11). 3.4. Если В бескоалиционной игре Г = (Хи Х2, Ни Н2) простран ства стратегий бесконечны, например ^сЛ™, X2czR", то, как и в случае бесконечных антагонистических игр, смешанные страте гии игроков отождествляются с вероятностными мерами, задан ными на борелевскихст-алгебрахмножеств Хх и Х2. Если ц и v — смешанные стратегии игроков 1 w. 2 соответственно, то выигрыш игрока i в этой ситуации KJ(JI, v) — математическое ожидание выиг рыша, т. е. Ki(ji,v)=\ J Н,{х,уУЬ(у), (3.5) xtx, где интегралы понимаются в смысле Стильеса. Заметим, что в ситу ациях (х, v) и (р., у) выигрыши игроков имеют вид
Ж*, v)= J #,(*,?) лоо, K,(jt,y)=lHt(x,y)dii(x),i=l,2. Xi
(Предполагается, что интегралы существуют.) Таким образом, формально смешанное расширение бескоалици онной игры Г двух лиц может быть задано системой T=(Xt, X,, Ки К2), где ^ = {/!), JT2 = {v}, a Kt и К2 определяются (3.5). Игра Г является бескоалиционной игрой двух лиц, поэтому ситуация (ц*, v*) равновесна тогда и только тогда, когда выполнены неравенства, аналогичные (2.3). § 4. СУЩЕСТВОВАНИЕ СИТУАЦИИ РАВНОВЕСИЯ ПО НЭПГУ
4.1. В теории антагонистических игр для существования ситу ации равновесия в смешанных стратегиях было достаточно непре рывности функции выигрыша и компактности множеств стратегий (см. п. 4.4 гл. II). Оказывается, что этих условий достаточно и для существования ситуации равновесия по Нэшу в смешанных страте гиях для бескоалиционной игры двух лиц. Вместе с тем вопрос о существовании ситуации равновесия в бескоалиционной игре двух лиц является правомерным. Уже приводился пример антагонисти ческой игры, которая- не имеет ситуации равновесия в смешанных стратегиях (см. п. 4.12 гл. II). 129
Сначала докажем существование ситуации равновесия в смешан ных стратегиях для биматричной игры. Это доказательство опира ется на известную теорему Какутани о неподвижной точке, кото рую приведем без доказательства [49]. Теорема. Пусть S — компактное выпуклое множество в R иф — многозначное отображение, переводящее точки S в компактные выпуклые подмножества S и удов летворяющее условию: если x„eS, хя-*х, у„еф(хп), у„-*у, то у еф (х). Тогда существует такое x*eS, что х*еф (х*).
Теорема. Пусть Г (А, В) — биматричная (тхп)-шр&. Тогда существуют смешанные стратегии x*eXt и у*е Х2 игроков 1 и 2 со ответственно, такие, что пара (х*, у*) является ситуацией равно весия по Нэшу. Доказательство. Множества смешанных стратегий Xt и Х2 игроков 1 я 2 — выпуклые многогранники, поэтому множество ситуаций Х1хХ2 — компактное выпуклое множество. Пусть ф — многозначное отображение,
ф-.Х^Х^Х^хХ» определяемое соотношением
{(*,.
Kiix1, j; 0 )=max ^ ( x , y0),
Ф-(.х0,у0)^<(х',у') Kz(x0, y')=max K2(x0, y), т. е. образ отображения ф состоит из пар наилучших ответов игроков на стратегии у0 и х0 соответственно. Функции Kt и К2 как математические ожидания выигрышей в ситуации (х, у) билинейны по х и у, а следовательно, образ ф (х0, у0) ситуации (х0, у0) при отображении ф представляет собой выпук лое компактное подмножество в ^ х Х2. Более того, если последо вательности пар {(хЪ, уЬ)}, (Х"0, yb)eXi. хХ2 и {(х?т у'п)}, 0 4 у'п)еф(х%, Уо) имеют предельные точки, т. е. lim (х"0, уЬ)=(х0, УО\ In» М, Ул) = (х', У% то в силу билинейности функций Кх и К? и компактности множеств Хх и Х2 имеем, что (х', у')еф(х0, у0). Тогда по теореме Какутани существует ситуация (х*, y^eXj^xX^ для которой (х*, у*)еф(х*, у*), т. е. Кг (х*, у*)>К, (х, у*), К2 (х*, у*)>К2 (х*, у) для всех хвХ± И ye Y2. Теорема доказана. 4.2. Предыдущая теорема может быть обобщена на случай не прерывных функций выигрыша Нх и Н2. При доказательстве этого 130
результата потребуется хорошо известная теорема о неподвижной точке, принадлежащая Брауэру [49]. Теорема. Пусть S — компактное выпуклое множество в R , имеющее внутрен ность. Если q> — непрерывное отображение S в себя, то существует неподвижная точка х* отображения ср, т. е. x*eS и х*=(р{х*).
Теорема. Пусть Г=(Хи Х2, Ни Н2)— бескоалиционная игра двух лиц, пространства стратегий X1(^Rm, X2aRn— компактные выпуклые подмножества, а множество Х1 х Х2 имеет внутрен ность. Пусть также функции выигрыша Нх (х, у) и Н2 (х, у) непреры вны на XY х Х2, причем HY (х, у) вогнута по х при каждом фик сированном у, а функция Н2{х, у) вогнута по у при каждом фик сированном х. Тогда в игре Г существует ситуация равновесия по Нэшу (х*, у*). Доказательство. Пусть р = (х, у)еХ1хХ2 и q = (x, y)eXixX2 — две ситуации игры Г. Рассмотрим функцию в(р,д)=Н1(х,у)+Н2(х,у). Покажем прежде всего, что существует ситуация q*=(x*, у*), для которой max
0(p,q*)=e(q*,q*).
Действительно, пусть это не так. Тогда для каждого qeX1x.X2 найдется такое реХх xX2, p¥=q, что в(р, q)>6(q, q). Введем в рас смотрение множество GP={q\e(p,q)>e(q,q)}. Так как функция в непрерывна (Нх и Н2 непрерывны по совокуп ности переменных), a Xt х Х2 — выпуклый компакт, то множества Gp открыты. Более того, согласно сделанному предположению, Хх х Х2 покрыто множествами Gp. Из компактности Хх х Х2 следует, что найдется конечная совоку пность этих множеств, которая покрывает XY x Х2. Пусть это мно жества GPl, ..., GPk. Обозначим
>(я) j
где q>(q) = yj[1 (Pj(q). Функции ^непрерывны, поэтому ф — непрерыв ное отображение Х1хХ2в себя. Согласно теореме Брауэра^) непо движной точке, найдется такая точка qeXt хХ2, что ^(c[)=q, т. е. ?=(!/ («))Х>Л?ХР./j
Следовательно, 0(q,q)=e(~Vcpj(q)Pj,q\ \Нч) J ) Но функция 0(р, q) вогнута по р при фиксированном q и, следовате льно, e(q,q)>-^l
которое противоречит (4.1). Таким образом, всегда существует q*, для которого max 9(p, q*) = e(q*, q*). Это означает, что Нх (х, у*)+Н2(х*, уНН,(**, у*) + Н2(х*, у*) при всех хеХу и yeY2. Последовательно полагая в последнем неравенстве х=х* и у=у*, получаем неравенства Н2 (х*, у)^Н2 (х*, у*), Ht (х, у*)^ {х\ у*), справедливые для всех xeXtH уеХ2. Теорема доказана. Для бескоалиционных игр двух лиц, разыгрываемых на компакт ных множествах (в частности, на единичном квадрате) с непрерыв ной функцией выигрыша, справедлив следующий результат. Теорема. Пусть Г=(Хи Х2, Ни Н2) — бескоалиционная игра двух лиц, где HYu Н2 — непрерывные функции на Xv х Х2; Хи Х2 — 132
компактные подмножества конечномерных евклидовых про странств. Тогда игра Г имеет ситуацию равновесия (ц, v) в смешан ных стратегиях. Эту теорему приведем без доказательства, поскольку оно ос новывается на непрерывности и билинейности функций K,(ji, v)= J J H,(x, y)dv(x)dv(y), i = l, 2, _
_
Xl
*2
на множестве Xl x X2 и почти дословно повторяет доказательство предыдущей теоремы. Мы не будем подробно останавливаться на построении смешан ных стратегий в бескоалиционных играх п лиц с бесконечным числом стратегий и доказательстве существования ситуации равно весия по Нэшу. Отметим только, что если функции выигрыша п
игроков Hi (х) непрерывны на декартовом произведении Аг=]~[ X, f-i
компактных множеств чистых стратегий, то в такой бескоалицион ной игре всегда существует ситуация равновесия по Нэшу в смешан ных стратегиях. Для существования ситуаций, оптимальных по Парето, достаточно компактности множества {#(*)}, хеХ, что, в свою очередь, может быть обеспечено компактностью в некото рой топологии множества всех ситуаций X и непрерывностью в этой же топологии всех функций выигрыша Kh i = l , 2, ..., п. Очевидно, что для конечных бескоалиционных игр это всегда имеет место. § 5. СВОЙСТВА ОПТИМАЛЬНЫХ РЕШЕНИЙ
5.1. Приведем свойства ситуации равновесия, которые помогают находить решение бескоалиционной игры двух лиц. Теорема. Для того чтобы ситуация (/**, v*) в смешанных стратегиях в игре Г = (ЛГ1, Х2, Ни Н2) была ситуацией равновесия, необходимо и достаточно, чтобы для всех чистых стратегий xeXt и уеХ2 игроков выполнялись следующие неравенства: ^(x.v-X^Oi'.v*); (5.1) K2(n*,y)^K2Qi*,V*). (5.2) Доказательство. Необходимость очевидна, поскольку каждая чистая стратегия является частным случаем смешанной и, следова тельно, должны быть выполнены неравенства (5.1), (5.2). Для до казательства достаточности необходимо перейти к смешанным стратегиям игроков 1 я2 соответственно в неравенствах (5.1), (5.2). Эта теорема (как и в случае антагонистических игр) показывает, что для доказательства равновесности ситуации в смешанных стра тегиях достаточно проверить неравенства (5.1), (5.2) только для чистых стратегий партнера. Для биматричной (/ихи)-игры Г (А, В) 133
эти неравенства принимают соответственно вид К, {г, y*) = aty* ^х*Ау*=К, (x*, у*);
(5.3)
К2 (х*, j)=x*l/^x*By* = K2 (x*, у*), (5.4) где ai(ff) — строки (столбцы) матрицы А (В), i= 1, ..., т\ j= 1, ..., п. 5.2. Напомним, что для матричных игр каждая существенная чистая стратегия уравновешивает любую оптимальную стратегию противника (см. п. 7.6 гл. I). Аналогичный результат справедлив и для биматричных игр. Теорема. Пусть Г (А, В) — биматричная (тхп)-игра и пусть (х, y)eZ(T) — ситуация равновесия по Нэшу в смешанных страте гиях. Тогда выполняются равенства К^у^К^у); (5.5) K2(x,j)=K2(x,y) (5.6) для всех ieMx ujeNy, где Mx(Ny) — спектр смешанной стратегии х(у). Доказательство. По теореме п. 5.1 имеем К^уХК^у) (5.7) для всех ieMx. Пусть выполняется хотя бы одно строгое неравенст во в (5.7), т. е. К^уХК^ъу), (5.8) где i0eMx. Обозначим & компоненты вектора х=(£и ..., £т). Тогда K1(x,y)=fi^JK1(i,y)
=
i-i
= Е ^iK1(i,y)=Ki(x,y) ieMx
£
b=Kt(x,y).
ieMx
Противоречие доказывает справедливость (5.5). Равенства (5.6) до казываются аналогично. Данная теорема дает способ нахождения оптимальных смешан ных стратегий игроков в игре Г (А, В). Действительно, предполо жим, что мы ищем ситуацию равновесия (х, у), считая спектры стратегий М„ Ny заданными. Тогда оптимальные стратегии должны удовлетворять системе линейных уравнений yat=vu Xy=v2,
}34
(5.9)
где ieMx,jeNy, vltv2 — некоторые числа. Если же ситуация равно весия (х, у) вполне смешанная, то система уравнений (5.9) принима ет вид Ay = Vlu, (5.10) xB=v2w, где ы = (1, ..., 1), и> = (1, ..., 1) — векторы соответствующей размер ности, составленные из единиц, числа vx = xAy, v2 = xBy — выигры ши игроков в ситуации равновесия (х, у). 5.3. Теорема. Пусть Г (А, В) — биматричная (тхп)-игра и ма трицы А, В — невырожденные. Если игра Г имеет вполне смешанную ситуацию равновесия, то она единственная и вычисляется по фор мулам x=vtuB~l; (5.11) l y=VlA- u, (5.12) где Vl
= \l{uA-lu),
ь2 = \1(иВ-хи).
(5.13)
Обратно, если для векторов х, у е FT, определяемых равенствами (5.11) — (5.13), справедливо х^О, у^О, то пара (х, у) образует ситуацию равновесия в смешанных стратегиях в игре Г (А, В) с век тором равновесных выигрышей (vlt v2). Д о к а з а т е л ь с т в о . Если (х, у) — вполне смешанная ситуация равновесия, то х и у с необходимостью удовлетворяют системе (5.10). Умножая первое из равенств (5.10) на А'1, а второе — на В'1, получаем (5.11), (5.12). С другой стороны, поскольку х и = 1 и уи=1, находим значения для vx и v2. Единственность вполне смешанной ситуации (х, у) следует из единственности решения системы (5.10) в условиях теоремы. Докажем обратное утверждение теоремы. По построению векторов х, у согласно (5.11) — (5.13) имеем хи=уи=\. Отсюда и из условия х^О, у^О следует, что (х, у) — си туация в смешанных стратегиях в игре Г. •(5/2,5/2) Согласно теореме п. 5.1 для того, чтобы ситуация (х, у) являлась ситу ацией равновесия в смешанных стра тегиях в игре Г (А, В), достаточно выполнения условий aiy = Kl(i, y)^xAy,
i=T7rh,
хУ=К2 (х, J) ^ xBy, j=T7m, 135
или Ау^(хАу)и, хВ ^(хВу)и. Проверим
справедливость
этих
соотношений
для
х=
иВ-у иВ~1и
А 1и
'
и у=
иА'1и
тя
. Имеем Л
У=~7^Т=, 1
„-1 » ,-i
МхАУ)и>
1
иА и
(иВ и)(иА '«)
uB~lu
(иВ-хи)(иА-хи)
v
что и требовалось доказать. Проиллюстрируем применение теоремы на примере игры «се мейный спор» п. 1.4. Рассмотрим смешанное расширение игры. Множество точек, соответствующих векторам выигрышей в сме шанных стратегиях, можно изобразить графически (рис. 9, упр. 6). Нетрудно заметить, что игра удовлетворяет условиям теоремы, поэтому здесь имеется единственная вполне смешанная ситуация равновесия (х, у), вычисляемая по формулам (5.11) — (5.13): х=(4/5, 1/5),у=(1/5,4/5),(«1.«2) = (4/5,4/5). 5.4. Рассмотрим свойства различных принципов оптимальности. Заметим, что определения оптимальности ситуации по Парето и Нэшу, приведенные в § 2, касаются произвольной бескоалицион ной игры (в частности, двух лиц), поэтому они справедливы и для смешанного расширения Г. Следовательно, для игры двух лиц
г(Г)=^Пг2
(где Z(T) — множество ситуаций равновесия по Нэшу, Z 1 и Z 2 — .множества наилучших ответов игроков 1 и 2 соответственно в игре Г) и справедлива теорема о борьбе за лидерство (см. п. 2.5). В более сложном отношении находятся ситуации, равновесные по Нэшу и оптимальные по Парето. Из примеров § 2 следует, что возможны случаи, когда ситуация равновесна по Нэшу, но не оп тимальна по Парето, и наоборот. Вместе с тем возможно, что одна и та же ситуация оптимальна и в том и в другом смысле (п. 2.4). В примере 11 п. 3.3 было показано, что дополнительная ситуация равновесия, возникающая в смешанном расширении игры Г, не является оптимальной по Парето в смешанном расширении Г. Оказывается, что это довольно распространенное свойство биматричных игр. Теорема. Пусть Г (А, В) — биматричная (т х п)-игра. Тогда почти для всех (тхп)-игр (за исключением не более чем счетного множества игр) справедливо следующее утверждение. 136
Ситуации равновесия по Нэшу в смешанных стратегиях, которые не являются равновесными в исходной игре, не являются оптималь ными по Парето в смешанном расширении. Доказательство теоремы основано на том, что ее результат справедлив для множества П так называемых регулярных игр, которое открыто и всюду плотно в множестве биматричных (т х л)-игр. Полное доказательство этой теоремы можно найти в [10].
5.5. Приведем без доказательства утверждения, касающиеся бес коалиционных игр и лиц, которые являются обобщением соответст вующих теорем из теории биматричных игр, рассмотренных в дан ном и предыдущем параграфах. Теорема. Для того чтобы ситуация ц* в игре T = (N, {Xi}iBN, {Hi}ieN) была ситуацией равновесия в смешанных стратегиях, необ ходимо и достаточно, чтобы для любого i и любой чистой страте гии XfSXt выполнялось неравенство K^Wx^KiQi*). Теорема. В любой конечной бескоалиционной игре существует хотя бы одна ситуация равновесия по Нэшу в смешанных стра тегиях. Теорема. Если равновесная стратегия р.* игрока i входит в си туацию равновесия р.* и приписывает положительную вероятность чистой стратегии х^Х{ (р* (х,)>0), то Ki(M*\\xi)=Ki(p*). 5.6. В заключение параграфа рассмотрим пример решения бима тричных игр с малым числом стратегий, который во многом поучи телен. Пример 12. (Биматричные (2х2)-игры [10].) Рассмотрим игру Г (А, В), в которой у каждого из игроков по две чистые стратегии. Пусть
(A B) = 3i R"а 11' ^ n) ^а 12' ^1г) 1 ^2 |_( 21>
/*2l)
( 22.
hi)J
Здесь индексами 8lt 8г, т1( т2 обозначены чистые стратегии игроков 1 и 2 соответственно. Предположим для простоты, что числа а и , а12, а21, а22 (/?и, /?12, 02И 02г) различны. Случай 1. В исходной игре Г, по крайней мере, один игрок, пусть игрок 1, имеет строго доминирующую стратегию, скажем <5j (см. § 8 гл. I). Тогда игра Г и ее смешанное расширение Г имеют единственную ситуацию равновесия по Нэшу. Действительно, нера137
венства aii>a 2 1 , a 1 2 >a 2 2 приводят к тому, что в игре Г чистая стратегия д^ строго доминирует все остальные смешанные страте гии первого игрока. Поэтому ситуацией равновесия является пара (<515 тД если /jjj.>Pi2i и @i. тгХ если Pu
,J
bz.д.1
\Pii+Piiу*
J
РП-РИ -Ри
*HZ^
«AiZ^
1
\ * l l +a 2 2 - * a i _ " 1 2
,.
( 5 1 4 )
Р11+Р22-Р21-Р12,
Я
\
(5.15)
11+а22_а21_а12/
а соответствующие равновесные выигрыши vi и v2 определяются по формулам а
11 Я 22 - Я 12 а 21 + a22_a12_«21
.
PllPl2-012011 Pll+P22-Pl2-P21
Случай 3. Игра Г имеет две ситуации равновесия по Нэшу. Этот случай получается, когда выполнено одно из условий: а) a 2 1 б) a u « X 2 1 ,
«22 < a 12' Pll
Pl2
В случае а) равновесными будут ситуации (8Х, тД (52, т2), а в случае б) — ситуации (61г т2), (82, тх). Однако в смешанном расширении есть еще одна вполне смешанная ситуация равновесия (х*, у*), определенная формулами (5.14), (5.15). Рассмотренные случаи исчерпывают изучение (2х2)-игры при условии, что элементы в матрицах различны. § 6. РАВНОВЕСИЕ В СОВМЕСТНЫХ СМЕШАННЫХ СТРАТЕГИЯХ
6.1. Продолжим рассмотрение игр двух лиц. Как уже отмечалось в § 2, даже если ситуация равновесия является недоминируемой (оптимальной по Парето), возможны случаи, когда одна ситуация равновесия выгодна игроку 1, а другая — игроку 2. Это затрудняет нахождние взаимоприемлемого решения, возникающего неантаго нистического конфликта на уровне формализации бескоалиционной игры. Поэтому исследуем неантагонистический конфликт в фор мализации, разрешающей игрокам принимать совместные решения. 138
Проиллюстрируем этот подход на при мере игры «семейный спор» (см. при мер 1 п. 1.4). Пример 13. Рассмотрим смешанное расширение игры «семейный спор». Множество точек, соответствующих векторам выигрышей в смешанных стратегиях в игре, можно изобразить графически (см. рис. 9 п. 5.3). На рисун ке изображены две ситуации равнове сия по Нэшу с векторами выигрышей (1, 4), (4, 1) в чистых стратегиях и одна вполне смешанная равновесная ситуа ция с вектором выигрышей (4/5, 4/5) Рис. 10 (ищется с использованием теоремы п. 5.3), которая менее предпочтительна для игроков, чем каждая из ситуаций равновесия в чистых стратегиях. Напомним, что равновес ными здесь являются ситуации: (al5 /JJ, (a2, /?2), (x*> У*)' г л е х* = (4/5, 1/5), У = (1/5, 4/5), а ситуации (al5 0Д (<х2, р2) также оптимальны по Парето. Если игра повторяется многократно, то игрокам имеет смысл сделать совместный выбор: с вероятностью 1/2 выбирать ситуацию (al5 /?x) или (a2, f}2). Тогда средний ожидаемый выигрыш игроков будет (5/2, 5/2). Однако эта точка не лежит в множестве точек, соответствующих возможным ситуациям бескоалиционной игры (рис . 9), т. е. не может быть реализована, если игроки выбирают смешанные стратегии независимо. Под совместной смешанной стратегией игроков будем понимать вероятностное распределение на множестве всевозможных пар (i, j) (ситуаций в чистых стратегиях), не обязательно порожденное неза висимыми случайными выборами чистых стратегий игроками 1 и 2. Такие стратегии могут быть реализованы посредником до начала игры. Обозначим М совместную смешанную стратегию в игре Г (А, В). Тогда ожидаемые выигрыши Кх (Л/), К2 (М) игроков 1 и 2 при использовании совместной смешанной стратегии соответственно равны
К, (М) = £ <№ Кг (^) = Е Pvtb '•J
где A = {a,j), B={p,j) — матрицы выигрышей игроков, М={/ху}, при УгомиМп=\, Л/>0, « = (1, ..., l)eRm, w = (l, ..., l)eR". Геометричес ки множество точек, соответствующее множеству векторов выигры шей в совместных смешанных стратегиях,— это выпуклая оболочка 139
множества точек возможных выигрышей в чистых стратегиях. Для игры примера 13 оно примет вид, как на рис. 10.
=Г'о У
Заметим, что совместная смешанная стратегия М* является оптимальной по Парето и ей соответствует вектор выиг рышей (5/2, 5/2). Таким образом, М* может быть рекомендована в качестве решения игры «семейный спор». Определение. Для биматричной (тхи)-игры Г {А, В) обозна чим через М= {цу} совместное вероятностное распределение на па рах (i, j), f=l, ..., т; 7=1, ..., п. Через /*,(/) обозначим условную вероятность реализации стратегии] при условии, что реализовалас стратегия i. Аналогично, через Vj(i) обозначим условную вероят ность реализации стратегии i при условии, что реализовалась стр тегия]. Тогда
ft>="
% / Ё РФ если £ /ty*0» 0,
У/(0=1
если fjL,j=0,j=l, .... и;
/ty/E Иц, ее™ £ n,j^0, /-1
0,
если Htj=0, i—l, ..., т.
Будем говорить, что A/* = {/xJ} — ситуация равновесия в со вместных смешанных стратегиях в игре Г (А, В), если выполнены следующие неравенства:
twr(j)>£*tjtf(f), Ем*(о>ЕИ(0 j - \ t-i i-i
j-i
(6.1)
для всех i, f e l l , 2, ..., т) ш],]'е{\, 2, ..., я}. 6.2. Игру Г (Л, 5) в совместных смешанных стратегиях можно интерпретировать следующим образом. Пусть игроки договори лись об использовании стратегии М*={ц^} и пусть также в резуль тате реализации случайного механизма выпала пара (/', /), т. е. первый (второй) игрок получил номер i(j) стратегии. Заметим, что каждый из игроков знает только свою реализацию. Этот игрок, вообще говоря, может не согласиться с реализацией г (соответствен но У) совместной стратегии и выбрать стратегию f (/'). Тогда, если М* — равновесная ситуация, то каждому из игроков невыгодно отклоняться от предложенной реализации г (соответственно ]), что следует из (6.1), где в левой части неравенства стоит ожидаемый 140
выигрыш игрока 1 (игрока 2) в случае согласия с реализцией i(j). Теперь предположим, что стратегия i игрока 1 такова, что % = 0 для всех 7=1, 2, ..., п. Тогда первое из неравенств (6.1), очевидно, выполняется. Аналогично, если /ху=0 для всех i=\, m, то второе из неравенств (6.1) выполняется. Подставим выражения для ц{{]) и уДО через Цу в формулы (6.1). Тогда получаем, что необходимым и до статочным условием равновесности ситуации М*={ц^} является выполнение неравенств я
1-Х
я
/я
я
J-\
i-l
]-\
zw>i^./'*>o i-i
с6-2)
(-1
для всех /, /'е{1, 2, ..., m)jaj,j 'е{1, 2, .... и}. Обозначим через Z c (r) множество равновесных ситуаций в со вместных смешанных стратегиях. Теорема. Справедливы следующие утверждения. 1. Множество ZC(T) равновесных ситуаций в совместных сме шанных стратегиях в биматричной (тхп)-игре Г (А, В) является непустым выпуклым компактом пространства 1Гхп. 2) Если (х, у) — ситуация в смешанных стратегиях игры Г (А, В), то определяемая по ней ситуация М={цу) в совместных смешан ных стратегиях будет равновесной тогда и только тогда, когда (х, у) — ситуация равновесия по Нэшу в смешанных стратегиях в игре Т{А, В). Доказательство. Пусть (х, у), x=*(gv ..., VjK2(x,j'), (6.3) где i, Гб{1,2,..., m};j,j'e{l,..., и}. Если &=0 (fy=0), то неравенства очевидны. Поэтому система неравенств (6.3) эквивалентна следу ющей: К, (I, у)>К, (/', у), Кг(х, J)>K2 (x, / ) , (6.4) г, i'e{l, ..., т}; j , j'e{l, ..., и}, где i и j принадлежит спектрам стратегий х и у. Предположим, что (х, у) — ситуация равновесия по 141
Нэшу в смешанных стратегиях в игре Г (А, В). Тогда согласно теореме п. 5.2 K,(i, у) = К1(х, у), K2(x,J) = K2(x, у) для всех / и j из спектров оптимальных стратегий. Поэтому неравен ства (6.4) выполнены и MeZc(T). Обратно, если (6.3) выполнено, то, суммируя неравенства (6.3) по i a. j соответственно и применяя теорему п. 5.1, получаем, что ситуация (х, у) равновесна по Нэшу. Выпуклость и компактность множества ZC(F) следует из того, что Zc (Г) — множество решений системы линейных неравенств (6.2), которое ограничено, а непустота — из существования ситу ации равновесия по Нэшу в смешанных стратегиях (см. п. 4.1). Теорема доказана. Отметим, что совместная смешанная стратегия М*
Р/2 0 1 1 0 1/а.
равновесна в игре «семейный спор» (см. пример 1 п. 1.4), что просто установить проверкой неравенств (6.2). § 7. ЗАДАЧА О ПЕРЕГОВОРАХ
7.1. Основной вопрос, который мы рассмотрим в данном параг рафе, заключается в том, как прийти к соглашению разумным игрокам при совместном выборе решения в ходе переговоров. Пе ред тем как сформулировать задачу, еще раз вернемся к игре «семейный спор». Пример 14. Рассмотрим множество R, соответствующее возмож ным векторам выигрышей в совместных смешанных стратегиях для игры «семейный спор» (область, заштрихованная на рис. 11). Дейст вуя совместно, игроки могут реализо вать любой выигрыш в смешанных стратегиях в области R. Однако это не означает, что они могут договориться о любом исходе игры. Так, игроку 1 на иболее предпочтительна точка (4, 1), а игроку 2 — точка (1, 4). Ни один из %WM) игроков не согласится с результатами переговоров, если его выигрыш будет меньше максиминного значения, по скольку этот выигрыш он может полу чить самостоятельно (независимо от партнера). Максиминные смешанные стратегии игроков в этой игре х° = (1/5, 4/5) и у0 = (4/5, 1/5) соответственно, Рис. 11 а вектор выигрышей в максиминных 142
стратегиях («°,«°) равен (4/5,4/5). Поэтому множество S, возможное для переговоров, ограничено точками а, Ь, с, d, е (см. рис. 11). Н&зовем его переговорным множеством игры. Далее, действуя со вместно, игроки всегда могут договориться выбирать точки на отрезке ab, поскольку это выгодно обоим (отрезок ab соответствует ситуациям, оптимальным по Парето). 7.2. Назовем задачу выбора точки (vu v2) из S в результате переговоров задачей о переговорах. Таким образом, мы пришли к следующей проблеме. Пусть для биматричной игры Г {А, В) задано переговорное множество S и вектор максиминных выигры шей («х» v2). Требуется найти правило, решающее задачу о перегово рах, т. е. необходимо найти функцию ср, такую, что ФМ.«2)=(«1,^). (7-1) Оказывается, что при некоторых разумных предположениях за дача (7.1) разрешима в силу справедливости следующей теоремы. Теорема. Пусть S — выпуклый компакт в R2, (v°, v\) — вектор максиминных выигрышей в игре Г (А, В). Множество S, пара (vu v2) и функция <р удовлетворяют следующим условиям: 2)
Ǥ).
(vltv2)eS.
3) Если (»!, v2)eS и («lf «2»(«xi »2)> т о (vi> vz) = (vi> vz)4) Если (vu v2)e!Sc:S и (vlt v2)=q>(S, «?, i>°), то fo, v2) =
5) Пусть Т получается из S с помощью линейного преобразования »1 = <х1ю1+/?1, v2 = a2v2 + fi2, а х >0, а 2 >0. Тогда, если q>(S, v\, v2b) = {vl, «г), то <р(Т, arf + fii, «2«2+/*2)=(«i*i + /*i, a2i2 + p2). 6) Если из (vlt v2) е S следует (v2,1>х) е S для всех (vu v2) e S;«°=v% и (p(S, «1, v2)=(vlt v2), то v1=v2. Тогда существует единственная функция ср такая, что (p(S, v°lt «г)=(«1, v2). Функция (р, которая отображает игру с переговорами (S, v°, v2) в множество векторов выигрышей (vlt v2) и удовлетворяет условиям 1) — 6), называется арбитражной_схемой Нэша [11], условия 1) — 6) — аксиомами Нэша, а вектор (vlt v2) — арбитражным вектором выигрышей. Таким образом, арбитражная схема — это реализуемый принцип оптимальности в игре с переговорами. Прежде чем перейти к доказательству теоремы, обсудим ее условия на примере игры «семейный спор» (см. рис. 11). Условия 1 и 2 означают, что вектор выигрышей («ls v2) находится в множест143
ве, ограниченном точками а, Ь, с, d, е. Ограничение 3 показывает, что (vt, v2) лежит в множестве точек, оптимальных по Парето. Условие 4 говорит о независимости функции q> от посторонних стратегий, т. е. если (»15 v2) — арбитражный вектор выигрышей для множества 7>, то при расширении множества переговоров до S реше; нием будет либо (vv v2), либо другая точка, но не принадлежащая £! Ограничение 5 говорит о том, что если функции выигрыша отлича ются лишь масштабом измерения и началом отсчета, то также отличаются и результаты переговоров. Свойство 6 указывает на равноправность обоих игроков. Доказательство теоремы п. 7.2 основано на следующих вспомо гательных результатах. 7.3. Лемма. Если существуют точки (vlt v2)eS, что i>i>«? и v2>v2, то существует единственная точка (vlt v2), максимизиру ющая функцию на подмножестве SY<^S, Sx = {(vv v2)\(vt, v2)eS, ю^»?}. Доказательство. По условию S^ —непустой компакт, а в — непрерывная функция, поэтому она достигает на нем своего мак симума д. По предположению, 6 положительно. Пусть существуют две точки максимума {о\, v'2) и {v\, v'2) функ ции в на St. Заметим , что ч\Ф%Рг, поскольку в противном случае из вида функции в имеем v'2=v2. Если v'i
_
0O>i. «2)=
(с;-^)+(^-«;)
'
ц—»ж»;-«°)
= К-«;)(^ 2 -^) |
(„;-«,>;-„?)
2
2
|
=
к-<)(«;-v'2) 4
Каждое из первых двух слагаемых последней суммы равно в/2, а третье слагаемое положительно, что невозможно, поскольку в — максимум функции в. Таким образом, точка (йи v2), максимизиру ющая функцию в на множестве Slt единственна. J7.4. Лемма. Пусть S удовлетворяет условиям леммы п. 7.3, а («и v2) — точка максимума функции в (vlf v2) и пусть <5(«i» v2) = (v2-vl)vl
+
(v1-v4)v2.
Если («lf v2)eS, то имеет место неравенство 5(vu v2)^8(vy,
v2).
Доказательство. Предположим, что существует такая точка (vlt v2)eS, что 8(vlt v2)>5(pl, Z2). Из выпуклости S имеем: 144
(v\, v'2)eS, где v'^ — v^ziv^ — vj и V'2 = V2 + E(V2—V2), 0<е<1. В силу линейности div^ — v^ v2—v2)>0. Имеем e(v'i, v'2) = 0(vlt «2) + £^(i;1-«1, v2-v2) + az(v1-v1)(v2-v2). Последнее слагаемое — бесконечно малая величина порядка 0 (е). Поэтому при достаточно малом е>0 получаем неравенство Q(v\, v'2)>6(vy, v2), но это противоречит максимальности 0(«l5 v2). 7.5. Перейдем к доказательству теоремы п. 7.2. Для этого пока жем, что точка (уи v2), которая максимизирует 6{vu v2), является решением задачи о переговорах. Доказательство. Предположим, что выполнены условия лем мыv п. 7.3. Тогда определена точка G>vy2), которая максимизирует Q( i> vi)- Можно проверить, что $и v2) удовлетворяет условиям 1) — 4) теоремы п. 7.2. Она также удовлетворяет условию 5 этой теоремы, так как если v'1 = a1v1 + pl и v'2 = a2v2 + f}2, то
04*1, ^^-("А+Ш^-^А+Р^а^в^,
v2),
и если («l5 v2) максимизирует в(ь1г v2), то (v'lt v'2) максимизирует &Wi> v'i)- Покажем, что (vlt v2) удовлетворяет условию 6. Пусть множество S симметрично в смысле условия 6 и v°=v2. Тогда (у>2, «1)е5'1 и 0(»lf v2)=6(v2, Zj). Так как (ои v2) —^единственная точка, которая максимизирует 0(vit v2) на Slt то (ии v2)=(v2, «Д т. е. Таким образом, точка (vlt v2) удовлетворяет условиям 1) — 6). Покажем, что это единственное решение задачи о переговорах. Рассмотрим множество Л = {(»!, v2)\S(vlt v2)^S(Zt, Z2)}. (7.2) По лемме п. 7.4 имеет место включение ScR. Пусть Т получается из Л с помощью преобразования *i==
-0,»2=z
-•
(7.3)
Выражая vt и v2 из (7.3) и подставляя в (7.2), получаем, что T={(v'l,v2)\v'1+v2^2} 0 и t)i°=t)2 = 0. Так как Г симметрично, то из свойства 6 имеем, что решение (если оно существует) должно лежать на прямой v'l=v'2, а согласно свойству 3 оно должно быть точкой (1, 1), т. е. (1, 1) = ф (Г, 0, 0). Обращая преобразование (7.3) и применяя свойство 5, получаем, что (й1г v2) = cp(R, v°, v2). Так как (vlt v2)eS, a S(^R, на основании свойства 4 пара («15 v2) является решением для (S, «?, v2). Предположим теперь, что условия леммы п. 7.3 не выполнены, 145
т. е. не существует точек (vlt v2)eS, для которых vt>v° и v2>v2. Тогда возможны следующие случаи. а) Существуют точки, у которых « ^ « " и v2 =v2. Тогда в качест ве (vv, v2) возьмем точку в S, которая максимизирует vt при ограни чении v2=v2. б) Существуют точки, у которых vl=v1 и v1>«2- В этом случае в качестве (vt, v2) возьмем точку в S, которая максимизирует v2 при ограничении «х =v°. в) Переговорное множество 5 вырождается в точку («°, v2) максиминных выигрышей (например, случай матричных игр). Полагаем оо Непосредственно можно проверить, что эти решения удовлет воряют свойствам 1) — 6), при этом из свойств 1) — 3) следует единственность. Теорема доказана. В игре «семейный спор» (см. пример 14) схема Нэша дает арбитражный выигрыш (t>lt ю2)=(5/2, 5/2) (см. рис. 11). § 8. ИГРЫ В ФОРМЕ ХАРАКТЕРИСТИЧЕСКОЙ ФУНКЦИИ
В § 6 и § 7 на примере игр двух лиц было показано, как, исполь зуя возможность согласованного выбора стратегий, игроки могут прийти к взаимоприемлемому решению возникающего неантагони стического конфликта (стратегический подход). Теперь будем счи тать, что условия игры допускают совместные действия игроков и перераспределение выигрыша. Это предполагает, что полезности различных игроков могут быть оценены единой шкалой (трансферабельные выигрыши), и поэтому взаимное перераспределение выиг рышей не искажает содержательной постановки первоначальной задачи. Представляется естественным, что объединение игроков в максимальную коалицию (в коалицию, состоящую из всех иг роков) с целью получения максимального суммарного выигрыша приведет к наилучшим результатам также и с точки зрения каждого игрока, при этом нас будет интересовать не столько как коалиция игроков добивается своего суммарного выигрыша, сколько как он будет распределен между членами коалиции (кооперативный под ход). В § 8 — 10 рассмотрена кооперативная теория игр и лиц. В ней исследуются условия, при которых объединение игроков в мак симальную коалицию является целесообразным, а отдельные игро ки не будут иметь желания создавать меньшие группировки или действовать индивидуально. 8.1. Пусть N= {1,..., и} — множество всех игроков. Любое непус тое подмножество SczN называется коалицией. Определение. Характеристической функцией игры п лиц будем называть вещественную функцию v, определенную на коалициях SczN, при этом для любых непересекающихся коалиций Т, S (TczN, 146
S
2>№)<*(Л0Отсюда, в частности, следует, что не существует такого разбиения множества JV на коалиции, чтобы суммарный гарантированный выигрыш этих коалиций превышал максимальный выигрыш всех игроков v (N). 8.2. Рассмотрим бескоалиционную игру r=(N, {Xi\ieN, {H,}ieN). Пусть игроки, составляющие некоторую коалицию ScN, объ единяют свои усилия с целью увеличения своего суммарного выиг рыша. Установим, какой наибольший выигрыш они могут себе гарантировать. Совместные действия игроков из коалиции S оз начают, что коалиция S, действуя от имени своих членов как один игрок (обозначим его 1), имеет в качестве множества чистых страте гий всевозможные комбинации стратегий, составляющих ее игроков из S, т. е. элементы декартового произведения
ATs=n*i. ieS
Общность интересов игроков из S означает, что выигрыш коалиции S (игрока 1) есть сумма выигрышей игроков из S, т. е.
tfs(*)=£ #,(*), ieS
где xeXN, x=(xu ..., д:я) — ситуация в чистых стратегиях. Нас интересует тот наибольший выигрыш, который игроки из S могут себе гарантировать. В худшем для игрока / случае оставши еся игроки из N \S могут также объединиться в коллективного игрока 2 с множеством стратегий Х^3=
П ^>и интересом, диамеieN \S
трально противоположным игроку 7 (т. е. выигрыш игрока 2 в ситу147
ации х равен — Hs (x)). В результате таких рассуждений вопрос 0 наибольшем гарантированном выигрыше коалиции S превратился в вопрос о наибольшем гарантированном выигрыше игрока 1 в ан тагонистической игре Г8=(Х8, XN\S, HS). В смешанном расширении TS=(XS, XN\S, KS) игры Г 5 гарантированный выигрыш v(S) игрока 1 может разве лишь увеличиться по сравнению с игрой Г5, поэтому в дальнейшем будем рассматривать смешанное расширение игры Ts. Заметим, в частности, _что при такой интерпретации v (S) со впадает со значением игры Г 8 (если оно существует), a v (N) — мак симальный суммарный выигрыш игроков. Очевидно, что v (S) зави сит в результате только от коалиции S (и еще от самой исходной бескоалиционной игры, которая в наших рассуждениях остается одной и той же), являясь ее функцией. Убедимся, что эта функция является характеристической функцией бескоалиционной игры. Для этого достаточно показать выполнение условия (8.1). Заметим, что для каждой бескоалиционной игры, построенной выше, ю(0)=О. Действительно, по определению,
Я 0 (х)=£Я,(х), (60
но последняя сумма не содержит слагаемых, откуда Н0 (х) тождест венно равно нулю, поэтому и «(0)=О. Лемма (о супераддитнвности). Для бескоалиционной игры Г=(Ы, {Xt}tsN, {Ht},eN) построим функцию v(S)=sup inf Ks 0is, v^s), ScN,
(8.2)
где nseXs, v ^ e A ^ s , rs=(Xs, X^s, Ks)— смешанное расширение антагонистической игры Г5. Тогда для всех S, TcN, для которых Sf\T=0, имеет место неравенство v(S[)T)>v(S)+v(T). (8.3) Доказательство. Заметим, что v(S[jT) = sap inf
£
KifasyT, v^s^n),
^SUr yN \CS|J7) ''eS(Jr
где Htfjr — смешанные стратегии коалиции S[jT, т. е. произвольные вероятностные меры на X#jT, V№,(S\JT) — вероятностные меры на XN\{S\JT), KI — выигрыш игрока i в смешанных стратегиях. Если ограничиться только такими вероятностными мерами на Xs\jT, ко торые являются произведениями независимых распределений fis 148
и vT на декартовом произведении Xs х Хт, то область изменения переменной, по которой производится максимизация, сузится и суп ремум разве лишь уменьшится. Таким образом, имеем v (S\J T) ^ sup sup inf
Y
Kt (jis x цт, vN V(sUn ).
Отсюда v(S(JT)> inf
Y
Ki(fisxnT, v ^
=
= inf ( Y K'0*s x Pr. V/A(SUD)+ E -KiO*s x A*r. vM(sim )• Так как сумма инфимумов не превосходит инфимум суммы, имеем v (S\J Т) > inf Y *. 0*s х 0г. v*\(*im)+ + inf £ К,(ц8хцт, v M(SUn ). Минимизация первого слагаемого в правой части неравенства по /*г, а второго — по fis (для единообразия переименуем их соответст венно vT и vs) приводит к соотношениям v (S[j 7) > inf inf Y Kt 0*s x vr, vM(5UT))+ + inf inf Y £,-(vsx/iT, v M(sU „)> >inf £ ^ ( ^ s , v^sj+inf Y Ki{nT, v^r). Последнее неравенство справедливо при любых значениях мер fis в первом слагаемом и цт — во втором. Следовательно, по этим мерам можно перейти к супремумам v(S{jT)>sup inf Y KiiVs, vjv\5) + sup inf X£,(/i r , у ^ г ) . H
y^s ieS
v^ r ie T
Откуда, используя (8.2), получаем v(S\jT)>v(S)+v(T) и супераддитивность доказана. Заметим, что неравенство (8.3) также справедливо, если функция v (S) строится по правилу »(5)=sup inf Hs(xs, x^s), ScN, 149
где xseXs, x^seX/^s, FS—(XS, X^s, Hs), при этом доказательство дословно повторяет приведенное выше. 8.3. О пределение. Бескоалиционная игра r=(N, {X,}ieN, {H,}ieN называется игрой с постоянной суммой, если Y, #,(x)=c=const ieN
для всех xeXN, XN=Y[ X>ieN
Лемма. Пусть r=(N, {Xi},BN, {Hi}ieN) — бескоалиционная игра с постоянной суммой, функция v(S), SaN, определена, как в лемме п. 8.2, а игры Г5, SczN, имеют значения в смешанных стратегиях. Тогда v(N)=v(S)+v(N\S), ScN. Доказательство. Из определения игры с постоянной суммой получаем, что v(N)=Z
# , ( * ) = ! Ъ{ц) = с
ieN
ieN
для всех ситуаций х в чистых и ц — в смешанных стратегиях. С другой стороны
У
v (S)=sup inf £ Kt (jis, v^s)=sup inf I с - £ Kt (jis, v^s) = c-infsup £ Ki(ns,vNXS) = c-v(N\S), V
N\S
Ms
ieN\S
что и требовалось доказать. 8.4. В дальнейшем под кооперативной игрой будем понимать просто пару (N, «), где v — характеристическая функция, удовлет воряющая неравенству (8.1), поскольку содержательная интерпрета ция характеристической функции, обосновывающая свойство (8.1), не имеет принципиального значения. Пример 15 [10]. {Игра «джаз-оркестр».) Директор клуба обещает 100 руб. певцу S, пианисту Р и ударнику D за совместное выступле ние*. Дуэт певца и пианиста он оценивает в 80 усл. ед., ударника и пианиста в 65 усл. ед. и одного пианиста — в 30 усл. ед. Другие дуэты и солисты не рассматриваются, поскольку присутствие фор тепиано директор клуба считает обязательным. Дуэт певец — удар*Речь идет о «золотых рублях». 150
ник зарабатывает 50 усл. ед., а певец — в среднем 20 усл. ед. за вечер. Ударник один ничего не может заработать. Обозначая цифрами 1, 2, 3 игроков S, Р и D соответственно, мы имеем дело с кооперативной игрой (N, v), где JV={1, 2, 3}, «(1, 2, 3)=100, в(1, 3)=50, «(1)=20, и(1, 2)=80, «(2, 3)=65, «(2)=30, *(3) = 0. Основная задача кооперативной теории игр и лиц заключается в построении реализуемых принципов оптимального распределения максимального суммарного выигрыша v(N) между игроками. Пусть а, — сумма, которую получает игрок i при распределении максимального суммарного выигрыша v(N), iV= {l, 2, ..., и}. Определение. Вектор а=(а 15 ..., а„), удовлетворяющий усло виям <x,>v{{fy, ieN; (8.4)
I «,=«(*),
(8-5)
i— 1
где v ({/}) — значение характеристической функции для одноэле ментной коалиции S= {/}, называется дележом. Условие (8.4) называется условием индивидуальной рациональ ности и означает, что, участвуя в коалиции, каждый игрок получает по меньшей мере столько, сколько он мог бы получить, действуя самостоятельно и не заботясь о поддержке каких-либо других иг роков. Должно также выполняться условие (8.5), так как в случае £ at
рок /eJV получит больше, чем его доля а,. Если же ]£ at>v(N), то IeN
игроки из Оделят между собой нереализуемый выигрыш, и поэтому вектор а неосуществим. Следовательно, вектор а может считаться допустимым только при выполнении условия (8.5), которое называ ется условием коллективной (или групповой) рациональности. На основании условий (8.4), (8.5) для того, чтобы вектор а=(а 1э ..., а„) был дележом в кооперативной игре (N, v), необходимо и достаточно выполнение равенства причем у^О, ieN, £ v i = * ( i V ) - L «({*»• IeN
ieN
Определение. Игра (N, v) называется существенной, если 151
£ v({i})
(8.6)
ieN
В противном случае игра (N, v) называется несущественной. Для любого дележа а через а (5) будем обозначать величину YJ <*i=tx(S), а множество всех дележей — через D. Несущественная игра имеет единственный дележ а=(«({1}), «({2}), ..., «({и})). Во всякой существенной игре с более чем одним игроком множе ство дележей бесконечно. Поэтому будем анализировать такие игры с помощью отношения доминирования. Определение. Дележ а доминирует дележ Р по коалиции S (обо значение а^=/?), если s ai>puieS,a(S)^v(S). (8.7) Первое из условий в определении (8.7) означает, что дележ а лучше дележа р для всех членов коалиции S, а второе отражает реализуемость дележа а коалицией S (т. е. коалиция S на самом деле может предложить каждому из игроков ie S величину а,). Определение. Говорят, что дележ а доминирует дележ р\ если существует коалиция S, для которой аС^р. Доминирование дележа S
Р дележом а обозначается как а^=р\ Доминирование невозможно по одноэлементной коалиции и множеству всех игроков N. Действительно, из сС^Р следовало бы Pi
ieN
воречит условию (8.5). 8.5. Объединение кооперативных игр в те или иные классы существенно упрощает их последующее рассмотрение. В качестве таких классов можно рассмотреть классы эквивалентных игр. Определение. Кооперативная игра (N, v) называется эквива лентной игре (N, v'), если существуют положительное число кип таких произвольных вещественных чисел с„ ieN, что для любой коалиции S с N выполняется равенство v'(S) = kv(S)+Yc,. ieS
152
(8.8)
Эквивалентность игры (N, v) и (N, v1) будем обозначать как (N, v)~(N, v) или v~v. Очевидно, что «~«. Чтобы убедиться в этом, достаточно поло жить в формуле (8.8) с, = 0, к=\, «' = «. Такое свойство называется рефлексивностью. Докажем симметрию отношения, т. е. что из условия v~v следует v'~v. Действительно, полагая k' = \jk, c\= — cjk, получим v(S)=k'v'(S)+Ydc'l, ieS
т. е. v ~v. Наконец, если v~«' и v'~v", то v~v". Это свойство называется транзитивностью. Оно проверяется последовательным применени ем формулы (8.8). Так как отношение эквивалентности рефлексивно, симметрично и транзитивно, оно разбивает множество всех игр и лиц на взаимо непересекающиеся классы эквивалентных игр. Теорема. Если две игры v и v эквивалентны, то отображение а-ю.', где a& = kat+Cb ieN, устанавливает также взаимно однозначное отображение множест ва всех дележей игры v на множество дележей игры v', так что из а^р следует oc'^jS'. Доказательство. Проверим, что а' является дележом в игре (N,«'). Действительно, aj=ht,+c& kv ({/}) + cl=v' ({/}),
£ «;= I (Ь,+А) = Ь(Л0+ £ Ci=v'(N). ieN
ieN
ieN
Следовательно, для а' условия (8.4), (8.5) вьшолнены. Далее, если а^р, то «!>&, ieS, £a»<«(.S), ieS
поэтому <xj =fax,+о,> kpi+с,=р\ (к > 0), £ а; = к £ а,+ £ c^kv ieS
ieS
ieS
№+ I ct=v' (S), ieS
153
т. е. а'^=/?'. Взаимная однозначность соответствия следует из суще ствования обратного отображения (оно было использовано при доказательстве симметрии отношения эквивалентности). Теорема доказана. 8.6. При разбиении множества кооперативных игр на попарно непересекающиеся классы эквивалентности возникает задача выбо ра наиболее простых представителей из каждого класса. Определение. Игра (N, v) называется игрой в (0 — ^редуци рованной форме, если для всех ieN v({i}) = 0,v(N) = L Теорема. Каждая существенная кооперативная игра эквивален тна некоторой игре в (0 — \)-редуцированной форме. Доказательство. Пусть 1
k=
>0,
•W- I •(«) ieN
Cl
*.Ш ,в'(5)=Ь(5)+Х^ 'eS
• W - I«({/}) ieN
Тогда v' ({f}) = 0, v' (N) = 1. Теорема доказана. Из теоремы следует, что свойства игр, включающие понятие доминирования, можно изучить на играх в (0 — 1)-редуцированной форме. Если v — характеристическая функция произвольной суще ственной игры (N, v), то
•Ю-5>(«) V'(S)=
^
, SfcN,
(8.9)
•W-I«(W) ieN
есть (0 — 1) — нормализация, соответствующая функции «. При этом дележом оказывается любой вектор <х = (а19..., а„), компоненты которого удовлетворяют условиям 0,ieN, Х а - = 1 >
(8.10)
ieN
т. е. дележи можно рассматривать как точки (и — 1)-мерного симп лекса, порожденного ортами w,=(0, ..., 0, 1, 0,..., 0),j=l, и простра нства R". 154
§ 9. С-ЯДРО И Я — М-РЕШЕНИЕ
Перейдем к рассмотрению принципов оптимального поведения в кооперативных играх. Как уже отмечалось в п. 8.4, речь будет идти о принципах оптимального распределения максимального суммарного выигрыша между игроками. 9.1. Возможен следующий подход. Пусть игроки в кооператив ной игре (N, v) пришли к такому соглашению о распределении выигрыша всей коалиции N (дележу а*), при котором ни один из дележей не доминирует а*. Тогда такое распределение устойчиво в том смысле, что ни одной из коалиций S невыгодно отделиться от других игроков и распределить между членами коалиции выигрыш v(5). Это рассуждение наводит на мысль о целесообразности рас смотрения множества недоминируемых дележей. Определение. Множество недоминируемых дележей коопера тивной игры (N, v) называется ее С-ядром. Имеет место следующая теорема, которая характеризует Сядро. Теорема. Для того чтобы дележ: а принадлежал С-ядру, необ ходимо и достаточно выполнение для всех S^-N неравенств «(5)^а(5)=Х«с
(9-1)
Доказательство. Для несущественных игр теорема очевидна, и в силу теоремы п. 8.6 достаточно провести ее доказательство для игр в (0 — 1)-редуцированной форме. Докажем достаточность утверждения теоремы. Пусть для деле жа а выполнено условие (9.1). Покажем, что дележ а принадлежит С-ядру. Пусть это не так. Тогда найдется такой дележ /?, что /?>а, т. е. P(S)>a(S) и P(S)^v(S). Но это противоречит (9.1). Покажем необходимость условия (9.1). Для любого дележа а, не удовлетворяющего (9.1), существует коалиция S, для которой a(S)
.
l-v(S)
151 IM-ISI' где \S\ — число элементов множества S. Легко видеть, что /J (iV)= 1, Pt^O и /?}Sa. Отсюда следует, что а не принадлежит С-ядру. Из теоремы п. 9.1 следует, что С-ядро является замкнутым, выпуклым подмножеством множества всех дележей (С-ядро может быть пустым множеством). v 9.2. Пусть игроки договариваются о выборе кооперативного соглашения. Из супераддитивности v следует, что такое соглашение 155
приводит к образованию коалиции N всех игроков. Решается вопрос о способе дележа суммарного дохода v(N), т. е. о выборе вектора xeR", для которого £ <x,=v(N). ieN
Минимальным требованием для получения согласия игроков выбрать вектор а является индивидуальная рациональность этого вектора, т. е. условие а, ^ «({/}), ieN. Пусть игроки договариваются о выборе конкретного дележа а. Против выбора дележа может возражать некоторая коалиция S, требующая для себя более выгод ного распределения. Коалиция S выдвигает это требование, угро жая в противном случае нарушить общую кооперацию (это вполне реальная угроза, так как для достижения дохода v(N) требуется единодушное согласие всех игроков). Предположим, что остальные игроки N\S реагируют на эту угрозу объединенными действиями против коалиции S. Тогда максимальный гарантированный доход коалиции S оценивается числом и (5). Условие (9.1) означает сущест вование стабилизирующей угрозы коалиции S со стороны коалиции N\S. Таким образом, С-ядром игры (N, v) является множество устойчивых в смысле коалиционных угроз распределений макси мального суммарного дохода v (N). Приведем еще один критерий принадлежности дележа С-ядру. Лемма. Пусть а — дележ игры (N, «)• Тогда а принадлежит С-ядру в том и только в том случае, когда для всех коалиций ScN выполняется неравенство ^a^v(N)-v(N\S).
(9.2)
Доказательство. Так как ^a,=v(iV), то приведенное выше неравенство можно записать в виде v(N\S)^
£ «-'• ieN\S
Теперь утверждение леммы следует из (9.1). Из условия (9.1) видно, что если дележ а принадлежит С-ядру, то ни одна коалиция S не может гарантировать себе выигрыш, превос ходящий J]a,=a(5), т. е. суммарный выигрыш, который обеспечивается членам коалиции дележом а. Это делает нецелесообразным существование коалиций S, отличных от максимальной коалиции JV. Теорема п. 9.1 дает достаточные основания для использования С-ядра как важного принципа оптимальности в кооперативной теории. Однако во многих случаях С-ядро может оказаться пустым, а в других случаях оно представляет собой множественный принцип 156
оптимальности и остается всегда открытым вопрос, какой все-таки дележ из С-ядра необходимо выбрать в конкретном случае. Пример 16. Рассмотрим игру «джаз-оркестр» (см. пример 15 п. 8.4). Суммарный доход трех музыкантов максимален (и равен 100 руб.) в случае их совместного выступления. Если певец выступает отдельно от пианиста с ударником, то все втроем они получают 65 + 20 руб., если пианист выступает один, то 30 + 50 руб. Наконец, суммарный доход равен 80 руб., если пианист и певец отказываются от участия ударника. Какое распределение максимального общего дохода следует признать разумным, учитывая описанные возмож ности игроков в смысле частичной кооперации и индивидуального поведения? Вектор а = (а19 а2, а3) в игре «джаз-оркестр» принадлежит С-ядру тогда и только тогда, когда '<хх>20, а 2 ^30, а 3 >0, а1 + а2 + а3 = 100, ^ах + а 2 >80, а2 + а 3 ^65, а! + а 3 >50. Это множество является выпуклой оболочкой следующих трех дележей: (35, 45, 20), (35, 50, 15), (30, 50, 20). Таким образом, выигрыши всех игроков определяются с точностью до 5 руб. Типич ным представителем ядра является центр (среднеарифметическое крайних точек) С-ядра, а именно: а* = (33,3; 48,3; 18,3). Для дележа а* характерно, что все двуэлементные коалиции имеют одинаковый дополнительный доход: a, + aj—v({i, y}) = 1,6. Дележ а* является справедливым компромиссом внутри С-ядра. 9.3. Из того, что С-ядро пусто, не следует невозможность коопе рации всех игроков N. Это просто означает, что никакой дележ не может быть стабилизирован с помощью простых угроз, описанных выше. Пустота ядра имеет место тогда, когда промежуточные коалиции слишком сильны. Это утверждение поясняется следу ющим образом.
/ 1")
0Г ;
г " - \ s \ ••• Рис. 12
п п Рис. 13
157
Пример 17 [10]. (Симметричные игры.) В симметричной игре коалиции с одинаковым числом игроков имеют одинаковый выиг рыш. Характеристическая функция v имеет следующий вид: »(5)=Л|5|) для всех SczN, где \S\ — число элементов множества S. Предположим без потери общности, что/(1)=0 и # = { 1 , .... л}. Тогда множеством дележей игры (N, v) является следующий симп лекс в FC: п
£a,=/(n)=i;(iV), a,>0, i = l, ..., п. i-i
С-ядром является подмножество множества дележей, определенное линейными неравенствами (9.1), т. е. это выпуклый многогранник. В силу симметричности v(S) С-ядро также симметрично, т. е. ин вариантно относительно любой перестановки компонент al9 ..., a„. Учитывая, кроме того, выпуклость С-ядра, можно показать, что оно не пусто в том и только в том случае, когда содержит центр а* множества всех дележей (a*=/(n)/n, i = l , ..., л). Возвращаясь к си стеме (9.1), получаем, что С-ядро не пусто тогда и только тогда, когда для всех |.S| = 1, ..., л имеет место неравенство (1/|51)/(|51)<(1/л)/(и). Таким образом, С-ядро непусто тогда и толь ко тогда, когда не существует промежуточной коалиции 5", в кото рой средняя доля каждого игрока больше соответствующей вели чины в коалиции N. Рис. 12 (13) соответствует случаю, когда С-ядро непусто (пусто). 9.4. Пример 18 [2]. Рассмотрим общую игру трех лиц в (0 — 1)редуцированной форме. Для ее характеристической функции имеем v(0)=v(l)=v(2)=v(3) = O, v(l, 2, 3)=1, . ( 1 , 2)=с 3 , v(l, 3)=c 2 , »(2, 3)=с х , где 0<с,^1, / = 1 , 2, 3. На основании теоремы п. 9.1, чтобы дележ а принадлежал С-ядру, необходимо и достаточно выполнение следующих неравенств: о^ + а ^ С з , oij + аз^с 2 , a2 + a 3 ^c x или а 3 <1 — с3, а 2 <1 — с2, a ^ l — cv (9.3) Складывая неравенства (9.3), получаем <хх + а2 4- а3 < 3 - (сх + с2 + с3), или, поскольку сумма всех а,-, /= 1, 2, 3, тождественно равна единице, + c2 + c 3 <2. (9.4) Последнее неравенство является необходимым условием сущестCl
158
вования в рассматриваемой игре непустого С-ядра. С другой сто роны, если (9.4) выполняется, то существуют такие неотрицатель ные ^ , \г, £3, что 3
£(,+&) = 2, с,+{,<1, i = l , 2, 3. Положим /?,= 1—с, —£,, f=l, 2, 3. Числа /?, удовлетворяют нера венствам (9.3), так что дележ /?=(/?!, fl2, /f3) принадлежит С-ядру игры. Таким образом, соотно шение (9.4) является также доста точным для существования непуРис 14 стого С-ядра. Геометрически множество дележей в рассматриваемой игре есть симплекс: а1 + а2 + а3 = 1, а,^0, /=1, 2, 3 (треугольник ABC, рис. 14). Непустое С-ядро представляет собой пересечение множества деле жей (ААВС) и выпуклого многогранника (параллелепипеда) 0<а,<1— с„ i = l , 2, 3. Это часть треугольника АВС, вырезаемая линиями пересечения плоскостей а,= 1-с„/=1,2, 3 (9.5) с плоскостью А АВС. На рис. 14 через а„ / = 1 , 2, 3, обозначена прямая, образованная пересечением плоскостей а,= 1 —с, ио 1 + о 2 +а 3 =1. Точка пересечения двух прямых а, и а, принадлежит треугольнику АВС, если неотрицательна к-я (кф1, кф]) координата этой точки, в противном случае она находится за пределами А АВС (рис. 15, 16). Таким образом, С-ядро имеет вид треугольника, если совместное решение любой пары уравнений (9.5) и уравнения а1 + а2 + а3 = 1 состоит из неотрицательных чисел. Это требование выполняется при ci_ + c2~^\,ci + c3^\,c1 + c3^\. (9.6) В зависимости от различных случаев (а всего их может быть восемь) С-ядро будет приобретать тот или иной вид. Например, если не выполняется ни одно из трех неравенств (9.6), то С-ядро оказывает ся шестиугольником (рис. 16). 9.5. Другим принципом оптимальности в кооперативных играх является Н — М-решение. Н — М-решение, так же как и С-ядро, является множественным принципом оптимальности в множестве 159
Рис. 15
Рис. 16
всех дележей. Хотя элементы С-ядра и не доминируются никакими другими дележами, однако нельзя утверждать, что в С-ядре для любого наперед заданного дележа а найдется доминирующий его дележ. Поэтому оказывается целесообразной формулировка при нципа оптимальности, который бы учитывал и это последнее обсто ятельство. Определение. Подмножество дележей L кооперативной игры (N, v) называется Н — М-решением, если: 1) из <х>Р следует, что либо <хфЬ, либо рфЬ (внутренняя устой чивость); 2) для любого <хфЬ существует такой дележ f}$L, что /?^=а (внешняя устойчивость). К сожалению, применение понятия Н — М-решения на практике невозможно. Оно несет скорее философский, нежели практический смысл. Между С-ядром кооперативной игры и ее Н — Л/-решением имеется известная связь. Например, если С-ядро не пусто и Я — Мрешение существует, то оно содержит С-ядро. Действительно, пусть дележ а принадлежит С-ядру; тогда если бы он не принадлежал Н — М-решению L, то согласно свойству 2) нашелся бы такой дележ а', что а'^=а. Однако это противоречит принадлежности а Сядру как множеству недоминируемых дележей. Теорема. Если для характеристической функции игры (N, v) в (0 — \)-редуцированной форме (\Щ — п) выполняются неравенства
»(S)<—i—, л-ISI + l
где \S\ — число игроков в коалиции S, то С-ядро этой игры не пусто и является ее Н — М-решением. 160
Д о к а з а т е л ь с т в о . Возьмем произвольный дележ а, лежащий вне С-ядра. Тогда существует непустое множество коалиций {S}, по которым можно доминировать а, т. е. это те и только те коалиции S, для которых <x(S)
.-* • *5°Так как f}(S0)=v(S0), /?,>а,-, ieS0, то В доминирует а по коалиции S0. Докажем, что В содержится в С-ядре. Для этого достаточно показать, что fJ(S)^v(S) при произвольном S. Пусть сначала \S\^k. Заметим, что В не доминируется по S0, так как f}(S0)=v(S0) и не может доминироваться ни по какой коалиции 5<= S0, поскольку /?,>а, (ieS0), a 5"0 — минимальная коалиция, по которой можно доминировать а. Если же хоть один игрок из S не содержится в So, то 1 п-к п-к n-fc+1 n-|S| + l Таким образом, /J не доминируется ни по какой коалиции, содер жащей не более к игроков. Пусть теперь \S\>k. Если S^S0, то я/с» (1Д1-*)д-"(До)> . , o w W - t p(S)= +v(S0)> -> п—к п—к |Д|-*+*-|Д1+1 1 ^ ,_ и-*+*-|5| + 1 я-151 + 1 Если же S не содержит S0, то число игроков множества S, не содержащихся в S0, не меньше \S\ — k+1, поэтому B(S)> >——->———>v(S). п-к п-к+\ л-ISj + l Таким образом, В не доминируется ни по какой коалиции S. Следовательно, /? содержится в С-ядре. Кроме того, В доминирует а. Итак, доказано, что С-ядро непусто и удовлетворяет свойству 2, характеризующему множество Н — М-решений. Свойству 1 С-ядро 161
удовлетворяет автоматически в силу определения. Теорема до казана. 9.6. Определение. Игра {N, v) в (О — \)-редуцированной форме называется простой, если для любых S^N v(S) принимает лишь одно из двух значений О или 1. Кооперативная игра называется простой, если проста ее (О — \)-редуцированная форма. Пример 19 [2]. Рассмотрим простую игру трех лиц в (0 — 1)редуцированной форме, в которой коалиция, состоящая из двух и трех игроков, выигрывает («(5) = 1), а коалиция, включающая только одного игрока, проигрывает («({z}) = 0). Для этой игры рассмотрим три дележа: а12 = (1/2, 1/2, 0), а13 = (1/2, 0, 1/2), а23 = (0, 1/2, 1/2). (9.7) Ни один из этих трех дележей не доминирует никакого другого. Множество дележей (9.7) имеет и следующее свойство, любой дележ (кроме трех дележей ai}) доминируется одним из дележей аи. Чтобы это проверить, рассмотрим какой-нибудь дележ а=(а 1а а2, а3). Так как мы рассматриваем игру в (0 — 1)-редуцированной форме, то а,^0 и а1 + а2 + а3 = 1. Следовательно, не более двух компонент вектора а могут быть не меньше 1/2. Если их действительно две, то каждая из них равна 1/2, в то время как третья равна 0. Но это означает, что а совпадает с одним из ау. Если же а — какой-нибудь иной дележ, то он имеет не более одной компоненты, не меньшей чем 1/2. Значит, по крайней мере две компоненты, например, а,- и а,, где i<j, меньше 1/2. Но в этом случае a(V>a. Таким образом, три и
дележа (9.7) образуют Н — М-решение. Но это не единственное Н — М-решение. Пусть с — любое число из отрезка [0, 1/2]; легко проверить, что множество
L3,e={(a, \-c-a,
c)|0s£a
также является Н — Af-решением. Действительно, в это множество входят дележи, при которых игрок 3 получит постоянную с, а игро ки 1 и 2 делят остаток во всевозможных пропорциях. Внутренняя устойчивость следует из того, что для любых двух дележей а и /? из этого множества имеем: если а х >^ 15 то а 2 <0 2 . Однако доминиро вание по коалиции, состоящей из единственного участника, невоз можно. Чтобы доказать внешнюю устойчивость L3, „ возьмем ка кой-либо дележ рфЬ3с. Это означает, что либо /?3>с, либо ръ<с. Пусть Р3>с, например /?3 = с + е. Определим дележ а следующим образом: <*i=0i + e/2, а 2 =Д 2 + е/2, а 3 = с 162
Тогда, <xeL3, с и а^Р по коалиции {1, 2}. Пусть теперь Ръ<с. Ясно, что либо р1^1/2, либо /?2^1/2 (ибо в противном случае их сумма была бы больше 1). Пусть /?х ^ 1/2. Положим а = (1 — с, О, с). Так как 1 — ol/l^Pi, то а^р по коалиции {1, 3}. Очевидно, что ае!^, сЕсли же /?2< 1/2» то можно показать аналогично, что y^/J, где у = (0, 1-е, с). Итак, кроме симметричного Я — М-решения, рассматрива емая игра имеет еще целое семейство решений, при которых игрок 3 получает фиксированное количество с из отрезка 0<с<1/2. Эти Н — Л/-решения называются дискриминирующими; говорят, что игрок 3 при этом дискриминирован. В случае множества Z^_ 0 гово рят, что игрок 3 полностью дискриминирован или исключен. Из соображений симметрии очевидно, что существуют также два семейства Н — Л/-решений Lh c и Z^, „ в которых дискриминируют ся игроки 1 и 2 соответственно. Предшествующий пример показывает, что у игры может быть чрезвычайно много Н — Л/-решений. Совершенно неясно, какое из них следует выбрать. Когда же Я — Л/-решение выбрано, остается непонятным, какой из него выбрать дележ. Существование Н — Л/-решений в общем случае до сих пор не доказано, однако получены некоторые частные результаты. Одни из них касаются существования Н — М-решений для конкретных клас сов игр, другие — существования решений определенного типа [5]. § 10. ВЕКТОР ШЕПЛИ
10.1. Множественность рассмотренных ранее принципов оптима льности С-ядра и Я — Af-решения в кооперативных играх, а также жесткие условия существования этих принципов стимулируют по пытки поиска принципов оптимальности, существование и единст венность которых были бы обеспечены в каждой кооперативной игре. К таким принципам оптимальности относится вектор Шепли. Вектор Шепли определяется аксиоматически. Определение. Носителем игры (N, v) называется такая ко алиция Т, что v(S)=v(S(~)T) для любой коалиции S<=N. Содержательно определение утверждает, что любой игрок, не принадлежащий носителю, является «болваном», т. е. не может ничего внести ни в какую коалицию. Рассмотрим произвольную перестановку Р упорядоченного мно жества игроков iV={l, 2, ..., л}. С этой перестановкой связана подстановка я, т. е. такая взаимно однозначная функция я: N-*N, что для ieN значение n(i)eN представляет собой элемент из N, в который переходит ieN в перестановке Р. Определение. Пусть (N, «) — игра п лиц. Р — перестановка множества N, an — соответствующая ей подстановка. Тогда через 163
(N, nv) обозначим такую игру (N, и), что для любой коалиции S={it, i2 i,}
иЦп^п^),
ScN,
...,n(Q})=v(S).
По существу игра (N, nv) отличается от игры (N, v) лишь тем, что в последней игроки поменялись ролями в соответствии с переста новкой Р. С помощью этих определений можно изложить аксиоматику Шепли. Сначала заметим, что так как кооперативные игры к лиц, в сущности, отождествляются с вещественными (характеристичес кими) функциями, то можно говорить о сумме двух или большего числа игр, а также о произведении игры на число. 10.2. Поставим в соответствие каждой кооперативной игре (N, v) вектор
5>,Н=«(5). ieS
2. Для любой подстановки п и ieN
3. Если (N, и) и (N, v) — две любые кооперативные игры, то
164
Тогда для игры (N, w,) аксиомы 1, 2 однозначно определяют вектор
9,Ы = № .'!*
(10-2)
где -s= |iS| — число игроков в S. Доказательство. Ясно, что S — носитель w„ как и любое множество Т, содержащее множество S. Тогда по аксиоме 1, если
ScT, то
Но это означает, что
|ф,
ieS,
1 0, /#5.
Доказательство очевидно. Таким образом, (p[cws]=cq>[ws] для с>0. Теперь покажем, что если ^c s )v s является характеристической функцией, то
\s
/
s
(Ю.З)
s
В случае c s >0 первое равенство в (10.3) постулируется аксиомой 3, второе следует из следствия. Далее, если и, v и и—v — харак теристические функции, то согласно аксиоме 3 имеем (p[u—v]=q> [и] — q>[v]. Отсюда следует справедливость (10.3) для лю бых cs. Действительно, если £ csws — характеристическая функция, s 165
то
v = Ycsws=
£
csws-[
{S\cs»0}
£
(-c s ))wS
'
\{S|c s <0}
поэтому
c w
E
(~ c s) w s =
s s -
E
J
L{S|Cs<0}
L{S|Cj»0}
c
J
w
= E адЫ- E (- sM s]=E
{S|<:s»0}
S
10.4. Лемма. Пусть (N, v) — любая игра, тогда найдутся 2* —1 вещественных чисел cs, таких, что » = Е csws>
(Ю.4)
ScJV
где ws определены (10.1), а суммирование ведется по всем подмноже ствам S множества N, исключая пустое множество. При этом представление (10.4) единственно. Доказательство. Положим (-l)S~'v(T)
<*= I
(10.5)
{Г|Гс=5)
(здесь t — число элементов в 7). Покажем, что эти числа cs удовлет воряют условиям леммы. Действительно, если U — произвольная коалиция, то
Е **.(0)- Е *«« Е ( Е (-1Г'«(*))-
= Е Г Е <-ir'l«
Е^=К-1Г'=Е^-'<(-1Г'. S-t но это биномиальное разложение (1 — 1)" . Следовательно, для всех t
166
csws(U)=v(U).
Докажем единственность представления (10.4). Любой харак теристической функции v соответствует элемент пространства В2"'1. Действительно, упорядочим коалиции TaN. Тогда каждой непустой коалиции Гс=ЛГ соответствует компонента вектора, равная v (Г). Эти векторы будем обозначать, как и функции, через v. Очеви дно, что простейшим характеристическим функциям ws соответ ствуют векторы, у которых компоненты равны либо нулю, либо единице. Докажем, что простейшие характеристические функции (точнее, соответствующие им векторы) линейно независимы. Дейст вительно, пусть £ Xsws(T)=0 для всех TcN. ScN
Тогда для Т={г] имеем ws({f}) = 0, если S=t{i}, и ws({i})=\, если 5'={i}. Поэтому А{(} = 0 для всех iczN. Продолжим доказательство методом индукции. Пусть As=0 для всех ScT, 5 # Т. Покажем, что А г =0. Действительно, £ Asws(7) = £ ScJV
lsws(T)=XT=0.
ScT
Таким образом, мы имеем 2я—1 линейно независимых вектора в Rz - 1 , поэтому любой вектор, а значит и любая характеристичес кая функция v единственным образом выражается в виде линейной комбинации (10.4) простейших характеристических функций ws. Лемма доказана. 10.5. Перейдем к доказательству теоремы п. 10.2. Лемма п. 10.4 показывает, что любая игра может быть представлена в виде линей ной комбинации игр ws, причем представление (10.4) единственно. Согласно п. 10.3 функция q> [v] единственным образом определяется соотношениями (10.3), (10.2). Пусть (N, v) — произвольная игра. Получим теперь выражение для вектора q>[v]. Согласно п. 10.3, 10.4 Ф*И= £
cs(p,[ws]= £
cs(lls),
но cs определены формулой (10.5). Подставляя (10.5) в это выраже ние, получаем
(1/*)Г I
= I Г I
(-1Г'«(7)
(-ir'(mv(T)
Положим 167
ViV)=
£
(-iy-'(Hs).
(10.6)
{S\7\JieS<=N}
Если i$T и T=T'\J{i}, то y,(7")=-у,(Г). Действительно, все члены в правой части (10.6) в обоих случаях одни и те же, и только t=t'+l, следовательно, они отличаются лишь знаком. Таким образом, имеем {Г|1бГ<=ЛГ}
Далее, если ieT, то ровно CnZ.'t таких коалиций S с s элементами, что Г с 5 . В результате получаем хорошо известный определенный ин теграл:
y,(T)=i(-l)'-'CnZ't(lls) = 1
1
•.
l
= £(-1Г'(7 л - \x'- dx= f £(-ir'Qi<*'-'<&= S-t
J 0
J J-» 0
1
1 _l
s
= f* i(-l)"'ОТ-',x -'dx= о о Таким образом, имеем (бета-функция) ,~*
ix^il-xf-'dx.
(1-1)!(л-0!
у,(Г)= л!
и, следовательно, 9iM=
(r
I
~ 1)! f" <)! [t>(7)-t,(7\{/})].
(10.7)
Формула (10.7) определяет компоненты вектора Шепли в явном виде. Это выражение удовлетворяет аксиомам 1 — 3 п. 10.2. Заметим, кроме того, что вектор <р [«] всегда является дележом. Действительно, в силу супераддитивности функции v Ф. [«]>«({*})
X
{T\ieT^ff}
; n
-
=»({»}) LCJJi t-l
;
= «({*})•
nl
10.6. Если отвлечься от аксиоматического определения, то век тору Шепли, выраженному формулой (10.7), можно дать следующее содержательное истолкование. Предположим, что игроки (элемен ты множества N) решили встретиться в определенном месте в опре деленное время. Естественно, что из-за случайных отклонений все 168
они будут прибывать в различные моменты времени; однако пред полагается, что все порядки прибытия игроков (т. е. их перестанов ки) имеют одну и ту же вероятность, а именно 1/(и!). Предположим, что если игрок /, прибывая, застает на месте членов коалиции Т\ {/"} (и только их), то он получает выигрыш «(7)—v (7\{i}); иначе говоря, его выигрышем является предельная величина, которую он вносит в коалицию. Тогда компонента вектора Шепли <р,[«] представляет собой математическое ожидание выигрыша игрока i в условиях этой рандомизационной схемы. 10.7. Для простой игры (п. 9.6) формула для вектора Шепли особенно наглядна. Действительно, v(T)—v(T\{i}) всегда равно ли бо 0, либо 1, причем это выражение равно 1, если Т — выиг рывающая коалиция, а коалиция 7\ {г} не является выигрывающей. Следовательно, имеем
<р,м=Е('-1Ж«-0!М т где суммирование распространяется на все такие выигрывающие коалиции 7Ъ i, для которых коалиция 7\ {/} не является выигрыва ющей. Пример 20 [2]. (Игра с главным игроком.) В игре участвуют п игроков, один из которых называется «главным». Коалиция S вы игрывает 1, если она либо содержит главного игрока и хотя бы одного кроме него, либо всех и— 1 «неглавных». Бели главный игрок имеет номер л, то характеристическая функция этой игры записыва ется в следующем виде: 1, 5Ь{/, и}, 1фп, 1, * э { 1 , .... 1.-1}, 0, в остальных случаях.
{
Ясно, что для всякой коалиции Г=э{и} условия v(T)=l и »(7\{п}) = 0 выполняются тогда и только тогда, когда 2<|71<и-1. Поэтому (рпЫ= X Ci-i 1.2
л!
;
=—• "
Поскольку игра имеет (0 — 1)-редуцированную форму, л-1 1=1
Все неглавные игроки равноправны, поэтому в силу симметрии 2
9t[v] =л(л-1) ~—-, / = 1 , - , л - 1 . 169
Таким образом «монопольное» положение главного игрока обеспечивает ему в (и — 1)(и —2)/2 раз больший выигрыш, чем «рядо вым» участникам игры. 10.8. Пример 21 [2]. («Помещик и батраки».) Предположим, что имеются п— 1 батраков (игроки / = 1 , ..., и—1) и помещик (игрок и) и что помещик, наняв k батраков, получит от урожая доход f(k) (f(k) — монотонно возрастает), а батраки сами дохода получить не могут. Это описывается следующей характеристической функцией: (0, в противном случае. Здесь для всех 7Ъ{л}, |Т|>1, v(T)-v(T\{n})=f(t-\), и из (10.7) следует Ф»И=£С.-1 t-2
nl
;
Д'-1)=- I п
где t=\T\,
/0).
Г-1
На основании условия эффективности и симметрии всех батраков <РМ=—Л я-1
(Ди-1)- 1 "l ЛОХ '=1, - , " - 1 л ,_, Упражнения • задачи
1. Два объединения производят разведку полезных ископаемых на л месторож дениях. Фонды средств на разведку у 1-го и 2-го объединения составляют а и /? соот ветственно. Прибыль от добычи полезных ископаемых на >-м месторождении равна у,->0, она распределяется между объединениями пропорционально доле средств, которые они вложили в i месторождение. При этом если в i месторождение обоими не вложено никаких средств, то и прибыли, полученные обоими объединениями на i-м месторгждении, также равны нулю. а.) Спи ать указаний конфликт в виде игры двух лиц, считая выигрышем каж дого объединения суммарную прибыль, полученную от добычи полезных ископа емых на всех месторождениях. б) Найти ситуацию равновесия по Нашу. У к а з а н и е . Воспользоваться вогнутостью функций Н1 по х и Н2 по у. 2. В экологически значимом районе имеется л промышленных предприятий, на каждом из которых один источник загрязнения. Значение концентрации qt вредной примеси, выбрасываемой i-м предприятием, пропорционально величине выброса 0<x,
170
Указание. Воспользоваться результатом примера 5 п. 1.4. 3. Найти множества всех ситуаций равновесия по Нэшу (в чистых стратегиях) в следующих (/и х л)-биматричных играх с матрицами А = {а,^} и В= {/?,;/}. а) Матрицы А и В — диагональные и положительные, т. е. т=п, (*{/=/?;,=О, i?j я а„>0, Ри>0, 1 = 1, ..., m,j=\, ..., л. б)
л.\г ' 51, в.? |_2 2 3j
г
'I;
L0 7 8 J
в)
[ [
3 8 -1"1
Г 1 3 4"|
4. Показать, что в биматричной 4 0 игре 2 сI матрицами В= 2 1 8 I 11 22 0~|3 j
П L 24 30"|o j
А=
ситуация (2, 2) является равновесной. равновесной? 1 3 1Является , В= ли1она 3 сильно 2 5. В биматричной игре с матрицами 2 2 lj l_l 3 0_| 4 1 0~| ГО 5 6~|
[
А=
найти все ситуации, оптимальные в чистых Есть ли в этой игре 2 по 7 Парето 5 I В=\ 7 0стратегиях. 2 равновесные ситуации в чистых стратегиях? 1J |_2 6. Изобразить графически6 в 0координатах (Kt, 6K2)1_| множество всевозможных векторов выигрышей в смешанных стратегиях в игре «семейный спор» (см. п. 1.4). Указание. Произвольные смешанные стратегии х и у игроков 1 и 2 соответст венно могут быть записаны в виде х=({, 1 —£), У=(1, 1—1)> €> VeV>> 1]- Записывая функции выигрыша Кг и Кг в смешанных стратегиях и исключая один из параметров, получаем однопараметрическое семейство отрезков, объединение которых и есть искомое множество (см. рис. 9). Криволинейная часть границы представляет собой огибающую этого семейства отрезков и является частью параболы: 5A^+5X|_-IOA:1X2-I8(A:1+A:2)+45=O.
7. Воиматричной игре с матрицами
[
6 0 2~|
Г6 0 7 1
А=
найти вполне смешанную ситуацию 0 4 3равновесия , В= по 0 4Нэшу. 0 I Имеет ли эта игра еще ситуации равновесия в смешанных стратегиях? Указание. Найти сначала равновесия (х, у), 7 вполне 0 o j смешанную |_2 3 ситуацию Oj х=(^и £2, £3)» У "(flu f 2> "з)> затем такую равновесную ситуацию, для которой {t =0, и т. д. 8. «Игра на оригинальность» [23]. Рассматривается бескоалиционная игра л лиц 171
Г - W {X,},eHt Wi,id.
где *,={0, 1}, Я,(0, ....
0|1)-Й>0,
tf,(l, .... 1||0) = А,>0,
i
i
Я,(х)=0 в остальных случаях, где || означает, что замена производится на »'-м месте. i
а) Интерпретировать игру в терминах рекламного дела. б) Найти вполне смешанную ситуацию равновесия. 9. В п. 10.1 гл. I было показано, что игры двух лиц с нулевой суммой можно решать методом «фиктивного разыгрывания». Рассматривая биматричную игру с матрицами Г 2 0 1~|
Г1 0 2~|
I 1 2 0 I 1_0 1 2_|
2 1 0 . |_0 2 l j
показать, что этот метод не может быть использован для нахождения ситуаций равновесия в биматричных играх. 10. Игра «музыкальные стулья» [10]. Имеются два игрока и три стула, помечен ные цифрами 1, 2, 3. Стратегия игрока состоит в выборе номера стула. Оба игрока несут потери при выборе одного и того же стула. Если же их выборы различны, то тот игрок, например /, чей стул следует фазу за стулом игрока у, выигрывает вдвое больше, чем игрок j (предполагается, что стул 1 следует за стулом 3). Получаем биматричную игру Г (А, В),
[
(0, 0) (1, 2) (2, 1)"| (2, 1) (0, 0) (1, 2) .
(1, 2) (2, 1) (0, 0)J
а) Показать, что единственное вполне смешанное равновесие по Нашу состоит в равновероятном выборе стульев каждым игроком. б) Показать, что равновесие в совместных смешанных стратегиях имеет вид fl/б, если 1ф}, LihJ)=\ . . . I 0, если i—j. в) Показать, что выигрыши в ситуации равновесия по Нашу не являются оп тимальными по3Парето, а равновесие в совместных смешанных стратегиях приводит к выигрышам ( /2, / 2 ), оптимальным по Парето. 11. Равновесие в совместных смешанных стратегиях не обязывает игроков приде рживаться чистых стратегий, реализовавшихся в результате принятой совместной смешанной стратегии (см. определение п. 6.1). Если же мы обязаны придерживаться результатов конкретной реализации совместной смешанной стратегии, то можно обобщить «равновесие в совместных смешанных стратегиях». Для всех ieN обозна чим через ц (N\ {>}) сужение распределения ц на множество Х^ {,•} = ]~[ Xj, а именно 16МЙ
для всех xeY[ Xi- Будем говорить, что ц есть слабое равновесие в совместных ieN
смешанных стратегиях, если выполнены следующие неравенства для всех ieN nyieXf. 172
хе
а) Доказать, что всякое равновесие в совместных смешанных стратегиях являет ся слабым равновесием в совместных смешанных стратегиях. б) Пусть //=(/*,, ..., fin) — векторная ситуация в смешанных стратегиях в игре Г. Показать, что вероятностная мера Д= J~[ ц, на множестве Х= ]~[ X, является слабым равновесием в совместных смешанных стратегиях и равновесием в совместных стратегиях тогда и только тогда, когда ситуация n={jil3 ••-, pin) равновесна по Нашу. 12. а) Доказать, что в игре, сформулированной в упр. 10, множество ситуаций равновесия по Нэшу, множество ситуаций равновесия в совместных стратегиях и множество ситуаций слабо равновесных в совместных смешанных стратегиях различны и не совпадают между собой. б) Показать, что множество вектор-выигрышей, оптимальных по Парето среди выигрышей5 в ситуации равновесия в совместных смешанных стратегиях, покрывает отрезок [( /3, 4 / 3 ), С7з, 5/з)], а выигрыши, оптимальные по Парето среди слабо равновесных в совместных смешанных стратегиях, покрывают отрезок [(2, 1), (1, 2)]. Г
2 - 1 -
13. Найти арбитражное решение биматричной игры с матрицами А = 5=1Г 1
- ПI, используя схему Наша.
14. Рассмотрим биматричную (2 х 2)-игру с матрицей Pi Pi а 1 Г(1,1) (1,2) "I
«2 L(2, l) (-5, 0)J Это модификация игры «перекресток» (см. пример 2 п. 1.4), отличие которой заключается лишь в следующем. Водитель легкового автомобиля (игрок 1) и грузо вого (игрок 2) по-разному оценивают результаты аварии (ситуация (а,, /}2)). Пока зать, что анализ игры в стратегиях угроз предписывает ситуацию (а,, р2), т. е. грузовому автомобилю «ехать», а легковому — «остановиться». 15. Пусть ядро имеет непустое пересечение со всеми гранями a,=v({i}) множества дележей. Показать, что в этом случае оно является единственным Я— Af-решением. 16. Для кооперативной игры (N, ») определим полудележ как вектор a=(atj а„), для которого «/>»({»}) н Z *<<»М- Показать, что если L есть Я—М-решение игры (N, с) и a — полудележ, не принадлежащий L, то существует такой дележ fieL, что jS>r г. 17. Для игры (N, v) определим ft равенством
ft- max KSU0'})-»(S)]. Показать, что если найдется /, для которого a,>ft, то дележ ос не может принадлежать ни ядру, ни одному из Я — Af-решений. 18. Пусть (N, ») — простая игра в (0 — 1)-редуцированной форме (см. п. 10.6). Игрок i называется «вето»-игроком, если f(7V\{i'}/=0. 173
а) Доказать, что для того, чтобы С-ядро в простой игре было непустым, необходимо и достаточно, чтобы в игре существовал хотя бы один «вето»-игрок. б) Пусть S — множество всех «вето»-игроков. Показать, что дележ ot=(aj,..., a„) принадлежит С-ядру, если £ а,-=1, а,>0, для ieS, и щ—0, для i^S. 19. В игре (N, v) под квазидележом будем понимать вектор a=(a,, ..., ац), такой, что Y.
OLI=V(N)-
Для каждого «>0 определим строгое в — ядро С,(ю), как множество
квазидележей таких, что для каждой коалиции £
«i>v(S)-e.
ieS
а) Показать, что если е<е', то С,(е)с=С,<, (»). б) Показать, что существует наименьшее число, для которого C,(t>)#0. При таком Е множество С,(«) называется минимальным е-ядром и обозначается через MC(v). в) Найти минимальное «-ядро в игре (N, «), где N={1, 2, 3); •>({'})=<>> »({1» 2})=50, ,({1, 3})=80, .({2, 3})=90, .{Л}-100. г) Пусть (iV, v), (N, v1) — две кооперативные игры и для некоторых £ и г' выполняется равенство C,(c') = C,'(i;)#0. Показать, что в этом случае для всех 5>0, C«-i(»)=Q-«(»')- В частности, MC(v)=MC(vr). 20. Показать, что если (N, v) — игра с постоянной суммой (см. п. 9.3), то вектор Шелли if определяется по формуле Г(л-*)!(*-1)! И
лМ-2
S
\-
~j—~v(S)
\-v(N).
21. Игра (N, v) называется выпуклой, если для всех S, TaN v(S\J1)+v(Sf]T)>v(S)+v(T). а) Доказать, что выпуклая игра имеет непустое С-ядро и вектор Шелли принад лежит С-ядру. б) Показать, что (N, v) — выпуклая игра, если
а т=(ти .... /и„) — неотрицательный вектор. 22. Рассмотрим простую игру (N, v) в (0 — 1)-реАудированной форме. Под «скачком» игрока i будем понимать такое множество SczN, для которого «(5) = 1, а v(S \{/})=0. Обозначим через 0,- число скачков игрока i в игре. Тогда вектор P(v)=(fii («)
Дп(")). гДе A(«)=fy/ Z fy называется вектором Банзафа для простой
игры. а) Для простой игры четырех лиц (N, «), в которой коалиция S выигрывает, если она состоит либо из двух игроков и игрока {1} eS, либо из трех игроков или четырех игроков, показать, что 0t=6, в2=в3 = В^=2н, следовательно /f(»)=(l/2,1/6,1/6,1/6). б) Показать, что /? (г) совпадает в игре упр. (2.2 а) с вектором Шепли. 174
23. Пусть {N, v) — простая игра трех лиц, в которой коалиции (1, 2), (1, 3), (1, 2, 3) являются единственными выигрывающими коалициями. Показать, что в этой игре 0j = 3, в2 = в3 = 1 и, следовательно, вектор Банзафа имеет вид /((и) = (3/5, 1/5, 1/5), а вектор Шегош равен <р[«]=(2/3, 1/6, 1/6). 24. Рассмотрим неотрицательный вектор р—(л,, ..., я„) и число 0>О. Пусть п
О<0< £ я'- Взвешенной игрой большинства будем называть простую игру (N, v), 1-Ъ
.
в которой характеристическая функция v определяется по правилу \ 0, если £ ni<0> »(S)=<
ieS
( 1, если Y, Щ>0ieS
Пусть0=8ир=(4, 3, 3,2, 2,1), л=6. Вычислить вектор Шепли и вектор Банзафа для простой взвешенной игры большинства.
ГЛАВА IV
ПОЗИЦИОННЫЕ ИГРЫ
§ 1. МНОГОШАГОВЫЕ ИГРЫ С ПОЛНОЙ ИНФОРМАЦИЕЙ
1.1. В предыдущих главах нами рассматривалась игра в нор мальной форме. К такой форме в принципе может быть сведен динамический (т. е. протекающий в течение некоторого времени, а не мгновенно) конфликтно-управляемый процесс формальным введением понятия чистой стратегии. В тех немногочисленных слу чаях, когда мощность пространства стратегий невелика и имеется возможность численного нахождения решений, такой подход явля ется вполне допустимым. Однако в большинстве задач поиска оптимального поведения участников конфликтно-управляемого процесса переход к нормальной форме, т. е. сведение задачи к одно кратному выбору чистых стратегий как элементов пространств больших размерностей или функциональных пространств, не приво дит к эффективным способам нахождения решений, хотя и позволя ет наглядно иллюстрировать те или иные принципы оптималь ности. В ряде случаев общие теоремы существования решения для игр в нормальной форме не позволяют находить или даже конк ретизировать оптимальное поведение в играх, нормализацией кото рых они являются. Как будет показано ниже, в «шахматах» суще ствует решение в классе чистых стратегий. Однако этот результат невозможно получить прямым исследованием матричной игры. Еще более отчетливо это обстоятельство проявляется при исследо вании дифференциальных игр преследования, для которых в ряде случаев удается находить решения в явной форме, однако нормаль ная форма дифференциальной игры является настолько общей, что получение конкретных результатов оказывается практически невоз можным. 1.2. Математические модели конфликтов, учитывающие динами ку, исследуются в теории позиционных игр. Наиболее простым клас сом позиционных игр является класс конечношаговых игр с полной информацией. Для определения конечношаговой игры п лиц с пол ной информацией потребуются элементарные сведения из теории графов. Пусть X — некоторое конечное множество. Правило/, ставящее в соответствие каждому элементу х е X элемент Дх)еХ, называется однозначным отображением X в X или функцией, определенной на 176
X и принимающей значения в X. Многозначное отображение F мно жества X в X — это правило, которое каждому элементу хеХ ставит в соответствие некоторое подмножество FxaX (при этом не исключается возможность Fx=0). В дальнейшем для простоты будем употреблять термин «отображение», понимая под ним «мно гозначное отображение». Пусть F — отображение X в X, а А с X. Под образом множества А будем понимать множество FA={jFx. хеЛ
По определению полагаем F(0)=0. что если At<=-X, i= 1, ..., п, то
Можно убедиться в том,
*{и А=U FA» *{п ^)<= П FA, \;-1
/
i-i 2 3
V-i
/
i-i
Определим отображения F , F , ..., F, ..., следующим образом: / « = № ) , F?=F(F?), ..., Fkx=F{Fk-\ ... (1.1) Отображение F множества X в X называется транзитивным замыка нием отображения F, если
A-MlteUtfU-UtfU-"
0-2)
-1
Отображение JF* , обратное отображению F, определяется как F;l = {x\yeFx}, т. е. это множество тех точек х, образ которых содержит точку у. Аналогично отображению Fx определяется отображение (F~1)*, т. е. (F-^-F-'iiF-1),), (1.3) Если -ВсЛТ, то полагаем ,Г 1 (5) = { х | ^ П ^ ^ 0 } -
(1-4)
Пример 1. (Шахматы.) Каждая позиция на доске определяется как количеством и составом фигур каждого игрока, так и их рас положением в данный момент и указанием того, кто из игроков должен в этот момент играть. Пусть заданы: X — множество пози ций, F„ хеХ — множество тех позиций, которые могут реализо ваться непосредственно после позиции х. Если в позиции х число белых и черных фигур равно нулю, то Fx=0. Тогда Fx, определя177
емое (1.1), есть множество позиций, которое может быть получено из х за к ходов; Fx — множество всех позиций, которые могут быть получены из х; F~l(A) (AczX) — множество тех позиций, из кото рых за один ход возможен переход в позиции из множества А (см. (1.2) и (1.4)). Изображая позиции точками и соединяя стрелкой две позиции х и у, yeFx, теоретически можно построить граф игры, исходящий из начальной позиции. Однако из-за очень большого числа позиций нарисовать такой граф невозможно. Использование многозначных отображений над конечными мно жествами позволяет представить структуру многих многошаговых игр: шахмат, шашек, игры «го» и др. Определение. Пара (X, F) называется графом, если X— неко торое конечное множество, a F — отображение X в X. Граф (X, F) будем обозначать символом G. В дальнейшем элементы множества X будем изображать точками на плоскости, а пары точек х и у, для которых yeF„ соединять непрерывной линией со стрелкой, направленной от х к у. Тогда каждый элемент множества X называется вершиной или узлом графа, а пара элемен тов (х, у), в которой yeFx — дугой графа. Для дуги р = (х, у) вершины х я у называются граничными вершинами дуги, причем х — начало, а у — конец дуги. Две дуги р и q называются смеж ными, если они различны и имеют общую граничную точку. Множество дуг в графе будем обозначать Р. Задание множества дуг в графе G=(X, F) определяет отображение F и, наоборот, отображение F определяет множество Р. Поэтому граф G можно записывать как в виде G=(X, F), так и в виде G=(X, Р). Путем в графе G—(X,F) называется такая последовательность Р=(Ри Рг> •••> Рь •••) ДУГ, что конец каждой предыдущей дуги совпадает с началом следующей. Длина пути р=(р1г ..., Рк) есть число 1(р)=к дуг последовательности; в случае бесконечного пути р полагаем 1(р)= со. Ребром графа G=(X, P) называется множество из двух элемен тов х, уеХ, для которых или (х, у)еР, или (у, х)еР. В отличие от дуги для ребра ориентация роли не играет. Ребра будем обозначать буквами р, q, а множество ребер — Р. Под цепью будем понимать последовательность ребер (pv p2, ...), в которой у каждого ребра рк одна из граничных вершин является также граничной для Рк-\, а другая — граничной для pk+i. Цикл — это конечная цепь, начинающаяся в некоторой вершине и оканчивающаяся в той же вершине. Граф называется связным, если любые две его вершины можно соединить цепью. Дерево или древовидный граф, по определению, есть конечный 178
Рис. 17
связный граф без циклов, имеющий не менее двух вершин. Во всяком древовидном графе существует единственная вершина х0, такая, что FXa = X. Вершина х0 называется начальной вершиной графа G. Пример 2. На рис. 17 изображено дерево или древовидный граф с началом х0. Точками отмечены узлы хеХ или вершины графа. Дуги графа изображены отрезками со стрелкой, выделяющей нача ло и конец дуги. Пример 3. Шашки или шахматы, вообще говоря, не могут быть изображены с помощью древовидного графа, если под вершиной графа понимать расположение фигур на доске в данный момент и указание хода, поскольку одно и то же расположение фигур может быть получено различными путями. В то же время, если под верши ной графа, изображающего структуру шашек или шахмат, пони мать расположение фигур на доске в данный момент, указание хода и всю предысторию игры (все последовательные расположения фигур на предыдущих ходах), каждая вершина будет достигаться из начальной единственным способом (т. е. существует единственная цепь, ведущая из начальной вершины в любую заданную), поэтому соответствующий граф игры не содержит циклов и является дере вом. 1.3. Пусть zeX. Подграфом Gz древовидного графа G = (X, F) 179
называется граф вида (Xz, Fz), где XZ=FZ, a Fzx=Fx(^\Xz. На рис. 17 штриховой линией обведем подграф, берущий начало из вершины z. В древовидном графе для всех xeXz множество Fx и множество Fzx совпадают, т. е. отображение F. является сужением отображения F на множество Xz. Поэтому для подграфов древовидного графа будем использовать обозначение Gz=(Xz, F). 1.4. Перейдем теперь к определению многошаговой игры с полной информацией на древовидном конечном графе. Пусть G=(X, F) — древовидный граф. Рассмотрим разбиение я+1
множества вершин X па. п+l множество Xt, ..., Хп, X„+l, [j Xt=X, Xk(\X,= 0, кф1, где FX=0 для хеХ„+1. Множество X„ / = 1 , ..., п называется множеством очередности 1-го игрока, а множество Xn+i —множеством окончательных позиций. На множестве окон чательных позиций Х„+1 определены п вещественных функций Ht(x), ..., Ня(х), хеХя+1. Функция # ( (х), / = 1 , ..., л, называется выигрышем i-ro игрока. Игра происходит следующим образом. Задано множество N иг роков, перенумерованных натуральными числами 1, ..., i, ..., п (в дальнейшем iV={l, 2, ..., п}). Пусть x0eA"ilS тогда в вершине (пози ции) х0 <аодит» игрок i t и выбирает вершину Xj^eF^. Если ХуеХ^, то в вершине х, «ходит» игрок г2 и выбирает следующую вершину (позицию) x2eFXi, и т. д. Таким образом, если на k-м шаге вершина (позиция) дг*_1 еХь, то в ней «ходит» игрок /*и выбирает следующую вершину (позицию) из множества Fxk_i. Игра прекращается, как только достигается окончательная вершина (позиция) xieX„+u т. е. такая, для которой Fx,= 0. В результате последовательного выбора позиций однозначно реализуется некоторая последовательность х0, ..., хк, ..., xh опреде ляющая путь в древовидном графе G, исходящий из начальной позиции х0 и достигающий одной из окончательных позиций игры. Такой путь в дальнейшем будем называть партией. Из-за древовидности графа G каждая партия однозначно определяет окончатель ную позицию Xi, в которую она приводит, и, наоборот, окончатель ная позиция X/ однозначно определяет партию. В позиции х, каждый из игроков I, i = l , ..., п, получает выигрыш Н((х1). Будем предполагать, что игрок i при совершении выбора в пози180
ции xeXj знает эту позицию х, а следовательно, из-за древовидности графа G может восстановить и все предыдущие позиции. В таком случае говорят, что игроки имеют полную информацию. Примером игр с полной информацией служат шахматы и шашки, поскольку в них игроки могут записывать ходы, и поэтому можно считать, что они знают предысторию игры при совершении каждого очередного хода. Определение. Однозначное отображение и,, которое каждой вершине (позиции) хеХ, ставит в соответствие некоторую вершину (позицию) yeFx, называется стратегией игрока i. Множество всевозможных стратегий игрока i будем обозначать через U,. Таким образом, стратегия i'-го игрока предписывает ему в любой позиции х из множества его очередности X, однозначный выбор следующей позиции. Упорядоченный набор и=(их, ..., и„ ..., и,), где м(е Uh называется л
ситуацией в игре, а декартово произведение U= Y[ Ut — множе ством ситуаций. Каждая ситуация и = (и1, ..., и,-, ..., и„) однозначно определяет партию в игре, а следовательно, и выигрыши игроков. Действительно, пусть x0eXtl. Тогда в ситуации и=(ии ..., и„ ..., и„) следующая позиция хх определяется однозначно по правилу uil(x0)=x1. Пусть теперь х^еХ^. Тогда х2 определяется однозначно по правилу и,2(х1)=х2. Если теперь на fc-м шаге реализовалась позиция х*_1бАГ^ то хк определяется однозначно по правилу
**=«*(**-0. и т - дПусть ситуации u=(uv ..., и„ ..., ы„) в указанном смысле соответ ствует партия х0, хи ..., х/. Тогда можно ввести понятие функции выигрыша К, игрока i, положив ее значение в каждой ситуации и равным значению выигрыша Я, в окончательной позиции партии х0,..., xh соответствующей ситуации м=(их, ..., ы„), т. е. K,(uv ..., и , ыя)=Я,(х,), i = l , ..., п. л
Функции Kt, i= 1,..., п, определены на множестве ситуаций U= Y[ Ut. Таким образом, построив множества стратегий игроков U, и опре делив на декартовом произведении функции выигрыша К„ / = 1 , ..., 181
я, получаем некоторую игру в нормальной форме T=(N, {и,},вК, {K,}ieN), где iV={l, ..., i, ..., п) — множество игроков, С/, — множество стра тегий игрока I, Ki — функция выигрыша игрока /, /= 1, .., п. 1.5. Для дальнейшего исследования игры Г необходимо ввести в рассмотрение понятие подыгры, т. е. игры на подграфе графа G основной игры (ср. с. п. 1.1 гл. I). Пусть zeX. Рассмотрим подграф GZ = (XZ, F), с которым свяжем подыгру Г2 следующим образом. Множества очередности игроков в подыгре Г 2 определяются по правилу Yj=Xif)Xz, i=\, ..., п, множество окончательных позиций YI„+l=Xn+if]Xz, выигрыш игро ка г Щ(х) в подыгре полагается равным H\(x) = Hi{x),xsYUx,i=\,...,n. В соответствии с этим стратегия и] i-ro игрока в подыгре Гг опреде лена как сужение стратегии u, i-ro игрока в игре Г на множество Y], т. е. и]{х) = щ{х), хе У?=ЛГ,П*« i = l , .... п. Множество всех стратегий г-го игрока в подыгре обозначается через Щ. В результате с каждым подграфом Gz мы связываем подыгру в нормальной форме Г,=(АГ, {с/?}, т\. где функции выигрыша Щ, / = 1 , ..., п, определены на декартовом л
произведении ( / = \ \ Щ. i-l
§ 2. СИТУАЦИЯ АБСОЛЮТНОГО РАВНОВЕСИЯ
В гл. III было введено понятие равновесия по Нашу для игры п лиц в нормальной форме. Оказывается, что для многошаговых игр можно усилить понятие равновесия, введя понятие абсолютного равновесия. 2.1. Определевие. Ситуация равновесия по Нэшу u* = (uf,..., uf) называется ситуацией абсолютного равновесия по Нэшу в игре Г, если для любого zeX ситуация (ы*У = ((«*/, ..., (u*)z), где (uf)z — сужение стратегии uf на подыгру Гг, является ситуацией равнове сия по Нэшу в подыгре Tz. 182
Имеет место следующая основная теорема. Теорема. В любой многошаговой игре с полной информацией на конечном древовидном графе существует ситуация абсолютного равновесия по Нэшу. Прежде чем перейти к ее доказательству, введем понятие длины игры. Под длиной игры Г будем понимать длину наибольшего пути в графе G=(X, F). Доказательство проведем индукцией по длине игры. Если длина игры Г равна 1, то может ходить лишь один из игроков, который, выбирая следующую вершину из условия максимизации своего выигрыша, будет действовать согласно стратегии, образу ющей абсолютное равновесие по Нэшу. Пусть теперь игра Г имеет длину к и x0eXit (т. е. в начальной позиции х0 ходит игрок i\). Рассмотрим семейство подыгр Г„ zeFXo, длина каждой из которых не превосходит к— 1. Предположим, что теорема справедлива для всех игр, длина которых не превосходит А:— 1, и докажем ее для игры длины к. Поскольку подыгры Г„ zeFXti, имеют длину не более к—\, по предположению индукции для них теорема справедлива и тем самым существует ситуация абсолют ного равновесия по Нэшу. Обозначим для каждой подыгры Г2, zeFX(t, эту ситуацию через
(ц*)'=ыУ,..., (и*П
(2.1)
Используя ситуации абсолютного равновесия в подыграх Гг, построим ситуацию абсолютного равновесия в игре Г. Пусть uf(x) = (uf(x))z, для xeXif)Xz, zeF^, i=l, ..., п, ufl(x0)=z*, где z* находится из условия
*СК"*)1= тах *и("*Л-
(2-2)
*ерх0
Функция uf определена на множестве Xh i= l, ..., л, очередности 1-го игрока, а при каждом фиксированном xeXt значение uf(x)eFx. Таким образом, uf, i= 1,..., и, является стратегией z'-ro игрока в игре Г, т. е. ufeUt. По построению, сужение (м,*)г стратегии uf на множество Xtf\Xz является стратегией, входящей в абсолютное равновесие по Нэшу игры Г„ zeFx<>. Следовательно, для завершения доказательства теоремы достаточно показать, что стратегии uf, /=1, ..., и, построенные по формулам (2.2), образуют ситуацию равновесия по Нэшу в игре Г. Пусть i^iv По построению стратегии 183
и* после выбора игроком ii позиции z* на первом шаге игра Г переходит в подыгру Tz.. Поэтому К, (и*) = К? {(u*f) > Щ' {(и* || uf) = К, (и* ||i0, u,eU„i=l, ...,п,1ф^,
(2.3)
z*
так как (и*) — ситуация абсолютного равновесия в подыгре Г2*. Пусть ин е Uh — произвольная стратегия игрока il в игре Г. Обозна чим z0 = uh (x0). Тогда Кн (и*)=К* {(и*)2*} =max K\ {(u*)z) > Ж*; {(u*)z°}>K% {(и*|кЛ =КН (и*\\ин).
(2.4)
Утверждение теоремы следует теперь из (2.3), (2.4). 2.2. Пример 4. Пусть игра Г происходит на графе, изображенном на рис. 18, и пусть множество N состоит из двух игроков: JV={1, 2}. На рис. 18 определим множества очередности. Изобразим вершины множества Х1 в виде кружков, а вершины множества Хг — в виде квадратиков. Выигрыши игроков записаны в окончательных пози-
Рис 18 184
циях. Перенумеруем двойными индексами позиции, входящие в множества Xt и Х2, а дуги, выходящие из каждой вершины,— одним индексом. Выбор в вершине х эквивалентен выбору следу ющей вершины х"eFx, поэтому будем предполагать, что стратегии указывают в каждой вершине номер дуги, по которой следует двигаться дальше. Например, стратегия «! = (2, 1, 2, 3, 1, 2, 1, 1) игрока 1 предписывает ему выбор дуги 2 в вершине 1, дуги 1 — в вершине 2, дуги 2 — в вершине 3, дуги 3 — в вершине 4 и т. д. Так как множество очередности первого игрока состоит из восьми вершин, то его стратегия представляет собой восьмимерный вектор. Аналогично, любая стратегия игрока 2 представляет собой семи мерный вектор. Всего у первого игрока 864 стратегии, а у второго игрока — 576 стратегий. Таким образом, соответствующая нор мальная форма оказывается биматричной игрой с матрицами раз мера 864x576. Естественно, что решение таких биматричных игр методами, предложенными в гл. III, не только затруднительно, но и невозможно. Вместе с тем рассматриваемая игра достаточно проста и ее можно решить, используя попятную процедуру постро ения абсолютного равновесия по Нэшу, предложенную при до казательстве теоремы 1 п. 2.1. Действительно, обозначим через v1 (x), v2 (х) выигрыши в подыг ре Гх в некоторой фиксированной ситуации абсолютного равнове сия. Сначала решаем подыгры Г16, Г17, Г2л- Как легко убедиться, *.(1.7) = 6, »2(1.6)=2, M1.7)=2, »2(1.7)=4, Vl(2.7) = l, «2(2.7) = 8. Далее решаем подыгры Г25, Г2.6, Г] 8. В подыгре Г 25 два равновесия по Нэшу, поскольку игроку 2 безразлично, какую альтернативу выбрать. Вместе с тем его выбор оказывается существенным для игрока 1, поскольку при выборе игроком 2 левой дуги первый игрок выигрывает +1, а при выборе игроком 2 второй дуги +6. Отметим это обстоятельство и предположим, что игрок 2 «благожелателен» и выбирает в позиции (2.5) правую дугу. Тогда «1(2.5)=«1(1.6) = 6, v2(2.5)=v2(1.6)=2, vl(2.6)=vl(l.1)=2, «2(2.6)=t>2(1.7)=4, v1(1.8) = 2, «2(1.8) = 3. Далее решаем игры Г13, Г м , Г23, Г^, Г24. В подыгре Tj 3 два равновесия по Нэшу, поскольку игроку 1 безраз лично, какую альтернативу выбрать. Вместе с тем его выбор оказы вается существенным для игрока 2, так как при выборе игроком 1 левой альтернативы он выигрывает 1, а при выборе правой — 10. Предположим, что игрок 1 «благожелателен» и выбирает в позиции (1.3) правую альтернативу. Тогда «1(1.3) = 5, v2 (1.3) =10, »1(1.4) = «1(2.5) = 6, „2(1.4)=г,2(2.5)=2, ^(1.5)=„,(2.6) = 2, «2(1.5) = «2(2.6)=4, в1(2.3) = 0, *2(2.3) = 6, Vl(2.4) = 3, *,(2.^=5. Да лее решаем игры Г 2 Ь Ги, Г2^: v1(2.1)=vi(\.3) = 5, •2(2.1) = «2(1.3) = 10, «1(1.2)=«1(2.4) = 3, «2(1.2)=»2(2.4) = 5, 185
w1(2.2)=—5, «2(2.2) = 6. Теперь решаем игру Г=Г 1Л . Здесь » 1 (l.l) = »1(2.1) = 5,e 2 (l.l)=i» a (2.1)=10. В результате мы получаем ситуацию абсолютного равновесия по Нэшу (и?, м?), где (2.5) М? = (1,2,2,2,2,3,2,1), н! = (1,3,2,2,2,1,2). В ситуации (uf, uf) игра развивается по пути (1.1), (2.1), (1.3). В процессе построения было замечено, что стратегии uf, i=l, 2, «доброжелательны» в том смысле, что игрок i при совершении своего хода, будучи в равной степени заинтересован в выборе последующих альтернатив, выбирает ту из них, которая более благоприятна для игрока 3 — i. В игре Г существуют ситуации абсолютного равновесия, в кото рых выигрыши игроков будут другими. Для построения таких равновесий достаточно снять условие «доброжелательности» иг роков и заменить его обратным условием «недоброжелательности». Обозначим через vt (x), v2 (х) выигрыши игроков в подыгре Гх при использовании игроками «недоброжелательного» равновесия. Тог да имеем: «, (1.6)=«,(1.6)=6, «,(1.6)=«,(1.6)=2, «i(l-7) = ix(1.7)=2, „2(1.7)=t,2(1.7)=4, « 1 (5.7)=-2, «2 (2.7)=«2 (2.7) = 8. Как уже отмечалось, в подыгре Г2.5 два равнове сия по Нэшу. В отличие от предыдущего случая предположим, что игрок 2 «недоброжелателен» и выбирает ту из вершин, в которой при его максимальном выигрыше выигрыш игрока 1 минимален. Тогда 1Х(2.5) = \, «2_(2.5)=2, «1(2.6)=«1(1.7)=2, «2(2.6)=i;2(1.7)=4, их (1.8)=«х (1.8)=2, «2 (1.8)=«2 (1.8) = 3. Далее ищем решение игр Г1.3, Гц, IYJ, Г2.з, Г2.4. В подыгре Ги два равновесия по Нэшу. Как и в предыдущем случае, выберем «недоброжелательные»^ действия игрока 1. Тогда имеем: «, (1.3)=v, (1.3) = 5, «2(1.3) = 1, »,(1.4) = 2, «2(1.4) = 3, « 1 (1.5)=« 1 (2.6)= Vl (l.5)=2, „2(1.5)=i;2(2.6)=V2(2.6)=4, i;2 (2.3)=«2 (2.3) = 6, v. (2.4)=Vl(2.4) = 3, £l (2.3)=i; 1 (2.3)=0, »2 (2.4)=«2 (2.4) = 5. Далее решаем игры Г2.ь Г и , Г2.2. Имеем: Hi(2.1) = i 1 (1.5)=2, *2(2.1)=«2(1.5)_=4, «1(1.2)=»1(2.4) = 3, «2 (1.2) = v2 (2.4) = 5, «2 (2.2) =_«2 (2.2) = 6, Vi (2.2) = Л (2.2) =_- 5. Теперь решаем игру Г = Г и . Здесь «1(1.1)=»1(1.2) = 3, w 2 (l.l)=« 2 (1.2)=5. Таким образом, получена новая ситуация равновесия по Нэшу Й?С) = (2,2,1,1,2,3,2,1), ы?()=(3,3,2,2,1,1,3). (2.6) Выигрыши обоих игроков в ситуации (2.6) меньше таковых в ситу ации (2.5). Ситуация (2.6), так же как и ситуация (2.5), является ситуацией абсолютного равновесия. 2.3. Очевидно, что кроме «доброжелательных» и «недоброжела тельных» ситуаций абсолютного равновесия по Нэшу существует 186
целое семейство промежуточных ситуаций абсолютного равнове сия. Интересным является вопрос о том, когда можно утверждать отсутствие двух различных ситуаций абсолютного равновесия, от личающихся выигрышами игроков. Теорема. Пусть выигрыши игроков Н,(х), i = l , ..., п, в игре Г таковы, что если существует такое i0 и такие х, у, что Я,0(х)=Hh(y), то Hi(x) = H,(y) для всех ieN. Тогда в игре Г выигры ши игроков во всех ситуациях абсолютного равновесия совпадают. Доказательство. Рассмотрим семейство подыгр Г* игры Г и доказательство проведем индукцией по их длине 1(х). Пусть 1(х)= 1 и в единственной нетерминальной позиции х ходит игрок iv Тогда в ситуации равновесия он осуществляет выбор из условия Я1( (Зс)=max Hk (У). Если точка х единственная, то единствен и вектор выигрышей в ситуации равновесия, равный в данном случае Н(х) = {Н1(х), ..., Я„(3с)}. Если существует такая точка хфх, что Я,1(Зс)=Я,1(х), то имеется еще одна ситуация равновесия с выигрышами Н(х) = {Н1(х), ..., Нк{5с), ..., Н„(х)}. Однако из условия теоремы следует, что если H,i{x)=Hil(x), то Я,(Зс)=Я;(Зс) для всех ieN. Пусть v(x) = {vi(x)} — вектор выигрышей в ситуациях равнове сия в одношаговой подыгре Гх, который, как уже показано, опреде ляется единственным образом. Покажем, что если для некоторого i0 выполнено равенство vi(i(xr)=vh(x"), (х!, х" таковы, что длины подыгр Гу, Г*. равны единице), то vl(x')=vi(x") для всех ieN. Действительно, пусть x'eXil, х"еХ^, тогда vit (x?)=Hk (x1)=max Hh (у), vii(x")=Hii(x')=maxHii(y) yeFx-
и vi(x') = Hi(x'), vl(x")=Hi(x") для всех ieN. Из равенства vh(x')=vio(x") следует, что Я,0(Зс') = Я)0(х")- Но тогда по условию теоремы Н,(хг) = Н1(х") для всех ieN. Отсюда vi(x") = vl(xH) для всех ieN. Предположим теперь, что во всех подыграл Гх с длиной /(*)<£— 1 вектор выигрышей в ситуациях равновесия определяется 187
единственным образом и если для каких-нибудь двух подыгр Гу, IV с длиной, не превосходящей к=\, vio(x')=vii>(x") для некоторого i0, то Vi(x')=Vi(x") для всех ieN. Пусть игра ГХо имеет длину к и в начальной позиции х0 ходит игрок i\. По предположению индукции для всех zeFXo в игре Гг вы игрыши в ситуациях равновесия по Нэшу определяются единствен ным образом. Пусть вектор выигрышей в ситуациях равновесия по Нэшу в игре Гг равен {«;(z)J. Тогда, как это следует из (2.2), игрок ix в вершине х0 выбирает следующую вершину zeFx> из условия »it(z)=max «^(z).
(2.8)
Если точка z, определяемая (2.8), единственна, то вектор с ком понентами Vi(x0)=Vi(z)f i = l , ..., и, и является единственным век тором выигрышей в ситуациях равновесия по Нэшу в игре 1 \ . Если же существуют две вершины z, z, для которых vii(z)=vii(z), то по предположению индукции, поскольку длины подыгр Г; и Г2 не превосходят к— 1 из равенства vil(z)=vil(z), следует равенство Vi(z)=Vi(z) для всех ieN. Таким образом, и в этом случае выигрыши в ситуациях равновесия vt(x0), ieN, определяются единственным образом. § 3. ОСНОВНЫЕ ФУНКЦИОНАЛЬНЫЕ УРАВНЕНИЯ
3.1. Рассмотрим многошаговые антагонистические игры с полной информацией. Если в условиях п. 1.4 множество игроков состоит из двух элементов N={1, 2} и Н2(х) = —Н^{х) для всех хеХ3 (Х3 — множество окончательных позиций в игре Г), то
г=<#, и„кь оказывается антагонистической многошаговой игрой с полной ин формацией. Очевидно, что этим же свойством обладают и все подыгры Гг-игры Г. Так как из условия Н2(х)=—Н1(х) немедленно следует, что К2(ut, u2)=— Kt(и,, и2) для ( всех t u t eU Y , u2eU2, то в ситуации равновесия по Нэшу (и*, и'2) выполняются неравенства ^i(«к "2X^1 ("I, "гХ-^!(«!, и2) для всех «ieU lt u2eU2. Пару (и'и и'2) в этом случае будем называть ситуацией равновесия или седловой 188
точкой, а стратегии, образующие ситуацию равновесия, оптималь ными. Значение функции выигрыша в ситуации равновесия обозна чим буквой v и назовем значением игры Г. 3.2. Из теоремы п. 2.1 следует, что в антагонистической много шаговой игре с полной информацией на конечном древовидном графе существует ситуация абсолютного равновесия, т. е. такая ситуация (и\, и\), сужение которой на любую подыгру Гг игры Г образует в Гг ситуацию равновесия. Для любой подыгры Г, мож но также определить число v{y), представляющее значение функции выигрыша в ситуации равновесия этой подыгры и называемое значением подыгры Г г Как было показано в п. 3.2 гл. I, значение антагонистической игры (т. е. значение функции выигрыша игрока 1 в ситуации равновесия) определяется единственным образом, поэтому функция v(y) определена для всех уеХ±, уеХ2 и является однозначной функцией. 3.3. Выведем функциональные уравнения для вычисления функ ции v(y). Из определения v(y) следует, что ь(у)=Щ((и\У, (ulf)= -К\ ((«У, (иЩ где ((u\f, (и2У) — ситуация равновесия в подыгре Гу, являющаяся сужением ситуации абсолютного равновесия (и\, MJ). Пусть ,yeXt и zeFy. Тогда, как это следует из (2.2), имеем v(y)=max K\ ((«tf, (utf)= -max v(z). (3.1) zeFy
zeFy
Для yeX2 аналогично получаем v(y)= -K\ ((«У, («У)= -max K\ ((u\f, ( м ^ = zeFy
= —max (—w(z))=min v(z). zeFy
(3.2)
zeFy
Из (3.1) и (3.2) окончательно имеем v(y)=maxi;(z),>'eAr1;
(3.3)
zeFy
v(y)=mmv(z),yeX2.
(3.4)
zeFy
Уравнения (3.3), (3.4) решаются при граничном условии *(y)Ux,=^ 1 C).
(3.5)
Система уравнений (3.3), (3.4) с граничным условием (3.5) позво189
ляет осуществить попятную рекуррентную процедуру нахождения значения игры и оптимальных стратегий игроков. Действительно, пусть значения всех подыгр Tz длиной l(z)^k— 1 известны и равны v(z), пусть Г,, — некоторая подыгра длины 1(у) = к. Тогда если уеХ1г то v(y) определяется по формуле (3.3), если же уеХ2, то v(y) находится по формуле (3.4). При этом значения функции v(z) в формулах (3.3), (3.4) известны, поскольку соответствующие подыг ры имеют длину не более чемfe—1. Эти же формулы указывают способ построения оптимальных стратегий игроков. Действитель но, если уеХи то игрок 1 (максимизирующий) должен выбрать в точке у вершину zeFy, для которой значение следующей подыгры максимально. Если жеуеХ2, то игрок 2 (минимизирующий) должен выбрать позицию zeFy, для которой значение следующей подыгры минимально. В случае, когда выборы игроков в антагонистической многоша говой игре чередуются (поочередная игра), уравнения (3.3), (3.4) могут быть записаны в виде одного уравнения. Действительно, рассмотрим подагру Г, и пусть, для определенности, хеХх. Тогда в следующей позиции ходит игрок 2 или эта позиция является (игра поочередная) окончательной, т. е. Fx с Х2 \J X3. Поэтому можно записать v (x)=max v (у), xeXt; (3.6) yeFx
v(y)=mmv(z),yeFxczX2[jXz.
(3.7)
zeFy
Подставляя (3.7) в (3.6), получаем v(х)=max [min v(z)], xeXv yeFx
(3.8)
zeF
y
Если хеХ2, то аналогично имеем v (x)=min [max v (z)]. yeFx
(3.9)
zeFy
Уравнения (3.8), (3.9) эквивалентны и должны рассматриваться с начальным условием « (х) |,6^2=Н1 (х). 3.4. Теорема п. 2.1, рассматриваемая применительно к антагони стическим поочередным многошаговым играм, позволяет утверж дать существование ситуации равновесия в «шахматах», «шашках», в классе чистых стратегий, а уравнения (3.8), (3.9) показывают путь для нахождения значения игры. Вместе с тем очевидно, что никогда в обозримом будущем решение указанных функциональных уравне ний для нахождения значения игры и оптимальных стратегий не будет реализовано на ЭВМ и мы так и не узнаем, может ли 190
какой-либо игрок «белый» или «черный» гарантировать победу в любой партии или всегда возможна «ничья»? Однако в шахматах и шашках делаются небезуспешные попытки построения прибли женно оптимальных решений путем создания программ, думающих на несколько шагов вперед, и использования всевозможных (полу ченных, как правило, эмпирическим путем) функций оценки текущих позиций. Такой подход возможен и при исследовании общих ан тагонистических многошаговых игр с полной информацией. После довательное итерирование оценочных функций на несколько шагов вперед может привести к желательным результатам. § 4. СТРАТЕГИИ НАКАЗАНИЯ
4.1. В п. 2.1 доказано существование ситуации абсолютного равновесия (по Нэшу) в многошаговых играх с полной информаци ей на конечном древовидном графе. В то же время при исследова нии конкретных игр этого класса можно обнаружить целое семейст во ситуаций равновесия, сужения которых необязательно являются ситуациями равновесия во всех подаграх исходной игры. К числу таких ситуаций равновесия относятся равновесия в стратегиях нака зания. Проиллюстрируем это понятие на примере. Пример 5. Пусть игра Г происходит на графе, изображенном на рис. 19. Множество N={1, 2} состоит из двух игроков. Как и в при мере п. 2.2, на рис. 19 кружками изображены вершины, состав ляющие множество Хи квадратиками — множество Х2. Вершины графа перенумерованы двойными индексами, дуги — одинарными. Нетрудно убедиться в том, что ситуация и\ = {\, 1, 2, 2, 2), и*2 = {\, 1) является абсолютно равновесной в игре Г. При этом выигрыши игроков равны 8 и 2 единиц соответственно. Рассмотрим теперь ситуацию й 1 = (2, 1, 2, 1, 2), й 2 = (2, 2). В этой ситуации выигрыши игроков равны соответственно 10 и 1, тем самым игрок 1 получает больше, чем в ситуации (ии и'2). Ситуация (t/j, Й 2 ) является равно весной в игре Г, но не является абсолютно равновесной. Действи тельно, в подагре Гх 4 сужение стратегии Лх диктует игроку 1 вы бор левой дуги, что не является для него оптимальным в позиции 1.4. Такое действие игрока 1 в по зиции 1.4 можно интерпретиро вать как угрозу «наказания» игро ка 2, если он отклонится от жела тельного для игрока 1 выбора ду ги 2 в позиции 2.2, лишив тем
о ш» (?) it) am w
191
самым игрока 1 максимального выигрыша 10 единиц. Однако по существу такую угрозу «наказания» едва ли следует считать действенной, поскольку наказывающий (игрок 1) при этом сам может потерять в выигрыше пять единиц (действуя не оптимально в Г\ J . 4.2. Дадим строгое определение стратегий наказания. Для про стоты ограничимся случаем неантагонистической игры двух лиц. Пусть задана неантагонистическая многошаговая игра двух лиц r=
4.3. Из определения стратегий наказания сразу получаем следу ющие свойства: 1°. ^ ( 2 i ( - ) ) , u 2 (-))=^(z,), ^ ( u ^ - ) , u2(-)) = H2(z,). 2°. Пусть один из игроков, например игрок 1, использует страте гию ! Для которой позиция zkeZf]Xx является первой в пути Z, где иД-) диктует выбор следующей позицииt z'k+u отличной от выбора, диктуемого стратегией и ^ ) , т. е. z'k+i^zk+i. Тогда из 192
определения наказывающей стратегии й2 (•) следует, что * ! ( « ! ( ) , й2(-)Х«>1Ы-
(4-3)
Аналогично, если игрок 2 использует стратегию ы2(") л л я которой позиция zkeZ(~]X2 является первой в пути Z, где и 2 (') диктует выбор следующей позиции z'k+u отличной от диктуемой стратегией й2('), т. е. z'lc+i^Zk+i, то из определения наказывающей стратегии йл (•) следует, что
^(SiOWO)^**)-
(4-4)
Отсюда, в частности, получаем следующую теорему. Теорема. Пусть (2Х (•), и 2 ()) — ситуация в стратегиях нака зания. Для равновесности ситуации (ы1(-), м 2 (')) достаточно, что бы для всех fc=0, 1, ..., /—1 выполнялись неравенства
КЛйЛ-Х u2(-))>Vl(zk), # 2 ("i( - ),
(4.5)
u2(-))>v2(zk),
где z0, z1( .... zt — путь, реализовавшийся в ситуации (й^ (•), и2 (•)). 4.4. Пусть и'ц(-) и Ми(') — оптимальные стратегии игроков 1 и 2 во вспомогательных антагонистических играх Г1 и Г 2 соответ ственно и Z = {z0, z lf .... z,}—путь, соответствующий ситуации (и'ц (•), Ии (• ^Предположим, что стратегии наказания t^ (•) и й2 (•) таковы, что м1(гл) = м1,(5л) для zkeZf]Xt и й2(г*) = Ы22&) для zkeZf]X2. Тогда ситуация («].(•)» й 2 (-)) образует ситуацию равно весия по Нашу в стратегиях наказания. Для доказательства этого утверждения достаточно показать, что К, («;,(•), t 4 ( ) ) = * i ( 2 i ( - ) , 5 2 ( - ) ) > « i & ) ,
K2(UnC), и22(-))=К2{й1{-),
(4-6)
й2(-))>*2&)>
fc=0, l, . . . / - 1 , и воспользоваться теоремой п. 4.3. Неравенства (4.6) следуют из оптимальности стратегий м1 ] (-)им 2 2 (') в играх Г\ и Г 2 соответст венно, обоснование предлагаем в качестве упражнения. Таким об разом, получена следующая теорема. Теорема. В игре Г всегда существует ситуация равновесия в стратегиях наказания, при этом выигрыши в этой ситуации равны ^|(мп(")> м22('))> где м*,(-) и и\2{') — оптимальные стратегии иг роков 1 и 2 во вспомогательных антагонистических играх Гх и Г 2 соответственно. 193
Смысл стратегий наказания заключается в том, что игрок заста вляет партнера придерживаться определенного пути в игре (опреде ленных выборов), используя постоянную угрозу переключения на стратегию, оптимальную в антагонистической игре против партне ра. Множество ситуаций равновесия в классе стратегий наказания достаточно представительно, однако эти стратегии не следует счи тать очень «хорошими», поскольку, наказывая партнера, игрок может еще сильнее наказать самого себя. § 5. ИЕРАРХИЧЕСКИЕ ИГРЫ
Важнейшим подклассом неантагонистических многошаговых игр являются иерархические игры. Иерархические игры моделируют конфликтно управляемые системы с иерархической структурой. Та кая структура определяется последовательностью уровней управле ния, следующих друг за другом в порядке определенного приорите та. В математической постановке иерархические игры классифици руются по числу уровней и характеру вертикальных связей. Про стейшей из них является двухуровневая система, схема которой изображена на рис. 20. 5.1. Двухуровневая конфликтно управляемая система функци онирует следующим образом. Управляющий (координирующий) центр А0, находящийся в первом уровне иерархии, выбирает вектор u=(u 1 ,..., м„) из заданного множества управлений U, где ut — управ ляющее воздействие центра на подчиненные ему подразделения Д, / = 1 , 2, ..., п, находящиеся на втором уровне иерархии. В свою очередь, Д, i= 1, ..., и, выбирают управления «,е Г,(и,), где Vi(u,) — множество управлений подразделения Д, предопределенное управ лением и центра А0. Таким образом, управляющий центр имеет право первого хода и может ограничивать возможности подчинен ных ему подразделений, направляя их действия в нужное русло. Цель центра А0 заключается в максимизации по и функционала К0 (и, vu ..., «„), а подразделения Д, / = 1,..., п, обладая собственными целями, стремятся максимизировать по v, функционалы A, (u„ v,). 5.2. Формализуем эту задачу как беско алиционную игру Г(л+1)-го лица (админи стративного центра А0 и производственных подразделений Bit .... В„) в нормальной форме. Пусть игрок А0 выбирает вектор ueU, где Рис. 20 194
U={u = {uv .... u„):Ui>0, UteR1, / = 1 , ..., n,
— множество стратегий игрока А0 в игре Г. Вектор щ будем ин терпретировать как набор ресурсов / наименований, выделяемых центром А0 для i'-го производственного подразделения. Пусть в исходной задаче п. 5.1 каждый из игроков Д, зная выбор А0, выбирает вектор vte Vi(ui), где VAud^faelfivtA^Ut+a,, v,>0}. (5.1) Вектор v, интерпретируется как производственная программа 1-го производственного подразделения по различным видам продукции; At — производственная или технологическая матрица i-ro произ водственного подразделения (4,^0); <х( — вектор наличных ресурсов г-го производственного подразделения (<х,^0). Под стратегиями игрока Д в игре Г будем понимать множество функций »,(•)> ставящих в соответствие каждому элементу ы,: (ы1(..., «,, .... м„)е Uвектор »,(ы;)е Vt(ui). Множество таких функций будем обозначать через V„ i = l , ..., п. Определим функции выигрышей игроков в игре Г. Для игрока А0 функция выигрыша имеет вид л
Ко(и, «!(•), ...,«»(•))= Е * »'("')> где в,>0, ateRm — фиксированный вектор, / = 1 , ..., л; a(Vi(Ui) — ска лярное произведение векторов а, и к,(и(). Функцию выигрыша игрока Д полагаем равной Ki(u, V^),
..., Vn())
= CiV,(u,),
где с,>0, Cje.Rm — фиксированный вектор, i = l , ..., и. Таким образом, игра Г имеет вид Г=(С/, Vv .... F„, K0, Kv .... .£„). 5.3. Построим ситуацию равновесия по Нэшу в игре Г. Пусть ю,*(м()е Vt(u,) — решение задачи параметрического линей ного программирования (параметром является вектор ц) max С/ «г=с, «* («О, i= 1, ..., л,
(5.2)
t)(eK,(uj)
195
а и* £ U — решение задачи max K0(и, v\(•), ..., v'„(.)).
(5.3)
lieU
Для простоты предполагаем, что максимумы в (5.2) и (5.3) достигаются. Заметим, что (5.3) — задача нелинейного програм мирования с существенно разрывной целевой функцией (максимиза ция ведется по и, a v'(u,), вообще говоря, — разрывные функции параметра и,). Покажем, что точка (и*, «[(•), ..., v*n()) является ситуацией равновесия в игре Г. Действительно, К0(и*. v\0, ..., v*())>K0(u, .;(.), ..., «JO), ue U. Далее, при всех /= 1, ..., п справедливо неравенство К,(и*. «!(•), ..., v'„()) = ct v'i(u')^Ci «,(«*) = =Kt(u*,
•!(.), ..., «*-i(), «<(•), «*+i(), -., v'„())
для любой »,(•)£ Vt. Таким образом, никому из игроков А0, Вх, .... Ви невыгодно в одностороннем порядке отклоняться от ситуации (и*. «!(•), -ч ««(•))> т- е- о н а является равновесной. Заметим, что эта ситуация также устойчива против отклонения от нее любой ко алиции Sc{Bl,.... В„}, поскольку выигрыш Kt i-ro игрока не зависит от стратегий vj(),je{l, ..., n},j¥=i. § 6. ИЕРАРХИЧЕСКИЕ ИГРЫ (КООПЕРАТИВНЫЙ ВАРИАНТ)
В этом параграфе рассматривается кооперативный вариант ряда простейших иерархических игр (в том числе игры, определенной в п. 5.1, 5.2). Строятся характеристические функции и исследуются условия существования непустого С-ядра. 6.1. Исходя из содержательного смысла задачи п. 5.1, 5.2 и с ис пользованием стратегией, образующих равновесие по Нэшу, для каждой коалиции S<=.N= {А0, Bv .... В„} определим ее гарантирован ный доход v (S) следующим образом: ' 0, если S= {A0}; (6.1) £ с/»?(0), если Л 0 #Я v(S)=i
»
196
(6.2)
IBieS
max
£
{«el/: £ «i=*}
i-BjeS
i:BeS
(cii+Ct) v*(ud, если А0 еS,
(6.3)
где v*(u,), i= 1,..., и — решение задачи параметрического линейного программирования (5.2). Равенство (6.1) имеет место, поскольку коалиция {Blt ..., В„} может добиться получения нулевого выигрыша игроком А0, выби рая все v,=0, 2 = 1, ..., л; равенство (6.2) справедливо, так как игрок А0 всегда может гарантировать для S выигрыш не более чем (6.2), направляя каждому Д е 5 нулевой ресурс; равенство (6.3) имеет место, поскольку коалиция S, содержащая в своем составе А0, всегда может обеспечить распределение всего ресурса только между своими членами. Пусть S — произвольная коалиция, содержащая А0. Обозначим через и=(и\, ..., и'„) вектор, доставляющий максимум в задаче нелинейного программирования (6.3) (для i'.BrfS выполнено усло вие И(=0). Тогда для любой коалиции S
i:BteS
= I (a,+c,K(«J)+ i-.BieS
£
(а,+с,)«;(0).
i:BieS\S
Пусть S, RcN, Sf]R=0 и А0еБфА0. Тогда А0фЯ. Принимая во внимание условия а ( ^0, с,^0, « ( >0, / = 1 , ..., п, имеем i:BteS\jR
i:BieS[jR
= £ (ai+ci)v'i(ud+ E (а,+сО«*(0) = i-.BjeS
i.BjeR
=v(S)+v(R)4>. £
a,v'(0)>v(S)+v(R),
UBjeR
где
£ a,-i>*(0)>0— прибыль центра А0 от «нефинансируемых» i:BieR
. .
предприятий. В случаях A0fS\jR или S=A0фR неравенство v(S[jR)>v(S)+v(R) очевидно. Таким образом, функция v(S), определяемая (6.1) — (6.3), супер аддитивна и можно рассмотреть кооперативную игру ({А0, Вх, .... В„}, v) в форме характеристической функции v. 6.2. Рассмотрим (и+ 1)-мерный вектор я
£ = (£а,ь'(й(), с,v\(й,), ..., с„г'„(щ)),
(6.4)
/-1
197
где u = uN. Вектор £ является дележом, поскольку выполнены следу ющие сотношения: fc—0
i-1 л
2){o=I>.e?(Ui)>0=«0*o). ^=c,«;(«i)>c,i;*(0)=i;(5(), / = 1 , ..., п.
Напомним условие принадлежности дележа С-ядру. Согласно теореме п. 10.1 гл. III необходимым и достаточным условием принадлежности дележа (£0, £t, ..., £„) С-ядру является выполнение неравенства
Е&>«(5)
(6.5)
ieS
для всех коалиций Scz{A0, Вх, .... В„}. Выведем условие, при котором дележ £' принадлежит С-ядру. Если S={A0], либо S e ^ , ..., В„}, то условие (6.5) выполнено, поскольку
£0=2>^(".)>0=*({Л0}), i-l
Х&= Е<^&)> I c,*;(o)=e(s). /Е5
i-.BjeS
i-.BidS
Если i 4 0 e 5 / ^ 0 , то условие (6.5) можно записать в виде
^а^(йд+ f:2»,eS
i:B,-6S
£ с(«*(йО= (:Л(#£
i:B,6S
Следовательно, дележ (6.4) принадлежит С-ядру, если для всех S:A0eSвыполнено неравенство £ а,«;(й,)> £ (a,+cf) [«'("О-v.'("ЛЗаметим, что в данном случае мы определили характеристичес кую функцию игры, используя выигрыш в ситуации равновесия по 198
Нэшу, и величина v(N)=ma.x £ (a,+ci)v'(u), вообще говоря, мень»
<-1
ше максимального суммарного выигрыша всех игроков, равного max max ueU vkeVk(u0
X( a *+ C *H \_кш1
J
(в этом отличие от принятого в гл. III определения характеристичес кой функции). 6.3. Характеристическую функцию игры можно построить и обычным способом, а именно: для каждой коалиции S определить ее как значение антагонистической игры между этой коалицией и коалицией остальных игроков N\S. Построим теперь характери стическую функцию именно таким образом. При этом несколько обобщим предыдущую задачу, введя в рассмотрение произвольные функции выигрышей участников игры. Как и ранее, будем предполагать, что центр А0 распределяет ресурсы между подразделениями Blt.... В„, которые используют эти ресурсы для производства продукции. Выигрыши управляющего центра А0 и «производственных» подразделений Б 1 ,..., В„ зависят от продукции, производимой Bt, .... В„. Вектор ресурсов, имеющийся в распоряжении центра А0, обозначим через Ь. Центр (игрок) А0 выбирает систему и векторов и=(ц1, .... ип) из множества я
U={u=(u1, ..., Un):uk>0, икев!, £ы*«$6, к=Т7п}. *-i
Здесь ик интерпретируется как вектор ресурса, выделяемый центром А0 производственному подразделению Вк. Возможности предпри ятия (игрока) Вк определяются ресурсом ик, получаемым от А0, т. е. предприятие Вк выбирает свою производственную программу хк из множества Bk(uk)
лишь от производственной программы). Для простоты будем счи тать, что выигрыш центра А0 удовлетворяет условию
/0(*)= £/(**), где слагаемое 1(хк) интерпретируется как выигрыш игрока А0, полу чаемый от игрока Вк. Предположим также, что /(jtfc)^0 для всех хкеВк(ик) и 4(0) = 0, /(0) = 0, к=\, ..., п. Подобно тому как это сделано в § 5, представим иерархическую игру п. 6.3 в виде бескоалиционной игры (п+1) лица в нормальной форме, где стратегиями игрока А0 будут векторы ие U, а стратеги ями игроков Вк — функции из соответствующих множеств. Постро им характеристическую функцию »(•) этой игры, следуя п. 9.2 гл. III. Для каждого подмножества S игроков v (5) будет равно значению (оно существует в условиях п. 6.3) антагонистической игры между коалициями S и N\S, в которой выигрыш коалиции S определяется как сумма выигрышей, принадлежащих множеству S игроков. Пусть N={A0, Bit .... Вя}. Тогда S(A)=
sup
sup
п {ueU: Y.uk=b}
хкеВк{и,д
*-1
{£['(**)+4(**)]|U-1
*=1
)
п
Заметим, что для всех Sc{Blt .... Вя}, v(S)=0, поскольку игрок А0 всегда может распределить весь ресурс Ь среди членов коалиции N\S, в которую он входит, лишив, таким образом, коалицию S ресурсов (т. е. А0 всегда может положить ик=0 для k:BkeS, что приводит к Вк(0) = 0 для всех BkeS). Рассуждая аналогично, имеем v(Ao)=0, поскольку игроки BV .... В„ всегда могут сделать выигрыш центра А0 равным нулю, полагая х*=0 для к= 1, ..., и (не производя продукции). В том случае, когда коалиция S содержит центр А0, очевидно, что А0 будет распределять весь ресурс среди членов коалиции. Это соображение приводит к следующей формуле: Z(S)=
sup {ueU:
Z k-BkeS
sup «*=*}
xkeBk(uk)
J £ ^k:BkeS
[l(xk)+lk(xk)]\ J
k:BkeS
для S:A0eS. Можно показать, что при таком определении характеристичес200
кой функции С-ядро множества дележей п
а = (ос0, а15 ..., а„):а,^0, г'=0, 1, ..., п, £ a,=«(JV) 1=0
всегда непусто. 6.4. Иерархические системы с подразделениями двойного подчи нения называются ромбовидными (рис. 21). Управление подраз деления двойного подчинения С зависит от управления В± и от управления i?2. Можно представить ситуацию, в которой центр Bv представляет интересы отрасли, а В2 — региональные интересы, включающие вопросы охраны окружающей среды. Простая ром бовидная система управления является примером иерархической системы с тремя уровнями принятия решений. На высшем уровне находится административный центр, располагающий материальны ми и трудовыми ресурсами. Он воздействует на деятельность двух подчиненных ему центров, принадлежащих следующему уровню. От решений, принимаемых этими центрами, зависит объем произ водства предприятия, находящегося на последнем уровне иерар хической системы. Будем рассматривать этот процесс принятия решений, как неко торую игру четырех лиц. Обозначим ее через Г. Переходя к игровой постановке, условимся считать, что на 1-м шаге ходит игрок А0 и выбирает элемент (стратегию) u = {ult и2) из некоторого множест ва U, где U — множество стратегий игрока А0. Элемент и е U ограничивает возможности выборов игроков Вх и В2 на следующем шаге. Другими словами, множество выборов игрока В± оказывается функцией параметра ut (обозначим его через Bt (uj), и, аналогично, множество выборов игрока В2 оказывается функцией параметра иг (обозначимего через В2(и2)). Через co^sB^(ux) исо2еВ2(и2) обозна чим элементы множества выборов игроков В1 и В2 соответственно. Параметры оз^ и со2, выбираемые игроками В± и В2, задают ограни чения на множество выборов игрока С на 3-м шаге игры, т. е. это множество оказывается функцией параметров со1 и ш2. Обозначим его через С (сои со2), а элементы этого множества (производствен ные программы) — через «. Пусть выигрыши всех игроков А0, Blt B2, С зависят только от производственной про граммы v, выбираемой игроком С, и равны соответственно lY (v), l2 (v), l3 (v), / 4 (v), где Такую иерархическую игру можно предста вить как бескоалиционную игру четырех лиц в нормальной форме, если считать стратеги ями игрока А0 элементы и=(и1, м 2 )е U, а стра тегиями игроков Bv B2 и С — функции со^ (мх), а>2(и2) uvico^ ю2) со значениями в множествах 201
В1(и1), В2(и2), С{wу, со2) соответственно (обозначим множества таких функций через В 1; В2, Q, которые каждому возможному выбору игрока (или игроков), находящегося на более высоком уровне, ставят в соответствие выбор данного игрока. Полагая К,(и, Шу(), ш 2 (), »(•))«/((«((»!(иД со2(и2)), i=lA, получим нормальную форму игры Г Г = (С7. В15 В2, С, Klt К2, Къ, К4). 6.5. Будем искать ситуацию равновесия по Нэшу в игре Г. Для этого выполним вспомогательные построения. Для каждой фиксированной пары (ш15 со2), (eols со2) е (J Bx (иу) х В2 (и2) обозначим через v* (coy, со2) решение парамеueU
трической экстремальной задачи max /4 (v)=/4(«* (со!, оо2))-
(6-6)
«бС(а>,,й) 3 )
(Считаем, что максимум в (6.6) достигается.) Решение «*(•)=«* (со у, со2) задачи (6.6) оказывается функцией параметров со,, а>2 и v* ()е С. Рассмотрим вспомогательную параметрическую (с параметрами ы1( и2) неантагонистическую игру Г'(и1# M 2 ) = {BI(«I)> Вг("Д '2- 'з} двух лиц By и 2?2, где /2 = /2 («* (со у, со2)), /3 = /3 («* (Шц со2)). Стратеги ями игрока .#! в Г'(«1, и2) являются элементы coy e l ^ («Д стратеги ями В2 — элементы со2еВ2(ы2). Предположим, что в игре Г'(иу, и2) существует ситуация равновесия по Нэшу, которую обозначим (co*(uy), cof(u2)). Отметим, что со?() является функцией параметра MiHco.QeB,, i = l , 2 . Пусть, далее, и* = (и*, и*) — решение следующей экстремальной задачи: max ly{v*(a>t(иД со? (и2))). (6.7) ueV
Лемма. Совокупность (и*, cof(), со*(), «*(•)) является ситуаци ей равновесия по Нэшу в игре Г. Доказательство. Согласно определению и* из (6.7) следует соотношение Ку(и*, cof Q, ш?(), v*(.))=maxly(v*(cof(11Д a>J(u2)))> ^/ х (•• (mf (иД со?(и 2 )))=^ (и. o)f Q, со?(.), «* (•)) для всех и е U. Поскольку cof (uf), cof (и*) образуют ситуацию равно весия по Нэшу во вспомогательной игре Г'(м|, и*2), для любой функции соу()еВу, сОу(и*) = сЪуеВу(и*) выполняются соотношения К2(и*. шГ(•), <»?(•), v*(.)) = l2(v*(cof(uf), cof(uf))> 202
> / 2 («•(&!, «2*(K2*))) = * 2 ( U * ,
Ш1(.),
0*0,
»•(•))•
Аналогичное неравенство справедливо и для игрока Вг. По определению функции v* из (6.6) имеем: К4(М*, cof О, а>?0, » * 0 ) = / 4 ( » ' К ( 4 о* (»))) = max /4 («) > /4 (v) = * 4 (и*. cof (•), со? (.), « (•)) t;eC(cu*(«f),cu*(«J))
для любой функции i;()eC, v(cof(uf), cof(uf))=veC(cof(uf), co?(uf)). Лемма доказана. 6.6 Применяя максиминный подход, для каждой коалиции 5 с {А0, Bv B2, Q определим v'(S) как наибольший гарантирован ный выигрыш S в антагонистической игре между коалицией S, выступающей в качестве максимизирующего игрока, и коалицией S' = {A0, BV Вг C}\S. Предположим, что существует такое v 0 e(дсо^ со2) для всех ш15 со2, что /,(«0) = 0, /=1, 2, 3, 4. Будем различать два вида коалиций: \)S:C$S;2)S:CeS. В первом случае Sa{A0, Bv Bz) и игрок С, являющийся членом коалиции N\S, может выбрать стратегию vo:/f(vo) = 0, i = l , 2, 3, 4, поэтому v'(S)=0. Во втором случае определим характеристическую функцию v (S) следующими равенствами: а) S= {С} v'(S)=min min min max /4(«) uet/ a ^ e B , ^ , ) ш 2 еВ 2 (и 2 ) DEC(cDlt
(здесь и далее предполагаем, что все max и min достигаются); б) S={A0, С) i/(S)=max min min max (/x («) + /4 («)); n e t / а^еВДи,)
в)5={5 1 ( С} t/(S)=min
max
min
max
(l2(v) + U(v))'>
ueU
r)S={B2,C} v'(S)=min
max
min
max
(/3(«) + /4(«));
n e t / « U J E B J ^ J ш,бВ,(и,) »еС(ш,,ш 2 )
д) 5 = ^ , 5 2 , С} 4
v'(S)=min
max
max
max
£ №)'>
ueU
е ) 5 = { Л 0 . ^ 1 . С} 203
v'(S)—ma\
max
min
max
£
/,(»);
ж)5={Л 0 , ^ 2 . С} v'(S)=max
max
min
max
J] /,(«);
«et/ OjeBjCuj) o^Bjfu,) oeCfOj.ojj) f„i 3 4
3) S={A0, Bv B2, C} 4
«'(S^max
max
max
max
У /,(«).
иб17 ш,еВ,(и,) eu2eB2(u2) oeCCo^.CDj) ,- = |
При таком определении характеристическая функция обладает свойством супераддитивности, т. е. для любых S, Ra {А0, Ву, Вг, С}, для которых Sf]R=0, имеет место неравенство v(S{]R)>v(S)+v(R). § 7. МНОГОШАГОВЫЕ ИГРЫ С НЕПОЛНОЙ ИНФОРМАЦИЕЙ
7.1. В § 1 — 4 рассматривались многошаговые игры с полной информацией, определенные на конечном древовидном графе Сг=(Х, F), в которых каждый из игроков в момент совершения своего хода точно знал, в какой позиции или в какой вершине дерева он находится. Именно поэтому удалось ввести понятие стратегии игрока /как однозначной функции ut(x), определенной на множестве очередности Xt со значениями в множестве Fx. Однако если попы таться исследовать многошаговую игру, в которой игроки при совершении своих выборов не знают точно позиции, в которой они совершают ход, или могут лишь предполагать, что эта позиция принадлежит некоторому подмножеству А множества очередности Xh то реализация стратегии игрока как функции от позиции хеХ, окажется невозможной. Таким образом, желание усложнить инфор мационную структуру игры неизбежно приводит к изменению поня тия стратегии. Для точных формулировок необходимо в первую очередь формализовать понятие информации в игре. Важную роль здесь играет понятие информационного множества. Проиллюст рируем это на нескольких простейших, ставших классическими в учебной литературе по теории игр примерах [9]. Пример 6. (Игра антагонистическая). Делая 1-й ход, игрок 1 вы бирает число из множества {1, 2}. Второй ход делает игрок 2. Зная выбор игрока 1, он выбирает число из множества {1, 2}. Третий ход опять делает игрок 1. Зная выбор игрока 2 и помня свой выбор, он выбирает число из множества {1, 2}. На этом игра прекращается, и игрок 1 получает выигрыш Н (игрок 2 — выигрыш (—Н), т. е. 204
-з
-2
г
-5
«
/
/
5
Рис. 22
игра антагонистическая), где функция Я определяется следующим образом: Я ( 1 , 1 , 1 ) = - 3 , Я(2,1,1) = 4, Я ( 1 , 1 , 2 ) = - 2 , Я(2,1,2) = 1, Я(1,2,1) = 2, Я(2,2,1)=1, (7.1) Я ( 1 , 2 , 2 ) = - 5 , Я(2,2,2) = 5. Граф G = (X, F) игры изображен на рис. 22. Кружками на графе изображены позиции, в которых ходит игрок 1, а квадратиками — позиции, в которых ходит игрок 2. Если множество Хх обозначить через X, множество Х2 — через Y и элементы этих множеств соот ветственно — через х е X, у е Y, то стратегия игрока 1 ы, (•) задается пятимерным вектором и1 (•)= {их (xt), ut (x2), uv (х3), ик (хА), иг (х5)}, предписывающим выбор одного из двух чисел {1, 2} в каждой позиции множества X. Аналогично стратегия ы 2 () игрока 2 пред ставляет собой двумерный вектор « 2 ( ' ) = : { M I ( } ' I ) , "гСУг)}' предписы вающий выбор одного из двух чисел {1, 2} в каждой из позиций множества У. Таким образом, у игрока 1 в этой игре 32 стратегии, а у игрока 2 — 4 стратегии. Соответствующая нормальная форма игры имеет матрицу размера 32 х 4, которая, однако (это следует из теоремы п. 2.1), имеет ситуацию равновесия в чистых стратегиях. Можно убедиться, что значение рассматриваемой игры равно 4. Игрок 1 имеет четыре оптимальные чистые стратегии: (2, 1, 1, 1, 2), (2, 1, 2, 1, 2), (2, 2, 1, 1, 2), (2, 2, 2, 1, 2), у игрока 2 — две оптимальные стратегии: (1, 1), (2, 1). Пример 7. Несколько изменим информационные условия приме ра 6. Игра антагонистическая. Делая первый ход, игрок 1 выбирает число из множества {1, 2}. Второй ход делает игрок 2. Зная выбор игрока 1, он выбирает число из множества {1, 2}. Третий ход делает игрок /. Не зная выбора игрока 2 и забыв свой выбор, он выбирает 205
Рис.23
число из множества {1, 2}. На этом игра прекращается и выигрыш определяется по формуле (7.1), так же как и в игре примера 6. Граф G = (X,F) игры не изменяется, однако, находясь в узлах х2, хъ, х^., х5 (на 3-м ходе игры), игрок 1 не может определить, в каком из этих узлов он на самом деле находится, но, зная очередность хода (3-й ход), он может быть уверен, что не находится в узле xt. На графе G мы обведем узлы х2, х3, х±, х5 пунктирной линией (рис. 23). В результате узел х х оказался обведенным кружком, что можно интерпретировать как точное знание игроком 1 этого узла, когда он в нем находился. Узлы ylt уг обведены квадратиками, что также означает, что игрок 2, находясь в одном из них, при совершении своего хода может отличить его от другого. Объединяя узлы хг,хг, х 4 , хь в одно множество, мы иллюстрируем факт их неразличимо сти для игрока 1. Множества, на которые разбиты узлы, будем называть инфор мационными множествами. Перейдем теперь к описанию стратегий. Состояние информации игрока 2 не изменилось, поэтому множество его стратегий то же, что и в примере 6, т. е. оно состоит из четырех векторов (1, 1), (1, 2), (2, 1), (2, 2). Информационное состояние игрока 1 изменилось. На 3-м шаге игры он знает лишь номер этого шага, но не знает позиции, в которой находится. Следовательно, он не может ре ализовать выбор следующей вершины (или выбор числа из множе ства {1, 2}) в зависимости от позиции, в которой находится на третьем шаге. Поэтому на 3-м шаге ему остается независимо от в действительности реализовавшейся позиции выбирать одно из двух чисел {1, 2}. Поэтому его стратегия представляет собой пару чисел (г,/), ге{1, 2},je{l, 2}, где число i выбирается в позиции xt, а число j на 3-м шаге одинаково во всех позициях х2, хъ, хА, х5. Таким образом, выбор числа j оказывается функцией множества 206
и может быть записан как и {х2, х3, л;4, х5} =j. В данной игре у обоих игроков по четыре стратегии и матрица игры имеет вид (1.1) (1.2) (2.1) (2.2) (1.1) Г - 3 -3 2 2П (1.2) -2 -2 -5 -5 (2.1) 4 1 4 1 (2.2) [ 1 5 1 5 В этой игре нет ситуации равновесия в чистых стратегиях. Значе ние игры равно 19/7, оптимальная смешанная стратегия игрока 1 есть вектор (0, 0, 4/7, 3/7), а оптимальная смешанная стратегия игрока 2 равна (4/7, 3/7, 0, 0). По сравнению с примером 6 гаран тированный выигрыш игрока 1 уменьшается. Это вызвано ухудше нием его информационного состояния. Интересно заметить, что матрица игры примера 7 имеет размер 4 х 4, в то время как матрица игры примера 6 имеет размер 32 х 4. Таким образом, уменьшение доступной информации уменьшает размер матрицы выигрышей, следовательно, и облегчает решение самой игры, что противоречит распространенному мнению о том, что уменьшение информации приводит к усложнению принятия решений. Изменяя информационные условия, можно получить другие ва рианты игры, описанной в примере 6. Пример 8. Делая первый ход, игрок 1 выбирает число из множе ства {1,2}. Второй ход делает игрок 2, который, не зная выбора игрока 1, выбирает число из множества {1, 2}. Далее, совершая 3-й ход, игрок 1 выбирает число из множества {1, 2}, зная выбор игрока 2 и помня свой выбор на первом шаге. Выигрыш определяется так же, как и в примере 6 (рис. 24). Поскольку при совершении третьего хода игрок знает позицию, в которой он находится, позиции третье го уровня обведены кружками, два узла, в которых ходит игрок 2,
Рис. 24 207
-з
-г г
-5 ч
i i
5
Рис. 25
мы обвели штриховой линией, включив их в одно информационное множество. Пример 9. Делая первый ход, игрок 1 выбирает число из множе ства {1, 2}. Второй ход делает игрок 2, не зная выбора игрока /. Далее, совершая третий ход, игрок 1 выбирает число из множества {1, 2}, не зная выбора игрока 2 и не помня свой выбор на 1-м шаге. Выигрыш определяется так же, как в игре из примера 6 (рис. 25). Здесь стратегия игрока 1 состоит из пары чисел (г, j), где /-выбор на 1-м шаге, a.j — на 3-м шаге игры. Стратегия игрока 2 есть выбор числа j на 2-м шаге игры. Таким образом, у игрока 1 — четыре стратегии, а у игрока 2 — две стратегии. Игра в нормальной форме имеет матрицу размера 4 x 2 : 1 (1.1) Г —3 (1.2) - 2 (2.1) 4 (2.2) [ 1
2 21 -5 1 . 5
Значение игры равно 19/7, оптимальная смешанная стратегия игрока 1 (О, 0, 4/7, 3/7), оптимальная стратегия игрока 2 (4/7, 3/7). В этой игре значение оказалось таким же, как и в игре из примера 7, т. е. оказалось, что ухудшение информационных условий игрока 2 не улучшило состояние игрока 1. Это обстоятельство в данном случае носит случайный характер и вызвано спецификой функции выигрыша. Пример 10. В предыдущем примере игроки не различают пози ции, находящиеся на одном уровне дерева игры, однако они всетаки знают, какой ход совершают. Можно построить игру, в кото рой игроки проявляют большее незнание. Рассмотрим антагонистическую игру двух лиц, в которой игрок 1 — один человек, а игрок 2 — команда из двух человек А и В. Все трое изолированы друг от друга (находятся в изолированных поме208
щениях) и не могут общаться между собой. В начале игры посред ник входит в помещение, где находится игрок 1, и предлагает ему выбрать число из множества {1, 2}. Если игрок 1 выбирает 1, то посредник заходит сначала в помещение, где находится А, и пред лагает ему выбрать число из множества {1, 2}, затем заходит к В и предлагает ему сделать выбор из множества {1, 2}. Если же игрок 1 выбирает 2, то посредник предлагает игроку В сделать выбор первому. После того как три числа выбраны, игрок 1 выиг рывает величину К(х, у, z), где х, у, z — выборы игрока 1 и членов команды 2 А и В соответственно. Функция К(х, у, z) определяется следующим образом: *(1,1,1)=1, *(1,2,1) = 7, *(2,1,1) = 5, *(2,2,1)=6, *(1,1,2) = 3, *(1,2,2) = 9, К (2,1,2)= 1, * (2,2,2) = 7. Из правил игры следует, что, когда одному из членов команды А и В предлагается сделать выбор, он не знает, совершает ли он выбор на 2-м или 3-м шаге игры. Структура игры изображена на рис. 26. Таким образом информационные множества игрока 2 соде ржат вершины разного уровня, что соответствует незнанию номера хода в игре. Здесь игрок 1 имеет две стратегии. Игрок 2 имеет четыре стратегии, они состоят из всевозможных комбинаций выбо ров членов команды А, В, т. е. его стратегии суть пары (1,1), (1,2), (2Д), (2,2). Для того чтобы понять, как определяются элементы матрицы выигрышей, рассмотрим ситуацию {2, (2,1)}. Так как игрок ) вы брал 2, то посредник идет в комнату к В, который согласно страте гии (2.1) выбирает 1. Далее он идет к А, который выбирает 2. Таким образом, выигрыш в ситуации {2, (2,1)} равен К (2, 1, 2)= 1. Матри-
Рис. 26 209
ца выигрышей для игры в нормальной форме имеет вид (1,1) (1,2) (2,1) (2,2) 1Г1 3 7 9] 2|_5 6 1 7J
Значение игры равно 17/5, и оптимальные смешанные стратегии игроков 1 и 2 соответственно равны (2/5, 3/5), (3/5, 0,2/5,0). Заметим, что в многошаговых играх с полной информацией (см. теорему п. 2.1) существует ситуация равновесия по Нэшу в классе чистых стратегий, а в случае антагонистических многошаговых игр — просто ситуация равновесия в чистых стратегиях. Вместе с тем во всех играх с неполной информацией, рассмотренных в при мерах 7 — 10, ситуации равновесия в чистых стратегиях не суще ствует. 7.2. Дадим теперь формальное определение многошаговой пози ционной игры. Определение. Многошаговая позиционная игра п лиц Г опреде ляется: 1) Заданием древовидного графа G={X, F) с начальной вершиной х0, называемой начальной позицией игры. 2) Разбиением множества всех вершин X нап + 1 множество X,, Х2, .... Х„, Хп+1, где множество X, называется множеством очеред ности i-го игрока i=\, ..., п, а множество X„+l = {x:Fx=0} —мно жеством окончательных позиций. 3) Заданием вектор-функции K(x) = (Kt (x),..., К„(х)) на множест ве окончательных позиций xeX„+i; функция Kt(x) называется выиг рышем i-го игрока. 4) Подразбиением каждого множества Х„ i=l, ..., п, на непересе кающиеся подмножества Х{, называемые информационными множе ствами i-го игрока. При этом для любых позиций одного и того оке информационного множества множество следующих за ними вершин должно содержать одно и то же число вершин, т. е. для любых х, уе Х{: \FX\ — \Fy\ (\FX\ — число элементов множества Fx), и никака вершина информационного множества не должна следовать за неко торой другой вершиной этого оке множества, т. е. если хеХ\, то не существует другой вершины уеХ{ такой, что yeFx (см. п. 1.2). Определение многошаговой игры с полной информацией (см. п. 1.4) отличается от приведенного здесь лишь условием 4, где вводят ся дополнительные разбиения множеств очередности игроков Xt на информационные множества. Как видно из примеров, содержатель ный смысл такого разбиения заключается в том, что при соверше нии своего хода в позиции хеХ, игрок /' в условиях неполной 210
информации не знает самой позиции х, а знает лишь, что эта позиция находится в некотором множестве XJ,c:X,(xeX{). На ин формационные множества игрока условие 4 накладывает опреде ленные ограничения. Требование 1^1 = 1^1 для любых двух вершин одного информационного множества вводится для того, чтобы вершины х, уеХ}, были неразличимы. Действительно, при \FX\ Ф \F^ игрок г мог бы различить между собой вершины х, уеХ\ по числу выходящих из них дуг. Если бы в одном информагшонном множест ве существовали две такие вершины х, у, что yeFx, то это означало бы, что партия игры может пересекать дважды одно информацион ное множество, а это, в свою очередь, равносильно тому, что игрок i не помнит номера своего хода в данной партии, что трудно иредставимо в реальной игре. § 8. СТРАТЕГИЯ ПОВЕДЕНИЯ
Продолжим исследование многошаговой игры с неполной ин формацией и покажем, что в случае полной памяти у всех игроков она имеет ситуацию равновесия в стратегиях поведения. 8.1. Для дальнейшего исследования необходимо ввести ряд до полнительных понятий. Определение. Альтернативами в вершине хеХ называются дуги, инцидентные с х, т. е. {(х, y):yeFx}. Если \Fx\ = k, то в вершине х имеется к альтернатив. Будем считать, что если в вершине х имеется к альтернатив, то они нумеруются целыми числами 1, ..., к, причем вершина х обходится по часовой стрелке. В вершине х0 первая альтернатива может быть указана произвольно. Если некоторая вершина хфх0 обходится по часовой стрелке, то первой альтернативой в х считается та, которая следует за единственной дугой (F~l, х), входящей в х (рис. 27). Будем считать, что в игре Г все альтернативы перенумерованы указанным способом. Пусть Ак— множество всех вершин хеХ, имеющих ровно к альтернатив, т. е. Ак={х:Щ = к}. Пусть l = {X\:X\
альтернативу / в позиции xeXJt, если щ(Х§=1, где / — номер аль тернативы. Так же как это было сделано в п. 1.4, можно показать, что каждой ситуации и() = (и1(), ..., и„()) единственным образом соот ветствует партия со, следовательно, и выигрыш в окончательной позиции этой партии. Пусть xeX„+i — некоторая окончательная позиция и со — един ственный путь (F — дерево), ведущий из х0 в х. Условие принадлеж ности позиции у пути со будем записывать в виде у в со или у<х. Определение. Позиция хеХ называется возможной для «,(•), если существует ситуация м(), содержащая щ(), такая, что в си туации и (•) реализуется путь со, который содержит позицию х, т. е. хесо. Информационное множество Х{ называется существенным для И/(), если некоторая позиция xeXj, возможна для ы,(). Множество позиций, возможных для м((), обозначим через Poss «,(•), а семейство информационных множеств, существенных для «/(•),— через Rel иД). Лемма. Позиция хеХвозможна для м,() тогда и только тогда, когда «,(•) выбирает альтернативы, лежащие на отрезке партии сох от х0 до х во всех своих информационных множествах, пересека ющих сох. Доказательство. Пусть xePossut(). Тогда существует ситу ация м(-), содержащая «,(•), такая, что партия со, реализовавшаяся в этой ситуации, проходит через х: а это и означает, что на своих информационных множествах, пересекающих отрезок партии сох, стратегия м,() выбирает альтернативы (дуги), принадлежащие сох. Пусть теперь щ() выбирает все альтернативы игрока i в сох. Для того чтобы доказать возможность х для ы*(), необходимо постро ить ситуацию «(•), содержащую «,(•), в которой партия проходила бы через х. Для игрока кФг построим стратегию щ(), которая на информационных множествах Х{, пересекающих отрезок пути сох, выбирает альтернативы (дуги), лежащие на этом пути, а в оста льном произвольна. Поскольку каждое информационное множество пересекает путь со лить однажды, это всегда можно сделать. В по лученной ситуации и(-) партия со обязательно пройдет через х. Следовательно, мы показали, что xePossM,(). 212
8.2. Смешанные стратегии в многошаговой игре с неполной информацией Г определяются так же, как и в п. 4.2 гл. I для конечных игр. Определение. Смешанной стратегией ц, игрока i называется вероятностное распределение на множестве чистых стратегий иг рока i, которое каждой его чистой стратегии ut() ставит в соот ветствие вероятность qUj() (в дальнейшем для простоты будем писать просто qu). Ситуация fi=(p.i, ..., /О в смешанных стратегиях определяет распределение вероятностей на всех партиях со (следовательно, и на окончательных позициях Х„+1) по формуле и
где Ри(со) = 1, если партия со реализуется в ситуации и(), и Р„(со)=0 в противном случае. Лемма. Обозначим через РДх) вероятность реализации позиции х в ситуации ц. Тогда имеет место формула
ЗД=
Е
_Яи,..Чи„=й
{u():xePossuj(), / - 1 , и )
I
Яи,
(8.1)
/ - 1 {и<:дсеРов«к,}
Доказательство этого утверждения непосредственно следует из леммы п. 8.1. Математическое ожидание выигрыша Е,(р) игрока i в ситуации ц равно £,(/х) = £ Ъ(х)Р„(х), (8.2) xeXn+i
где Рц(х) вычисляется по формуле (8.1). Определение. Позиция хеХназывается возможной для /х„ если существует ситуация ц в смешанных стратегиях, содержащая ци такая, что РДл:)>0. Информационное множество Х\ игрока i назы вается существенным для ць если некоторое хеХ{ является воз можным для ц,. Множество возможных для /*, позиций обозначим через Poss ць а множество существенных для и, информационных множеств — че рез Rel/i,. 8.3. Исследуя многошаговые игры с полной информацией 213
(см. 3.3), мы показали, что выбор стратегии может осуществляться на каждом шаге в соответствующей позиции игры, а при решении конкретных задач необязательно (да и практически невозможно) определять заранее стратегию, т. е. полный набор рекомендуемого поведения во всех позициях (информационных множествах), по скольку такое правило (см. пример п. 2.2) «страдает сильной избы точностью». Можно ли сделать аналогичное упрощение в играх с неполной информацией, т. е. строить стратегию не как заранее фиксированное правило выбора во всех информационных множест вах, а формировать ее по мере попадания в соответствующее ин формационное множество? Оказывается, что в общем случае этого сделать нельзя. Однако существует класс игр с неполной инфор мацией, где такое упрощение возможно. Введем понятие стратегии поведения. Определение. Под стратегией поведения ft, игрока i будем понимать правило, которое каждому информационному множеству Х\сАк игрока i ставит в соответствие систему из к чисел b(XJ,, v)^0, v = l, ..., к, таких что
2>(nv) = l, V
где Ak={x:\Fx\ = k). Числа b(X{, v) могут интерпретироваться как вероятности выбо ра альтернативы v в информационном множестве X{czAk, каждая позиция которого содержит ровно к альтернатив. Любой набор P=(filf ..., Р„) стратегий поведения для л игроков определяет вероятностное распределение на партиях игры и окон чательных позициях следующим образом: ^/>И= П b(X{v). (8.3) X'fp+0 уеш
Здесь произведение берется по всем Х\ и v таким, что Х{(~]соФ0, и выбор в точке Х{ (~)со альтернативы с номером v приводит в пози цию, принадлежащую пути со. В дальнейшем под понятием «путь» удобно подразумевать не только набор составляющих его позиций, но и набор соответству ющих альтернатив (дуг). Ожидаемый выигрыш E,(fi) в ситуации fi = (fil} ..., /?,,) в стратеги ях поведения определяется как математическое ожидание £,(/?)= £ ВДРДсоД 1=1 и, где сох — партия, завершающаяся позицией хеХп+1. 214
8.4. Каждой смешанной стратегии ц, можно сопоставить некото рую стратегию поведения Р,. Определение. Стратегией поведения р„ соответствующей сме шанной стратегии n,= {qUi} игрока i, называется стратегия поведе ния, определенная следующим образом. Если XJ,eRelfih то Ъ{Х{, v)={ч*,***чтУЪ-*) I Чщ
(8- 4)
Если AT^Relft, то на множестве Х\ стратегию /?, можно опреде лить произвольным, отличным от (8.4) образом. {В случае Af-^Rel Hi знаменатель в выражении (8.4) обращается в нуль.) Для определен ности будем полагать ЫХ{,у)= X 9и, (8.5) Приведем без доказательства следующий результат. Лемма. Пусть /?, — стратегия поведения игрока i, a # = {?«<,} — смешанная стратегия, определяемая формулой
Тогда pt — стратегия поведения, соответствующая /*,. 8.5. Определение. Игра Г называется игрой с полной памятью для i-го игрока, если для любых ut(-), X\, x из условий AT{eRel ы< и xeXJt следует, что jcePossw,. Из определения следует, что в игре с полной памятью для i-го игрока любая позиция из существенного для ы,() информационного множества является возможной для ы,(-). Термин «полная память» подчеркивает то обстоятельство, что, очутившись в любом своем информационном множестве, i-й игрок может точно восстановить, какие альтернативы (т. е. номера) он выбирал во всех своих пре дыдущих ходах (в силу однозначного соответствия). Игра с полной памятью для всех игроков превращается в игру с полной инфор мацией, если все ее информационные множества содержат по одной вершине. 8.6. Лемма. Пусть Г — игра с полной памятью для всех игроков; со — некоторая партия в Г. Пусть xeXJ, — последняя позиция в пу ти со, в которой ходит игрок i, и пусть он выбирает в х дугу veco. 215
Положим Tl(o))={ui:XJleRdu„u,(X])
= v}.
Если в со нет позиций из Х„ то через Tt{co) обозначим множество всех чистых стратегий игрока i. Тогда партия со реализуется в тех и только тех ситуациях и{) = {и1{-), ••-, и„{)), для которых и,еТ({со). Доказательство. Достаточность. Достаточно доказать, что если и,е Т,{со), то стратегия и, выбирает все дуги (альтернативы) игрока I, входящие в партию со (если, конечно, игрок / вообще имеет ход в со). Однако если ы,е Tt{co), то .Y^eRel щ, и так как игра Г имеет полную память, то хе Poss щ (хеш). Значит, согласно лемме п. 8.1, стратегия щ выбирает все альтернативы игрока г, входящие в пар тию со. Необходимость. Предположим, что партия со реализуется в ситуации «(•), у которой и,фТ{со) для некоторого i. Поскольку AfjeRelM/, это означает, что щ^Х^фу. Но тогда путь со не реализует ся. Полученное противоречие завершает доказательство леммы. 8.7. Лемма. Пусть Г — игра с полной памятью для всех игроков. Пусть v — альтернатива {дуга) в партии со, инцидентная xeXJh где хесо, и следующая позиция игрока i {если она существует) в пути со есть уеХ,. Рассмотрим множества S и Т, где S={ut:XieRelUl,u,{Xi)=v}, T={u,:X'!eRelui}. Тогда S=T. Доказательство. Путь u,eS. Тогда A^eRel uh и так как Г име ет полную память, то xePoss ut. Следовательно, по лемме п. 8.1 стратегия щ выбирает все дуги, инцидентные к позициям игрока г на пути от х0 до х и ut{XJi)=v. Таким образом щ выбирает все дуги, инцидентные к позициям игрока i на пути от х0 до у, т. е. у G Poss uu Xki eRel щ и ы,е Т. Пусть ы(еТ. Тогда .У*eRel щ, и так как Г имеет полную память, то j>ePoss щ. Однако это означает, что xePossu, и ut{X^)=v, т. е. u,eS. Лемма доказана. 8.8. Теорема. Пусть Р — ситуация в стратегиях поведения, соответствующая ситуации в смешанных стратегиях ц в игре Г {в которой все позиции имеют по крайней мере две альтернативы). 216
Тогда для того чтобы E,(P)=E,(n),i=U:.,n, необходимо и достаточно, чтобы Г была игрой с полной памятью для всех игроков. Доказательство. Достаточность. Пусть Г — игра с полной памятью для всех игроков. Фиксируем произвольное ц. Достаточно показать, что Рр(со)=Р11(со) для всех партий со. Если в со существует позиция игрока /, принадлежащая несущественному для ц( инфор мационному множеству, то найдется XJ,eRelfilt Х{[\саФ0, такое, что для стратегии поведения /?,, соответствующей ць выполняется равенство b(X]it v)=0, где veto. Отсюда имеем РД<») = 0. Справед ливость соотношения Р/|(ш)=0 в этом случае очевидна. Будем теперь считать, что все информационные множества 1-го игрока, через которые проходит партия со, существенны для ци i= 1, 2, ..., и. Пусть игрок i в партии со ходит по порядку в пози циях, принадлежащих множествам Х\,.... Х\, и выбирает в множест ве Х{ альтернативу Vj, j=\, ..., s. Тогда согласно формуле (8.4) и лемме п. 8.7 имеем Ub(Xivj)= J-l
£ qU{. И(бГ,(ш)
Действительно, поскольку в партии со игрок i свой 1-й ход делает из множества X), оно является существенным для всех м<(-), поэтому знаменатель в формуле (8.4) для b(X\, Vj) равен единице. Далее в силу леммы п. 8.7 в формулах (8.4) числитель Ь(Х{, у,) равен знаменателю Ь(Х{+\ vJ+1),j=l, ..., s. Согласно формуле (8.3) окон чательно получим «-1
u,eTt(fo)
где Т,(со) определено в лемме п. 8.6. В то же время на основании леммы п. 8.6
Р , Н = Ев..,-9чЛ(а»)= "О
Е
qv.4m.
и щеЩа)
т. е. Рм(со)=Р^(ю), и достаточность доказана. Необходимость. Пусть Г не является игрой с полной памятью для всех игроков. Тогда существуют игрок i, стратегия щ, инфор217
мационное множество A^eRel и, и две позиции х, yeXJ, такие, что xePoss и„ уфPoss и,. Пусть и', — стратегия игрока г, для которой у £ Poss u'„ и со— соответствующая партия, проходящая через у в ситуации и'. Обозначим через ц, смешанную стратегию игрока /, которая предписывает с вероятностью 1/2 выбирать стратегию и, либо и,. Тогда Pulltl{y)-PuUi{co)=\j2 (здесь и'Ц/z,— ситуация, в которой чистая стратегия и, заменена на смешанную /z,). Из условия у ф Poss и, следует, что путь со, реализующийся в ситуации и'\\и„ не проходит через у. Это означает, что существует Хк такое, что Хк[)со = Хк[)соФ0 и u,(Arf)^u,(Arf). Отсюда, в частности, следу ет A"feRel u„ Хк eRel и,. Пусть /?, — стратегия поведения, соответст вующая ц,. Тогда b(Xk, M,(Arf)) = l/2. He ограничивая общности, можно считать, что и,(Х'^фщ{X1,). Тогда Ъ(Х\, м,(Х§) = 1/2. Обозна чим через /? ситуацию в стратегиях поведения, соответствующую ситуации в смешанных стратегиях и'\\ц,. Тогда -РДсо)<1/4, в то время как PU|ft(co)= 1/2. Теорема доказана. Из теоремы п. 8.8, в частности, следует, что для нахождения ситуации равновесия в играх с полной памятью достаточно ограни читься классом стратегий поведения. § 9. ФУНКЦИОНАЛЬНЫЕ УРАВНЕНИЯ ДЛЯ ОДНОВРЕМЕННЫХ МНОГОШАГОВЫХ ИГР
Теорема о стратегиях поведения, доказанная в предыдущем параграфе, в общем случае не дает возможности непосредственно решать многошаговые игры с полной памятью, однако при простой структуре информационных множеств она обосновывает вывод фу нкциональных уравнений для значения игры и основанные на этих уравнениях методы нахождения оптимальных стратегий. Наиболее простыми играми с полной памятью, не считая игр с полной информацией, являются так называемые одновременные многошаго-
а)
5} Рис.28
218
вые игры. Выведем функциональное уравнение для значения таких игр и рассмотрим несколько широко известных [5, 11] примеров, где эти уравнения поддаются решению. 9.1. Содержательно одновременная многошаговая игра пред ставляет собой антагонистическую многошаговую игру, в которой на каждом шаге игры игроки 1 и 2 выбирают свои действия одно временно, т. е. не имея информации о выборе противником позиции в этот момент. После того как выборы сделаны, они становятся известными обоим игрокам, и игроки вновь совершают одновре менный выбор и т. д. Условно такую игру будем изображать с помощью графа, име ющего одно из двух представлений (рис. 28, а, б). Граф изображает поочередную игру с четным числом ходов, в которой информацион ные множества игрока, совершающего первый ход, являются одно элементными, а информационные множества другого игрока двух элементными. В такой игре Г оба игрока обладают полной памя тью, поэтому в ней согласно теореме п. 8.8 при отыскании ситуации равновесия можно ограничиться классом стратегий поведения. Пусть, для определенности, в Г первым ходит игрок 1. С каж дым xeXi связывается подыгра Гх с той же информационной структурой, что и игра Г. Нормальная форма любой антагонисти ческой конечно-шаговой игры с неполной информацией представля ет собой матричную игру, т. е. антагонистическую игру с конечным числом стратегий, поэтому во всех подыграх Гх, хвХ^ (включая игру Г=ГХо) существует ситуация равновесия в классе смешанных стратегий. Согласно теореме п. 8.8 такая ситуация равновесия суще ствует и в классе стратегий поведения и значения игры (т. е. значения функции выигрыша в ситуации равновесия в классе сме шанных стратегий и в классе стратегий поведения) равны между собой. Обозначим значение игры Гх через v(x), хеХ1 и составим функциональные уравнения для v(x). Для каждого xeXt следующая позиция х1, в которой ходит игрок 1 (если таковая вообще существует), принадлежит множеству Fx. Позиция х' реализуется в результате двух последовательных выборов: игроком 1 — дуги, инцидентной к вершине х, и игроком 2 — дуги в позициях yeFx, образующих информационные множест ва игрока 2. Поэтому можно считать, что позиция х? получается в результате отображения Тх, зависящего от выборов а, /} игроков 2 и 2, т. е. х'=ГДсс,/?). Так как число различных альтернатив а и Р конечно, то можно рассмотреть для каждого xeXt матричную игру с матрицей выиг219
рышей Ax = {v[Tx(a, Д)]}. Пусть ft (х) = {Ь{ (х, а)}, #,(*) = = {Ь'ц(х, /?)} — оптимальные смешанные стратегии в игре с мат рицей Ах. Тогда имеет место следующая теорема о структуре оп тимальных стратегий в игре Гх. Теорема. В игре Г оптимальная стратегия поведения игрока 1 в точке х (каждое информационное множество игрока 1 в игре Г состоит из одной позиции хеХг) предписывает каждой альтер нативе а вероятность в соответствии со смешанной оптимальной стратегией игрока 1 в матричной игре Ах, т. е.
bt(x, a) = bf(x, a). Оптимальная стратегия поведения {Ь2(Х{, /?} игрока 2 в игре Г предписывает каждой альтернативе ft вероятность в соответст вии с оптимальной смешанной стратегией игрока 2 в игре с матрицей Ах, т. е. где x=F~\ если уеХ{. Значение игры удовлетворяет следующему функциональному ура внению: v(x)=Vtd{v[Tx(a,P)]}*xeXi, (9-1) с граничным условием • (*W,=#(x).
(9-2)
(Здесь Val A — значение игры с матрицей А). Доказательство проводится по индукции и вполне аналогично доказательству теоремы п. 2.1. 9.2. Пример 11. (Игра инспектирования). Игрок Е (нарушитель) хочет совершить некоторое запрещенное действие. Имеется N пери одов времени, в которые это действие может быть осуществлено. Игрок Р (инспектор), желающий предотвратить это действие, мо жет провести только одну инспекцию в любой из этих периодов времени. Выигрыш игрока Е равен 1, если запрещенное действие произошло и осталось необнаруженным, и равен (— 1), если наруши тель пойман (это будет в том случае, когда для совершения дейст вия он выбирает тот же самый период времени, что и инспектор для проверки); выигрыш равен нулю, если нарушитель не действует вовсе. Обозначим такую iV-шаговую игру через Гц. В первом периоде (на 1-м шаге) каждый игрок имеет две альтер нативы. Игрок Е может предпринимать действие или не предприни мать его; игрок Р может инспектировать или не инспектировать. Если игрок Е действует и игрок Р инспектирует, то игра заканчива220
ется и выигрыш равен — 1. Если игрок Е действует, а игрок Р не инспектирует, то игра заканчивается и выигрыш равен 1. Если игрок Е не действует, а игрок Р инспектирует, то игрок Е может пред принять действие в следующий период времени (в предположении, что N> 1) и выигрыш также равен 1. Если игрок Е не действует и игрок Р не инспектирует, то переходят к следующему шагу игры, который отличается от предыдущего только тем, что до конца игры остается меньшее число периодов времени, т. е. попадают в подыгру TN_l. Следовательно, матрица для 1-го шага игры выглядит следующим образом: _ 1
" ' 1 %-J' 1_ 1
(9.3)
Уравнение (9.1) в этом случае принимает вид
%=Va
'["i «!-,}
(9А)
Здесь v (х) одинаково для всех позиций игры одного уровня и поэто му зависит только от числа периодов до конца игры. Поэтому вместо v(x) записано vN. Далее будет показано, что vN_t < 1, следо вательно, матрица в (9.4) не имеет седловой точки, т. е. игра с матрицей (9.4) является вполне смешанной. Отсюда получаем (см. п. 9.1 гл. I) рекуррентное уравнение V
N =
—>
(9-5)
которое вместе с начальным условием
-^ш(~1 S)-°
(9 6)
-
определяет vN. Преобразуем уравнение (9.5) с помощью подстанов1
ки tN=
„
1
. Получим новое рекуррентное уравнение
tN=tN_1—, »„-1 2 tl— — l. Это уравнение имеет очевидное решение tN= — (N+l)/2, откуда имеем
Теперь можно вычислить оптимальные стратегии поведения на каждом шаге игры. Действительно, матрица игры (9.4) принимает Г-1 1 1 „ , , . , „ , оптимальные стратегии поведения таковы: вид |_ 1 (N-2)/N J 221
\JV+1 ЛГ+1/
\JV+1 JV+1/
Пример 12. (Теоретико-игровые особенности оптимального рас хода ресурса). Пусть первоначально игроки 1 и 2 имеют соответст венно г ъ R—r единиц некоторого ресурса, а также по две чистые стратегии. Допустим, что если игроки выберут одинаковые по номеру чистые стратегии, то ресурс игрока 2 уменьшится на еди ницу. Если же игроки выберут разные по номеру чистые стратегии, то на единицу уменьшится ресурс игрока 1. Игра заканчивается после того, как ресурс одного из игроков станет равным нулю. При этом игрок 1 получает выигрыш, равный 1, если ресурс игрока 2 станет равным нулю, и выигрыш — 1, если станет равным нулю его собственные ресурс. Обозначим через Tkl многошаговую игру, в которой игрок 1 имеет k(k=\, 2, ..., г) единиц, а игрок 2 — 1(1=1, ..., R—r) единиц ресурса. Тогда rvairv,.,, VallV.n Vair t / =Val Valr v
L
*-u
air*.,_iJ'
гдеУа1Г к . 0 =1,Уа1Г м =-1. Рассмотрим 1-й от конца шаг, т. е. когда у обоих игроков осталось по одной единице ресурсов. Очевидно, что на этом шаге
г = IГ разыгрывается следующая матричная игра: r^i
1
"Г
Игра Г и является симметричной, ее значение, которое мы обозна чим через «]>ь равно нулю, а оптимальные стратегии игроков со впадают и равны (1/2, 1/2). На 2-м от конца шаге, т. е. когда у игроков осталось три единицы ресурсов, разыгрывается одна из двух матричных игр Г ^ или Г2>1. При этом e, 2 =Vair,,=Val
-1 1
«2,,=Уа1Г2,, = Уа1
_«U
щЛ\~^~~~2' Vl,1
l_ , ' I .i+ 1 _ 1
1_Г~~2'
На 3-м от конца шаге (т. е. когда у игроков имеется в общей сложности четыре единицы ресурса) разыгрывается одна из следу222
юших трех игр: Г13, T w , Г3,1. При этом х/ ITл! t[Vl* »w=Vairu=Val
~П
"U-1 3 =^-—=--, 2
L-l «,J
[
„ w =Vair w S =Val|
«3,i=Vair3,,=Val
«2,1
«1,2*1
«U
«2,lJ
4
1 - ^ - 0 . «2,1 + 1 _ 3
.«2,1
U
2
4'
Продолжая аналогичные вычисления далее до iV-ro шага от конца, получим следующее выражение для значения исходной игры: «г.Д-r-l
«Г-1.Я-Л
•,.*_,=Vair r .,_,=Val J>r-l,R-r
«г.Л-г-lj
В силу симметричности матрицы выигрышей игры TrR_r имеем 1, Vr.R-r~-
ч
Kvr.R-r-l+vr-l,R-r),
оптимальные стратегии поведения игроков на каждом шаге со впадают и равны (1 /2, 1/2). Пример 13. В шуточной игре играют две команды: игрок 1 (mt женщин и т2 кошек); игрок 2 (п1 мышей и и2 мужчин). На каждом шаге каждый из игроков выбирает своего представителя. Один из двух выбранных представителей «устраняется» согласно следу ющим правилам: женщина «устраняет» мужчину; мужчина «устра няет» кошку; кошка «устраняет» мышь; мышь «устраняет» жен щину. Игра продолжается до тех пор, пока в одной из групп не останутся игроки только одного типа. Когда группа не имеет больше выбора, другая группа, очевидно, выигрывает. Обозначим значение исходной игры v{mv m2, п1, п2). Будем полагать v(mlt m2, nv 0)=v(mv m2, 0, л 2 )=1, если mlt m2>0, ,д „.. v(mlt 0, л1( n2)=v(Q, m2, nv п2)= — 1, если nv и 2 >0. Введем следующие обозначения: «(/«i — !)=«(»»! — 1, т2, nv n2), v(m2—\)=v(mi, т2 — \, и1( п2), v(nl — l)=v(m1, m2, п^ — Х, п2), »=(и2— \)=v(ml, m2, n l t л2 — 1). Согласно теореме п. 9.1 справед ливо соотношение 223
v(mv m2, nv n2)=Val LflOij-l)
-1)" e ( m 2 - 1).
Можно показать, что рассматриваемая игра является вполне сме шанной. Согласно теореме п. 9.1 гл. I имеем ю(т1( m2, n^ n 2 )=-
v(m,-l) «(/w^-lJ-tKnj-l) «(л2-1)
»(/«!—1)+«(да2 —!)—«(«! —l)—«(n2 — l)
Учитывая граничные условия (9.8), отсюда получаем e(mlf 1, 1, 1) =
»(»»!- 1)+1
-«(л^-Ц+З
и v(l, 1, 1, 1)=0. Но эти уравнения совпадают с уравнениями (9.5), (9.6), следовательно, v(m, 1, 1, l)=(m — 1)/(/и+1) и оптимальные стратегии в этом случае также совпадают с приведенными в приме ре 11. Упражнения и задачи 1. Найти все ситуации абсолютного равновесия по Нэшу в примере 4 п. 2.2. 2. Доказать, что в неантагонистической конечно-шаговой игре двух лиц с полной информацией выигрыши во всех «благожелательных» (неблагожелательных) ситу ациях равновесия по Нэшу равны между собой. 3. Пусть v1(x), v2(x), ..., v„(x) — значения функций выигрыша игроков 1, 2, ..., л в подыгре Гх в ситуации абсолютного равновесия в игре Г. а) Показать, что функции i>,-(дс), i=\, 2,..., н, удовлетворяют следующей системе функциональных уравнений: «i(x)= max »,(JO. xeXu i=l, 2,..., л, (ЮЛ) х!еГх
при граничном условии «.•(*W„ +1 =#<(*)•
(Ю-2)
б) Привести пример игры, в которой выигрыши игроков в ситуации равновесия в стратегиях наказания не удовлетворяют системе функциональных уравнений (10.1) при граничном условии (10.2). 4. Построить пример неантагонистической многошаговой игры двух лиц, в кото рой в ситуации равновесия в «стратегиях наказания» наказывающий игрок при наказании противника за отклонение от выбранного пути еще сильнее наказывает самого себя. 5. Построить Парето-оптимальные множества в игре из примера 4 п. 2.2. 6. Построить пример многошаговой неантагонистической игры, в которой ни одна из ситуаций равновесия по Нэшу не приводит к Парето-оптимальному реше нию. 7. Построить отображение Т, которое каждой подыгре Г, игры Г ставит в соот ветствие некоторое подмножество ситуаций Uz в эгой подыгре. Пусть Г(Г)=1/Х1). 224
Будем говорить, что отображение Т динамически устойчиво, если из и ( ) б UXo ~к
-к
zb
2
следует, что и ()eU:k, где и ()={и1 (•), ..., и„к()) —сужение ситуации и{) на подагру Г:к, со0 = {х0, zlt .... z^} — партия, реализовавшаяся в ситуации u()eUXo. Показать, что если отображения Т каждой подыгре Г1к ставит в соответствие множество Парето-оптимальных ситуаций I/', то оно динамически устойчиво. 8. Отображение Т, определенное в упр. 7, называется сильнодинамически устой чивым, если для любой ситуации и (•) е UXo, любого z* e {z,} = ш, где {z,} = <о — партия в ситуации и (•), ситуации й (•) е UZk существует ситуация й (•) б UXa, для которой z
k
ситуация и (•) является ее сужением на позициях подыгры Г-к и позиция z* возможна в ситуации й(-). Показать, что если отображение Т каждой подыгре Г,к ставит в соответствие множество ситуаций равновесия по Нашу, то оно сильнодинамически устойчиво. 9. Построить пример, когда отображение Т, ставящее в соответствие каждой подыгре Г% множество Парето-оптимальных ситуаций равновесия, сильнодинамичес ки устойчивым не является. 10. Для каждой подыгры Г, введем в рассмотрение величины v ({/}, z), i = 1,..., п, представляющие собой гарантированный выигрыш 1-го игрока в подыгре Г%, т. е. v ({/}, z) — значение антагонистической игры, построенной на графе подыгры Г\ между игроком i и игроками N\i, действующими как один игрок. При этом множество стратегий коалиции игроков N\ i есть декартово произведение множества стратегий каждого из игроков ke{N\i}, и^е [\ ии функция выигрыша игрока / в ситуации (UJ, и^,) определяется как Н](щ, и^), N\i полагается равной — Н](щ, «AT\I)-
а функция выигрыша коалиции
Построить функции i»({i'}, z) для всех подыгр Г г из примера 4 п. 2.2. 11. Показать, что если в некоторой многошаговой неантагонистической игре Г с неотрицательными выигрышами (Я,->0, i = l , ..., и) »({/}, z) = 0 для всех / = 1 , ... л
..., л и z e [J Xh то любая партия может быть реализована в некоторой ситуации i=i
равновесия в стратегиях наказания. 12. Формализовать fc-уровневую древовидную систему управления в виде иерар хической игры, в которой управляющий центр, находящийся на /-м уровне (i= 1 к~\), распределяет ресурсы между подчиненными ему управляющими центрами следующего уровня при /
древовидной иерархической игре. Учесть возможность «наказания» центра А0 игро ками 5 , , ..., В„ (например, прекращение выпуска продукции при распределении ресурсов, не отвечающих интересам игрока i). 17. Построить матрицу выигрышей игроков в игре примера б п. 7.1. Найти оптимальные чистые стратегии и значение получившейся матричной игры. 18. Привести к матричной форме и решить игру из примера 8 п. 7.1. 19. Рассмотрим следующую антагонистическую многошаговую игру с задерж кой информации о местоположении одного из игроков. Имеются два игрока: мишень Е и стрелок Р. Мишень может двигаться только по точкам оси Ох с координатами О, 1,2,..., причем если игрок Е находится в точке i, то в следующий момент времени он может переместиться только в точки i + 1 , i—1 или остаться на месте. Стрелок Р имеет j патронов, У=0, 1, ..., и может производить не более одного выстрела в каждый момент времени. Считается, что стрелок попадает в ту точку, в которую целится. В каждый момент времени игрок Р знает только точное местоположение игрока Е на предыдущем шаге, т. е. если Е находился на предыдущем шаге в точке i, то игроку Р необходимо целиться в точки i + 1 , i и i— 1. Игрок Е знает количество патронов, которые имеет игрок Р в каждый момент времени, но не знает, куда целится игрок Р. Выигрыш стрелка Р равен числу попаданий в мишень. Таким образом, цель стрелка Р — максимизировать количество попаданий в мишень Е до того, как она достигнет «бункера». Цель мишени противоположна. Здесь под «бун кером» понимается точка О, в которой мишень недостижима для стрелка Р. Обозначим символом Г(,/> описанную выше игру при условии, что мишень Е в начальный момент времени находилась в точке с координатой i, а стрелок Р имел j патронов. Символом « (i, J) обозначим значение игры Г у (если оно существует). Нетрудно заметить, 4TO«(i, 0)=0, i = l , 2 v=(l,j)=0,j=l, 2 На каждом шаге игры Г|>7, i=2, 3 у=1, 2 стрелок имеет четыре стратегии (на самом деле больше, но они неразумны), а игрок Е — три стратегии. Стратегии стрелка Р таковы: выстрелить в точку i— 1, выстрелить в точку i, выстрелить в точку i+1, не стрелять на данном шаге. Стратегии мишени: передвинуться в точку i— 1, оставаться в точке i, передвинуться в точку i + 1 . Следовательно, на каждом шаге игры разыгрывается матричная игра с матрицей выигрышей " 1 +« ( i - 1 , j-1)
« (i, j-1)
»(i-l, 7-1)
l+t>(i,7'-l)
«(i-1, 7-1)
«(i.7'-l)
«0-1,7)
«(i,7)
• (i+1, j-1) " «(i+1,7-1) 1 +«(i+1, 7 - 1 ) «(i+1, J)
.
Символами *! (i, j), x2 (i, j), x3 (i, J), x^ (i, j) обозначим вероятности, с которыми стрелок Р использует свои 1, 2, 3 и 4-ю стратегии, а символами y^i, j), y2(i, j), Уз&Л — вероятности, с которыми мишень Е использует свою 1, 2, и 3-ю стратегии (стратегии поведения игроков Р и Е соответственно есть функции информационных множеств {i,7'})а) Показать, что значение игры «(i, j) и оптимальные стратегии поведения стрелка Р (xt (i, f), x2 (i, J), x3 (i, J), xA (i, 7)) и мишени Е (у, (i, j), y2 (i, 7), ^3 ('. Л) связаны между собой следующими соотношениями: (l+»(i-l,7-l))x1+»(i-l,7'-l)x2+»(i-l,7-l)*s+»(»-l,;')**>«0'.A «(i,7'-l) *j + (l+«(i,7"-l)) *2+«(i.7'-l) xa+v(i,j) x^v{i,J), « ( i + l , 7 ' - l ) x 1 + « ( i + l , 7 - l ) x 2 + ( l + « ( i + l > 7 ' - l ) ) x 3 - t - « ( ' + l. J /)^>«('.7). xl+x2+x3+x4. = l, X!>0, x2>0, x3>0, xA^0; (l+v(i-l,j-l)) yi+v(i,j-l) y2+v(i+l,j-l) y3^v(i,j), 226
v(i-l,j-l)y1 + (l+v(i,j-l))y2+v(i+l,j-l)y3^v(i.J), v(i-l,j-l) y^vQ.j-l) y2 + (l+v(i+l,j-l)) y^vfrj), »0'-l.y) yi+v(i.J) y2+vQ+\,J) y3
Q+9Q-l,j-l)+9(t,J-l))l2}. 1) Доказать, что v(i, J)=(p(i, J), и если v(i, J) = (l+v(i-l,
7-1)+» ft j—l)+
+t,(i + l,7-l))/3,TO
*i ft Л=» 0". j)-« («'-1, У-1), * 2 ft Л =» 0'. J)-« ft J-1). *з ft j) =» ft / ) - » 0 + 1, j-1). *4 С J)=°> 2) Доказать, что» {i,j)*=
^ftJ)=o.
в) Доказать, что при любом7=0, 1, 2,... справедливы следующие соотношения: i)«ft/)=y/3,1-7+1J+2,...; 2)«ft7)<«0'+l,A« = l,2,...; 3)»ft7)<»ft7'+l),«'=2, 3, ...; 4) • ft7) +•(!+2,7)<2»(i+l,7), / - 1 , 2, ... . г) Доказать, что: 1) ton »(«',т)=У/3 при любом фиксированном7°—0, 1, 2,...; 2) ton v(i,f)=i—\ при любом фиксированном / = 1, 2, .... _/-• —оо
20. Рассмотрим обобщение игры о стрелке и мишени, когда мишень Е, занимая положение /, может из него передвинуться максимум на к единиц вправо или влево, т.е. перейти в каждую из следующих точек /— ' к, i—к+\ », i + l, ..., i+k. Остальные цели и возможности стрелка Р и мишени Е остаются прежними с учетом нового определения стратегии игрока Е. Символом G(i,j) обозначим игру при условии, что мишень в начальный момент времени занимает i-ю точку, а стрелок имеет 7° патронов. Символом v(i,J) обозначим значение игры G{i,j). Из определения G(i,j) имеем .(/. 0)=0 /=1, 2, ... , v(i,j)=0, » = 1, 2, ..., t,J=\, 2 На каждом шаге игры G(i,J), i=Jfc+l, ...,7=1, — стрелок Р имеет 2fc+2 чистые стратегии, а мишень Е(2к+\) — чистую стратегию. Чистыми стратегиями игрока Р являются: стрельба в точку i—k, стрельба в точку i—k+ 1,..., стрельба в точку i+k, 227
отказ от выстрелов на данном шаге. Стратегиями Е являются: перемещение в точку i—k, перемещение в точку i—k+l, ..., перемещение в точку i+k. Таким образом, на каждом шаге игры разыгрывается игра с матрицей {<хтп (г, _/)} размера (2fc+2) х (2к+1), где 1+«(1+и—к— 1, j— 1), если ти=л = 1, ..., 2к+1, v(i+n-k-l, j - \ ) , если тфп; т. л=1, ..., 2к+1, j), если m=2A+2, я=1, ..., 2к+1. ! v(i+n-k-l, а) Показать, что игра G (z, j) имеет значение, равное v (i, _/), в том и только в том случае, если существуют (х,, х 2 ,.... х2^+г). (Ук >а» ••» У2к+г) такие, что: 2*+2 £ Omnd.f) Xm>v(i,j), т+1 2*+2
И = 1, ..., 2АтЧ-1,
£ xm = l, дст>0, т = 1 , ..., 2*+2, т=1 2*+1
Е "тяО. 7) >в<«0'-Л »» = 1> •••> 2fc+l, л-1
2*+1
I Л-1,Л>0,я-1, ...,2*+1. л-1
Указание. Обозначим символами x1(i, J), x2(i, f) хгк+гИ j) оптимальные стратегии поведения (если они существуют), с которыми стрелок Р использует свои 1-ю, 2-ю, ..., (2fc+2)-K> стратегии в информационном состоянии (i, j), а символами УЛ'< А Уг(}> JX —> Угк+ii'' J) — оптимальные стратегии поведения, с которыми мишень Е использует свою 1-ю, 2-ю, ..., (2£+1)-ю стратегии в информационном состоянии (j, j). В приводимых ниже упражнениях приведено решение игры G{i, j) и его свойства. б) Символом
((l+^v(i+t~k-l,j-l))l(k+2)\
!•-/. , * + l \
,.,
(10.3) /
i=k+l, k+2, ...,j=\, 2 Доказать, что 1) v(i,j)=
з)»(|,Л<«0"+1.Л»=1Д».; 4) v(i,J)^v(i,j+l), i=k+l k+2, ...; 5) »(|'.У+1)<«(/./)+1/(2*+1), / - 1 , 2 г) Игра G(i, oo). Доказать, что fimv(i, j)=u>(i) при каждом i = l, 2, ..., где j-»ao
u> (i) — решение линейного разностного уравнения к ЬЧО- I W(!-P)-1, t-k+l, k+2,... Р-\ с начальными условиями: *(!)*= и-(2)=...=и>(А:)=0.
ГЛАВА V
ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ
§ 1. АНТАГОНИСТИЧЕСКИЕ ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ С ПРЕДПИСАННОЙ ПРОДОЛЖИТЕЛЬНОСТЬЮ
Дифференциальные игры являются обобщением многошаговых игр на случай, когда число шагов в игре становится бесконечным (континуум), и игроки 1 и 2 (будем обозначать их буквами Е и Р) соответственно имеют возможность принимать решения непрерыв но. В такой постановке траектории движения игроков представляют собой решения систем дифференциальных уравнений, правые части которых зависят от параметров, которые находятся под контролем игроков. 1.1. Пусть xeRn, yeR„, ueUczRk, veVczR, f(x, и), g(y, v) — вектор-функции размерности п, заданные на R" x U и R* x V соот ветственно. Рассмотрим две системы обыкновенных дифференци альных уравнений *=/(*, и); (1.1) y=g(y, «О (1.2) с начальными условиями х0, у0. Игрок Р(Е) начинает движение из фазового состояния х0 (у0) и перемещается в фазовом пространстве R" согласно (1.1) или (1.2), выбирая в каждый момент времени значение параметра ueU(veV) в соответствии со своими целями и информацией, доступной в каждом текущем состоянии. Наиболее просто поддается описанию случай полной инфор мации. В дифференциальной игре это означает, что игрокам в каж дый момент времени t при выборе параметров ueU, veV известно время / и фазовые состояния свое и противника. Иногда требуют знание одним из игроков, например игроком Р, в каждый текущий момент / значения параметра ve V, выбранного игроком Е в этот же момент. В таком случае говорят, что игрок Е дискриминирован, а сама игра называется игрой с дискриминацией игрока Е. Параметры ueU, veV называются управлениями игроков 230
Р и Е соответственно. Функции х (/), y(f), удовлетворяющие уравне ниям (1.1), (1.2) и начальным условиям, называются траекториями движения игроков Р, Е. 1.2. Цели в дифференциальной игре определяются с помощью выигрыша, который может различным образом зависеть от ре ализовавшихся траекторий x(t), y(t). Например, предполагается, что процесс игры продолжается некоторое заранее предписанное время Т. Пусть х (Т), у (Г) — фазовые состояния игроков РиЕв мо мент окончания игры Т. Тогда выигрыш игрока Е полагается равным Н(х(Т), у(Т)), где Н(х, у) — некоторая функция, заданная на R" х Rn. В частном случае, когда Н(х(Т), у(Т)) = р(х(Т), у(Т)), (1.3) где р(х(Т),
у(Т))= /^(хДГ)—у,(Т))2—евклидово
расстояние
между точками х(Т), у(Т), игра описывает процесс преследования, в котором целью игрока Е является уклонение от игрока Р к момен ту окончания игры на максимальное расстояние. Во всех случаях будем предполагать дифференциальную игру антагонистической. В случае выполнения условия (1.3) это означает, что цель игрока Р — максимальное сближение с игроком Е к моменту окончания игры Т. При таком определении выигрыш зависит лишь от конечных состояний процесса и каждому игроку не засчитываются резуль таты, достигнутые им в процессе игры до момента Т. Поэтому логичной является и такая постановка задачи, в которой выигрыш игрока Е определяется как минимальное расстояние между игро ками в процессе игры: min p(x (t),y(t)). Существуют игры, в которых ограничение на продолжитель ность игры не является существенным и игра продолжается до достижения игроками определенного результата. Пусть в Л " задана m-мерная поверхность F, которую будем называть терминальной. Положим tn={mmt:(x(t),y(t))GF), (1.4) т. е. tn — первый момент попадания точки (х (/), у (/)) на F. Если при всех />0 точка (x(t), y(t))$F, то tn полагаем равным +оо. Для реализовавшихся траекторий х (t), у (t) выигрыш игрока Е полагаем равным t„ (выигрыш игрока Р равен — /„). В частности, если F пред ставляет собой сферу радиуса /3s 0, заданную уравнением 231
то имеет место задача преследования, в которой целью игрока Р является скорейшее сближение с игроком Е на расстояние />0. Если 1=0, то под встречей понимается совпадение фазовых коор динат игроков Р и Е, при этом игрок Е стремится оттянуть момент встречи. Игры преследования этого типа будем называть играми преследования на быстродействие. В теории дифференциальных игр рассматриваются также задачи определения множества начальных состояний игроков, из которых игрок Р может обеспечить встречу с игроком Е на расстоянии /, и определения множества начальных состояний игроков, из которых игрок Е может гарантировать, что встреча с игроком Р на расстоя нии / за конечное время не произойдет. Первое множество называет ся областью встречи или захвата и обозначается (С, Z), второе — областью убегания и обозначается (Е, Z). Очевидно, что эти об ласти не пересекаются, однако важным является вопрос, покрывает ли объединение замыканий областей встречи и убегания все фазовое пространство? Ответ на этот вопрос будет дан ниже, а пока заме тим, что для адекватного описания такого процесса достаточно определить выигрыш следующим образом. Если существует /„<оо (см. (1.4)), то выигрыш игрока Е полагаем равным — 1. Если же t„ = оо, то выигрыш равен +1 (выигрыш игрока Р равен выигрышу игрока Е с обратным знаком, так как игра антагонистическая). Игры преследования с таким выигрышем называются играми пре следования качества. 1.3. Фазовые ограничения. Если дополнительно потребовать, что бы в процессе игры фазовая точка (х, у) не покидала некоторого множества FcR , то получим дифференциальную игру с фазовыми ограничениями. Частным случаем такой игры является игра с «лини ей жизни». Она является антагонистической игрой качества, в кото рой выигрыш игрока Е полагается равным +1, если ему удается достичь границы множества F («линии жизни») до встречи с игро ком Р. Таким образом, целью игрока Е является достижение гра ницы множества F до встречи с игроком Р (сближение с игроком Р на расстояние /, / ^ 0), цель же игрока Р — сближение с игроком Е на расстояние /, пока последний еще находится в множестве F. Предполагается, что в процессе игры игрок Р не может покинуть множества F. 1.4. Пример 1. (Простое движение). Игра происходит на плоско сти. Движение игроков Р и Е описывается системой дифференциаль ных уравнений х1 = и1, х2 = и2, uf + M^a 2 , 232
xt (0)=*?, x2 (0)=*S, у, ф)=у\, уг ф)=у°2, 0&Р. (1.5) С физической точки зрения уравнения (1.5) означают, что игроки Ра Еперемещаются в плоскости с ограниченными скоростями, при этом максимальные скорости а и /? постоянны по величине и мак симальная скорость игрока Е не превосходит скорость игрока Р. Выбирая в каждый момент времени управление и = (и1, м2), стес ненное ограничением ui + ul^cr (множество U), игрок Р может изменять направление движения (направление вектора скорости). Аналогично, игрок Е, выбирая в каждый момент времени управле ние » = («!, v2), стесненное ограничением v] + v2^p (множество V), может также в каждый момент времени изменить направление движения. Очевидно, что если а>р", то множество захвата (С, Z) совпадает со всем пространством, т. е. игрок Р всегда может гарантировать для любого / /-встречу с игроком Е за конечное время. Для этого достаточно выбрать движение с максимальной скоростью а й в каждый момент времени t направлять вектор скорости на преследуемую точку у (t), т. е. осуществлять преследо вание по погонной линии. Бели а^/?, то множество убегания (Е, Z) совпадает со всем пространством игры за вычетом точек (х, у), для которых р(х, у)^1. Действительно, если в начальный момент р(х0, Уо)>1, то игрок Е всегда может гарантировать избежание захвата, удаляясь от игрока Р вдоль прямой, соединяющей начальные точки х0, у0, с максимальной скоростью р. Здесь проявляется характерное свойство, которое будет встре чаться и в дальнейшем. Для формирования управления, гарантиру ющего игроку Е избежание захвата, достаточно знать лишь началь ные состояния х0, у0, в то время как игроку Р в случае а>/? для формирования управления, гарантирующего встречу с игроком Е, необходимо иметь информацию о своем состоянии и состоянии противника в каждый текущий момент времени. Пример 2. Игроки Р и Е представляют собой материальные точки с единичными массами, которые перемещаются на плоскости под действием ограниченных по модулю сил и силы трения. Уравне ния движения игроков имеют вид Х}=х3, х2 =Хд, х3 = ам1 крХ3, х4 = а.и2 — кРх4., и\+и\^а2, У1=Уз.У2=У4.'Уэ=р1>1-кЕу3, к
У4 = Р»2- ЕУ4>
2
(1.6) 2
V l+v\
где (xv x2), (ylt у2) — геометрические координаты, (хъ, х4), (уъ, у4) — импульсы точек Р и Е соответственно, кРакЕ — коэффициен ты трения, а и /? — максимальные силы, которые могут быть при ложены к материальным точка Р и Е. Движение начинается из 233
состояний х,(0) = х1, у,(0)=у1, 1=1, 2, 3, 4. Здесь под состоянием понимается не геометрическое местоположение игроков Р и Е, а их фазовое состояние в пространстве координат и импульсов. Множе2 ства U, V представляют собой круги U—{u = (ul, и2)\и\ + и\^<х }, F={w = («l5 v2):v]+vl^p2}. Это означает, что игроки Р и Е в каж дый момент времени могут выбирать направления прилагаемых сил, однако максимальные значения этих сил ограничены констан тами а и /?. В такой постановке, как это будет показано в даль нейшем, условия а>р (превосходство в силе) недостаточно для завершения преследования игроком Р из любого начального состо яния. 1.5. Пока не указан способ выбора управлений ие U, veV игро ками Р и Е в процессе игры в зависимости от поступающей инфор мации. Иначе говоря, не дано определение понятия стратегии в диф ференциальной игре. Существует несколько разных подходов к определению этого понятия. Остановимся на тех интуитивно очевидных теоретикоигровых качествах, которыми оно должно обладать. Как уже от мечалось в гл. IV, стратегия должна характеризовать поведение игрока во всех информационных состояниях, в которых он может оказаться в процессе игры. В дальнейшем будем определять инфор мационное состояние каждого игрока фазовыми векторами x(f), y(t) в текущий момент t и временем t—t0, прошедшим с момента начала игры. Тогда естественно было бы рассматривать стратегию игрока Р(Е) как функцию и(х, у, t) (v(x, у, t)) со значениями в множестве управлений U(V). Именно таким образом определяет ся стратегия в [1]. Стратегии этого типа будем называть синтезиру ющими. Однако этот способ определения стратегии обладает рядом существенных недостатков. Действительно, пусть игроки Р и Е вы брали стратегии и(х, у, t), v(x, у, t) соответственно. Тогда для определения траектории движения игроков, следовательно, и выиг рыша (который зависит от траекторий) подставим функции и(х, у, t), v(x, у, t) в уравнения (1.1), (1.2) вместо управляющих параметров и, v и попытаемся их проинтегрировать при начальных условиях х0, у0 на отрезке времени [0, 7]. Получим следующую систему обык новенных дифференциальных уравнений: x=f(x, u(x, у, /)), y=g(y, v(x, у, 0). (1.7) Для существования и единственности решения системы (1.7) необходимо наложить определенные условия на функции f(x, и), g(y, v) и стратегии и(х, у, t), v(x, у, t). Первая группа условий не ограничивает стратегических возможностей игроков, относится к постановочной части задачи и оправдывается физической приро дой рассматриваемого процесса. По-иному обстоит дело с ограни чениями на класс функций (стратегий) и(х, у, t), v(x, у, t). Ограниче ния возможностей игроков не согласуются с принятым в теории игр 234
представлением о свободе выбора поведения и приводят в ряде случаев к существенному «оскудению» множеств стратегий. Напри мер, если ограничиться лишь непрерывными функциями и(х, у, t), v (х, у, t), то встречаются задачи, в которых не существует решения в классе непрерывных функций. Допущение же более широкого класса стратегий приводит к невозможности обеспечить сущест вование единственного решения системы (1.7) на отрезке [t0, 7]. Иногда для преодоления этой трудности рассматривают множества таких стратегий и (х, у, i), v (x, у, t), при которых система (1.7) имеет единственное решение, продолжимое на отрезок [/0, Т\. Однако такой подход (помимо неконструктивности определения множества стратегий) не является достаточно обоснованным, поскольку мно жество всех пар стратегий и (х, у, t), v (x, у, t), при которых система (1.7) имеет единственное решение, оказывается непрямоугольным. 1.6. В качестве стратегий в дифференциальной игре будем рас сматривать кусочно-программные стратегии. Кусочно-программная стратегия и() игрока Р состоит из пары {а, а), где а — некоторое разбиение 0=t'0
Il^(y. «II ? (здесь ||z|| — норма вектора в R"). Кроме того, векторфункции f(x, и) и g{y, v) удовлетворяют условию Липшица по х и у соответственно независимо от и, v, т. е. \\f(x. u)-f(x2> iOIKaJXi-XjH, ueU, h(yi.v)-g(y2,v)^piyi-y2\\.veV. Из теорем существования и единственности Каратеодори следует, что при выполнении указанных условий для любых начальных состояний х0, у0, любых измеримых программных управлений и (/), v(t), заданных на отрезке [7\, TJ, 0^Т.<Т2, существуют единст венные абсолютно непрерывные вектор-функции x(i), y(i), которые удовлетворяют почти всюду (т. е. всюду, за исключением множест ва меры нуль) в промежутке [Т^ТД системе дифференциальных уравнений x(t)=f(x(t), «(/)), y(t)=g(y(t),«,(/)) (1.9) и начальному условию х (Т1)=х0, y(Tj)=y0 (см. [68, 36]). 1.7. Пусть (х0, у0) — пара начальных условий для уравнений (1.8). Система S={x0, y0; и(), «(•)}, где м()еР, «()еЕ, называется ситуацией в дифференциальной игре. Каждой ситуации S единствен ным образом соответствует пара траекторий x(t), y(f) таких, что JC(0)=X O , у(0)=уо, и при почти всех fe[0, 7], Т>Ь выполнены соотношения (1.9). Действительно, пусть и()={8, а], «() = {т, Ь). Пусть 0 = tQ
y(t^)= lim y(t), строим решение (1.9), вторично используя измеримость управлений u(i), v(t) как образов отображений а и Ъ на отрезках [tk, tk+l), к=\, 2, ... . Полагая x(t2)= lim x(t), у((г)= l™1 У(*)> продолжаем этот процесс, в результате чего нахо»->(j-0 дим единственное решение x(t), y(t) такое, что х(0)=х о , у(0)=уоЛюбую траекторию x(t)(y(t)), соответствующую некоторой ситу ации {х0, у0; м(), v(•)}, будем называть траекторией игрока Р (игро ка Е). 1.8. Функция выигрыша. Как уже было показано, каждая ситу ация S=(x0, y0; и(.), «(•)} в кусочно-программных стратегиях одно значно определяет траектории x(t), y(t) игроков Р и Е. Степень 236
предпочтительности этих траекторий будем оценивать функцией выигрыша К, которая каждой ситуации ставит в соответствие неко торое вещественное число — выигрыш игрока Е. Выигрыш игрока Р равен (—К) (это означает, что игра антагонистическая, поскольку сумма выигрышей игроков Р и Е в каждой ситуации равна нулю). Будем рассматривать игры с функцией выигрыша четырех видов. Терминальный выигрыш. Заданы некоторое число Г>0 и непре рывная по (х, у) функция Н(х, у). Выигрыш в каждой ситуации S={x0, y0; ы(-), «(•)} определяется следующим образом: K(x0,y0;u(.),v(.)) = H(x(T),y(T)), где x(T)=x(i)\t=T, y(T)=y(t)\tmT (здесь x(t), y(t) — траектории иг роков Р и Е, соответствующие ситуации S). В случае, когда функция Н(х, у) представляет собой евклидово расстояние между точками х я у, имеет место задача преследования. Минимальный результат. Пусть Н(х, у) — вещественная непре рывная функция. В ситуации 5={х 0 , у0; ы(-), «(•)} выигрыш игрока Е полагается равным min H(x(t), y(t)), где Г>0 — заданное число. Если Н(х, у)=р(х, у), то игра описывает процесс преследования. Интегральный выигрыш. В R"xR" заданы некоторое многооб разие F размерности т и непрерывная функция Н(х, у). Пусть в ситуации S={x0, y0; «(•), »(•)}> К — первый момент попадания траектории (x(i), y(t)) на F. Тогда К(х0, у0; «(.), «(•))=/ H(x(t),y(t)) dt о (если t„=ao, то К = оо), где x(t),y(t) — траектории игроков Р и Е, соответствующие ситуации S. В случае Н=\, K=t„ имеет место задача преследования-на быстродействие. Качественный выигрыш. Функция выигрыша АГ может принимать только одно из следующих трех значений: +1,0, — 1 в зависимости от расположения (х (/„), у (/„)) в R" х R". В R" x R" заданы два много образия F и L размерности mY и т2 соответственно. Пусть в ситу ации S={x0, y0; u(), v()}t„ — первый момент попадания траек тории (x(t), y(t)) на F. Тогда ( + 1, если (х (tn),y (О) 6 L, К(х0, у0; и(), «(•)) = < 0, если f„ = oo, 1-1, если (х (/„), y(t„)) фЬ. 1.9. Определив множества стратегий игроков Р и Е и функцию выигрыша, можно определить дифференциальную игру как игру 237
в нормальной форме. В. п. 1.1 гл. I под нормальной формой Г мы понимали тройку Г = <Х, Y, К), где XxY — пространство пар всевозможных стратегий в игре Г и К — функция выигрыша, опре деленная на 1 х У. В рассматриваемом случае функция выигрыша определена не только на множестве пар всевозможных стратегий в игре, но и на множестве всех пар начальных позиций х0, у0. Поэтому каждой паре (х0, y0)eRnxRn соответствует своя игра в нормальной форме, т. е. фактически определяется некоторое семейство игр в нормальной форме, зависящее от параметров (x0,y0)eR*xRn. Определение. Под нормальной формой дифференциальной игры Г(х 0 , у0), заданной на пространстве пар стратегий РхЕ, будем понимать систему Г(х0. Уо) = <хо- JV р . Е» к(хо> Уо1 «(•). «())>. где K(xQi y0; ы(), »(•)) — функция выигрыша, определенная любым из четырех описанных выше способов. Если функция выигрыша К в игре Г терминальная, то со ответствующая игра Г называется игрой с терминальным вы игрышем. Если функция К определяется вторым способом, то имеем игру на достижение минимального результата. Если функция К в игре Г является интегральной, то соответствующая игра Г называется игрой с интегральным выигрышем. Когда функция выигрыша в игре Г качественная, соответствующая игра Г на зывается игрой качества. 1.10. Естественно, что в классе кусочно-программных стратегий (ввиду некомпактности множества) оптимальных стратегий может не существовать. Однако удается показать, что в достаточно боль шом числе случаев для любого е>0 существуют ситуации е-равновесия. Напомним определение ситуации s-равновесия (см. п. 2.3 гл. II). Определение Пусть задано некоторое е>0. Ситуация S,= = {х0, у0; и«(-)> «,(•)} называется ситуацией е-равновесия в игре Г(х0, у0), если для всех м()еР и v()eE имеет место неравенство К(х0, у0; и(•), v,(.)) + e>K(x0, у0; «,(.), „.(•))> (1.10) ^К(х0,у0;и, (•),«(•)) ~е. Стратегии «,(•), ««(•), определенные в (1.10), называются Е-ОПтимальными стратегиями игроков Р и Е. Следующая лемма является перефразировкой теоремы п. 2.5 гл. П для дифференциальных игр. Лемма. Пусть в игре Г(х0, у0) для каждого е>0 существует ситуация е-равновесия. Тогда существует предел 238
lim K(x0, y0; «,(.), «.(•)). «-•о
Определение. Функция V{x, у), определенная в каждой точке (х, у) некоторого множества DcB?xl? по правилу lim К(х, у; «.(.), «.(•))= V(x. у), (1.11) в-»0
называется функцией значения игры Г (х, у) на множестве начальных условий (х, y)eD. Существование при любом е>0 ситуации е-равновесия в игре Г (х0, у0) эквивалентно (см. п. 2.5, гл. П) выполнению равенства sup inf К(х0, у0; и(•), «(•))= inf sup К(х0, y0; ы(), «(•)). «(•)еЕ и()еР
и()бР«()бЕ
Если в игре Г(х0, у0) для любого Б > 0 существуют е-оптимальные стратегии игроков РжЕ,то будем говорить, что игра Г (х0, у0) имеет решение. Определение. Пусть и* (•); v* (•) — пара таких стратегий, что К(х0, у0; «(.), v*(.))>K(x0, y0; «*(•), ••(.))> £*(х 0 .;р 0 ; «*(.). «О) (112) для всех и()еР u vQeE. Тогда ситуация S* = (x0, y0; ы*(), «*(•)) называется ситуацией равновесия в игре Г(х 0 , ;у0). Стратегии и*()еР и v*()еЕ из (1.12) называются оптимальными стратегиями игроков Р и Е. Существование ситуации равновесия в игре Г (х0, у0) эквивалент но (см. п. 3.4 гл. I) выполнению равенства max inf K(x0, y0; и(), »(•))= »(.)еЕи(-)еР
= min supAT(x0, y0; ы(), *(.)). и()бЕи()еР
Очевидно, что если существует ситуация равновесия, то для любого е>0 она является и ситуацией Б-равновесия, т. е. функция V(x, у) в данном случае просто совпадает с К (х, у; и* (•), »* (•)) (см. п. 2.3 гл. II). 1.11. Рассмотрим синтезирующие стратегии. Определение. Пара (и* (х, у, t), v* (x, у, /)) называется ситуаци ей равновесия в дифференциальной игре в синтезирующих стратеги ях, если имеет место неравенство К(х0, у0; и(х, у, t), v*(x, у, t))^K(x0, у0; u*(x, у, t), v* (х, у, t))^K(x0, y0; и*(х, у, t), v(x, у, /)) 0-13) для всех ситуаций (и (х, у, t), v* (х, у, t)) и (и* (х, у, t), v {х, у, t)), для которых существует единственное, продолжимое на [О, оо) решение 239
системы (1.7) из начальных состояний х0, у0. Стратегии и*(х, у, i), v* (х, у, 0 называются оптимальными стратегиями игроков Р и Е. Установим различие понятий ситуации равновесия в кусочнопрограммных и синтезирующих стратегиях. Заметим, что опреде лить ситуацию равновесия в обычном смысле в классе функций и (х, У, 0> v(x, у, i) невозможно из-за непрямоугольности пространства ситуаций, т. е. в синтезирующих стратегиях невозможно потребо вать выполнения неравенства (1.13) для всех стратегий и (х, у, t), v (х, у, i), поскольку некоторые пары (и*, v), (и, v*) могут не быть допустимыми (система уравнений (1.7) в соответствующей ситуации может не иметь решения вообще или не иметь единственного реше ния). В дальнейшем, если специально не будет оговорено, во всех случаях будем рассматривать классы кусочно-программных страте гий. Прежде чем перейти к доказательству существования ситуации е-равновесия в дифференциальной игре, рассмотрим один вспомога тельный класс многошаговых игр с полной информацией. § 2. МНОГОШАГОВЫЕ ИГРЫ С ПОЛНОЙ ИНФОРМАЦИЕЙ И БЕСКОНЕЧНЫМ ЧИСЛОМ АЛЬТЕРНАТИВ
2.1. Рассмотрим класс многошаговых игр с полной информаци ей, представляющих собой обобщение игр с полной информацией из § 1 гл. IV. Игра происходит в л-мерном евклидовом пространстве R". Будем обозначать через х е R" местоположение (позицию) игрока 1, а через yeRn — местоположение игрока 2. Пусть для каждых xeR", yeR" определены множества Ux, Vy соответственно, которые будем предполагать компактными множествами евклидового про странства R". Игра начинается из позиции х0, у0. На 1-м шаге игроки 1 я 2 выбирают точки хх е С/Хо и ух e F>0. При этом выбор игрока 2 сообщается игроку 1 до выбора им точки JCX e UXo. В точках xt, yt игроки 1 и 2 выбирают точки хге UXl ny2e Vyx, и выбор игрока 2 сообщается игроку / перед выбором им точки х2 е UXl и т. д. На к-м шаге в позициях хк_и ук_х игроки выбирают xkeUXk_x, уке Vyk_v и выбор игрока 2 сообщается игроку / перед выбором им точки xkeUXk_v Процесс заканчивается на JV-м шаге выбором x w e [/,„_,, yNe VyK_t и переходом в состояние xN, yN. Семейства множеств Ux, Vy, xeRn,yeRn предполагаются непре рывными в метрике Хаусдорфа по х, у. Это означает, что для любого Б > 0 найдется такое д>0, что при |JC—лс0|<^ (\у—у0\<&) 240
(U^=>UX. (£/,).=>£/,„; (V,X=V,.
(V,)t*V„.
Здесь Ut(V,) — £-окрестность множества U(V). Следующий результат хорошо известен в анализе (см. [12]). Лемма. Пусть /(х1, / ) — непрерывная функция на декартовом произведении Uxx Vr Тогда если семейства \UX}, \Vy} — непрерывны по Хаусдорфу по х, у, то функционалы f i (х, y)=ma.x minf(x', / ) , /eVy
x!eVx
F2(x, y)=min min/(f, / ) *eVx?eVy
непрерывны_по х, у. Пусть x=(x0, .... xN) и y=(y0, .... yN) — траектории игроков 1 и 2 соответственно, реализовавшиеся в процессе игры. Выигры шем игрока 2 является величина max f(xk,yk)=F(x,y), (2.1) где/(х, у) — непрерывная функция от х, у. Выигрыш игрока 1 равен (-F) (игра антагонистическая). Будем предполагать, что данная игра с полной информацией, т. е. в каждый момент времени (на каждом шаге) игрокам известны позиции хк, ук и момент времени к+l, а игроку 1, кроме того, известен выбор yk+i игрока 2 в этот момент. Стратегиями игрока 1 являются всевозможные функции и(х, у, t) такие, что и(хк..и ук, к)е UXk_r Стратегиями игрока 2 — всевозможные функции v(x, у, t) такие, что v(xk-\, Ук-и k)eVyk_v Эти стратегии будем называть чистыми стратегиями (в отличие от смешанных). Пусть игроки 1 и 2 применяют чистые стратегии и(х, у, t), v(x, у, t). В ситуации (и (•), v (•)) игра происходит следующим образом. На 1-м шаге игрок 2 из состояния у0 переходит в состояние yt=v (х0, у0 1) и игрок 1 — из состояния х 0 в состояние хх = и(х0, j>i \) = и(х0, v(x0, у0, 1), 1) (поскольку игрок 1 знает выбор игрока 2). На 2-м шаге игроки переходят в состояния у2=^(х1, yi} 2), хг = и(х1, уг, 2) = u(xlf v(JCX, yv 2), 2) и т. д. На к-ьл. шаге игроки 1 и 2 переходят из состояний хк_и yk-i в состояния yk=v(xk.i, ук-и к), хк=и{хк-и Ук, k) = u(xk-i, v(xk-i, Ук-i, к), к). Таким образом, каждой ситуации (м(), «(•)) однозначно соответствуют траектории игроков 1 и 2: х=(х0, ... „., xN) и у=(у0, .... yN), следовательно, и выигрыш К(и(), v()=F(x, у), определяемый по формуле (2.1). Рассматриваемая игра зависит от двух параметров: начальных 241
позиций (хр, j'o) и продолжительности N, поэтому будем обозначать ее через Г (х0, у0, N). Для дальнейшего исследования каждую игру Г(х0, у0, N) удобно отнести к семейству игр Г (х, у, Т), зависящих от параметров л:, у, Т. 2.2. Справедлив следующий результат, являющийся обобщением теоремы п. 2.1 гл. IV для конечных игр с полной информацией. Теорема. В игре Г(х0, у0, N) существует ситуация равновесия в чистых стратегиях и значение игры V(x0, y0, N) удовлетворяет рекуррентному соотношению V{xQ, y0, A:)=max {f(x0, y0), max min V(x, у, k-1)}, (2.2) уеГУо
xeUXi)
k=l,...,N;V(x,y,0)=f(x,y). Доказательство проведем методом индукции по числу шагов игры. Пусть N=1. Определим стратегии «*(•), «*(•) игроков в игре Г(х 0 , j'o, 1) следующим образом: min f{x, y)=f(u* (х0, у, 1), у), ye УУо; «о* если max min f(x, y)=f(u* (x0, у*, 1), у*), то v* (x0, y0, l)=j>*. Тогда УеУу,
xeV
xa
К(и*(•), v*())=max{f(x0,
y0), max min f{x, у)} yeVy<> xeUXo
и для любых стратегий и (•), v (•) игроков в игре Г (х0, у0, 1) справед ливы соотношения *(«*(.), .(.))<*(«*(•), v*QHK(u(.), •*(.))• Тем самым утверждение теоремы справедливо при N= 1. Предположим теперь, что утверждение теоремы справедливо при N^n и докажем ее для N=n+1, т. е. для игры Г(х0, у0, п+1). Рассмотрим семейство игр Г(х, у, и), xeUx„, уеУУо. Обозначим через ujy(), vlyi) ситуацию равновесия в игре Г(х, у, и). Тогда x и г е х п •£("£У(-)> *ху(У)~ V( ' У> )> Д У( > У- ) определено соотношениями (2.2). Используя непрерывность функции f(x, у) и лемму п. 2.1, нетрудно доказать непрерывность функции V(x, у, п) по х, у. Определим стратегии й" (•), v" (•) игроков в игре Г(х 0 , j'o, и + 1) следующим образом: min V(x, у, п)= F(w"+1 (х0, у, 1), у, п), уе УУ{);
*eUx0
если max min V{x, у, и)= К(й"+1 (х0, у, 1), у, и), то v"+ (x0, у0, 1)=у, У*Ууа **VXa
для хфх0, уфу0 функции vn+ (х, у, 1) и ы"+ (х, у, 1) определим произвольно: 242
un+l(., *)=й;1Л(.,
к-\),к=2,...,«+1,
« Я + '(Д)=<, 1 Г-.А:-1)Д=2 ) ...,и+1. Здесь л^ 6 UXo, y16 F>0 — позиции, которые реализовались после 1-го шага в игре Г(х0, у0, п+1). По построению, К(й"+1 (•), vn+l())=max{/(x0,
y0), max min V(x, у, и)}. (2.3)
Фиксируем произвольную стратегию м(.) игрока 1 в игре Г(х0, у0, п+1). Пусть и(х0, у, 1)=х1г где j>=»,,+l (д:0, у0, 1), и ы^(-) — сужение стратегии ц() на игру Г (л:, у, п), хе UX(>, ye Vyo. Справедливы следующие соотношения: К(й"+1 (•), Z"+1 ( Ж max{f(x0, y0), V(xlt у, и)} = =max{f(x0, y0), K(unxJ(), <*())}< <max{Ax0,>;0), K(uxj(.), ^ (•))} = *(«(•), " + 1 Q ) . Аналогично доказывается неравенство
(2-4)
K(un+l (.), S"+l 0 ) > * ( 5 " + l (•), •(•)) <2-5) для любой стратегии «(•) игрока 2 в игре Г(х 0 , у0, л+1). Из соотношений (2.3) — (2.5) следует справедливость утверждения те оремы для N=n+1. Тем самым доказательство теоремы по индук ции закончено. _ Рассмотрим теперь игру Г(х 0 , у0, N), которая отличается от игры Г(х0, у0, N) тем,_что в ней сообщает свой выбор игрок 1. Таким образом, в игре Г (х0, у0 N) на каждом шаге к игрок 2 кроме состояний л*_1, ук-\ и шага к знает состояние хке UXk_v выбранное игроком /. Игрок 1 на каждом шаге к знает лишь х*-ь ук-и Аналогично, теореме п. 2.5 можно показать, что в игре Т(х0, у0, N) существует ситуация равновесия в чистых стратегиях и значение игры V (х0, у0, N) удовлетворяет рекуррентному уравнению "Р(*о> Уо- k)=max{f(x0, y0), min max V(x, у, k-l)}, _
**ихаУеУУа
k=l,...,N,V(x,y,0)=f(x,y). (2.6) 2.3. Рассмотрим игры Г'(д;0, у0, N) и Г' (х0, у0, N), которые отличаются от игр Г(х0, у0, N) и Г(х 0 , у0, N) соответственно лишь видом функции выигрыша. Предположим, что в этих играх выиг рыш игрока 2 равен расстоянию между ним и игроком 1 на послед243
нем шаге игры, т. е. р (%, yN). Тогда утверждение теоремы п. 2.2 и ее следствие сохраняют силу и вместо рекуррентных уравнений (2.2), (2.6) справедливы уравнения V'{x, у, fc)=max min V'(xf, у', к-I), /eVy
x-<=Ux
k = l,...,N,V'(x,y,0)=p(x,y); V'{x, y, A;)=min max V'(xf, y', 3ieUx
(2.7) k-l),
/eVy
k=l, ..., N, V'(x. у, 0)=p(x, у) (2.8) Пример З. Рассмотрим дискретную игру преследования, в кото рой множества Ux представляют собой круги радиуса а с центром в точке х, а множества Vy — круги радиуса /? с центром в точке у(а>Р). Это соответствует игре, в которой игрок 2 (убегающий) перемещается на плоскости со скоростью, не превосходящей /?, а игрок 1 (преследователь) — со скоростью, не превосходящей а. Скорость преследователя превосходит скорость убегающего, и иг рок 1 ходит вторым. Игра такого типа называется дискретной игрой «простое преследование» с дискриминацией убегающего игрока. Игра продолжается N шагов, и выигрыш игрока 2 равен расстоя нию между игроками на последнем шаге. Найдем значение игры и оптимальные стратегии игроков, ис пользуя функциональное уравнение (2.7). Имеем V{x, у, l)=max min p (х', / ) . (2.9) /еГу
x!eUx
Так как Ux и V, — круги с центрами в х и у и радиусами а и /?, то, если Ux-=iVy, имеем V(x, у, 1)=0, если же Uxj>Vy, то V(x, у, 1)= р{х, y)+fl — a=p(x, y) — (a—pr) (см. пример 8 п. 2.6 гл. П). Таким образом, ГО, если Ux-=>Vy, т. е. р(х, у)-(а~Р)<:0, У[рС>У ) ' \р(х,у)-(а-Р),еслиихфУу, или, что то же самое, V(x, у, 1)=тах[0, р{х, у)-(а-/?)]. (2.10) Докажем, применив индукцию по числу шагов к, что имеет место следующая формула: V(x, у, Jt)=max[0, p(x, y)-k(a~fi)], k^2. (2.11) Пусть (2.11) выполнено при к=т—\. Покажем, что формула спра ведлива для к=т. Воспользовавшись уравнением (2.7) и соотноше244
ниями (2.9), (2.10), получим V{x, у, m)=max min V(x', у', /я—1) = =max min {max [0, p (x', y') — {m — 1) (a - /?)]} = =max[0, max min {p(x', /)}-(>"— 1) («—/01= y'sVy
xfeUx
=max [0, max {0, p (x, y) - (a - 0)} - (m -1) (a -ft)]= =max[0, p(x, y)~m(a~P)], что и требовалось доказать. Если V(x0, у0, т)=р(х0, у0)-т(а-р), т. е. р(х0.у0)—т(а—р)>0, то оптимальная стратегия игрока 2 диктует ему выбирать на к-ъл шаге игры точку ук пересечения линии центров хк_и yk-i с границей Vyk_v наиболее удаленную от x*_i. Здесь хк-и yk-.i — позиции игроков после (к— 1)-го шага, к=1, ..., N. Опти мальная стратегия игрока 1 диктует ему на к-м шаге игры выбирать точку из множества UXk_v наиболее близкую к точке ук. Если оба игрока действуют оптимально, то последовательность выбранных точек х0, xv .... xN, y0, ylt..., yN лежит на прямой, проходящей через х0, у0. Если V(x0, y0, т)=0, то оптимальная стратегия игрока 2 произвольна, а игрока 1 — та же. При этом после некоторого шага к выполняется равенство max min р(х, у)=0, поэтому, н&чяуеГУк
xeUXk
ная с (к+ 1)-го шага, выбор игрока 1 повторяет выбор игрока 2. § 3. СУЩЕСТВОВАНИЕ СИТУАЦИЙ г-РАВНОВЕСИЯ В ДИФФЕРЕНЦИАЛЬНЫХ ИГРАХ С ПРЕДПИСАННОЙ ПРОДОЛЖИТЕЛЬНОСТЬЮ
3.1. В данном параграфе будет доказано существование ситу аций е-равновесия в дифференциальных играх преследования с пред писанной продолжительностью в классе кусочно-программных стратегий, определенных в п. 1.6. Рассмотрим подробно случай, когда выигрыш игрока Е — расстояние р (х (7), у (7)) в последний момент игры Т. Пусть динамика игры задается следующими дифференциальны ми уравнениями: для P:x=f(x, и); (3.1) для E:y=g (у, v). (3.2) Здесь х (/), у (t)elf, и (t)eU, v (t)eV, где U, V — компактные мно245
жества евклидовых пространств R и R соответственно, te[0, со). Пусть выполнены все требования п. 16. Определение. Обозначим через С'Р (х0) множество точек xsR", для которых существует измеримое программное управление u(t)eU, переводящее точку х0 в х за время t, т. е. x(t0) = x0, х (t0+t)=x. Множество С'Р (х0) называется множеством достижи мости игрока Р из начального состояния х0 за время t. Аналогично определяется множество достижимости С'Е(уо) иг рока Е за время t из начального состояния у0. Предположим, что функции / , g таковы, что множества до стижимости С'р (х0), С'Е {уо) игроков Р и Е соответственно удовлет воряют следующим условиям: 1) С'р (х0), С'Е (у0) определены при всяких х0, y0^Rn, t0, te[0, со) (t0 ^ t) и являются компактными множествами пространства R"; 2) отображение С'Р (х0) непрерывно по совокупности аргументов в метрике Хаусдорфа, т. е. для любых ствует такое <5>0, что если \t—t'\<5, С'Р (х 0 ))<8. То же выполняется для С'Е Напомним, что метрика Хаусдорфа ных подмножеств R" задается так:
е>0, х 0 еЛ", te[0, со) суще р (х0, х'0)<8, то р* (С.рХ0), (у0). р* в пространстве компакт
р* (А, В) = шах (р' (А, В), р' (В, А)), р' {A, £)=max p (а. В) аеА
и р {a, i?)=min р (а, Ь), где р — стандартная метрика в R". ЬвВ
Теорему существования будем доказывать для игры преследова ния Г (х0, >>о, Т) с предписанной продолжительностью, где х0, y0eRn — начальные позиции игроков Р и Е соответственно, а Г — продолжительность игры. Игра Г (х0, у0, Т) протекает следующим образом. Игроки Р я Е в момент времени /0 = 0 начинают переме щаться из позиций х0, уо в соответствии с выбранными кусочнопрограммными стратегиями. В момент времени t=T игра закан чивается, при этом игрок Е получает от игрока Р выигрыш, равный р (х (7), у (7)) (см. п. 1.8). В каждый момент времени te[0, 7] игры 246
Г (х0, уа, Т) обоим игрокам известны момент времени t, своя позиция и позиция противника. Обозначим через Р (х0, t0, t) (Е (уп, t0, 0) множество траекторий системы (3.1) ((3.2)), исходящих из точки х0 (уо) и определенных на интервале [/„, t]. 3.2. Фиксируем некоторое натуральное и > 1 . Положим <$=Г/2" и введем в рассмотрение вспомогательные по отношению к игре Г (х0, jo, Т) игры Г? (х0, уо, Т), i = 1, 2, 3. Игра Г* (х0, уо, Т) протекает следующим образом. На 1-м шаге игрок Е, находясь в позиции у0, выбирает ух из множества СЕ (у0), а игрок Р, находясь в позиции х0 и зная выбор ух игрока Е на этом шаге, выбирает точку хх е Ср (х0). На к-м шаге, к=2, 3, ..., 2", игрок Е, зная позицию игрока Р xk_xeCP{xk_-i) и свою позицию Ук-1еСв(Ук-г), выбирает точку Ук^СЕ{ук-\).
Игрок Р, зная х*-ь
Ук-и Ук, выбирает хкеСР (x*_i). На 2"-м шаге игра заканчивается, и игрок Е получает выигрыш, равный р (х (Т), у (7)), где л; {Т) — х„, У (Т)=у2„. Отметим, что выбор игроками на к-ъл шаге точек хк, ук из множеств достижимости Ср (xk_t), CE {ук-\) можно трактовать как выбор ими соответствующих траекторий из множеств Р (хк-и (к—1)8, к§), Е (ук_х, (к—1)6, к5), оканчивающихся в точках хк, ук в момент t=к8 (или выбор управлений и (•), v (•) на [(к— 1) 8, kb~\, которым эти траектории соответствуют согласно (3.1), (3.2)). Игра ГI (х0, уо» Т) отличается от игры Г? (х0, у0, Т) тем, что на к-м шаге игрок Р выбирает хкеС6Р (x*_i), зная хк-и ук-и а игрок Е, зная, кроме того, хк, выбирает ykeCsE (yk-i)Игра Г ' (х0, Уо, Т) отличается от игры Г | (х0, у0, Т) тем, что на 2"-м шаге игрок Р выбирает х2„еСр (x2„_,), после чего игра закан чивается и игрок Е получает выигрыш р (х (Г), у (Т—8)), где х (T)=Xg. у (Т-8)=у2„ 3.3. Лемма. В играхTf (x0, yQ, T), / = 1 , 2, 3, существуют ситу ации равновесия при всех Ха, уо, Т< оо и значение игры Val Г? (х0, уо, Т) есть непрерывная функция х0, уо е R". При всяком и ^ 0 выполняется неравенство Val Tf (х0, уо, T K V a l Г^ (х0, у0, Т), Т=2"8.
(3.3) 247
Д о к а з а т е л ь с т в о . Игры r f (х0, Уо, Т), i=\, 2, 3, принадлежат классу многошаговых игр, определенных в § 2. Существование ситуации равновесия в играх Г f (х0, уо, Т) и непрерывность функций Val r f (jc0, y0, Т) по х0, у0 непосредственно следует из теоремы п. 2.2 и ее следствия. Для значений игр Tf (х0, у0, T), i—\, 2 справедливы рекуррентные уравнения Val Г? (хо, Уо, Т)= max
min Val r f (x, у,
T-S),
Val Г^ (x0, y0, T) = min
max Val Г | (x, у,
T-S)
xecr(XQ> „ е д при начальном условии Val r f (x, y, 0)=Val Г* (x, у, 0)=р (x, у). Применяя последовательно лемму п. 2.2. гл. I, убедимся в справед ливости неравенства (3.3). 3.4. Лемма. При любом целом л > 0 справедливы неравенства Val rf» (х0, у0, 7)
y2eC
Л+1
frj)
x2eC
(*,)
^
max
max
Л+1
Л+1
y eC
min
l min
л+1
л+1
x eC
\
(
V x2eC = max n
y
^(P У2еС
(x
p min n x eC (
Val rf"+' (xu yu
i*c fr(P i V Продолжая этот процесс, получим 248
Т-2дя+1)= T-5„).
Val Tf»+1 (хо, Уо, 7)2* max n
y^C
max n
min
(y,,)
min ... л
*]6C
(xj
p (x2„, y2„)=\al Г?" (x0, Уо, 7")-
n
3.5. Теорема. При всех х0, yo^R", T
я-»со
л Г/це<5л=Г/2 .
Доказательство. Фиксируем некоторое л>0. Пусть и (•), v (•) — пара стратегий в игре Г*" (х0, >0, 7). Эта пара является таковой и в игре Г з" (хо, уо, 7). Пусть в ситуации и (•), v (•) реализует ся последовательность х0, х{, ..., х2„, у0, уь ..., у2„. Обозначим функции выигрышей в играх Г2" (х0, Уй, Т), Г|" (х0, у0, 7) соответст венно через К2 (и (•), v ()) = р (х2„, у2„), Къ (и (•), v ())=р (х2„, у2„_^. Тогда К2 (и (•), * ( ) Х * 3 (« (•), «; ())+р {у2П_{, у2„). В силу произвольности и (•), v (•) отсюда имеем: Val Г|» (х„, л , Г К Val Г|» (х0, j 0 , 7) + + max
max
р (у, у1).
(3.4)
Пусть у\п$С6£ (уо), тогда Cj - *" (y\n) с Cj(y 0 ). Запишем неравенст во (3.4) для игр с начальным состоянием х0, yfy. Учитывая пре дыдущее включение, получим Val П» (х0, у\\ 7)
max p (у, у1).
(3.5)
у'еСЬ(у)
Из определения игр Tf" (х0, у0, Т) и Г|"(х 0 , у0, Т) вытекает равенство 249
Val Tf» (JCO, y0, T)= max Val Г J» (x0, yfr T).
(3.6)
В силу непрерывности по t функции С'Е (у) и выполнения условия С°Е(У)=У второе слагаемое в (3.5) стремится к нулю при и-»оо. Обозначим его через е^ (и). Из (3.5), (3.6) получаем Val Г?» (х0, у* T)>Val Г|» (х0, у\\ Г ) - е , (л).
(3.7)
В силу непрерывности функции V a i r f " ^ , Уо, T) из (3.7) имеем неравенство Val Г?» (*о, Л, 7 > V a l Г J- (x0, y0, Г ) - в , (и)-в, (и), (3.8) где Б2 (п)-»0 при и-+оо. Переходя в (3.8) к пределу при и-»оо (что возможно на основании лемм п. 3.3, 3.4 и теоремы о су ществовании предела у монотонной ограниченной последовате льности), получаем Urn Val Г ?» (JKO, у0, Т) > lim Val Гf- Ос, у0, Т).
(3.9)
Из леммы п. 3.3 вытекает противоположное неравенство. Следова тельно, оба предела в (3.9) совпадают. 3.6. Утверждение теоремы п. 3.5 доказано в предположении, что последовательность разбиений интервала [0, 7] <т„={/ 0 =0!<...„= Т),
п=\,...,
удовлетворяет условию tj+l — tj=TI2",j=0, 1,..., 2"— 1. Утверждения тесрегы г. 3.5 и лемм п. 3.3, 3.4 справедливы для всякой последова тельности <7„ измельчающихся разбиений интервала [0, 7], т. е. такой, что о„+1 з а„ (это означает, что разбиение an+i получается из а„ добавлением новых точек) у ((т„)=max (f,+i-/,)-* 0. /
л-юо
Рассмотрим теперь такие любые последовательности разбиений интервала [0, 7] {<т„} и {ап}. Лемма. Имеет место равенство lim Val Г?» (х0, Уо, 7) = lim Val rfп-»со
гдех0, y0eR", T
л-юо
(JC0, y0,
T),
Доказательство проведем от противного. Допустим, что ут верждение леммы неверно, и предположим для определенности, что выполняется неравенство lim Val Г?» (х„, У о, Т)> lim Val Г(я (х0, у0, Т).. л-*оо
л-»ао
Тогда согласно теореме п. 3.5 имеем lim Val Г? (х0, у0, Т) > lim Val rf» (х0, Уо, Т). Л-+0О
Л-»00
Отсюда найдутся натуральные числа ти щ такие, что выполнено неравенство Val Г pi (х0, у0, 7)>Val rf-i (JC0, у0, Т). Обозначим через Ъ разбиение интервала [О, Т\ точками, принад лежащими как разбиению crm], так и разбиению а'п. Для него выполняется неравенство ' Val Т\ (х0, Уо, 7)
(3.10)
я-»оо
где {а„} — любая последовательность измельчающихся разбиений интервала [0, 2]. Доказательство. Зададим произвольно выбранное число е>0 и покажем, что найдутся такие стратегии и, (•) и «, (•) игроков Р и Е соответственно, что для всех стратегий и (-)еР и v Q e E выполняются неравенства К (хо, уо, ив (•), v ())-Е^К
(х0, уо, Щ (•), v, (•))<
< К (хо, уо, и (•),«.(•)) + «•
( 311 >
В силу теоремы п. 3.5 найдется такое разбиение а интервала [0, Т\, 251
что Val Tf (x0, Уо, 7)-lim Val Г ? (x0, y0, T)<° n-+cc
2
lim Val ГГ» (JCO, Уо, 7)-Val Г Г (x0, y0, T)<° 2
Л-ЮО
Положим м'() = (ст, au,), ve () = (er, b^, где a^, b^ — оптимальные стратегии игроков P"u Е соответственно в играх Г J (х0, уо, Т) иГ1(хь,л,7). Тогда справедливы соотношения: К (х0, у0, и (•), v 0)
(3.12)
2
* (хо, Уо, и (•), «' ())^Val Г Г (х0, уо, Т)> >lim Val ГГ» (хо, уо, 7 ) - - , ы ()еР. л-»оо
(3.13)
2
Из (3.12), (3.13) и теоремы п. 3.5 имеем -'-<К (хо, уо, и (•), v (•))-Urn Val ГГ" (х0, у0, Т)<2
и-»сс
(3.14)
2
Из соотношений (3.12)—(3.14) следует (3.11). В силу произвольности б из (3.14) следует (3.10). Теорема до казана. 3.8. Замечание. При доказательстве теоремы существования нигде не был использован специфический вид выигрыша р (х (7), у (Т)). Существенной является лишь непрерывная зависимость вы игрыша от реализованных траекторий. Поэтому теорема п.3.7 оста ется справедливой, если вместо р (х (7), у (7)) рассмотреть любой непрерывный функционал траекторий х (/), у (t). В частности, таким функционалом может быть min p (x (t), у (*)), т. е. минимальное расстояние между игроками в процессе игры. Поэтому результат данного параграфа остается в силе и для дифференциальной игры преследования на достижение минимального результата с пред писанной продолжительностью. 252
§ 4. ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ ПРЕСЛЕДОВАНИЯ НА БЫСТРОДЕЙСТВИЕ
4.1. Дифференциальные игры преследования на быстродействие представляют собой частный случай дифференциальных игр с ин тегральным выигрышем, определенных в п. 1.8. Классы стратегий Р и Е те же, что и в игре с предписанной продолжительностью. Предположим, что в Rn x R" задано множество F= {(х, у): р (х, у) < /, />0}, и пусть х (/), у (/) — траектории игроков Р и Е в ситуации (и (•), v (•)) из начальных состояний х0, уоОбозначим tn (*о, Уо, и (•), v ())=min {t:(x (/), У (0)е?У, (4.1) если не существует такого /, что (JC (t), у (t))eF, то t„ (х0, y0; и (•), v (•)) полагается равным +оо. В дифференциальной игре преследования на быстродействие выигрыш игрока Е полагают равным К (х0, уо, и (•), v (•)) = /„ (х0, уа; и (•), v (•)). (4.2) Выигрыш игрока Р в ситуации 5=(х 0 , у0, и (•), v (•)) равен { — К (S)} (игра антагонистическая). Игра зависит от начальных состояний х0, уй, поэтому будем обозначать ее через Г (х0,у0). Из определения функции выигрыша (4.2) следует, что в игре Г (хо, Уо) целью игрока Е является максимизация времени сближе ния с игроком Р на заданное расстояние />0. Игрок Р, наоборот, стремится минимизировать это время. 4.2. Между игрой преследования на быстродействие Г (х0, у0) и игрой преследования с предписанной продолжительностью на достижение минимального результата существует прямая связь. Пусть Г (х0, уо, Т) — игра преследования с предписанной продол жительностью Т на достижение минимального результата (выиг рыш игрока Е равен min p (x (t), у (/)). Было показано, что для игр такого типа при любом Е > 0 в классе кусочно-программных страте гий существует ситуация е-равновесия (см. п. 3.8). Пусть V (х0, у0, Т) — значение такой игры, а V (х0, у0) — значение игры Г (х0, Уо), если оно существует. Лемма. При фиксированных х0, уо функция V (х0, у0, Т) непрерыв на и не возрастает по Т на отрезке [0, оо]. Доказательство. Пусть 7'i>7'2>0. Обозначим через vjl (•) 253
стратегию игрока Е в игре Г (х0, уа, Т{), которая гарантирует игроку Е, что расстояние между ним и игроком Р на отрезке [О, Т{\ не меньше max [О, V (х0, у0, Т\) — е]. Следовательно, она тем более гарантирует расстояние max [О, V (х0, уо, 7\) —е] между ними на отрезке [О, TJ, где T2<Ti. Поэтому V (ль, Уо, Г 2 )>тах [О, V (х0, у0, Г,)- е] (4.3) (е-оптимальная в игре Г (х0, у0, Тх) стратегия не обязательно еоптимальна в игре Г (х0, у0, Т2)). Поскольку е может быть выбрано произвольным, из (4.3) следует второе утверждение леммы. Непре рывность V (х0, у0, Т) по Т доказывать не будем. Отметим лишь, что это свойство можно получить, используя непрерывность V (х0, у0, Т) по хо, уо4.3. Рассмотрим уравнение V(x0,yo,T)=l (4.4) относительно Т. Возможны следующие три случая: 1) уравнение (4.4) не имеет корней; 2) имеет единственный корень; 3) имеет более одного корня. В случае 3) из невозрастания и непрерывности функции V (х0, у0, Т) по Т следует, что уравнение (4.4) имеет целый сегмент корней, т. е. функция V (х0, уо, Т) как функция от Г имеет интервал постоянства. Рассмотрим каждый случай отдельно. Случай 1. В этом случае возможно: a) V(x0, уо, Т)<1 для всех 7>0; б) inf V(x0, у0, Т)>1; Г2»0
в) inf V(x0,yo, T) = l. В случае а) имеем V(x0, уо, 0) = р(х 0 , у0)<1, т. е. /„ (х0, уо, и (•), v ())=0 для всех и (•), v (•). Тогда значение игры Г (хо, Уо) равно V (хо, Уо) = 0. В случае б) выполняется равенство inf V (хо, уо, Т)= lim V (xQ, у0, Т)>1. Отсюда для любого Т> 0 (сколь угодно большого) у игрока Е най254
дется соответствующая стратегия v т QeE, которая гарантирует ему избежание /-встречи на отрезке [О, Т\. Но тогда игрок Р не имеет стратегии, которая бы гарантировала ему /-встречу с игроком Е за конечное время. В то же время нельзя утверждать, что игрок Е обладает стратегией, гарантирующей избежание /-встречи за лю бое время. Вопрос о нахождении начальных состояний, в которых такая стратегия существует, сводится к решению игры качества для игрока Е. Таким образом, при /
утверждать, что значение игры Г (х0, у0), если оно существует, больше любого наперед заданного Г, т. е. равно +оо; в) рассмотрим совместно со случаем 3). Случай 2. Пусть Т0 — единственный корень уравнения (4.4). Тогда из невозрастания и непрерывности по Т функции V (х0, уо, Т) следует, что V (х0, уо, T)>V (х0, уо, То) при всех Т< Т0, (4.5) V (хо, у0, T)
(4.6)
Т->Т0
Фиксируем произвольное Т>Т0. Рассмотрим игру преследования Г (х0, Уо, Т). Она обладает ситуацией е-равновесия в классе кусочнопрограммных стратегий для любого е>0. Это означает, в частно сти, что для любого £>0 существует стратегия и, ( ) е Р игрока Р, которая гарантирует ему сближение с игроком Е на расстояние V (хо, уо, Т) + е, т. е. К (и, (•), v ())< V (хо, уо, T) + e,v (•)еЕ,
(4.7)
где К (и (•), v (•)) — функция выигрыша в игре Г (хй, уо, Т). Из (4.5), (4.6) следует существование ё>0 такого, что для любого е<ё най дется число Т (е), То< t (e)< T, при котором е = V (хо, уо, То) - V (хо, уо, Т (в)).
(4.8)
Из (4.7), (4.8) следует, что для любого е<е К (и, (•), v (•))< V {хо, y0,T) + e^V (хо, у0, Т (е)) + е= = V(xo,y0, То) = 1, в(-)еЕ, т. е. стратегия и, (•) обеспечивает /-встречу за время Т. Отсюда, 255
в силу произвольности Т> Г0 следует, что для любого Т> Тп найдетт ся отвечающая ему стратегия и (•) е Р, которая гарантирует /-встре чу за время Г. Иными словами, для любого 8 > 0 существует щ (•) е Р h (хо, Уо, и, (•), v (•)) < Г 0 +8 при всех v (•) е Е. (4.9) Аналогично доказывается существование vs ()eEтакого, что tn (*о, Уо, и (•), vs (•)) ^ Го - «5 при всех и (•) е Р. (4.10) Из (4.9), (4.10) следует, что в игре преследования на быстродей ствие Г (х0, у о) для любого 8>0 существует ситуация е-равновесия в кусочно-программных стратегиях и значение игры равно Г0, где Го — единственный корень уравнения (4.4). Случай 3. Обозначим через Го минимальный корень уравнения (4.4). Теперь, вообще говоря, мы не можем утверждать, что значе ние игры Val Г (х0, у0) = Т0. Действительно, из V (х0, у0, Г0) = / следу ет лишь, что в игре Г (х0, уй, Г0) у игрока Р для любого е>0 существует стратегия и, (•), гарантирующая ему за время Г0 встречу с игроком Е на расстоянии не более чем /+е, а из существования более одного корня уравнения (4.4) и монотонности V (х0, у0, Г) по Г получаем существование интервала постоянства функции V (х0, уа, Т) по Ге[Г0, Г]]. Поэтому увеличение продолжительности игры Г (JC0, уо, Г0) на 8, где 8<Т{ — Г0, не приводит к уменьшению гаран тированного сближения с игроком Е, т. е. для всех Те[Т0, Т{\ игрок Р может лишь обеспечить сближение с игроком Е на расстояние 1+е (для любого е>0), и нет основания считать, что при каком-то Те [Г0, Г]] величина е окажется равной нулю. Если бы в игре Г (х0, Уо, То) существовала ситуация равновесия (а не ситуация е-равнове сия), то значение игры Г (х0, у0) было бы равно Г0 и в случае 3. 4.4. Модифицируем понятие ситуации равновесия в игре Г (х0, Уо). Далее в этом параграфе удобнее использовать запись Г (х0, у0,1) вместо Г (хо, уо), подчеркивая, что игра Г (х0, .Уо, 0 заканчивается при сближении игроков на расстояние /. Пусть tl„ (х0, уо, и (•), v (•)) — время до момента сближения на расстояние / в ситуации (и (•), v (•)) и заданы е^О, <5>0. Определение. Будем говорить, что пара стратегий us, (•), v\ (•) образует ситуацию е, 8-равновесия в игре Г (х0, у0, /), если 256
t'n+S (хй, уй; и (•), vi (-)) + e>t'n+s (хо, уй; й? (•), v\ (•))> >t'n+i(x0,y0;Zi О, v (•))-£, для всех стратегий и ()еР, v QeE. Определение. Пусть существует такая последовательность {$к}, &к^0, <5*-*0, что во всех играх Г (х0, yQ; l+Sfc) для любого е>0 существуют ситуации е-равновесия. Тогда предел Ит V (х0, уо, /+<5*)= V (хо, уо, /) Jfc-»oo
называется значением игры Г (х0, у0, I) в обобщенном смысле. Заметим, что величина V (х0, у0,1) не зависит от выбора после довательности {8к} вследствие монотонного убывания функции V (хо, уо, I) по /. Определение. Будем говорить, что игра Г (х0, у0, I) имеет значение в обобщенном смысле, если существует такая последовате льность {8к}, 8к-*0, что для любого е>0 и 8ке {8к} в игре Г (х0, уо, /) существует ситуация в, Ьк-равновесия. Можно показать, что если игра Г (х0, уо, I) имеет значение в обычном смысле, то значение ее V (х0, уо, О (в обобщенном смысле) существует и равно lim /i+<* (хо, уо, и\ (•), vt (•))= V (хо, уо, /). «-.о 6к-+0
Из определения значения и решения игры Г (х0, уо, /) (в обобщенном смысле) вытекает, что если в игре Г (х0, уо, О Для любого е>0 существует е-ситуация равновесия в обычном смысле (т. е. решение в обычном смысле), то V (х0, Уо, 1)= V' (х0, .Уо, 0 (достаточно взять последовательность <5*=0 для всех к). Теорема. Пусть уравнение (4.4) имеет более одного корня и Т0 — наименьший корень, Т0<со. Тогда существует значение V (х0, уо, 1)(в обобщенном смысле) игры преследования на быстродей ствие Г (хо, уо, О и V" (х0, уо, /)= То. Доказательство. Из монотонности и непрерывности функции У (хо, Уо, Т) по Т следует существование такой последовательности 257
Тк-* Т0 слева, что V (х0, у0, Тк)-* V (х0, у0, Т0)=I и в точках Тк функция У (*(ь Уо, Тк) строго монотонна. Пусть 8k=V(x0,y0,Tk)-l^0. Из строгой монотонности функции V (х0, уо, Т) в точках Тк выте кает, что уравнение V (х0, у0, Т)=1+5к имеет единственный корень Тк. Это означает, что для любого 8ке{8к) в играх Г (х0, у0, 1+8к) существует ситуация е-равновесия для любого е>0 (см. случай 2) п. 4.3). Значит, в игре Г (JC0, y0, /) существует решение в обобщенном смысле: Urn V(х0, у0,1+ 5k)=lim Tk= Т0= V (х0, у0,1) t-»0O
/fc-»QO
и теорема доказана. Рассмотрим теперь случай в) п. 4.3. Имеем: inf V (хй, уо, Т)=1. т Пусть Тк-*со. Тогда lim У (х0, уо, Тк) = 1. Из монотонности и непрек-*ао
рывности V {хо, уо, Т) по Г следует, что последовательность {7*} можно выбрать так, что в точках Тк функция V {хй, у0, Т) строго монотонна. Тогда как и при доказательстве теоремы п. 4.4 можно показать, что существует такая последовательность {8к}, что lim V(x0,y0, /+«5*) = Шп 7't=7'o=oo. fc-»oo
Jk-»oo
Таким образом, и в данном случае обобщенное решение суще ствует, а обобщенное значение игры Г (х0, Уо, I) равно бесконеч ности. 4.5. Часто оказывается важным определить, может ли игрок Р гарантировать /-встречу из данных начальных позиций х, у за фиксированное время Т. Если это невозможно, то может ли игрок Е гарантировать избежание /-встречи в течение заданного времени. Пусть V (х, у, Т) — значение игры с предписанной продолжите льностью Т из начальных состояний х, yeR" с выигрышем min р (х (0, у (*))• Тогда возможны следующие альтернативы: 01; 2) V{x,y, T)<1. Случай 1. Из определения функции V (х, у, Т) следует, что для любого е>0 найдется такая стратегия игрока Е, что для всех 258
стратегий и (•) справедливо неравенство К(х, у; и (•), v'B (.))> V (х, у, Г ) - е . Выбрав е достаточно малым, можно добиться выполнения неравен ства К (х, у; и (•), «; (.))> V {х, у, Т)-г>1 для всех стратегий и ()еЕ игрока Р. Из вида функции выигрыша К следует, что, используя стратегию «* (•), игрок £ может гаран тировать выполнение неравенства min р (х (/), >> (/))>/независимо от действий игрока Р, т. е. в рассматриваемом случае игрок Е гара нтирует избежание /-встречи на отрезке времени [0, 7] независимо от действий игрока Р. Случай 2. Пусть Го — минимальный корень уравнения V (х, у, Г)=/при фиксированных х, у (если р (х, у)<1, то Г0 полага ем равным 0). Тогда из определения V (х, у, Г0) следует, что в игре Г (х, у, Г0) игрок Р при любом е>0 обладает стратегией и* (•), гарантирующей выполнение неравенства К (х, у; и.* (•), v (-Ж V (х, у, Г 0 )+£=1+е для всех стратегий v ()eE игрока Е. Из вида функции выигрыша К следует, что, используя стратегию и \ (•), игрок Р может гаран тировать выполнение неравенства min р (х (t), у (г))+е независи-
мо от действий игрока Е. Продолжая произвольным образом стра тегию м* (•) на отрезок [Г0, 7], получаем, что в случае 2 игрок Р при любом е>0 может гарантировать (/+е)-встречу с игроком Е за время Г независимо от действий последнего. Фактически доказана следующая теорема (об альтернативе). Теорема. Для любых х, yeR", Г>0 справедливо, по крайней мере, одно из следующих утверждений: 1) из начальных состояний х, у игрок Е может в течение времени Г гарантировать избежание 1-встречи независимо от действий игро ка Р; 2) при любом е>0 игрок Р может гарантировать (1+в)-встречу с игроком Е из начальных состояний х, у за время Г независимо от действий последнего. 4.6. Для каждого фиксированного Г> 0 все пространство R"x.R делится на три непересекающиеся области: область A = {x,y:V {x, у, Т)<1), которую будем называть зоной захвата; область В= = {х, у: V(х, у, Т)>1), которую естественно назвать зоной избежа259
ния захвата, и область С={х, у: V(х, у, Г)=/} — зону нейтраль ного исхода. Пусть х, уеА. По определению А при любом е>0 игрок Р об ладает такой стратегией и\ (•), что
K(x,y;u;0,v())
5.1. Важным подклассом игр преследования являются игры, в которых оптимальная стратегия убегающего игрока является только функцией времени (так называемый регулярный случай). Ограничимся рассмотрением игры преследования с предписан ной продолжительностью, хотя все результаты могут быть перене сены и на игры преследования по быстродействию. Пусть СТР (х) (СЕ(УУ) — множество достижимости игрока Р (Е) из начального состояния х (у) к моменту времени Г, т. е. множество тех позиций, в которые может попасть игрок Р (Е) из начального состояния х (у) в момент Т, используя всевозможные измеримые программные управления и (/), (v (/)), /е[0, 7] при условии, что движение проис ходит в соответствии с системой x=f(x, и) (y=g (у, v)). Введем в рассмотрение величину Рт(хо, Уо)= max min p (x, у), > 6 W *6C,r
(5.1)
называемую иногда (см. [7, 39, 40]) гипотетическим рассогласовани ем множеств С\ (у0) и С£ (х0) (см. пример 8 п. 2.6 гл. II). Функция рт (х0, у0) обладает следующими свойствами: 1°. Рт (х0, Уо)>0, рт (х0, у0)\тшо = Р (хо, УоУ, 2°. рт (х0, уо)=0, если С? (*о) => С | (у0); 3°. Если V (х0, у0, Т) — значение игры Г (х0, Уо, Т) с предписан ной продолжительностью и терминальным выигрышем р (х (Т), у (Г)), то У(х0,Уо, Т)^рт(х0,Уо). Действительно, свойство 1° следует из неотрицательности функ ции р (х, у). Пусть Ср (хо) з С ? (уо). Тогда для любого у'е С\ (у0) существует такое jc'eCj (х0), что р (х', у')=0, {х'=уг), откуда полу чаем 2°. Свойство 3° следует из того, что игрок Е, выбирая направ ление движения на точку МеС| (у0),ДОЯкоторой Рт (хо, Уо)= min р (х, М), хеСЦхо)
всегда гарантирует получение выигрыша рт (х0, уо). Точка М назы вается центром преследования. 5.2. Пусть Г4 (х0, уо, Т) — дискретная игра преследования с ша гом 8 (S = tk+l — tk), предписанной продолжительностью Г, дискри минацией игрока Е и начальными состояниями х0, у0. Тогда справе длива следующая теорема. Теорема. Для того чтобы для любых х0, Уо^И" и Т=дк, к= 1, 2, ..., выполнялось равенство РТ (ХО, УО)=УЯ\ Г, (Х0, УО, Т),
(5.2)
необходимо и достаточно, чтобы для всех х0, y0elC, 5>0 и Т=5к, к= 1, 2, ..., имело место соотношение Рт(х0,Уо)= max
min
pT-s (x, у)
(5.3)
(Val Ts (хо, Уо, Т) — значение игры Г6 (х0, у0, Т)). Доказательство теоремы опирается на следующий результат. 261
Лемма. Для любых х0, y<>eR , Т^Ь выполняется неравенство Рт(х0, Уо)< max
min
yeC^tm)
pT-s(x, у).
xeC'r(x0)
Доказательство. По определению функции рт имеем max
min pT_s (х, y) =
уеС'^о)
= max
дгбС«(д:о)
min
уеС'ж(у0)
max
хеС1г(хй)
min
увС^Чу)
p (x, y).
i e C j < (дс)
Для всех хе С? (х0) имеет место включение Cp~s (х) cz Ср (x0). Сле довательно, для любых хеСр (х0), уеС~Е~6 (у) min
p(x,y)^
min p (х, у). ieCTr(xo)
«CJ-'M
Тогда для всех хеСР (х0), yeCsE(y0) max
min
уеСт-Чу)
«с;-'**)
р (х, у)^ max уеСт-'(у)
min р (x, у) хеСЦхо)
И
min
max
min
xeC^xo)
yeCT-'(y)
хпС^Чх)
р(х,у)^
max уеС^Чу)
min
p(x,y).
xeC^xo)
Таким образом, max yeC^o)
min рТ-ь (x, y)^ max xeC^(xo)
= max >eCjOo)
yeC^lyo)
max yeC^fy)
min p (x, y)= хеСЦхо)
min p (x, y) = pT (x0, yQ);
xeCTr(xo)
— лемма доказана. Перейдем к доказательству теоремы. Необходимость. Пусть выполняется условие (5.2) и не выпол няется условие (5.3). Тогда согласно лемме существуют такие <5>0, хо, уо е R", ТО = 8к0, к0^1, что ho (*o, Уо)< max yeC'^fyo)
262
min pVo-a (л:, у). хеС'^хо)
(5.4)
Пусть u° (•) — оптимальная стратегия игрока Р в игре Гг (х0, у0, Т0) и на 1-м шаге игры игрок Е выбирает точку j*eCi(y 0 ), Для которой min
рГо-г (х, у*)= max
min
рГо_г (х, у).
(5.5)
Пусть х° (8) — состояние, в которое переходит Р на 1-м шаге при использовании стратегии м° (•), а й° (•) — оптимальная страте гия Е в игре Г« (х° (8), у*, Тй—8). Рассмотрим следующую страте гию v (•) игрока £ в игре rs (х0, у0, Т0): в момент /=0 он выбирает точку у*, а начиная с момента t=8, игрок Е использует стратегию z
° <•>•
Обозначим через й° (•) сужение стратегии и° (•) на отрезке [8, Г0]. Из (5.2), (5.4), (5.5) (согласно формуле (5.2) рт (х0, у0) — значение игры Т{ (хо, уо, Т) находим Ртй (х0, у0)Ж (и0 (), v (•); XQ, уо, Т0)= =К(й°(.),;°(.);х° (8), У, Т0-д) = =Рто-Лх°(Ь),У*)> min pTo-S(x,y*) = xeC'r(xo)
= max уеС'г(уо)
min
PT0-S(X,
y)>pTQ (x0, y0).
xeC^lxo)
Полученное противоречие доказывает необходимость условия (5.3). Достаточность. Заметим, что условие (5.3) совместно с усло вием рт(хо, .Ио)|г-о=Р (хо, уо) показывает, что функция рт(х0, у0) удовлетворяет функциональному уравнению для функции значения игры Fs (хо, уо, Т). Как следует из доказательства теоремы п. 2.2, это условие является достаточным для того, чтобы рт(х0, Уо) было значением игры Гв (х0, у0, Т). 5.3. Лемма. Для того чтобы в игре Г (х0, уо, Т) существовала оптимальная программная стратегия игрока Е (т. е. стратегия, являющаяся функцией только времени), необходимо и достаточно, чтобы Val Г (ль, Уо, Т) = рТ (хо, уо). (5.6) Доказательство. Достаточность. Пусть v* (0, te[0, T] — допустимое управление игрока Е, переводящее точку у0 в некоторую 263
точку М такую, что Рт (хо, у0) = min
р (х, М).
хеСтг(х0)
Обозначим v* () = {ff, v* (/)}, где разбиение а отрезка [0, 7] состоит из двух точек t0=0, tx = T. Очевидно, v* (-)еЕ. Согласно теореме п. 3.4 гл. I v* ()еЕ — оптимальная стратегия игрока Е в игре Г (х„, Уо, Т), если Val Г (х0, уа, Т)=М
К (и (), ** (•); х0, у0, Т).
«()6Р
Но это равенство следует из (5.6), поскольку inf К (« (•), v* (); х0, уо, Т)=рг (хо, у0). и()бР
Необходимость. Пусть в игре Г (х0, у0, Т) существует оп тимальная программная стратегия игрока Е, тогда Val Г (хо, у0, Т)= sup »()6Б
= max
inf К (и (•), v (•); х0, у0, Т)= и()еР
inf р (х (Г), у)=рт (х0, у0).
Лемма доказана. Теорема. Для того чтобы при любых х0, Уо^Л?, Т>0 в игре Г (х0, Уа, Т) игрок Е имел оптимальную программную стратегию, необходимо и достаточно, чтобы для любых <5>0, х0, Уо^Я", Т^Ь выполнялось равенство Рт(хо,Уо)= max уеС'^о)
min
рГ-г (*. у).
(5.7)
*еС'г(х0)
Доказательство. Достаточность. Из условия (5.7) соглас но теореме п. 5.2 следует соотношение (5.2), из которого предель ным переходом (см. теорему п. 3.7) получим Рт (х0, у0) = Val Г (х0, уо, Т). Отсюда согласно лемме п. 5.3 следует существование оптимальной программной стратегии игрока Е. 264
Необходимость условия (5.7) следует из теоремы п. 5.2, по скольку существование оптимальной программной стратегии игро ка Е в игре Г (х0, у«, Т) влечет существование таковой во всех играх Га (х0, у0, Т), Т=8к, к^ 1, и справедливость соотношения (5.3). § 6. ОСНОВНОЕ УРАВНЕНИЕ
В данном параграфе будет показано, что при определенных условиях функция значения дифференциальной игры удовлетворяет уравнению в частных производных, которое называется основным. Впервые в монографической литературе оно было рассмотрено Р. Айзексом [1] и его часто называют уравнением Айзекса—Беллмана. 6.1. Используя теорему п.5.3, выведем уравнение в частных про изводных для функции значения дифференциальной игры. Будем предполагать, что для игры Г (х, у, Т) выполнены условия теоремы п. 5.3. Тогда функция рт(х, у) представляет собой значение игры Г (х, у, Т) продолжительностью Т из начальных состояний х, у. Пусть в некоторой области ft пространства Л" х Л" х [О, оо) функция рт(х, у) имеет непрерывные частные производные по всем переменным. Покажем, что в этом случае функция рт (х, у) в области ft удовлетворяет дифференциально-экстремальному уравнению — -max £ — gi (у, «)-mm £ —// (х, «)=0, 01
veV (_] oyt
ueu
(6.1)
,_! OX,-
где функции ft (х, и), gt (у, v), i= 1, ..., п, определяют закон движения игроков в игре Г (см. (3.1), (3.2)). Предположим, что (6.1) не выполняется в некоторой точке (х, у, Г) eft. Пусть, для определенности, д
Р
V
д
'Р
/
ч
V
д
'Р г <
\
п
— -max £ — gi (У, »)-max £ — ft (х, и)<0. ОТ
„ 6 у , _ , ОУх
ueV
iml
OXi
Пусть veV таково, что в рассматриваемой точке (х, у, Г)eft выполнено соотношение V
д
'Р
(
~\
V
д
'Р
<
\
h — gi(y. «)=max 2^ — gi (У, v). Тогда при любом и е U в точке (х, у, Т) е ft имеет место неравенство: 265
£-t£ft(y.3-l£yi(*..i)<0. ST
~ dyt
(6.2)
~ Эх,'
Из непрерывной дифференцируемости функции р по всем перемен ным следует, что неравенство (6.2) вьшолняется и в некоторой окрестности S точки (х, у, Т). Выберем число 8>0 настолько малым, чтобы точка (х (т), у (т), T—x)eS при всех те[0, 8]. Здесь т
х
х (т) = х + j Д * (0, и (0) А, У (t)=y+\g(y (0, * (0) А о о — траектории систем (3.1J, (3.2), отвечающие некоторому допусти мому управлению и (/) и v (t) = v соответственно и начальным усло виям х (0) = х, у (0)=у. Определим функцию 8Т \(х (т), у (т), Г-т)
. _ , 8yt |(х (т), , (т),
-£?,
Т-х)
у;(х(т),«(т)),т€[о,г].
Функция G (т) непрерывна по г, поэтому найдется число с<0 такое, что (7 (т)<с при те[0, 3]. Отсюда имеем s
{ G (т) е?г<с<5.
(6.3)
о
Нетрудно убедиться в том, что dp A f o ^ j W . T-x)
Из (6.3) получаем Рг (*. У)~РТ-Й (х (8), у (8))^с8. Отсюда в силу произвольности и (*) следует Рт (х, у)< max у'бС'ж(у)
min рТ-з (х', у1), х'еС^х)
что противоречит (5.7). Таким образом, мы показали, что в том случае, когда у игрока Е в игре Г (х, у, Т) при любых х, у е R", Т> 0 существует оптималь ная программная стратегия, значение игры V (х, у, Т) (оно совпада266
ет с рт (х, у) согласно лемме п. 5.3) в области пространства R" х Я" х [0, оо), где существуют непрерывные частные производные у этой функции, удовлетворяет уравнению dV
" dV
" dV
—=max £ — gi (У. «)+min £ — ft (x> ")
(6-4)
при начальном условии V (x, у, Т)\Тш0=р (х, у). Предположим, что каким-то образом удается определить й, v, доставляющие max и min 8V 3V
в (6.4) как функции от х, у и —, —, т. е. дх ду
(6.5) Подставляя выражения (6.5) в (6.4), получаем (6.6) при условии (6.7)
V(x,y,T)\T.Q=p(x,y).
Таким образом, для определения V (х, у, Т) имеем задачу Коши для уравнения в частных производных первого порядка (6.6) при начальном условии (6.7). Замечание. При выводе функциональных уравнений (6.4), (6.6) и доказательстве теоремы п. 5.3 мы не использовали конкретный вид функции выигрыша, поэтому теорема остается справедливой для любого непрерывного терминального выигрыша Я (х (Г), у (Г)). Однако в этом случае вместо величины рт (х, у) необходимо рассмотреть величину Нт (х, у)= max
min
H(x',yr).
Уравнение (6,4) также справедливо для значения дифференциаль ной игры с предписанной продолжительностью и любым терми нальным выигрышем, т. е. если в дифференциальной игре с пред писанной продолжительностью Г (х, у, Т) и терминальным выиг рышем Я (х (Г), у (Г)) у игрока Е существует оптимальная про граммная стратегия, то значение игры V (х, у, Т) в области про странства ЯпхДпх[0, оо), где существуют непрерывные частные производные, удовлетворяет уравнению (6.4) при начальном усло267
вии V (х, у, Г)|у=о=Я (х, у) или уравнению (6.6) с тем же началь ным условием. 6.2. Рассмотрим теперь игры преследования, в которых функция выигрыша равна времени до момента встречи. Предположим, для определенности, что терминальное многообразие ^является сферой р (х, у)=1, />0. Будем предполагать, что множества С£ (х) и С'Е (у) непрерывны по t в нуле равномерно относительно х и у. Пусть имеет смысл величина в (х, у, /)=max min t'„ (х, у; и (/), v (/)), • м «ю где t '„ (х, у; и (t), v (/)) — время сближения на / — расстояние иг роков Рта. Е, движущихся из начальных точек х, у при использова нии измеримых программных управлений и (t) и v (t) соответствен но. Предположим также, что функция в (х, у, /) непрерывна по совокупности аргументов. Игру на быстродействие будем обозначать через Г (х0, у0). Так же как это было сделано в § 4, 5, можно вывести необходимые и достаточные условия существования оптимальной программной стратегии игрока Е в игре преследования на быстродействие. Спра ведлива следующая теорема. Теорема. Для того чтобы игрок Е при любых х0, y0eR" в игре Г (XQ, уо) имел оптимальную программную стратегию, необходимо и достаточно, чтобы при любом S>0 и любых Xu,yuetC выполнялось равенство в (хо, Уо, l)=5+ max
min в (х', у', I).
Для игры преследования по быстродействию уравнение (6.4) принимает вид " дв
" дв
при начальном условии 0(x,y,t)Wy)-,=0.
(6.9)
Здесь предполагается существование непрерывных частных произ водных первого порядка функции в (х, у, I) по х, у. Полагая, что каким-то образом можно определить и, v, доставляющие max и min „ „ч дв дв - -( 8в\ t в (6.8) как функции от х, у, —, —, т. е. и=и\х, — 1, i> = дх ду \ дх) 268
4-Э
перепишем уравнение (6.8) в виде
при условии (6.11)
0(Х,У,1)\Р(*.У)-1=0-
Вывод уравнения (6.8) аналогичен выводу уравнения (6.4) для игры преследования с предписанной продолжительностью. Обе задачи Коши (6.4), (6.7) и (6.8), (6.9) являются нелинейными относительно частных производных, поэтому при их решении воз никают значительные трудности. 6.3. Перейдем теперь к выводу уравнений характеристик для (6.4). Предполо жим, что функция V (х, у; Т) имеет непрерывные вторые смешанные производные на . ./ dV\ . / v=v\y, всем пространстве, функции g, (у, в), / ( ( х , и) и функции и=и\х, — I , 3
D
имеют непрерывные первые производные по всем переменным, а множества U,
V имеют вид параллелепипедов a m ^u m
n
dV
" dV
в (x. у, т)-—- Z—Л С*. «)- Z г- ft СУ. ")• Функция В (х, у, Г)=0, поэтому беря частные производные по xj ВВ
8*V
дхк дТдхк-
"
8*V
*SV
I r r / r l
imldx,dxk
хт получим
df,
(_{дх,дхк
2
8V
-Z п - * ' - Z — I Z -rfA-— ,_, 8ytdx k
'
m-\
dUl
dx
» \-l
д ( • 8V \ Xf
>
-Z-[Т-гЧТГ'0'
'
dx
*
k hn
(612)
" -
Для каждой фиксированной точки (х,_у, T)eR хЛ ж [0, оо) максимизирующее значение v и минимизирующее значение й в (6.4) лежат либо внутри, либо на границе интервала ограничений. Если это внутренняя точка, то д ( " 3V \ д ( » dV \ 0
г- Z-/<
.-о. -
1тб
-- -
Если же й (v) лежит на границе, то здесь могут представиться два случая. Исследуем
269
8V\ ( '— их подробно для одной из компонент й- т [х, I вектора и. Исследование остальных компонент вектора и и компонент вектора гтора vv проводится аналогично. Дня простоты предположим, что в некоторой точке (х', (х', у', у'. г) . . I , 8V(x', у', Г)\ ит=ит[х. j=a„ Случай 1. Существует шар в пространстве R с центром в точке х', для всех точек х которого выполняется равенство . . / dV(x. у', Г)\ Чт^Щп [X,
\ = а„
Функция йт на этом шаре принимает постоянное значение, поэтому в точке х' имеем —=0, 0Х{
1 - 1 , . . , и.
Случай 2. Такого шара не существует. Тогда найдется последовательность хг, шп х,=х' такая, что г-»оо
_ /
8V(xr,y',
T)\
и х
Л "—Тх—у
Отсюда
8 / " 8V\
I
><W
\_
8u
m V/.i dXi\(xr, у'. Г) '\(хг. й))
8V Э/, . _ / dV(x,y, Т)\ Из непрерывности производных —, — и функции и=и\х, I следуdxt дит \ дх ) ет, что предыдущее равенство выполняется и в точке (х', у', Т). Таким образом, два последних слагаемых в (6.12) равны нулю, и при всех (х, у, T)eR х Л ж [0, оо) выполняется равенство дБ d2V " d2V I fi(x, « ) дхк дТдхк Ы18х,дхк " 82V J ) = 0 - imlI"dxjdx r8Vr k8ft - E,ш1 — ^' ' *=1, 2, ...,«. ду,дхк Пусть х (f), у (<). ' е [0, 7] — решение системы . / . / 8V(x,y,T-t)\\ . / _/ x=f[x,u[x, Jj, y-g\y..\y.
dV(x,y,T-t)\\ JJ
с начальным условием х (0)=х<ь у (0)=>>о- Вдоль решения x (f), у (l) имеем 270
32V (х (/), у (О, Т- о " д2v (х (О, у (О, т-о 8Т8хк 8х,3хк 1ш{ 8V г _ у $®> У lb ~'> э/i (* (0. fi (0)_ ,_1
Sxi
_ / чч
дхк
" ваК(х (0,^(0. Г-О
, - „ -, ч ч
n
L
,
где -,ч
-f-r,
3V(x(t),y(t),
н (0-и ( х (0,
—
T-l)\
J,
-,ч - Л / ч ^ М , *(0, г - 0 \ Однако,
d (dv (х (о, у (0, г - г)\ » а»У(х(о, у (о, г - о . ; 1-1 — // (* (0, й (ОН Л\ дхк J (._, dxkdxj ^d*V(x{t),Ht), T-t) ,_ „ ч а»У(х(0,у(0, Г-Q +1 — а (у (О, • (0) г-— . * - 1 , •••> и. (6-14) Заметим, что у дважды непрерывно дифференцируемой функции можно менять порядок дифференцирования. Перепишем (6.13) с учетом (6.14) в виде d fSV (x («), у (Г), Г - 0• \) \ _ " Д ЭК (х (Г), у (г), Г - 0 9/i (х (0, 2 (0) arfr(0.y(0.
л\
ах*
/
._, *-1
Эх<
ахк
«•
Аналогичным образом получим уравнения
/8V (х (/), уJ (о, (0, т-»\_ т-1)\ _rfd /ау(х(о,
(0, у (О, г - о fy (у (о, г (D) _"ev(x , 1 = 1 , ..., Л.
Так как при fe [О, Г] К (х (0, у (О, Г - О - Я (х (Г), у (Г)), то dt\
*Ь
дТ
Введем следующие обозначения:
„ , Д dV(x(t), J (j), Г - 0, F (0= Зх,
271
„
/
A dV(x (t), у (I), T-l) dyt yx{t)={vXi{t)},
.
vy{i)t{vyt{t)},
„VT (,/ ) дэк(5(0.>М, r-i) В результате получим следующую систему обыкновенных дифференциальных урав нений для функций х (/), у (О, Vx (/), Vy (/), F r (r):
±,-/, (х, й (х, vx)i л - Л с , ; о-, к,», " „ ш * . Д(«. Ш)
^ _
дх
ы\
* ^ Г =0, /,
^ _
"
в» (у. г (у. К,»
(6.15)
ЗУк
/-1 fc=l я
и, кроме того, согласно (6.6) имеем п
и
Ут= I V„g, (у, ; (у, К,))+ 21 VXift (х, 5 (х, Fx)). f-1
i-1
Для решения системы нелинейных уравнений (6.15) относительно функций х ((), .у (О, Ух (0> ^ (0> ^т(') необходимо определить начальные условия. Для функции У (* (Of У (0. Г—0 они заданы в момент времени t=T, поэтому введем переменную т = Г— / и запишем уравнение характеристик в регрессивной форме. Введем обозначе ния х= — х, у= — у. Уравнения характеристик принимают следующий вид: *.= - / , ( * . й), yt=-gi (У. v), (6.16) •>' " Щ (х, и) о • Sgl. (у, 5) о * ,Г, *'
3xfc
3j>*
При задании начальных условий для системы (6.16) используется соотношение V(x, у, 1) \т-ъ=Н (х, у). Пусть х | t _o=J. У |т-о=-г'- Тогда дН F,lt-o=— ' 5х( *-*,
y-f'.
*V. lt-0 =
ен By, x—s,
y-/i
(6.17)
Krlt-0- I ^ | t .O ft (5', S (5', К, | t - 0 ))+ Z VXj I,.,/, (5, U (J. K, | t _ 0 )). i-1
Подробные исследования возможных путей решения системы (6.16)—(6.17) см. в[1]. Аналогичным образом, используя уравнение (6.8), можно записать уравнение характеристик для задачи преследования на быстродействие.
272
§ 7. МЕТОДЫ ПОСЛЕДОВАТЕЛЬНЫХ ПРИБЛИЖЕНИЙ ДЛЯ РЕШЕНИЯ ДИФФЕРЕНЦИАЛЬНЫХ ИГР ПРЕСЛЕДОВАНИЯ
7.1. Пусть Г6 (х, у, Т) — дискретная форма дифференциальной игры Г (х, у, Т) продолжительностью Т>0 с фиксированным шагом разбиения 8 и дискриминацией игрока Е на время <5>0 вперед. Обозначим через Vs (х, у, Т) значение игры Ts (х, у, Т)*. Тогда
\imVi(x,y,T)=V(x,y,T) и оптимальные стратегии в игре Ts (x, у, Т) при достаточно малых 8 могут быть эффективно использованы для построения ситуаций Е равновесия в игре Г (х, у, Г). 7.2. Идея численного метода состоит в построении алгоритма нахождения решения игры Г6 (х, у, Т). Перейдем непосредственно к изложению метода. Нулевое приближение. За нулевое приближение функции зна чения игры Vs (x, у, Т) принимаем функцию V°s (х, у, Т)= max
min p (£, г\),
(7.1)
,6 СI (у) (еСЦх)
где Ср (х), СЕ (У) — множества достижимости игроков Р и Е из начальных состояний х, yeR" к моменту времени Т. Выбор функции V\ (x, у, Т) в качестве начального приближения оправдан тем, что в достаточно широком классе игр (так называ емый регулярный случай) она оказывается значением игры Г (х, у, Т). Следующие приближения строятся по правилу: V\ (х, у, Т)= max i,6C«(y)
min V\ (£, i\, T-S), {eC»(x)
V\ (x, y,T)= max
min V\ ({, r\, T-8),
V\ (x, y,T)= max
min V\ ({, q, T-S)
(7.2)
при T>8 и V\ (x, y, T)= Vl (x, y, T) при T^S, к> 1. Как видно из формул (7.2), операция max min берется по множе ствам достижимости СЕ (у), Ср (х) за время 8, т. е. за один шаг дискретной игры Гй (х, у, Т). •Вопросы, связанные с обобщениями и приложениями теоремы Хелли, подробно изложены в книге: Данцер Л., Грюнбаум Б., Кли В. Теорема Хелли. М., 1968. 273
7.3. Теорема. При фиксированных х, у, Т, 8 числовая последова тельность [Vg (x, у, 7)] не убывает с ростом к. Доказательство. Докажем сначала неравенство V\(x.y.T)>V°t(x,y,T). Для всех £еСр (х) справедливо: С\~ь (О <=• СТР (х). Для любых т 6 цеС Е~ (г\), £еСР(х) имеем min
p (I, rj)^ min о (?, г\).
Отсюда Vls (х, у, Т)— max ueC^CO
^ max 4 eC^(y)
= max
min
max min p (5, jj)>
(eC'r(x)
ijeCj-'fo) fsCj-'(f)
max min p (£, jj)= iieC'-'O,)
}ecTf{x)
min p (£, n)= V° (x, у, Т).
Предположим теперь, что для l^k справедливо неравенство V,,(x,y.T)>V'fl(x,y,T) (7.3) и докажем его для 1=к+1. Из соотношений (7.2) и (7.3) следует, что П + 1 (х. у, Т)= max >max
min V\ ({, IJ, Г - 5 ) >
min Vtx &4>T-S)=V\(x.y,T\
Таким образом, в случае Т>8 по индукции утверждение те оремы доказано. В случае Т^д утверждение теоремы очевидно. 7.4. Теорема. Последовательность {Vg(x, у, Г)} сходится за конечное число шагов N, при этом имеет место оценка iV< - +1, где квадратные скобки означают целую часть. Доказательство. Пусть N=[T/6] + l. Покажем, что VHx,y,T)=V^l(x,y,T). (7.4) Равенство (7.4) легко получить из построения последовательности [V* (x, у, 7)]. Действительно, Vя, (х, у, Т)= max JeC'^ty)
= max чЧс^Ь) 274
min V?~l « \ if1, T-8) = l
( eC'r(x)
min {'бс;м
max ... »2бС^(чх)
...
max
V\^N~\ r,N~\ T-(N-l)
min
8).
Аналогично имеем V$+l (x, у, Т)= max 4«eC^O0
...
max
min
min
max
feCjW
if'eC^Oi»)
...
V\(f~\ r\N~\ T-(N-l)
8).
Однако Т— (N— 1) 8 = <x<8, поэтому VsKS,
,4
,<*•)= У s\S
,4
,«)=*'«(?
> 4
> ah
откуда и следует равенство (7.4). Совпадение членов последовательности V\ при k^N выводится из (7.4) индукцией. Теорема доказана. 7.5. Теорема. Предел последовательности {V* (x, у, Т)} совпа дает со значением игры ГЙ (х, у, Т). Доказательство. Данная теорема является, по существу, сле дствием теоремы п. 7.4. Действительно, обозначим Vs(x,y, r ) = lim VI {х, У, Т). Jt-»QO
Сходимость происходит за конечное число шагов, не превосходящее 'N=[T/8]+1, поэтому в рекуррентном уравнении (7.2) можно перей ти к пределу при к-*со. Предельная функция Vs (x, у, Т) удовлет воряет уравнению V, (х, у, Т)= max
min V, ({, п, Т-8)
(7.5)
при начальном условии Vs {х, у, Т) |0<г<а= max
min p (
(7.6)
что и является достаточным условием для того, чтобы функция Vs (х, у, Т) была значением игры Ys (х, у, Т). 1.6. Зная функцию Vs (x, у, Т), можно, используя уравнение (7.5), построить оптимальные кусочно-программные стратегии в игре Гг (х, у, Т). С помощью стратегий, оптимальных в игре ГЙ (х, у, Т), строятся е-оптимальные стратегии в основной игре Г (х, у, Т). Как следует из (7.4), совпадение двух последовательных прибли жений на шагах к и к+1 означает, что соответствующее приближе275
ние уже является значением игры Г6 (х, у, Т), поскольку в этом случае все последующие приближения совпадают с к-м. приближени ем. Такое совпадение и является критерием прекращения вычисле ний. Имеются достаточные основания полагать, что в широком классе задач сходимость происходит гораздо быстрее, чем за время, указанное в теореме п. 7.4, в частности в «регулярном случае» вычисления прекращаются на 1-м шаге после вычисления функции V\ (x, у, Т) (это в то же время является критерием «регулярности»). 7.7. Приведем модификацию метода последовательных прибли жений, изложенного выше. В качестве начального приближения возьмем функцию V°s (х, у, Т) = V\ (х, у, Т), где Vbs (x, у, Т) определена равенством (7.1). Следующие приближения строим по правилу: Укб+1 (х.у, Г ) = т а х
max
16[1:Л1
ijeCjJC)
min V% (
при Т>5, где N=[TI5\, и У*,*1 (х, у, Т)= V\ {х, у, Т) при Т^8. Для последовательности функций {Р* (х, у, Т)} так же, как и для последовательности функций {К* (х, у, Г)}, справедливы утвержде ния теорем п. 7.3—7.5. Доказательство этих утверждений для последовательности фун кций { Vf (x, у, Т)} почти дословно повторяет аналогичные рассуж дения для последовательности функций {Vks(x, у, Г)}. Функци ональное уравнение для функции значения игры Гг (х, у, Т) прини мает в области {(х, у, Т) \ Т> 8} вид Vs(x, у, Г ) = т а х
max
/e[l:A1
46C»(y)
min Vs (£, t\, T- i8),
(7.7)
(еС*(х)
где N=[T/8), а начальное условие остается прежним, т. е. имеет вид (7.6). 7.8. Докажем эквивалентность уравнений (7.5) и (7.7). Теорема. Уравнения (7.5) и (7.7) с начальным условием (7.6) являются эквивалентными. Доказательство. Пусть функция Vs (x, у, Т) удовлетворяет уравнению (7.5) и начальному условию (7.6). Покажем, что она удовлетворяет уравнению (7.7) в области {(х, у, 7)\Т>8}. Действительно, справедливы следующие соотношения: Vs (х, у,Т)= max
276
= max
min
max
,6C«C)
{ec;w
чбС^ч)
min Vs (£,»/, T-S)= min Vs (2f, rj, T—28)^ ?GC««)
^ max ,6C«r(y)
max
min
ЦеС'^ч)
(eC'r(x)
= max
min
цеС»(у)
min Vs (5, rj, T—2S)-feCf(0
Vs (£, r\, T-28)^...
{6C»(x)
...> max
min Vs (£, rj, T—iS)^... .
,бС»
{ 6 C«(x)
При i= 1 имеем V, (x, y, T)= max
min F, (5,»?, T-5),
поэтому справедливо равенство Vs (x, у, 7)= max
max
ie[l:N\
r,eC'(y)
min Vs (
где N= [Т/8], что и доказывает требуемое утверждение. Пусть теперь функция Vs(x, у, Т) в области {(х, у, Т)\Т>д} удовлетворяет уравнению (7.7) и начальному условию (7.6). Пока жем, что она удовлетворяет также уравнению (7.5). Предположим противное. Тогда в области {(х, у, Т)\Т>8} должно иметь место неравенство Vi (х, у, Т)> max чеС'М
min Vs (£,t], T-S). ieC'tx)
Однако max
min Vs (£, rj, T—8) =
цбС'С)
= max tieC^iy)
min
max
feC^(x)
tell-.N-l]
> max
max
4eC't(y)
ie[l:N-l]
= max W-.N-l]
(еСЧх)
max jeC'W
max
min
jeCjfo)
(eC^x)
max
max
min
цеС^С)
»бС;(ч)
feC^M
= max ie\l:N\
max цеС*(у)
min Vs (£, rj, T— (i+l) 8)^ JeC^K)
min Vs (£, rj, T— (i+l) 8)= JeCj«)
min Vs (£, rj, T— (i+l) 8) = JsCjJtf)
min Vt (
(eCur(x)
Полученное противоречие доказывает теорему.
277
§ 8. ПРИМЕРЫ РЕШЕНИЯ ДИФФЕРЕНЦИАЛЬНЫХ ИГР ПРЕСЛЕДОВАНИЯ
8.1. Пример 4. (Простое движение). Рассмотрим дифференци альную игру Г (jc0, уо, Т), в которой движение игроков Р а Е проис ходит в евклидовом пространстве tC согласно следующим уравне ниям: дляР:х=а«(/), ||м(/)К1, х (0)=х0, для Е:у = р\ (О, II* ( O K I , у (0)=Уо,
(8.1)
где а, /? — константы а>/?>0, х, у, и, veR". Выигрыш игрока Е равен Н(х(Т),у(Т))=\\х(Т)-у(Т)\\. Пусть Г* (х, у,Т) — дискретная форма дифференциальной игры Г (х, у, Т) с шагом разбиения д>0 и дискриминацией игрока Е. Игра ts (х, у, Т) протекает в N шагов, где N= Т/8. Согласно результатам § 2 (см. пример п. 2.3) игра Г4 (х, у, 7) имеет значение V, (х, у, 7 , )=тах {0, \\x-y\\-NS(a-P)} = =тах{0,\\х-у\\-Т(а-Р)}, а оптимальное движение игроков происходит по прямой, соединя ющей начальные состояния х, у. Согласно результатам § 3 значение исходной дифференциальной игры V(x, у, r)=lim Vs (х, у, Г)=тах {0, \\х-у\\-Т(а-0)}.
(8.2)
«-•о
Можно убедиться, что V(x,y, T)= max
min
\\х'—у'\\=рт(х, у),
где Cl(y) = S (у, рТ) — шар в R" радиуса /?Г с центром в точке у, аналогично Cp(x) = S (х, <хТ). Тем самым согласно лемме п. 5.3 у игрока Е в игре Г (х0, у0, Т) существует оптимальная программная стратегия v* (t), te[0, Г], которая приводит траекторию игрока Ев точку y*eCl(Уо), для которой Рт(х0, Уо)= min
х'еСтг(х0)
278
\\x'-y*\\.
Очевидно, v* (j)=v*-<
Уо-хо 1л>-*о1
При Уо^Хо,
v
при у0=х0,
где v eR" — произвольный вектор такой, что ||v|| = 1. Из результатов § 6 следует, что в области Д={(х.*7):||х-:у||-Г(а-/?)>0}, где существуют непрерывные частные производные SV__.
3V__dV_
— --(fi-P),
Jx~
х-у
~Jy-lx_yl>
функция V (х, у, Т) удовлетворяет уравнению (6.4): dV
.
(dV
\
- - a m i n [-,u
„
(dV
\
-/?тах i—,v
„
=0.
,„ „ч
(8.3)
В уравнении (8.3) минимум и максимум достигаются при управле ниях - (
dV\
dV дх
\
дх)
3V\
и I х, — =
-=
у-х
ly-x\'
;
(8.4)
дх dV
-( v
5
Л_
ду
_ у~х
у' ~д~у)~~т~1у-х\\
(8.5)
ду
Стратегии (8.4), (8.5) являются оптимальными в дифференциаль ной игре (8.1). Стратегию ы (х, у), определяемую соотношением (8.4), называют «погонной стратегией», так как в каждый момент времени вектор скорости игрока Р при использовании этой страте гии нацелен на преследуемого игрока Е. 8.2. Пример 5. (Игра преследования при наличии сил трения). Преследование происходит на плоскости. Уравнения движения име ют следующий вид: для игрока Р: /о £Л
p^au.-kpp,,
i = l , 2, ||ы||<1; 279
для игрока Е: ri=s„
s^fa-k^,
(8,7)
i=l, 2, ||„||<1;
?.(0) = ??,А(0)=^?,г ( (0) = г?, st (0)=sl i= 1, 2; а, 0, fc£)
fc,>0.
(8.8)
Здесь q=(qi, q2) и r=(ri, r2)— местоположение на плоскости игроков 1 и 2 соответственно; p=(pi,p2)us=(si, s2) — их импульсы; кр, кЕ — некоторые константы, интерпретируемые как коэффициен ты трения. Выигрыш игрока Е полагается равным H(q(T),r(T))=\\q(T)-r(T)\\
=
=Vfo. (Г)-г, (T)]2 + [q2 (Т)-г2 (Г)]2. В плоскости q=(qi, q2) множество достижимости С\ (q°, p°) игрока Р из начальных состояний р (0)=р°, q (0)=q° за время Т представляет собой круг (см. упр. 18) радиуса с центром в точке
RP{T)=j^~kpT+kpT-\) К р a(q0,p0,T)
=
q°+po1-^-.
кр Аналогично, множество СЕ(Г°, радиуса
S°)
представляет собой круг
ЛИ7)=^(е"*£Г+^Г-1) с центром в точке 1-е"**"
b(r°,S°, Т) = Г°+—
5°.
кв Для величины priq0, P°> r°, s°), определяемой соотношением (5.1), в данной дифференциальной игре выполняется равенство PT(q°,P°. r°. s°)= 280
max
min
\\q—r\\.
Отсюда (см. формулу (2.10)) имеем Рт (Я, Р. г, 5)=шах {0, \\а (q, р, Т)-Ь (г, s, T)\\ -(Rp (T)-RE (Г))} = =max
НЛ*-"'"^-"^-?.!±^4t!_,t^±5t!V 2 1 к
•(•
к
( 8. 9 )
а Р В частности, условий а>/?, — >— достаточно, чтобы для любых кр
kg
начальных состояний q, p, r, s нашлось отвечающее им Т, при котором рт (q, р, г, s)=0. Функция рт (q, р, г, s) удовлетворяет дифференциально-экстре мальному уравнению (6.1) в области П = {(^, р, г, s, J):pT(q, p, г, ^)>0}. Действительно, в области С1 существуют непрерывные частные производные ЗГ*
dqi
дг-, Э«,-
8pi
Уравнение (6.1) принимает вид Зр
v (8?
,дР
8Т
ы\ \8*
5г
8
Р
<
д
1
Р 1
д
8s
Р'
'
\
J
-pm&x £ - «i-amin £ — и,=0.
(8.11)
|u|
И<1 ,„, Sst
Здесь экстремумы достигаются на управлениях ы, v, определяемых следующими формулами: dPi
«,= -
,,
(8.12)
ару /эру dp
W \8pJ
vt=-
/=1,2.
(8.13)
VUi/ + UJ 281
Подставляя эти управления в (8.11), получим нелинейное уравнение в частных производных первого порядка др Л [dp dp dp Зр \ дТ £[ \8qt дп dp, dst )
Вычисляя частные производные (8.10), убеждаемся, что функция Рт (Я> Р> r> •?) в области Q удовлетворяет уравнению (8.14). Отметим, что величина рт(я°, Р°, r°, s°) является значением дифференциальной игры (8.6)—(8.8), а управления, определяемые соотношениями (8.12), (8.13),'оптимальные в области Q. Из формул (8.12), (8.13), (8.9) находим Tj-qj+Si
Ц,=
, а,
р,
"* 1-е -к£Г •"
К
= , рТ у 1-е -кУ
Щ=Щ, 1 = 1 , 2 . (8.15)
В ситуации й, v направление действия силы каждого из игроков параллельно линии, соединяющей центры кругов достижимости (как это следует из формулы (8.15)), и остается постоянным, по скольку в этой ситуации центры кругов достижимости перемещают ся вдоль прямой линии. § 9. ИГРЫ ПРЕСЛЕДОВАНИЯ С ЗАДЕРЖКОЙ ИНФОРМАЦИИ У ПРЕСЛЕДОВАТЕЛЯ
9.1. Ранее в этой главе рассматривались конфликтные управля емые процессы, в которых каждый из участников (игроков) имел полную информацию, т. е. в каждый текущий момент игры Р (£) знал свое состояние х (t) [у (/)] и состояние противника у (/) [х (t)]. Были получены теоремы о существовании ситуаций е-равновесия в чистых стратегиях в таких играх и проиллюстрированы различные методы построения движения. Это оказалось возможным, посколь ку дифференциальные игры с полной информацией представляют собой предельный случай многошаговых игр с полной информаци ей, когда промежуток времени между двумя последовательными ходами стремится к нулю. Иначе обстоит дело с дифференциаль ными играми с неполной информацией, где применение смешанных стратегий играет существенную роль. Не останавливаясь на анализе всей проблемы, рассмотрим только случай игры преследования 282
с предписанной продолжительностью, терминальным выигрышем и задержкой поступления информации игроку Р о фазовом состоя нии игрока Е на время />0. 9.2. Пусть задано некоторое число />0, называемое временем задержки информации. При 0 < / < / преследователь Р в каждый момент времени t знает свое состояние х (;), время t и начальное местоположение у0 убегающего Е. При /<<<Г игрок Р в каждый момент / знает свое состояние х (t), время t и состояние у (t — I) игрока Е в момент /—/. Игрок Е в каждый момент времени t знает свое состояние у (/), состояние противника х (/) и время t. Его выигрыш равен расстоянию между игроками в момент времени Т, выигрыш игрока Р равен выигрышу Е с обратным знаком (игра антагонистическая). Обозначим эту игру Г (х0, уо, Т). Определение. Под кусочно-программной чистой стратегией v () игрока Е будем понимать пару {т, Ь), где т —разбиение отрезка времени [О, 7] конечным числом точек 0^ti<...
Множества всех кусочно-программных чистых стратегий игро ков Р и Е будем обозначать соответственно через Р и Е. Уравнения движения имеют вид x=f(x,u), usl/cR?, xeR", y=g (У. v), veVcR9, yeR". (9.1) Полагаем выполненными все условия, обеспечивающие существова ние и единственность решения системы (9.1) для любой пары изме римых программных управлений и (i), v (i) при заданных начальных условиях Хо, Уо- Это гарантирует существование единственного ре шения системы (9.1) в случае использования игроками Р и Е кусоч но-программных стратегий 'и Q e P , v ()еЕ при заданных началь ных условиях х0, Уо- Таким образом, в любой ситуации (ы (•), v (•)) при заданных начальных условиях х0, у0 функция выигрыша игрока 283
Е определяется однозначно К (*о, у* и О, v ()) = р (х (7), у (7)),
(9.2)
где х (f), у (0 — решение системы (9.1) при начальных условиях х0, у0 в ситуации (м (•), v (•)), а р — евклидово расстояние. 9.3. Можно на простейших примерах показать, что в рассмат риваемой игре Г (х0, уй, Т) ситуации е-равновесия существуют не для всех чисел е>0. Поэтому для построения ситуаций равновесия воспользуемся подходом, предложенным Ф. Нейманом и О. Моргенштерном для конечных позиционных игр с неполной информаци ей [47]. Расширим пространства стратегий игроков Р и Е до так называемых смешанных кусочно-программных стратегий поведения (СКПСП), которые предполагают возможность случайного выбора управления на каждом шаге. Пример 6. Уравнения движения имеют вид для Р\х=и, ||и||<а, для E:y=v, | | « K l , (9.3) a>p>0, x.yeR1, u.veR2. Выигрыш игрока Е равен р (х (7), у (7)), где х (t), у (t) — реше ние системы (9.3) при начальных условиях х (tQ)=x0, у (t0)=y0. Иг рок Р в течение игры знает лишь начальное состояние у0 против ника, а игрок Е имеет полную информацию о состоянии игрока Р(1=Т). Пусть v (х, у, t) — некоторая кусочно-программная стратегия игрока Е. Для каждой стратегии v существует стратегия и (х, t) игрока Р, использующая только информацию о начальном положе нии игрока Е, своем текущем положении и времени, прошедшем с момента начала игры, гарантирующая выигрыш р (х (7), у (7))<е для 7 > р (jc0, у0)1(а—Р). Действительно, пусть и* (х, у, t) — страте гия игрока Р в игре с полной информацией, имеющая следующую структуру: до момента встречи t„ осуществляется погонное пресле дование игрока Е, а при *„ < /< Г точка х (t) сохраняется в некоторой е-окрестности убегающей точки. Такая стратегия в игре с полной информацией может быть легкоописана аналитически (см. пример 4 п. 8.1). Построим траектории х (t), у (/) движения игроков в ситу ации (и* (х, у, t), v (x, у, t)) из начальных состояний х0, уо> Для этого достаточно проинтегрировать систему х=и* (х, у, t), х (t0)=xQ, y=Z (x, у, t), у (h)=yu. (9.4) 284
По построению р (х (Т), у (Г))<£. Пусть теперь й {t) = u* (х (/), у (t), t), и хотя стратегия и* (х, у, /), использующая для выработки управления информацию о положении Е, недопустима, стратегия й (/) является допустимой, поскольку использует лишь информацию о времени, прошедшем с момента начала игры и о начальном состоянии игрока Е. Очевидно, что в ситуациях (й (t), v (х, у, t)) и (и* (х, y,J), v (х, у, t)) траектории игроков совпадают, поскольку стратегия v (x, у, t) одинаково реагирует как на стратегию и* (х, у, /), так и на стратегию и (/) выбором управления v (х (/), у (/), J*)). Таким образом, мы показали, что для каждой стратегии v (х, у, t) существует программное управление й (/), являющееся допусти мой стратегией в игре_ с неполной информацией, и такое, что Р (* (^L У (У))<е, где х (f), у (t) — соответствующие траектории. Выбор v (х, у, t) произволен, поэтому отсюда следует, что шр1ш>(х(Г),;и(Г)) = 0, (9.5) где supinf берется по множествам стратегии игроков в игре с непо лной информацией. Вместе с тем для любой стратегии и (х, г) игрока Р можно построить такую стратегию v (х, у, t) игрока Е, что в ситуации (и (х, г), v (х, у, /)) выигрыш р игрока Е превзойдет рТ. Действительно, пусть м (х, /) — некоторая стратегия игрока Р. Так как его движение не зависит от у (f), то траектория движения игрока Р может быть получена интегрированием системы х=й (х, t), х (t0)=xu (9.6) независимо от движения игрока Е. Пусть х (/) — траектория, полу чившаяся в результате интегрирования системы (9.6). Соединим точких (Г) иу 0 и направим движение игрока Епо прямой [х (7),>>0] в направлении от точки х (Г) с максимальной скоростью. Очевид но, что такое движение игрока Е обеспечивает расстояние между ним и точкой х (Т) большее или равное /?Г. Обозначим построен ную таким образ_ом стратегию игрока Е через v (t). Тогда получим, что в ситуации (й (х, t), v (?)) выигрыш игрока Е больше или равен величине рТ. Отсюда следует, что infsupp(x(r),>>(r))^pT, (9.7) где inf sup берется по множествам стратегий игроков в игре с непо лной информацией. Из (9.5) и (9.7) следует, что значение игры в классе чистых стратегий в рассматриваемой игре не существует. 9.4. Определение. Под смешанной кусочно-программной стра тегией поведения (СКПСП) игрока Р будем понимать пару ft () = {т, d}, где х — произвольное разбиение отрезка времени [0, 7] конечным числом точек 0=ti
ответствие состоянию х (f;), у (t, — t), t, при tt>l и состоянию х (/,), Уо, tj при t,^l вероятностное распределение ц, (•), сосредоточенное на конечном числе измеримых программных управлений и (t) при t e [th Аналогично под СКПСП игрока Е будем понимать пару v ()={о, с}, где а — произвольное разбиение отрезка времени [О, 7] конечным числом точек 0 = ti
286
у (у', I).
9.6. Рассмотрим вспомогательную одновременную антагони стическую игру преследования на выпуклой оболочке_ множества СЕ (у). Преследователь выбирает некоторую точку £еСЕ (у), а убе гающий — точку w e С | (у). Выбор совершается одновременно, и иг рок Р при выборе точки £ не знает выбора г\ игрока Е, и наоборот. Игрок Е получает выигрыш р (
г(у,7)=<С5(у),с5оо,р(у',у')>.
Множество стратегий минимизирующего игрока Р выпукло, функция р(у', у") также выпукла по своим аргументам и непрерыв на. Для таких игр мы можем применить теорему п. 5.5 гл. П. Поэтому в игре Г (у, Т) существует ситуация равновесия в смешан ных стратегиях. Оптимальная стратегия игрока Р чистая, а оп тимальная стратегия игрока Е предписывает положительную веро ятность не более чем (л+1) точке из множества СТЕ(у), причем V (у, Т)=у (у, Т). Оптимальная стратегия игрока Р в игре Г (у, Т) заключается в выборе центра минимальной сферы у, содержащей множество СЕ (у)- Оптимальная стратегия игрока Е предписывает положительные вероятности не более чем (л+1) точке из точек касания указанной сферы с множеством С Е (у) (здесь л — размер ность пространства х, у). Значение игры равно радиусу этой сферы (см. пример 11п. 5.5 гл. II). 9.7. Рассмотрим одновременную игру Г (М, /), где М — центр преследования. Обозначим через уу (М), ...,yn+i Щ) точки из множе ства С'Е (М), которые входят в спектр оптимальной смешанной стратегии игрока Е в игре Г (М, /), а через у (М) — оптимальную стратегию игрока Р в этой игре. Определение. Траектория у* (t) называется условно-опти мальной, если у* (0)=у0,у* (Т—1)=М,у* (Т)=у, (А/) для некоторого i из чисел 1, ..., л + 1 . Для каждого i может существовать несколько условно-опти мальных траекторий игрока Е. Теорема. Пусть T^l и для любого числа е>0 игрок Р к момен ту времени Т может гарантировать в-встречу с центром у (7) минимальной сферы, содержащей множество С'Е(у (Т—1)). Тогда игра Г (х0, Уо, Т) имеет значение у (М, I), е-оптимальная стратегия игрока Р чистая и совпадает с любой его стратегией, гарантиру ющей е/2-встречу с точкой у (Т). Оптимальная стратегия игрока Е смешанная: в течение времени 0< /< Т—1 он должен перемещаться в точку М по любой условно-оптимальной траектории у* (t) и далее с вероятностямири ...,рп+1 {оптимальная стратегия игрока Ев игре 287
Г (М, /)) выбрать одну из условно-оптимальных траекторий, перево дящих точку у* (Т—[)=М в точки yt (М), г'=1, ..., и+1, входящие в спектр оптимальной смешанной стратегии игрока Е в игре Г (М, I). Доказательство. Обозначим через ы, (•) v, (•) указанные в те ореме стратегии, оптимальность которых требуется доказать. Для доказательства теоремы достаточно убедиться в справедливости следующих соотношений: R(х<ь Уо\ II (•), v, ()) + е>К(х0, Уо, и. (•), v, (•))> >R(х0, у0; и. (•), v (.))-в,ц ()еР, v (•)бЁ;
(9.8)
Urn R (х0, уй; и, (•), v. (.))=y (M, I).
(9.9)
«-•о
Левая часть неравенства (9.8) следует из определения стратегии и, (•), в силу которого для любой кусочно-программной стратегии и Q e P выполняется неравенство R (х0, уо, и (•), v, ())+в>£(хо, уо, и. (•), v, (•)). Обозначим через JC* (/) траекторию преследователя в ситуации (и. О, v, ()). Тогда К (х0, уо, и, (•), v. (•))="£ р,р (х* (Т), у, (М))-
(9.10)
(-1
Пусть R — радиус минимальной сферы, содержащей множество С'Е(М), т. е. R=y (M, I). Тогда R-s/2^p(x* (T), у, (M))^R+Е/2 для всех i = l , ... , и + 1, поскольку точка х* (Г) принадлежит е/2-окрестности точки у (А/). Так как £ Pi—1> РС&§, TO и з формулы (9.10) получаем Л-е/2<£(х 0 , уо, и. (), v# ОХЛ+8/2,
(9.11)
что доказывает (9.9). Пусть состояния х (Т), у (Г— I) реализовались в ситуации (и, (•), v ()) и Q (•) — вероятностная мера, индуцированная на множестве СЕ(У(Т— [)). Из оптимальности смешанной стратегии р=(р\, ..., рП+1) в игре Г {М, I) имеем * = " l р,р (У (М), У> (М))>7 (У {Т-Г), Г) = =УеЛГ (у (Т-[),[)> 288
J
p(y\y(T-f)],y)dQ,
(9.12)
где у [у (Т— /)] — центр минимальной сферы, содержащей множест во С 'Е (у (Т-1)). Однако р (х (Т), у \у (Т-1)])^Е/2, поэтому при уеС'Е (у (Т-1)) имеем р (х (Т), у)^е/2 + р (у \у (Т-1)], y)^R + e/2. (9.13) Из неравенства (9.11)—(9.13) вытекает, что &(хо,Уо, и. ( ) , v , Q ) >
J
p(x(T),y)dQ-B,
(9.14)
однако J
p (x (T), y) dQ=R (xo, y0; ue (•), v (•)).
(9.15)
Из формул (9.14) и (9.15) получаем правую часть неравенства (9.8). Теорема доказана. При Т<1 решение игры существенно не отличается от случая 7 > / и теорема сохраняет силу, если вместо С'Е (у0), С'Е (у0) у (М, I), у (Т—1) рассматривать соответственно С Е (у0), СЕ (у0), у (М, Т), у0. При /-*0 диаметр множества С'Е(М) стремится к нулю, что, в свою очередь, вызывает стремление к нулю значения вспомога тельной игры Г (М, I). Однако значение этой вспомогательной игры равно значению V, (х0, Уо, Т) игры преследования с задержкой информации Г (х0, jo, Т) (здесь индекс / означает время задержки информации). Смешанная оптимальная стратегия игрока Е в Г (М, I), сосредоточивающая свою массу на не более чем л+1 точке из С'Е (М), в пределе сосредоточивает всю массу в одной точке М, т. е. превращается в чистую стратегию. Это вполне согласуется с тем, что при 1-*0 игра Г (х0, у0, Т) превращается в игру с полной информацией. Пример 7. Уравнения движения имеют вид х=и, ||ы||<а; y=v, ||«||<j8, а>р\ x.yeR2. Пусть время Т удовлетворяет условию Т>р (х0, у0)/(а — р) + 1. Множество достижимости С'Е (уо) = С'Е (у0) и совпадает с кругом радиуса /?/ с центром у0. Значение игры Г (у, I) равно радиусу круга С'Е(у), т. е. V(y,l) = pl. Так как величина V (у, I) в данном случае не зависит от у, то любая точка множества СТЕ~1 (у0) может быть центром преследова ния М. Оптимальная стратегия игрока Р в игре Г (у, I) заключается в выборе точки у, а оптимальная стратегия игрока Е — смешанная 289
и заключается в выборе двух любых диаметрально противополож ных точек круга С1Е(у) с вероятностями (1/2, х/2). В соответствии с этим оптимальная стратегия преследователя в игре Г (х0, уо, Т) заключается в погонном преследовании точки у (t — l) при l^t^T (при 0 < / < / точки у0) до встречи с этой точкой, кроме того, до момента Т следует оставаться в е/2-окрестности этой точки. Оп тимальная стратегия игрока Е — смешанная кусочно-программная стратегия поведения — и заключается в переходе из точки у0 в про извольную точку МвСтЕ~1 (у0) в течение времени Т—1, далее в рав новероятном выборе направления на одну из двух диаметрально противоположных точек круга С'Е(М). При этом Уа1Г(х0, уо,
Упражнения • задачи 1. Построить множество достижимости в игре «простое движение» для игрока Р и игрока Е. 2. Пусть игрок Е перемещается из точки уо=*(у[, у%) с постоянной по величине и направлению скоростью /?. Показать, что для каждого такого движения существует единственное движение игрока Р из точки xo=(xf, х£) с постоянной скоростью ос (а>Р), которое осуществляет встречу (/-встречу) с игроком Е за минимальное время. Такое движение игрока Р будем называть быстродействием в точку встречи. 3. Пусть игрок Е перемещается из точки УО=(У1, У§ с постоянной по величине и направлению скоростью 0, а игрок Р осуществляет быстродействие в точку встречи из точки хо=(х°, хг)- Для каждой такой пары движений игроков Е и Р построить точку встречи. Показать, что полученное геометрическое место точек встречи иг роков Ей Р представляет собой окружность Атголония, и написать ее уравнение. 4. В условиях предыдущего упражнения построить множество точек /-встречи игроков Ей Р. 5. Обозначим через А (хо, уо) множество точек встречи относительно начальных состояний хд, уо игроков Р и Е (окружность Ашюлония). Пусть до некоторого момента т (т меньше времени до момента встречи) игроки Е и Р перемещаются прямолинейно с максимальными скоростями в точку встречи М. Построим новое множество точек встречи А (х (г), у (т)) относительно состояний х (т), у (т) как начальных в момент времени т. Это некоторая новая окружность Ашюлония. Показать, что окружности А (х<ь уо) и А (х (т), у (г)) касаются в точке М, следовате льно, А (х (т), у (г)) содержатся в круге А (XQ, уо), ограниченном окружностью А (х0, уо). 6. Пусть игрок £ перемещается из точки уо вдоль некоторой гладкой кривой у (t) с максимальной скоростью /}. Игрок Р движется с максимальной скоростью а, в каждый момент времени т зная местоположение у М игрока Е и направление вектора скорости V(T)={V1 СО, ч й } {«>j (T)+I>J (т)=/г}. Построим П-стратегию игрока Р. Согласно этой стратегии он выбирает направление вектора скорости на точку встречи М в предположении, что игрок Е будет на отрезке времени [т, со) 290
придерживаться постоянного направления движения {«) (т), vi (т)} (перемещаться вдоль луча с постоянной скоростью /?). Показать, что если игрок Р использует П-стратегию, то отрезок [х (т), у (т)], соединяющий текущие местоположения игроков, останется до момента встречи параллельным отрезку [х0, Уа]. 7. Пусть игрок Е перемещается из уо вдоль некоторой гладкой кривой у (т) с максимальной скоростью /?. Написать аналитическое выражение для П-стратегии игрока Р. 8. Показать, что при использовании П-стратегии игроком Р точка встречи всегда содержится во множестве А (х0, у0), ограниченном окружностью Апполония А (х0, уо). Указание. Доказательство провести сначала для движений игрока Е вдоль к — вершинных ломаных, используя утверждение упр. 5, а затем совершить предель ный переход. 9. (Игра «шофер-убийца»). Чтобы записать уравнения движения игроков в этой игре, достаточно задать пять фазовых координат: по две координаты для обозначе ния местоположения игроков Р (автомобиль) и Е (пешеход) и еще одну для обозначе ния направления движения преследователя. Обозначим их через х ь х2, у\, yj, в (рис. 29). Задание этих фазовых координат полностью и однозначно определяет состояние игры в каждый момент. Управление для игрока Е выглядит просто. Для описания направления его движения достаточно задать угол ф (см. рис. 29). Теперь выберем управление для игрока Р. Проведем через точку Р прямую СС (\C'P\ = \PC\=R), перпендикулярную вектору скорости преследования. По своему желанию игрок Р выбирает мгновенный центр кривизны своей траектории в любой точке, например в точке С\, лежащей на э*ой прямой вне интервала СС. Управление и будем считать равным по абсолютной величине R/\PCi\, положи тельным для точек С], лежащих слева от Р, и отрицательным — справа от Р; таким образом, — 1 < н < 1. Доказать, что уравнения движения имеют следующий вид: Xi=
yi=a>2sm
Рис. 29
Рис. 30 291
Пусть игрок Р в момент I выбирает центр кривизны своей траектории в точке C=(R/u, 0) и пусть расстояние СЕ равно (рис. 30). Тогда вращение игрока Р вокруг точки С эквивалентно вращению х вокруг С в противоположном направлении, но с той же угловой скоростью. Таким образом, вектор х движется со скоростью, равной по модулю Ш] (du[R), в направлении, перпендикулярном СЕ. Составляющие его скорости и (х,-*/?)/<*).
получаются
умножением
модуля
соответственно
на
—x^d
Показать, что уравнения движения имеют вид: СО]
Щ
xi = —— ли+югап^, R
х?=— х\и—coi+abcosdr, R
- 1 < « < + 1, 0<^<2я. 11. Пусть а и Ь — такие числа, что р=у/а2 +Ь2 >0. Показать, что max (acos \Ц+Ьалф) достигается на таком ф, что costy=ajp, sinifi=bjp и этот максимум равен р. 12. Пусть выигрыш терминальный и уравнения движения имеют вид Xj»aF+a>sinu, Хг™ — l+wcosu, 0<«<2я,
- 1 < К < + 1,
где в и т — гладкие положительные функции от хх и х2. Записать уравнение для значения игры в форме (5.64) и (5.66) и показать, что уравнение в форме (5.69) имеет вид <*>хх V-mp-vn=0, где
P"y/v2x +v2, P=sgn«x,, snu^-vjp,
co&u=-vy/p.
Указание. Использовать упр. 11. 13. (Игра «шофер-убийца».) Записать основное уравнение в форме (6.8) и (6.10) для уравнений движения в естественном пространстве (упр. 9) и в редуцированном пространстве (упр. 10). Для vx, vy, v в первом случае ввести обозначения «ь t>2, «з, щ, «5, где индексы относятся к соответствующим фазовым координатам в том порядке, в каком они появляются в уравнениях движения. 14. Найти уравнение характеристик в регрессивной форме в естественном про странстве для игры «шофер-убийца». Здесь основное уравнение (6.10) имеет вид Щ
-
щ (»ismfl+«2Cos0)+a)2PH— » 5 « + l = 0 , R где P = y/v\+v\,
Й= -Sgn»s, ЯП£=«'3/Р,
COS
15. С помощью решения упр. 14 показать, что решение в малом игры «шоферубийца» состоит для игрока Р из возможно более резких поворотов вправо-влево, а для игрока Е — в движении по прямой. 16. Записать и проиллюстрировать уравнение (6.6) для игры на «перетягивание» xi=u+p, M
292
с терминальным выигрышем р (х (Т), А), где А — некоторая точка, AeR2, лежащая вне множества достижимости системы к моменту времени Т из начального состояния хо. 17. Записать явные выражения для оптимальных стратегий в игре упр. 16 и для ее модификации, когда продолжительность игры не фиксируется заранее, а выигрыш игрока Е полагается равным времени попадания в начало координат. 18. Доказать, что множество достижимости управляемой системы
?|=Л. 4i(0)=q4.
Pi=aul-kpi,
Л(0)=Р?. и?+«*<1, / - 1 , 2
в пространстве геометрических координат (q\, qi) — круг с центром в точке —кТ
5=?°+/>°(1-е
—кТ
)/к и радиусом Л = л (е
+kT-l)jk2.
19. Доказать, что функция рт (q, р, г, s) удовлетворяет уравнению (6.6), записан ному для данного случая. 20. Преследование происходит в плоскости, уравнения движения имеют следу ющий вид: для Р
4i=Pi. Pi=«"i-kpPi, М<1» ' = 1, 2, ддяЕ
Л - Л . W<1. '=1.2. Здесь qtiy — местоположения игроков РиЕ соответственно, р — импульс игрока Р. Таким образом, в рассмотренном случае игрок Е двигается согласно «простому движению», а игрок Р, представляющий собой материальную точку единичной массы, перемещается под действием силы трения а. Выигрыш игрока определим как расстояние между геометрическими местополо жениями игроков в момент окончания игры Т. Н (Я (Г), у (Г))=р (,? (Г), у (Г))= / £ (qi (Т)-у,
(Т))2.
Вычислить величину рт (q, у). 21. Вывести уравнение (6.6) для задачи из упр. 20. 22. Рассмотреть игру «простое преследование» с предписанной продолжитель ностью Т в полуплоскости F, т. е. при дополнительном предположении, что игроки в процессе преследования не могут покинуть множество F. Построить области достижимости игроков. 23. Вычислить величину pj (x, у) для игры «простое преследование» на полупло скости с предписанной продолжительностью.
24. Рассмотреть антагонистическую игру «простое преследование» с предписан ной продолжительностью между двумя преследователями Р={Ри Рг}> действующи ми как один игрок, и преследуемым игроком Е. Уравнения движения имеют следу ющий ВИД: х ' - м 1 , l n 1 ! ^ ! , 0<min{a, я 2 }, 2 х =и2,\и2\Ца2, JCX, x 2 , yeR2, У=«, Н « А И \ И 2 , l
veR2.
2
x40)=x vx (0)=xl,y(0)=y0. 293
Выигрыш игрока Е равен min р(х (7), у(Т}), т. е. игрок Е заинтересован в мак1-1,2
симизации расстояния до ближайшего из преследователей к моменту окончания игры. Построить множества достижимости игроков и геометрически определить максиминное расстояние рт(х\, xjj, у) между этими множествами. 25. Обобщить теорему п. 9.7 на случай, когда в преследовании участвует несколько преследователей Pit .... Pm, действующих как один игрок, и один убегающий трок Е.
ЛИТЕРАТУРА
Основная а) учебники 1. Айзеке Р. Дифференциальные игры. — М.: Мир, 1967. 2. Воробьев Н. Н. Теория игр для экономистов кибернетиков. — М.: Наука, 1985. 3. Давыдов Э. Г. Методы и модели теории антагонистических игр. — М.: Изд-во МГУ, 1978. 4. Дрешер М. Стратегические игры. Теория и приложения. — М.: Сов. радио, 1964. 5. Дюбин Г. Н., Суздаль В. Г. Введение в прикладную теорию игр.— М.: Наука, 1981. 6. Карлик С. Математические методы в теории игр, программировании и эконо мике. — М.: Мир, 1964. 7. Красовский Н. Н. Управление динамической системой. Задача о минимуме гарантированного результата. — М.: Наука, 1985. 8. Крушевский А. В. Теория игр. — Киев: Вища школа, 1977. 9. Мак-Кинси Дж. Введение в теорию игр. — М.: Физматтиз, 1960. 10. Мулен Э. Теория игр. С примерами из математической ЭКОНОМИКИ. — М.: Мир, 1985. П . Оуэн Г. Теория игр. — М.: Мир, 1971. 12. Петросян JI. А. Дифференциальные игры преследования. — Л.: Изд-во ЛГУ, 1977. б) сборники задач 13. Коваленко А. А. Сборник задач по теории игр. — Львов: Вища школа, 1974. 14. Морозов В. В., Сухарев А. Г., Федоров В. В. Исследование операций в задачах и упражнениях. — М.: Высшая школа, 1986.
Дополнительная в) монографии и учебные пособия 15. Ауман Р., Шепли Л. Значение для неатомических игр. — М.: Мир, 1977. 16. Ашманов С. А. Линейное программирование. — М.: Наука. 1981. 17. Берж К. Общая теория игр нескольких лиц. — М.: Физматтиз, 1961. 18. Беленький В. 3., Волконский В. А., Иванков С. А., Поманский А. Б., Шапи ро А. Д. Итеративные методы в теории игр и программировании. — М.: Наука, 1974. 295
19. Блекуэлл Д., Гиршик М. Теория игр и статистических решений. — М.: ИЛ, 1958. 20. Бондарева О. Н. О теоретико-игровых моделях в экономике. — Л.: Изд-во ЛГУ, 1974. 21. Вайсборд Э. М., Жуковский В. И. Введение в дифференциальные игры не скольких лиц и их приложения. — М.: Сов. радио, 1980. 22. Вилкас Э. Й., Майминас Е. 3. Решение: теория, информация, моделирова ние. — М.: Радио и связь, 1981. 23. Воробьев Н. Н. Основы теории игр. Бескоалиционные игры. — М.: Наука, 1984. 24. Гаврилов В. М. Оптимальные процессы в конфликтных ситуациях. — М.: Сов. радио, 1969. 25. Гейл Д. Теория линейных экономических моделей. — М.: ИЛ, 1963. 26. Гермейер Ю. Б. Игры с непротивоположными интересами. — М.: Наука, 1976. 27. Горелик В. Д., Кононенко А. Ф. Теоретико-игровые модели принятия решений в эколого-экономических системах. — М.: Наука, 1982. 28. Григоренко Н. Л. Дифференциальные игры преследования несколькими объектами. — М.: Изд-во МГУ, 1983. 29. Данилов Н. Н. Игровые модели принятия решений. — Кемерово: Изд-во КГУ, 1981. 30. Данскин Док. Теория максимина. — М.: Сов. радио, 1970. 31. Демьянов В. Ф., Малоземов В. Н. Введение в минимакс. — М.: Наука, 1972. 32. Жуковский В. И., Тынянский Н. Т. Равновесные управления многокритериаль ных динамических систем. — М.: Изд-во МГУ, 1984. 33. Зубов В. И. Динамика управляемых систем. — М., 1982. 34. Зубов В. И., Петпросян Л. А. Математические методы в планировании. — Л.: Изд-во ЛГУ, 1982. 35. Карлин С. Сведение некоторых классов игр к интегральным уравнениям/Сб. ст. [СЗ]. 36. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функциональ ного анализа. — М.: Наука, 1981. 37. Кондратьев А. И. Теоретико-игровые модели в задачах распознавания. — М.: Наука, 1986. 38. Кононенко А. Ф. О равновесных позиционных стратегиях в неантагонистичес ких дифференциальных играх//ДАН СССР. 1976. 231 № 2. С. 285 — 288. 39. Красовский Н. Н. Игровые задачи о встрече движений. — М.: Наука, 1970. 40. Красовский Н. Н., Субботин А. И. Позиционные дифференциальные игры. — М.: Наука, 1974. 41. Куржанский А. Б. Управление и наблюдение в условиях неопределенно сти. — М.: Наука, 1977. 42. Кукушкин Н. Н., Морозов В. В. Теория неантагонистических игр. — М.: Изд-во МГУ, 1977. 43. Лагунов В. Н. Введение и дифференциальные игры. Вильнюс. 1979. 44. Льюис Р. и Райфа X. Игры и решения. Введение и критический обзор.— М.: ИЛ, 1961. 45. Малафеев О. А. О существовании ситуации равновесия в дифференциальных 296
бескоалиционных играх двух лиц с независимыми движениями //Вестник ЛГУ 1980. № 7. С. 12 - 16. 46. Моисеев Н. Н. Математические задачи системного анализа. М., 1981. 47. Фон Нейман Дж., Моргенштейн О. Теория игр и экономическое поведение.— М.: Наука. 1970. 48. Никольский М. С. Первый прямЪй метод Л. С. Понтрягина в дифференциаль ных играх.— М.: Изд-во МГУ, 1984. 49. Партхасаратхи Т., Рагхаван Т. Некоторые вопросы теории игр двух лиц.— М.: Мир, 1974. 50. Пек Дж., Э. Л. Далмидж А. Л. Игры на компактном множестве/Сб. ст. [С. 3]. 51. Петросян Л. А., Данилов Н. Н. Кооперативные дифференциальные игры и их приложения.— Томск: Изд-во ТГУ, 1985. 52. Петросян Л. А., Захаров В. В. Введение в математическую экологию.— Л.: Изд-во ЛГУ, 1986. 53. Петросян Л. А., Зенкевич Н. А. Оптимальный поиск в условиях конфликта.— Л.; Изд-во ЛГУ, 1987. 54. Петросян Л. А., Томский Г. В. Динамические игры и их приложения.— Л.: Изд-во ЛГУ, 1982. 55. Петросян Л. А., Томский Г. В. Геометрия простого преследования. — Ново сибирск.: Наука, сиб. отд., 1983. 56. Подиновский В. В., Ногин В. Д. — Парето-оптимальные решения многокри териальных задач. — М.: Наука, 1982. 57. Понтрягин Л. С, Болтянский В. Г., Гамкрелидзе Р. В., Мищенко Е. Ф. Математическая теория оптимальных процессов. — М.: Наука, 1976. 58. Понтрягин Л. С. К теории дифференциальных игр//Успехи математических наук, 1966. Т. 21. Вып. 4. С. 219 — 274. 59. Понтрягин Л. С. Линейная дифференциальная игра убегания//Труды МИАН СССР, 1971. Т. 112. С. 30 — 63. 60. Понтрягин Л. С. Линейные дифференциальные игры преследования. Мате матический сборник. Новая серия, 1980. Т. 112. Вып. 3. С. 307 — 330. 61. Пшеничный Б. Н. Выпуклый анализ и экстремальные задачи. — М.: Наука, 1980. 62. Розенмюллер Н. Кооперативные игры и рынки. — М.: Мир, 1974. 63. Рокафеллар Р. Выпуклый анализ. — М.: Мир, 1973. 64. Робинсон Дж. Итеративный метод решения игр/Сб. ст. [С 1, С. НО — 118]. 65. Садовский А. Л. Монотонный итеративный алгоритм решения матричных игр//ДАН СССР, 1978. Т. 238. № 3, С. 538 — 540. 66. Сайон М. Некоторые общие теоремы о минимаксах/Сб. ст. [С. 3. С. 40 — 46]. 67. Сайон М., Вульф Ф. Об игре, не обладающей значением/Сб. ст. [С. 4. С. 290 — 300]. 68. Сансоне Дж. Обыкновенные дифференциальные уравнения. — М.: ИЛ, 1954. Т. 2. 69. Субботин А. И., Ченцов А. Г. Оптимизация гарантии в задачах управле ния. — М.: Наука, 1981. 70. Смольяков Э. Р. Равновесные модели при несовпадающих интересах участ ников. — М.: Наука, 1986. 71. Суздаль В. Г. Теория игр для флота. — М.: Воениздат, 1976. 297
72. Феллер В. Введение в теорию вероятностей и ее приложения. Т. 1,2. — М.: Мир, 1984. 73. Ху Т. Целочисленное программирование и потоки в сетях. — М.: Мир, 1974. 74. Черноусько Ф. Л., Меликян А. А. Игровые задачи управления и поиска. — М.: Наука, 1978. 75. Яновская Е. Б. О существовании значения антагонистических игр с полунеп рерывными функциями выигрыша//Изв. АН СССР. Техн. киберн., 1973. № 6. С. 56 — 60. 76. Зенкевич Н. А., Еськова В. А. Конечные антагонистические игры. Кемерово, Изд-во Кемеровского ГУ, 1989. 77. Зенкевич Н. А., Ширяев В. Д. Игры со многими участниками. Саранск, Изд-во Мордовского ГУ, 1989. 78. Данилов Н. #., Зенкевич Н. А. Неантагонистические игры двух лиц. Кемеровов, Изд-во Кемеровского ГУ, 1990. — 99 с. 79. Петросян Л. А., Гарнаев А. Ю. Игры поиска. СПБ.: Изд-во Санкт-Петер бургского ун-та, 1992. 80. Arunabha Bagchi. Stackelberg Differentai Games in Economic Models. — Springerg — Verlag, 1984. 81. Basar Т., Obder I. Dynamic Noncooperative Game Theory. — London, Acad. Press, 1982. 82. Friedman A. Differential Games. — N. Y., John Wiley, 1971. 83. Owen G. Game Theory. Second Edition. Acad. Press, 1982. 84. Bierman N. S., Fernandez L. Game theory nith economic applications. Addison — Wesley Publishing Company, INC, USA, 1993. 85. Brams S. J. Theory of Moves. Cambridge University Press, 1994. 86. Fudenberg D., Tirole J. Game theory. MIT Press, Cambridge, Massachusetts, London, England. 1992. 87. Giblons Л. Game theory for applied economists. Princeton University Press, Princeton, New gersey, 1992. 88. Harsanyi J. C, Selten R. A. General Theory of Eguilibrium Selection in Games. The MIT Press, Cambridge, Massachusetts, London, England. 1989. 89. Myerson R. B. Game Theory. Analysis of Conflict. Harvard University Press. Cambridge, Massachusetts, London, England, 1991. 90. Petrosjan L. A. Differential Games of Pursuit. World Scientific Publishing Co. Pte Ltd. London, Singapore, 1993. 91. Van Damme, EES. Stability and Perfection of Nash Eguilibria. Springer — Verbag, Berlin, №. 9. 1991. 92. WeibullJ. W. Evolutionary Game Theory. MIT Press, Cambridge, Massachusetts, London, England. 1995. Специальная г) справочники и обзоры 93. Теория игр. Аннотированный указатель публикаций по 1968 г. — Л.: Наука, 1976. 94. Теория игр. Аннотированный указатель публикаций отечественной и зару бежной литературы за 1969 — 1974 гг. — Л.: Наука, 1980. 298
95. Воробьев Н. Н. Современное состояние теории игр//Успехи мат. наук, 1970. 25. № 2. С. 81 — 140. 96. Воробьев Н. Н. Бескоалиционные игры/В кн.: Проблемы кибернетики. Вып. 33. М., 1978. С. 69 — 90. 97. Петросян Л. А., Томский Г. В. Динамические игры//Изв. АН СССР. Техн. киберн. № 2. 1983. С. 33 — 50. 98. Прохоров Ю. В., Рязанов Ю. А. Теория вероятностей. Основные понятия. Предельные теоремы. Случайные процессы. — М.: Наука, 1967. 99. Соболев А. И. Кооперативные игры. — Проблемы кибернетики. Вып. 39. М., 1982. С. 201 — 222. 100. Тынянский Н. Т., Жуковский В. И. Дифференциальные игры с ненулевой суммой (бескоалиционный вариант)/ В кн.: Итоги науки и техники: Математический анализ. — М.: ВИНИТИ, 1977. Т. 15. С. 199 — 266. 101. Тынянский Н. Г., Жуковский В. И. Дифференциальные игры с ненулевой суммой (кооперативный вариант)/В кн.: Итоги науки и техники: Математический анализ. — М.: ВИНИТИ, 1979. Т. 17. С. 3 — 112. 102. Яновская Е. Б. Бесконечные антагонистические игры/В кн.: Теория вероят ностей. Математическая статистика. Математическая кибернетика. Т. 10. М., 1972. С. 75 — 106. 103. Яновская Е. Б. Антагонистические игры/В кн.: Проблемы кибернетики. Вып. 34. — М.: Наука, 1978. С. 221 — 246. 104. Дифференциальные игры: Указатель русской и иностранной литературы за 1968 — 1974 гг. Свердловск: Уральск, научн. центр, 1978. 105. Дифференциальные игры со многими участниками: Указатель литературы за 1968 — 1983 гг. — Русе: НРБ, 1985. д) сборники статей О . Матричные игры/Ред. Н. Н. Воробьев. — М.: Физматгиз, 1961. С2. Применение теории игр в военном деле/Ред. В. О. Ашкенази. — М.: Сов. радио, 1961. СЗ. Бесконечные антагонистические игры/Ред. Н. Н. Воробьев. — М.: Физмат гиз, 1963. С4. Позиционные игры/Ред. Н. Н. Воробьев и Н. Н. Врублевская. — М.: Наука, 1967. С5. Теория игр. Доклады на I Всесоюзной конференции по теории игр. Ереван, 1968/Ред. Н. Н. Воробьев. — Ереван: Изд-во АН Арм ССР, 1973. Сб. Успехи теории игр. Труды II Всесоюзной конференции по теории игр. Вильнюс, 1971/Ред. Э. Вилкас. — Вильнюс: Минтае, 1971. С7. Теоретико-игровые вопросы принятия решений: Сб. статей. Ин-т соц.-эк. проблем АН СССР/Ред. Н. Н. Воробьев. — Л.: Наука, 1978. С8. The Shapley value: essays in honor of Lloyd S. Shapley/edited by Alvin E. Roth. Cambridge University Press. — 1988. C9. Game Theory and Applications: vol. 1/edited by Petrosjan L. A., Mazalov V. V. Nova Science Publishers, Inc.; №.9. — 1995. C10. Game Theory and Apphications: vol. 2/edited by Petrosjan L. A., Mazalov V. V. Nova Science Pyblishers, Inc.; № . 9 . — 1996. 299
Использованная литература 1. Айзеке Р. Дифференциальные игры. М., 1967. 2. Воробьев Н. Н. Теория игр для экономистов-кибернетиков. М., 1985. 3. Дюбин Г. Н., Суздаль В. Г. Введение в прикладную теорию игр. М., 1981. 4. Карлин С. Математические методы в теории игр, программировании и эконо мике. М., 1964. 5. Мак-Кинси Дж. Введение в теорию игр. М., 1960. 6. Муяен Э. Теория игр. М., 1985. 7. Оуэн Г. Теория игр. М., 1971. 8. Петросян JI. А. Дифференциальные игры преследования. Л., 1977. 9. Коваленко А. А. Сборник задач по теории игр. Львов, 1974. 10. Морозов В. В., Сухарев А. Г., Федоров В. В. Исследование операций в задачах и упражнениях. М., 1986. 11. Ашманов С. А. Линейное программирование. М., 1981. 12. Воробьев Н. Н. Основы теории игр. Бескоалиционные игры. М., 1984. 13. Гейл Д. Теория линейных экономических моделей. М., 1963. 14. Льюис Р., Райфа X. Игры и решения. М., 1961. 15. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функциональ ного анализа. М., 1981. 16. Партхасаратхи Т., Рагхаван Т. Некоторые вопросы теории игр двух лиц. М., 1974. 17. Петросян Л. А., Данилов Н. Н. Кооперативные дифференциальные игры и их приложения. Томск, 1985. 18. Петросян Л. А., Захаров В. В. Введение в математическую экологию. Л., 1986. 19. Петросян Л. А., Зенкевич Н. А. Оптимальный поиск в условиях конфликта. Л., 1987. 20. Петросян Л. А., Томский Г. В. Геометрия простого преследования. 21. Рокафеллар Р. Выпуклый анализ. — М.: Мир. 1973. 22. Садовский А. Л. Монотонный итеративный алгоритм решения матричных ИГР//ДАН СССР, 1978. 238. № 3. С. 538—540. 23. Сансоне Дж. Обыкновенные дифференциальные уравнения. М., 1954. 24. Феллер В. Введение в теорию вероятностей и ее приложения. Т. 1, 2. М., 1984. 25. Ху Т. Целочисленное программирование и потоки в сетях. М., 1974. 26. Owen G. Game Theory. Second Edition. Acad, Press, 1982.
Учебное издание Петросян Леон Аганесович, Зенкевич Николай Анатольевич, Семина Елена Александровна ТЕОРИЯ ИГР
Редактор Яковлева Ж. И. Художественный редактор Иванова Ю. Э. Художник Орлова М. О. Технический редактор Романова В, М. Корректор Кожуткина В. В. Оператор Новоселова В. Н. ЛР № 010146 or 25.12.96 ЛР № 065329 от 06.08.97 Изд. № ФМ-960 Сдано в набор 09.02.93. Подп. в печать 28 10.97 Формат 60х90'/|6- ByMaia офс. № 1. Гарни1ура Литературная Печать офсетная. Объем 18,62 уел печ. л , 18,87 усл. кр -отт., 17,34. уч.-изд. л. Тираж 10000 экз. Заказ № 1699 Издательство «Высшая школа», 101430, Москва, ГСП-4, Неглинная ул., д. 29/14 Набрано на персональном компьютере издательства ООО «Книжный дом «Университет», 117234, Москва, Воробьевы юры, ГЗ МГУ, Сектор Д, комн. 4 Тел.' 938-21-84, 939-45-81 Отпечатано в тиишрафии издательства «Дом печати» 432601, I. Ульяновск, ул. Гончарова, 14