Минимакс фон Неймана
—1.20—
Теорема, которую мы сейчас докажем, встречается в литературе в разных ипостасях. В теории игр с нулевой суммой используется её частный билинейный случай (следующий из идей линейного программирования). В оптимизации она фигурирует в части характеризации седловых точек функции Лагранжа в задачах выпуклой оптимизации. С другой стороны, вывести её можно из топологических соображений – например, из теоремы Какутани о неподвижной точке 1 .
Следуя статье Б. Френкина в матпросвещении, докажем теорему для класса функций, квазивыпуклых по одному аргументу и квазивогнутых по другому. Будем говорить, что функция \(f : U \to \mathbb{R}\), определённая на выпуклом подмножестве \(U \subset \mathbb{R}^n\), квазивыпукла, если \[ f(tx + (1-t)y) \le \max\{f(x), f(y)\} \quad \forall~ x, y \in U, t \in [0,1]. \]
Класс квазивыпуклых функций включает выпуклые функции, монотонные и многие другие. Аналогичным образом, функция \(f : U \to \mathbb{R}\) называется квазивогнутой, если \[ f(tx + (1-t)y) \ge \max\{f(x), f(y)\} \quad \forall~ x, y \in U, t \in [0,1]. \]
Теорема [von Neumann, 1928]. Пусть функция \(h(x,y)\) двух векторных аргументов определена на произведении \(U_x \times U_y\) выпуклых компактов. Пусть \(h\) квазивогнута по \(x\), квазивыпукла по \(y\), и непрерывна по совокупности аргументов. Тогда \[ \max_{x} \min_{y} h(x,y) = \min_{y} \max_{x} h(x,y). \]
Доказательство. Читатель не должен быть удивлён, что одна половина теоремы совсем простая. А именно, неравенство “максимин не больше минимакса” верно безо всяких предпосылок всегда 2 . Доказать нужно лишь то, что максимин не меньше минимакса.
Пусть \(x = (x_1, x_2, \ldots, x_n), y = (y_1, y_2, \ldots, y_m)\). Можно проверить, что функции \[ h’(x_2, \ldots, x_n, y_2, \ldots, y_m) = \max_{x_1} \min_{y_1} h(x,y), \] \[ h’’ (x_2, \ldots, x_n, y_2, \ldots, y_m) = \min_{y_1} \max_{x_1} h(x,y) \] удовлетворяют предпосылкам теоремы: квазивогнутость по первой группе переменных, квазивыпуклость по второй группе переменных, непрерывность по совокупности переменных. Если мы докажем равенство \(h’ = h’’\), то по индукции мы докажем и всю теорему. Для целей доказательства \(h’ = h’’\), мы можем фиксировать значения переменных \(x_2, \ldots, x_n, y_2, \ldots, y_m\) и полагать \(h\) функцией лишь \(x_1\) и \(y_1\) (у которых я буду опускать индекс и писать просто \(x\), \(y\)).
Для фиксированного \(x\) посмотрим на множество всех \(y\) при которых \(h(x,y)\) достигает минимума по \(y\). Из непрерывности \(h\) следует, что это множество непусто и замкнуто, а из квазивыпуклости – что оно выпукло. Тем самым, оно есть отрезок \([l(x), r(x)]\) (быть может, с совпадающими концами). Аналогично, если мы фиксируем \(y\), то множество значений \(x\) при которых \(h(x,y)\) достигает максимума по \(x\), есть отрезок \([L(y), R(y)]\). Проверим, что функция \(l(x)\) полунепрерывна снизу. По определению это означает, что из \(x \to x_0\), \(l(x) \to z\) следует \(z \ge l(x_0)\). Итак, пусть \(x \to x_0\), \(l(x) \to z\). Тогда \(h(x, l(x)) \to h(x_0,z)\). С другой стороны, \(h(x, l(x)) = \min\limits_{y} h(x,y)\) – непрерывная функция аргумента \(x\), поэтому \(h(x_0,z) = h(x_0, l(x_0))\), откуда \(z \ge l(x_0)\). Аналогично можно показать, что \(L(y)\) полунепрерывна снизу, а \(r(x), R(y)\) полунепрерывны сверху.
Для каждого \(x\) рассмотрим объединение \[ \bigcup_{y \in [l(x), r(x)]} [L(y), R(y)]. \] Из полунепрерывности \(L, R\) мы выведем, что это объединение – один сплошной отрезок. Левая граница объединения достигается из полунепрерывности \(L\), правая – из полунепрерывности \(R\). Предположим, существует число \(x’\), не принадлежащее объединению, но слева и справа от которого есть точки объединения. Точки \(y \in [l(x), r(x)]\) разбиваются на два класса: для которых \([L(y), R(y)]\) лежит слева от \(x’\), и для которых он лежит справа. Найдём такую точку \(y \in [l(x), r(x)]\), в любой окрестности которой встречаются оба класса. Из полунепрерывности \(l\) тогда следует, что \(L(y) \le x’\), из полунепрерывности \(R\) – что \(R(y) \ge x’\), но тогда \(x’ \in [L(y), R(y)]\), противоречие с предположением. Поэтому \[ \bigcup_{y \in [l(x), r(x)]} [L(y), R(y)] = [\lambda(x), \rho(x)]. \]
Из полунепрерывности \(l,r,L,R\) можно вывести, что \(\lambda(x)\) полунепрерывна снизу, а \(\rho(x)\) – сверху. Рассуждая, как в предыдущем абзаце, найдём \(x_0\) такое, что \(x_0 \in [\lambda(x_0), \rho(x_0)]\). По определению отрезка \([\lambda(x_0), \rho(x_0)]\) это означает, что существует такой \(y_0\), что точка \((x_0,y_0)\) является точкой минимума по \(y\) и точкой максимума по \(x\), т.е. седловой точкой функции \(h\). Тогда \[ \max_{x} \min_{y} h(x,y) \ge h(x_0,y_0) \ge \min_{y} \max_{x} h(x,y), \] и теорема доказана. \(\square\)
—1.21*—
Френкин замечает в своей статье, что доказательство теоремы Хана–Банаха может быть проведено по той же схеме. Воспроизведу это рассуждение здесь.
Для начала можно вспомнить теорему об отделимости, которая нам понадобилась в лемме Фаркаша (—1.18—). Смысл её такой: если точка не принадлежит замкнутому выпуклому множеству, то можно их разделить гиперплоскостью. В том наброске, который был предложен в прошлой лекции, использовались существенно два следующих свойства пространства \(\mathbb{R}^n\):
- евклидова структура (понятие перпендикулярности);
- конечномерность, которая позволяла провести аргумент с компактностью.
Сейчас мы откажемся от обоих предположений. Для начала нам придётся ознакомиться с парой понятий функционального анализа.
Мы будем работать в вещественном векторном пространстве \(V\) – это сущность, состоящая из векторов, которые можно складывать, вычитать, и умножать на (вещественные) числа. Важное отличие нашего общего случая от модельного случая \(\mathbb{R}^n\) состоит в том, что теорема наиболее интересна для бесконечномерных векторных пространств (но содержательна для любых). Бесконечномерность означает, что в нашем пространстве не существует конечного базиса, или, эквивалентно, можно найти бесконечную серию из линейно независимых 3 векторов.
Отображение \(f: V \to \mathbb{R}\) называется линейным функционалом, если \(f(\alpha x + \beta y) = \alpha f(x) + \beta f(y)\) для любых \(x,y \in V, \alpha, \beta \in \mathbb{R}\). Отображение \(p: V \to \mathbb{R}\) называется выпуклым функционалом, если \(p(\alpha x + (1-\alpha) y) \ge \alpha p(x) + (1-\alpha) p(y)\) для любых \(x,y \in V, \alpha \in \mathbb{R}\), а также \(p(\alpha x) = \alpha p(x)\) для любых \(x \in V, \alpha \in \mathbb{R}_{\ge 0}\).
Теорема [Hahn, 1927; Banach, 1929]. Пусть на вещественном линейном пространстве \(V\) задан выпуклый функционал \(p\), а на некотором его подпространстве \(L \subset V\) – линейный функционал \(f\), подчинённый условию \[ f(x) \le p(x) \quad \forall x\in L. \] Тогда можно продолжить \(f\) до линейного функционала на всём пространстве \(V\) с сохранением неравенства \(f \le p\).
Доказательство. Теорема доказывается по индукции. Имея функционал на собственном подпространстве \(L\), мы продолжим его на подпространство “на единицу большей размерности”. Эта фраза хоть и формально бессмысленна (потому что размерности у нас бесконечные), но интуицию она передаёт верно: мы перейдём от \(L\) к \(L’ = L \oplus \langle v \rangle = \{x + \alpha v ~|~ x \in L, \alpha \in \mathbb{R}\}\), где \(v \in V \setminus L\). Для начала разберёмся с этим “индукционным шагом”, а потом я поясню, что я на самом деле понимаю под “индукцией”.
Функционал \(f\) уже определён на \(L\), и чтобы определить его на \(L’\), нам нужно задать лишь одно число \(f(v)\). Тогда по линейности \(f\) продолжится на \(L’\). Наша задача – выбрать это число \(f(v) = z\) удачно, чтобы неравенство \(f \le p\) выполнялось на \(L’\). Предположим, не существует удачного выбора \(z \in \mathbb{R}\). Тогда для каждого \(z\) отметим непустое множество \(B_z\) всех точек \(x \in L’\), в которых неравенство \(f \le p\) нарушается. В силу выпуклости функционала \(p - f\) множество \(B_z\) выпуклое. При этом оно не пересекается с \(L\). Поэтому оно лежит “по одну сторону” от “гиперплоскости” \(L \subseteq L’\). Формально этот аргумент проводится так: пусть линейный функционал \(\ell : L’ to \mathbb{R}\) определён как \(\ell(x + \alpha v) = \alpha, x \in L, \alpha \in \mathbb{R}\). Если \(B_z\) имеет точки “по обе стороны” от \(L\), то есть точка \(y_+ \in B_z, \ell(y_+) > 0\), и есть точка \(y_- \in B_z, \ell(y_-) < 0\). Поэтому \(y_+ = x_+ + \alpha_+ v, \alpha_+ >0, y_- = x_- + \alpha_- v, \alpha_- <0\). Тогда из выпуклости следует что весь отрезок \([y_+, y_-] = \{t y_+ + (1-t) y_- ~|~ t\in [0,1]\}\) лежит в \(B_z\). Заметим, что \[ t y_+ + (1-t) y_- = \underbrace{(t x_+ + (1-t) x_-)}_{\in L} + (t \alpha_+ + (1-t) \alpha_-) v. \] Подбирая \(t\), чтобы \(t \alpha_+ + (1-t) \alpha_- = 0\), мы найдём точку в \(B_z \cap L\), которой существовать не может. Тем самым, все числа \(z \in \mathbb{R}\) разбиваются на два класса, в зависимости от того, с какой стороны от \(L\) лежит \(B_z\). Оба класса непустые (разным классам принадлежат числа \(z > p(v)\) и \(z < -p(-v)\)). Можно проверить, что оба класса – открытые подмножества \(\mathbb{R}\) (нестрогое неравенство \(f \le p\) сохраняется при предельном переходе по \(z\)). Тем самым, вещественная ось оказалась разбита на два непустых открытых подмножества. Это невозможно (на топологическом языке: \(\mathbb{R}\) связно). “Индукционный шаг” доказан.
Неформально выражаясь, мы бы хотели итерировать процедуру это индукционного шага, чтобы доопределять \(f\) на всё более широких подпространствах, пока наконец не определим его на всём \(V\). Плохая новость состоит в том, что ни за конечное, ни за счётное число шагов мы не исчерпаем всё пространство \(V\), вообще говоря 4 . Нам нужно сделать ещё больше шагов! В такой пошаговой постановке этот процесс формализовать нельзя. Нам придётся прибегнуть к трансфинитной индукции, которая по существу эквивалентна аксиоме выбора. Заметим, что если мы удачно определили \(f\) на цепочке вложенных пространств (согласованным образом), то мы удачно его определили и на объединении этих подпространств. По модулю аксиомы выбора, этого оказывается достаточно, чтобы доопределить \(f\) на всём \(V\).
Лемма [Zorn, 1935] 5 . Если в частично упорядоченном множестве любая цепь имеет верхнюю грань, то найдётся максимальный элемент.
Организуем частично упорядоченное множество, элементами которого будут пары (M, g), состоящие из подпространства \(L \subseteq M \subseteq V\) и линейного функционала \(g : M \to \mathbb{R}\), продолжающего \(f\mid_L\), и удовлетворяющего \(g \le p\) на всём \(M\). Будем говорить, что \( (M, g) \prec (M’, g’)\), если \(M \subseteq M’\) и \(g’\mid_M = g\). Если у нас есть цепь (линейно упорядоченное семейство пар \((M_\lambda, g_\lambda)\)), то в качестве верхней грани можно взять пару из \(M = \bigcup\limits_\lambda M_\lambda\), и функционала \(g\), определённого на \(M\) очевидным образом (согласованным со всеми \(g_\lambda\)). Посылки леммы Цорна выполняются, поэтому найдётся некая максимальная пара \((M, g)\). Максимальность означает, что не существует пары, превосходящей \((M, g)\) в терминах нашего порядка. Однако если \(M \neq V\), то конструкция нашего “индукционного шага” позволила бы нам найти такую превосходящую пару. Значит, \(M = V\), и мы нашли функционал \(g\), продолжающий \(f\), как и хотели. \(\square\)
Завершу я это обсуждение (и всю первую половину курса) неформальным комментарием о том, почему теорема Хана–Банаха – это по сути та же теорема об отделимости, только очень общая. Представим, что \(L\) одномерно, и мы нарисовали график функционалов \(f\), \(p\) в пространстве \(V \times \mathbb{R}\). График \(p\) есть множество \(\{(x,p(x)) ~ | ~ x \in V\} \subset V \times \mathbb{R}\), а график \(f\) – множество \(\{(x,p(x)) ~ | ~ x\in L \} \subset V \times \mathbb{R}\). Пересечём оба графика “гиперплоскостью” \( H = V \times \{1\} \subset V \times \mathbb{R}\) и посмотрим на картинку, получившуюся в пересечении. Пересечение с графиком \(p\) даст некое выпуклое множество в \(H\), а пересечение с графиком \(f\) – одну точку, не лежащую в этом множестве (здесь мы предполагаем, что функционал \(f\) ненулевой). Тогда продолжение Хана–Банаха даст нам разделяющую гиперплоскость в \(H\). Более того, более-менее любую пару “выпуклое множество и точка снаружи” в пересечении с \(H\) можно получить, подбирая \(p\) и \(f\) соответствующим образом. В этом смысле теорема Хана–Банаха эквивалентна некой достаточно общей теореме отделимости (которую иногда называют теоремой Мазура).
-
Я надеюсь, мы это обсудим во второй части курса.
↩ -
Как пишет Френкин: "самый длинный среди самых коротких по шеренгам не длиннее, чем самый короткий среди самых длинных по колоннам".
↩ -
Семейство (возможно, бесконечное) векторов называется линейно независимым, если не существует нетривиальной линейной комбинации конечного поднабора, равной нулю.
↩ -
При дополнительных предположениях счётного числа шагов может хватить, и тогда кошмара аксиомы выбора можно избежать. Пример такого предположения: сепарабельность V в какой-то нормированной топологии.
↩ -
Кажется, она была известна Куратовскому ещё в 1922-м году.
↩