Вы находитесь на странице: 1из 476

УДК 512.83+519.

6
ББК 22.143
Т 93

Т ы р т ы ш н и к о в Е. Е. Матричный анализ и линейная ал-


гебра. — М.: ФИЗМАТЛИТ, 2007. — 480 с. — ISBN 978-5-9221-0778-5.
В книге излагаются основы матричного анализа, линейной алгебры
и аналитической геометрии, при этом раскрываются глубокие связи
предмета с другими разделами математики и дается представление
о современных тенденциях его развития и приложениях к задачам
численного анализа.
Для студентов и преподавателей факультетов прикладной матема-
тики, математики и механики, физических и инженерных специально-
стей, а также лиц, профессионально применяющих методы матричного
анализа и линейной алгебры.
Рекомендовано Министерством образования и науки Российской
Федерации в качестве учебного пособия для студентов высших учеб-
ных заведений, обучающихся по направлениям подготовки «Математи-
ка», «Прикладная математика и информатика».


c ФИЗМАТЛИТ, 2007
ISBN 978-5-9221-0778-5 
c Е. Е. Тыртышников, 2007
ОГЛАВЛЕНИЕ

Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Лекция 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.1. Линейные отображения и матрицы . . . . . . . . . . . . . . . . . . . 23
1.2. Умножение матриц . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.3. Ассоциативность умножения матриц . . . . . . . . . . . . . . . . . . 24
1.4. Некоммутативность умножения матриц . . . . . . . . . . . . . . . . 25
1.5. Сложение матриц и умножение на число . . . . . . . . . . . . . . . 25
1.6. Умножение блочных матриц . . . . . . . . . . . . . . . . . . . . . . . . 25
1.7. Вычислительный аспект умножения матриц. . . . . . . . . . . . . 26
1.8. Хороша ли программа? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.9. Метод Винограда . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.10. Метод Штрассена . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.11. Рекурсия для (n × n)-матриц. . . . . . . . . . . . . . . . . . . . . . . . 28

Лекция 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1. Множества и элементы . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2. Отображения, функции, операторы . . . . . . . . . . . . . . . . . . . 31
2.3. Алгебраические операции . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.4. Ассоциативность и скобки . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.5. Ассоциативность при умножении матриц . . . . . . . . . . . . . . . 33
2.6. Группы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7. Примеры абелевых групп. . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.8. Группа невырожденных диагональных матриц . . . . . . . . . . . 34
2.9. Группа невырожденных треугольных матриц . . . . . . . . . . . . 35
2.10. Подгруппы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4 Оглавление

2.11. Степени элемента . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36


2.12. Циклические группы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Лекция 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1. Система линейных алгебраических уравнений . . . . . . . . . . . 37
3.2. Линейные комбинации . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3. Линейная зависимость . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4. Линейная независимость . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5. Транзитивность линейной зависимости . . . . . . . . . . . . . . . . 40
3.6. Монотонность числа линейно независимых векторов . . . . . . 40
3.7. Базис и размерность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.8. Дополнение до базиса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.9. Существование базиса. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.10. Совместность системы линейных алгебраических уравнений 43

Лекция 4 . . . . . . . . . . . . . . . . . . . . . . .......... . . . . . . . 44
4.1. Индикатор линейной зависимости . . . .......... . . . . . . . 44
4.2. Подстановки и перестановки . . . . . . . .......... . . . . . . . 44
4.3. Циклы и транспозиции . . . . . . . . . . . .......... . . . . . . . 46
4.4. Четность подстановки . . . . . . . . . . . . .......... . . . . . . . 47
4.5. Единственность индикатора линейной зависимости . . . . . . . 49
4.6. Определитель . . . . . . . . . . . . . . . . . . .......... . . . . . . . 50

Лекция 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.1. Определитель транспонированной матрицы . . . . . . . . . . . . . 52
5.2. Определитель как функция столбцов (строк) матрицы . . . . . 53
5.3. Существование индикатора линейной зависимости. . . . . . . . 54
5.4. Подматрицы и миноры. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.5. Замечание о подстановках . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.6. Разбиение множества подстановок на подмножества . . . . . . 56
5.7. Теорема Лапласа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.8. Определитель блочно-треугольной матрицы . . . . . . . . . . . . . 59

Лекция 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.1. Обратная матрица . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Оглавление 5

6.2. Критерий обратимости матрицы. . . . . . . . . . . . . . . . . . . . . . 61


6.3. Обращение и транспонирование. . . . . . . . . . . . . . . . . . . . . . 62
6.4. Группа обратимых матриц . . . . . . . . . . . . . . . . . . . . . . . . . . 62
6.5. Обращение невырожденной матрицы . . . . . . . . . . . . . . . . . . 63
6.6. Правило Крамера . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6.7. Определитель произведения матриц. . . . . . . . . . . . . . . . . . . 64
6.8. Обратимость и невырожденность . . . . . . . . . . . . . . . . . . . . . 65

Лекция 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.1. Разделение переменных и матрицы . . . . . . . . . . . . . . . . . . . 67
7.2. Скелетное разложение. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.3. Ранг матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.4. Окаймление обратимой подматрицы. . . . . . . . . . . . . . . . . . . 69
7.5. Теорема о базисном миноре . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.6. Ранги и матричные операции. . . . . . . . . . . . . . . . . . . . . . . . 71
7.7. Однородная система линейных алгебраических уравнений . . 73
7.8. Теорема Кронекера–Капелли . . . . . . . . . . . . . . . . . . . . . . . . 75
7.9. Общее решение системы линейных алгебраических уравне-
ний . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.10. Неустойчивость ранга . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

Лекция 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.1. Исключение неизвестных . . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.2. Элементарные матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
8.3. Ступенчатые матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
8.4. Приведение к ступенчатой форме . . . . . . . . . . . . . . . . . . . . 80
8.5. Приведение к диагональной форме . . . . . . . . . . . . . . . . . . . 81
8.6. Эквивалентные матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
8.7. Метод Гаусса и LU -разложение. . . . . . . . . . . . . . . . . . . . . . 82
8.8. LU -разложение и строго регулярные матрицы . . . . . . . . . . . 83

Лекция 9 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
9.1. Метод координат. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
9.2. Направленные отрезки . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
9.3. Отношение эквивалентности . . . . . . . . . . . . . . . . . . . . . . . . 87
9.4. Свободный вектор . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
6 Оглавление

9.5. Линейные операции над векторами . . . . . . . . . . . . . . . . . . . 89


9.6. Координаты вектора . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.7. Изоморфизм и линейная зависимость . . . . . . . . . . . . . . . . . 91
9.8. Коллинеарные и компланарные векторы. . . . . . . . . . . . . . . . 92
9.9. Прямая на плоскости. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
9.10. Плоскость в пространстве . . . . . . . . . . . . . . . . . . . . . . . . . . 94
9.11. Преобразование координат . . . . . . . . . . . . . . . . . . . . . . . . . 95
9.12. Полуплоскости и полупространства . . . . . . . . . . . . . . . . . . . 96

Л е к ц и я 10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
10.1. Скалярное произведение геометрических векторов . . . . . . . . 98
10.2. Скалярное произведение и координаты . . . . . . . . . . . . . . . . 99
10.3. Об обобщениях . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
10.4. Ориентация системы векторов . . . . . . . . . . . . . . . . . . . . . . . 100
10.5. Векторное и смешанное произведения . . . . . . . . . . . . . . . . . 101
10.6. Векторное произведение в декартовых координатах . . . . . . . 103
10.7. Смешанное произведение в декартовых координатах . . . . . . 104
10.8. Нормали к прямой и плоскости . . . . . . . . . . . . . . . . . . . . . . 105
10.9. Расстояние от точки до прямой на плоскости. . . . . . . . . . . . 105
10.10. Расстояние от точки до плоскости . . . . . . . . . . . . . . . . . . . . 106
10.11. Критерии параллельности вектора прямой и плоскости. . . . . 106

Л е к ц и я 11 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
11.1. Линейные пространства. . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
11.2. Примеры бесконечномерных линейных пространств . . . . . . . 110
11.3. Примеры конечномерных линейных пространств . . . . . . . . . 111
11.4. Базис и размерность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
11.5. Подпространства линейного пространства . . . . . . . . . . . . . . 113
11.6. Сумма и пересечение подпространств . . . . . . . . . . . . . . . . . 114

Л е к ц и я 12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
12.1. Разложение по базису . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
12.2. Изоморфизм линейных пространств . . . . . . . . . . . . . . . . . . . 117
12.3. Пространство многочленов . . . . . . . . . . . . . . . . . . . . . . . . . 118
12.4. Прямая сумма подпространств. . . . . . . . . . . . . . . . . . . . . . . 120
Оглавление 7

12.5. Дополнительные пространства и проекции. . . . . . . . . . . . . . 122


12.6. Вычисление подпространства. . . . . . . . . . . . . . . . . . . . . . . . 123

Л е к ц и я 13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
13.1. Линейные многообразия . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
13.2. Аффинные множества . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
13.3. Гиперплоскости . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
13.4. Полупространства . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
13.5. Выпуклые множества . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

Л е к ц и я 14 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
14.1. Комплексные числа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
14.2. Комплексная плоскость . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
14.3. Преобразования плоскости . . . . . . . . . . . . . . . . . . . . . . . . . 135
14.4. Корни из единицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
14.5. Группа корней степени n из единицы . . . . . . . . . . . . . . . . . 138
14.6. Матрицы с комплексными элементами. . . . . . . . . . . . . . . . . 139

Л е к ц и я 15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
15.1. Кольца и поля . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
15.2. Делители нуля . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
15.3. Кольцо вычетов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
15.4. Вложения и изоморфизмы . . . . . . . . . . . . . . . . . . . . . . . . . . 144
15.5. Число элементов в конечном поле . . . . . . . . . . . . . . . . . . . . 145
15.6. Поле частных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

Л е к ц и я 16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
16.1. Линейные пространства над полем . . . . . . . . . . . . . . . . . . . 148
16.2. Многочлены над полем . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
16.3. Кольцо многочленов . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
16.4. Деление с остатком . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
16.5. Наибольший общий делитель . . . . . . . . . . . . . . . . . . . . . . . 153
16.6. Значения многочлена и корни . . . . . . . . . . . . . . . . . . . . . . . 154
16.7. Присоединение корня . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8 Оглавление

Л е к ц и я 17 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
17.1. Комплексные многочлены . . . . . . . . . . . . . . . . . . . . . . . . . . 157
17.2. Последовательности комплексных чисел . . . . . . . . . . . . . . . 157
17.3. Непрерывные функции на комплексной плоскости . . . . . . . . 158
17.4. Свойства модуля многочлена . . . . . . . . . . . . . . . . . . . . . . . . 159
17.5. Основная теорема алгебры. . . . . . . . . . . . . . . . . . . . . . . . . . 160
17.6. Разложение комплексных многочленов. . . . . . . . . . . . . . . . . 161
17.7. Разложение вещественных многочленов. . . . . . . . . . . . . . . . 162

Л е к ц и я 18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
18.1. Формулы Виета . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
18.2. Многочлены от n переменных . . . . . . . . . . . . . . . . . . . . . . . 165
18.3. Лексикографическое упорядочение. . . . . . . . . . . . . . . . . . . . 166
18.4. Симметрические многочлены . . . . . . . . . . . . . . . . . . . . . . . . 167
18.5. Ньютоновы суммы. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

Л е к ц и я 19 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
19.1. Алгебраические многообразия . . . . . . . . . . . . . . . . . . . . . . . 170
19.2. Квадратичные многочлены от двух переменных . . . . . . . . . . 171
19.3. Поворот декартовой системы координат . . . . . . . . . . . . . . . . 171
19.4. Сдвиг декартовой системы координат . . . . . . . . . . . . . . . . . 173
19.5. Эллипс . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
19.6. Гипербола . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
19.7. Парабола . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

Л е к ц и я 20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
20.1. Квадратичные многочлены от трех переменных . . . . . . . . . . 181
20.2. Декартовы системы и ортогональные матрицы . . . . . . . . . . . 181
20.3. Метод вращений . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
20.4. Вложенные подпоследовательности . . . . . . . . . . . . . . . . . . . 184
20.5. Диагонализация в пределе. . . . . . . . . . . . . . . . . . . . . . . . . . 185
20.6. Диагонализация вещественных симметричных матриц . . . . . 186

Л е к ц и я 21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
21.1. Приведенные уравнения поверхности второго порядка . . . . . 189
Оглавление 9

21.2. Эллипсоид . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190


21.3. Однополостный гиперболоид . . . . . . . . . . . . . . . . . . . . . . . . 191
21.4. Линейчатая поверхность . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
21.5. Двуполостный гиперболоид . . . . . . . . . . . . . . . . . . . . . . . . . 193
21.6. Эллиптический конус . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
21.7. Эллиптический параболоид . . . . . . . . . . . . . . . . . . . . . . . . . 193
21.8. Гиперболический параболоид . . . . . . . . . . . . . . . . . . . . . . . . 194
21.9. Цилиндрические поверхности . . . . . . . . . . . . . . . . . . . . . . . 194

Л е к ц и я 22 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
22.1. Нормированное пространство . . . . . . . . . . . . . . . . . . . . . . . 195
22.2. Выпуклые функции и неравенства . . . . . . . . . . . . . . . . . . . . 196
22.3. Неравенства Гёльдера и Минковского . . . . . . . . . . . . . . . . . 197
22.4. Нормы Гёльдера . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
22.5. Зачем нужны нормы?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
22.6. Нормы в бесконечномерном пространстве . . . . . . . . . . . . . . 200
22.7. Метрическое пространство . . . . . . . . . . . . . . . . . . . . . . . . . 201
22.8. Пределы и полнота . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

Л е к ц и я 23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
23.1. Множества в метрическом пространстве . . . . . . . . . . . . . . . 203
23.2. Компактность и непрерывность . . . . . . . . . . . . . . . . . . . . . . 204
23.3. Компактность единичной сферы. . . . . . . . . . . . . . . . . . . . . . 205
23.4. Эквивалентные нормы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
23.5. Компактность замкнутых ограниченных множеств . . . . . . . . 207
23.6. Наилучшие приближения . . . . . . . . . . . . . . . . . . . . . . . . . . 208

Л е к ц и я 24 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
24.1. Евклидово пространство . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
24.2. Унитарное пространство . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
24.3. Билинейные и полуторалинейные формы . . . . . . . . . . . . . . . 211
24.4. Длина вектора . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
24.5. Тождество параллелограмма . . . . . . . . . . . . . . . . . . . . . . . . 213
24.6. Ортогональность векторов . . . . . . . . . . . . . . . . . . . . . . . . . . 215
24.7. Ортогональность множеств . . . . . . . . . . . . . . . . . . . . . . . . . 216
10 Оглавление

24.8. Ортогональная сумма подпространств . . . . . . . . . . . . . . . . . 216

Л е к ц и я 25 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
25.1. Матрица Грама . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
25.2. Скалярное произведение в конечномерном пространстве. . . . 219
25.3. Перпендикуляр и проекция . . . . . . . . . . . . . . . . . . . . . . . . . 220
25.4. Ортогональные системы . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
25.5. Процесс ортогонализации . . . . . . . . . . . . . . . . . . . . . . . . . . 223
25.6. Дополнение до ортогонального базиса . . . . . . . . . . . . . . . . . 224
25.7. Биортогональные системы . . . . . . . . . . . . . . . . . . . . . . . . . . 224
25.8. QR-разложение матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . 225

Л е к ц и я 26 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
26.1. Линейные функционалы . . . . . . . . . . . . . . . . . . . . . . . . . . . 228
26.2. Сопряженное пространство . . . . . . . . . . . . . . . . . . . . . . . . . 229
26.3. Примеры линейных функционалов . . . . . . . . . . . . . . . . . . . . 230
26.4. Размерность дополнительного пространства . . . . . . . . . . . . . 230
26.5. Линейные функционалы и гиперплоскости. . . . . . . . . . . . . . 231
26.6. Опорные гиперплоскости . . . . . . . . . . . . . . . . . . . . . . . . . . . 232

Л е к ц и я 27 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
27.1. Линейные операторы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
27.2. Непрерывность и ограниченность . . . . . . . . . . . . . . . . . . . . 236
27.3. Операторная норма . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
27.4. Матричная норма . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
27.5. Норма Фробениуса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
27.6. Сохранение норм. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240
27.7. Унитарно инвариантные нормы . . . . . . . . . . . . . . . . . . . . . . 241
27.8. Сингулярное разложение матрицы . . . . . . . . . . . . . . . . . . . . 242

Л е к ц и я 28 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
28.1. Матрица линейного оператора . . . . . . . . . . . . . . . . . . . . . . . 245
28.2. Произведение линейных операторов. . . . . . . . . . . . . . . . . . . 246
28.3. Переход к другим базисам. . . . . . . . . . . . . . . . . . . . . . . . . . 247
28.4. Преобразование подобия . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
Оглавление 11

28.5. Инвариантные подпространства . . . . . . . . . . . . . . . . . . . . . . 249


28.6. Ядро и образ линейного оператора. . . . . . . . . . . . . . . . . . . . 250
28.7. Обратный оператор . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
28.8. Ортогональные дополнения ядра и образа . . . . . . . . . . . . . . 252

Л е к ц и я 29 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
29.1. Диагонализуемые матрицы . . . . . . . . . . . . . . . . . . . . . . . . . 254
29.2. Собственные значения и собственные векторы . . . . . . . . . . . 255
29.3. Собственные векторы для различных собственных значений 256
29.4. Характеристическое уравнение . . . . . . . . . . . . . . . . . . . . . . 257
29.5. Алгебраическая кратность собственного значения . . . . . . . . 258
29.6. Характеристический многочлен и подобие . . . . . . . . . . . . . . 258
29.7. Приведение к почти треугольной матрице . . . . . . . . . . . . . . 259
29.8. Матрицы Фробениуса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
29.9. Вычисление характеристического многочлена. . . . . . . . . . . . 261

Л е к ц и я 30 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263
30.1. Одномерные инвариантные подпространства . . . . . . . . . . . . 263
30.2. Геометрическая кратность собственного значения . . . . . . . . 264
30.3. Матричное выражение инвариантности . . . . . . . . . . . . . . . . 264
30.4. Сужение оператора на подпространство . . . . . . . . . . . . . . . . 265
30.5. Инвариантные пространства и сдвиги . . . . . . . . . . . . . . . . . 265
30.6. Треугольная форма матрицы . . . . . . . . . . . . . . . . . . . . . . . . 265
30.7. Спектральный радиус . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266
30.8. Теорема Шура . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
30.9. Делители и подпространства . . . . . . . . . . . . . . . . . . . . . . . . 269

Л е к ц и я 31 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
31.1. Многочлены от матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
31.2. Корневые пространства . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
31.3. Нильпотентные операторы . . . . . . . . . . . . . . . . . . . . . . . . . . 272
31.4. Корневое разложение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272
31.5. Блочно-диагональная форма матрицы . . . . . . . . . . . . . . . . . 273
31.6. Теорема Гамильтона–Кэли . . . . . . . . . . . . . . . . . . . . . . . . . . 274
12 Оглавление

Л е к ц и я 32 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
32.1. Минимальное инвариантное подпространство . . . . . . . . . . . 276
32.2. Жордановы цепочки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
32.3. Жорданова форма матрицы . . . . . . . . . . . . . . . . . . . . . . . . . 277
32.4. Индекс собственного значения. . . . . . . . . . . . . . . . . . . . . . . 278
32.5. Жорданов базис в корневом пространстве . . . . . . . . . . . . . . 279
32.6. Существование и единственность жордановой формы. . . . . . 280
32.7. Инвариантные подпространства для вещественных матриц 281
32.8. Вещественный аналог жордановой формы . . . . . . . . . . . . . . 282
32.9. Вычисление жордановой формы . . . . . . . . . . . . . . . . . . . . . . 283

Л е к ц и я 33 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
33.1. Нормальные матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
33.2. Унитарные матрицы. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
33.3. Матрицы отражения и вращения . . . . . . . . . . . . . . . . . . . . . 288
33.4. Эрмитовы матрицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
33.5. Эрмитово разложение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
33.6. Неотрицательная и положительная определенность . . . . . . . 290
33.7. Квадратный корень . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
33.8. Блочно-диагональная форма вещественной нормальной мат-
рицы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
33.9. Блочно-диагональная форма ортогональной матрицы . . . . . . 292

Л е к ц и я 34 . . . . . . . . . . . . . . . . . . . . . . . . . .... . . . . . . . . . 294
34.1. Матрица Фурье. . . . . . . . . . . . . . . . . . . . . .... . . . . . . . . . 294
34.2. Циркулянтные матрицы. . . . . . . . . . . . . . . .... . . . . . . . . . 295
34.3. Алгебры матриц . . . . . . . . . . . . . . . . . . . . .... . . . . . . . . . 297
34.4. Одновременное приведение к треугольному виду . . . . . . . . . 298
34.5. Быстрое преобразование Фурье . . . . . . . . . .... . . . . . . . . . 299

Л е к ц и я 35 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
35.1. Сингулярные числа и сингулярные векторы . . . . . . . . . . . . . 302
35.2. Полярное разложение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
35.3. Выводы из сингулярного разложения . . . . . . . . . . . . . . . . . . 304
35.4. Сингулярное разложение и решение систем . . . . . . . . . . . . . 305
Оглавление 13

35.5. Метод наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . 305


35.6. Псевдообратная матрица . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
35.7. Наилучшие аппроксимации с понижением ранга . . . . . . . . . 307
35.8. Расстояние до множества вырожденных матриц. . . . . . . . . . 309

Л е к ц и я 36 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
36.1. Квадратичные формы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
36.2. Конгруэнтность . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
36.3. Канонический вид квадратичной формы. . . . . . . . . . . . . . . . 311
36.4. Закон инерции . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
36.5. Эрмитова конгруэнтность . . . . . . . . . . . . . . . . . . . . . . . . . . 313
36.6. Канонический вид пары квадратичных форм . . . . . . . . . . . . 313
36.7. Метод Лагранжа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
36.8. Метод квадратного корня . . . . . . . . . . . . . . . . . . . . . . . . . . 315
36.9. Критерий положительной определенности . . . . . . . . . . . . . . 318

Л е к ц и я 37 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
37.1. Разделение собственных значений эрмитовой матрицы. . . . . 319
37.2. Вариационные свойства собственных значений . . . . . . . . . . 321
37.3. Возмущения собственных значений . . . . . . . . . . . . . . . . . . . 322
37.4. Соотношения разделения. . . . . . . . . . . . . . . . . . . . . . . . . . . 323
37.5. Критерий неотрицательной определенности . . . . . . . . . . . . . 325
37.6. Вариационные свойства сингулярных чисел . . . . . . . . . . . . . 326
37.7. Разделение сингулярных чисел . . . . . . . . . . . . . . . . . . . . . . 327

Л е к ц и я 38 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
38.1. Сопряженный оператор . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
38.2. Матрица сопряженного оператора . . . . . . . . . . . . . . . . . . . . 330
38.3. Нормальный оператор . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330
38.4. Самосопряженный оператор. . . . . . . . . . . . . . . . . . . . . . . . . 331
38.5. Минимизация на подпространствах . . . . . . . . . . . . . . . . . . . 332
38.6. Метод сопряженных градиентов . . . . . . . . . . . . . . . . . . . . . 333
38.7. Двучленные формулы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
14 Оглавление

Л е к ц и я 39 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
39.1. Спектральные задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
39.2. Непрерывность корней многочлена . . . . . . . . . . . . . . . . . . . 336
39.3. Возмущение спектра матрицы . . . . . . . . . . . . . . . . . . . . . . . 339
39.4. Преобразования отражения и вращения . . . . . . . . . . . . . . . . 339
39.5. Приведение к треугольному виду. . . . . . . . . . . . . . . . . . . . . 340
39.6. Приведение к почти треугольному виду . . . . . . . . . . . . . . . . 341
39.7. Приведение к двухдиагональному виду . . . . . . . . . . . . . . . . 341
39.8. Вычисление сингулярных чисел . . . . . . . . . . . . . . . . . . . . . . 342

Л е к ц и я 40 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 344
40.1. Многомерные массивы и матрицы . . . . . . . . . . . . . . . . . . . . 344
40.2. Трехмерные массивы и трилинейные разложения . . . . . . . . . 345
40.3. Сечения трехмерного массива . . . . . . . . . . . . . . . . . . . . . . . 345
40.4. Примеры трилинейных разложений . . . . . . . . . . . . . . . . . . . 346
40.5. Все не так. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
40.6. Эквивалентные трилинейные разложения. . . . . . . . . . . . . . . 348
40.7. Единственность с точностью до эквивалентности. . . . . . . . . 349
40.8. Тензорный ранг и умножение матриц. . . . . . . . . . . . . . . . . . 351

Дополнение к лекции 1 . . . . . . . . . . . . . . . . . . . ... . . 354


D 1.1. Параллельная форма алгоритма . . . . . . . . . . . . . . . . . ... . . 354
D 1.2. Схема сдваивания и параллельное умножение матриц ... . . 354
D 1.3. Матрицы и рекуррентные вычисления . . . . . . . . . . . . ... . . 355
D 1.4. Модели и реальность . . . . . . . . . . . . . . . . . . . . . . . . ... . . 356

Дополнение к лекции 2 . . . . . . . . . ............ . . . 357


D 2.1. Конечные группы . . . . . . . . . . . . . . . . . ............ . . . 357
D 2.2. Смежные классы, нормальные делители, фактор-группы . . . 358
D 2.3. Изоморфизмы групп . . . . . . . . . . . . . . . ............ . . . 358
D 2.4. Гомоморфизмы групп. . . . . . . . . . . . . . . ............ . . . 359
D 2.5. Избыточность в определении группы . . . ............ . . . 360

Д о п о л н е н и е к л е к ц и и 4 . . . . . . . . . . . . . . . . . . . . . . . . 361
D 4.1. Знакопеременная группа . . . . . . . . . . . . . . . . . . . . . . . . . . . 361
Оглавление 15

D 4.2. Подгруппы симметрической группы . . . . . . . . . . . . . . . . . . . 362


D 4.3. Четность без инверсий . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362

Дополнение к л е к ц и и 5 . . . . . . . . . . . . . . . . . . . . . . . . 364
D 5.1. Функциональное доказательство теоремы Лапласа. . . . . . . . 364
D 5.2. Определители с нулевыми членами . . . . . . . . . . . . . . . . . . . 365

Дополнение к л е к ц и и 6 . . . . . . . . . . . . . . . . . . . . . . . . 367
D 6.1. Матрицы с диагональным преобладанием . . . . . . . . . . . . . . 367
D 6.2. Определитель и возмущения . . . . . . . . . . . . . . . . . . . . . . . . 368

Дополнение к л е к ц и и 8 . . . . . . . . . . . . . . . . . . . . . . . . 369
D 8.1. Выбор ведущего элемента . . . . . . . . . . . . . . . . . . . . . . . . . . 369
D 8.2. Вычисление обратной матрицы . . . . . . . . . . . . . . . . . . . . . . 371

Дополнение к л е к ц и и 13 . . . . . . . . . . . . . . . . . . . . . . . 373
D 13.1. Аффинная независимость . . . . . . . . . . . . . . . . . . . . . . . . . . 373
D 13.2. Линейные неравенства и минимизация . . . . . . . . . . . . . . . . 374

Дополнение к л е к ц и и 14 . . . . . . . . . . . . . . . . . . . . . . . 376
D 14.1. Квадратные уравнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
D 14.2. Кубические уравнения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
D 14.3. Уравнения четвертой степени. . . . . . . . . . . . . . . . . . . . . . . . 377

Дополнение к л е к ц и и 16 . . . . . . . . . . . . . . . . . . . . . . . 379
D 16.1. Мультипликативная группа поля вычетов . . . . . . . . . . . . . . 379
D 16.2. Результант . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
D 16.3. Построения циркулем и линейкой . . . . . . . . . . . . . . . . . . . . 381
D 16.4. Конечные расширения полей . . . . . . . . . . . . . . . . . . . . . . . . 383
D 16.5. Круговые многочлены простой степени . . . . . . . . . . . . . . . . 384
D 16.6. Правильные n-угольники . . . . . . . . . . . . . . . . . . . . . . . . . . 386
D 16.7. Эндоморфизмы и автоморфизмы . . . . . . . . . . . . . . . . . . . . . 387
D 16.8. Алгебраические числа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
16 Оглавление

Д о п о л н е н и е к л е к ц и и 17 . . . . . . . . . . . . . . . . . . . . . . . 391
D 17.1. Кратные корни и производные . . . . . . . . . . . . . . . . . . . . . . . 391
D 17.2. Разностные уравнения с постоянными коэффициентами . . . . 392
D 17.3. Поле разложения. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
D 17.4. Корни многочленов над произвольным полем . . . . . . . . . . . . 395

Д о п о л н е н и е к л е к ц и и 18 . . . . . . . . . . . . . . . . . . . . . . . 397
D 18.1. Еще одно доказательство основной теоремы алгебры . . . . . . 397
D 18.2. Нормальные поля и поля разложения . . . . . . . . . . . . . . . . . 398
D 18.3. Радикальные расширения . . . . . . . . . . . . . . . . . . . . . . . . . . 399
D 18.4. Автоморфизмы и расширения . . . . . . . . . . . . . . . . . . . . . . . 400
D 18.5. Расширения Галуа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400
D 18.6. Промежуточные поля и подгруппы . . . . . . . . . . . . . . . . . . . 401
D 18.7. Разрешимость алгебраических уравнений . . . . . . . . . . . . . . 402
D 18.8. Нормальные делители симметрической группы . . . . . . . . . . 403
D 18.9. Группы при построении правильных многоугольников . . . . . 404

Д о п о л н е н и е к л е к ц и и 19 . . . . . . . . . . . . . . . . . . . . . . . 406
D 19.1. Классификация линий второго порядка . . . . . . . . . . . . . . . . 406
D 19.2. Инварианты линии второго порядка. . . . . . . . . . . . . . . . . . . 406
D 19.3. Определение типа линии . . . . . . . . . . . . . . . . . . . . . . . . . . . 407

Д о п о л н е н и е к л е к ц и и 22 . . . . . . . . . . . . . . . . . . . . . . . 409
D 22.1. Пополнение пространства . . . . . . . . . . . . . . . . . . . . . . . . . . 409

Д о п о л н е н и е к л е к ц и и 23 . . . . . . . . . . . . . . . . . . . . . . . 411
D 23.1. Подпространства и замкнутость . . . . . . . . . . . . . . . . . . . . . 411
D 23.2. Единичная сфера в бесконечномерном пространстве. . . . . . . 411
D 23.3. Геометрические свойства единичных шаров . . . . . . . . . . . . . 412
D 23.4. Топологические пространства . . . . . . . . . . . . . . . . . . . . . . . 413
D 23.5. Компактные множества в топологическом пространстве . . . . 414

Д о п о л н е н и е к л е к ц и и 25 . . . . . . . . . . . . . . . . . . . . . . . 416
D 25.1. Потеря ортогональности при вычислениях . . . . . . . . . . . . . . 416
Оглавление 17

D 25.2. Обобщение теоремы о перпендикуляре. . . . . . . . . . . . . . . . . 417

Дополнение к л е к ц и и 26 . . . . . . . . . . . . . . . . . . . . . . . 419
D 26.1. Строение выпуклых множеств . . . . . . . . . . . . . . . . . . . . . . . 419
D 26.2. Линейные неравенства . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
D 26.3. Поиск точки в пересечении гиперплоскостей . . . . . . . . . . . . 421
D 26.4. Линейные функционалы и скалярные произведения . . . . . . . 422
D 26.5. Дуальные нормы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423

Дополнение к л е к ц и и 27 . . . . . . . . . . . . . . . . . . . . . . . 426
D 27.1. Выбор базиса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
D 27.2. Базисы в пространстве многочленов . . . . . . . . . . . . . . . . . . 427

Дополнение к л е к ц и и 32 . . . . . . . . . . . . . . . . . . . . . . . 429
D 32.1. Минимальный многочлен матрицы . . . . . . . . . . . . . . . . . . . 429
D 32.2. Жорданова форма: прямое доказательство по индукции . . . . 430

Дополнение к л е к ц и и 34 . . . . . . . . . . . . . . . . . . . . . . . 432
D 34.1. Свертки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432
D 34.2. Сложность преобразования Фурье . . . . . . . . . . . . . . . . . . . . 433
D 34.3. Быстрые приближенные вычисления . . . . . . . . . . . . . . . . . . 434

Дополнение к л е к ц и и 35 . . . . . . . . . . . . . . . . . . . . . . . 437
D 35.1. Общий вид унитарно инвариантных норм . . . . . . . . . . . . . . 437

Дополнение к л е к ц и и 36 . . . . . . . . . . . . . . . . . . . . . . . 438
D 36.1. Гиперповерхности второго порядка . . . . . . . . . . . . . . . . . . . 438
D 36.2. Геометрические свойства гиперповерхностей . . . . . . . . . . . . 439

Дополнение к л е к ц и и 37 . . . . . . . . . . . . . . . . . . . . . . . 442
D 37.1. Эрмитово возмущение заданного ранга . . . . . . . . . . . . . . . . 442
D 37.2. Собственные значения и сингулярные числа . . . . . . . . . . . . 443
D 37.3. Мажоризация и неравенства . . . . . . . . . . . . . . . . . . . . . . . . 444
18 Оглавление

Д о п о л н е н и е к л е к ц и и 38 . . . . . . . . . . . . . . . . . . . . . . . 448
D 38.1. Число итераций. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 448
D 38.2. Как убывают нормы невязок . . . . . . . . . . . . . . . . . . . . . . . . 448
D 38.3. Оценка с помощью многочленов Чебышёва . . . . . . . . . . . . . 449
D 38.4. Предобусловленный метод сопряженных градиентов. . . . . . . 451
D 38.5. Обобщения метода сопряженных градиентов . . . . . . . . . . . . 452

Д о п о л н е н и е к л е к ц и и 39 . . . . . . . . . . . . . . . . . . . . . . . 456
D 39.1. Локализация собственных значений . . . . . . . . . . . . . . . . . . 456
D 39.2. Расстояние между спектрами нормальных матриц . . . . . . . . 457

Д о п о л н е н и е к л е к ц и и 40 . . . . . . . . . . . . . . . . . . . . . . . 460
D 40.1. Преобразования массивов с помощью матриц . . . . . . . . . . . 460
D 40.2. Ортогональные преобразования массивов. . . . . . . . . . . . . . . 460
D 40.3. Разложение Таккера . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461
Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
Предметный указатель . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466
Предисловие

Данная книга возникла в ходе чтения лекций студентам пер-


вого курса факультета вычислительной математики и киберне-
тики Московского государственного университета им. М. В. Ло-
моносова. Ее главы появлялись почти синхронно с лекциями
и становились доступными студентам благодаря интернету. По-
сле этого первоначальный текст постоянно менялся — помимо
исправления опечаток, автору хотелось найти такой стиль из-
ложения, который позволил бы получить необходимые основы
предмета и в то же время дал бы возможность наиболее заин-
тересованным читателям пойти дальше, иногда очень далеко —
вплоть до обсуждения нетривиальных приложений, которыми
очень сильна линейная алгебра.
Данный замысел потребовал определенной структуры от кни-
ги. Она содержит несколько пластов. Прежде всего это основ-
ной, обязательный материал — его можно читать без ссылок
на дополнения, а многие читатели могут им и ограничиться.
Цель автора по отношению к таким читателям — оставить у
них ощущение красивой и простой науки, каковой и является
линейная алгебра. Но меньше всего хотелось бы оставить впечат-
ление науки, завершившей свое развитие. Для этого и написаны
дополнения, в которых линейная алгебра предстает уже не очень
простой наукой, ведущей своими методами к интересным и часто
знаменитым результатам в других разделах математики и ее
приложениях.
Честолюбивый читатель, возможно, будет стремиться про-
честь книгу от корки до корки. Автор должен предупредить,
что это может потребовать больших усилий и, вполне возможно,
к каким-то местам лучше вернуться после завершения первого
года обучения. Везде указано, какой материал считается допол-
нительным. Более того, дополнительный материал также имеет
два уровня — то, что набрано мелким шрифтом, должно считать-
ся «более дополнительным».
О том, чем данная книга отличается от традиционных учеб-
ников, можно судить уже по названию: понятия и теоремы
линейной алгебры во многих случаях представлены читателю
как факты матричного анализа. В какой-то степени это делает
20 Предисловие

изложение «менее абстрактным», позволяет освободиться от не


очень существенных деталей и одновременно познакомить чита-
теля с матричным анализом как относительно самостоятельной
дисциплиной. Курс естественным образом включает в себя также
основы аналитической геометрии.
Отметим другие особенности книги и причины, по которым
она может оказаться полезной.
Во-первых, в определенной степени книгу можно рассматри-
вать как расширенный конспект лекций. Отсюда лаконичность,
свойственная лекциям. По этой же причине в книге нет «длин-
ных» ссылок и присутствуют неизбежные в лекциях напомина-
ния и повторения.
Во-вторых, изложение совершенно классических вопросов
обычно имеет продолжение в дополнительной части, откуда вид-
но, что изучаемая нами наука является живой и прочно свя-
занной со многими другими разделами математики. Как только
появляется возможность сказать об особо впечатляющих дости-
жениях, я это делаю. Но в каждом таком случае считаю важ-
ным избегать чисто декларативного описания — если уж что-то
обсуждается, то всегда с ясными формулировками и полными
(почти всегда) доказательствами.
В-третьих, в книге идет одновременное развитие нескольких
тем — подобно тому, как это бывает в полифоническом музы-
кальном произведении. Главная тема, конечно, — это все, что
связано с концепцией линейной зависимости векторов. В ка-
честве побочной (хотя и не менее значимой) темы в самом
начале возникает понятие алгебраической операции и группы.
Эта тема впоследствии приводит к важным понятиям кольца и
поля, а затем и к своеобразной точке «контрапункта» (в той же
музыкальной аналогии), когда свойства линейного пространства
применяются к изучению расширений полей.
В дополнительных частях в сжатом и в то же время замкну-
том виде изложены весьма нетривиальные результаты, иногда
выходящие за рамки собственно линейной алгебры (например,
вопросы о построении правильных n-угольников и разрешимости
алгебраических уравнений). Общеизвестно, однако, что значение
и сила линейной алгебры обусловлены прежде всего ее много-
численными приложениями.
Безусловно, линейной алгебре не следует учить «слишком
абстрактно». Почти все можно объяснить, работая с простыми
для понимания объектами — матрицами, а не с абстрактными
элементами линейных пространств. В то же время определенная
доза абстрактных понятий уместна и даже полезна на самой
Предисловие 21

ранней стадии обучения: вряд ли можно считать чрезмерными


усилия, затраченные на освоение всего лишь определения груп-
пы и простейших ее свойств. Если же это сделать на раннем
этапе обучения, то в дальнейшем находится много поводов для
возвращения к этому понятию в связи с примерами групп, кото-
рые естественным образом возникают в разных местах курса.
Мне кажется, что упрощение формы изложения все же мо-
жет сочетаться с более наполненным содержанием. По крайней
мере я стремился к этому. Линейная алгебра и ее приложения
настолько фундаментальны и важны, что нет никаких оснований
для сокращения объема обязательных базовых знаний в данной
области.
В нашем курсе предмет линейной алгебры понимается в рас-
ширенном смысле, довольно часто мы оказываемся на террито-
рии смежных дисциплин — математического анализа, вычисли-
тельных методов и, конечно, общей алгебры. Границы являются
условностью, как и в жизни. Особенно часто они пересекаются
при разработке современных информационных и вычислитель-
ных технологий.
Например, одна из главных обязательных тем первого семест-
ра — теория и методы исследования и решения систем линейных
алгебраических уравнений. Материал вполне элементарный и,
возможно, оставляющий впечатление абсолютной завершенно-
сти. Однако практическая необходимость решения систем с мил-
лионами уравнений и неизвестных и появление вычислительной
техники с параллельным выполнением операций дали импульс
к изучению новых свойств алгоритмов. В данном случае успехи
прямо связаны с ростом мощи компьютеров. В то же время —
и об этом сказать особенно приятно — выход на радикально но-
вый уровень возможностей был сделан благодаря новому матема-
тическому знанию, а не росту производительности компьютеров.
Более того, для данной вполне классической задачи линейной
алгебры потребовалось дальнейшее изучение фундаментальных
вопросов из области математического анализа и теории прибли-
жений.
Отдельные места в книге содержат материал, который вооб-
ще нельзя найти ни в каких учебниках и даже монографиях.
В частности, это относится к теореме об обобщениях методов
сопряженных градиентов. В еще большей степени — ко всему
материалу заключительной лекции, посвященной многомерным
массивам, тензорным рангам и полилинейным обобщениям син-
гулярного разложения матрицы.
22 Предисловие

К дополнительному материалу, вероятно, следует отнести и


включенные в текст лекций задачи. Это именно задачи, а не
упражнения. Как правило, не самые легкие задачи — но всегда
с подсказкой: нужно учесть само расположение задачи. Конечно,
для активного освоения линейной алгебры нужны и упражнения,
и задачи разного уровня сложности. Их можно найти в различ-
ных разделах существующих задачников (например, [11, 17, 20,
25]).
В те времена, когда факультет ВМиК только появился,
математики-вычислители часто сетовали на то, что в обязатель-
ных курсах мехмата ничего не говорилось о возникших перед
ними проблемах. В настоящее время можно уже говорить о
том, что математикам-вычислителям часто не хватает знаний из
традиционных именно для мехмата разделов математики. Можно
привести примеры рекордно эффективных вычислительных тех-
нологий, возникших на основе идей и аппарата, казалось бы,
далеких от приложений областей — например, алгебраической
топологии. Конечно, в этой книге последние заявления останутся
все же лишь декларациями, к сожалению автора и читателей. Но
ведь это лишь начало пути!
В любом деле очень важен начальный импульс. Для данной
книги его генератором был В. А. Ильин, пригласивший меня про-
читать лекции на ВМиК.
В Институте вычислительной математики Российской акаде-
мии наук, где я имею честь работать, это предложение было го-
рячо поддержано В. В. Воеводиным, В. П. Дымниковым, а также
Г. И. Марчуком, попросившим меня в то же самое время помочь
в организации на ВМиК новой кафедры — вычислительных
технологий и моделирования, — которой он стал заведовать.
Мне оставалось только согласиться и попытаться сделать
то, о чем я, скорее всего, уже думал — попробовать расска-
зать студентам о матричном анализе и линейной алгебре то,
что мне самому хотелось бы услышать, когда я был студентом.
По крайней мере самому мне это все пока нравится. Поэто-
му всем названным лицам выражаю искреннюю благодарность.
Хочу поблагодарить также С. А. Горейнова, Н. Л. Замарашкина,
Х. Д. Икрамова, Г. Д. Ким, В. С. Панферова, В. Н. Чугунова и
всех тех, кто уже сделал или еще сделает замечания по тексту
лекций.
Лекция 1

1.1. Линейные отображения и матрицы


В математике и других науках постоянно изучается зависи-
мость одних величин от других. Обычно зависимость описывает-
ся различного типа функциями (отображениями, операторами).
Простейший случай — линейные отображения. Строгие опреде-
ления мы дадим позже. А пока предположим, что переменные
y1 , . . . , ym выражаются через x1 , . . . , xn следующим образом:

⎨ y1 = a11 x1 + . . . + a1n xn ,
...................... (∗)

ym = am1 x1 + . . . + amn xn ,
где коэффициенты считаются заданными постоянными величи-
нами. Соберем все постоянные коэффициенты в прямоугольную
таблицу и обозначим ее буквой A; составим также таблицы-
столбцы из величин x1 , . . . , xn и y1 , . . . , ym :
     
a11 . . . a1n x1 y1
A = ... ... ... , x = ... , y = ... .
am1 . . . amn xn ym
Такие таблицы и называются матрицами. Мы имеем целых три
матрицы: размеров m × n, n × 1 и m × 1. Соотношения (∗),
описывающие зависимость y от x, запишем символически таким
образом:
y = Ax. (∗∗)
Возникает впечатление, что матрица A умножается на матрицу-
столбец x, в результате чего появляется матрица-столбец y .
Так оно и будет, если мы скажем, что соотношения (∗) суть
определение операции (∗∗) умножения A на x.
Если m = n, то матрица называется квадратной. Квадратная
матрица размеров n × n называется также матрицей порядка n.
24 Лекция 1

1.2. Умножение матриц


Пусть y1 , . . . , ym выражаются через x1 , . . . , xn и при этом
x1 , . . . , xn выражаются через z1 , . . . , zk следующим образом:
⎧ ⎧
⎨ y1 = a11 x1 + . . . + a1n xn , ⎨ x1 = b11 z1 + . . . + b1k zk ,
...................... ....................
⎩ ⎩
ym = am1 x1 + . . . + amn xn , xn = bn1 z1 + . . . + bnk zk ,
Ясно, что y1 , . . . , ym выражаются через z1 , . . . , zk аналогичным
образом. Матрицу из постоянных коэффициентов этой зависи-
мости обозначим через C . Тогда
y = Ax, x = Bz и y = Cz.
Чтобы получить коэффициенты матрицы C , нужно подставить
выражения для x1 , . . . , xn через z1 , . . . , zk в формулы, выражаю-
щие y1 , . . . , ym через x1 , . . . , xn , и собрать коэффициенты при
величинах z1 , . . . , zk . Получится вот что:

n
C = [cij ], где cij = ail blj . (∗)
l=1
Определение. Матрица C вида (∗) называется произведением
матриц A и B и обозначается C = AB .
Следствие. y = A(Bz) = (AB)z .
Часто говорят, что матрицы умножаются по правилу «строка
на столбец». Число столбцов в первом сомножителе обязано,
конечно, совпадать с числом строк во втором. Если мы пишем
C = AB , то автоматически имеем в виду, что матрицы A и B не
совсем уж произвольные.

1.3. Ассоциативность умножения матриц


Теорема. (AB)C = A(BC).
Доказательство. Пусть A, B , C имеют размеры m × n, n × k ,
k × l. Тогда
 n

k 
k 
{(AB)C}ij = {AB}ip cpj = aiq bqp cpj =
p=1 p=1 q=1
 k

n 
= aiq bqp cpj = {A(BC)}ij .
q=1 p=1
1.6. Умножение блочных матриц 25

1.4. Некоммутативность умножения матриц

В общем случае AB = BA даже для квадратных матриц.


Например,



0 1 0 0 1 0
0 0 1 0
= 0 0
,




0 0 0 1 0 0
= .
1 0 0 0 0 1

1.5. Сложение матриц и умножение на число


Матрица C = [cij ] называется суммой матриц A = [aij ] и B =
= [bij ], если
cij = aij + bij для всех i, j.
Матрицы A, B и C = A + B одинаковых размеров. Операция
сложения матриц обладает сразу двумя приятными свойствами:

A + (B + C) = (A + B) + C (ассоциативность),
A + B = B + A (коммутативность).
Полезно ввести также операцию умножения матрицы на чис-
ло. Если α — число, то матрица C = αA определяется как
матрица тех же размеров с элементами cij = αaij .

1.6. Умножение блочных матриц


Предположим, что матрицы A и B составлены из блоков Aij
и Bij :
   
A11 . . . A1q B11 . . . B1r
A = ... ... ... , B= ... ... ... ,
Ap1 . . . Apq Bq1 . . . Bqr
где Aij — mi × nj , Bij — ni × kj . Тогда произведение C =
= AB существует и его можно вычислять, используя операции
умножения и сложения матриц-блоков:
 
C11 . . . C1r q
C= . . . . . . . . . , где Cij = Ail Blj — mi × kj .
Cp1 . . . Cpr l=1
Докажите!
26 Лекция 1

Можно сказать, что блочные матрицы умножаются по пра-


вилу «блочная строка на блочный столбец». Мы очень скоро
увидим, какую пользу может дать блочное умножение.

1.7. Вычислительный аспект умножения матриц


Пусть заданы (n × n)-матрицы A и B и требуется вычислить
их произведение C = AB . Вот классический алгоритм (програм-
ма на неком подобии алгоритмического языка Фортран):
DO i = 1, n
DO j = 1, n
DO k = 1, n
cij = cij + aik bkj
END DO
END DO
END DO.

Конечно, предварительно следует занулить элементы cij .

1.8. Хороша ли программа?


Ответить на этот вопрос не очень просто. Прежде всего
нужен какой-то критерий — пусть это будет время исполнения
программы. Но время зависит не только от типа компьютера.
В строгом смысле, оно привязано к отдельно взятому компьютеру
и зависит от его состояния на данный момент, от операционной
системы и, конечно, от особенностей транслятора.
Чтобы что-то здесь понять, нужно отбросить очень много
деталей и оставить нечто главное. Если все операции выпол-
няются последовательно, то время работы можно считать про-
порциональным числу операций. Мы пойдем дальше и будем
подсчитывать лишь арифметические операции. Общее их число
будем называть арифметической сложностью алгоритма.
Легко найти, что арифметическая сложность классического
алгоритма умножения матриц равна 2n3 (n3 умножений и n3
сложений). Но хорошо ли это? Уверены ли мы в том, что это
наилучший алгоритм?
Само понятие «наилучший» предполагает наличие некого
множества возможных алгоритмов. Будем полагать, что алго-
ритм — это последовательность элементарных операций из ко-
нечного фиксированного набора элементарных операций. Для
1.10. Метод Штрассена 27

определенности пусть это будут четыре арифметических дей-


ствия.
Итак, математическая задача поставлена. Еще в недавнем
прошлом многим казалось, что классический алгоритм является
наилучшим. Теперь уже ясно, что это не так.

1.9. Метод Винограда


Попробуйте-ка перемножить матрицы как-либо иначе — не
по классическому алгоритму. Вероятно, впервые это сделал Ви-
ноград (в начале 60-х). Он догадался использовать следующее
тождество:

2m 
m
aik bkj = (ai 2k−1 + b2k j )(b2k−1 j + ai 2k ) −
k=1 k=1


m 
m
− ai 2k−1 ai 2k − b2k j b2k−1 j .
k=1 k=1

Пусть n = 2m. Ясно, что вторую и третью суммы для всех


1  i, j  n можно найти, затратив 2nm = n2 умножений и
1
2nm = n2 сложений. Для первой суммы потребуется n2 m = n3
2
3
умножений и 3n2 m = n3 сложений.
2
В итоге — по-прежнему, 2n3 операций (без учета порядка
1 3
n2  n3 операций), но теперь n3 умножений и n3 сложений!
2 2
Поскольку умножение — операция более сложная, чем сложение,
метод Винограда может представлять практический интерес.

1.10. Метод Штрассена


В 1965 г. Штрассен нашел способ умножения (2 × 2)-матриц
с помощью всего лишь семи умножений (в классическом методе
8 умножений). То, что придумал Штрассен, получается посред-
ством вычисления тензорного ранга «многомерных матриц». Об
этом мы поговорим в заключительной лекции курса. А пока
давайте посмотрим на изобретение Штрассена «без комментари-
ев»: 1)
1)
См. задачу 5.4.21 из «Задачника по линейной алгебре» Х. Д. Икрамова.
28 Лекция 1

α1 = (a11 + a22 )(b11 + b22 ),


α2 = (a21 + a22 )b11 ,
c11 = α1 + α4 − α5 + α7 ,
α3 = a11 (b12 − b22 ),
c12 = α3 + α5 ,
α4 = a22 (b21 − b11 ),
c21 = α2 + α4 ,
α5 = (a11 + a12 )b22 ,
c22 = α1 + α3 − α2 + α6 .
α6 = (a21 − a11 )(b11 + b12 ),
α7 = (a12 − a22 )(b21 + b22 ),
Только очень ленивый человек не сможет проверить, что две
матрицы порядка 2 умножаются правильно.

1.11. Рекурсия для (n × n)-матриц


От метода умножения (2 × 2)-матриц с семью умножениями
довольно легко перейти к методу умножения (n × n)-матриц,
требующему не более 7 nlog2 7 операций. Поскольку

7nlog2 7
→0 при n → ∞,
n3
метод Штрассена асимптотически лучше классического метода.

Предположим, что n = 2L , и будем рассматривать A и B как


блочные (2 × 2)-матрицы:



A11 A12 B11 B12 n n
A= , B= , Aij , Bij — × .
A21 A22 B21 B22 , 2 2

Замечательно, что в штрассеновском методе умножения


(2 × 2)-матриц коммутативность не используется. Поэтому метод
годится и для умножения блочных (2 × 2)-матриц!

Итак, задача размера n сводится к семи аналогичным за-


дачам размера n/2. Для формирования этих семи задач и для
получения окончательного результата после решения этих семи
задач требуется 18 раз сложить блоки порядка n/2.
«Раскрутив» указанную рекурсию до конца, получим

7log2 n = nlog2 7
1.11. Рекурсия для (n × n)-матриц 29

умножений на последнем этапе. Общее число сложений на всех


этапах составит
L

L n 2 18 2
7
−1
18 7 k−1
= n 4  6 · 7L = 6 nlog2 7
2k 4 7
−1
k=1 4
(нужно учесть, что 4L = n2 и 7L = nlog2 7 ).
При практическом применении рекурсию не обязательно рас-
кручивать до конца. Это вредно: 7 nlog2 7 > 2n3 даже при n = 512.
Но при n = 1024 неравенство меняется в пользу Штрассена.
К настоящему времени придуманы и более быстрые (асимпто-
тически) методы, чем метод Штрассена. Уже существуют методы
с числом операций O (nα ), где α < 2.42. Никто не знает, каков
минимальный показатель в таких оценках. Ясно лишь, что α  2.
Лекция 2

2.1. Множества и элементы


Понятие множества вводится для обозначения совокупности
элементов, объединенных каким-то общим признаком. Считает-
ся, что оно относится к первичным понятиям, которым не дается
формального определения.
Запись a ∈ M означает, что элемент a принадлежит мно-
жеству M . Запись X ⊂ Y означает, что каждый элемент мно-
жества X принадлежит множеству Y . При этом X называется
подмножеством Y . Особо выделяется множество, в котором нет
ни одного элемента. Оно называется пустым и обозначается
символом ∅. По определению ∅ ⊂ M ∀ M .
При описании множеств иногда возникают логические проти-
воречия. Например, рассмотрим множество M , состоящее из од-
ного числа, которое определяется как «наименьшее целое число,
которое нельзя определить при помощи фразы, имеющей менее
ста русских слов». Такое число должно существовать, поскольку
число допустимых фраз, имеющих менее ста слов, конечно. В то
же время оно определяется приведенной выше фразой, а в ней
менее ста слов! 1)
В нашем курсе, к счастью, противоречий такого рода при
задании множеств возникать не будет. Но даже при полной
ясности с определением множества (например, множество корней
уравнения) не всегда легко установить, сколько в нем элементов
и будет ли оно вообще непустым.
Довольно часто множества будут задаваться перечислением
своих элементов. Например, M = {1, 2, 3} — множество, состоя-
щее из трех чисел: 1, 2, 3.
Кроме того, новые множества можно конструировать с помо-
щью уже имеющихся множеств X и Y следующим образом:
• A = X ∪ Y ≡ {a : a ∈ X или a ∈ Y } (объединение мно-
жеств);
1)
Пример из учебника В. В. Воеводина «Линейная алгебра». — Наука, 1980.
2.3. Алгебраические операции 31

• B = X ∩ Y ≡ {b : b ∈ X и b ∈ Y } (пересечение множеств);
• C = X\Y ≡ {c : c ∈ X , c ∈/ Y } (разность множеств);
• D = X × Y ≡ {d = (a, b) : a ∈ X , b ∈ Y } (декартово произ-
ведение множеств).

2.2. Отображения, функции, операторы


Все три слова в названии этого пункта означают одно и то
же — речь идет о правиле, по которому каждому элементу x
множества X ставится в соответствие однозначно определенный
элемент y = f (x) множества Y . Задание правила равносильно
выбору подмножества
Γ = {(x, f (x)) : x ∈ X} ⊂ X × Y ,
называемого графиком отображения (функции, оператора) f .
Элемент y = f (x) называется образом элемента x, а x —
прообразом элемента y при отображении f . Чтобы подчеркнуть,
что f действует из X в Y , пишут так: f : X → Y .
Множество f (X) ≡ {y : y = f (x) для некоторого x ∈ X}
называется образом (множеством значений) отображения f .
Если M ⊂ Y , то множество f −1 (M ) ≡ {x : f (x) ∈ M } на-
зывается полным прообразом множества M . Если M = {y}, то
пишут таким образом: f −1 (y) = f −1 (M ).
Отображение f : X → Y называется обратимым, если суще-
ствует отображение g : Y → X такое, что f (g(y)) = y ∀ y ∈ Y
и g(f (x)) = x ∀ x ∈ X . При этом g называют обратным отоб-
ражением для f и пишут g = f −1 .
Отображение f называется взаимно-однозначным, если для
любого y ∈ Y полный прообраз f −1 (y) состоит ровно из одного
элемента. Легко показать, что обратимость равносильна взаим-
ной однозначности.

2.3. Алгебраические операции


Отображение f : X × X → X называется алгебраической
операцией на X . Пусть для обозначения такой операции ис-
пользутся символ ∗. Тогда запись c = a ∗ b означает, что
(a, b) ∈ X × X и c = f ((a, b)).
Если задано отображение f : M → X на непустом подмноже-
стве M ⊂ X × X , то f называется частичной алгебраической
операцией на X . Таковой, в частности, является операция умно-
жения матриц на множестве всех матриц.
32 Лекция 2

Cимвол ∗ часто опускается, при этом пишут ab = a ∗ b, на-


зывают операцию умножением, а элемент ab (если он существу-
ет) — произведением элементов a и b.

2.4. Ассоциативность и скобки


Частичная алгебраическая операция на X называется ассо-
циативной, если для любых a, b, c ∈ X из существования про-
изведений ab и bc вытекает существование произведений a(bc),
(ab)c и равенство
a(bc) = (ab)c.
В этом случае естественно убрать скобки и писать abc ≡ a(bc) =
= (ab)c.
Теорема. Пусть на X задана ассоциативная частичная ал-
гебраическая операция и x1 , . . . , xn — произвольные элемен-
ты из X , для которых существуют произведения x1 x2 ,
x2 x3 , . . . , xn−1 xn . Тогда существует расстановка скобок, опре-
деляющая элемент
x = x1 x2 . . . xn ,
при этом любая расстановка скобок дает один и тот же
элемент x.
Доказательство. Проведем индукцию по n. Докажем сна-
чала существование некоторой расстановки скобок, определя-
ющей x. Согласно индуктивному предположению существует
произведение (x1 . . . xn−2 )xn−1 . По условию теоремы существу-
ет также произведение xn−1 xn . Таким образом, можно приме-
нить определение ассоциативности по отношению к элементам
a = x1 . . . xn−2 , b = xn−1 , c = xn .
Пусть элементы a и b получаются при разных расстановках
скобок. В любом случае имеем

a = (x1 . . . xk )(xk+1 . . . xn ), b = (x1 . . . xm )(xm+1 . . . xn ).


Пусть k < m. Тогда, в силу ассоциативности,

a = (x1 . . . xk )((xk+1 . . . xm )(xm+1 . . . xn )) =


= ((x1 . . . xk )(xk+1 . . . xm ))(xm+1 . . . xn ) =
= (x1 . . . xm )(xm+1 . . . xn ) = b. 
2.6. Группы 33

2.5. Ассоциативность при умножении матриц


Пусть нужно вычислить произведение трех прямоугольных
матриц размеров 1 × n, n × 1 и 1 × n:
 
c11
A = BCD = [b11 . . . b1n ] . . . [d11 . . . d1n ].
cn1
В данном случае есть два варианта расстановки скобок:
 
c11 d11 . . . c11 d1n
A = B(CD) = [b11 . . . b1n ] ... ... ... , (1 )
cn1 d11 . . . cn1 d1n
A = (BC)D = [(b11 c11 + . . . + b1n cn1 )] [d11 . . . d1n ]. (2 )
Варианты (1) и (2) приводят к двум разным алгоритмам
вычисления матрицы A. В силу ассоциативности результаты
должны быть одинаковыми. Но арифметическая работа будет
разная! Применяя правило «строка на столбец», получаем 2n2
умножений в случае (1) и всего 2n умножений в случае (2).

2.6. Группы
Непустое множество G с ассоциативной алгебраической опе-
рацией называется группой, если:
(1) существует элемент e ∈ G такой, что ae = ea = a для
любого элемента a ∈ G;
(2) для любого элемента a ∈ G существует элемент b ∈ G
такой, что ab = ba = e.
Элемент e определяется свойством (1) однозначно: если e1
и e2 — два таких элемента, то e1 = e1 e2 = e2 . Он называется
единичным.
Элемент b из свойства (2) однозначно определяется по a: если
b1 и b2 — два таких элемента, то b1 = b1 (ab2 ) = (b1 a)b2 = b2 .
Элемент b называется обратным для a. Обозначение: b = a−1 .
Для любых фиксированных a, b ∈ G можно рассмотреть урав-
нения ax = b (относительно x) и ya = b (относительно y ). Оба
уравнения однозначно разрешимы: x = a−1 b и y = ba−1 .
Группа называется абелевой (коммутативной), если ab = ba
для всех a, b ∈ G.
2 Е. Е. Тыртышников
34 Лекция 2

2.7. Примеры абелевых групп


1. G = R — множество вещественных чисел, операция — сло-
жение чисел. Роль единичного элемента играет число 0.
2. G = R\{0} — множество ненулевых вещественных чисел,
операция — умножение чисел. Роль единичного элемента играет
число 1.
3. G = Q — множество рациональных чисел, операция — сло-
жение чисел. Роль единичного элемента играет число 0.
4. G = Q\{0} — множество ненулевых рациональных чисел,
операция — умножение чисел. Роль единичного элемента играет
число 1. √
5. G — множество ненулевых вещественных чисел вида a + b 2 ,
где a, b — рациональные числа. Операция — умножение чисел.
Прежде всего докажем, что произведение чисел из G принад-
лежит G:
√ √ √
(a + b 2 )(c + d 2 ) = (ac + 2bd) + (ad + bc) 2 ,
из рациональности чисел a, b, c, d вытекает рациональность чи-
сел ac + 2bd и ad√+ bc. Далее, единичным элементом
√ является
число 1 = 1 + 0 · 2 . Обратный элемент для a + b 2 , как легко
проверить, имеет вид
   √
a −b
+ 2.
a − 2b
2 2
a − 2b
2 2

Задача 1. Пусть G — группа с единицей e. Докажите, что если


a2 = e для любого a ∈ G, то группа G абелева.

2.8. Группа невырожденных диагональных матриц


Матрица A = [aij ] размеров n × n называется диагональной,
если aij = 0 при i = j . Диагональная матрица A называется
невырожденной, если aii = 0 при всех 1  i  n.
Множество невырожденных диагональных (n × n)-матриц с
вещественными элементами и операцией умножения матриц яв-
ляется абелевой группой. Роль единичного элемента играет мат-
рица ⎡ ⎤
1
I=⎣ ..
. ⎦.
1
2.10. Подгруппы 35

Она называется единичной матрицей.


Задача 1. Матрица A порядка n коммутирует со всеми матрицами
порядка n: AB = BA для всех матриц B порядка n. Докажите, что
A — диагональная матрица с равными элементами на диагонали. 1)

2.9. Группа невырожденных треугольных матриц


Матрица A = [aij ] размеров n × n назывется нижней тре-
угольной, если aij = 0 при i < j , и верхней треугольной, если
aij = 0 при i > j . Треугольная матрица называется невырожден-
ной, если aii = 0 при всех 1  i  n.
Множество невырожденных нижних (верхних) треугольных
матриц с вещественными элементами и операцией умножения
матриц является группой (некоммутативной).
Доказательство состоит из трех этапов:
• проверить, что произведение невырожденных нижних
(верхних) треугольных матриц является также нижней
(верхней) треугольной матрицей;
• проверить, что роль единичного элемента играет единичная
матрица I ;
• проверить, что для невырожденной нижней (верхней) тре-
угольной матрицы A разрешимы уравнения AX = I и
Y A = I , при этом обе матрицы X и Y являются нижними
(верхними) треугольными. После этого равенство X = Y
является уже очевидным.

2.10. Подгруппы
Подмножество H ⊂ G называется подгруппой группы G, если
оно является группой относительно операции, действующей в G.
Для этого необходимо и достаточно, чтобы
• ab ∈ H для любых элементов a, b ∈ H ;
• a−1 ∈ H для любого элемента a ∈ H .
Например, группа невырожденных диагональных матриц яв-
ляется подгруппой группы невырожденных нижних (верхних)
треугольных (n × n)-матриц.

1)
Такие матрицы называются скалярными.

2*
36 Лекция 2

2.11. Степени элемента


Зафиксируем произвольный элемент a в группе G и рассмот-
рим минимальную содержащую a подгруппу H(a) ⊂ G. Мини-
мальность означает, что H(a) ⊂ H для любой подгруппы H ,
содержащей a. Легко видеть, что
H(a) = {ak : k — целое число}.
По определению, a0 = e, ak = a . . . a (a повторяется k раз) при
целом положительном k , a−k = (a−1 )k . Непосредственно из опре-
деления вытекает, что
ak+m = ak am для любых целых k , m.

2.12. Циклические группы


Группа H(a) называется циклической группой, порожденной
элементом a. Минимальное целое k > 0 такое, что ak = e, назы-
вается порядком элемента a. Если ak = e при всех k > 0, то a
называется элементом бесконечного порядка.
Теорема. Любая подгруппа циклической группы является цик-
лической.
Доказательство. Подгруппа H ⊂ H(a) состоит из каких-то
степеней элемента a:
H = {ai1 , ai2 , . . . }.
Пусть m — наименьшее целое положительное число среди
i1 , i2 , . . . Тогда ясно, что H содержит все элементы вида amk .
Докажем, что в H не может быть других степеней элемента a.
Пусть an ∈ H . Разделим n с остатком на m:
n = qm + r, q , r — целые, 0  r  m − 1.
Тогда ar = an a−qm ∈ H . В случае r > 0 получаем противоречие
с минимальностью m. Поэтому r = 0. 
Задача 1. Найти все подгруппы группы целых чисел Z относи-
тельно операции сложения чисел.
Лекция 3

3.1. Система линейных алгебраических уравнений


Система уравнений вида

⎨ a11 x1 + . . . + a1k xk = b1 ,
.................... (1)

an1 x1 + . . . + ank xk = bn
относительно неизвестных величин x1 , . . . , xk называется систе-
мой линейных алгебраических уравнений. Мы уже знаем, что
с помощью матричных обозначений ее можно записать в виде
     
a11 . . . a1k x1 b1
Ax = b, A = ... ... ... , x = ... , b = ... .
an1 . . . ank xk bn
Множество матриц размеров n × k с элементами aij ∈ R,
где R — множество вещественных чисел, обозначим Rn×k .
В согласии с этим обозначением Rn×1 и Rk×1 — множества
матриц-столбцов, имеющих n и k элементов соответственно. Для
краткости будем писать Rn = Rn×1 и Rk = Rk×1 и называть
матрицы-столбцы векторами.
Матрица A ∈ Rn×k называется матрицей коэффициентов,
вектор b ∈ Rn — правой частью, а вектор x ∈ Rk — решением
системы (1).

3.2. Линейные комбинации


Для понимания сути дела исключительно полезна следующая
интерпретация системы (1). Согласно определению умножения
матрицы на число, если α ∈ R, то
   
b1 αb1
α ... ≡ ... .
bn αbn
38 Лекция 3

Пусть a1 , . . . , ak — столбцы матрицы A:


A = [a1 , . . . , ak ], a1 , . . . , ak ∈ Rn .
Тогда соотношения (1) равносильны равенству между векторами
x1 a1 + . . . + xk ak = b. (2)
Выражение x1 a1 + . . . + xk ak называется линейной комби-
нацией векторов a1 , . . . , ak , а числа x1 , . . . , xk называются коэф-
фициентами линейной комбинации. Множество всевозможных
линейных комбинаций векторов a1 , . . . , ak
L(a1 , . . . , ak ) = {α1 a1 + . . . + αk ak : α1 , . . . , αk ∈ R}
называется линейной оболочкой векторов a1 , . . . , ak .
Таким образом, равенство (2) означает, что
b ∈ L(a1 , . . . , ak ). (3 )
Другими словами, система (1) имеет решение (совместна) тогда
и только тогда, когда правая часть b принадлежит линейной
оболочке (является линейной комбинацией) столбцов матрицы
коэффициентов.

3.3. Линейная зависимость


Векторы, все элементы которых равны нулю, называют ну-
левыми векторами, а иногда просто нулями. Любой нулевой
вектор будем обозначать символом 0.
Линейная комбинация векторов называется нетривиальной,
если хотя бы один из ее коэффициентов отличен от нуля. Си-
стема (другими словами, непустая упорядоченная совокупность
конечного числа) векторов называется линейно зависимой, если
для них существует нетривальная линейная комбинация, равная
нулевому вектору.
Лемма 1. Если a1 , . . . , ak — линейно зависимая система k > 1
ненулевых векторов, то в ней существует вектор am , m > 1,
являющийся линейной комбинацией предыдущих векторов:

am ∈ L(a1 , . . . , am−1 ).

Доказательство. Рассмотрим равную нулю нетривиальную ли-


нейную комбинацию
α1 a1 + . . . + αk ak = 0,
3.4. Линейная независимость 39

и пусть m — наибольший номер такой, что αm = 0. Если m =


= 1, то α1 a1 = 0 и, поскольку α1 = 0, получаем: a1 = 0, что
противоречит условию леммы. Следовательно, m > 1. Тогда

α1 a1 + . . . + αm am = 0 ⇒
α α
⇒ am = − 1 a1 + . . . + − m−1 am−1 . 
αm αm

3.4. Линейная независимость


Система векторов называется линейно независимой, если она
не является линейно зависимой. Таким образом, если векторы
a1 , . . . , ak линейно независимы, то

α1 a1 + . . . + αk ak = 0 ⇒ α1 = . . . = αk = 0.

Лемма 2. Любая подсистема линейно независимой системы


является линейно независимой.
Доказательство. Предположим, что подсистема линейно зави-
сима. Значит, существует нетривиальная линейная комбинация
векторов данной подсистемы, равная нулю. Тогда линейная ком-
бинация векторов исходной системы с теми же коэффициентами
при векторах из подсистемы и нулевыми коэффициентами при
других векторах является нетривиальной линейной комбинацией,
равной нулю. Получаем противоречие с линейной независимо-
стью исходной системы. 
Лемма 3. Если вектор является линейной комбинацией линей-
но независимых векторов, то коэффициенты этой линейной
комбинации определены единственным образом.
Доказательство. Пусть векторы a1 , . . . , ak линейно независи-
мы и
b = α1 a1 + . . . + αk ak = β1 a1 + . . . + βk ak .

Отсюда

(α1 − β1 )a1 + . . . + (αk − βk )ak = 0 ⇒


⇒ α1 − β1 = . . . = αk − βk = 0. 
Задача 1. Для каждого n найдите все значения параметра a, при
которых столбцы трехдиагональной матрицы
40 Лекция 3
⎡ ⎤
a 1
⎢−1 a 1 ⎥
⎢ ⎥

A=⎢ . .. .. .. ⎥
. .

⎣ −1 a 1⎦
−1 a
порядка n линейно независимы.
Задача 2. Матрица размеров (n + 1) × n имеет элементы aij > 0
при i = j и aij < 0 при i = j . Докажите, что при n = 3 ее столбцы
линейно независимы. Верно ли это при n = 4?

3.5. Транзитивность линейной зависимости


Важное (хотя и очевидное) свойство: если
L(c1 , . . . , cr ) ⊂ L(b1 , . . . , bm ) и L(b1 , . . . , bm ) ⊂ L(a1 , . . . , ak ),
то
L(c1 , . . . , cr ) ⊂ L(a1 , . . . , ak ).

3.6. Монотонность числа линейно независимых


векторов
Лемма 4. Пусть каждая из систем векторов b1 , . . . , bm
и a1 , . . . , ak линейно независима, и предположим, что
L(b1 , . . . , bm ) ⊂ L(a1 , . . . , ak ). (∗)
Тогда m  k .
Доказательство. Согласно (∗) система
b1 , a1 , . . . , ak
линейно зависима. В силу леммы 1 существует вектор, являю-
щийся линейной комбинацией предыдущих векторов, пусть это
будет вектор
ak ∈ L(b1 , a1 , . . . , ak−1 ).
Отсюда следует, что
L(a1 , . . . , ak ) ⊂ L(b1 , a1 , . . . , ak−1 ).
В силу транзитивности линейной зависимости
L(b1 , . . . , bm ) ⊂ L(b1 , a1 , . . . , ak−1 ),
поэтому система
b2 , b1 , a1 , . . . , ak−1
3.7. Базис и размерность 41

линейно зависима. В силу леммы 1 и в этой системе существует


вектор, линейно выражающийся через предыдущие, причем тако-
вым не может быть вектор b1 (векторы b1 , b2 линейно независимы
как подсистема линейно независимой системы (лемма 2)). Не
ограничивая общности, будем считать, что
ak−1 ∈ L(b2 , b1 , a1 , . . . , ak−2 ).
Предположим, что m > k . Тогда, продолжая предыдущие
построения, на k -м шаге получаем
L(a1 , . . . , ak ) ⊂ L(bk , bk−1 , . . . , b1 ).
Следовательно, bk+1 ∈ L(bk , bk−1 , . . . , b1 ), а это противоречит
предположению о линейной независимости векторов b1 , . . . , bm .
Полученное противоречие доказывает, что m  k . 
Заметим, что лемма остается в силе и без предположения о
линейной независимости системы a1 , . . . , ak — докажите!

3.7. Базис и размерность


Линейно независимая система векторов b1 , . . . , bm ∈ V =
= L(a1 , . . . , ak ) называется базисом линейной оболочки V , если
L(b1 , . . . , bm ) = V .
Теорема о базисах. Любые базисы линейной оболочки V со-
держат одно и то же число векторов.
Доказательство. Пусть b1 , . . . , bm и c1 , . . . , cr — два базиса
данной линейной оболочки. Ясно, что
L(b1 , . . . , bm ) = L(c1 , . . . , cr ).
Применяя лемму 4 два раза, получаем два неравенства: m  r
и r  m. Отсюда m = r. 
Определение. Число векторов в базисах линейной оболочки V
называется ее размерностью и обозначается dim V .
Теорема о размерности линейной оболочки :
dim L(a1 , . . . , ak )  k.
Доказательство. Достаточно заметить, что в качестве базиса
линейной оболочки заданной системы векторов можно выбрать
их максимальную линейно независимую подсистему. 
В качестве базиса в линейной оболочке L(a1 , . . . , an ) всегда
можно выбрать некоторую подсистему векторов a1 , . . . , an . Мак-
симальная линейно независимая подсистема называется базой
данной системы.
Утверждение. Для того чтобы подсистема векторов a1 , . . .
. . . , an являлась базисом в L = L(a1 , . . . , an ), необходимо и до-
статочно, чтобы она была базой.
42 Лекция 3

Доказательство. Не ограничивая общности, будем считать, что


подсистему образуют первые k векторов a1 , . . . , ak . Если это
база, то каждый из векторов ak+1 , . . . , an линейно выражается
через a1 , . . . , ak ⇒ L ⊂ L(a1 , . . . , ak ) ⊂ L ⇒ L = L(a1 , . . .
. . . , ak ). Таким образом, система a1 , . . . , ak есть базис в L.
Если выбранная подсистема является базисом в L, то в силу
предыдущего рассуждения и теоремы о базисах никакая база не
может иметь бо́льшее число векторов. 
Задача 1. Векторы a1 , . . . , ak+1 линейно независимы. Доказать,
что в линейной оболочке L(a1 , . . . , ak+1 ) существует базис, не содер-
жащий ни одного вектора из линейной оболочки L(a1 , . . . , ak ).

3.8. Дополнение до базиса


Лемма о дополнении до базиса. Любая линейно независимая
система векторов b1 , . . . , bm ∈ L(a1 , . . . , ak ) является подси-
стемой некоторого базиса данной линейной оболочки.
Доказательство. Достаточно рассмотреть случай, когда век-
торы a1 , . . . , ak линейно независимы. Система векторов b1 , . . .
. . . , bm , a1 , . . . , ak линейно зависима. В силу леммы 1 в ней
существует вектор, линейно выражающийся через предыдущие.
Уберем этот вектор и рассмотрим оставшуюся подсистему. Если
она линейно независима, то и является базисом линейной обо-
лочки L(a1 , . . . , ak ). Если нет, в ней имеется вектор, линейно
выражающийся через предыдущие. Исключим и его из систе-
мы, рассмотрим оставшуюся подсистему и т. д. В итоге система
векторов b1 , . . . , bm будет дополнена до базиса некоторыми из
векторов a1 , . . . , ak . 

3.9. Существование базиса


Для любой ли линейной оболочки существует базис? Соглас-
но лемме о дополнении до базиса, базис существует, если в
линейной оболочке существует линейно независимая подсистема
векторов. Так будет, если существует хотя бы один ненулевой
вектор.
Таким образом, базиса нет только в случае нулевой линейной
оболочки, содержащей единственный вектор — нулевой. По опре-
делению размерность нулевой линейной оболочки равна нулю.
3.10. Совместность системы линейных алгебраических уравнений 43

3.10. Совместность системы линейных


алгебраических уравнений
Теорема 1.Система линейных алгебраических уравнений Ax =
= b, A = [a1 , . . . , ak ], совместна тогда и только тогда, когда
L(a1 , . . . , ak ) = L(a1 , . . . , ak , b).
Доказательство. В любом случае имеем
L(a1 , . . . , ak ) ⊂ L(a1 , . . . , ak , b). (∗)
Если система совместна, то b ∈ L(a1 , . . . , ak ). Следовательно,
L(a1 , . . . , ak , b) ⊂ L(a1 , . . . , ak ). (∗∗)
Включения (∗) и (∗∗) доказывают равенство двух линейных обо-
лочек. Если имеет место (∗∗), то очевидно, что b ∈ L(a1 , . . . , ak ),
а это и означает совместность системы Ax = b. 
Теорема 2. Если n = k , то в случае линейной независимости
векторов a1 , . . . , an система линейных алгебраических уравне-
ний Ax = b совместна и имеет единственное решение.
Доказательство. Очевидно, что
a1 , . . . , an ∈ L(e1 , . . . , en ),
где e1 , . . . , en — столбцы единичной матрицы размеров n × n (на
i-м месте в векторе ei находится 1, а все остальные элементы
равны 0). В силу теоремы о дополнении до базиса существует
базис из r  n векторов, содержащий векторы a1 , . . . , an . В силу
теоремы о размерности линейной оболочки r  n. По той же
причине векторы a1 , . . . , an образуют базис в L(a1 , . . . , an , b).
Поэтому b ∈ L(a1 , . . . , an ), что и доказывает совместность систе-
мы. Единственность решения вытекает из леммы 3. 
Задача 1. Система линейных алгебраических уравнений вида
    
a 0 a 1 a 2 x1 1
a 1 a 0 a 1 x2 = 0
a 2 a 1 a 0 x3 0

имеет решение, причем x1 = 0. Докажите, что столбцы матрицы коэф-


фициентов линейно независимы.
Лекция 4

4.1. Индикатор линейной зависимости


Рассмотрим систему векторов a1 , . . . , an ∈ Rn и попробуем
сконструировать индикатор линейной зависимости — функцию
f (a1 , . . . , an ), которая равна нулю в случае линейной зависимо-
сти данной системы. При этом функция f должна иметь как
можно более простой вид: пусть f будет линейна по каждому
аргументу при фиксированных значениях остальных аргументов.
Дадим точную формулировку требований к функции f :
A) для любого 1  i  n функция линейна по i-му аргументу
(функция должна иметь «простой вид»):
f (a1 , . . . , ai−1 , αa + βb, ai+1 , . . . an ) =
= α f (a1 , . . . , ai−1 , a, ai+1 , . . . , an ) +
+ β f (a1 , . . . , ai−1 , b, ai+1 , . . . , an )
для любых векторов a, b ∈ Rn и чисел α, β ∈ R;
B) если система векторов a1 , . . . , an линейно зависима, то
f (a1 , . . . , an ) = 0;
C) функция принимает заданное ненулевое значение на задан-
ной линейно независимой системе (условие нормировки):
f (e1 , . . . , en ) = 1,
где e1 , . . . , en — столбцы единичной матрицы порядка n.
Функцию f с указанными свойствами будем называть инди-
катором линейной зависимости. Для ее построения нам понадо-
бится понятие подстановки.

4.2. Подстановки и перестановки


Обратимое отображение σ : N → N, где N = {1, 2, . . . , n},
называется подстановкой (иногда также перестановкой) сте-
4.2. Подстановки и перестановки 45

пени n. Для обозначения подстановки σ часто используется


таблица  
1 2 ... n
σ= ,
σ(1) σ(2) . . . σ(n)
в которой числа σ(1), σ(2), . . . , σ(n) образуют перестановку чи-
сел 1, 2, . . . , n (это равносильно обратимости отображения σ ).
Определим произведение подстановок a и b как отображение,
получаемое последовательным выполнением (композицией) отоб-
ражений b и a:
(ab)(i) = a(b(i)), i ∈ N.
Это алгебраическая операция на множестве всех подстановок
степени n, относительно которой оно является группой. В самом
деле, ассоциативность очевидна (этим свойством всегда облада-
ет композиция отображений). Роль единичного элемента играет
тождественное отображение
 
1 2 ... n
e= ,
1 2 ... n
а обратным элементом для σ является обратное отображе-
ние σ −1 .
Группа подстановок степени n называется симметрической
группой степени n и обозначается Sn . Это один из важ-
нейших примеров конечных групп (групп с конечным числом
элементов; при этом число элементов называется порядком
группы). Нетрудно проверить, что порядок группы Sn равен
n! = 1 · 2 · . . . · n.
Название симметрической группы навеяно определени-
ем симметрических функций: так называется функция
F (x1 , . . . , xn ), если она инвариантна относительно любых
подстановок своих аргументов:
F (x1 , . . . , xn ) = F (xσ(1) , . . . , xσ(n) ) ∀ σ ∈ Sn .
Пример симметрической функции (определяемой числовым пара-
метром k ):
n
Fk (x1 , . . . , xn ) = xki .
i=1
Задача. 1. Даны две системы чисел: x1 x2  . . . xn и y1 y2  . . .
. . . yn . Доказать, что для любой подстановки σ ∈ Sn выполняется
неравенство
n n

|xi − yi |  |xi − yσ(i) |.
i=1 i=1
46 Лекция 4

4.3. Циклы и транспозиции


Подстановка a ∈ Sn называется циклом длины k , если име-
ется k попарно различных номеров i1 , . . . , ik ∈ N таких, что
1) a(i1 ) = i2 , a(i2 ) = i3 , . . . , a(ik−1 ) = ik , a(ik ) = i1 ,
2) a(i) = i ∀ i ∈ N \ {i1 , i2 , . . . , ik }.
Для обозначения цикла a удобно использовать запись
a = (i1 , . . . , ik ).
Цикл длины 2 называется также транспозицией.
Циклы a = (i1 , . . . , ik ) и b = (j1 , . . . , jm ) называются незави-
симыми, если
{i1 , . . . , ik } ∩ {j1 , . . . , jm } = ∅.
1) Любые независимые циклы a и b коммутируют: ab = ba.
2) Любая подстановка σ ∈ Sn представима в виде произве-
дения независимых циклов однозначно с точностью до
порядка сомножителей.
3) Любой цикл длины k представим в виде произведения
k − 1 транспозиций.
4) Любая подстановка представима в виде произведения
транспозиций.
Утверждение (1) проверяется непосредственно: в случае неза-
висимых циклов a = (i1 , . . . , ik ) и b = (j1 , . . . , jm ) находим
(ab)(i) = (ba)(i) = a(i) при i ∈ {i1 , . . . , ik },
(ab)(i) = (ba)(i) = b(i) при i ∈ {j1 , . . . , jm },
(ab)(i) = (ba)(i) = i при i ∈ / {i1 , . . . , ik } ∪ {j1 , . . . , jm }.
Чтобы доказать (2), возьмем произвольный номер j и рас-
смотрим последовательность номеров j , σ(j), σ 2 (j), . . . Имеется
только n различных значений — поэтому для каких-то k < l
должно быть σ k (j) = σ l (j), откуда получаем: σ l−k (j) = j . Пусть
k — наименьший номер такой, что σ k (j) = j . Тогда получаем
цикл
a = (j , σ(j), σ 2 (j), . . . , σ k−1 (j)),
для которого
σ(i) = a(i) при i ∈ {j , σ(j), σ 2 (j), . . . , σ k−1 (j)}.
Ясно, что подстановка σ1 = σa−1 оставляет на месте индексы
i ∈ {j , σ(j), σ 2 (j), . . . , σ k−1 (j)}.
4.4. Четность подстановки 47

Далее, возьмем j1 ∈
/ {j , σ(j), σ 2 (j), . . . , σ k−1 (j)} и аналогичным
образом построим цикл b, выполняющий преобразования вида
j1 → σ1 (j1 ) → σ12 (j1 ) → . . .
(Заметим, что σ1l (j1 ) = σ l (j1 ) для всех l.) Продолжая подобные
построения, мы неизбежно придем к тождественной подстановке
σ a−1 b−1 . . . c−1 = e,
откуда
σ = c . . . ba.
По построению циклы a, b, . . . , c независимы.
Утверждение (3) доказывается проверкой, например, следую-
щего равенства:
(i1 , . . . , ik ) = (i1 , i2 )(i2 , i3 ) . . . (ik−1 , ik ).
Утверждение (4), очевидно, вытекает из (2) и (3).
Задача 1. Докажите, что все множество подстановок степени n
можно упорядочить таким образом, что каждая следующая подста-
новка будет получаться из предыдущей путем умножения справа на
некоторую транспозицию.

4.4. Четность подстановки


Подстановка может быть разложена в произведение транспо-
зиций многими способами. Например,
 
1 2 3 4 5 6 7
=
7 5 3 1 2 4 6
= (1, 7) (7, 6) (6, 4) (2, 5) = (1, 7) (7, 6) (6, 4) (7, 2) (7, 5) (7, 2).
Однако число транспозиций в любом разложении одной и той же
подстановки обладает следующим важным свойством.
Лемма о числе транспозиций. Четность числа транспозиций
не зависит от способа представления подстановки в виде
произведения транспозиций.
Доказательство. Для заданной подстановки σ ∈ Sn
 
1 2 ... n
σ=
σ(1) σ(2) . . . σ(n)
назовем инверсией пару (i, j), если i < j , но σ(i) > σ(j). Пусть
δ(σ) — общее число инверсий для σ . Докажем, что для любой
48 Лекция 4

транспозиции τ разность δ(στ ) − δ(σ) будет нечетным числом.


Пусть τ = (i, j), i < j . Тогда
 
1 ... i − 1 i i + 1 ... j − 1 j j + 1 ... n
στ = σ(1) . . . σ(i − 1) σ(j) σ(i + 1) . . . σ(j − 1) σ(i) σ(j + 1) . . . σ(n) .

Предположим, что подстановка σ имеет k инверсий среди пар


вида
(i, l), где l ∈ {i + 1, i + 2, . . . , j − 1}, (∗)
m инверсий среди пар вида
(l, j), где l ∈ {i + 1, i + 2, . . . , j − 1} (∗∗)
и еще s инверсий среди любых других пар. Тогда στ будет
иметь j − i − 1 − k инверсий среди пар вида (∗) и j − i − 1 − m
инверсий среди пар вида (∗∗). Кроме того, среди любых других
пар подстановка στ будет иметь s + 1 инверсий, если пара (i, j)
не была инверсией, и s − 1 инверсий в противном случае. Таким
образом,
δ(σ) = k + m + s,
δ(στ ) = (i − j − 1 − k) + (i − j − 1 − m) + s ± 1.
Отсюда
δ(στ ) − δ(σ) = 2(i − j − 1 − k − m) ± 1. 
Следствие. Четность числа транспозиций в разложении под-
становки совпадает с четностью ее числа инверсий.
Определение. Подстановка называется четной, если она яв-
ляется произведением четного числа транспозиций, и нечетной
в противном случае.
Замечание. Рассмотрим функцию

Δ(x1 , . . . , xn ) = (xj − xi ).
i<j

Тогда для любой подстановки σ ∈ Sn выполнено одно из двух:


Δ(x1 , . . . , xn ) = Δ(xσ(1) , . . . , xσ(n) )
либо
Δ(x1 , . . . , xn ) = −Δ(xσ(1) , . . . , xσ(n) ).
Четные подстановки и только они знак сохраняют (первый слу-
чай), нечетные и только они знак меняют (второй случай).
4.5. Единственность индикатора линейной зависимости 49

Множество всех четных подстановок в Sn образует подгруп-


пу (докажите!), которая называется знакопеременной группой
степени n и обозначается An .
Задача 1. Докажите, что любую четную подстановку степени n 
 3 можно представить в виде произведения циклов длины 3.

4.5. Единственность индикатора линейной


зависимости
Вернемся к построению индикатора линейной зависимости —
функции f (a1 , . . . , an ) от векторов
⎡ ⎤ ⎡ ⎤ ⎡ ⎤
a11 a12 a1n
⎢a ⎥ ⎢a ⎥ ⎢a ⎥
a1 = ⎣ 21 ⎦ , a2 = ⎣ 22 ⎦ , . . . , an = ⎣ 2n ⎦ ,
... ... ...
an1 an2 ann
удовлетворяющей требованиям (A), (B), (C). Легко видеть, что

n 
n 
n
a1 = ai1 1 ei1 , a2 = ai1 2 ei2 , . . . , an = ain n ein ,
i1 =1 i2 =1 in =1

где e1 , e2 , . . . , en — столбцы единичной матрицы размеров n × n.


Если искомая функция f существует, то свойство (A) линей-
ности по каждому аргументу приводит к выражению

n 
n
f (a1 , . . . , an ) = ... ai1 1 ai2 2 . . . ain n f (ei1 , ei2 , . . . , ein ).
i1 =1 in =1

Согласно требованию (B), f = 0 на любой линейно за-


висимой системе векторов. Очевидно, что система векторов
ei1 , ei2 , . . . , ein будет линейно зависимой в том и только том
случае, когда среди этих векторов есть равные (если все эти век-
торы попарно различны, то они образуют перестановку столбцов
единичной матрицы). Следовательно, исключая из суммирования
заведомые нули, находим

f (a1 , . . . , an ) = aσ(1)1 aσ(2)2 . . . aσ(n)n ×
σ∈Sn

× f (eσ(1) , eσ(2) , . . . , eσ(n) ).


Далее, из требований (A) и (B) вытекает, что f должна
менять знак при перестановке любых двух аргументов. Докажем
50 Лекция 4

это, например, для первого и второго аргументов. Учтем, что


f = 0 в случае равных аргументов, и воспользуемся линейностью
по каждому аргументу:

0 = f (a1 + a2 , a1 + a2 , a3 , . . . , an ) =
= f (a1 , a1 , a3 , . . . , an ) + f (a1 , a2 , a3 , . . . , an ) +
+ f (a2 , a1 , a3 , . . . , an ) + f (a2 , a2 , a3 , . . . , an ).
Первое и четвертое слагаемые имеют совпадающие векторы
и поэтому равны нулю. Отсюда

f (a1 , a2 , a3 , . . . , an ) = −f (a2 , a1 , a3 , . . . , an ).
Следовательно, если подстановка σ является транспозицией, то

f (eσ(1) , eσ(2) , . . . , eσ(n) ) = −f (e1 , e2 , . . . , en ) = −1.


В общем случае подстановку σ можно разложить в про-
изведение транспозиций. Пусть δ(σ) есть число транспозиций
в каком-либо из разложений. Тогда

f (eσ(1) , eσ(2) , . . . , eσ(n) ) = (−1)δ(σ) .


По лемме о числе транспозиций четность числа δ(σ) не зависит
от конкретного разложения в произведение транспозиций, поэто-
му величина (−1)δ(σ) зависит только от σ . Назовем ее знаком
подстановки и обозначим через sgn(σ). Окончательно:

f (a1 , . . . , an ) = sgn(σ) aσ(1)1 aσ(2)2 . . . aσ(n)n . (∗)
σ∈Sn

Мы доказали важное
Утверждение. Если функция–индикатор линейной зависимо-
сти существует, то она определяется формулой (∗).

4.6. Определитель
Определение. Функция вида (∗) называется определителем
(детерминантом) матрицы A со столбцами a1 , a2 , . . . , an и обо-
значается det A или |A|.
Таким образом, если A = [aij ] — матрица размеров n × n, то
4.6. Определитель 51
 
 a11 . . . a1n 
 
det A = |A| =  . . . . . . . . .  =
a 
n1 . . . ann

= sgn(σ) aσ(1)1 aσ(2)2 . . . aσ(n)n . ()
σ∈Sn
Частные случаи:
 
 a11 a12 
  = a11 a22 − a21 a12 ,
 a21 a22 
 
 a11 a12 a13 
 
 a21 a22 a23  = a11 a22 a33 + a12 a23 a31 + a13 a21 a32 −
a a a 
31 32 33
− a13 a22 a31 − a12 a21 a33 − a11 a23 a32 .
В общем случае сумма () содержит n! членов, в каждом из
них перемножаются n элементов матрицы, причем никакие два
элемента в одном произведении не принадлежат одной строке
или одному столбцу.
Несмотря на то что определитель вводится как функция от
матрицы, исторически понятие определителя сформировалось в
XVIII веке (сначала в трудах Лейбница и Крамера, затем теория
определителей была развита в работах Вандермонда, Лапласа,
Коши и К. Якоби) — намного раньше понятия матрицы, вве-
денного в алгебру Гамильтоном и Кэли в середине XIX века.
Конечно, с самого начала определитель связывался с квадрат-
ной таблицей n × n чисел (поэтому говорили об определителе
порядка n). Это были, в частности, таблицы коэффициентов
«квадратной» системы линейных алгебраических уравнений. Но
такие таблицы стали называть матрицами позже — когда для
них ввели операцию умножения.
Лекция 5

5.1. Определитель транспонированной матрицы


Пусть имеется прямоугольная матрица размеров m × n:

A = [aij ], 1  i  m, 1  j  n.
Если поменять местами строки и столбцы, то получается новая
матрица — размеров n × m. Она называется транспонированной
по отношению к A и обозначается A :

A = [aji ], 1  j  n, 1  i  m.

Утверждение. Для любой квадратной матрицы det A =


= det A.
Доказательство. Согласно определению транспонированной
матрицы и формуле () из лекции 4 для определителя матрицы
порядка n

det A = sgn(σ) a1 σ(1) . . . an σ(n) =
σ∈Sn

= sgn(σ) aσ−1 (1) 1 . . . aσ−1 (n) n =
σ∈Sn

= sgn(σ −1 ) aσ−1 (1) 1 . . . aσ−1 (n) n = det A.
σ −1 ∈Sn

В последнем равенстве было принято во внимание, что


sgn(σ −1 ) = sgn(σ). 
Задача 1. Докажите, что столбцы вещественной прямоугольной
матрицы A линейно независимы тогда и только тогда, когда линейно
независимы столбцы матрицы A A.
5.2. Определитель как функция столбцов (строк) матрицы 53

5.2. Определитель как функция столбцов (строк)


матрицы
1) Определитель как функция столбцов матрицы является
линейной функцией относительно каждого столбца: если A =
= [a1 , . . . , an ] и ai = αp + βq — линейная комбинация столбцов
p и q , то
det A = α det Ap + β det Aq ,
где матрицы Ap и Aq получаются из A заменой столбца ai
на p и q соответственно.
Доказательство. В соответствии с определением

det A = sgn(σ) aσ(1)1 aσ(2)2 . . . aσ(i)i . . . aσ(n)n =
σ∈Sn

= sgn(σ)aσ(1)1 aσ(2)2 . . . (αpσ(i)i + βqσ(i)i ) . . . aσ(n)n =
σ∈Sn

=α sgn(σ)aσ(1)1 aσ(2)2 . . . pσ(i)i . . . aσ(n)n
σ∈Sn

+β sgn(σ)aσ(1)1 aσ(2)2 . . . qσ(i)i . . . aσ(n)n =
σ∈Sn

= α det Ap + β det Aq . 
2) Определитель меняет знак при перестановке двух столб-
цов.
Доказательство. Пусть матрица B = [bij ] отличается от A
перестановкой столбцов ak и al . Тогда для любой подстановки
σ ∈ Sn
aσ(1)1 . . . aσ(n)n = b(στ )(1)1 . . . b(στ )(n)n ,
где τ = (k , l), и, поскольку транспозиция меняет знак подстанов-
ки,
sgn (στ ) = −sgn (σ).
Легко видеть, что отображение σ → στ задает взаимно-
однозначное соответствие между подстановками. Каждый
член суммы вида () определяется одной и только одной
подстановкой. Подстановки σ и στ в разложениях det A и det B
определяют члены с произведением одних и тех же элементов
(в разном порядке), но с противоположными знаками. Значит,
det A = − det B . 
54 Лекция 5

3) Если столбцы матрицы линейно зависимы, то ее опреде-


литель равен нулю.
Доказательство. Прежде всего заметим, что определитель с
двумя равными столбцами равен нулю, поскольку в силу утвер-
ждения (2) он равен себе самому с противоположным знаком.
Если столбцы a1 , a2 , . . . , an линейно зависимы, то хотя бы
один из них линейно выражается через остальные. Пусть

ai = αk ak .
k=i

Обозначим через B матрицу, полученную из A заменой столбца


ai на 
ai − αk ak = 0.
k=i

Опираясь на уже установленное свойство (1), находим



0 = det B = det A − αk det Ak ,
k=i

где матрица Ak получается из A заменой i-го столбца на ak .


Ясно, что в Ak равны i-й и k -й столбцы, поэтому det Ak = 0.
Таким образом, det A = det B = 0. 
4) Определитель как функция строк матрицы обладает свой-
ствами, аналогичными (1), (2), (3).
Доказательство. Достаточно учесть, что det A = det A , и рас-
смотреть det A как функцию столбцов матрицы A . 
Задача 1. Даны матрицы-столбцы u1 , . . . , uk , v1 , . . . , vk ∈ Rn и
A = u1 v1 + ... + uk vk . Доказать, что det A = 0, если k < n.
Задача 2. Пусть u, v ∈ Rn и I — единичная матрица. Докажите,
что det(I + uv  ) = 1 + v  u.

5.3. Существование индикатора линейной зависимости


Теорема. Индикатор линейной зависимости (функция, на-
деленная свойствами (A), (B), (C) из п. 4.1) существует,
единствен и является определителем.
Свойства (A) и (B) индикатора линейной зависимости сов-
падают с установленными выше свойствами определителя (1)
и (3). Свойство (C) означает, что определитель единичной мат-
рицы равен 1, и является следствием следующего более общего
утверждения.
5.4. Подматрицы и миноры 55

Утверждение. Определитель диагональной матрицы равен


произведению элементов ее диагонали:
⎡ ⎤
a11 0
det ⎣ .. ⎦ = a11 · . . . · ann .
.
0 ann
Доказательство. Для диагональной матрицы в сумме () для
ее определителя есть только одно ненулевое слагаемое, равное
произведению элементов главной диагонали. 

5.4. Подматрицы и миноры


Для заданной матрицы A = [aij ] можно выбрать какие-то из
ее строк и столбцов и составить таблицу элементов, расположен-
ных на пересечении выбранных строк и столбцов. Такая таблица
называется подматрицей матрицы A.
Пусть A — квадратная матрица порядка n. Чтобы за-
дать квадратную подматрицу порядка k , нужно указать но-
мера содержащих ее строк 1  i1 < . . . < ik  n и столб-
цов 1  j1 < . . . < jk  n. Обозначим через Nk множество
всех систем номеров (i1 , . . . , ik ), упорядоченных по возрастанию:
1  i1 < . . . < ik  n. Тогда задание подматрицы равносильно
выбору двух конкретных систем номеров
I = (i1 , . . . , ik ) ∈ Nk , J = (j1 , . . . , jk ) ∈ Nk .
Подматрица на строках с номерами из I и столбцах с номерами
из J обозначается
A(I , J) = [aip jq ], 1  p  k, 1  q  k.
I
Пусть = (i1 , . . . , im )
— еще одна система номеров, упорядо-
ченных по возрастанию: 1  i1 < . . . < im  n. Назовем систему
I  дополнительной для I = (i1 , . . . , ik ), если
{i1 , . . . , ik } ∩ {i1 , . . . , im } = ∅,
{i1 , . . . , ik } ∪ {i1 , . . . , im } = {1, . . . , n}.
Очевидно, что в этом случае k + m = n.
Пусть заданы системы строчных и столбцовых номеров
I , J ∈ Nk , и пусть I  и J  — дополнительные системы для I и J
соответственно. Подматрица A(I  , J  ) порядка m = n − k назы-
вается дополнительной подматрицей по отношению к подматрице
A(I , J) порядка k .
56 Лекция 5

Определитель подматрицы порядка k называется также ми-


нором порядка k , а определитель соответствующей дополнитель-
ной подматрицы — дополнительным минором.

5.5. Замечание о подстановках


Как мы знаем, подстановка σ степени n задается таблицей
 
1 2 ... n
σ= .
σ(1) σ(2) . . . σ(n)
Поскольку отображение полностью определяется указанием со-
ответствий i → σ(i), порядок столбцов в этой таблице не имеет
значения. Другими словами, для любой подстановки π ∈ Sn таб-
лица  
π(1) π(2) . . . π(n)
 = σ(π(1)) σ(π(2)) . . . σ(π(n))
σ

однозначно определяет ту же самую подстановку σ = σ .


При этом очевидно, что четность числа инверсий для σ сов-
падает с четностью суммы числа инверсий для подстановок π
и σπ (поскольку четность числа инверсий для произведения σπ
совпадает с четностью суммы числа инверсий для σ и π ). Отсюда
ясно, что если подстановка задана таблицей вида
 
s(1) s(2) . . . s(n)
t(1) t(2) . . . t(n) , s, t ∈ Sn ,

то ее знак равен произведению знаков подстановок s и t.

5.6. Разбиение множества подстановок


на подмножества
Пусть J = (j1 , . . . , jk ) — фиксированная система номеров и
(j1 , . . . , jm
 ) — система дополнительных номеров. Таким образом,
m = n − k . Возьмем любую систему номеров I = (i1 , . . . , ik ) ∈ Nk
с дополнительной системой номеров (i1 , . . . , im ) и рассмотрим
подстановки степени n вида
  
j1 . . . jk j1 . . . jm
σ = σI ,J (π , τ ) = i   , π ∈ Sk , τ ∈ Sm . (∗)
π(1) . . . iπ(k) iτ (1) . . . iτ (m)

Множество всех таких подстановок при фиксированных I , J обо-


значим
Sn (I , J) = {σI ,J (π , τ ) : π ∈ Sk , τ ∈ Sm }.
5.6. Разбиение множества подстановокна подмножества 57

Любой системе номеров I = (i1 , . . . , ik ) ∈ Nk поставим в соответ-


ствие число
ν(I) = i1 + . . . + ik .
Лемма. При фиксированной системе J подмножества Sn (I , J)
не пересекаются при разных I ∈ Nk и их объединение дает
множество всех подстановок степени n. Кроме того,
sgn(σI ,J (π , τ )) = sgn(π) sgn(τ ) (−1)ν(I)+ν(J) .
Доказательство. Первое утверждение леммы о разбиении Sn
на непересекающиеся подмножества вида Sn (I , J) очевидно.
В силу сделанного выше замечания о подстановках знак
подстановки σI ,J (π , τ ), определяемой таблицей (∗), есть произ-
ведение знаков подстановок вида
 
1 ... k k + 1 ... k + m
j1 . . . jk j1 
. . . jm
и  
1 ... k k + 1 ... k + m
iπ(1) . . . iπ(k) iτ (1) . . . iτ (m) .

Подсчитаем число инверсий для первой подстановки. Принимая


во внимание упорядоченность номеров в системах (j1 , . . . , jk ),
(j1 , . . . , jm
 ) и их взаимную дополнительность, приходим к выводу
о том, инверсию могут образовывать только пары вида
(p, q), где p ∈ {1, . . . , k}, q ∈ {k + 1, . . . , k + m}. (∗∗)
При этом ясно, что j1 порождает j1 − 1 инверсий, j2 порождает
j2 − 2 инверсий и т. д.: общее число инверсий, таким образом,
равно
(j1 − 1) + (j2 − 2) + . . . + (jk − k).
Число инверсий для второй подстановки включает три слагае-
мых:
1) число инверсий среди пар вида вида (∗∗);
2) число инверсий среди пар вида (p, q), где p, q ∈ {1, . . . , k};
3) число инверсий среди пар вида (p, q), где p, q ∈ {k + 1, . . .
. . . , k + m}.
Первое число равно, по аналогии с рассмотренным выше случа-
ем,
(i1 − 1) + (i2 − 2) + . . . + (ik − k),
второе — числу инверсий δ(π) для подстановки π ∈ Sk , третье —
числу инверсий δ(τ ) для подстановки τ ∈ Sm . Таким образом,
58 Лекция 5

четность числа инверсий для подстановки σ(π , τ ) совпадает


с четностью числа
δ(π) + δ(τ ) + (i1 + . . . + ik ) + (j1 + . . . + jk ) =
= δ(π) + δ(τ ) + ν(I) + ν(J). 

5.7. Теорема Лапласа


Теорема Лапласа. Пусть A — квадратная матрица поряд-
ка n. Зафиксируем любую систему k столбцов, выбрав J ∈ Nk .
Тогда вычисление определителя матрицы A сводится к вы-
числению миноров на фиксированных k столбцах и их допол-
нительных миноров:

det A = det A(I , J) det A(I  , J  ) (−1)ν(I)+ν(J) .
I∈Nk

Доказательство. Опираясь на результат предыдущей леммы,


находим

  
det A = (aiπ(1) j1 . . . aiπ(k) jk ) ×
I∈Nk π∈Sk τ ∈Sm

× (aiτ (1) j1 . . . aiτ (m) jm
 )sgn(σ(π , τ )) =


  
= (aiπ(1) j1 . . . aiπ(k) jk ) ×
I∈Nk π∈Sk τ ∈Sm

× (aiτ (1) j1 . . . aiτ (m) jm
 ) sgn(π) sgn(τ )) (−1)ν(I)+ν(J) =


 
= (aiπ(1) j1 . . . aiπ(k) jk ) sgn(π) ×
I∈Nk π∈Sk


× (aiτ (1) j1 . . . aiτ (m) jm
 ) sgn(τ )) (−1)ν(I)+ν(J) .
τ ∈Sm

Остается заметить, что первая и вторая скобки дают


det A(I , J) и det A(I  , J  ) соответственно. 
5.8. Определитель блочно-треугольной матрицы 59

Величину det A(I  , J  )(−1)ν(I)+ν(J) называют алгебраи-


ческим дополнением минора det A(I , J). Таким образом,
теорема Лапласа утверждает, что при выборе любой системы
столбцов определитель матрицы равен сумме всевозможных
расположенных на заданных столбцах миноров, умноженных
на их алгебраические дополнения.
Поскольку det A = det A , имеет место и такой вариант тео-
ремы Лапласа: при выборе любой системы строк определи-
тель матрицы равен сумме всевозможных расположенных на
данных строках миноров, умноженных на их алгебраические
дополнения.
Задача 1. Матрица B с определителем b = det B получена из
матрицы A с определителем a = det A прибавлением числа c = 0 к
каждому элементу. Найти суммы алгебраических дополнений всех
элементов (подматриц порядка 1) для A и для B .
Задача 2. В (n × n)-матрице имется единственный минор порядка
r < n, отличный от нуля. Докажите, что все миноры порядка k  r + 1
равны нулю.
Задача 3. Пусть A — матрица порядка n с элементами aij = ±1.
Докажите, что если n = 4, то | det A|  16, и постройте матрицу, для
которой det A = 16. 1)

5.8. Определитель блочно-треугольной матрицы


Рассмотрим блочно-треугольную матрицу порядка n:


P R
A= , P ∈ Rk×k , Q ∈ Rm×m , k + m = n.
0 Q
Применение теоремы Лапласа к системе первых k столбцов (или
строк) сразу же дает полезную формулу
det A = det P det Q.

1)
В общем случае можно доказать, что если |aij |  1, то | det A|  nn/2 (см.
п. 25.8). Матрицы с элементами ±1, для которых | det A| = nn/2 , называются
матрицами Адамара. Нетрудно установить, что матрицы Адамара существуют
не для всех n. Имеется гипотеза о том, что матрицы Адамара существуют для
всех n, кратных 4.
Лекция 6

6.1. Обратная матрица


Матрица A порядка n называется обратимой, если суще-
ствует матрица X порядка n такая, что
AX = XA = I ,
где I — единичная матрица порядка n; X называется обратной
матрицей для A.
Может существовать только одна обратная матрица: если
AX = XA = I и AY = Y A = I , то X = X(AY ) = (XA)Y = Y .
Обозначение для обратной матрицы: X = A−1 .
Задача 1. Пусть A, B — произвольные матрицы порядка n; I и
0 — единичная и нулевая матрицы порядка n. Доказать, что
 −1  
I A 0 I −A AB
0 I B = 0 I −B .
0 0 I 0 0 I
(Отсюда следует, что любой алгоритм вычисления обратной матрицы
порядка n с числом операций s(n) порождает алгоритм умножения
матриц порядка n с числом операций s(3n)).
Задача 2. Дана квадратная матрица A такая, что A3 = 0. Дока-
жите, что матрица I − A обратима.
Задача 3. Найти все обратимые матрицы A порядка n, для кото-
рых все элементы A и A−1 неотрицательны. Доказать, что множество
всех таких матриц образует группу относительно операции умножения
матриц.
Задача 4. Даны матрицы P1 , . . . , Pn порядка n, каждая отлича-
ется от единичной матрицы перестановкой столбцов (такие матрицы
называются матрицами перестановки). Пусть P1 + ... + Pn = E , где
E — матрица, все элементы которой равны 1. Кроме того, пусть
Pi Pj = Pj Pi для всех i, j . Докажите, что множество матриц P1 , . . . , Pn
образует группу относительно операции умножения матриц.
6.2. Критерий обратимости матрицы 61

6.2. Критерий обратимости матрицы


Теорема. Квадратная матрица обратима тогда и только
тогда, когда ее столбцы образуют линейно независимую сис-
тему.
Доказательство. Пусть матрица A порядка n имеет линейно
независимые столбцы. Согласно результатам лекции 3 о совмест-
ности систем линейных алгебраических уравнений, каждая из
систем
Ax1 = e1 , Ax2 = e2 , . . . , Axn = en ,

где e1 , e2 , . . . , en — столбцы единичной матрицы, имеет един-


ственное решение. Пусть X = [x1 , x2 , . . . , xn ]. Тогда AX = I .
Столбцы матрицы X линейно независимы. В самом деле,
пусть некоторая линейная комбинация этих столбцов равна ну-
лю:
α1 x1 + α2 x2 + . . . + αn xn = 0.

Это означает, что ⎡ ⎤


α1
⎢α ⎥
X ⎣ 2 ⎦ = 0.
...
αn
Следовательно,
⎡ ⎤ ⎡ ⎤
α1 α1
⎢α ⎥ ⎢ α2 ⎥
AX ⎣ 2 ⎦ = ⎣
... ⎦
= 0.
...
αn αn
Отсюда α1 = α2 = . . . = αn = 0. Таким образом, для X существу-
ет матрица Y такая, что XY = I . Докажем, что Y = A. В самом
деле, A = A(XY ) = (AX)Y = Y. 1)
Теперь предположим, что A = [a1 , . . . , an ] — обратимая мат-
рица, и рассмотрим равную нулю линейную комбинацию ее
столбцов:
α1 a1 + α2 a2 + . . . + αn an = 0.

1)
По существу, здесь воспроизводится часть доказательства более общего
утверждения, связанного с избыточностью рассмотренного нами определения
группы (см. дополнение к лекции 2).
62 Лекция 6

Данное равенство запишем в следующем виде:


⎡ ⎤
α1
⎢α ⎥
A ⎣ . .2. ⎦ = 0.
αn
Умножая обе части слева на A−1 , находим: α1 = . . . = αn = 0.
Следовательно, столбцы a1 , . . . , an линейно независимы. 

6.3. Обращение и транспонирование


Утверждение. (AB) = B  A . 
Доказательство. (AB)ij = (A)ik (B)kj = (B)kj (A)ik =
  k k
= (B )jk (A )ki = (B  A )ji . 
k
Из равенства AX = XA = I получаем: X  A = A X  = I .
Таким образом, матрица обратима тогда и только тогда,
когда обратима ее транспонированная матрица. При этом
X  = (A )−1 = (A−1 ) .
Обозначение: A− ≡ (A−1 ) .
Как следствие получаем «строчный» аналог критерия обра-
тимости матрицы: обратимость квадратной матрицы равно-
сильна линейной независимости ее строк.

6.4. Группа обратимых матриц


Множество обратимых (n × n)-матриц относительно опера-
ции умножения образует группу. Для доказательства есть все,
кроме факта обратимости произведения обратимых матриц. Но
он проверяется непосредственно: если A и B обратимы, то
(B −1 A−1 )(AB) = B −1 (A−1 A)B = B −1 I B = I ,
(AB)(B −1 A−1 ) = A(BB −1 )A−1 = A−1 I A = I.
Отсюда
(AB)−1 = B −1 A−1 .

Задача 1. Пусть H — группа невырожденных верхних треуголь-


ных матриц порядка n, G — группа всех обратимых матриц порядка n.
Верно ли, что ABA−1 ∈ H для любых матриц B ∈ H и A ∈ G (в этом
случае подгруппа H называется нормальным делителем группы G)?
6.5. Обращение невырожденной матрицы 63

6.5. Обращение невырожденной матрицы


Квадратная матрица с отличным от нуля определителем на-
зывается невырожденной.
Пусть A = [Aij ] — матрица порядка n, в которой элемент Aij
есть алгебраическое дополнение элемента aij в матрице A. Мат-
рица A называется присоединенной для матрицы A.
Теорема. Если матрица A порядка n невырожденная, то она
обратима и при этом
1 
A−1 = A ,
det A
 — присоединенная матрица для A.
где A
Доказательство. Заметим, что
n 
det A, k = i,
aij Akj = 0, k = i. (∗)
j=1

При k = i равенство (∗) получается применением теоремы Лапла-


са при разложении определителя матрицы A по k -й строке. При
k = i левая часть равенства (∗) представляет собой разложение
по k -й строке определителя матрицы, полученной из A заменой
k -й строки на i-ю. Такой определитель равен нулю — как опреде-
литель матрицы с двумя одинаковыми строками. Например, если
n = 3, i = 1, k = 2, то
a11 A21 + a12 A22 + a13 A23 =
       
a12 a13  a11 a13  a11 a12 
= a11 −    
+ a12   + a13 −   =
a32 a33  a31 a33  a31 a32 
 
a11 a12 a13 
 
= a11 a12 a13  = 0.
a a a 
31 32 33

Далее,

n 
n
aij Akj = aij (A  )jk , 1  i, k  n.
j=1 j=1

Поэтому, в силу соотношений (∗),


⎡ det A ⎤

AA =⎣ .. ⎦ = det A · I.
.
det A
64 Лекция 6

Используя теорему Лапласа для разложения определителя по


k -му столбцу, находим
n 
det A, k = j ,
aij Aik = 0, k = j ⇒
i=1
⎡ ⎤
det A 0
⇒ A  A = ⎣ ..
. ⎦ = det A · I. 
0 det A

Задача 1. Докажите, что любую невырожденную матрицу можно


сделать вырожденной, изменив лишь один из ее элементов.

6.6. Правило Крамера


Теорема. Пусть A — невырожденная матрица порядка n.
Тогда система линейных алгебраических уравнений Ax = b
имеет и притом единственное решение x c компонентами
det Ai
xi = , 1  i  n,
det A
где Ai — матрица, получаемая из A заменой i-го столбца
на b.
Доказательство. Согласно теореме об обращении невырожден-
ной матрицы,

1 1 
n
x=A−1
b=  
A b ⇒ xi = Aji bj , 1  i  n.
det A det A
j=1


n
Остается заметить, что сумма Aji bj есть разложение по i-му
j=1
столбцу определителя матрицы Ai . 

6.7. Определитель произведения матриц


Теорема. Определитель произведения квадратных матриц
равен произведению их определителей.
Доказательство. Пусть A = [a1 , . . . , an ] — матрица порядка n
со столбцами a1 , . . . , an и B = [bij ]. Тогда любой столбец матри-
6.8. Обратимость и невырожденность 65

цы AB есть линейная комбинация столбцов матрицы A с коэф-


фициентами из соответствующего столбца матрицы B :
 n 
 
n
AB = bi1 1 ai1 , . . . , bin n ain .
i1 =1 in =1

Используя линейность определителя по каждому столбцу, полу-


чаем
n 
n
det(AB) = ... bi1 1 . . . bin n det[ai1 , . . . , ain ] =
i1 =1 in =1

= bσ(1)1 . . . bσ(n)n det[aσ(1) , . . . , aσ(n) ] =
σ∈Sn


= bσ(1)1 . . . bσ(n)n sgn(σ) det A =
σ∈Sn
= det B · det A. 

Задача 1. Пусть P — обратимая матрица порядка n. Докажите,


что для любых столбцов u, v ∈ Rn×1 выполняется равенство det(I +
+ uv  ) = det(I + (P u)(P − v) ).
Задача 2. Докажите, что определитель трехдиагональной матри-
цы не изменится, если каждый наддиагональный элемент умножить,
а каждый поддиагональный элемент поделить на одно и то же число.

6.8. Обратимость и невырожденность


Теорема. Квадратная матрица обратима тогда и только
тогда, когда она является невырожденной.
Доказательство. Пусть для матрицы A существует обратная
матрица A−1 . Тогда AA−1 = I и, в силу теоремы об определителе
произведения матриц,
det A · det A−1 = det I = 1 ⇒ det A = 0.
Если det A = 0, то A обратима по теореме об обращении невы-
рожденной матрицы. 
Следствие. Столбцы матрицы A линейно независимы тогда
и только тогда, когда det A = 0.
Задача 1. Пусть In и Im — единичные матрицы порядка n и m
соответственно. Докажите, что для любых матриц A размеров m × n
и B размеров n × m из обратимости Im − AB вытекает обратимость
3 Е. Е. Тыртышников
66 Лекция 6

In − BA. Докажите также, что обратимость каждой из этих матриц


равносильна обратимости матрицы порядка m + n с блочным разбие-
нием вида  
Im A
B In .

Задача 2. Даны числа a и b такие, что 1 − ab = 0. Докажите, что


матрица ⎡ ⎤
1 a a2 ... an
⎢b 1 a ... an−1 ⎥
⎢ ⎥
A = ⎢ b2 b 1 ... an−2 ⎥
⎣ ... ... ... ... ... ⎦
bn bn−1 bn−2 ... 1
обратима и обратная к ней матрица является трехдиагональной.
Задача 3. Пусть в условии предыдущей задачи a и b — квадратные
блоки порядка n, а 1 заменяется единичной матрицей I того же поряд-
ка. Докажите, что если блок I − ab является обратимой матрицей, то
блочная матрица A с блоками порядка n обратима и при этом обратная
к ней матрица является блочно-трехдиагональной.
Лекция 7

7.1. Разделение переменных и матрицы


При изучении функций двух переменных особую роль играют
функции с разделенными переменными, f (x, y) = u(x)v(y), или
суммы таких функций: 1)
f (x, y) = u1 (x)v1 (x) + . . . + ur (x)vr (y).
Пусть дана (m × n)-матрица A. Ее элемент aij можно рассмат-
ривать как функцию дискретных переменных i ∈ {1, . . . , m},
j ∈ {1, . . . , n}. В данном случае разделение переменных означа-
ет, что
aij = ui vj , 1  i  m, 1  j  n.
Отсюда легко вывести, что A есть произведение столбца и стро-
ки: 2)    
u1 v1

A = uv , u = ... , v = ... .
um vn

7.2. Скелетное разложение


Теперь предположим, что aij = ui1 vj 1 + . . . + uir vjr , 1  i  m,
1  j  n. В этом случае A является суммой r матриц вида
«столбец на строку»:
   
 r u1k v1k
A= uk vk , uk = . . . , vk = . . . .
k=1 umk vnk

1)
Разделение переменных с большим успехом применяется для приближе-
ния функций общего вида.
2)
Матрица uv  иногда называется внешним произведением векторов u ∈
∈ Cm и v ∈ Cn .

3*
68 Лекция 7

Это же равенство, записанное в виде произведения двух матриц:


  
u11 . . . u1r v11 . . . vn1

A = UV = ... ... ... ... ... ... , (∗)
um1 . . . umr v1r . . . unr
U = [u1 , . . . , ur ], V = [v1 , . . . , vr ],
называется скелетным разложением матрицы A. Оно означа-
ет, что каждый столбец матрицы A есть линейная комбинация
столбцов матрицы U , а каждая строка матрицы A есть линейная
комбинация строк матрицы V  . Отсюда сразу же вытекает
Теорема. Размерность линейной оболочки, натянутой на
столбцы матрицы A, совпадает с размерностью линейной
оболочки, натянутой на ее строки:
a , ... , 
dim L(a1 , . . . , an ) = dim L( a ),
⎡ 1 ⎤ m

a1
A = [a1 , . . . , an ] = ⎣ . . . ⎦ .
a
 m
Доказательство. Пусть столбцы матрицы U образуют базис
линейной оболочки L(a1 , . . . , an ), а j -й столбец матрицы V 
состоит из коэффициентов их линейной комбинации, дающей
столбец aj . Тогда, очевидно, A = U V  . В силу предваряющего
теорему замечания размерность линейной оболочки строк матри-
цы A не выше числа строк матрицы V  , которое равно, по по-
строению, размерности линейной оболочки столбцов матрицы A.
Противоположное неравенство доказывается аналогично — роль
столбцов и строк меняется транспонированием. 

7.3. Ранг матрицы


Размерность линейной оболочки столбцов (строк) матрицы
иногда называется ее столбцовым (строчным) рангом. Поскольку
столбцовый и строчный ранги совпадают, их общее значение
было бы естественно называть просто рангом матрицы. Из про-
веденного нами доказательства этого факта вытекает также, что
это значение равно наименьшему числу матриц вида «столбец на
строку», дающих в сумме данную матрицу.
Тем не менее обычно дается другое определение: рангом
матрицы называется наивысший порядок ее отличных от ну-
ля миноров. Соответствующие минор и подматрица называются
базисным минором и базисной подматрицей. В силу уже уста-
новленной эквивалентности обратимости и невырожденности,
7.4. Окаймление обратимой подматрицы 69

ранг матрицы равен наивысшему порядку обратимых подматриц


в данной матрице. Обозначение: rank A.
Два очевидных свойства ранга матрицы A размеров m × n:
rank A  min(m, n), rank A = rank A .
Менее очевидно, что: наивысший порядок отличных от ну-
ля миноров матрицы совпадает с ее столбцовым и строчным
рангом. Давайте это докажем.

7.4. Окаймление обратимой подматрицы


Начнем с полезного вспомогательного предложения. Пусть
матрица Q порядка k + 1 имеет блочный вид:


P v
Q= , P ∈ Rk×k , u, v ∈ Rk×1 .
u c
В этом случае Q называется окаймлением подматрицы P .
Лемма о необратимом окаймлении. Если подматрица P об-
ратима, а ее окаймление Q является необратимой матрицей,
то последний столбец матрицы Q есть линейная комбинация
первых k столбцов.
Доказательство. Используя правило умножения блочных мат-
риц (см. лекцию 1), легко проверить справедливость равенства




I 0 P v P v
= 0 γ , γ = c − u P −1 v.
−u P −1 1 u c
Обозначим матрицу в правой части через M . Как произведение
обратимой и необратимой матриц, M не может быть обратимой
матрицей. Но она имеет блочно-треугольный вид, и если бы
блоки P и γ были оба обратимы, то M имела бы обратную
матрицу вида
−1
−1 P −P −1 vγ −1
M = .
0 γ −1
(Равенство M M −1 = I проверяется непосредственно.) Поскольку
M не является обратимой матрицей, непременно
γ = c − u P − 1 v = 0 ⇒ c = u P −1 v.
Следовательно,


P −1 v
(P v) = . 
u c
70 Лекция 7

7.5. Теорема о базисном миноре


Теорема. Столбцы (строки), содержащие базисный минор,
являются линейно независимыми, при этом любой столбец
(любая строка) данной матрицы является их линейной ком-
бинацией.
Доказательство. Не ограничивая общности, предположим, что
базисная подматрица P порядка k расположена в левом верхнем
углу матрицы A размеров m × n. Таким образом,
⎡ P vk+1 ... vn ⎤
⎢ u a . . . ak+1 n ⎥
A = ⎣ k+1 k+1 k+1
... ... ⎦
,
... ...

um am k+1 . . . amn

uk+1 , . . . , um , vk+1 , . . . , vn ∈ Rk×1 .


По условию теоремы любая подматрица порядка k + 1 вида


P vj
M= , i, j > k ,
u
i aij

является необратимой. По лемме о необратимом окаймлении


обратимой подматрицы последний столбец в M есть линейная
комбинация первых k столбцов. При этом коэффициенты данной
линейной комбинации не зависят от i (поскольку определяются
вектором P −1 vj ). Значит, j -й столбец матрицы A при j > k
есть линейная комбинация первых k столбцов. Линейная неза-
висимость первых k столбцов доказывается следующим образом:
пусть их линейная комбинация с коэффициентами α1 , . . . , αk
равна 0, тогда
   
α1 α1
P ... = 0 ⇒ . . . = 0.
αk αk
Утверждение теоремы относительно строк доказывается перехо-
дом к транспонированной матрице. 
Следствие 1. Матрица имеет ранг r тогда и только тогда,
когда некоторый минор порядка r отличен от нуля, а все
окаймляющие его миноры порядка r + 1 равны нулю.
Следствие 2. Ранг матрицы совпадает с ее строчным
и столбцовым рангом.
7.6. Ранги и матричные операции 71

Замечание. Теорема о базисном миноре не использует доказан-


ной ранее теоремы о равенстве столбцового и строчного рангов.
По существу она дает еще одно доказательство этого факта.
Задача 1. Путь A — (n × n)-матрица ранга k, а B — любая
невырожденная подматрица порядка k. Обозначим через R подматрицу
размеров k × n, состоящую из строк матрицы A, содержащих подматри-
цу B , а через C — подматрицу размеров n × k, состоящую из столбцов,
содержащих B . Доказать, что
A = CB −1 R.

Задача 2. Докажите, что подматрица, расположенная на пересече-


нии r линейно независимых строк и r линейно независимых столбцов
матрицы ранга r , является невырожденной.
Задача 3. Известно, что A = −A. Докажите, что ранг матри-
цы A — число четное.

7.6. Ранги и матричные операции


Утверждение 1. Ранг суммы матриц не превосходит суммы
их рангов:
rank (A + B)  rank A + rank B.

Доказательство. Очевидно, что A и B должны иметь одинако-


вое число столбцов:
A = [a1 , . . . , an ], B = [b1 , . . . , bn ].
Ясно, что L(a1 + b1 , . . . , an + bn ) ⊂ L(a1 , . . . , an , b1 , . . . , bn ).
В меньшей линейной оболочке выберем какую-либо систему век-
торов, образующую базис. Согласно лемме о дополнении до ба-
зиса, базис в большей линейной оболочке можно получить путем
дополнения данной системы какими-то векторами из большей
линейной оболочки. Поэтому
rank (A + B) = dim L(a1 + b1 , . . . , an + bn ) 
 dim L(a1 , . . . , an , b1 , . . . , bn ).
Пусть p = rank A, q = rank B , и предположим, не огра-
ничивая общности, что базис в L(a1 , . . . , an ) образуют первые
p векторов, а базис в L(b1 , . . . , bn ) — первые q векторов. То-
гда L(a1 , . . . , an , b1 , . . . , bn ) = L(a1 , . . . , ap , b1 , . . . , bq ) ⇒
dim L(a1 , . . . , an , b1 , . . . , bn )  p + q. 
72 Лекция 7

Утверждение 2. Ранг произведения матриц не превосходит


ранга каждого из сомножителей:

rank (AB)  min (rank A, rank B).

Доказательство. Достаточно заметить, что каждый из столбцов


матрицы AB является линейной комбинацией столбцов матри-
цы A. Поэтому линейная оболочка столбцов матрицы AB содер-
жится в линейной оболочке столбцов матрицы A. Следовательно,
rank (AB)  rank A. Далее,

rank (AB) = rank (AB) = rank (B  A )  rank B  =


= rank B. 
Утверждение 3. Ранг матрицы не изменяется при умножении
ее слева или справа на обратимую матрицу.
Доказательство. Пусть B = P AQ, где P и Q — обратимые
матрицы. 1) В силу предыдущего утверждения rank B  rank A.
В то же время A = P −1 BQ−1 ⇒ rank A  rank B . 
Данное утверждение полезно при вычислении ранга. Обычно
это делается с помощью элементарных преобразований строк
и столбцов, упрощающих вид матрицы путем исключения ее
элементов; эти преобразования сводятся к умножению матрицы
слева и справа на некоторые обратимые матрицы (специального
вида) и поэтому сохраняют ранг.
Утверждение 4. При изменении k строк (столбцов) матрицы
ее ранг не может измениться больше чем на k .
Доказательство. Достаточно рассмотреть случай k = 1. Пусть
ранг равен r, а столбцы aj1 , . . . , ajr являются базисными. Если
столбец aj совпадает с одним из этих столбцов, то при любом
его изменении данная система столбцов будет иметь линейно
независимую подсистему с числом столбцов r − 1. Поэтому ранг
новой матрицы не меньше чем r − 1 и, конечно, не больше r.
Если столбец aj не совпадает ни с одним из выбранных базисных
столбцов, то любой столбец новой матрицы линейно выражается
через столбцы aj1 , . . . , ajr , aj , поэтому ее ранг не больше чем
r + 1 и не меньше чем r, так как имеется система из r линейно
независимых столбцов aj1 , . . . , ajr . 

1)
Конечно, порядок P равен числу строк, а порядок Q — числу столбцов
матрицы A.
7.7. Однородная система линейных алгебраических уравнений 73

Следствие. При добавлении (изъятии) k столбцов ранг мат-


рицы не может измениться более чем на k .
Задача 1. Пусть A и B — матрицы ранга 1. Докажите, что если
 0, то ранг матрицы A + B не больше 1.
AB =
Задача 2. Заданы столбцы x, y ∈ Rn , причем x = 0. Докажите,
что существует симметричная матрица A ∈ Rn×n такая, что rankA  2
и Ax = y .
Задача 3. Матрица A имеет r столбцов, а матрица B имеет r
строк. Докажите, что r  rank(A) + rank(B) − rank(AB).
Задача 4. Докажите, что любую матрицу ранга r с неотрица-
тельными элементами можно представить в виде разности матриц
с неотрицательными элементами и рангом, не превышающим 2r .

7.7. Однородная система линейных алгебраических


уравнений
Система линейных алгебраических уравнений с нулевой пра-
вой частью
Ax = 0 (∗)
называется однородной. Пусть в данной системе имеется m
уравнений и n неизвестных. Тогда матрица коэффициентов A
имеет размеры m × n. Рассмотрим A как систему столбцов
A = [a1 , . . . , an ] и предположим, что ее ранг равен r. Не огра-
ничивая общности, будем считать, что базисная подматрица в A
расположена на первых r столбцах — будем называть их ба-
зисными. Отвечающие базисным столбцам компоненты реше-
ния x1 , . . . , xr будем также называть базисными, а оставшие-
ся компоненты xr+1 , . . . , xn — свободными. Таким образом,
вектор-решение имеет вид
⎡ ⎤
x1
⎢ ... ⎥
⎢ ⎥
⎢ xr ⎥
x=⎢ ⎢x
⎥.

⎢ r+1 ⎥
⎣ ... ⎦
xn
Система (∗) равносильна равенству
x1 a1 + . . . + xr ar = −xr+1 ar+1 − . . . − xn an . (∗∗)
74 Лекция 7

По теореме о базисной подматрице столбцы ar+1 , . . . , an при-


надлежат линейной оболочке столбцов a1 , . . . , ar . Поэтому при
любом выборе значений свободных неизвестных значения базис-
ных неизвестных, удовлетворяющих равенству (∗∗), существуют
и определяются однозначно. Таким образом, существуют n − r
векторов вида
⎡ ⎤ ⎡ ⎤ ⎡ ⎤
x11 x12 x1 n−r
⎢ ... ⎥ ⎢ ... ⎥ ⎢ ... ⎥
⎢x ⎥ ⎢x ⎥ ⎢x ⎥
⎢ r1 ⎥ ⎢ r2 ⎥ ⎢ r n−r ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
v1 = ⎢ 1 ⎥ , v2 = ⎢ 0 ⎥ , . . . , vn−r = ⎢ 0 ⎥ ,
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ 0 ⎥ ⎢ 1 ⎥ ⎢ 0 ⎥
⎣ ⎦ ⎣ ⎦ ⎣ ⎦
... ... ...
0 0 1
каждый из который является решением системы (∗):
Av1 = 0, . . . , Avn−r = 0.
Векторы v1 , . . . , vn−r линейно независимы:
⎡ ⎤

⎢ ... ⎥
⎢ ∗ ⎥
⎢ ⎥
⎢ ⎥
α1 v1 + . . . + αn−r vn−r = ⎢ α1 ⎥ = 0 ⇒ α1 = . . . = αn−r = 0.
⎢ ⎥
⎢ α2 ⎥
⎣ ⎦
...
αn−r
Кроме того, любая линейная комбинация этих векторов является
решением системы (∗) и, более того, если x есть произвольное
решение системы (∗), то
x = xr+1 v1 + . . . + xn vn−r .
Таким образом, мы доказали следующее важное утверждение.
Теорема. Множество решений однородной системы линейных
алгебраических уравнений (∗) совпадает с линейной оболочкой
L(v1 , . . . , vn−r ) линейно независимых векторов v1 , . . . , vn−r .
Следствие. dim L(v1 , . . . , vn−r ) = n − r.
Линейно независимую систему решений w1 , . . . , wk системы
Ax = 0 называют фундаментальной системой, если ее линей-
ная оболочка L(w1 , . . . , wk ) совпадает с множеством всех реше-
ний однородной системы Ax = 0.
Следствие. Число векторов в любой фундаментальной систе-
ме решений для Ax = 0 равно n − r, где r = rank A.
7.9. Общее решение системы линейных алгебраических уравнений 75

Для доказательства достаточно заметить, что линейная обо-


лочка векторов фундаментальной системы решений имеет базис
из построенных выше векторов v1 , . . . , vn−r .
Задача 1. Даны матрицы A и B порядка n такие, что AB = 0
и при этом матрица A + B невырожденная. Доказать, что rankA +
+ rankB = n.

7.8. Теорема Кронекера–Капелли


Рассмотрим систему линейных алгебраических уравнений
Ax = b с (m × n)-матрицей A = [a1 , . . . , an ]. Матрица [A, b] =
= [a1 , . . . , an , b] называется расширенной матрицей данной си-
стемы.
Теорема. Система Ax = b совместна тогда и только тогда,
когда ранг матрицы коэффициентов совпадает с рангом рас-
ширенной матрицы:
rankA = rank[A, b].

Доказательство. Мы уже знаем (см. лекцию 3), что совмест-


ность системы Ax = b равносильна равенству линейных обо-
лочек L(a1 , . . . , an ) = L(a1 , . . . , an , b). Остается заметить, что
rank A = dim L(a1 , . . . , an ) и rank [A, b] = dim L(a1 , . . . , an , b). 

7.9. Общее решение системы линейных


алгебраических уравнений
Если U и V — два множества векторов из Rn , то суммой U +
+ V называется множество, составленное из всевозможных сумм
векторов вида u + v , где u ∈ U , v ∈ V .
Теорема. Предположим, что система Ax = b совместна, и за-
фиксируем произвольное частное решение u (Au = b). Тогда
множество всех решений системы Ax = b имеет вид u + V , где
V — множество всех решений соответствующей однородной
системы Ax = 0.
Доказательство. Пусть x — произвольное решение системы
Ax = b. Тогда, очевидно, A(x − u) = 0 ⇒ x − u ∈ V ⇒
x ∈ u + V . Далее, возьмем произвольный вектор x ∈ u + V ⇒
x = u + v , v ∈ V ⇒ A(u + v) = Au + Av = b + 0 = b. 
Следствие. Общее решение совместной системы Ax = b имеет
вид
x = u + c1 v1 + . . . + cn−r vn−r ,
76 Лекция 7

где u — произвольное частное решение данной системы,


v1 , . . . , vn−r — линейно независимые решения соответству-
ющей однородной системы, r = rank A, а коэффициенты
c1 , . . . , cn−r — произвольные числа.
Задача 1. Что можно сказать о матрице и правой части системы
Ax = b относительно вектора x ∈ Rn , если ее решением является любой
вектор из Rn ?

7.10. Неустойчивость ранга


Матрица называется матрицей полного ранга, если ее ранг
совпадает с одним из ее размеров (т. е. имеет максимально
возможное значение). В противном случае говорят о матрице
неполного ранга.
Можно доказать, что если A есть (m × n)-матрица полного
ранга, то при всех достаточно малых ε > 0 матрица A + F ,
где все элементы матрицы–возмущения F по модулю меньше ε,
будет также матрицей полного ранга. Для этого достаточно за-
метить, что любой минор можно рассматривать как функцию его
элементов, и это будет непрерывная функция. Если при неко-
торых значениях переменных непрерывная функция отлична от
нуля, то она будет отлична от нуля также в некоторой достаточно
малой окрестности этих значений.
В то же время, если A имеет неполный ранг, то для лю-
бого сколь угодно малого ε существует матрица–возмущение F
с элементами по модулю не больше ε и такая, что A + F будет
матрицей полного ранга. Например, матрица
 
1 0 0 0
A= 0 1 0 0
0 0 0 0
имеет ранг 2, но для любого ε = 0 матрица
 
1 0 0 0
A= 0 1 0 0
0 0 ε 0
имеет, очевидно, ранг 3.
Лекция 8

8.1. Исключение неизвестных


Если задана система линейных алгебраических уравнений
Ax = b и требуется найти ее общее решение или установить
несовместность, то это удобнее всего сделать путем последова-
тельного исключения неизвестных: если в каком-то уравнении
коэффициент при x1 отличен от нуля, то можно исключить x1
из всех других уравнений путем вычитания данного уравнения,
предварительно умноженного на подходящим образом выбран-
ные коэффициенты; если среди уравнений, уже не содержащих
x1 , имеется уравнение с ненулевым коэффициентом при x2 , то x2
можно аналогичным образом исключить из всех других уравне-
ний, кроме данного и первого уравнения, содержащего x1 , и т. д.
На каждом шаге исключения получается новая система, ко-
торая, очевидно, равносильна исходной. Если возникло уравне-
ние, в котором все коэффициенты при неизвестных равны нулю,
а в правой части получилось отличное от нуля число, то система
не имеет решений. В противном случае система совместна и
описанный способ позволяет с легкостью выписать ее общее
решение.

8.2. Элементарные матрицы


Каждый шаг описанного выше исключения неизвестных
преобразует систему Ax = b в равносильную систему вида
(P A)x = P b, где P — некоторая обратимая матрица. Если по-
требовалось k шагов, то в итоге возникает последовательность
равносильных систем
Ax = b, (P1 A)x = P1 b, (P2 P1 A)x = P2 P1 b, . . .
. . . , (Pk . . . P2 P1 A)x = Pk . . . P2 P1 b.
78 Лекция 8

Матрица коэффициентов последней системы имеет настолько


простой вид, что решение соответствующей системы осуществ-
ляется уже очевидным образом.
Цель каждого шага — получение дополнительных нулей, или,
как часто говорят, исключение элементов в матрице преобразо-
ванной системы. Чтобы пояснить, как это делается, рассмотрим
матрицу A размеров 4 × 6, заведомо нулевые элементы будем
обозначать «ноликом», произвольные элементы — «крестиком»,
а заведомо ненулевые элементы — «крестиком в рамочке». Если
a11 = 0, то из каждой строки с номером i > 1 можно вычесть
первую с коэффициентом, дающим нуль в позиции (i, 1):
⎡ ⎤ ⎡ ⎤
 × × × × ×  × × × × ×
⎢ × × × × × ×⎥ ⎢ 0 × × × × ×⎥
⎣ × × × × × ×⎦ → ⎣ 0 × × × × ×⎦ .
× × × × × × 0 × × × × ×
В дальнейшем первые строка и столбец остаются без изменений.
Если во втором столбце имеется ненулевой элемент, делаем
соответствующую строку второй и с ее помощью исключаем все
остальные элементы второго столбца:
⎡ ⎤ ⎡ ⎤
 × × × × ×  × × × × ×
⎢ 0  × × × ×⎥ ⎢ 0  × × × ×⎥
⎣ 0 × × × × ×⎦ → ⎣ 0 0 × × × ×⎦ .
0 × × × × × 0 0 × × × ×
Первые два столбца и первые две строки меняться больше не
будут. Может случиться так, что у нас получились «внеплано-
вые» нулевые столбцы. Например, если оставшиеся «крестики»
в третьем и четвертом столбцах оказались нулями, то следует
проводить исключение с помощью ненулевого элемента в пятом
столбце (если таковой есть):
⎡ ⎤ ⎡ ⎤
 × × × × ×  × × × × ×
⎢ 0  × × × ×⎥ ⎢ 0  × × × ×⎥
⎣ 0 0 0 0  ×⎦ → ⎣ 0 0 0 0  ×⎦ .
0 0 0 0 × × 0 0 0 0 0 ×
Кажый шаг, очевидно, сводится к умножению матрицы слева
на некоторую матрицу Pl . При этом каждая из матриц Pl , 1  l 
 k , может быть представлена как произведение двух матриц:
Pl = Zl Πl ,
8.2. Элементарные матрицы 79

где Zl отличается от I (единичной матрицы) только в позициях


ниже главной диагонали какого-то одного (пусть j -го) столбца:
⎡ ⎤
1
⎢ .. ⎥
⎢ . ⎥
⎢ ⎥
⎢ 1 ⎥
Zl = ⎢ ⎥,
⎢ (Zl )j+1 j ⎥
⎢ . ⎥
⎣ ... . . ⎦
(Zl )nj 1

а Πl получается из I перестановкой столбцов (или строк). Мат-


рицы Πl и Zl указанного специального вида будем для краткости
называть элементарными матрицами; матрица Πl называет-
ся матрицей перестановки, а Zl — матрицей модификации
строк. Их роль в процессе исключения объясняется следующи-
ми фактами:
• матрица Πl A отличается от A перестановкой строк;
• если Zl отличается от единичной матрицы j -м столбцом, то
матрица Zl A имеет те же первые j строк, что и в матри-
це A, а i-я строка при i > j есть сумма i-й строки и взятой
с некоторым коэффициентом j -й строки матрицы A.
Утверждение 1. Любая матрица перестановки Π обратима
и при этом
Π−1 = Π .

Утверждение 2. Любая матрица модификации строк Z = Zl


обратима и при этом обратная матрица получается из Z
изменением знаков поддиагональных элементов:
⎡ ⎤
1
⎢ .. ⎥
⎢ . ⎥
⎢ ⎥
⎢ 1 ⎥
Z −1 = ⎢ −(Zl )j+1 j ⎥.
⎢ ⎥
⎢ . ⎥
⎣ ... .. ⎦
−(Zl )nj 1

Доказательство сводится к непосредственной проверке равенств


ΠΠ−1 = I , ZZ −1 = I .
80 Лекция 8

8.3. Ступенчатые матрицы


Будем говорить, что матрица S = [sij ] размеров m × n являет-
ся верхней ступенчатой с числом ступеней k , если существуют
номера 1  j1 < . . . < jk  m, для которых:
• если 1  i  k , то sij = 0 при j = ji и sij = 0 при всех
1  j  ji − 1;
• если k + 1  i  m, то sij = 0 при всех 1  j  n.
Матрица S называется нижней ступенчатой с числом ступе-
ней k , если S  является верхней ступенчатой с числом ступе-
ней k .
Утверждение. Ранг ступенчатой матрицы с числом ступе-
ней k равен k .
Доказательство. Рассмотрим верхнюю ступенчатую матрицу S
и докажем, что ее строчный ранг (размерность линейной оболоч-
ки строк) равен числу ступеней k . Ясно, что S имеет ровно k
ненулевых строк, поэтому мы не ограничим общности, предпо-
ложив, что k = m. Докажем, что строки S линейно независимы.
Приравняем нулю их линейную комбинацию с коэффициентами
α1 , . . . , αk :
[α1 , . . . , αk ]S = [0, . . . , 0].
Отсюда
α1 s1j1 = 0 ⇒ α1 = 0.
Далее,
0 · s1 j2 + α2 s2 j2 = 0 ⇒ α2 = 0.
Продолжая подобным образом, находим α1 = . . . = αk = 0. В слу-
чае нижней ступенчатой матрицы S ее столбцовый ранг, очевид-
но, совпадает со строчным рангом верхней ступенчатой матри-
цы S  . 

8.4. Приведение к ступенчатой форме


Теорема 1. Для любой (m × n)-матрицы A ранга r существу-
ет обратимая матрица P, представимая в виде произведения
конечного числа элементарных матриц и такая, что матрица
S = P A является верхней ступенчатой с числом ступеней r.
Доказательство. Обозначим через j1 номер первого столбца
матрицы A, в котором есть хотя бы один ненулевой элемент.
(Если таковой столбец отсутствует, то A = 0 и теорема уже
доказана.) С помощью умножения слева на некоторую матрицу
перестановки Π1 ненулевой элемент можно переместить в пози-
цию (1, j1 ). Далее с помощью умножения слева на некоторую
8.5. Приведение к диагональной форме 81

матрицу модификации строк Z1 можно получить матрицу с ну-


лями в поддиагональных позициях j1 -го столбца и сохранением
нулей в предыдущих столбцах. Очевидно, что преобразованная
матрица имеет блочный вид (через 0p×q мы обозначаем нулевой
блок размеров p × q ):


01×(i1 −1) u
Z1 Π1 A = , u ∈ R(n−i1 +1)×1 .
0(m−1)×(i1 −1) B

Сделаем индуктивное предположение о существовании матри-


цы Q, являющейся произведением элементарных матриц порядка
m − 1 и такой, что QB имеет верхнюю ступенчатую форму.
Рассмотрим матрицу


1 0
P = Z1 Π1 .
0 Q

Легко видеть, что P есть произведение элементарных матриц


и при этом S = P A имеет верхнюю ступенчатую форму. Пусть
число ступеней равно k . Значит, строчный ранг матрицы S равен
k ⇒ k = rank S = rank A = r. 
Теорема 2. Для любой (m × n)-матрицы A ранга r существу-
ет обратимая матрица Q, представимая в виде произведения
конечного числа элементарных матриц и такая, что матрица
AQ является нижней ступенчатой с числом ступеней r.
Доказательство. Достаточно применить теорему 1 к матрице
A и заметить, что если матрица QA — верхняя ступенчатая,
то матрица (QA ) = AQ будет нижней ступенчатой.

8.5. Приведение к диагональной форме


Теорема. Для любой (m × n)-матрицы A ранга r существуют
обратимые матрицы P и Q, представимые в виде произве-
дения конечного числа элементарных матриц и такие, что
матрица B = P AQ имеет ненулевые элементы b11 , . . . , brr ,
а все остальные ее элементы равны нулю.
Доказательство. Сначала приведем A к верхней ступенчатой
форме S = P A, а затем заметим, что нижняя ступенчатая форма
SQ , получаемая согласно построениям теоремы 2, будет иметь
требуемую диагональную форму. 
82 Лекция 8

8.6. Эквивалентные матрицы


Матрицы A и B называются эквивалентными, если суще-
ствуют обратимые матрицы P и Q такие, что B = P AQ.
Теорема. Матрицы A и B эквивалентны тогда и только
тогда, когда они имеют одинаковые размеры и одинаковые
ранги.
Доказательство. В силу теоремы о приведении к диагональной
форме каждая из матриц A и B эквивалентна прямоугольной
диагональной матрице — обозначим их через DA и DB . При
этом очевидно, что DA и DB эквивалентны тогда и только тогда,
когда они имеют одинаковое число ненулевых диагональных эле-
ментов. Последнее означает, что rank DA = rank DB . Остается
учесть, что rank A = rank DA и rank B = rank DB . 

8.7. Метод Гаусса и LU -разложение


Рассмотренный выше метод исключения неизвестных обычно
называют методом Гаусса. Пусть он применяется к системе
Ax = b с невырожденной матрицей A. В данном случае верхняя
ступенчатая матрица, к которой приводится матрица A, оказы-
вается верхней треугольной матрицей.
Метод исключения неизвестных можно трактовать как метод
исключения элементов матрицы с целью приведения ее к более
простому виду. Если можно обойтись без перестановки уравне-
ний (строк матрицы), то метод Гаусса для матрицы порядка n
состоит в последовательном исключении элементов в столбцах
от 1-го до (n − 1)-го и приводит к равносильной системе
(Zn−1 . . . Z2 Z1 A)x = Zn−1 . . . Z2 Z1 b, (∗)
где Z1 , . . . , Zn−1 — матрицы модификации строк, причем Zi
отличается от I в точности i-м столбцом. Каждая из матриц
Z1 , . . . , Zn−1 является нижней треугольной, поэтому их произве-
дение
 = Zn−1 . . . Z1
L
является также нижней треугольной матрицей. Матрица коэф-
фициентов системы (∗)
A
U = Zn−1 . . . Z1 A = L
является верхней треугольной. Матрица L = L −1 является ниж-
ней треугольной. Следовательно, метод Гаусса порождает разло-
8.8. LU -разложение и строго регулярные матрицы 83

жение матрицы A в произведение нижней и верхней треугольной


матриц:
A = LU.
При этом L имеет на главной диагонали единицы, а U является
невырожденной матрицей (в силу невырожденности A). Такое
разложение называется LU -разложением.
Подсчитаем число арифметических операций при приведении
A к верхней треугольной матрице U . На i-м шаге требуется полу-
чить n − i нулей ниже диагонали в i-м столбце. При получении
нуля на пересечении i-го столбца и l-й строки при l > i из l-й
строки вычитается i-я строка, предварительно умноженная на
коэффициент, выбор которого и обеспечивает получение данного
нуля. Поскольку в рассматриваемых строках может быть только
n − i ненулевых элементов, число умножений (и вычитаний) при
получении нулей в i-м столбце равно (n − i)2 . Всего потребуется
1
(n − 1)2 + (n − 2)2 + . . . + 12 = n3 + O(n2 )
3
умножений и столько же вычитаний; через O(n2 ) обозначен
многочлен от n степени 2.
Чтобы найти решение системы Ax = b, требуется выполнить
еще два действия:
• вычислить вектор Zn−1 . . . Z1 b;
• найти решение системы с верхней треугольной матрицей U .
Каждое из этих действий требует лишь O(n2 ) арифметических
операций — на порядок меньше, чем приведение к верхнему
треугольному виду.
Задача 1. Невырожденная матрица и обратная к ней разбиты на
блоки одинаковых размеров:
   
A A B B
A = A11 A12 , A−1 = B11 B12 .
21 22 21 22

Доказать, что блок A11 невырожден тогда и только тогда, когда невы-
рожден блок B22 .

8.8. LU -разложение и строго регулярные матрицы


Допустим, что невырожденная матрица A имеет
LU -разложение: A = LU . Обозначим через Ak , Lk , Uk
подматрицы порядка k , расположенные в левом верхнем углу
84 Лекция 8

матриц A, L, U соответственно, и рассмотрим равенство блочных


матриц



Ak P Lk 0 Uk W
A≡ = k .
Q Ak V L k 0 U
Отсюда вытекает, что
Ak = Lk Uk , k = 1, . . . , n.
Очевидно, что матрицы Lk и UK невырожденные (как треуголь-
ные матрицы с ненулевой диагональю). Поэтому подматрица
Ak должна быть невырожденной. Матрица A, в которой все
подматрицы Ak невырожденные, называется строго регулярной.
Таким образом, для существования LU -разложения невырож-
денной матрицы A необходимо, чтобы она была строго регу-
лярной.
Можно доказать, что это условие является также и доста-
точным. В самом деле, пусть уже построено LU -разложение для
подматрицы Ak = Lk Uk . Тогда




L−
k
1
0 Ak P Uk L −1
P k − QA−1 P.
k = 0 , W =A
k
−QA− k
1
I Q A W k
(#)
Блок W называется дополнением по Шуру блока Ak в матри-
це A. Из равенства (#) и строгой регулярности A можно выве-
сти, что W является также строго регулярной матрицей. Пред-
положим, что для W уже построено LU -разложение W = L k Uk .
Тогда положим




Lk 0 I 0 Uk L−
k
1
P
L= k , U= .
QA− 1
k Lk I 0 L 0 Uk
Полученная таким образом матрица L — верхняя треугольная.
Равенство LU = A проверяется прямым вычислением.
Задача 1. Пусть A — невырожденная матрица порядка n и
A(I , J) — ее невырожденная подматрица на строках и столбцах,
определенных системами номеров I = (i1 , . . . , ik ) и J = (j1 , . . . , jk )
соответственно. Пусть k < n, а I  и J  — дополнительные системы
номеров. Доказать, что

det A−1 (I  , J  ) = (−1)i1 +...+ik +j1 +...+jk det A(I , J)/ det A.
Лекция 9

9.1. Метод координат


Нашим исследованиям линейной зависимости и линейных
оболочек векторов (матриц-столбцов) можно дать наглядную
геометрическую интерпретацию. Как скоро выяснится, опреде-
литель также имеет замечательный геометрический смысл. При
этом «алгебраизация» геометрических понятий дает мощный ал-
гебраический инструмент для решения задач геометрии.
К основным объектам геометрии относятся точки, прямые и
плоскости в геометрическом пространстве. Если A и B — точки
прямой, то пусть [AB] обозначает отрезок прямой — множество
точек данной прямой, расположенных между точками A и B ;
|AB| — длина отрезка [AB].
Будем опираться на то, что между вещественными числами
и точками прямой существует взаимно-однозначное соответствие
x ↔ P (x), которое полностью определяется заданием двух точек
P (0), P (1) и обладает следующими свойствами:
• если x = 0 и точки P (x) и P (1) находятся по одну сторону
от точки P (0), то x > 0; в противном случае x < 0;
• |P (0)P (x)| = |x| |P (0)P (1)|.
Прямую, для которой установлено указанное соответствие, будем
называть числовой осью, а число x — координатой точки P (x).
Заметим, что при выборе произвольного веществен-
ного числа a соответствие x ↔ P (x + a) будет также
взаимно-однозначным. Это позволяет переносить точку P (0)
в любую заданную точку данной прямой.
Рассмотрим прямые l1 , l2 , l3 , проходящие через общую точ-
ку O и не лежащие в одной плоскости. Пусть каждая из этих
прямых является числовой осью с соответствиями
x ↔ P1 (x), y ↔ P2 (y), z ↔ P3 (z),
дающими общую точку P1 (0) = P2 (0) = P3 (0) = O. Пусть
(x, y , z) — система трех вещественных чисел, определяющих
86 Лекция 9

точки X = P1 (x), Y = P2 (y), Z = P3 (z) на прямых l1 , l2 , lz


соответственно. Рассмотрим три плоскости:
• π1 — плоскость, проходящая через точку X параллельно
прямым l2 и l3 ;
• π2 — плоскость, проходящая через точку Y параллельно
прямым l1 и l3 ;
• π3 — плоскость, проходящая через точку Z параллельно
прямым l1 и l2 .
Легко видеть, что плоскости π1 , π2 , π3 пересекаются в одной
точке M = M (x, y , z). Таким образом устанавливается взаимно-
однозначное соответствие
(x, y , z) ↔ M (x, y , z).
Точки X , Y , Z называются проекциями точки M на прямые l1 ,
l2 , l3 параллельно плоскостям π1 , π2 , π3 соответственно. Числа
x, y , z называются координатами точки M = M (x, y , z), а систе-
ма числовых осей l1 , l2 , l3 — аффинной системой координат.
Точка O называется началом (или центром) системы координат.
Эпитет «аффинная» по отношению к системе координат озна-
чает только то, что углы между осями могут не быть прямыми,
а длины отрезков [OP1 (1)], [OP2 (1)], [OP3 (1)] не обязательно
равные. Если углы между осями прямые, а длины указанных
отрезков равны 1, то система координат называется декартовой.

9.2. Направленные отрезки


Любую упорядоченную пару точек A, B будем называть на-
правленным отрезком с началом в точке A и концом в точке B .
−→
Обозначение: AB .
Если имеется система координат с началом в точке O, то
−→
направленный отрезок вида OA называется радиус-вектором
точки A. Координаты точки A называются также координатами
−→
радиус-вектора OA .
Точка A = B разбивает прямую AB на два луча: луч [AB),
состоящий из точек данной прямой, лежащих вместе с B по
одну сторону от A, и дополнительный луч, состоящий из точек,
лежащих по другую сторону (точка A для двух лучей является
общей). Два луча на одной прямой называются одинаково на-
правленными, если их пересечение является лучом (и противопо-
ложно направленными, если их пересечение является отрезком).
Если прямые AB и CD не совпадают, то лучи [AB) и [CD)
9.3. Отношение эквивалентности 87

называются одинаково направленными, если эти прямые парал-


лельны и точки B и D лежат по одну сторону от прямой AC .
−→
Предположим, что A = B . Рассмотрим отрезок AB , и пусть
C — произвольная точка. Проведем через C прямую, параллель-
ную прямой AB или совпадающую с ней в случае C ∈ AB .
На этой прямой можно найти ровно две точки D1 и D2 та-
кие, что |CD1 | = |CD2 | = |AB|. Выберем из них такую точку
D ∈ {D1 , D2 }, для которой лучи [AB) и [CD) одинаково направ-
−→ −→
лены. Направленный отрезок CD будем считать равным AB .
−→ −→
(Часто говорят также, что CD получается из AB параллельным
переносом.)
Данным построением не охвачен случай A = B . Направлен-
−→ −→
ные отрезки AA и CC будем считать равными по определению
и называть их нулевыми.
Отметим формальную «несимметричность» в данном опре-
−→ −→ −→ −→
делении: CD равен AB , но будет ли AB равен CD? Ответ,
к счастью, положительный — в силу того что направленный
−→ −→
отрезок AB получается из CD с помощью точно такого же
построения.
Заметим, что все случаи при определении равенства направ-
ленных отрезков можно свести к одному случаю, если принять
формально другое (и притом «симметричное») определение: на-
−→ −→
зовем направленные отрезки AB и CD равными, если середи-
ны отрезков [AD] и [BC] совпадают. Эквивалентность нового
определения предыдущему вытекает из общеизвестных свойств
параллелограмма.
Обратим внимание на то, что при фиксированной системе ко-
ординат любой направленный отрезок равен некоторому и только
одному радиус-вектору.
9.3. Отношение эквивалентности
Любое непустое подмножество M ⊂ X × X определяет на
множестве X бинарное отношение между его элементами:
M
x∼y ⇔ (x, y) ∈ M.
ПРИМЕР. X — множество всех матриц, M — множество
таких пар матриц (A, B), для которых существует произведе-
ние AB . Ясно, что имеются пары матриц, не входящие в M .
M M
Кроме того, если A ∼ B , то отсюда не следует, что B ∼ A.
88 Лекция 9

Бинарное отношение M на X называется отношением экви-


валентности, если выполняются следующие три свойства:
M
• x ∼ x для всех элементов x ∈ X (рефлексивность);
M M
• если x ∼ y , то y ∼ x (симметричность);
M M M
• если x ∼ y и y ∼ z , то x ∼ z (транзитивность).
M
Если на X задано отношение эквивалентности M и x ∼ y , то x
и y называются эквивалентными элементами. Множество всех
элементов из X , эквивалентных некоторому элементу a ∈ X ,
называется классом эквивалентности, порожденным элемен-
том a.
Теорема. Непустое множество X с отношением экви-
валентности является объединением непересекающихся
подмножеств, каждое из которых состоит из элементов,
эквивалентных между собой и не эквивалентных ни одному
из элементов других подмножеств.
Доказательство. Пусть X(a) обозначает класс эквивалент-
ности, порожденный элементом a ∈ X . Выберем произвольный
элемент a и рассмотрим его класс эквивалентности X(a). Ес-
ли b, c ∈ X(a), то каждый из них эквивалентен a, а зна-
чит, в силу транзитивности, b и c эквивалентны между собой
(b ∼ a, a ∼ c ⇒ b ∼ c). Ясно также, что X(b) = X(c) = X(a)
(т. е. класс эквивалентности порождается любым своим предста-
вителем).
По определению X(a) содержит абсолютно все элементы, эк-
вивалентные a. Поэтому если b ∈ / X(a), то b не является эквива-
лентным a. Отсюда следует, что классы эквивалентности  X(a) и
X(b) не пересекаются: если бы имелся элемент c ∈ X(a) X(b),
то это бы означало, что b ∈ X(a) ⇒ X(a) = X(b).
Таким образом, для произвольных элементов a и b классы
эквивалентности X(a) и X(b)либо не пересекаются, либо сов-
падают. Очевидно, что X = X(a). Для завершения доказа-
a∈X
тельства остается исключить из этого объединения совпадающие
классы эквивалентности. 
ПРИМЕР 1. Пусть G — произвольная (не обязательно
абелева) группа. Элементы a, b ∈ G называются сопряженными,
если для некоторого h ∈ G (зависящего от a и b) выполняется
равенство a = hbh−1 . Сопряженность элементов — это бинарное
отношение на G, которое, как легко проверить, является отно-
шением эквивалентности.
ПРИМЕР 2. Пусть Z — множество целых чисел, а p — неко-
торое натуральное (целое положительное) число. Целые числа
9.5. Линейные операции над векторами 89

x и y называются сравнимыми по модулю p, если они имеют


одинаковые остатки при делении на p (это означает, что разность
x − y делится нацело на p, т. е. x − y = kp для некоторого
целого k ). Обозначение: x = y (mod p).
Пусть x ∼ y ⇔ x − y (mod p). Это бинарное отношение на Z
является отношением эквивалентности. В данном случае имеется
ровно p различных классов эквивалентности
Z(0), Z(1), . . . , Z(p − 1),
называемых обычно вычетами по модулю p.

9.4. Свободный вектор


Утверждение. Отношение равенства направленных отрезков
является отношением эквивалентности.
Доказательство непосредственно вытекает из определения
равенства направленных отрезков.
Определение. Любой класс эквивалентности направленных от-
резков называется свободным вектором или, короче, вектором.
Согласно определению свободный вектор a содержит все эк-
вивалентные между собой направленные отрезки. При этом для
любой точки A существует единственная точка B такая, что
−→
AB ∈ a. В частности, при фиксированной системе координат
всегда имеется один и только один радиус-вектор, принадлежа-
щий a.
Пусть V — множество всех точек геометрического простран-
ства. Тогда вектор a задает следующее взаимно-однозначное
отображение V → V : точка A ∈ V переходит в точку B ∈ V та-
−→
кую, что AB ∈ a. Такое отображение называется параллельным
переносом или сдвигом на вектор a.
Традиционно допускаемый элемент вольности в обозначени-
−→ −→
ях: вместо AB ∈ a принято писать a = AB (вектор как класс
эквивалентности отождествляется с любым его представителем).

9.5. Линейные операции над векторами


−→ −→
Сумма векторов: пусть AB ∈ a и BC ∈ b, тогда c = a + b опре-
−→
деляется как вектор, порожденный направленным отрезком AC .
Важно, что получаемый таким образом вектор c не зависит
−→ −→
от выбора точки A. В самом деле, пусть P Q ∈ a и QR ∈ b.
90 Лекция 9

Тогда из равенства треугольников ABC и P QR вытекает


−→
равенство длин и сонаправленность направленных отрезков AC
−→
и P R , а значит и их равенство.
Множество свободных векторов относительно операции сло-
жения векторов образует абелеву группу. Роль единичного эле-
−→ −→
мента играет нулевой вектор 0 = AA . Для a = AB обратным эле-
−→
ментом является b = BA. В данном контексте вектор b назывет-
ся противоположным вектором для a и обозначается b = −a.
−→
Умножение вектора на число: пусть AB ∈ a, тогда α a опре-
−→
деляется как вектор, порождаемый направленным отрезком AC ,
который имеет длину |AC| = |α| |AB| и, если α = 0, является
−→
одинаково направленным с AB при α > 0 и противоположно
направленным при α < 0. Несложно убедиться в том, что вектор
α a не зависит от выбора точки A.
Можно проверить, что α (β a) = (αβ) a для любых веществен-
ных чисел α, β . Полезно также заметить, что 1 · a = a, а вектор
(−1) · a является противоположным для a.
Кроме того, операции сложения векторов и умножения век-
тора на число связаны следующими законами дистрибутивности:
(α + β) a = (α a) + (β a), α (a + b) = (α a) + (α b).

9.6. Координаты вектора


Пусть фиксирована некоторая аффинная система координат.
Как уже отмечалось, каждому свободному вектору соответствует
один и только один радиус-вектор. Его координаты и будем
называть координатами данного свободного вектора.
Пусть точка O — начало системы координат с числовыми ося-
ми l1 , l2 , l3 и точками X ∈ l1 , Y ∈ l2 , Z ∈ l3 , соответствующими
числу 1 на данных осях. Система векторов
−→ −→ −→
e1 = OX , e2 = OY , e3 = OZ
называется для даннной системы координат базисной (иногда
также реперной).
Непосредственно из определения координат точки и линей-
ных операций над векторами вытекает следующее
−→
Утверждение 1. Пусть x, y , z — координаты вектора a = OA
в системе координат с базисными векторами e1 , e2 , e3 .
9.7. Изоморфизм и линейная зависимость 91

В этом и только в этом случае имеет место разложение


a = x e 1 + y e2 + z e 3 .

Векторы x e1 , y e2 , z e3 называются проекциями вектора a на


прямые l1 , l2 , l3 (они, как легко видеть, не зависят от способа
превращения прямых в числовые оси).
Утверждение 2. Пусть xa , ya , za и xb , yb , zb — координаты
−→ −→
векторов a = OA и b = OB соответственно. Тогда вектор
c = a + b имеет координаты
xc = xa + xb , yc = ya + yb , zc = za + zb ,
а вектор d = α a для любого вещественного числа α имеет
координаты
xd = α xa , yd = α ya , z d = α za .

Для доказательства достаточно установить, что проекция


суммы векторов для каждой оси есть сумма проекций данных
векторов, а проекция вектора, умноженного на число, есть умно-
женная на это число проекция данного вектора.
Задача 1. Пусть A1 , . . . , An — вершины правильного n-угольника,
−→
вписанного в окружность с центром в точке O . Докажите, что OA1 + . . .
−→
. . . + OAn = 0.
−→
Задача 2. В тетраэдре ABCD найдите точку M такую, что M A +
−→ −→ −→
+ M B + M C + M D = 0.

9.7. Изоморфизм и линейная зависимость


Пусть V — множество всех свободных векторов. Каждый
свободный вектор можно отождествить с соответствующим ему
−→
радиус-вектором, а каждый радиус-вектор вида OA — с точкой A
геометрического пространства.
Утверждение 2 позволяет установить такое взаимно-
однозначное соответствие между множеством свободных
векторов V и множеством матриц-столбцов R3 , при котором
сохраняются операции сложения векторов и умножения вектора
на число: если a ↔ a ∈ R3 и b ↔ b ∈ R3 , то
a + b ↔ a + b, α a ↔ α a.
92 Лекция 9

Взаимно-однозначное отображение, сохраняющее операции, при-


нято называть изоморфизмом, а множества, между которыми
такое соответствие установлено, изоморфными. Таким образом,
множество свободных векторов V изоморфно R3 .
Понятия линейной зависимости и линейной независимости
систем свободных векторов вводятся точно так же, как и
для матриц-столбцов. То же относится к понятию линейных
оболочек. Учитывая изоморфизм, в случае свободных векто-
ров мы можем использовать результаты уже выполненного для
матриц-столбцов исследования линейной зависимости и связан-
ных с ней понятий базиса и размерности линейной оболочки.
Легко видеть, что введенные выше базисные векторы e1 , e2 , e3
являются линейно независимыми, а все множество свободных
векторов есть их линейная оболочка:
V = L(e1 , e2 , e3 ), dim V = 3.

9.8. Коллинеарные и компланарные векторы


Определение 1. Векторы называются коллинеарными, если
cреди порождающих их направленных отрезков имеются отрез-
ки, принадлежащие одной прямой.
Определение 2. Векторы называются компланарными, если
среди порождающих их направленных отрезков имеются отрез-
ки, принадлежащие одной плоскости.
Линейная оболочка любой системы коллинеарных векторов,
содержащей хотя бы один ненулевой вектор, имеет размер-
ность 1. Верно и обратное: все векторы из линейной оболочки
размерности 1 являются коллинеарными.
Линейная оболочка любой системы компланарных векторов,
в которой имеется хотя бы одна пара неколлинеарных векторов,
имеет размерность 2. Все векторы из линейной оболочки размер-
ности 2 являются компланарными.
Будем отождествлять свободные векторы с порождающими
их радиус-векторами. Тогда множество всех векторов, коллине-
арных заданному вектору, представляет собой прямую, проходя-
щую через начало координат. Множество всех векторов, компла-
нарных заданной паре неколлинеарных векторов, представляет
собой проходящую через начало кооординат плоскость.
Прямая l, проходящая через точки A и B , представляет собой
множество точек (радиус-векторов) следующего вида:
−→ −→ −→
l = {M : OM = OA + tAB , t ∈ R}. (1)
9.9. Прямая на плоскости 93
−→
Вектор AB (параллельный прямой l) называется направляющим
вектором для l.
Плоскость π , проходящая через три не лежащие на одной
прямой точки A, B , C , есть множество точек (радиус-векторов)
вида
−→ −→ −→ −→
π = {M : OM = OA + uAB + v AC , u, v ∈ R}. (2)

9.9. Прямая на плоскости


В качестве геометрического пространства часто рассматри-
вается плоскость. В этом случае система координат состоит из
двух осей и устанавливает взаимно-однозначное соответствие
между системами двух вещественных чисел (x, y) и точками
(радиус-векторами) плоскости.
Пусть A и B — вещественные числа, не равные нулю одно-
временно. Уравнение вида
Ax + By + C = 0 (∗)
называется общим уравнением прямой на плоскости.
Теорема. Пусть на плоскости фиксирована аффинная система
координат. Множество точек с координатами x, y , удовлетворя-
ющими уравнению (∗), представляет собой прямую, и при этом
любая прямая может быть задана уравнением вида (∗).
Доказательство. Пусть l — прямая, проходящая через точки
(x0 , y0 ) и (x1 , y1 ). Тогда, согласно (1), прямая l состоит из точек
(x, y) таких, что 
x = x0 + tpx ,
y = y0 + tpy , (∗∗)

где t ∈ R и px = x1 − x0 , py = y1 − y0 . Отсюда (как определи-


тель с линейно зависимыми столбцами)


x − x0 px
det = 0.
y − y0 py
⇒ Ax + by + C = 0,
где
A = py , B = −px , C = −py x0 + px y0 .
Теперь рассмотрим множество точек (x, y), удовлетворяющих
уравнению (∗). Очевидно, что оно совпадает с множеством всех
94 Лекция 9

решений системы линейных алгебраических уравнений, состоя-


щей из одного уравнения


x
[A B] y = −C.

Поскольку хотя бы одно из чисел A, B отлично от нуля, ранг мат-


рицы коэффициентов равен 1. Поэтому общее решение данной
системы имеет вид (∗∗), где (x0 , y0 ) — любое фиксированное
частное решение, а вектор (px , py ) образует фундаментальную
систему решений соответствующей однородной системы (в дан-
ном случае состоящей из одного вектора). 1) 

9.10. Плоскость в пространстве


Пусть A, B , C — вещественные числа, не равные нулю
одновременно. Уравнение вида
Ax + By + Cz + D = 0 (#)
называется общим уравнением плоскости.
Теорема. Пусть в пространстве фиксирована аффинная система
координат. Множество точек с координатами x, y , z , удовлетво-
ряющими уравнению (#), представляет собой плоскость, и при
этом любая плоскость может быть задана уравнением вида (#).
Доказательство. Пусть π — плоскость, проходящая через точ-
ки (x0 , y0 , z0 ), (x1 , y1 , z1 ), (x2 , y2 , z2 ). Тогда, согласно (2), плос-
кость π состоит из точек (x, y , z) таких, что
x = x0 + upx + vqx ,
y = y0 + upy + vqy , (##)
z = z0 + upz + vqz ,
где u, v — произвольные вещественные числа,
(px , py , pz ) = (x1 − x0 , y1 − y0 , z1 − z0 ),
(qx , qy , qz ) = (x2 − x0 , y2 − y0 , z2 − z0 ).
Отсюда  
x − x0 px qx
det y − y0 py qy = 0.
z − z0 pz qz
Это уравнение имеет вид (#), как уравнение относительно x, y ,z .
1)
Конечно, в данном частном случае этот факт легко доказывается и без
ссылок на общую теорию.
9.11. Преобразование координат 95

Теперь рассмотрим множество точек (x, y , z), удовлетворяю-


щих уравнению (#). Оно совпадает с множеством всех решений
системы линейных алгебраических уравнений, состоящей из од-
ного уравнения:  
x
[A B C] y = 0.
z
Отличие от нуля хотя бы одного из чисел A, B , C означает, что
матрица коэффициентов имеет ранг 1. Значит, общее решение
имеет вид (##), где (x0 , y0 , z0 ) — некоторое частное решение,
а векторы (px , py , pz ) и (qx , qy , qz ) образуют фундаментальную
систему решений соответствующей однородной системы. 

9.11. Преобразование координат


Пусть имеются две аффинные системы координат: первая
с центром в точке O и базисными векторами e1 , e2 , e3 , вторая —
с центром в точке O и базисными векторами e1 , e2 , e3 . Запишем
e1 = p11 e1 + p21 e2 + p31 e3 ,
e2 = p12 e1 + p22 e2 + p32 e3 ,
e3 = p13 e1 + p23 e2 + p33 e3
и образуем так называемую матрицу перехода (от первой ба-
зисной системы ко второй)
 
p11 p12 p13
P = p21 p22 p23 .
p31 p32 p33
Если имеется какая-то третья система базисных векторов и век-
торы ei , ei рассматриваются как столбцы из координат разложе-
ний по данной третьей системе, то справедливо равенство
[e1 , e2 , e3 ] = [e1 , e2 , e3 ]P.
Отсюда следует невырожденность матрицы P .
Пусть точка M имеет координаты (x, y , z) в первой системе и
−→ −→ −→
(x , y  , z  ) — во второй системе. Очевидно, что OM = OO + O M .
Пусть координаты точки O в первой системе равны (x0 , y0 , z0 ).
Тогда
xe1 + ye2 + ze3 = (x0 e1 + y0 e2 + z0 e3 ) + x (p11 e1 + p21 e2 +
+ p31 e3 ) + y  (p12 e1 + p22 e2 + p32 e3 ) + z  (p13 e1 + p23 e2 + p33 e3 ) =
96 Лекция 9

= (x0 + p11 x + p12 y  + p13 z  )e1 + (y0 + p21 x + p22 y  + p23 z  )e2 +
+ (z0 + p31 x + p32 y  + p33 z  )e3 .
Следовательно, координаты одной и той же точки в первой и вто-
рой системах координат связаны следующим соотношением:
     
x x0 x
y = y0 + P y  .
z z0 z
Отсюда легко понять, например, как связаны общие урав-
нения одной и той же плоскости в разных аффинных системах
координат. Если в первой системе координат имеем уравнение
Ax + By + Cz + D = 0, то, записывая его в матричном виде,
находим
      
x x0 x
[A B C] y = −D ⇔ [A B C] y0 + P y  = −D.
z z0 z
Таким образом, уравнение той же плоскости во второй системе
приобретает вид
 
x
[A B  C  y
] = −D ,
z
[A B  C  ] = [A B C] P , D = D − (Ax0 + By0 + Cz0 ).

9.12. Полуплоскости и полупространства


Пусть на плоскости дана прямая l : Ax + By + C = 0. Тогда
любая точка P = (x, y) на плоскости принадлежит одному из
трех множеств
l = {(x, y) : Ax + By + C = 0},
π + = {(x, y) : Ax + By + C > 0},
π − = {(x, y) : Ax + By + C < 0}.
Говорят, что прямая l делит плоскость на две полуплоскости:
π+ и π−.
Возьмем две точки: P = (x1 , y1 ) и Q = (x2 , y2 ), тогда любая
точка отрезка P Q имеет координаты
x = x1 + t(x2 − x1 ) = (1 − t)x2 + tx1 ,
y = y1 + t(y2 − y1 ) = (1 − t)y2 + ty1 , 0  t  1.
9.12. Полуплоскости и полупространства 97

Отсюда ясно, что если обе точки P и Q принадлежат одному


из множеств π + или π − , то все точки отрезка P Q принадлежат
тому же множеству.
Множество точек, содержащее вместе с любыми двумя точ-
ками все точки соединяющего их отрезка, называется выпук-
лым. Таким образом, каждое из множеств l, π + , π − является
выпуклым.
Теперь предположим, что P ∈ π + , но Q ∈ π − . Тогда уравнение
A(x1 + (t(x2 − x1 )) + B(y1 + t(y2 − y1 )) + C = 0
выполняется при
Ax1 + By1 + C
t= ,
(Ax1 + By1 + C) − (Ax2 + By2 + C)
откуда видно, что 0 < t < 1. Следовательно, некоторая точка
отрезка P Q принадлежит прямой l.
Итак, две точки принадлежат одной полуплоскости отно-
сительно заданной прямой l в том и только том случае, когда
соединяющий их отрезок не имеет общих точек с прямой l.
Аналогично, плоскость π : Ax + By + Cz + D = 0 делит про-
странство на два полупространства
π + = {(x, y , z) : Ax + By + Cz + D > 0},
π − = {(x, y , z) : Ax + By + Cz + D < 0}.
При этом две точки принадлежат одному полупространству
относительно заданной плоскости π в том и только том слу-
чае, когда соединяющий их отрезок не пересекается с плос-
костью π .
Задача 1. Пусть на плоскости имеется треугольник ABC и O —
произвольная точка этой же плоскости. Докажите, что для любой точ-
ки M , принадлежащей данному треугольнику, справедливо равенство
−→ −→ −→ −→
OM = α OA + β OB + γ OC ,

в котором α + β + γ = 1 и α, β , γ  0. Докажите также, что числа


α, β , γ с указанными ограничениями определены однозначно. 1)

1)
Они называются барицентрическими координатами точки M . Если
в пространстве задан тетраэдр ABCD и принадлежащая ему точка M , то,
аналогично, для любой точки O найдутся неотрицательные α, β , γ , δ такие, что
−→ −→ −→ −→ −→
OM = α OA + β OB + γ OC + δ OD, α + β + γ + δ = 1.

4 Е. Е. Тыртышников
Л е к ц и я 10

10.1. Скалярное произведение геометрических


векторов
Длиной вектора a называется длина порождающего его на-
правленного отрезка (направленные отрезки, порождающие один
и тот же вектор, равны и поэтому имеют одинаковую длину).
Обозначение для длины: |a|. Углом ϕ(a, b) между ненулевыми
−→ −→
векторами a = OA, b = OB называется угол между сторонами
OA и OB в треугольнике OAB .
Скалярным произведением векторов a и b называется вели-
чина

|a| |b| cos ϕ(a, b), a = 0 и b = 0,
(a, b) =
0, a = 0 или b = 0.
В силу определения очевидно, что
(a, a) > 0 при a = 0; (a, a) = 0 ⇔ a = 0. (1)
Также очевидно, что
(a, b) = (b, a) ∀ a, b. (2 )
−→ −→
Если векторы a = OA, b = OB неколлинеарны, то в плоскости,
проходящей через точки O, A, B можно ввести декартову систе-
му координат с началом в точке O и первой осью, совпадающей с
прямой OB и дающей точке B положительную координату. Тогда
величина |a| cos ϕ(a, b) будет в точности координатой точки A
на данной оси. Отсюда сразу же вытекают важные свойства
линейности скалярного произведения по первому аргументу:
(a + b, c) = (a, c) + (b, c) ∀ a, b, (3 )
(α a, b) = α (a, b) ∀ a, b, ∀ α ∈ R. (4)
Свойство (2) сразу же дает аналогичные свойства линейности
скалярного произведения и по второму аргументу.
10.3. Об обобщениях 99

Векторы называются ортогональными, если их скалярное


произведение равно нулю.

10.2. Скалярное произведение и координаты


Пусть задана декартова система координат с базисными век-
торами e1 , e2 , e3 . Тогда

0, i = j ,
(ei , ej ) = (∗)
1, i = j.
Теорема. Пусть в заданной декартовой системе координат
вектор a имеет координатами a1 , a2 , a3 , а вектор b — коор-
динаты b1 , b2 , b3 . Тогда имеет место формула
(a, b) = a1 b1 + a2 b2 + a3 b3 . (#)

Доказательство. Запишем
a = a1 e1 + a2 e2 + a3 e3 , b = b1 e1 + b2 e2 + b3 e3 .
Опираясь на свойства скалярного произведения (2)–(4) и соот-
ношения (∗), находим
(a, b) = (a1 e1 + a2 e2 + a3 e3 , b1 e1 + b2 e2 + b3 e3 ) =

3 
3
= ai bj (ei , ej ) = a1 b1 + a2 b2 + a3 b3 . 
i=1 j=1

Замечание 1. Если в некоторой системе координат скалярное


произведение любых векторов a и b вычисляется по формуле
(#), то данная система координат декартова.
Замечание 2. В случае декартовой системы координат для
векторов на плоскости формула (#) приобретает вид
(a, b) = a1 b1 + a2 b2 .

10.3. Об обобщениях
Формула (#) и свойства (1)–(4) дают основу для введения
скалярного произведения в более общих случаях — для объек-
тов, уже не являющихся векторами в геометрическом простран-
стве.
4*
100 Лекция 10

Например, если a = [a1 , . . . , an ] , b = [b1 , . . . , bn ] — матрицы-


столбцы из Rn , то можно определить их скалярное произведение
по аналогии с формулой (#):
(a, b) = a1 b1 + . . . + an bn . (∗)
Есть и другая идея, имеющая более общий характер — взять
за основу свойства (1)–(4) и называть скалярным произведением
любую функцию от матриц-столбцов a, b, удовлетворяющую ак-
сиомам (1)–(4).
Для геометрических векторов скалярное произведение опре-
делялось на основе таких понятий, как длина вектора и угол
между векторами. В более общих случаях проще ввести каким-
то образом скалярное произведение и уже с его помощью вводить
понятия длины и угла:
! (a, b)
|a| = (a, a) , cos ϕ(a, b) = .
|a| |b|
Например, опираясь на (∗), можно ввести таким образом
длину и угол для векторов a, b ∈ Rn . При этом важно, что
! !
|(a, b)|  (a, a) (b, b) .
Это неравенство (известное как неравенство Коши–
Буняковского–Шварца) легко выводится из (∗), но в действи-
тельности оно справедливо для всех мыслимых способов задания
скалярного произведения — подробный разговор на эту тему
будет позже.

10.4. Ориентация системы векторов


Понятие ориентации для тройки (системы из трех) некомпла-
нарных векторов вводится в буквальном смысле слова «на паль-
цах»: тройка векторов называется правой, если их можно рас-
положить как большой, несогнутый 1) указательный и средний
пальцы правой руки; тройка векторов называется левой, если
их можно расположить как большой, несогнутый указательный
и средний пальцы левой руки.
Очевидно, может возникнуть желание освободиться от ана-
томической компоненты этого определения. Например, таким
образом: тройка векторов называется правой, если кратчай-
ший поворот от первого вектора ко второму происходит против
часовой стрелки при наблюдении из конца третьего вектора.
1)
Если указательный палец согнуть, то получится совсем не то.
10.5. Векторное и смешанное произведения 101

Конечно, остается чувство неудовлетворения по поводу обоих


определений. Но оно имеет неустранимый характер — в силу
фундаментальных причин. Дело в том, что любые тройки неком-
планарных векторов могут иметь ровно два типа ориентации,
а фиксация одного из них, вообще говоря, произвольна. 1)
Можно выбрать произвольную декартову систему координат
и объявить, что тройка ее базисных векторов имеет, скажем,
«правильную ориентацию». Пусть вектор a имеет координаты
a1 , a2 , a3 , вектор b — координаты b1 , b2 , b3 , вектор c — коорди-
наты c1 , c2 , c3 . Тройку векторов a, b, c можно назвать тройкой
«правильной ориентации», если
 
a1 b1 c1
det a2 b2 c2 > 0.
a3 b3 c3
Если определитель меньше нуля, то это будет тройка «непра-
вильной ориентации». Таким образом, определение ориентации
зависит от объявления типа ориентации для исходной системы
координат.
Аналогичным образом можно ввести понятие ориентации для
пар векторов на плоскости и даже для систем n матриц-столбцов
из Rn .

10.5. Векторное и смешанное произведения


Векторным произведением неколлинеарных векторов a и b
называется вектор c такой, что:
• вектор c ортогонален a и b;
• тройка векторов a, b, c является правой;
• |c| = |a| |b| sin ϕ(a, b).
Если a и b коллинеарны, то c = 0. Обозначение: c = [a, b].
−→ −→
Если a = OA, b = OB , то длина вектора c, очевидно, равна
площади параллелограмма со сторонами OA и OB .
Число, равное скалярному произведению векторов [a, b] и c,
называется смешанным произведением векторов a, b, c. Обо-
значение:
(a, b, c) = ([a, b], c).

1)
Как утверждает М. М. Постников, в старые времена правыми называли
как раз сегодняшние левые тройки.
102 Лекция 10

Теорема. Пусть векторы a, b, c некомпланарны и V — объем


параллелепипеда, натянутого на приведенные к общему на-
чалу векторы a, b, c. Тогда

V , если тройка a, b, c правая;
(a, b, c) =
−V — в противном случае.
Если векторы a, b, c компланарны, то
(a, b, c) = 0.
−→ −→
Доказательство. Предположим, что a = OA , b = OB , c =
−→ −→
= OC , и пусть OD = [a, b]. Согласно определению смешанного
произведения,
−→ −→ −→ −→
(a, b, c) = |OD| γ , где γ = |OC| cos ϕ(OD, OC).
Ясно, что |γ| есть длина перпендикуляра, опущенного из точки C
на плоскость OAB (высота параллелепипеда). При этом γ > 0,
если точки D и C находятся по одну сторону от плоскости OAB ,
и γ < 0, если эти точки оказались по разные стороны от данной
−→ −→ −→
плоскости. В первом случае тройка векторов OA, OB , OC
правая, во втором — левая. 
Следствие 1.
(a, b, c) = (b, c, a) = (c, a, b) = −(b, a, c) = −(a, c, b) =−(c, b, a).
Доказательство. Достаточно заметить, что тройки векторов
{a, b, c}, {b, c, a}, {c, a, b}
имеют одинаковую ориентацию, противоположную ориентации
троек векторов
{b, a, c}, {a, c, b}, {c, b, a}. 
Следствие 2. Смешанное произведение (a, b, c) линейно по
каждому аргументу.
Доказательство. Из свойств скалярного произведения сразу же
вытекает линейность по третьему аргументу. Остается заметить,
что тройки {a, b, c}, {b, c, a}, {c, a, b} имеют одинаковую
ориентацию. Поэтому
(a, b, c) = (b, c, a) = (c, a, b).
10.6. Векторное произведение в декартовых координатах 103

Следовательно, имеет место линейность по первому и второму


аргументам. 

Утверждение 1. Векторное произведение антисимметрично:

[a, b] = −[b, a].


Доказательство вытекает непосредственно из определения
векторного произведения. Вот еще одно формальное доказа-
тельство с использованием смешанных произведений: пусть
d = [a, b] + [b, a], тогда (d, d) = (a, b, d) + (b, a, d) = 0 ⇒ d = 0.

Утверждение 2. Векторное произведение линейно по каждому


аргументу.
Доказательство. Докажем, что [a + b, c] = [a, c] + [b, c]. Для
этого рассмотрим вектор

d = [a + b, c] − [a, c] − [b, c].


Используя линейность смешанного произведения по каждому
аргументу, находим

(d, d) = (a + b, c, d) − (a, c, d) − (b, c, d) = 0 ⇒ d = 0.


Аналогично, если d = [α a, b] − α [a, b], то (d, d) = (α a, b, d) −
− α (a, b, d) = 0 ⇒ d = 0. Линейность по второму аргументу
вытекает из свойства антисимметричности векторного произве-
дения. 
Сформулируем также два простых, но полезных предложе-
ния.
Критерий коллинеарности. Векторы a, b коллинеарны
тогда и только тогда, когда [a, b] = 0.
Критерий компланарности. Векторы a, b, c компланарны
тогда и только тогда, когда (a, b, c) = 0.

10.6. Векторное произведение в декартовых


координатах
Пусть e1 , e2 , e3 — базисные векторы декартовой системы
координат. Легко проверить, что

[e1 , e2 ] = e3 , [e2 , e3 ] = e1 , [e3 , e1 ] = e2 .


104 Лекция 10

Для векторов a = a1 e1 + a2 e2 + a3 e3 , b = b1 e1 + b2 e2 + b3 e3
получаем
[a, b] = a1 b1 [e1 , e1 ] + a1 b2 [e1 , e2 ] + a1 b3 [e1 , e3 ] +
+ a2 b1 [e2 , e1 ] + a2 b2 [e2 , e2 ] + a2 b3 [e2 , e3 ] +
+ a3 b1 [e3 , e1 ] + a3 b2 [e3 , e2 ] + a3 b3 [e3 , e3 ] =
= (a2 b3 − a3 b2 ) e1 − (a1 b3 − a3 b1 ) e2 + (a1 b2 − a2 b1 ) e3 .
Полученный результат легче всего запомнить, увидев в нем
формальное применение теоремы Лапласа для разложения опре-
делителя по первой строке:
 
e 1 e2 e3
[a, b] = det a1 a2 a3 .
b1 b2 b3

Задача 1. Доказать, что для произвольных векторов a, b, c выпол-


няется равенство

[a, [b, c]] = (a, c) b − (a, b) c.

Задача 2. Доказать, что уравнение [a, x] + [b, x] = [a, b] имеет


решение для любых векторов a и b. Найти все решения x для заданных
a и b.

10.7. Смешанное произведение в декартовых


координатах
Пусть a = a1 e1 + a2 e2 + a3 e3 , b = b1 e1 + b2 e2 + b3 e3 , c =
= c1 e1 + c2 e2 + c3 e3 . Используя только что полученные выраже-
ния для координат векторного произведения и правило вычисле-
ния скалярного произведения в декартовой системе, находим
(a, b, c) = ([a, b], c) = ((a2 b3 − a3 b2 ) e1 − (a1 b3 − a3 b1 ) e2 +
+ (a1 b2 − a2 b1 ) e3 , (c1 e1 + c2 e2 + c3 e3 )) = c1 (a2 b3 − a3 b2 ) −
 
a1 b1 c1
− c2 (a1 b3 − a3 b1 ) + c3 (a1 b2 − a2 b1 ) = det a2 b2 c2 .
a3 b3 c3
Последнее равенство получается из теоремы Лапласа при разло-
жении определителя по последнему столбцу.
10.9. Расстояние от точки до прямой на плоскости 105

Следствие. Определитель по абсолютной величине — это


объем параллелепипеда, натянутого на векторы, определяе-
мые его столбцами.
Замечание. Вывод о том, что смешанное произведение (a, b, c)
есть определитель, можно сделать сразу же: мы уже доказали,
что смешанное произведение линейно по каждому аргументу и
равно нулю в случае линейно зависимых векторов; выполнив
одно единственное вычисление (e1 , e2 , e3 ) = 1 для базисных
векторов декартовой системы, заключаем, что смешанное про-
изведение является индикатором линейной зависимости своих
аргументов и, следовательно, определителем.

10.8. Нормали к прямой и плоскости


Ненулевой вектор, ортогональный прямой, называется ее нор-
малью. Если прямая на плоскости с декартовой системой коор-
динат задана общим уравнением
Ax + By + C = 0,
то вектор n = (A, B) ортогонален любому вектору на данной
прямой. В самом деле, любой вектор на прямой имеет вид l =
= (x2 − x1 , y2 − y1 ), где (x1 , y1 ) и (x2 , y2 ) — две точки на данной
прямой. Подставляя координаты точек в общее уравнений прямой
на плоскости, находим
A(x2 − x1 ) + B(y2 − y1 ) = 0 ⇔ (n, l) = 0.
Аналогично, ненулевой вектор, ортогональный плоскости, на-
зывается нормалью для данной плоскости. Если плоскость в
пространстве с декартовой системой координат задана общим
уравнением
Ax + By + Cz + D = 0,
то вектор n = (A, B , C) — ее нормаль.
Используя векторное произведение, нормаль можно постро-
ить, имея пару неколлинеарных векторов a и b, принадлежащих
плоскости: вектор [a, b] ортогонален плоскости векторов a и b.
(Конечно, нормаль к плоскости определена однозначно с точно-
стью до ненулевого коэффициента.)

10.9. Расстояние от точки до прямой на плоскости


Рассмотрим прямую l : Ax + By + C = 0 на плоскости с
декартовой системой координат и точку M0 = (x0 , y0 ) ∈
/ l. Для
того чтобы найти расстояние ρ(M0 , l) от точки M0 до прямой l,
нужно выполнить такие действия:
106 Лекция 10

• провести через точку M0 прямую l0 , ортогональную пря-


мой l;
• найти точку M1 = (x1 , y1 ) пересечения прямых l0 и l;
• вычислить длину отрезка M0 M1 .
Мы уже знаем, что вектор n = (A, B) ортогонален прямой l.
Поэтому прямая l0 есть множество точек вида
l0 = {(x, y) : x = x0 + At, y = y0 + Bt, t ∈ R}.
Найдем значение параметра t, при котором (x, y) ∈ l:
Ax0 + By0 + C
A(x0 + At) + B(y0 + Bt) + C = 0 ⇒ t = − .
A2 + B 2
−→
Далее, M0 M1 = (At, Bt) ⇒
−→ |Ax0 + By0 + C|
ρ(M0 , l) = |M0 M1 | = ! .
A2 + B 2

10.10. Расстояние от точки до плоскости


Рассмотрим плоскость π : Ax + By + Cz + D = 0 в геометри-
ческом пространстве с декартовой системой координат и точку
M0 = (x0 , y0 , z) ∈
/ π . Расстояние ρ(M0 , l) от точки M0 до плоско-
сти π вычисляется в полной аналогии со случаем точки и прямой
на плоскости:
|Ax0 + By0 + Cz0 + D|
ρ(M0 , π) = ! .
A2 + B 2 + C 2

10.11. Критерии параллельности вектора прямой


и плоскости
Пусть на плоскости заданы прямая l : Ax + By + C = 0 и
вектор v = (v1 , v2 ). Если система координат декартова, то вектор
n = (A, B) является нормалью к прямой l. Поэтому вектор v
параллелен прямой l тогда и только тогда, когда (v, n) = 0. Учи-
тывая вид скалярного произведения в декартовых координатах,
получаем
v  l ⇔ Av1 + Bv2 = 0. (1)
Для плоскости π : Ax + By + Cz + D = 0 и вектора v =
= (v1 , v2 , v3 ) в пространстве с декартовой системой координат
получаем аналогичный критерий параллельности:
vπ ⇔ Av1 + Bv2 + Cv3 = 0. (2)
10.11. Критерии параллельности вектора прямойи плоскости 107

Заметим, что критерии параллельности (1) и (2) остаются


в силе и в случае произвольной аффинной системы координат.
В самом деле, пусть вектор v параллелен плоскости π : Ax +
+ By + Cz + D = 0. Возьмем произвольную точку A(x0 , y0 , z0 )
этой плоскости и определим точку B(x1 , y1 , z1 ) таким образом,
−→ −→
что AB = v . Тогда параллельность вектора v плоскости π
равносильна тому, что B ∈ π ⇔ Ax1 + By1 + Cz1 + D = 0.
Учитывая равенство Ax0 + By0 + Cz0 + D = 0, находим: A(x1 −
− x0 ) + B(y1 − y0 ) + C(z1 − z0 ) = 0 ⇔ Av1 + Bv2 + Cv3 = 0.
То же самое можно получить путем перехода от заданной
аффинной к какой-нибудь декартовой системе. Мы знаем, что в
любой декартовой системе координат с тем же началом плоскость
π задана уравнением
 
x
[A B  C  ] y  = −D, [A B  C  ] = [A B C] P ,
z 

где P — матрица перехода от заданной аффинной системы к де-


картовой (см. п. 9.11). Координаты (v1 , v2 , v3 ) вектора v в декар-
товой системе и его координаты (v1 , v2 , v3 ) в исходной аффинной
системе связаны равенством
  ⎡ ⎤ ⎡ ⎤  
v1 v1 v1 v1
v2 = P ⎣v2 ⎦ ⇔ ⎣v2 ⎦ = P −1 v2 .
v3 v3 v3 v3
Условие параллельности в декартовой системе, как мы уже вы-
яснили, имеет вид
  
v1
A v1 + B  v2 + C3 v3 = 0 ⇔ [A B C] P P −1 v2 ⇔
v3
⇔ Av1 + Bv2 + Cv3 = 0.
Л е к ц и я 11

11.1. Линейные пространства


При изучении линейной зависимости векторов, линейных
оболочек, базисов, размерностей в предыдущих лекциях мы по-
лагали, что векторы — это матрицы-столбцы с вещественными
элементами. Впрочем, при изучении ранга матрицы речь уже
заходила также о линейной зависимости и независимости строк
матрицы. Конечно, с формальной точки зрения строки можно
транспонировать и снова иметь дело с матрицами-столбцами.
Однако все перечисленные выше понятия и многие полученные
факты без всяких изменений можно применять и в случае, когда
под векторами понимаются матрицы каких-либо фиксированных
размеров. Уже одно это заставляет подумать о введении более
общего (и более абстрактного) понятия вектора.
Кроме того, изучая базисы и размерности, мы имели дело
исключительно с линейными оболочками векторов, а это не
всегда удобно: например, множество всех решений однородной
системы линейных алгебраических уравнений Ax = 0 является,
конечно, линейной оболочкой векторов фундаментальной систе-
мы решений, но было бы полезно иметь право изучать свойства
этого множества без упоминания об образующей его системе
векторов.
Давайте скажем, что векторы — это элементы некоторого
непустого множества V , на котором определены две операции:
сложение векторов (если a, b ∈ V , то a + b ∈ V ) и умножение
векторов на вещественные числа (если a ∈ V и α ∈ R, то αa ∈
∈ V ) . Потребуем, чтобы данные операции обладали следующими
свойствами:
• (a + b) + c = a + (b + c) ∀ a, b, c ∈ V (ассоциативность
сложения векторов);
• существует особый вектор 0, называемый нулевым векто-
ром, такой что
a + 0 = 0 + a = a ∀a ∈ V ;
11.1. Линейные пространства 109

• для любого вектора a ∈ V существует вектор b ∈ V такой,


что
a + b = b + a = 0;

• a + b = b + a ∀ a, b ∈ V (коммутативность сложения
векторов);
• α(β a) = (αβ) a ∀ α, β ∈ R, ∀ a ∈ V ;
• (α + β) a = αa + βa ∀ α, β ∈ R, ∀a ∈ V (дистрибутив-
ность);
• α(a + b) = αa + αb ∀ α ∈ R, ∀ a, b ∈ V (дистрибутив-
ность);
• 1 · a = a ∀ a ∈ V . 1)
Множество V , обладающее всеми этими свойствами, называ-
ется вещественным линейным пространством. Часто встречаю-
щийся термин-синоним — векторное пространство.
Заметим, что множество V относительно операции сложения
векторов является абелевой группой. Роль единичного элемента
играет нулевой вектор. Вектор b такой, что a + b = b + a = 0,
называется противоположным вектору a и обозначается b = −a.
Некоторые привычные свойства введенных нами операций,
ранее свободно применявшихся к матрицам-столбцам, в рассмот-
ренном более абстрактном случае нуждаются в доказатель-
ствах.
Утверждение 1. 0 · a = 0 ∀ a ∈ V .
Доказательство. В силу дистрибутивности

0 · a = (0 + 0) · a = (0 · a) + (0 · a).

Далее, пусть b = −(0 · a) (вектор, противоположный вектору


0 · a). Тогда 0 = b + (0 · a) = (b + (0 · a)) + (0 · a) ⇒ 0 = 0 · a. 
Утверждение 2. α · 0 = 0 ∀ α ∈ R.
Доказательство. α · 0 = α(0 + 0) = α · 0 + α · 0 ⇒ α · 0 = 0. 
Утверждение 3. (−1) · a = −a ∀ a ∈ V .
Доказательство. В силу утверждения 1 и дистрибутивности,
0 = 0 · a = (1 + (−1)) · a = (1 · a) + ((−1) · a) = a + ((−1) · a). 
Утверждение 4. Если α · a = 0, то либо α = 0, либо a = 0.

1)
Данное свойство равносильно тому, что каждый вектор a можно пред-
ставить в виде a = αb для некоторого вектора b и некоторого числа α.
В самом деле, если это свойство выполнено, то можно взять b = a и α = 1.
С другой стороны, пусть выполнение этого свойства не предполагается, но
известно, что a = αb. Тогда, используя аксиому α(β a) = (αβ) a, получаем
1 · (αb) = (1 · α) · b = αb ⇒ 1 · a = a.
110 Лекция 11

Доказательство. 1) Пусть α = 0. Тогда


1 1 1
a=1·a= α ·a= (α · a) = · 0 = 0. 
α α α
Как и раньше, для любых чисел α1 , . . . , αn вектор w вида
w = α1 a1 + . . . + αn an
называется линейной комбинацией векторов a1 , . . . an , а множе-
ство всех линейных комбинаций со всеми возможными значения-
ми коэффициентов α1 , . . . , αn называется линейной оболочкой
векторов a1 , . . . , an и обозначается L(a1 , . . . , an ).
В дальнейшем число 0 и нулевой вектор 0 будут обозначаться
одним и тем же символом 0.

11.2. Примеры бесконечномерных линейных


пространств
1) Множество функций с вещественными значениями на
отрезке [0, 1].
Сумма f + g функций f и g определяется как функция
со значениями (f + g)(x) = f (x) + g(x). При умножении
функции на число получается функция αf , определяемая
правилом (αf )(x) = αf (x). Роль нулевого вектора выпол-
няет функция, тождественно равная нулю.
2) Множество бесконечных последовательностей {xk }∞ k=1 .
Сумма последовательностей {xk } и {yk } определяется как
последовательность {zk } с членами zk = xk + yk . Произве-
дение последовательности {xk } на число α определяется
как последовательность {zk } с членами zk = αxk . Роль
нулевого вектора выполняет последовательность, в которой
все элементы равны нулю.
3) Множество сходящихся последовательностей {xk }∞ k=1 .
Операции определяются так же, как и в случае произволь-
ных бесконечных последовательностей. Необходимо лишь
заметить, что сумма сходящихся последовательностей оста-
нется сходящейся последовательностью, а умножение схо-
дящейся последовательности на число также дает сходя-
щуюся последовательность.
1)
Утверждение нельзя получить без аксиомы 1 · a = a. В самом деле, возь-
мем любую абелеву группу V с нулевым элементом 0 и определим умножение
на число правилом αa = 0 для всех чисел α и векторов a ∈ V . При этом будут
выполнены все аксиомы линейного пространства, кроме данной.
11.3. Примеры конечномерных линейных пространств 111

Примеры (1)–(3) замечательны тем, что соответствующие ли-


нейные пространства не являются линейной оболочкой какого-то
конечного числа своих векторов. Такие линейные пространства
называются бесконечномерными.
Докажем, например, бесконечномерность пространства функ-
ций. Предположим, от противного, что оно совпадает с линейной
оболочкой каких-либо функций f1 , . . . , fn . Тогда любая функция
f имеет вид
f (x) = α1 f1 (x) + . . . + αn fn (x). (∗)
Выберем n попарно различных точек x1 , . . . , xn ∈ [0, 1] и для про-
извольно выбранной функции f рассмотрим систему уравнений
α1 (f ) f1 (x1 ) + . . . + αn (f ) fn (x1 ) = f (x1 ),
... ... ... ...
α1 (f ) f1 (xn ) + . . . + αn (f ) fn (xn ) = f (xn ).
Это есть система линейных алгебраических уравнений относи-
тельно α1 (f ), . . . , αn (f ). Если матрица коэффициентов данной
системы необратима, то решение заведомо существует не для
любой правой части. Тогда равенство (∗) не выполняется хотя
бы для одной функции f . Следовательно, матрица коэффициен-
тов должна быть обратимой. Поэтому для заданной функции f
коэффициенты α1 (f ), . . . , αn (f ) определены однозначно.
Пусть теперь точка x∗ ∈ [0, 1] не совпадает ни с одной
из точек x1 , . . . , xn . Заведомо существует функция g такая,
что g(xi ) = f (xi ) при i = 1, . . . , n, но g(x∗ ) = f (x∗ ). Ясно, что
αi (f ) = αi (g) при i = 1, . . . , n, откуда f = g , чего быть не может,
поскольку f (x∗ ) = g(x∗ ). 
Задача 1. Доказать, что для линейной независимости функций
f1 (x), . . . , fn (x) необходимо и достаточно, чтобы для некоторых чисел
x1 , . . . , xn матрица [fi (xj )]nij=1 была обратимой.

11.3. Примеры конечномерных линейных пространств


Линейные пространства, представляющие собой линейную
оболочку некоторого конечного числа своих векторов, называют-
ся конечномерными.
1) Множество многочленов порядка n.
Многочленом (полиномом) от x порядка n называется вы-
ражение вида
f (x) = an−1 xn−1 + an−2 xn−2 + . . . + a1 x + a0 .
112 Лекция 11

Если ak = 0 и ak+1 = . . . = an−1 = 0, то k называется сте-


пенью многочлена f (x). Выражения вида axi называются
одночленами или мономами.
Будем рассматривать f (x) как функцию от x. Тогда сумма
многочленов и умножение многочлена на число определя-
ются так же, как в случае функций общего вида. При этом
ясно, что результаты этих операций остаются многочлена-
ми. Очевидно, что линейное пространство всех многочле-
нов порядка n является линейной оболочкой одночленов
вида
xn−1 , xn−2 , . . . , x1 , x0 ≡ 1.
2) Множество (m × n)-матриц с фиксированными размера-
ми m и n.
В данном случае сложение векторов определяется как сло-
жение матриц, а умножение вектора на число — как умно-
жение матрицы на число.
Обозначим через E kl = [(E kl )ij ] матрицу размеров m × n
с элементами вида 
kl 1, i = k , j = l,
(E )ij =
0 — иначе.
Таких матриц ровно mn, и очевидно, что все пространство
(m × n)-матриц является их линейной оболочкой.
3) Множество всех решений однородной системы линейных
алгебраических уравнений Ax = b.
Если ранг (m × n)-матрицы A равен r, то фундаменталь-
ная система решений данной однородной системы содер-
жит n − r векторов, а все множество решений совпадает
с их линейной оболочкой. Данное линейное пространство
называется нуль-пространством или ядром матрицы A.
Обозначение: ker A (в некоторых книгах null A).
4) Множество всех столбцов вида y = Ax (для заданной
матрицы A).
Это хорошо знакомое нам множество, совпадающее с ли-
нейной оболочкой столбцов матрицы A. Оно называется
образом матрицы A. Обозначение: imA.

11.4. Базис и размерность


Пусть V — конечномерное пространство. По определению,
оно является линейной оболочкой конечного числа своих векто-
ров:
V = L(a1 , . . . , an ).
11.5. Подпространства линейного пространства 113

Понятия линейно зависимой и линейно независимой систем век-


торов в абстрактном случае ничем не отличаются от тех же поня-
тий в случае матриц-столбцов. То же справедливо в отношении
базиса и размерности:
• V можно представить как линейную оболочку некоторой
линейно независимой подсистемы векторов a1 , . . . , an ;
• базис в пространстве V определяется как любая линейно
независимая система векторов, для которой V является ли-
нейной оболочкой; любые два базиса в V содержат одина-
ковое число векторов; число векторов в базисе называется
размерностью пространства V и обозначается dim V ;
• любую линейно независимую систему векторов из V можно
достроить до базиса V ; более того, это можно сделать
с помощью части векторов a1 , . . . , an .
Доказательства этих предложений повторяют доказательства из
лекции 3 для частного случая линейных пространств — когда
под векторами подразумевались матрицы-столбцы.

11.5. Подпространства линейного пространства


Непустое множество W ⊂ V называется подпространством
линейного пространства V , если оно само является линейным
пространством относительно операций, действующих в V . Ясно,
что для того чтобы W было подпространством, необходимо и до-
статочно, чтобы для любых векторов a, b ∈ W и любого числа α
имели место включения a + b ∈ W и αa ∈ W .
Если векторы a1 , . . . , an принадлежат подпространству W , то
L(a1 , . . . , an ) ⊂ W.
ПРИМЕР. Рассмотрим множество V всех свободных векто-
ров на плоскости с системой координат с началом в точке O. По-
скольку каждый свободный вектор порождается одним и только
одним радиус-вектором, любое подмножество свободных векто-
−→
ров можно отождествлять с подмножеством радиус-векторов OA
или их концов — точек A.
Множество V , очевидно, является линейным пространством.
Любая прямая, проходящая через начало координат, является
подпространством в V . В то же время, если l — прямая, не
проходящая через начало координат, то она подпространством не
−→ −→ −→
является: пусть A, B ∈ l и OC = OA + OB ; ясно, что C ∈ / l.
114 Лекция 11

Задача 1. Докажите, что линейное пространство Rn нель-


зя представить в виде объединения конечного числа множеств,
каждое из которых не совпадает с Rn и является его подпро-
странством.

11.6. Сумма и пересечение подпространств


Пусть P и Q — подпространства линейного пространства V .
Под суммой P + Q понимается множество всех векторов вида
w = p + q , где p ∈ P , q ∈ Q. Под пересечением P ∩ Q понимается
обычное пересечение множеств.
Утверждение. Множества P + Q и P ∩ Q являются подпро-
странствами в V .
Доказательство.
1) Рассмотрим произвольную линейную комбинацию векто-
ров w1 , w2 ∈ P + Q. По определению множества P + Q имеем:
w1 = p1 + q1 и w2 = p1 + q2 , где p1 , p2 ∈ P и q1 , q2 ∈ Q. Тогда
α1 w1 + α2 w2 = (α1 p1 + α2 p2 ) + (α1 q1 + α2 q2 ) ∈ P + Q,
поскольку вектор в первой скобке принадлежит P , а вектор вто-
рой скобки принадлежит Q (P и Q — подпространства, поэтому
они содержат все линейные комбинации своих векторов).
2) Аналогично, рассмотрим линейную комбинацию векторов
w1 , w2 ∈ P ∩ Q:
αw1 + α2 w2 ∈ P и одновременнно α1 w1 + α2 w2 ∈ Q
⇒ αw1 + α2 w2 ∈ P ∩ Q. 
Заметим, что любые два подпространства имеют непустое
пересечение: каждое из них содержит по крайней мере нулевой
вектор.
Теорема Грассмана. Пусть W1 и W2 — конечномерные подпро-
странства линейного пространства V . Тогда
dim(W1 + W2 ) = dim W1 + dim W2 − dim(W1 ∩ W2 ).

Доказательство. Рассмотрим базис g1 , . . . , gr подпространства


W1 ∩ W2 и дополним его сначала до базиса W1 :
g1 , . . . , gr , p1 , . . . , pk , r + k = dim W1 ,
а затем до базиса W2 :
g1 , . . . , gr , q1 , . . . , qm , r + m = dim W2 .
11.6. Сумма и пересечение подпространств 115

Очевидно, что
W1 + W2 = L(g1 , . . . , gr , p1 , . . . , pk , q1 , . . . , qm ).
Поэтому остается доказать линейную независимость векторов,
порождающих данную линейную оболочку. Пусть
α1 g1 + . . . + αr gr + β1 p1 + . . . + βk pk + γ1 q1 + . . . + γm qm = 0.
Отсюда
α1 g1 + . . . + αr gr + β1 p1 + . . . + βk pk =
= −(γ1 q1 + . . . + γm qm ) ∈ W1 ∩ W2 .
Поскольку W1 ∩ W2 = L(g1 , . . . , gr ), для некоторых коэффи-
циентов δ1 , . . . , δr имеем
δ1 g1 + . . . + δr gr = −(γ1 q1 + . . . + γm qm ),
что равносильно равенству
δ1 g1 + . . . + δr gr + γ1 q1 + . . . + γm qm = 0 ⇒
⇒ δ1 = . . . = δr = γ1 = . . . = γm = 0 ⇒
⇒ α1 = . . . = αr = β1 = . . . = βm = 0. 

Задача 1. Найдите размерность суммы подпространства (n × n)-


матриц с нулевой суммой элементов в каждой строке и подпростран-
ства (n × n)-матриц с нулевой суммой элементов в каждом столбце.
Л е к ц и я 12

12.1. Разложение по базису


Пусть V — вещественное линейное пространство размерно-
сти n и f1 , . . . , fn — некоторый его базис. Тогда любой вектор
v ∈ V имеет однозначное разложение по данному базису:
v = x1 f1 + . . . + xn fn .
Коэффициенты x1 , . . . , xn называются координатами вектора v
в данном базисе. Понятно, что между элементами линейного
пространства V и множества столбцов Rn имеется взаимно-
однозначное соответствие:
 
x1
v ↔ x = ... .
xn
При выборе другого базиса g1 , . . . , gn возникает еще одно
взаимно-однозначное соответствие между теми же множествами:
 
y1
v = y1 g1 + . . . + yn gn ↔ y = . . . .
yn
Рассмотрим разложения
f1 = p11 g1 + . . . + pn1 gn ,
... ... ... (∗)
fn = p1n g1 + . . . + pnn gn
и введем (n × n)-матрицу P = [pij ]. Подставив (∗) в разложение
вектора v по базису f1 , . . . , fn , находим
y = P x. (∗∗)
Это соотношение позволяет переходить от координат вектора
в базисе {fi } к координатам того же вектора в базисе {gi }.
В силу (∗∗) матрицу P логично было бы называть матрицей
перехода от базиса {fi } к базису {gi }. Но она все же называется
12.2. Изоморфизм линейных пространств 117

обычно матрицей перехода от базиса {gi } к базису {fi }: если


fi и gi — столбцы из координат соответствующих векторов в
каком-то третьем базисе, то согласно (∗) [f1 , . . . , fn ] = [g1 , . . .
. . . , gn ]P (отсюда вытекает обратимость матрицы P и то, что
P −1 есть матрица перехода от {fi } к {gi }). Впрочем, дело не в
названии — важно, чтобы матрица P правильно использовалась
при пересчете координат!

12.2. Изоморфизм линейных пространств


Два вещественных линейных пространства V и W называют-
ся изоморфными, если существует взаимно-однозначное отобра-
жение Φ : V → W , сохраняющее операции в следующем смысле:
Φ(a + b) = Φ(a) + Φ(b), Φ(α a) = α Φ(a) ∀ a, b ∈ V , ∀ α ∈ R.
Само отображение Φ называется при этом изоморфизмом.
Заметим, что операции сложения векторов и умножения на
число в левой и правой частях данных равенств, вообще говоря,
разные! Операции слева действуют в V , а операции справа —
в W . Тем не менее, если установлено, что пространства изоморф-
ны, то это означает их неразличимость с точки зрения свойств
операций.
Утверждение. Φ(0) = 0, Φ(−a) = −Φ(a) ∀ a ∈ V .
Доказательство. Φ(0) = Φ(0 + 0) = Φ(0) + Φ(0). Прибавим
к обеим частям вектор b = −Φ(a) (вектор, противоположный
Φ(a)):
0 = b + Φ(0) = (b + Φ(0)) + Φ(0) = 0 + Φ(0) = Φ(0) ⇒ Φ(0) = 0.
Очевидно, что на множестве всех вещественных линейных
пространств изоморфизм порождает отношение эквивалентно-
сти. Важно, что исследования, выполненные для одного про-
странства V , сразу же переносятся на любое изоморфное ему
пространство. Например, векторы a1 , . . . , an ∈ V линейно зави-
симы тогда и только тогда, когда линейно зависимы векторы
Φ(a1 ), . . . , Φ(an ).
Теорема. Любое вещественное линейное пространство V раз-
мерности n = dim V изоморфно Rn .
Доказательство. Выберем какой-нибудь базис a1 , . . . , an в про-
странстве V и определим отображение Φ следующим образом:
 
x1
Φ(v) = . . . ,
xn
118 Лекция 12

где x1 , . . . , xn — коэффициенты разложения вектора v по данному


базису:
v = x1 a1 + . . . + xn an .
Сохранение операций проверяется очевидным образом. 
Следствие. Любые конечномерные вещественные простран-
ства одинаковой размерности изоморфны.

12.3. Пространство многочленов


Пусть Pn — линейное пространство многочленов порядка n
с вещественными коэффициентами. Докажем, что Pn изоморф-
но Rn .
Любой многочлен p(x) порядка n имеет вид
p(x) = pn−1 xn−1 + . . . + p1 x + p0 . (∗)
Поэтому кажется, что с определением изоморфизма Φ нет про-
блем:  
p0
Φ(p(x)) = ... .
pn−1
Действительно, это отображение сохраняет операции. Но будет
ли оно взаимно-однозначным?
Если под многочленом понимается формальное выражение
вида (∗) и при этом равенство многочленов определяется как
равенство всех коэффициентов при одинаковых степенях x, то
взаимная однозначность очевидна.
Если же под многочленом понимается функция от x ви-
да (∗), то равенство многочленов определяется как равенство
функций. В этом случае требуется доказать, что коэффициенты
в представлении (∗) определяются по функции p(x) однозначно.
Для этого достаточно установить линейную независимость одно-
членов
x0 , x1 , . . . , xn−1
как функций от x.
Предположим, от противного, что данные одночлены линейно
зависимы. Поскольку это ненулевые функции, существует одна
из них, линейно выражающаяся через предыдущие:
xk = α0 + α1 x + . . . + αk−1 xk−1 .
Понятно, что такого быть не может, если эти функции рассмат-
риваются как функции на всей оси (−∞, ∞): поделим обе части
12.3. Пространство многочленов 119

на xk и перейдем в обеих частях к пределу при x → ∞; слева


получится 1, а справа 0.
Как быть, если эти функции рассматриваются на конечном
отрезке, например, на [0, 1]? Предположим, что
p0 + p1 x + . . . + pn−1 xn−1 = 0 ∀ x ∈ [0, 1]. (#)
В этом случае можно поступить следующим образом. Выбе-
рем произвольные попарно различные числа x1 . . . , xn ∈ [0, 1].
Равенство (#) имеет место при всех x ∈ [0, 1], поэтому мы
имеем право рассмотреть его только для выбранных значений
x = x1 , . . . , xn :

⎨ p0 · 1 + p1 · x1 + . . . + pn−1 · x1n−1 = 0,
...

p0 · 1 + p1 · xn + . . . + pn−1 · xn−
n
1 = 0.

Это однородная система линейных алгебраических уравнений


с матрицей коэффициентов
⎡ ⎤
1 x1 . . . x1n−1
A = ⎣ ... ... ... ... ⎦ .
1 xn . . . xn−
n
1

Матрица такого вида называется транспонированной матрицей


Вандермонда, а матрица A — матрицей Вандермонда поряд-
ка n для чисел x1 , . . . , xn . Обозначение: A = V (x1 , . . . , xn ).
Утверждение. Определитель матрицы Вандермонда V (x1 , . . .
. . . , xn ) равен

det V (x1 , . . . , xn ) = (xj − xi ).
1i<j n

Доказательство. Определитель
⎡ ⎤
1 1 ... 1
⎢ x1 x2 . . . xn ⎥
det V (x1 , . . . , xn ) = ⎣ . . . ... ... ... ⎦
x1n−1 x2n−1 . . . xn−
n
1

не изменится, если из i-й строки вычесть (i − 1)-ю, умноженную


на xn . При этом в последнем столбце i-й элемент станет нулем.
Указанные действия выполним последовательно для строк с но-
мерами i = n, n − 1, . . . , 2. В результате находим
120 Лекция 12

det V (x1 , . . . , xn ) =
⎡ 1 1 ... 1 1

⎢ x 1 − xn x 2 − xn ... xn−1 − xn 0⎥
= det⎣ ... ... ... ⎦.
x1n−2 (x1 − xn ) x2n−2 (x2 − xn ) . . . xn−
n−1 (xn−1 − xn ) 0
2

Применим теорему Лапласа для разложения определителя по


последнему столбцу:
det V (x1 , . . . , xn ) =
= (−1)n+1 (x1 −xn )(x2 −xn ) · . . . · (xn−1 −xn ) det V (x1 , . . . , xn−1 ) =
= (xn − x1 )(xn − x1 ) · . . . · (xn − xn−1 ) det V (x1 , . . . , xn−1 ).
Доказательство завершается по индукции. 
Следствие 1. Определитель Вандермонда в случае попарно
различных чисел отличен от нуля.
Следствие 2. Если функция вида (∗) равна нулю для n попарно
различных значений x, то
p0 = p1 = . . . = pn−1 = 0.

Отсюда вытекает линейная независимость одночленов как


функций на любом фиксированном отрезке.
Задача 1. Даны попарно различные числа x1 , . . . , xn , y1 , . . . , yn
и известно, что для каких-то чисел u1 , . . . , un многочлен
n
 n
 uj
f (x) = (x − yk )
x − yj
k=1 j=1

обращается в нуль при x = x1 , . . . , xn . Доказать, что u1 = . . . = un =


= 0. Вывести отсюда невырожденность (n × n)-матрицы с элементами
1/(xi − yj ).

12.4. Прямая сумма подпространств


В линейном пространстве наряду с разложениями векторов
по базису часто представляют интерес также разложения векто-
ров по некоторым системам подпространств.
Пусть W1 , . . . , Wm — подпространства в линейном простран-
стве V . Множество
W = W1 + . . . +Wm ≡ {w = w1 + . . . +wm : w1 ∈ W1 , . . . , wm ∈ Wm }
12.4. Прямая сумма подпространств 121

называется суммой подпространств W1 , . . . , Wm . Конечно, W


является подпространством в V (доказательство для суммы двух
подпространств легко адаптируется и к случаю суммы m под-
пространств).
В случае если для любого вектора w ∈ W1 + . . . + Wm в раз-
ложении
w = w1 + . . . + wm , w1 ∈ W1 , . . . , wm ∈ Wm ,
векторы w1 ∈ W1 , . . . , wm ∈ Wm определяются однозначно, сум-
ма данных подпространств называется прямой суммой. Ненуле-
вые подпространства, сумма которых является прямой, называ-
ются линейно независимыми.
Если e1 , . . . , en — любая линейно независимая система век-
торов, то сумма их линейных оболочек
W = L(e1 ) + . . . + L(en )
является прямой суммой. Это наблюдение обобщается следую-
щим образом.
Теорема. Пусть V — конечномерное пространство и W1 , . . .
. . . , Wm — его ненулевые подпространства. Сумма
W = W 1 + . . . + Wn
является прямой суммой тогда и только тогда, когда объеди-
нение произвольно выбранных базисов для W1 , . . . , Wm дает
базис подпространства W .
Доказательство. Пусть W является прямой суммой. Предполо-
жим, что dim Wi = ni , и рассмотрим W1 , . . . , Wm как линейные
оболочки своих базисов:
W1 = L(v11 , . . . , vn1 1 ), ... , Wm = L(v1m , . . . , vnm m ).
Докажем, что объединение базисов образует базис в V . Ясно,
что W есть линейная оболочка объединения базисов:
W = L(v11 , . . . , vn1 1 , . . . , v1m , . . . , vnm m ).
Поэтому остается лишь убедиться в линейной независимо-
сти векторов объединения базисов. Пусть w — произволь-
ная линейная комбинация этих векторов. Запишем w виде
w = w1 + . . . + wm , где wi ∈ Wi , i = 1, . . . , m. Если w = 0, то
в силу единственности векторов w1 ∈ W1 , . . . , wm ∈ Wm данного
разложения получаем: w1 = . . . = wm = 0. Отсюда следует, что
все коэффициенты в разложении w = 0 по объединенной системе
v11 , . . . , vn1 1 , . . . , v1m , . . . , vnm m равны нулю.
122 Лекция 12

Пусть теперь объединение базисов подпространств W1 , . . .


. . . , Wm дает базис W . Единственность разложения вектора по
базису означает единственность векторов w1 ∈ W1 , . . . , wm ∈ Wm
в разложении w = w1 + . . . + wm . 
Задача 1. Докажите, что пространство матриц Rn×n являет-
ся прямой суммой подпространств симметричных матриц (таких, что
A = A) и кососимметричных матриц (таких, что A = −A).

12.5. Дополнительные пространства и проекции


Если линейное пространство V явлется прямой суммой своих
подпространств:
L+M =V,
то M называется дополнительным пространством для L. В си-
лу симметрии суммы очевидно, что L является дополнительным
для M .
В таких случаях для любого вектора v ∈ V существует един-
ственное разложение
v = x + y, где x ∈ L, y ∈ M.
Вектор x называется проекцией вектора v на подпространство
L параллельно (вдоль подпространства) M , а y — проекцией
вектора v на M параллельно L.
Утверждение. Сумма двух подпространств L + M является
прямой тогда и только тогда, когда L ∩ M = {0}.
Доказательство. Пусть сумма прямая и x ∈ L ∩ M . Тогда мы
имеем два разложения: x = x + 0 и x = 0 + x, в которых первый
вектор из L, а второй из M . В силу единственности компонент
разложения x = 0.
Пусть теперь L ∩ M = {0}, и пусть x1 + y1 = x2 + y2 , x1 , x2 ∈
∈ L, y1 , y2 ∈ M . Отсюда x1 − x2 = −(y1 − y2 ) ∈ L ∩ M ⇒
x1 − x2 = −(y1 − y2 ) = 0 ⇒ x1 = x2 , y1 = y2 . 
ПРИМЕР. В линейном пространстве V всех свободных век-
торов (радиус-векторов) рассмотрим плоскость L и прямую M ,
проходящие через начало координат. Если прямая лежит в плос-
кости, то сумма L + M равна L и не является прямой. Во
всех других случаях имеем прямую сумму V = L + M и можем
−→
рассматривать проекции радиус-вектора OA (точки A) на дан-
ную плоскость параллельно прямой и на прямую параллельно
плоскости.
12.6. Вычисление подпространства 123

12.6. Вычисление подпространства


Под вычислением конечномерного подпространства W в ли-
нейном пространстве V обычно понимается построение какого-
либо его базиса — линейно независимой системы векторов
w1 , . . . , wk такой, что W = L(w1 , . . . , wk ), k = dim W .
ПРИМЕР. Пусть подпространства W1 , W2 ⊂ R5 определя-
ются следующим образом:
• W1 — множество всех решений однородной системы

x1 + x2 + x3 + x4 + x5 = 0,
x4 + x5 = 0;
• W2 — множество всех решений однородной системы
x1 + x2 + x3 + x4 + x5 = 0,
2x3 + x4 + 2x5 = 0,
x5 = 0 .
Требуется
 вычислить подпространства W1 , W2 , W1 + W2
и W1 W2 .
Обозначим матрицы коэффициентов данных систем через A
и B . Тогда

 
1 1 1 1 1
1 1 1 1 1
A= 0 0 0 1 1 , B= 0 0 2 1 2 ;
0 0 0 0 1
W1 = ker A, W2 = ker B.
Матрицы A и B имеют верхнюю ступенчатую форму с числом
ступеней 2 и 3 соответстввенно. Поэтому
rankA = 2, rankB = 3 ⇒
dim W1 = 5 − 2 = 3, dim W2 = 5 − 3 = 2.
(Размерности определяются теоремой о строении множества
решений однородной системы линейных алгебраических урав-
нений.)
Далее, в матрице A базисными являются, например, столбцы
с номерами 1, 4. Поэтому в качестве базисных можно выбрать
неизвестные x1 , x4 ; остальные неизвестные x2 , x3 , x5 будут сво-
бодными:
x2 = 1, x3 = 0, x5 = 0 ⇒ x1 = −1, x4 = 0;
x2 = 0, x3 = 1, x5 = 0 ⇒ x1 = −1, x4 = 0;
x2 = 0, x3 = 0, x5 = 1 ⇒ x1 = 0, x4 = −1.
124 Лекция 12

Таким образом,
⎡ ⎤ ⎡ ⎤ ⎡ ⎤
−1 −1 0
⎢ 1 ⎥ ⎢ 0 ⎥ ⎢ 0 ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
W1 = L(p1 , p2 , p3 ), где p1 = ⎢ 0 ⎥ , p2 = ⎢ 1 ⎥ , p3 = ⎢ 0 ⎥.
⎣ 0 ⎦ ⎣ 0 ⎦ ⎣ −1 ⎦
0 0 1
В матрице B базисными являются, например, столбцы с но-
мерами 1, 3, 5. Неизвестные x1 , x3 , x5 — базисные, а неизвестные
x2 , x4 — свободные:
x2 = 1, x4 = 0 ⇒ x1 = −1, x3 = 0, x5 = 0;
x2 = 0, x4 = 1 ⇒ x1 = −1/2, x3 = −1/2, x5 = 0.
Таким образом,
⎡ ⎤ ⎡ ⎤
−1 −1/2
⎢ 1 ⎥ ⎢ 0 ⎥
⎢ ⎥ ⎢ ⎥
W2 = L(q1 , q2 ), где q1 = ⎢ 0 ⎥ , q2 = ⎢ −1/2 ⎥.
⎣ 0 ⎦ ⎣ 1 ⎦
0 0
Далее, W1 + W2 = L(p1 , p2 , p3 , q1 , q2 ) = im C , где
⎡ ⎤
−1 −1 0 −1 −1/2
⎢ 1 0 0 1 0 ⎥
⎢ ⎥
C = [p1 , p2 , p3 , q1 , q2 ] = ⎢ 0 1 0 0 −1/2 ⎥.
⎣ 0 0 −1 0 1 ⎦
0 0 1 0 0
Простое вычисление показывает, что rank C = 4, а базисными
являются, например, столбцы с номерами 1, 2, 3, 5. Поэтому век-
торы p1 , p2 , p3 , q2 линейно независимы и
W1 + W2 = L(p1 , p2 , p3 , q2 ),
dim(W1 + W2 ) = 4.

Наконец, в силу теоремы Грассмана, dim W1 W2 = 3 + 2 −
− 4 = 1.В данном случае можно заметить, что p1 = q1 ⇒
p1 ∈ W1 W2 . Следовательно,
"
W1 W2 = L(p1 ).
Конечно, для поиска пересечения в данномслучае можно также
заметить, что вектор x принадлежит W1 W2 тогда и только
тогда, когда Ax = 0 и Bx = 0. Таким образом,
" " 

#
A 0
W1 W2 = ker A ker B = x : x= .
B 0
12.6. Вычисление подпространства 125

В общем случае вычисление пересечения подпространств


"
W = L(a1 , . . . , ak ) L(b1 , . . . , bm )
сводится к решению однородной системы линейных алгебраиче-
ских уравнений
x1 a1 + . . . + xk ak + y1 b1 + . . . + ym bm = 0 (∗)
с неизвестными x1 , . . . , xk , y1 , . . . , ym . Из равенства (∗) ясно, что
v = x1 a1 + . . . + xk ak = −(y1 b1 + . . . + ym bm ) ∈ W.
Пусть r = rank[a1 , . . . , ak , b1 , . . . , bm ]. Тогда фундаментальная си-
стема векторов для (∗) состоит из k + m − r векторов вида
⎡ ⎤ ⎡ ⎤
s11 s1 k+m−r
⎢ ... ⎥ ⎢ ... ⎥
⎣ s ⎦ , ... , ⎣ s ⎦,
k1 k k+m−r
... ...
где компоненты s1j , . . . , skj соответствуют неизвестным x1 , . . .
. . . , xk . После того как фундаментальная система построена, по-
лучаем
W = L(v1 , . . . , vk+m−r ),
vj = s1j a1 + . . . + skj ak ,
j = 1, . . . , k + m − r.
Предположим, что
dim L(a1 , . . . , ak ) = k , L(b1 , . . . , bm ) = m.
Тогда в силу теоремы Грассмана dim W = k + m − r, поэтому
векторы v1 , . . . , vk+m−r будут линейно независимы.
Л е к ц и я 13

13.1. Линейные многообразия


Пусть W — подпространство в линейном пространстве V
и x — некоторый вектор из V . Множество векторов вида
M = {v = x + w : w ∈ W }
называется линейным многобразием в V . Обозначение: M = x +
+ W.
Подпространство W называется направляющим простран-
ством для M и определяется по множеству M однозначно.
В самом деле, пусть
M = x1 + W1 = x2 + W2 .

Отсюда x1 − x2 ∈ W1 W2 . Пусть y ∈ W1 . Тогда y + (x1 − x2 ) ∈
∈ W2 ⇒ y ∈ W2 . Аналогично, если y ∈ W2 , то y + (x2 − x1 ) ∈
∈ W 1 ⇒ y ∈ W1 . 
Для M = x + W вектор x называется вектором сдвига.
В качестве вектора сдвига можно взять любой вектор из M :
M =x+W =y+W ∀ y ∈ M.
Действительно, пусть y = x + w0 для какого-то w0 ∈ W . Тогда,
если z = x + w при некотором w ∈ W , то z = y + (x − y) + w =
= y + (−w0 + w). Значит, x + W ⊂ y + W . Обратное включение
доказывается аналогично. 
Если W — конечномерное пространство, то его размерность
называется также размерностью линейного многообразия M =
= x + W.
ПРИМЕР 1. Множество решений системы Ax=b с (m×n)-
матрицей ранга r представляет собой линейное многобразие v +
+ W , где v — частное решение данной системы и W = ker A.
ПРИМЕР 2. Прямая на плоскости или в трехмерном про-
странстве — это линейное многообразие размерности 1. Плос-
кость в трехмерном пространстве — это линейное многообразие
размерности 2.
13.2. Аффинные множества 127

При изучении линейных многообразий элементы векторного


пространства обычно называют точками. По аналогии с гео-
метрическим пространством можно думать о векторах как о
радиус-векторах, отложенных от общей начальной точки, отож-
дествляемой с нулевым вектором.
Задача 1. Докажите, что два линейных многообразия a1 + L1 и
a2 + L2 с направляющими подпространствами L1 и L2 пересекаются
тогда и только тогда, когда a1 − a2 ∈ L1 + L2 .

13.2. Аффинные множества


Пусть x = y — две точки в линейном пространстве V . Мно-
жество точек вида
l = {z = x + t(y − x), t ∈ R}
называется прямой, проходящей через точки x и y . Множество
M ⊂ V называется аффинным множеством, если вместе с лю-
быми двумя точками x = y оно содержит все точки проходящей
через них прямой.
Утверждение. Линейные многообразия и только они являются
аффинными множествами.
Доказательство. Пусть M = x0 + L — линейное многообразие
с направляющим пространством L и вектором сдвига x0 . Пусть
x = x0 + u, u ∈ L и y = x0 + v , v ∈ L. Тогда v − u ∈ L и поэтому
x + t(y − x) = x0 + t(v − u) ∈ L для любых t.
Теперь предположим, что M — аффинное множество. Зафик-
сируем точку x0 ∈ M и рассмотрим множество
L = {z ∈ V : z = x − x0 , x ∈ M }.
Докажем, что L — линейное подпространство. Во-первых, если
z ∈ L, то
αz = (x0 + α(x − x0 )) − x0 ∈ L.
Во-вторых, если z1 = x1 − x0 ∈ L и z2 = x2 − x0 ∈ L, то z1 + z2 =
x + x2
= 2z , где z = 1 − x0 . Остается заметить, что
2
x1 + x2 x2 − x1
= x1 + ∈ M ⇒ z ∈ L ⇒ 2z ∈ L ⇒ z1 + z2 ∈ L. 
2 2
Любое множество точек S содержится, конечно, в некотором
аффинном множестве (например, в V ). Пусть M — пересечение
всех таких аффинных множеств.Ясно, что M будет тоже аффин-
128 Лекция 13

ным множеством, причем наименьшим аффинным множеством,


содержащим S . Оно называется аффинной оболочкой множе-
ства S .

13.3. Гиперплоскости
Пусть V — вещественное линейное пространство размерно-
сти n. Любое линейное многообразие M = v0 + L ⊂ V размерно-
сти n − 1 называется гиперплоскостью.
Поскольку V изоморфно Rn , давайте считать, что V = Rn ,
и рассмотрим уравнение относительно вещественных неизвест-
ных x1 , . . . , xn :
c1 x1 + . . . + cn xn = b, (∗)
где хотя бы одно из чисел ci отлично от нуля.
Утверждение 1. Множество всех векторов из Rn с коорди-
натами x1 , . . . , xn , удовлетворяющими уравнению (∗), есть
гиперплоскость. Кроме того, любая гиперплоскость может
быть задана как множество решений некоторого уравнения
вида (∗).
Доказательство. Уравнение (∗) — это частный случай систе-
мы линейных алгебраических уравнений, состоящей их одного
уравнения. Матрица коэффициентов имеет размеры (1 × n), и,
поскольку не все ci равны нулю, ее ранг равен 1. Очевидно,
что система совместна. Обозначим через v1 , . . . , vn−1 векторы
фундаментальной системы решений, и пусть v0 — произвольное
частное решение. Тогда множество решений системы (∗) имеет
вид v0 + L(v1 , . . . , vn−1 ) и поэтому является гиперплоскостью.
Пусть M = v0 + L(v1 , . . . , vn−1 ) — произвольная гиперплос-
кость. Образуем [n × (n − 1)]-матрицу B = [v1 , . . . , vn−1 ] и рас-
смотрим уравнение  
c1
B  . . . = 0.
cn
Ранг матрицы коэффициентов равен n − 1 ⇒ система имеет
нетривиальное решение c = [c1 , . . . , cn ] . Очевидно, что
M = {x = v0 + Bz , z ∈ Rn−1 }.
Умножив обе части равенства x = v0 + Bz слева на матрицу-
строку c , находим
c x = c v0 + (c B)z = c v0 ⇒ c1 x1 + . . . + cn xn = b, b = c v0 .
13.4. Полупространства 129

Остается заметить, что v0 есть частное решение полученной


системы, а столбцы матрицы B образуют фундаментальную си-
стему решений для соответствующей однородной системы. 
Утверждение 2. Любое линейное многообразие размерности k
является пересечением n − k гиперплоскостей.
Доказательство. Пусть данное многообразие имеет вид M =
= v0 + L(v1 , . . . , vk ). Тогда x ∈ M есть вектор вида x = v0 + Bz ,
где B = [v1 , . . . , vk ], z ∈ Rk . Рассмотрим уравнение

B  y = 0.
Поскольку rankB = k , фундаментальная система решений содер-
жит n − k векторов. Обозначим их через a1 , . . . , an−k . Далее,

a   
i x = ai v0 + (ai B)z = ai v0 .

Следовательно, x принадлежит пересечению гиперплоскостей


a
i x = bi , bi = a
i v0 , 1  i  n − k.
В то же время пересечение этих гиперплоскостей есть линейное
многообразие той же размерности. 
Заметим, что системы n − k гиперплоскостей, дающие в пере-
сечении M , можно выбрать многими способами. Из доказатель-
ства видно, что их столько, сколько имеется фундаментальных
систем решений уравнения B  y = 0.

13.4. Полупространства
Любая гиперплоскость π : c1 x1 + . . . + cn xn = b (c  x = b )
выделяет в Rn два подмножества:
π− = {x : c x  b}, π+ = {x : c x  b}, π− ∩ π+ = π.
Эти подмножества называются («отрицательным» и «положи-
тельным») полупространствами. В случае плоскости в трехмер-
ном пространстве они уже изучались в п. 7.12.
Утверждение. Точки x, y ∈ / π принадлежат разным полупро-
странствам тогда и только тогда, когда x + t(y − x) ∈ π при
некотором 0 < t < 1.
Доказательство. Пусть для определенности x ∈ π− и y ∈ π+ .
Тогда уравнение
c (x + t(y − x)) = b
5 Е. Е. Тыртышников
130 Лекция 13

имеет решение
b − c x b − c x
t= = ,
c (y − x) (b − c x) − (b − c y)
причем с очевидностью 0 < t < 1. Если же x, y ∈ π− (π+ ), то при
любом 0  t  1 находим: x + t(y − c) ∈ π− (π+ ). 

13.5. Выпуклые множества


Пусть V — линейное пространство и x, y ∈ V . Множество
точек вида x + t(y − x) = (1 − t)x + ty , 0  t  1, называется
отрезком, соединяющим x и y . Множество M ⊂ V называется
выпуклым, если вместе с любыми двумя точками оно содержит
все точки соединяющего их отрезка. Точки, получаемые при 0 <
< t < 1, называются внутренними точками отрезка.
Любые полупространства в Rn — выпуклые множества. То
же верно и для пересечения любого числа полупространств.
Это следствие более общего и очевидного факта: пересечение
любого числа выпуклых множеств является выпуклым мно-
жеством.
Пусть v1 , . . . , vk ∈ V . Тогда вектор
v = t1 v1 + . . . + tk vk , ti  0, t1 + . . . + tk = 1,
называется выпуклой комбинацией векторов v1 , . . . , vk . Множе-
ство всех возможных выпуклых комбинаций заданных векторов
называется их выпуклой оболочкой.
Утверждение 1. Выпуклая оболочка векторов является вы-
пуклым множеством.
Доказательство. Пусть x = α1 v1 + . . . + αk vk и y = β1 v1 + . . .
. . . + βk vk . Тогда при 0  t  1 получаем

k
(1 − t)x + ty = ((1 − t)αi + tβi )vi .
i=1
 
Если αi = βi = 1 и αi , βi  0, то, очевидно,

k
((1 − t)αi + tβi ) = 1, (1 − t)αi + tβi  0. 
i=1
Например, в трехмерном пространстве выпуклая оболочка
трех точек, не лежащих на одной прямой, представляет собой
треугольник с вершинами в этих точках. Выпуклая оболочка
четырех точек, не лежащих в одной плоскости, есть тетраэдр.
13.5. Выпуклые множества 131

Утверждение 2. Пусть M — выпуклое множество. Тогда


вместе с любой системой точек M содержит целиком и их
выпуклую оболочку.
Доказательство. Если t1 > 0, то
 k
k  ti 
k
ti
ti vi = t1 v1 + (1 − t1 ) vi , = 1.
1 − t1 1 − t1
i=1 i=2 i=2
Далее проводим индукцию по числу точек k . 
Любое (в том числе и бесконечное) множество точек S содер-
жится в некотором выпуклом множестве (достаточно учесть, что
любое аффинное множество является выпуклым). Пересечение
всех таких множеств будет наименьшим выпуклым множеством,
содержащим S . Оно называется выпуклой оболочкой множе-
ства S . Легко видеть, что если S — конечная система точек, то
ее выпуклая оболочка совпадает с выпуклой оболочкой множе-
ства S .
Задача 1. Матрица A ∈ Rn×n называется двоякостохастической,
если все ее элементы неотрицательны, а сумма элементов в каждой
строке и каждом столбце равна 1. Доказать, что множество всех
двоякостохастических матриц порядка n является выпуклым, и найти
все его угловые точки (так называются точки множества, не являю-
щиеся внутренними ни для одного отрезка, принадлежащего данному
множеству).

5*
Л е к ц и я 14

14.1. Комплексные числа


Как известно, квадратное уравнение с вещественными ко-
эффициентами может не иметь вещественных решений. Фор-
мально положение легко поправить, введя для обозначения
несуществующих решений некие «абстрактные числа». Но од-
них обозначений, конечно, мало. Важно определить операции
сложения и умножения для новых чисел таким образом, чтобы
остались в силе привычные свойства этих операций над веще-
ственными числами.
В качестве «абстрактных чисел» рассмотрим (2 × 2)-матрицы
специального вида


a −b
z = z(a, b) = , a, b ∈ R. (∗)
b a
Обозначим через C множество всех таких матриц. Операции
сложения и умножения «абстрактных чисел» определим как со-
ответствующие операции над матрицами. Элементарно проверя-
ется, что они обладают следующими свойствами.
1) Если u, v ∈ C, то u + v ∈ C и uv ∈ C.
2) Любая ненулевая матрица z = z(a, b) ∈ C обратима,
а соответствующая обратная матрица имеет вид


−1 c −d a −b
z = , c= 2 , d= 2 .
d c a +b2
a + b2

3) Множество C относительно операции сложения мат-


риц является абелевой группой.
4) Множество C\{0} относительно операции умножения
матриц является абелевой группой.
5) Имеет место дистрибутивность: z(u + v) = zu +
+ zv ∀ u, v , z ∈ C.
Если в утверждениях (3)–(5) заменить C на R, то получатся
основные свойства операций над вещественными числами. По-
14.2. Комплексная плоскость 133

этому элементы множества C логично рассматривать как числа.


Это и будут так называемые комплексные числа.
Вещественные числа a и b называются соответственно ве-
щественной и мнимой частью комплексного числа z = z(a, b).
Обозначение: Re(z) = a, Im(z) = b. Рассмотрим две специальные
матрицы вида (∗):



1 0 0 −1
e= 0 1 , i= 1 0 .
Легко видеть, что
z = z(a, b) = ae + bi, a, b ∈ R. (∗∗)
Матрица e выполняет роль единичного элемента относительно
операции умножения. Матрицу вида ae естественно отожде-
ствить с вещественным числом a. Тогда e = 1 · e отождествится
с числом 1, а соотношение (∗∗) примет вид
z = a + bi,
и при этом, как легко проверить,
i2 = −1 (−1 отождествляется с матрицей −e).
Несложно проверить, что уравнение z 2 = −1 имеет на множе-
стве C в точности два решения: z = ±i. Отсюда можно вывести,
что любое квадратное уравнение с вещественными коэффици-
ентами имеет два (иногда совпадающих) решения из C. Мы
скоро увидим, что то же верно и для квадратных уравнений
с комплексными коэффициентами.
Конечно, комплексные числа можно было бы ввести без ис-
пользования матриц — сказав, что это пары (a, b) вещественных
чисел, для которых операции определяются правилами
(a, b) + (c, d) = (a + c, b + d), (a, b)(c, d) = (ac − db, ad + bc).
Придется изменить лишь некоторые детали доказательства
свойств (3)–(5).
Наш интерес к использованию матриц вида (∗) объясняется
тем, что они представляют искомые «абстрактные числа» как
уже знакомые объекты с хорошо изученными свойствами.

14.2. Комплексная плоскость


Рассмотрим плоскость с декартовой системой координат.
Пусть (a, b) — точка (радиус-вектор) с координатами a, b. Оче-
видно, что (a, b) ↔ z = a + bi есть взаимно-однозначное соот-
ветствие между точками (радиус-векторами) плоскости и ком-
134 Лекция 14

плексными числами. Плоскость, точки (радиус-векторы) которой


используются для изображения комплексных чисел, называется
комплексной плоскостью.
Рассмотрим комплексное число √ z = a + bi. Длина отвечаю-
щего ему радиус-вектора, равная a2 + b2 , называется модулем
комплексного числа z и обозначается |z|. Угол ϕ называется
аргументом комплексного числа z = 0, если при повороте по
часовой стрелке на угол ϕ направление радиус-вектора числа z
совпадает с положительным направлением оси абсцисс. Обозна-
чение: ϕ = arg z . Конечно, аргумент определен с точностью до
слагаемого, кратного 2π .
Числу z = 0 можно приписать любое значение аргумента.
Очевидно, что
z = |z| (cos ϕ + i sin ϕ), ϕ = arg z.
Такая форма представления комплексного числа называется его
тригонометрической формой.
Заметим, что сумме комплексных чисел соответствует сумма
соответствующих радиус-векторов. Отсюда получаем очень по-
лезное неравенство (неравенство треугольника)
|u + v|  |u| + |v| ∀ u, v ∈ C
и его не менее полезное следствие
| |u| − |v| |  |u − v| ∀ u, v ∈ C.
При умножении z на комплексное число
w = |w| (cos ψ + i sin ψ), ψ = arg w,
получается
zw = |z| |w| (cos ϕ + i sin ϕ) (cos ψ + i sin ψ) =
= |z| |w| ((cos ϕ cos ψ − sin ϕ sin ψ) + i (cos ϕ sin ψ +
+ sin ϕ cos ψ)) =
= |z| |w| (cos(ϕ + ψ) + i sin(ϕ + ψ)).
Таким образом, при умножении комплексных чисел модули
перемножаются, а аргументы складываются.
Отметим удобное обозначение: eiϕ = cos ϕ + i sin ϕ. 1) Тогда
eiϕ eiψ = ei(ϕ+ψ) (в полном согласии с формальным применением
известных свойств экспоненциальной функции).
Комплексное число a − bi называется сопряженным к числу
z = a + bi. Обозначение: z = a − bi. На комплексной плоскости
1)
В теории функций комплексного переменного дается специальное опре-
деление функции в левой части, а данное равенство называется формулой
Эйлера и доказывается с использованием этого определения.
14.3. Преобразования плоскости 135

радиус-вектор для z получается из радиус-вектора для z симмет-


ричным отражением относительно первой оси. Заметим также,
что z z = |z|2 .
Отмеченные свойства комплексных чисел упрощают получение
некоторых интересных формул. Например,
 n чтобы
 вычислить сумму
n  k
Sn = cos kϕ, заметим, что Sn = Re z , где z = cos ϕ + i sin ϕ.
k=1 k=1
Таким образом, задача
 n+1 сводится
 с суммированию геометрической про-
z −z
грессии: Sn = Re .
z−1

14.3. Преобразования плоскости


С помощью комплекных чисел можно задавать взаимно-
однозначные отображения плоскости на себя. Например, фик-
сируем w ∈ C и рассмотрим отображение z → z + w. Это
параллельный перенос (сдвиг) точек на вектор, заданный ком-
плексным числом w.
Далее, рассмотрим отображение z → wz в предположении,
что |w| = 1. В силу того что |w| = 1, находим: |wz| = |z|. При
этом радиус-вектор для wz получается поворотом радиус-вектора
для z на угол ϕ = arg w. Таким образом, умножение комплексных
чисел на фиксированное комплексное число w с модулем 1 задает
поворот на угол, равный аргументу числа w.
Умножение на вещественное число ρ > 0 задает гомоте-
тию: каждый радиус-вектор умножается на ρ (растягивается
в ρ раз).
Поскольку в случае w = 0 можно записать w = |w| w , где
 = w/|w| и, следовательно, |w|
w  = 1, умножение на произвольное
комплексное число w = 0 сводится к композиции (последователь-
ному выполнению) двух отображений: поворота и гомотетии.
Преобразование вида z → z также является взаимно-
однозначным. Это симметричное отражение относительно первой
оси. Но оно уже не представимо в виде композиции поворотов,
гомотетий и параллельных переносов. Сказанное означает, что
ни для каких комплексных чисел a, b нельзя получить равенство
z = a + bz , верное для всех z ∈ C. Докажите!
Утверждение. Множество T отображений комплексной плос-
кости вида
Φ(z) = a + bz или Φ(z) = a + bz , где a, b ∈ C, |b| = 1,
образует группу относительно композиции отображений.
136 Лекция 14

Доказательство. Композиция отображений ΦΨ определяется


следующим правилом: (ΦΨ)(z) = Φ(Ψ(z)). Пусть Φ(z) = a + bz
и Ψ(z) = c + dz принадлежат T . Это означает, что |b| = |d| = 1.
Тогда
Φ(Ψ(z)) = a + b(c + dz) = (c + bc) + (bd)z.
Поскольку |bd| = |b||d| = 1, данное отображение также принад-
лежит T . Роль единичного элемента выполняет тождественное
отображение z → z , которое, очевидно, принадлежит T . Далее,
если w = a + bz , то z = a − bw. Поскольку | − b| = 1, отображе-
ние, обратное к Φ, также принадлежит T .
Теперь заменим Φ на Φ или Ψ на Ψ. Композиция таких
отображений и обратные к ним также принадлежат T — для
проверки нужны выкладки, аналогичные предыдущим. 
Взаимно-однозначное отображение плоскости z → Φ(z)
называется движением, если оно сохраняет расстояние между
точками: |Φ(z1 ) − Φ(z2 )| = |z1 − z2 | ∀ z1 , z2 ∈ C.
Из наших предыдущих рассуждений понятно, что любое
отображение из T является композицией параллельных перено-
сов, поворотов и симметричных отражений. Каждое из данных
отображений специального вида является движением. Поэтому
любое отображение из T есть движение. Верно и обратное, что
является весьма примечательным фактом, дающим полное описа-
ние всех мыслимых движений (и требующим более обстоятель-
ного доказательства, на котором мы не будем останавливаться).
Пример более сложного отображения: z → 1/z . Оно
не определено при z = 0, но является взаимно-однозначным
на множестве C\{0}. Часто к комплексной плоскости добав-
ляется абстрактная бесконечно удаленная точка ∞, в ре-
 чего появляется расширенная комплексная плоскость
зультате
C = C {∞}. Тогда отображение z → 1/z можно превратить
во взаимно-однозначное отображение на C, приняв соглашение
о том, что 0 переходит в ∞, а ∞ переходит в 0. Отображение
z → 1/z представляет собой частный случай так называемых
дробно-линейных отображений вида
a + bz
z → Φ(z) = ,
c + dz
где a, b, c, d — фиксированные комплексные числа, причем пред-
полагается, что Φ(z) не является тождественной константой:
ad − bc = 0.
Если d = 0, то дробно-линейное отображение сводится к
рассмотренному выше. Предположим, что d = 0. Тогда Φ(z) не
14.4. Корни из единицы 137

определено при z = −c/d. Если условиться, что Φ(−c/d) = ∞ и


Φ(∞) = −c/d, то Φ будет взаимно-однозначным отображением
на расширенной комплексной плоскости. Дробно-линейные отоб-
ражения обладают рядом замечательных геометрических свойств
(например, они переводят окружности и прямые в окружности
или прямые — докажите!) и играют важную роль в теории
функций комплексного переменного.
Задача 1. Доказать, что дробно-линейное отображение
z−b
z → a , |a| = 1, Im(b) < 0,
z−b
переводит точки (комплексные числа) верхней полуплоскости в точки
единичного круга с центром в начале координат.
Задача 2. Доказать, что дробно-линейное отображение
z−b
z → a , |a| = 1, |b| < 1,
1 − zb
переводит точки (комплексные числа) единичного круга с центром
в начале координат в точки того же множества.

14.4. Корни из единицы


Комплексное число z называется корнем степени n из едини-
цы, если z n = 1.
Формула Муавра. Если z = |z| (cos ϕ + i sin ϕ), то
z n = |z|n (cos(nϕ) + i sin(nϕ)).
Доказательство. Достаточно учесть, что при умножении ком-
плексных чисел модули перемножаются, а аргументы складыва-
ются. 
Следствие. Существует ровно n различных корней из единицы
степени n. Это комплексные числа вида
2πk
2π k 2π k
zk = ei n = cos + i sin , k = 0, 1, . . . , n − 1.
n n
Доказательство. Пусть z = |z| (cos ϕ + i sin ϕ) есть корень из
единицы степени n. Тогда, согласно формуле Муавра, |z| = 1
и cos(nϕ) = 1 (⇒ sin(nϕ) = 0). Отсюда
2π k
ϕ= , k = 0, ±1, ±2, . . .
n
Следовательно, при любом целом k комплексное число вида
2π k 2π k
zk = cos + i sin
n n
138 Лекция 14

является корнем степени n из единицы. В силу периодичности


синуса и косинуса очевидно, что zk = zl , если l = k + m n, m =
= 0, ±1, ±2, . . . Если же 0  k , l  n − 1, то равенство zk = zl
возможно лишь при k = l — достаточно заметить, что комплекс-
ные числа z0 , z1 , . . . , zn−1 расположены в вершинах правильного
n-угольника, вписанного в единичную окружность. 

14.5. Группа корней степени n из единицы


Введем обозначение Kn для множества корней степени n из
единицы. Мы только что доказали, что Kn содержит ровно n
комплексных чисел.
Множество Kn является, как легко видеть, группой отно-
сительно операции умножения комплексных чисел. Более того,
Kn является циклической группой. В самом деле, zk = εk , где
ε = cos(2π/n) + i sin(2π/n) = z1 .
Корень zm = εm называется первообразным корнем степе-
ни n из единицы, если

Kn = {(εm )0 , (εm )1 , ..., (εm )n−1 }.

Предположим, что εm — первообразный корень. Тогда равен-


ство εmp = 1 в случае 0 < p  n влечет за собой равенство p = n
(если εp = 1, то степени числа ε не могут породить более чем p
чисел).
Утверждение 1. Корень из единицы εm ∈ Kn при m  1 явля-
ется первообразным тогда и только тогда, когда числа m
и n взаимно просты (наибольший общий делитель этих чисел
равен 1).
Доказательство. Предположим, что εm является первообраз-
ным корнем, но числа m и n все же имеют наибольший общий
делитель d > 1: n = dp и m = dq при целых p, q и d > 1. Тогда
(εm )p = εmp = εdqp = εqn = 1 при 0 < p < n ⇒ степени числа
εm не могут породить более чем p < n чисел ⇒ корень εm не
может быть первообразным.
Пусть теперь m и n взаимно просты. Докажем, что εm явля-
ется первообразным корнем. Для этого достаточно установить,
что если εk = εl при 0  k , l  n − 1, то k = l. В самом деле,
m(k − l) должно нацело делиться на n. Поскольку m и n взаимно
просты, k − l должно делиться на n ⇒ k = l. 
14.6. Матрицы с комплексными элементами 139

В теории чисел количество чисел от 1 до n, взаимно проcтых


с n, обозначается ϕ(n), а функция ϕ(n) называется функцией
Эйлера. 1)
Утверждение 2. Сумма всех корней степени n из единицы
равна нулю.
Доказательство. Поскольку zk = εk , требуется найти сумму
членов геометрической прогрессии:

n−1 1
n−
εn − 1
zk = εk = = 0. 
ε−1
k=0 k=0

1
n−
Задача 1. Доказать, что (x + εk y)n = n(xn + y n ), где ε =
k=0
= cos(2π/n) + i sin(2π/n).
Задача 2. Используя комплексные числа, доказать, что
n−
1
а) x2n − 1 = (x2 − 1) (x2 − 2x cos(πk/n) + 1);
k=1
n−
1 √
πk n
б) sin = .
k=1
2n 2n−1

14.6. Матрицы с комплексными элементами


Множество матриц размеров m × n с комплексными элемен-
тами обозначается Cm×n . Если A = [aij ] ∈ Cm×n , то матрица тех
же размеров с заменой элементов на комплексно сопряженные
к ним часто обозначается через A = [aij ].

Матрица A называется сопряженной к A матрицей. Обо-

значение: A∗ = A .
Отметим некоторые свойства сопряженных матриц:
• (AB)∗ = B ∗ A∗ ;
• det A∗ = det A;
• матрица A обратима тогда и только тогда, когда обратима
сопряженная матрица A∗ , при этом (A∗ )−1 = (A−1 )∗ (ино-
гда используется обозначение A−∗ = (A∗ )−1 ).

1)
Функция Эйлера обладает рядом замечательных свойств. Например,
ϕ(ab) = ϕ(a)ϕ(b) для любых взаимно простых чисел a и b — докажите!
Л е к ц и я 15

15.1. Кольца и поля


В процессе развития математики постоянно находились при-
чины для того, чтобы вводить все более общие понятия числа.
Общеизвестна, по крайней мере, такая цепочка расширений:
N ⊂ Z ⊂ Q ⊂ R ⊂ C,
N = {1, 2, . . . } — натуральные числа; 1)
Z = {0, ±1, ±2, . . . } — целые числа,
Q = {p/q , p ∈ Z, q ∈ N} — рациональные числа,
R — вещественные числа,
C — комплексные числа.
Множество целых чисел Z послужило прототипом для понятия
кольца, а множества Q, R, C — для понятия поля.
Пусть на непустом множестве K действуют две алгебраиче-
ские операции: сложение (обозначаемое знаком +) и умножение
(обозначаемое точкой или «пустым местом»), и пусть эти опера-
ции обладают следующими свойствами:
• множество K относительно операции сложения является
абелевой группой;
• выполняются законы дистрибутивности:
a(b + c) = ab + ac, (b + c)a = ba + ca ∀ a, b, c ∈ K ;
• операция умножения ассоциативна.
В таких случаях множество K называется (ассоциативным)
кольцом. (В некоторых книгах по алгебре в определение кольца
ассоциативность умножения не включается.)
Единичный элемент относительно операции сложения в коль-
це называется нулевым и обозначается символом 0. Элемент,
обратный относительно сложения для a, называется противопо-
ложным элементу a и обозначается −a.
1)
По словам Кронекера, «Бог создал натуральные числа, все остальное
придумал человек».
15.2. Делители нуля 141

Утверждение 1. 0 · a = a · 0 = 0 ∀ a ∈ K .
Доказательство. Пусть b = −(0 · a) (элемент, противоположный
0 · a). В силу дистрибутивности, 0 · a = (0 + 0) · a = (0 · a) +
+ (0 · a). Прибавим b к обеим частям: 0 = b + (0 · a) = (b + 0 · a) +
+ (0 · a) = 0 + (0 · a)0 · a. 
Если умножение коммутативно, то K называется коммута-
тивным кольцом. Если существует единичный элемент отно-
сительно операции умножения, то кольцо называется кольцом
с единицей.
Пусть P — коммутативное кольцо с единицей, для которого
множество P \{0} относительно операции умножения является
абелевой группой. В таких случаях множество P называется
полем.
Группа P \{0} по умножению называется мультипликатив-
ной группой поля P .
Единичный элемент кольца с единицей или поля относитель-
но операции умножения обозначается обычно символом 1.
Утверждение 2. Если K — кольцо с единицей, то
(−1) · a = −a ∀ a ∈ K.
Доказательство.
0 = (1 + (−1)) · a = 1 · a + (−1) · a = a + (−a). 
Задача 1. Пусть a и b — элементы кольца с единицей e. Дока-
жите, что из обратимости элемента e − ab в данном кольце вытекает
обратимость элемента e − ba.

15.2. Делители нуля


В некоторых кольцах существуют ненулевые элементы a, b
такие, что ab = 0. Такие элементы a, b называются делителями
нуля.
Утверждение 3. В поле не может быть делителей нуля: ab = 0
⇒ a = 0 или b = 0.
Доказательство. Пусть ab = 0. Если a = 0, то утверждение
доказано. Предположим, что a = 0. Тогда для a существует
обратный элемент a−1 (a−1 a = aa−1 = 1). В силу утверждения 1
и ассоциативности умножения,
0 = a−1 · 0 = a−1 (ab) = (a−1 a) b = 1 · b = b. 
ПРИМЕРЫ:
1) K — множество четных целых чисел. Операции — сложе-
ние и умножение целых чисел. Это коммутативное кольцо
без единицы. Кольцо не имеет делителей нуля.
142 Лекция 15

2) K = Rn×n (множество всех (n × n)-матриц). Операции —


сложение и умножение матриц. Это некоммутативное коль-
цо с единицей. Кольцо имеет делители нуля. Например,
в случае n = 2 находим



1 1 1 1
1 1 −1 −1 = 0.

3) K — множество всех чисел вида a + b 2 , где a, b ∈ Q.
Операции — сложение и умножение вещественных чисел.
Ясно, что сумма чисел такого вида и их произведения
√ что K —
будут числами такого же вида. Поэтому очевидно,
коммутативное кольцо с единицей: 1 = 1 + 0 · 2 .
В данном случае K является полем: множество K\{0} от-
носительно операции умножения чисел является абелевой
группой (см. пример абелевой группы из лекции 2).

15.3. Кольцо вычетов


Напомним, что вычеты по модулю p — это специальные
подмножества целых чисел, имеющих один и тот же остаток при
делении на p (см. п. 9.3).
Зафиксируем целое число p > 1. Для любого a ∈ Z обозначим
через Z(a) множество всех целых чисел, имеющих при делении
на p такой же остаток, как и число a (сравнимых с a по моду-
лю p). Множества Z(a) называются вычетами по модулю p.
Множество всех вычетов по модулю p обозначается Zp . Всего
имеется ровно p различных вычетов по модулю p:
Zp = {Z(0), Z(1), . . . , Z(p − 1)}.
Определения операций сложения и умножения вычетов:
Z(a) + Z(b) = Z(a + b), Z(a)Z(b) = Z(ab).
Данные определения корректны в силу следующего элементар-
ного наблюдения:
Z(c + d) = Z(a + b), Z(cd) = Z(ab) ∀ c ∈ Z(a), ∀ d ∈ Z(b).
Столь же элементарно проверяется, что относительно операций
сложения и умножения множество вычетов Zp является комму-
тативным кольцом с единицей.
Теорема. В случае простого p и только в этом случае кольцо
вычетов по модулю p является полем.
15.3. Кольцо вычетов 143

Доказательство. Пусть p не является простым числом ⇒


p = ab при 1 < a, b < p ⇒ Z(a) Z(b) = Z(ab) = Z(p) = Z(0) = 0.
Значит, Zp имеет делители нуля, и, согласно утверждению 3, Zp
не может быть полем при составном p.
Теперь предположим, что p — простое число. Докажем, что
для любого вычета Z(a) при 1  a  p − 1 существует вычет
Z(b) такой, что Z(a)Z(b) = Z(1) = 1. Для этого рассмотрим числа
вида ka и их остатки от деления на p:
1 · a = pq1 + r1 , 2 · a = pq2 + r2 , . . . , (p − 1) · a = pqp−1 + rp−1 , (1)
q1 , r1 , . . . , qp−1 , rp−1 ∈ Z, 0  r1 , . . . , rp−1  p − 1.
Ни один из остатков r1 , . . . , rp−1 не равен нулю, иначе a делилось
бы на p. Кроме того, среди них нет совпадающих. Предположим,
что rk = rm . Тогда (k − m)a = p(q k − qm ). Поскольку a и p
взаимно простые, k − m делится на p.
Однако при k , m = 1, 2, . . . , p − 1 очевидно, что |k − m| < p
⇒ k − m = 0. Таким образом,
{r1 , r2 , . . . , rp−1 } = {1, 2, . . . , p − 1}. (2)
Значит, при некотором k непременно rk = 1 ⇒ Z(a) Z(rk ) =
= Z(1) = 1. 
Замечание. В проведенных рассуждениях фактически содер-
жится доказательство «малой» теоремы Ферма: если p — про-
стое число и a взаимно просто с p, то число ap−1 − 1 делится
на p. В самом деле, перемножая равенства (1) и учитывая (2),
получаем, что (p − 1)! (ap−1 − 1) делится на p. Поскольку (p − 1)!
и p взаимно просты, на p обязано делиться число ap−1 − 1.
Как видим, кольца Zp дают примеры конечных колец, а при
простом p — также примеры конечных полей (т. е. колец и полей
с конечным числом элементов).
Конечные поля играют важную роль в прикладных вопросах
математики — например, в теории кодирования. В частности, ко-
ды Хэмминга, позволяющие обнаруживать и исправлять ошибки
при передаче информации, представляют собой решения однород-
ной системы уравнений Ax = 0, где A ∈ P m×n , x ∈ P n и P = Z2 .
Если m = 3 и n = 7, то P m содержит ровно 23 − 1 ненулевых
векторов — из них составляются столбцы матрицы A ⇒
фундаментальная система решений содержит 4 вектора. Кодиро-
вание происходит таким образом: 4-битовое слово (c1 , c2 , c3 , c4 ),
ci ∈ Z2 , кодируется 7-битовым словом x, получаемым как ли-
нейная комбинация фиксированных векторов фундаментальной
системы с коэффициентами c1 , c2 , c3 , c4 . Замечательно то, что
144 Лекция 15

ошибка в произвольном — но только одном! — значении xi легко


обнаруживается: достаточно проверить равенство Ax = 0. Более
того, любая такая ошибка легко исправляется!
В криптографии кольца вычетов используются как множе-
ства, на которых определяются шифрующие функции. Вот за-
мечательный пример: x → y = xe и x, xe ∈ Zn . Данный шифр,
появившийся в 1977 г. и названный RSA 1), определяется на-
туральными числами n и e, где n = pq — произведение двух
разных простых чисел p, q > 2, а e взаимно просто с числом
m = (p − 1)(q − 1). Нетрудно доказать, что при данных предпо-
ложениях существует натуральное число d такое, что ed имеет
остаток 1 при делении на m. Отсюда вытекает следующее прави-
ло дешифрования: x = y d . Зная n и e, легко проводить шифрова-
ние. Но для дешифровки нужно знать d. Конечно, d определяется
по n и e — но если p и q держатся в секрете, то получение d при
больших n оказывается алгоритмически очень трудной задачей
(сводящейся к разложению n на простые множители).
Задача 1. Докажите, что любое конечное коммутативное кольцо
без делителей нуля является полем.

15.4. Вложения и изоморфизмы


Пусть M — непустое подмножество в K . Если K — кольцо,
то M называется его подкольцом, если оно является кольцом
относительно операций, действующих в K . Если K — поле, то M
называется его подполем, если оно является полем относительно
тех же операций, которые действуют в K . В таких случаях
говорят, что M вложено в K , или K является расширением
кольца (поля) M .
В различных построениях могут возникать кольца или по-
ля, неразличимые с точки зрения свойств действующих в них
операций. Одинаковость свойств операций в L и M означает
существование взаимно-однозначного отображения Φ : L → M ,
сохраняющего операции:
Φ(a + b) = Φ(a) + Φ)b), Φ(ab) = Φ(a) Φ(b) ∀ a, b ∈ L.
Такое отображение Φ называется изоморфизмом, а L и M —
изоморфными.

1)
По заглавным буквам фамилий трех его авторов: R. L. Rivest, A. Shamir,
L. Adleman.
15.5. Число элементов в конечном поле 145

Обычно K называют расширением кольца (поля) L и в тех


случаях, когда L изоморфно некоторому его подкольцу (подпо-
лю) M .
Пусть 1 — единичный элемент поля P . Рассмотрим суммы,
состоящие из p слагаемых, вида
p · 1 = 1 + . . . + 1.
Подчеркнем, что правая часть есть определение выражения p · 1
(p не является элементом нашего поля и, стало быть, речь не
идет об умножении двух элементов поля). Минимальное p такое,
что p · 1 = 0, называется характеристикой поля P . Говорят, что
поле имеет характеристику 0, если p · 1 = 0 при всех p  1.

Утверждение 1. Если поле имеет характеристику p  1, то


число p простое.
Доказательство. Предположим, от противного, что p = mk .
Тогда 0 = (mk) · 1 = (m · 1)(k · 1). Это невозможно, так как в
поле не бывает делителей нуля. 

Утверждение 2. Любое поле характеристики p  1 может


рассматриваться как расширение поля вычетов Zp .
Доказательство. В поле характеристики p имеется по крайней
мере p различных элементов вида k · 1, k = 1, . . . , p. Лег-
ко проверяется, что составленное из них множество является
подполем. Изоморфизм данного подполя с Zp устанавливается
отображением Φ(k · 1) = Z(k). 
Следствие. Любое конечное поле может рассматриваться как
расширение некоторого поля вычетов.
Задача 1. Пусть P — числовое поле и при этом R ⊂ P ⊂ C.
Докажите, что P = R либо P = C.
Задача 2. Найдите все поля, вложенные в поле Q.

15.5. Число элементов в конечном поле


Утверждение 3. В конечном поле число элементов обяза-
тельно имеет вид n = pm , где p — простое, m — натуральное
число.
Доказательство. Если p — характеристика конечного поля F ,
то, согласно утверждению 2, F является расширением поля вы-
четов по простому модулю p: Zp ⊂ F . По аналогии с нашими ис-
следованиями в случае вещественного линейного пространства,
элементы a1 , . . . , am ∈ F назовем линейно независимыми над
146 Лекция 15

Zp , если из равенства α1 a1 + . . . + αm am = 0 с коэффициентами


α1 , . . . , αm ∈ Zp вытекает, что α1 = . . . = αm = 0. Пусть m —
максимально возможное число элементов, линейно независимых
над Zp . Тогда любой элемент v ∈ F имеет вид
v = α1 a1 + . . . + αm am , α1 , . . . , αm ∈ Zp .
Для каждого из коэффициентов αi возможно p различных зна-
чений ⇒ n = pm . 

Конечные поля принято называть также полями Галуа. Мы


доказали, что для существования поля Галуа необходимо, чтобы
число его элементов имело вид n = pm . Но существуют ли
поля Галуа для произвольного n такого вида? Ответ положитель-
ный, но на конструировании таких полей мы останавливаться
не будем.
Задача 1. Докажите существование поля из четырех элементов.

15.6. Поле частных


Теорема. Любое коммутативное кольцо без делителей ну-
ля может быть вложено в поле.
Доказательство. Пусть K — коммутативное кольцо без делите-
лей нуля. Чтобы расширить его до поля, рассмотрим формальные
частные вида a/b, где a, b ∈ K и b = 0. Назовем формальные
a c
частные и равными, если ad = bc. Данное отношение равен-
b d a a
ства является, очевидно, рефлексивным ( = ) и симметрич-
b b
ным. Но оно также транзитивно. В самом деле,
a c c p
= ⇔ ad = bc, = ⇔ cq = dp.
b d d q
Отсюда (aq − bp)(cd) = 0 и, в силу отсутствия делителей нуля,
aq − bp = 0 ⇒ a p
aq = bp ⇔ = .
b q
Следовательно, отношение равенства является на множестве все-
возможных формальных частных отношением эквивалентности.
Поэтому все множество формальных частных разбивается на
непересекающиеся
a классы эквивалентности.
Пусть K обозначает класс эквивалентности, порождае-
b a
мый формальным частным . Как мы уже знаем, класс эквива-
b
лентности однозначно определяется любым своим представите-
15.6. Поле частных 147

c
a c a
лем: если ∈ K , то K =K ; поэтому традиционно
d b d b
он отождествляется с любым своим представителем.
Операции сложения и умножения классов эквивалентности
формальных частных определим по аналогии с заданием опера-
ций для рациональных чисел:
a c ad + bc a c
ac
K +K =K , K ) K( =K .
b d bd b d bd
Проверка того, что результаты этих операций не зависят a от вы-

c
бора представителей в классах эквивалентности K иK ,
b d
осуществляется вполне рутинным образом.
Легко видеть, что множество формальных
a частных есть ком-
0
мутативное кольцо с единицей 1 = K . При этом 0 = K .
a a a
Любой ненулевой элемент имеет вид K , где a = 0. Очевидно,
b b
что элемент K будет к нему обратным.
a a
Итак, множество классов K есть поле. Почему оно мо-
b
жет считаться расширением кольца K ? Рассмотрим взаимно-
ac
однозначное соответствие a ↔ K и заметим, что оно
c
сохраняет операции:
ac bc ac bc
a+b ↔ K +K , ab ↔ K K .
c c c c
Остается договориться об отождествлении
ac элемента a ∈ K с
классом эквивалентности K (конечно, не зависящим от
c
выбора c = 0). 
Построенное поле формальных частных является минималь-
ным полем, содержащим K , — в том смысле, что любое поле,
содержащее K , должно содержать и данное поле частных (это
очевидно — вместе с любыми двумя элементами поле содержит
также их частное).
Л е к ц и я 16

16.1. Линейные пространства над полем


Пусть P — произвольное поле, элементы которого называ-
ются числами, и V — непустое множество, элементы которого
называются векторами.
Предположим, что на V определены две операции: сложение
векторов и умножение векторов на числа (элементы из поля P ),
и пусть эти операции удовлетворяют тем же требованиям (ак-
сиомам), которые были сформулированы при определении веще-
ственного линейного пространства — с тем только отличием, что
всюду под числом подразумевается элемент из поля P . В таких
случаях V называется линейным пространством над полем P
или векторным пространством над полем P .
Понятия линейной зависимости и независимости векторов
линейного пространства над полем P вводятся так же, как
и в случае вещественного линейного пространства. Точно так
же вводятся понятия линейной оболочки, базиса, размерности,
подпространства (суммы подпространств, пересечения и т. д.).
Сохраняются все факты, полученные ранее при исследовании
этих понятий.
Заметим, что иногда одно и то же множество векторов V
можно рассматривать как линейное пространство над разными
полями. Соответствующие линейные пространства должны счи-
таться разными.
ПРИМЕРЫ:
1) V — множество комплексных чисел (в роли векторов),
P = R — поле вещественных чисел. Сложение векторов
определяется как сложение комплексных чисел. Операция
умножения векторов на числа из поля R определяется как
умножение двух чисел — комплексного и вещественного.
Это конечномерное линейное пространство над полем R.
Как легко видеть, dim V = 2.
2) V — множество комплексных чисел, P = Q — поле ра-
циональных чисел. Сложение векторов определяется как
16.1. Линейные пространства над полем 149

сложение комплексных чисел. Операция умножения векто-


ров на числа из поля Q определяется как умножение двух
чисел — комплексного и рационального.
Данное линейное пространство является бесконечномер-
ным. Возьмем, например, простые числа 1 < p1 < . . . < pn и
в качестве векторов из V рассмотрим логарифмы log p1 , . . .
. . . , log pn . Пусть

α1 log p1 + . . . + αn log pn = 0, αi = si /ti , si , ti ∈ Z.

Умножив обе части линейной комбинации на произведение


знаменателей t = t1 · . . . · tn , уже для целых коэффициентов
βi = αi t находим

β1 log p1 + . . . + βn log pn = 0 ⇒

⇒ log(pβ1 1 . . . pβnn ) = 0 ⇒ pβ1 1 . . . pβnn = 1.

Предположим, что не все βi равны нулю. Тогда среди них


имеются как положительные, так и отрицательные. Если
βi βi
βi1 , . . . , βik > 0 и βj < 0, то целое число pi1 1 . . . pik k должно
делиться на pj . Ясно, что этого быть не может, поэтому

β1 = ... = βn = 0 ⇒ α1 = ... = αn = 0.

Таким образом, для любого n предъявлена линейно неза-


висимая система из n векторов.
3) V — множество (m × n)-матриц с элементами из про-
извольного поля P . Обозначение: V = P m×n . Сложение
векторов — это сложение матриц: [aij ] + [bij ] = [aij + bij ].
Умножение вектора на число α ∈ P определяется как умно-
жение матрицы на число: α[aij ] = [α aij ]. В данном случае
V — конечномерное линейное пространство над полем P ;
dim V = mn.
Задача 1. Докажите линейную независимость функций sin x,
sin 2x, sin 3x, . . . , sin nx как элементов вещественного линейного про-
странства функций на произвольном заданном отрезке [a, b].
Задача 2. Докажите, что группа целых чисел с операцией сложе-
ния не может быть аддитивной группой линейного пространства над
каким-либо полем.
Задача 3. Существует ли линейное пространство из 10 векторов?
150 Лекция 16

16.2. Многочлены над полем


Многочлены от x над полем P — это формальные выражения
вида

p(x) = a0 + a1 x + . . . + an xn , a0 , a1 , . . . , an ∈ P. (∗)

В данном случае x — всего лишь символ. Если an = 0,


то говорят, что p(x) — многочлен степени n. Обозначение:
deg p(x) = n. Многочлены нулевой степени называются констан-
тами и обычно отождествляются с элементами поля P . Много-
член, все коэффициенты которого равны 0, называется нулевым.
Для нулевого многочлена степень не определена.
Конечно, можно было бы, как и в случае вещественных
коэффициентов, рассматривать p(x) как функцию от x ∈ P .
Мы не делаем это по следующей причине. Пусть, например,
P = Z2 = {0, 1}. Тогда x = x2 ∀ x ∈ Z2 . Как видим, мно-
гочлены с разными коэффициентами могут оказаться равными
как функции, а нам все же кажется полезным иметь такое
определение, при котором они будут различными.
Итак, в случае произвольного поля P мы рассматриваем мно-
гочлены именно как формальные выражения от какой-то буквы.
При использовании буквы x множество всех многочленов любых
степеней обозначается через P [x].
Определение. Будем говорить, что многочлен p(x) вида (∗)
имеет коэффициент ai при степени xi для всех i от 0 до n и ко-
эффициент 0 при любой степени xi , где i  n + 1. Многочлены от
x над полем P называются равными, если они имеют одинаковые
коэффициенты при одинаковых степенях x.
Таким образом, многочлены x и x2 над полем Z2 считаются
различными (хотя и совпадают как функции от x ∈ Z2 ).
Рассмотрим два многочлена из множества P [x]:

p(x) = a0 + a1 x + . . . + anp xnp , ai = 0 при i  np + 1,

q(x) = b0 + b1 x + . . . + bnq xnq , bi = 0 при i  nq + 1.

Суммой многочленов называется многочлен p(x) + q(x) = s0 +


+ s1 x + . . . , в котором коэффициент при xi равен

si = ai + bi , i  0.
16.3. Кольцо многочленов 151

Произведением многочленов называется многочлен p(x) q(x) =


= t0 + t1 x + . . . , в котором коэффициент при xi равен

i
ti = ak bl , i  0.
k+l=i
Именно такой многочлен получится, если привычным способом
раскрыть скобки и привести подобные члены в выражении
(a0 + a1 x + . . . + anp xnp )(b0 + b1 x + . . . + bnq xnq ) = (a0 b0 ) +
+ (a1 b0 + a0 b1 )x + (a2 b0 + a1 b1 + a0 b2 )x2 + . . .
. . . + (anp bnq )xnp +nq .
Важное (хотя и очевидное) наблюдение:
deg(p(x) q(x)) = deg p(x) + deg q(x). (#)

16.3. Кольцо многочленов


Утверждение. Множество многочленов P [x] относительно
операций сложения и умножения многочленов является ком-
мутативным кольцом с единицей. Делителей нуля в P [x] нет.
Доказательство. Ввиду очевидности того, что сложение превра-
щает P [x] в абелеву группу, перейдем сразу к изучению свойств
операции умножения. Наряду с p(x) и q(x), рассмотрим еще один
многочлен
r(x) = c0 + c1 x + . . . + cnr xnr , ci = 0 при i  nr + 1.
Пусть (p(x)q(x))r(x) = u0 + u1 x + . . . ; p(x)(q(x)r(x)) = v0 +
+ v1 x + . . . Тогда, согласно определению операции умножения,

  
ui = ak bl cm = ak bl cm =
j+m=i k+l=j k+l+m=i

 
= ak bl c m = vi .
k+j=i l+m=j

Таким образом, умножение многочленов ассоциативно. Дис-


трибутивность проверяется очевидным образом. Коммутатив-
ность умножения также очевидна. Роль единицы выполняет мно-
гочлен 1. Отсутствие делителей нуля вытекает из свойства (#).

152 Лекция 16

Заметим, что P [x] можно рассматривать и как линейное


пространство над полем P (сложение векторов определяется
как сложение многочленов, умножение векторов на элементы
поля P — как умножение многочленов на нулевой многочлен
и многочлены нулевой степени, отождествляемые с элементами
поля P ).
Линейное пространство P [x] бесконечномерно (при опреде-
лении многочлена как формальной суммы одночленов линейная
независимость любой системы одночленов с разными степенями
очевидна). Множество многочленов Pn [x] степени n или ниже
является подпространством размерности n + 1.

16.4. Деление с остатком


Утверждение. Для любой пары многочленов f (x), g(x) ∈ P [x]
в случае g(x) = 0 существуют и единственны многочлены
q(x), r(x) ∈ P [x] такие, что
f (x) = g(x)q(x) + r(x), deg r(x) < deg g(x) либо r(x) = 0. (∗)
Доказательство. Пусть f (x)=an xn + . . . +a0 , g(x) = bm xm + . . .
. . . + b0 , причем bm = 0. Если deg f (x) < deg g(x), то существо-
вание доказано: q(x) = 0 и r(x) = f (x). Если deg f (x)  deg g(x),
то положим
a
n n−m
f1 (x) = f (x) − x g(x) ⇒
bm
⇒ deg f1 (x) < deg f (x) либо f1 (x) = 0.
Воспользуемся индукцией по степени f (x). Если уже найдено
представление
f1 (x) = g(x)q1 (x) + r1 (x), deg r1 (x) < deg g(x) либо r1 (x) = 0,
то (∗) получается при выборе
an n−m
q(x) = x + q1 (x), r(x) = r1 (x).
bm
Докажем единственность. Пусть имеется еще одна пара мно-
гочленов q(x) и r(x), удовлетворяющих соотношению (∗). Тогда
−g(x)(q(x) − q(x)) = r(x) − r(x).
Если q(x) − q(x) = 0, то степень многочлена в левой части не
меньше степени g(x) ⇒ deg(r(x) − r(x))  deg g(x). Это
невозможно, потому что при вычитании многочленов степень
16.5. Наибольший общий делитель 153

результата не выше степени каждого из них ⇒ q(x) = q(x)


⇒ r(x) = r(x). 
Многочлен r(x) из равенства (∗) называется остатком,
а q(x) — неполным частным при делении многочлена f (x) на
g(x) = 0. Если r(x) = 0, то говорят, что f (x) делится на g(x)
или g(x) является делителем многочлена f (x).

16.5. Наибольший общий делитель


Пусть многочлен d(x) ∈ P [x] является общим делителем мно-
гочленов f (x) и g(x) из P [x]. Он называется наибольшим общим
делителем, если любой общий делитель этих многочленов яв-
ляется также и его делителем. Обозначение: d(x) = (f (x), g(x)).
Многочлены называются взаимно простыми над полем P , если
их наибольший общий делитель имеет нулевую степень.
Из определения ясно, что наибольший общий делитель мно-
гочленов определен однозначно с точностью до ненулевого мно-
жителя (многочлена нулевой степени), принадлежащего полю P .
В случае взаимно простых многочленов f (x) и g(x) всегда можно
считать, что (f (x), g(x)) = 1.
Предположим, что deg f (x)  deg g(x). Наибольший общий
делитель многочленов f (x) и g(x) можно найти с помощью
алгоритма Евклида, представляющего собой цепочку делений
с остатком следующего вида:
f (x) = g(x)q1 (x) + r1 (x), deg r1 (x) < deg g(x),
g(x) = r1 (x)q2 (x) + r2 (x), deg r2 (x) < deg r1 (x),
r1 (x) = r2 (x)q3 (x) + r3 (x), deg r3 (x) < deg r2 (x),
.........................................
rk−2 (x) = rk−1 (x)qk (x) + rk (x), deg rk (x) < deg rk−1 (x),
rk−1 (x) = rk (x)qk+1 (x).
При последовательном делении с остатком степень остатка по-
нижается на каждом шаге. В данной цепочке rk (x) — последний
ненулевой остаток.
Утверждение. rk (x) = (f (x), g(x)).
Доказательство. Просматривая данные равенства снизу вверх,
легко убедиться в том, что rk (x) является общим делителем

многочленов f (x) и g(x). Пусть d(x) — любой общий делитель
для f (x) и g(x). Просматривая те же равенства сверху вниз,
154 Лекция 16

 является делителем для rk (x). Следовательно,


получаем, что d(x)
rk (x) = (f (x), g(x)). 
Теорема о наибольшем общем делителе. Для любых многочле-
нов f (x), g(x) ∈ P [x] существуют многочлены ϕ(x), ψ(x) ∈ P [x]
такие, что
f (x)ϕ(x) + g(x)ψ(x) = d(x), d(x) = (f (x), g(x)).

Доказательство. Искомые многочлены конструктивно получа-


ются на основе алгоритма Евклида. Если уже получены равен-
ства
ri−2 (x) = f (x) ϕi−2 (x) + g(x) ψi−2 (x),
ri−1 (x) = f (x) ϕi−1 (x) + g(x) ψi−1 (x),
то из них нетрудно вывести, что ri (x) = f (x) ϕi (x) + g(x) ψi (x),
где
ϕi (x) = ϕi−2 (x) − ϕi−1 (x) qi (x), ψi (x) = ψi−2 (x) − ψi−1 (x) qi (x).
Требуемое равенство получается при i = k . 
Следствие. Для взаимно простых многочленов f (x), g(x) ∈
∈ P [x] существуют многочлены ϕ(x), ψ(x) ∈ P [x] такие, что
f (x) ϕ(x) + g(x) ψ(x) = 1.
Замечание. Любой ненулевой многочлен вида f (x)ϕ(x) +
+ g(x)ψ(x) делится на d(x) = (f (x), g(x)) (поэтому, в частности,
его степень не меньше степени d(x)).

16.6. Значения многочлена и корни


Пусть f (x) = a0 + a1 x + . . . + an xn ∈ P [x] и ϑ ∈ P . Определим
f (ϑ) естественным образом: f (ϑ) = a0 + a1 ϑ + . . . + an ϑn . Число
f (ϑ) ∈ P называется значением многочлена f (x) при x = ϑ.
Элемент ϑ называется корнем многочлена f (x), если f (ϑ) = 0.
Теорема Безу. Если f (x) ∈ P [x] и f (ϑ) = 0 для некоторого
ϑ ∈ P , то f (x) делится на x − ϑ. 1)
Доказательство. Выполнив деление с остатком, находим f (x) =
= (x − ϑ)q(x) + r(x), где r(x) = 0 либо deg r(x) = 0. Если
r(x) = 0, то все доказано. Случай deg r(x) = 0 ведет к противо-
речию: 0 = f (ϑ) = (ϑ − ϑ) q(ϑ) + r(ϑ) = r(ϑ) ⇒ r(x) = 0. В то

1)
Данное предложение обычно приводится в качестве главного следствия
из теоремы Безу — утверждения о том, что r(ϑ) = f (ϑ) для остатка r(x) от
деления f (x) на x − ϑ.
16.7. Присоединение корня 155

же время, согласно нашим определениям, многочлен нулевой


степени не может быть равен нулевому многочлену. 
Ненулевой многочлен f (x) ∈ P [x] называется разложимым
над P , если существуют многочлены ненулевой степени
p(x), q(x) ∈ P [x] такие, что f (x) = p(x)q(x). В противном случае
многочлен f (x) называется неразложимым или неприводимым
над P .
Из теоремы Безу вытекает, что неразложимый над P много-
член степени 2 и выше не может иметь корней из P , а произ-
вольный многочлен степени n над P не может иметь более n
корней.
Задача 1. Докажите, что над любым конечным полем существует
бесконечно много неразложимых многочленов.
Задача 2. Докажите, что для многочленов над полем вычетов Zp
по простому модулю p имеет место равенство (z − 1)p = z p − 1.

16.7. Присоединение корня


Нередко приходится рассматривать многочлены над полем P ,
не имеющие корней из P . Такие многочлены могут, тем не менее,
иметь корень в каком-либо расширении F поля P . Элемент ϑ ∈ F
называется алгебраическим над полем P , если он является кор-
нем многочлена над P . Многочлен над P минимальной степени
с корнем ϑ называется минимальным многочленом для ϑ над
полем P .
Будем рассматривать только такие расширения поля P , кото-
рые вложены в F . Пусть ϑ ∈ F . Поле называется минимальным
ϑ-расширением поля P , если оно содержит ϑ и вложено в любое
поле, содержащее P и ϑ. Обозначение: P (ϑ).
В более общем случае, если ϑ1 , . . . , ϑk ∈ F , то через P (ϑ1 , . . .
. . . , ϑk ) обозначается минимальное поле, содержащее P и элемен-
ты ϑ1 , . . . , ϑk . Минимальность означает, что данное поле вложено
в любое поле, содержащее P и ϑ1 , . . . , ϑk .
Если ϑ ∈ / P , то говорят, что поле P (ϑ) получено из P при-
соединением элемента ϑ. Расширение такого типа называется
простым алгебраическим, если ϑ является корнем некоторого
многочлена из P [x].

Теорема о присоединении корня. Минимальный многочлен


для ϑ определяется однозначно с точностью до ненуле-
156 Лекция 16

вого множителя. Если n — его степень, то минимальное


ϑ-расширение поля P имеет вид
P (ϑ)={s∈F : s=a0 +a1 ϑ+ . . . +an−1 ϑn−1, a0 , a1 , . . . , an−1 ∈P }. (∗)
Доказательство. Предположим, что f (x) и g(x) — два мини-
мальных многочлена для ϑ (оба степени n). Тогда их наибольший
общий делитель d(x) ∈ P [x] имеет вид
d(x) = f (x)ϕ(x) + g(x)ψ(x), где ϕ(x), ψ(x) ∈ P [x].
Отсюда d(ϑ) = 0. Поэтому deg d(x) = n ⇒ каждый из
многочленов f (x) и g(x) отличается от d(x) лишь ненулевым
множителем.
Обозначим через M множество, определенное правой ча-
стью (∗). Очевидно, что M ⊂ P (ϑ). Поэтому остается только
доказать, что M — подполе.
Возьмем произвольный многочлен p(x) над полем P и заме-
тим, что p(ϑ) ∈ M . Для доказательства разделим p(x) с остатком
на минимальный многочлен f (x):
p(x) = f (x)q(x) + r(x) ⇒ p(ϑ) = r(ϑ).
Ясно, что r(ϑ) есть сумма элементов 1, ϑ, . . . , ϑn−1 с коэффи-
циентами из поля P . Поэтому r(ϑ) ∈ M .
Произведение двух элементов из M является, очевидно, зна-
чением некоторого многочлена p(x) ∈ P [x] при x = ϑ. Поэтому
оно принадлежит M . Далее, любой элемент из M имеет вид
p(ϑ), где многочлен p(x) ∈ P [x] имеет степень не выше n − 1.
Пусть p(x) = 0. Многочлен f (x), очевидно, неразложим, поэто-
му многочлены p(x) и f (x) взаимно просты. По следствию из
теоремы о наибольшем общем делителе, существуют многочлены
ϕ(x), ψ(x) ∈ P [x] такие, что
f (x)ϕ(x) + p(x)ψ(x) = 1 ⇒ p(ϑ)ψ(ϑ) = 1. 

Задача 1. Поле P — минимальное


√ числовое поле, содержащее по-
5
ле рациональных чисел Q и 2. Докажите, что поле P есть линейное
пространство над полем Q, и найдите его размерность.
√ √
Задача 2. Докажите, что квадратные корни p1 , . . . , pn из про-
стых чисел p1 < . . . < pn линейно независимы как элементы линейного
пространства вещественных чисел над полем рациональных чисел.
Л е к ц и я 17

17.1. Комплексные многочлены


Замечательно, что в наиболее интересных случаях, а именно
для комплексных многочленов (многочленов с комплексными
коэффициентами), можно получить точное утверждение о суще-
ствовании корней: любой многочлен степени n > 1 имеет корень,
являющийся комплексным числом. Данное утверждение тради-
ционно называется основной теоремой алгебры.
Оно занимает действительно особое место в ряде разделов
математики — многие из них имеют свои собственные доказа-
тельства этой теоремы. Все известные доказательства в той или
иной мере используют понятие непрерывности. Мы изложим
доказательство, основанное на методе Даламбера 1) и требующее
от нас наименьшей подготовительной работы.
Мы будем рассматривать многочлен f (z) ∈ C[z] как функцию
от z ∈ C. При этом равенство многочленов как функций влечет за
собой также их равенство как формальных выражений от степе-
ней буквы z . Для доказательства можно практически повторить
рассуждение, проведенное в случае вещественных многочленов.
А можно это сделать и так: из теоремы Безу ясно, что многочлен
степени n не может иметь более чем n корней; если f (z) = g(z)
для всех z , то многочлен f (z) − g(z) имеет бесконечно много
корней, поэтому он обязан быть нулевым многочленом.

17.2. Последовательности комплексных чисел


Пусть задана последовательность комплексных чисел zk ,
k = 1, 2, . . . Она называется сходящейся к точке z0 , если для лю-
бого ε > 0 существует номер N = N (ε) такой, что для всех k  N
выполняется неравенство |zk − z0 |  ε. (Согласно определению,
понятие сходимости для комплексных последовательностей сво-
1)
Заметим, что Даламбер не мог дать полного доказательства, так как в его
время не было строгого понятия непрерывной функции.
158 Лекция 17

дится к сходимости к нулю вещественной последовательности


|zk − z|.) Обозначение: lim zk = z0 или zk → z0 .
k→∞
Теорема Больцано–Вейерштрасса. Для произвольной после-
довательности zk точек прямоугольника Π = [A, B] × [C , D]
существует подпоследовательность zki , сходящаяся к неко-
торой точке z0 ∈ Π.
Доказательство. Запишем zk = xk + i yk , xk , yk ∈ R. Очевид-
но, что xk ∈ [A, B] и yk ∈ [C , D]. В силу теоремы Больцано–
Вейерштрасса для вещественных последовательностей на от-
резке, существует подпоследовательность xki , сходящаяся к
вещественному числу x0 ∈ [A, B]. Рассмотрим соответствую-
щую подпоследовательность точек zki = xki + i yki . Посколь-
ку yki ∈ [C , D], по той же причине найдется подпоследователь-
ность ykij , сходящаяся к вещественному числу y0 ∈ [C , D]. При
этом xkij → x0 (как подпоследовательность сходящейся последо-
вательности). Пусть z0 = x0 + i y0 . Тогда
|zkij − z0 |  |xkij − x0 | + |ykij − y0 | → 0. 

17.3. Непрерывные функции на комплексной


плоскости
Рассмотрим функцию Φ(z), определенную при всех z ∈ C
и принимающую вещественные значения. Функция Φ(z) назы-
вается непрерывной в точке z0 , если для для любой последо-
вательности zk , сходящейся к z0 , последовательность значений
Φ(zk ) сходится к Φ(z0 ).
Теорема Вейерштрасса. Пусть функция Φ(z) непрерывна во
всех точках прямоугольника Π = [A, B] × [C , D]. Тогда суще-
ствуют точки z∗ , z ∗ ∈ Π такие, что
Φ(z∗ )  Φ(z)  Φ(z ∗ ) ∀z ∈ Π.
Доказательство. Докажем существование точки z ∗ . Прежде
всего убедимся в том, что функция Φ(z) ограничена сверху.
Если это не так, то существует последовательность zk со свой-
ством Φ(zk ) > k . По теореме Больцано–Вейерштрасса она обла-
дает сходящейся подпоследовательностью zki → z0 ∈ Π. В силу
непрерывности Φ(zki ) → Φ(z0 ), а это противоречит неравенствам
Φ(zki ) > ki , выполняющимся при всех ki . Поэтому существует
вещественное число M такое, что Φ(z)  M для всех z ∈ Π.
Число M называется верхней гранью для Φ(z).
17.4. Свойства модуля многочлена 159

Рассмотрим множество вещественных чисел Φ(Π) = {x : x =


= Φ(z), z ∈ Π}. Поскольку оно ограничено сверху, то для него
существует точная верхняя грань M ∗ — такая верхняя грань,
которая либо принадлежит множеству, либо к ней сходится
некоторая последовательность отличных от нее чисел из данного
множества. 1) Итак, пусть zk ∈ Π и Φ(zk ) → M ∗ . По теоре-
ме Больцано–Вейерштрасса имеется подпоследовательность zki ,
сходящаяся к некоторой точке z ∗ ∈ Π. В силу непрерывности
M ∗ = lim Φ(zki ) = Φ(z ∗ ).
k→∞
Очевидно, что функция Ψ(z) = −Φ(z) ограничена сверху то-
гда и только тогда, когда Φ(z) ограничена снизу. Значит, нами
доказано также существование нижней грани для Φ(z). Опирась
на уже доказанное утверждение, заключаем, что для Ψ(z) су-
ществует точка z∗ ∈ Π такая, что Ψ(z)  Ψ(z∗ ) для всех z ∈ Π.
Отсюда Φ(z∗ )  Φ(z) для всех z ∈ Π. 

17.4. Свойства модуля многочлена


Рассмотрим произвольный многочлен
f (z) = a0 + a1 z + . . . + an−1 z n−1 + z n (#)
с комплекными коэффициентами и старшим коэффициентом
an = 1, n  1.
Лемма о непрерывности модуля многочлена. Функция Φ(z) =
= |f (z)| непрерывна при всех z ∈ C.
Доказательство. Для доказательства непрерывности Φ(z) в
точке z = z0 достаточно установить непрерывность функции
Φ(z0 + h) от h ∈ C в точке h = 0. Ясно, что f (z0 + h) есть
многочлен от h:
f (z0 + h) = b0 + b1 h + . . . + bn−1 hn−1 + hn , где b0 = f (z0 ).
Отсюда находим
|Φ(z0 + h) − Φ(z0 )| = ||f (z0 + h)| − |f (z0 )||  |f (z0 + h) −
− f (z0 )|  |b1 h + . . . + bn−1 hn−1 + hn |  |b1 ||h| + . . .
. . . + |bn−1 ||h|n−1 + |h|n . 
Лемма о росте модуля многочлена. Для любого числа M > 0
существует R > 0 такое, что если |z|  R, то |f (z)|  M .
1)
Данный факт доказывается в курсе математического анализа.
160 Лекция 17

Доказательство. Учитывая, что |z i | = |z|i , получаем


|f (z)|  |z n | − |a0 + a1 z + . . . + an−1 z n−1 | 
 |z|n − |a0 | − |a1 ||z| − . . . − |an−1 ||z|n−1 .
Обозначим через A максимальное из чисел |a0 |, . . . , |an−1 |. Тогда
при |z|  1 находим
 
nA
|f (z)|  |z| 1 −
n
.
|z|
Для любого заданного M > 0 положим

n
R = max{1, 2nA, 2M }.
Легко видеть, что если |z|  R, то
nA
2M
|f (z)|  Rn 1 − = R n /2  = M. 
2nA 2

17.5. Основная теорема алгебры


Пусть f (z) — произвольный многочлен вида (#).
Лемма Даламбера. Если в некоторой точке z ∈ C выполняет-
ся неравенство |f (z)| > 0, то найдется h ∈ C такое, что
|f (z + h)| < |f (z)|.
Доказательство. Утверждение очевидно в случае n = 1. По-
этому предположим, что n  2. Фиксируем z ∈ C и рассмотрим
f (z + h) как многочлен от h:
f (z + h) = f (z) + b1 h + . . . + bn−1 hn−1 + hn .
Пусть bm — первый ненулевой коэффициент (⇒ b1 = . . . = bm−1 =
= 0). Тогда
f (z + h) = f (z) + bm hm + g(h)hm+1 ,
g(h) = bm+1 + . . . + bn−1 hn−m−2 + hn−m−1 .
Определим комплексное число ζ равенством ζ m = −f (z)/bm
и будем искать h в виде
h = ζt, t > 0.
Ясно, что
|f (z) + bm hm | = |f (z)(1 − tm )| =
= |f (z)|(1 − tm ) < |f (z)| при t > 0.
17.6. Разложение комплексных многочленов 161

При этом на отрезке 0  t  1 для некоторого B > 0 имеем


|g(ζt) (ζt)m+1 |  Btm+1 .
Следовательно, если 0 < t  1, то
|f (z + ζt)|  |f (z)|(1 − tm ) + Btm+1 = |f (z)| + (Bt − |f (z)|) tm.
При 0 < t < min(1, |f (z)|/B) получаем: |f (z + ζt)| < |f (z)|.

Основная теорема алгебры. Любой многочлен с комплексны-
ми коэффициентами степени выше нулевой имеет хотя бы
один комплексный корень.
Доказательство. Пусть M = |f (0)|. Если M = 0, то все доказа-
но. Предположим, что M > 0. Cогласно лемме о росте модуля
многочлена, при всех |z|  R имеем: |f (z)|  M . Рассмотрим
квадрат Π = [−R, R] × [−R, R]. Функция |f (z)| непрерывна при
всех z ∈ C и, в частности, при всех z ∈ Π. По теореме Вейер-
штрасса существует z∗ ∈ Π такое, что |f (z∗ )|  |f (z)| при всех
z ∈ Π. Очевидно, что |f (z∗ )|  M и, кроме того, M  |f (z)| для
любых точек z ∈/Π ⇒
|f (z∗ )|  |f (z)| ∀ z ∈ C. (∗)
Если |f (z∗ )| > 0, то по лемме Даламбера при некотором h ∈ C
получаем: |f (z∗ + h)| < |f (z)|, что противоречит неравенствам
(∗). Таким образом, |f (z∗ )| = 0 ⇒ f (z∗ ) = 0. 

17.6. Разложение комплексных многочленов


Многочлены первой степени называют также линейными
многочленами.
Теорема. Любой комплексный многочлен f (z) степени n > 0
разлагается в C[z] на n линейных множителей:
f (z) = a (z − z1 ) · . . . · (z − zn ), a, z1 , . . . , zn ∈ C. (∗)
Данное разложение единственно с точностью до порядка со-
множителей.
Доказательство. По основной теореме алгебры f (z) имеет хотя
бы один комплексный корень — пусть это будет z1 . Согласно
теореме Безу многочлен f (z) делится на линейный многочлен
z − z1 : f (z) = (z − z1 )f1 (z). Если deg f1 (z) = 0, то искомое раз-
ложение уже получено. Если deg f1 (z) > 0, то и этот многочлен
имеет хотя бы один корень — пусть это будет z2 . Таким образом,
f (z) = (z − z1 )(z − z2 )f2 (z). Если deg f2 (z) = 0, то разложение
6 Е. Е. Тыртышников
162 Лекция 17

получено. Если нет, то f2 (z) также имеет комплексный корень,


и т. д. Ясно, что число a равно старшему коэффициенту много-
члена f (z).
Теперь предположим, что имеются два разложения:
f (z) = a (z − z1 ) · . . . · (z − zn ) = 
a (z − z1 ) · . . . · (z − zm ).
Степень многочлена в правой части, очевидно, равна m ⇒
m = n. Кроме того, a =  a (это старший коэффициент многочлена
f (z)). Далее, (z1 − z1 ) · . . . · (z1 − zn ) = 0 ⇒ хотя бы одна из
скобок равна нулю ⇒ z1 совпадает с каким-то из чисел zi .
После перенумерации всегда можно считать, что z1 = z1 . Итак,
(z − z1 ) ( (z − z2 ) · . . . · (z − zn ) − (z − z2 ) · . . . · (z − zn )) = 0.
Отсутствие в C[z] делителей нуля означает, что
(z − z2 ) · . . . · (z − zn ) = (z − z2 ) · . . . · (z − zn ).
Рассуждая аналогичным образом, приходим (после перенумера-
ции корней) к равенству z2 = z2 и т. д. 
Следствие. Любой комплексный многочлен f (x) степени n > 0
имеет единственное разложение вида
f (z)=a (z−ζ1 )k1 · . . . · (z−ζm )km , k1 , . . . , km > 0, k1 + . . . +km = n,
(∗∗)
ζi = ζj при i = j , a, ζ1 , . . . , ζm ∈ C.
Разложение вида (∗∗) иногда называется комплексным ка-
ноническим разложением многочлена f (z). Число ki называется
кратностью корня ζi . Корень ζi называется кратным, если
ki > 1, и простым, если ki = 1.
Согласно (∗∗) многочлен f (z) имеет m попарно различных
корней. В разложении (∗) некоторые из чисел z1 , . . . , zm могут
совпадать: если zi = ζj , то имеется ровно kj чисел, равных ζj .
Нередко полученную выше теорему формулируют таким обра-
зом: любой комплексный многочлен степени n > 0 имеет ровно
n комплексных корней с учетом кратностей.

17.7. Разложение вещественных многочленов


Рассмотрим вещественный многочлен (многочлен с веще-
ственными коэффициентами) f (x) = a0 + a1 x + . . . + an xn и
предположим, что число z ∈ C является его корнем. Тогда ком-
17.7. Разложение вещественных многочленов 163

плексно сопряженное число z также является корнем (в силу


вещественности коэффициентов ai = ai для всех i):

f (z) = a0 + a1 z + . . . + an z n = a0 + a1 z + . . . + an z n = f (z) = 0.

Если z = z , то квадратичный многочлен (многочлен степени 2)

ϕ(x) = (x − z)(x − z) = x2 − (z + z) x + |z|2

имеет, очевидно, вещественные коэффициенты и является нераз-


ложимым в R[x].
Теорема. Любой вещественный многочлен f (x) степени n > 0
разлагается в R[x] на линейные и неразложимые квадратич-
ные множители:

f (x) = a(x − x1 ) · . . . · (x − xM ) ϕ1 (x) · . . . · ϕN (x), M + 2N = n,

a, x1 , . . . , xM ∈ R,

ϕi (x) = x2 + si x + ti , si , ti ∈ R, i = 1, . . . , N.

Данное разложение единственно с точностью до порядка со-


множителей.
Доказательство. Многочлен f (x) имеет n комплексных корней
z1 , . . . , zn с учетом кратностей. Пусть ровно M из них являются
вещественными. Тогда остальные n − M корней разбиваются на
пары комплексно сопряженных чисел ( ⇒ число n − M долж-
но быть четным: n − M = 2N ). Вещественные корни дают M
линейных множителей, а пары комплексно сопряженных чисел
дают N неразложимых квадратичных множителей. Тем самым
существование искомого разложения доказано. Допустим, что
имеются два разложения такого вида:

f (x) = a(x − x1 ) · . . . · (x − xM ) ϕ1 (x) · . . . · ϕN (x) =


=
a(x − x
1 ) · . . . · (x − x
M  )ϕ
1 (x) · . . . · ϕ
N  (x).

Ясно, что a = 
a (это старший коэффициент f (x)). Далее,
полный набор комплексных корней с учетом кратностей опреде-
лен однозначно ⇒ вещественные корни с учетом кратностей
определены однозначно ⇒
6*
164 Лекция 17

a(x − x1 ) · . . . · (x − xM ) = 
a(x − x
1 ) · . . . · (x − x
M  ),
 
M =M ⇒ N =N .
Поскольку в R[x] делителей нуля нет, получаем
ϕ1 (x) · . . . · ϕN (x) = ϕ
1 (x) · . . . · ϕ
N (x).
Пусть ϕ1 (z) = 0 ⇒ ϕ1 (x) = (x − z)(x − z). Далее, ϕ1 (z) × . . .
... × ϕ
N (z) = 0 ⇒ хотя бы один из множителей равен нулю.
1 (z) = 0 ⇒ ϕ
Пусть, например, ϕ 1 (x) = (x − z)(x − z). Таким
образом,
1 (x)
ϕ1 (x) = ϕ ⇒ ϕ2 (x) · . . . · ϕN (x) = ϕ
2 (x) · . . . · ϕ
N (x).
Далее по индукции. 
Следствие. Любой вещественный многочлен нечетной степе-
ни имеет хотя бы один вещественный корень.
Замечание. Последнее утверждение можно было бы доказать и
непосредственно — без использования основной теоремы алгеб-
ры. Достаточно доказать, что при положительном старшем ко-
эффициенте f (x) (как функция от x ∈ R) имеет положительный
знак при достаточно больших положительных x и отрицательный
знак при достаточно больших отрицательных x. После этого
использовать непрерывность f (x).
Л е к ц и я 18

18.1. Формулы Виета


Рассмотрим комплексный многочлен f (x) степени n со стар-
шим коэффициентом 1 и его разложение на линейные множите-
ли:
f (x) = a0 + a1 x + . . . + an−1 xn−1 + xn = (x − x1 ) · . . . · (x − xn ).
Раскрывая скобки в правой части и приравнивая коэффициенты
при одинаковых степенях x, получаем формулы Виета:
an−1 = −(x1 + x2 + . . . + xn ),
an−2 = (x1 x2 + x1 x3 + . . . + xn−1 xn ),
an−3 = −(x1 x2 x3 + x1 x2 x4 + . . . + xn−2 xn−1 xn ),
.........................................

an−k = (−1)k xi1 · . . . · xik ,
1i1 < ... < ik n
.........................................
a0 = (−1)n x1 · . . . · xn .
Выражения вида

σk = σk (x1 , . . . , xn ) = xi1 · . . . · xik , k = 1, . . . , n,
1i1 < ... < ik n
(∗)
называются элементарными симметрическими многочленами
от x1 , . . . , xn . Таким образом, коэффициенты многочлена f (x)
выражаются через элементарные симметрические многочлены от
его корней x1 , . . . , xn :
an−k = (−1)k σk , k = 1, . . . , n.

18.2. Многочлены от n переменных


Формальное выражение xα1 1 . . . xαnn , где α1 , . . . , αn — неот-
рицательные целые степени, называется одночленом степени
α1 + . . . + αn от переменных x1 , . . . , xn . Равенство αi = 0 допус-
кается (в этом случае одночлен не содержит xi ).
166 Лекция 18

Многочленом от переменных x1 , . . . , xn над полем P


называется формальная сумма одночленов от x1 , . . . , xn
с коэффициентами из поля P . Степенью многочлена называется
наивысшая степень входящих в него одночленов с ненулевыми
коэффициентами. Например, многочлен
f (x1 , x2 , x3 ) = x31 x22 x3 + x21 x32 x3 + x1 x2 x43 + x1 x2 + x3
имеет степень 6. Как видим, в состав f (x1 , x2 , x3 ) входят 3
одночлена наивысшей степени.
Полагаем xα1 1 . . . xαnn = xβ1 1 . . . xβnn , если αi = βi для всех i.
Один и тот же многочлен допускает много формально различных
представлений в виде суммы одночленов с коэффициентами из
поля P . Однако мы всегда можем перейти к стандартному
представлению, в котором каждый одночлен встречается только
один раз — процедура перехода называтся приведением подоб-
ных членов и заключается в замене всех одинаковых одночленов
с какими-то коэффициентами одним одночленом с коэффици-
ентом, равным сумме этих коэффициентов, а затем исключе-
нии из суммы всех одночленов с нулевыми коэффициентами.
Многочлены f и g называются равными, если они имеют рав-
ные коэффициенты для равных одночленов в своих стандартных
представлениях.
Суммой многочленов f + g называется многочлен с коэффи-
циентами, равными сумме коэффициентов для соответствующих
одночленов,
 входящих в f и g . Произведением многочленов
f = aα1 ,...,αn xα1 1 . . . xαnn и g = bβ1 ,...,βn xβ1 1 . . . xβnn называется
многочлен f g , состоящий из всех членов вида
(aα1 ,...,αn bβ1 ,...,βn ) xα1 1 +β1 . . . xαnn +βn .
Таким образом, умножение многочленов выполняется по привыч-
ным правилам раскрытия скобок и приведения подобных членов.
Множество всех многочленов от x1 , . . . , xn над полем P обо-
значается через P [x1 , . . . , xn ]. Относительно операций сложения
и умножения многочленов оно является коммутативным кольцом
с единицей и без делителей нуля.

18.3. Лексикографическое упорядочение


При изучении многочленов от x1 , . . . , xn часто используется
лексикографическое (словарное) упорядочение входящих в них
одночленов:
xα1 1 . . . xαnn старше (выше) xβ1 1 . . . xβnn ,
18.4. Симметрические многочлены 167

если для некоторого 1  k  n выполняются соотношения


α1 = β1 , . . . , αk−1 = βk−1 , αk > βk .
В дальнейшем под старшим членом многочлена будет по-
ниматься взятый с соответствующим ненулевым коэффициен-
том одночлен, являющийся наивысшим при лексикографическом
упорядочении одночленов стандартного представления данного
многочлена. Очевидно, что старший член определен однозначно.
Легко проверяется, что старший член произведения двух мно-
гочленов равен произведению их старших членов.

18.4. Симметрические многочлены


Многочлен f (x1 , . . . , xn ) называется симметрическим, если
для любой подстановки σ степени n
f (x1 , . . . , xn ) = f (xσ(1) , . . . , xσ(n) ).
Важными примерами симметрических многочленов являются
элементарные симметрические многочлены σk , присутствующие
в формулах Виета.
Теорема о симметрических многочленах. Для любого сим-
метрического многочлена f (x1 , . . . , xn ) существует и един-
ствен многочлен g от n переменных такой, что
f (x1 , . . . , xn ) = g(σ1 , . . . , σn ),
где σk = σk (x1 , . . . , xn ) — элементарные симметрические мно-
гочлены вида (∗).
Доказательство. Пусть a xα1 1 . . . xαnn — старший член много-
члена f (x1 , . . . , xn ). Тогда в случае симметрического многочлена
обязательно выполняются неравенства α1  . . .  αn . Если бы
это было не так, то данный член не был бы старшим: в сим-
метрическом многочлене вместе с одночленом xα1 1 . . . xαnn должны
присутствовать все одночлены вида xασ(11) . . . xασ(n)
n
для любой под-
становки σ .
Рассмотрим многочлен
−αn αn
ϕ(σ1 , . . . , σn ) = a σ1α1 −α2 . . . σn−
α n−1
1 σn . (1 )
Его можно рассматривать также как многочлен от x1 , . . . , xn , для
которого старший член будет, очевидно, равен
168 Лекция 18

a xα1 1 −α2 (x1 x2 )α2 −α3 . . . (x1 . . . xn−1 )αn−1 −αn (x1 . . . xn−1 xn )αn =
= a xα1 1 . . . xαnn . (2)

Поэтому старший член многочлена

f1 (x1 , . . . , xn ) = f (x1 , . . . , xn ) − ϕ(σ1 , . . . , σn )

будет младше старшего члена для f (x1 , . . . , xn ). Аналогичным об-


разом от f1 можно перейти к многочлену f2 с меньшим старшим
членом и т. д. В силу конечности общего числа членов данная
процедура должна на каком-то шаге дать нулевой многочлен.
Для доказательства единственности многочлена g достаточ-
но показать, что если g(σ1 , . . . , σn ) = 0, то и f (x1 , . . . , xn ) = 0.
Другими словами, нужно проверить, что после замены σk на
соответствующие многочлены от x1 , . . . , xn и приведения подоб-
ных членов останется хотя бы один ненулевой член. Любой
член многочлена g можно записать в виде (1) с показателями
α1  . . .  αn . Как многочлен от x1 , . . . , xn , многочлен ϕ имеет
своим старшим членом (2). Старшим членом для g , как мно-
гочлена от x1 , . . . , xn , будет наивысший из членов такого вида.
Он определен однозначно и поэтому не может сократиться при
приведении подобных членов. 
Следствие. Значение любого симметрического многочлена
ϕ(x1 , . . . , xn ) при замене переменных на корни многочлена
f (x) = a0 + a1 x + . . . + an−1 xn−1 + xn над полем P является
элементом поля P .
Доказательство. Симметрический многочлен является мно-
гочленом от элементарных симметрических многочленов. Если
считать переменные корнями для f (x), то, в силу формул Виета,
ϕ будет многочленом над тем же полем P от коэффициентов
a0 , . . . , an−1 , которые являются элементами поля P . 
Задача 1. Пусть z1 , ..., zn — все корни (с учетом кратностей)
многочлена f (x) с рациональными коэффициентами. Доказать, что
$
произведение D = (zi − zj ) является рациональным числом.
i=j

Задача 2. Пусть z1 , . . . , zn — все корни n-й степени из единицы,


а f (x1 , . . . , xn ) — симметрический многочлен с целыми коэффициен-
тами. Доказать, что значение f при xi = zi является целым числом.
18.5. Ньютоновы суммы 169

18.5. Ньютоновы суммы


Пусть задан многочлен f (x) = a0 + a1 x + . . . + an−1 xn−1 + xn ,
и пусть x1 , . . . , xn — все его корни с учетом кратностей. Выра-
жения
sk = xk1 + xk2 + . . . + xkn , k = 1, 2, . . . ,
называются ньютоновыми суммами для f (x).
Ясно, что sk — симметрический многочлен от корней x1 , . . .
. . . , xn . Поэтому sk есть значение многочлена от элементарных
симметрических многочленов и, следовательно, от коэффициен-
тов a0 , . . . , an−1 . Таким образом, ньютоновы суммы конструк-
тивно выражаются через коэффициенты многочлена f (x) — их
можно найти, не зная корни.
На вычислении ньютоновых сумм легко построить также
некоторый метод приближенного вычисления корней многочлена
f (x). 1) Предположим, что
|x1 | > |x2 |  . . .  |xn |.
Тогда
k+1
x2 xn k+1
sk+1 1+ + ... +
x1 x1
= x1 k k → x1 при k → ∞.
sk x2 xn
1+ + ... +
x1 x1

Задача 1. Доказать, что многочлен f (x) = 1 + x + ... + xn имеет n


различных комплексных корней z1 , ..., zn . Вычислить ньютонову сумму
sk = z1k + ... + znk при k = 7.
Задача 2. Найти многочлен 3-й степени, корнями которого явля-
ются квадраты корней многочлена z 3 − 2z − 5.

1)
На практике для этой цели все же используются другие методы — с более
быстрой сходимостью.
Л е к ц и я 19

19.1. Алгебраические многообразия


Пусть f (x1 , . . . , xn ) — многочлен степени k от переменных
x1 , . . . , xn . Множество
M = {x = [x1 , . . . , xn ] : f (x1 , . . . , xn ) = 0}
называется алгебраическим многообразием 1) порядка k . Оче-
видно, что это понятие обобщает понятие линейного многообра-
зия в n-мерном пространстве.
В общем случае строение множества M весьма сложно. Од-
нако при его изучении часто помогает очень простая идея —
давайте попытаемся упростить вид уравнения f = 0 с помощью
замены переменных x = P y , где P — невырожденная матрица
порядка n. Замена переменных связана с переходом к другому
базису в том же n-мерном пространстве.
Утверждение. Пусть P — произвольная невырожденная мат-
риц порядка n и g(y1 , . . . , yn ) = f (x1 , . . . , xn ), где [x1 , . . . , xn ] =
= P [y1 , . . . , yn ] . Тогда степень многочлена g равна степени
многочлена f .
Доказательство. Пусть P = [pij ]. Тогда
 n k1  n kn
k1
 
x1 · . . . · x n =
kn
p1j yj · ... · pnj yj .
j=1 j=1

Отсюда ясно, что степень g не выше степени f . Противополож-


ное неравенство доказывается с помощью замены y = P −1 x. 

1)
Подробным изучением алгебраических многообразий занимается алгеб-
раическая геометрия.
19.3. Поворот декартовой системы координат 171

19.2. Квадратичные многочлены от двух переменных


Рассмотрим квадратичный многочлен с вещественными ко-
эффициентами
f (x, y) = a11 x2 + 2a12 xy + a22 y 2 + 2a13 x + 2a23 y + a33
как функцию от декартовых координат x, y на плоскости и иссле-
дуем строение множества точек (x, y), удовлетворяющих уравне-
нию f (x, y) = 0.
Многочлен f (x, y) имеет три типа слагаемых:
f (x, y) = f2 (x, y) + f1 (x, y) + f0 ,
f2 (x, y) = a11 x2 + 2a12 xy + a22 y 2 — квадратичная часть,
f1 (x, y) = 2a13 x + 2a23 y — линейная часть, f0 = a33 —
свободный член. Квадратичная и линейная части записываются
с помощью матричных операций таким образом:




a11 a12 x x
f2 (x, y) = [ x y ] a a
, f1 (x, y) = 2 [ 13 23 ] .
a12 a22 y y
Кроме того, легко проверяется, что
  
a11 a12 a13 x
f (x, y) = [ x y 1 ] a12 a22 a23 y .
a13 a23 a33 1
Попробуем найти такую декартову систему, в которой уравнение
f (x, y) = 0 получит более простой вид. Множество его решений
принято называть линией (кривой) второго порядка.

19.3. Поворот декартовой системы координат


Исходную декартову систему координат повернем против ча-
совой стрелки на угол ϕ. Тогда базисные векторы e1 , e2 перейдут
в новые базисные векторы:

e1 = cos ϕ e1 + sin ϕ e2 , 
e2 = − sin ϕ e1 + cos ϕ e2 .
Старые координаты x, y будут выражаться через новые коорди-
, y следующим образом:
наты x




x cos ϕ − sin ϕ 
x
=x
e1 + y 
e2 = .
y sin ϕ cos ϕ y
172 Лекция 19

Легко проверяется, что

−1

cos ϕ − sin ϕ cos ϕ sin ϕ
= ⇒
sin ϕ cos ϕ − sin ϕ cos ϕ





x cos ϕ sin ϕ x
⇒ = .
y − sin ϕ cos ϕ y
В новых координатах квадратичная часть f2 (x, y) принимает
вид





cos ϕ sin ϕ a11 a12 cos ϕ − sin ϕ 
x
x y]
f2 = [ .
− sin ϕ cos ϕ a12 a22 sin ϕ cos ϕ y
 = Q AQ,
Матрица в скобках есть произведение трех матриц: A
причем A — симметричная матрица: A = A. Отсюда
 = (Q AQ) = Q A (Q ) = Q AQ = A.
A 

Значит, A = [
aij ] остается симметричной матрицей.
Попытаемся выбрать угол ϕ так, чтобы матрица A  приобрела
диагональный вид:





cos ϕ sin ϕ a11 a12 cos ϕ − sin ϕ λ1 0
= .
− sin ϕ cos ϕ a12 a22 sin ϕ cos ϕ 0 λ2
(∗)
Таким образом, требуется занулить элемент

a12 = 
a21 = (cos2 ϕ − sin2 ϕ) a12 − sin ϕ cos ϕ (a11 − a22 ) =
a11 − a22
= cos(2ϕ) a12 − sin(2ϕ) = 0.
2
Если a12 = 0, то можно взять ϕ = 0. Если a12 = 0, то надо
решить уравнение
a − a22
ctg (2ϕ) = 11 .
2a12
Очевидно, что решение существует. Поэтому всегда найдется ϕ
такое, что имеет место равенство (∗). Кроме того, при любом
выборе ϕ получаем
λ1 = cos2 ϕ a11 + 2 cos ϕ sin ϕ a12 + sin2 ϕ a22 ,
λ2 = sin2 ϕ a11 − 2 cos ϕ sin ϕ a12 + cos2 ϕ a22 .
Отсюда λ1 + λ2 = a11 + a22 . В то же время, используя равенство
(∗) и тот факт, что определитель произведения матриц равен
19.4. Сдвиг декартовой системы координат 173

произведению определителей, находим: λ1 λ1 = a11 a22 − a212 . Сле-


довательно, λ1 и λ2 суть корни квадратного уравнения 1)
λ2 − (a11 + a22 )λ + (a11 a22 − a212 ) = 0. (#)
Доказано следующее
Утверждение. С помощью поворота исходной декартовой си-
стемы координат на некоторый угол ϕ уравнение f (x, y) = 0
преобразуется в новых координатах к виду
2 + λ2 y2 + 2b13 x
λ1 x  + 2b23 y + b33 = 0,
где

cos ϕ − sin ϕ
[ b13 b23 ] = [ a13 a23 ] sin ϕ cos ϕ , b33 = a33 ,
а λ1 и λ2 являются корнями квадратного уравнения (#).

19.4. Сдвиг декартовой системы координат


Естественно предположить, что квадратичная часть f2 не
является тождественным нулем. Значит, λ1 и λ2 не равны нулю
одновременно.
Случай 1: λ1 = 0, λ2 = 0. Выделим в квадратичной части
полные квадраты:
  2 2 b2
b13 b213 b b
λ1 x +2b13 x
2
 = λ1 x  +2 x
2
+ 2 − 132 = λ1 x  + 13 − 132 ,
 λ1 λ1  λ1 λ1 λ1
b b 2
b 2 b
2 b2
λ2 y2 + 2b23 y = λ2 y2 +2 23 y+ 232 − 232 = λ2 y + 23 − 232 .
λ2 λ2 λ2 λ2 λ2
 и y,
Осуществим сдвиг декартовой системы с координатами x
поместив ее начало в точку
b b

O = − 13 , − 23 .
λ1 λ2
Новые координаты x и y  и y следующим
выражаются через x
образом:
b13 b23
x = x
+ , y  = y + .
λ1 λ2
1)

Заметим, что левая часть уравнения (#) есть в точности
a −λ a12
det 11a a22 − λ . Это многочлен от λ, называемый характеристическим
21


a11 a12
многочленом матрицы
a21 a22 . Многочлен такого же вида естественным
образом возникает при изучении ряда важных задач для произвольных (не
обязательно симметричных) матриц произвольного порядка (см. лекцию 29).
174 Лекция 19

В новых координатах уравнение f (x, y) = 0 теряет линейную


часть и принимает вид
λ1 (x )2 + λ2 (y  )2 + c = 0, (1 )
b213 b223
c = b33 − − .
λ21 λ22
Случай 2: λ1 = 0, λ2 = 0. Переносим начало координат в
точку
b
O = 0, − 23 .
λ2
В новых координатах
b23
=x
x , y = y +
λ2
уравнение f (x, y) = 0 получает вид
b223
λ2 y2 + 2b x
 + c = 0, b = b23 , c = b33 − .
λ22
Если b = 0, выполним еще один перенос начала системы коорди-
нат — в точку (−c/b, 0). В новых координатах
c
x = x
+ , y  = y
2b
уравнение f (x, y) = 0 приобретает форму
λ2 (y  )2 + 2b x = 0. (2 )
Если b = 0, получаем уравнение (положим для унификации x =
=x, y  = y)
λ2 (y  )2 + c = 0. (3 )
Случай λ1 = 0, λ2 = 0 сводится к случаю 2 дополнительным
поворотом системы координат на угол π/2. Доказана следующая
Теорема. С помощью поворота и сдвига исходной системы
координат уравнение f (x, y) = 0 приводится в новых коорди-
натах к виду (1), (2) или (3).
Если уравнение f (x, y) = 0 в какой-либо декартовой системе
координат имеет вид (1), то ни в какой другой декартовой систе-
ме оно не может иметь вид (2) или (3). Аналогично, уравнение
вида (2) при переходе к другой декартовой системе не может
стать уравнением вида (1) или (3), а уравнение вида (3) —
уравнением вида (1) или (2). Доказательство следует, например,
из сравнения рассмотренных ниже геометрических свойств мно-
жеств решений уравнений (1), (2) и (3).
19.5. Эллипс 175

19.5. Эллипс
Пусть в некоторой декартовой системе координат уравнение
f (x, y) = 0 имеет вид (1), где λ1 и λ2 — ненулевые числа
одинакового знака. Уберем штрихи и рассмотрим новую систему
в качестве исходной.
Не ограничивая общности, можно считать, что 0 < λ1  λ2
(если оба числа отрицательны, то можно поменять знак в обе-
их частях уравнения; если λ1 > λ2 , то можно поменять их
местами с помощью поворота на угол π/2). Если при этом
c > 0, то изучаемое множество пусто. Если c = 0, в нем толь-
! точка (0,!
ко одна 0). Предположим, что c < 0. Тогда, положив
a = −c/λ1 , b = −c/λ2 , уравнение (1) можно записать в виде
x2 y2
2
+ 2 = 1, a  b > 0. (1 )
a b
Определение 1. Множество точек (x, y), удовлетворяющих
уравнению (1 ), называется эллипсом с полуосями a и b.

Точки F− = (−c, 0) и F+ = (c, 0), где c = a2 − b2  0,
называются отрицательным и положительным фокусами эллип-
са соответственно. Число e = c/a называется эксцентрисите-
том эллипса. Заметим, что 0  e < 1. Прямые l− : x = −a/e
и l+ : x = a/e называются отрицательной и положительной ди-
ректрисами эллипса.
Пусть точка M = (x, y) удовлетворяет уравнению (1 ). Най-
дем сумму расстояний от нее до фокусов:
% %
|M F− | + |M F+ | = (x + c)2 + y 2 + (x − c)2 + y 2 =
%
= x2 (1 − b2 /a2 ) + 2xc + b2 + c2 +
%
+ x2 (1 − b2 /a2 ) − 2xc + b2 + c2 .
Заметим, что 1 − b2 /a2 = e2 и b2 + c2 = (c/e)2 = a2 . Кроме того,
|ex|  a. Поэтому
%
|M F− | + |M F+ | = (ex)2 + 2(ex)(c/e) + (c/e)2 +
%
+ (ex)2 − 2(ex)(c/e) + (c/e)2
= |a + ex| + |a − ex| = (a + ex) + (a − ex) = 2a.
176 Лекция 19

Таким образом, сумма расстояний от любой точки эллипса


(1 ) до его фокусов постоянна и равна 2a.
Определение 2. Множество тех и только тех точек плоскости,
для которых сумма расстояний до заданных точек постоянна,
называется эллипсом.
Мы уже выяснили, что все точки эллипса как множества
из определения 1 принадлежат множеству из определения 2.
Рассмотрим теперь эллипс как множество, данное определени-
ем 2. Выберем декартову систему, в которой заданные точки F−
и F+ получают координаты (−c, 0) и (c, 0). Постоянную сумму
расстояний будем считать равной 2a. Тогда
% 2  % 2
(x − c) + y
2 2 = 2a − (x + c) + y
2 2 ⇒
%
⇒a (x + c)2 + y 2 = a2 + xc.

Еще одно возведение в квадрат дает b2 x2 + a2 y 2 = a2 b2 ⇒


(1 ). Следовательно, определения 1 и 2 эквивалентны.
В случае e = 0 эллипс есть окружность радиуса a = b. Пусть
e > 0. Выше мы получили равенства
|M F− |
|M F− | = |a + ex| = e|x + (a/e| ⇒ = e,
|x + (a/e)|

|M F+ |
|M F+ | = |a − ex| = e|x − (a/e)| ⇒ = e.
|x − (a/e)|

Возводя каждое из последних равенств в квадрат, получаем (1 ).


Таким образом, доказано следующее
Утверждение. Множество тех и только тех точек плоско-
сти, для которых отношение расстояний до заданной точки
и заданной прямой постоянно и равно 0 < e < 1, является
эллипсом.
Ясно, что для выбора точки (фокуса) и соответствующей пря-
мой (директрисы), определяющих один и тот же эллипс, имеются
в точности две возможности.
Задача 1. Написать общее уравнение прямой, проходящей через
точку M (x0 , y0 ) эллипса x2 /a2 + y 2 /b2 = 1 и имеющей с ним единствен-
ную общую точку (такая прямая называется касательной к эллипсу
в точке M ). Доказать, что прямая, ортогональная данной прямой
19.6. Гипербола 177

и проходящая через точку M , является биссектрисой угла AM B , где


A и B — фокусы эллипса.
1
Задача 2. Докажите, что преобразование z → (z + z −1 ) ком-
2
плексной плоскости 1) переводит точки окружности радиуса r > 1 с
центром в начале координат в точки некоторого эллипса.
Задача 3. Докажите, что точки эллипса x2 /a2 + y 2 /b2 = 1 допус-
кают параметрическое представление x = a cos ϕ, y = b sin ϕ, 0  ϕ <
< 2π .
Задача 4. Докажите, что геометрическое место точек пересечения
взаимно ортогональных касательных к эллипсу x2 /a2 + y 2 /b2 = 1 есть
окружность x2 + y 2 = a2 + b2 .

19.6. Гипербола
По-прежнему, пусть в декартовой системе координат урав-
нение f (x, y) = 0 принимает вид (1), но λ1 и λ2 имеют разные
знаки. Если при этом свободный член оказался равен нулю,
то получаем пару прямых, проходящих через начало координат.
Предположим, что свободный член отличен от нуля. Ясно, что
в этом случае уравнение можно записать в виде
x2 y2
− = 1, (1 )
a2 b2
где a, b — некоторые положительные числа (возможно, для этого
потребуется дополнительно повернуть систему координат на угол
π/2).
Определение 1. Множество точек (x, y), удовлетворяющих
уравнению (1 ), называется гиперболой с полуосями a и b.
Легко видеть, что точки (x, y) гиперболы (1 ) находятся в
объединении двух непересекающихся областей плоскости (как
говорят, распадаются на две ветви):
D+ = {(x, y) : x  a, |y|  (b/a)|x|},
D− = {(x, y) : x  −a, |y|  (b/a)|x|}.
Прямые h+ : y = (b/a)x и h− : y = −(b/a)x называются асимп-
тотами гиперболы.

1 & '
1)
Функция z → z + z −1 называется функцией Жуковского и широко
2
применяется при решении задач гидро- и аэродинамики.
178 Лекция 19

Пусть x > 0 и y = y(x) — единственное значение для y


такое, что y > 0 и точка (x, y) удовлетворяет уравнению (1 ).
Очевидно, что расстояние от точки (x, y((x)) до асимптоты h+
не превышает
b2
|(b/a)x − y(x)| = → 0 при x → +∞.
|(b/a)x + y(x)|
При x > 0 и y < 0 соответствующие точки (x, y(x)) гиперболы
приближаются к асимптоте h− . Аналогичные наблюдения спра-
ведливы также для точек гиперболы при x < 0. √
Точки F− = (−c, 0) и F+ = (c, 0), где c = a2 + b2 > 0,
называются отрицательным и положительным фокусами гипер-
болы соответственно. Число e = c/a называется эксцентриси-
тетом гиперболы. Заметим, что в случае гиперболы e > 1.
Прямые l−1 : x = −a/e и l+ : x = a/e называются отрицательной
и положительной директрисами гиперболы соответственно.
Найдем расстояния от произвольной точки M = (x, y), удо-
влетворяющей (1 ), до фокусов (выкладки проводятся в полной
аналогии со случаем эллипса):
%
|M F− | = (x + c)2 + y 2 = |a + ex|, (A)
%
|M F+ | = (x − c)2 + y 2 = |a − ex|. (B)
Поскольку |x|  a и e > 1, получаем

(ex + a) − (ex − a) = 2a, x > 0,
|a + ex| − |a − ex| =
−(ex + a) + (ex − a) = −2a, x < 0.
Таким образом, абсолютная величина разности расстояний
от любой точки гиперболы (1 ) до ее фокусов постоянна
и равна 2a.
Определение 2. Множество тех и только тех точек плоскости,
для которых абсолютная величина разности расстояний до двух
заданных точек постоянна, называется гиперболой.
Пусть точка (x, y) принадлежит множеству из определения 2.
Введем декартовы координаты таким образом, что заданные точ-
ки получают координаты (−c, 0) и (c, 0). Постоянную абсолют-
ную величину разности расстояний обозначим через 2a. Тогда
% % 
 
 (x + c)2 + y 2 − (x − c)2 + y 2  = 2a ⇒
 
 % 2
(x + c) + y = 2a − (x − c)2 + y 2
2 2
⇒ (1 ).
19.7. Парабола 179

Таким образом, определения 1 и 2 эквивалентны.


Формулы (A) и (B) делают очевидным также следующее
Утверждение. Множество тех и только тех точек плоско-
сти, для которых отношение расстояний до заданной точки
и заданной прямой постоянно и равно e > 1, является гипер-
болой.
Из наших построений следует, что имеются ровно две воз-
можности для выбора точки (фокуса) и соответствующей прямой
(директрисы), определяющих одну и ту же гиперболу.
Задача 1. Написать общее уравнение прямой, проходящей через
точку M (x0 , y0 ) гиперболы x2 /a2 − y 2 /b2 = 1 и имеющей с ней един-
ственную общую точку в области точек (x, y) с координатой x того же
знака, что и x0 (такая прямая называется касательной к гиперболе).
Доказать, что данная прямая является биссектрисой угла AM B , где A
и B — фокусы гиперболы.
Задача 2. Докажите, что никакая прямая не может иметь ровно
одну общую точку с каждой ветвью гиперболы.
Задача 3. Докажите, что точки ветви гиперболы x2 /a2 − y 2 /b2 = 1
при x > 0 допускают параметрическое представление x = a ch (ϕ), y =
= b sh (ϕ), −∞ < ϕ < +∞. По определению,

1 1
ch (ϕ) = (eϕ + e−ϕ ), sh (ϕ) = (eϕ − e−ϕ ).
2 2

19.7. Парабола
Пусть уравнение f (x, y) имеет вид (2). Можно считать, что
λ2 > 0 и b < 0 (этого всегда можно добиться умножением уравне-
ния на (−1) и дополнительным поворотом системы координат на
угол π ). Уберем штрихи, рассматривая новую систему в качестве
исходной. Положив p = −b/λ2 , получаем уравнение
y 2 = 2px, p > 0. (2  )
Определение 1. Множество точек (x, y), удовлетворяющих
уравнению (2 ), называется параболой с фокальным парамет-
ром p.
Точка F = (p/2, 0) называется фокусом параболы (2 ). Пря-
мая l : x = −p/2 называется директрисой параболы (2 ).
Пусть M = (x, y) — произвольная точка параболы. Расстоя-
ние от нее до фокуса имеет вид
180 Лекция 19
% %
|M F | = (x − p/2)2 + y 2 = x2 − px + (p/2)2 + 2px =
%
= x2 + 2x(p/2) + (p/2)2 = |x + p/2|.
Итак, расстояние от любой точки параболы до фокуса |F |
равно расстоянию от этой точки до директрисы l.
Определение 2. Множество тех и только тех точек, для ко-
торых расстояние до заданной точки F равно расстоянию до
заданной прямой l, называется параболой.
Пусть расстояние от заданной точки до заданной пря-
мой равно p. Выберем систему координат таким образом, что
F = (p/2, 0) и l : x = −p/2. Если |M F | = |x + p/2|, то, возводя
это равенство в квадрат, получаем (2 ). Таким образом, опреде-
ления 1 и 2 действительно эквивалентны.
Задача 1. Написать общее уравнение прямой, проходящей через
точку M (x0 , y0 ) параболы y 2 = 2px и имеющей с ней единственную
общую точку (такая прямая называется касательной к параболе).
Доказать, что прямая, ортогональная данной прямой и проходящая
через точку M , делит пополам угол между прямой F M , где точка F —
фокус параболы, и прямой, параллельной оси x и проходящей через
точку M .
Задача 2. Докажите, что геометрическое место точек пересечения
взаимно ортогональных касательных к параболе совпадает с ее дирек-
трисой.
Задача 3. Отрезок, соединяющий две точки кривой, называет-
ся ее хордой. Докажите, что для эллипса, гиперболы или параболы
середины всех хорд, параллельных произвольной заданной хорде, рас-
положены на одной прямой.
Задача 4. Кривая S — это эллипс, одна из ветвей гиперболы
или парабола, E — произвольная фиксированная точка на S . Для
произвольных точек A и B на S прямая l(A, B) определяется как
прямая AB в случае A = B и как касательная в точке A в случае
A = B . Докажите, что прямая, проведенная через точку E параллельно
l(A, B), имеет с S не более одной общей точки C , помимо E . Пусть
C = E , если общая точка только одна. Таким образом, любой паре
точек A, B ставится в соответствие точка C — назовем ее суммой
точек A и B . Докажите, что множество S относительно этой операции
является абелевой группой.
Л е к ц и я 20

20.1. Квадратичные многочлены от трех переменных


Рассмотрим вещественный квадратичный многочлен
f (x, y , z) = a11 x2 + 2a12 xy + 2a13 xz + a22 y 2 +
+ 2a23 yz + a33 z 2 + 2a14 x + 2a24 y + 2a34 z + a44
от декартовых координат x, y , z в геометрическом пространстве
и исследуем множество решений уравнения f (x, y , z) = 0 — его
принято называть поверхностью второго порядка.
Легко проверить, что
⎡ ⎤⎡ ⎤
a11 a12 a13 a14 x
⎢ a a a a ⎥⎢ y ⎥
f (x, y , z) = [ x y z 1 ] ⎣ 12 22 23 24 ⎦ ⎣ ⎦ ,
a13 a23 a33 a34 z
a14 a24 a34 a44 1
а квадратичная часть многочлена f (x, y , z) имеет вид
  
a11 a12 a13 x
f2 (x, y , z) = [ x y z ] a 12 a22 a23 y .
a13 a23 a33 z
Как и в случае двух переменных, попробуем перейти к более
удобной декартовой системе координат.

20.2. Декартовы системы и ортогональные матрицы


Пусть e1 , e2 , e3 и e1 , e2 , e3 — базисные векторы двух де-
картовых систем координат с общим началом. Выразим векторы
второй системы в виде линейных комбинаций векторов первой
системы:
e1 = p11 e1 + p21 e2 + p31 e3 ,
e2 = p12 e1 + p22 e2 + p32 e3 ,
e3 = p13 e1 + p23 e2 + p33 e3 ,
182 Лекция 20

и заметим, что
  
p11 p21 p31 p11 p12 p13
p12 p22 p32 p21 p22 p23 =
p13 p23 p33 p31 p32 p33
   
e1 , e1 ) (
( e1 , e2 ) (
e1 , e3 ) 1 0 0
= ( e2 , e1 ) (
e2 , e2 ) (
e2 , e3 ) = 0 1 0 .
e3 , e1 ) (
( e3 , e2 ) (
e3 , e3 ) 0 0 1
Таким образом, матрица перехода P для базисов двух декарто-
вых систем координат удовлетворяет матричному равенству
P  P = I. (∗)
Ясно и то, что если матрица перехода обладает свойством (∗), то
декартова система переходит в декартову.
Определение. Квадратная вещественная матрица P , удовлетво-
ряющая равенству (∗), называется ортогональной.
Ортогональные матрицы порядка 2 осуществляют переход
между базисами декартовых систем на плоскости. Таковы,
в частности, матрицы перехода, реализующие поворот (см. лек-
цию 19).
Данное нами определение применимо и для матриц, порядок
которых больше 3. Согласно (∗) для ортогональных матриц про-
извольного порядка обращение сводится к транспонированию:
P −1 = P  .
Кроме того, произведение двух ортогональных матриц
остается ортогональной матрицей: если P  P = Q Q = I ,
то (P Q) (P Q) = Q (P P )Q = Q I Q = Q Q = I . Очевидно,
   
что единичная матрица I является ортогональной матрицей.
Следовательно, множество всех ортогональных матриц
фиксированного порядка относительно операции умножения
матриц образует группу.
Утверждение. Пусть y = P x, где P — произвольная орто-
гональная матрица порядка n и x ∈ Rn×1 . Тогда сумма квад-
ратов элементов матрицы-столбца y равна сумме квадратов
элементов матрицы-столбца x.
Доказательство.
y12 + . . . + yn2 = y  y = (P x) (P x) =
= x (P  P ) x = x x = x21 + . . . + x2n . 
Следствие. Пусть B = P AQ, где P , Q — произвольные ор-
тогональные матрицы порядка n и A — произвольная веще-
20.3. Метод вращений 183

ственная матрица порядка n. Тогда сумма квадратов элемен-


тов матрицы B равна сумме квадратов элементов матри-
цы A.

20.3. Метод вращений


Попробуем упростить квадратичную часть f2 (x, y), используя
ту же идею поворота системы координат, как и в случае плос-
кости. Однако теперь у нас есть три координатные плоскости,
порождаемые тремя парами координатных осей. Цель враще-
ния — получить нуль вместо какой-нибудь одной пары элементов
aij = aji при i = j . Рассмотрим три возможности:
   
cos ϕ sin ϕ 0 a11 a12 a13 cos ϕ − sin ϕ 0
− sin ϕ cos ϕ 0 a12 a22 a23 sin ϕ cos ϕ 0 =
0 0 1 a13 a23 a33 0 0 1
 

a11 0  a13
= 0 a22 a23 , (1)

a13 
a23 a33
   
cos ϕ 0 sin ϕ a11 a12 a13 cos ϕ 0 − sin ϕ
0 1 0 a12 a22 a23 0 1 0 =
− sin ϕ 0 cos ϕ a13 a23 a33 sin ϕ 0 cos ϕ
 

a11 
a12 0
=  a12 
a22 
a23 , (2)
0 
a23 
a33
   
1 0 0 a11 a12 a13 1 0 0
0 cos ϕ sin ϕ a12 a22 a23 0 cos ϕ − sin ϕ =
0 − sin ϕ cos ϕ a13 a23 a33 0 sin ϕ cos ϕ
 

a11 
a12 
a13
=  a12 
a22 0 . (3)

a13 0 a33

Обозначим через d0 , h0 и d1 , h1 суммы квадратов диаго-


нальных и внедиагональных элементов исходной и новой матриц
в каждом из трех случаев:
d0 = a211 + a222 + a233 , h0 = 2a212 + 2a213 + 2a223 ,
d1 = 
a211 + 
a222 + 
a233 , h1 = 2
a212 + 2
a213 + 2
a223 .
184 Лекция 20

Согласно отмеченным выше свойствам ортогональных матриц,


d1 + h1 = d0 + h0 ⇒ h1 = h0 − (d1 − d0 ).
По той же причине в случае (1) имеем: a211 + a222 + 2a212 =  a211 +
+a222 и, поскольку a33 =  a33 , d1 − d0 = 2a212 . В случае (2) d1 −
− d0 = 2a13 , а в случае (3) d1 − d0 = 2a223 .
2
Пусть индексы i, j определяют координатную плоскость, в ко-
торой проводится вращение (и указывают на то, какое из соотно-
шений (1), (2) или (3) имеет место). Выберем их таким образом,
чтобы исключаемый элемент aij был максимальным по модулю.
Тогда, очевидно,
2
d1 − d0 = 2a2ij  2(h0 /6) = h0 /3 ⇒ h1  h .
3 0
Пусть A0 = [aij ] и A1 = [aij ]. Рассматривая A1 в качестве но-
вой исходной матрицы, выберем в ней максимальный по модулю
внедиагональный элемент и, занулив его с помощью вращения,
получим матрицу A2 . Продолжая действовать таким же обра-
(k)
зом и далее, построим последовательность матриц Ak = [aij ],
k = 0, 1, . . .
Пусть hk обозначает сумму квадратов внедиагональных эле-
ментов матрицы Ak . Тогда
2 k
hk  h0 → 0 при k → ∞.
3
Следовательно, при любых фиксированных i = j последователь-
(k)
ность внедиагональных элементов aij сходится к нулю при
k → ∞.

20.4. Вложенные подпоследовательности


Лемма об ограниченных последовательностях. Пусть
имеется конечное число ограниченных последовательностей
(k) (k)
{s1 }, . . . , {sm }, k = 1, 2, . . . Тогда можно выбрать
последовательность номеров k1 < k2 < . . . таким образом,
(k ) (k )
что каждая из подпоследовательностей {s1 l }, . . . , {sml },
l = 1, 2, . . . , будет сходящейся.
(k)
Доказательство. Из ограниченной последовательности {s1 }
(k )
выбираем сходящуюся подпоследовательность {s1 l } и вместо
исходных последовательностей рассматриваем подпоследователь-
(k ) (k )
ности {s1 l }, . . . , {sml }, l = 1, 2, . . . Они остаются,
конечно, ограниченными, и при этом первая из них будет
20.5. Диагонализация в пределе 185

сходящейся. Теперь уже из ограниченной последовательности


{sk2l } выберем сходящуюся подпоследовательность (подпоследо-
вательность подпоследовательности — по отношению к исход-
ной последовательности) и переходим к подпоследовательностям
(kl ) (kl )
{s1 i }, . . . , {sm i }, i = 1, 2, . . . Полученные вложенные подпо-
следовательности будут по-прежнему ограниченными, но сходя-
щимися являются уже первые две. И т. д. 

20.5. Диагонализация в пределе


Вернемся к методу вращений. Будут ли сходиться к ко-
нечным пределам последовательности диагональных элементов
(k)
aii — для нашей ближайшей цели не очень важно. Каждая
из них является ограниченной и поэтому обладает сходящейся
подпоследовательностью. Более того, по лемме об ограниченных
последовательностях имеется подпоследовательность матриц Ak ,
в которой каждая из последовательностей диагональных элемен-
тов сходится к какому-то пределу.
Чтобы не загромождать обозначения, будем считать, что Ak
и есть та самая подпоследовательность, для которой все после-
(k)
довательности aij являются сходящимися (как мы знаем, при
i = j к нулю). Пусть
(k)
lim aii = λi , i = 1, 2, 3.
k→∞
Понятно, что
Ak = Pk A0 Pk , k = 1, 2, . . . , (#)
(k)
где матрицы Pk = [pij ] являются произведениями использован-
ных матриц вращения (из соотношений (1), (2) или (3)). По-
этому при любом k матрица Pk является ортогональной (как
произведение ортогональных матриц). Следовательно, сумма
квадратов всех элементов матрицы Pk при любом k одинакова
(k)
(и равна 3). Значит, каждая последовательность pij является
ограниченной при k → ∞ и поэтому обладает сходящейся подпо-
следовательностью.
По лемме об ограниченных последовательностях существует
подпоследовательность матриц Pk , в которой каждая последова-
(k)
тельность pij будет сходящейся. Для упрощения обозначений
будем считать, что Pk и есть именно такая подпоследователь-
186 Лекция 20

ность. Пусть
(k)
lim pij = pij , i, j = 1, 2, 3.
k→∞
При каждом k выполняется равенство (#). Переходя к пределу
в соответствующих поэлементных равенствах, получаем
 
λ1 0 0
Λ ≡ 0 λ2 0 = P  A0 P.
0 0 λ3
Кроме того, для каждого k имеем: Pk Pk = I ⇒ P  P = I . В итоге
доказана следующая важная
Теорема. Для любой вещественной симметричной матрицы A
порядка 3 существуют ортогональная матрица P и диаго-
нальная матрица Λ такие, что
Λ = P  AP.

Следствие. Существует декартова система координат, в ко-


торой уравнение поверхности второго порядка имеет вид
x, y, z) = λ1 x
f ( 2 + λ2 y2 + λ3 z2 + 2b1 x
 + 2b2 y + 2b3 z + a = 0.

Замечание. В силу ортогональности матрицы P , равенство


Λ = P  AP выполняется в том и только том случае, когда
AP = P Λ. Последнее означает, что j -й столбец pj матрицы P
удовлетворяет уравнению Apj = λj pj ⇔ (A − λj I)pj = 0.
Учитывая, что pj = 0, находим: det(A − λj I) = 0. Таким об-
разом, числа λ1 , λ2 , λ3 — это корни кубического многочлена
f (λ) = det(A − λI). Если они уже найдены, то столбец pj можно
получить как решение однородной системы линейных алгебраи-
ческих уравнений (A − λj I)pj = 0.

20.6. Диагонализация вещественных симметричных


матриц
В действительности тот же метод вращений позволяет полу-
чить более общую теорему.
Теорема о диагонализации вещественных симметричных
матриц. Вещественная симметричная матрица A произволь-
ного порядка n приводится к диагональной матрице Λ с по-
мощью некоторой ортогональной матрицы P :
Λ = P  AP.
20.6. Диагонализация вещественных симметричных матриц 187

Доказательство. Начиная с A0 = A, построим последователь-


(k)
ность матриц Ak = [aij ], k = 0, 1, . . . , в которой Ak получается
из Ak−1 путем умножения слева и справа на матрицы вращения:
Ak = Rk Ak−1 Rk , (∗)
где Rk отличается от единичной матрицы I лишь четырьмя
элементами (2 × 2)-подматрицы, раположенной на пересечении
строк и столбцов с номерами i < j и равной


cos ϕ − sin ϕ
.
sin ϕ cos ϕ
Матрица Rk осуществляет поворот на угол ϕ в координатной
плоскости, определяемой номерами i = j . Любая матрица враще-
ния такого вида является, очевидно, ортогональной.
Ясно, что симметричность матрицы A0 = A наследуется все-
ми матрицами Ak . Из предыдущих исследований мы уже знаем,
(k) (k)
что ϕ можно выбрать таким образом, что aij = aji = 0. Обо-
значим через dk и hk суммы квадратов диагональных и внедиа-
гональных элементов матрицы Ak . Тогда

(k) 2 (k) 2 (k−1) 2 (k−1) 2 (k−1) 2
aii + ajj = aii + ajj + 2 aij ⇒

(k−1) 2
⇒ dk − dk−1 = 2 aij .

Для каждого k будем выбирать плоскость вращения (номе-


(k−1)
ра i < j ) таким образом, чтобы исключаемый элемент aij
был максимальным по модулю среди всех внедиагональных эле-
ментов матрицы Ak−1 . Общее число внедиагональных элементов
равно n2 − n. Поэтому

(k−1) 2 h
aij  2k−1 .
n −n
Отсюда, учитывая равенство dk + hk = dk−1 + hk−1 , получаем
 k
2 2
hk  hk−1 − 2 hk−1  1 − 2 h0 → 0 при k → ∞.
n −n n −n
Из соотношений (∗) вытекает, что
Ak = Pk APk , k = 1, 2, . . . ,
(k)
где для всех k матрицы Pk = [pij ] являются ортогональными
(как произведения ортогональных матриц).
188 Лекция 20

(k) (k)
Для любых фиксированных i, j последовательности aij , pij
являются ограниченными. По лемме об ограниченных последо-
вательностях существует последовательность номеров k1 <k2 < . . .
(k ) (k )
такая, что каждая из подпоследовательностей aij l , pij l будет
(k )
сходящейся. Заметим, что aij l → 0 при i = j . Пусть
(k ) (k )
lim aii l = λi , i = 1, . . . , n, lim pij l = pij , i, j = 1, . . . , n.
l→∞ l→∞
Введем матрицы
⎡ ⎤
λ1
Λ=⎣ ..
. ⎦, P = [pij ].
λn
Для всех l = 1, 2, . . . имеем: Akl = Pkl APkl . Переходя к пределу
в поэлементных равенствах, получаем
Λ = P  AP.
Из условий ортогональности Pkl Pkl = I вытекает, что в пределе
P  P = I . Значит, матрица P является ортогональной. 
Мы только что получили один из важнейших результатов —
как для самой теории матриц, так и для ее многочисленных при-
ложений. В нашем курсе мы еще вернемся к его обсуждению в
связи с рядом фундаментальных понятий линейной алгебры. На-
ше доказательство замечательно своей конструктивностью: оно
дает одновременно и метод приближенного вычисления матриц Λ
и P . Это один из ранних практических методов вычислительной
алгебры, предложенный К. Якоби в 1846 г. . 1)
Задача 1. Дана симметричная матрица A ∈ Rn×n с ненулевой
суммой элементов главной диагонали. Доказать существование ортого-
нальной матрицы Q ∈ Rn×n такой, что в матрице Q AQ все элементы
главной диагонали одинаковы.

1)
Последние результаты по изучению метода вращений принадлежат со-
всем недавнему прошлому: в 1990-х годах были обнаружены его особые воз-
можности, связанные с высокоточным вычислением малых по модулю элемен-
тов матрицы Λ.
Л е к ц и я 21

21.1. Приведенные уравнения поверхности второго


порядка
При изучении линий второго порядка мы установили, что
любая из них в какой-либо декартовой системе координат опи-
сывается одним из основных (как иногда говорят, приведенных)
уравнений:
(1) λ1 x2 + λ2 y 2 + c = 0, (2) λ2 y 2 + 2bx = 0, (3) λ2 y 2 + c = 0,
в которых все коэффициенты ненулевые, за исключением, быть
может, c. В случае поверхности второго порядка исходной точ-
кой для вывода приведенных уравнений является возникающее
в некоторой декартовой системе уравнение вида
λ1 x2 + λ2 y 2 + λ3 z 2 + 2b1 x + 2b2 y + 2b3 z + a = 0.
Если λ1 , λ2 , λ3 = 0, то с помощью переноса начала координат
(сдвига) можно получить уравнение вида
λ1 x2 + λ2 y 2 + λ3 z 2 + c = 0.
Пусть λ1 , λ2 = 0, λ3 = 0. Тогда в линейной части с помощью
сдвига можно убрать члены, содержащие x и y . В результате
появится уравнение вида λ1 x2 + λ2 y 2 + 2bz + c = 0. Если b = 0,
то сдвиг позволяет перейти к более простому уравнению λ1 x2 +
+ λ2 y 2 + 2bz = 0. Если же b = 0, то получается уравнение вида
λ1 x2 + λ2 y 2 + c = 0.
Теперь предположим, что λ1 = 0, λ2 = λ3 = 0. После исклю-
чения члена с x в линейной части (путем сдвига) получим урав-
нение λ1 x2 + 2b2 y + 2b3 z + c = 0. Далее, с помощью поворота
в плоскости координат y и z в линейной части можно избавиться
от члена, содержащего z :


cos ϕ − sin ϕ
[b2 b3 ] = [b 0] .
sin ϕ cos ϕ
В самом деле, выберем ϕ так, чтобы −b2 sin ϕ + b3 cos ϕ = 0.
Таким образом, имеется декартова система координат, в которой
190 Лекция 21

заданная поверхность описывается уравнением λ1 x2 + 2by + c =


= 0. Если b = 0, то с помощью сдвига легко перейти к уравнению
λ1 x2 + 2by = 0. Если b = 0, то получается уравнение λ1 x2 + c = 0.
В итоге доказано следующее
Утверждение. Для произвольной поверхности второго поряд-
ка в некоторой декартовой системе координат получается
приведенное уравнение одного из пяти типов:

1) λ1 x2 + λ2 y 2 + λ3 z 2 + c = 0,
2) λ1 x2 + λ2 y 2 + 2bz = 0,
3) λ1 x2 + λ2 y 2 + c = 0,
4) λ1 x2 + 2by = 0,
5) λ1 x2 + c = 0.

Все коэффициенты ненулевые, кроме, возможно, свободного


члена c.

21.2. Эллипсоид
Пусть в приведенном уравнении типа (1) коэффициенты
λ1 , λ2 , λ3 имеют одинаковый знак, противоположный знаку
свободного члена c. Тогда уравнение приводится к виду
x2 y2 z2
2
+ 2 + 2 = 1, a, b, c > 0.
a b c
Множество точек (x, y , z), удовлетворяющих этому уравнению,
называется эллипсоидом с полуосями a, b, c.
Заметим, что эллипсоид целиком содержится в параллелепи-
педе
|x|  a, |y|  b, |z|  c.

Ясно, что в сечении поверхности второго порядка плоскостью


получается некоторая линия второго порядка. Легко проверяет-
ся, что для эллипсоида в любом сечении плоскостью возникает
эллипс (вырождающийся в точку, когда плоскость касается эл-
липсоида).
Задача 1. Написать общее уравнение плоскости, проходящей че-
рез точку эллипсоида x2 /a2 + y 2 /b2 + z 2 /c2 = 1 и имеющей с ним
21.4. Линейчатая поверхность 191

ровно одну общую точку (такая плоскость называется касательной


плоскостью).
Задача 2. Доказать, что геометрическое место точек пересечения
взаимно ортогональных касательных плоскостей к эллипсоиду x2 /a2 +
+ y 2 /b2 + z 2 /c2 = 1 есть сфера x2 + y 2 + z 2 = a2 + b2 + c2 .

21.3. Однополостный гиперболоид


Пусть приведенное уравнение имеет тип (1) с отличным от
нуля свободным членом. Предположим, что знак одного из коэф-
фициентов при квадратах равен знаку свободного члена и проти-
воположен знаку двух других коэффициентов. Тогда в некоторой
декартовой системе координат получается уравнение вида:
x2 y2 z2
+ − = 1, a, b, c > 0.
a2 b2 c2
Множество удовлетворяющих ему точек (x, y , z) называется од-
нополостным гиперболоидом.
В любом сечении однополостного гиперболоида плоскостью
x + D = 0 или y + D = 0 возникает гипербола.
По отношению к однополостному гиперболоиду множество
всех точек пространства разбивается на три части:
x2 y2 z2
+ − =1 (точки поверхности),
a2 b2 c2
x2 y2 z2
+ − < 1 (внутренние точки),
a2 b2 c2
x2 y2 z2
+ − > 1 (внешние точки).
a2 b2 c2
Множество внутренних точек является связным: вместе с лю-
быми двумя точками оно целиком содержит все точки некоторой
соединяющей их ломаной (состоящей из конечного числа отрез-
ков) линии. Отсюда и название — «однополостный».

21.4. Линейчатая поверхность


Интересно отметить, что однополостный гиперболоид явля-
ется примером линейчатой поверхности. Так называются по-
верхности, состоящие из всех точек некоторого бесконечного
множества прямых.
192 Лекция 21

Утверждение. Через каждую точку однополостного гипербо-


лоида S проходят в точности две различные прямые, все
точки которых принадлежат S .
Доказательство. Изменив масштаб, перейдем к аффинной си-
стеме координат, в которой уравнение поверхности S будет иметь
вид x2 + y 2 − z 2 = 1. Пусть прямая l описывается параметриче-
скими уравнениями
x = x0 + p1 t, y = y0 + p2 t, z = z0 + p3 t,
а направляющий вектор (p1 , p2 , p3 ) выбирается так, чтобы все
точки этой прямой принадлежали поверхности S :
(x0 + p1 t)2 + (y0 + p2 t)2 − (z0 + p3 t)2 = 1 ∀ t ∈ R ⇔

⎨ p21 + p22 − p23 = 0,
⇔ p1 x0 + p2 y0 − p3 z0 = 0,
⎩ 2
x0 + y02 − z02 = 1.
Легко видеть, что p3 = 0. Поэтому направляющий вектор можно
нормировать, взяв p3 = 1. Тогда p21 + p22 = 1, p1 x0 + p2 y0 = z0 .
Предположим, что y0 = 0 ⇒ p2 = (z0 − p1 x0 )/y0 ⇒ p21 +
+ (z0 − p1 x0 )2 /y02 = 1. Таким образом,
(x20 + y02 )p21 − 2(x0 z0 )p1 + (z02 − y02 ) = 0.
Вычисляем дискриминант: D = x20 z02 − (x20 + y02 )(z02 − y02 ) =
= y02 (x20 + y02 − z02 ) = y02 . Поскольку y0 = 0, для p1 получаем
в точности два различных значения. Поскольку p3 = 1, соот-
ветствующие направляющие векторы, очевидно, неколлинеарны.
Они дают две различные прямые, целиком принадлежащие S
и проходящие через точку (x0 , y0 , z0 ). Случай x0 = 0 разбирается
аналогично. 
Замечание. Для поиска тех же самых прямых на поверхности S
можно записать ее уравнение в виде
x z x z y
y

− + = 1− 1+
a c a c b b
и рассмотреть два семейства пар плоскостей:
x z y
x z y

α − =β 1− , β + =α 1+ ;
ax cz b
y
a
x
c
z
y
b
γ − =δ 1+ , δ + =γ 1− ,
a c b a c b
определяемых парами не равных одновременно нулю параметров
α, β и γ , δ . Можно доказать, что для каждой пары плоскостей
в пересечении получается прямая, целиком принадлежащая S .
21.7. Эллиптический параболоид 193

21.5. Двуполостный гиперболоид


Пусть в приведенном уравнении типа (1) знак одного из
коэффициентов при квадратах противоположен знаку свободного
члена и знаку двух других коэффициентов. Тогда оно приводится
к виду
x2 y2 z2
2
+ 2
− 2
= −1, a, b, c > 0.
a b c
Множество точек (x, y , z), удовлетворяющих данному уравне-
нию, называется двуполостным гиперболоидом.
Легко видеть,что двуполостный гиперболоид не имеет точек
в полосе |z| < c. Множество его внутренних точек, определяемое
x2 y2 z2
неравенством 2 + 2 − 2 < −1, разбивается на два связных
a b c
множества. Отсюда и название — «двуполостный».

21.6. Эллиптический конус


Если в приведенном уравнении типа (1) знак одного из ко-
эффициентов при квадратах противоположен знаку двух других
коэффициентов, а свободный член равен нулю, то уравнение
можно записать в виде
x2 y2 z2
+ − = 0.
a2 b2 c2
Множество удовлетворяющих ему точек (x, y , z) называется эл-
липтическим конусом.
Задача 1. Даны плоскость Ax + By + Cz + D = 0 при условии
D = 0 и круговой конус x2 + y 2 − z 2 = 0. Докажите, что в сечении ко-
нуса данной плоскостью получается эллипс, гипербола, парабола в том
и только том случае, когда A2 + B 2 < C 2 , A2 + B 2 > C 2 , A2 + B 2 = C 2
соответственно.

21.7. Эллиптический параболоид


Теперь рассмотрим приведенное уравнение типа (2). Предпо-
ложим, что λ1 и λ2 имеют одинаковые знаки. Тогда в некоторой
декартовой системе данная поверхность описывается уравнением
x2 y2
+ = z, a, b > 0.
a2 b2
Множество удовлетворяющих ему точек называется эллиптиче-
ским параболоидом.
7 Е. Е. Тыртышников
194 Лекция 21

Название навеяно рассмотрением сечений в плоскостях z +


+ D = 0 (эллипсы) и в плоскостях x + D = 0 или y + D = 0
(параболы).

21.8. Гиперболический параболоид


Если в приведенном уравнении типа (2) коэффициенты при
квадратах имеют разные знаки, то получается уравнение
x2 y2
− = z, a, b > 0,
a2 b2
которое определяет гиперболический параболоид.
Название объясняется видом кривых, получаемых в сечениях
плоскостями z + D = 0 (гиперболы) и плоскостями x + D = 0
или y + D = 0 (параболы).
Это еще один пример линейчатой поверхности: каждая точ-
ка гиперболического параболоида принадлежит двум различ-
ным прямым, целиком принадлежащим данной поверхности.
Доказательство проводится по аналогии со случаем однополост-
ного гиперболоида.

21.9. Цилиндрические поверхности


Приведенные уравнения типов (3)–(5) не зависят от z . Поэто-
му кривые второго порядка в сечениях любой плоскостью вида
z + D = 0 одинаковы. Соответствующие поверхности называются
цилиндрическими.
Л е к ц и я 22

22.1. Нормированное пространство


В дальнейшем любые линейные пространства будут предпо-
лагаться вещественными или комплексными. Наша ближайшая
цель — ввести важное обобщение понятия длины геометрическо-
го вектора и модуля комплексного числа.
Пусть V — линейное пространство над полем P , где P = R
или P = C. Каждому вектору x ∈ V припишем вещественное
число ||x|| так, чтобы выполнялись следущие свойства:
1) ||x||  0 ∀ x ∈ V , ||x|| = 0 ⇔ x = 0;
2) ||αx|| = |α| ||x|| ∀ x ∈ V , ∀ α ∈ P (положительная одно-
родность);
3) ||x + y||  ||x|| + ||y|| ∀ x, y ∈ V (неравенство треуголь-
ника).
Число ||x|| называется нормой вектора x. Линейное простран-
ство V , снабженное нормой, называется нормированным про-
странством.
В одном и том же линейном пространстве норму можно
ввести очень многими способами. Например, пусть V = Cn
и λ1 , . . . , λn — произвольные положительные числа. Если x =
= [x1 , . . . , xn ] , то пусть

n
||x|| ≡ λi |xi |.
i=1
Легко проверить, что соответствие x → ||x|| обладает свойствами
(1), (2), (3).
Чтобы построить другие, наиболее популярные примеры норм
в Cn , нам понадобятся некоторые неравенства, опирающиеся на
свойства выпуклых функций.
Задача 1. Можно ли ввести норму на R2 так, чтобы множество
всех векторов x с нормой ||x||  1 имело форму треугольника?
7*
196 Лекция 22

22.2. Выпуклые функции и неравенства


Вещественная функция f (x) называется выпуклой на интер-
вале I = (a, b), если для любых x, y ∈ I и любого числа 0  t  1
выполняется неравенство
f (tx + (1 − t)y)  tf (x) + (1 − t)f (y). (∗)
Функция g(x) называется вогнутой на I , если f (x) ≡ −g(x)
выпукла на I .
Теорема. Пусть функция f (x) дважды дифференцируема на I
и f  (x) — ее вторая производная. Если f  (x)  0 при всех
x ∈ I , то f (x) выпукла на I .
Доказательство. При x = y неравенство (∗) превращается в ра-
венство. При t = 0 или t = 1 равенство получается при любых
x, y . Поэтому предположим, что a < x < y < b и 0 < t < 1. Тогда
для z = tx + (1 − t)y имеем: x < z < y . По теореме Лагранжа из
математического анализа, существуют точки ξ и η такие, что
f (z) − f (x)
= f  (ξ), x < ξ < z,
z−x
f (y) − f (z)
= f  (η), z < η < y.
y−z
По той же теореме для некоторой точки ζ получаем
f (y) − f (z) f (z) − f (x)
− = f  (ζ) (η − ξ)  0, ξ < ζ < η.
y−z z−x
Остается учесть, что t = (y − z)/(y − x), и заметить, что левая
часть имеет вид
f (x)(y − z) + f (y)(z − x) − f (z)(y − x)
=
(y − z)(z − x)
tf (x) + (1 − t)f (y) − f (z)
= (y − x). 
(y − z)(z − x)
Следствие. Функция ln x является вогнутой.
Доказательство. (ln x) = −1/x2 < 0. 
Отсюда, например, можно сразу же вывести неравенство между
средним арифметическим и средним геометрическим чисел x1 , . . .
. . . , xn > 0:

n x . . . x  x1 + . . . + xn .
1 n
n
В самом деле, используя вогнутость логарифма, находим

x + . . . + xn ln x1 + . . . + ln xn
ln 1   ln n x1 . . . xn . 
n n
22.3. Неравенства Гёльдера и Минковского 197

22.3. Неравенства Гёльдера и Минковского


Лемма. Пусть положительные числа p, q таковы, что
1 1
+ = 1. Тогда
p q
ap bq
ab  + ∀ a, b  0.
p q

Доказательство. В силу вогнутости логарифма


ln ap ln bq
ap bq
ln (ab) = +  ln + . 
p q p q
Неравенство Гёльдера. В условиях леммы для любых ком-
плексных чисел x1 , . . . , xn и y1 , . . . , yn справедливо неравен-
ство  n   n 1/p  n 1/q
   
 
 xi yi   |xi | p
|yi | q
.
 
i=1 i=1 i=1

Доказательство. Пусть
 n 1/p  n 1/q
 
a= |xi |p , b= |yi |q .
i=1 i=1
В случае a = 0 или b = 0 неравенство очевидно. Если a = 0
и b = 0, то, используя лемму для чисел |xi |/a и |yi |/b, находим
|xi |p /ap |y |q /bq
(|xi |/a) (|yi |/b)  + i , i = 1, . . . , n.
p q
Складывая эти неравенства, получаем
 n
 1 1
|xi yi | /(ab)  + = 1. 
p q
i=1
Неравенство Минковского. Пусть p  1, x1 , . . . , xn и y1 , . . .
. . . , yn — произвольные комплексные числа. Тогда
 n 1/p  n 1/p  n 1/p
  
|xi + yi | p
 |xi | p
+ |yi | p
.
i=1 i=1 i=1
Доказательство. При p = 1 неравенство проверяется очевид-
ным образом. В случае p > 1 имеем
198 Лекция 22


n 
n 
n
|xi + yi | 
p
|xi + yi | p−1
|xi + yi |  |xi | |xi + yi |p−1 +
i=1 i=1 i=1


n
+ |yi | |xi + yi |p−1 .
i=1

Для каждой из сумм справа применим неравенство Гёльдера,


1 1
взяв q = p/(p − 1) ⇒ + = 1. Получаем
p q


n
|xi + yi |p 
i=1
⎛ 1/p  n 1/p ⎞  n 1/q
n  
⎝ |xi | p
+ |yi | p ⎠ |xi + yi | (p− 1)q
.
i=1 i=1 i=1

Остается заметить, что (p − 1)q = p и 1 − 1/q = 1/p. 

22.4. Нормы Гёльдера


Пусть x = [x1 , . . . , xn ] ∈ Cn . При p  1 положим
 n 1/p

||x||p = |xi | p
.
i=1

Заметим также, что при фиксированном x величина ||x||p при


p → ∞ имеет предел, равный max |xi |. Поэтому разумно при-
1in
нять обозначение
||x||∞ = max |xi |.
1in

Величины ||x||p называются p-нормами или нормами Гёльдера.


Неравенства Гёльдера и Минковского сохраняют силу при
p = ∞ (в этом случае q = 1). Для доказательства достаточно
перейти к пределу при p → ∞.
Теорема. При любом p  1, включая p = ∞, величина ||x||p
является нормой на Cn .
22.5. Зачем нужны нормы? 199

Доказательство. Свойства (1) и (2) нормы очевидны. Неравен-


ство треугольника есть не что иное, как неравенство Минков-
ского. 
Задача 1. Многие нормы на Rn как функции координат вектора
x = [x1 , . . . , xn ] обладают свойством f (x1 , . . . , xn ) = f (|x1 |, . . . , |xn |).
Приведите пример нормы, которая этим свойством не обладает.

22.5. Зачем нужны нормы?


Прежде всего это удобный инструмент для изучения пределов
в линейном пространстве.
Последовательность векторов xk ∈ V называется сходящейся
к вектору x ∈ V , если числовая последовательность ||xk − x||
сходится к нулю при k → ∞. Вектор x называется пределом
последовательности xk . Обозначения: x = lim xk или xk → x
k→∞
при x → ∞.
Последовательность, сходящаяся к какому-нибудь вектору,
называется просто сходящейся. Это оправдано, поскольку двух
различных пределов быть не может. Если xk → x и xk → y , то
||x − y|| = ||(x − xk ) − (y − xk ||  ||x − xk || +
+ ||y − xk || → 0 ⇒ x = y. 
В конечномерном пространстве V при изучении сходимо-
сти можно, в принципе, обойтись и без норм. Фиксировав
какой-нибудь базис e1 , . . . , en ∈ V , мы могли бы рассмотреть
разложения
n
k
x = xki ei
i=1

и называть последовательность векторов xk сходящейся, если


сходятся координатные последовательности xki при всех i. Такое
понятие сходимости не будет зависеть от выбора базиса (до-
кажите!). Легко видеть также, что из покоординатной сходи-
мости в конечномерном пространстве вытекает сходимость
по любой
 норме. Действительно, пусть xki → xi . Тогда, взяв
x = xi ei , получаем
i

n
||xk − x||  |xki − xi | ||ei ||. 
i=1
200 Лекция 22

Более того, имеет место и менее очевидный факт: в конечно-


мерном пространстве из сходимости по любой норме вытекает
покоординатная сходимость. Мы скоро это докажем.
Тем не менее даже в конечномерном пространстве исследо-
вать сходимость с помощью норм очень удобно: все сводится
к изучению лишь одной числовой последовательности ||xk − x||.
Это тем более важно, когда пространство бесконечномерно!

22.6. Нормы в бесконечномерном пространстве


ПРИМЕР 1. Пусть C[a, b] — линейное пространство функ-
ций, непрерывных на отрезке [a, b]. Для функции f ∈ C[a, b]
наиболее часто используется норма
||f ||C = max |f (x)|,
axb
называемая C -нормой (иногда также равномерной или чебы-
шёвской 1)).
ПРИМЕР 2. Пусть C 1 [a, b] — линейное пространство функ-
ций, непрерывных на отрезке [a, b] вместе с первой производ-
ной 2). В данном случае норму можно ввести, например, так:
||f ||C 1 = max (|f (x)| + |f  (x)|).
axb
Заметим, что сходимость последовательности функций из
C 1 [a, b] по норме C 1 влечет за собой сходимость по норме C .
Обратное, однако, не верно: последовательность функций
sin kx
f k (x) = √
k
принадлежит C 1 [a, b]
и сходится по норме C к нулю, но не
1
сходится по норме C , так как не является ограниченной по этой
норме.
Таким образом, в бесконечномерных пространствах разные
нормы определяют, вообще говоря, разные типы сходимости.
В этом отношении конечномерные пространства отличаются
принципиально: в них сходимость по какой-либо норме равно-
сильна сходимости по любой другой норме — это фундаменталь-
ный факт, который скоро будет доказан. Он, казалось бы, озна-
1)
В честь знаменитого русского математика Пафнутия Львовича Чебышёва
(1821–1894).
2)
Чтобы рассматривать f  (x) в точках a и b, можно считать функцию f (x)
определенной и дифференцируемой на более широком интервале, накрываю-
щем [a, b].
22.8. Пределы и полнота 201

чает, что в конечномерных пространствах можно ограничиться


изучением какой-нибудь одной нормы. Тем не менее это не так!
В огромном числе вопросов конечномерные пространства воз-
никают как подпространства бесконечномерного нормированного
пространства. Поэтому нормы в них должны порождаться нор-
мой соответствующего бесконечномерного пространства. А мы
только что выяснили, что для бесконечномерных пространств
разные нормы могут различаться существенным образом.
Задача 1. Докажите, что последовательность функций f k (x) =
= sin kx/k не является сходящейся по норме C 1 .

22.7. Метрическое пространство


В понятии предела аксиомы линейного пространства исполь-
зуются, на самом деле, не очень существенным образом — норма
разности двух векторов легко заменяется более общим понятием
расстояния между двумя векторами.
Пусть M — непустое множество и ρ(x, y) — вещественная
функция от элементов x, y ∈ M , обладающая следующими свой-
ствами:
1) ρ(x, y)  0 ∀ x, y ∈ M , ρ(x, y) = 0 ⇔ x = y ;
2) ρ(x, y) = ρ(y , x) ∀ x, y ∈ M ;
3) ρ(x, y)  ρ(x, z) + ρ(z , y) ∀ x, y , z ∈ M .
В таких случаях M называется метрическим пространством,
а ρ(x, y) — расстоянием между элементами x и y .
Любое нормированное пространство является метрическим
пространством с расстоянием
ρ(x, y) = ||x − y||.
Однако метрическое пространство в общем случае не пред-
полагает наличия каких-либо операций над его элементами. На-
пример, произвольное непустое множество M будет метрическим
пространством, если ρ(x, y) = 0 при x = y и ρ(x, y) = 1 при
x = y .

22.8. Пределы и полнота


Пусть M — метрическое пространство. Последовательность
элементов xk ∈ M называется сходящейся в M , если суще-
ствует элемент x ∈ M такой, что числовая последовательность
ρ(xk , x) сходится к нулю при k → ∞. Как и в нормированном
202 Лекция 22

пространстве, двух разных пределов быть не может: если xk → x


и xk → y , то
ρ(x, y)  ρ(x, xk ) + ρ(xk , y) → 0 ⇒ x = y.
Последовательность xk ∈ M называется фундаментальной
последовательностью или последовательностью Коши 1), если
для любого ε > 0 существует номер N = N (ε) такой, что при
k , l > N выполняется неравенство ρ(xk , xl ) < ε.
Из неравенства ρ(xk , xl )  ρ(xk , x) + ρ(x, xl ) следует, что
любая сходящаяся последовательность является последова-
тельностью Коши. Обратное в общем случае не верно. На-
пример, любой интервал M = (a, b) вещественной оси мож-
но рассматривать как метрическое пространство с расстоянием
ρ(x, y) = |x − y|. Последовательность xk = a + (b − a)/k является
фундаментальной, но не может сходиться ни к какому элементу
из M (ее пределом должно бы быть число a, но a ∈ / M ).
Метрическое пространство называется полным, если в нем
любая фундаментальная последовательность является схо-
дящейся.
В начальных курсах математического анализа обычно до-
казывается, что фундаментальные последовательности чисел из
R являются сходящимися в R — таким образом, метрическое
пространство R с расстоянием ρ(x, y) = |x − y| является полным.
Все понятия и факты, полученные для метрических про-
странств, переносятся на произвольные нормированные про-
странства. При этом всегда предполагается, что расстояние в них
вводится с помощью нормы: ρ(x, y) = ||x − y||. Полное нормиро-
ванное пространство называется также банаховым. 2)
Задача 1. Докажите, что функция ρ(x, y) = |x − y|/(1 + |x − y|)
задает расстояние в вещественном пространстве R. Порождается ли
оно какой-либо нормой? Будет ли пространство полным?

Еще одно (красивое, но редко используемое) название — сходящаяся


1)

в себе.
2)
В честь польского математика, профессора Львовского университета Сте-
фана Банаха (1892–1945).
Л е к ц и я 23

23.1. Множества в метрическом пространстве


Пусть M — метрическое пространство, a ∈ M и r > 0. Мно-
жества
M (a, r) = {x ∈ M : ρ(a, x) < r}, M (a, r) = {x ∈ M : ρ(a, x)  r}
называются соответственно открытым шаром и замкнутым
шаром радиуса r с центром в точке a.
Пусть S — какое-либо множество точек в метрическом про-
странстве M . Множество S называется ограниченным, если оно
целиком содержится в некотором шаре.
Точка a ∈ S называется внутренней для S , если она содер-
жится в S вместе с некоторым открытым шаром. Множество S
называется открытым в M , если любая его точка является
внутренней. Пустое множество по определению считается от-
крытым.
Пусть x ∈ M и существует последовательность точек xk ∈ S ,
сходящаяся к x. В этом случае x называется точкой прикосно-
вения для S . Если xk = x для всех k , то x называется предельной
точкой для S . Очевидно, что любая точка прикосновения, не
принадлежащая множеству S , является для него предельной.
Замыканием множества S называется его объединение со
всеми его предельными точками. Обозначение: [S]. Множество S
называется замкнутым, если оно содержит все свои предельные
точки: [S] = S . Несложно проверить, что S замкнуто в том
и только в том случае, когда дополнительное в M множество
O = M \S является открытым.
Задача 1. Всегда ли замыкание открытого шара совпадает с за-
мкнутым шаром с тем же центром и радиусом?
Задача 2. Пусть M = N, а расстояние между натуральными чис-
лами m, n определяется как ρ(m, n) = 1 + min{1/m, 1/n} при m = n
204 Лекция 23

и 0 при m = n. Докажите, что M — полное метрическое пространство.


Докажите также, что замкнутые шары
M (1, 1 + 1/2) ⊃ M (2, 1 + 1/3) ⊃ M (3, 1 + 1/4) ⊃ ...

вложены, но имеют пустое пересечение.


Множество S называется компактным, если из любой по-
следовательности точек xk ∈ S можно выделить подпоследова-
тельность, сходящуюся к некоторой точке x ∈ S .
Ясно, что компактное множество обязано быть замкнутым.
Обратное не верно: например, S = M всегда является замкну-
тым множеством, но может и не быть компактным. Заметим
также, что любое компактное множество S является ограничен-
ным (неограниченная последовательность не может быть схо-
дящейся).
В начальных курсах анализа рассматривается метрическое
пространство R с расстоянием ρ(x, y) = |x − y|, а компактным
принято называть любое замкнутое и ограниченное множество
точек из R. В данном случае это определение равносильно наше-
му определению компактности. Более того, мы скоро докажем,
что эти два определения равносильны и в случае произвольных
конечномерных нормированных пространств. Однако в бесконеч-
номерных пространствах замкнутость и ограниченность недоста-
точны для выделения сходящейся подпоследовательности.
Говоря о расстоянии в линейных пространствах, мы всегда
будем полагать, что оно вводится с помощью какой-либо нормы.
Задача 3. Верно ли, что замыкание выпуклого множества являет-
ся выпуклым? Верно ли, что множество внутренних точек выпуклого
множества будет выпуклым?

23.2. Компактность и непрерывность


Вещественная функция f (x), определенная для точек x мет-
рического пространства M , называется непрерывной в точке
x ∈ M , если для любой последовательности xk , сходящейся к x,
последовательность значений f (xk ) сходится к f (x).
Теорема Вейерштрасса. Для любой вещественной функции
f (x), непрерывной во всех точках компактного множества S ,
существуют точки xmin , xmax ∈ S такие, что f (xmin )  f (x) 
 f (xmin ) для всех x ∈ S .
Доказательство. Если предположить, что f (xk ) > k для некото-
рой последовательности точек xk ∈ S , то возникает противоречие
с возможностью выделения сходящейся подпоследовательности:
23.3. Компактность единичной сферы 205

если xki → x, то f (xki ) → f (x), но f (xki ) не может сходиться,


так как не является ограниченной. Поэтому f (x) ограничена
сверху. Пусть cmax — точная верхняя грань множества значений
{f (x), x ∈ S}. Тогда для каждого k найдется точка xk ∈ S такая,
что cmax − 1/k  f (xk )  cmax . Выберем сходящуюся подпосле-
довательность xki → x и перейдем в последних неравенствах
к пределу ⇒ f (x) = cmax .
Ограниченность снизу и существование точки минимума до-
казывается переходом к g(x) = −f (x). 

23.3. Компактность единичной сферы


Рассмотрим единичную сферу в пространстве Cn относитель-
но 2-нормы:

n

S2 = {x ∈ C : ||x||2 = 1} = {x = [x1 , . . . , xn ] :
n
|x|2i = 1}.
i=1
Лемма 1. Единичная сфера S2 в пространстве Cn компактна
относительно 2-нормы.
Доказательство. Рассмотрим произвольную последовательность
векторов
xk = [xk1 , . . . , xkn ] ∈ S2 .
Соответствующие координатные последовательности удовлетво-
ряют неравенствам
|xk1 |  1, |xk2 |  1, . . . , |xkn |  1.
Согласно лемме об ограниченных последовательностях
(см. п. 20.4), существует подпоследовательность номеров
k1 < k2 < . . . такая, что каждая из координатных последователь-
ностей xki l будет сходиться и удовлетворять равенству

n
|xki l |2 = 1. (∗)
i=1

Пусть xi = lim xki l и x = [x1 , . . . , xn ] . Тогда


l→∞
 n 1/2

||xkl − x||2 = |xki l − xi |2 → 0.
i=1
Переходя в (∗) пределу, получаем x ∈ S2 . 
206 Лекция 23

Лемма 2. Для произвольной нормы || · || в пространстве


Cn функция f (x) = ||x|| является непрерывной относительно
2-нормы.
Доказательство. Пусть xk = [xk1 , . . . , xkn ] → x = [x1 , . . . , xn ] .
Тогда, используя неравенство треугольника для норм, находим

|f (xk ) − f (x)| = | ||xk || − ||x|| |  ||xk − x||  |xki − xi | ||ei ||,
1in

где ei = [0, . . . , 1, . . . , 0] — вектор из нулей, кроме i-й компонен-


ты, равной 1. Правая часть стремится к нулю при
 n 1/2

||xk − x||2 = |xki − xi |2 → 0. 
i=1

Лемма 3. Для любой нормы || · || на Cn существуют констан-


ты c1 , c2 > 0 такие, что
c1  ||x||  c2 ∀ x ∈ S2 .
При этом c1 = ||x1 ||, c2 = ||x2 || для некоторых векторов x1 ,
x2 ∈ S2 .
Доказательство. Достаточно заметить, что функция f (x) = ||x||
непрерывна относительно 2-нормы на множестве S2 , компактном
относительно 2-нормы. 

23.4. Эквивалентные нормы


Две нормы || · ||(a) и || · ||(b) на одном и том же линейном
пространстве V называются эквивалентными, если существуют
константы c1 , c2 > 0 такие, что
c1 ||x||(a)  ||x||(b)  c2 ||x||(a) ∀ x ∈ V.
Теорема. Если V конечномерно, то любые нормы на нем экви-
валентны.
Доказательство. Прежде всего заметим, что любая норма || · ||
на Cn эквивалентна || · ||2 . Пусть x ∈ Cn ⇒ x/||x||2 ∈ S2 .
По лемме 3, c1  x/||x||2   c2 ⇒
c1 ||x||2  ||x||  c2 ||x||2 ∀ x ∈ Cn .
Отсюда легко вывести эквивалентность любых двух норм на Cn .
23.5. Компактность замкнутых ограниченных множеств 207

В случае произвольного конечномерного пространства V


с нормой || · ||V фиксируем в нем произвольный базис e1 , . . . , en
и рассмотрим взаимно-однозначное соответствие

n

v ↔ [x1 , . . . , xn ] , v= xi ei .
i=1
Используя его, введем норму на Cn следующим образом:
, n ,
, ,
, ,
||[x1 , . . . , xn ] ||V ≡ , xi ei , .
, ,
i=1 V
Свойства нормы проверяются непосредственно. Введем также
еще одну норму на V :
, n ,
, ,
, ,
, xi ei , ≡ ||[x1 , . . . , xn ] ||2 .
, ,
i=1 2
Уже установленная эквивалентность любых двух норм на Cn
доказывает эквиваленость данных (а значит, и любых) норм
в пространстве V . 
Следствие. Сходимость по любой норме в конечномерном про-
странстве равносильна поокоординатной сходимости.
Заметим, что нам уже встречались нормы, которые не могут
быть эквивалентными: это C -норма и C 1 -норма в пространстве
C 1 [a, b] функций, непрерывных на отрезке [a, b] вместе с первой
производной:
||f ||C = max |f (x)|, ||f ||C 1 = max (|f (x)| + |f  (x)|).
axb axb

В самом деле, последовательность функций f k (x) = sin kx/ k
является сходящейся в норме C , но расходится в норме C 1 .
Отсюда, кстати, получаем (не очень прямое!) доказательство
бесконечномерности линейного пространства C 1 [a, b].

23.5. Компактность замкнутых ограниченных


множеств
Теорема. В конечномерном нормированном пространстве мно-
жество является компактным тогда и только тогда, когда
оно замкнуто и ограничено.
Доказательство. Мы уже знаем, что компактное множество
в метрическом пространстве всегда является замкнутым и огра-
ниченным. Пусть множество S замкнуто и ограничено относи-
тельно какой-либо нормы в Cn . В силу эквивалентности норм
208 Лекция 23

в конечномерном пространстве, S также замкнуто и ограниче-


но относительно 2-нормы. Поэтому любая последовательность
векторов из S имеет ограниченные координатные последова-
тельности. По лемме об ограниченных последовательностях мы
можем выбрать подпоследовательность, сходящуюся в 2-норме
к какому-то вектору x ∈ S . Эта же подпоследовательность будет
сходиться и относительно любой другой нормы. 
Отсюда вытекает, например, компактность единичной сферы
и компактность замкнутого шара в любом конечномерном про-
странстве относительно любой нормы.

23.6. Наилучшие приближения


Пусть x ∈ V и L — непустое множество векторов из V .
Величину
γ = inf ||x − z||
z∈L
называют расстоянием между x и L. Вектор z0 ∈ L называется
элементом наилучшего приближения для x на L, если
γ = ||x − z0 ||.
Лемма о наилучшем приближении. Пусть L — конечномерное
подпространство в нормированном пространстве V . Тогда
для любого x ∈ V существует вектор z0 ∈ L такой, что
||x − z0 ||  ||x − z|| ∀ z ∈ L.
Доказательство. Фиксируем ε > 0 и рассмотрим любой век-
тор z такой, что ||x − z||  γ + ε. Отсюда ||z||  R ≡ γ + ε + ||x||.
Поэтому очевидно, что
γ= inf ||x − z||.
z∈L, ||z||R
Функция f (z) = ||x − z|| непрерывна на замкнутом шаре ||z|| 
 R конечномерного пространства L. По теореме Вейерштрасса
γ = ||x − z0 || для некоторого z0 ∈ L. 
Заметим, что существование элемента наилучшего прибли-
жения очевидно также для компактных множеств L.
Из леммы о наилучшем приближении вытекает, в частности,
что для всякой непрерывной функции f (x) на отрезке [a, b] суще-
ствует многочлен pn (x) степени не выше n такой, что для любого
многочлена gn (x) степени не выше n имеет место неравенство
||f (x) − pn (x)||C[a,b]  ||f (x) − gn (x)||C[a,b] .
Многочлены pn (x) называются многочленами наилучшего рав-
номерного приближения для f (x) и впервые были изучены
23.6. Наилучшие приближения 209

П. Л. Чебышёвым (кстати, в связи с практической задачей меха-


ники). 1)
Задача 1. Докажите, что функция Tn (x) = cos(n arccos x) при
−1  x  1 является многочленом степени n со старшим коэффи-
циентом 2n−1 . Докажите, что для любого многочлена pn (x) степе-
ни n с тем же старшим коэффициентом выполняется неравенство
||Tn (x)||C[−1,1]  ||pn (x)||C[−1,1] . 2)

1)
В частности, многочлен pn−1 (x) для функции f (x) = xn ∈ C[−1, 1] имеет
вид pn−1 (x) = xn − 21−n cos(n arccos x), −1  x  1.
2)
Говорят, что многочлены Tn (x) наименее уклоняются от нуля (среди
всех многочленов той же степени и с тем же старшим коэффициентом).
Многочлены Tn (x) называются многочленами Чебышёва.
Л е к ц и я 24

24.1. Евклидово пространство


Пусть V — вещественное линейное пространство, на котором
каждой упорядоченной паре векторов x, y ∈ V поставлено в со-
ответствие вещественное число (x, y) таким образом, что:
1) (x, x)  0 ∀ x ∈ V ; (x, x) = 0 ⇔ x = 0;
2) (x, y) = (y , x) ∀ x, y ∈ V ;
3) (x + y , z) = (x, z) + (y , z) ∀ x, y , z ∈ V ;
4) (αx, y) = α(x, y) ∀ α ∈ R, ∀ x ∈ V .
Число (x, y) называется скалярным произведением векторов x
и y . Вещественное линейное пространство со скалярным произ-
ведением называется евклидовым.
В Rn скалярное произведение векторов x = [x1 , . . . , xn ] , y =
= [y1 , . . . , yn ] часто вводится как сумма парных произведений
координат:

n
(x, y) = xi yi = y  x. (∗)
i=1
Оно называется естественным скалярным произведением на Rn .
Но на Rn скалярное произведение можно ввести и многи-
ми другими способами: например, если фиксировать числа
λ1 , . . . , λn > 0, то выражение
⎡ ⎤
n λ1 0
(x, y) = λi xi yi = y  ⎣ ..
. ⎦x
i=1 0 λn
обладает свойствами (1)–(4) и, следовательно, задает скалярное
произведение.

24.2. Унитарное пространство


В Cn выражение (∗), очевидно, уже не является скалярным
произведением: пусть n = 2 и x = [1, i] , тогда (x, x) = 12 + i2 =
= 0. Вообще, в ненулевом комплексном пространстве аксиомы
24.3. Билинейные и полуторалинейные формы 211

(1), (4) не совместимы с аксиомой (2): (ix, ix) = −(x, x) ⇒


если (x, x) > 0, то (ix, ix) < 0.
Пусть V — комплексное линейное пространство. Теперь при
определении скалярного произведения (x, y) предполагается, что
число (x, y) в общем случае комплексное, а набор аксиом моди-
фицируется таким образом:
1 ) (x, x)  0 ∀ x ∈ V ; (x, x) = 0 ⇔ x = 0;
2 ) (x, y) = (y , x) ∀ x, y ∈ V (черта означает комплексное
сопряжение);
3 ) (x + y , z) = (x, z) + (y , z) ∀ x, y , z ∈ V ;
4 ) (αx, y) = α(x, y) ∀ α ∈ C, ∀ x ∈ V .
Комплексное линейное пространство со скалярным произведени-
ем называется унитарным.
Аксиомы евклидова и унитарного пространств отличаются
лишь комплекным сопряжением во второй аксиоме и, конеч-
но, тем, что в вещественном пространстве все числа и само
скалярное произведение вещественны. Заметим, что в любом
случае скалярный квадрат (x, x) обязан быть неотрицательным
вещественным числом.
В отличие от (∗), в Cn естественное скалярное произведение
векторов x = [x1 , . . . , xn ] , y = [y1 , . . . , yn ] вводится так:
n
(x, y) = xi yi = y ∗ x.
i=1

24.3. Билинейные и полуторалинейные формы


В аксиомах скалярного произведения свойства (3), (4) отра-
жают линейность функции (x, y) от векторов x и y по первому
аргументу. В евклидовом пространстве аксиома (2) дает нам
линейность и по второму аргументу.
Функция f (x, y) с числовыми значениями называется били-
нейной формой, если она линейна по каждому из аргументов:
f (αx + βy , z) = αf (x, z) + βf (y , z),
f (z , αx + βy) = αf (z , x) + βf (z , y) ∀ x, y , z ∈ V , ∀ α, β.
Таким образом, скалярное произведение в евклидовом простран-
стве является билинейной формой с дополнительными условиями
(1) и (2) из определения в п. 24.1.
Функция f (x, y) с числовыми значениями называется полу-
торалинейной формой, если
f (αx + βy , z) = αf (x, z) + βf (y , z),
f (z , αx + βy) = αf (z , x) + βf (z , y) ∀ x, y , z ∈ V , ∀ α, β ∈ C.
212 Лекция 24

Очевидно, что скалярное произведение в унитарном простран-


стве является полуторалинейной формой с дополнительными
условиями (1 ) и (2 ).

24.4. Длина вектора


Пусть V — произвольное пространство со скалярным произ-
ведением. Величина !
|x| = (x, x)
называется длиной вектора x ∈ V .
Неравенство Коши–Буняковского–Шварца. Для любых век-
торов x, y ∈ V
|(x, y)|  |x| |y|, (∗)
причем равенство достигается в том и только том случае,
когда x и y линейно зависимы.
Доказательство. Комплексное число (x, y) запишем в тригоно-
метрической форме
(x, y) = |(x, y)| ξ , ξ = cos ϕ + i sin ϕ.
Если y = 0, то в (∗) имеет место равенство. Пусть y = 0. Для
произвольного t ∈ R рассмотрим выражение
(x + tξy , x + tξy) = (x, x) + tξ(x, y) + tξ(x, y) + ξξ(y , y) =
= t2 |y|2 + 2t|(x, y)| + |x|2  0.
Неотрицательность квадратного трехчлена от переменной t озна-
чает неположительность его дискриминанта:
D = |(x, y)|2 − |x|2 |y|2  0 ⇒ |(x, y)|  |x| |y|.
Предположим, что при y = 0 в (∗) имеет место равенство
⇒ D = 0 ⇒ для некоторого вещественного t получаем
(x + tξy , x + tξy) = 0 ⇒ x + tξy = 0.
Очевидно также, что если y = 0 или x = αy , то (∗) обращается
в равенство. 
Следствие. Длина является векторной нормой на V .
Доказательство. Первые два свойства нормы очевидны,
а неравенство треугольника вытекает из неравенства Коши–
Буняковского–Шварца:
|x + y|2 = |x|2 + |y|2 + (x, y) + (y , x) 
 |x|2 + |y|2 + 2|x| |y| = (|x| + |y|)2 . 
24.5. Тождество параллелограмма 213

Пространство со скалярным произведением, полное относитель-


но нормы || · || = | · |, обычно называется гильбертовым.
Задача 1. Для двух векторов x, y ∈ Rn выполнено равенство ||x +
+ y||2 = ||x||2 + ||y||2 . Докажите, что x и y линейно зависимы. Верно
ли это в случае равенства ||x + y||p = ||x||p + ||y||p для нормы Гёльдера
при p = 2?
Задача 2. Для матриц A, B ∈ Rn×n квадрат суммы диагональных
элементов матрицы A B равен произведению сумм диагональных эле-
ментов матриц A A и B  B . Докажите, что A и B отличаются лишь
скалярным множителем.
Задача 3. Пусть V — линейное пространство вещественных
непрерывных на [0, 1] функций. Докажите, что выражение (f , g) =
1
= f (t)g(t)dt задает скалярное произведение, но получаемое при этом
0
евклидово пространство V не является гильбертовым.

24.5. Тождество параллелограмма


Итак, любое пространство со скалярным произведением об-
ладает специальной нормой, порожденной скалярным произведе-
нием. Зададим вопрос: какие нормы на V могут порождаться
каким-либо скалярным произведением?
Ответ связан со следующим тождеством параллелограмма:
||x + y||2 + ||x − y||2 = 2(||x||2 + ||y||2 ) ∀ x, y ∈ V.
Легко проверить, что длина вектора ||x|| = |x| (т. е. норма, по-
рожденная скалярным произведением) удовлетворяет данному
тождеству. Но верно и обратное.
Теорема. Норма || · || порождается каким-то скалярным про-
изведением в том и только том случае, когда для нее выпол-
няется тождество параллограмма.
Доказательство. Пусть V — пространство со скалярным про-
изведением. Запишем (x, y) = a + ib, где a, b ∈ R. Тогда если
||x|| = |x|, то
||x+y||2 = (x, x)+(x, y)+(y , z)+(y , y) = ||x||2 +||y||2 +2a,
||x + iy||2 = (x, x)+i(y , x)−i(x, y)+(y , y) = ||x||2 +||iy||2 +2b.
Отсюда a = f (x, y) и b = g(x, y), где
1
f (x, y) = (||x + y||2 − ||x||2 − ||y||2 ),
2
1
g(x, y) = (||x + iy||2 − ||x||2 − ||iy||2 ).
2
214 Лекция 24

Теперь предположим, что V — нормированное пространство,


в котором норма удовлетворяет тождеству параллелограмма. Ес-
ли норма порождается скалярным произведением, то последнее
обязано иметь вид
(x, y) = f (x, y) + ig(x, y). (∗)
Рассмотрим (∗) как определение функции (x, y) и докажем, что
она обладает всеми свойствами скалярного произведения.
Легко видеть, что (x, x) = ||x||2 . Поэтому первая аксиома
очевидна. Так же легко проверяется, что (x, y) = (y , x): равенство
f (x, y) = f (y , x) очевидно, а равенство g(x, y) = −g(y , x) получа-
ется с помощью тождества параллелограмма.
Теперь докажем, что функция (x, y) линейна по первому
аргументу (третья и четвертая аксиомы). Для этого достаточ-
но доказать линейность по первому аргументу функции f (x, y)
(линейность g(x, y) по первому аргументу будет очевидным след-
ствием).
Докажем сначала, что f (x + y , z) = f (x, z) + f (y , z). Из опре-
деления f и тождества параллелограмма видно, что
1
f (x, z) = (||x + z||2 − ||x − z||2 ),
4
1
f (y , z) = (||y + z||2 − ||y − z||2 ).
4
Запишем
x + z = u + v, y+z =u−v ⇒
1 1
⇒ u = (x + y + 2z), v = (x − y).
2 2
В силу тождества параллелограмма для векторов u и v
1 1
||x + z||2 + ||y + z||2 = (||(x + y + z) + z||2 + ||x − y||2 .
2 2
Аналогично,
1 1
||x − z||2 + ||y − z||2 = (||(x + y − z) − z||2 + ||x − y||2 .
2 2
По тому же тождеству параллелограмма для x + y + z и z
1 1
(||(x + y + z) + z||2 = ||x + y + z||2 + ||z||2 − ||x + y||2 ,
2 2
1 1
(||(x + y − z) − z||2 = ||x + y − z||2 + ||z||2 − ||x + y||2 .
2 2
Отсюда
1
f (x, z) + f (y , z) = (||x + y + z||2 − ||x + y − z||2 ) = f (x + y , z).
4
24.6. Ортогональность векторов 215

Теперь докажем, что f (αx, y) = α f (x, y) для любого α ∈ R.


m
Пусть α = — рациональное число. Тогда, пользуясь уже дока-
n
занным свойством, находим
1 1 1 1
nf x, y =f (n x), y =f (x, y) ⇒ f x, y = f (x, y) ⇒
n n n n
m 1 1 m
⇒f x, y =f (m x, y =m f x, y = f (x, y).
n n n n
Произвольное вещественное α представим как предел последо-
вательности рациональных αk → α. Несложно убедиться в том,
что функция f (x, y) непрерывна по x. Поэтому в равенствах
f (αk x, y) = αk f (x, y) можно перейти к пределу при k → ∞.
Таким образом, мы доказали равенство (αx, y) = (αx, y) по-
ка только для вещественных α. Оно будет верно для любых
комплексных α, если мы установим, что (ix, y) = i(x, y). Это
вытекает непосредственно из определения (∗), вида функций
f (x, y) и g(x, y) и тождества параллелограмма. 
Задача 1. По определению ||f (x)||C[a,b] ≡ max |f (x)|. Докажите,
axb
что эта норма в пространстве C[a, b] функций, непрерывных на [a, b],
не порождается никаким скалярным произведением.
Задача 2. Найдите все p  1, при которых норма Гёльдера || · ||p
порождается некоторым скалярным произведением.

24.6. Ортогональность векторов


Скалярное произведение позволяет ввести общее понятие ор-
тогональности векторов: x и y называются ортогональными,
если (x, y) = 0. Обозначение: x⊥y .
Заметим, что в одном и том же пространстве скалярное про-
изведение можно ввести многими разными способами, и векторы,
ортогональные для какого-то скалярного произведения, могут
не быть ортогональными по отношению к другому скалярному
произведению.
В евклидовом пространстве можно ввести также общее поня-
тие угла ϕ = ϕ(x, y) между векторами x и y . По определению
(x, y)
cos ϕ = .
|x| |y|
Нужно заметить, что правая часть по модулю не больше 1 (в си-
лу неравенства Коши–Буняковского–Шварца). Для ортогональ-
ных векторов ϕ = π/2. По понятной причине данное определение
216 Лекция 24

угла не переносится на случай унитарных пространств. Но


понятие ортогональности работает, конечно, и там.
Теорема Пифагора. Если x⊥y , то |x + y|2 = |x|2 + |y|2 .
Доказательство. Пусть (x, y) = 0. Тогда (x + y , x + y) = (x, x) +
+ (x, y) + (y , x) + (y , y) = (x, x) + (y , y). 
Замечание. В евклидовом (но не в унитарном!) пространстве
теорему Пифагора можно обратить: если |x + y|2 = |x|2 + |y|2 , то
(x, y) = 0 — это очевидно, поскольку (x, y) + (y , x) = 2(x, y). Од-
нако последнее не верно для произвольных векторов в унитарном
пространстве.

24.7. Ортогональность множеств


Пусть V — пространство со скалярным произведением и L ⊂
⊂ V — произвольное непустое подмножество векторов. Вектор
x ∈ V называется ортогональным множеству L, если (x, y) = 0
для всех y ∈ L. Обозначение: x⊥L. По определению множе-
ства L и M ортогональны, если (x, y) = 0 для любых x ∈ L
и y ∈ M . Обозначение: L⊥M .
Множество M всех векторов из V , каждый из которых орто-
гонален заданному множеству L, называется его ортогональным
дополнением в пространстве V . Обозначение: M = L⊥ .
Утверждение. Для любого множества L его ортогональное
дополнение L⊥ является подпространством. При этом L ⊂
⊂ (L⊥ )⊥ .
Доказательство. Пусть x, y ∈ L⊥ . Тогда (x, z) = (y , z) =
= 0 ∀ z ∈ L ⇒ (αx + βy , z) = α(x, z) + β(y , z) = 0 ∀ z ∈ L
⇒ αx + βy ∈ L⊥ .
По определению множество (L⊥ )⊥ содержит все векторы,
ортогональные L⊥ , а значит и все векторы из множества L. 

24.8. Ортогональная сумма подпространств


Напомним, что суммой подпространств L1 , L2 , . . . , Lm на-
зывается множество L всех векторов вида x = x1 + x2 + . . . + xm ,
где xi ∈ Li для всех i. Элементарно проверяется, что L — под-
пространство. Обозначение: L = L1 + . . . + Lm .
Напомним также, что L называется прямой суммой, если
подпространства Li ненулевые и каждый вектор x ∈ L имеет
единственное разложение вида x = x1 + . . . + xm , где xi ∈ Li
(если x = x1 + . . . + xm и xi ∈ Li ∀ i, то непременно xi = xi ∀ i).
24.8. Ортогональная сумма подпространств 217

Сумма L = L1 + . . . + Lm ненулевых подпространств называ-


ется ортогональной суммой, если Li ⊥Lj при i = j . Обозначе-
ние: L = L1 ⊕ . . . ⊕ Lm .
Утверждение. Ортогональная сумма подпространств L =
= L1 ⊕ . . . ⊕ Lm является прямой суммой. Кроме того, если
xi ∈ Li , то
|x1 + . . . + xm |2 = |x1 |2 + . . . + |xm |2 . (∗)

Доказательство. Докажем сначала (∗). Учитывая, что (xi , xj ) =


= 0 при i = j , находим

m 
m 
m 
m
|x1 + . . . + xm | =
2
(xi , xj ) = (xi , xi ) = |xi |2 .
i=1 j=1 i=1 i=1
Далее, пусть x1 + . . . + xm = x1+ ... + xm , где xi , xi ∈ Li ∀ i .
Тогда
0 = |(x1 − x1 ) + . . . + (xm − xm )|2 =
= |x1 − x1 |2 + . . . + |xm − xm |2 ⇒ xi = xi ∀ i. 
Следствие 1. Конечная система ненулевых попарно ортого-
нальных векторов является линейно независимой.
Доказательство. Пусть векторы x1 , . . . , xm попарно ортого-
нальны и отличны от нуля. Тогда сумма линейных оболо-
чек L(x1 ), . . . , L(xm ) является ортогональной суммой и, если
α1 x1 + . . . + αm xm = 0, то согласно (∗)
0 = |α1 x1 + . . . + αm xm |2 =
= |α1 |2 |x1 |2 + . . . + |αm |2 |xm |2 ⇒ α1 = . . . = αm = 0. 
Следствие 2. Если ненулевые подпространства L1 , . . . , Lm ко-
нечномерны и попарно ортогональны, то
dim(L1 ⊕ . . . ⊕ Lm ) = dim L1 + . . . + dim Lm .

Достаточно вспомнить, что для прямой суммы конечномер-


ных подпространств Li базис получается объединением базисов
в подпространствах Li (см. лекцию 12).
Л е к ц и я 25

25.1. Матрица Грама


Пусть дана система векторов v1 , . . . , vn , и пусть
x = α1 v1 + . . . + αn vn , y = β1 v1 + . . . + βn vn .
Тогда прямое вычисление дает
 n
 n 
(x, y) = βj (vj , vi )αj = b∗ Ga, (∗)
j=1 i=1
где  
(v1 , v1 ) . . . (vn , v1 )
G = G(v1 , . . . , vn ) = ... ... ... ,
(v1 , vn ) . . . (vn , vn )
   
α1 β1
a = ... , b = ... .
αn βn
Матрица G из скалярных произведений системы векторов назы-
вается ее матрицей Грама. 1)
Теорема о матрице Грама. Система векторов v1 , . . . , vn линей-
но зависима тогда и только тогда, когда ее матрица Грама
является вырожденной.
Доказательство. Пусть x = α1 v1 + . . . + αn vn . Используя (∗)
при x = y , находим
(x, x) = a∗ Ga, a = [α1 , . . . , αn ] . (#)
Если G — вырожденная матрица, то существует столбец a = 0
такой, что Ga = 0 ⇒ x = 0 ⇒ система векторов v1 , . . . , vn
линейно зависима.
Обратно, если эта система линейно зависима, то x = 0 при
некотором a = 0. Легко видеть, что Ga = [(x, v1 ), . . . , (x, vn )] = 0
1)
Обратим внимание на то, что элемент в позиции i, j имеет вид (vj , vi ).
Часто матрицей Грама называют G (в вещественном случае, конечно, G =
= G).
25.2. Скалярное произведение в конечномерном пространстве 219

есть равная нулю нетривиальная линейная комбинация столбцов


матрицы G ⇒ столбцы G линейно зависимы ⇒ G вырож-
денная. 
Задача 1. В пространстве со скалярным произведением даны две
системы векторов: u1 , . . . , um и v1 , . . . , vm . При этом L⊥ ∩ M = {0},
где L и M — линейные оболочки векторов первой и второй системы.
Докажите, что хотя бы одна из этих систем линейно зависима в том
и только том случае, когда (m × m)-матрица A с элементами aij =
= (vj , ui ) вырожденная.

25.2. Скалярное произведение в конечномерном


пространстве
Пусть v1 , . . . , vn — базис в n-мерном пространстве V . Тогда
скалярное произведение векторов x = α1 v1 + . . . + αn vn и y =
= β1 v1 + . . . + βn vn имеет вид (∗), где G — матрица Грама, a =
= [α1 , . . . , αn ] , b = [β1 , . . . , βn ] .
Какими свойствами должна обладать матрица, чтобы являть-
ся матрицей Грама для линейно независимой системы?
Во-первых, любая матрица Грама обладает свойством G∗ = G.
Матрицы с таким свойством называются самосопряженными
или эрмитовыми. 1) В вещественном случае G∗ = G , а матрицы
со свойством G = G называются симметричными.
Во-вторых, согласно (#), a∗ Ga > 0 для всех a = 0, причем
если V — вещественное пространство, то a ∈ Rn , а если ком-
плексное, то a ∈ Cn . Любая матрица с таким свойством в случае
a ∈ Cn называется положительно определенной. Вещественная
матрица с тем же свойством, когда a ∈ Rn , называется веще-
ственной положительно определенной.
Итак, любая матрица Грама в случае унитарного простран-
ства является эрмитовой положительно определенной. Но верно
и обратное. Пусть G — произвольная эрмитова положительно
определенная матрица. Тогда легко проверяется, что функция
f (a, b) = b∗ Ga, a, b ∈ Cn , (!)
задает скалярное произведение на C и G является матрицей
n
Грама системы стандартных базисных векторов e1 , . . . , en (ei име-
ет 1 на i-м месте и 0 в остальных позициях). Таким образом,
формула (!) определяет общий вид скалярного произведения
в пространстве Cn .
1)
В честь французского математика Шарля Эрмита (1822–1901).
220 Лекция 25

Соответствия a ↔ x, b ↔ y (задающие изоморфизм V и Cn )


позволяют с помощью f (a, b) ввести скалярное произведение
и на V .
Задача 1. Может ли определитель матрицы Грама быть числом
отрицательным?
Задача 2. Пусть ρ(x) — произвольная непрерывная положитель-
ная функция при 0  x  1. Докажите, что (n × n)-матрица A с эле-
1
ментами aij = xi+j ρ(x)dx является невырожденной.
0

25.3. Перпендикуляр и проекция


Пусть V — пространство со скалярным произведением и L
— его подпространство размерности m. Мы уже знаем, что
для любого x ∈ V существует элемент наилучшего приближения
z0 ∈ L — такой, что |x − z0 |  |x − z| для всех z ∈ L. В дан-
ном специальном случае — для нормы, порожденной скалярным
произведением — имеет место единственность z0 и есть очень
простой способ его получения.
Исходим из того, что в L задан базис z1 , . . . , zm . Тогда
z0 = α1 z1 + . . . + αm zm .
Найдем коэффициенты α1 , . . . , αm из условия
x − z0 ⊥ L ⇔ (x − z0 , z1 ) = 0, . . . , (x − z0 , zm ) = 0 ⇔


⎪ α1 (z1 , z1 ) + . . . + αm (zm , z1 ) = (x, z1 ),
⎨α (z , z ) + . . . + α (z , z ) = (x, z ),
1 1 2 m m 2 2

⎪ ...............................

α1 (z1 , zm ) + . . . + αm (zm , zm ) = (x, zm ).
Очевидно, имеем систему линейных алгебраических уравнений,
для которой матрица коэффициентов совпадает с матрицей Грама
G = G(z1 , . . . , zm ) системы векторов z1 , . . . , zm . По теореме о
матрице Грама для линейно независимой системы она невырож-
денная ⇒ система относительно α1 , . . . αm имеет и притом
единственное решение ⇒ вектор z0 , подчиненный условию
x − z0 ⊥ L, существует и единствен.
Вектор h ≡ x − z0 в случае h ⊥ L, z0 ∈ L называется пер-
пендикуляром, опущенным из x на L, а z0 — ортогональной
проекцией вектора x на L.
25.3. Перпендикуляр и проекция 221

Теорема о перпендикуляре. Для любого вектора x и конеч-


номерного подпространства L существуют и единственны
перпендикуляр h ⊥ L и проекция z0 ∈ L такие, что x = z0 + h.
При этом

|h| = |x − z0 | < |x − z| ∀ z ∈ L, z = z0 .

Доказательство. Остается доказать лишь то, что z0 — одно-


значно определенный элемент наилучшего приближения на L
для вектора x. Пусть z — произвольный вектор из L. Тогда
x − z = (x − z0 ) + (z0 − z), где x − z0 ⊥ L и z0 − z ∈ L. Отсюда
вытекает, что x − z0 и z0 − z суть перпендикуляр и ортогональная
проекция на L для вектора x − z . По теореме Пифагора

|x−z|2 =|x−z0 |2 +|z0 −z|2 ⇒ |x−z0 | < |x−z| ∀ z = z0 . 

Следствие. Если L — конечномерное подпространство, то L =


= (L⊥ )⊥ .
Доказательство. Мы уже знаем, что L ⊂ (L⊥ )⊥ . Возьмем x ∈
∈ (L⊥ )⊥ и опустим из него перпендикуляр h на L. Согласно
определению ортогонального дополнения, h ∈ L⊥ . В то же время
h ⊥ L⊥ ⇒ (h, h) = 0 ⇒ h = 0. Значит, x ∈ L ⇒ (L⊥ )⊥ ⊂ L. 
Задача 1. Пусть L и M — подпространства в конечномерном про-
странстве V со скалярным произведением. Равносильны ли равенства
L⊥ ∩ M = {0} и L ∩ M ⊥ = {0}?
Задача 2. В n-мерном евклидовом пространстве векторы a1 , . . .
. . . , an+1 таковы, что (ai , aj ) < 0 при i = j . Докажите, что любые n из
них линейно независимы.
Задача 3. Докажите, что в n-мерном евклидовом пространстве
любая система из n + 2 векторов содержит пару векторов, для которых
скалярное произведение неотрицательно.
Задача 4. Пусть Pn — линейное пространство всех веществен-
ных многочленов степени не выше n со скалярным произведением
1
(f , g) = f (t)g(t)dt. Докажите, что расстояние от многочлена xn до
−1 √
подпространства Pn−1 не превосходит 2 /2n .
222 Лекция 25

25.4. Ортогональные системы


Система ненулевых векторов x1 , . . . , xn называется ортого-
нальной, если
(xi , xj ) = 0, i = j , (∗)

и ортонормированной, если, дополнительно, |x1 | = . . . = |xn | =


= 1. Таким образом, матрица Грама для ортогональной системы
является диагональной с положительными диагональными эле-
ментами, а для ортонормированной — единичной матрицей.
Рассмотрим пространство Cn с естественным скалярным про-
изведением и ортонормированную систему вектор-столбцов:
   
x11 x1n
x1 = . . . , . . . , xn = . . . ∈ Cn .
xn 1 xnn

Составим из них (n × n)-матрицу


 
x11 . . . x1n
X = [x1 , . . . , xn ] = . . . . . . . . .
xn1 . . . xnn

и заметим, что соотношения (∗) равносильны матричному равен-


ству
 
(x1 , x1 ) . . . (xn , x1 )
X ∗X = ... ... ... = I.
(x1 , xn ) . . . (xn , xn )

Матрица X ∈ Cn×n со свойством X ∗ X = I называется уни-


тарной. Таким образом, любая квадратная матрица с ортонор-
мированной системой столбцов является унитарной, а любая
унитарная матрица имеет ортонормированную систему столбцов.
Ясно также, что для унитарности матрицы необходимо и до-
статочно, чтобы она имела ортонормированную систему строк
(докажите!).
Вещественная унитарная матрица называется ортогональ-
ной. Ранее мы уже отмечали, что множество всех ортогональ-
ных матриц порядка n является группой относительно операции
умножения матриц. То же справедливо и по отношению к мно-
жеству всех унитарных матриц порядка n.
25.5. Процесс ортогонализации 223

25.5. Процесс ортогонализации


Из теоремы о перпендикуляре сразу же вытекает, что в лю-
бом конечномерном пространстве V существует ортонормирован-
ный базис.
В самом деле, возьмем в V произвольный базис v1 , . . . , vn
и предположим, что в линейной оболочке Ln−1 = L(v1 , . . . , vn−1 )
уже построен ортонормированный базис из векторов q1 , . . . , qn−1
(конечно, Ln−1 = L(q1 , . . . , qn−1 )). Пусть hn — перпендикуляр,
опущенный из вектора vn на Ln−1 . Ясно, что hn = 0 (иначе
vn ∈ Ln−1 ⇒ система v1 , . . . , vn линейно зависима). Положим
qn = hn /|hn |. Тогда система q1 , . . . , qn и будет искомым ортонор-
мированным базисом в V .
Заметим, что в построенном базисе для любого k = 1, . . . , n
первые k векторов q1 , . . . , qk образуют ортонормированный базис
в линейной оболочке Lk = L(v1 , . . . , vk ). Таким образом,
L(q1 , . . . , qk ) = L(v1 , . . . , vk ), k = 1, . . . , n.
Реальные вычисления начинаются с получения вектора q1 =
= v1 /|v1 |. Затем из вектора v2 опускается на L1 перпендикуляр
h2 и нормируется: q2 = h2 /|h2 |. И т. д. Опуская перпендикуляр
на Lk , разумно искать разложение соответствующей проекции не
по исходной системе v1 , . . . , vk , а по уже построенной ортонор-
мированной системе q1 , . . . , qk . Выгода очевидна: матрица Грама
для q1 , . . . , qk является единичной!
Данный алгоритм называется процессом ортогонализации
Грама–Шмидта. Вот его формальное описание:

k−1
hk = vk − (vk , qi ) qi , qk = hk /|hk |, k = 1, . . . , n.
i=1

Задача 1. В пространстве вещественных многочленов скалярное


произведение (f , g) определено произвольным образом, но так, что для
любых многочленов f (x) и g(x) выполняется равенство 1)

(xf (x), g(x)) = (f (x), xg(x)),

и пусть при применении процесса ортогонализации Грама–Шмидта


к системе многочленов 1, x, x2 , ..., xn получены многочлены

1)
Проверьте, что оно выполняется, например, если скалярное произведение
1
задано формулой (f , g) = f (x)g(x)dx. В этом случае полученные ортого-
−1
нальные многочлены называются многочленами Лежандра.
224 Лекция 25

L0 (x), L1 (x), ..., Ln (x). Докажите, что имеют место трехчленные


соотношения

Lk (x) = ak xLk−1 (x) + bk Lk−1 (x) + ck Lk−2 (x),

2  k  n, ak , bk , ck ∈ R.

25.6. Дополнение до ортогонального базиса


Пусть V — пространство размерности n со скалярным произ-
ведением.
Лемма о дополнении до ортогонального базиса. Любая орто-
гональная (ортонормированная) система векторов v1 , . . . , vk ∈
∈ V может быть достроена какими-либо векторами из V до
ортогонального (ортонормированного) базиса в V .
Доказательство. Дополним v1 , . . . , vk какими-нибудь векторами
до базиса в V , а затем к полученному базису применим процесс
ортогонализации. 
Следствие. Если Lk — подпространство размерности k , то
dim L⊥
k = n − k . При этом
V = L k ⊕ L⊥
k.

Доказательство. В V существует ортонормированный базис


q1 , . . . , qn такой, что Lk = L(q1 , . . . , qk ). При этом очевидно, что
любой вектор, ортогональный Lk , есть линейная комбинация
векторов qk+1 , . . . , qn . 

25.7. Биортогональные системы


Пусть V — линейное пространство со скалярным произведе-
нием (· , ·). Системы векторов u1 , . . . , um и v1 , . . . , vm называют-
ся биортогональными, если

1, i = j ,
(ui , vj ) =
0, i = j.
Говорят также, что каждая из систем является биортогональной
для другой системы.
Если ui и vj — векторы-столбцы из координат векторов ui
и vj в каком-либо фиксированном ортонормированном базисе, то
биортогональность равносильна матричному равенству
V ∗ U
 = I, U
 = [ m ], V = [
u1 , ..., u v1 , ..., 
vm ]. (∗)
25.8. QR-разложение матрицы 225

В случае dim L(u1 , ..., um ) = dim L(v1 , ..., vm ) = m отсюда ясно,


что V = (U
 −1 )∗ .

Утверждение 1. В случае биортогональности каждая из си-


стем u1 , . . . , um и v1 , . . . , vm является линейно независимой.

Доказательство. Пусть z ≡ α1 u1 + . . . + αm um = 0. Используя


биортогональность, находим: (z , vi ) = αi = 0. 

Утверждение 2. Пусть L, M ⊂ V — подпространства размер-


ности m такие, что L⊥ ∩ M = {0}. Тогда для любой линейно
независимой системы u1 , . . . , um ∈ L существует единствен-
ная биортогональная система v1 , . . . , vm ∈ M .
Доказательство. Фиксируем какой-либо ортонормированный
базис в пространстве L + M . Тогда задача сводится к нахож-
дению матрицы V из уравнения (∗). Пусть матрица Q  имеет
столбцы, составленные из коэффициентов разложений векторов
какого-либо базиса в M по данному фиксированному базису
в L + M . Тогда V = QZ
 для некоторой матрицы Z порядка m,
которая должна удовлетворять матричному уравнению
∗U
Z ∗Q  = I.

Столбцы квадратной матрицы Q ∗ U


 линейно независимы. В са-
мом деле, если Q∗U
 x = 0, то U
 x ∈ L⊥ ∩ M ⇒ U  x = 0. В силу

линейной независимости столбцов матрицы U , x = 0. Поэтому
матрица Q∗ U
 невырожденная ⇒ Z ∗ = (Q ∗U
 ) −1 . 

25.8. QR-разложение матрицы


Пусть A ∈ Cn×m имеет линейно независимые столбцы a1 , . . .
. . . , am ∈ Cn , и к ним применяется процесс ортогонализации
Грама–Шмидта с использованием естественного скалярного про-
изведения.. Пусть в результате получаются ортонормированные
векторы q1 , . . . , qm ∈ Cm .
Соотношения ak ∈ L(q1 , . . . , qk ) выполняются при k = 1, . . . , m
и означают, что для каких-то чисел rik имеют место равенства

k
ak = rik qi , k = 1, . . . , m,
i=1

8 Е. Е. Тыртышников
226 Лекция 25

или, в матричном виде,


⎡ ⎤
r11 r12 . . . r1m
⎢ r22 . . . r2m ⎥
A = QR, Q = [q1 , . . . , qm ], R=⎢

⎥.
. ... ⎦
..
0 rmm

Определение. Разложение A = QR, где Q имеет ортонормиро-


ванные столбцы, а R — верхняя треугольная матрица, называет-
ся QR-разложением матрицы A.
Таким образом, мы только что доказали, что для любой
прямоугольной матрицы с линейно независимыми столбцами
существует QR-разложение. В частности, оно существует для
любой невырожденной матрицы. В действительности справедли-
ва более общая
Теорема. Любая прямоугольная матрица, в которой число
строк не меньше числа столбцов, обладает QR-разложением
с верхней ступенчатой матрицей R.
Доказательство. Пусть ai1 — первый ненулевой столбец матри-
цы A, ai2 — первый столбец такой, что ai2 ∈ / L(ai1 ), ai3 — первый
столбец такой, что ai3 ∈
/ L(ai1 , ai2 ), и т. д. В итоге получаем в A
базисную систему столбцов

ai1 , . . . , air , i 1 < i2 < . . . < ir ,

обладающую такими свойствами:

aj = 0 при j < i1 ;
aj ∈ L(ai1 , . . . , ail ) при il < j < il+1 , l = 1, . . . , r − 1;
aj ∈ L(ai1 , . . . , air ) при ir < j.

Найдем QR-разложение:

[ai1 , . . . , air ] = [qi1 , . . . , qir ]Rr .

Систему столбцов qi1 , . . . , qir дополним до ортонормированно-


го базиса в n-мерном пространстве столбцов и из полученных
столбцов составим матрицу Q, сохранив первоначальные столб-
цы в позициях i1 , . . . , ir .
25.8. QR-разложение матрицы 227

Записав A = QR, видим, что в матрице R первые r элементов


il -го столбца те же, что в l-м столбце матрицы Rr . В то же время
j -й столбец при il < j < il+1 имеет нули в позициях ниже il -й.

Задача 1. Пусть A ∈ Cn×n имеет столбцы a1 , . . . , an ∈ C n . Дока-
жите неравенство
n

| det A|  ||aj ||2 .
j=1

Задача 2. Пусть A — матрица порядка n с элементами aij = ±


± 1. Докажите, что если | det A| = nn/2 (такие матрицы называются
матрицами Адамара) и n  3, то n делится на 4.

8*
Л е к ц и я 26

26.1. Линейные функционалы


Пусть V — линейное пространство над числовым полем P
и f (x) — функция от вектора x ∈ V с числовыми значениями.
Такие функции принято называть функционалами. Если выпол-
няется свойство линейности
f (αx + βy) = αf (x) + βf (y) ∀ α, β ∈ P , ∀ x, y ∈ V ,
то функция f называется линейным функционалом или линей-
ной формой.
Пусть теперь V — нормированное пространство 1). Линейный
функционал называется ограниченным, если для некоторой кон-
станты c > 0
|f (x)|  c||x||V ∀ x ∈ V. (∗)
Утверждение 1. Для ограниченности линейного функционала
необходима и достаточна его непрерывность.
Доказательство. Если выполняется (∗), то из сходимости ||xk −
− x||V → 0 при k → ∞ следует, что |f (xk ) − f (x)| = |f (xk − x)| 
 c||xk − x||V → 0.
Если линейный функционал f (x) непрерывен, то покажем,
что он ограничен на единичной сфере S = {x : ||x||V = 1}. Если
это не так, то для некоторой последовательности векторов xk ∈ S
имеем: |f (xk )| → ∞.
Отсюда ||xk /|f (xk )| ||V → 0 ⇒ xk /|f (xk )| → 0. В силу
непрерывности f (xk /|f (xk )|) → f (0) = 0, что невозможно, так
как |f (xk /|f (xk )|)| = |f (xk )|/|f (xk )| = 1.
Итак, |f (x)|  c для всех x таких, что ||x||V = 1. Следова-
тельно,
|f (x/||x||V )|  c ⇒ |f (x)|  c||x||V ∀ x ∈ V. 

1)
Значит, P = C или P = R.
26.2. Сопряженное пространство 229

Замечание. Для линейного функционала непрерывность


в какой-то одной точке равносильна непрерывности во всех
точках пространства.
Утверждение 2. Если V конечномерно, то любой линейный
функционал на V является ограниченным.
Доказательство. Пусть v1 , . . . , vn — базис в V . Если x =
= x1 v1 + . . . + xn vn , то

n 
n
|f (x)|  |xi | |f (vi )|  c |xi |, c ≡ max |f (vi )|.
1in
i=1 i=1

В конечномерном пространстве из сходимости по норме вытекает


покоординатная сходимость. Поэтому если xk → 0 при k → ∞,
то xki → 0. Отсюда |f (xk )| → 0. Значит, функционал непрерывен
при x = 0. 
Задача 1. Линейный функцонал f определен на пространстве век-
торов вида Ax, где A ∈ Rm×n и x ∈ Rn . Докажите, что f (Ax) = y  Ax
для некоторого y ∈ Rm , не зависящего от x.

26.2. Сопряженное пространство


Операции сложения и умножения на число для линейных
функционалов определяются естественным образом.
Пусть f (x) и g(x) — линейные функционалы на V . Тогда их
суммой называется функция h = f + g : V → C, определенная
правилом h(x) ≡ f (x) + g(x). Для α ∈ C функция h = αf : V → C
определяется правилом h(x) ≡ αf (x).
Элементарно проверяется, что f + g и αf остаются линейны-
ми функционалами. Таким образом, множество всех линейных
функционалов на V превращается в линейное пространство.
Особый интерес представляет множество всех ограниченных
линейных функционалов. Оно тоже является линейным про-
странством, поскольку сложение и умножение на число непре-
рывных функций сохраняют свойство непрерывности.
Линейное пространство всех ограниченных линейных функ-
ционалов на V называется сопряженным пространством для V .
Обозначение: V ∗ .
Нормой функционала f ∈ V ∗ называется величина
||f || = sup |f (x)|.
||x||V =1
230 Лекция 26

Конечность ||f || вытекает из ограниченности f . Свойства вектор-


ной нормы проверяются очевидным образом.
Задача 1. Пусть ϕ — линейный функционал на сопряженном
пространстве V ∗ для конечномерного пространства V . Докажите, что
ϕ(f ) = f (x0 ), где x0 ∈ V — некоторый фиксированный вектор, завися-
щий от ϕ и не зависящий от f ∈ V ∗ .

26.3. Примеры линейных функционалов


1) Пусть P — линейное пространство всех веществен-
ных многочленов на отрезке [−1, 1] с C -нормой
||p||C = sup |p(x)|. Пусть p (x) обозначает производную
−1x1
многочлена p(x) (ясно, что p ∈ P ). Функционал f : P → R,
заданный правилом
f (p) ≡ p (1), p ∈ P ,
является, очевидно, линейным, но не ограниченным: если
pn (x) = xn , то ||pn ||C = 1 и f (pn ) = n.
Задача 1. Докажите, что функционал f (p) = p (0) также не
будет ограниченным.
2) В том же пространстве P функционал f (p) = p(0) является
ограниченным линейным функционалом.
1
3) Функционал f (p) = p(x)dx является линейным и огра-
−1
ниченным на P .
4) Рассмотрим пространство Cn с любой нормой, и пусть даны
числа c1 , . . . , cn . Пусть x = [x1 , . . . , xn ] ∈ Cn и f (x) =
= c1 x1 + . . . + cn xn . Это ограниченный линейный функцио-
нал на Cn .

26.4. Размерность дополнительного пространства


Множество L = {x ∈ V : f (x) = 0} называется ядром или
нуль-пространством линейного функционала f : V → C. Обо-
значение: L = ker f . Легко видеть, что L — подпространство.
Если dim V = n и функционал не равен нулю тождественно,
то dim L = n − 1 (докажите!). Мы собираемся доказать, что
в бесконечномерном случае конечной (и равной 1) оказывается
размерность так называемого дополнительного подпространства.
Подпространство L в пространстве V называется дополни-
тельным для подпространства L, если разложение V = L + L
26.5. Линейные функционалы и гиперплоскости 231

является прямой суммой. Размерность дополнительного про-


странства называется коразмерностью подпространства L.
Если V конечномерно, то его базис можно получить объеди-
нением базисов в L и L . Поэтому dim L = dim V − dim L ⇒
коразмерность одна и та же для любого дополнительного про-
странства. То же верно и в бесконечномерном случае.
Скажем, что a ∼ b, если a − b ∈ L. Это отношение эквива-
лентности на V . Поэтому V разбивается на множество непересе-
кающихся классов эквивалентности.
Пусть классы [a] и [b] порождены векторами a и b. Естествен-
ные определения операций сложения и умножения на число,
[a] + [b] = [a + b], α[a] = [αa],
корректны, так как их результаты не зависят от выбора предста-
вителей в классах эквивалентности. Таким образом, множество
классов эквивалентности превращается в линейное простран-
ство над тем же полем, что и пространство V . Оно называется
фактор-пространством. Обозначение: V /L.
Утверждение. Любое дополнительное для L подпространство
изоморфно фактор-пространству V /L.
Доказательство. Для a ∈ L положим Φ(a) = [a]. Очевидно,
что отображение Φ : L → V /L сохраняет операции и Φ(L ) =
= V /L. Кроме того, если Φ(a) = Φ(b), то a ∼ b ⇒ a − b ∈
∈ L и одновременно a − b ∈ L ⇒ a − b = 0. Значит, Φ —
сохраняющее операции взаимно-однозначное отображение L на
V /L, другими словами — изоморфизм. 
Следствие. Для любых двух разложений в прямую сумму V =
= L + L = L + L размерности дополнительных пространств
L и L одинаковы.

26.5. Линейные функционалы и гиперплоскости


Пусть L = ker f . Если L = V , то функционал тождественно
равен нулю (и поэтому называется нулевым или тривиальным).
Пусть L = V . Тогда существует вектор x0 , для которого
f (x0 ) = 0. Для произвольного вектора x ∈ V находим
f (x − αx0 ) = 0 при α = f (x)/f (x0 ) ⇒ x = z + αx0 , z ∈ L.
Очевидно, что α однозначно определяется условием z ∈ L. По-
этому V есть прямая сумма подпространств L и L(x0 ). Таким
образом, ядро нетривиального линейного функционала имеет
коразмерность, равную 1.
232 Лекция 26

Теперь рассмотрим множество Mc = {x ∈ V : f (x) = c}. Ес-


ли f (x0 ) = c, то, очевидно, Mc = x0 + L. Таким образом, Mc
есть линейное многообразие с направляющим пространством L
коразмерности 1. В таких случаях линейное многообразие назы-
вается гиперплоскостью. Легко видеть, что отображение f (x) →
→ M (f ) = {x ∈ V : f (x) = 1} является взаимно-однозначным
соответствием между линейными функционалами и гиперплос-
костями.
Пусть dim V = n и e1 , . . . , en — базис в V . В данном случае
ясно, что любой линейный функционал имеет вид f (x1 e1 + . . .
. . . + xn en ) = c1 x1 + . . . + cn xn , где ci = f (ei ). Таким образом,
любая гиперплоскость в n-мерном пространстве имеет вид
c1 x1 + . . . + cn xn = c, (∗)
где x1 , . . . , xn — координаты разложения вектора по выбранному
базису.

26.6. Опорные гиперплоскости


Уравнение гиперплоскости (∗) в Rn удобно записывать в виде
(x, h) = c, где h = [c1 , . . . , cn ] .
Гиперплоскость, проходящая через точку x0 , задается уравнени-
ем (x, h) = (x0 , h). Под скалярным произведением здесь понима-
ется естественное скалярное произведение в Rn .
Пусть M ⊂ Rn — некоторое множество. Точка x0 ∈ M назы-
вается граничной для M , если в любой ее окрестности имеются
точки u ∈ M и v ∈ / M . Для определенности под окрестностью
точки можно понимать шар относительно 2-нормы (важно, что
метрика должна порождаться нормой, а все нормы на Rn экви-
валентны).
Гиперплоскость π : (x, h) = (x0 , h), проходящая через гра-
ничную точку x0 ∈ M , называется опорной гиперплоскостью
для M , если (x, h)  (x0 , h) ∀ x ∈ M .
Задача 1. Докажите, что множество всех внутренних точек
выпуклого множества в нормированном пространстве является выпук-
лым.
Задача 2. Докажите, что любая внутренняя точка замыкания
выпуклого множества S в конечномерном нормированном пространстве
принадлежит S . Верно ли это в случае произвольного множества S ?
Задача 3. Пусть M — выпуклое множество. Докажите, что гипер-
плоскость, проходящая через его граничную точку, является опорной
26.6. Опорные гиперплоскости 233

для M тогда и только тогда, когда она не содержит ни одной внутрен-


ней точки множества M .
Лемма о наилучшем приближении на выпуклом множе-
стве. Пусть M ⊂ Rn — замкнутое выпуклое множество. Тогда
для любой точки x ∈ / M существует единственная точка
z0 ∈ M такая, что
|x − z0 | = ρ ≡ inf |x − z|.
z∈M
При этом (x − z0 , z − z0 )  0 ∀ z ∈ M .
Доказательство. 1) Пусть |x − zk | → ρ, zk ∈ M . В си-
лу ограниченности длин |zk | найдется подпоследовательность
zkl → z0 ∈ M . Положим h = x − z0 . С помощью предельного
перехода получаем: |h| = ρ. Далее, если z ∈ M и v ≡ z − z0 ,
то, в силу выпуклости M , z0 + εv ∈ M для всех 0  ε  1.
Следовательно,
ρ2  |x − (z0 + εv)|2 = (h − εv , h − εv) = ρ2 − 2ε(h, v) + ε2 |v|2 ⇒
(h, v)  ε|v|2 /2 ∀ 0<ε1 ⇒ (h, v)  0.
Если |x − (z0 + v)| = ρ, то |v|2 = 2(h, v)  0 ⇒ v = 0. 
Теорема 1. Через любую граничную точку замкнутого вы-
пуклого множества M ⊂ Rn проходит хотя бы одна опорная
гиперплоскость для M .
Доказательство. Любая граничная точка x0 ∈ M есть пре-
дел некоторой последовательности внешних для M точек: xk →
→ x0 , xk ∈ / M . В силу леммы для каждой точки xk существует
элемент наилучшего приближения zk ∈ M : |xk − zk |  |xk − z|
и (xk − zk , z − zk )  0 ∀ z ∈ M . Отсюда (pk , z)  (pk , zk ),
где pk = hk /|hk |, hk = xk − zk . Из последовательности векторов
pk выберем подпоследовательность, сходящуюся к некоторому
вектору p; очевидно, что |p| = 1. Кроме того, |zk − x0 |  |zk −
− xk | + |xk − x0 |  2|xk − x0 | ⇒ zk → x0 . Поэтому для любой
точки z ∈ M выполняется неравенство (z , p)  (x0 , p). 
Теорема 2. Пусть L, M ⊂ R — выпуклые множества и при
n
этом множество внутренних точек для L не пусто 2) и не

1)
Другое доказательство, справедливое для замкнутых выпуклых мно-
жеств в произвольных (в том числе, бесконечномерных) гильбертовых про-
странствах (т. е. полных пространствах со скалярным произведением), фак-
тически содержится в доказательстве обобщения теоремы о перпендикуляре
в дополнении к лекции 25 (п. D25.2).
2)
Выпуклое множество, имеющее хотя бы одну внутреннюю точку, назы-
вается выпуклым телом.
234 Лекция 26

пересекается с M . Тогда существует гиперплоскость (x, h) =


= c такая, что

(u, h)  c  (v , h) ∀ u ∈ L, ∀ v ∈ M.

Доказательство. Пусть L0 — множество внутренних точек


для L. Легко проверить, что множество K = L0 − M = {z ∈
∈ Rn : z = u − v , u ∈ L, v ∈ M } выпукло и при этом 0 ∈/ K.
Отсюда можно заключить, что точка 0 не является внутренней
точкой для замыкания множества K . Если 0 является граничной
точкой для K , искомой является проходящая через 0 опорная
гиперплоскость для K . Если 0 является внешней точкой для
замыкания K , то нужная гиперплоскость строится с помощью
леммы о наилучшем приближении на выпуклом множестве. 
Замечание. Говорят, что выпуклые множества L и M разделя-
ются с помощью линейного функционала f (x), если f (x)  f (y)
для любых x ∈ L и y ∈ M . Теорема 2 утверждает, что функцио-
нал с таким свойством существует. В такой формулировке она
не использует скалярные произведения и остается верной без
предположения о конечномерности пространства. 1)
Задача 4. Дано замкнутое выпуклое множество M ⊂ Rn
и x0 ∈
/ M . Доказать, что существует гиперплоскость (x, h) = (x0 , h)
такая, что (x, h) < (x0 , h) ∀ x ∈ M .
Задача 5. Множество называется выпуклым конусом, если вме-
сте с любыми двумя точками x и y оно содержит все точки вида
αx + βy при произвольных α, β  0. Докажите, что любая опорная
гиперплоскость для выпуклого конуса проходит через 0.
Задача 6. В пространстве Rn с естественным скалярным про-
изведением (x, y) = y  x дано компактное выпуклое множество M
и для него построено множество K всех векторов y ∈ Rn таких, что
(x, y)  0 для всех x ∈ M . Докажите, что K — замкнутый выпуклый
конус. Докажите также, что для любой его опорной гиперплоскости
с нормальным вектором h проходящая через 0 прямая с направляющим
вектором h содержит точку из M .
Задача 7. В Rn с естественным скалярным произведением ком-
пактные выпуклые множества L и M таковы, что для всякого x ∈ M

1)
В этом случае доказательство требует особой техники, связанной с во-
просами продолжения линейных функционалов и теоремами Хана–Банаха.
26.6. Опорные гиперплоскости 235

с каким-то y = y(x) ∈ L выполняется неравенство (x, y)  0. Докажите,


что можно выбрать y0 ∈ L, для которого (x, y0 )  0 для всех x ∈ M .
Задача 8. Даны компактные выпуклые множества L ⊂ Rm , M ⊂
⊂ Rn и матрица A ∈ Rm×n . Доказать, что

max min y  Ax = min max y  Ax.


x∈M y∈L y∈L x∈M

Задача 9. Пусть a1 , . . . , am ∈ Rn . Докажите, что пересечение


полупространств
a 
1 x  c1 , . . . , am x  cm

пусто тогда и только тогда, когда для некоторых α1 , . . . , αm  0 вы-


полняются равенства

α1 a1 + . . . + αm am = 0, α1 c1 + . . . + αm cm = −1.
Л е к ц и я 27

27.1. Линейные операторы


Любую матрицу A ∈ Cm×n можно естественным образом рас-
сматривать как оператор, отображающий вектор x ∈ Cn в вектор
Ax ∈ Cm . Очевидно, что этот оператор обладает свойством ли-
нейности 1):
A(αx + βy) = αAx + βAy ∀ α, β ∈ C, ∀ x, y ∈ Cn .
Свойство линейности выполняется для многих очень важных
отображений в линейных пространствах, элементами которых
являются функции, объединенные каким-либо общим призна-
ком (непрерывность, дифференцируемость и т.п.). Прежде всего
нужно сказать об отображениях, связанных с дифференцирова-
нием и интегрированием функций. Таким образом, у нас есть
достаточно поводов к тому, чтобы изучить свойство линейности
с более общих позиций.
Определение. Пусть V и W — произвольные линейные про-
странства над одним и тем же полем P . Отображение A : V → W
со свойством
A(αx + βy) = αA(x) + βA(y) ∀ α, β ∈ P , ∀ x, y ∈ V
называется линейным оператором из V в W . В случае линей-
ных операторов аргумент принято писать без скобок: A(x) = Ax.

27.2. Непрерывность и ограниченность


Пусть V и W — нормированные пространства. Отображение
A : V → W называется непрерывным в точке x ∈ V , если для

1)
Это свойство можно также рассматривать как свойство сохранения опе-
раций при отображении одного линейного пространства в другое пространство
над тем же полем. Такие отображения называются гомоморфизмами.
27.3. Операторная норма 237

любой последовательности xk ∈ V такой, что xk → x при k → ∞,


последовательность образов A(xk ) сходится к A(x):
||xk − x||V → 0 ⇒ ||A(xk ) − A(x)||W → 0.
Отображение называется непрерывным на V , если оно непре-
рывно для всех x ∈ V .
Линейный оператор A : V → W называется ограниченным,
если для некоторой константы c > 0
||Ax||W  c||x||V ∀ x ∈ V.
Теорема. Для непрерывности линейного оператора необходи-
ма и достаточна его ограниченность.
Доказательство. Достаточность очевидна из неравенства
||Axk − Ax||W = ||A(xk − x)||W  c||xk − x||V .
Чтобы доказать необходимость, рассмотрим множество значений
нормы ||Ax||W на единичной сфере S = {x : ||x||V = 1}. Пред-
положим, что это множество не является ограниченным. Тогда
существует последовательность xk ∈ S такая, что ||Axk ||W → ∞.
Положим yk = xk /||Axk ||W и заметим, что
||yk ||V = 1/||Axk ||W → 0 ⇒ ||Ayk ||W → 0.
Последнее невозможно, так как ||Ayk ||W = 1 для всех k . Значит,
для какого-то c > 0
||Ax||W  c ∀ x ∈ S ⇒ ||Ax||W  c||x||V ∀ x ∈ V. 

27.3. Операторная норма


Утверждение 1. Множество L(V , W ) всех ограниченных ли-
нейных операторов из V в W является линейным простран-
ством (над общим для V и W полем).
Доказательство. Пусть ||Ax||W  c1 ||x||V , ||Bx||W  c2 ||x||V .
Тогда для любых чисел α и β
||(αA + βB)x||W  c||x||V , c = |α|c1 + |β|c2 . 

Утверждение 2. Величина
||A|| ≡ sup ||Ax||W , A ∈ L(V , W ), (∗)
||x||V =1
является нормой на линейном пространстве L(V , W ).
Доказательство. Очевидно, что величина ||A|| имеет конеч-
ное значение и, конечно, неотрицательна. Если ||A|| = 0, то
||Ax||W = 0 на единичной сфере ||x||V = 1. Отсюда ||Ax||W = 0
238 Лекция 27

∀ x ∈ V ⇒ Ax = 0 ∀ x ∈ V ⇒ A = 0. Положительная
однородность следует из равенства
||αAx||W = |α| ||Ax||W ,
а неравенство треугольника — из неравенства
||(αA + βB)x||W  |α| ||Ax||W + |β| ||Bx||W . 
Определение. Норма (∗) для операторов A ∈ L(V , W ) называ-
ется операторной нормой или нормой, подчиненной векторным
нормам || · ||V , || · ||W .

Утверждение 3. Если V — конечномерное пространство, то


любой линейный оператор A : V → W является ограниченным
и ||A|| = ||Ax0 ||W для некоторого (зависящего от A) вектора
x0 ∈ V с нормой ||x0 ||V = 1.

n
Доказательство. Пусть e1 , . . . , en — базис в V и x = αi ei .
i=1

n
Тогда ||x||(e) ≡ |αi | есть норма на V , эквивалентная любой
i=1
другой норме, в том числе и норме ||x||V . Поэтому для какого-то
c>0
||x||(e)  c||x||V ∀ x ∈ V.
Следовательно,

||Ax||W  |αi | max ||Aei ||W = ||x||(e) max ||Aei ||W 
1in 1in
i=1
 (c max ||Aei ||W ) ||x||V ∀ x ∈ V.
1in

Чтобы доказать существование x0 , достаточно учесть компакт-


ность единичной сферы в конечномерном пространстве, непре-
рывность на ней функции ||Ax||W и теорему Вейерштрасса. 
Если фиксировано 1  p  ∞ и в качестве нормы в про-
странстве Cn выбрана p-норма Гёльдера, то соответствующую
операторную норму матрицы A принято обозначать ||A||p .
Задача 1. Пусть A = [aij ] — матрица размеров m × n. Докажите,
что
n
 m

||A||∞ = max |aij |, ||A||1 = max |aij |.
1im 1jn
j=1 i=1

Задача 2. Пусть u, v ∈ Cn . Докажите, что ||uv  ||2 = ||u||2 ||v||2 .


27.5. Норма Фробениуса 239

27.4. Матричная норма


Пусть каждой комплексной матрице A поставлено в соответ-
ствие неотрицательное число f (A) таким образом, что:
1) f (A) является нормой на Cm×n для всех m, n;
2) f (AB)  f (A)f (B) для любых матриц A и B , допускающих
умножение.
В таких случаях f (A) называется матричной нормой.
Утверждение. Пусть для каждого n задана векторная норма
на Cn , и пусть для каждых m, n и каждой матрицы A ∈ Cm×n
норма ||A|| определена как операторная норма, порожденная
данными векторными нормами. Тогда ||A|| является матрич-
ной нормой.
Доказательство. Пусть ||x||∗ обозначает векторную норму для
x ∈ Cn при любом n. Для любых матриц A и B , допускающих
умножение, существует вектор x0 единичной нормы такой, что

||AB|| = ||ABx0 ||∗  ||A|| ||Bx0 ||∗ 


 ||A|| ||B|| ||x0||∗ = ||A|| ||B||. 

Задача 1. Может ли норма подматрицы быть больше нормы мат-


рицы?
Задача 2. Дана обратимая матрица A ∈ Cn×n , выбирается про-
извольная матрица X0 ∈ Cn×n и строится последовательность матриц
Xk+1 = 2Xk − Xk AXk , k = 0, 1, . . . Доказать, что если для некото-
рой матричной нормы ||I − AX0 || < 1, то Xk → A−1 при k → ∞.

27.5. Норма Фробениуса


Пусть A = [aij ] — матрица размеров m × n. Величина
.
/
/m  n
||A||F = 0 |aij |2
i=1 j=1

называется нормой Фробениуса или евклидовой нормой матри-


цы A.
Утверждение. Норма Фробениуса является матричной нор-
мой.
Доказательство. Для каждых m, n норма Фробениуса является
нормой на линейном пространстве Cm×n (как 2-норма на про-
240 Лекция 27

странстве Cmn , изоморфном Cm×n ). Пусть a1 , . . . , an — столбцы


матрицы A, а b 
1 , . . . , bn — строки матрицы B . Тогда
AB = a1 b 
1 + . . . + an bn .
Используя неравенство треугольника, легко проверяемые равен-
ства ||ai b
i ||F = ||ai ||F ||bi ||F и неравенство Коши–Буняковского–
Шварца, находим
n  n

||AB||F  ||ai bi ||F = ||ai ||F ||bi ||F 
i=1 i=1
 1/2  n 1/2

n 
 ||ai ||2F ||bi ||2F = ||A||F ||B||F . 
i=1 i=1
Замечание. Норма Фробениуса не может быть операторной нор-
мой на Cm×n ни при каком выборе векторных норм в простран-
ствах Cn и Cm : дело в том, что операторная норма единичной
матрицы должна быть равна 1.
Задача 1. Доказать, что при любом фиксированном c > 1 величи-
на
 
a a
||A|| = max{|a11 | + c|a12 |, |a22 | + c|a21 |}, A = a11 a12 ,
21 22

определяет в пространстве (2 × 2)-матриц норму с неравенством


||AB||  ||A||||B||, справедливым для любых (2 × 2)-матриц A и B .
Является ли она операторной нормой?

27.6. Сохранение норм


Линейный ограниченный оператор A : V → V со свойством
||Ax|| = ||x|| ∀ x ∈ V
называется изометрическим или сохраняющим норму. Сразу
же заметим, что сохранение какой-то одной нормы не означает
сохранение другой нормы.
Пусть в Cn задана какая-либо норма, а матрица A ∈ Cn×n
(как линейный оператор из Cn в Cn ) ее сохраняет. Такую матри-
цу будем называть изометрической относительно данной нормы.
Утверждение. Множество всех комплексных (n × n)-матриц,
изометрических относительно гёльдеровской 2-нормы, совпа-
дает с множеством унитарных матриц порядка n.
Доказательство. Очевидно, что 2-норма порождается есте-
ственным скалярным произведением в Cn . Из наших исследо-
27.7. Унитарно инвариантные нормы 241

ваний, связанных с тождеством параллелограмма, вытекает, что


сохранение длин влечет за собой сохранение скалярных произ-
ведений:
(Ax, Ay) = (x, y) ⇔ y ∗ (A∗ A)x = y ∗ x ∀ x, y ∈ Cn .
Отсюда y ∗ (A∗ A − I)x = 0 ∀ x, y ∈ Cn . Выбирая в качестве x и y
векторы стандартного базиса, приходим к выводу о том, что все
элементы матрицы A∗ A − I равны нулю. Таким образом, сохра-
нение 2-нормы равносильно условию A∗ A = I , определяющему
унитарную матрицу. 
Замечание. Множество матриц, сохраняющих p-норму в случае
p = 2, значительно беднее. Попробуйте доказать, что для всех
p = 2 оно одно и то же и совпадает с множеством матриц вида
DP , где D — диагональная унитарная матрица, а P — матрица
перестановки.

27.7. Унитарно инвариантные нормы


Матричная норма || · || называется унитарно инвариантной,
если ||P AQ|| = ||A|| для любой матрицы A и любых унитарных
матриц P и Q, допускающих умножение.
Утверждение 1. Норма Фробениуса является унитарно инва-
риантной.
Доказательство. Пусть Q — унитарная матрица и A = [a1 , . . .
. . . , an ]. Тогда
||Qaj ||2 = ||aj ||2 , j = 1, . . . , n.
Отсюда
 n n
||QA||F =
2
||Qaj ||2 =
2
||aj ||22 = ||A||2F . 
j=1 j=1
Заметим, что при изучении метода вращений (в связи с упро-
щением вида уравнений для поверхностей 2-го порядка) мы
уже использовали факт сохранения суммы квадратов элементов
вещественной матрицы при умножении ее слева и справа на
ортогональные матрицы.
Рассмотрим еще одну матричную норму — подчиненную
гёльдеровской 2-норме:
||A|| = sup ||Ax||2 .
||x||2 =1
Данная норма называется спектральной нормой матрицы
(смысл названия через некоторое время прояснится). Обозначе-
ние: ||A||2 .
242 Лекция 27

Утверждение 2. Спектральная норма матрицы является уни-


тарно инвариантной.
Доказательство. Пусть Q — унитарная матрица и A = [a1 , . . .
. . . , an ]. По определению
||A||2 = sup ||Ax||2 = sup ||(QA)x||2 = ||QA||2 .
||x||2 =1 ||x||2 =1
Кроме того,
||AQ||2 = sup ||(AQ)x||2 = sup ||(AQ)(Q∗ x)||2 =
||x||2 =1 ||Q∗ x||2 =1

= sup ||Ax||2 = ||A||2 . 


||x||2 =1

27.8. Сингулярное разложение матрицы


В 70-х годах XIX века независимо и почти одновременно
Бельтрами (1873) и Жордан (1874) открыли, что любую квадрат-
ную матрицу можно привести к диагональному виду с помощью
умножения слева и справа на унитарные матрицы. Различные
вопросы, связанные с данным открытием, в том числе его обоб-
щения, стали затем предметом целого ряда исследований. Не бу-
дет сильным преувеличением сказать, что данный факт оказал-
ся потрясающе полезным и одним из наиболее востребованных
в теории матриц и приложениях линейной алгебры.
В действительности то же верно и для прямоугольной мат-
рицы. С помощью умножения на унитарные матрицы она при-
водится к прямоугольной матрице тех же размеров, имеющей
всюду нули, кроме элементов с индексами i = j . Такие матрицы
будем называть диагональными прямоугольными матрицами.
Итак, речь идет о разложении вида
A = V ΣU ∗ , (∗)
где A — заданная (m × n)-матрица, U и V — унитарные матрицы
порядка m и n соответственно, а Σ — диагональная прямо-
угольная (m × n)-матрица, имеющая в позициях (1, 1), (2, 2), . . .
неотрицательные числа
σ1  σ2  . . .  σmin(m,n) .
Разложение (∗) называется сингулярным разложением матри-
цы A. Числа σi называются сингулярными числами матрицы A.
Теорема. Сингулярное разложение A = V ΣU ∗ существует
для любой комплексной прямоугольной матрицы A. Если A
27.8. Сингулярное разложение матрицы 243

вещественная, то матрицы U и V можно выбрать веще-


ственными.
Доказательство. Случай A = 0 тривиален, поэтому будем
считать, что A = 0. Положим σ1 = ||A||2 = sup ||Ax||2 /||x||2 .
x=0
В силу компактности единичной сферы в Cn , непрерывности
нормы и теоремы Вейершрасса, найдется вектор x1 такой, что
||Ax1 ||2 = ||A||2 и ||x1 ||2 = 1. Пусть y1 = Ax1 /||Ax1 ||2 . Таким
образом,
Ax1 = σ1 y1 , ||x1 ||2 = ||y1 ||2 . (#)
Дополним x1 и y1 до ортонормированных базисов и образуем
унитарные матрицы
U1 = [x1 , x2 , . . . , xn ], V1 = [y1 , y2 , . . . , ym ].
Согласно (#), матрица A1 ≡ V1∗ AU1 имеет в первом столбце
только один ненулевой элемент, равный σ1 :


∗ σ1 z ∗
A1 = V1 AU1 = .
0 A2
В силу унитарной инвариантности спектральной нормы, ||A1 || =
= σ1 . Поэтому
,
, ,
,
, σ1 , , ,
σ1 , ,  , A1 σ1 ,  σ12 + ||z||2 ⇒ σ12  σ12 + ||z||2 ⇒
, z , , z ,2 2 2
2


σ1 0
⇒ z = 0 ⇒ A1 = .
0 A2
Далее будем рассуждать по индукции. Если для A2 уже
имеется сингулярное разложение A2 = V2∗ Σ2 U2 , то сингулярное
разложение для A находится с легкостью. Для этого достаточно
взять


1 0 1 0
U = U1 0 U , V = V1 0 V ,
2 2

заметить, что матрицы U и V унитарные (как произведение уни-


тарных матриц), и убедиться в том, что выполняется равенство


∗ σ1 0
V AU = .
0 Σ2
Остается заметить, что индукция начинается с построения
сингулярного разложения для матриц, представляющих собой
один столбец либо одну строку.
244 Лекция 27

Пусть A = [a] ∈ Cm×1 — матрица-столбец. В этом случае най-


дем в Cm ортонормированный базис v1 , . . . , vm , начинающийся
с v1 = a/||a||2 . Тогда
A = V ΣU ∗ , V = [v1 , . . . , vm ],
Σ = [||a||2 , 0, . . . , 0] , U = [1] ∈ C1×1 .
Для матрицы-строки сингулярное разложение получается транс-
понированием. 
Следствие 1. Спектральная норма матрицы равна ее старше-
му сингулярному числу.
Следствие 2. Пусть матрица A обратима и σn — ее младшее
сингулярное число. Тогда ||A−1 ||2 = 1/σn .
Теперь ясно, что старшее сингулярное число матрицы и млад-
шее сингулярное число обратимой матрицы определены одно-
значно. То же верно для всего набора сингулярных чисел, но
это мы докажем позже. Сингулярное разложение и его важные
следствия заслуживают более обстоятельного обсуждения, к ко-
торому мы вернемся в лекции 35.

Задача 1. Доказать неравенство ||A||F  rankA ||A||2 .

Задача 2. Докажите, что max ||A||2 /||A||1 = n .
A∈Cn×n , A=0

Задача 3. Пусть A = [aij ] и D = [dij ] — комплексные матрицы


порядка n, при этом D — диагональная матрица с элементами dii = aii
при 1  i  n. Докажите, что если ||A||2 = ||D||2 , то нулевых элементов
в матрице A не меньше чем 2n − 2.
Задача 4. Пусть L — нижняя треугольная матрица с нижней
треугольной частью, взятой из матрицы A ∈ Cn×n . Докажите, что

||L||2  log2 2n ||A||2 .


Л е к ц и я 28

28.1. Матрица линейного оператора


Рассмотрим линейный оператор A : Vn → Vm , где Vn и Vm —
линейные пространства размерности n и m (над общим полем P ).
Фиксируем какой-нибудь базис e1 , . . . , en в Vn и какой-
нибудь базис f1 , . . . , fm в Vm . В силу линейности оператора A
A(x1 e1 + . . . + xn en ) = x1 (Ae1 ) + . . . + xn (Aen ). (1 )
Поэтому A полностью определяется своим действием на базис-
ных векторах e1 , . . . , en . Разложим образы базисных векторов по
базису пространства образов:
Aej = a1j f1 + . . . + amj fm , j = 1, . . . , n. (2)
Из (1) и (2) получаем
A(x1 e1 + . . . + xn en ) = (a11 x1 + . . . + a1n xn ) f1 + . . .
. . . + (am1 x1 + . . . + amn xn ) fm .
Следовательно,
A(x1 e1 + . . . + xn en ) = y1 f1 + . . . + ym fm ⇔
    
y1 a11 . . . a1n x1
⇔ ... = ... ... ... ... .
ym am1 . . . amn xn
Матрица, возникшая справа, называется матрицей линейного
оператора A в паре базисов {ej } и {fi }.
Таким образом, любая фиксированная пара базисов порожда-
ет три изоморфизма:
Vn ↔ P n , Vm ↔ P m , L(Vn , Vm ) ↔ P m×n ,
где L(Vn , Vm ) — линейное пространство всех линейных опе-
раторов, действующих из пространства Vn в пространство Vm ,
а P (m×n) — линейное пространство всех (m × n)-матриц с эле-
246 Лекция 28

ментами из поля P . Отсюда, в частности, видно, что размерность


пространства линейных операторов L(Vn , Vm ) равна mn.
П РИМЕР. Пусть D : V → W — оператор дифференцирования на
пространстве многочленов V = W степени 2 и ниже. Рассмотрим базис
e1 = 1 + t, e2 = 1 − t, e3 = t2 в V и базис f1 = 1, f2 = t, f3 = t2 в W .
Очевидно, что

D(1 + t) = 1, D(1 − t) = −1, D(t2 ) = 2t.

Поэтому в паре базисов e = {ei } и f = {fi } матрица линейного опера-


тора D имеет вид
 
1 −1 0
Aef = 0 0 2 .
0 0 0

Какой будет матрица того же оператора, если в W = V выбрать тот же


базис e1 , e2 , e3 ? Для этого нужно найти разложения образов векторов
e1 , e2 , e3 по тем же векторам e1 , e2 , e3 :

1 1
D(1 + t) = (1 + t) + (1 − t), ⎪
⎪  
2 2 ⎪
⎬ 1/2 −1/2 1
D(1 − t) = − (1 + t) − (1 − t), ⎪ ⇒ Aee =
1 1 1/2 −1/2 −1 .
2 2 ⎪
⎪ 0 0 0

D(t2 ) = (1 + t) − (1 − t)

28.2. Произведение линейных операторов


Произведение линейных операторов A : Vn → Vm и B : Vm →
→ Vk определяется как композиция отображений: BA — это
оператор из Vn в Vk , заданный правилом (BA)(x) = B(Ax). Эле-
ментарно проверяется, что произведение линейных операторов
является линейным оператором.
Пусть A — матрица линейного оператора A в паре базисов
{ej } и {fi }, а B — матрица линейного оператора в паре базисов
{fi } и {gl }. Тогда произведение матриц BA есть матрица
произведения операторов BA в паре базисов {ej } и {gl }.
Доказательство сводится к прямой проверке. Заметим, что
наш курс, собственно, начался с определения произведения мат-
риц и фактически с обсуждения композиции линейных отобра-
жений!
28.3. Переход к другим базисам 247

28.3. Переход к другим базисам


Пусть Aef — матрица линейного оператора A в паре базисов
e = {ej } и f = {fi }. Как найти матрицу Agh того же оператора
в другой паре базисов: g = {gj } и h = {hi }?
Рассмотрим равенства
A(x1 e1 + . . . + xn en ) = y1 f1 + . . . + ym fm ,
A(z1 g1 + . . . + zn gn ) = u1 h1 + . . . + um hm .
Согласно определению матриц Aef и Agh , находим
Aef x = y , Agh z = u,
       
x1 y1 z1 u1
x = ... , y = ... , z = ... , u = ... .
xn ym zn um
Далее запишем
gj = s1j e1 + . . . + snj en , 1  j  n,
hi = t1i f1 + . . . + tmi fm , 1  i  m,
и введем матрицы перехода
   
s11 . . . s1n t11 . . . t1m
S = ... ... ... , T = ... ... ... .
sn1 . . . snn tm1 . . . smm
Тогда x = Sz и y = T u. Следовательно, Aef (Sz) = T u ⇒
(T −1 Aef S)z = u ⇒
Agh = T −1 Aef S. (∗)
Напомним определение эквивалентных матриц: A и B назы-
ваются эквивалентными, если B = P AQ для каких-либо невы-
рожденных P и Q.
Утверждение 1. Матрицы эквивалентны в том и только том
случае, когда они являются матрицами одного и того же
линейного оператора в каких-то парах базисов.
Доказательство. Очевидно, что (∗) означает эквивалентность
матриц Agh и Aef . Если B = P AQ, то P и Q можно рассматри-
вать как матрицы перехода для разных пар базисов. 
Следствие. Для того чтобы матрицы одинаковых размеров
были матрицами одного и того же линейного оператора
в каких-то парах базисов, необходимо и достаточно, чтобы
они имели одинаковый ранг.
248 Лекция 28

Пусть A — матрица линейного оператора A в какой-то паре


базисов. Если r = rankA, то A эквивалентна матрице B = [bij ],
в которой b11 = . . . = brr = 1, а все остальные элементы равны 0.
Следовательно, имеется пара «канонических» базисов, в которой
A определяется матрицей B .
Таким образом, за счет выбора пары базисов матрица линей-
ного оператора может приобрести вид настолько простой, что мо-
жет оказаться почти бесполезной для изучения индивидуальных
свойств данного оператора. Поэтому изучение оператора, вообще
говоря, нельзя свести к изучению его матрицы.
Если Vn = Vm , то появляется возможность взять e = f .
Вследствие того что образы и прообразы рассматриваются в од-
ном и том же базисе, теперь в матрице оператора есть все, что
нужно для любого подробного его изучения. То же верно для
любой другой пары базисов f и g , если только f = g . В этом
случае, конечно, T = S ⇒
Agg = S −1 Aee S. (∗∗)

Матрицы A и B называются подобными, если B = S AS для1
какой-то невырожденной матрицы S . Очевидно, что справедливо
следующее утверждение.
Утверждение 2. Матрицы подобны в том и только том
случае, когда они являются матрицами одного и того же
линейного оператора в каких-то базисах при условии выбора
одинаковых базисов в общем пространстве образов и прооб-
разов.
Задача 1. Даны произвольные числа β1 , . . . , βn−1 . Доказать, что
любая двухдиагональная (n × n)-матрица A вида
⎡ ⎤
α1 1 0
⎢ α2 1 ⎥
⎢ ⎥
A=⎢ ⎢ . .. . .. ⎥

⎣ αn−1 1 ⎦
0 αn

подобна некоторой (n × n)-матрице B = [bij ], в которой b11 = β1 , . . .


. . . , bn−1 n−1 = βn−1 .

28.4. Преобразование подобия


Пусть A : Vn → Vn — линейный оператор в n-мерном про-
странстве Vn и A — его матрица при выборе одного и того
же базиса в пространстве образов и прообразов. В этом случае
28.5. Инвариантные подпространства 249

изучение оператора A полностью сводится к изучению его мат-


рицы A.
Естественно попытаться выбрать базис таким образом, чтобы
матрица A получила «наиболее простой» вид. Если оператор A
задан своей матрицей A в каком-то базисе, то выбор нового
базиса дает для того же оператора другую матрицу B , которая
будет подобна заданной матрице. Переход от A к подобной ей
матрице B = S −1 AS называется преобразованием подобия.
Возникает такой вопрос: к какому «наиболее простому» виду
можно привести заданную матрицу с помощью преобразования
подобия? Фактически мы сейчас начинаем не очень простой путь
к полному ответу на данный вопрос.

28.5. Инвариантные подпространства


Проблем нет, если n = 1. Кажется также, что проще изучать
оператор в пространстве малой размерности. Поэтому давайте
для начала поизучаем действие оператора A на подпространствах
малой размерности.
Пусть L — подпространство в Vn . Чтобы изучать A, исполь-
зуя только векторы из L, нужно потребовать, чтобы Ax ∈ L для
всех x ∈ L. Любое подпространство с таким свойством называ-
ется инвариантным относительно A.
Пусть v1 , . . . , vk — базис в подпространстве L. Тогда его
можно дополнить какими-то векторами vk+1 , . . . , vn до базиса
в Vn .
Утверждение. Пусть v1 , . . . , vn — базис в Vn и L = L(v1 , . . .
. . . , vk ). Тогда L инвариантно относительно линейного опе-
ратора A : Vn → Vn тогда и только тогда, когда матрица
оператора A в базисе v1 , . . . , vn имеет блочно-треугольный
вид:

A11 A12
A= , (∗)
0 A22
где A11 — подматрица порядка k .
Доказательство. При изоморфизме x = [x1 , . . . , xn ] ↔ x1 v1 + . . .
. . . + xn vn векторам из L соответствуют те и только те
столбцы x, для которых xk+1 = . . . = xn = 0. Если A имеет
вид (∗), то, очевидно, для y = [y1 , . . . , yn ] = Ax получаем:
yk+1 = . . . = yn = 0. Значит, L инвариантно относительно
умножения на матрицу A ⇒ L инвариантно относительно
оператора A.
250 Лекция 28

Пусть известно, что L инвариантно относительно умножения


на матрицу A = [aij ], и пусть y = Ax, где xk+1 = . . . = xn = 0.
Тогда yk+1 = . . . = yn = 0 ⇒ aij = 0 при 1  j  k , i  k + 1.
Задача 1. Найти все инвариантные подпространства оператора
дифференцирования в пространстве вещественных многочленов.

28.6. Ядро и образ линейного оператора


Множество ker A ≡ {x ∈ Vn : Ax = 0} называется ядром ли-
нейного оператора A, а множество im A ≡ {y ∈ Vn : y = Ax, x ∈
∈ Vn } — его образом. Размерность образа называется рангом
оператора A, а размерность ядра — его дефектом. Обозначение:
def A = dim ker A.
Утверждение 1. Ядро линейного оператора A : V → W яв-
ляется подпространством в V , а его образ — подпростран-
ством в W .
Доказательство. Пусть x, y ∈ ker A. Тогда A(αx + βy) = αAx +
+ βAy = α · 0 + β · 0 = 0 ⇒ αx + βy ∈ ker . Пусть x, y ∈ im A.
Тогда x = Au и y = Av для каких-то u, v ∈ V ⇒ αx + βy =
= A(αu + βv) ⇒ αx + βy ∈ im A. 
Теорема о размерности ядра и образа. Пусть V конечномер-
но. Тогда
dim ker A + dim im A = dim V.
Доказательство. Пусть dim ker A = k и v1 , . . . , vk — базис
в подпространстве ker A. Достроим его какими-либо векторами
vk+1 . . . , vn до базиса в V . Очевидно, что
im A = L(Avk+1 , . . . , Avn ).
Остается доказать, что векторы Avk+1 , . . . , Avn линейно незави-
симы.
Пусть αk+1 Avk+1 + . . . + αn Avn = 0 ⇒ A(αk+1 vk+1 + . . . +
+ αn vn ) = 0 ⇒ αk+1 vk+1 + . . . + αn vn ∈ ker A ⇒ αk+1 vk+1 + . . .
. . . + αn vn = β1 v1 + . . . + βk vk для каких-то чисел β1 , . . . , βk ⇒
αk+1 = . . . = αn = 0. 
Замечание. Данную теорему можно было бы и не доказывать,
поскольку она есть следствие уже известного нам факта: для
любой матрицы A сумма ее ранга и размерности ее ядра (линей-
ного пространства решений однородной системы Ax = 0) равна
числу ее столбцов. Мы знаем, что ранг совпадает с размерностью
линейной оболочки столбцов матрицы, а последняя, очевидно,
есть ее образ (как оператора умножения на данную матрицу).
28.7. Обратный оператор 251

Утверждение 2. Пусть линейный оператор A действует из V


в V . Тогда его ядро и образ инвариантны относительно A.
Доказательство. Инвариантность ядра очевидна, поскольку
любой его вектор отображается в 0.
Пусть x ∈ im A. Тогда x = Au ⇒ Ax = A(Au) ⇒
Ax ∈ im A. 
Задача 1. Для двух линейных операторов, действующих из V
в W , сумма ядер совпадает с V . Докажите, что образ суммы этих опе-
раторов равен сумме образов. Верно ли это в случае трех операторов?

28.7. Обратный оператор


Оператор A : V → W называется обратимым, если суще-
ствует оператор B : W → V такой, что A(B(y)) = y ∀ y ∈ W
и B(A(x)) = x ∀ x ∈ V . При этом B называется обратным
оператором для A.
Утверждение. Если линейный оператор обратим, то обрат-
ный оператор также является линейным.
Доказательство. Любые векторы y1 , y2 ∈ W можно представить
в виде y1 = Ax1 , y2 = Ax2 . Поэтому
B(αy1 + βy2 ) = B(αAy1 + βBy2 ) = B(A(αx1 + βx2 )) = αx1 + βx2 .
Остается учесть, что
x1 = By1 , x2 = By2 . 

Теорема. Пусть A : V → W — линейный оператор, а V и W —


конечномерные пространства одинаковой размерности. Опе-
ратор A является обратимым тогда и только тогда, когда
ker A = {0}.
Доказательство. Пусть dim V = dim W = n. Согласно теореме о
размерности ядра и образа, если dim ker A = 0, то dim im A = n.
Это означает, что для каждого вектора y ∈ W существует x ∈ V
такой, что Ax = y . Более того, такой вектор x единствен (ина-
че ядро содержало бы ненулевой вектор). Определим оператор
B : W → V правилом B(y) = x. Тогда A(B(y)) = y и B(A(x)) = x
⇒ B является обратным оператором для A.
Если же известно, что A — обратимый оператор, то его ядро
может быть только нулевым (если x1 = x2 и Ax1 = Ax2 , то это
противоречит обратимости оператора A). 
252 Лекция 28

Замечание. Если линейный оператор A : V → W обратим,


то непременно W = im A. В то же время условие W = im A
недостаточно для обратимости A.
Задача 1. Линейные операторы A и B таковы, что оператор A + B
обратимый. Докажите, что операторы P = (A + B)−1 A и Q = (A +
+ B)−1 B коммутируют.
Задача 2. Оператор A : Cn → Cn сохраняет скалярные произведе-
ния. Докажите, что A является обратимым оператором. Обязан ли он
быть линейным?
Задача 3. Линейный оператор A : Rn×n → Rn×n сохраняет опре-
делитель матрицы. Докажите, что любой такой оператор является
обратимым.

28.8. Ортогональные дополнения ядра и образа


Дадим еще одно доказательство теоремы о размерности ядра
и образа. Пусть A ∈ Cm×n . Если x ∈ ker A, то для любого y ∈ Cm
находим
0 = y ∗ Ax = (A∗ y)∗ x = (x, A∗ y) ⇒ x ⊥ im A∗ ⇒ ker A ⊂ (im A∗ )⊥ .
Пусть теперь x ∈ (im A∗ )⊥ . Тогда (x, A∗ y) = y ∗ Ax = 0 ∀ y ∈ Cm .
Взяв y = Ax, получаем: y ∗ Ax = (Ax)∗ (Ax) = |Ax|2 = 0 ⇒
Ax = 0 ⇒ x ∈ ker A ⇒ (im A∗ )⊥ ⊂ ker A.
Итак, ker A = (im A∗ )⊥ . Мы уже знаем, что размерность ор-
тогогонального дополнения к im A∗ равна
n − dim im A∗ = n − rankA = n − dim im A. 
Таким образом, нами обнаружено интересное общее свойство
ядра матрицы и образа сопряженной матрицы.

Теорема. Пусть A ∈ Cm×n . Тогда Cn и Cm представляются


ортогональными суммами вида
Cn = ker A ⊕ im A∗ , Cm = ker A∗ ⊕ im A.
Отметим два очевидных следствия. Они интересны прежде
всего тем, что в тех же формулировках переносятся на важные
классы операторных уравнений в гильбертовых пространствах
и помогают получать там факты о существовании и единствен-
ности решений.
Теорема Фредгольма. Для совместности системы Ax = b
необходимо и достаточно, чтобы правая часть b была орто-
28.8. Ортогональные дополнения ядра и образа 253

гональна всем решениям y однородной сопряженной системы


A∗ y = 0.
Альтернатива Фредгольма. Либо система Ax = b имеет един-
ственное решение для любой правой части b, либо однородная
сопряженная система A∗ y = 0 имеет ненулевое решение.
Задача 1. Пусть вещественная функция a(t, τ ) непрерывна при
0  t, τ  1, а V — пространство вещественных непрерывных на [0, 1]
1
функций со скалярным произведением (f , g) = f (t)g(t)dt. Докажите,
0
что каждый из операторов

1 1

A : f (t) → f (t) − a(t, τ )f (τ )dτ , A : f (τ ) → f (τ ) − f (t)a(t, τ )dt
0 0

является линейным и (Af , g) = (f , A g) для любых функций f , g ∈ V .


Докажите также, что ker A ⊥ im A .
Задача 2. Функция a(t, τ ) непрерывна и удовлетворяет неравен-
ству −1 < a(t, τ ) < 1 при 0  t, τ  1. Докажите, что интегральное
уравнение
1
x(t) − a(t, τ )x(τ )dτ = 0, 0  t  1,
0

имеет единственное решение в пространстве функций x(t) ∈ C[0, 1].


Л е к ц и я 29

29.1. Диагонализуемые матрицы


Матрицы, подобные диагональным матрицам, называют диа-
гонализуемыми или матрицами простой структуры.
Рассмотрим задачу о диагонализации (3 × 3)-матрицы:
  
a11 a12 a13 p11 p12 p13
AP = P Λ ⇔ a21 a12 a23 p21 p22 p23 =
a31 a32 a33 p31 p32 p33
  
p11 p12 p13 λ1
= p21 p22 p23 λ2 .
p31 p32 p33 λ3
Данное равенство эквивалентно трем равенствам:
    
a11 a12 a13 p1j p1j
a11 a12 a23 p2j = λj p2j , j = 1, 2, 3.
a31 a32 a33 p3j p3j
Предположим, что значение λj известно. Тогда элементы j -го
столбца матрицы P удовлетворяют однородной системе
    
a11 − λj a12 a13 p1j 0
a11 a12 − λj a23 p2j = 0 . (∗)
a31 a32 a33 − λj p3j 0
Данная система должна иметь нетривиальное решение ⇔
определитель матрицы коэффициентов равен нулю. Таким обра-
зом, λj удовлетворяет следующему уравнению относительно λ:
 
a11 − λ a12 a13
det a11 a12 − λ a23 = 0. (#)
a31 a32 a33 − λ
Это кубическое уравнение вида λ3 − s2 λ2 + s1 λ − s0 = 0, где, как
легко видеть,
s2 = a11 + a22 + a33 ,
29.2. Собственные значения и собственные векторы 255




a11 a12 a11 a13 a22 a23
s1 = det + det + det ,
a21 a22 a31 a33 a32 a33
 
a11 a12 a13
s0 = det a11 a12 a23 .
a31 a32 a33
Можно вспомнить, что вопросом о диагонализации матриц
порядка 3 мы занимались при изучении поверхностей второго
порядка — при поиске такой системы координат, в которой мат-
рица квадратичной части (вещественная симметричная матрица
порядка 3) становится диагональной. 1)

29.2. Собственные значения и собственные векторы


Пусть A — матрица порядка n и P — обратимая матрица со
столбцами p1 , . . . , pn . Легко видеть, что равенство AP = P Λ
эквивалентно системе равенств
Apj = λj pj , j = 1, . . . , n.
Эти равенства подводят нас к важным понятиям собственного
значения матрицы и собственного вектора.
Определение. Пусть A — матрица порядка n. Число λ ∈ C
и ненулевой столбец x ∈ Cn , связанные соотношением Ax = λx,
называются собственным значением и собственным вектором
матрицы A. Пара λ, x иногда называется собственной парой
матрицы A.

Теорема. Матрица A порядка n диагонализуема тогда


и только тогда, когда она обладает линейно независимой
системой n собственных векторов.
Доказательство. Пусть p1 , . . . , pn — линейно независимая
система собственных векторов матрицы A, соответствующих соб-
ственным значениям λ1 , . . . , λn :
Apj = λj pj , j = 1, . . . , n ⇔
⎡ ⎤
λ1
⇔ AP = P ⎣ ..
. ⎦ , P = [p1 , . . . , pn ].
λn
1)
В лекции 20 было доказано, что любая вещественная симметричная
матрица A ортогонально подобна диагональной матрице D — это означает,
что A = P DP −1 , где P — ортогональная матрица. Это же утверждение скоро
появится как следствие более общих результатов.
256 Лекция 29

Матрица P обратима — как матрица с линейно независимыми


столбцами. 


0 1
Пример недиагонализуемой матрицы: A = . Допустим,
0 0
что

−1



p11 p12 0 1 p11 p12 λ1 0
= ⇒
p21 p22 0 0 p21 p22 0 λ2





0 1 p11 p12 p p12 λ1 0
⇒ 0 0 p p = p11 p22 0 λ2
.
21 22 21

Отсюда


p21 p22 p11 λ1 p12 λ2
= .
0 0 p21 λ1 p22 λ2
Хотя бы одно из чисел λ1 , λ2 должно отличаться от нуля. Пусть
для определенности λ1 = 0 ⇒ p21 = 0 ⇒ p11 = 0. Получаем
противоречие, поскольку матрица с нулевым столбцом не может
быть обратимой. 

29.3. Собственные векторы для различных


собственных значений
Теорема. Собственные векторы, соответствующие попарно
различным собственным значениям матрицы, являются ли-
нейно независимыми.
Доказательство. Пусть x1 , . . . , xm — собственные векторы для
попарно различных собственных значений λ1 , . . . , λm матрицы
A. Пусть α1 x1 + . . . + αm xm = 0. Умножим обе части слева на
матрицу A:
α1 λ1 x1 + . . . + αm λm xm = 0.
Из данного равенства вычтем предыдущее, умноженное на λm :
α1 (λ1 − λm )x1 + . . . + αm−1 (λm−1 − λm )xm−1 = 0.
Отсюда ясно, что из линейной независимости векторов x1 , . . .
. . . , xm−1 вытекала бы линейная независимость векторов x1 , . . .
. . . , xm . Доказательство завершается применением индукции. 
Следствие. Если матрица порядка n имеет n различных соб-
ственных значений, то она диагонализуема.
29.4. Характеристическое уравнение 257

29.4. Характеристическое уравнение


Пусть λ — произвольное собственное значение матрицы A.
При фиксированном λ все соответствующие ему собственные
векторы x удовлетворяют однородной системе линейных алгеб-
раических уравнений
(A − λI)x = 0.
Число λ является собственным значением матрицы A ⇔
данная система имеет нетривиальное решение ⇔ det(A −
− λI) = 0.
Определение. Уравнение det(A − λI) = 0 относительно λ на-
зывается характеристическим уравнением матрицы A. Левая
часть этого уравнения есть многочлен степени n от λ, называе-
мый характеристическим многочленом матрицы A.
Утверждение. Характеристический многочлен f (λ) = det(A −
− λI) матрицы A имеет вид
f (λ) = (−1)n (λn − sn−1 λn−1 + sn−2 λn−2 − . . . + (−1)n s0 ),
где sk есть сумма всех миноров матрицы A порядка n − k ,
расположенных на пересечении столбцов и строк с одинако-
выми номерами.
Доказательство. Чтобы получить коэффициент sk , нужно среди
n! членов определителя

det(A − λI) = dσ
σ∈Sn

выбрать те и только те члены dσ , которые содержат произведение


ровно k диагональных членов вида aii − λ (они и только они
являются многочленами степени k от λ), в каждом из них выде-
лить слагаемое старшей степени вида (−λ)k cσ и просуммировать
полученные коэффициенты cσ . Очевидно, что сумма всех cσ , от-
вечающих k диагональным элементам в фиксированных позици-
ях i1 < . . . < ik , будет равна минору матрицы A, расположенному
на строках и столбцах, дополнительных к строкам и столбцам
с номерами i1 , . . . , ik . 
В частности, sn−1 = a11 + . . . + ann — величина, называемая
следом матрицы A. Обозначение: tr A. В силу формул Виета,
след равен сумме всех собственных значений с учетом кратно-
стей. Заметим также, что s0 = det A.
9 Е. Е. Тыртышников
258 Лекция 29

При n  4 собственные значения (как корни многочлена сте-


пени n  4) могут быть выражены в радикалах через коэффи-
циенты характеристического многочлена и, следовательно, через
элементы матрицы. При n  5 таких формул уже не существует
(знаменитый результат Абеля, Руффини и Галуа).

29.5. Алгебраическая кратность собственного


значения
Кратность собственного значения как корня характеристиче-
ского многочлена называется его алгебраической кратностью.
Из основной теоремы алгебры сразу же вытекает следующая
Теорема. Любая комплексная матрица A порядка n имеет n
комплексных собственных значений с учетом алгебраических
кратностей.

29.6. Характеристический многочлен и подобие


Теорема. Характеристические многочлены подобных матриц
совпадают.
Доказательство. Пусть B = P −1 AP , где P — обратимая мат-
рица. Тогда

det(B − λI) = det(P −1 AP − λP −1 P ) = det(P −1 (A − λI)P ) =


= det P −1 det P det(A − λI) = det(P −1 P ) det(A − λI) =
= det(A − λI). 
Следствие. Собственные значения и их алгебраические крат-
ности для подобных матриц совпадают.
Задача 1. Найти характеристический многочлен матрицы

 
0 1
.
A= .. .
1 0 n×n

Задача 2. Пусть A и B — квадратные матрицы одного и того же


порядка. Докажите, что AB и BA имеют одинаковые характеристиче-
ские многочлены.
29.7. Приведение к почти треугольной матрице 259

29.7. Приведение к почти треугольной матрице

Таким образом, при вычислении собственных значений мат-


рицы A можно использовать преобразования подобия для пере-
хода к матрице более простого вида, имеющей те же собственные
значения.
Например, от A можно перейти к подобной ей верхней по-
чти треугольной матрице. Так называется матрица H = [hij ],
в которой hij = 0 при i  j + 2. Такая матрица называется также
верхней хессенберговой.
Утверждение. Для произвольной матрицы A порядка n су-
ществует невырожденная матрица P такая, что матрица
B = P AP −1 является верхней почти треугольной. Матрицу P
можно выбрать в виде P = Pn−2 . . . P1 , где Pk = Zk Πk — произ-
ведение матрицы перестановки Πk и матрицы модификации
строк Zk .
Доказательство. Если a21 = 0, то Π1 = I . Если a21 = 0, но
ai1 = 0 при i  3, то 2-ю и i-ю строки следует переставить —
с помощью умножения на соответствующую матрицу переста-
новки Π1 . В случае a21 = 0 с помощью матрицы модификации
строк Z1 исключаем все элементы первого столбца в позициях
(i, 1) при 3  i  n. Проиллюстрируем первый шаг для n = 4:
⎡ ⎤
1 0 0 0 ⎡ ⎤ ⎡ ⎤
⎢0 1 0 0⎥ a11 a12 a13 a14 b11 b12 b13 b14
⎢ −a31 ⎥ ⎢a21 a22 a23 a24 ⎥ ⎢b21 b22 b23 b24 ⎥
⎢0 1 0⎥
⎢ a21 ⎥ ⎣a31 a32 a33 a34 ⎦ ⎣ 0
=
b32 b33 b34 ⎦
,
⎣ −a ⎦
0 41
0 1 a41 a42 a43 a44 0 b42 b43 b44
a21

⎡ ⎤
⎡ ⎤ 1 0 0 0 ⎡ ⎤
b11 b12 b13 b14 c11 c12 c13 c14
⎢0 1 0 0⎥
⎢b21 b22 b23 b24 ⎥ ⎢ a31 ⎥ ⎢c21 c22 c23 c24 ⎥
⎣0 b34 ⎦ ⎢ 1 0⎥ = ⎣ 0 c34 ⎦
0 .
b32 b33 ⎣ a21 ⎦ c32 c33
0 b42 b43 b44 0 a41 0 1 0 c42 c43 c44
a21

Важно, что при умножении справа на P1−1 элементы первого


столбца не изменяются ⇒ нули, полученные там ранее,
сохранятся.
9*
260 Лекция 29

Второй шаг направлен на получение нулей во втором столбце.


Если c32 = 0, то исключение проводится таким образом:
⎡ ⎤
1 0 0 0 ⎡c ⎤ ⎡ ⎤
11 c12 c13 c14 d11 d12 d13 d14
⎢0 1 0 0⎥ ⎢c21 c22 c23 c24 ⎥ ⎢d21 d22 d23 d24 ⎥
⎢0 0 1 0⎥ ⎣
⎣ ⎦ 0 c32 c33 c34 ⎦ = ⎣ 0 d32 d33 d34 ⎦ ,
−c42
0 0 1 0 c42 c43 c44 0 0 d43 d44
c32
⎡ ⎤ ⎡1 0 0 0⎤ ⎡ ⎤
d11 d12 d13 d14 h11 h12 h13 h14
⎢d21 d22 d23 d24 ⎥ ⎢ 0 1 0 0⎥ ⎢h h h h ⎥
⎣ 0 d d d ⎦⎢ ⎣0 0 1 0⎥ ⎦ = ⎣ 021 h22 h23 h24 ⎦ .
32 33 34 c 32 33 34
0 0 d43 d44 0 0 42 1 0 0 h43 h44
c32
В случае n  5 точно так же на третьем шаге получаем нули
в позициях третьего столбца (i, 3) при i  5. И т. д. 
Задача. Пусть A — верхняя почти треугольная матрица порядка n
с ненулевыми поддиагональными элементами ai+1 i , 1  i  n − 1. До-
кажите, что если A диагонализуема, то она имеет n попарно различных
собственных значений.

29.8. Матрицы Фробениуса


Задача о вычислении собственных значений матрицы сводит-
ся к вычислению корней некоторого многочлена (характеристиче-
ского многочлена данной матрицы). Верно ли обратное? Можно
ли задачу о вычислении корней многочлена степени n свести
к вычислению собственных значений некоторой матрицы? Ответ
положительный. Пусть многочлен имеет вид
f (λ) = λn + an−1 λn−1 + . . . + a0 .
Тогда интересующая нас матрица может быть, в частности, та-
кой: ⎡ ⎤
0 0 0 . . . 0 −a0
⎢ 1 0 0 . . . 0 −a1 ⎥
⎢ ⎥
⎢ 0 1 0 . . . 0 −a2 ⎥
Af = ⎢ ⎥.
⎢ ... ... ... ... ... ... ⎥
⎣ 0 0 0 . . . 0 −an−2 ⎦
0 0 0 . . . 1 −an−1
Матрица Af называется матрицей Фробениуса или сопровож-
дающей матрицей многочлена f (x).
Утверждение. Характеристический многочлен матрицы Фро-
бениуса Af для многочлена f (λ) имеет вид
det(Af − λI) = (−1)n f (λ).
29.9. Вычисление характеристического многочлена 261

Доказательство. При вычислении определителя det(Af − λI)


прибавим к первой строке 2-ю строку, умноженную на λ, затем
3-ю строку, умноженную на λ2 , и т. д. Вот что получается при
n = 4:
⎡ ⎤
−λ 0 0 −a0
⎢ 1 −λ 0 −a1 ⎥
det ⎣ ⎦=
0 1 −λ −a2
0 0 1 −a3 − λ
⎡ ⎤
0 −λ2 0 −a0 − a1 λ
⎢ ⎥
= det ⎣ 1 −λ 0 −a1
⎦=
0 1 −λ −a2
0 0 1 −a3 − λ
⎡ ⎤
0 0 −λ3 −a0 − a1 λ − a2 λ2
⎢ ⎥
= det ⎣ 1 −λ 0 −a1
⎦=
0 1 −λ −a2
0 0 1 −a3 − λ
⎡ ⎤
0 0 0 −a0 − a1 λ − a2 λ2 − a3 λ3 − λ4
⎢ 1 −λ 0 −a1 ⎥
= det ⎣ ⎦=
0 1 −λ −a2
0 0 1 −a3 − λ

= a0 + a1 λ + a2 λ2 + a3 λ3 + λ4 . 

29.9. Вычисление характеристического многочлена


Как мы знаем, с помощью элементарных преобразований лю-
бую квадратную матрицу можно привести к подобной ей верхней
почти треугольной матрице H . Поэтому достаточно научиться
вычислять характеристический многочлен для H .
Для этого вложим верхнюю почти треугольную матрицу H −
− λI в верхнюю треугольную матрицу и рассмотрим следую-
щую систему линейных алгебраических уравнений (пусть для
простоты n = 4):
⎡ ⎤⎡ ⎤ ⎡ ⎤
1 h11 − λ h12 h13 h14 f1 (λ) 0
⎢0 h21 h22 − λ h23 h24 ⎥ ⎢f2 (λ)⎥ ⎢0⎥
⎢ ⎥⎢ ⎥ ⎢ ⎥
⎢0 0 h32 h33 − λ h34 ⎥ ⎢f3 (λ)⎥ = ⎢0⎥ .
⎣0 0 0 h43 h44 − λ⎦ ⎣f4 (λ)⎦ ⎣0⎦
0 0 0 0 1 f5 (λ) 1
262 Лекция 29

Предположим, что поддиагональные элементы матрицы H от-


личны от нуля. Тогда матрица коэффициентов данной системы
обратима ⇒ система имеет единственное решение, в котором,
очевидно, fk (λ) будет многочленом степени n + 1 − k от λ. Со-
гласно правилу Крамера,
(−1)n+1 det(H − λI)
f1 (λ) = .
h21 · . . . · hn n−1
В данном методе для вычисления всех коэффициентов характе-
ристического многочлена матрицы порядка n выполняется O(n3 )
арифметических операций (проверьте!).
Л е к ц и я 30

30.1. Одномерные инвариантные подпространства


Пусть L инвариантно относительно A и dim L = 1. Пусть
x ∈ L и x = 0. Инвариантность означает, что Ax = λx для
некоторого числа λ. В таких случаях λ и x = 0 называются
собственным значением и собственным вектором оператора A.
Если x — собственный вектор A, то линейная оболочка L(x)
будет инвариантным подпространством размерности 1: z ∈ L(x)
⇒ z = αx ⇒ Az = (αλ)x ∈ L(x).
В дальнейшем будем считать, что оператор A действует на
комплексном пространстве размерности n и задан своей мат-
рицей A ∈ Cn×n в произвольном фиксированном базисе. Таким
образом, можно говорить о подпространствах в Cn , инвари-
антных относительно умножения на матрицу A (или, короче,
относительно матрицы A). Сохраним обозначения L и x для
подпространства и столбца из Cn , имеющих смысл упомянутых
выше L и x. Мы уже знаем, что собственные знaчения λ мат-
рицы A и только они суть корни характеристического уравнения
det(A − λI) = 0. Из основной теоремы алгебры вытекает, что
матрица A (оператор A) имеет комплексное собственное значе-
ние. Отсюда получаем нужное нам
Утверждение. Любая матрица A ∈ Cn×n имеет инвариантное
подпространство размерности 1.
Задача 1. Матрица A порядка n имеет попарно различные соб-
ственные значения λ1 , . . . , λn . Найти собственные значения и соб-
ственные векторы линейного оператора X → A3 XA4 , X ∈ Cn×n .


B A
Задача 2. Матрица A = A∗ порядка n и ее окаймление B ∗ 0
с помощью (n × r)-матрицы B являются обратимыми матрицами. До-
кажите, что матрица

−1  
A 0 A B
Z= B∗ 0
0 B ∗ A −1 B
264 Лекция 30

имеет собственные значения 1 и (1 ± 5 )/2 алгебраической кратности
n − r и r соответственно.

30.2. Геометрическая кратность собственного


значения
Фиксируем собственное значение λ оператора A и рассмот-
рим множество L всех векторов x таких, что Ax = λx.
Утверждение. Множество L является подпространством, ин-
вариантным относительно A.
Доказательство. Пусть x, y ∈ L ⇒ Ax = λx, Ay = λy ⇒
A(αx + βy) = λ(αx + βy) ⇒ αx + βy ∈ L. Инвариантность L
очевидна: если x ∈ L, то Ax = λx ∈ L. 
Определение. Подпространство L называется собственным
подпространством, а его размерность — геометрической крат-
ностью собственного значения λ.

30.3. Матричное выражение инвариантности


Теорема. Пусть L ⊂ Cn инвариантно относительно A ∈ Cn×n
и dim L = k . Тогда существуют матрицы X ∈ Cn×k и B ∈ Ck×k
такие, что столбцы X образуют в L базис и выполняется
равенство AX = XB . Характеристический многочлен матри-
цы B является делителем характеристического многочлена
матрицы A.
Доказательство. Образуем X из базисных векторов x1 , . . . , xk
для L. Инвариантность означает, что Axj есть линейная комби-
нация векторов x1 , . . . , xk . Определим матрицу B таким образом,
что ее j -й столбец bj содержит коэффициенты данной линейной
комбинации. Тогда Axj = Xbj ⇒ AX = XB .
Дополним X какими-либо столбцами до невырожденной мат-
рицы X ∈ Cn×n . Тогда


 =X B C
AX 0 D
для каких-то блоков C и D . Отсюда
 −1 AX
det(A − λI) = det(X  − λI) =
= det(B − λIk ) det(D − λIn−k ). 
Следствие. Геометрическая кратность собственного значения
не выше его алгебраической кратности.
30.6. Треугольная форма матрицы 265

30.4. Сужение оператора на подпространство


Если подпространство L инвариантно относительно опера-
тора A, то можно определить линейный оператор B : L → L
правилом
Bx = Ax, x ∈ L.
Оператор A имеет более широкую область определения,
чем B . Но B действует на векторы из L так же, как A, — поэтому
его называют сужением оператора A на L. Говорят также, что
A индуцирует на L оператор B и называют B индуцированным
оператором.
Если A — матрица оператора A в каком-то базисе, под-
пространство L имеет базис x1 , . . . , xk и X = [x1 , . . . , xk ], то
равенство AX = XB означает, что матрица B является матрицей
сужения оператора A на L в базисе x1 , . . . , xk .

30.5. Инвариантные пространства и сдвиги


Утверждение. Матрицы A и A − λI имеют общие инвариант-
ные пространства для любого λ.
Доказательство. Пусть L инвариантно относительно A. Если
x ∈ L, то Ax ∈ L ⇒ Ax − λx ∈ L ⇒ L инвариантно
относительно A − λI . Заметим также, что A = B − λ I , где B =
= A − λI , λ = −λ. 

30.6. Треугольная форма матрицы

Лемма 1. Для любой матрицы A ∈ Cn×n cуществует


инвариантное пространство размерности n − 1.
Доказательство. Мы уже знаем, что образ im A является инва-
риантным пространством. Если его размерность равна n − 1, то
все доказано.
Если она равна k < n − 1, то im A заведомо принадле-
жит какому-то более широкому подпространству L размерности
n − 1, причем если x ∈ L, то Ax ∈ im A ⊂ L. Значит, L инвари-
антно относительно A. Если dim im A = n, то перейдем к матрице
B = A − λI , где λ — какое-то собственное значение матрицы A.
Ясно, что dim ker B  1 ⇒ dim im B  n − 1 ⇒ B имеет инва-
риантное пространство размерности n − 1. Оно же инвариантно
относительно A. 
266 Лекция 30

Лемма 2. Пусть L инвариантно относительно A ∈ Cn×n


и dim L = k > 1. Тогда в L имеется инвариантное относи-
тельно A подпространство размерности k − 1.
Доказательство. Согласно матричному выражению инвариант-
ности, AX = XB , где столбцы X образуют в L базис и B ∈ Ck×k .
По лемме 1 матрица B имеет инвариантное пространство раз-
мерности k − 1. Обозначим его через M и рассмотрим мно-
жество N векторов вида Xz , z ∈ M . Конечно, N ⊂ Cn есть
подпространство размерности k − 1. При этом A(Xz) = X(Bz) ⇒
N инвариантно относительно A. 
Следствие. Для любой матрицы A ∈ Cn×n существует цепоч-
ка вложенных подпространств
L1 ⊂ . . . ⊂ Ln = Cn ,
каждое из которых инвариантно относительно A и притом
dim Lk = k .
Теорема о верхней треугольной форме. Любая матрица A ∈
∈ Cn×n подобна верхней треугольной матрице.
Доказательство. Построим базис x1 , . . . , xn таким образом, что
Lk = L(x1 , . . . , xk ) (достаточно взять x1 ∈ L1 , дополнить его до
базиса в L2 вектором x2 и т. д.). Пусть X = [x1 , . . . , xn ]. Тогда
Axj есть линейная комбинация столбцов x1 , . . . , xj ⇒ Axj =
= Xbj для столбца bj с нулями в позициях ниже j -й. Таким
образом, матрица B = [b1 , . . . , bn ] — верхняя треугольная, и при
этом AX = XB ⇒ B = X −1 AX . 
Заметим, что если B = X −1 AX , то B и A имеют один и тот
же характеристический многочлен. Поэтому B и A имеют один
и тот же набор n собственных значений с учетом кратностей.
Если матрица B треугольная, то ее собственные значения суть
элементы главной диагонали.
Задача 1. Квадратные матрицы A и B порядка n имеют собствен-
ные значения λ1 , . . . , λn и μ1 , . . . , μn (с учетом кратностей). Найти
все собственные значения (с учетом кратностей) линейного оператора
X → AX + XB , X ∈ Cn×n .

30.7. Спектральный радиус


Множество собственных значений матрицы часто называется
также ее спектром. Наибольший модуль собственных значений
матрицы A называется ее спектральным радиусом. Обозначе-
ние: ρ(A).
30.7. Спектральный радиус 267

Утверждение. Для спектрального радиуса имеет место оцен-


ка ρ(A)  ||A||, где || · || — произвольная матричная норма.
Доказательство. Пусть Ax = λx, x = 0. Тогда ||λx|| = |λ|||x|| =
= ||Ax||  ||A||||x|| ⇒ |λ|  ||A||. 
Задача 1. Докажите, что спектральный радиус получается как
предел: ρ(A) = lim ||Ak ||1/k , где || · || — произвольная фиксированная
k→∞
матричная норма. (В силу теоремы о верхней треугольной форме до-
статочно рассмотреть случай верхней треугольной матрицы A.)
Задача 2. Докажите, что ρ(A) = inf ||X −1 AX||p , где точная ниж-
няя грань берется по всем обратимым матрицам X , а || · ||p — опера-
торная норма, порожденная p-нормой векторов.
Задача 3. Для элементов квадратных матриц A и B имеют место
неравенства 0  aij  bij , 1  i, j  n. Докажите, что ρ(A)  ρ(B).
Задача 4. Все элементы квадратной матрицы A неотрицательны,
а суммы элементов в каждой строке одинаковы и равны λ. Доказать,
что λ является наибольшим по модулю собственным значением матри-
цы A.
Замечание. В общем случае матрица может не иметь неотрица-
тельных собственных значений, поэтому ρ(A) не обязано быть соб-
ственным значением матрицы A. Однако для любой неотрицатель-
ной матрицы — матрицы, все элементы которой неотрицательны, —
известно, что спектральный радиус непременно является также ее
собственным значением, а в качестве отвечающего ему собственно-
го вектора можно выбрать вектор с неотрицательными элементами
(это основной результат теории неотрицательных матриц, известный
как теорема Перрона–Фробениуса). Возможная схема доказательства
в случае положительной матрицы — матрицы, все элементы которой
положительны,— например, такая: (1) минимальное значение нормы
||D−1 AD||∞ на множестве всех диагональных матриц D с положитель-
ной диагональю достигается на некоторой диагональной матрице D 
≡D
(почему?); (2) в матрице A  суммы модулей элементов в каж-
 −1 A D
дой строке одинаковы и, следовательно, равны ρ(A) (если имеются
строки с разными суммами, то можно найти диагональную матрицу
 ∞ < ||A||
D, для которой ||D−1 AD||  ∞ ); (3) вектор, составленный из

диагональных элементов D, является для A собственным вектором,
отвечающим собственному значению ρ(A).
268 Лекция 30

30.8. Теорема Шура


Пусть λ1 , . . . , λn — полный набор n собственных значений
матрицы A ∈ Cn×n с учетом кратностей. Пусть фиксируется
произвольная нумерация собственных значений.
Теорема Шура. Для любой матрицы A ∈ Cn с произвольной
предписанной нумерацией ее собственных значений λ1 , . . . , λn
существует унитарная матрица X ∈ Cn×n такая, что B =
= [bij ] = X ∗ AX есть верхняя треугольная матрица с диаго-
нальными элементами bii = λi , i = 1, . . . , n.
Доказательство. Пусть Ax1 = λ1 x1 , |x1 | = 1 (длина определя-
ется естественным скалярным произведением). Построим орто-
нормированный базис x1 , . . . , xn , начинающийся с вектора x1 ,
и пусть X = [x1 , . . . , xn ]. Легко проверить, что


λ1 u
AX = X , B ∈ C(n−1)×(n−1) , u ∈ Cn−1 .
0 B

Заметим, что det(A − λI) = (λ1 − λ)(λ2 − λ) · . . . · (λn − λ) =


= (λ1 − λ) det(B − λIn−1 ). Значит, B имеет собственные значе-
ния λ2 , . . . , λn .
Рассуждая по индукции, предположим, что Y ∗ BY = T , где
Y — унитарная матрица порядка n − 1, а T — верхняя тре-
угольная матрица порядка n − 1 с диагональными элементами
λ2 , . . . , λn . В итоге



 ∗ ∗  λ1 u Y  1 0
(Y X )A(X Y ) = , Y = 0 Y .
0 T

Из унитарности матрицы Y следует, что Y — унитарная матрица.


Матрица X Y унитарна как произведение унитарных матриц. 
Сформулированная выше теорема о треугольной форме
матрицы является, конечно, следствием теоремы Шура. При
этом в теореме Шура утверждается больше: треугольная форма
с предписанным порядком собственных значений на диагонали
достигается преобразованием подобия с помощью унитарной
матрицы.
Отметим конструктивный характер приведенного доказатель-
ства теоремы Шура. Как только найдены собственное значе-
ние λ1 и отвечающий ему собственный вектор x1 , задача опреде-
ления остальных собственных значений сводится к аналогичной
30.9. Делители и подпространства 269

задаче порядка n − 1. 1) Такого рода прием понижения размерно-


сти иногда называют дефляцией.
Задача 1. Докажите, что для любой комплексной матрицы A
порядка 3 существует унитарная матрица Q такая, что матрица
B = Q∗ AQ является трехдиагональной. (Матрица B называется трех-
диагональной, если bij = 0 при |i − j| > 1.) 2)

30.9. Делители и подпространства


Вследствие матричного выражения инвариантности любому
инвариантному подпространству матрицы A соответствует неко-
торый делитель ее характеристического многочлена, являющий-
ся характеристическим многочленом сужения A на данное под-
пространство. Из теоремы Шура легко вывести и обратное.
Теорема о делителях и подпространствах. Пусть A ∈ Cn×n
и f (λ) = det(A − λI) — характеристический многочлен. Пред-
положим, что f (λ) делится на многочлен p(λ) степени k .
Тогда A имеет инвариантное подпространство L размерно-
сти k такое, что p(λ) есть характеристический многочлен
сужения A на L.
Доказательство. Упорядочим корни многочлена f (λ) таким
образом, что первые k корней будут также корнями делителя
p(λ). Согласно теореме Шура, существуют X и B такие, что
в верхней треугольной матрице B первые k элементов главной
диагонали будут корнями p(λ). Пусть Xk — прямоугольная мат-
рица, содержащая первые k столбцов X , а Bk — левый верхний
блок порядка k в матрице B . Тогда AXk = Xk Bk и при этом
det(Bk − λI) = p(λ). 

1)
Ниоткуда, впрочем, не следует, что собственный вектор матрицы B
автоматически соответствует какому-то собственному вектору матрицы A.
2)
Недавно было доказано, что то же верно для любой комплексной матрицы
порядка 4 (V. Pati, 2001) и что существуют матрицы порядка 5, которые не
приводятся к трехдиагональному виду преобразованием подобия с помощью
унитарной матрицы.
Л е к ц и я 31

31.1. Многочлены от матрицы


Если f (λ) = a0 + a1 λ + . . . + am λm — многочлен от λ, то для
любой квадратной матрицы A имеет смысл выражение
f (A) ≡ a0 I + a1 A + . . . + am Am .
Оно называется многочленом от матрицы A. 1) Ясно, что
f (A) — квадратная матрица того же порядка, что и A.
Если f (A) = 0, то говорят, что многочлен f (λ) является
аннулирующим многочленом для A. Пусть A — матрица по-
2
рядка n. Тогда система матриц I , A, A2 , . . . , An будет линейно
зависимой (почему?) ⇒ для любой матрицы порядка n имеется
аннулирующий многочлен степени не выше n2 .
В действительности всегда имеется аннулирующий много-
член степени n (мы скоро докажем, что характеристический
многочлен для A является аннулирующим). Иногда можно найти
аннулирующие многочлены еще меньшей степени. Аннулирую-
щий многочлен минимальной степени называется минимальным
многочленом для A.
При поиске инвариантных подпространств многочлены от
матрицы A интересны тем, что ker f (A) и im f (A) всегда инва-
риантны относительно A (докажите!).

31.2. Корневые пространства


Предположим, что матрица A ∈ Cn×n имеет m попарно раз-
личных собственных значений λ1 , . . . , λm алгебраической крат-
ности k1 , . . . , km соответственно. Это означает, что

1)
Многочлен от матрицы A имеет скалярные коэффициенты. Термин мат-
ричный многочлен обычно используется для обозначения многочлена от λ,
коэффициенты которого являются матрицами.
31.2. Корневые пространства 271

f (λ) ≡ det(A − λI) = f1 (λ) . . . fm (λ),


fi (λ) = (λi − λ)ki , 1  i  m; λi = λj , i = j.
Подпространства Ki ≡ ker fi (A) = ker(A − λi I)ki называются
корневыми пространствами матрицы A.
Лемма 1. Корневое пространство Ki инвариантно относи-
тельно A и имеет размерность ki . Характеристический мно-
гочлен сужения A на Ki есть fi (λ) = (λi − λ)ki . Сужение A − αI
на Ki при α = λi является обратимым оператором.
Доказательство. Инвариантность: если fi (A)x = 0, то
fi (A)(Ax) = A(fi (A)x) = 0.
По теореме о верхней треугольной форме существует подоб-
ная A верхняя трегольная матрица B = X −1 AX с элементами
bjj = λi , 1  j  ki , bjj = λi , ki + 1  j  n. (∗)
Очевидно, что C ≡ B − λi I = X −1 (A − λi I)X ⇒ C ki = (B −
− λi I)ki = X −1 (A − λi I)ki X. Запишем C в блочном виде:


P Q
C= ,
0 R
где P и R — верхние треугольные матрицы порядка ki и n − ki .
При этом P имеет нулевую главную диагональ ⇒ P ki = 0
(проверяется непосредственно: в матрице P 2 к нулевой главной
диагонали добавляется еще одна диагональ, в P 3 — еще одна
и т. д.).
Следовательно,



ki P ki Q 0 Q 
C = = ,
0 Rki 0 Rki
где все диагональные элементы верхнего треугольного блока
Rki порядка n − ki отличны от нуля. Блок Q  — какой-то блок
размеров ki × (n − ki ). Независимо от его вида находим

rank C ki = n − ki ⇒ rank(A − λi I)ki =


= n − ki ⇒ dim ker(A − λi I)ki = ki .
Матрица сужения A на Ki представляет собой левый верхний
блок порядка ki в матрице B = X −1 AX . Согласно (∗) все эле-
менты его главной диагонали равны λi . Чтобы получить матрицу
сужения A − αI на Ki , нужно заменить диагональные элементы
на λi − α. При α = λi это будет невырожденная матрица. 
272 Лекция 31

Лемма 2. Если L инвариантно относительно A и сужение A


на L имеет своим характеристическим многочленом fi (λ), то
L = Ki .
Доказательство. Пусть M ∈ Cki ×ki — матрица сужения A на L
в каком-то базисе. Согласно теореме о верхней треугольной
форме, этот базис можно выбрать так, чтобы M была верх-
ней треугольной. Тогда M − λi I — верхняя треугольная мат-
рица с нулевой главной диагональю ⇒ (M − λi I)ki = 0
⇒ (A − λi I) x = 0 ∀ x ∈ L
ki ⇒ L ⊂ Ki . Поскольку
dim L = dim Ki , получаем L = Ki . 

31.3. Нильпотентные операторы


Оператор A : V → V называется нильпотентным, если
Ak = 0 для некоторого натурального k . Так же называется матри-
ца A, для которой Ak = 0. Минимальное значение k называется
индексом нильпотентности.
Утверждение. Матрица A порядка n нильпотентна тогда
и только тогда, когда ее характеристический многочлен име-
ет вид det(A − λI) = (−λ)n .
Доказательство. Пусть Ak = 0, Ax = λx, x = 0 ⇒ Ak x =
= λk x = 0 ⇒ λ = 0. Если A имеет собственное значение нуль
кратности n, то по теореме о верхней треугольной форме она
подобна верхней треугольной матрице B с нулями на главной
диагонали ⇒ B n = 0. 
Следствие. Сужение A − λi I на корневое пространство Ki
является нильпотентным оператором на Ki .
Задача 1. Доказать, что матрица A является нильпотентной тогда
и только тогда, когда trAk = 0 для всех натуральных k.
Задача 2. Для квадратных матриц A и B выполняется равенство
AB − BA = A1955 . Доказать, что матрица A нильпотентная.

31.4. Корневое разложение


Теорема о корневом разложении. Пусть матрица A ∈ Cn×n
имеет m попарно различных собственных значений алгебраи-
ческой кратности: k1 , . . . , km , а K1 , . . . , Km — отвечающие
им корневые пространства. Тогда Cn разлагается в прямую
сумму:
Cn = K1 + . . . + Km . (∗)
31.5. Блочно-диагональная форма матрицы 273

Доказательство. Докажем, что сумма K1 + . . . + Km является


прямой. Пусть
x1 + . . . + xm = 0, xi ∈ Ki , 1  i  m ⇒

(A − λ2 I)k2 · . . . · (A − λm I)km (x1 + . . . + xm ) =


= (A − λ2 I)k2 · . . . · (A − λm I)km x1 = 0.
Здесь мы используем то, что любые многочлены от матрицы A
коммутируют. В силу леммы 1 сужение каждой из матриц (A −
− λi I)ki , 2  i  m, на K1 является обратимым оператором ⇒
⇒ x1 = 0. Аналогично доказывается, что x2 = . . . = xm = 0.
Остается учесть, что
dim K1 + . . . + dim Km = n. 
Разложение (∗) иногда называется корневым разложением
матрицы A.
Пусть A рассматривается как матрица линейного опера-
тора A : Vn → Vn на комплексном n-мерном пространстве Vn .
Собственные значения λi и их алгебраические кратности ki не
зависят от выбора базиса для представления оператора A. Под
корневыми пространствами оператора A понимаются подпро-
странства ker(A − λi I)ki ⊂ Vn (здесь I — тождественный опера-
тор). Полученной нами теореме можно дать и операторную фор-
мулировку.
Операторная формулировка теоремы о корневом разложе-
нии. Cумма m корневых пространств оператора A является
прямой и совпадает с Vn :
Vn = ker(A − λ1 I)k1 + . . . + ker(A − λm I)km .

31.5. Блочно-диагональная форма матрицы


Согласно теореме о корневом разложении, базис в Cn можно
выбрать как объединение базисов в корневых пространствах Ki ,
1  i  m. Пусть этот базис представлен столбцами матрицы X .
Тогда, вследствие теоремы о корневом разложении,
⎡ ⎤
B1 0
X −1 AX = ⎣ ..
. ⎦.
0 Bm
274 Лекция 31

Порядок блока Bi равен алгебраической кратности собственного


значения λi .
Заметим, что в силу теоремы о верхней треугольной форме X
можно выбрать таким образом, чтобы каждый блок Bi был
верхней треугольной матрицей.
Задача 1. Пусть верхняя треугольная матрица порядка n =
A11 A12
= n1 + n2 имеет вид 0 A и при этом блоки A11 ∈ Cn1 ×n1
22
и A22 ∈ Cn2 ×n2 не имеют общих собственных значений. Докажите, что
существует матрица X ∈ Cn1 ×n2 такая, что
     
I X A11 A12 I X −1 A11 0
0 I 0 A22 0 I = 0 A22 .

31.6. Теорема Гамильтона–Кэли


Теорема Гамильтона–Кэли. Пусть A ∈ Cn×n — произвольная
матрица и f (λ) = det(A − λI) — ее характеристический мно-
гочлен. Тогда f (A) = 0.
Доказательство. Пусть имеется m попарно различных соб-
ственных значений λ1 , . . . , λm алгебраической кратности k1 , . . .
. . . , km . Тогда
f (A) = (−1)n (A − λ1 I)k1 · . . . · (A − λm I)km .
Любой вектор x ∈ Cn имеет вид
x = x1 + . . . + xm , где (A − λi I)ki xi = 0.
Остается заметить, что матрицы (A − λi I)ki и (A − λj I)kj ком-
мутируют. 
Замечание. При доказательстве теоремы Гамильтона–Кэли бы-
ли использованы каноническое разложение комплексного много-
члена (характеристического многочлена матрицы A) и связанный
с ним результат о расщеплении Cn в прямую сумму корневых
пространств матрицы A. Однако характеристический многочлен
имеет смысл для матрицы над любым полем, причем это будет
многочлен с коэффициентами именно из этого поля. В общем
случае, правда, он может не иметь ни одного корня в заданном
поле. Тем не менее теорема Гамильтона–Кэли остается справед-
ливой и в общем случае.
В случае произвольного поля можно предложить, например, такое
рассуждение. Обозначим через B(λ) матрицу, элементами которой
31.6. Теорема Гамильтона–Кэли 275

являются многочлены от λ, а в позиции i, j находится алгебраическое


дополнение к элементу в позиции j , i матрицы A − λI . Тогда

(A − λI)B(λ) = B(λ)(A − λI) = f (λ)I , f (λ) = det(A − λI). (∗)


Данные равенства представляют собой равенства некоторых матрич-
ных многочленов — многочленов от λ, в которых коэффициенты яв-
ляются матрицами общих размеров. Степенью матричного многочлена
F (λ) = Ak λk + Ak−1 λk−1 + ... + A0 , где Ak = 0, называется число k.
Как и раньше, будем писать: deg F = k. Нетрудно доказать, что суще-
ствует и единственно представление (деление с остатком)

F (λ) = (λI − A)Q(λ) + R(λ),

где либо R(λ) = 0, либо deg R  k − 1. Ясно также, что F (A) = R(A).
Остается заметить, что в силу (∗) матричный многочлен F (λ) = f (λ)I
делится нацело на λI − A, поэтому F (A) = 0 ⇒ f (A) = 0.
Л е к ц и я 32

32.1. Минимальное инвариантное подпространство


Попробуем сделать более специальный выбор базиса в кор-
невом пространстве Ki , позволяющий расщепить Ki в прямую
сумму инвариантных подпространств с максимально возможным
числом слагаемых.
Поскольку инвариантные подпространства не меняются при
сдвиге, их можно строить для B = A − λi I . Если A имеет попар-
но различные собственные значения λ1 , . . . , λm , то B получает
попарно различные собственные значения μ1 = λ1 − λi , . . . , μm =
= λm − λi с теми же алгебраическими кратностями. В част-
ности, B имеет собственное значение μi = 0 алгебраической
кратности ki .
Предположим, что L ⊂ Ki инвариантно относительно B , и
пусть x = 0, x ∈ L. Тогда L содержит все векторы вида x, Bx,
B 2 x, . . . Поскольку Ki = ker B ki , заключаем, что
B l x = 0 при l  ki .
Обозначим через k = k(x) наименьший номер такой, что B k x =
= 0. Будем называть k высотой вектора x в корневом простран-
стве Ki .

Лемма о минимальном инвариантном подпростран-


стве. Пусть x ∈ Ki — вектор высоты k . Тогда
Lk = L(x, Bx, . . . , B k−1 x) ⊂ Ki
является наименьшим инвариантным подпространством, со-
держащим x. При этом векторы x, Bx, . . . , B k−1 x линейно
независимы.
Доказательство. Инвариантность очевидна. Пусть
α1 x + α2 Bx + . . . + αk B k−1 x = 0. (#)
Умножив обе части этого равенства слева на B k− 1 , находим:
B k−1 Bx = B k−1 B 2 x = . . . = B k−1 B k−1 x = 0 ⇒ α1 B k−1 x = 0 ⇒
32.3. Жорданова форма матрицы 277

α1 = 0. Далее, умножив обе части (#) слева на B k−2 , находим


α2 = 0 и т. д. Таким образом, dim Lk = k . 

32.2. Жордановы цепочки


Занумеруем векторы x, Bx, . . . , B k−1 x в обратном порядке:
x1 = B k−1 x, x2 = B k−2 x, . . . , xk−1 = Bx, xk = x. Тогда
Bx1 = 0, Bxj = xj−1 , 2  j  k. (∗)
Система векторов x1 , . . . , xk , обладающих свойствами (∗), назы-
вается жордановой цепочкой длины k , начинающейся с век-
тора x1 . В силу определения B равенства (∗) эквивалентны
равенствам
Ax1 = λi x1 , Axj = λi xj + xj−1 , 2  j  k. (∗∗)
Пусть X = [x1 , . . . , xk ] и Jk — матрица порядка k , опреде-
ленная равенством
AX = XJk
(матрица сужения A на Lk в базисе x1 , . . . , xk ). В силу (∗∗)
⎡ ⎤
λi 1 0
⎢ λi 1 ⎥
⎢ ⎥
Jk = ⎢

. .
.. .. ⎥.

⎣ λi 1 ⎦
0 λi
Матрица вида Jk называется жордановой клеткой (жордановым
блоком, жордановым ящиком), отвечающей собственному значе-
нию λi .

32.3. Жорданова форма матрицы


Подпространство Lk , натянутое на жорданову цепочку векто-
ров вида (∗) или (∗∗), иногда называется циклическим подпро-
странством в Ki , отвечающим собственному значению λi . Наша
ближайшая цель — показать, что Ki можно представить в виде
прямой суммы циклических подпространств.
Тогда, объединив базисы циклических подпространств, полу-
чаем в Ki такой базис, в котором матрица сужения A на Ki
имеет блочно-диагональный вид, где каждый блок есть жор-
данова клетка. Выполнив то же самое для каждого корневого
пространства, в результате объединения базисов всех цикличе-
ских подпространств получаем так называемый жорданов базис:
278 Лекция 32

в нем матрица A получает свою жорданову форму — становится


блочно-диагональной матрицей, в которой каждый блок главной
диагонали является жордановой клеткой для какого-то ее соб-
ственного значения.
Матрица J блочно-диагонального вида с блоками J1 , . . . , JN
называется прямой суммой своих блоков J1 , . . . , JN . Обозначе-
ние: ⎡ ⎤
J1
J =⎣ ..
. ⎦ = J1 ⊕ . . . ⊕ JN .
JN
В этой терминологии жорданова форма представляет собой пря-
мую сумму жордановых клеток.

32.4. Индекс собственного значения


Очевидно, что ker B ⊂ ker B 2 ⊂ . . . и im B ⊃ im B 2 ⊃ . . . В ко-
нечномерном пространстве подпространства не могут расши-
ряться неограниченно, поэтому для некоторой степени ker B k =
= ker B k+1 . Минимальный номер k с таким свойством назы-
вается индексом собственного значения λi (напомним, что
B = A − λi I ).
Утверждение. Если ker B k = ker B k+1 , то ker B l = ker B l+1 при
всех l  k .
Доказательство. Пусть x ∈ ker B l+1 ⇒ B k+1 (B l−k x) = 0
⇒ B (B x) = 0 ⇒ x ∈ ker B .
k l−k l 
Следствие. Индекс не больше алгебраической кратности дан-
ного собственного значения.
Достаточно учесть, что k  dim ker B k и
ker B k = ker B k+1 = . . . = ker B ki .

Задача 1. Пусть B = A − λI , где λ — собственное значение матри-


цы A. Докажите, что ker B l = ker B l+1 тогда и только тогда, когда
im B l = im B l+1 . Докажите также, что если k — индекс λ, то ker B k ∩
∩ im B k = {0}.
Задача 2. Докажите, что если ker A ∩ im A = {0}, то ker A =
= ker A2 .
Задача 3. Докажите, что для диагонализуемости матрицы A
необходимо и достаточно, чтобы для любого числа λ ядро и образ
матрицы A − λI имели в пересечении лишь нулевой вектор.
32.5. Жорданов базис в корневом пространстве 279

32.5. Жорданов базис в корневом пространстве


Пусть k — индекс λi . Тогда s ≡ dim ker B k − dim ker B k−1 > 0.
Поэтому существуют s линейно независимых векторов x1 , . . .
. . . , xs , дополняющих какой-нибудь базис в ker B k−1 до базиса
в ker B k :
ker B k = ker B k−1 + L(x1 , . . . , xs ).
1) Векторы x1 , . . . , xs имеют высоту k и порождают цикли-
ческие подпространства
L1i = L(xi , Bxi , . . . , B k−1 xi ), 1  i  s.
2) Сумма L11 + . . . + L1s является прямой, поскольку векторы
x1 , Bx1 , . . . , B k−1 x1 , . . . , xs , Bxs , . . . , B k−1 xs
линейно независимы. В самом деле, пусть

s 
k
αij B j−1 xi = 0.
i=1 j=1

Умножив обе части слева на B k−1 , находим



s 
s
αi1 B k−1
xi = 0 ⇒ αi1 xi ∈ ker B k−1 ⇒ αi1 = 0, 1  i  s.
i=1 i=1

Умножив затем обе части слева на B k−2 , по той же причине


получим: αi2 = 0, 1  i  s, и т. д.
3) Сумма ker B k−2 + L(Bx1 , . . . , Bxs ) является прямой.
4) Если она не совпадает с ker B k−1 , то найдутся t линейно
независимых векторов y1 , . . . , yt таких, что
ker B k−1 = ker B k−2 + L(Bx1 , . . . , Bxs , y1 , . . . , yt ),
причем сумма является прямой.
5) Векторы y1 , . . . , yt имеют высоту k − 1 и порождают
циклические подпространства
L2i = L(yi , Byi , . . . , B k−2 yi ), 1  i  t.
6) Сумма L11 + . . . + L1s + L21 + . . . + L2t является прямой.
Доказательство аналогично доказательству предложения (2).
7) Сумма ker B k−3 + L(B 2 x1 , . . . , B 2 xs , By1 , . . . , Byt ) явля-
ется прямой.
280 Лекция 32

8) Если она не совпадает с ker B k−2 , действуем по аналогии


с шагом (4).
И т. д.
Для наглядности построенные векторы расположим в виде
следующей таблицы:
x1 ... xs
Bx1 . . . Bxs y1 ... yt
B 2 x1 . . . B 2 xs By1 . . . Byt
... ... ... ... ... ...
k− k− k− k−
B x1 . . . B xs B y1 . . . B 2 yt . . . z1 . . . zr
1 1 2

Векторы последней строки образуют базис в подпространстве


ker B . Это собственные векторы, отвечающие собственному зна-
чению λi . Подпространство ker B = ker(A − λi I) называется соб-
ственным подпространством для λi , а его размерность —
геометрической кратностью собственного значения λi . По по-
строению общее число векторов таблицы равно алгебраической
кратности λi .
Утверждение. Все векторы указанной таблицы линейно неза-
висимы и образуют базис в Ki .
Доказательство. Рассмотрим равную нулю линейную комбина-
цию всех векторов таблицы. Умножив ее слева на B k−1 , заметим,
что все векторы, кроме векторов первой строки, обращаются
в нуль. Остается лишь линейная комбинация векторов верхней
строки, которую матрица B k−1 переводит в нуль. Вывод: линей-
ная комбинация векторов верхней строки принадлежит ker B k−1 .
Значит, коэффициенты при векторах верхней строки равны нулю.
С помощью умножения на B k−2 находим, что линейная ком-
бинация векторов второй сверху строки принадлежит ker B k−2 .
Поэтому соответствующие коэффициенты равны нулю. И так
далее. 
Векторы каждого столбца данной таблицы образуют базис
циклического подпространства. Соответствующие жордановы це-
почки получаются при нумерации их в каждом столбце снизу
вверх.

32.6. Существование и единственность жордановой


формы
Теорема. Любая матрица A ∈ Cn×n подобна прямой сумме
жордановых клеток
J = J 1 ⊕ . . . ⊕ JN ,
32.7. Инвариантные подпространства для вещественных матриц 281

где число и размеры жордановых клеток для каждого соб-


ственного значения определяются однозначно по матрице A.
Доказательство. Мы только что установили, что корневое про-
странство Ki есть прямая сумма циклических подпространств.
Каждый столбец полученной выше таблицы отвечает одной жор-
дановой клетке. Из этой же таблицы можно найти число жорда-
новых клеток заданного порядка.
Обозначим через mj число отвечающих λi жордановых кле-
ток порядка j . Заметим, в частности, что mk = s, mk−1 = t
и m1 = r. Размерность ядра матрицы часто называется ее дефек-
том и обозначается def ≡ dim ker. В общем случае
mk = def B k − def B k−1 ,
mk−1 + mk = def B k−1 − def B k−2 ,
.............................
m1 + . . . + mk−1 + mk = def B.
Отсюда находим (с учетом того, что def B 0 = 0)
mj = 2def B j − def B j−1 − def B j+1 , 1  j  k.
Следовательно, число и порядки жордановых клеток для λi опре-
деляются размерностями ядер ker(A − λi I)j , а значит и рангами
матриц (A − λi I)j . То же верно для жордановых клеток каждого
корневого пространства. 
Следствие. Матрицы подобны тогда и только тогда, когда
они имеют одинаковую жорданову форму с точностью до
перестановки жордановых клеток.
Задача 1. Всегда ли можно построить жорданов базис, содержа-
щий произвольно выбранные базисы в собственных подпространствах?
Задача 2. Пусть J — жорданова клетка порядка n с нулевым соб-
ственным значением. Докажите, что уравнение X 2 = J относительно
X ∈ Cn×n не имеет решений, если n  2.

32.7. Инвариантные подпространства для


вещественных матриц
Если матрица A порядка n вещественная, то можно по-
требовать, чтобы ее инвариантные подпространства выбирались
только в Rn . При данном ограничении может не найтись ни
одного инвариантного подпространства размерности 1 (приведите
пример!). Тем не менее справедливо
Утверждение. Матрица A ∈ Rn×n при n  2 имеет инвариант-
ное подпространство L ⊂ Rn размерности 2.
282 Лекция 32

Доказательство. Пусть λ = a + ib — собственное значение


с мнимой частью b = 0. Представим собственный вектор для λ
в виде x + iy , где x, y ∈ Rn . Тогда

A(x + iy) = (a + ib)(x + iy) ⇒ Ax = ax − by , Ay = bx + ay.

Отсюда получаем также, что A(x − iy) = (a − ib)(x − iy). Век-


торы x + iy и x − iy линейно независимы, так как отвечают
разным собственным значениям матрицы A. Заметим также,
что L(x + iy , x − iy) ⊂ L(x, y) ⇒ dim L(x, y) = 2 ⇒
векторы x и y линейно независимы как векторы из Cn ⇒
они линейно независимы и как векторы из Rn . Значит, в Rn
линейная оболочка векторов x и y является двумерным инва-
риантным подпространством относительно A. Если комплексных
собственных значений нет, то базис, очевидно, можно составить
из вещественных векторов. 

32.8. Вещественный аналог жордановой формы


Пусть A ∈ Rn×n имеет жорданову клетку J порядка k для
комплексного собственного значения λ = a + i b с мнимой частью
b = 0. Это означает существование жордановой цепочки

Av1 = λv1 , Avj = λvj + vj−1 , 2  j  k.

Представим каждый вектор vj в виде vj = xj + iyj , где xj , yj ∈


∈ Rn , и образуем «сопряженный» вектор v j = xj − iyj . Из соот-
ношений для vj получаем «сопряженную» жорданову цепочку

Av 1 = λv 1 , Av j = λv j + v j−1 , 2  j  k ,

отвечающую жордановой клетеке порядка k для сопря-


женного собственного значения λ = a − i b. Очевидно, что
L(v1 , v 1 , ..., vk , v k ) ⊂ L(x1 , y1 , ..., xk , yk ). Поэтому из линейной
независимости векторов v1 , v 1 , ..., vk , v k (базиса суммы двух
циклических подпространств — для λ и λ) вытекает линейная
независимость векторов x1 , y1 , ..., xk , yk — в том числе и как
векторов из Rn .
Непосредственно проверяется, что

A[x1 , y1 , x2 , y2 , . . . , xk , yk ] = [x1 , y1 , x2 , y2 , . . . , xk , yk ]M2k ,


32.9. Вычисление жордановой формы 283

где
⎡ ⎤
a b 1 0 0
⎢ −b a 0 1 ⎥
⎢ ⎥
⎢ a b 1 0 ⎥
⎢ −b a ⎥
⎢ 0 1 ⎥
⎢ .. .. ⎥
⎢ . . ⎥
M2k = ⎢⎢ . .
⎥ ∈ R(2k)×(2k) . (∗)

⎢ .. .. ⎥
⎢ ⎥
⎢ a b 1 0⎥
⎢ ⎥
⎢ −b a 0 1 ⎥
⎣ a b⎦
0 −b a
Таким образом, линейная оболочка L(x1 , y1 , . . . , xk , yk ) ⊂ Rn
является инвариантным подпространством размерности 2k , со-
ответствующим паре жордановых клеток порядка k для λ и λ.
Из сказанного вытекает
Теорема. Любая матрица A ∈ Rn×n с помощью веществен-
ного преобразования подобия приводится к прямой сумме
вещественных жордановых блоков и вещественных блоков
вида (∗).

32.9. Вычисление жордановой формы


ПРИМЕР 1. Выяснить диагонализуемость матрицы
⎡ ⎤
−1 1 1 1
⎢−1 1 1 1⎥
A = ⎣ 0 0 1 1⎦ .
0 0 1 1
В силу блочно диагонального вида заданной матрицы, ее

собственные значения
можно
искать по отдельности для блоков
−1 1 1 1
A1 = и A2 = . Матрица A имеет собственные зна-
−1 1 1 1
чения λ = 2 кратности 1 и λ = 0 кратности 3.
Собственный вектор для λ = 2 есть нетривиальное решение
системы (A − 2 · I)x = 0. Ранг матрицы коэффициентов равен 3,
поэтому фундаментальная система решений состоит из одного
вектора. Собственные векторы для λ = 0 — это нетривиальные
решения системы (A − 0 · I)x = 0. В данном случае ранг матрицы
коэффициентов равен 2, поэтому в фундаментальной системе
2 вектора ⇒ имеется система ровно из двух линейно незави-
симых собственных векторов для λ = 0. Таким образом, базиса
284 Лекция 32

из собственных векторов не существует, поэтому матрица A не


может быть подобна диагональной матрице.

ПРИМЕР 2. Найти жорданову форму и соответствующий жор-


данов базис для ⎡ ⎤
1 0 1 0
⎢0 1 0 1⎥
A = ⎣0 0 1 0⎦ .
0 0 0 1

Данная матрица имеет собственное значение λ = 1 кратно-


сти 4. Все пространство C4 является корневым для собствен-
ного значения λ = 1. С помощью сдвига перейдем к матрице
B = A − 1 · I и поинтересуемся ее степенями:
⎡ ⎤
0 0 1 0
⎢0 0 0 1⎥
B=⎣ B 2 = 0.
0 0 0 0⎦
,
0 0 0 0
Значит, имеются две жордановы клетки порядка 2.
Взяв x = [0, 0, 0, 1] и x = [0, 0, 1, 0] , получаем прямую сум-
му
ker B 2 = ker B + L(x, y).

Окончательно,
⎡ ⎤
0 1
⎢ 0 ⎥
J =⎣ 0 1⎦
, X = [Bx, x, By , y].
0
Обратим внимание на то, что жорданова форма J и матри-
ца X жорданова базиса должны соответствовать друг дру-
гу: AX = XJ . Это значит, что даже из правильно найденных
векторов имеется возможность составить неправильную матри-
цу X (за счет неверной их нумерации).

ПРИМЕР 3. Нильпотентная матрица J порядка n = 10 имеет


две жордановы клетки порядка 3 и две жордановы клетки поряд-
ка 2. Требуется вычислить жорданову форму матрицы A = J 2 .
Нильпотентность означает, что J имеет собственное значение
λ = 0 кратности 10. То же верно и для матрицы A = J 2 . Вычисля-
ем размерности ядер: dim ker A = 8, dim ker A2 = 10. Следова-
32.9. Вычисление жордановой формы 285

тельно, жорданова форма матрицы A состоит из m2 = 10 − 8 = 2


клеток порядка 2 и m1 = 2 · 8 − 10 = 6 клеток порядка 1.
Задача 1. Известно, что Ak+1 = A, k > 0. Докажите, что матри-
ца A диагонализуема.
Задача 2. Докажите, что матрица порядка n > 1 имеет конечное
число инвариантных подпространств в том и только том случае, когда
каждому собственному значению соответствует ровно одна жорданова
клетка.
Л е к ц и я 33

33.1. Нормальные матрицы


Основу матричной техники составляют преобразования и раз-
ложения матриц общего вида, получаемые при помощи специаль-
ных классов матриц.
Квадратная комплексная матрица A называется нормальной,
если A∗ A = AA∗ .
Теорема. Матрица A ∈ Cn×n является нормальной тогда
и только тогда, когда для некоторой унитарной матрицы
Q ∈ Cn×n матрица Q∗ AQ диагональная.
Доказательство. По теореме Шура, существует унитарная
матрица Q, приводящая A к верхнему треугольному виду
B = Q∗ AQ. Равенство A∗ A = AA∗ равносильно равенству B ∗ B =
= BB ∗ . Остается посмотреть, что оно означает в случае верхней
треугольной матрицы B :
⎡ ⎤⎡ ⎤
b11 b11 b12 . . . b1n
⎢b ⎥⎢ b22 . . . b2n ⎥
⎢ 12 b22 ⎥⎣
... ... ⎦
⎣ ... ... ... ⎦ =
b1n b2n . . . bnn bnn
⎡ ⎤⎡ ⎤
b11 b12 . . . b1n b11
⎢ b22 . . . b2n ⎥ ⎢
⎢ b12 b22

⎥.
=⎣ ⎦
... ... ⎣... ... ... ⎦
bnn b1n b2n . . . bnn
Приравнивая элементы в позиции (1, 1), получаем
|b11 |2 = |b11 |2 + |b12 |2 + . . . + |b1n |2 ⇒ b12 = . . . = b1n = 0.
Учитывая это, приравниваем элементы в позиции (2, 2):
|b22 |2 = |b22 |2 + |b23 |2 + . . . + |b2n |2 ⇒ b23 = . . . = b2n = 0.
И т. д. Вывод: верхняя треугольная матрица является нормальной
тогда и только тогда, когда она диагональная. Значит, равенство
33.2. Унитарные матрицы 287

A∗ A = AA∗ выполняется в том и только том случае, когда B —


диагональная матрица. 
Следствие. Матрица является нормальной в том и только
том случае, когда она обладает ортонормированным базисом
из собственных векторов.
Пусть Λ = Q∗ AQ — диагональная матрица. Столбцы унитар-
ной матрицы Q образуют ортонормированный базис и в силу
равенства AQ = QΛ являются собственными векторами мат-
рицы A. 
Как видим, любая нормальная матрица подобна диагональ-
ной, причем преобразование подобия реализуется с помощью
унитарной матрицы. В таких случаях говорят об унитарном
подобии.
Если A∗ = f (A) для некоторого многочлена f (λ), то мат-
рица A, очевидно, нормальная. Верно и обратное. Предполо-
жим, что A имеет m попарно различных собственных значе-
ний λ1 , . . . , λm , и возьмем в качестве f (λ) многочлен степе-
ни не выше m − 1, принимающий при λi значение λi . Тогда
Λ∗ = f (Λ) ⇒ A∗ = QΛ∗ Q∗ = Qf (Λ)Q∗ = f (A).
Задача 1. Докажите, что спектральный радиус (максимальный
модуль собственных значений) нормальной матрицы A допускает пред-
ставление ρ(A) = max |x∗ Ax|/|x∗ x|.
x=0

33.2. Унитарные матрицы


⎡ ⎤
λ1
Пусть A — нормальная матрица, Λ= ⎣ ..
. ⎦ =Q∗ AQ —
λn
диагональная матрица из ее собственных значений и Q — уни-
тарная матрица из ее собственных векторов.
Напомним, что квадратная матрица A называется унитар-
ной, если A∗ A = I . Из определения ясно, что любая унитарная
матрица является нормальной.
Утверждение. Нормальная матрица является унитарной то-
гда и только тогда, когда все ее собственные значения по
модулю равны 1.
Доказательство. A∗ A = 1 ⇔ Λ∗ Λ = I ⇔ |λi | = 1, 1  i  n. 
 
Q Q
Задача 1. Унитарная матрица Q = Q11 Q12 порядка 2n разбита
21 22
на блоки порядка n. Доказать, что | det Q12 | = | det Q21 |.
288 Лекция 33

33.3. Матрицы отражения и вращения


Унитарные матрицы занимают, бесспорно, особое место в вы-
числительной алгебре: во-первых, они задают ортонормирован-
ные базисы; во-вторых, при умножении на них сохраняются
длины столбцов (и даже их скалярные произведения). Среди
них выделяются два очень полезных для вычислений подкласса:
матрицы отражения и матрицы вращения.
Матрицей отражения (матрицей Хаусхолдера), порожден-
ной вектором v ∈ Cn единичной длины, называется матрица вида
H = H(v) = I − 2vv ∗ , |v| = 1.
Очевидно, что H∗ =H и H ∗H
= H2= I − 4vv ∗ + 4v(v ∗ v)v ∗ = I .
Название вполне оправданно. Пусть x⊥v ⇒ v ∗ x = 0. Тогда
Hx = x − 2v(v ∗ x) = x ⇒ подпространство (L(v))⊥ является соб-
ственным подпространством для собственного значения λ = 1
кратности n − 1. Кроме того, Hv = v − 2v(v ∗ v) = −v ⇒ вектор v
отражается относительно подпространства (L(v))⊥ и определяет
одномерное собственное подпространство для собственного зна-
чения λ = −1 кратности 1.
Таким образом, в некотором ортонормированном базисе мат-
рица отражения имеет вид
⎡ ⎤
1 0
⎢ 1 ⎥
⎢ ⎥
Λ=⎢ ⎢ . .. ⎥.

⎣ 1 ⎦
0 −1
Вещественной матрицей вращения (матрицей Гивенса) по-
рядка n, определяемой углом ϕ и номерами 1  k < l  n,
называется матрица W = W (ϕ, k , l), отличающаяся от единич-
ной лишь элементами (2 × 2)-подматрицы на пересечении строк
и столбцов с номерами k и l; данная подматрица имеет вид


cos ϕ − sin ϕ
sin ϕ cos ϕ .
Под комплексной матрицей вращения можно понимать мат-
рицу такого же вида, в которой указанная (2 × 2)-подматрица
может быть умножена справа и слева на произвольные диаго-
нальные унитарные матрицы.
Унитарность вещественных и комплексных матриц вращения
проверяется непосредственно.
33.5. Эрмитово разложение 289

33.4. Эрмитовы матрицы


Напомним, что матрица A называется эрмитовой, если A∗ =A.
Очевидно, что любая эрмитова матрица является нормальной.
Утверждение. Нормальная матрица является эрмитовой то-
гда и только тогда, когда все ее собственные значения веще-
ственны.
Доказательство. A∗ = A ⇔ Λ∗ = Λ ⇔ λi = λi , 1  i  n. 
Задача 1. Известно, что A2 = A и ker A ⊥ im A (ортогональность
относительно естественного скалярного произведения). Докажите, что
A = A∗ .
Задача 2. Дано подпространство L ⊂ Cn . Докажите, что среди
всех матриц A таких, что im A = L и A2 = A, наименьшее значение
2-нормы достигается для некоторой эрмитовой и притом только одной
матрицы A.
Задача 3. Докажите, что для любой эрмитовой матрицы H матри-
ца Q = (I − iH)−1 (I + iH) является унитарной. Любую ли унитарную
матрицу можно представить таким образом?
Задача 4. Эрмитовы матрицы A, B ∈ Cn таковы, что A2 = A
и B 2 = B . Докажите, что если ||A − B||2 < 1, то rank A = rank B .

33.5. Эрмитово разложение


Запись матрицы A в виде A = H + iK , где H = H ∗ , K = K ∗ ,
называется ее эрмитовым разложением.
Теорема. Для любой матрицы A ∈ Cn×n эрмитово разложение
существует и единственно.
Доказательство. Единственность: A = H + iK ⇒ A∗ = H −
− iK ⇒
1 1
H = (A + A∗ ), K = (A − A∗ ). (∗)
2 2i
Существование: пусть H и K определяются формулами (∗); они,
очевидно, эрмитовы, и при этом A = H + iK . 
Заметим, что матрица B = iK является косоэрмитовой —
так называются матрицы B со свойством B ∗ = −B .
Задача 1. Пусть A — квадратная матрица и HA = (A + A∗ )/2 —
ее эрмитова часть. Докажите, что для произвольной эрмитовой мат-
рицы H того же порядка имеет место неравенство ||A − HA ||2  ||A −
− H||2 .
10 Е. Е. Тыртышников
290 Лекция 33

33.6. Неотрицательная и положительная


определенность

Матрица A ∈ Cn×n называется неотрицательно (положи-


тельно) определенной, если x∗ Ax  0 (x∗ Ax > 0) ∀ x∈
∈ Cn , x = 0. Обозначение: A  0 (A > 0). Неотрицательно
определенные матрицы называются также положительно полу-
определенными.
Теорема. Для неотрицательной (положительной) определен-
ности матрицы A ∈ Cn×n необходимо и достаточно, что-
бы она была эрмитовой матрицей с неотрицательными
(положительными) собственными значениями.
Доказательство. Используя эрмитово разложение A = H + iK ,
находим
x∗ Ax = (x∗ Hx) + i(x∗ Kx).

Число x∗ Ax вещественно для любого x ⇒ x∗ Kx = 0 для всех x.


Отсюда вытекает, что эрмитова матрица K имеет только нулевые
собственные значения: Kx = λx, x = 0 ⇒ x∗ Kx = λ(x∗ x) = 0 ⇒
⇒ λ = 0. Будучи подобна нулевой матрице, матрица K может
быть только нулевой ⇒ A = H . Если Hx = λx, x = 0, то x∗ Hx =
= λ(x∗ x)  0 ⇒ λ  0. Если x∗ Hx > 0, то, конечно, λ > 0.
Теперь предположим, что A — эрмитова матрица с неот-
рицательными собственными значениями λ1 , . . . , λn и ортонор-
мированным базисом собственных векторов v1 , . . . , vn . Пусть
x = α1 v1 + . . . + αn vn . Тогда Ax = α1 λ1 v1 + . . . + αn λn vn . Отсюда

x∗ Ax = (Ax, x) = λ1 |α1 |2 + . . . + λn |αn |2  0.

В случае λi > 0 находим: x∗ Ax > 0 при x = 0. 


Задача 1. Пусть A = H + iK — эрмитово разложение матрицы A.
Докажите, что вещественные части собственных значений матрицы A
заключены между минимальным и максимальным собственными значе-
ниями эрмитовой матрицы H , а мнимые части — между минимальным
и максимальным собственными значениями эрмитовой матрицы K .
Задача 2. Даны квадратные матрицы A и B одного порядка, при
этом матрица B невырожденная. Докажите, что из неотрицательной
33.7. Квадратный корень 291

определенности матрицы B ∗ B − A∗ A вытекает, что спектральный ра-


диус матрицы B −1 A не больше 1.
Задача 3. Докажите, что если H — эрмитова неотрицательно
определенная матрица, а U — унитарная матрица того же порядка, то
||H − I||2  ||H − U ||2  ||H + I||2 .
Задача 4. Пусть заданы вещественная положительно определен-
ная матрица A порядка n и вектор b ∈ Rn . Доказать, что функционал
f (x) = (Ax, x) + (b, x) при x ∈ Rn ограничен снизу и существует един-
ственная точка x0 , в которой f (x0 ) есть его минимальное значение.

33.7. Квадратный корень


Если A = S 2 , то S естественно называть квадратным корнем
из матрицы A.
Теорема. Для любой неотрицательно определенной матрицы
A ∈ Cn×n существует единственная неотрицательно опреде-
ленная матрица S ∈ Cn×n такая, что S 2 = A.
Доказательство. Матрица A эрмитова и поэтому унитарно
подобна вещественной диагональной матрице Λ с диагональными
элементами λi  0 (вследствие неотрицательной определенно-

√ A = QΛQ .2 Пусть D — диагональная матрица
сти): с элемента-
ми λi . Тогда D = Λ и, очевидно, S = QDQ∗ — неотрицательно
определенный квадратный корень из A.
Приведенное построение доказывает существование. Но
единственность требует дополнительного рассуждения. Если
SQ = QD, то AQ = QD2 . Пусть Q = [q1 , . . . , qn ] и D имеет
диагональные элементы di . Пусть x — собственный вектор
матрицы A для собственного значения λ. Тогда для некоторых
коэффициентов αi
  √ √
x= αi qi ⇒ Sx = αi λ qi = λ x.
√ √
di = λ di = λ
Таким образом, действие S однозначно определено на векторах
любого базиса из собственных векторов матрицы A. 
Для неотрицательно определенного квадратного корня S из
неотрицательно определенной матрицы A употребляется обозна-
чение: S = A1/2 .
Задача 1. Матрицы A и B обе эрмитовы, при этом A положи-
тельно определенная. Докажите, что собственные значения матриц AB
и BA вещественные.
10*
292 Лекция 33

33.8. Блочно-диагональная форма вещественной


нормальной матрицы
Пусть A — вещественная нормальная матрица. В силу нор-
мальности порядок всех жордановых клеток равен 1.
Предположим, что λ = a + ib — собственное значение с нену-
левой мнимой частью b, и пусть
A(x + iy) = (a + ib)(x + iy) = (ax − + ay), x, y ∈ R ⇒

by) + i(bx
n

a b
A[x, y] = [x, y] −b a . (∗)

Заметим, что сопряженное число λ = a − ib тоже будет соб-


ственным значением, отвечающим собственному вектору x − iy .
Для нормальной матрицы собственные векторы для различных
собственных значений ортогональны
⇒ (x + iy , x − iy) = (x, x) − (y , y) + i2(x, y) = 0 ⇒
⇒ (x, y) = 0, |x| = |y|.
Отсюда следует, что равенство (∗) сохранится при замене x и y
на нормированные и ортогональные векторы x/s и y/s, s = |x| =
= |y|. Таким образом, имеет место
Теорема. Для любой вещественной нормальной матрицы су-
ществует вещественный ортонормированный базис, в кото-
ром она является прямой суммой вещественных
блоков поряд-
a b
ка 1 и вещественных блоков порядка 2 вида .
−b a

33.9. Блочно-диагональная форма ортогональной


матрицы
Собственные значения ортогональной матрицы по модулю
равны 1. Поэтому аналог жордановой формы в данном случае
представляет собой прямую сумму блоков порядка 1, отвечаю-
щих вещественным собственным значениям, равным 1 или −1,
и блоков порядка 2, отвечающих парам комплексно сопряженных
собственных значений λ = a + ib и λ = a − ib, b = 0. Заметим,
что a2 + b2 = 1 ⇒ согласно (∗) каждый блок порядка 2 в данном
случае есть вещественная матрица вращения.
Теорема. Для любой ортогональной матрицы существует ве-
щественный ортонормированный базис, в котором она явля-
ется произведением вещественных матриц отражения и ве-
щественных матриц вращения.
33.9. Блочно-диагональная форма ортогональной матрицы 293

Доказательство. Из сказанного выше ясно, что в некотором


ортонормированном базисе получается блочно-диагональная мат-
рица с вещественными блоками порядка 1 для собственных
значений ±1 и блоками порядка 2, которые оказываются веще-
ственными матрицами вращения. Достаточно заметить, что
⎡ ⎤
M1
⎢ M2 ⎥
⎢ ⎥=
⎣ . .. ⎦
Mk
⎡ ⎤⎡ ⎤ ⎡ ⎤
M1 I I
⎢ I ⎥ ⎢ M2 ⎥ ⎢ I ⎥
=⎢
⎣ .. ⎥⎢
⎦⎣ .. ⎥ · ... · ⎢
⎦ ⎣ .. ⎥. 

. . .
I I Mk
Теорему можно проинтерпретировать таким образом: линей-
ное отображение в Rn , сохраняющее длины, сводится к ком-
позиции отражений и вращений.
Задача 1. Докажите, что любая вещественная матрица вращения
является произведением двух вещественных матриц отражения.
Л е к ц и я 34

34.1. Матрица Фурье


Исключительно важный класс унитарных матриц — это спе-
циальные матрицы Вандермонда, построенные на корнях из еди-
ницы. Пусть
2π 2π
ε = cos − + i sin − .
n n

Это первообразный корень степени n из единицы. 1) Матрица


Вандермонда для чисел ε0 , ε1 , . . . , εn−1 называется также матри-
цей (прямого) дискретного преобразования Фурье или, короче,
матрицей Фурье порядка n. Обозначение:
⎡ ⎤
1 1 1 ... 1
⎢ 1 ε1·1 ε1·2 ... ε1·(n−1) ⎥
⎢ ⎥

Fn = ⎢ . . . ... ... ... ... ⎥.

⎣ 1 ε (n− 2)·1 ε (n− 2)·2 ... ε (n− 2)·(n− 1) ⎦
1 ε (n− 1)·1 ε (n− 1)·2 ... ε (n− 1)·(n− 1)

Утверждение. Матрица Фурье обратима и при этом обрат-


ная матрица имеет вид
1 ∗
Fn−1 = F .
n n

Доказательство. Элементы произведения Fn∗ Fn легко вычисля-


ются как суммы членов геометрической прогрессии:

1)
Минус — дань сложившейся традиции определения прямого и обратного
преобразований Фурье: минус — для прямого, плюс — для обратного.
34.2. Циркулянтные матрицы 295

1
n− 1
n− 1
n− k
(Fn∗ Fn )ij = ki kj
ε ε = ε k(j−i)
= ε (j−i)
=
k=0 k=0 k=0

ε(j−i)n − 1
= = 0, i = j ,
εj−i − 1
n, i = j.

Таким образом, Fn∗ Fn = n I . 


Задача 1. Доказать, что Fn4 = n I. 2

Задача 2. Найти максимальное значение функции f (A) = | det A|


на множестве всех комплексных матриц A с элементами |aij |  1.

34.2. Циркулянтные матрицы


Рассмотрим специальные нормальные матрицы вида
⎡ ⎤
a0 an−1 an−2 . . . a2 a1
⎢ a1 a0 an−1 . . . a3 a2 ⎥
⎢ ⎥
⎢ a2 a1 a0 . . . a4 a3 ⎥
A=⎢
... ... ... ⎥
.
⎢ ... ... ... ⎥
⎣ an−2 an−3 an−4 . . . a0 an−1 ⎦
an−1 an−2 an−3 . . . a1 a0
Матрица A называется циркулянтной матрицей или циркулян-
том. В частности, при n = 4 получаем
⎡ ⎤
a0 a3 a2 a1
⎢a a a a ⎥
A = ⎣ 1 0 3 2 ⎦.
a2 a1 a0 a3
a3 a2 a1 a0
Как видим, циркулянтная матрица полностью определяется эле-
ментами любой своей строки или любого столбца. Ее первый
столбец есть a = [a0 , a1 , . . . , an−1 ] .
Чтобы найти собственные значения и собственные векторы
матрицы A, возьмем произвольный корень ξ степени n из едини-
цы (ξ n = 1) и рассмотрим число

λ = λ(ξ) ≡ a0 + ξa1 + . . . + ξ n−1 an−1 .


Последовательно умножая обе части на 1, ξ , ξ 2 , . . . , ξ n−1 , нахо-
296 Лекция 34

дим

λ · 1 = a0 + ξ a1 + . . . + ξ n−1 an−1 ,
λ · ξ = an−1 + ξ a0 + . . . + ξ n−1 an−2 ,
λ · ξ 2 = an−2 + ξ an−1 + . . . + ξ n−1 an−3 ,
........................................

λ · ξ n−1 = a1 + ξ a2 + . . . + ξ n−1 a0 .

Следовательно,

λ(ξ) [1, ξ , . . . , ξ n−1 ] = [1, ξ , . . . , ξ n−1 ]A. (∗)

Выберем ε = cos(−2π/n) + i sin(−2π/n). Равенство (∗) спра-


ведливо при ξ = 1, ε, ε2 , . . . , εn−1 и, следовательно, дает систему
равенств, которая в матричной записи имеет вид

ΛFn = Fn A,

где Fn — матрица Фурье порядка n, Λ — диагональная матрица


вида ⎡ ⎤
λ(1)
⎢ λ(ε) ⎥
Λ=⎢ ⎣ . ..
⎥.

n−
λ(ε ) 1

Итак, AFn∗ = Fn∗ Λ ⇒ столбцы матрицы Fn∗ суть собственные


векторы матрицы A, отвечающие собственным значениям, распо-
ложенным на диагонали матрицы Λ. Заметим, что Fn∗ получается
из Fn перестановкой столбцов: первый столбец остается на ме-
сте, а столбцы со второго по последний ставятся в обратном по-
рядке. Поэтому можно утверждать, что базисом из собственных
векторов циркулянтной матрицы A являются столбцы матрицы
Фурье Fn . Полученные результаты сформулируем в виде теоре-
мы.
Теорема о циркулянтах. Пусть A — циркулянтная матрица
с первым столбцом a = [a0 , . . . , an−1 ] . Тогда
1 ∗
A= F ΛFn , (#)
n n
34.3. Алгебры матриц 297

где Fn — матрица Фурье порядка n и Λ — диагональная


матрица собственных значений вида
⎡ ⎤    
λ1 λ1 a0
Λ=⎣ .. ⎦, . . . = Fn . . . .
.
λn λ n an−1

Несложно проверить, что для любых λ1 , . . . , λn матрица


в правой части (#) является циркулянтной матрицей. Отсюда
ясно, что произведение циркулянтных матриц остается цирку-
лянтной матрицей.
Матрица, обратная невырожденной циркулянтной матрице,
также является циркулянтной.

34.3. Алгебры матриц


Любая линейная комбинация циркулянтов есть циркулянт.
Таким образом, множество циркулянтов порядка n является
n-мерным линейным пространством, на котором определена опе-
рация умножения элементов, которая вместе с операцией сложе-
ния превращает данное линейное пространство в кольцо.
Пусть в линейном пространстве V определена операция умно-
жения элементов, которая делает его также кольцом с единицей,
и пусть умножение произвольных элементов a и b и умножение
на число α связаны аксиомой α(ab) = (αa)b = a(αb). В таких
случаях пространство V называется алгеброй.
Заметим, что умножение циркулянтов коммутативно — по-
этому они дают пример коммутативной алгебры матриц. Все
множество матриц фиксированного порядка n — пример неком-
мутативной алгебры.
Теорема. Пусть M — алгебра матриц и A ∈ M — невырож-
денная матрица. Тогда A−1 ∈ M.
Доказательство. Пусть A ∈ M. По теореме Гамильтона–
Кэли, A аннулируется своим характеристическим многочленом:
a0 I + a1 A + . . . + an−1 An−1 + An = 0. Если A — невырожден-
ная матрица, то, умножая обе части на A−1 и учитывая, что
a0 = (−1)n det A = 0, получаем
1 & '
A−1 = − a1 I + a2 A + . . . an−1 An−2 + An−1 ∈ M. 
a0
По аналогии с циркулянтами можно построить много других
коммутативных матричных алгебр.
298 Лекция 34

Утверждение. Для любой фиксированной невырожденной мат-


рицы Q ∈ Cn×n все матрицы вида QΛQ−1 , где Λ — произволь-
ная диагональная матрица порядка n, образуют коммута-
тивную алгебру.
Доказательство. Указанное множество матриц обозначим че-
рез M. Если A1 , A2 ∈ M, то A1 = QΛ1 Q−1 , A2 = QΛ2 Q−1 для
каких-то диагональных матриц Λ1 и Λ2 . Тогда αA1 + βA2 =
= Q(Λ1 + Λ2 )Q−1 ∈ M и A1 A2 = Q(Λ1 Λ2 )Q−1 ∈ M. 
Замечание. Данное утверждение описывает не все возможные
коммутативные алгебры матриц. Например, пусть M состоит из
всех (n × n)-матриц вида
⎡ ⎤
a0 0
⎢ a1 a0 ⎥
⎢ ⎥
⎢ a2 a1 a0 ⎥
A=⎢ ⎥. (∗)
⎢ ... ... ... ... ⎥
⎣ an−2 an−3 . . . a1 a0 ⎦
an−1 an−2 an−3 . . . a1 a0
Несложно проверить, что M является коммутативной алгеб-
рой, но в M имеются недиагонализуемые матрицы (докажите!).
Еще один пример коммутативной алгебры — множество мат-
риц A таких, что A ∈ M.
Задача 1. Дана жорданова клетка J порядка n. Докажите, что
множество всех (n × n)-матриц, коммутирующих с J  , совпадает
с множеством матриц вида (∗).

34.4. Одновременное приведение к треугольному виду


Теорема. Для произвольной коммутативной алгебры матриц M
существует обратимая матрица Q такая, что для любой A ∈ M
матрица Q−1 AQ является верхней треугольной.

Доказательство. Пусть матрицы A1 , . . . , Ak ∈ M ⊂ Cn×n образуют


базис в линейном пространстве M. Докажем, что они имеют общий
собственный вектор.
Обозначим через L собственное подпространство матрицы A1 для
собственного значения λ1 . Пусть A1 x = λ1 x, x = 0. Тогда

A1 (A2 x) = A2 (A1 x) = λ1 (A2 x). (∗)

Следовательно, A2 x ∈ L. Более того, Al2 x ∈ L для всех l = 1, 2, . . .


Пусть M — минимальное подпространство, содержащее все векторы
вида Al2 x. Очевидно, что это минимальное подпространство, инвари-
антное относительно A2 и содержащее x. В силу (∗) заключаем, что
34.5. Быстрое преобразование Фурье 299

M ⊂ L. В M обязательно имеетcя собственный вектор для A2 , он же


будет собственным вектором и для A1 .
Далее по индукции. Пусть L — содержащее x = 0 пересечение
собственных подпространств L1 , . . . , Lk−1 , отвечающих соответствен-
но матрицам A1 , . . . , Ak−1 , а M — содержащее x минимальное под-
пространство, инвариантное относительно Ak (очевидно, оно состоит
из векторов вида p(Ak )x для всевозможных многочленов p). Легко
проверить, что M является (ненулевым!) подпространством для каждо-
го из собственных подпространств L1 , . . . , Lk . Поэтому M ⊂ L, а со-
держащийся в M собственный вектор для Ak является собственным
вектором также для A1 , . . . , Ak−1 .
Итак, пусть x — общий собственный вектор для A1 , . . . , Ak . Пусть
P — любая обратимая матрица,первый столбец которой равен x. Тогда
каждая из матриц P A1 P −1 , . . . , P Ak P −1 имеет блочный вид



P −1 Ai P = λi vi , Bi ∈ C(n−1)×(n−1) .
0 Bi
Непосредственно проверяется, что матрицы B1 , . . . , Bk коммутируют.
Если они одновременно приводятся к верхнему треугольному виду
с помощью обратимой матрицы Z порядка n − 1 (каждая из матриц
Z −1 Bi Z является верхней треугольной), то матрица
 
1 0
Q=P 0 Z
одновременно приводит к треугольному виду каждую из матрицA1 , . . .
. . . , Ak . То же верно и для произвольной линейной комбинации матриц
A1 , . . . , Ak . 
Задача 1. Матрицы A и B порядка n коммутируют. Докажите,
что существуют
 невырожденные
  матрицы P и Q такие, что P AQ =
Ik 0 X 0
= 0 N и P BQ = 0 Y , где блоки Ik , X и N , Y имеют порядок
k и n − k соответственно и, кроме того, матрица Ik единичная, а N
нильпотентная.

Задача 2. Для матриц A, B ∈ Cn×n существует число λ такое, что


det(λA − B) = 0. Докажите,что существуют
 невырожденные
  матрицы
Ik 0 X 0
P и Q такие, что P AQ = 0 N и P BQ = 0 I , где блоки
n−k
Ik , X и N , In−k имеют порядок k и n − k соответственно и, кроме того,
матрицы Ik и In−k единичные, а N нильпотентная.

34.5. Быстрое преобразование Фурье


Умножение матрицы Фурье Fn на вектор-столбец x ∈ Cn
называется прямым преобразованием Фурье вектора x.
Классическое правило умножения матрицы на вектор дает
алгоритм с числом операций порядка n2 . Однако специальный
300 Лекция 34

вид матрицы Fn позволяет умножать ее на вектор с затратой


лишь O(n log2 n) арифметических операций!
Алгоритмы с таким свойством (быстрое преобразование Фу-
рье) начали внедряться в практику вычислений в 1960-е годы
XX века и произвели буквально переворот в ряде разделов при-
кладной математики. 1) Так или иначе, быстрое преобразование
Фурье стало основной компонентой многих быстрых алгоритмов
в задачах линейной алгебры.
Предположим, что n = 2L и m = n/2. Будем нумеровать стро-
ки и столбцы матрицы Fn числами от 0 до n − 1. От Fn перейдем
к матрице Fn , в которой сначала идут подряд все строки Fn
с четными номерами, а затем — все строки с нечетными номе-
рами (ясно, что Fn = Pn Fn , где Pn — соответствующая матрица
перестановки). Рассмотрим Fn как блочную (2 × 2)-матрицу:
⎡ ⎤
[ε2 k l ]m×m [ε2 k (m+l) ]m×m
Fn = ⎣ ⎦ , 0  k , l  m − 1.
[ε ( 2k+ 1) l ]m×m [ε ( 2k+ 1)(m+l) ]m×m

Заметим, что

[ε2 k l ]m×m = [ε2 k (m+l) ]m×m = Fm ,

[ε(2k+1) l ]m×m = Fm Dm , [ε(2k+1)(m+l) ]m×m = −Fm Dm ,

где ⎡ ⎤
1
⎢ ε1 ⎥
Dm = ⎢
⎣ .. ⎥.

.
εm−1

Следовательно,




 Fm 0 Im 0 Im I m
Fn = P n , m = n/2.
0 Fm 0 Dm Im −Im

Таким образом, задача умножения матрицы Fn на вектор сводит-

1)
Начало «переворота» отсчитывается с 1965 года — с выхода в свет
знаменитой работы американцев Кули и Тьюки. Впоследствии было выяснено,
что быстрые алгоритмы были описаны Рунге еще в начале XX века; более
того, Г. Стрэнг утверждает, что обнаружил их прототипы еще у Гаусса.
34.5. Быстрое преобразование Фурье 301

ся к двум аналогичным задачам для матрицы Fn/2 . Чтобы осуще-


ствить редукцию, требуется выполнить n сложений–вычитаний
и n/2 умножений (на элементы диагональной матрицы Dn ). Обо-
значим общее число сложений–вычитаний и умножений через
S± (n) и S∗ (n) соответсвенно. Чтобы их оценить, нужно просум-
мировать затраты на редукцию задач для всех L = log2 n шагов
рекурсии:
S± (n) = n + 2(n/2) + 22 (n/22 ) + . . .
. . . + 2L−1 (n/2L−1 ) = nL = n log2 n,
1
S∗ (n) = n log2 n.
2
Л е к ц и я 35

35.1. Сингулярные числа и сингулярные векторы


Пусть A ∈ Cm×n . Тогда A∗ A ∈ Cn×n — эрмитова неотрица-
тельно определенная матрица:
(A∗ A)∗ = A∗ (A∗ )∗ = A∗ A;
xA∗ Ax = (Ax, Ax) = |Ax|2  0 ∀ x ∈ Cn .
Поэтому все ее собственные значения неотрицательны.
Неотрицательные квадратные корни из собственных значе-
ний матрицы A∗ A называются сингулярными числами матри-
цы A. Сингулярные числа σi = σi (A) принято нумеровать по
невозрастанию:
σ1  σ2  . . .  σr > σr+1 = . . . = σn = 0.
Будем считать, что A имеет r ненулевых сингулярных чисел.
Пусть u1 , . . . , un — ортонормированный базис собственных
векторов матрицы A∗ A такой, что

2 1  i  r,
A Aui = σi ui ,

0 , r + 1  i  n.
Положим vi = Aui /σi , 1  i  r. Тогда (vi , vj ) = 0 при i = j
и (vi , vi ) = 1. Дополним систему v1 , . . . , vr векторами vr+1 , . . .
. . . , vm до ортонормированного базиса в Cm . Заметим также, что
при j  r + 1
A∗ Auj = 0 ⇒ u∗j A∗ Auj = 0 ⇒ (Auj )∗ (Auj ) = 0 ⇒
⇒ |Auj | = 0 ⇒ Auj = 0.
В итоге получаем
⎡ ⎤
σ1 0
⎢ .. ⎥
A[u1 , . . . , un ] = [v1 , . . . , vm ] ⎢

. ⎥ ⇒ AU = V Σ,

σr
0
35.2. Полярное разложение 303

где U = [u1 , . . . , un ] и V = [v1 , . . . , vm ] — унитарные матрицы,


а Σ — диагональная прямоугольная матрица тех же размеров,
что и матрица A.
Столбцы матриц U и V образуют сингулярные базисы мат-
рицы A. Столбцы U называются правыми сингулярными век-
торами, а столбцы V — левыми сингулярными векторами
матрицы A. Связь между сингулярными векторами и ненулевыми
сингулярными числами устанавливается соотношениями
Aui = σi vi , A∗ vi = σi ui , 1  i  r.
Кроме того,
Aui = 0, r + 1  i  n, A∗ vi = 0, r + 1  i  m.

Итак, мы доказали, что для любой матрицы A ∈ Cm×n


имеет место равенство
AU = V Σ (∗)
для некоторых унитарных матриц U ∈ C n×n , V ∈ C m×m
и диагональной прямоугольной матрицы размеров m × n с чис-
лами σi  0 при i = j . Записав (∗) в виде
A = V ΣU ∗ , (∗∗)
получаем представление матрицы, называемое ее сингулярным
разложением. 1)
Если каким-то способом получено разложение (∗∗) с унитар-
ными матрицами U и V , то A∗ A = U (Σ∗ Σ)U ∗ . Поэтому если
Σ — диагональная прямоугольная матрица с неотрицательными
элементами, то ее ненулевые элементы определены однозначно.

 Задача 1. Найдите сингулярное разложение (2 × n)-матрицы A =


1 1 ... 1
= 1 1 ... 1 .

35.2. Полярное разложение


Если m = n, то можно записать (∗∗) в виде
A = (V ΣV ∗ )(V U ∗ ) = HQ,
где H = V ΣV ∗ — неотрицательно определенная (поэтому также
эрмитова) матрица, а Q = V U ∗ — унитарная матрица (как
произведение унитарных матриц). Представление матрицы A
в виде A = HQ с неотрицательно определенной матрицей H и
1)
Оно было получено совершенно другим способом в лекции 27.
304 Лекция 35

унитарной матрицей Q называется ее полярным разложением.


Это матричный аналог тригонометрической формы комплексного
числа.
Заметим, что AA∗ = H 2 ⇒ в силу теоремы о квадратом корне
матрица H определена однозначно. Отсюда вытекает единствен-
ность полярного разложения обратимой матрицы.

35.3. Выводы из сингулярного разложения


1) Число ненулевых сингулярных чисел r равно рангу матри-
цы A.
2) Сингулярное разложение сопряженной матрицы имеет вид

A∗ = U Σ V ∗ .

3) im A = L(v1 , . . . , vr ), ker A = L(ur+1 , . . . , un ).


4) im A∗ = L(u1 , . . . , ur ), ker A∗ = L(vr+1 , . . . , vm ).
В качестве следствия можно получить представления про-
странств в виде ортогональных сумм:

Cn = ker A ⊕ im A∗ , Cm = ker A∗ ⊕ im A.

r 
r
5) A = σk vk u∗k , A∗ = σk uk vk∗ .
k=1 k=1
6) Если m = n = r (матрица A невырожденная), то

n 
n
1
A= σk vk u∗k , A−1 = uk vk∗ .
σk
k=1 k=1

7) Пусть σ1  . . .  σn — сингулярные числа невырожденной


матрицы A. Тогда σn−1  . . .  σ1−1 — сингулярные числа
матрицы A−1 . %
8) ||A||2 = σ1 , ||A||F = σ12 + . . . + σr2 .
Спектральная и фробениусова нормы являются унитарно ин-
вариантными. Поэтому ||A||2 = ||Σ||2 и ||A||F = ||Σ||F . Очевидно,
что ||Σx||2  σ1 ||x||2 ; равенство достигается, если x имеет 1
в первой позиции и 0 в остальных.
%
Ясно также, что ||Σ||F = σ12 + . . . + σr2 . 
35.5. Метод наименьших квадратов 305

Задача 1. Дана квадратная матрица с нормой ||A||2  1. Докажи-


те,
 что существуют квадратные матрицы B , C , D такие, что матрица
A B
C D является унитарной.
Задача 2. Пусть A = A ∈ Cn×n . Докажите, что матрица A
обладает сингулярным разложением A = V ΣU ∗ с дополнительным
условием U ∗ = V  .

35.4. Сингулярное разложение и решение систем


Утверждение. Решение системы Ax = b с невырожденной мат-
n β
k
рицей A имеет вид x = uk , где βk = vk∗ b = (vk , b) — ко-
k=1 σk
эффициенты разложения вектора b по сингулярным векторам
v1 , . . . , vm .
Доказательство. Выражение для x сразу же получается из (6).
Если b = β1 v1 + . . . + βn vn , то (b, vk ) = βk (vk , vk ) = βk (вслед-
ствие ортонормированности системы векторов v1 , . . . , vn ). 
Данное утверждение проясняет роль направления возмуще-
ний при решении систем. Если коэффициент βk заменяется
на βk + ε, то коэффициент при uk в разложении x по базису
u1 , . . . , un возмущается на величину ε/σk . Чем меньше σk , тем
сильнее может измениться решение. При малом σn «особенно
опасны» возмущения вектора правой части в направлении векто-
ра vn .

35.5. Метод наименьших квадратов


Если система Ax = b несовместна, то равенство Ax = b не
выполняется ни для одного вектора x. В этом случае, тем не
менее, пытаются интересоваться такими x, при которых вектор
b − Ax (его называют невязкой для x) имеет минимально воз-
можную длину. Вектор x называется псевдорешением системы
Ax = b, если
||b − Ax||2 = min ||b − Az||2 .
z
В данном методе определения «обобщенного решения» в веще-
ственном случае речь действительно идет о наименьшем значе-
нии суммы квадратов (отсюда название метода)

m
||b − Ax||22 = (bi − ai1 x1 − . . . − ain xn )2 .
i=1
306 Лекция 35

Утверждение. Пусть A — матрица размеров m × n и ранга r.


Множество псевдорешений системы Ax = b есть линейное
многообразие, размерность которого равна n − r.
Доказательство. Пусть h — перпендикуляр, опущенный из век-
тора b на подпространство im A, а y ∈ im A — соответствующая
ортогональная проекция. Тогда система Az = y совместна, и если
z — ее произвольное решение, то |h| = |b − Az| < |b − Ax| для
всех x таких, что Ax = y . Значит, множество псевдорешений
совпадает с множеством решений совместной системы Az = y .

Следствие. Множество псевдорешений системы Ax = b совпа-
дает с множеством решений системы A∗ Ax = A∗ b.
Доказательство. b − Az ⊥ im A ⇔ A∗ (b − Az) = 0. 
Среди всех псевдорешений выделяется псевдорешение x  ми-
нимальной длины — оно называется нормальным псевдорешени-
 есть перпендикуляр, опущенный
ем. Геометрически ясно, что x
на ker A из любого частного решения z совместной системы
Az = y (вектор y — ортогональная проекция вектора b на im A).
Таким образом, нормальное псевдорешение существует и един-
ственно.
Сингулярное разложение позволяет дать явный вид нормаль-
ного псевдорешения:
r
vk∗ b
=
x uk . (∗)
σk
k=1
Для доказательства достаточно проверить, что b − A x ⊥ im A
иx ⊥ ker A.
Простота формулы не должна создавать впечатления об от-
сутствии проблем при вычислении x . Главная проблема, соб-
ственно, в том, что в случае r < min(m, n) ранг r можно по-
высить сколь угодно малым возмущением элементов матрицы,
а это означает, что нормальное псевдорешение, несмотря на
факт существования и единственности, не является непрерывной
функцией от элементов матрицы A. Например, пусть m = n = 1
и рассматривается система 0 · x = 1. Ее нормальное псевдоре-
 = 0, а нормальное псевдорешение воз-
шение есть, очевидно, x
мущенной системы ε · x = 1 есть x (ε) = 1/ε. Как видим, x (ε)
не стремится к x при ε → 0. Сама задача о вычислении столь
неустойчивого объекта не кажется очень уж осмысленной.
В то же время задачи такого рода постоянно возникают
в приложениях, и от нас требуются какие-то методы их решения.
При построении таких методов следует иметь в виду, что это
должны быть, прежде всего, методы изменения самой поста-
35.7. Наилучшие аппроксимации с понижением ранга 307

новки задачи. Подобные вопросы связаны с так называемыми


методами регуляризации. 1)
Задача 1. Найти нормальное псевдорешение несовместной систе-
мы
x1 + x2 + .. + xn = 1, x1 + x2 + ... + xn = 0.

35.6. Псевдообратная матрица


Формулу (∗) для нормального псевдорешения можно записать
также в виде
⎡ ⎤
1/σ1
⎢ .. ⎥ ∗
 = M b, M = U ⎢
x ⎣
. ⎥V .

1/σ r

Матрица M называется псевдообратной (по Муру–Пенроузу)


для матрицы A. В силу единственности нормального псевдо-
решения псевдообратная матрица определяется однозначно по
матрице A. Обозначение: M = A+ .
Задача 1. Пусть A — произвольная прямоугольная матрица
и A+ — ее псевдообратная матрица. Докажите, что выполняются
соотношения
(AA+ )∗ = AA+ , (A+ A)∗ = A+ A, AA+ A = A, A+ AA+ = A+ .
Докажите также, что A+ — единственная матрица, удовлетворяющая
этой системе уравнений.

35.7. Наилучшие аппроксимации с понижением ранга


В каждой матрице σk vk u∗k элемент в позиции (i, j) может рас-
сматриваться как функция от i и j с разделенными дискретными
переменными i и j : f (i, j) = f1 (i)f2 (j). Таким образом, запись A
r
в виде A = σi vi u∗i описывает некоторый специальный способ
i=1
разделения переменных в каждом члене суммы или, в матрич-
ной терминологии, скелетное разложение матрицы A — причем
с важным дополнительным свойством ортонормированности си-
стем u1 , . . . , ur и v1 , . . . , vr .
1)
Общую теорию методов регуляризации создал основатель факультета
ВМиК МГУ академик Андрей Николаевич Тихонов.
308 Лекция 35

Особая ценность и широта применений сингулярного разло-


жения вызваны прежде всего тем, что оно дает простой и на-
дежный механизм исключения из матрицы «наименее значимой
информации» — путем ее аппроксимации суммой меньшего чис-
ла слагаемых с разделенными переменными i и j . Речь идет
о поиске элемента наилучшего приближения для заданной мат-
рицы A на довольно сложном множестве — множестве матриц,
ранг которых ограничен заданным числом.
Теорема о наилучших аппроксимациях с понижением ран-
га. Пусть матрица A ∈ Cm×n задана сингулярным разложе-
нием вида
r
A= σl vl u∗l ,
l=1
и условимся считать, что σr+1 = 0. Пусть задано целое
1  k  r. Тогда

k
min ||A − B||2 = σk+1 = ||A − Ak ||2 , где Ak = σl vl u∗l .
rankB  k l=1
B ∈ Cm×n
Доказательство. Пусть rankB  k . Тогда dim ker B  n − k .
Рассмотрим линейную оболочку L = L(u1 , . . . , uk+1 ), натянутую
на старшие сингулярные векторы. По теореме Грассмана
dim(ker B ∩ L) = dim ker B + dim L − dim(ker B + L) 
 (n − k) + (k + 1) − n = 1.
Поэтому существует ненулевой вектор z ∈ ker B ∩ L. Будем счи-
тать, что ||z||2 = 1. Учитывая, что

k+1 
k+1
z= αl ul , |αl |2 = 1,
l=1 l=1
находим
.
/k+1
/
||A − B||2  ||(A − B)z||2 = ||Az||2 = 0 |αl |2 σl  σk+1 .
l=1
В то же время

r
A − Ak = σl vl u∗l ⇒ ||A − Ak ||2 = σk+1 . 
l=k+1
35.8. Расстояние до множества вырожденных матриц 309

35.8. Расстояние до множества вырожденных матриц


Если A — невырожденная матрица, то все матрицы A + F
при достаточно малой норме ||F ||2 будут невырожденными (по-
чему?). Под спектральным расстоянием между A и множеством
вырожденных матриц понимается величина ρ ≡ inf ||A − B||2 .
det B=0
Из теоремы об аппроксимациях с понижением ранга вытека-
ет, что
ρ= inf ||A − B||2 = σn (A).
rankB n−1
Таким образом, спектральное расстояние от заданной невы-
рожденной матрицы до множества вырожденных матриц
равно ее минимальному сингулярному числу.
Этот результат подчеркивает значение ортонормированных
базисов: если матрица V унитарная, то матрица V + F
будет невырожденной для всех возмущений F при условии
||F ||2 < 1 (докажите!). В частности, матрица I + F будет невы-
рожденной для всех возмущений F с нормой ||F ||2 < 1.
Задача 1. Пусть σ1  ...  σn — сингулярные числа (n × n)-
матрицы
⎡ ⎤
1 a1 0
⎢ 1 a2 ⎥
⎢ ⎥

A=⎢ . . . . ⎥, a1 , . . . , an−1 > 0.
. . ⎥
⎣ 1 an−1 ⎦
0 1

Докажите, что 0 < σn < 1/(a1 · . . . · an−1 ).


Л е к ц и я 36

36.1. Квадратичные формы



Выражение f = aij xi xj называется квадратичной
1i,j n
формой от переменных x1 , . . . , xn . При i = j в сумме имеются
два члена, для которых
aij + aji
aij xi xj + aji xj xi = (xi xj + xj xi ).
2
Поэтому, не ограничивая общности, всегда полагают, что aij =
= aji .
Квадратичные формы успешно изучались еще до введения
понятия матрицы. Современный подход, конечно, использует
матрицы — они возникают здесь естественным образом:
   
a11 . . . a1n x1

f = x Ax, где A = . . . . . . . . . , x = ... .
an1 . . . ann xn
Матрица A называется матрицей квадратичной формы f . Со-
гласно нашей договоренности, aij = aji — поэтому матрица A
симметричная.
П РИМЕР. Пусть f = x1 (x1 + x2 + ... + xn ). Тогда
⎡ ⎤
  1 1/2 ... 1/2
x1
⎢1/2 ⎥
f = [x1 ... xn ] A ... , A = ⎣ ⎦.
... 0
xn
1 /2

Отсюда следует, в частности, что максимальное значение квад-


ратичной формы f от вещественных переменных x1 , ..., xn при
36.3. Канонический вид квадратичной формы 311

условии x21 + ... + x2n = 1 равно максимальному собственному


значению вещественной симметричной матрицы A.
Задача 1. Пусть ранг вещественной симметричной матрицы по-
2
√ n равен 1 и, кроме того, A = A. Докажите, что
рядка 1)
||A||∞ 
n +1
 .
2

36.2. Конгруэнтность
Замена переменных x = P y с помощью невырожденной мат-
рицы P делает f квадратичной формой от новых переменных:
f = x Ax = (P y) A(P y) = y  (P  AP )y.
Матрицы A и B , связанные равенством B = P  AP для неко-
торой невырожденной матрицы P , называются конгруэнтными.
Легко видеть, что отношение конгруэнтности есть отношение
эквивалентности на множестве матриц фиксированного порядка.
Квадратичные формы от трех переменных нам уже встреча-
лись при изучении поверхностей второго порядка. В этом случае
переменные были вещественными координатами, а матрица A —
вещественной симметричной матрицей. Тогда нас особенно инте-
ресовали декартовы системы координат — поэтому требовалось,
чтобы матрица P была ортогональной. Как следствие, переход от
A к B в данном случае является одновременно преобразованием
конгруэнтности и подобия.

36.3. Канонический вид квадратичной формы


Мы знаем, что любая вещественная симметричная матрица
ортогонально подобна вещественной диагональной матрице:
Λ = P  AP , P  = P −1 , P ∈ Rn×n .
В новых переменных квадратичная форма f оказывается ал-
гебраической суммой квадратов:
f = λ1 y12 + . . . + λn yn2 .
В общем случае от P можно требовать лишь невырожденности.
Поиск соответствующей замены переменных (матрицы P ) для
заданной квадратичной формы называется приведением к кано-


n
1)
Напомним, что ||A||∞ = max |aij |.
1 i m j=1
312 Лекция 36

ническому виду. Если P — ортогональная матрица, то говорят


о приведении f к главным осям.
Если r = rankΛ = rankA, то в данной сумме можно оставить
только r членов, отвечающих λi = 0. Не ограничивая общности,
можно считать, что
λ1 , . . . , λk > 0, λk+1 , . . . , λr < 0, λr+1 = . . . = λn = 0.
Очевидно, что k , r − k и n − r равны числу положительных,
отрицательных и нулевых собственных значений матрицы A со-
ответственно.
Тройка чисел (k , r − k , n − r) называется инерцией веще-
ственной симметричной матрицы A. Точно так же вводится по-
нятие инерции для произвольной эрмитовой матрицы.

36.4. Закон инерции


Пусть все матрицы вещественные.
Теорема. Вещественные симметричные матрицы конгруэнт-
ны тогда и только тогда, когда они имеют одинаковую
инерцию.
Доказательство. Достаточно доказать совпадение инерций для
конгруэнтных вещественных диагональных матриц. Пусть это
матрицы Λ и D = P  ΛP , где P — вещественная невырожденная
матрица. Конечно, D и Λ имеют общий ранг r. Пусть инерция D
равна (l, r − l, n − r), а инерция Λ равна (k , r − k , n − r). Пред-
положим, что
d1 , . . . , dl > 0, dl+1 , . . . , dr < 0; λ1 , . . . , λk > 0, λk+1 , . . . , λr < 0.
Равенство y  Dy = x Λx при условии x = P y означает, что
(d1 y12 + . . . + dl yl2 ) + (dl+1 yl+
2 2
1 + . . . + dr yr ) =

= (λ1 x21 + . . . + λk x2k ) + (λk+1 x2k+1 + . . . + λr x2r ). (∗)


Рассмотрим два подпространства:
L = {y ∈ Rn : yl+1 = . . . = yn = 0},
M = {y ∈ Rn : y = P −1 x, x1 = . . . = xk = 0}.
Легко видеть, что dim L = l. Поскольку y = P −1 x, ясно, что
dim M = n − k . Если l > k , то dim L + dim M > n ⇒ существует
ненулевой вектор y ∈ L ∩ M . Для этого вектора y левая часть
в равенстве (∗) строго положительна, а правая часть отрицатель-
на или равна нулю. Противоречие означает, что l  k . Противо-
36.6. Канонический вид пары квадратичных форм 313

положное неравенство тоже верно —достаточно поменять ролями


x и y. 

36.5. Эрмитова конгруэнтность


Комплексные матрицы A и B называются эрмитово кон-
груэнтными, если B = P ∗ AP для некоторой невырожденной
матрицы P . Это отношение эквивалентности на множестве
(n × n)-матриц (докажите!). Если матрица A эрмитова, то и B
эрмитова.
Теорема. Эрмитовы матрицы эрмитово конгруэнтны тогда
и только тогда, когда они имеют одинаковую инерцию.
Доказательство практически дословно повторяет предыдущее
доказательство (надо лишь вместо x2i и yi2 писать |xi |2 и |yi |2 ).

36.6. Канонический вид пары квадратичных форм


Если приходится одновременно иметь дело с парой поверх-
ностей второго порядка в пространстве или с парой кривых
второго порядка на плоскости, то разумно пытаться упростить их
уравнения в одной и той же системе координат. В общем случае
эта система координат будет аффинной.
Для простоты рассмотрим случай кривых на плоскости.
Предположим, что одна из кривых является эллипсом. Тогда
перейдем к такой декартовой системе, в которой для нее полу-
чается уравнение x2 /a2 + y 2 /b2 = 1. Уравнение второй кривой
в этой системе может иметь самый общий вид. Изменив мас-
штабы по осям, перейдем к аффинной системе, в которой урав-
нением эллипса будет уравнение окружности (x )2 + (y  )2 = 1.
Уравнение второй кривой в новой (аффинной) системе имеет все
еще общий вид. Но с помощью поворота, как мы знаем, для его
квадратичной части можно получить форму λ1 (x )2 + λ2 (y  )2 .
При этом поворот системы координат не может изменить формы
первого уравнения! В сущности это же рассуждение переносится
на более общий случай.
Теорема 1. Пусть A и B — вещественные симметричные
матрицы и при этом A является положительно определенной.
Тогда существует вещественная невырожденная матрица P
такая, что матрицы P  AP и P  BP обе диагональные.
Доказательство. Вещественная симметричная матрица A
ортогонально подобна (поэтому и конгруэнтна) диагональной
матрице
314 Лекция 36
⎡ ⎤
λ1
Λ=⎣ ..
. ⎦ = Q AQ, Q = Q− 1 .
λn
В силу положительной определенности, λi > 0 для всех i. Далее
заметим, что A конгруэнтна единичной матрице (по определению
Λ−1/2 ≡ (Λ1/2 )−1 ):
I = Λ−1/2 Q AQΛ−1/2 = (QΛ−1/2 ) A(QΛ−1/2 ).
Пусть то же преобразование конгруэнтности в применении к B
дает матрицу
C = (QΛ−1/2 ) B(QΛ−1/2 ).
Легко проверить, что C остается вещественной симметричной
матрицей. Следовательно, с помощью ортогональной матрицы Z
получаем диагональную матрицу D = Z  CZ . В то же время
Z  IZ = I . Окончательно получаем
I = P  AP , D = P  BP , где P = QΛ−1/2 Z. 
Следствие. Пусть f (x) и g(x) — вещественные квадратичные
формы и f (x) > 0 для всех вещественных векторов x = 0.
Тогда f и g можно привести к каноническому виду с помощью
общей замены переменных.
Вот вариант этой же теоремы в случае эрмитовых матриц
и преобразования эрмитовой конгруэнтности — предыдущее до-
казательство модифицируется очевидным образом.
Теорема 2. Пусть A и B — эрмитовы матрицы и A является
положительно определенной. Тогда существует невырожден-
ная матрица P такая, что матрицы P ∗ AP и P ∗ BP обе
диагональные.

36.7. Метод Лагранжа


Простая идея, позволяющая получить канонический вид
квадратичной формы, связана с выделением полных квадра-
тов. В итоге вещественная симметричная матрица A приводится
к конгруэнтной диагональной матрице Λ = P  AP с помощью
вещественной невырожденной матрицы P .
Эта идея ведет к так называемому методу Лагранжа. Чтобы
понять его суть, рассмотрим квадратичную форму
f = a11 x21 + a22 x22 + a33 x23 + 2a12 x1 x2 + 2a13 x1 x3 + 2a23 x2 x3 .
36.8. Метод квадратного корня 315

Если a11 = 0, то полный квадрат выделяется следующим обра-


зом:
a12 a13
2  a212

f = a11 x1 + x2 + x3 + a22 − x22 +
a11 a11 a11
 
a213 a a
+ a33 − x23 + 2 a23 − 12 13 x2 x3 = b11 y12 + b22 y22 +
a11 a11

+ b33 y32 + 2b23 y2 y3 ,


a212 a213 a12 a13
b11 = a11 , b22 = a22 − , b33 = a33 − , b23 = a23 − ,
a11 a11 a11
a12 a
y1 = x1 + x2 + 13 , y2 = x2 , y3 = x3 .
a11 a11
Таким образом, A конгруэнтна матрице
   
b11 0 0 1 −a12 /a11 −a13 /a11
B = 0 b22 b23 = P1 AP1 , P1 = 0 1 0 .
0 b23 b33 0 0 1
Следующий шаг очевиден — путем выделения полного квадрата
исключить произведение y2 y3 .
С помощью метода Лагранжа можно найти инерцию матри-
цы A. Если же нужно получить ортогональную матрицу P , то
следует обратиться к другим методам — например, к методу
вращений.
Мы не будем здесь заниматься формализацией метода
Лагранжа для симметричных матриц общего вида. Вместо этого
рассмотрим случай вещественных положительно определенных
матриц и метод квадратного корня — с помощью преобразований
того же типа он решает ту же задачу, что и метод Лагранжа.

36.8. Метод квадратного корня


Пусть дана матрица A порядка n и Ak — ее (k × k)-
подматрица, расположенная на пересечении первых k строк
и столбцов. Подматрицы A1 , . . . , An = A называются ведущими
подматрицами, а их определители — ведущими минорами мат-
рицы A.
Для вещественной симметричной матрицы A, в которой все
ведущие миноры положительны, имеет место разложение A =
316 Лекция 36

= R R, где R — вещественная верхняя треугольная матрица


с положительными диагональными элементами. 1)
Предположим, что факт существования разложения уже до-
казан. Тогда нетрудно понять, как его можно вычислить. Для
матрицы порядка n = 3 имеем
    
a11 a12 a13 r11 r11 r12 r13
a12 a22 a23 = r12 r22 r22 r23 ⇒
a13 a23 a33 r13 r23 r33 r33

⇒ r11 = a11 , r12 = a12 /r11 , r13 = a13 /r11 ,
% %
r22 = a22 −r12 , r23 = (a23 −r13 r12 )/r22 , r33 = a33 −r13
2 2 −r 2 .
23

Вычисления аналогичны и в случае произвольного n. Метод


называется методом квадратного корня.
Интересно, что в данном случае «как бы» не используется
идея исключения элементов, но именно «как бы»: чтобы объ-
яснить, почему можно извлекать корни, проще всего вернуться
к идее метода Гаусса.
Теорема. Пусть A — матрица порядка n, в которой все
ведущие миноры отличны от нуля. Тогда существуют един-
ственные нижняя треугольная матрица L с единицами на
диагонали и верхняя треугольная матрица U такие, что
A = LU .
Доказательство. Пусть n = 3. Первый шаг метода Гаусса дает
    
1 0 0 a11 a12 a13 a11 a12 a13
−l21 1 0 a21 a22 a23 = 0 b22 b23 ,
−l31 0 1 a31 a32 a33 0 b32 b33
l21 = a21 /a11 , l31 = a31 /a11 ⇒
    
a11 a12 a13 1 0 0 a11 a12 a13
⇒ a21 a22 a23 = l21 1 0 0 b22 b23 ⇒
a31 a32 a33 l31 0 1 0 b32 b33
⇒ det A2 = a11 b22 ⇒ b22 = 0.
Поскольку b22 = 0, можно обойтись без перестановок строк и пе-
рейти ко второму шагу метода Гаусса:
    
1 0 0 a11 a12 a13 a11 a12 a13
0 1 0 0 b22 b23 = 0 b22 b23 , l31 = b32 /b22 .
0 −l31 1 0 b32 b33 0 0 c33

1)
В вычислительной алгебре разложение такого вида называют разложе-
нием Холецкого.
36.8. Метод квадратного корня 317

В итоге получаем
    
a11 a12 a13 1 0 0 a11 a12 a13
a21 a22 a23 = l21 1 0 0 b22 b23 .
a31 a32 a33 l31 l32 1 0 0 c33

Заметим, что det A3 = a11 b22 c33 ⇒ c33 = 0 (это гарантирует


возможность проведения третьего шага метода Гаусса без пере-
становок строк в случае n > 3). Единственность построенного
LU -разложения проверяется непосредственно: первая строка в U
и первый столбец в L определены однозначно, отсюда то же
самое получаем для второй строки в U и второго столбца в L
и т. д. Обобщение доказательства на случай произвольного n не
представляет никакой трудности. 
Следствие. Для любой вещественной симметричной матрицы,
в которой все ведущие миноры положительны, существует
вещественная верхняя треугольная матрица R такая, что
A = R R. Элементы главной диагонали R могут быть выбра-
ны положительными, при этом ограничении R единственна.
Доказательство. Воспользуемся существованием и единствен-
ностью LU -разложения A = LU , в котором L имеет едини-
цы на главной диагонали. Пусть D — диагональная матрица
с главной диагональю, взятой из матрицы U = [uij ]. Поскольку
det Ak = u11 . . . ukk для всех k , находим, что ukk > 0 для всех k .
В силу симметричности матрицы A,

A = A = LU = (U  D−1 )(DL) ⇒ L = U  D−1 .

Отсюда A = (D−1/2 U ) (D−1/2 U ). Таким образом, R = D −1/2 U .


Единственность проверяется непосредственно — так же как
в случае LU -разложения. 
Замечание. Определитель вещественной симметричной поло-
жительно определенной матрицы положителен (как произведе-
ние положительных собственных значений). Легко показать, что
свойство положительной определенности наследуется всеми ве-
дущими подматрицами ⇒ все ее ведущие миноры положи-
тельны. Поэтому метод квадратного корня можно применять для
любой вещественной симметричной положительно определенной
матрицы. Метод квадратного корня легко переносится также на
случай комплексных положительно определенных матриц (они
обязательно эрмитовы). Для таких матриц всегда имеет место
318 Лекция 36

разложение A = R∗ R, где R — комплексная верхняя треугольная


матрица с положительными диагональными элементами.
Задача 1. Доказать, что для любой положительно определенной
матрицы A = [aij ] ∈ Cn×n имеет место неравенство

det A  a11 a22 · . . . · ann .

36.9. Критерий положительной определенности


Докажем важный результат, известный как критерий Силь-
вестра.
Теорема. Пусть дана эрмитова матрица. Для ее положитель-
ной определенности необходимо и достаточно, чтобы все ее
ведущие миноры были положительны.
Доказательство. Необходимость вытекает из того, что свойство
положительной (и неотрицательной) определенности эрмитовой
матрицы A порядка n наследуется ее ведущими подматрицами
A1 , . . . , An — нужно лишь учесть равенство
⎡ ⎤
x1
  ⎢ . . .⎥
x1 ⎢ ⎥
⎢x ⎥
[x1 , . . . , xk ] Ak . . . = [x1 , . . . , xk , 0, . . . , 0] A ⎢ k ⎥ .
xk ⎢0⎥
⎣ . . .⎦
0
Из положительной определенности матрицы Ak следует, что все
ее собственные значения положительны ⇒ det Ak > 0 (как произ-
ведение положительных собственных значений). Достаточность
получается из разложения A = R∗ R, где R — верхняя треуголь-
ная матрица: для любого x = 0 получаем: x∗ Ax = x∗ (R∗ R)x =
= (Rx)∗ (Rx) > 0. 
 
A A
Задача 1. Матрица A = A11 A12 является эрмитовой, а ее
21 22
подматрица A11 — положительно определенной. Доказать, что по-
ложительная определенность матрицы A равносильна положительной
−1
определенности матрицы A22 − A21 A11 A12 .
Л е к ц и я 37

37.1. Разделение собственных значений эрмитовой


матрицы
Пусть эрмитова матрица A ∈ Cn×n записана в блочном виде


B u
A = u∗ a , B ∈ C(n−1)×(n−1) , u ∈ Cn−1 . (1 )
nn

Ясно, что подматрица B тоже эрмитова. Пусть μ1  . . .  μn−1 —


ее собственные значения, и пусть Q — унитарная матрица по-
рядка n − 1, приводящая ее к диагональному виду:
⎡ ⎤
μ1
Q∗ BQ = ⎣ ..
. ⎦ ⇒
μn−1
⎡ ⎤
μ1 s1




Q B u Q ⎢ .. ⎥
⇒ =⎢⎣
. ⎥,
μn−1 sn−1 ⎦

1 u ann 1
s1 . . . sn−1 sn
 
s1
. . . = Q∗ u, sn = sn = ann .
sn−1
Характеристический многочлен матрицы A легко вычисляется:
⎡ ⎤
μ1 − λ s1
⎢ .. ⎥
det(A − λI) = ⎢

. ⎥=
μn−1 − λ sn−1 ⎦
s1 ... sn−1 sn − λ
1
n−  
|s1 |2 |sn−1 |2
= (μi − λ) sn − λ − − ... − .
μ1 − λ μn−1 − λ
i=1
320 Лекция 37

Следовательно, если собственное значение λ матрицы A не сов-


падает ни с одним из собственных значений μ1 , . . . , μn−1 ее
подматрицы B , то оно удовлетворяет уравнению
|s1 |2 |s |2
λ = F (λ) ≡ + . . . + n−1 + sn .
λ − μ1 λ − μn−1
Утверждение. Пусть эрмитова матрица A порядка n с соб-
ственными значениями λ1  . . .  λn имеет блочное разбие-
ние (1), в котором B — ее эрмитова подматрица порядка
n − 1 с собственными значениями μ1  . . .  μn−1 . Тогда если
μ1 > μ2 > . . . > μn−1 и si = 0, 1  i  n − 1,
то имеют место соотношения разделения
λ1 > μ1 > λ2 > μ2 > . . . > λn−1 > μn−1 > λn . (2 )

Доказательство. Рассмотрим график функции y = F (λ)


(λ и y — переменные осей абсцисс и ординат). Очевидно, что
F (λ) не определено при λ = μk . Поскольку F (λ) → ∞ при
λ → μk , естественно говорить, что F (λ) при λ = μk обращается
в бесконечность. Изучим поведение функции F (λ) на каждом из
n интервалов
In = (−∞, μn−1 ), In−1 = (μn−1 , μn−2 ), . . .
. . . , I2 = (μ2 , μ1 ), I1 = (μ1 , +∞).
Пусть λ ∈ Ik , 2  k  n − 1. Тогда

|sk |2 |sk−1 |2 +∞ при λ → μk ,
+ →
λ − μk λ − μk−1 −∞ при λ → μk−1 ,
а остальные слагаемые в представлении F (λ) являются ограни-
ченными. Поэтому

+∞ при λ → μk ,
F (λ) →
−∞ при λ → μk−1 .
В силу непрерывности F (λ) прямая y = λ имеет при λ ∈ Ik
точку пересечения с графиком функции y = F (λ). Случаи λ ∈ I1
и λ ∈ In рассматриваются аналогично. Таким образом, уравнение
F (λ) = λ имеет n различных корней. Ни один из них не совпа-
дает ни с одним из чисел μk , и поэтому каждый из них является
собственным значением матрицы A. 
Если B имеет кратные собственные значения или sk = 0 для
каких-то k , строгие неравенства в соотношениях разделения (2)
следует заменить на нестрогие неравенства. Можно было бы
рассуждать таким образом: с помощью сколь угодно малых воз-
37.2. Вариационные свойства собственных значений 321

мущений можно сделать μ1 , . . . , μn−1 попарно различными, а все


sk ненулевыми, при этом для возмущенной матрицы A можно
применить доказанное утверждение, а затем перейти к преде-
лу. Чтобы это рассуждение сделать строгим, требуется факт
непрерывной зависимости собственных значений матрицы от ее
коэффициентов. Этот важный факт действительно имеет место.
Но мы пойдем другим путем — случай нестрогих неравенств лег-
ко анализируется на основе вариационных свойств собственных
значений эрмитовой матрицы.
Задача 1. Даны эрмитова матрица H и столбец b. Докажите
неравенство
%
, , ||H||2 + ||H||22 + 4||b||22
, H b ,
, b∗ 0 ,  .
2 2

37.2. Вариационные свойства собственных значений


Под вариационными свойствами понимаются свойства, свя-
занные с минимальными или максимальными значениями каких-
либо функций. В случае эрмитовой матрицы A ∈ Cn×n в качестве
такой функции от векторов x ∈ Cn рассматривается так называе-
мое отношение Рэлея
x∗ Ax
ΦA (x) = , x = 0.
x∗ x
Лемма. В любом подпространстве L ⊂ Cn существуют век-
торы xmin и xmax , принадлежащие L и такие, что
ΦA (xmin )  ΦA (x)  ΦA (xmax ) ∀ x ∈ L, x = 0.

Доказательство. Функция ΦA (x) непрерывна на единичной


сфере ||x||2 = 1 конечномерного пространства L. По теореме
Вейерштрасса она принимает там наименьшее и наибольшее зна-
чения в каких-то точках xmin и xmax . Легко проверить, что эти
точки являются искомыми. 
Теорема Куранта–Фишера. Собственные значения λ1 (A)  . . .
. . .  λn (A) эрмитовой матрицы A ∈ Cn×n связаны с отноше-
нием Рэлея ΦA (x) следующим образом:
λk (A) = max min ΦA (x) = min max ΦA (x). (3)
dim L=k x∈L, x=0 dim L=n−k+1 x∈L, x=0

11 Е. Е. Тыртышников
322 Лекция 37

Доказательство. Пусть v1 , . . . , vn ∈ Cn — ортонормированный


базис собственных векторов матрицы A: Avi = λi vi , 1  i  n.
Пусть Lk = L(v1 , . . . , vk ) и x = α1 v1 + . . . + αk vk ∈ Lk , x = 0.
Тогда
λ |α |2 + . . . + λk |αk |2
ΦA (x) = 1 1 2  λk ,
|α1 | + . . . + |αk |
2

ΦA (vk ) = λk ⇒ min ΦA (x) = λk .


x∈Lk , x=0

Рассмотрим также подпространство Mk = L(vk , . . . , vn ) размер-


ности n − k + 1. Пусть x = αk vk + . . . + αn vn ∈ Mk , x = 0. Тогда
λk |αk |2 + . . . + λn |αn |2
ΦA (x) =  λk , ΦA (vk ) = λk ⇒
|αk |2 + . . . + |αn |2
⇒ max ΦA (x) = λk .
x∈Mk , x=0

Пусть теперь L — произвольное подпространство размерности k .


В силу теоремы Грассмана dim(L ∩ Mk )  1 ⇒ существует
ненулевой вектор z ∈ L ∩ Mk . Тогда
min ΦA (x)  ΦA (z)  max ΦA (x) = λk .
x∈L, x=0 x∈Mk , x=0
Таким образом, первое из соотношений (3) доказано.
Чтобы получить второе соотношение, возьмем произвольное
подпространство L размерности n − k + 1. Тогда существует
ненулевой вектор z ∈ L ∩ Lk ⇒
max ΦA (x)  ΦA (z)  min ΦA (x) = λk . 
x∈L, x=0 x∈Lk , x=0

37.3. Возмущения собственных значений


Теорема 1 (Вейль). Если λ1  . . .  λn и μ1  . . .  μn — соб-
ственные значения эрмитовых матриц A и B , то
|λi − μi |  ||A − B||2 , 1  i  n.

Доказательство. Достаточно заметить, что ΦA (x)  ΦB (x) +


+ ||A − B||2 и ΦB (X)  ΦA (x) + ||A − B||2 . После этого все
следует из теоремы Куранта–Фишера. 
Предположим, что собственные значения эрмитовой матри-
цы A вычисляются с помощью какого-то метода, в котором на
заключительном этапе возникает эрмитова матрица B и μi рас-
сматривается как приближение к λi . В этом случае теорема дает
оценки абсолютных погрешностей полученных приближений.
37.4. Соотношения разделения 323

Можно оценить и относительные погрешности приближений


μi ≈ λi = 0. Предположим, что B имеет вид X ∗ AX (например,
в методе вращений находится «почти диагональная» матрица
B именно такого вида). Если X является унитарной матрицей,
то, конечно, λi = μi . Однако в условиях реальных вычислений
унитарность нарушается, и в этом случае можно надеяться лишь
на то, что ε = ||X ∗ X − I||2 мало.
Теорема 2. Пусть B = X ∗ AX и ε = ||X ∗ X − I||2 , где матри-
ца X невырожденная. Тогда если λi = 0, то
|μi − λi |
 ε.
|λi |

Доказательство. Матрица Z ≡ A − λi I вырожденная ⇒


матрица
X ∗ ZX = (B − μi I) + λi (I − X ∗ X)
тоже вырожденная. Очевидно, что i-е собственное значение Z
равно нулю. Согласно закону инерции, равно нулю также i-е
собственное значение X ∗ ZX . Остается применить предыдущую
теорему для i-х собственных значений эрмитовых матриц X ∗ ZX
и B − μi I . Заметим, что они равны μi − λi и 0 соответственно.
Кроме того,
||X ∗ ZX − (B − μi I)||2 = |λi |||X ∗ X − I||2 . 

37.4. Соотношения разделения


Теорема. Пусть эрмитова матрица A ∈ Cn×n имеет собствен-
ные значения
λ1  . . .  λn ,
и пусть B ∈ C(n−1)×(n−1) — ее эрмитова подматрица в блоч-
ном разбиении вида (1), имеющая собственные значения
μ1  . . .  μn−1 .
Тогда имеют место соотношения разделения
λ1  μ1  λ2  μ2  . . .  λn−1  μn−1  λn .

Доказательство. Обозначим через M подпространство векто-


ров x = [x1 , . . . , xn ] , определяемое уравнением xn = 0. Пусть
отображение ν : Cn → Cn−1 задается правилом ν(x) = [x1 , . . .
. . . , xn−1 ] . Тогда очевидно, что если x ∈ M , то ΦA (x) =
= ΦB (ν(x)).
11*
324 Лекция 37

Пусть 1  k  n − 1. Согласно теореме Куранта–Фишера на-


ходим
λk = max min ΦA (x)  max min ΦA (x) =
dim L=k x∈L, x=0 dim L=k, L⊂M x∈L, x=0

= max min ΦB (ν(x)) =


dim L=k, L⊂M x∈L, x=0

= max min ΦB (y) = μk .


dim L=k, L⊂Cn−1 y∈L, y=0

Пусть теперь 2  k  n. Согласно той же теореме Куранта–


Фишера
λk = min max ΦA (x) 
dim L=n−k+1 x∈L, x=0

 min max ΦA (x) =


dim L=n−k+1, L⊂M x∈L, x=0

= min max ΦB (ν(x)) =


dim L=n−k+1, L⊂M x∈L, x=0

= min max ΦB (y) = μk−1 . 


dim L = (n − 1) − (k − 1) + 1 y∈L, y=0
L ⊂ Cn−1

В качестве простого следствия можно получить еще одно


доказательство достаточности уже известного нам критерия по-
ложительной определенности эрмитовой матрицы: для положи-
тельной определенности необходимо и достаточно, чтобы все
ведущие миноры были положительны.
Пусть λ1k  . . .  λkk — собственные значения ведущей под-
матрицы Ak порядка k . Достаточно доказать, что λkk > 0. Пусть
известно, что все ведущие миноры положительны:
det Ak = λ1k · . . . · λkk > 0, 1  k  n.
Очевидно, что λ11 > 0. Пусть уже доказано, что λk−1 k−1 > 0.
В силу соотношений разделения λk−1 k  λk−1 k−1 > 0. Далее,
det Ak = (λ1k · . . . · λk−1 k ) λkk > 0 ⇒ λkk > 0. 
Задача 1. Пусть σ1  ...  σn — сингулярные числа (n × n)-
матрицы
⎡ ⎤
1 2
⎢ 1 2 ⎥
⎢ ⎥

A=⎢ . .. .. ⎥
.
⎥.
⎣ 1 2⎦
1
37.5. Критерий неотрицательной определенности 325

Докажите, что 1  σn−1  ...  σ1  3 и, кроме того, 0 < σn < 2−n+1 .


Задача 2. Пусть Ak — ведущая подматрица порядка k эрмито-
вой матрицы A порядка n. Докажите, что если в последовательности
1, det A1 , ... , det An нет нулей, то число перемен (совпадений) знака
соседних членов равно числу отрицательных (положительных) соб-
ственных значений матрицы A. 1)

37.5. Критерий неотрицательной определенности


Легко видеть, что ведущие подматрицы наследуют также свойство
неотрицательной определенности. Поэтому для неотрицательной опре-
деленности эрмитовой матрицы необходимо, чтобы ее ведущие миноры
0 0
были неотрицательными. Однако пример матрицы A = 0 −1
показывает, что для неотрицательной определенности этого уже
недостаточно. Кроме ведущих миноров, теперь нужно вовлечь
в рассмотрение также все главные миноры и главные подматрицы —
так называются миноры и подматрицы, расположенные на пересечении
строк и столбцов с одинаковой системой номеров. Заметим, что
в эрмитовой матрице все главные подматрицы будут эрмитовы.
Лемма 1. Пусть r = rankA. Тогда подматрица порядка r , расположен-
ная на пересечении любых r линейно независимых строк и любых r
линейно независимых столбцов, будет невырожденной.
Доказательство. Обозначим эту подматрицу через B , и пусть R —
подматрица размеров r × n, образованная заданными строками. Каж-
дый столбец A есть линейная комбинация столбцов, на которых нахо-
дится B ⇒ каждый столбец R есть линейная комбинация столбцов B .
Поэтому если k ≡ rankB < r , то каждый столбец R есть линейная
комбинация k базисных столбцов подматрицы B ⇒ rankR < r ⇒
строки R линейно зависимы, а это противоречит предположению. 
Лемма 2. Среди отличных от нуля миноров порядка r эрмитовой
матрицы ранга r имеется главный минор.
Доказательство. Пусть A = A∗ . Тогда если r строк (столбцов) ли-
нейно независимы, то r столбцов (строк) с теми же номерами также
линейно независимы. По лемме 1 минор на их пересечении отличен от
нуля. Он же, очевидно, главный. 
Лемма 3. Пусть A — невырожденная эрмитова матрица порядка
n  2, в которой главные миноры порядка k для всех k от 1 до n − 1
равны нулю. Тогда n = 2 и det A < 0.
Доказательство. Пусть λ1  . . .  λn — собственные значения мат-
рицы A. Если λk > 0 при каком-то k из промежутка от 2 до n, то из
соотношений разделения следует, что все главные подматрицы порядка
k − 1 имеют положительные собственные значения и поэтому являются

1)
Данное утверждение известно как сигнатурное правило Якоби.
326 Лекция 37

невырожденными. Если λ1 < 0, то все главные миноры отличны от


нуля. Таким образом,
λ 1 > 0 > λ2  . . .  λ n .
В то же время, если главные миноры первого и второго порядка равны
нулю, то любая главная подматрица второго порядка нулевая:
 
0 a
det a 0 = −|a|2 = 0 ⇒ a = 0.

Из соотношений разделения получаем: λ2  0. Поскольку противоречие


возникает при n > 2, должно быть n = 2. В этом случае det A = λ1 λ2 <
< 0. 
Теорема. Для неотрицательной определенности эрмитовой матри-
цы необходимо и достаточно, чтобы все ее главные миноры были
неотрицательны.
Доказательство. Необходимость ясна, так как свойство неотрица-
тельной определенности наследуется любой главной подматрицей. До-
кажем достаточность.
Пусть λ1  . . .  λn — собственные значения матрицы A.
Пусть r = rankA. По лемме 2 имеется невырожденная главная
подматрица порядка r . Обозначим ее через B . По лемме 3, если
r > 2, в B существует невырожденная главная подматрица порядка
r − 1. Отсюда ясно, что с помощью некоторой матрицы перестановки
P из B можно получить эрмитову матрицу P  BP , в которой все
ведущие миноры отличны от нуля и, следовательно, положительны.
В силу критерия положительной определенности B является положи-
тельно определенной матрицей ⇒ все ее собственные значения
положительны ⇒ λr−1 > 0. Если λr < 0, то и λr+1 < 0 ⇒
rankA > r. Значит, λr > 0 и λr+1 = . . . = λn = 0. Неотрицательность
всех собственных значений эрмитовой матрицы влечет за собой ее
неотрицательную определенность. 

37.6. Вариационные свойства сингулярных чисел


Теорема. Пусть A ∈ Cm×n имеет сингулярные числа
σ1 (A)  . . .  σmin(m,n) (A).
Тогда при всех 1  k  min(m, n)
||Ax||2 ||Ax||2
σk (A) = max min = min max .
dim L=k x∈L, x=0 ||x||2 dim L=n−k+1 x∈L, x=0 ||x||2
!
Доказательство. Заметим, что σk (A) = λk (A∗ A) . Очевидно
также, что 4
||Ax||2 x∗ (A∗ A)x
= , x = 0.
||x||2 x∗ x
37.7. Разделение сингулярных чисел 327

Таким образом, все сразу же следует из вариационных свойств


собственных значений эрмитовой матрицы A∗ A. 
Задача 1. Пусть A ∈ Cn×n и fk (A) = σ1 (A) + . . . + σk (A). Дока-
жите, что для любого 1  k  n функция fk (A) является матричной
нормой на Cn×n .
Задача 2. Докажите, что для любой квадратной матрицы A наи-
меньшее собственное значение ее эрмитовой части H = (A + A∗ )/2 не
больше наименьшего сингулярного числа матрицы A.

37.7. Разделение сингулярных чисел


Теорема. Пусть A ∈ Cm×n и B ∈ Cm×(n−1) — подматрица,
состоящая из первых n − 1 столбцов матрицы A. Тогда для
сингулярных чисел A и B имеют место соотношения разде-
ления
σ1 (A)  σ1 (B)  σ2 (A)  . . .  σn−1 (B)  σn (A).

Доказательство. Согласно условию теоремы A имеет вид A =


= [B , v], где v — ее последний столбец. Значит,



∗ B B B B∗v
A A = v ∗ [B v] = v ∗ B v ∗ v .
Искомые неравенства получаются из соотношений разделения
для эрмитовой матрицы A∗ A порядка n и ее ведущей подматри-
цы B ∗ B порядка n − 1. 
Обратите внимание на то, что в теоремах о разделении соб-
ственных значений и сингулярных чисел речь идет о разных
подматрицах. Если m = n и An−1 — ведущая подматрица по-
рядка n − 1, то ее сингулярные числа не обязаны разделять
сингулярные числа A. Действительно, в данном случае теорема
устанавливает факт разделения для [n × (n − 1)]-подматрицы B ,
содержащей все столбцы A, кроме последнего. Эта же теорема
устанавливает факт разделения для B  и A n−1 или, что то же
самое, для B и An−1 . В частности,
σn−1 (An−1 )  σn (B) = 0.
Что-либо сказать о том, как соотносятся σn−1 (An−1 ) и σn (A),
в общем случае нельзя! Можно утверждать лишь, что
σn−2 (An−1 )  σn (A),
или, в общем виде,
σk (A)  σk (An−1 )  σk+2 (A), 1  k  n − 2.
Л е к ц и я 38

38.1. Сопряженный оператор


Пусть A : V → W — произвольный оператор, а V и W —
пространства со скалярными произведениями (· , ·)V и (· , ·)W .
Попробуем построить оператор A∗ : W → V , обладающий свой-
ством
(A(x), y)W = (x, A∗ (y))V ∀ x ∈ V , ∀ y ∈ W. (∗)
Утверждение. Если оператор A∗ существует, то он является
линейным и единствен.
Доказательство. (A∗ (αu + βv), x)W = (αu + βv , A(x))V =
= α(u, A(x))V + β(v , A(x))V = α(A∗ (u), x)W + β(A∗ (v), x)W =
= (αA∗ (u) + βA∗ (v), x)W . Положим z = A∗ (αu + βv) − αA∗ (u) −
− βA∗ (v). Мы доказали, что (z , x)V = 0 ∀ x ∈ V . Это верно,
в частности, для x = z ⇒ (z , z)V = 0 ⇒ z = 0.
Докажем единственность. Предположим, что для некоторого
y ∈ W имеем: (A(x), y)W = (x, z1 )V = (x, z2 )V ∀ x ∈ V . Тогда,
взяв x = z1 − z2 , находим: (x, x)V = 0 ⇒ z1 = z2 . 
Следствие. Если операторы A : V → W и A∗ : W → V связаны
соотношением (∗), то они оба являются линейными.
Типичная ситуация, в которой сопряженный оператор очень
полезен, такова. Предположим, имеется операторное уравнение
A(u) = f с обратимым оператором A и при этом для различных
правых частей f требуется вычислить значение линейного функ-
ционала
Φ(u) = (u, ϕ)V ,
заданного одним и тем же вектором ϕ.
Определение сопряженного оператора (A(u), z)W = (u, A∗ (z))
приводит к следующей идее: вместо того чтобы многократно
решать уравнение A(u) = f для различных f , рассмотреть со-
пряженное уравнение A∗ (z) = ϕ, найти его решение z , а затем
38.1. Сопряженный оператор 329

использовать формулу

Φ(u) = (f , z)W .

Замечательно, что Φ(u) можно найти, не вычисляя u. 1)


Теорема. Пусть A : V → W — линейный оператор. Если про-
странства V и W конечномерны, то оператор A∗ , удовлетво-
ряющий равенству (∗), существует и единствен. При этом
в паре ортонормированных базисов сопряженному оператору
соответствует сопряженная матрица.
Доказательство. Пусть v1 , . . . , vn — ортонормированный базис
в V , а w1 , . . . , wm — ортонормированный базис в W . Обозначим
через A = [aij ] ∈ Cm×n матрицу оператора A в данной паре
базисов. В силу ортонормированности

aij = (Avj , wi ), 1  i  m, 1  j  n.

Чтобы определить оператор A∗ , рассмотрим разложение A∗ wi =


= α1 v1 + . . . + αn vn . Умножая обе части скалярно на vj , находим:
αj = (A∗ wi , vj ) = (wi , Avj ), 1  j  n. Таким образом, матрица
B = [bji ] линейного оператора A∗ в паре базисов {wi } и {vj }
должна иметь элементы

bji = (wi , Avj ) = (Avj , wi ) = aij ⇒ B = A∗ .

Ясно также, что мы получили единственность оператора A∗ .


Существование доказывается так: рассмотрим оператор, задан-
ный матрицей A∗ , и проверим, что для него выполняется равен-
ство (∗):


n 
m
x= xj vj , y = yi wi ⇒
j=1 i=1


n 
m
⇒ (Ax, y)W = aij xj y i = (x, A∗ y)V ,
j=1 i=1

что и требовалось доказать. 

1)
Глубокие результаты по применению сопряженных уравнений, во многом
навеянные данной общей идеей, получил академик Гурий Иванович Марчук —
последний президент Академии наук СССР.
330 Лекция 38

38.2. Матрица сопряженного оператора


Пусть V = Cn и W = Cm . Как мы знаем, произвольные
скалярные произведения в Cn и Cm имеют вид
(p, q)V = q ∗ Sp, (y , z)W = z ∗ T y ,
где S ∈ Cn×n и T ∈ Cm×m — эрмитовы положительно определен-
ные матрицы.
Пусть линейный оператор A : Cn → Cm определяется умно-
жением на матрицу A ∈ Cm×n , а сопряженный оператор — умно-
жением на матрицу B ∈ Cn×m . Тогда для любых x ∈ Cn и y ∈ Cm
должно быть
y ∗ T (Ax) = (By)∗ Sx ⇒ y ∗ (T A)x = y ∗ (B ∗ S)x ⇒
⇒ T A = B ∗ S ⇒ B = S −1 A∗ T.
Разные скалярные произведения в Cn и Cm приводят, конеч-
но, к разным сопряженным операторам — но, как видим, любой
из них есть умножение на матрицу вида S −1 A∗ T , где S и T —
эрмитовы положительно определенные матрицы, задающие ска-
лярные произведения.
Пусть A — матрица линейного оператора A : V → W ,
dim V = n, dim W = m, в какой-то паре базисов. Если x и y —
вектор-столбцы из координат разложения прообраза и образа при
действии A, то получаем: y = Ax. Пусть теперь x = By . Тогда
Sx = A∗ T y ⇒ замена x  = Sx, y = T y приводит к соотношению
 = A∗ y
x ⇒ в паре базисов, определенных столбцами
матриц T −1 и S −1 , матрица оператора A∗ имеет вид A∗ .
Легко видеть, что это базисы, биортогональные (в скалярных
произведениях пространств W и V соответственно) для базисов,
в которых получена матрица A (см. п. 25.7).

38.3. Нормальный оператор


Пусть A : V → V — линейный оператор, V — пространство
со скалярным произведением (· , ·)V . Если AA∗ = A∗ A, то A
называется нормальным оператором. Данное свойство зависит
от скалярного произведения: в другом скалярном произведении
оператор A может не быть нормальным.
Задача 1. Пусть A : V → V — линейный оператор в произвольном
конечномерном унитарном пространстве V . Докажите, что существует
ортонормированный базис, в котором матрица оператора A является
верхней треугольной.
38.4. Самосопряженный оператор 331

Изучение нормальных операторов легко сводится к изучению


нормальных матриц: достаточно выбрать в V ортонормиро-
ванный базис, тогда нормальность оператора будет равносильна
нормальности его матрицы в данном базисе. Отсюда ясно, что
нормальный оператор является оператором простой структуры.
Заметим также, что любой оператор простой структуры можно
сделать нормальным за счет выбора скалярного произведения
(докажите!).
Важнейшие классы нормальных операторов: унитарные опе-
раторы (A∗ = A−1 ) и эрмитовы (самосопряженные) операторы
(A∗ = A). Пусть A — нормальный оператор. Легко доказывается,
что унитарность оператора A равносильна тому, что все
его собственные значения по модулю равны 1, а эрмитовость
равносильна вещественности собственных значений. Подчерк-
нем, что унитарность и эрмитовость оператора зависят от выбора
скалярного произведения.

38.4. Самосопряженный оператор


Если (Ax, y)V = (x, Ay)V ∀ x, y ∈ V , то, в силу един-
ственности сопряженного оператора, A∗ = A. В таких случаях
A называется самосопряженным оператором. Если (Ax, x) > 0
при всех x ∈ V , x = 0, то оператор называется положительно
определенным.
Если V = Cn и скалярное произведение (x, y)S = y ∗ Sx опре-
деляется с помощью эрмитовой положительно определенной мат-
рицы S ∈ Cn×n , то согласно полученным ранее результатам са-
мосопряженность оператора умножения на матрицу A ∈ Cn×n
означает, что
A = S −1 A∗ S. (∗)
Заметим, что равенство S −1/2 S S −1/2 = I показывает, что
столбцы матрицы S −1/2 образуют ортонормированный базис от-
носительно скалярного произведения (· ·)S . Матрица B операто-
ра умножения на A в данном базисе определяется равенством
AS −1/2 = S −1/2 B ⇒ B = S 1/2 AS −1/2 .
Самосопряженность означает, что B должна быть эрмитовой
матрицей, — это легко также вывести непосредственно из (∗).
Как видим, матрица A подобна эрмитовой матрице B ⇒ все
ее собственные значения вещественны.
332 Лекция 38

38.5. Минимизация на подпространствах


Обсудим важную идею, позволяющую строить методы реше-
ния системы Ax = b, совсем непохожие на известный нам метод
Гаусса. Пусть A ∈ Cn×n — невырожденная матрица.
Пусть x0 — произвольный начальный вектор. Вектор b − Ax0
называется невязкой вектора x0 . Если r0 = b − Ax0 = 0, то
решение найдено. Если r0 = 0, начинаем строить так называемые
подпространства Крылова 1)
Lk = L(r0 , Ar0 , . . . , Ak−1 r0 ), k = 1, 2, . . . ,
и будем определять xk ∈ x0 + Lk из следующего условия:
||b − Axk ||2 = min ||b − Az||2 = min ||r0 − Ay||2 .
z∈x0 +Lk y∈Lk
Очевидно, что вычисление вектора xk сводится к задаче о пер-
пендикуляре, опущенном из вектора r0 на подпространство
Mk = ALk = {y ∈ Cn : y = Az , z ∈ Lk }.
Как решать такую задачу мы уже знаем. Понятно также, что
решение существенно облегчается наличием «удобного» базиса
p1 , . . . , pk в Lk (например, приводящего к ортогональной системе
Ap1 , . . . , Apk ).
В условиях точных вычислений процесс всегда завершается
получением решения x.
Утверждение. xk = x ⇔ Lk = Lk+1 .
Доказательство. Если Ln = Cn , то, очевидно, xn = x. Если на
каком-то шаге Lk = Lk+1 , то
ALk ⊂ Lk+1 = Lk ⇒ ALk = Lk
(в силу невырожденности матрицы A).
Поскольку r0 ∈ Lk , то для какого-то y ∈ Lk получаем: Ay = r0
⇒ A(x0 + y) = (b − r0 ) + r0 = b ⇒ x = x0 + y .
Теперь предположим, что k — минимальный индекс, для
которого x ∈ x0 + Lk . Последнее равносильно условию r0 ∈ ALk .
При этом в разложении r0 = α0 Ar0 + ... + αk−1 Ak r0 коэффициент
αk−1 не равен нулю, иначе k не был бы минимальным индексом.
Отсюда Ak r0 ∈ Lk ⇒ Lk = Lk+1 . 
Обратим внимание на то, что xk часто оказывается хорошим
приближением к решению x при k  n. Описанный метод ми-
1)
Заметим, что Lk есть подпространство минимального инвариантного под-
пространства, порожденного вектором r0 . В лекции 32 было доказано, что если
Ak r0 = 0, то отличие от нуля векторов r0 , Ar0 , . . . , Ak−1 r0 влечет за собой их
линейную независимость.
38.6. Метод сопряженных градиентов 333

нимальных невязок является ключевым для современных техно-


логий решения систем в многочисленных прикладных задачах.

38.6. Метод сопряженных градиентов


Рассмотренная выше идея приобретает особенно элегантную
форму в случае, когда A — эрмитова положительно определенная
матрица.
Будем строить подпространства Крылова
Lk = L(r0 , Ar0 , . . . , Ak−1 r0 ) = L(p1 , . . . , pk ),
последовательно получая в них базис p1 , . . . , pk со следующим
свойством:
(Api , pj ) = 0, i = j ; p1 = r0 .
Поскольку (x, y)A = (Ax, y) есть скалярное произведение, дан-
ное свойство называется свойством A-ортогональности век-
торов p! -нормой вектора x называется величина
1 , . . . , pk ; A!
||x||A = (x, x)A = (Ax, x) .
Пусть xk имеет вид xk = x0 + yk , где yk ∈ Lk выбирается
таким образом, чтобы минимизировать величину ||x − xk ||A =
= ||(x − x0 ) − yk ||A (A-норму отклонения xk от точного ре-
шения x). Ясно, что это задача о перпендикуляре в случае
A-ортогональности. Поэтому yk определяется из уравнений
((x − x0 ) − yk , pi )A = 0 ⇔ (r0 − Ayk , pi ) = 0, 1  i  k ,
равносильных условию
rk = b − Axk ⊥ Lk .
Достаточно заметить, что rk = r0 − Ayk .
Записав y = α1 p1 + . . . + αk pk , находим: αi =(r0 , pi )/(Api , pi ).
Следовательно, векторы xk можно вычислять по очень простой
рекуррентной формуле
xk = xk−1 + αk pk , αk = (r0 , pk )/(Apk , pk ).
Отсюда видно, что невязки rk = b − Axk при разных k связаны
рекуррентной формулой
rk = rk−1 − αk Apk .
Удивительно и приятно то, что для вычисления xk требуется
лишь один вектор pk из базиса p1 , . . . , pk ! Но еще более удиви-
тельно и приятно то, что pk+1 можно найти, используя лишь два
вектора: pk и rk .
В самом деле, если rk = 0, то решение найдено (согласно
утверждению предыдущего пункта, rk = 0 ⇔ Lk = Lk+1 ).
334 Лекция 38

Если же rk = 0, то невязка rk = r0 − Ay является ортогональ-


ной подпространству Lk и поэтому pk+1 можно записать в виде
pk+1 = rk + β1 p1 + . . . + βk pk .
Условие A-ортогональности дает равенства
(Apk+1 , pi ) = 0 ⇒ βi = −(Ark , pi )/((Api , pi ), 1  i  k.
При этом (Ark , pi ) = (rk , Api ) = 0 при i  k − 1, так как вектор
Api ∈ ALi ⊂ Li+1 . Таким образом, βi = 0 при 1  i  k − 1 ⇒
pk+1 = rk + βk pk , βk = −(rk , Apk )/(Apk , pk ).

38.7. Двучленные формулы


Заметим, что для вычисления αk совсем не обязательно ис-
пользовать формулу αk = (r0 , pk )/(Apk , pk ). Поскольку rk ⊥Lk ,
находим: 0 = (rk , pk ) = (rk−1 − αk Apk , pk ). Тогда
(rk−1 , pk ) (r , r + βk−1 pk−1 ) (r , r )
αk = = k−1 k−1 = k−1 k−1 .
(Apk , pk ) (Apk , pk ) (Apk , pk )
Далее, если rk−1 = 0, то αk = 0 ⇒ Apk = (rk−1 − rk )/αk .
Тогда
(r , r − rk ) (rk , rk )
βk = − k k−1 = .
αk (Apk , pk ) (rk−1 , rk−1 )
Окончательно метод сопряженных градиентов сводится к ите-
рациям, выполняемым по следующим двучленным формулам:
(rk−1 , rk−1 )
xk = xk−1 + αk pk , αk = ,
(Apk , pk )
rk = rk−1 − αk Apk ,
(rk , rk )
pk+1 = rk + βk pk , βk = .
(rk−1 , rk−1 )
Теоретически итерации выполняются до тех пор, пока rk = 0. На
практике они останавливаются, когда величина ||rk ||2 становится
достаточно малой.
Наиболее сложное действие на k -м шаге метода сопряженных
градиентов — это умножение заданной матрицы A на вектор.
При этом совсем не обязательно хранить все n2 элементов матри-
цы в массиве — требуется лишь наличие процедуры умножения
матрицы на вектор. Именно в этом плане итерационные методы
существенно отличаются от метода Гаусса, это же обстоятель-
ство делает их особенно полезными при решении систем с очень
большим числом неизвестных.
Л е к ц и я 39

39.1. Спектральные задачи


Множество собственных значений матрицы называется также
ее спектром, а любые задачи и свойства, связанные с соб-
ственными значениями и векторами, называются спектральными.
В этом свете термин «спектральная норма матрицы» вполне
понятен: норма ||A||2 равна старшему сингулярному числу мат-
рицы A (квадратному корню из старшего собственного значения
матрицы AA∗ ).
Методы решения спектральных задач обычно основаны на
редукции задачи к аналогичной задаче для матрицы «простого
вида», для которой задача решается уже очевидным образом. Су-
щественное отличие от задач, связанных с системами линейных
алгебраических уравнений, заключается в том, что в спектраль-
ных задачах редукция почти всегда содержит бесконечное число
шагов. На практике это означает, что с помощью конечного
числа шагов исходная матрица приводится к матрице все еще
достаточно общего вида, но такой, что путем замены «малых»
элементов на нули из нее получается искомая матрица «простого
вида».
Таким образом, при решении спектральных задач очень важ-
но знать, как изменяются спектральные свойства при малых
возмущениях элементов матрицы. Прежде всего, что будет с соб-
ственными значениями? Этот вопрос, очевидно, связан с вопро-
сом об изменении корней многочлена при изменении коэффици-
ентов.
Пусть x1 , . . . , xn и y1 , . . . , yn — полные системы корней
(с учетом кратностей) двух многочленов степени n. Базой для
изучения «близких» систем корней может служить разумным
образом определенное расстояние между n-элементными систе-
мами. Например, такое:
336 Лекция 39
  
x1 y1
ρp ( x, y ) = min ||x − Qy||p , x = ... , y = ... ,
Q
xn yn
минимум берется по всем матрицам перестановок Q порядка n,
p  1.

39.2. Непрерывность корней многочлена


Лемма 1. Любой корень ζ многочлена f (z) = a0 + a1 z + . . .
. . . + an−1 z n−1 + z n удовлетворяет неравенству
!
|ζ|  max ||a||1 , n ||a||1 , ||a||1 = |a0 | + |a1 | + . . . + |an−1 |.

Доказательство. Пусть f (ζ) = 0 ⇒ |ζ|n  |a0 | + |a1 ||ζ| + . . .


. . . + |an−1 ||ζ|n−1 . Если |ζ|  1, то получаем: |ζ|n  ||a||1 . Если
|ζ| > 1, то |ζ|n  ||a||1 |ζ|n−1 ⇒ |ζ|  ||a||1 . 

n 
n
Если даны многочлены f (z) = ai z i , g(z) = bi z i , то
i=0 i=0
пусть, по определению,

n
||f − g||1 = |ai − bi |.
i=0

Предположим далее, что an = bn = 1. Корни f (z) и g(z)


обозначим через x1 , . . . , xn и y1 , . . . , yn и составим из них
векторы-столбцы x = [x1 , . . . , xn ] и y = [y1 , . . . , yn ] .

Лемма 2. Существует перестановка i1 , . . . , in номеров 1, . . .


. . . , n такая, что

n 
n
|xk − yik |  |gk (xk )|1/(n+1−k) ,
k=1 k=1

где g1 (z) = g(z) и gk (z) = gk+1 (z)(z − yik ), 1  k  n − 1.


Доказательство. Если |x1 − yi1 | = min |x1 − yi |, то |g(x1 )| =
n  1in
$ 
=  (x1 − yi )  |x1 − yi1 |n ⇒ |x1 − yi1 |  |g(x1 )|1/n . Пусть
i=1
f1 (z) = f (z) и fk (z) = fk+1 (z)(z − xk ), 1  k  n − 1. Тогда,
39.2. Непрерывность корней многочлена 337
 
$ 
 
если |x2 − yi2 | = min |x2 − yi |, то |g2 (x2 )| =  (x2 − yi )  |x2 −
i=i1 i=i1 
− yi2 | n− 1 ⇒ |x2 − yi2 |  |g2 (x2 )| 1/(n− 1) . И т. д. 

Лемма 3. Пусть ζ и η — корни многочленов f (z) и g(z),


и пусть многочлены ϕ(z) и ψ(z) определены равенствами
f (z) = ϕ(z) (z − ζ) и g(z) = ψ(z) (z − η). Тогда для некоторого
числа C > 0, зависящего только от f и ζ ,
||ϕ − ψ||1  C (α + β), α = ||f − g||1 , β = |ζ − η|,
для всех достаточно малых α и β .
Доказательство. Пусть

n 1
n− 
n 1
n−
i i i
f (z) = ai z , ϕ(z) = ci z , g(z) = bi z , ψ(z) = di z i .
i=0 i=0 i=0 i=0
Тогда
ai = ci−1 − ci ζ , bi = di−1 − di η , 0  i  n,
если условиться, что c−1 = cn = 0 = d−1 = dn . Отсюда получаем
ci−1 − di−1 = (ai − bi ) + (ci − di )ζ + di (ζ − η), 1  i  n. (∗)
Учитывая оценку леммы 1 для ζ и непрерывную зависимость
коэффициентов di от коэффициентов b0 , ..., bn , заключаем, что
при всех достаточно малых α и β величины |di | и |ζ| ограничены
сверху некоторой константой c > 0. Согласно (∗)
|cn−1 − dn−1 |  α + cβ ,
|cn−2 − dn−2 |  α + c(α + cβ) + cβ = (1 + c)(α + cβ),
|cn−3 − dn−3 |  α + c(1 + c)(α + cβ) + cβ = (1 + c + c2 )(α + cβ),
......................................................
|c0 − d0 |  (1 + c + c2 + ... + cn−1 )(α + cβ). 

Теорема. Для любого достаточно малого ε > 0 существует


δ > 0 такое, что если ||f − g||1  δ , то ρ1 (x, y)  ε.
Доказательство. Рассмотрим многочлены gk (z) и fk (z), возник-
шие в формулировке и доказательстве леммы 2. Очевидно, что
fk (xk ) = 0. Поэтому

n 
n
ρ1 (x, y)  |xk − yik |  |fk (xk ) − gk (xk )|1/(n+1−k) .
k=1 k=1
338 Лекция 39

Фиксируем f (z) и рассмотрим многочлены g(z) с достаточно


малой нормой ||f − g||1 (старшие коэффициенты многочленов
равны 1). Согласно лемме 1 все корни многочленов g(z) ограни-
чены. Ясно, что |fk (xk ) − gk (xk )|  c||fk − gk ||1 с некоторой кон-
стантой c > 0. Применяя лемму 3, находим, что ||fk+1 − gk+1 ||1
стремится к нулю, если ||fk − gk ||1 стремится к нулю. Поэтому
max ||fk − gk ||1 стремится к нулю, если ||f − g||1 стремится
1kn
к нулю. 
Замечание. Более тонкое рассуждение позволяет получить
оценку
1/n
ρ1 (x, y)  cn||f − g||1 ,
в которой показатель 1/n улучшить нельзя. Например, пусть
f (z) = (z − ζ)n и g(z) = (z − ζ)n − ε, ε > 0. Тогда, если η —
корень g(z), то |η − ζ| = ε1/n . Даже при малом ε величина ε1/n
может оказаться не такой уж малой. Например, если ε = 10−10 ,
то при n = 10 получаем: ε1/n = 0.1, а при n = 100 и n = 1000
это будет ≈ 0.79 и ≈ 0.98 соответсвенно.
$
20
Пример Дж. Х. Уилкинсона. Многочлен f (z) = (z − i) имеет n
i=1
различных вещественных корней. Несмотря на доказанный нами факт
непрерывной зависимости корней от коэффициентов, при практически
малых возмущениях корни могут изменяться очень сильно. В данном
случае ситуацию легко проанализировать, воспользовавшись теоремой
математического анализа о неявной функции. Пусть x = x(t) — корень
многочлена gt (z) = f (z) + tz 19 , являющийся возмущением корня x(0) в
случае возмущения лишь одного коэффициента исходного многочлена.
Функция x = x(t) — типичный пример неявной функции, заданной
уравнением

F (x, t) = 0, где F (x, t) = f (x) + tx19 .


∂F dx ∂F dx ∂F ∂F
Отсюда находим: + =0⇒ = − / . В нашем случае
∂x dt ∂t dt ∂t ∂x

20  
∂F ∂F 
= (x − i) + 19 t x19 ⇒  = 19!.
∂x ∂x x,t=0
j=1 1  i  20
i = j

∂F 
Ясно также, что  = 2019 . Следовательно, при условии x(0) = 20
∂t x
находим

dx  2019
 =− ≈ −4.3 · 107 .
dt t=0 19!
39.4. Преобразования отражения и вращения 339

39.3. Возмущение спектра матрицы


Любые примеры чувствительности корней многочлена к возму-
щениям коэффициентов дают примеры чувствительности собственных
значений (спектра) матрицы к возмущениям ее элементов — достаточ-
но рассмотреть матрицу Фробениуса для данного многочлена.
При вычислении собственных значений, способных сильно изме-
ниться при малых возмущениях элементов матрицы, следует заду-
маться о том, в какой степени можно доверять полученному ответу.
Современная точка зрения на решение спектральных задач 1) связана
с изучением так называемых спектральных портретов: для заданной
матрицы A и параметра ε > 0 это множества вида

S(ε) = {z ∈ C : f (λ) ≡ σmin (A − zI)  ε},

где σmin (B) обозначает минимальное сингулярное число матрицы B .


Очевидно, что спектр матрицы A содержится в S(ε). Во многих
задачах не следует ожидать сколько-нибудь точного вычисления от-
дельных собственных значений. Однако возмущения порядка ε могут
дать матрицу с собственными значениями, изменяющимися в преде-
лах множества S(ε). Таким образом, ответ к задаче о вычислении
собственных значений полезно давать в графической форме — в виде
совокупности кривых, определенных условием f (λ) = ε при различных
ε > 0 (это так называемые линии уровня функции f (λ)).
Задача 1. Собственные значения вещественной симметричной
матрицы A попарно различны. Докажите, что при всех достаточно
малых по норме вещественных (но не обязательно симметричных)
возмущениях F собственные значения возмущенной матрицы A + F
будут вещественными.

39.4. Преобразования отражения и вращения


При решении спектральных задач для упрощения вида исходной
матрицы A обычно используют унитарное подобие — подобие сохраня-
ет спектр, а унитарность сохраняет сингулярные числа и, следователь-
но, не меняет спектральные портреты.
На практике унитарное подобие реализуется с помощью последо-
вательности матриц отражения или (комплексных) матриц вращения.
Выбор матриц отражения или вращения связан с желанием исключить
те или иные элементы. При этом одна матрица вращения позволяет
получить один нуль, а одна матрица отражения — нули сразу во всех,
кроме одной, позициях столбца или строки.

1)
Описание и развитие данной точки зрения можно найти в книге: Го-
дунов С.К. Современные аспекты линейной алгебры. Новосибирск: Научная
книга, 1997.
340 Лекция 39

Исключение с помощью вращений. Всегда существуют ком-


плексные числа ξ , η , |ξ| = |η| = 1, и вещественное число ϕ такие, что
для заданныхкомплексных чисел x1 , x2 получаем
     
cos ϕ − sin ϕ ξ 0 x1 y1
sin ϕ cos ϕ 0 η x2 = 0 .
Если x1 = 0, положим ξ = 1, в противном случае пусть ξ = |x1 |/x1 .
Аналогично, если x2 = 0, то ζ = 1, иначе пусть η = |x2 |/x2 . Таким
образом, числа ξx1 и ηx2 вещественные и даже неотрицательные.
Угол ϕ выбирается из условия (ξx1 ) cos ϕ + (ηx2 ) sin ϕ = 0.
Исключение с помощью отражений. Всегда существует вектор
v = [v1 , . . . , vn ] ∈ Cn , ||v||2 = 1, такой, что для заданных комплексных
чисел x1 , . . . , xn получаем
⎡ ⎤ ⎡ ⎤
x1 y1
∗ ⎢ x2 ⎥ ⎢0⎥
(I − 2vv ) ⎣ ... ⎦ = ⎣ ... ⎦ .
xn 0
Докажем более общее предложение: если x = [x1 , . . . , xn ] , y =
= [y1 , . . . , yn ] и ||x||2 = ||y||2 , то найдется вектор v такой, что
||v||2 = 1 и (I − 2vv ∗ )x = γy , где |γ| = 1.
Если x = γy , положим u = x − γy , v = u/||u||2 . Тогда
x − 2v(v ∗ x) = γy ⇒ 2v(v ∗ x) = u ⇒ 2(u∗ x) = ||u||22 .
Последнее уравнение позволяет найти γ :
2(x∗ x − γy ∗ x) = ||x||22 + ||y||22 − 2Re (γy ∗ x).
Поскольку ||x||2 = ||y||2 , отсюда вытекает, что число γy ∗ x веществен-
ное. Если y ∗ x = 0, то можно взять любое γ с модулем 1. В противном
случае у нас ровно две возможности: γ = y ∗ x/|y ∗ x| или γ = −
−y ∗ x/|y ∗ x|. 

39.5. Приведение к треугольному виду


Матрицу можно привести к треугольному виду путем последо-
вательного исключения элементов с помощью умножения ее слева
на матрицы отражения или вращения. При использовании отражений
умножений будет максимум n − 1, в случае вращений их не более
(n2 − n)/2.
Вот три шага исключения при n = 4 в случае отражений:
⎡ ⎤ ⎡ ⎤
a11 a12 a13 a14 b11 b12 b13 b14
⎢a21 a22 a23 a24 ⎥ ⎢0 b b b ⎥
⎣a ⎦ → ⎣ 0 b22 b23 b24 ⎦ →
31 a32 a33 a34 32 33 34
a41 a42 a43 a44 0 b42 b43 b44
⎡ ⎤ ⎡ ⎤
b11 b12 b13 b14 b11 b12 b13 b14
⎢0 c c c ⎥ ⎢0 c c c ⎥
→ ⎣ 0 022 c23 c24 ⎦ → ⎣ 0 022 d23 d24 ⎦ .
33 34 33 34
0 0 c43 c44 0 0 0 d44
39.7. Приведение к двухдиагональному виду 341

Данное построение является конструктивным доказательством су-


ществования QR-разложения матрицы. Оно полезно при решении ли-
нейных систем, особенно в задачах, связанных с методом наименьших
квадратов.

39.6. Приведение к почти треугольному виду


Унитарно подобное преобразование матрицы к треугольному виду
за конечное число шагов невозможно — иначе существовал бы ко-
нечный алгоритм получения собственных значений матрицы и корней
многочленов. Однако за конечное число шагов исключения элементов
можно получить унитарно подобную почти треугольную матрицу.
Например, при n = 4 преобразования выглядят так:
⎡ ⎤ ⎡ ⎤
a11 a12 a13 a14 a11 b12 b13 b14
⎢a a a a ⎥ ⎢b b b b ⎥
Q1 ⎣a21 a22 a23 a24 ⎦ Q∗1 = ⎣ 021 b22 b23 b24 ⎦ ,
31 32 33 34 32 33 34
a41 a42 a43 a44 0 b42 b43 b44
⎡ ⎤ ⎡ ⎤
b11 b12 b13 b14 b11 b12 c13 c14
⎢b b b b ⎥ ⎢b b c c ⎥
Q2 ⎣ 021 b22 b23 b24 ⎦ Q∗2 = ⎣ 021 c22 c23 c24 ⎦ .
32 33 34 32 33 34
0 b42 b43 b44 0 0 c43 c44
При умножении слева на матрицу отражения Q1 первая строка не
изменяется, а в первом столбце появляются два нуля. При умножении
на Q∗1 справа сохраняется первый столбец, а значит и два полученных
в нем нуля. Далее, умножение слева на Q2 дает еще один нуль и не
меняет первые две строки. Умножение справа на Q∗2 сохраняет первые
два столбца и, следовательно, все ранее полученные в них нули.
Заметим, что если исходная матрица A эрмитова, то такой же
будет и полученная в итоге верхняя почти треугольная матрица. Ее
эрмитовость означает, очевидно, что она в данном случае оказывается
трехдиагональной матрицей.

39.7. Приведение к двухдиагональному виду


Используя для умножений слева и справа разные матрицы от-
ражения или вращения, любую заданную матрицу можно привести
к верхнему двухдиагональному виду.
При n = 4 это делается таким образом:
⎡ ⎤ ⎡ ⎤
a11 a12 a13 a14 b11 b12 b13 b14
⎢a a a a ⎥ ⎢0 b b b ⎥
U1 ⎣a21 a22 a23 a24 ⎦ = ⎣ 0 b22 b23 b24 ⎦ ,
31 32 33 34 32 33 34
a41 a42 a43 a44 0 b42 b43 b44
⎡ ⎤ ⎡ ⎤
b11 b12 b13 b14 b11 c12 0 0
⎢ 0 b22 b23 b24 ⎥ ∗ ⎢ 0 c22 c23 c24 ⎥
⎣0 b ⎦ V1 = ⎣ 0 c ⎦,
32 b33 b34 32 c33 c34
0 b42 b43 b44 0 c42 c43 c44
342 Лекция 39
⎡ ⎤ ⎡ ⎤
b11 c12 0 0 b11 c12 0 0
⎢ 0 c22 c23 c24 ⎥ ⎢ 0 d22 d23 d24 ⎥
U2 ⎣ 0 c ⎦=⎣0 0 d33 d34 ⎦ ,
32 c33 c34
0 c42 c43 c44 0 0 d43 d44
⎡ ⎤ ⎡ ⎤
b11 c12 0 0 b11 c12 0 0
⎢ 0 d22 d23 c24 ⎥ ∗ ⎢ 0 d22 e23 0 ⎥
⎣0 0 d ⎦ V2 = ⎣ 0 0 e33 e34 ⎦ .
33 d34
0 0 d43 d44 0 0 e43 e44
Умножение слева на U1 дает три нуля в первом столбце. После этого
умножение справа на V1∗ добавляет два нуля в первой строке и не
изменяет первый столбец. Важно, что при каждом преобразовании
сохраняются все нули, полученные ранее.

39.8. Вычисление сингулярных чисел


Унитарное приведение к двухдиагональному виду дает возмож-
ность свести задачу о вычислении сингулярного разложения матрицы
к аналогичной задаче для двухдиагональной матрицы. Более того,
можно считать, что все ее элементы неотрицательны (этого можно
добиться умножением слева и справа на диагональные унитарные мат-
рицы). Итак, пусть
⎡ 0 0 ⎤
a1 b1
⎢ a02 b02 ⎥
⎢ ⎥
⎢ ⎥
A0 = ⎢ ... ... ⎥.
⎢ ⎥
⎣ an−1 bn−1 ⎦
0 0

a0n
Рассмотрим следующий бесконечный процесс исключения элемен-
тов, начинающийся с вещественной двухдиагональной матрицы A0
и использующий вещественные матрицы вращения. Последовательно
исключая наддиагональные элементы b01 , . . . , b0n−1 с помощью умноже-
ния на матрицы вращения справа, преобразуем A0 в нижнюю двухдиа-
гональную матрицу
⎡ 1 ⎤
a1
⎢ b1 a1 ⎥
⎢ 1 2 ⎥
⎢ ⎥
A1 = ⎢ b12 . . . ⎥.
⎢ ⎥
⎣ 1
. . . an−1 ⎦
1 1
bn−1 an
Далее будем последовательно исключать поддиагональные элементы,
умножая на матрицы вращения слева, и вновь будем иметь верхнюю
двухдиагональную матрицу A2 . Затем из A2 умножениями справа
получим нижнюю двухдиагональную матрицу A3 и т. д.
39.8. Вычисление сингулярных чисел 343

Данный процесс описывается равенствами


Ak Qk = Ak+1 , Qk+1 Ak+1 = Ak+2 , k = 0, 2, . . . ,
где матрицы Qk являются унитарными. Ясно, что для любого k матри-
ца Ak унитарно подобна A0 .
Обозначим через ak1 , . . . , akn элементы главной диагонали Ak , а че-
рез bk1 , . . . , bkn−1 элементы второй диагонали (верхней или нижней
в зависимости от четности k). Все числа вещественные. Сохранение
длин столбцов при умножении на Qk слева и сохранение длин строк
при умножении на Qk справа дает следующую систему равенств:
(bk1 )2 + (ak1 )2 = (ak+
1
1 2
) ,
(bk2 )2 + (ak2 )2 = (ak+
2 ) +(bk+
1 2
1
1 2
),
... ... ...
(akn )2 = (ak+
n )
1 2
+(bk+ 1 2
n−1 ) .

Поскольку эти равенства имеют место для всех k, находим, в частно-


сти, что
k

(a0n )2  (bin−1 )2 ∀ k ⇒ bkn−1 → 0 при k → ∞.
i=2

Отсюда вытекает также существование предела при k → ∞ для (мо-


нотонно убывающей) последовательности akn . Аналогичным образом
можно доказать, что
bkj → 0 при k → ∞, 1  j  n − 1,
а также и существование пределов при k → ∞ для последователь-
ностей диагональных элементов akj . Эти пределы, конечно же, будут
равны сингулярным числам исходной матрицы A0 .
Данный процесс дает некоторое общее представление о том, как
могут строиться алгоритмы для вычисления сингулярных чисел. Неко-
торые черты того же процесса можно обнаружить и в алгоритмах
вычисления собственных значений. Следует заметить, однако, что эф-
фективность алгоритмов, используемых в современных пакетах и биб-
лиотеках программ, связана с определенным числом очень важных
деталей и идей, которые мы обсудить здесь не имели возможности.
Л е к ц и я 40

40.1. Многомерные массивы и матрицы


Матрицу можно рассматривать как способ задания числовой
функции от дискретных переменных i, j или, в терминологии
некоторых языков программирования, как двумерный массив.
Данная точка зрения приводит к такому естественному обобще-
нию, как m-мерный массив (m-мерная матрица) с элементами
xi1 ... im или функция от m индексов i1 , . . . , im , часто называемая
также тензором.
Существенная часть понятий и фактов теории матриц в слу-
чае m-мерных массивов при m  3 уже утрачивается. Что же
касается понятий, возникающих по прямой аналогии, то оказы-
вается, что отличий больше, чем сходства.
Так обстоит дело с исключительно важным обобщением по-
нятия ранга. Как и в случае матриц, оно связано c разделением
переменных i1 , . . . , im , приводящим к m-линейному разложе-
нию

r
xi1 ... im = ui1 s . . . uim s , 1  i1  n1 , . . . , 1  im  nm .
s=1
Наименьшее число слагаемых r в разложениях такого вида на-
зывается тензорным рангом m-мерного массива X = [xi1 ... im ].
Как обычно, предполагается, что элементы массивов xi1 , ..., im
и разложений ui1 s , . . . , uim s принадлежат некоторому общему
числовому полю. В отличие от ранга матриц, тензорные ранги
могут зависеть от этого поля. Поэтому скажем сразу, что в даль-
нейшем таким полем является поле вещественных чисел.
Матричные методы могут быть полезны и для многомерных
массивов — простой прием позволяет ассоциировать их с неко-
торыми прямоугольными матрицами. Разобьем систему индексов
i1 , . . . , im на две непересекающиеся подсистемы:
i1 , . . . , ip и j1 , . . . , jq , p + q = m,
40.3. Сечения трехмерного массива 345

и пусть y(i1 ,...,im ),(j1 ,...,jm


 ) = xi1 ... im . Тогда Y = [y(i ,...,i ),(j  ,...,j  ) ]
1 p 1 q
есть матрица, в которой роль строчного и столбцового индексов
играют (i1 , . . . , ip ) и (j1 , . . . , jq ).

40.2. Трехмерные массивы и трилинейные разложения


Остановимся подробнее на случае трехмерных массивов. Под
трилинейным разложением трехмерного массива X = [xijk ] по-
нимается разложение вида

r
xijk = ais bjs cks .
s=1
Обозначение: X = (A, B , C), где A, B , C — матрицы вида
A = [ais ] = [a1 , . . . , ar ], B = [bjs ] = [b1 , . . . , br ],
C = [cks ] = [c1 , . . . , cr ].
Число столбцов для матриц A, B , C одно и то же и равно r,
число строк для них определяется границами для индексов i, j
и k — пусть это будут n1 , n2 и n3 .
Таким образом, любые три матрицы с одним и тем же числом
столбцов r порождают трилинейное разложение (A, B , C) неко-
торого трехмерного массива. Общее число столбцов называется
рангом данного трилинейного разложения. Среди всех трили-
нейных разложений трехмерного массива X имеется, конечно,
разложение с минимальным числом столбцов. Его ранг (число
столбцов) и называется тензорным рангом трехмерного масси-
ва X . Обозначение: Rank X .

40.3. Сечения трехмерного массива


С трехмерным массивом X = [xijk ] ассоциируем три матри-
цы сечений:
Y = [y(i),(jk) ], Z = [z(j),(ik) ], W = [w(k),(ij) ],
y(i),(jk) = z(j),(ik) = w(k),(ij) = xijk ,
и положим
dim1 X ≡ rank Y , dim2 X ≡ rank Z , dim3 X ≡ rank W.
Строки матриц Y , Z , W соответствуют «векторизованным» сече-
ниям трехмерного массива X плоскостями, ортогональными осям
i, j , k соответственно.
346 Лекция 40

Каждое сечение по оси i представляет собой прямоугольную


матрицу [xijk ]i=i0 . Очевидно, что dim1 X есть размерность линей-
ной оболочки, натянутой на матрицы сечений при i = 1, . . . , n1 .
Аналогичный смысл имеют величины dim2 X и dim3 X .
Утверждение. max( dim1 X , dim2 X , dim3 X)  Rank X 
 min(n1 n2 , n2 n3 , n1 n3 ).
Доказательство. Докажем, для определенности, что dim1 X 
 Rank X  n2 n3 . Если r = rank X , то существует трилинейное
разложение с числом столбцов r:
X = (A, B , C) ⇒ [xijk ]i=i0 ∈ L(b1 c 
1 , . . . , br cr ) ⇒ dim1 X  r.
Далее, ранг матрицы W не больше n3 . Поэтому для нее суще-
ствует разложение вида

n3
w(k),(ij) = Φks Ψ(ij),s .
s=1
Для каждого s ранг матрицы [Ψ(ij),s ] не больше n2 . Поэтому

n2 
n3 
n2
Ψ(ij),s = Uist Vjst ⇒ xijk = w(k),(ij) = Uist Vjst Φks . 
t=1 s=1 t=1
Аналог сечений для обычных матриц — запись их в виде
системы строк или столбцов. В отличие от матриц, для которых
строчный и столбцовый ранги совпадают и равны рангу матрицы,
четыре числа: rank X , dim1 X , dim2 X , dim3 X , вообще говоря,
разные.

40.4. Примеры трилинейных разложений


Любой трехмерный (2 × 2 × 2)-массив X = [xijk ] определяет-
ся двумя сечениями:
X1 = [x1jk ], X2 = [x2jk ].



1 0 0 1
ПРИМЕР 1. X1 = , X2 = .
0 1 1 0
Ясно, что dim1 X = 2 ⇒ Rank X  2. Нетрудно проверить,
что
X1 =
1
b1 c 
1
b c ,


2 1 + 2 2 2 1 1
b1 = c1 = , b2 = c 2 = .
1 1 1 −1
X2 = b1 c 1 − b c ,
2 2 2 2
40.5. Все не так 347



1 /2 1 /2
Таким образом, следует взять a1 = , a2 = . То-
1 /2 −1/2
гда
X = (A, B , C), где A = [a1 , a2 ], B = [b1 , b2 ], C = [c1 , c2 ].



−1 0 0 1
ПРИМЕР 2. X1 = , X2 = .
0 1 1 0
Используя трилинейное разложение из предыдущего примера,
для данного массива мы можем с легкостью получить разло-
жение ранга 3 (сделайте это!). Но верно ли, что разложение
меньшего ранга не существует? Допустим, что
X1 = a11 b1 c 
1 + a12 b2 c2 ,
X2 = a21 b1 c 
1 + a22 b2 c2 .
Каждая из матриц X1 и X2 имеет ранг 2 ⇒ коэффициенты
a11 , a12 , a21 , a22 отличны от нуля. Рассмотрим линейную комби-
нацию


−a21 −a11
V = a21 X1 − a11 X2 = −a a ⇒
11 21

⇒ det V = −a221 − a211 = 0 ⇒ rank V = 2.


Преобразуя правые части выражений для X1 и X2 , находим
V = (a21 a12 − a11 a22 ) b2 c
2 ⇒ rank V  1.
Противоречие означает, что Rank X  3.

Замечание. В только что законченном рассуждении предпо-


лагалось, что все числа вещественные. Если допустить к рас-
смотрению трилинейные разложения с комплексными числами,
то в данном случае оказывается, что тензорный ранг равен 2.

40.5. Все не так


Итак, свойства тензорных рангов трехмерных массивов и ран-
гов матриц различаются коренным образом.
1. Тензорный ранг трехмерных массивов существенно зави-
сит от числового поля, которому принадлежат элементы три-
линейных разложений.
В дальнейшем всюду полагаем, что числовое поле есть поле
вещественных чисел.
2. Для тензорного ранга неизвестны какие-либо конечные
алгоритмы его вычисления — в отличие от ранга матрицы, кото-
348 Лекция 40

рый в точной арифметике легко находится с помощью конечного


числа элементарных преобразований.
3. В общем случае при фиксированных размерах трехмерного
массива до сих пор не получены точные оценки максимального
тензорного ранга.
Кое-что, правда, известно. В 1970-х годах Йозеф Крус-
кал доказал, что тензорный ранг произвольного вещественного
(2 × 2 × 2)-массива не превышает 3. Соединив этот факт с разо-
бранным выше примером, приходим к выводу о том, что мак-
симальное значение тензорного ранга в данном частном случае
равно 3.
4. Обратим внимание на специфические «вероятностные»
свойства тензорных рангов (при этом оставим строгие определе-
ния в стороне и доверимся интуиции): среди всего множества
вещественных (2 × 2 × 2)-массивов имеется примерно 79% мас-
сивов тензорного ранга 2 и примерно 21% массивов тензорного
ранга 3.
Это экпериментальные данные, полученные Крускалом.
В случае двумерных массивов (матриц) все проще: почти
любая матрица имеет максимально возможный ранг (равный
минимальному из ее размеров).

40.6. Эквивалентные трилинейные разложения


В буквальном смысле трилинейное разложение, конечно, не
может быть единственным. Если X = (A, B , C), где A = [a1 , . . .
. . . , ar ], B = [b1 , . . . , br ], C = [c1 , . . . , cr ], то формально другое
разложение для того же X легко строится с помощью двух
приемов:
1) можно произвольным, но одинаковым образом переставить
столбцы в матрицах A, B , C ;
2) взяв любые числа αs , βs , γs такие, что αs βs γs = 1, можно
заменить столбцы as , bs , cs на αs as , βs bs , γs cs .
Эти два приема приводят к разложению X = (A , B
 , C)
 , где

A = AP DA ,  = BP DB ,
B  = CP DC ,
C (∗)
P — матрица перестановки, DA , DB , DC — диагональные матри-
цы такие, что DA DB DC = I . Трилинейные разложения (A, B , C)
и (A  , C)
, B  , связанные соотношениями (∗), называются эквива-
лентными.
40.7. Единственность с точностью до эквивалентности 349

Аналогичным образом вводится понятие эквивалентности для


билинейных (скелетных) разложений матриц и m-линейных раз-
ложений произвольных m-мерных массивов.

40.7. Единственность с точностью до эквивалентности


Множество билинейных (скелетных) разложений заданной
матрицы весьма широко, и его описание не сводится к эквива-
лентности разложений.
Например, пусть X = [x1 , x2 ] — матрица размеров n × 2
с линейно независимыми столбцами x1 , x2 . Для произвольной
невырожденной (2 × 2)-матрицы G = [g1 , g2 ] запишем: XG−1 =
= [xG G
1 , x2 ]. Тогда, очевидно,
 G 
X = xG
1 g1 + x2 g2 . (∗)
Высокая степень произвола в компонентах билинейных аппрок-
симаций матрицы заставляет вводить при их построении раз-
личные ограничения — обычно типа ортогональности. Напри-
мер, сингулярное разложение матрицы X имеет тот же вид (∗),
но если сингулярные числа различны, то сингулярные векто-
ры будут определены однозначно с точностью до множителя.
Это обстоятельство очень важно — оно позволяет использовать
сингулярные векторы как носители существенной информации
о данных, представленных элементами матрицы.
В случае трехмерных массивов ситуация одновременно и про-
ще, и сложнее. Почему сложнее — понятно: теория и алгоритмы
вычисления трилинейных разложений и аппроксимаций далеки
от стадии завершенности. А проще вот по какой причине.
Пусть X = (A, B , C) — трилинейное раложение ранга r. Это
означает, что каждая из матриц A, B , C имеет r столбцов.
Предположим, что каждая их этих матриц имеет линейно неза-
висимую систему столбцов. Допустим, что X = (A , B
 , C)
 — еще
одно разложение ранга r с линейно независимыми столбцами
в матрицах A, B, C
.
Пусть для ясности r = 2. Тогда
ai1bj 1 
ai1 bj 1 ck1 + ai2 bj 2 ck2 =  ai2bj 2 
ck 1 +  ck 2 . (#)
Выберем вектор p = [p1 , . . . , pn1 ] таким образом, чтобы p ∈
∈ {a2 }⊥ , но p ∈
/ {a1 }⊥ (вектор p ортогонален a2 , но не a1 ) —
в смысле естественного скалярного произведения в простран-
350 Лекция 40

стве Rn1 . Умножим равенства (#) на коэффициенты pi и просум-


мируем их по i от 1 до n1 :
1 a1 ) b1 
(p a1 )b1 c = (p  1 a2 ) b2 
c + (p  c .
2
В силу выбора 
p, p a1 = 0 ⇒ ранг матрицы в левой части
равен 1 ⇒ p 
a1 = 0 либо p  a2 = 0, иначе ранг матрицы
в правой части был бы равен 2:


t
V ≡ t1b1 
c1 + t2b2 

c2 = [b1 , b2 ]
 1
c ] ⇒
c ,
[
t2 1 2

⇒ det V = t1 t2 det B  det C.


Пусть, для определенности, p  a2 = 0. Тогда b1  c 
1 = t b1 c1 , t = 0.
Поскольку все векторы ненулевые, отсюда вытекает, что b1 =
= β 1 b1 , 
c1 = γ1 c1 для каких-то ненулевых коэффициентов β1 , γ1 .
Далее, мы можем выбрать вектор q = [q1 , . . . , qn3 ] , ортого-
нальный c2 , но не ортогональный c1 . Те же равенства (#) можно
умножить на коэффициенты qk и просуммировать по k от 1 до n3 :
(q  c1 )a1 b 
1 = (q  a1b
c1 )  
1 + (q  a2b .
c2 )  2
Если q   c2 = 0, то окажется, что b2 = hb1 , h = 0 ⇒ столбцы
b1 , b2 линейно зависимы. Это противоречит исходным предпо-
ложениям. Значит, q   c2 = 0. Но тогда, повторяя предыдущие
рассуждения, находим:  a1 = α1 a1 , b2 = β2 b2 . В итоге
(q   a1b = (α1 β1 γ1 ) (q  c1 )a1 b ⇒ α1 β1 γ1 = 1.
c1 ) 
1 1
Теперь предположим, что при использовании вектора p ока-
залось, что p  a1 = 0. Чтобы оставить в силе последовавшие рас-
суждения, достаточно переставить столбцы в матрицах A , B
, C
.
Таким образом, мы доказали, что трилинейные разложения
(A, B , C) и (A , B
 , C)
 эквивалентны. Легко видеть также, как
вести рассуждение в случае r > 2. Итак, полностью доказана
следующая
Теорема единственности. Пусть X = (A, B , C) и столбцы
в каждой из матриц A, B , C линейно независимы. Тогда три-
линейное разложение (A, B , C) определено однозначно с точ-
ностью до эквивалентности: если трилинейное разложение
X = (A , B
 , C)
 таково, что каждая из матриц A, B , C
 с общим
числом столбцом r имеет линейно независимые столбцы, то
r = r и разложения (A, B , C) и (A , B
 , C)
 эквивалентны.
Данный факт имеет огромное (возможно, наиболее суще-
ственное) значение в многочисленных применениях трилиней-
40.8. Тензорный ранг и умножение матриц 351

ных аппроксимаций к анализу данных (например, при изучении


химического состава смесей в спектрометрии или психометри-
ческих и социометрических данных при изучении особенностей
личности и общества).
Замечание. Единственность с точностью до эквивалентности
имеет место и при более слабых предположениях, чем в дока-
занной нами теореме единственности. В 1970-х годах Крускал
доказал следующую теорему. Пусть ранги матриц A, B , C
равны rA , rB , rC , и пусть любые rA столбцов из A, любые rB
столбцов из B и любые rC столбцов из C являются линейно
независимыми; если rA + rB + rC  2r + 2, где r — общее
число столбцов для A, B и C , то трилинейное разложение
(A, B , C) определено однозначно с точностью до эквивалент-
ности. Возможно какое-то ослабление и этих условий.

40.8. Тензорный ранг и умножение матриц

Трилинейные разложения имеют глубокую связь с теорией


сложности вычислений. К компетенции данной теории относит-
ся, например, вопрос, интересующий каждого, кто имеет де-
ло с матрицами: какова истинная сложность умножения двух
(n × n)-матриц? Эпитет подчеркивает, что нас интересует слож-
ность (число операций) самого быстрого алгоритма.
Ответ на этот вопрос до сих пор не получен. Для многих
когда-то знакомившихся с линейной алгеброй в памяти остается
правило «строка на столбец», дающее O(n3 ) операций. Одна-
ко мы можем утверждать, что «истинное» число операций не
превышает O(nlog2 7 ). Именно столько операций дает алгоритм
Штрассена, который мы обсуждали в самой первой лекции на-
шего курса.
Откуда же берется оригинальный способ умножения (2 × 2)-
матриц, на котором там все основано? Теперь, в заключитель-
ной лекции, мы имеем возможность раскрыть тайну алгоритма
Штрассена.
Итак, пусть




u1 u3 v1 v3 w1 w3
= .
u2 u4 v2 v4 w2 w4
352 Лекция 40

Равенства, выражающие wk через ui и vj , можно, очевидно,


записать в такой форме:

⎪ w = u1 v1 + u3 v2 ,
⎨ 1 4  4
w2 = u2 v1 + u4 v2 ,
⇔ wk = xijk ui vj , k = 1, 2, 3, 4.

⎩w3 = u1 v3 + u3 v4 , i=1 j=1
w4 = u2 v3 + u4 v4 .
Возникший здесь трехмерный массив X = [xijk ] имеет размеры
4 × 4 × 4, его элементы xijk равны 0 либо 1. Вот сечения X по
оси k :
⎡ ⎤ ⎡ ⎤
1 0 0 0 0 0 0 0
⎢0 0 0 0⎥ ⎢1 0 0 0⎥
Xk=1 = ⎣
0 1 0 0⎦
, Xk=2 = ⎣
0 0 0 0⎦
,
0 0 0 0 0 1 0 0
⎡ ⎤ ⎡ ⎤
0 0 1 0 0 0 1 0
⎢0 0 0 0⎥ ⎢0 0 0 0⎥
Xk=3 = ⎣
0 0 0 1⎦
, Xk=4 = ⎣
0 0 0 0⎦
.
0 0 0 0 0 0 0 1
В данном случае ясно, что тензорный ранг массива X не
больше 8 (докажите!). Пусть он равен r. Тогда имеется трили-
нейное разложение
 4  4

r 
r  
xijk = ais bjs cks ⇒ wk = cks ais ui bjs vj ,
s=1 s=1 i=1 j=1
k = 1, 2, 3, 4.
Как видим, трилинейное разложение ранга r порождает
специальный алгоритм вычисления величин wk , в котором
всего r активных умножений — так называются умножения,
в которых оба множителя существенно зависят от входных
переменных ui и vj (числа ais , bjs , cks не зависят от ui , vj ; их
называют константами алгоритма — умножение на константу не
считается активным умножением).
Чтобы получить алгоритм Штрассена, достаточно решить за-
дачу о вычислении тензорного ранга данного конкретного мас-
сива X . Можно ограничиться и более скромной задачей: най-
ти какое-нибудь трилинейное разложение ранга 7 (разложение
ранга 8 связано с правилом «строка на столбец»). Несмотря на
отсутствие конечных алгоритмов точного вычисления тензорного
ранга, разработка алгоритмов трилинейной аппроксимации за-
данного ранга является посильной задачей.
40.8. Тензорный ранг и умножение матриц 353

Поиск эффективных методов для данной задачи является


одной из важных исследовательских проблем. Однако в отдель-
ных случаях можно добиться нужного результата и с помощью
каких-либо эвристических и, возможно, «медленных» вычисле-
ний: чтобы построить быстрый алгоритм умножения матриц,
мы вполне готовы потратить очень много времени на поиск
тензорного ранга массива X . Вот как выглядит трилинейное
разложение X = (A, B , C) ранга 7 в нашем случае: 1)
⎡ ⎤ ⎡ ⎤
1 0 1 0 1 −1 0 1 1 0 −1 0 1 0
⎢0 1 0 0 0 1 0⎥ ⎢0 0 0 1 0 0 1⎥
A=⎣
1⎦
, B=⎣
0 0 1 0⎦
,
0 0 0 0 1 0 0 0 1
1 1 0 1 0 0 −1 1 0 −1 0 1 0 1
⎡ ⎤
1 0 0 1 −1 0 −1
⎢0 1 0 1 0 0 0⎥
C = ⎣ 0 1 1 0 1 0 0 ⎦.
1 −1 1 0 0 1 0
Данное разложение найдено с помощью компьютера. Таким
образом, компьютер может использоваться не только как инстру-
мент решения вычислительных задач, но также и как инструмент
получения алгоритмов для решения этих задач.

1)
Условия доказанной нами теоремы единственности в данном случае не
выполнены. Поэтому можно найти и другое, неэквивалентное данному, разло-
жение.

12 Е. Е. Тыртышников
Дополнение к лекции 1

D 1.1. Параллельная форма алгоритма


Арифметическая сложность алгоритма — вещь, конечно, важ-
ная в любом случае. Но с развитием компьютеров время стано-
вится «все менее пропорциональным» общему числу операций.
Дело в том, что многие операции выполняются параллельно
(одновременно).
Чтобы понять хоть что-то, нужно отбросить очень много
деталей. Рассмотрим модель бесконечного параллелизма: име-
ется бесконечно много процессоров с неограниченной памятью,
каждый может в любую единицу времени выполнить одну ариф-
метическую операцию и мгновенно обменивается информацией
с любым другим процессором.
Чтобы реализовать алгоритм на таком идеализированном
компьютере, достаточно записать его в виде последовательности
ярусов — наборов информационно несвязанных операций (их
можно выполнять параллельно). Такое представление алгоритма
называется его параллельной формой, число ярусов называется
высотой, а максимальное число операций в одном ярусе —
шириной параллельной формы.
Для любого алгоритма существует, очевидно, параллельная
форма с минимальным числом ярусов. Это минимальное число
ярусов называется высотой алгоритма. В модели бесконечного
параллелизма минимальное время реализации алгоритма пропор-
ционально его высоте.

D 1.2. Схема сдваивания и параллельное умножение


матриц
Высота классического алгоритма умножения матриц имеет
вид O (n). Докажите!
Легко получить и алгоритм высоты O (log2 n). Для этого
достаточно построить алгоритм сложения n чисел, имеющий вы-
соту O (log2 n). Такой алгоритм называется схемой сдваивания:
D 1.3. Матрицы и рекуррентные вычисления 355

нужно разбить числа на пары, найти суммы для каждой пары,


затем разбить результаты на пары, найти суммы и т. д.

D 1.3. Матрицы и рекуррентные вычисления


Рассмотрим последовательность величин x−1 , x0 , x1 , . . . , в ко-
торой x−1 , x0 заданы, а остальные величины вычисляются рекур-
рентно:
xk = ak xk−1 + bk xk−2 , k = 1, 2, . . . , n. (∗)
Коэффициенты ak , bk считаются заданными. Чтобы вычислить
xn , требуется в силу (∗) выполнить O(n) арифметических опе-
раций. Число параллельных шагов также равно O(n). Возникает
впечатление, что алгоритм с меньшей высотой параллельной
формы получить нельзя.
Но это впечатление обманчиво. Запишем соотношения (∗)
в матричной форме:




xk ak bk xk−1
= ,
xk−1 1 0 xk−2
или
zk = Ak zk−1 ,




xk xk−1 ak bk
zk = x , zk−1 =
xk−2 , Ak = 1 0 .
k−1

Отсюда
zn = Az0 , A = An (An−1 (· · · (A3 (A2 A1 )) · · · ).
Чтобы определить произведение матриц An An−1 · · · A1 , нужно
свести его к вычислению произведений двух матриц. Это дела-
ется расстановкой скобок. Используя ассоциативность операции
умножения матриц, можно доказать, что результат не будет
зависеть от порядка расстановки скобок; поэтому можно писать
без скобок:
A = An An−1 · · · A1 .
Чтобы найти zn (а значит, и xn ), сначала вычислим матри-
цу A. Для этого можно использовать ту же схему сдваивания:
находим произведения
An An−1 , An−2 An−3 , . . . , A2 A1 ,
затем попарные произведения полученных результатов и т. д.
Потребуется всего лишь O(log2 n) параллельных шагов!
12*
356 Дополнение к лекции 1

D 1.4. Модели и реальность


В модели бесконечного параллелизма мы отбрасываем, увы,
слишком много деталей, которые следует учитывать. Я думаю,
можно почувствовать проблемы параллельных вычислений, раз-
мышляя над следующей задачей-шуткой: «Один землекоп выка-
пывает яму глубиной 1 метр за 1 час. За какое время эту яму
выкопают 100 землекопов?»
Чтобы выполнять какую-то работу параллельно, необходимо
такую работу иметь. В существующих алгоритмах работы для
параллельного (одновременного) исполнения может быть недо-
статочно. Оперируя над общими данными, процессоры могут
мешать друг другу. Как учесть все это в более адекватных и все
же поддающихся анализу моделях — это трудный вопрос.
Дополнение к лекции 2

D 2.1. Конечные группы


Группа называется конечной, если в ней имеется конечное
число элементов. В этом случае число элементов называется
порядком группы.
Теорема Лагранжа. В любой конечной группе порядок любой
подгруппы является делителем порядка группы.
Доказательство. Пусть H = {a1 , . . . , am } — подгруппа груп-
пы G. Возьмем элемент a ∈ G\H и рассмотрим множество
aH = {aa1 , . . . , aam }.
Оно содержит m различных элементов: если aai = aaj , то ai =
= aj . Кроме того, aH ∩ H = ∅: если aai = aj , то a ∈ H .
Если H ∪ aH = G, то все доказано. Если нет, то существует
b ∈ G\(H ∪ aH). Множество
bH = {ba1 , . . . , bam }
также содержит m различных элементов и при этом
H ∩ aH = ∅, H ∩ bH = ∅, aH ∩ bH = ∅.
Если H ∪ aH ∪ bH = G, то все доказано. Если нет, действуем
как и раньше. Поскольку число элементов в G конечно, на
каком-то шаге мы получим разложение
H ∪ aH ∪ bH ∪ . . . ∪ cH = G
с конечным числом попарно непересекающихся множеств
H , aH , bH , . . . , cH . 
Задача 1. Докажите, что в любой бесконечной группе число
различных подгрупп бесконечно.
Задача 2. В конечной группе G выбраны подгруппы H1 и H2
порядка n1 и n2 соответственно. Докажите, что число элементов в мно-
жестве H1 H2 = {g ∈ G : g = h1 h2 , h1 ∈ H1 , h2 ∈ H2 } равно n1 n2 /d, где
d — число элементов в пересечении H1 ∩ H2 .
358 Дополнение к лекции 2

D 2.2. Смежные классы, нормальные делители,


фактор-группы
Пусть H — подгруппа группы G и a ∈ G. Множества
aH = {x : x = ah, h ∈ H} и Ha = {y : y = ha, h ∈ H}
называются левым смежным классом и правым смежным клас-
сом группы G по подгруппе H .
Если b ∈ aH , то bH = aH (докажите!) — отсюда вытекает,
что левые (правые) смежные классы либо совпадают, либо не
пересекаются (на этом факте и было основано доказательство
теоремы Лагранжа).
Подгруппа H называется нормальной подгруппой или нор-
мальным делителем группы G, если
aH = Ha ∀ a ∈ G ⇔ aha−1 ∈ H ∀ a ∈ G ∀ h ∈ H.
Элемент  h называется сопряженным элементу h, если  h = aha−1
для некоторого a ∈ G. Таким образом, подгруппа H ⊂ G является
нормальной тогда и только тогда, когда H вместе с любым
элементом содержит все сопряженные ему элементы.
Пусть K — множество различных смежных классов для нор-
мального делителя H ⊂ G. Определим произведение смежных
классов следующим образом:
(aH)(bH) ≡ (ab)H.
Прежде всего нужно убедиться в корректности данного опре-
деления: если a1 ∈ aH , b1 ∈ bH , то (a1 b1 )H = (ab)H . Пусть
a1 = ah1 , b1 = bh2 , h1 , h2 ∈ H . Значит, если h ∈ H , то
(a1 b1 )h = ah1 bh2 h = (ab)(b−1 h1 b)(h2 h) ∈ (ab)H. 
Нетрудно проверить, что операция умножения смежных клас-
сов превращает множество K в группу. Эта группа называется
фактор-группой группы G по нормальному делителю H . Обо-
значение: K = G/H .
Задача 1. Какие смежные классы являются подгруппами?
Задача 2. Докажите, что любая абелева группа порядка pq , где p
и q — различные простые числа, является циклической.

D 2.3. Изоморфизмы групп


Рассмотрим группу H с операцией ∗ и группу G с опера-
цией ◦. Обратимое отображение f : H → G называется изомор-
физмом, если
f (a ∗ b) = f (a) ◦ f (b) ∀ a, b ∈ H. (#)
D 2.4. Гомоморфизмы групп 359

Свойство (#) называется свойством сохранения операций. Легко


видеть, что обратное отображение f −1 : G → H также является
изоморфизмом. Группы H и G называются изоморфными. Обо-
значение: H  G. Несмотря на формальные различия в опреде-
лении элементов и операций, изоморфные группы можно считать
одинаковыми с точки зрения свойств их операций.
Например, любые две конечные циклические группы одно-
го порядка n будут изоморфными. Если a0 , a1 , . . . , an−1 — все
различные элементы группы H , то an = a0 (докажите!). Пусть
b0 , b1 , . . . , bn−1 — все различные элементы группы G. Тогда
определим отображение f правилом f (ak ) = bk . Оно является
изоморфизмом, поскольку
f (ak+m ) = bk+m = bk bm = f (ak ) f (am ).

Задача 1. Докажите, что группа положительных рациональных


чисел относительно умножения не изоморфна группе всех рациональ-
ных чисел с операцией сложения.
Задача 2. Найдите все группы, изоморфные любой своей подгруп-
пе, отличной от единичной подгруппы.

D 2.4. Гомоморфизмы групп


Отображение f : H → G называется гомоморфизмом, если
выполняется свойство сохранения операций (#) (при этом обра-
тимость отображения не требуется).
Обозначим через eG единичный элемент группы G. Его пол-
ный прообраз K = f −1 (eG ) называется ядром гомоморфизма f .
Множество f (H) называется образом гомоморфизма f .
Утверждение. Ядро гомоморфизма f : H → G является нор-
мальной подгруппой группы H . Образ гомоморфизма f явля-
ется подгруппой группы G.
Доказательство. Пусть e — единица группы H и K — ядро
гомоморфизма f . Для любого a ∈ H находим: f (ae) = f (a)f (e) =
= f (a) ⇒ f (e) = eG . Итак, e ∈ K .
Далее, если a ∈ H , то f (e) = f (aa−1 ) = f (a)f (a−1 ) = eG ⇒
⇒ f (a−1 ) = (f (a))−1 . Предположим, что a ∈ K . Тогда f (a−1 ) =
= e−
G = eG ⇒ a
1 −1 ∈ K .
Если f (a) = f (b) = eG , то f (ab) = eG eG = eG ⇒ ab ∈ K .
360 Дополнение к лекции 2

Наконец, проверим нормальность подгруппы K . Пусть a ∈ H ,


b ∈ K . Тогда f (aba−1 ) = f (b) = eG ⇒ aba−1 ∈ K . 
Теорема о гомоморфизме. Пусть f : H → G — гомоморфизм
группы H в группу G, и пусть K — его ядро. Тогда f (H) 
 H/K .
Доказательство. Отображение Φ : H/K → f (H) определим
следующим образом:
Φ(aK) = f (a), a ∈ H.
Пусть a1 = ab1 , b1 ∈ K . Тогда f (a1 ) = f (a).
Обратно, если f (a1 ) = f (a), то f (a1 a−1 ) = eG ⇒ a1 a−1 ∈ K .
Таким образом, отображение определено корректно (т. е. не зави-
сит от выбора представителя a в смежном классе aK ) и является
взаимно-однозначным. Легко видеть, что оно сохраняет опера-
ции:
Φ((aK)(bK)) = Φ((ab)K) = f (ab) = f (a)f (b) = Φ(aK)Φ(bK). 
Теорема показывает, что изучать образы группы при всевоз-
можных гомоморфизмах можно «изнутри»: для полного описа-
ния соответствующих подгрупп группы G, в которой размеща-
ются образы элементов, не требуется знание самой группы G —
вопрос сводится к изучению фактор-групп по нормальным дели-
телям заданной группы.

D 2.5. Избыточность в определении группы


Пусть G — непустое множество с ассоциативной алгебраической
операцией. Элемент e ∈ G называется правой единицей, если ae = a
для всех a ∈ G. Элемент b ∈ G назывется правым обратным для a ∈ G
относительно правой единицы e, если ab = e.
Теорема. Пусть G имеет правую единицу e, относительно которой
для каждого элемента a ∈ G существует правый обратный эле-
мент. Тогда G является группой.
Доказательство. Докажем, что правая единица e является единичным
элементом. Возьмем произвольный элемент a и положим c = ea. Со-
гласно условию теоремы существуют b, d ∈ G такие, что ab = e и bd = e.
Отсюда a = ed. Далее, cb = e(ab) = e, откуда c = ed = a.
Докажем теперь, что b является обратным элементом для a. Пусть
c = ba. Тогда cb = b(ab) = b и, значит, c = e. 
Дополнение к лекции 4

D 4.1. Знакопеременная группа


Название знакопеременной группы An (группы всех четных
подстановок степени n) навеяно следующим построением. Рас-
смотрим отображение
sgn : Sn → K = {1, −1},
1, σ — четная подстановка,
sgn(σ) =
−1, σ — нечетная подстановка.
На множестве «знаков» K введем операцию умножения так же,
как для целых чисел. Тогда K превращается в абелеву группу,
а отображение sgn сохраняет операции:
sgn(σ1 σ2 ) = sgn(σ1 )sgn(σ2 ) ∀σ1 , σ2 ∈ Sn .
Поэтому sgn является гомоморфизмом группы Sn на группу K .
Напомним, что ядром гомоморфизма называется множество
всех элементов группы, которые переводятся данным гомомор-
физмом в единичный элемент (вообще говоря, другой группы —
содержащей образы элементов при данном отображении). Таким
образом, ядром гомоморфизма sgn является в точности знакопе-
ременная группа An .
Погруппа An является в Sn нормальным делителем, посколь-
ку ядро любого гомоморфизма группы является ее нормальным
делителем. Вот, впрочем, прямая проверка того, что An есть
нормальный делитель группы Sn : если σ ∈ Sn и h ∈ An , то,
очевидно, σhσ −1 ∈ An ⇒ σAn = An σ (левые смежные классы
совпадают с правыми).
В данном случае имеется всего два различных смежных
класса группы Sn по нормальной подгруппе An : eAn = An
и τ An , где e — тождественная подстановка, а τ — произвольная
нечетная подстановка (например, транспозиция). В самом деле,
если σ1 и σ2 одной четности, то h = σ1−1 σ2 ∈ An ⇒ σ1 An = σ2 An .
Таким образом, фактор-группа Sn /An состоит из двух смежных
классов. Она изоморфна группе «знаков» K : изоморфизм осу-
362 Дополнение к лекции 4

ществляется отображением σAn → sgn(σ) (здесь мы имеем част-


ный случай более общей теоремы о гомоморфизме из п. 42.4).

D 4.2. Подгруппы симметрической группы


Теорема. Любая конечная группа порядка n изоморфна некоторой
подгруппе симметрической группы Sn .
Доказательство. Пусть группа G имеет элементы g1 , . . . , gn . То-
гда для любого i элементы gi g1 , . . . , gi gn представляют собой переста-
новку элементов g1 , . . . , gn . Обозначим соответствующую подстановку
через σi и определим отображение Φ : G → Sn правилом Φ(gi ) = σi .
Очевидно, что Φ(gi gj ) = σi σj . Поэтому Φ является гомоморфизмом ⇒
его образ Φ(G) является подгруппой в Sn .
Остается заметить, что Φ(gi ) = Φ(gj ) ⇔ gi = gj . 

D 4.3. Четность без инверсий


То, что четность числа транспозиций в любом разложении подста-
новки одна и та же, можно доказать и без подсчета числа инверсий.
Это сразу же вытекает из следующего наблюдения.
Утверждение. В любом разложении тождественной подстановки
в произведение транспозиций их число четно.
Доказательство. Пусть тождественная подстановка e ∈ Sn разложена
в произведение транспозиций: e = (ij) . . . (kl), в котором среди индек-
сов i, j , . . . , k, l имеется ровно s различных. Ясно, что 2  s  n,
и в случае s = 2 утверждение очевидно. Проведем индукцию по s.
Пусть s  3. Не ограничивая общности, можно считать, что индексы
равны 1, . . . , s. Легко проверить, что (1l)(kl) = (1k)(1l) для любых
k, l = 1 и (1l)(ij) = (ij)(1l) при {i, j} = {1, l}. Поэтому можно передви-
нуть все транспозиции вида (1l) вправо и получить другое разложение,

e = (i1 j1 ) . . . (ik jk ) (1l1 ) . . . (1lm ),

с тем же числом транспозиций. Далее, если l1 = l2 , то (1l1 )(1l2 ) =


= e, и в последнем разложении можно убрать пару транспозиций
(1l1 ), (1l2 ). Если же l1 = l2 , то, используя равенство (1l1 )(1l2 ) =
= (l1 l2 )(1l1 ), можно получить разложение с тем же числом транспози-
ций и меньшим на 1 числом транспозиций, содержащих индекс 1:

e = (i1 j1 ) · . . . · (ik jk )(l1 l2 ) (1l1 )(1l3 ) · . . . · (1lm ).

Продолжая таким же образом, придем к разложению с числом транспо-


D 4.3. Четность без инверсий 363

зиций, уменьшенным на четное число, и, возможно, всего лишь одной


транспозицией вида (1l):

e = (i1 j1 ) · . . . · (ip jp ) (1l).


Поскольку i1 , j1 , . . . , ip , jp = 1, подстановка e переводит l в 1, что
невозможно, так как она является тождественной. Поэтому

e = (i1 j1 ) · . . . · (ip jp ),

где индексы i1 , j1 , . . . , ip , jp принимают значения от 2 до s. По индук-


тивному предположению число p четно. 
Дополнение к лекции 5

D 5.1. Функциональное доказательство теоремы


Лапласа
Рассмотрим выражение

f (A) = det A(I , J) det A(I  , J  ) (−1)ν(I)+ν(J)
I∈Nk
как функцию строк матрицы A и докажем, что она обладает
тремя свойствами:
• f (A) линейна по каждому аргументу;
• если строки матрицы A линейно зависимы, то f (A) = 0;
• если A — единичная матрица, то f (A) = 1.
Первое и третье свойства очевидны. Для того чтобы доказать
второе свойство, достаточно установить, что f (A) меняет знак
при перестановке двух строк. Более того, достаточно рассмот-
реть перестановку двух соседних строк. Пусть это будут строки
с номерами s и s + 1. Матрицу с переставленными строками
обозначим B .
Пусть I , I ∈ Nk . Определим на Nk взаимно-однозначное
отображение, при котором I переходит в I, следующим прави-
лом. Если s и s + 1 оба входят или оба не входят в систему
номеров I , то пусть I = I . Если s принадлежит I , а s + 1 нет, то
пусть I получается из I заменой номера s на s + 1. Если s + 1
принадлежит I , а s нет, то пусть I получается из I заменой
номера s + 1 на s. Ясно, что

f (B) = det B(I , J) det B(I  , J  )(−1)ν(I)+ν(J) =
I∈Nk

= Σ1 (B) + Σ2 (B),
где Σ1 содержит члены, для которых I = I, а Σ2 — члены, для
которых I = I.
D 5.2. Определители с нулевыми членами 365

Нам нужно доказать, что f (B) = −f (A). Рассмотрим члены,


для которых I = I:
• s, s + 1 ∈ I ⇒ det B(I , J) = − det A(I , J), det B(I  , J  ) =
= det A(I  , J  );
• s, s + 1 ∈ / I ⇒ det B(I , J) = det A(I , J), det B(I  , J  ) =
= − det A(I  , J  ).
При этом ν(I) = ν(I ) (поскольку I = I ). Отсюда Σ1 (B) =
= −Σ1 (A).
Теперь рассмотрим члены, для которых I = I. Заметим, что
если I переходит в I, то I переходит в I . Следовательно, сумма
Σ2 разбивается на сумму пар членов, отвечающих I и I. При
этом находим
det B(I , J) = det A(I, J), det B(I  , J  ) = det A(I , J  ),

det B(I, J) = det A(I , J), det B(I , J  ) = det A(I  , J  ).

В то же время ν(I ) = ν(I) ± 1. Поэтому Σ2 (B) = −Σ2 (A). Таким


образом, функция f (A) является индикатором линейной зави-
симости, а в силу его единственности — определителем матри-
цы A. 

D 5.2. Определители с нулевыми членами


Теорему Лапласа удобно применять, когда среди миноров на вы-
бранных столбцах (или строках) оказывается много нулевых. Часто
это связано с наличием большого числа нулей в матрице. Иногда
нулей оказывается настолько много, что каждый член определителя
содержит нулевой сомножитель и поэтому равен нулю. Очевидно, что
так обстоит дело, если матрица имеет нулевой столбец или нулевую
строку. Следующее утверждение представляет собой нетривиальное
обобщение этого наблюдения.
Теорема Холла. Для того чтобы все члены определителя матрицы
порядка n были равны нулю, необходимо и достаточно существо-
вание нулевой подматрицы размеров p × q с условием p + q > n.
Доказательство достаточности является простым упражнением. А
вот доказательство необходимости требует уже изрядной изобретатель-
ности.
Доказательство необходимости. Проведем индукцию по n. При n =
= 1 утверждение очевидно. Предположим, что оно доказано для любых
матриц порядка k  n − 1, и рассмотрим матрицу A, в которой каждый
член определителя содержит нулевой элемент матрицы. Если все ее
элементы равны нулю, то утверждение уже доказано. Пусть имеется
366 Дополнение к лекции 5

хотя бы один ненулевой элемент. Пусть a1n = 0. Тогда


⎡ ⎤
a11 ... a1 n−1 a1n
⎢ a2n ⎥
A=⎣ ... ⎦ ,
B
ann
причем любой член определителя матрицы B обязан содержать
нулевой множитель. По индуктивному предположению, в B
имеется нулевая подматрица 0k×l размеров k × l с условием
k + l > n − 1. Если k + l > n, то эта подматрица является
искомой.
Остается рассмотреть случай k + l = n. Не ограничивая общности,
предположим, что A имеет вид
 
A A
A = 0 11 A12 .
k×l 22

Подматрицы A11 и A22 квадратные — порядка l и k соответственно.


В силу исходного предположения о матрице A, если хотя бы один
член определителя A11 ненулевой, то все члены определителя A22
равны нулю. По индуктивному предположению в A22 имеется нулевая
(r × s)-подматрица с условием r + s > k. Не ограничивая общности,
предположим, что она находится на последних r строках и столбцах
с номерами от l + 1 до l + s. Рассмотрим подматрицу Z на пересечении
последних p = r строк и q = l + s столбцов. Легко видеть, что Z = 0,
при этом p + q = l + r + s > l + k = n.
Если все члены определителя A11 равны нулю, то индуктивное
предположение можно применить непосредственно к A11 . Искомая ну-
левая подматрица в A строится аналогичным образом. 
Заметим, что теорема Холла была сформулирована и доказана
в 1935 г. в связи с изучением специальных комбинаторных задач
(а именно, задачи о паросочетаниях).
Дополнение к лекции 6

D 6.1. Матрицы с диагональным преобладанием


Отметим полезное достаточное условие обратимости матри-
цы. Пусть для элементов матрицы A = [aij ] порядка n выполня-
ются соотношения 
|aii | > |aij |, i = 1, 2 . . . , n.
1 j  n
j=i
В таких случаях A называется матрицей с диагональным преоб-
ладанием по строкам. Если имеют место соотношения

|ajj | > |aij |, j = 1, 2 . . . , n,
1 i n
i=j
то A называется матрицей с диагональным преобладанием по
столбцам.
Теорема. Любая матрица с диагональным преобладанием по
строкам или по столбцам является обратимой.
Доказательство. Пусть A — матрица с диагональным преоб-
ладанием по строкам. Докажем, что ее столбцы линейно неза-
висимы. Для этого приравняем нулю их линейную комбинацию
с коэффициентами x1 , . . . , xn :
 
x1
A . . . = 0.
xn
Выберем строку с номером i таким, что |xi |  |xj | для всех j .
Тогда   ⎛ ⎞
 
   
  ⎜ ⎟

0 = aii xi + aij xj   ⎜ |a | − |a | ⎟ |xi |.
⎝ ii ij ⎠
 
 1 j  n
j=i  1 j  n
j=i
Поскольку величина в скобках положительная, получаем: xi = 0
⇒ xj = 0 ∀ j . Обратимость матрицы с диагональным преобла-
368 Дополнение к лекции 6

данием по столбцам доказывается с помощью перехода к транс-


понированной матрице. 

D 6.2. Определитель и возмущения


Можно доказать, что если определитель матрицы отличен от
нуля, то при всех достаточно малых изменениях (в математике
часто говорят — возмущениях) элементов матрицы определитель
не станет нулем.
Задача 1. Докажите, что det(I + F ) = 0, если каждый элемент
матрицы-возмущения F порядка n по модулю меньше 1/n.
Однако по величине определителя трудно судить, насколько
малы должны быть соответствующие возмущения. Например,
рассмотрим двухдиагональные матрицы порядка n с возмущени-
ем ε только одного элемента — в левом нижнем углу:
⎡ ⎤
1 2 0
⎢ 1 2 ⎥
⎢ .. .. ⎥
A(ε) = ⎢ . . ⎥.
⎣ ⎦
0 1 2
ε 1
При ε = 0 имеем: det A(0) = 1. В общем случае, применяя теоре-
му Лапласа для разложения определителя по первому столбцу,
находим
det A(ε) = 1 + ε · (−1)n+1 2n−1 .
При ε = (−1)n /2n−1 получаем: det A(ε) = 0. Пусть, напри-
мер, n = 100. Как видим, невырожденная матрица с опреде-
лителем 1 превращается в вырожденную при весьма малом
возмущении лишь одного элемента — на величину порядка
1/299 ≈ 1.58 · 10−30 .
Дополнение к лекции 8

D 8.1. Выбор ведущего элемента


Ненулевые элементы в строках, с помощью которых прово-
дится исключение элементов, принято называть ведущими эле-
ментами. С теоретической точки зрения важно только то, что
ведущий элемент не равен нулю.
С точки зрения практических вычислений этого мало. Дело
в том, что компьютер оперирует с конечным набором веществен-
ных чисел — так называемых машинных чисел. При исполь-
зовании p-ичной системы счисления любое вещественное число
можно записать в виде
x = pα · β , 0  β < 1, (∗)
где α — целое число, называемое порядком числа x, а β —
вещественное число, называемое мантиссой числа x (конечно,
порядок и мантисса для x зависят от p). 1) На компьютере для
представления порядка и мантиссы отводится лишь конечное
число разрядов. Поэтому при выполнении операций с машин-
ными числами приходится делать округление — замену точно-
го результата каким-то близким машинным числом. Предполо-
жим, например, что мантисса имеет t = 5 разрядов. Тогда при
сложении чисел a = 102 · 0.11111 и b = 10−4 · 0.11111 сначала
«выравниваются» порядки — это означает изменение мантиссы
числа с меньшим порядком и потерю знаков, оказавшихся за
пределами отведенных для представления мантисс разрядов:
10−4 · 0.11111 = 102 · 0.00000011111 → 102 · 0.00000.
Далее модифицированные мантиссы складыватся, после чего ре-
зультат приводится к виду (∗). В данном случае
102 · 0.11111 + 102 · 0.00000 = 102 · 0.11111.
1)
Обычно p = 2, но есть и компьютер, для которого p = 3 — это ЭВМ
«Сетунь», разработанная в Московском университете в 1960-х годах.
370 Дополнение к лекции 8

Как видим, сумма положительных чисел a и b оказалась рав-


ной a.
Пусть на этом же компьютере решается система




10−5 1 x 2
= .
1 1 y 1
Легко видеть, что точное решение имеет вид
−1 2 − 10−5
x= , y= . (1 )
1 − 10−5 1 − 10−5
В то же время при исключении элемента в позиции (2, 1) полу-
чаем



−5
−5
1 0 10−5 1 10 1 10 1
=  → ,
−105 1 1 1 0 1 − 105 0 −105
так как
1 − 105 = 101 · 0.10000 − 106 · 0.10000 =
= 106 · 0.000001 − 106 · 0.10000
→ 106 · 0.00000 − 106 · 0.10000 = −105 .
Аналогично, при соответствующем преобразовании правой части
находим



1 0 2 2
→ .
−105 1 1 −2 · 105
, y будет точным решением си-
В итоге вычисленное решение x
стемы
−5


10 1 
x 2
= .
0 −105 y −2 · 105
Таким образом,
 = 0,
x y = 2. (2)
Сравнивая (1) и (2), приходим к очевидному выводу: полученный
ответ далек от истинного.
Причина чудовищно большой погрешности — в относительно
малой величине ведущего элемента, приводящей к росту эле-
ментов в преобразованной матрице. Чтобы снизить неприятный
эффект, вызванный ростом элементов, обычно рекомендуется
в каждом столбце выбирать в качестве ведущего элемент, мак-
симальный по модулю.
Задача 1. Дана матрица A = [aij ] порядка n с диагональным
преобладанием (см. п. D6.1) по строкам (по столбцам), и пусть после
D 8.2. Вычисление обратной матрицы 371

исключения элементов в первом столбце с помощью первой строки


с ведущим элементом a11 = 0 получается матрица
⎡ ⎤
a11 a12 . . . a1n
⎢0 ⎥
⎣. . . B ⎦.
0

Докажите, что матрица B порядка n − 1 также имеет диагональное


преобладание по строкам (по столбцам).
Задача 2. Докажите, что любая квадратная матрица A с диаго-
нальным преобладанием по строкам допускает разложение A = LU , где
L — нижняя треугольная матрица с единицами на главной диагонали,
U — верхняя треугольная матрица. Докажите, что матрица U имеет
диагональное преобладание по строкам, а ее максимальный по модулю
элемент не превосходит удвоенного максимального по модулю элемента
матрицы A.

D 8.2. Вычисление обратной матрицы


Обратную матрицу можно вычислить, используя конструкции того
же метода Гаусса. Если получено разложение A = LU , то, поскольку
A−1 = U −1 L−1 , достаточно научиться вычислять матрицы, обратные
к верхней и нижней треугольным матрицам. Общее число арифмети-
ческих операций будет O(n3 ).
Однако в 1965 г. появилась работа Штрассена с заголовком «Метод
Гаусса не оптимален», в которой впервые было показано, что существу-
ют и более быстрые алгоритмы. Пусть имеется алгоритм умножения
двух (n × n)-матриц c числом операций  c nγ (например, в лекции 1
обсуждается алгоритм Штрассена, для которого γ = log2 7 < 3). Тогда
в случае строго регулярной матрицы A можно построить алгоритм
вычисления A−1 с числом операций O(nγ ).
Для простоты предположим, что n = 2p . Разобьем A на блоки
порядка n/2 и рассмотрим следующее равенство:


I 0  A11 A12   A11 A12 
−1
−A21 A11 I A21 A22 0 W ,
−1
W = A22 − A21 A11 A12 .
Из невырожденности A и A11 вытекает невырожденность блока W .
Более того, блоки A11 (что очевидно) и W (докажите!) наследуют
строгую регулярность матрицы A. Нетрудно проверить, что
 
−1
A11 A12 −1 A11 −A11−1
A12 W −1
= .
0 W 0 W −1
372 Дополнение к лекции 8

Таким образом,

−1 −1


−1 A11 −A11 A12 W −1 I 0
A = −1 . (∗)
0 W −1 −A21 A11 I

Полученные из (∗) выражения для блоков матрицы A−1 иногда назы-


вают формулами Фробениуса.
Для нашей цели формула (∗) интересна тем, что показывает, как
обращение матрицы порядка n сводится к двум аналогичным задачам
для матриц A11 и W порядка n/2. Для реализации указанной редук-
ции требуется выполнить несколько умножений матриц порядка n/2.
Общие затраты на всех шагах редукции пропорциональны
γ γ γ
n n n nγ 1 nγ
+ 2 2 + 22 3 + . . .  γ = γ .
2 2 2
γ−1
2 1 − 1 /2 2 −2

Вслед за открытием Штрассена появилась работа других авторов


под названием «Метод Штрассена не оптимален». Но лидерство но-
вого алгоритма было не очень долгим. Соревнование по построению
все более быстрых алгоритмов обращения матриц и решения систем
продолжается до сих пор, а вопрос об оптимальном алгоритме с точки
зрения числа операций остается открытым.
Еще менее ясным является вопрос об алгоритме с минимальным
числом параллельных шагов (хотя бы в модели бесконечного парал-
лелизма). Довольно давно был придуман алгоритм, в котором число
параллельных шагов в случае матрицы общего вида есть O(log22 n).
Никто не знает, можно ли построить более быстрый параллельный
алгоритм. Любопытно, что предъявленный алгоритм не имеет ничего
общего ни с методом Гаусса, ни с методом Штрассена. Кроме того,
даже для треугольной матрицы неизвестен алгоритм с меньшим числом
параллельных шагов (по порядку зависимости от n).
Задача 1. Докажите, что определитель строго регулярной матри-
цы порядка n можно вычислить за O(nlog2 7 ) арифметических операций.
Дополнение к л е к ц и и 13

D 13.1. Аффинная независимость


Точки v0 , v1 , . . . , vk в n-мерном пространстве называют-
ся аффинно независимыми, если векторы v1 − v0 , . . . , vk − v0
линейно независимы. Равносильное «симметричное» определе-
ние: векторы v0 , . . . , vk аффинно независимы, если из ра-
венств α0 v0 + . . . + αk vk = 0, α0 + . . . + αk = 0 вытекает, что
α0 = . . . = αk = 0. В самом деле, из этих равенств находим:
α1 (v1 − v0 ) + . . . + αk (vk − v0 ) = 0, при этом необходимость усло-
вий α1 = . . . = αk = 0 равносильна линейной независимости век-
торов v1 − v0 , . . . , vk − v0 . О точках аффинно независимой систе-
мы часто говорят также, что они находятся в общем положении.
Задача 1. Докажите, что в любой аффинно независимой системе
с числом векторов k + 1 можно выбрать линейно независимую подси-
стему с числом векторов k.
Выпуклая оболочка аффинно независимых векторов v0 , v1 , . . .
. . . , vk называется симплексом размерности k . Точки v0 , . . . , vk
называются вершинами симплекса. Согласно определению раз-
мерность симплекса не зависит от размерности пространства V .
Размерностью произвольного выпуклого множества называют
максимальную размерность принадлежащих ему симплексов.
Среди точек в выпуклом множестве M особый интерес пред-
ставляют его угловые точки — так называются точки из M , не
являющиеся внутренней точкой ни для одного отрезка, лежащего
в M . Например, круг на плоскости является выпуклым множе-
ством, а его угловые точки — это точки граничной окружности.
Утверждение. Угловыми точками симплекса являются его
вершины и только они.
Доказательство. Пусть v0 , . . . , vk — вершины заданного сим-
плекса M . Докажем, что vj является угловой точкой. От против-
ного: пусть vj = tx + (1 − t)y при 0 < t < 1 и x = y :

k 
k 
k 
k
x= αi vi , y= βi vi , αi = βi = 1, αi , βi  0.
i=0 i=0 i=0 i=0
374 Дополнение к лекции 13

Отсюда

(tαi + (1 − t)βi )(vi − vj ) = 0 ⇒
1  i  n, i = j
⇒ tαi + (1 − t)βi = 0 ⇒ αi = βi = 0.
Итак, x = y , а мы исходили из того, что x = y .
Пусть теперь x ∈ M — произвольная точка симплекса, отлич-
k
ная от его вершин. Это значит, что x = ti vi и 0 < tj < 1 хотя
i=0
бы для одного j . Не ограничивая общности, предположим, что

k
0 < t0 < 1. Тогда x = t0 v0 + (1 − t0 )w, где w = (ti /(1 − t0 ))vi ∈
i=1
∈ M. 
В действительности для широкого класса выпуклых мно-
жеств доказывается, что любая точка в них является выпуклой
комбинацией конечного числа угловых точек. 1)

D 13.2. Линейные неравенства и минимизация


Большое число прикладных задач (составление расписаний,
управление производством, оптимизация диеты, портфеля инве-
стиций и т. п.) связано с минимизацией (максимизацией) веще-
ственной функции f (x) от x = [x1 , . . . , xn ] ∈ Rn вида
f (x) = c x = c1 x1 + . . . + cn xn , ci ∈ R, c = [c1 , . . . , cn ] = 0,
на множестве точек M , заданном линейными неравенствами
a11 x1 + . . . + a1n xn  b1 ,
...
am1 x1 + . . . + amn xn  bm .
Ясно, что M есть пересечение конечного числа полупро-
странств. Предположим дополнительно, что координаты точек из
M ограничены. В таких случаях M называют выпуклым много-
гранником. Интуитивно понятно, что можно говорить о гранях.
Уравнение f (x) = b при любом фиксированном b определяет
гиперплоскость. Очевидно, что f (x + tc) > f (x) при t > 0. Более
того, f (x + td) > f (x) при t > 0, если c d > 0 (докажите!). Отсю-
да можно вывести, что минимум f (x) должен достигаться в угло-
вых точках множества M (возможно, не только в них). Простая
1)
Достаточно потребовать, чтобы выпуклое множество было ограниченным
и замкнутым (доказательство см. в п. D26.1).
D 13.2. Линейные неравенства и минимизация 375

геометрическая идея поиска минимума заключается в переборе


всех угловых точек. Конечно, перебор можно организовать так,
чтобы следующая угловая точка лежала в той же грани и умень-
шала значение f (x). Формализация данной идеи привела в свое
время к так называемому симплекс-методу. До сих пор это один
из основных методов решения задач с линейными ограничениями
и линейной целевой функцией f (x) — такие задачи относятся
к задачам линейного программирования. Другой эффективный
класс методов использует внутренние точки множества M и по-
лучил общее название методов внутренней точки. Конечно,
весь этот круг вопросов составляет отдельную и обширную об-
ласть с развитым математическим аппаратом и многочисленными
приложениями.
Дополнение к л е к ц и и 14

D 14.1. Квадратные уравнения


Рассмотрим произвольное квадратное уравнение z 2 + az + b =
= 0 с комплексными коэффициентами a, b. После выполнения
традиционных преобразований
 a 2   a 2 
a
2 2
z + az + b = z + 2 z + + b− =
2 2 2
 
a 2 a2
= z+ + b−
2 4
получаем равносильное уравнение

a 2 a2
z+ = D, D≡ − b.
2 4
Величина D называется дискриминантом квадратного трехчлена.
Если D = 0, то единственное решение имеет вид z = −a/2.
В этом и только в этом случае квадратный трехчлен z 2 + az + b
является квадратом линейного двучлена:

a 2
z 2 + az + b = z + .
2
Если D = |D|(cos ϕ + i sin ϕ) = 0, то в общем случае получаем
пару комплексных решений:
a !
ϕ ϕ

z± = − ± |D| cos + i sin .
2 2 2

D 14.2. Кубические уравнения


Произвольное кубическое уравнение
z 3 + a2 z 2 + a1 z + a0 = 0
с помощью замены z = x − a2 /3 приводится к виду
x3 + px + q = 0. (∗)
D 14.3. Уравнения четвертой степени 377

Будем искать x в виде x = u + v . Тогда


u3 + 3u2 + 3uv 2 + v 3 + p(u + v) + q =
= (u3 + v 3 + q) + (3uv + p)(u + v) = 0.
Очевидно, что x = u + v будет решением уравнения (∗), если
 
u3 + v 3 = −q , ⇒ u3 + v 3 = −q ,
uv = −p/3 3
u v 3 = −p3 /27.
Два комплексных числа, u3 и v 3 , с заданной суммой и заданным
произведением находятся как корни квадратного уравнения
!
3 w = u 3 = −q/2 + q 2 /4 + p3 /27 ,
p 1
w2 + qw − =0⇒ !
27 w2 = v 3 = −q/2 − q 2 /4 + p3 /27 .
В результате получается следующая формула Кардано: 1)
4 % 4 %
3 3
x = −q/2 + q /4 + p /27 + −q/2 − q 2 /4 + p3 /27 .
2 3

При применении формулы Кардано следует иметь в виду, что


для каждого из кубических корней существуют три комплексных
значения, которые нельзя выбирать независимо: их произведение
uv должно быть равно −p/3. Даже в случае вещественных
корней формула Кардано, как правило, дает их представление
с использованием комплексных значений кубических корней.

D 14.3. Уравнения четвертой степени


Общее уравнение четвертой степени
z 4 + a3 z 3 + a2 z 2 + a1 z + a0 = 0
с помощью замены z = x − a3 /4 приводится к виду
x4 + px2 + qx + r = 0. (∗)
Данное уравнение может быть сведено к кубическому. Наибо-
лее простой способ для этого был предложен итальянским мате-
матиком Феррари. Идея состоит в том, чтобы, выбрав некоторое

1)
Это тот самый Кардано, который известен автомобилистам как изобре-
татель способа передачи вращения с одного вала на другой. Данная формула
опубликована им в XVI веке, но известно, что она была открыта другими
итальянскими математиками. Ученики Кардано нашли также способ решения
уравнений 4-й степени.
378 Дополнение к лекции 14

значение y , представить левую часть уравнения (∗) как разность


двух квадратов:
x4 + px2 + qx + r = (x2 + y/2)2 − ((y − p)x2 − qx + (y 2 /4 − r)).
Квадратный трехчлен ax2 + bx + c является квадратом двучлена
αx + β в том и только том случае, когда его дискриминант
равен нулю. Поэтому потребуем, чтобы число y было решением
кубического уравнения
q 2 − 4(y − p)(y 2 /4 − r) = 0.
Тогда для некоторых α, β
x4 + px2 + qx + r = (x2 + y/2)2 − (αx + β)2 =
= (x2 + y/2 + αx + β)(x2 + y/2 − αx − β).
Таким образом, получение решений для уравнения (∗) сводится
к решению одного кубического и нескольких квадратных урав-
нений.
В начале XIX века Руффини и Абель независимо друг от
друга доказали, что для общего алгебраического уравнения n-й
степени при n  5 формулы, выражающей корни через радикалы,
не существует. В 1830 г. Эварист Галуа создал теорию, позволяю-
щую выяснить разрешимость или неразрешимость в радикалах
любого конкретного уравнения n-й степени (см. дополнение
к лекции 18).
Дополнение к л е к ц и и 16

D 16.1. Мультипликативная группа поля вычетов


Утверждение о том, что многочлен степени n  1 не мо-
жет иметь более n корней, никак не опирается на результаты
о существовании корней! В отличие от последних, оно вполне
элементарно. Но очень полезно — например, для доказательства
следующего примечательного свойства полей вычетов.
Теорема. Мультипликативная группа поля вычетов является
циклической.
Доказательство. Обозначим через x1 , . . . , xp−1 ненулевые вы-
четы по простому модулю p и предположим, что xi имеет
порядок mi . Пусть m — наименьшее общее кратное чисел
m1 , . . . , mp−1 . Тогда можно доказать, что найдется вычет поряд-
ка m. Для этого разложим m в произведение простых чисел:
m = q1s1 · . . . · qksk с попарно различными q1 , . . . , qk .
s
Каждый множитель qj j является делителем хотя бы одного
из чисел m1 , . . . , mp−1 . Обозначим это число через mi , i = i(j).
s
При этом mi = ni qj j , где qj и ni взаимно просты. Несложно
s
проверить, что вычет xni i имеет порядок qj j , а произведение вы-
n ni(k)
четов α = xi(i(1)1) · . . . · xi(k) есть элемент порядка q1s1 · . . . · qksk = m.
Порядок элемента является делителем порядка группы ⇒ p − 1
делится на m ⇒ m  p − 1.
В то же время вычеты x1 , . . . , xp−1 являются корнями много-
члена xm − 1 над полем вычетов Zp . В силу того что многочлен
степени m не может иметь более m различных корней, находим:
p − 1  m ⇒ m = p − 1. 

D 16.2. Результант
Пусть даны многочлены
f (x) = a0 + ... + am xm = am (x − α1 ) · . . . · (x − αm ), am = 0,
g(x) = b0 + ... + bn xn = bn (x − β1 ) · . . . · (x − βn ), bn = 0.
380 Дополнение к лекции 16

Оказывается, f и g имеют общий корень тогда и только тогда, когда


равно нулю число, называемое результантом многочленов f и g — это
определитель матрицы порядка m + n следующего вида:
⎡ ⎤ ⎫
a0 a1 ... am

⎢ a0 a1 ... am ⎥ ⎬
⎢ ⎥
⎢ ... ... ... ... ⎥ ⎪ n строк
⎢ a0 a1 ... am ⎥ ⎭
⎢ ⎥ ⎫
R(f , g) = ⎢ ⎥
⎢ b0 ⎥ ⎪
⎢ b1 ... bn ⎥ ⎬
⎢ b0 b1 ... an ⎥
⎣ ⎦ ⎪ m строк
... ... ... ... ⎭
b0 b1 ... bn

$
m $
n
Утверждение. det R(f , g) = (am )n (bn )m (βj − αi ).
i=1 j=1
Доказательство. Ограничимся случаем, когда корни каждого из мно-
гочленов попарно различны. Пусть V (x1 , . . . , xk ) обозначает матрицу
Вандермонда порядка k для чисел x1 , . . . , xk . Взяв W = V (α1 , . . .
. . . , αm , β1 , . . . , βn ), находим
 
0 W1 D1
R(f , g) W = Wn×m ,
2 D2 0m×n

где
W1 = V (β1 , . . . , βn ), D1 = diag{f (β1 ), . . . , f (βn )},

W2 = V (α1 , . . . , αm ), D2 = diag{g(α1 ), . . . , g(αm )}.

Символ diag{...} обозначает диагональную матрицу с диагональными


элементами, указанными в фигурных скобках. Используя уже извест-
ную нам формулу для вычисления определителя Вандермонда, получа-
ем

 m 
 n 
det R(f , g) (αk − αi ) (βj − αi ) (βl − βj ) =
1i<km i=1 j=1 1j<ln
 
= (−1)mn (am )n (bn )m (αk − αi ) (βl − βj ) ×
1i<km 1j<ln

m 
 n m 
 n
× (βj − αi ) (αi − βj ).
i=1 j=1 i=1 j=1
D 16.3. Построения циркулем и линейкой 381

В силу принятого ограничения доказательство завершается очевидным


образом. 
Задача 1. Докажите утверждение в случае комплексных коэффи-
циентов и корней без предположения о том, что корни многочленов
попарно различны.
Задача 2. Докажите, что степень наибольшего общего делите-
ля многочленов f (x) степени m и g(x) степени n равна m + n −
− rankR(f , g).

D 16.3. Построения циркулем и линейкой


Наши исследования линейной зависимости, полей и много-
членов уже сейчас позволяют разобраться со многими не очень
простыми вопросами. Давайте посмотрим, как они применяются
к анализу построений, выполняемых с помощью лишь циркуля
и линейки. Вот знаменитые примеры таких задач:
• построить ребро куба, объем которого в два раза больше
объема заданного куба (задача об удвоении куба);
• построить правильный n-угольник, вписанный в заданную
окружность.
Вопрос о том, что можно и что нельзя построить с помощью
циркуля и линейки, оказался трудным и не поддавался решению
на протяжении многих веков.
Используя метод координат, мы можем свести вопрос о гео-
метрических построениях к нахождению некоторой специальной
цепочки расширений полей, начинающейся с поля рациональных
чисел. Все поля вложены, конечно, в поле вещественных чисел.
Не ограничивая общности, можно считать, что ребро задан-
ного куба и радиус заданной окружности равны 1. Опираясь
на теорему Фалеса, мы можем построить с помощью циркуля
и линейки любой отрезок рациональной длины.
Пусть алгоритм построения представляет собой последова-
тельность из m шагов. На начальном (нулевом) шаге мы имеем
любые точки с координатами из поля Q0 = Q. Далее, предполо-
жим, что к началу i-го шага мы имеем любые точки с коорди-
натами из некоторого поля Qi−1 . Тогда на i-м шаге выполняется
одно из трех допустимых построений:
а) пересечение двух прямых, проходящих через точки с коор-
динами из Qi−1 ;
б) пересечение прямой и окружности — в предположении, что
прямая проходит через пару точек с координатами из Qi−1 ,
центр окружности есть точка с координатами из Qi−1 ,
382 Дополнение к лекции 16

а сама окружность проходит через точку с координатами


из Qi−1 (отсюда ясно, что квадрат радиуса есть число из
Qi−1 );
в) пересечение двух окружностей — с тем же предположением
относительно центра и радиуса.
Не очень трудно убедиться в том, что каждое из допустимых
построений дает точки, координаты которых принадлежат полю
Qi−1 либо некоторому его расширению
Qi = Qi−1 (ϑi ), где ϑi ∈/ Qi−1 , но Di ≡ ϑ2i ∈ Qi−1 .
Перенумеруем подряд только те поля, которые не совпадают
с предыдущим полем. После этого получаем цепочку из k  m
расширений вида
Q = Q0 ⊂ Q1 ⊂ . . . ⊂ Qk−1 ⊂ Qk , (1 )
Qi = Qi−1 (ϑi ), ϑi ∈ / Qi−1 , Di = ϑi ∈ Qi , i = 1, . . . , k. (2)
2

Теперь мы в состоянии доказать, например, следующий ре-


зультат.
Теорема. Задача об удвоении куба неразрешима с помощью
циркуля и линейки.
Доказательство. В данном случае цель построений — отрезок
длины 21/3 . Если построение возможно, то существует такая
цепочка расширений, в которой 21/3 ∈ Qk , но 21/3 ∈
/ Qk−1 . Сле-
довательно,
21/3 = a + bϑk , a, b ∈ Qk−1 , b = 0.
Возводя в куб, находим
2 = a3 + 3a2 ϑk + 3ab2 Dk + b3 Dk ϑk ⇒
⇒ 2 − a3 − 3ab2 Dk = (3a2 + b2 Dk )b ϑk .
Учитывая, что b = 0 и 3a2 + b2 Dk > 0, получаем
2 − a3 − 3ab2 Dk
ϑk = ∈ Qk−1 ,
(3a2 + b2 Dk )b
что противоречит нашим предположениям. 
Исследование вопроса о построении правильных
n-угольников менее элементарно. Тем не менее мы находим-
ся буквально в двух шагах, например, от доказательства
невозможности построения правильного 7-угольника. Один
из этих шагов связан с изучением расширений полей как
линейных пространств и включает легко доказываемую теорему
о размерностях этих пространств. Другой шаг эквивалентен
D 16.4. Конечные расширения полей 383

доказательству неразложимости над полем рациональных чисел


многочлена f (x) = 1 + x + . . . + xn−1 при простом n.

D 16.4. Конечные расширения полей


Предположим, что поле P вложено в поле F . Тогда элементы
из F можно рассматривать как векторы. Суммой векторов можно
назвать их сумму как элементов поля F . Умножение векторов
(элементов F ) на числа (элементы P ) можно определить есте-
ственным образом как умножение двух элементов: один (вектор)
из поля F , другой (число) — из поля P . Все аксиомы линейного
пространства, как легко проверить, выполнены. Поэтому F мож-
но рассматривать как линейное пространство над полем P .
Поле F называется конечным расширением поля P , если
оно является конечномерным как линейное пространство над по-
лем P . Размерность данного линейного пространства называется
степенью расширения и обозначается (F : P ).
Предположим, что поле P вложено в поле F , а F вложено
в поле H : P ⊂ F ⊂ H . Тогда можно рассматривать следующие
три расширения:
P ⊂ F, F ⊂ H, P ⊂ H. (∗)
Теорема. Из конечности первых двух расширений вида (∗)
вытекает конечность третьего расширения, а из конечности
третьего — конечность первых двух расширений. При этом
степени расширений связаны соотношением
(H : P ) = (H : F ) (F : P ).

Доказательство. Предположим конечность расширений P ⊂ F


и F ⊂ H . Пусть a1 , . . . , am — элементы поля F , образующие
базис линейного пространства F над полем P . Аналогично, пусть
b1 , . . . , bn — элементы поля H , образующие базис линейного
пространства H над полем F . Очевидно, что любой элемент
h ∈ H можно представить в виде
m

n  
m 
n
h= sij ai bj = sij (ai bj ), sij ∈ P.
j=1 i=1 i=1 j=1
Таким образом, любой элемент h ∈ H представим в виде линей-
ной комбинации mn элементов поля H ⇒ линейное пространст-
во H над полем P конечномерно и его размерность не выше mn.
384 Дополнение к лекции 16

Остается доказать линейную независимость элементов (век-


торов)
ai bj , 1  i  m, 1  j  n.
Пусть h = 0. Тогда, поскольку b1 , . . . , bn есть базис линейного
пространства H над полем F , находим
m
sij ai = 0, 1  j  m.
i=1
Поскольку элементы (векторы) a1 , . . . , am образуют базис в ли-
нейном пространстве F над полем P , отсюда получаем: sij = 0
для всех i, j . Следовательно, размерность линейного простран-
ства H над полем P в точности равна mn.
Теперь предположим, что расширение P ⊂ H конечно. Пусть
a1 , ..., am — линейно независимые векторы линейного простран-
ства F над полем P , а b1 , ..., bn — линейно независимые векторы
линейного пространства H над полем F . Повторяя предыдущее
рассуждение, мы можем установить линейную независимость
векторов ai bj — как элементов линейного пространства H над
полем P . Значит, mn  (H : P ). Поэтому оба расширения P ⊂ F
и F ⊂ H конечны. 
Следствие. Степень расширения Q ⊂ Qk , получаемого в цепоч-
ке расширений (1), (2), равна 2k .
Доказательство. Согласно теореме о минимальном ϑ-расши-
рении, каждое из расширений Qi−1 ⊂ Qi в цепочке (1), (2) имеет
степень 2. 

D 16.5. Круговые многочлены простой степени


xn − 1
Речь идет о многочленах f (x) = 1 + x + . . . + xn−1 =
x−1
при простом n.
Теорема. Многочлен f (x) при простом n неразложим над
полем рациональных чисел.
Доказательство. Легко доказывается, что разложимость f (x)
над Q равносильна возможности его представления в виде
f (x) = g(x)h(x), где ненулевые многочлены g(x) и h(x) имеют
целочисленные коэффициенты. 1)

1)
Вообще, можно доказать, что многочлен с целочисленными коэффициен-
тами разложим над Q тогда и только тогда, когда он разложим в произведение
двух многочленов с целочисленными коэффициентами. Это можно вывести из
следующей леммы.
D 16.5. Круговые многочлены простой степени 385

Заменив каждый из коэффициентов на порождае-


мый им вычет по простому модулю n, получим много-
члены fn (x), gn (x), hn (x) над полем Zn и равенство
fn (x) = gn (x)hn (x). Используя разложение для бинома Нью-
тона, несложно получить следующее равенство многочленов
над Zn : xn − 1 = (x − 1)n . Поэтому в поле Zn справедливы
разложения
fn (x) = (x − 1)n−1 ,
gn (x) = (x − 1)m1 , hn (x) = (x − 1)m2 , m1 + m2 = n − 1.
Следовательно, каждое из целых чисел g(1) и h(1) делится на n
⇒ f (1) = g(1)h(1) делится на n2 . Но это невозможно, так как
f (1) = n. 
Еще один (пожалуй, даже более простой) подход: вывести
неразложимость f (x) из неразложимости многочлена f (x + 1).
Признак Эйзенштейна. Путь дан многочлен F (x) = a0 + . . .
. . . + an xn с целыми коэффициентами, в котором a0 , . . . , an−1
делятся на некоторое простое число p > 1 и при этом a0
не делится на p2 . Если an не делится на p, то F (x) нельзя
представить в виде произведения многочленов с целыми ко-
эффициентами.
Доказательство. Запишем: F (x) = (b0 + . . . + bk xk )(c0 + . . . +
+ cm xm ). Тогда b0 c0 = a0 делится на p, но не на p2 . Поэтому одно
и только одно из чисел b0 , c0 делится на p. Пусть это будет c0 .
Среди коэффициентов c0 , . . . , cm должен быть не делящийся на p
(иначе an делится на p). Пусть ci — первый такой коэффициент.
Тогда ai = b0 ci + (b1 ci−1 + . . . + bi c0 ) не делится на p (число
в скобках делится на p, а произведение b0 ci не делится на p).
Отсюда i = n  m ⇒ m = n. 
Остается заметить, что в случае f (x) = 1 + x + . . . + xn− 1 при
простом n многочлен F (x) = f (x + 1) имеет старший коэффи-
циент 1, а все остальные коэффициенты делятся на n.

Лемма Гаусса. Для любых целочисленных многочленов f (x) = a0 + . . .


. . . + am xm и g(x) = b0 + . . . + bn xn наибольший общий делитель C всех
коэффициентов произведения f (x)g(x) = c0 + . . . + cm+n xm+n равен произ-
ведению наибольшего общего делителя A всех коэффициентов f (x) и наи-
большего общего делителя B всех коэффициентов g(x).
Доказательство. Ясно, что C делится на AB . Поэтому, не ограничивая общ-
ности, можно считать, что A = B = 1. Пусть C делится на простое число p > 1.
Хотя бы один из коэффициентов a0 , . . . , am и хотя бы один из коэффициентов
b0 , . . . , bn не делится на p. Обозначим через ar и bs первые из коэффициентов,
не делящиеся на p. Тогда cr+s = ar bs + (ar−1 bs+1 + . . . + ar+1 bs−1 + . . .). Число
в скобках делится на p. Поэтому cr+s не может делиться на p. 

13 Е. Е. Тыртышников
386 Дополнение к лекции 16

D 16.6. Правильные n-угольники


Теперь мы готовы к тому, чтобы доказать, например, что
правильный 7-угольник с помощью циркуля и линейки построить
нельзя. Более того, для возможности построения правильного
n-угольника мы выведем некоторое необходимое условие. (Оно
же является и достаточным, но мы докажем только необходи-
мость.)
Будем исходить из того, что вершины вписанного в еди-
ничную окружность правильного n-угольника располагаются на
корнях из единицы степени n. Предположим, что n — простое
число. Пусть существует цепочка вида (1), (2), в которой поле Qk
содержит координаты всех корней из единицы степени n. Ясно,
что для минимальной цепочки

−1
ϑ ∈ Qk , ϑ ∈
/ Qk−1 , где ϑ = ε + ε = 2 cos ,
n
2π 2π
ε = cos + i cos .
n n
Далее, рассмотрим расширение Qk ⊂ Qk (ε). Поскольку ε яв-
ляется корнем квадратного уравнения
x2 − ϑx + 1 = 0
с коэффициентами из поля Q(ϑ) ⊂ Qk , степень расширения Qk ⊂
⊂ Qk (ε) равна 2. Как мы уже знаем, степень расширения Q ⊂ Qk
равна 2k . Поэтому степень расширения Q ⊂ Qk (ε) равна
(Qk (ε) : Q) = (Qk (ε) : Qk ) (Qk : Q) = 2k+1 .
В то же время Q ⊂ Q(ε) ⊂ Qk (ε). При простом n степень
расширения Q ⊂ Q(ε) равна n − 1 (так как ε — корень нераз-
ложимого над Q кругового многочлена) и является делителем
степени расширения Q ⊂ Qk (ε), равной 2k+1 ⇒ n − 1 = 2L для
некоторого L. Таким образом, мы доказали следующее утвер-
ждение.
Лемма. Для возможности построения правильного
n-угольника в случае простого n необходимо, чтобы n имело
вид n = 2L + 1.
Заметим, что если число n = 2L + 1 простое, то L должно
иметь вид L = 2m (если L = M N при нечетном M , то число
(2N )M − 1 делится на 2N − 1 и поэтому не может быть простым).
Следствие. Построение правильного 7-угольника с помощью
циркуля и линейки невозможно.
Доказательство. 7 = 2L + 1. 
D 16.7. Эндоморфизмы и автоморфизмы 387

Теорема. Для возможности построения правильного


n-угольника необходимо, чтобы любой нечетный простой
сомножитель числа n имел вид 2L + 1.
Доказательство. Достаточно заметить, что если n-угольник
строится с помощью циркуля и линейки, то строится также лю-
бой правильный многоугольник с числом сторон, равным любому
делителю числа n. Случай простых нечетных делителей сводится
к применению доказанной выше леммы. 
Исследование вопроса о построении правильных
n-угольников — одно из самых ранних достижений Гаусса.
В отличие от нас, он сосредоточился на доказательстве доста-
точности полученного выше условия. В частности, Гаусс описал
конкретный алгоритм построения правильного 17-угольника
(заметим, что 17 = 24 + 1) — для этого достаточно предъявить
конкретную цепочку расширений вида (1), (2). Гаусс писал
также о том, что данное условие является необходимым. 1)

D 16.7. Эндоморфизмы и автоморфизмы


Рассмотрим еще одно доказательство неразложимости многочлена

f (x) = 1 + x + . . . + xn−1

над Q при простом n. Оно является более длинным, но приоткрывает


связи с некоторыми очень плодотворными идеями и понятиями алгеб-
ры (в частности, с автоморфизмами полей — их детальное изучение
составляет предмет теории Галуа).
Пусть F — поле и Φ : F → F — отображение, сохраняющее
операции:

Φ(a + b) = Φ(a) + Φ(b), Φ(ab) = Φ(a) Φ(b) ∀ a, b ∈ F.

Взаимная однозначность не предполагается. В таких случаях Φ назы-


вается эндоморфизмом поля F . 2) Если F является расширением поля
P , то особый интерес представляют эндоморфизмы, оставляющие на
месте элементы поля P — они называются эндоморфизмами F над P .
Пусть E(F , P ) обозначает множество всех эндоморфизмов поля F над
полем P .
Утверждение 1. Пусть f (x) — произвольный многочлен над полем
P и ϑ ∈ F — его корень: f (ϑ) = 0. Тогда для любого эндоморфизма

1)
Однако специалисты по истории вопроса говорят, что доказательство
необходимости в рукописях Гаусса не было обнаружено.
2)
В более общем случае, когда Φ(F ) принадлежит другому полю, отобра-
жение Φ со свойством сохранения операций называется гомоморфизмом.

13*
388 Дополнение к лекции 16

Φ ∈ E(F , P ) элемент Φ(ϑ) является корнем того же многочлена:


f (Φ(ϑ)) = 0.
Доказательство. Пусть f (x) = a0 + a1 x + . . . + an xn , где ai ∈ P . Тогда
0 = Φ(0) = Φ(f (ϑ)) = Φ(a0 ) + Φ(a1 )Φ(ϑ) + . . . +Φ(an )(Φ(ϑ))n = a0 +
+ a1 Φ(ϑ) + . . . + an (Φ(ϑ))n = f (Φ(ϑ)). 
Изучим подробнее эндоморфизмы для поля, получаемого из поля
рациональных чисел Q присоединением всех корней из единицы сте-
пени n (достаточно присоединить лишь один корень — такой, степени
которого порождают все множество корней):

2π 2π
P = Q, F = Q(ε), ε = cos + i cos .
n n
Утверждение 2. Множество E(Q(ε), Q) состоит ровно из n эн-
доморфизмов Φi , однозначно определяемых образом элемента ε:
Φi (ε) = εi , i = 0, 1, . . . , n − 1.
Доказательство. Пусть Φ ∈ E(Q(ε), Q). Тогда, в силу утверждения 1,
Φ(ε) = εi для некоторого i от 0 до n − 1. Соотношение Φ(ε) = εi пол-
ностью определяет эндоморфизм Φ. Остается доказать, что для любого
i существует эндоморфизм Φi ∈ E(Q(ε), Q) такой, что Φi (ε) = εi .
Пусть f (x) — минимальный многочлен для ε над полем Q. Заме-
тим, что ε есть корень уравнения
xn − 1
= 1 + x + . . . + xn−1 = 0 ⇒ m ≡ deg f (x)  n − 1.
x−1
В силу теоремы о присоединении корня, любой элемент z ∈ Q(ε)
однозначно представим в виде
m

z= ak εk , ak ∈ Q ∀ k.
k=0

Определим отображение Φi : Q(ε) → Q(ε) формулой


m
 m

k
Φi ( ak ε ) = ak εik .
k=0 k=0

Легко проверяется, что оно является эндоморфизмом поля Q(ε)


и оставляет на месте числа из Q. 
Утверждение 3. В случае простого n любой из эндоморфизмов
Φi утверждения 2 при 1  i  n − 1 задает взаимно-однозначное
отображение множества {ε, ε2 , . . . , εn−1 } на себя, причем каждое
такое отображение является циклическим:

εi1 → εi2 → . . . → εin−2 → εin−1 → εi1 ,

где i1 , . . . , in−1 — некоторая перестановка номеров 1, 2, . . . , n − 1.


D 16.8. Алгебраические числа 389

Доказательство. Мы знаем, что мультипликативная группа поля вы-


четов по простому модулю является циклической (см. п. 49.1). Поэтому
существует m в промежутке от 2 до n − 1 такое, что остатки при
делении на n чисел m, m2 , m3 , . . . , mn−1 образуют перестановку
чисел {1, 2, 3, . . . , n − 1}. Рассмотрим эндоморфизм Φ ∈ E(Q(ε), Q)
такой, что Φ(ε) = εm . Очевидно, что он действует таким образом:

n−2 n−1
ε → εm → εm → εm → . . . εm → εm
2 3
= ε.

Эндоморфизмы Φ, Φ2 , . . . , Φn−1 являются, очевидно, различными и ни


один из них не совпадает с Φ0 ⇒ {Φ, Φ2 , . . . , Φn−1 } = {Φ1 , . . . , Φn−1 }.
Остается заметить, что при любом k отображение Φk реализует цик-
лическую подстановку на множестве корней {ε, ε2 , . . . , εn−1 }. 
Утверждение 4. При простом n минимальный многочлен для ε над
полем Q равен f (x) = 1 + x + . . . + xn−1 .
Доказательство. Достаточно убедиться в неразложимости много-
члена f (x) над полем Q. Предположим, что f (x) = u(x)v(x), где
u(x), v(x) ∈ Q[x]. Выберем любое k от 1 до n − 1 и рассмотрим
эндоморфизм Φ = Φk . Пусть степень многочлена u(x) равна m. То-
гда он имеет m различных корней z1 , . . . , zm ⊂ {ε, ε2 , . . . , εn−1 }
(следствие из теоремы Безу). Согласно утверждению 1 все числа
z1 , Φ(z1 ), Φ2 (z1 ), . . . , Φn−2 (z1 ) являются корнями u(x). В силу утвер-
ждения 3 эти числа попарно различны ⇒ m = n − 1. 
Эндоморфизмы поля, являющиеся взаимно-однозначными отобра-
жениями, называются автоморфизмами.
Утверждение 5. При простом n эндоморфизмы Φ1 , . . . , Φn−1 утвер-
ждения 2 являются автоморфизмами поля Q(ε), оставляющими на
месте элементы поля Q, и исчерпывают все множество автомор-
физмов такого типа.
Доказательство. Данные отображения взаимно-однозначны в силу
теоремы о присоединении корня. В то же время любой автоморфизм Φ,
оставляющий на месте элементы из Q, переводит ε в εi для какого-то
i от 1 до n − 1 (при автоморфизме ε не может перейти в ε0 = 1) ⇒ Φ
совпадает с одним из эндоморфизмов Φi . 

D 16.8. Алгебраические числа


Комплексное число называется алгебраическим, если оно является
корнем многочлена над полем рациональных чисел. В противном слу-
чае оно называется трансцендентным. Изученные нами свойства ко-
нечных расширений полей делают почти очевидным следующее утвер-
ждение.
Теорема. Множество всех алгебраических чисел относительно опе-
раций сложения и умножения комплексных чисел является полем.
390 Дополнение к лекции 16

Доказательство. Пусть α и β являются корнями каких-то много-


членов над Q. Рассмотрим поле Q(α), полученное присоединением
к Q элемента α, и поле Q(α)(β), полученное из Q(α) присоедине-
нием элемента β — корня многочлена из кольца Q(α)[x] (ясно, что
Q[x] ⊂ Q(a)[x]). Тогда расширение Q ⊂ Q(α)(β) является конечным
расширением. Очевидно, что любой элемент γ конечного расширения
поля Q является корнем некоторого многочлена над Q, иначе элементы
1, γ , γ 2 , . . . , γ n были бы линейно независимы над Q при любом
n. Таким образом, числа α ± β , αβ и α/β (при β = 0) являются
алгебраическими. Поэтому множество алгебраических чисел есть под-
поле в C. 
Дополнение к л е к ц и и 17

D 17.1. Кратные корни и производные

Производной многочлена f (x) = a0 + a1 x + . . . + an xn назы-


вается многочлен

f  (x) = a1 + 2a2 x + . . . + nan xn−1 .

Рассматривая f (x) как функцию от x (например, в случае веще-


ственных коэффициентов) и вычисляя производную по правилам
математического анализа, мы получим, очевидно, функцию, сов-
падающую с f  (x).
Утверждение. Многочлен f (x) над числовым полем K ⊂ C
имеет только простые корни тогда и только тогда, когда
многочлены f (x) и f  (x) взаимно просты.
Доказательство. Пусть f (x) имеет корень ϑ кратности k . Тогда

f (x) = (x − ϑ)k g(x), g(ϑ) = 0 ⇒

⇒ f  (x) = k(x − ϑ)k−1 g(x) + (x − ϑ)k g  (x).

При k  2 находим: f  (ϑ) = 0. Поэтому ϑ является общим корнем


многочленов f (x) и f  (x) ⇒ их наибольший общий делитель
имеет степень  1. 

Важное наблюдение: если f (x) ∈ K[x], то f (x) ∈ K[x]. По-
этому все коэффициенты их наибольшего общего делителя при-
надлежат тому же полю K . Отсюда получаем полезное
392 Дополнение к лекции 17

Следствие. Минимальный многочлен над полем K ⊂ C для


любого числа ϑ ∈ C имеет только простые корни.
x x2 xn
Задача 1. Доказать, что многочлен f (x) = 1 + + + .... +
1! 2! n!
не имеет кратных корней.
n
Задача 2. Многочлен f (z) = al z l степени n имеет корень ζ
l=0
кратности m. Доказать, что
n

al lk ζ k = 0, 1  k  m − 1.
l=0

D 17.2. Разностные уравнения с постоянными


коэффициентами
В разных задачах возникают последовательности x1 , x2 , ... ,
удовлетворяющие рекуррентным соотношениям вида
a0 xn + a1 xn+1 + . . . + ak xn+k = 0, n = 0, 1 ... , (∗)
с заданными коэффициентами a0 , . . . , ak . В случае a0 , ak = 0
уравнение (∗) называется разностным уравнением порядка k .
При любых фиксированных начальных значениях x0 , x1 , . . .
. . . , xk−1 оно однозначно определяет значения xk , xk+1 , . . . Од-
нако решение xn уравнения (∗) можно выразить и с помощью
полезной явной формулы.
Чтобы ее получить, будем искать xn в виде xn = z n , где z = 0.
Тогда, в силу (∗),
a0 z n + a1 z n+1 + . . . + ak z n+k = 0 ⇔ a0 + a1 z + . . . + ak z k = 0.
Таким образом, xn = z n удовлетворяет соотношениям (∗) в том
и только том случае, когда z является корнем многочлена f (x) =
= a0 + a1 x + . . . + ak xk .
Случай простых корней. Если f (x) имеет k попарно раз-
личных корней z1 , . . . , zk (в общем случае комплексных), то для
произвольных констант c1 , . . . , ck последовательность вида
xn = c1 z1n + . . . + ck zkn (∗∗)
будет, очевидно, решением уравнения (∗). Более того, любое
решение представляется в виде (∗∗), так как xn однозначно
определяется по начальным значениям x0 , . . . , xk−1 , а константы
c1 , . . . , ck однозначно определяются системой линейных уравне-
ний
c1 z1n + . . . + ck zkn = xn , n = 0, 1, . . . , k − 1,
D 17.2. Разностные уравнения с постоянными коэффициентами 393

для которой матрица коэффициентов является матрицей Вандер-


монда для попарно различных узлов z1 , . . . , zk .
Случай кратных корней. Если многочлен f (x) имеет крат-
ные корни, то формула (∗∗) уже не описывает всех решений
уравнения (∗). Чтобы получить k линейно независимых решений
и в этом случае, достаточно заметить следующее.
Лемма 1. Пусть z — корень f (x) кратности γ . Тогда при
любом фиксированном 0  s  γ − 1 последовательности вида
xsn = ns z n , n = 0, 1, ... , являются решениями уравнения (∗).
Доказательство. Очевидно, что
a0 ns z n + a1 (n + 1)s z n+1 + . . . + ak (n + k)s z n+k =
= n(a0 ns−1 z n + a1 (n + 1)s−1 z n+1 + . . . + ak (n + k)s−1 z n+k ) +
+ z n+1 (a1 + 2a2 z + . . . + kak z k−1 ).
Выражение во второй скобке — это значение производ-
ной f  (z). Поскольку z — кратный корень, получаем: f  (z) = 0.
Далее применяем индукцию по s. 
Лемма 2. Пусть даны попарно различные ненулевые чис-
ла z1 , . . . , zm и натуральные числа γ1 , . . . , γm такие, что
γ1 + . . . + γm = k . Тогда столбцы
γ1 −1 n k−1
[z1n ]k− 1 n k−1
n=0 , [nz1 ]n=0 , . . . , [n z1 ]n=0 ,
............................
n k−1
[zm ]n=0 , [nzm ]n=0 , . . . , [nγm −1 zm
n k−1 n k−1
]n=0
образуют линейно независимую систему.
Доказательство. Данная система состоит из m подсистем для
попарно различных чисел z1 , . . . , zm , при этом в подсистеме
для zs имеется γs столбцов. Можно проверить, что линейная
оболочка, натянутая на столбцы подсистемы для zs , совпадает
с линейной оболочкой для столбцов:
[zsn ]k− n k−1 n k−1
n=0 , [n zs ]n=0 , [n(n − 1) zs ]n=0 , . . .
1

. . . , [n(n − 1) · . . . · (n − γs + 2) zsn ]k− 1


n=0 . (2)

Поэтому линейная независимость столбцов вида (1) равносиль-


на линейной независимости системы, составленной из столбцов
вида (2) при s = 1, . . . , m. Пусть Ak — матрица порядка k ,
составленная из столбцов вида (2). Чтобы вычислить определи-
тель матрицы Ak , вычтем из каждой ее строки, кроме первой,
предыдущую строку, умноженную на z1 . Несложные, хотя и гро-
394 Дополнение к лекции 17

моздкие выкладки приводят к соотношению det Ak = c det Ak−1 ,


где c = 0, а Ak−1 обозначает матрицу порядка k − 1, вид кото-
рой аналогичен виду матрицы Ak с той лишь разницей, что γ1
следует заменить на γ1 − 1. Далее по индукции. 

D 17.3. Поле разложения


Рассмотрим многочлен
n

n−1 n
f (x) = a0 + . . . + an−1 x +x = (x − xi ) ∈ K[x], K ⊂ C.
i=1

Поле L = K(x1 , . . . , xn ) называется полем разложения многочлена


f (x). Конечно, L может быть получено из K путем последовательного
присоединения корней x1 , . . . , xn :

K ⊂ K(x1 ) ⊂ K(x1 )(x2 ) ⊂ . . . ⊂ K(x1 )(x2 ) . . . (xn ) = L.

В действительности поле L можно получить из K присоединением


всего лишь какого-то одного числа ϑ ∈ L (вообще говоря, ϑ отлично
от корней f (x)). Данный результат получается с помощью последова-
тельного применения следующей леммы.
Лемма. Пусть α и β являются корнями многочленов над полем K ⊂
⊂ C. Тогда
K(α)(β) = K(ϑ)
для какого-то числа ϑ ∈ K(α)(β).
Доказательство. Пусть F (x) — минимальный многочлен над K для α,
имеющий (как мы знаем, простые) корни α1 = α, α2 , . . . , αk , а G(x) —
минимальный многочлен над K для β , имеющий корни β1 = β , β2 , . . .
. . . , βm . Число ϑ попытаемся найти в виде

ϑ = α1 + cβ1 , c = 0, c ∈ K,

причем выберем c так, чтобы c = (α1 − αi )/(βj − β1 ) при i = 1, j = 1


(это возможно, так как любое подполе в C содержит бесконечно много
чисел). Следовательно,

(ϑ − αi )/c = βj при всех i, j , кроме i = j = 1.

Тогда многочлен Φ(x) = G((ϑ − x)/c) имеет своим корнем α1 , но не


α2 , . . . , αk . Значит, Φ(x) и F (x) имеют в точности один общий корень
α1 . Поэтому их наибольший общий делитель равен x − α1 . Но он
является многочленом над K(ϑ) (поскольку таковы Φ(x) и F (x)).
Отсюда α1 ∈ K(ϑ). 
D 17.4. Корни многочленов над произвольным полем 395

D 17.4. Корни многочленов над произвольным полем


Пусть задан многочлен над абстрактным полем P . Он может не
иметь корней в P , но получить их в более широком поле F . Всегда ли
найдется поле F с таким свойством?
Мы уже знаем, что для комплексных многочленов ответ положи-
тельный. Это можно доказать и для произвольного поля, причем легче,
чем основную теорему алгебры (потому что в последней F является
заранее предписанным полем).
Теорема о существовании корня. Для произвольного многочлена
над полем P , имеющего степень выше нулевой, существует расши-
рение поля P , в котором он имеет корень.
Доказательство. Рассмотрим многочлен f (x) ∈ P [x] степени n  1
и введем следующее бинарное отношение на множестве P [x]: u(x) ∼
∼ v(x), если u(x) и v(x) имеют одинаковые остатки от деления на
f (x). Легко проверить, что эт. е. отношение эквивалентности. Поэтому
все множество многочленов над P разбивается на непересекающие-
ся классы эквивалентности. Класс многочленов, эквивалентных u(x),
обозначим через [u(x)], а все множество классов эквивалентности —
через F .
Данная конструкция напоминает вычеты по модулю n, поэтому
каждый класс эквивалентных многочленов будем также называть вы-
четом относительно многочлена f (x). Вычетов ровно столько, сколько
имеется разных остатков от деления на f (x) — не меньше, чем эле-
ментов в поле P (разные многочлены нулевой степени принадлежат,
очевидно, разным вычетам).
Определим операции сложения и умножения элементов из F :
[u(x)] + [v(x)] = [u(x) + v(x)],
[u(x)][v(x)] = [u(x) v(x)],
u(x), v(x) ∈ P [x].
Легко проверяется, что их результаты не зависят от выбора конкрет-
ных представителей в классах [u(x)] и [v(x)] и что данные операции
превращают F в кольцо.
Не ограничивая общности, предположим, что f (x) является нераз-
ложимым над полем P . Тогда, опять-таки по аналогии с вычетами
по простому модулю n, множество F оказывается полем. В самом
деле, роль единичного элемента, очевидно, выполняет вычет [1], по-
рождаемый константой (многочленом нулевой степени) 1. Рассмотрим
ненулевой вычет [u(x)] ∈ F . Многочлены u(x) и f (x) взаимно просты
в силу неразложимости f (x). По теореме о наибольшем общем дели-
теле, существуют многочлены ϕ(x), ψ(x) ∈ P [x] такие, что
u(x)ϕ(x) + f (x)ψ(x) = 1 ⇒ [u(x)][ϕ(x)] = [1].
Вычет [a], порожденный многочленом нулевой степени (констан-
той) a ∈ P , будем отождествлять с a. Таким образом, P ⊂ F , а много-
396 Дополнение к лекции 17

член f (x) = xn + an−1 xn−1 + . . . + a0 можно также рассматривать как


многочлен над полем F :

f (x) = xn + [an−1 ]xn−1 + . . . + [a0 ] ∈ F [x].


Тогда
0 = [0] = [f (x)] = f ([x]).
Это означает, что вычет [x] ∈ F является корнем многочлена f (x). 
Следствие. Для любого многочлена f (x) ∈ P [x] степени n > 0 су-
ществует расширение F поля P , в котором f (x) разлагается на n
линейных множителей:

f (x) = a(x − z1 ) · . . . · (x − zn ), a ∈ P, z1 , . . . , zn ∈ F.
Дополнение к л е к ц и и 18

D 18.1. Еще одно доказательство основной теоремы


алгебры
Доказательство на основе симметрических многочленов и формул
Виета сложнее рассмотренного ранее доказательства с помощью леммы
Даламбера. Но оно использует понятие непрерывности «минимальным»
образом.
1) Пусть f (x) — многочлен степени n > 0 с вещественными
коэффициентами. Мы знаем, что в некотором поле F он разлагается
на линейные множители и, следовательно, имеет n корней x1 , . . . , xn
с учетом кратностей. Наша цель — доказать, что хотя бы один из этих
корней является комплексным числом.
2) Если n нечетно, что данный факт получается очень легко — это
единственное место, где используется непрерывность. Легко видеть,
что f (x) — непрерывная функция от x. Поскольку n нечетно, много-
член f (x) > 0 при x  b для некоторого b > 0 и f (x) < 0 при x  a
для некоторого a < 0. По теореме Ролля из математического анализа,
существует число c ∈ [a, b] такое, что f (c) = 0.
3) Предположим, что n = 2k p, где p нечетно, и будем вести индук-
цию по k. При k = 0 существование комплексного (даже веществен-
ного) корня уже доказано. Пусть k > 0. Тогда возьмем произвольное
вещественное число c и рассмотрим многочлен


Fc (x) = (x − xcij ), xcij = c xi xj + xi + xj .
1i<jn

В силу формул Виета и определения xcij , коэффициенты Fc (x) —


симметрические функции от корней вещественного многочлена f (x)
⇒ они вещественны. Степень Fc (x) равна (n2 − n)/2 = 2k−1 q , где
q = (2k p − 1)p — нечетное число. Поэтому, согласно предположению
индукции, многочлен Fc (x) имеет хотя бы один комплексный корень —
пусть он получается при i = i(c), j = j(c).
4) Вещественных чисел c бесконечно много, а индексы i(c), j(c)
могут принимать лишь конечное число значений ⇒ для некоторых
398 Дополнение к лекции 18

вещественных чисел c1 = c2 имеют место равенства i = i(c1 ) = i(c2 ), j =


= j(c1 ) = j(c2 ). Тогда
7
c1 xi xj + xi + xj = z1 ∈ C,
c2 xi xj + xi + xj = z2 ∈ C ⇒
z1 − z2
⇒ xi xj = ∈ C ⇒ xi + xj ∈ C.
c1 − c2
Следовательно, xi xj и xi + xj являются корнями квадратного уравне-
ния с комплексными коэффициентами ⇒ xi , xj ∈ C.
5) Итак, доказано, что любой вещественный многочлен степени
n > 0 имеет хотя бы один комплексный корень. Пусть многочлен
f (x) = a0 + a1 x + . . . an−1 xn−1 + xn
имеет комплексные коэффициенты. Тогда введем «сопряженный» мно-
гочлен
f (x) = a0 + a1 x + . . . + an−1 xn−1 + xn
и рассмотрим многочлен g(x) = f (x)f (x). Легко проверить, что g(x)
имеет вещественные коэффициенты. По доказанному выше, он имеет
комплексный корень z . Таким образом,
g(z) = f (z)f (z) = f (z)f (z) = 0 ⇒ f (z) = 0 или f (z) = 0. 

D 18.2. Нормальные поля и поля разложения


Формулы Виета и теорема о симметрических многочленах с боль-
шой пользой применяются при изучении расширений полей, содержа-
щих корни тех или иных многочленов.
Фиксируем числовое поле K ⊂ C и будем рассматривать его ко-
нечные расширения K ⊂ L. Последнее означает, что поле L можно
рассматривать как конечномерное линейное пространство над полем K .
Отсюда вытекает, что в L любой элемент является корнем некоторого
неразложимого многочлена над K .
В теории Галуа особый интерес вызывают нормальные расши-
рения. Это конечные расширения K ⊂ L с особым свойством: если
хотя бы один корень неразложимого над K многочлена степени n
принадлежит L, то все его n комплексных корней принадлежат L.
В таких случаях говорят также, что L является нормальным полем
над K или нормально над K .
Пусть L = K(ϑ1 , . . . , ϑn ) — поле разложения некоторого (возмож-
но, разложимого) многочлена f (x) ∈ K[x] степени n.
Теорема. Поле разложения L любого многочлена над K является
нормальным над K , а любое нормальное над K поле является полем
разложения некоторого многочлена над K .
Доказательство. Пусть L = K(ϑ1 , . . . , ϑn ) — поле разложения
многочлена
f (x) = (x − ϑ1 ) · . . . · (x − ϑn ) ∈ K[x]
D 18.3. Радикальные расширения 399

(корни в поле L, а коэффициенты принадлежат меньшему полю K ).


Ясно, что поле L можно получить последовательным присоединением
отдельных корней. Из теоремы о присоединении корня (лекция 15)
легко вывести, что любой элемент α ∈ L имеет вид α = g(ϑ1 , . . . , ϑn ),
где g(x1 , . . . , xn ) — многочлен от n переменных с коэффициентами из
поля K . Рассмотрим следующий многочлен:

Ψ(x) = (x − g(ϑσ(1) , . . . , ϑσ(n) )).
σ∈Sn

В силу формул Виета и теоремы о симметрических многочленах, его


коэффициенты принадлежат полю K .
Докажем нормальность поля L. Пусть α ∈ L — корень неразло-
жимого многочлена ϕ(x) ∈ K[x] и β — любой другой корень ϕ(x).
Поскольку ϕ(x) и Ψ(x) имеют общий корень α, он является также
корнем их наибольшего общего делителя. В силу алгоритма Евклида,
коэффициенты наибольшего общего делителя принадлежат полю K .
Поэтому он лишь ненулевым множителем может отличаться от нераз-
ложимого многочлена ϕ(x). Значит, Ψ(x) делится на ϕ(x) ⇒ β имеет
вид β = g(ϑσ(1) , . . . , ϑσ(n) ) для какой-то подстановки σ ∈ Sn ⇒ β ∈ L.
Вторая часть утверждения доказывается очевидным образом. 

D 18.3. Радикальные расширения


Рассмотрим алгебраическое уравнение f (x) = a0 + a1 x + . . .
. . . + an−1 xn−1 + xn = 0 с коэффициентами из числового поля K ⊂ C.
Пусть L — поле разложения f (x).
Вопрос о формуле, выражающей корни f (x) через коэффициенты
с помощью арифметических операций и операций извлечения корня
любой предписанной степени (короче, в радикалах), сводится к вопро-
су о существовании конечной цепочки так называемых радикальных
расширений:
,
K = K 0 ⊂ K1 ⊂ K2 ⊂ . . . ⊂ Km = L
Ki = Ki−1 (ϑi ), ϑni i = Di ∈ Ki−1 , (∗)
где L — расширение поля L, являющееся нормальным над K . 1)
В теории Галуа данный вопрос сводится к изучению группы Aut(L, K)
автоморфизмов L над K (взаимно-однозначных отображений L на
себя, сохраняющих операции и оставляющих на месте все элементы
поля K ) и ее подгрупп.

1)
Можно доказать, что от цепочки радикальных расширений вида (∗),
дающей некоторое поле L , всегда можно перейти к такой цепочке радикальных
расширений, которая дает в итоге поле, содержащее L  и нормальное над K .
Для первого знакомства с данным кругом идей можно полагать, для простоты,
 = L.
что изучается случай L
400 Дополнение к лекции 18

Простейший пример: f (x) = xn − a = 0, a ∈ K . В данном случае


очевидно, что L = K(ε, ζ), где ε — первообразный корень из единицы
степени n, а ζ — любой число такое, что ζ n = a. Пусть Φ — произ-
вольный автоморфизм L над K . Тогда Φ(ε) также является корнем из
единицы степени n.
Предположим, что n — простое число. В этом случае мы уже
имеем описание всех автоморфизмов поля Q(ε) над Q (см. дополнение
к лекции 16): любой автоморфизм Ψ ∈ Aut(Q(ε), Q) однозначно опре-
деляется заданием образа εk для ε, а группа Aut(Q(ε), Q) является
циклической группой порядка n − 1.
Возьмем автоморфизм Φ ∈ Aut(L, K) и поставим ему в соответ-
ствие автоморфизм Ψ ∈ Aut(Q(ε), Q) такой, что Ψ(ε) = Φ(ε). Дан-
ное соответствие, как несложно проверить, является гомоморфизмом
группы G = Aut(L, K) в группу Aut(Q(ε), Q). Пусть H — ядро этого
гомоморфизма. Тогда, в силу теоремы о гомоморфизме, фактор-группа
G/H изоморфна некоторой подгруппе группы Aut(Q(ε), Q). Будучи
подгруппой циклической группы, данная подгруппа является цикличе-
ской.
Таким образом, если L — поле разложения для xn − a, a ∈ K , то
при простом n группа G = Aut(L, K) имеет нормальную подгруппу
H с циклической фактор-группой G/H .

D 18.4. Автоморфизмы и расширения


Утверждение. Для любого конечного расширения K ⊂ L число авто-
морфизмов L над K не превышает степени расширения.
Доказательство. L может быть получено из K присоединением
какого-то одного числа ϑ ∈ L. По теореме о присоединении корня,
степень минимального над K многочлена R(x) для ϑ равна степени
расширения K ⊂ L. При любом автоморфизме g ∈ Aut(L, K) имеем:
R(g(ϑ)) = 0. Поэтому число автоморфизмов не больше числа корней
многочлена R(x), принадлежащих полю L. 
Число автоморфизмов L над K может оказаться
√ меньше степени
3
расширения. Пусть, например, K = Q и L = Q( 2). Тогда единствен-
ным автоморфизмом L над K является тождественное отображение
(докажите!), а степень расширения равна 3.

D 18.5. Расширения Галуа


Если число автоморфизмов равно степени расширения, то соот-
ветствующее расширение называется расширением Галуа, а группа
автоморфизмов — группой Галуа.
Утверждение. Для того чтобы расширение K ⊂ L было расширени-
ем Галуа, необходимо и достаточно, чтобы оно было нормальным.
Доказательство. Пусть L = K(ϑ) и R(x) — минимальный многочлен
для ϑ. Пусть его степень равна m. По теореме о присоединении корня,
любой элемент из L имеет вид α0 + α1 ϑ + . . . + αm−1 ϑm−1 , αi ∈ K .
D 18.6. Промежуточные поля и подгруппы 401

Заметим, что все корни R(x) простые. Если поле L нормально над K ,
то все они принадлежат L. Пусть ζ — любой корень R(x). Тогда
отображение α0 + α1 ϑ + . . . + αm−1 ϑm−1 → α0 + α1 ζ + . . . + αm−1 ζ m−1
является автоморфизмом L над K . Значит, число автоморфизмов равно
степени расширения.
В любом случае число автоморфизмов не больше числа различных
корней R(x), принадлежащих полю L. Если все m корней R(x) при-
надлежат L, то L — поле разложения для R(x) и поэтому является
нормальным над K . 

D 18.6. Промежуточные поля и подгруппы


Пусть H — подгруппа группы G = Aut(L, K). Обозначим через LH
множество всех элементов a ∈ L таких, что h(a) = a ∀ h ∈ H . Легко
доказать, что множество LH является промежуточным полем — т. е.
полем в цепочке K ⊂ LH ⊂ L.
1) Пусть P — промежуточное поле в цепочке K ⊂ P ⊂ L. Легко
доказать, что из нормальности L над K вытекает его нормальность
также над полем P .
2) Итак, K ⊂ LH ⊂ L. Если K ⊂ L — расширение Галуа, то LH ⊂
⊂ L — также расширение Галуа ⇒ порядок группы H равен степени
расширения (L : LH ). Если H = G, то (L : LH ) = (L : K) ⇒ LH =
= K . Верно и обратное: если LH = K , то расширение K ⊂ L есть
расширение Галуа и H = G.
Пусть L = K(ϑ). Тогда легко убедиться в том, что минимальный
для ϑ многочлен над K имеет вид

Φ(x) = (x − g(ϑ)).
g∈G

Отсюда следует, что L — поле разложения для Φ(x). Поэтому K ⊂ L —


нормальное расширение. Далее, многочлен

ϕ(x) = (x − h(ϑ))
h∈H

является многочленом над LH (в силу все тех же формул Виета и тео-


ремы о симметрических многочленах) и, следовательно, над K = LH .
В силу неразложимости минимального многочлена заключаем, что
Φ(x) = ϕ(x) ⇒ число автоморфизмов в подгруппе H равно числу
автоморфизмов в группе G ⇒ H = G. 
3) Для любого промежуточного поля P группа H = Aut(L, P )
является подгруппой группы G = Aut(L, K). 1)
Теорема. Если L — нормальное расширение поля K , то P = LH —
нормальное поле над K тогда и только тогда, когда H — нормаль-

1)
Отсюда, в частности, вытекает конечность числа промежуточных полей.
402 Дополнение к лекции 18

ный делитель группы G = Aut(L, K); при этом группа Aut(P , K)


изоморфна фактор-группе G/H .
Доказательство.
 Пусть P = K(ζ). Тогда любой элемент a ∈ P имеет
вид a = αi ζ i , αi ∈ K . Ясно, что ζ — корень своего минимального
многочлена и g(ζ) будет его же корнем для любого автоморфизма g ∈
∈ G.
Если поле P нормально над K , то все корни данного многочлена
принадлежат P ⇒g(ζ) ∈ P . Значит, (g −1 hg)(ζ) = (g −1 g)(ζ) = ζ ∀ h ∈
−1 i
∈ H ⇒ (g hg)( αi ζ ) = αi ζ i . Таким образом, g −1 hg ∈ H ∀h ∈
∈ H , ∀g ∈ G ⇒ H является нормальной подгруппой группы G.
Если H — нормальный делитель группы G, то (g −1 hg)(ζ) = ζ
∀h ∈ H , ∀g ∈ G. Отсюда: h(g(ζ)) = g(ζ) ∀ h ∈ H ⇒ g(ζ) ∈ P .
Таким образом, каждый автоморфизм g ∈ G при действии на числа
из P переводит их в числа из P , порождая тем самым автоморфизм
поля P над K . При этом все автоморфизмы вида hg , где h ∈ H ,
порождают один и тот же автоморфизм поля P над K . Автоморфизмы
g1 , g2 ∈ G оставляют разные «следы» на P тогда и только тогда, когда
g1 g2−1 ∈
/ H . Следовательно, число автоморфизмов P над K равно числу
различных смежных классов группы G по нормальному делителю H
⇒ оно равно степени расширения (P : K) = (L : K)/(L : P ) ⇒
поле P нормально над K . Итак, каждому смежному классу ставится
в соответствие порождаемый любым его представителем автоморфизм
P над K — это и есть изоморфизм между G/H и Aut(P , K). 

D 18.7. Разрешимость алгебраических уравнений


Пусть f (x) — многочлен степени n над полем K ⊂ C, и предполо-
жим, что f (x) имеет n простых корней ϑ1 , . . . , ϑn и g ∈ G = Aut(L, K),
где L — поле разложения f (x). Легко видеть, что g(ϑi ) = ϑσ(i) для
некоторой подстановки σ ∈ Sn . Несложно прийти к выводу о том, что
группа G изоморфна подгруппе симметрической группы Sn (поэтому
о ней обычно говорят просто как о подгруппе в Sn ).
Изучение цепочек радикальных расширений вида (∗) можно свести
к изучению специальных подгрупп группы Галуа — нормальных дели-
телей с абелевой (более того, даже с циклической) фактор-группой.
В самом деле, можно ограничиться рассмотрением таких цепочек,
в которых каждое звено дает поле разложения некоторого многочлена
xp − a при простом p. Мы уже знаем, что группа Галуа такого расшире-
ния имеет нормальный делитель с циклической (а значит, и абелевой)
фактор-группой.
В группе Sn при n  5 нормальных делителей с абелевой фактор-
группой слишком мало — одна лишь знакопеременная группа (см.
доказательство в п. D18.8).
4) В конечном счете отсюда получаются примеры неразрешимых
в радикалах алгебраических уравнений степени n  5. Неразрешимым
будет любое уравнение степени n  5, для которого группа Галуа
совпадает с Sn .
D 18.8. Нормальные делители симметрической группы 403

5) Подгруппа G группы Sn называется транзитивной, если для


любых номеров i, j от 1 до n существует подстановка σ ∈ G такая, что
σ(i) = j .
Утверждение. Если f (x) — неразложимый многочлен над полем K ⊂
⊂ C, то группа G = Aut(L, K) изоморфна некоторой транзитивной
группе подстановок.
Доказательство. Мы знаем, что неразложимый многочлен над K ⊂ C
имеет только простые корни. Пусть α и β — различные корни f (x).
Рассмотрим многочлен

Ψ(x) = (x − g(α)).
g∈G

В силу формул Виета коэффициенты Ψ(x) остаются на месте при


всех автоморфизмах из G. Поэтому, опираясь на предложение (2),
заключаем, что они принадлежат полю K . Поскольку f (α) = Ψ(α) = 0,
многочлены f (x) и Ψ(x) имеют общий корень ⇒ их наибольший
общий делитель над K имеет степень  1 ⇒ f (x) является делителем
для Ψ(x). Следовательно, β содержится среди элементов вида g(α). 
6) Справедливо следующее утверждение: любая транзитивная
подгруппа G группы Sn , содержащая хотя бы одну транспозицию,
при простом n совпадает с Sn .
Вот схема доказательства. Введем отношение эквивалентности:
i ∼ j ⇔ (ij) ∈ G. Транзитивность данного отношения следует из
равенства (ij)(jk)(ij) = (ik). Транзитивность группы G позволяет до-
казать, что классы эквивалентности содержат одно и то же число
номеров. Поэтому при простом n имеется ровно один класс эквива-
лентности. Следовательно, G содержит все транспозиции.
7) Пусть K = Q. Многочлен f (x) = x5 − 4x − 2 является наразло-
жимым над Q и имеет три различных вещественных корня ϑ1 , ϑ2 , ϑ3
и два комплексно сопряженных корня ζ , ζ (докажите!). В данном слу-
чае группа Галуа транзитивна и содержит транспозицию (автоморфизм,
переводящий ζ в ζ и оставляющий на месте ϑ1 , ϑ2 , ϑ3 ). Таким образом,
для данного многочлена группа Галуа совпадает с S5 .

D 18.8. Нормальные делители симметрической


группы
При построении радикальных расширений ключевую роль играют
нормальные подгруппы с абелевой фактор-группой. Связанное с ними
свойство подгрупп симметрической группы доказывается легко.
Утверждение 1. Если H — нормальный делитель группы G с абе-
левой фактор-группой G/H , то H содержит все элементы вида
aba−1 b−1 , где a, b ∈ G.
Доказательство. H(ab) = H(ba) ⇒ aba−1 b−1 ∈ H. 
404 Дополнение к лекции 18

Утверждение 2. Пусть H = Sn — нормальный делитель группы Sn


с абелевой фактор-группой Sn /H , и предположим, что n  5. Тогда
H совпадает со знакопеременной группой.
Доказательство. Возьмем два тройных (длины 3) цикла a = (ijk),
b = (ijm). Тогда

aba−1 b−1 = (ijk)(ijm)(kji)(mji) = (ij)(km).

Значит, H содержит все произведения пар независимых транспозиций.


При n  5 пары независимых транспозиций порождают все тройные
циклы:
(ij)(kl) (ik)(jm) (il)(km) = (ikj).
Тройные циклы и произведения пар независимых транспозиций порож-
дают все четные подстановки. 
Отметим также (без доказательства), что при n  5 знакоперемен-
ная группа вообще не обладает нормальными делителями, отличными
от нее самой или подгруппы, состоящей из одной лишь тождественной
подстановки. Такие группы называются простыми. Классификация
простых конечных групп была завершена лишь в 1980-х годах.

D 18.9. Группы при построении правильных


многоугольников
Мы уже изучали вопрос о построении правильного n-угольника
с помощью циркуля и линейки (см. п. D16.6) — напомним, что он
сводится к построению специальной цепочки расширений поля рацио-
нальных чисел, в которой каждое промежуточное поле имеет степень
2 над предыдущим полем.
Цепочка завершается построением поля, содержащего нужное нам
число — длину стороны правильного n-угольника. Степень данного
поля над Q с необходимостью равна 2k . В свете теории Галуа это
означает, что доказанное нами ранее необходимое условие на число
сторон (n = 2k + 1) вызвано тем, что группа Галуа для кругового
многочлена простой степени содержит 2k элементов.
Чтобы доказать достаточность этого условия, нужно доказать
существование упомянутой выше специальной цепочки расширений
поля Q. Теория Галуа позволяет свести вопрос к доказательству
существования специальной цепочки нормальных подгрупп группы
порядка 2k . Путь к доказательству достаточности условия на число
сторон n открывается следующим наблюдением: если группа G имеет
порядок 2k , то она обладает нормальной подгруппой порядка 2.
В действительности имеет место более общая
Теорема. Пусть группа G имеет порядок pk , где p > 1 — простое
число. 1) Тогда G обладает нормальной подгруппой порядка p.

1)
Такие группы называются примарными.
D 18.9. Группы при построении правильных многоугольников 405

Доказательство требует некоторой подготовки. Элементы a, b ∈ G


называются сопряженными, если a = hbh−1 для некоторого h ∈ G.
Нетрудно проверить, что сопряженность элементов — это отношение
эквивалентности на G. Поэтому конечная группа G является объ-
единением конечного числа (скажем, m) непересекающихся классов
эквивалентности
G = K1 ∪ . . . ∪ K m . (∗)
Лемма 1. В произвольной конечной группе G число элементов, со-
пряженных с заданным элементом a, является делителем порядка
группы.
Доказательство. Пусть G(a) = {h1 ah1−1 , . . . , hs ah−
s } — множество
1

всех элементов, сопряженных с a. Заметим, что

hi ah− −1 −1 −1
i = hj ahj ⇔ (hj hi )a = a(hj hi ).
1

Обозначим через H(a) множество всех элементов из G, коммутирую-


щих с a. Элементарно проверяется, что H(a) является подгруппой в G
(подгруппа H(a) называется централизатором элемента a). Таким
образом,

hi ah− −1 −1
i = hj ahj ⇔ hj hi ∈ H(a) ⇔ hi H(a) = hj H(a).
1

Следовательно, число сопряженных с a элементов равно числу смеж-


ных классов группы G по подгруппе H(a). 
Лемма 2. В произвольной группе G порядка pk существует элемент
a = e (отличный от единицы), коммутирующий со всеми элемента-
ми из G.
Доказательство. Рассмотрим разложение (∗) группы G на непере-
секающиеся классы сопряженных элементов. Согласно лемме 1 поря-
док Ki имеет вид pki (делитель числа pk ). Отсюда ясно, что число
классов Ki , состоящих из одного элемента, должно делиться на p ⇒
существует элемент a = e такой, что a = hah−1 ∀h ∈ G ⇒ ah = ha
∀h ∈ G. 
Доказательство теоремы. Согласно лемме 2 имеется элемент a =
= e, коммутирующий со всеми элементами из G. Пусть его порядок
равен pl . Тогда элемент
l−1
b = ap
имеет порядок p. Циклическая группа, порожденная элементом b, явля-
ется нормальным делителем, так как cтепени элемента b коммутируют
со всеми элементами из G. 
Дополнение к л е к ц и и 19

D 19.1. Классификация линий второго порядка


Мы уже доказали, что любая линия второго порядка в неко-
торой декартовой системе координат удовлетворяет одному из
уравнений (1), (2) или (3) из п. 19.4. Для описания всех возмож-
ных случаев иногда предлагается следующая классификация:
1)
x2 y2 x2 y2
+ = 1 (эллипс); + = −1 (мнимый эллипс);
a2 b2 a2 b2
x2 y2
+ = 0 (пара мнимых пересекающихся прямых);
a2 b2
x2 y2
− = 1 (гипербола);
a2 b2
x2 y2
− = 0 (пара пересекающихся прямых);
a2 b2
2)
y 2 = 2px (парабола);
3)
y 2 = a2 (пара параллельных прямых);
y 2 = 0 (пара совпадающих прямых);
y 2 = −a2 (пара мнимых параллельных прямых).

D 19.2. Инварианты линии второго порядка


Рассмотрим общее уравнение f (x, y) = a11 x2 + 2a12 xy +
+ a22 y 2 + 2a13 x + 2a23 y + a33 = 0 в заданной декартовой системе
координат и определители

 
a11 a12 a13
a11 a12
I2 = det , I3 = det a12 a22 a23 .
a12 a22
a13 a23 a33
D 19.3. Определение типа линии 407

Теорема об инвариантах. Значения определителей I2 и I3 не


изменяются при переходе от заданной декартовой к любой
декартовой системе координат.
Доказательство. Пусть переход к новой декартовой системе
координат задается формулами

x = p11 x + p12 y  + c1 ,

y = p21 x + p22 y  + c2





x x p11 p12 c
⇒ =P + c, P = , c= 1 .
y y p21 p22 c2

Важное наблюдение: P  P = I (в силу ортогональности базисных


векторов декартовых систем).
Обозначим через A2 и A3 матрицы в определителях I2 и I3 .
Пусть A 2 и A3 — аналогичные матрицы в новой системе коорди-
нат. Тогда A 2 = P  A2 P , A3 = Q A3 Q, где



P c  P 0
Q= 0 1 , Q =  ⇒ det Q = det P , det Q = det P  .
c 1
Определитель произведения матриц равен произведению опреде-
лителей. Следовательно,

det A2 = det P  det A2 det P = det (P  P ) det A2 = det A2 ,

det A3 = det P  det A3 det P = det (P  P ) det A3 = det A3 . 


Определение. Определители I2 и I3 называются инвариантами
линии второго порядка.

D 19.3. Определение типа линии


Если в какой-либо декартовой системе координат получается
уравнение вида (1), то, очевидно, I2 = λ1 λ2 = 0. Для того чтобы
линия была эллипсом, необходимо, чтобы I2 > 0. Для гиперболы
необходимо, чтобы I2 < 0. Если же I2 = 0, то соответствующая
линия относится к случаю (2) или (3).
Если получается уравнение вида (2), то
 
0 0 b
I3 = det 0 λ2 0 = −λ2 b2 = 0.
b 0 0
408 Дополнение к лекции 19

Для уравнения вида (3) находим


 
0 0 0
I3 = det 0 λ2 0 = 0.
0 0 c
Инварианты полезны для определения типа линии и в том
случае, когда общее уравнение задано в произвольной аффинной
системе координат.
Теорема о знаках инвариантов. Знаки определителей I2 и I3
не изменяются при переходе к любой аффинной системе ко-
ординат.
Доказательство. В случае аффинных систем нельзя утвер-
2 = det A2 (det P )2 , det A3 =
ждать, что P  P = I . Однако det A
2
= det A3 (det Q) . 
Дополнение к л е к ц и и 22

D 22.1. Пополнение пространства


Пример интервала (a, b) (неполного метрического пространства
с расстоянием ρ(x, y) = |x − y|) наводит на мысль о том, что если
в неполном пространстве не хватает точек для того, чтобы представ-
лять пределы всех возможных фундаментальных последовательностей,
то его с легкостью можно расширить до полного метрического про-
странства. Эта идея реализуется с помощью простой алгебраической
конструкции пополнения.
Пусть M — произвольное метрическое пространство. Рассмотрим
множество всех фундаментальных последовательностей точек из M ,
введем на нем отношение эквивалентности
{xk } ∼ {y k } ⇔ ρ(xk , y k ) → 0 при k → ∞
и обозначим через M  множество всех классов эквивалентности. Рас-
стояние на M  определим таким образом: если [{xk }] и [{y k }] — классы
эквивалентности, порождаемые фундаментальными последовательно-
стями {xk } и {y k }, то пусть
ρ ( [{xk }], [{y k }] ) = lim ρ(xk , y k ).
k→∞

Конечный предел существует потому, что числовая последовательность


ρ(xk , y k ) фундаментальна — это легко получается из неравенства
|ρ(xk , y k ) − ρ(xl , y l )|  ρ(xk , xl ) + ρ(y k , y l ).
Важно также, что предел не зависит от выбора конкретных последо-
вательностей в классах эквивалентности: если {xk } ∼ {uk } и {y k } ∼
∼ {v k }, то
|ρ(uk , v k ) − ρ(xk , y k )|  ρ(uk , xk ) + ρ(y k , v k ) → 0.
Аксиомы метрического пространства для M  с расстоянием ρ проверя-
ются без каких-либо затруднений.
Элемент a ∈ M будем отождествлять с классом эквивалентности
для последовательности, все члены которой одинаковы и равны a:
a ↔ A = [{ak }], где ak = a ∀ k.
410 Дополнение к лекции 22

Путь a, b ∈ M и A, B ∈ M  . Тогда если a ↔ A и b ↔ B , то ρ(a, b) =


= ρ (A, B).
Таким образом, можно считать, что M вложено в M  ; построенное
нами метрическое пространство M  называется пополнением метриче-
ского пространства M .
Утверждение. M  является полным метрическим пространством.
Доказательство. Пусть классы эквивалентности X1 = [{xk1 }], X2 =
= [{xk2 }], . . . образуют в M  фундаментальную последовательность.
При любом фиксированном l последовательность xkl , k = 1, 2, . . . ,
является фундаментальной. Поэтому существует номер nl  l такой,
что ρ(xnl l , xkl ) < 1/l при всех k  nl . Определим последовательность
{y l } равенствами y l = xnl l , l = 1, 2 . . . , и докажем, что она является
фундаментальной. Фиксируем произвольное ε > 0. В силу фундамен-
тальности {Xl } существует номер N = N (ε) такой, что при l, m > N
имеем: ρ (Xl , Xm ) < ε, т. е.

∃ N  = N  (l, m, N ) : l, m > N , k > N  ⇒ ρ(xkl , xkm ) < ε.


Для любых l, m > max{N , ε−1 } и k > max{N  , nl , nm } находим

ρ(y l , y m ) = ρ(xnl l , xnmm ) 


 ρ(xnl l , xkl ) + ρ(xkl , xkm ) + ρ(xkm , xnmm ) < 3ε.

Остается ввести класс эквивалентности Y = [{y k }] ∈ M  и дока-


зать, что X l → Y . Это вытекает из неравенства

ρ(xkl , y k )  ρ(xkl , xnl l ) + ρ(xnl l , xnk k ). 


Заметим, что в M  нет «лишних» элементов: каждый элемент
Y ∈ M  является пределом последовательности элементов из M (дока-
жите!).
Ту же технику можно применить для пополнения нормированного
пространства M с нормой || · ||M . В данном случае следует ввести на
M  операции сложения классов эквивалентности и умножения их на
числа как операции над порождающими эти классы последовательно-
стями. Эти операции не выводят из множества M  , так как сумма
фундаментальных последовательностей, умноженных на любые числа,
остается фундаментальной последовательностью.
Таким образом, M  становится линейным пространством, а M
можно рассматривать как его подпространство. Норма в M  для [{xk }]
определяется следующим образом:

|| [{xk }] ||M  = lim ||xk ||M .


k→∞

Существование предела следует из неравенства | ||xk ||M − ||xl ||M | 


 ||xk − xl ||M .
Дополнение к л е к ц и и 23

D 23.1. Подпространства и замкнутость


Если V — нормированное пространство, то любое его под-
пространство L ⊂ V конечной размерности будет замкнутым
множеством.

m
В самом деле, если L = L(e1 , . . . , em ) и xk = xki ei → x ∈ V ,
i=1
то последовательность xk ограничена по норме пространства V .
Следовательно, она принадлежит какому-то замкнутому ограни-
ченному шару Z ⊂ L в конечномерном пространстве L. В силу
компактности Z существует подпоследовательность xkl , cходя-
щаяся к вектору из Z ⇒ x ∈ Z ⊂ L.
Если подпространство L бесконечномерно, то оно может и не
быть замкнутым. 1)
Задача 1. Дана матрица A ∈ Rm×n . Доказать замкнутость мно-
жества
{y = Ax, x = [x1 , . . . , xn ] , x1 , . . . , xn  0}.

D 23.2. Единичная сфера в бесконечномерном


пространстве
Пусть V — нормированное пространство с нормой || · || и S =
= {x ∈ V : ||x|| = 1} — единичная сфера.
Теорема. Единичная сфера S компактна в нормированном
пространстве V тогда и только тогда, когда V конечномер-
но.
1)
В некоторых книгах под подпространствами в бесконечномерном случае
понимаются только замкнутые подпространства, а подпространства в тради-
ционном для нас смысле называются линейными многообразиями (и могут не
быть замкнутыми). Напомним, что в нашем курсе линейным многобразием
называется множество вида x + L = {x + h : h ∈ L}, где x — заданный вектор
сдвига, а L — заданное направляющее подпространство.
412 Дополнение к лекции 23

Доказательство. По существу, нужно доказать лишь то, что


в бесконечномерном пространстве V сфера S не является ком-
пактным множеством. Предположим, что каким-то образом най-
дены векторы x1 , . . . , xk такие, что
||x1 || = . . . = ||xk || = 1, ||xi − xj ||  1 при i = j. (∗∗)
Построим вектор xk+1 такой, что ||xk+1 || = 1 и ||xi − xk+1 ||  1
при 1  i  k .
Будучи бесконечномерным, V содержит y ∈ / Lk = L(x1 , . . .
. . . , xk ). По лемме о наилучшем приближении, для некоторого
z 0 ∈ Lk
γ = inf ||y − z|| = ||y − z0 ||.
z∈Lk

Положим
xk+1 = (y − z0 )/γ.
Тогда ||xk+1 || = 1 и, кроме того,
1
min ||xk+1 − z|| = min ||(y − z0 )/γ − z/γ|| = min ||y − z|| = 1.
z∈Lk z∈Lk γ z∈Lk
Поскольку xi ∈ Lk при 1  i  k , находим
||xk+1 − xi ||  inf ||xk+1 − z|| = 1.
z∈Lk
Таким образом, к системе векторов x1 , . . . , xk можно добавить
вектор xk+1 с сохранением соотношений вида (∗∗). Любая под-
последовательность последовательности векторов xk таких, что
||xi − xj ||  1 при i = j , обладает тем же свойством и поэтому
не может быть фундаментальной. 

D 23.3. Геометрические свойства единичных шаров


Пусть дана произвольная норма || · || на Cn , а замкнутый единич-
ный шар
Z = {x ∈ Cn : ||x||  1}
рассматривается как некоторое множество в Cn с 2-нормой. Легко
показать, что имеют место такие свойства:
1) Z является замкнутым и ограниченным;
2) Z содержит нулевой вектор в качестве внутренней точки;
3) если x ∈ Z , то tx ∈ Z для всех |t|  1;
4) если x, y ∈ Z , то tx + (1 − t)y ∈ Z для всех 0  t  1 (множества
с таким свойством называются выпуклыми).
D 23.4. Топологические пространства 413

Теорема. Для того чтобы множество Z ⊂ Cn было замкнутым


единичным шаром для какой-нибудь нормы на Cn , необхо-
димо и достаточно чтобы выполнялись свойства (1)–(4).
Доказательство. Рассмотрим множество Z , обладающее указанными
свойствами, и попытаемся ввести норму таким образом: 1)
f (x) = inf{t > 0 : x/t ∈ Z}, x ∈ Cn . (#)
Прежде всего заметим, что f (x) принимает конечные значения для
всех x. Согласно условию (2), в Z содержится окрестность нуля вида
O = {||x||2 < ε}, где ε > 0. Поэтому для любого x = 0 имеем: x/t ∈
∈ O ⊂ Z при t > ||x||2 /ε ⇒ f (x)  ||x||2 /ε. Ясно также, что f (0) = 0
и f (x) > 0 при x = 0 (первое свойство нормы).
Второе свойство (положительная однородность) доказывается так.
Пусть tk → f (x) и x/tk ∈ Z . Предположим, что α = 0. Поскольку
x/tk ∈ Z , то, в силу свойства (3),
(α/|α|)(x/tk ) ∈ Z ⇒ (αx)/(|αk | tk ) ∈ Z ⇒
⇒ f (αx)  |α| tk → |α| f (x).
Следовательно, f (αx)  |α| f (x). Противоположное неравенство дока-
зывается аналогично — с выбором последовательности tk → f (αx),
(αx)/tk ∈ Z .
Докажем неравенство треугольника. Пусть
αk → f (x), x/αk ∈ Z , βk → f (y), y/βk ∈ Z.
Согласно выпуклости Z , находим
αk βk
(x/αk ) + (y/βk ) = (x + y)/(αk + βk ) ∈ Z.
αk + βk αk + βk
Отсюда f (x + y)  αk + βk → f (x) + f (y). 
Заметим, что Минковский определял нормы именно с помощью
функции вида (#) и множеств, обладающих свойствами (1)–(4). Ак-
сиоматический подход к определению нормы был предложен несколько
позже (в 1922 году) независимо Банахом и Винером.
Доказанная нами теорема легко обобщается на случай бесконечно-
мерных пространств. Все остается без изменений, если вместо 2-нормы
выбрать и зафиксировать любую норму, относительно которой будут
затем определяться понятия сходимости, окрестности, замкнутости
и ограниченности.

D 23.4. Топологические пространства


В действительности при изучении сходимости понятие расстояния
нужно лишь для того, чтобы определять, какие точки считаются «близ-

1)
Функция такого вида называется функционалом Минковского.
414 Дополнение к лекции 23

кими». В метрическом пространстве M можно объявить, что «близкие»


точки — это точки, входящие в одно и то же открытое множество.
Обычно любое открытое множество, содержащее заданную точку, на-
зывается также ее окрестностью. Последовательность точек xk ∈ M
сходится к точке x ∈ M , если в любой ее окрестности содержатся
все точки xk начиная с некоторой. Это предложение не опирается
явным образом на понятие расстояния и часто принимается в качестве
определения сходящейся последовательности.
Обозначим через T систему всех открытых множеств точек из M .
Несложно проверить, что система T обладает следующими свойствами:
1) T содержит M и пустое множество ∅;
2) объединение любого (конечного или бесконечного) числа мно-
жеств из T принадлежит T ;
3) пересечение любого конечного числа множеств из T принадле-
жит T . 1)
Пусть теперь M — произвольное непустое множество, а T — про-
извольная система его подмножеств, обладающая свойствами (1) − (3).
Тогда T называется топологией на M , сами множества, входящие в T ,
объявляются открытыми, а множество M , снабженное топологией,
называется топологическим пространством.
В топологическом пространстве сходимость определяется отмечен-
ным выше образом. Понятие предельной точки, замыкания и замкну-
того множества опираются исключительно на понятие сходящейся по-
следовательности и вводятся так же, как в метрическом пространстве.

D 23.5. Компактные множества в топологическом


пространстве
Открытым покрытием множества S ⊂ M в топологическом
пространстве M называется любая совокупность открытых мно-
жеств, объединение которых содержит S . Покрытие, состоящее
из части данных множеств, называется подпокрытием, а если
оно состоит их конечного числа открытых множеств, то —
конечным подпокрытием.
Множество S называется компактным в топологическом про-
странстве M , если из любого его открытого покрытия можно выде-
лить конечное подпокрытие.
Утверждение. Любое компактное в топологическом пространстве
множество замкнуто и таково, что из любой принадлежащей ему
последовательности точек можно выделить сходящуюся подпосле-
довательность.
1)
Пересечение бесконечного числа открытых множеств может и не быть
открытым (например, пересечение всех открытых множеств, содержащих дан-
ную точку).
D 23.5. Компактные множества в топологическом пространстве 415

Доказательство. Если множество {xk } имеет предельную точку, при-


надлежащую заданному компактному множеству S , то все доказано.
Если это не так, то для каждой точки x ∈ S существует открытое
множество Ox , содержащее лишь конечное число точек последователь-
ности xk . Очевидно, что множества Ox образуют открытое покрытие
множества S ⇒ существует конечное подпокрытие ⇒ в множестве S
имеется лишь конечное число точек множества {xk } ⇒ последователь-
ность xk имеет бесконечное число одинаковых точек. 
Теорема. Для того чтобы множество в метрическом простран-
стве было компактным в соответствующем топологическом
пространстве, необходимо и достаточно, чтобы оно было замкну-
тым и чтобы из любой принадлежащей ему последовательности
можно было бы выделить сходящуюся подпоследовательность.
Доказательство достаточности. Пусть речь идет о множестве S .
Прежде всего заметим, что для любого ε > 0 оно покрывается конечной
системой открытых шаров радиуса не больше ε. 1) Если это не так для
какого-то ε, то существует точка a1 ∈ S такая, что S не покрывается
шаром M (a1 , ε) ⇒ ρ(a1 , a2 )  ε для некоторой точки a2 ∈ S , и при
этом S не покрывается системой двух шаров M (a1 , ε) и M (a2 , ε)
и т. д. В итоге получается последовательность точек ak ∈ S таких, что
ρ(ai , aj )  ε при i = j ⇒ из последовательности ak нельзя выделить
сходящуюся подпоследовательность.
Рассмотрим конечные покрытия шарами последовательно для ε =
= 1, 1/2, 1/3, . . . и обозначим через B множество всех этих шаров.
Пусть имеется произвольное открытое покрытие множества S . Любая
точка любого открытого множества принадлежит некоторому шару
из B. Поэтому существует открытое покрытие S некоторой после-
довательностью шаров из B. Следовательно, из заданного открытого
покрытия множества S можно выбрать счетное подпокрытие — други-
ми словами, S покрывается некоторой последовательностью открытых
множеств Ok .
Если из системы множеств Ok нельзя выбрать какое-либо конеч-
ное подпокрытие
 множества
 S , то каждое из замкнутых множеств

Zk = S\ Oi непустое. При этом Z1 ⊃ Z2 ⊃ Z3 ⊃ . . . Пусть
1ik
xk ∈ Zk ⊂ S . Выделим из последовательности xk сходящуюся подпо-
следовательность и обозначим ее предел через x. Тогда x ∈ S в силу
замкнутости S . Очевидно, что x ∈ Oi для некоторого номера i. Но Oi
не имеет общих точек с любым из множеств Zk начиная с некоторого
номера. Поэтому последовательность xk не может сходиться к x. По-
лученное противоречие означает, что из покрытия S множествами Ok
можно выделить конечное подпокрытие. 

1)
Такое покрытие называется ε-сетью.
Дополнение к л е к ц и и 25

D 25.1. Потеря ортогональности при вычислениях


Попробуйте реализовать процесс ортогонализации Грама–
Шмидта на компьютере. По завершении вычислений законно
желание проверить, «насколько ортогональными» будут вычис-
ленные векторы q1 , . . . , qn ∈ Cn .
В силу ошибок округления они, конечно, отличаются от точ-
ных ортонормированных векторов q1 , . . . , qn . Однако проверка
может Вас и удивить: в большом числе случаев скалярные про-
qi , qj ) вычисленных векторов при i = j совсем не
изведения (
похожи на нули. 1)
Причину понять нетрудно. Допустим, что все хорошо на
первых k шагах:
qi , qi ) ≈ 1,
( qi , qj ) ≈ 0,
( i = j , 1  i, j  k.
Далее, пусть вычисленный перпендикуляр  hk+1 таков, что
(
hk+1 , qi ) = ε, ε ≈ 0. (∗)
После нормировки, тем не менее,
qk+1 , qi ) = (
( hk+1 , qi )/|
hk+1 | = ε/|
hk+1 |.
Отсюда видно, что ортогональность утрачивается при доста-
точно малой длине приближенного перпендикуляра  hk+1 . По-
следнее означает, что вектор ak+1 близок к линейной комбинации
векторов a1 , . . . , ak .
Что же делать? Хороший рецепт — «задержаться» на
(k + 1)-м шаге и повторить p раз вычисления (k + 1)-го шага
с заменой ak+1 на  hk+1 . Это так называемая процедура p-кратной
реортогонализации.

1)
Например, при n  10 попробуйте применить процесс ортогонализации
к столбцам невырожденной (n × n)-матрицы с элементами aij = 1/(i + j).
D 25.2. Обобщение теоремы о перпендикуляре 417

В результате величина ε в соотношениях типа (∗) уменьша-


ется и может быть сделана сколь угодно малой. Действительно,
 k = [
пусть Qk = [q1 , . . . , qk ], Q q1 , . . . , qk ]. Тогда

k 
k
hk+1 = ak+1 − qi (qi∗ ak+1 ) = ak+1 − (qi qi∗ )ak+1 =
i=1 i=1
 (h 
k+1 , q1 )
= (I − Qk Q∗k )ak+1 ⇒ (hk+1 , q2 )
... =
(hk+1 , qk )

= Q∗k hk+1 = Q∗k (I − Qk Q∗k )ak+1 = (Ik − Q∗k Qk ) Q∗k ak+1 .


Здесь I — единичная матрица порядка n, а Ik — единичная
матрица порядка k . Если погрешности имели место только при
вычислении первых k векторов, а на (k + 1)-м шаге их не было,
то для вычисленных векторов получаем
 ∗k 
Q  ∗k Q)
hk+1 = (Ik − Q  Q ∗k ak+1 .
Пусть реортогонализация повторяется p раз без нормировки
перпендикуляра и в результате получается вектор h(p) . Тогда
Q k
 ∗ Q)
 ∗ h(p) = (Ik − Q  pQ
 ∗ ak+1 .
k k
Легко проверить, что в случае достаточно малых элементов мат-
рицы Ik − Q 
∗ Q
k k (т. е. в случае «приемлемой» ортогональности
первых k векторов)
∗ Q
(Ik − Q  k )p → 0 при p → ∞.
k
Поэтому Q  ∗ h(p) → 0 при p → ∞.
k
Замечательно то, что метод реортогонализации позволяет
добиться «хорошей» ортогональности вектора qk+1 к векторам
q1 , . . . , qk даже в том случае, когда они сами ортогональны
с существенно меньшей точностью.

D 25.2. Обобщение теоремы о перпендикуляре


Теорему о перпендикуляре можно доказать с помощью совершенно
другой техники — менее конструктивной, но работающей также в слу-
чае бесконечномерного подпространства L.
Теорема. Пусть V — гильбертово пространство, а L — его замкну-
тое подпространство. Тогда для любого вектора x существуют
и единственны перпендикуляр h ⊥ L и проекция z0 ∈ L такие, что
x = z0 + h. При этом

|h| = |x − z0 | < |x − z| ∀z ∈ L, z = z0 .
14 Е. Е. Тыртышников
418 Дополнение к лекции 25

Доказательство. Пусть x = L и γ = inf |x − z| — расстояние между


z∈L
x и L. Рассмотрим последовательность zn ∈ L со свойством

γ 2  |x − zn |2  γ 2 + 1/n.
В силу тождества параллелограмма

1 1
|x − zn |2 + |x − zm |2 = 2| (zm − zn )|2 + 2|x − (zn + zm )|2 ⇒
2 2
⇒ |zn − zm |2  2(1/n + 1/m).

Таким образом, последовательность zn является фундаментальной и


в силу полноты гильбертова пространства сходится к какому-то векто-
ру z0 ∈ V . Из замкнутости L вытекает, что z0 ∈ L. При этом элемент
наилучшего приближения z0 для x определен однозначно: пусть z1 ∈ L
и |x − z1 | = γ , тогда, применяя тождество параллелограмма, находим:
|z1 − z0 |2 = 2|x − z1 |2 + 2|x − z0 |2 − 4|x − (z1 + z0 )/2|2  0 ⇒ z1 = z0 .
Докажем теперь, что y = x − z0 ⊥ L.
Возьмем любой вектор z ∈ L и запишем: (y , z) = a + ib, a, b ∈ R.
Если a = 0, то пусть τ = a/|a|. Для любого ε > 0 находим

γ 2  |x − z0 − ετ z|2 = |y − ετ z|2 
 |y|2 − 2ε|a| + ε2 |z|2 = γ 2 − 2ε|a| + ε2 |z|2 ⇒ |a|  ε|z|2 /2.

В силу произвольности ε должно быть a = 0. Аналогичная выкладка с


заменой z на iz позволяет доказать, что и b = 0. 
Замечание. Доказано, по существу, что элемент наилучшего при-
ближения z0 существует и единствен для произвольного замкнутого
выпуклого множества L. Знание о том, что L — подпространство,
требуется лишь для доказательства ортогональности x − z0 ⊥ L.
Дополнение к л е к ц и и 26

D 26.1. Строение выпуклых множеств


Существование опорных гиперплоскостей позволяет утвер-
ждать, что в Rn любое замкнутое выпуклое множество является
пересечением (возможно, бесконечного числа) замкнутых полу-
пространств. Примечателен также следующий факт.
Теорема. Любая точка замкнутого ограниченного выпуклого
множества M ⊂ Rn является выпуклой комбинацией какой-
то конечной подсистемы угловых точек множества M .
Доказательство. Пусть заданное выпуклое множество содер-
жится в линейном многообразии размерности n. Утверждение
очевидно, если n = 1. Проведем индукцию по n. Начнем с про-
извольной граничной точки x0 ∈ M . Рассмотрим проходящую
через нее опорную гиперплоскость π : (x, h) = (x0 , h). Пересе-
чение N = M ∩ π есть замкнутое ограниченное выпуклое мно-
жество, принадлежащее линейному многообразию размерности
n − 1. По индуктивному предположению, любая точка N  будет
выпуклой комбинацией его угловых точек.
Можно проверить, что угловые точки N являются также уг-
ловыми точками множества M . В самом деле, пусть точка x ∈ N
является внутренней точкой отрезка, соединяющего a, b ∈ M ,
a = b. Очевидно, что a и b должны принадлежать опорной гипер-
плоскости π . А это означает, что x не является угловой точкой
для N .
Далее, пусть x0 — внутренняя точка множества M . Проведем
через нее прямую, пересекающуюся с границей множества M
в точках x1 и x2 . Очевидно, что x0 является выпуклой комбина-
цией точек x1 и x2 , а они, в свою очередь, являются выпуклыми
комбинациями угловых точек для пересечений M с проходящими
через них опорными гиперплоскостями. 
Замечание. Разные точки M суть выпуклые комбинации, вооб-
ще говоря, разных подсистем угловых точек.
Следствие. Минимальное значение линейной функции f (x) =
= c x = c1 x1 + . . . + cn xn , c, x ∈ Rn , на замкнутом ограничен-
14*
420 Дополнение к лекции 26

ном выпуклом множестве M ⊂ Rn достигается в некоторой


угловой точке.
Доказательство. Пусть минимальное значение f (x) достигается
в точке x0 ∈ M . Как и любая точка M , x0 является выпуклой
комбинацией конечного числа угловых точек: x0 = s1 x1 + . . . +
+ sm xm , si  0, s1 + . . . + sm = 1. Отсюда

f (x0 ) = s1 f (x1 ) + . . . + sm f (xm ) 


 (s1 + . . . + sm ) min f (xi ) = min f (xi ). 
1im 1im

D 26.2. Линейные неравенства


Вопросы о системах линейных неравенств являются, по су-
ществу, вопросами о свойствах пересечений полупространств
(x, ak )  γk , 1  k  m. При этом важно, конечно, знать, в ка-
ких случаях какие-то неравенства являются следствием других
неравенств. Основой для ответа на данный вопрос является сле-
дующий результат.
Теорема Фаркаша. Пусть a, a1 , . . . , am ∈ Rn , и предположим,
что неравенство (x, a)  0 является следствием системы
неравенств (x, ak )  0, 1  k  m. Это возможно в том и толь-
ко том случае, когда a = s1 a1 + . . . + sm am для некоторых
неотрицательных чисел s1 , . . . , sm .
Доказательство. Если a = s1 a1 + . . . + sm am при si  0, то нера-
венство (x, a)  0 следует из неравенств (x, ak )  0 очевидным
образом. Рассмотрим множество

m
M = {v ∈ R : v =
n
sk ak , sk  0, 1  k  m}.
k=1

Это выпуклое и замкнутое множество (докажите!). Поэтому


если a ∈ / M , то существует элемент наилучшего приближения
z0 ∈ M : |a − z0 |  |a − z| ∀z ∈ M . Положим x0 = a − z0 . Тогда
(x0 , z − z0 )  0 ∀z ∈ M ⇒ (x0 , ak )  0, 1  k  m. Кроме
того, (x0 , z)  (x0 , z0 ) = (x0 , a − x0 ) < (x0 , a) ∀z ∈ M . Посколь-
ку 0 ∈ M , находим: 0 < (x0 , a). Таким образом, неравенство
(x, a)  0 нарушается для вектора x = x0 , который удовлетворяет
системе неравенств (x0 , ak )  0, 1  k  m. 
D 26.3. Поиск точки в пересечении гиперплоскостей 421

D 26.3. Поиск точки в пересечении гиперплоскостей


Гиперплоскость в Cn — это линейное многообразие размер-
ности n − 1. Пусть задано m гиперплоскостей:
a11 x1 + . . . + a1n xn = b1 ,
... ... ... ... ... ... ... ... ... (*)
am1 x1 + . . . + amn xn = bm .
Обозначим i-ю гиперплоскость через Mi . Очевидно, что их пе-
ресечение M = M1 ∩ . . . ∩ Mm состоит из векторов [x1 , . . . , xn ] ,
удовлетворяющих системе линейных алгебраических уравнений
(∗). Следовательно, если пересечение m гиперплоскостей непу-
сто, то оно является линейным многообразием размерности
n − r, где r — ранг матрицы коэффициентов системы (∗).
Пусть в Cn введено естественное скалярное произведение.
Тогда Mi можно задать уравнением (x, ai ) = bi , где ai = [ai1 , . . .
. . . , ain ] , а систему (∗) записать в виде
(x, a1 ) = b1 , . . . , (x, am ) = bm .
Направляющее подпространство для Mi имеет вид Li =
= {x : (x, ai ) = 0} ⇒ ai ⊥Li .
Предположим, что пересечение гиперплоскостей M непусто.
Ясно, что M = x  + L, где x  ∈ M — частное решение системы (∗),
а L = L1 ∩ . . . ∩ Lm — линейное подпространство всех решений
соответствующей однородной системы.
Для приближенного вычисления частного решения систе-
мы (∗) попробуем использовать простую геометрическую идею.
Возьмем произвольный вектор x0 ∈ Cn , найдем ближайший
к нему вектор x1 ∈ M1 , затем ближайший к x1 вектор x2 ∈ M2
и т. д. Получив xm ∈ Mm , будем повторять те же действия цик-
лически: найдем ближайший к xm вектор xm+1 ∈ M1 и т. д. 1)
Обозначим через x  ближайший к x0 вектор из L, и пусть
z ≡x −x
k k . Очевидно, что
z k ∈ Lk , zk − zk−1 = xk − xk−1 ⊥Lk .
Таким образом, xk = xk−1 + tak , где t определяется условием
(xk , ak ) = bk ⇒
bk − (xk−1 , ak )
xk = xk−1 + ak .
(ak , ak )

1)
Метод описан в работе польского математика Качмажа, опубликованной
в 1937 г.
422 Дополнение к лекции 26

Будем считать, что


Mj = Mkm+j , Lj = Lkm+j , aj = akm+j ,
1  j  m, k = 1, 2 . . .
Утверждение. xk → x  при k → ∞.
Доказательство. По теореме Пифагора

k−1
|z 0 |2 = |z k |2 + |z j+1 − z j |2 .
j=0
Отсюда

m
ρ(z , Li ) ≡ inf |z − y| 
k k
|z k+j+1 − z k+j | → 0, k → ∞.
y∈Li
j=1
Функция ρ(v , Li ) = inf |v − y| непрерывна по v : пусть p1 , p2 ∈ Li ,
y∈li
v − p1 ⊥Li , w − p2 ⊥Li ; тогда
|ρ(v , Li ) − ρ(w, Li )| = | |v − p1 | − |w − p2 | | 
 |(v − w) − (p1 − p2 )|  |v − w|.
Поэтому если z k → z , то ρ(z , Li ) = 0 при 1  i  m. Следова-
тельно, z ∈ L.
Кроме того, z 1 − z 0 ⊥L1 ⇒ z 1 − z 0 ⊥L. Поскольку z 0 ⊥L, на-
ходим: z 1 = z 0 + (z 1 − z 0 )⊥L. Аналогично, z k ⊥L для всех k .
Значит, z⊥L. Таким образом, z = 0.
Ясно, что числовая последовательность |z k | монотонно убы-
вает и поэтому сходится. Последовательнось векторов z k огра-
ничена и поэтому, в силу конечной размерности пространства,
имеет сходящуюся подпоследовательность. Если z — ее предел,
то, как мы выяснили выше, z = 0. Значит, |z k | → 0 ⇒z k → 0. 

D 26.4. Линейные функционалы и скалярные


произведения
Пусть V — произвольное пространство со скалярным произве-
дением. Фиксируем любой вектор z ∈ V и рассмотрим функцию
f (x) = (x, z). Из неравенства Коши–Буняковского–Шварца вытекает,
что f (x) — ограниченный линейный функционал на V . Замечательно,
что данный пример имеет обший характер.
Теорема Рисса. Если V — гильбертово пространство, то для лю-
бого ограниченного линейного функционала f существует вектор
h ∈ V такой, что
f (x) = (x, h) ∀x ∈ V и ||f || = |h|.
D 26.5. Дуальные нормы 423

Доказательство. Рассмотрим в V линейное подпространство


L = {x ∈ V : f (x) = 0}
и его ортогональное дополнение M = L .
Предположим сначала, что в M имеется ненулевой вектор h0 . Тогда
f (h0 ) = 0 (иначе h0 ∈ L и h0 ⊥L ⇒ h0 = 0). Если h — произвольный
вектор из M и α = f (h)/f (h0 ), то z ≡ h − αh0 ∈ L и одновременно z⊥L
⇒ z = 0.
Следовательно, dim M = 1 и любой вектор x ∈ V допускает един-
ственное разложение x = αh0 + z , где z ∈ L. Положим α0 = f (h0 )/|h0 |2
и h = α0 h0 . Тогда f (x) = αf (h0 ) = (x, h). Кроме того, |f (x)|  |h||x|
и f (h/|h|) = |h| ⇒ ||f || = |h|.
Заметим, что полнота гильбертова пространства пока еще не ис-
пользовалась. Она нужна лишь для того, чтобы рассмотреть особый
случай, когда подпространство M нулевое, и доказать, что в этом
случае L = V ⇒ f (x) = 0 = (x, 0) ∀x ∈ V . Для этого достаточно
заметить, что L — замкнутое подпространство и воспользоваться обоб-
щением теоремы о перпендикуляре. Таким образом, если L = V , то L
содержит ненулевой вектор. 

D 26.5. Дуальные нормы


В C любой линейный функционал имеет вид f (x) = z ∗ x, где z —
n
некоторый фиксированный вектор из Cn . В силу взаимно-однозначного
соответствия f ↔ z сопряженное пространство в данном случае есте-
ственным образом отождествляется с Cn . Пусть в Cn задана какая-то
векторная норма || · ||. Тогда норма линейного функционала f может
рассматриваться как норма вектора z и, таким образом, является век-
торной нормой на том же пространстве Cn :
||z|| ≡ sup |z ∗ x|.
||x||=1

Норма || · || называется дуальной для нормы || · ||.


Утверждение. В пространстве Cn с гёльдеровской нормой || · ||p , p 
 1, дуальная норма есть || · ||q , где 1/p + 1/q = 1.
Доказательство. Из неравенства Гёльдера |z ∗ x|  ||z||q ||x||p следует,
что ||z||  ||z||q . В то же время равенство легко получается при выборе
x вида x = αz . 
Интересно отметить, что норма || · || , дуальная к дуальной норме
|| · || , совпадает с исходной нормой || · ||. По определению
||x|| = sup |y ∗ x|  ||x||.
||y|| =1

Если n = 1, то ||x|| = c|x| для какого-то c > 0. Поэтому


|y||x| |y| |y||x|
||y|| = sup = ⇒ ||x|| = sup  = c|x| = ||x||.
x=0 ||x|| c y=0 ||y||
424 Дополнение к лекции 26

При n > 1 рассмотрим произвольный базис x1 , . . . , xn . Пусть


f1 (x) — линейный функционал на одномерном пространстве L(x1 ),
выбранный таким образом, что f1 (x1 ) = ||x1 || . Заметим, что ||f1 || =
= ||x1 || /||x1 ||. Оказывается, f1 можно продолжить на двумерное про-
странство L(x1 , x2 ) с сохранением нормы: существует линейный функ-
ционал f2 (x), x ∈ L(x1 , x2 ), такой, что f2 (x) = f1 (x) при x ∈ L(x1 )
и ||f2 || = ||f1 ||. Далее, из f2 можно получить f3 с более широкой обла-
стью определения L(x1 , x2 , x3 ) и той же нормой и т. д. В итоге получа-
ется линейный функционал fn (x), определенный на всем Cn , имеющий
норму ||fn || = ||x1 || /||x1 || и такой, что fn (x1 ) = f1 (x1 ) = ||x1 || . Значит,

|f (x1 )| |f (x )|
||x1 || = sup  n 1 = ||x1 ||.
f =0 ||f || ||fn ||

Отсюда ||x1 || = ||x1 ||. Остается заметить, что базис можно начинать
с любого вектора x1 = 0.
Возможность продолжения линейного ограниченного функционала
с сохранением нормы в достаточно общем случае — глубокий и не
очень простой результат. Он относится к совокупности фактов, которые
принято называть теоремами Хана–Банаха.
Теорема Хана–Банаха. Пусть V — нормированное пространство,
L — его подпространство, w ∈ /LиL  = L + L(w). Тогда любой линей-
ный ограниченный функционал f : L → C на L можно продолжить
до линейного ограниченного функционала f : L  → C на L  таким
 
образом, что f (x) = f (x) ∀x ∈ L и при этом ||f || = ||f ||.
Доказательство. Пусть u ∈ L и α ∈ C. Тогда f(u + αw) = f (u) + αc,
где c = f(w). Таким образом, f определяется числом c. Будем считать,
что ||f || = 1. Ясно, что ||f||  1 при любом выборе c. Поэтому нужно
найти такое c, чтобы |f (u) + αc|  ||u + αw|| при всех u ∈ L и α ∈ C.
Рассмотрим сначала более простой случай, когда все пространства
и функционалы являются вещественными. 1) Все получается из вполне
элементарного наблюдения

f (u) − f (v)  ||u − v||  ||u + w|| + ||v + w|| ∀u, v ∈ L,

которое, однако, нужно правильно проинтерпретировать. Запишем эти


же неравенства в виде

f (u) − ||u + w||  f (v) + ||v + w||,

где левая часть зависит только от u, а правая только от v . Поэтому все


числа слева и справа разделяются каким-то одним числом:

f (u) − ||u + w||  −c  f (v) + ||v + w|| ∀u, v ∈ L.

1)
Независимо друг от друга Хан и Банах рассмотрели именно этот случай.
D 26.5. Дуальные нормы 425

Теперь уже ясно, что |f (u) + c|  ||u + w|| для всех u ∈ L. Для любого
вещественного s = 0 находим: |f (u) + sc| = |s||f (u/s) + c|  |s|||u/s +
+ w|| = ||u + sw||. То же верно, конечно, и для s = 0. Итак, веще-
ственный линейный функционал f (x) можно доопределить с помощью
равенства f(w) = c на более широком пространстве L  таким образом,
что

|f(u + sw)| = |f (u) + sc|  ||u + sw|| ∀u ∈ L, ∀s ∈ R.


Перейдем к общему случаю, когда пространства и функционалы
комплексные. Выделив вещественную и мнимую части f (x) = g(x) +
+ ih(x), заметим, что h(x) = −g(ix). Вещественные функционалы
g(x) и h(x) уже не будут линейными. Тем не менее g(x) явля-
ется вещественным линейным функционалом, если L рассматривать
как линейное пространство над полем вещественных чисел. Выпол-
нив подряд два описанных выше шага продолжения, получим веще-
ственный линейный функционал g(x) на пространстве векторов вида
u + sw + t(i w), где u ∈ L и s, t ∈ R. При этом будет выполняться
неравенство |
g (u + sw + t(i w))|  ||u + sw + ti w||. Отсюда понятно, что
g(x) можно рассматривать как вещественный функционал, определен-
ный на L и такой, что

| 
g (x)|  ||x|| ∀x ∈ L. (∗)
Функционал g(x) обладает свойством линейности лишь при умножении
на вещественные числа. Однако с его помощью можно определить
функционал
f(x) = g(x) − i ,
g (ix), x ∈ L
который, как можно убедиться, уже является комплексным линейным
функционалом на L  его вещественная часть
 . К тому же, при всех x ∈ L
re(f (x)) совпадает с g(x), а при всех x ∈ L имеем: f(x) = f (x).

Остается доказать, что |f(x)|  ||x|| при всех x ∈ L . Пусть f(x) =

= |f (x)|ξ , где ξ ∈ C и, очевидно, |ξ| = 1. В силу вещественности числа
ξ f(x) получаем: f(ξx) = g(ξx). Согласно неравенству (∗) находим

|f(x)| = |f(ξx)| = |
g (ξx)|  ||ξx|| = ||x||. 
Дополнение к л е к ц и и 27

D 27.1. Выбор базиса


С точки зрения «точной математики» все базисы равноправ-
ны. Но при проведении вычислений разница между базисами
огромна!
Пусть e = {e1 , . . . , en } — стандартный базис в Cn , а g =
= {g1 , . . . , gn } — какой-то другой базис. Пусть j -й столбец мат-
рицы P состоит из координат вектора gj в стандартном базисе e.
Тогда координаты одного и того же вектора в базисах e и g
связаны равенством x = P z , где x ∈ Cn содержит координаты
разложения вектора по стандартному базису e, а z ∈ Cn —
координаты разложения того же вектора по базису g . Поэтому

z = P −1 x.
Типична ситуация, когда в ходе вычислений вместо x возник
слабо возмущенный вектор x  = x + δ . Тогда вместо z будет
получен вектор
z ≡ z + Δ = P −1 (x + δ) ⇒ Δ = P −1 δ.
Предположим, что x = 0 (тогда и z = 0). Используя спектраль-
ную норму, находим−1 −1
||Δ||2 = ||P||x||δ||2 ||P z||2  ||P ||x||
||2 ||δ||2
||P ||2 ||z||2 ⇒
||Δ||2 ||δ||2
2 2

⇒  (||P −1 ||2 ||P ||2 ) . (#)


||z||2 ||x||2
Таким образом, относительная погрешность ||Δ||2 /||z||2 в век-
торе z не больше, чем относительная погрешность ||δ||2 /||x||2
в векторе x, умноженная на число
γ(P ) ≡ ||P −1 ||2 ||P ||2 .
Величина γ(P ) называется спектральным числом обусловленно-
сти матрицы P .
К сожалению, число обусловленности может оказаться очень
большим, а неравенство (#) для некоторых векторов x и δ может
превращаться в равенство. В самом деле, пусть
P = V ΣU ∗ — сингулярное разложение матрицы P ,
D 27.2. Базисы в пространстве многочленов 427

u1 и v1 — первые столбцы матриц U и V , а un и vn — последние


столбцы тех же матриц. Тогда
P u1 = σ1 v1 , P un = σn vn .
Взяв x = v1 и δ = εvn , находим
||Δ||2 |ε|/σn σ ||δ||1
= = |ε| 1 = ||P −1 ||2 ||P ||2 .
||z||2 1/σ1 σn ||x||2
В отличие от произвольных базисов, ортонормированные ба-
зисы обладают замечательным достоинством. Для них матрица
P унитарная, а для любой унитарной матрицы спектральное
число обусловленности равно 1 (докажите!).
По этой причине математики-вычислители предпочитают, ес-
ли возможно, иметь дело с ортонормированными базисами.

D 27.2. Базисы в пространстве многочленов


Пусть Pn — линейное пространство вещественных многочленов
порядка n (степени n − 1 и ниже). Естественный базис в Pn образуют
одночлены 1, x, . . . , xn−1 .
С точки зрения вычислений это «очень плохой» базис. Пусть, на-
пример, нужно найти многочлен p(x) ∈ Pn , принимающий в заданных
точках a  x1 < x2 < . . . < xn  b заданные значения f1 , f2 , . . . , fn .
Это могут быть значения какой-то функции f (x) на отрезке [a, b] —
в этом случае p(x) можно рассматривать как некоторое прибли-
жение к f (x) на данном отрезке, выбираемое из условия совпаде-
ния значений f (x) и p(x) в точках xi . Такая задача называется
задачей интерполяции, а p(x) — интерполяционным многочленом
для функции f (x) в узлах xi . Решение вроде бы очевидно: если
p(x) = a0 + a1 x + . . . + an−1 xn−1 , то
⎡ 1⎤ ⎡ ⎤ ⎡ ⎤
1 x1 . . . xn−
1 a0 f1
⎢ 1 x2 . . . xn− 1⎥ ⎢ a ⎥
1 ⎢ f ⎥
⎣ 2 ⎦ ⎣ . . . ⎦ = ⎣. .2.⎦ .
... ... ... ...
1 xn . . . xn−
n
1 an−1 fn
Однако матрица коэффициентов данной системы √ имеет спек-
тральное число обусловленности не меньше 2n−2 / n независимо
от выбора узлов xi . 1) Поэтому даже малые погрешности в значениях
fi могут привести к недопустимым погрешностям в коэффициентах
интерполяционного многочлена p(x).
Строить вычисления на основе коэффициентов интерполяционного
многочлена — дело почти безнадежное. Но это не означает, что нужно
отказаться от использования интерполяционных многочленов. Нужно
лишь выбрать другой базис для их представления!

1)
Простое доказательство (все же требующее техники, которую мы еще не
успели развить) можно найти в статье: Tyrtyshnikov E.E. How bad are Hankel
matrices? // Numer. Math., 1994, № 67. P. 261–269.
428 Дополнение к лекции 27

Одна из возможностей — записать p(x) следующим образом:


n
  x − xj
p(x) = fi . (∗)
xi − xj
i=1 1jn
j = i

В данном случае для разложения p(x) используется базис из так


называемых элементарных многочленов Лагранжа
 x − xj
li (x) = .
xi − xj
1jn
j = i

Легко проверить, что


7
1, i = k,
li (xk ) =  k.
0, i =

Поэтому p(x) действительно удовлетворяет условиям p(xk ) = fk , 1 


 k  n. Формула (∗) называется интерполяционной формулой
Лагранжа.
Другая возможность — ввести в Pn скалярное произведение и по-
строить базис из ортогональных (ортонормированных) многочленов
с помощью процесса ортогонализации Грама–Шмидта, примененного
к системе многочленов 1, x, x2 , . . . Например, для многочленов на от-
резке [−1, 1] можно определить скалярное произведение как интеграл:

1
(f , g) = f (x)g(x) dx, f , g ∈ Pn .
−1

Тогда получатся ортогональные многочлены, известные как многочле-


ны Лежандра.
В теории и вычислениях применяются и многие другие способы
задания скалярного произведения в Pn , приводящие к другим по-
лезным системам ортогональных многочленов. Например, скалярное
произведение
1
f (x)g(x)
(f , g) = ! dx, f , g ∈ Pn ,
1 − x2
−1

порождает многочлены Чебышёва.


Дополнение к л е к ц и и 32

D 32.1. Минимальный многочлен матрицы


По теореме Гамильтона–Кэли матрица A ∈ Cn×n аннулирует-
ся своим характеристическим многочленом: если f (λ) = det(A −
− λI), то f (A) = 0. Многочлен минимальной степени с тем же
свойством называется минимальным многочленом матрицы A.
Лемма. Минимальный многочлен является делителем харак-
теристического многочлена.
Доказательство. Пусть ϕ(λ) и f (λ) — минимальный и характе-
ристический многочлены для A. Выполним деление с остатком:
f (λ) = q(λ)ϕ(λ) + r(λ). Очевидно, что r(A) = 0. Неравенство
deg r(λ) < deg ϕ(λ) противоречило бы минимальности многочле-
на ϕ(λ). Поэтому r(λ) — нулевой многочлен. 
Теорема. Пусть A имеет попарно различные собственные зна-
чения λ1 , . . . , λm . Степень минимального многочлена матрицы
A равна сумме n1 + . . . + nm , где ni — максимальный порядок
жордановых клеток для собственного значения λi .
Доказательство. Достаточно  рассмотреть разложение произ-
вольного вектора x = xj по циклическим подпространствам
Lj (последние в прямой сумме дают Cn ). Пусть подпространства
Lj1 , . . . , Ljm отвечают λ1 , . . . , λm соответственно и имеют размер-
ности n1 , . . . , nm . Тогда
ker(A − λi I)ni = Ki ⇒ (A − λ1 I)n1 . . . (A − λm I)nm x = 0.
Таким образом, степень минимального многочлена не выше
n1 + . . . + nm .
В то же время степень минимального многочлена не может
быть меньше: жорданова клетка порядка ni для λi не может
быть аннулирована многочленом степени меньше ni , при этом ее
минимальный многочлен есть в точности (λi − λ)ni , и этот мно-
гочлен не может аннулировать ни одну из жордановых клеток,
отвечающих другому собственному значению. 
430 Дополнение к лекции 32

D 32.2. Жорданова форма: прямое доказательство


по индукции
Путь к теореме о приведении квадратной комплексной матрицы
к жордановой форме, очевидно, потребовал от нас изрядных усилий.
Поэтому естественно желание как-то его «срезать» — в какой-то
степени это удается сделать с помощью следующего рассуждения,
предложенного А. Ф. Филипповым.
Теорема. Пусть L инвариантно относительно A ∈ Cn×n и сужение
A на L имеет единственное собственное значение λ кратности k.
Тогда существует цепочка линейно независимых векторов x1 , . . .
. . . , xk ∈ L такая, что для каждого j

Axj = λxj либо Axj = λxj + xj−1 . (#)

Доказательство. Перейдем к матрице B = A − λI и будем доказывать


существование цепочки со свойствами

Bxj = 0 либо Bxj = xj−1 .

При k = 1 это очевидно (в данном случае L — одномерное инва-


риантное подпространство). Рассуждая по индукции, предположим,
что в случае, когда размерность инвариантного подпространства равна
r < k, цепочка нужного вида существует. В качестве такого простран-
ства возьмем imB ∩ L. Ясно, что r ≡ dim(imB ∩ L) < k.
Итак, по индуктивному предположению имеется цепочка линейно
независимых векторов y1 , . . . , yr таких, что

Byj = 0 либо Byj = yj−1 .

Ясно, что система y1 , . . . , yk разбивается ка конечное число жордано-


вых цепочек:
yi1 , . . . , yj1 ; . . . ; yil , . . . , yjl .
Таким образом, жордановых цепочек всего l, а векторы yi1 , . . . , yil
и yj1 , . . . , yil — начальные и конечные векторы этих цепочек.
Все векторы, и в частности конечные векторы жордановых цепочек,
принадлежат imB . Поэтому найдутся векторы w1 , . . . , wl такие, что

Bw1 = yj1 , . . . , Bwl = yjl .

Заметим, что w1 , . . . , wl ∈ ker B r+1 ∩ L.


Начальные векторы жордановых цепочек линейно независимы (как
часть линейно независимой системы) и принадлежат подпространству
ker B ∩ L, но, возможно, их недостаточно для того, чтобы составить
его базис. Пусть векторы z1 , . . . , zs дополняют систему yi1 , . . . , yil
до базиса в подпространстве ker B ∩ L.
D 32.2. Жорданова форма: прямое доказательствопо индукции 431

Заметим, что dim L = dim(imB ∩ L) + dim(ker B ∩ L). Таким обра-


зом, цепочка векторов

z1 , . . . , zs , yi1 , . . . , yj1 , w1 , . . . , yil , . . . , yjl , wl (∗)


обладает свойствами (#), и в ней ровно dim L = r + (l + s) векторов.
Остается лишь доказать, что система (∗) линейно независима. Запи-
шем   
αi zi + βi yi + γi wi = 0.
Умножив обе части слева на B , получаем равную нулю линейную
комбинацию части векторов yi — без начальных векторов жордановых
цепочек yi1 , . . . , yil . Отсюда находим, что γi = 0 для всех 1  i  l
и βi = 0 для всех 1  i  r , кроме i = i1 , . . . , il . Таким образом,
 s  l
 
αi zi + βit yit = 0.
i=1 t=1

Данная система линейно независима по построению ⇒ все αi и βit


равны нулю. 
Дополнение к л е к ц и и 34

D 34.1. Свертки
Пусть циркулянтная матрица A определяется первым столб-
цом a. Вектор y = Ax называется периодической сверткой век-
торов a и x. Обозначение: y = a ∗ x.
Задача 1. Докажите, что a ∗ x = x ∗ a.
Согласно теореме о циркулянтах (см. п. 34.2) вычисление
периодической свертки векторов из Cn (умножение на цирку-
лянтную матрицу) сводится к трем умножениям на матрицу
Фурье. Их можно выполнить с помощью алгоритма быстрого
преобразования Фурье за O(n log2 n) арифметических операций,
если n = 2L .
Решение линейных систем с циркулянтной матрицей осу-
ществляется с теми же затратами (докажите!).
Пусть теперь a = [a−n+1 , a−n+2 , . . . , a0 , a1 , . . . , an−1 ] ∈
∈ C2n−1 и x ∈ Cn . Под апериодической сверткой векторов a и x
понимается вектор y ⎡= Ax, где ⎤
a0 a−1 . . . a−n+1
⎢a a0 . . . a−n+2 ⎥
A=⎣ 1 ⎦.
... ... ... ...
an−1 an−2 . . . a0
Матрица A такого вида называется теплицевой матрицей. 1)
Заметим, что любой циркулянт является также теплицевой мат-
рицей.
Утверждение. Для любого n теплицева матрица порядка n
может быть умножена на вектор с затратой O(n log2 n)
операций.
Доказательство. Достаточно заметить, что теплицеву матри-
цу A порядка n можно «достроить»

до циркулянта

A C12
C=
C21 C22

1)
В честь немецкого математика Отто Тёплица.
D 34.2. Сложность преобразования Фурье 433

порядка N = 2L < 4n. Вот как это делается в случае n = 3:


⎡ ⎤
a0 a−1 a−2 0 0 0 a2 a1
⎢ a1 a0 a−1 a−2 0 0 0 a2 ⎥
⎢a 0 ⎥
⎢ 2 a1 a0 a−1 a−2 0 0 ⎥
⎢0 a2 a1 a0 a−1 a−2 0 0 ⎥
C=⎢ ⎢0
⎥.
⎢ 0 a2 a1 a0 a−1 a−2 0 ⎥ ⎥
⎢0 0 0 a2 a1 a0 a−1 a−2 ⎥
⎣ ⎦
a−2 0 0 0 a2 a1 a0 a−1
a−1 a−2 0 0 0 a2 a1 a0
Далее, пусть



u A C12 x
v = C21 C22 0
.

Отсюда ясно, что u = Ax. Таким образом, умножение на тепли-


цеву матрицу сводится к умножению на циркулянтную матрицу
порядка N = 2L . Применение быстрого преобразования Фурье
дает алгоритм с числом операций O(N log2 N ) = O(n log2 n). 

D 34.2. Сложность преобразования Фурье


Что можно сказать о сложности преобразования Фурье в слу-
чае n = 2L ?
Пусть элементы матрицы Fn нумеруются индексами от 0 до
n − 1. В позиции (k , l) находится число
εkl = ε(k +l −(k−l) )/2 = εk /2 ε−(k−l) εl /2 .
2 2 2 2 2 2

Поэтому матрица Фурье расщепляется в произведение трех мат-


риц: ⎡ 02 /2 ⎤
ε
⎢ 2
ε1 / 2 ⎥
⎢ ⎥
Fn = DAD, D = ⎢ .. ⎥,
⎣ . ⎦
2 /2
ε(n−1)
−(k−l)2 /2
A = [ε ], 0  k , l  n − 1.
Таким образом, умножение на матрицу Фурье произвольного по-
рядка n сводится к умножению на теплицеву матрицу A того же
порядка n. Последнее сводится к умножению на циркулянтную
матрицу порядка N = 2L < 4n.
В итоге все сводится к троекратному применению алгоритма
быстрого преобразования Фурье специально выбранного порядка
N = 2L . Описанная возможность получения быстрого преобразо-
вания Фурье без ограничений на его порядок является, вероятно,
434 Дополнение к лекции 34

самой простой (но не единственной и не всегда наилучшей для


практических вычислений).
Можно ли получить алгоритм асимптотически меньшей
сложности? Ответ зависит от ограничений на класс допустимых
алгоритмов. Пусть под алгоритмом понимается последователь-
ность операций вида z = αi x + βi y , где x, y — аргументы, z —
результат i-й операции, а αi и βi — определяющие операцию
константы. Доказано, что если все константы ограничены по
модулю величиной M > 0, то число операций такого вида,
необходимых для вычисления преобразования Фурье, не меньше
cn log2 n, где c не зависит от n (но зависит от M ).
Задача 1. Доказать, что два многочлена степени n можно пере-
множить с затратой O(n log2 n) арифметических операций.
Задача 2. Даны числа x1 , . . . , xn . Доказать, что коэффициенты
$
n
многочлена f (x) = (x − xi ) можно найти с затратой O(n log22 n)
i=1
арифметических операций.

D 34.3. Быстрые приближенные вычисления


Рассмотрим задачу умножения фиксированной матрицы A
порядка n на произвольный вектор x. При построении алгоритма
для вычисления вектора y = Ax входными данными считаются
координаты вектора x, а результатом — координаты вектора y .
Если A = Fn — матрица Фурье порядка n, то y = Ax можно
найти за O(n log2 n) операций. При точном выполнении каждой
операции будет получен точный вектор y . Однако практический
интерес представляет получение некоторого приближения к век-
тору y с гарантированной точностью ε > 0. Число операций для
решения такой задачи должно зависеть, очевидно, не только от
n, но и от ε.
В приложениях элементы aij матрицы A часто определяются
как значения некоторой функции f (u, v) в точках u = ui , v = vj ,
где u1 , . . . , un и v1 , . . . , vn — некоторые системы точек (сетки)
в k -мерном пространстве:
aij = f (ui , vj ), 1  i, j  n.
Пусть все точки ui , vj принадлежат множеству D ⊂ Rk , и пред-
положим, что для любого ε > 0 функция f (u, v) допускает при-
ближение с разделенными переменными:
 r
f (u, v) ≈ ϕs (u)ψs (v), r = r(ε),
s=1
D 34.3. Быстрые приближенные вычисления 435

где

r
|f (u, v) − ϕs (u)ψ(s (v)|  ε, u, v ∈ D.
s=1
Тогда A аппроксимируется матрицей  Ar вида
r ϕ(u1 )
Ar = . . . [ψ(v1 ) . . . ψ(vn )] (∗)
s=1 ϕ(u n )
с поэлементной оценкой погрешности
|aij − (Ar )ij |  ε, 1  i, j  n.
При этом, очевидно, Ax ≈ Ar x, а умножение матрицы Ar на
вектор x требует, в силу (∗), всего лишь O(nr) арифметических
операций.
Как видим, число операций зависит от n линейно. Но важно
понимать также, каков характер зависимости r от ε. Это вопрос,
относящийся к теории приближения функций. Его полное изуче-
ние может потребовать весьма тонких средств анализа.
Однако какие-либо оценки (вообще говоря, завышенные) можно
получать и с помощью очень простых средств. Например, пусть k =
= 1 и D = [a, b] — отрезок вещественной прямой. Предположим, что
функция f (u, v) бесконечно дифференцируема как функция от v при
любом фиксированном u. Тогда при любом фиксированном u можно
разложить f (u, v) в ряд Тейлора в точке v = v0 = (a + b)/2:
r−1 s 
 ∂ f (v − v0 )s
f (u, v) = s + Er (u, v),
∂v v=v0 s!
s=0

где Er (u, v) — остаточный член. Если им пренебречь, то получается


некоторая аппроксимация с разделенными переменными u и v . Если f
как функция от v принадлежит классу бесконечно дифференцируемых
функций, для которых производная любого порядка s ограничена по
модулю величиной M s , где M — положительная константа, одинаковая
для всех u ∈ D, то

Mr b − a r
|Er (u, v)|  .
r! 2
Можно показать, что правая часть стремится к нулю при r → ∞. Более
того, для некоторых констант p, q > 1 она не превосходит p/q r при
всех r . Неравенство
p/q r  ε
будет выполнено, если

log p + log ε−1


 r.
log q
436 Дополнение к лекции 34

В данном случае число операций в нашем приближенном алгоритме


умножения матрицы A на вектор x получает вид O(n log ε−1 ).
Методы математического анализа нужны для того, чтобы
доказать существование приближения матрицы A матрицей Ar ,
ранг которой мал по сравнению с n. Если этот факт уже установ-
лен, то интересующее нас приближение можно найти с помощью
собственных методов теории матриц. Более того, приближение
ранга r можно получить, используя лишь некоторые r строк и r
столбцов матрицы A — это вытекает из следующей теоремы.
Теорема. 1) Пусть для матрицы A порядка n существует
матрица B ранга r такая, что ||B − A||2  ε. Тогда, если A
имеет блочное разбиение вида


A11 A12
A= ,
A21 A22
где A11 — невырожденная подматрица порядка r с макси-
мальным по модулю определителем среди всех подматриц
порядка
 r
, то  
 
 A − A11 A−1 [A11 A12 ]   (r + 1)ε, 1  i, j  n.
 A21 11 
ij
На протяжении последних 10–20 лет методы быстрого при-
ближенного умножения для матриц, принадлежащих весьма об-
щим классам, развивались особенно интенсивно. Они становятся
основой очень эффективных вычислительных технологий: если
в 1960-е годы решение систем с плотной матрицей коэффици-
ентов порядка нескольких сотен считалось уже трудной зада-
чей, то теперь получены методы, позволяющие успешно работать
с плотными матрицами порядка нескольких миллионов. При
этом ключевой идеей является использование многоуровневых
блочных разбиений исходной матрицы с аппроксимацией блоков
матрицами малого ранга. Данный круг вопросов имеет огромное
прикладное значение и находится в стадии активного изучения,
в том числе и как часть теории и алгоритмов сжатия и струк-
туризации данных на основе методов нелинейной аппроксима-
ции.

Goreinov S.A., Tyrtyshnikov E.E. The maximal-volume concept in ap-


1)

proximation by low-rank matrices // Contemporary Mathematics, 2001. V. 280.


P. 47–51.
Дополнение к л е к ц и и 35

D 35.1. Общий вид унитарно инвариантных норм


При работе с матрицами мы активно используем две уни-
тарно инвариантные нормы: спектральную норму ||A||2 и норму
Фробениуса ||A||F . Другие нормы того же типа с огромной
пользой применяются, например, в асимптотическом матричном
анализе (при изучении последовательностей матриц, порядок ко-
торых стремится к бесконечности).
Полное описание унитарно инвариантных норм было дано
Джоном фон Нейманом в 1937 г. 1)
Пусть A = V ΣU ∗ — сингулярное разложение матрицы A.
Тогда для любой унитарно инвариантной нормы имеем равенство
||A|| = ||Σ||. Поэтому ||A|| есть функция от сингулярных чисел
матрицы A:
||A|| = Φ(σ1 , . . . , σk ), k = min(m, n).
Ясно, что Φ(σ1 , . . . , σk ) можно рассматривать как функцию от
вектора σ = [σ1 , . . . , σk ] ∈ Rn .
Конечно, сингулярные числа неотрицательны, но давайте
предположим, что Φ(σ) определена при всех σ ∈ Rk . Рассмотрим
следующий список требований к функции Φ:
1) Φ(σ) является векторной нормой на Rk ;
2) Φ(σ) зависит только от модулей координат вектора σ ∈ Rk ;
3) Φ(P σ) = Φ(σ) для любой матрицы перестановки порядка k ;
4) если σ = [1, 0, . . . , 0] , то Φ(σ) = 1.
Функция Φ(σ) с такими свойствами называется симметричной
калибровочной функцией на Rk .
Если Φ(σ) определяется унитарно инвариантной нормой
как ||Σ||, то эти свойства, очевидно, должны выполняться.
Нетривиальная часть теоремы Джона фон Неймана — в том,
что любая симметричная калибровочная функция определяет
унитарно инвариантную норму. Единственную (но ощутимую)
трудность доставляет получение неравенства треугольника.

1)
Любопытный исторический факт: работа на эту тему опубликована
Дж. фон Нейманом в журнале Томского университета (J. von Neuman. Some
matrix-inequalities and methrization of matrix space // 1937, Tomsk Univ. Rev.
V. 1. P. 286–300).
Дополнение к л е к ц и и 36

D 36.1. Гиперповерхности второго порядка


Рассмотрим в Rn множество точек S с координатами x1 , . . .
. . . , xn , удовлетворяющими уравнению
n n 
n
aij xi xj − 2 bk xk + c = 0,
i=1 j=1 k=1
или, в матричной форме,
f (x) ≡ (Ax, x) − 2(b, x) + c = 0, A = [aij ],
 
b1
b = ... , (x, y) ≡ y  x.
bn
Все коэффициенты предполагаются вещественными и, кроме то-
го, aij = aji ⇒ A = A . Если A = 0, то множество решений
данного уравнения называется гиперповерхностью второго по-
рядка.
Как и любая вещественная симметричная матрица, A кон-
груэнтна и даже ортогонально подобна диагональной матрице
Λ = P  AP , где P — ортогональная матрица. Замена переменных
x = P y приводит уравнение f (x) = 0 к виду
(Λy , y) − 2(d, y) + c = 0 ⇔
⇔ λ1 y12 + . . . + λr yr2 − 2d1 y1 − . . . − 2dn yn + c = 0,
где d = P  b, r — ранг матрицы Λ, а λ1 , . . . , λr — ее отличные
от нуля элементы (ненулевые собственные значения матрицы A).
Последнее уравнение с помощью сдвигов
zi = yi − di /λi , 1  i  r, zi = yi , r + 1  i  n,
приводится к виду
λ1 z12 + . . . + λr zr2 − 2dr+1 zr+1 − . . . − 2dn zn + h = 0,
h = c − d21 /λ21 − . . . − d2r /λ2r .
D 36.2. Геометрические свойства гиперповерхностей 439

Если dr+1 = . . . = dn = 0, то данное уравнение имеет уже


достаточно простой вид
λ1 z12 + . . . + λr zr2 + h = 0. (1)
В противном случае какое-то из чисел dr+1 , . . . , dn отлично от
нуля. Пусть dr+1 = 0. Тогда существует ортогональная матри-
ца Q блочного вида:

Ir 0
Q=  ,
0 Q
где Q — ортогональная матрица порядка n − r и при этом
⎡ ⎤ ⎡ ⎤
dr+1 1
  ⎣ r+2 ⎦ = μ ⎣ 0 ⎥
⎢ d ⎥ ⎢
. . .⎦
Q .
...
dn 0
Матрицу Q   можно получить как произведение матриц вра-
щения. Если z = Qu и d = [0, . . . , 0, dr+1 , . . . , dn ] , то (d, z) =
= (Q d, u) = μ ur+1 ⇒ замена z = Qu дает уравнение вида
λ1 u21 + . . . + λr u2r − 2μ ur+1 + h = 0.
Ясно, что μ = 0 (почему?). Поэтому можно выполнить сдвиг
wr+1 = ur+1 − h/(2μ), wi = ui , i = r + 1, и получить уравнение
λ1 w12 + . . . + λr wr2 − 2μ wr+1 = 0. (2 )
Уравнения (1) и (2) называются приведенными уравнени-
ями гиперповерхности S . Ясно, что они получаются с помо-
щью перехода к другому ортономированному базису и сдвига
начала координат. Отказавшись от ортонормированности, можно
получить уравнения такого же вида, в которых λi = ±1. Выбор
соответствующей системы координат связан с приведением квад-
ратичной формы (Ax, x) к каноническому виду; в силу закона
инерции число положительных и отрицательных коэффициентов
не зависит от способа приведения.

D 36.2. Геометрические свойства гиперповерхностей


Имеется интересная связь между геометрическими свойствами ги-
перповерхности S и множеством решений системы Ax = b. Фиксируем
точку x0 ∈ Rn и рассмотрим прямую x0 + tv , t ∈ R, с направляющим
вектором v = 0. Ее точки пересечения с гиперповерхностью S опреде-
ляются квадратным уравнением
(A(x0 + tv), x0 + tv) − 2(b, x0 + tv) + c = 0 ⇔
(Av , v) t2 − 2(b − Ax0 , v) t + f (x0 ) = 0. (∗)
440 Дополнение к лекции 36

Говорят, что вектор v имеет асимптотическое направление относи-


тельно S , если (Av , v) = 0, и неасимптотическое направление, если
(Av , v) = 0.
Пусть v имеет неасимптотическое направление и x0 ∈ S . В этом
случае f (x0 ) = 0 ⇒ уравнение (∗) имеет два (возможно, совпадающих)
решения: при t = 0 и t = 2(b − Ax0 , v)/(Av , v). Точка

z = x0 + ((b − Ax0 , v)/(Av , v)) v (∗∗)

является, очевидно, серединой отрезка, параллельного v и соединяю-


щего две точки из S . Такой отрезок называется хордой для S с на-
правляющим вектором v . Умножив (∗∗) скалярно на Av и заметив, что
(Av , z) = (Az , v), находим

(Az , v) = (b, v). (#)

Вывод: все точки z , являющиеся серединами всевозможных хорд


для S с фиксированным неасимптотическим направлением v , при-
надлежат гиперплоскости (#). Данная гиперплоскость называется
диаметральной гиперплоскостью, сопряженной вектору v относи-
тельно гиперповерхности S .
Точка z называется центром симметрии для S , если z+p∈S в том
и только том случае, когда z − p ∈ S .
Утверждение. Совместность системы Ax = b с произвольной веще-
ственной симметричной матрицей A равносильна существованию
центра симметрии у гиперповерхности f (x) = 0. Множество всех
центров симметрии совпадает с множеством всех решений систе-
мы Ax = b.
Доказательство. Пусть Az = b ⇒ (Av , z) = (b, v) для любого неасимп-
тотического вектора v ⇒ z принадлежит пересечению всех диаметраль-
ных гиперплоскостей ⇒ z является серединой любой хорды (а значит,
и центром симметрии) для S .
Теперь предположим, что z — центр симметрии для S ⇒

(A(z + p), z + p) − 2(b, z + p) =


= (A(z − p), z − p) − 2(b, z − p) ⇒ (Az − b, p) = 0.

Легко показать (например, с помощью приведенных уравнений), что


существуют n линейно независимых неасимптотических векторов
v1 , . . . , vn . Тогда точки x0 , x1 = x0 + v1 , . . . , xn = x0 + vn ∈ S будут
D 36.2. Геометрические свойства гиперповерхностей 441

аффинно независимыми (см. п. 47.1). Пусть точка x0 ∈ S такова, что


b − Ax0 = 0. Из (∗) ясно, что vi можно выбрать таким образом, что
все xi будут принадлежать S . Легко видеть, что векторы (точки)
xi − z , 0  i  n, будут аффинно независимыми. Поэтому из них можно
выбрать подсистему из n линейно независимых векторов (см. задачу из
п. 47.1). Следовательно, существуют n линейно независимых векторов
p таких, что z + p ∈ S ⇒ Az = b. 
Дополнение к л е к ц и и 37

D 37.1. Эрмитово возмущение заданного ранга


Теорема. Пусть A — эрмитова матрица порядка n и B = A +
+ vv ∗ — ее эрмитово возмущение ранга 1. Тогда
λ1 (B)  λ1 (A)  λ2 (B)  . . .  λn−1 (A)  λn (B)  λn (A),
λk (A) + ||v||22  λk (B), 1  k  n.

Доказательство. Используя теорему Куранта–Фишера, нахо-


дим
x∗ Ax x∗ Ax + |v ∗ x|2
λk (A) = max min ∗  max min =
dim L=k x∈L, x=0 x x dim L=k x∈L, x=0 x∗ x
x∗ Bx
= max min ∗ = λk (B)  λk (A) + ||v||22 .
dim L=k x∈L, x=0 x x
Далее, пусть V — унитарная матрица с последним столбцом,
равным v/||v||2 . Тогда
0
V ∗ BV = V ∗ AV + ...
0 [0 ... 0 γ] , γ = ||v||2 .
γ
Обозначим через C общую для V ∗ AV и V ∗ BV подматрицу
порядка n − 1 на пересечении первых n − 1 строк и столбцов.
Тогда, в силу уже доказанных соотношений разделения для
ведущих подматриц,
λk (B) = λk (V ∗ BV )  λk−1 (C)  λk−1 (V ∗ AV ) = λk−1 (A). 
Следствие. Пусть A и B — эрмитовы матрицы порядка n
и при этом
k  l

B = V − U, V = vi vi , U = ui u∗i .
i=1 i=1
Тогда
λi+l (A)  λi (A + B)  λi−k (A),
D 37.2. Собственные значения и сингулярные числа 443

где левое неравенство справедливо при i + l  n, а правое при


1  i − k.
Доказательство. Последовательное применение теоремы дает
λi (A)  λi (A + V )  λi−k (A),
λi (A + B)  λi (A + V )  λi−l (A + B).

Следовательно,
λi+l (A)  λi (A + B)  λi−k (A). 
Часто бывает известно, что все собственные значения эрми-
товой матрицы A принадлежат некоторому отрезку [a, b]. По-
лученный результат означает, что при всех эрмитовых возму-
щениях F ранга r матрица A + F будет по-прежнему иметь
все собственные значения на отрезке [a, b], кроме, быть может,
r «аутсайдеров».
 
D B
Задача 1. Блоки эрмитовой матрицы A = B ∗ D таковы, что
D > 0 и rank B = 1. Докажите, что A не может иметь более одного
отрицательного собственного значения.

D 37.2. Собственные значения и сингулярные числа


Есть много интересных сооотношений, связывающих соб-
ственные значения матрицы и ее сингулярные числа. Некоторые
из них получаются очень просто.
Пусть A ∈ Cn×n имеет сингулярные числа σ1  . . .  σn ,
а ее собственные значения упорядочены по неубыванию модуля:
|λ1 |  . . .  |λn |.
Утверждение. σn  |λn |, |λ1 |  σ1 .
Доказательство. Пусть Ax = λi x, x = 0 ⇒ |λi |||x||2 = ||Ax||2 
 ||A||2 ||x||2 = σ1 ||x||2 ⇒ |λi |  σ1 . Далее, если матрица A вы-
рожденная, то λn = 0 и σn = 0. Если же A невырожденная, то
A−1 имеет собственные значения λ− −1
i и ||A ||2 = 1/σn .
1

Данный простой факт имеет много обобщений. Например,
такое.
Теорема. Для всех 1  k  n справедливы неравенства

k 
k
|λi |2  σi2 .
i=1 i=1
444 Дополнение к лекции 37

Доказательство. В силу теоремы Шура с помощью унитарной


матрицы Q можно привести A к верхней треугольной матрице:
⎡λ1 b12 ... b1k ⎤
  λ2 ... b2k
Q∗ AQ = R = B0 D
C
, B=⎣ .. ⎦.
.
λk
Собственные значения для равны A∗ A ...  σ12
и совпадают σn2
с собственными
значениями
для

∗ B∗ 0 B C B B B∗C
R R= = .
C ∗ D∗ 0 D C ∗ B C ∗ C + D∗ D
Используя соотношения разделения для эрмитовых матриц B ∗ B
и R∗ R, находим
k k 
k k
|λi |2  tr (B ∗ B) = λi (B ∗ B)  λi (R∗ R) = σi2 .
i=1 i=1 i=1 i=1

Задача 1. Доказать, что матрица A является нормальной тогда


и только тогда, когда сумма квадратов ее сингулярных чисел равна
сумме квадратов модулей собственных значений.
Неравенства Вейля. Сингулярные числа и собственные
значения, занумерованные по неубыванию модулей, удовле-
творяют неравенствам
k 
k
|λi |  σi , 1  k  n.
i=1 i=1

Доказательство. В обозначениях предыдущего доказательства,


k
|λi |2 = | det B|2 = det(B ∗ B) =
i=1


k 
k 
k
∗ ∗
= λi (B B)  λi (R R) = σi2 . 
i=1 i=1 i=1

D 37.3. Мажоризация и неравенства


На базе неравенств Вейля можно получить целую серию полезных
неравенств. Для этого их надо переписать в виде (давайте считать, что
матрица A невырожденная)

ln |λ1 | + . . . + ln |λk |  ln σ1 + . . . + ln σk , 1  k  n,
D 37.3. Мажоризация и неравенства 445

и заметить дополнительно, что


ln |λ1 | + . . . + ln |λn | = ln σ1 + . . . + ln σn .
В данной форме неравенства Вейля оказываются частным случаем
некоторого общего типа неравенств.
Говорят, что вектор x = [x1 , . . . , xn ] ∈ Rn мажорируется векто-
ром y = [y1 , . . . , yn ] ∈ Rn , если
1) x1  . . .  xn , y1  . . .  yn ;
2) x1 + . . . + xk  y1 + . . . + yk , 1  k  n − 1;
3) x1 + . . . + xn = y1 + . . . + yn .
Обозначение: x ≺ y . Мажоризация всегда связана с равенством
x = Sy , где S — матрица порядка n с неотрицательными элементами,
суммы которых для каждой строки и для каждого столбца одинаковы
и равны 1. Матрица с такими свойствами называется двоякостоха-
стической.
Задача 1. Докажите, что множество всех двоякостохастических
матриц порядка n является выпуклым и при этом матрицы перестано-
вок и только они являются его угловыми точками.
Теорема. Пусть x1  . . .  xn , y1  . . .  yn . Для того чтобы вектор
x = [x1 , . . . , xn ] мажорировался вектором y = [y1 , . . . , yn ] , необхо-
димо и достаточно, чтобы существовала двоякостохастическая
матрица S такая, что x = Sy .
Доказательство. Достаточность: пусть x = Sy для некоторой двояко-
стохастической матрицы S = [sij ], тогда
k k  n k
k−1  k−1

    
xi = sij yj  sij yj + 1 − sij yk =
i=1 i=1 j=1 i=1 j=1 j=1
 k
k−1 


= kyk − sij (yk − yj ) =
j=1 i=1

k k−1
 k
k
   
= yj + 1− sij (yk − yj )  yj .
j=1 j=1 i=1 j=1

Докажем необходимость. Пусть x ≺ y . Очевидно, что


nx1  x1 + . . . + xn = y1 + . . . + yn  nyn ⇒ x1  yn .
В случае n = 2 имеем: y2  x1  y1 ⇒ x1 является выпуклой
комбинацией чисел y1 и y2 : x1 = sy1 + ty2 , s, t  0, s + t = 1. Таким
образом,  
s t
x = Sy , S = t s .
446 Дополнение к лекции 37

В общем случае yn  x1  y1 . Обозначим через k наименьший


номер такой, что yk  x1  yk−1  y1 . Поэтому x1 = sy1 + tyk , s, t  0,
s + t = 1. Пусть матрица F ∈ Rn×n задает преобразование u → v = F u,
определяемое следующим правилом:

v1 = su1 + tuk , vk = tu1 + suk , vi = ui , i = 1, k.

Легко видеть, что матрица F двоякостохастическая. Далее, положим


z = F y , рассмотрим векторы x = [x2 , . . . , xn ] , z  = [z2 , . . . , zn ] и до-
кажем, что x ≺ z  . Согласно выбору номера k

xn  . . .  x1  yk−1  . . .  y1 .


l 
l
Поэтому xi  yi для всех 1  l  k − 1. При k  l  n находим
i=2 i=2

l
 k−1
 l

zi = (ty1 + syk ) + yi + yi =
i=2 i=2 i=k+1
l
 l l

= yi − (sy1 + tyk )  xi − x1 = xi .
i=1 i=1 i=2

Рассуждая по индукции, предположим, что существует двоякостоха-


стическая матрица T  порядка n − 1 такая, что x = T  z  . Тогда матрица



1 0
T = 0 T

будет, очевидно, двоякостохастической. Учитывая, что x1 = z1 , полу-


чаем: x = T z . Таким образом, x = Sy , где S = T F есть произведение
двух двоякостохастических матриц и поэтому, как легко проверить,
тоже является двоякостохастической матрицей. 
Следствие. Пусть [x1 , . . . , xn ] ≺ [y1 , . . . , yn ] . Тогда для любой вы-
пуклой монотонно возрастающей функции ϕ(t) справедливы нера-
венства

ϕ(x1 ) + . . . + ϕ(xk )  ϕ(y1 ) + . . . + ϕ(yk ), 1  k  n.


D 37.3. Мажоризация и неравенства 447

Доказательство. Согласно теореме x = Sy для некоторой двоя-


костохастической матрицы S = [sij ]. Вследствие этого

k
 k 
 n
ϕ(xi )  sij ϕ(yj ) 
i=1 i=1 j=1

k−1
 k   k
  
 sij ϕ(yj ) + 1 − sij ϕ(yk ) 
j=1 i=1 i=1

k k−1
 k
k
   
 ϕ(yj ) + 1− sij (ϕ(yk ) − ϕ(yj )) ϕ(yj ). 
j=1 j=1 i=1 j=1

Пусть теперь A — невырожденная матрица с сингулярными числа-


ми σ1  . . .  σn и собственными значениями λ1 , . . . , λn , упорядоченны-
ми по неубыванию модуля. Положим xi = ln |λi | и yi = ln σi . Тогда из
неравенств Вейля вытекает, что x ≺ y . Возьмем, например, функцию
ϕ(t) = et . В силу того что она является выпуклой и монотонно возрас-
тающей, получаем неравенства

|λ1 | + . . . + |λk |  σ1 + . . . + σk , 1  k  n.
Дополнение к л е к ц и и 38

D 38.1. Число итераций


В методе сопряженных градиентов xk ∈ x0 + Lk , но xk ∈ / x0 +
+ Lk−1 . Значит, xk − x0 является линейной комбинацией векто-
ров r0 , Ar0 , . . . , Ak−1 r0 с ненyлевым коэффициентом при Ak−1 r0
⇒ xk = x0 + ψk−1 (A)r0 , где ϕk−1 (λ) — многочлен степени k − 1.
Отсюда rk = r0 − Aψk−1 (A)r0 ⇒
rk = ϕk (A)r0 , deg ϕk (λ) = k , ϕk (0) = 1.
Утверждение. Если A — эрмитова положительно определен-
ная матрица, имеющая m попарно различных собственных
значений, то число итераций в методе сопряженных градиен-
тов при любом начальном векторе не больше m.
Доказательство. Достаточно учесть, что степень минимального
многочлена для эрмитовой матрицы A не больше m. 

D 38.2. Как убывают нормы невязок


Теоретически метод сопряженных градиентов требует не бо-
лее n шагов для получения точного решения. Практически норма
k -й невязки может оказаться достаточно малой при k  n. По-
лучение оценок основано на следующем результате.
Лемма об оценке норм невязок. Пусть λmin и λmax — ми-
нимальное и максимальное собственные значения эрмитовой
положительно определенной матрицы A. Тогда k -я невязка
в методе сопряженных градиентов при любом начальном век-
торе удовлетворяет неравенству
4
λmax
||rk ||2  max |Φk (λ)| ||r0 ||2 ,
λmin λmin λλmax
где Φk (λ) — любой многочлен степени не выше k , подчиненный
условию Φk (0) = 1.
Доказательство. В методе сопряженных градиентов
||x − xk ||A = min ||x − (x0 + y)||A .
y∈Lk
D 38.3. Оценка с помощью многочленов Чебышёва 449

Произвольный вектор y ∈ Lk имеет вид y = Ψk−1 (A)r0 , где


Ψk−1 (λ) — многочлен степени k − 1 или ниже ⇒ A(x − (x0 +
+ y)) = r0 − Ay = Φk (A)r0 , где Φk (λ) — многочлен степени не
выше k со свободным членом Φk (0) = 1. Таким образом,
||x − xk ||A = ||A−1 rk ||A  ||A−1 Φk (A)r0 ||A .
Пусть λ1  . . .  λn > 0 — собственные значения матрицы A
и q1 , . . . , qn — ортонормированный базис из собственных векто-
ров:
λ 0

1

AQ = QΛ, Q = [q1 , . . . , qn ], Λ= .. .
.
0 λn

n 
n
|ζi |2 ||rk ||22
−1
rk = ζi qi ⇒ ||A rk ||2A =  ,
λi λ1
i=1 i=1

n 
n
|Φk (λi )|2 |ξi |2
−1
r0 = ξi qi ⇒ ||A Φk (A)r0 ||2A = 
λi
i=1 i=1
1
 max |Φ (λ)|2 ||r0 ||22 . 
λn λmin λλmax k

D 38.3. Оценка с помощью многочленов Чебышёва


Таким образом, оценки для нормы k -й невязки можно полу-
чать с помощью многочленов. При этом нас интересует величина,
уже известная нам как C -норма в пространстве непрерывных
функций на отрезке [λmin , λmax ]:
||Φk ||C = min |Φk (λ)|.
λmin λλmax
Как выбрать многочлен Φk (λ) с условием нормировки Φk (0) = 1
и наименьшей C -нормой на отрезке [λmin , λmax ]? Решение этой
задачи дают многочлены Чебышёва.
Многочлены Чебышева для отрезка [−1, 1] определяются сле-
дующим образом:
T0 (t) = 1, T1 (t) = t, Tn+1 (t) = 2tTn (t) − Tn−1 (t), n = 1, 2, . . .
Элементарно проверяется, что Tn (t) = cos(n arccos t) при
−1  t  1. Чтобы найти представление для Tn (t) при |t| > 1,
рассмотрим однородное реккуррентное уравнение
zn+1 − 2tzn + zn−1 = 0
и попробуем искать его решение в виде zn = z n , z = 0. Тогда
!
z 2 − 2tz + 1 = 0 ⇒ z(±) = t ± t2 − 1 .
15 Е. Е. Тыртышников
450 Дополнение к лекции 38

n + c zn
Ясно, что zn = c1 z(+) 2 (−) будет решением данного рекур-
рентного уравнения при любых константах c1 , c2 . Выберем их
так, чтобы z0 = T0 (t), z1 = T1 (t). В итоге получаем
1 ! 1 !
Tn (t) = (t + t2 − 1 )n + (t − t2 − 1 )n .
2 2
В случае многочленов от λ ∈ [λmin , λmax ] сделаем замену
переменной
λ +λ
λmax + λmin λmax − λmin λ − max min

λ= +t ⇔ t = λ −λ 2 .
2 2 max min
2
Положим
⎛ λmax + λmin

λ−
Tk ⎝ 2
λmax − λmin

Φk (λ) = 2
λmax + λmin
⇒ max |Φk (λ)| 
Tk (− ) λmin λλmax
λmax − λmin
1

λmax + λmin
.
Tk −
λmax − λmin
Далее,
λmax + λmin !
|t| = ⇒ |t| + t2 − 1 =
λmax − λmin
! ! ! !
λmax + λmin + 2 λmax λmin λmax + λmin
= =! ! .
λmax − λmin λmax − λmin
При этом t находим
! ! k
1 λmax + λmin
|Tk (t)|  ! ! .
2 λmax − λmin
Отсюда, согласно лемме об оценке норм невязок метода сопря-
женных градиентов, получается следующая
Теорема. В условиях леммы об оценке норм невязок метода
сопряженных градиентов справедливы неравенства
4 ! ! k
λmax λmax − λmin
||rk ||2  2 ! ! ||r0 ||2 , k = 1, 2, . . .
λmin λmax + λmin
D 38.4. Предобусловленный метод сопряженных градиентов 451

D 38.4. Предобусловленный метод сопряженных


градиентов
Полученная теорема показывает, что нормы невязок в методе
сопряженных градиентов убывают тем сильнее, чем меньше от-
ношение λmax /λmin . Если это отношение велико, то можно попы-
таться найти «близкую» эрмитову положительно определенную
матрицу B и решать равносильную предобусловленную систему
B −1 Ax = B −1 b.
Проблема, однако, в том, что мы получили метод сопряжен-
ных градиентов для решения систем с эрмитовой положительно
определенной матрицей, а произведение B −1 A в общем случае не
будет эрмитовой матрицей. Тем не менее справедливо следующее
Утверждение. Пусть A и B — эрмитовы положительно опре-
деленные матрицы. Тогда оператор умножения на матри-
цу B −1 A является самосопряженным положительно опреде-
ленным оператором относительно скалярного произведения
(x, y)B = (Bx, y).
Доказательство. (B −1Ax, y)B =(Ax, y)=(x, Ay)=(x, B(B −1A)y) =
= (Bx, B −1 Ay)=(x, B −1 Ay)B . Положительная определенность
очевидна: (B −1 Ax, x)B = (Ax, x) > 0 при x = 0. 
Теперь мы можем повторить все рассуждения и выкладки,
приведшие к двучленным формулам метода сопряженных гра-
диентов, с заменой естественного скалярного произведения на
(· , ·)B :
rk−1 , rk−1 )B
( (Brk−1 , rk−1 )
k = x
x k−1 + αk pk , αk = −1
= ,
(B A pk , pk )B (Apk , pk )
rk = rk−1 − αk B −1 A
pk ,
rk , rk )B
( (Brk , rk )
pk+1 = rk + βk pk , βk = = .
rk−1 , rk−1 )B
( (Brk−1 , rk−1 )
Заметим, что rk = B −1 (b − A
xk ) — это невязка предобусловлен-
ной системы. Соответствующая невязка исходной системы имеет
вид rk = B rk . Предобусловленный метод сопряженных гради-
ентов, вычисляющий «настоящие» невязки rk и те же векторы
k и pk = pk , принимает такую форму:
xk = x
r0 = b − Ax0 , p1 = B −1 r0 ;
(B −1 rk−1 , rk−1 )
xk = xk−1 + αk pk , αk = ,
(Apk , pk )
rk = rk−1 − αk Apk ,
15*
452 Дополнение к лекции 38

(B −1 rk , rk )
pk+1 = B −1 rk + βk pk , βk = .
(B −1 rk−1 , rk−1 )

D 38.5. Обобщения метода сопряженных градиентов


В случае «больших» неэрмитовых матриц основным является метод
минимизации нормы невязки на подпространствах Крылова. В от-
личие от метода сопряженных градиентов, в данном случае в под-
пространствах Крылова требуется строить и хранить полные базисы.
Существуют ли методы с «короткими» рекуррентными соотношениями
в неэрмитовом случае?
Прежде всего уточним вопрос. Пусть Ax = b — система с невырож-
денной и в общем случае неэрмитовой матрицей. Выбрав начальный
вектор x0 , находим начальную невязку r0 , в случае r0 = 0 полагаем
p1 = r0 и последовательно дополняем базис p1 , . . . , pk в пространствах
Крылова:
Lk = L(r0 , Ar0 , . . . , Ak−1 r0 ) = L(p1 , . . . , pk ),
причем таким образом, чтобы векторы удовлетворяли условиям фор-
мальной A-ортогональности
(Api , pj ) = 0, i = j , 1  i, j  k; (Api , pi ) = 0, 1  i  k.
Как только получено пространство Lk , ищем xk в виде xk = x0 + y , y ∈
∈ Lk . При этом откажемся от минимизации невязки rk = b − Axk
в какой-либо норме и будем определять y проекционным условием
rk ⊥ Lk .
Из сказанного вытекает, что
xk = xk−1 + αk pk , rk = rk−1 − αk Apk ,
где αk определяется проекционным условием.
Если rk = 0, то решение уже найдено. Если rk = 0, то ищем pk+1
в виде
pk+1 = rk + γ1k p1 + . . . + γkk pk ⇒ γjk = −(rk , A∗ pj )/(Apj , pj ).
Таким образом, если у нас есть формально A-ортогональный ба-
зис p1 , . . . , pk в Lk , то мы можем найти вектор pk+1 такой, что
(Apk+1 , pj ) = 0, 1  j  k.
В отличие от случая положительно определенной матрицы, теперь,
однако, ниоткуда не следует, что (Apk+1 , pk+1 ) = 0. Это свойство
отнесем к основным предположениям; в частности, мы предполагаем,
что (Ar0 , r0 ) = 0. Если невязки r0 , r1 , . . . , rk−1 ненулевые и формально
A-ортогональный базис p1 , . . . , pk в Lk построен, то будем говорить,
что процесс не обрывается на k-м шаге. Если при этом rk = 0, то
будем говорить, что процесс успешно завершается на k-м шаге.
D 38.5. Обобщения метода сопряженных градиентов 453

Лемма 1. Если процесс не обрывается на k-м шаге то невязки r0 , . . .


. . . , rk−1 образуют ортогональный базис в Lk .
Доказательство. Действительно, rj ∈ Lj+1 ⊂ Lk при 0  j  k − 1 и,
в силу проекционного условия, rj ⊥ r0 , . . . , rj−1 . 
Вопрос о «коротких» рекуррентных соотношениях поставим следу-
ющим образом. 1) Пусть фиксировано 1  s  n − 1, и предположим,
что всякий раз, когда процесс не обрывается на k-м шаге, имеют место
равенства
γjk = (rk , A∗ pj ) = 0 при 1  j  k − s. (1)
Это означает, что pk+1 выражается через s последних векторов базиса:
k

pk+1 = rk + γjk pj .
j=k−s+1

Какими свойствами при этом должна обладать матрица A?


Рассмотрим такие матрицы, для которых A∗ есть многочлен от A
вида
s−1

A∗ = aj A j . (2)
j=0

Лемма 2. Пусть имеет место (2). Тогда для любой начальной невяз-
ки r0 = 0, не дающей обрыва процесса на k-м шаге, выполняются
равенства (1).
Доказательство. В силу (2) A∗ pj есть линейная комбинация векторов
p1 , . . . , pj+s . Согласно проекционному условию rk ⊥ p1 , . . . , pj+s при
j + s  k ⇒ (1). 
Лемма 3. Предположим, что начальная невязка r0 = 0 такова, что
процесс не обрывается на n-м шаге и при этом выполняются равен-
ства (1) для всех 1  k  n. Тогда для некоторых чисел αj = αj (r0 )
имеет место соотношение
s−1


A r0 = αj Aj r0 .
j=0

1)
Данный вопрос усиленно дискутировался в конце 1970-х годов. Простое
и ясное решение, которое мы здесь излагаем, основано на идеях статьи: Вое-
водин В.В., Тыртышников Е.Е. Об обобщении методов сопряженных направ-
лений // Численные методы алгебры. Изд-во Московского университета, 1981,
C. 3–9. В 2005 г. Йорг Лиезен и Пoль Сэйлор заметили, что использованное
в этой статье дополнительное ограничение на порядок матрицы легко снима-
ется (Liesen J., Saylor P. E. Orthogonal Hessenberg reduction and orthogonal
Krylov subspace bases, SIAM J. Numer. Anal., V. 42, № 5. P. 2148–2158, 2005).
Заметим, что другое, причем весьма сложное, доказательство необходимости
условия (2) было опубликовано в 1984 г. Фабером и Мантефелем (Faber V.,
Manteuffel T. Necessary and sufficient conditions for the existence of a conjugate
gradient method. SIAM J. Numer. Anal., V. 21, № 2. P. 352–362, 1984).
454 Дополнение к лекции 38

Доказательство. То, что процесс не обрывается на n-м шаге, означает


ортогональность невязок r0 , . . . , rn−1 и линейную независимость векто-
ров r0 , Ar0 , . . . , An−1 r0 . Равенства (Ark , pj ) = 0 при 1  j  k − s озна-
чают, что (Ark , rj ) = 0 при 0  j  k − s − 1. Следовательно, A∗ r0 ⊥ rk
при k  s − 1 ⇒ A∗ r0 есть линейная комбинация векторов r0 , . . . , rs−2
⇒ A∗ r0 есть линейная комбинация векторов r0 , Ar0 , . . . , As−1 r0 . 
Теорема. Пусть 1  s < n и матрица A такова, что хотя бы
для одной начальной невязки r0 = 0 процесс не обрывается на n-м
шаге. Тогда для всех начальных невязок с тем же свойством для
выполнения условия (1) необходимо и достаточно, чтобы матрица
A удовлетворяла соотношению (2).
Доказательство. Достаточность получена в лемме 2, поэтому перей-
дем сразу к доказательству необходимости. Линейная независимость
векторов r0 , Ar0 , . . . , An−1 r0 означает, что степень минимального мно-
гочлена матрицы A равна n ⇒ для каждого собственного значения
имеется ровно одна жорданова клетка. Пусть x = r0 и y = Ar0 . Ясно,
что в случае начальной невязки, равной x или y , процесс не обрывается
на n-м шаге. Более того, для начальной невязки вида x + γy процесс
может обрываться ранее n-го шага лишь для какого-то конечного числа
значений γ (не более числа жордановых клеток для A). Согласно лемме
3, имеем
s−1
 s−1

A∗ x = αj Aj x, A∗ y = βj A j y ,
j=0 j=0

s−1

A∗ (x + γy) = ϕj Aj (x + γy).
j=0

Отсюда, с учетом равенства y = Ax,

s−1

α0 x + (αj + γβj−1 )Aj x + βs−1 As x =
j=1

s−1

= ϕ0 x + (ϕj + γϕj−1 )Aj x + ϕs−1 As x ⇒ ϕ0 = α0 ;
j=1

ϕj + γϕj−1 = αj + γβj−1 , 1  j  s − 1; ϕs−1 = βs−1 .

Вычтем из второго равенства первое, умноженное на γ : ϕ1 = α1 +


+ γ(β0 − α0 ). Это равенство умножим на γ и вычтем из третьего
D 38.5. Обобщения метода сопряженных градиентов 455

равенства: ϕ2 = α2 + γ(β1 − α1 ) − γ 2 (β0 − α0 ). И т. д. В итоге получаем

ϕs−1 = βs−1 = αs−1 + γ(βs−2 − αs−2 ) − γ 2 (βs−3 − αs−3 ) + . . .


s−2

. . . + (−1)s γ s−2 (β0 − α0 ) ⇒ γ s−2−j (βj − αj )(−1)s−j = 0.
j=0

Последнее сооотношение должно выполняться для бесконечного числа


значений γ ⇒ αj = βj для всех 0  j  s − 1. Следовательно, равенство
s−1

A∗ z = αj Aj z
j=0

выполняется с одними и теми же числами αj для каждого из векторов


z = x, Ax, . . . , An−1 x, образующих базис в Cn . Поэтому получаем
матричное равенство (2), в котором aj = αj . 
Дополнение к л е к ц и и 39

D 39.1. Локализация собственных значений


Пусть A = [aij ] ∈ Cn×n . Если Ax = λx, x = 0, то ||Ax|| =
= ||λx||  ||A||||x|| ⇒ |λ|  ||A||. Полученное неравенство спра-
ведливо при использовании любой матричной нормы.
Чтобы получить более детальную локализацию собственных
значений матрицы A, рассмотрим на комплексной плоскости так
называемые круги Гершгорина

Di (A) = {z ∈ C : |z − aii |  |aij |}, 1  i  n.
1j n, j=i
Первая теорема Гершгорина. Любое собственное значение
матрицы A ∈ Cn×n принадлежит объединению кругов Герш-
горина для A и одновременно объединению кругов Гершгорина
для A . 
Доказательство. Предположим, что |aii − λ| > |aij |,
1j n,j=i
1  i  n. Это означает, что A − λI является матрицей с диа-
гональным преобладанием по строкам и поэтому  обратима
(см. п. D6.1). Значит, никакое комплексное число λ ∈
/ Di (A)
1in
не может быть собственным значением для A. 
Вторая теорема Гершгорина. Предположим, что объединение
k кругов Гершгорина D = Di1 ∪ . . . ∪ Dik для матрицы A не
имеет общих точек с остальными кругами Гершгорина. Тогда
D содержит ровно k собственных значений матрицы A.
Доказательство. Обозначим через B = [bij ] диагональную мат-
рицу порядка n с элементами bii = aii и рассмотрим семей-
ство матриц A(t) = At + (1 − t)B при 0  t  1. Очевидно, что
A(0) = B и A(1) = A. Обозначим через λ(t) = [λ1 (t), . . . , λn (t)]
вектор-столбец, составленный из собственных значений матри-
цы A(t), и через ν(t) — число компонент λ(t), принадлежа-
щих D. Зафиксируем t0 . Тогда при всех t, достаточно близких
к t0 , должно быть ν(t) = ν(t0 ). Если это не так, то существует
D 39.2. Расстояние между спектрами нормальных матриц 457

последовательность tm , сходящаяся к t0 при m → ∞ и такая, что


для любой матрицы перестановки P
ρ1 (λ(tm ), λ(t0 ))  ||λ(t0 ) − P λ(tm )||1  d ≡ inf  |u − v|,
u∈D, v∈D
где D — объединение кругов Гершгорина, не входящих в D.
Данное неравенство противоречит теореме о непрерывной зави-
симости корней многочлена от коэффициентов (а значит, и соб-
ственных значений матрицы от ее элементов). Таким образом,
функция ν(t) непрерывна по t и принимает целочисленные зна-
чения ⇒ ν(t) — константа. При этом ν(0) = k ⇒ ν(t) = k для
всех 0  t  1. 
Отметим еще одно простое утверждение, приводящее к серии
результатов по локализации собственных значений при возмуще-
ниях заданной матрицы.
Теорема Бауэра–Файка. Если μ является собственным зна-
чением матрицы B = A + F , но не является собственным
значением матрицы A, то 1/||(A − μI)−1 ||2  ||F ||2 .
Доказательство. Матрица B − μI = (A − μI) + F вырож-
денная ⇒ матрица I + (A − μI)−1 F вырожденная ⇒ ||(A −
− μI)−1 ||2 ||F ||2  ||(A − μI)−1 F ||2  1. 
Следствие. Пусть A — диагонализуемая матрица,
и предположим, что AX = XΛ, где X — матрица из соб-
ственных векторов, Λ — диагональная матрица собственных
значений λ1 , . . . , λn матрицы A. Тогда собственные значения
матрицы B = A + F принадлежат объединению кругов вида
Ki = {z ∈ C : |z − λi |  ||X||2 ||X −1 ||2 ||F ||2 }, 1  i  n.

Доказательство. Пусть μ — собственное значение для B , но не


для A. Тогда μ есть собственное значение для Λ + X −1 F X , но
не для Λ. Остается применить теорему Бауэра–Файка. 

D 39.2. Расстояние между спектрами нормальных


матриц
Теорема Виландта–Хоффмана. Пусть A и B — нормальные матри-
цы с собственными значениями λ1 (A), . . . , λn (A) и λ1 (B), . . . , λn (B).
Тогда для некоторой подстановки σ : {1, . . . , n} → {1, . . . , n}
n

|λi (A) − λσ(i) (B)|2  ||A − B||2F .
i=1

Доказательство. Запишем: A = QΦQ∗ , B = ZΨZ ∗ , где Q, Z — уни-


тарные матрицы, а Φ и Ψ — диагональные матрицы из собственных
458 Дополнение к лекции 39

значений ϕi = λi (A) и ψi = λi (B). В силу унитарной инвариантности


нормы Фробениуса, ||A − B||F = ||Φ − V ΨV ∗ ||F , где V = Q∗ Z — уни-
тарная матрица. Далее,

||Φ − V ΨV ∗ ||2F = tr(Φ∗ − V Ψ∗ V ∗ )(Φ − V ΨV ∗ ) =


= tr(Φ∗ Φ) + tr(Ψ∗ Ψ) − 2Re (tr(Φ∗ V )(ΨV ∗ )) =
n
 n
 n 
 n
= |ϕi | +
2
|ψi | − 2
2
αij sij ,
i=1 i=1 i=1 j=1

αij = Re(ϕi ψj ), sij = |vij |2 .

Легко проверить, что матрица S = [sij ] является двоякостохастиче-


ской (см. п. D37.3). Поэтому при фиксированных вещественных числах
αij функционал
n 
 n
f (S) = αij sij
i=1 j=1

можно рассматривать как линейный функционал на множестве дво-


якостохастических матриц. Это замкнутое ограниченное выпуклое
множество ⇒ максимум линейного функционала на нем достигается
в какой-то угловой точке (см. п. D26.1). Нетрудно убедиться в том, что
угловыми точками множества двоякостохастических матриц являются
матрицы перестановок и только они ⇒ для некоторой матрицы пере-
становки P и соответствующей ей подстановке σ

n
 n

max f (s)  f (P ) = αi σ(i) = Re (ϕi ψσ(i) ) ⇒ ||A − B||2F 
S
i=1 i=1
n
 n
& ' 
 |ϕi |2 + |ψσ(i) |2 − 2Re (ϕi ψσ(i) ) = |ϕi − ψσ(i) |2 . 
i=1 i=1

Замечание. Теорема о непрерывной зависимости корней многочле-


на от коэффициентов в данном доказательстве не использовалась.
Поэтому теорема Виландта–Хоффмана дает еще одно доказательство
факта непрерывной зависимости собственных значений матрицы от ее
коэффициентов для специального класса матриц — для нормальных
матриц.
D 39.2. Расстояние между спектрами нормальных матриц 459

Следствие. Пусть A и B — эрмитовы матрицы с собственными


значениями λ1 (A)  . . .  λn (A) и λ1 (B)  . . .  λn (B). Тогда
n

(λi (A) − λi (B))2  ||A − B||2F .
i=1

Доказательство. Пусть ϕi = λi (A) и ψi = λi (B). Достаточно заме-


тить, что если ϕσ(i1 ) < ϕσ(i2 ) при i1 < i2 , то

(ϕi1 − ψσ(i1 ) )2 + (ϕi2 − ψσ(i2 ) )2  (ϕi1 − ψσ(i2 ) )2 + (ϕi2 − ψσ(i1 ) )2 . 


Дополнение к л е к ц и и 40

D 40.1. Преобразования массивов с помощью матриц


После обсуждения проблем и трудностей, связанных с мно-
гомерными массивами, особенно приятно закончить тему одним
«положительным» результатом, легко получаемым с помощью
изученной нами матричной техники. Речь идет о так называемом
разложении Таккера — о нем нередко говорят как о многомер-
ном обобщении сингулярного разложения.
Формулировка результата требует небольшой подготовки.
Пусть X = [xijk ] — трехмерный массив размеров n1 × n2 × n3 ,
и пусть P = [pi i ], Q = [qj  j ], R = [rk k ] — матрицы размеров
n1 × n1 , n2 × n2 , n3 × n3 соответственно. Определим новый трех-
мерный массив X  = [xi j  k ] следующим образом:

n1 
n2 
n3
xi j  k = pi i qj  j rk k xijk .
i=1 j=1 k=1
Обозначение: X
= X  {P , Q, R}. Кроме того, по определению
X 1 P = X  {P , In2 ×n2 , In3 ×n3 },
X 2 Q = X  {In1 ×n1 , Q, In3 ×n3 },
X 3 R = X  {In1 ×n1 , In2 ×n2 , R}.
Согласно данным определениям
X  = X  {P , Q, R} = ((X 1 P ) 2 Q) 3 R =
= ((X 2 Q) 3 R) 1 P = ((X 3 R) 1 P ) 2 Q =
= ((X 3 R) 2 Q) 1 P = ((X 2 Q) 1 P ) 3 R =
= ((X 1 P ) 3 R) 2 Q.

D 40.2. Ортогональные преобразования массивов


Обозначим через X1 , X2 , X3 и X1 , X2 , X3 матрицы
сечений массивов X и X  по осям i, j , k . Тогда легко проверяется,
D 40.3. Разложение Таккера 461

что
X  = X 1 P ⇔ X1 = P X1 ,
X  = X 2 Q ⇔ X2 = QX2 ,
X  = X 3 R ⇔ X3 = RX3 .
Лемма. Пусть матрицы P , Q, R ортогональные. Тогда ес-
ли X  = (X 1 P ) 2 Q, то скалярные произведения строк
с одинаковыми номерами в матрицах X3 и X3 одинако-
вы. Аналогично, если X  = (X 1 P ) 3 R, то одинаковы
скалярные произведения строк в матрицах X2 и X2 ; если
X  = (X 2 Q) 3 R, то одинаковы скалярные произведения
строк в матрицах X1 и X1 .
Доказательство. Пусть X  = (X 1 P ) 2 Q. Это означает, что

n1 
n2
xi j  k = pi i qj  j xijk .
i=1 j=1
Рассмотрим скалярные произведения строк матрицы X3 с номе-
рами k1 и k2 :

xi j  k1 xi j  k2 =
i j
 
  
= pi i1 qj  j1 xi1 j1 k1 pi i2 qj  j2 xi2 j2 k2 =
i j i1 j1 i2 j2
 
  
= pi i1 pi i2 qj  j1 qj  j2 xi1 j1 k1 xi2 j2 k2 =
i1 j1 i2 j2 i j
 
= δi1 i2 δj1 j2 xi1 j1 k1 xi2 j2 k2 = xi1 j1 k1 xi1 j1 k2 .
i1 j1 i2 j2 i1 j1
Здесь мы использовали так называемый символ Кронекера:

0, α = β ,
δαβ = 1, α = β.
Получено первое утверждение леммы. Остальные два утвержде-
ния устанавливаются аналогичным образом. 

D 40.3. Разложение Таккера


Теорема. Для любого трехмерного массива X = [xijk ] размеров
n1 × n2 × n3 существуют ортогональные матрицы P , Q, R
462 Дополнение к лекции 40

такие, что трехмерный массив


S = [sijk ] ≡ X  {P , Q, R}
обладает следующими свойствами:
1) каждая из трех матриц сечений для S имеет попарно
ортогональные
 2  строки;
2) s1jk  s22jk  . . .  s2n1 jk ;

j ,k

j ,k
j ,k
3) s2i1k  s2i2k  . . .  s2in2 k ;

i,k 
i,k 
i,k
4) s2ij 1  s2ij 2  . . .  s2ijn3 .
i,j i,j i,j
Доказательство. Обозначим через X1 , X2 , X3 матрицы се-
чений массива X по осям i, j , k и рассмотрим их сингулярные
разложения:
X1 = P  Σ1 V1 , X2 = Q Σ2 V2 , X3 = R Σ3 V3 ,
где матрицы P , Q, R, V1 , V2 , V3 ортогональные, а Σ1 , Σ2 , Σ3 —
диагональные прямоугольные матрицы, в которых сингулярные
числа занумерованы по невозрастанию. Отсюда вытекает, что
в каждой из преобразованных матриц сечений
X1 1 P = Σ1 V1 , X2 2 Q = Σ2 V2 , X3 3 R = Σ3 V3
строки попарно ортогональны и расположены в порядке невоз-
растания их длин.
Далее, согласно доказанной выше лемме, скалярные про-
изведения строк в матрице сечений по оси i для массива
S = X  {P , Q, R} те же самые, что и в матрице сечений по той
же оси для массива X 1 P . То же верно в отношении скалярных
произведений строк для матриц сечений по оси j для массивов S
и X 2 Q, а также и для матриц сечений по оси k для массивов
S и X 3 R. Тем самым доказаны свойства (1)–(4). 
Разложение
X = S  {P  , Q , R }
с указанными свойствами (1)–(4) называется разложением Так-
кера. Корни квадратные из сумм в (2)–(4) суть сингулярные
числа матриц сечений массива X по осям i, j , k соответственно.
Важное практическое значение разложения Таккера заклю-
чается в том, что оно дает надежную базу для построения
приближений массива X суммами с малым числом членов с раз-
делением индексов i, j , k : для этого достаточно заменить строки
с относительно малыми длинами на нули. Полученная от такой
замены погрешность легко оценивается.
D 40.3. Разложение Таккера 463

В задачах о вычислении аппроксимаций малого тензорного


ранга разложение Таккера часто используется, чтобы получить
начальное приближение.
Заметим, что разложение Таккера может быть построено
с помощью матричных методов вычисления сингулярного разло-
жения. В принципе, аналогичные построения можно выполнить
и на основе каких-либо методов аппроксимации с понижением
ранга, применяемых к матрицам сечений массива X .
Несмотря на то что мы ограничились обсуждением трехмер-
ных массивов, разложение Таккера легко переносится и на слу-
чай произвольных многомерных массивов. То же можно сказать
и о других построениях данной лекции, в частности о фак-
те единственности полилинейных аппроксимаций с точностью
до эквивалентности.
Литература

1. Бахвалов С. В., Моденов П. С., Пархоменко А. С. Сборник


задач по аналитической геометрии. — М.: Наука, 1964.
2. Ван дер Варден Б. Л. Алгебра. — М.: Наука, 1976.
3. Винберг Э. Б. Курс алгебры. — М.: Факториал Пресс, 2002.
4. Воеводин В. В. Численные методы алгебры (теория и алго-
рифмы). — М.: Наука, 1966.
5. Воеводин В. В. Линейная алгебра. — М.: Наука, 1980.
6. Воеводин В. В. Вычислительные основы линейной алгеб-
ры. — М.: Наука, 1977.
7. Воеводин В. В., Тыртышников Е. Е. Вычислительные про-
цессы с теплицевыми матрицами. — М.: Наука, 1987.
8. Гантмахер Ф. Р. Теория матриц. — М.: Физматлит, 1967.
9. Годунов С. К. Современные аспекты линейной алгебры. —
Новосибирск: Научная книга, 1997.
10. Голуб Дж., Ван Лоун Ч. Матричные вычисления. —
М.: Мир, 1999.
11. Икрамов Х. Д. Задачник по линейной алгебре. — М.: Нау-
ка, 1975.
12. Икрамов Х. Д. Численное решение матричных уравне-
ний. — M.: Наука, 1984.
13. Икрамов Х. Д. Численные методы для симметричных ли-
нейных систем. — M.: Наука, 1988.
14. Икрамов Х. Д. Несимметричная проблема собственных зна-
чений — M.: Наука, 1991.
15. Ильин В. А., Поздняк Э. Г. Аналитическая геометрия. —
М.: Наука, 1981.
16. Ильин В. А., Ким Г. Д. Линейная алгебра и аналитическая
геометрия. — М.: Изд-во МГУ, 1998.
17. Ким Г. Д., Крицков Л. В. Алгебра и аналитическая геомет-
рия: Теоремы и задачи. — М.: Зерцало, 2002 (Т. I), 2003
(Т. II).
18. Карманов В. Г. Математическое программирование. —
М.: Наука, 1975.
19. Кострикин А. И. Введение в алгебру. — М.: Наука, 1977.
20. Кострикин А. И. (ред.) Сборник задач по алгебре. —
М.: Наука, 1987.
Литература 465

21. Курош А. Г. Курс высшей алгебры. — М.: Наука,1971.


22. Постников М. М. Линейная алгебра и дифференциальная
геометрия. — М.: Наука, 1979.
23. Постников М. М. Основы теории Галуа. — М.: Физматлит,
1960.
24. Прасолов В. В. Многочлены. — М.: МЦНМО, 2001.
25. Проскуряков И. В. Сборник задач по линейной алгебре. —
М.: Наука, 1984.
26. Стрэнг Г. Линейная алгебра и ее применения. — М.: Мир,
1980.
27. Тыртышников Е. Е. Теплицевы матрицы, некоторые их
аналоги и приложения. — М.: Отдел вычислительной мате-
матики АН СССР, 1989.
28. Тыртышников Е. Е. Краткий курс численного анализа. —
М.: ВИНИТИ, 1994.
29. Уилкинсон Дж. Х. Алгебраическая проблема собственных
значений. — М.: Физматлит, 1970.
30. Фаддеев Д. К. Лекции по алгебре. — М.: Наука, 1984.
31. Фаддеев Д. К., Фаддеева В. Н. Вычислительные методы
линейной алгебры. — М.-Л.: Физматлит, 1963.
32. Дж. Форсайт, М. Малькольм, К. Молер Машинные мето-
ды математических вычислений. — М.: Мир, 1980.
33. Халмош П. Конечномерные векторные пространства. —
М.: Физматлит, 1963.
34. Хорн Р., Джонсон Ч. Матричный анализ. — М.: Мир, 1989.
35. Шафаревич И. Р. Основные понятия алгебры. — Ижевск:
РХД, 2001.
36. Bhatia R. Matrix Analysis. — N.Y.: Springer–Verlag, 1996.
37. Stewart G. W., Sun J. Matrix Perturbation Theory. — San
Diego: Academic Press, 1990.
Предметный указатель

Алгебра 297 линейная оболочка 38


коммутативная линейно зависимая система
одновременное приведение к 38
треугольному виду 298 линейно независимая система
39
Алгебраическое многообразие направленный отрезок 86
170 норма 195
нормаль 105
нулевой 38
Альтернатива Фредгольма 253 ортогональные векторы 215
параллельный перенос 87
Алгоритм противоположный 109
Винограда 27 радиус-вектор 86
Евклида 153 размерность линейной обо-
параллельная форма алгорит- лочки 41
ма 354 свободный 89
Штрассена 27 352 собственный 255
угол между векторами 215
Аппроксимации матриц с пони-
жением ранга 308, 436
Выпуклое множество 130, 419
выпуклое тело 233
Аффинно независимая система
выпуклый конус 234
точек 373
выпуклый многогранник 374
разделение выпуклых мно-
Базис 41 жеств 234

Вектор 37
база 41 Вычет 89
базис 41
векторное пространство 109
внешнее произведение 67 Гипербола 177
высота вектора 276 асимптоты 177
длина вектора 212 директрисы 178
коллинеарные векторы 92 касательная 179
компланарные векторы 92 фокусы 178
линейная комбинация 37 эксцентриситет 178
Предметный указатель 467

Гиперплоскость 128, 231 Жорданова форма 277, 283


опорная 232 вещественный аналог 282
пересечение гиперплоскостей доказательство по индукции
129, 412 430
жорданов базис 279
Гиперповерхность второго по- жорданова цепочка векторов
рядка 438 277
приведенные уравнения 439
хорда 440 Закон инерции 312
центр симметрии 440

Индекс
Группа 33
собственного значения 278
абелева 33
нильпотентности 272
Галуа 400
гомоморфизм 359
единичный элемент 33 Интерполяционная формула
знакопеременная 361 Лагранжа 428
изоморфизм 358
конечная 45, 357
корней из единицы 138 Исключение элементов
мультипликативная группа выбор ведущего элемента 369
поля вычетов 379 метод Гаусса 82
невырожденных диагональ- приведение к почти треуголь-
ных матриц 34 ному виду 341
невырожденных треугольных приведение к двухдиагональ-
матриц 35 ному виду 341
нормальная подгруппа 358 с помощью вращений 340
нормальный делитель 358 с помощью отражений 340
обратный элемент 33
подгруппа 35 Квадратичная форма 310
порядок группы 45 инерция 312
примарная 404 канонический вид 311, 313
симметрическая 45 приведение к главным осям
смежные классы 358 311
сопряженные элементы 88
транзитивная 403
фактор-группа Квадратный корень 291
централизатор элемента 405
циклическая 36
Коды Хэмминга 143

Дефект 250, 281


Кольцо 140
вычетов 142
Дефляция 269 делители нуля 141
коммутативное 141
Дискриминант 376 многочленов 151
468 Предметный указатель

с единицей 141 Критерий


неотрицательной определен-
Компактность ности 325
единичной сферы 205, 411 положительной определенно-
в метрическом пространстве сти (Сильвестра) 318
204
в топологическом простран-
Лексикографическое упорядоче-
стве 414
ние 166

Комплексное число 132


аргумент 134 Лемма
вещественная и мнимая части Гаусса 385
133 Даламбера 160
гомотетия 135 о дополнении до ортогональ-
движение 136 ного базиса 224
комплексная плоскость 133 о минимальном инвариантном
корни из единицы 137 подпространстве 276
модуль 134 о наилучшем приближении
параллельный перенос 135 208
поворот 135 о наилучшем приближении на
сопряженное число 134 выпуклом множестве 233
тригонометрическая форма о непрерывности модуля мно-
134 гочлена 159
формула Муавра 137 об ограниченных последова-
формула Эйлера 134 тельностях 184
об оценке норм невязок 448
Координаты о росте модуля многочлена
вектора 90 160
барицентрические 97
Линейное многообразие 126
Коразмерность 231 гиперплоскость 128
размерность 126
Корень многочлена 154
кратный 162, 391
простой 162 Линейное пространство 108, 148
бесконечномерное 110
дополнительное пространство
Кратность собственного значе- 122, 230
ния изоморфизм 117
алгебраическая 258 конечномерное 111
геометрическая 264 линейно независимые подпро-
странства 121
Кривая второго порядка 171 пересечение подпространств
классификация 406 114
инварианты 407 подпространство 113
Предметный указатель 469

прямая сумма подпространств вещественная положительно


121 определенная 219
сумма подпространств 114 вращения 288
фактор-пространство 231 Грама 218
группа обратимых матриц 62
Линейный функционал 228 двоякостохастическая 131,
непрерывный 228 445
ограниченный 228 дефект 281
сопряженное пространство диагонализуемая 254
229 диагональная 34
дополнение по Шуру 84
единичная 34
Линейный оператор 236 жорданова клетка 277
дефект 250 жорданова форма матрицы
изометрический 240 278
индуцированный 265 квадратичной формы 310
матрица линейного оператора квадратная 23
245 квадратный корень 291
непрерывный 237 косоэрмитова 289
нильпотентный 272 коэффициентов 37
нормальный 330 линейного оператора 245
образ 250
модификации строк 79
обратный оператор 251
невырожденная 63
ограниченный 237
неотрицательная 267
операторная норма 237
неотрицательно определенная
положительно определенный
290
331
ранг 250 нормальная 286
самосопряженный (эрмитов) образ матрицы 112
331 обратимая 60
сопряженный 328 обратная 60, 63, 371
сохраняющий норму 240 окаймление подматрицы 69
сужение оператора 265, 271 ортогональная 182, 222
ядро 250 отражения 288
перестановки 60
перехода к другому базису
Мажоризация 445 117, 247
подматрица 55
Матрица полного ранга 76
Адамара 59, 227 положительно определенная
базисная подматрица 68 219, 291
блочная 25 порядка n 23
блочно-диагональная 273, 292 почти треугольная 259
блочно-треугольная 59, 249 присоединенная 63
Вандермонда 119 простой структуры 254
верхняя почти треугольная псевдообратная 307
259 размеров m × n 23
470 Предметный указатель

самосопряженная 219 главный 325


симметричная 219
скалярная 34
сопровождающая 260
сопряженная 139 Многочлен 118 150
сопряженного оператора 330 аннулирующий 270
строго регулярная 83 взаимно простые многочлены
ступенчатая 80 153
деление с остатком 152
с диагональным преобладани-
значение многочлена 154
ем 367
интерполяционный 427
теплицева 432
квадратичный 171 181
транспонированная 52
комплексный 157
трехдиагональная 66, 269
корень многочлена 154, 391,
треугольная 35
395
умножение матриц 24, 26
круговой 384
унитарная 222, 287
Лежандра 223
Фробениуса 260
матричный 270, 275
Фурье 294
минимальный 270, 429, 448
хессенбергова
наибольший общий делитель
циркулянтная 295 153, 385
число обусловленности 426 наилучшего равномерного
элементарная 79 приближения 208
эрмитова 219, 289 непрерывность корней много-
ядро матрицы 112 члена 337
неразложимый (неприводи-
Матрицы мый) 155, 384
конгруэнтные 311 ньютоновы суммы 169
подобные 248, 281 от матрицы 270
унитарно подобные 287 поле разложения 394
эквивалентные 81, 247 производная многочлена 391
эрмитово конгруэнтные 313 результант 380
симметрические многочлены
167
Метод сопровождающая матрица
вращений 183 261
Гаусса 82 характеристический
Качмажа 412 173, 257, 261
квадратного корня 315 Чебышёва 209, 449
Лагранжа 314 элементарные симметриче-
минимальных невязок 332 ские многочлены 165
наименьших квадратов 305
сопряженных градиентов 334,
450, 451 Множество
аффинное 127
выпуклое 130
Минор 56 выпуклое тело 233
ведущий 315 декартово произведение 31
Предметный указатель 471

замкнутое 203 Операция


компактное 204, 205, 207 алгебраическая 31
объединение 30 ассоциативная 32
ограниченное 203 частичная алгебраическая 31
ортогональное дополнение
множества 216
ортогональные множества Определитель 50
216 алгебраическое дополнение
открытое 203 59
пересечение 31 базисный минор 68
полный прообраз 31
блочно-треугольной матрицы
пустое 30
59
разность 31
Вандермонда 119
дополнительный минор 56
Невязка 305 индикатор линейной зависи-
мости 44
Неравенства Вейля 444 минор 56
объем параллелепипеда 105
Неравенство произведения матриц 64
Гёльдера 197 результант 380
Коши–Буняковского–Шварца теорема Лапласа 58
100, 212 транспонированной матрицы
Минковского 197 52
треугольника 195 функция столбцов (строк)
матрицы 53
Норма
вектора 194
Гёльдера (p-норма) 198 Ортогональность
дуальные нормы 423 A-ортогональность 333
матричная 239 векторов 215
операторная 237 множеств 216
подчиненная 237 ортонормированная система
спектральная 241, 244 222
унитарно инвариантная 241, ортогональное дополнение
437 216
Фробениуса 239 ортогональное дополнение
функционала 229 ядра 252
чебышёвская (C -норма) 200 ортогональное дополнение
эквивалентные нормы 206 образа 252
A-норма 333 ортогональная система векто-
ров 222
Оболочка ортогональная сумма подпро-
аффинная 128 странств 217
выпуклая 131 ортогональная проекция 220
линейная 38 перпендикуляр 220
472 Предметный указатель

потеря ортогональности 416 эллипсоид 190


процесс ортогонализации эллиптический конус 193
Грама–Шмидта 223 эллиптический параболоид
формальная A-ортогональ- 193
ность 452
Подматрица 55
Отношение ведущая 315
бинарное 87 главная 325
конгруэнтности 311
Рэлея 321 Подпространство
эквивалентности 88 инвариантное 249, 263, 265,
281
Отображение Крылова 332
взаимно-однозначное 31 сужение оператора на подпро-
гомотетия 135 странство 265
график отображения 31
движение 136 Подстановка, перестановка 45
дробно-линейное 136 инверсия 47
обратимое 31 транспозиция 46
образ 31 цикл 46
прообраз 31 четность 47
полный прообраз 31

Поле 141
Парабола 179 автоморфизм 389
директриса 179 Галуа 146
касательная 180 изоморфизм 143
фокальный параметр 179 конечное 143
фокус 180 нормальное 398
подполе 143
Первообразный корень 138 поле вычетов 143, 379
промежуточное 401
Плоскость 93, 94 разложения 394
расширение поля 143
характеристика поля 145
Поверхность второго порядка частных 147
181 эндоморфизм 387
гиперболический параболоид
194
двуполостный гиперболоид Полупространство 96, 129
193
линейчатая 191 Последовательность
однополостный гиперболоид предел 199, 201
191 сходящаяся 199, 201
приведенные уравнения 190 фундаментальная (Коши, схо-
цилиндрическая 194 дящаяся в себе) 202
Предметный указатель 473

Построения циркулем и линей- унитарное 211


кой 381
задача об удвоении куба 382 Процесс ортогонализации
правильные n-угольники 386 Грама–Шмидта 223

Правило Крамера 64 Прямая 92, 93

Преобразование Разложение
быстрое преобразование вещественных многочленов
Фурье 299, 433 163
дискретное преобразование комплексных многочленов
Фурье 295 161
подобия 249 корневое 273
унитарного подобия 287 по базису 116
полярное 303
сингулярное 242, 303
Признак Эйзенштейна 385
скелетное 67
Таккера 461
Пример Уилкинсона 338 трилинейное 345
эрмитово 289
Произведение LU 83
векторное 101 QR 226
внешнее 67
естественное скалярное 211 Ранг
линейных операторов 246 матрицы 68
матриц 24 разделение переменных 67
многочленов 151 тензорный ранг 344
скалярное 98, 99, 210 теорема о базисном миноре
смешанное 101 70

Пространство Расстояние
банахово 202 до множества вырожденных
гильбертово 213 матриц 309
евклидово 210 между спектрами нормаль-
корневое 271 ных матриц 457
линейное 109 от точки до прямой 105
метрическое 201 от точки до плоскости 106
многочленов 118
направляющее 126 Расширение поля 143
нормированное 195 конечное 383
нуль-пространство 112 минимальное 155
полное 202 присоединение корня 155
пополнение пространства 409 простое алгебраическое 155
сопряженное 229 радикальное 399
топологическое 413 расширение Галуа 400
474 Предметный указатель

степень расширения 383 фундаментальная 74

Результант 380 Система линейных алгебраиче-


ских уравнений 37
Рекурсия 28, 301 исключение неизвестных 77
нормальное псевдорешение
306
Свертка общее решение 75
апериодическая 432 однородная 73
периодическая 432 правило Крамера 64
предобусловленная 451
Симметричная калибровочная псевдорешение 305
функция 437 совместная 43
фундаментальная система ре-
Симплекс 373 шений 74
вершины 373
размерность 373 Система координат 86
угловые точки 373 преобразование координат 95

Сингулярное разложение матри- Скалярное произведение 98, 210


цы 242, 303 в конечномерном простран-
вычисление сингулярных чи- стве 219
сел 342 длина вектора 212
сингулярные числа 242, 303 естественное 211
сингулярные векторы 303 скалярный квадрат 211

Система векторов Собственное значение, собствен-


база 41 ный вектор
базис 41 линейного оператора 263
биортогональные системы 224 матрицы 255
дополнение до базиса 42 собственная пара 255
жорданова цепочка 277 спектральный радиус 267
индикатор линейной зависи-
мости 44, 50
линейно зависимая 38 Соотношения разделения
линейно независимая 39 собственных значений 323,
линейная комбинация 37 442
линейная оболочка 38 сингулярных чисел 327
определитель 50
ортогональная 222
Спектральный портрет 339
ортонормированная 222
правая, левая 100
размерность линейной обо- Сумма подпространств 114
лочки 41 прямая 121, 216
существование базиса 42 ортогональная 217
Предметный указатель 475

Схема сдваивания 354 Фаркаша 420


Ферма 143
Фредгольма 252
Теорема Хана–Банаха 234, 424
Бауэра–Файка 457 Холла 365
Безу 154 Шура 268
Больцано–Вейерштрасса 158
Вейерштрасса 158, 204
Вейля 322 Тождество
Виландта–Хоффмана 457 параллелограмма 213
Гамильтона–Кэли 274
Гершгорина 456 Точка
Грассмана 114 бесконечно удаленная 136
Джона фон Неймана 437 внутренняя 130, 203
Крамера 64 граничная 232
Кронекера–Капелли 75 предельная 203
Крускала 351 прикосновения 203
Куранта–Фишера 321 угловая 131, 373
Лагранжа 357
Лапласа 58, 364 Уравнение
о базисном миноре 70 квадратное 376
об инвариантах 407 кубическое 377
о вехней треугольной форме разностное 392
266 характеристическое 257
о гомоморфизме 360 четвертой степени 377
о делителях и подпростран-
ствах 269
о диагонализации веществен- Форма
ных симметричных матриц билинейная 211
186 блочно-диагональная 292
о знаках инвариантов 408 верхняя треугольная 266
о корневом разложении 272 жорданова 278
о матрице Грама 218 квадратичная 310
о наилучших аппроксимаци- линейная 228
ях с понижением ранга 308 полуторалинейная 211
о перпендикуляре 221, 417
о размерности ядра и образа Формула Кардано 377
250
о симметрических многочле- Формулы Виета 165
нах 167
основная теорема алгебры
161, 397 Функционал Минковского 413
о существовании корня 395
о циркулянтах 296 Функция
Перрона–Фробениуса 267 вогнутая 196
Пифагора 216 выпуклая 196
Рисса 422 Жуковского 177
476 Предметный указатель

симметрическая 45 Эллипс 175


Эйлера 139 директрисы 175
касательная 176
Число фокусы 175
алгебраическое 389 функция Жуковского 177
комплексное 132 эксцентриситет 175
трансцендентное 389
Ядро
Шар гомоморфизма 359
геометрические свойства 412 линейного оператора 250
замкнутый 203 линейного функционала 230
открытый 203 матрицы 112

Вам также может понравиться