Вы находитесь на странице: 1из 61

РОССИЙСКАЯ АКАДЕМИЯ НАУК ВЫЧИСЛИТЕЛЬНЫЙ ЦЕНТР

СООБЩЕНИЯ ПО ПРИКЛАДНОЙ МАТЕМАТИКЕ

СТРИЖОВ В. В.

МЕТОДЫ ИНДУКТИВНОГО ПОРОЖДЕНИЯ РЕГРЕССИОННЫХ МОДЕЛЕЙ

ВЫЧИСЛИТЕЛЬНЫЙ ЦЕНТР РАН МОСКВА, 2008

УДК 519.584

Ответственный редактор канд. физ.-матем. наук К. В. Воронцов

При решении задач линейной или нелинейной регрессии искомая модель может быть назначена аналитиком на основе предположений о характере решаемой задачи или выбрана из некоторого множества моделей. При выборе моделей встают вопросы о том, какова должна быть структура модели, ее сложность, устойчивость и точность. Рассматриваются проблемы индуктивного порождения и выбора моделей, представленных в виде суперпозиций параметрических функций. Основу рабо- ты составляет курс лекций, читаемый автором в Московском физико-техническом институте.

Ключевые слова: регрессионный анализ, индуктивное по- рождение моделей, сингулярное разложение, метод группового учета аргументов, связанный байесовский вывод.

c

Рецензенты:

Ю. В. Чехович, C. Г. Руднев

Научное издание

Вычислительный центр им. А. А. Дородницына Российской академии наук, 2008

1.

Введение

Регрессионный анализ — метод моделирования и исследования свойств измеряемых данных. Данные представляют собой пары значений зависимой переменной (переменной отклика) и незави- симой переменной (объясняющей переменной). Регрессионная мо- дель является функцией независимой переменной и параметров с добавленной случайной переменной. Параметры регрессионной модели настраиваются таким образом, чтобы модель наилучшим образом приближала данные. Критерием качества приближения (целевой функцией) обычно является среднеквадратичная ошиб- ка: сумма квадратов разности значений модели и зависимой пере- менной для всех значений независимой переменной, взятых в ка- честве аргумента. Предполагается, что зависимая переменная есть сумма зна- чений модели и некоторой случайной величины. Предположение о характере распределения этой величины называется гипотезой порождения данных. Для подтверждения или опровержения этой гипотезы выполняются статистические тесты, называемые анали- зом регрессионных остатков. При этом считается, что независи- мая переменная не содержит ошибок. Регрессионный анализ используется для прогноза, анализа временных рядов, проверок гипотез и выявления скрытых зако- номерностей в данных.

1.1. Определение регрессии

Регрессия — это зависимость E(y|x) = f (x) математического ожидания некоторой случайной величины y (зависимой перемен- ной) от одной или нескольких других величин x (независимых пе- ременных). Задача регрессионного анализа заключается в поиске такой функции f , которая описывает эту зависимость. Регрессия может быть представлена в виде суммы неслучайной и случайной

— 3 —

составляющих

y = f(x) + ν,

где f — функция регрессионной зависимости, а ν — аддитивная случайная величина с нулевым матожиданием. Обычно предполагается, что величина ν имеет гауссовское рас- пределение с нулевым средним и дисперсией σ Задача поиска регрессионной модели ставится следующим об-

, x N |x R M }

, y N |y R} со-

разом. Пусть задана выборка — множество {x 1 , значений свободной переменной и множество {y 1 ,

ответствующих значений зависимой переменной. Эти множества обозначаются как D, множество исходных данных {(x, y) i }. За- дана регрессионная модель — параметрическое семейство функ- ций f (w, x). Модель зависит от параметров w R W . Требуется найти наиболее вероятные значения вектора параметров w¯ :

2

ν .

w¯ = arg max

wR

W p(y|x, w, f ) = p(D|w, f ).

Функция вероятности p зависит от гипотезы порождения данных и задается байесовским выводом или методом наибольшего прав- доподобия.

1.2. Линейная регрессия

Пусть функция f линейно зависит от параметров w. При этом линейная зависимость от свободной переменной x не предполага- ется,

y = f(w, x) + ν

=

W

j=1

w j g j (x) + ν.

В случае, когда функция g id, линейная регрессия имеет вид

y =

W

j=1

w j x j + ν = w, x + ν,

— 4 —

Рис. 1. Примеры выборок где x j — компоненты вектора x . Значения

Рис. 1. Примеры выборок

где x j — компоненты вектора x. Значения параметров находят с помощью метода наименьших квадратов. При этом предполагается гауссовское распределение случайной переменной. При этом одним из важных критериев ка- чества полученной зависимости является сумма квадратов оши- бок

SSE = f (x i ) y i 2 =

N

i=1

(y i f(w, x i )) 2 ,

SSE — Sum of Squared Errors. Разность между фактическим и вы- численным значением зависимой переменной f (x i )y i называется невязкой. Вектор невязок обозначается f (x) y. Этот вектор так- же называется вектором регрессионных остатков (residuals). Ана- лизу этого вектора посвящен отдельный раздел данной области, который называется «анализ регрессионных остатков». В частно- сти, в него входит вычисление дисперсии остатков:

σ¯

2 SSE

ν =

N

2 = MSE.

Здесь MSE — Mean Square Error, среднеквадратичная ошибка. На рис. 1 выборки обозначены точками, а регрессионные зависимости — сплошными линиями. По оси абсцисс отло- жена свободная переменная, а по оси ординат — зависимая. Выборка может быть не функцией, а отношением. Напри- мер, данные для построения регрессии могут быть такими:

— 5 —

{(0, 0), (0, 1), (0, 2), (1, 1), (1, 2), (1, 3)}, см. рис.1, справа. В такой выборке одному значению переменной x соответствует несколь- ко значений переменной y.

1.3. О терминах

Термин «регрессия» был предложен Фрэнсисом Гальтоном

в конце XIX в. Гальтон обнаружил, что дети родителей с высо- ким или низким ростом обычно не наследуют выдающийся рост

и назвал этот феномен «регрессия к посредственности». Снача- ла этот термин использовался исключительно в биологическом смысле. После работ Карла Пирсона его стали использовать и

в статистике. Различают одномерную и многомерную регрессию с одной

и с несколькими свободными переменными. Будем считать, что

свободная переменная — вектор x R N . В частных случаях, ко- гда свободная переменная является скаляром, она будет обозна- чаться x. Различают линейную и нелинейную регрессию. Если ре- грессионная модель не является линейной комбинацией функций свободных переменных, то говорят о нелинейной регрессии. При этом модель может быть представлена в виде суперпозиции функ- ций свободных переменных g из некоторого набора. Нелинейные модели включают экспоненциальные, тригонометрические, и дру- гие (например, радиальные базисные функции или персептрон Розенблатта). Различают параметрическую и непараметрическую регрес- сию. Строгую границу между этими терминами провести сложно. В настоящее время нет общепринятого критерия отличия одного типа моделей от другого. Например, считается, что линейные мо- дели являются параметрическими, а модели, включающие усред- нение зависимой переменной по пространству свободной пере- менной —непараметрическими. Примеры регрессионных моделей:

линейные функции, алгебраические полиномы, ряды Чебышёва, нейронные сети без обратной связи (в частности, однослойный

— 6 —

персептрон Розенблатта). Пример смешанной модели — функ- ции радиального базиса. Непараметрическая модель — скользя- щее усреднение в окне некоторой ширины. В целом непарамет- рические модели отличаются от параметрических тем, что зави- симая переменная зависит не от дискретного значения свободной переменной, а от некоторой заданной его окрестности. Различие между терминами «приближение функций», «ап- проксимация», «интерполяция», и «регрессия» заключается в сле- дующем. Приближение функций. Дана функция u дискретного или непрерывного аргумента. Требуется найти функцию f из неко- торого параметрическую семейства, например среди алгебраиче- ских полиномов заданной степени. Параметры функции f долж- ны доставлять минимум некоторому функционалу, например

1

1 ρ(f, u) = b |f(x) − u(x)| 2 dx 2 . b − a
1
ρ(f, u) =
b
|f(x) − u(x)| 2 dx 2 .
b − a
a

Рис. 2. Аппроксимация функций: непрерывная функция f приближает непрерывную или дискретную функцию u

Термин аппроксимация является синонимом термина «при- ближение функций». Чаще используется, когда речь идет о задан- ной функции как о функции дискретного аргумента. Здесь также требуется отыскать такую функцию f , которая проходит наибо- лее близко ко всем точкам заданной функции. При этом вводит-

— 7 —

ся понятие невязки — расстояния между точками непрерывной функции f и соответствующими точками функции u дискретного аргумента. Интерполяция функций — частный случай задачи приближе- ния, когда требуется, чтобы в определенных точках, называемых узлами интерполяции, значения функции u и приближающей ее функции f совпадали. В более общем случае накладываются ограничения на значения некоторых производных f производных, т. е. дана функция u дискретного аргумента. Требуется отыскать такую функцию f , которая проходит через все точки u. При этом метрика обычно не используется, однако часто вводится понятие «гладкости» искомой функции.

«гладкости» искомой функции. Рис. 3. Интерполяция: функция f

Рис. 3. Интерполяция: функция f задана значениями узловых точек

Регрессия и классификация тесно связаны друг с другом. Тер- мин алгоритм в классификации мог бы стать синонимом терми- на модель в регрессии, если бы алгоритм не оперировал с дис- кретным множеством ответов-классов, а модель — с непрерывно- определенной свободной переменной.

1.4. Регрессионная модель

Термину регрессионная модель, используемому в регрессион- ном анализе, можно сопоставить синонимы «теория», «гипотеза». Эти термины пришли из статистики, в частности из раздела «про-

— 8 —

верка статистических гипотез». Регрессионная модель есть преж- де всего гипотеза, которая должна быть подвергнута статистиче- ской проверке, после чего она принимается или отвергается. Регрессионная модель f (w, x) — это параметрическое семей- ство функций, задающее отображение

f : W × X −→ Y,

где w W — пространство параметров, x X — пространство свободных переменных, Y — пространство зависимых перемен- ных. Так как регрессионный анализ предполагает поиск зависимо- сти матожидания случайной величины от свободных переменных E(y|x) = f (x), то в ее состав входит аддитивная случайная вели- чина ε:

y = f (w, x) + ε.

Предположение о характере распределения случайной вели- чины ν называются гипотезой порождения данных. Эта гипотеза играет центральную роль в выборе критерия оценки качества мо- дели и, как следствие, в способе настройки параметров модели. Модель является настроенной (идентифицированной, обучен- ной) если зафиксированы ее параметры, то есть модель задает отображение

f| w¯

: X −→ Y

для фиксированного значения w¯ (выражение читается «сужение области определения функции f »). Различают «математическую модель» и «регрессионную мо- дель». Математическая модель предполагает участие аналитика в конструировании функции, которая описывает некоторую из- вестную закономерность. Математическая модель является ин- терпретируемой — объясняемой в рамках исследуемой закономер- ности. При построении математической модели сначала создается

— 9 —

параметрическое семейство функций, затем с помощью измеряе- мых данных выполняется «идентификация модели» — нахожде- ние ее параметров. Известная функциональная зависимость объ- ясняющей переменной и переменной отклика — основное отли- чие математического моделирования от регрессионного анализа. Недостаток математического моделирования состоит в том, что измеряемые данные используются для верификации, но не для построения модели, вследствие чего можно получить неадекват- ную модель. Также затруднительно получить модель сложного явления, в котором взаимосвязано большое число различных фак- торов. Регрессионная модель объединяет широкий класс универсаль- ных функций, которые описывают некоторую закономерность. При этом для построения модели в основном используются изме- ряемые данные, а не знание свойств исследуемой закономерности. Такая модель часто неинтерпретируема, но более точна. Это объ- ясняется либо большим числом моделей-претендентов, которые используются для построения оптимальной модели, либо большой сложностью модели. Недостатком регрессионного анализа является то, что модели, имеющие слишком малую сложность, могут оказаться неточны- ми, а модели избыточной сложности могут оказаться «переобу- ченными». И регрессионная, и математическая модель, как правило, за- дают непрерывное отображение. Требование непрерывности обу- словлено классом решаемых задач: чаще всего это описание физи- ческих, химических и других явлений, где требование непрерыв- ности выставляется естественным образом. Иногда на отображе- ние f могут накладываться ограничения монотонности, гладко- сти, измеримости и некоторые другие. При решении задач регрессионного анализа встают следующие вопросы.

Как выбрать тип и структуру модели, какому именно семей-

— 10 —

ству она должна принадлежать?

Какова гипотеза порождения данных, каково распределение случайной переменной?

Какой целевой функцией оценить качество аппроксимации?

Как отыскать параметры модели, каков должен быть алго- ритм оптимизации параметров?

2. Линейные методы

Метод наименьших квадратов — метод нахождения оптималь- ных параметров моделей линейных регрессии, таких что сумма квадратов невязок регрессионных остатков минимальна. Метод заключается в минимизации евклидова расстояния Awy меж- ду двумя векторами.

2.1. Метод наименьших квадратов

Задача метода наименьших квадратов состоит в выборе век- тора w, минимизирующего ошибку (длину вектора невязки) S =

Aw y 2 . Эта ошибка есть расстояние от вектора y до векто- ра Aw. Вектор Aw лежит в простанстве столбцов матрицы A, так как Aw есть линейная комбинация столбцов этой матрицы с

коэффициентами w 1 ,

Отыскание решения w методом наименьших квадратов экви- валентно задаче отыскания такой точки p = Aw, которая лежит ближе всего (в евклидовой метрике) к y и находится при этом

в пространстве столбцов матрицы A. Вектор p должен быть про-

екцией y на пространство столбцов, вектор невязки Aw y дол-

жен быть ортогонален этому пространству. Произвольный вектор

в пространстве столбцов матрицы A есть линейная комбинация

, v N , т. е. это век-

столбцов с некоторыми коэффициентами v 1 ,

тор Av. Для всех v в пространстве Av, эти векторы должны быть

, w N .

— 11 —

перпендикулярны невязке Aw y:

(Av) T (Aw y) = v T (A T Aw A T y) = 0.

Так как это равенство должно быть справедливо для произволь- ного вектора v, то

A T Aw A T y = 0.

Решение по методу наименьших квадратов несовместной си- стемы Aw = y, состоящей из M уравнений с N неизвестными, есть уравнение

A T Aw = A T y,

которое называется нормальным уравнением. Если столбцы мат- рицы A линейно независимы, то матрица A T A обратима и един- ственное решение w = (A T A) 1 A T y.

Проекция вектора y на пространство столбцов матрицы имеет

вид p = Aw = A(A T A) 1 A T y = P y.

Матрица P = A(A T A) 1 A T называется матрицей проектирова- ния вектора y на пространство столбцов матрицы A. Эта матрица имеет два основных свойства: она идемпотентна, P 2 = P , и сим- метрична, P T = P . Обратное также верно: матрица, обладающая этими двумя свойствами, есть матрица проектирования на свое пространство столбцов.

2.2. Пример построения линейной регрессии

Задана выборка — таблица

D =

x

x

1

2

.

x M

.

.

y

y

1

2

.

y M

.

.

— 12 —

.

Задана регрессионная модель — квадратичный полином

f = w 3 x 2 + w 2 x + w 1 =

3

j=1

w j x j1 .

Назначенная модель является линейной. Для нахождения опти-

мального значения вектора параметров w = w 1 , няется следующая подстановка:

, w 3 T выпол-

x

0

i

a

i1 , x

1

i

a

i2 , x

2

i

a

i3 .

Тогда матрица A значений подстановок свободной переменной x i будет иметь вид

A =

a

a

·

11

21

·

·

a M1

a

a

·

12

22

·

·

a M2

a

a

·

13

23

·

·

a M3

.

Задан критерий качества модели: функция ошибки

S =

M

i=1

(f(w, x i ) y i ) 2 = Aw y 2 −→ min .

Здесь вектор y = y 1 ,

ры w, которые бы доставляли минимум этому функционалу,

, y M . Требуется найти такие парамет-

w

= arg min 3 (S).

wR

Требуется найти такие параметры w, которые доставляют ми- нимум норме S вектора невязок Aw y.

= (Aw y) T (Aw y) =

= y T y y T Aw w T A T y + w T A T Aw =

S = Aw y 2

= y T y 2y T Aw + w T A T Aw.

— 13 —

Для того, чтобы найти минимум функции невязки, требуется при- равнять ее производные к нулю:

w ∂S = 2A T y + 2A T Aw = 0.

Это выражение также называется нормальным уравнением. Ре- шение этой задачи должно удовлетворять системе линейных урав- нений

A T Aw = A T y,

то есть

w = (A T A) 1 (A T y).

Предполагается, что матрица A T A не вырождена.

2.3. Сингулярное разложение

Сингулярное разложение (Singular Value Decomposition, SVD) — декомпозиция вещественной матрицы с целью приведе- ния ее к каноническому виду. Сингулярное разложение является удобным методом работы с матрицами. Оно показывает геомет- рическую структуру матрицы и позволяет наглядно представить имеющиеся данные. Сингулярное разложение используется при решении самых разных задач — от приближения методом наи- меньших квадратов и решения систем уравнений до сжатия изоб- ражений. При этом используются разные свойства сингулярно- го разложения, например способность вычислить ранг матрицы,

приближать матрицы данного ранга. SVD позволяет вычислять обратные и псевдообратные матрицы большого размера, что дела- ет его полезным инструментом при решении задач регрессионного анализа. Для любой вещественной (n × n)-матрицы A существуют две вещественные ортогональные (n × n)-матрицы U и V такие, что

U T AV — диагональная матрица

Λ,

U T AV = Λ.

— 14 —

Матрицы U и V выбираются так, чтобы диагональные элементы матрицы Λ имели вид

λ 1 λ 2

λ r > λ r+1 =

= λ n = 0,

где r — ранг матрицы A. В частности, если A не вырождена, то

λ 1 λ 2

λ n > 0.

Индекс r элемента λ r есть фактическая размерность собствен- ного пространства матрицы A. Столбцы матриц U и V называются соответственно левыми

и правыми сингулярными векторами, а значения диагональных элементов матрицы Λ — сингулярными числами. Эквивалентная запись сингулярного разложения — A = UΛV T . Например, матрица

A = 0.96

2.28

1.72

0.96

имеет сингулярное разложение

A = UΛV T = 0.6 0.8

3

0.6 0

0.8

0 0.8

1

0.6

0.6

0.8

T

Легко увидеть, что матрицы U и V ортогональны,

U T U = UU T = I,

V T V = V V T = I,

и их векторы-столбцы нормированы.

2.3.а.

Геометрический смысл SVD

Пусть матрице A поставлен в соответствие линейный опера- тор. Cингулярное разложение можно переформулировать в гео- метрических терминах. Линейный оператор, отображающий эле- менты пространства R n в себя представим в виде последовательно

— 15 —

выполняемых линейных операторов вращения, растяжения и вра- щения. Поэтому компоненты сингулярного разложения наглядно показывают геометрические изменения при отображении линей- ным оператором A множества векторов из векторного простран- ства в себя или в векторное пространство другой размерности.

2.3.б.

Пространства матрицы и SVD

Сингулярное разложение позволяет найти ортогональные ба- зисы различных векторных пространств разлагаемой матрицы

T

A (n×n) = U (n×n) Λ (n×n) V (n×n) .

Для прямоугольных матриц существует так называемое эконом- ное представление сингулярного разложения матрицы.

T

A (m×n) = U (m×m) Λ (m×n) V (n×n)

Согласно этому представлению при m > n, диагональная матри- ца Λ имеет пустые строки (их элементы равны нулю), а при m < n — пустые столбцы. Поэтому существует еще одно экономное представление

T

A (m×n) = U (m×r) Λ (r×r) V (r×n) ,

в котором r = min(m, n). Нуль-пространство матрицы A — набор векторов x, для ко- торого справедливо высказывание Ax = 0. Собственное про- странство матрицы A — набор векторов b, при котором уравне-

ние Ax = b имеет ненулевое решение для x. Обозначим uk и vk столбцы матриц U и V . Тогда разложение A = U ΛV T может быть

r

записано в виде A = k=1

A k , где A k = u k λ k v k T .

Если сингулярное число λ k = 0, то Av k = 0 и v k находится

нуль-пространстве матрицы A, а если сингулярное число λ k = 0, то вектор u k находятся в собственном пространстве матрицы A.

в

— 16 —

Следовательно, можно сконструировать базисы для различных векторных подпространств, определенных матрицей A.

, v k в векторном пространстве V фор-

мирует базис линейного пространства для V , если любой век- тор x из V можно представить в виде линейной комбинации век-

торов v 1 ,

Пусть V 0 будет набором тех столбцов vk, для которых λ k = 0,

Hабор векторов v 1 ,

, v k единственным способом.

а V 1 — все остальные столбцы vk. Также пусть U 0 будет набором

столбцов uk, для которых λ k

столбцов uk, включая и те, для которых k > n. Тогда, если r — количество ненулевых сингулярных чисел, то имеется r столбцов в наборе V 0 , n r столбцов в наборах V 1 и U 1 , а также m n + r столбцов в наборе U 0 . Каждый из этих наборов формирует базис векторного про- странства матрицы A:

= 0, а U 1 — набор всех остальных

V 0 — ортонормальный базис для ортогонального комплемен- тарного нуль-пространства A,

V 1 — ортонормальный базис для нуль-пространства A,

U 0 — ортонормальный базис для собственного простран- ства A,

U 1 — ортонормальный базис для ортогонального комплемен- тарного нуль-пространства A.

2.3.в.

SVD и собственные числа матрицы

Сингулярное разложение обладает свойством, которое связы- вает задачу отыскания сингулярного разложения и задачу отыс- кания собственных векторов. Собственный вектор x матрицы A — такой вектор, при котором выполняется условие Ax = λx, число λ называется собственным числом. Так как матрицы U и V ортого-

— 17 —

нальные, то

AA T = UΛV T V ΛU T = UΛ 2 U T , A T A = V ΛU T UΛV T = V Λ 2 V T .

Умножая оба выражения справа соответственно на U и V , полу- чаем

AA T U = UΛ 2 ,

A T AV = V Λ 2 .

Из этого следует, что столбцы матрицы U являются собствен- ными векторами матрицы AA T , а квадраты сингулярных чисел

Λ = diag(λ 1 ,

цы матрицы V являются собственными векторами матрицы A T A, а квадраты сингулярных чисел являются ее собственными числа- ми.

, λ r ) — ее собственными числами. Также столб-

2.3.г.

SVD и норма матриц

Рассмотрим изменение длины вектора x до и после его умно- жения слева на матрицу A. Евклидова норма вектора определена как

x E = x T x.

Если матрица A ортогональна, длина вектора Ax остается неиз- менной. В противном случае можно вычислить, насколько матри- ца A растянула вектор x. Евклидова норма матрицы есть максимальный коэффициент растяжения произвольного вектора x заданной матрицей A

A E =

=1 Ax

x

max

x

.

Альтернативой евклидовой норме является норма Фробениуса:

A F

=

m

n

i=1

j=1

a

2

ij .

— 18 —

Если известно сингулярное разложение, то обе эти нормы легко

вычислить. Пусть λ 1 , личные от нуля. Тогда

A E = λ 1 ,

и

, λ r — сингулярные числа матрицы A, от-

A F

=

r

k=1

λ

2

k .

Сингулярные числа матрицы A — это длины осей эллипсоида, заданного множеством

2.3.д.

{Ax| x E = 1}.

Нахождение псевдообратной матрицы с помощью SVD

Если (m × n)-матрица A является вырожденной или прямо- угольной, то обратной матрицы A 1 для нее не существует. Од- нако для A может быть найдена псевдообратная матрица A + — такая матрица, для которой выполняются условия

A + A = I n , AA + = I m , A + AA + = A + , AA + A = A.

Пусть найдено разложение матрицы A вида

A = UΛV T ,

I n .

Тогда матрица A + = V T Λ 1 U является для матрицы A псевдо- обратной. Действительно, A + A = V Λ 1 U T UΛV T = I n , AA + = UΛV T V Λ 1 U T = I m .

где Λ = diag(λ 1 ,

, λ r ), r = min(m, n) и U T U

I m , V V T

=

=

— 19 —

2.3.е.

Метод наименьших квадратов и число обусловленности

Задача наименьших квадратов ставиться следующим образом. Даны действительная (m×n)-матрица A и дей- ствительный (m)-вектор Y . Требуется найти действитель- ный (n)-вектор w, минимизирующий евклидову длину вектора невязки,

Y Aw E −→ min .

Решение задачи наименьших квадратов

w = (A T A) 1 (A T Y ).

Для отыскания решения w требуется обратить матрицу A T A. Для квадратных матриц A число обусловленности æ(A) опреде- лено отношением

æ(A) = A E A 1 E .

Из формулы евклидовой нормы матрицы и предыдущей формулы следует, что число обусловленности матрицы есть отношение ее первого сингулярного числа к последнему.

æ(A) = λ 1

λ

n

.

Следовательно, число обусловленности матрицы A T A есть квадрат числа обусловленности матрицы A. Это высказывание справедливо и для вырожденных матриц, если полагать число обусловленности как отношение λ 1 r , r — ранг матрицы A. По- этому для получения обращения, устойчивого к малым изменени- ям значений матрицы A, используется усеченное SVD.

2.3.ж.

Усеченное SVD при обращении матриц

Пусть матрица A представлена в виде A = U ΛV T . Тогда при нахождении обратной матрицы A + = V Λ 1 U T в силу ортогональ- ности матриц U и V и в силу условия убывания диагональных

— 20 —

элементов матрицы Λ = diag(λ 1 ,

ца A + будет более зависеть от тех элементов матрицы Λ, кото- рые имеют меньшие значения, чем от первых сингулярных чи- сел. Действительно, если матрица A имеет сингулярные числа

, λ n ), псевдообратная матри-

λ 1 λ 2

λ n , то сингулярные числа матрицы A + равны

Λ 1 = diag(

1

λ 1 ,

1

,

λ

n

) и

1

λ

1

1

λ

2

1

λ

n

.

Считая первые s сингулярных чисел определяющими собственное пространство матрицы A, используем при обращении матрицы A

первые s сингулярных чисел, s rankA. Тогда обратная матри-

ца A + будет найдена как A + = V Λ

1

s

U T .

Определим усеченную псевдообратную матрицу A

+

s

как

где Λ

ца.

1

s

= diag(λ 1

1

,

, λ

A

+

s

1

s

, 0,

= V Λ

1

s

U T ,

,

0) (n × n)-диагональная матри-

2.4. Использование SVD для анализа временных рядов

Рассмотрим пример-иллюстрацию использования сингуляр- ного разложения. Жизнь биосистемы описывается набором параметров, образующих фазовое пространство. Например, пусть x 1 , x 2 — концентрация кислорода в крови и частота сердеч- ных сокращений пациента. Эти параметры, изменяясь во времени, образуют траекторию его жизни. Фазовое пространство разбито на три непересекающихся области: жизни A alive, смерти D dead и границу между ними B boundary, рис. 4. Гипотеза: в точ- ке, максимально удаленной от границ B внутри области A энтро- пия системы максимальна, в то время как у границы поведение системы становится ригидным, жестким, эффективная размер- ность траектории снижается.

— 21 —

Рис. 4. Поведение биосистемы в экстремальных условиях Под

Рис. 4. Поведение биосистемы в экстремальных условиях

Под эффективной размерностью матрицы будем понимать ко- личество сингулярных чисел, превосходящих заданное λ r . Для выяснения эффективной размерности траектории на интервале времени используется сингулярное разложение как наиболее удоб- ный инструмент. Строки разлагаемой матрицы — последователь- ные векторы состояний системы в фазовом пространстве. Количе- ство сингулярных чисел, больших λ r , есть эффективная размер- ность сегмента траектории. На рис. 7 показан пример — траек- тория системы с аттрактором Лоренца и одно из подмножеств ее сегментов, находящихся в пространстве меньшей размерности.

меньшей размерности. Рис. 5. Траектория системы с
меньшей размерности. Рис. 5. Траектория системы с

Рис. 5. Траектория системы с аттрактором Лоренца и подмножество ее сегментов

Разбиение множества {a i· } на кластеры зависит от размерно- сти подпространства R r R n , в котором находятся кластеры, и от задаваемых требований к искомой кластеризации. Пусть да-

— 22 —

на (m×n)-матрица A упорядоченных векторов-строк {a i· }, i I =

{1,

ного времени i. Требуется найти разбиение фазовой траектории

на сегменты, находящиеся в подпространстве заданной размерно- сти r. Обозначим A S множество векторов-строк {a i· } с индексами

, m}. Матрица соответствует фазовой траектории дискрет-

i S. Множество {S(1),

m, есть разбиение I такое, что

, S(k)}, k — число сегментов, 1 k

S(ξ) I,

k

ξ=1

S(ξ) = I,

k

ξ=1

S(ξ) = .

Требуется найти такое разбиение S, что rank(A S(ξ) ) r для всех

элементов этого разбиения, ξ = 1,

Пусть на первой итерации каждый вектор из A включен в от-

дельный сегмент размерности ноль,

, k.

k = m,

ξ = i = 1,

, k 1.

Далее на каждой итерации выполняем следующую последо- вательность действий. Начиная с первого вектора, присоединяем мк кластеру последующие векторы при условии, что

rank λ r A S(ξ)

S(ξ+ι)

r, ι = 1,

, k ξ,

ξ = 1,

, k

При выполнении условия кластер на следующей итерации опре- деляется индексами

S (ξ) = S(ξ)

S(ξ + ι),

в противном случае он остается без изменения,

S (ξ) = S(ξ).

Итерации повторяются до тех пор, пока удается присоединить хо- тя бы один последующий кластер.

— 23 —

Этот алгоритм является эвристическим. Он не доставляет единственного разбиения траектории на сегменты. Разбиение за- висит от порядка присоединения кластеров. Если на парах век- торов (a i· , a j· ), определена метрика ρ(a i· , a j· ), то алгоритм можно изменить следующим образом. На каждой итерации к кластеру присоединяется предшествующий или предыдущий в зависимости от расстояния между соседними точками данной пары кластеров.

3. Метод группового учета аргументов

Метод группового учета аргументов, МГУА (Group Method of Data Handling, GMDH) 1 — метод порождения и выбора регресси- онных моделей оптимальной сложности. Под сложностью модели в МГУА понимается число параметров. Для порождения исполь- зуется базовая модель, подмножество элементов которой должно входить в искомую модель. Для выбора моделей используются внешние критерии, специальные функционалы качества моделей, вычисленные на тестовой выборке. МГУА рекомендуется к использованию и в том случае, когда выборка содержит всего несколько элементов. Тогда невозмож- но использовать статистические гипотезы о плотности распреде- ления (например гипотезу о Гауссовском распределении зависи- мой переменной) при построении регрессионных моделей. Поэто- му используется индуктивный подход, согласно которому после- довательно порождаются модели возрастающей сложности до тех пор, пока не будет найден минимум некоторого критерия качества модели. Этот критерий качества называется внешним критерием, так как при настройке моделей и при оценке качества моделей ис- пользуются разные данные. Достижение глобального минимума внешнего критерия при порождении моделей означает, что мо-

метода:

Polynomial Neural Networks, Abductive and Statistical Learning Networks.

1 Альтернативные

названия

Group

Method

for

Data

Handling,

— 24 —

дель, доставляющая такой минимум, является искомой. Один из авторов этого метода А. Г. Ивахненко пишет [13]:

«Осуществляется целенаправленный перебор многих моделей- претендентов различной сложности по ряду критериев. В резуль- тате находится модель оптимальной структуры в виде одного уравнения или системы уравнений. Минимум критерия селекции определяет модель оптимальной структуры».

3.1. Описание алгоритма МГУА

Индуктивный алгоритм отыскания модели оптимальной структуры состоит из следующих основных шагов.

Пусть задана выборка D = {(x n , y n )} n=1 , x R m . Выборка

разбивается на обучающую и тестовую. Обозначим , C — множе-

, N } = W . Эти множества удовлетворяют

условиям разбиения C = W, C = . Матрица X состоит из тех векторов-строк x n , для которых индекс n . Вектор y состоит из тех элементов y n , для которых индекс n . Разбиение

выборки представляется в виде

ства индексов из {1,

1.

N

X

W

=

X

X C

,

y

W

=

y

y C

,

где

y W R N×1 , X W R N×m , | | + |C| = N.

2. Назначается базовая модель. Эта модель описывает отно-

шение между зависимой переменной y и свободными переменны- ми x. Например, используется функциональный ряд Вольтерра, называемый также полиномом Колмогорова-Габора:

y = w 0 +

m

i=1

w i x i +

m

m

i=1

j=1

w ij x i x j +

m

m

m

i=1

j=1 k=1

w ijk x i x j x k +

В этой модели x = {x i |i = 1,

ременных и w — вектор параметров — весовых коэффициентов

, m} — множество свободных пе-

w = w i , w ij , w ijk ,

|i, j, k,

= 1,

, m .

— 25 —

В некоторых случаях имеет смысл увеличить число элемен- тов вектора свободной переменной x за счет добавления нели- нейных преобразований отдельных переменных. Например, зада- но конечное множество нелинейных функций G = {g|R −→ R}. Дополнительная свободная переменная получается путем приме-

нения некоторого преобразования из G к одной или к нескольким переменным из множества {x}. Базовая модель линейна относи- тельно параметров w и нелинейна относительно свободных пере- менных x.

3. Исходя из поставленных задач выбирается целевая функ-

ция — внешний критерий, описывающий качество модели. Ниже

описаны несколько часто используемых внешних критериев.

4. Индуктивно порождаются модели-претенденты. При этом

вводится ограничение на длину полинома базовой модели. На- пример, степень полинома базовой модели не должна превышать заданное число R. Тогда базовая модель представима в виде ли-

нейной комбинации заданного числа F 0 произведений свободных переменных

y

= f(x 1 , x 2 ,

,

x 2 , x 1 x 2 , x 2 2 ,

1

,

R

x m ),

здесь f — линейная комбинация. Аргументы этой функции пере- обозначаются следующим образом:

x 1 a 1 , x 2

т. е.,

a 2 ,

, x 2 a α , x 1 x 2 a β , x 2 a γ ,

1

2

y

= f(a 1 , a 2 ,

, a F 0 ).

, x

q

m

a F 0 ,

Для линейно входящих коэффициентов задается одноиндексная

нумерация w = w 1 ,

ставлена в виде линейной комбинации

, w F 0 . Тогда модель может быть пред-

y = w 0 +

F 0

i=1

w i a i = w 0 + w · a.

— 26 —

Каждая порождаемая модель задается линейной комбинацией

элементов {(w i , a i )}, в которой множество индексов {i} = s яв-

ляется подмножеством {1,

5. Настраиваются параметры моделей. Для настройки ис- пользуется внутренний критерий — критерий, вычисляемый с использованием обучающей выборки. Каждому элементу векто- ра x n — элемента выборки D ставится в соответствие вектор a n , алгоритм построения соответствия указан выше. Строится матри- ца A W — набор векторов-столбцов a i . Матрица A W разбивается на подматрицы A и A C . Наименьшую невязку y yˆ , где yˆ = Awˆ , доставляет значение вектора параметров wˆ , который вычисляется методом наименьших квадратов:

, F 0 }.

wˆ G = (A T

G A G ) 1 A T

G

y G ,

где G ∈ { , C, W }.

При этом в качестве внутреннего критерия выступает среднеквад- ратичная ошибка

ε G 2 = y G A G wˆ G 2 .

В соответствии с критерием ε G 2 −→ min происходит настройка па- раметров w и вычисление ошибки на тестовой подвыборке, обо- значенной G, здесь G = . При усложнении модели внутренний критерий не дает минимума для моделей оптимальной сложно- сти, поэтому для выбора модели он не пригоден.

6. Для выбора моделей вычисляется качество порожденных

моделей. При этом используются контрольная выборка и назна- ченный внешний критерий. Ошибка на подвыборке H обознача- ется

2 (H) = ∆ 2 (H\G) = y H A H wˆ G 2 ,

где H ∈ { , C}, HG = . Это означает что ошибка вычисляется на подвыборке H при параметрах модели, полученных на подвы- борке G.

7. Модель, доставляющая минимум внешнему критерию, счи-

тается оптимальной.

— 27 —

Если значение внешнего критерия не достигает своего мини- мума при увеличении сложности модели или значение функции качества неудовлетворительно, то выбирается лучшая модель из моделей заданной сложности. Под сложностью модели подразу- мевается число настраиваемых параметров модели. Существуют следующие причины, по которым глобальный минимум может не существовать:

данные слишком зашумлены,

среди данных нет необходимых для отыскания модели пере- менных,

неверно задан критерий выбора,

при анализе временных рядов существует значительная временная задержка отыскиваемой причинно-следственной связи.

3.2. Внешние критерии

Авторами метода рассмотрено весьма большое число различ- ных критериев выбора моделей. Значительная часть этих крите- риев опубликована на сайте http://www.gmdh.net. Критерий выбора модели может быть назван внешним, если он получен с помощью дополнительной информации, не содержа- щейся в данных, которые использовались при вычислении пара- метров моделей. Например, такая информация содержится в до- полнительной тестовой выборке. Алгоритм МГУА использует и внутренний критерий и внеш- ний. Внутренний критерий используется для настройки парамет- ров модели, внешний критерий используется для выбора модели оптимальной структуры. Возможен выбор моделей по нескольким внешним критериям.

— 28 —

3.2.а.

Критерий регулярности

Критерий регулярности 2 (C) включает среднеквадратичную ошибку на обучающей подвыборке C, полученную при парамет- рах модели, настроенных на тестовой подвыборке .

2 (C) = y C A C wˆ 2 = (y C A C wˆ ) T (y C A C wˆ ),

где

и

wˆ = (A

T

A ) 1 (A

T

y

)

yˆ C ( ) = A C wˆ .

Другие модификации критерия регулярности

и

2 (C) =

2 (C) =

y C A C wˆ 2

y C 2

y C A C wˆ 2

y C y¯ C 2

,

где y¯ — среднее значение вектора y. Критерий 2 (C) также обозначается 2 (C\ ), т. е. ошибка на подвыборке C, при параметрах, полученных на подвыборке .

3.2.б.

Критерий минимального смещения

Этот критерий также называется критерий непротиворечи- вости: модель которая имеет на обучающей выборке одну невяз- ку, а на контрольной — другую, называется противоречивой. Он включает разность между зависимыми переменными модели, вы- численными на двух различных выборках и C. Критерий не включает ошибку модели в явной форме. Он требует, чтобы оцен- ки коэффициентов в оптимальной модели, вычисленные на мно- жествах и C, различались минимально.

— 29 —

Критерий имеет вид

η bs = A W wˆ A W wˆ C 2 = (wˆ wˆ C ) T A W T A W (wˆ wˆ C ).

2

Другие модификации этого критерия

η

bs = A W wˆ A W wˆ C 2

2

y C y¯ C 2

и

η a = wˆ wˆ C 2 ,

где wˆ и wˆ C — векторы коэффициентов, полученные с использо- ванием подвыборок и C. При использовании последнего вариан- та следует помнить, что число элементов вектора параметров w в различных моделях может быть различно.

2

3.2.в.

Критерий абсолютного иммунитета к шуму

Утверждается, что с помощью этого критерия из сильно за- шумленных данных возможно найти скрытые физические зако- номерности.

V 2 = (A W wˆ A W wˆ W ) T (A W wˆ W A W wˆ C ) =

= (wˆ wˆ W ) T A T

W A W (wˆ W wˆ C ).

где wˆ W — вектор коэффициентов, полученный на всей выбор- ке W.

3.2.г.

Критерий предсказательной способности

Является модификацией критерия регулярности. Этот крите- рий включает среднеквадратичную ошибку для отдельной экза- менационной выборки B, которая не была использована ни при

— 30 —

нахождении коэффициентов, ни при выборе моделей. В этом слу- чае выборка делится не на две, а на три части:

X W

=

X

X

C

X

B

, y W =

y

y

C

y

B

.

Критерий предсказательной способности имеет вид

3.2.д.

2 (W\B) = y W A W wˆ B 2

y W

y¯ W 2

.

Комбинированный критерий

Этот критерий позволяет использовать при выборе моделей линейную комбинацию нескольких критериев. Комбинированный критерий

k 2 =

K

i=1

α i k

2

i

, при условии нормировки

K

i=1

α i = 1.

Здесь k i — принятые на рассмотрение критерии, а α i — веса этих критериев, назначенные в начале вычислительного эксперимента. Используются также нормализованные значения критериев. При этом предыдущая формула имеет вид

k 2 =

K

i=1

α

i

2

k i

k

2

imax

.

i 2 max берется по вычисленным

значениям критериев для всех порожденных моделей. В данном случае оптимальная модель может быть найдена только после за- вершения настройки параметров всех моделей. Пример распространенного комбинированного критерия — смещение плюс ошибка аппроксимации.

Максимальное значение критерия k

c 2 = η¯ bs + ε¯ 2 (W ) =

1

2

η

2

bs

ε

2

η

2

bs max

ε

2

max

+

— 31 —

,

где ε¯ 2 (W ) — нормализованная среднеквадратичная ошибка ап- проксимации на всей выборке W = C с использованием коэф- фициентов, полученных также на W . Второй пример комбинированного критерия — смещение плюс

регулярность. c 2 2 = η¯

Третий пример — смещение плюс ошибка на тестовой выборке.

2 bs +

∆ ¯ 2 (C).

2

c 3 = η¯

2

bs +

2 (B\W ).

¯

Такой критерий обеспечивает выбор наиболее несмещенных, устойчивых и точных моделей. Здесь ∆(C\W ) — среднеквадра- тичная ошибка, вычисленная на выборке C, с весами, настроен- ными на всей выборке W . Обычно при вычислении критерия c 3 выборку делят на три части в пропорциях = 40%, C = 40% и B = 20%. Выборки и C используются для вычисления критерия минимального сме- щения, а выборка B — для вычисления ошибки предсказания. Для критериев c 1 и c 2 выборка обычно делится на две равные части.

3.2.е.

Парето-оптимальный фронт в пространстве критериев

Парето-оптимальный фронт — альтернатива комбинирован- ным критериям. Выбирается множество внешних критериев, усло- виям оптимальности которых должна удовлетворять модель. Каждой модели ставится в соответствие вектор в пространстве выбранных критериев. Отыскиваются векторы, принадлежащие парето-оптимальному фронту множества всех векторов, соответ- ствующих порожденным моделям. При создании комбинирован- ного критерия рассматриваются модели, критерии которых при- надлежат полученному парето-оптимальному фронту.

— 32 —

3.3. Алгоритм порождения моделей МГУА

Целью МГУА является получение модели в результате пере- бора моделей из индуктивно-порождаемого множества. Парамет- ры каждой модели настраиваются так, чтобы доставить минимум выбранному внешнему критерию. Различают два основных типа алгоритмов МГУА — однорядный и многорядный. Все алгоритмы МГУА воспроизводят схему массовой се- лекции: последовательно порождаются модели возрастающей сложности. Каждая модель настраивается — методом наимень- ших квадратов находятся значения параметров. Из моделей- претендентов выбираются лучшие в соответствии с выбранным критерием. Многорядные алгоритмы могут вычислять остатки регрессионных моделей после каждого ряда селекции или не вы- числять; при этом используются исходные данные. Каждая полиномиальная модель однозначно определяется на- бором индексов s входящих в нее мономов

y = a 0 + w(s) · a(s).

Элементы вектора w — коэффициенты при мономе полинома Колмогорова-Габора; элементы вектора a — результат произве- дения свободных переменных соответствующих мономов. Индек-

сы s ⊆ {1,

Иначе произвольная модель

, F 0 } есть индексы мономов, входящих в модель.

y = w 0 + w(s) · a(s)

порождается набором индексов s ⊆ {1, ответствующие элементы векторов

w

= w 1 ,

, w F 0 и a = a 1 ,

, F 0 }, включающих со-

, a F 0 .

При ограничении степени полинома числом R число мономов полинома равно

F 0 =

R R

r=1

¯

C

P

r

=

r=1

(r + P

1)!

P !(r 1)!

— 33 —

,

а число моделей первого ряда соответственно равно 2 F 0 . Здесь

¯

C

P — число сочетаний с повторениями из P по r, P — число

r

свободных переменных — элементов вектора x.

3.3.а.

Комбинаторный алгоритм

Комбинаторный (однорядный) алгоритм использует только один ряд выбора. При этом порождаются все возможные линей- ные комбинации ограниченной сложности. Так как под сложно- стью понимается число линейно входящих параметров w, то слож- ность не превосходит заданное значение F 0 . Пусть, как и ранее,

y = w 0 +