Академический Документы
Профессиональный Документы
Культура Документы
Рис. 1
становится линейной.
2
Монотонная функция – функция, приращение которой не меняет знака, то есть всегда либо
неотрицательно, либо неположительно. Если, в дополнение, приращение не равно нулю, функция
называется строго монотонной.
3
при x > 0 .
2
Выберем наугад пару точек ( z1 , y1 ) и ( z 2 , y 2 ) .
Потребуем, чтобы зависимость между y и новой переменной z стала линейной, т.е.
чтобы нашлась прямая y = a12 z + b12 , содержащая обе точки ( z i , y i ) , i=1, 2.
y1 = a12 z1 + b12
Для каждой из выбранных точек справедливо , откуда легко найти
y 2 = a12 z 2 + b12
неизвестные коэффициенты:
y 2 − y1 y1 z1
a12 = и b12 = + .
z 2 − z1 y 2 − y1 z 2 − z1
Взяв другую пару точек ( z 2 , y 2 ) , ( z 3 , y 3 ) , содержащую одну из точек первой пары,
вычислим аналогичным образом коэффициенты прямой y = a 23 z + b23 :
y3 − y 2 y2 z2
a 23 = и b23 = + .
z3 − z 2 y3 − y 2 z 3 − z 2
Возможны следующие варианты взаимного расположения прямых y = a12 z + b12 и
y = a 23 z + b23 на плоскости: параллельность, пересечение и совпадение. Так как
рассматриваемые прямые имеют общую точку ( z 2 , y 2 ) , очевидно, что эти прямые не
параллельны, следовательно, они пересекаются.
Пересекающиеся прямые совпадают, когда совпадают их угловые коэффициенты, т.е.
a12 = a 23 .
Отсюда, необходимым и достаточным условием расположения всех точек ( z i , y i ) на
одной прямой является выполнение равенств:
y i − y i −1
a12 = a 23 = = a N − 2, N −1 = a N −1, N , где ai −1,i = . (1)
z i − z i −1
4
Исходная функция y = f (x) , как и на рис.1, показана гладкой, тогда как фактически речь пойдет о
кусочно-линейной аппроксимации (см. рис. 3-7). При этом под монотонностью такой аппроксимирующей
функции будем понимать сохранение знака наклона отрезков, соединяющих точки, на которых определена
функция.
3
Рис. 2
a12 − a 23 = 0
a 23 − a34 = 0
a − a = 0
34 45
y3 − y2 y1 − y 3 y 2 − y1 0 0 z1 0
0 y 4 − y3 y2 − y4 y3 − y 2 0 z2 0
0 0 y5 − y 4 y3 − y5 y 4 − y3 ⋅ z 3 = 0 .
0 0 0 0 0 z4 0
0 0 0 0 0 z 5 0
4
Очевидно, переменные z 4 и z 5 могут принимать любые значения, а оставшиеся z3 , z2 и
z1 определяются по формулам, включающим уже известные значения z :
y5 − y3 y − y4 y − y2 y − y3
z3 = z4 + 3 z5 , z2 = 4 z3 + 2 z4 ,
y5 − y 4 y5 − y 4 y 4 − y3 y 4 − y3
(*)
y − y1 y − y2
z1 = 3 z2 + 1 z3
y3 − y 2 y3 − y 2
80,0
70,0
60,0
50,0
40,0
y
30,0
20,0
10,0
0,0
0 100 200 300 400 500
x
Рис. 3а
5
«Свободными» переменными могут быть не только последние две точки ( x 4 , y 4 ) , ( x5 , y 5 ) , но любые
другие две точки. Покажем это.
Предположим, что произвольным образом задаются преобразования для 1-й и 3-й точек (т.е. z1 и z 3 ):
Точка ( x1 , y1 ) ( x2 , y 2 ) ( x3 , y 3 ) ( x4 , y 4 ) ( x5 , y 5 )
Преобразование z1 (с) z2 z 3 (с) z4 z5
Перенумеруем точки так, чтобы первая и третья исходные точки в новых обозначениях стали бы
предпоследней и последней соответственно:
Новое обозначение (~
x1 , ~
y1 ) (~
x 2 , ~y 2 ) (~
x3 , ~
y3 ) (~
x 4 , ~y 4 ) (~
x5 , ~
y5 )
Исходное обозначение ( x4 , y 4 ) ( x2 , y 2 ) ( x5 , y 5 ) ( x1 , y1 ) ( x3 , y 3 )
Преобразование z4 z2 z5 z1 (с) z 3 (с)
В новых обозначениях задача решается аналогично записанной в исходных.
5
Вариант 1. Возьмем в качестве значений свободных переменных z 4 = 1 , z 5 = 2 и из
формул (*) найдем оставшиеся переменные:
12,8 − 31,2 31,2 − 15,7 15,7 − 51,2 51,2 − 31,2
z3 = ⋅1 + ⋅ 2 = −4,34 , z 2 = −4,34 ⋅ + ⋅ 1 = −11,17 ,
12,8 − 15,7 12,8 − 15,7 15,7 − 31,2 15,7 − 31,2
31,2 − 70,7 70,7 − 51,2
z1 = −11,17 ⋅ − 4,34 ⋅ = −17,86 .
31,2 − 51,2 31,2 − 51,2
Заметим, что выбор значений свободных переменных нельзя признать удобным, т.к.
привел к тому, что некоторые из значений преобразованных переменных zi приняли
отрицательные значения (рис. 3б) тогда как все исходные были положительными.
80,0
70,0
60,0
50,0
40,0
y
30,0
20,0
10,0
0,0
-20,00 -15,00 -10,00 -5,00 0,00 5,00
z
Рис. 3б
80,0
70,0
60,0
50,0
40,0
y
30,0
20,0
10,0
0,0
0,00 5,00 10,00 15,00 20,00 25,00
z
Рис. 3в
6
Вариант 3. Адекватным 6 преобразованием для заданного набора точек будет, например,
следующее:
( x1 , y1 ) ( x2 , y 2 ) ( x3 , y 3 ) ( x4 , y 4 ) ( x5 , y 5 )
Точка
(30;70,7) (50;51,2) (75;31,2) (200;15,7) (400;12,8)
z1 z2 z3 z 4 (с) z 5 (с)
Преобразование
0,05 0,45 0,86 1,18 1,24
80,0
70,0
60,0
50,0
40,0
y
30,0
20,0
10,0
0,0
0,00 0,20 0,40 0,60 0,80 1,00 1,20 1,40
z
Рис. 3г
f 2 ( f 3 ( z 4 , z 5 ), z 4 ) < f 3 ( z 4 , z 5 )
f ( f ( f ( z , z ), z ), f ( z , z )) < f ( f ( z , z ), z )
1 2 3 4 5 4 3 4 5 2 3 4 5 4
f1 ( f 2 ( f 3 ( z 4 , z 5 ), z 4 ), f 3 ( z 4 , z 5 )) > 0
6
Адекватным считаем такое линеаризующее преобразование, которое сохраняет знак приращения функции
(убывающая, возрастающая) и диапазон изменения (квадрант) значений влияющей переменной (x>0, z>0).
7
или
z 4 < z5
6,34 z − 5,34 z < z4
4 5
Рис. 3д
Видно, что условия адекватного преобразования 7 могут быть выполнены при задании не
единственной пары значений «свободных» переменных. Это означает, что наборов
линеаризованных переменных z i , и, следовательно, линеаризующих прямых
y = g ( z ) ≡ f ( z ( x)) может быть достаточно много.
7
когда оно существует
8
2. Статистическая модель
В детерминированной модели предполагалось, что существует однозначное соответствие
между значениями влияющей и зависимой переменными, т.е. для каждого xi
существовало только одно значение y i такое, что y i = f ( xi ) , и наоборот.
Предположим теперь, что взаимно-однозначное соответствие не выполняется, т.е. всякому
xi ставится в соответствие случайная величина y , которая принимает не единственное
значение.
Рассмотрим f (x) — нелинейную аппроксимирующую функцию дискретного аргумента,
заданную на множестве точек {( xi , yi )} , причем обязательно найдутся индексы l, m при
которых y l ≠ y m , xl = x m . Будем считать, что существует всего k различных значений xi .
Аппроксимирующую функцию построим методом наименьших квадратов 8 из условия:
N
min TSS = min ∑ ( y i − f ( xi )) 2 ,
i =1
(3)
где TSS – сумма квадратов остатков модели.
8
Метод наименьших квадратов — статистический метод определения параметров …путем минимизации
критериев суммы квадратов отклонений между фактическими и расчетными данными. Словарь бизнес-
терминов. 2000: http://dic.academic.ru/dic.nsf/business/7781;
9
В формуле (5) преобразуем выражение, стоящее под знаком суммы:
min( yni + ∆ j − a0 − a=
a0 , a1
1 zi )
2
a0 , a1
(
min ( yni − a0 − a1 zi ) 2 + 2∆ j ( yni − a0 − a1 zi ) +=
∆ j2 )
(
= min ( yni − a0 − a1 zi ) 2 + 2∆ j ( yni − a0 − a1 zi ) + ∆ j 2 ,
a0 , a1
)
и получим
∑∑ ( min ( ( y ) )
k ni
min=
TSS (a0 , a1 ) ni − a0 − a1 zi ) 2 + 2∆ j ( yni − a0 − a=
1 zi ) + ∆ j
2
a0 , a1 a0 , a1
=i 1 =j 1
(6)
∑∑ min ( ( y )
k ni k ni
= ni − a0 − a1 zi ) + 2∆ j ( yni − a0 − a1 zi ) + ∑∑ ∆ j .
2 2
a0 , a1
=i 1 =j 1 =i 1 =j 1
Таким образом, TSS (a 0 , a1 ) может быть представлено в виде суммы SS1 (a 0 , a1 ) и SS 2 , где
ni
( )
k ni k
=
SS1 (a0 , a1 ) ∑∑ min ( yni − a0 − a1 zi )2 + 2∆ j ( yni − a0 − a1 zi ) ,
=i 1 =j 1
a0 , a1
SS 2 = ∑∑∆
i =1 j =1
j
2
.
Рис. 4
10
Рассмотрим пример линеаризующего преобразования при нахождении регрессионной
зависимости.
Пусть задана выборка, состоящая из 30 точек {( xi , yi )} и описывающая наблюдаемую
нелинейную зависимость 9 между влияющей и зависимой переменными:
(30;77,7), (30;72), (30;69), (30;67,5), (30;72,3), (30;65,5),
(50;48,9), (50;47), (50;50), (50;53,5), (50;51), (50;56,6),
(75;31,4), (75;32,4), (75;35), (75;33), (75;27,3), (75;28,3),
(200;20), (200;19,4), (200;16), (200;15), (200;13,6), (200;10),
(400;10), (400;11,6), (400;12,3), (400;13,4), (400;14,2), (400;15).
По этой выборке построим сначала линейную аппроксимирующую функцию вида
h( x) = a 0 + a1 x . В MS Excel с помощью встроенной функции ЛИНЕЙН() получены
следующие значения регрессионных статистик:
Коэффициент уравнения a1 -0,13 55,60 a0 Свободный член уравнения
90,0
80,0
70,0
60,0
50,0
y
20,0
10,0
0,0
0 100 200 300 400 500
x
Рис. 5а
9
Подобным образом может зависеть, например, арендная плата за торговые помещения от расстояния (в
определенном диапазоне изменения) до границ мощного локального центра влияния (при прочих равных).
11
В каждом подмножестве M i вычислим среднее значение случайной величины y i и
сформируем пять точек ( zi , yni ) : ( z1 ;70,7) , ( z 2 ;51,2) , ( z 3 ;31,2) , ( z 4 ;15,7) , ( z 5 ;12,8) .
Для этих пяти точек сформулируем условия (2*) в виде:
a~12 − a~23 = 0
~ ~ ~ yni − yni−1
a 23 − a34 = 0 , где ai −1,i = . (**)
a~ − a~ = 0 zi − zi −1
34 45
Способ решения полученной системы уравнений детально описан выше для случая
детерминированной модели.
Адекватным преобразованием 10 для точек ( zi , yni ) будут значения: z1 = 0,05 , z 2 = 0,45 ,
z 3 = 0,86 при заданных «произвольных» z 4 = 1,18 и z 5 = 1,24 .
Для аппроксимирующей функции g ( z ) = a~ + a~ z , заданной на исходном множестве из 30
0 1
a1 -48,611 73,028 a0
S a1 1,28 1,13 S a0
R2 0,98 3,17 S ост.
F расч. 1437,83 28 n − k −1
90,0
80,0
70,0
60,0
50,0
y
40,0
30,0
20,0
10,0
0,0
0 0,2 0,4 0,6 0,8 1 1,2 1,4
z
Рис. 5б
10
См. выше в разделе Детерминированная модель
11
Получены в MS Excel с помощью встроенной функции ЛИНЕЙН(). Отображены два знака после запятой.
12
См., например, Руководство пользователя . Microsoft® Excel. Версия 5.0 (или более поздняя)
12
Применение численного метода оптимизации предполагает наличие начального
приближения, которое можно задать произвольным образом (например, z1 = 1 , z 2 = 2 ,
z 3 = 3 , z 4 = 4 , z 5 = 5 ), но обязательно сохраняя порядок следования (нарастания значений)
меток 13 аналогичным порядку нарастания значений xi .
M 1 = {(1;77,7), (1;72), (1;69), (1;67,5), (1;72,3), (1;65,5)} ,
M 2 = {(2;48,9), (2;47), (2;50), (2;53,5), (2;51), (2;56,6)} ,
M 3 = {(3;31,4), (3;32,4), (3;35), (3;33), (3;27,3), (3;28,3)} ,
M 4 = {(4;20), (4;19,4), (4;16), (4;15), (4;13,6), (4;10)} ,
M 5 = {(5;10), (5;11,6), (5;12,3), (5;13,4), (5;14,2), (5;15)} .
90,0
80,0
70,0
60,0
50,0
y
40,0
30,0
20,0
10,0
0,0
0,00 1,00 2,00 3,00 4,00 5,00 6,00
z
Рис. 5в
Это – промежуточный результат нахождения линеаризующей функции,
соответствующий начальному приближению значений z i , произвольно заданному лишь
с учетом ограничений на неотрицательность и монотонность следования меток.
Теперь с помощью инструмента Solver, подберем значения z i , минимизирующие сумму
квадратов остатков TSS (a 0 , a1 ) , что эквивалентно максимизации коэффициента
детерминации R 2 .
Не забудем учесть условия адекватности преобразования 14, для чего в диалоговом окне
инструмента Solver введем ограничения (условия неотрицательности и монотонности)
на допустимые значения z i (рис. 6).
13
В работе [3] показано, что при отсутствии такого ограничения в результате преобразования координат
может быть нарушен порядок следования (нарастания значений) меток и получены зависимости,
противоречащие экономическим гипотезам, отражающим закономерности ценообразования на рынке.
14
См. выше в разделе Детерминированная модель
13
Рис. 6
a1 -16,507 87,174 a0
S a1 0,44 1,46 S a0
R2 0,98 3,17 S ост.
F расч. 1437,83 28 n − k −1
15
Приведены значения, округленные до двух знаков после запятой.
14
90,0
80,0
70,0
60,0
50,0
y
40,0
30,0
20,0
10,0
0,0
0,00 1,00 2,00 3,00 4,00 5,00
z
Рис. 5г
Рис. 7
16
Строго говоря, сравниваемые преобразования не являются тождественными, т.к. в первом случае значения
z i определены по пяти средним значениям случайной величины yi , а во втором – по минимуму
квадратов отклонений тридцати значений самой величины yi
15
Итак, аналитическим расчетом либо оптимизационной процедурой с корректным
использованием инструмента Solver решается задача учета в аддитивной
регрессионной модели нелинейной монотонной зависимости y = f (x) , заданной на
конечном множестве точек, путем адекватного преобразования z = z (x) исходной
влияющей переменной.
При этом существенно улучшаются показатели точности регрессионной модели по
сравнению с моделью без такого преобразования (линейной по x ).
Также очевидно, что адекватных преобразований может быть несколько в зависимости
от заданных значений «свободных» переменных (начальных условий оптимизации).
Литература
17