Вы находитесь на странице: 1из 5

Конспект лекций по предмету “Проектирование алгоритмов”

Лекция 9

МЕТОД НАИМЕНЬШИХ КВАДРАТОВ В СТАТИСТИЧЕСКОМ


МОДЕЛИРОВАНИИ. ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ

Метод сбора статистических данных по природным явлениям, в


экономике, в социальной сфере служит для выявления некоторых
закономерностей в этих явлениях и построения краткосрочных и
долгосрочных прогнозов для этих процессов. В качестве примеров таких
исследований можно привести исследования по изменению экологии.
Тревожные прогнозы по всемирному потеплению, загрязнению атмосферы,
опасность связанная с исгазновением некоторых видов растений и животных
и т.д. служат подтверждением вышесказанного.

Алгоритмы обработки и исследования статистических данных


становятся актуальным и востребованным математическим аппаратом
современной онформационной технологии. Как было сказано выше,
многолетние наблюдения и накопленный материал, при правильном и
грамотном отношении с ним может принести огромную пользу при
планирование дальнейшей деятельности отдельных отраслей, и при
координации действий всего мирового сообщества. В средствах массовой
информации часто появляются сообщения или призывы такого типа.

Мы здесь ознакомимся с одним из подходов построения


математических моделей на основе статистических данных. Предположим,
что в результате наблюдений над некоторым являнием или собрал материал
оформленный в виде таблицы

xi x0 x1 x2 … xn
fi f0 f1 f2 … fn
Здесь xi – моменты времени, которым соответствует значения fi. Мы
пока отвлечемся от реального явления и физической сущности fi. В
реальности fi – может быть температурой, давлением, ценой некоторого
продукта, процент заглязнения атмосферы. Что бы там не было, суть задачи
не меняется. Нам необходимо определить математическую модель
зависимости f от x. Естественно напрашивается вопрос, нельзя-ли
воспользоваться методом интерполяции и построить интерполяционный
полином? В рассматриваемых нами задачах зависимость между x и f не
может быть функциональной, так как существуют множество других
факторов тем или иным образом влияющих на f. В таких случаях
зависимость называют корреляционной. Поэтому построенная
математическая модель в этом случае будет иметь не которую
доверительную вероятность, которая тоже определяется в процессе
построения математической модели.

Идея метода наименьших квадратов состоит в том, что из класса


элементарных функций определенного типа, выбрать наиболее подходящий
для данного случая вид. В качестве базисных можно выбрать многочлены
степени k, которые имеют вид

Pk  x   a0 x k  a1 x k 1  ...  ak 1x  ak . (9.1)

В качестве нормы близости этого многочлена к данной табличной функции


можно выбрать функционал
n
  a0 , a1 ,..., ak 1 , ak     a0 xik  a1 xik 1  ...  ak 1 xi  ak  f i  .
2

i 0 (9.2)

Таким образом приходим к задаче выбора из множества многочленов вида


(9.1) такого, который соответствует минимальному значению функционала
(9.2). Очевидно, что (9.2) имеет единственный минимум при

  n

 a  0 2   a0 xik  a1xik 1  ...  ak 1xi  ak  fi   xik  0


 0 i 0

  n

  0 2  a0 xik  a1 xik 1  ...  ak 1 xi  ak  f i   xik 1  0


 a1  i 0
  

  n

 a  0 2  a0 xik  a1 xik 1  ...  ak 1 xi  ak  f   1  0.


 k i 0
(9.3)

Сокращая на 2 обе части равенство (9.3) и раскрывая скобки приходим к


системе линейных алгебраических уравнений относительно a0 , a1 ,..., ak 1 , ak
 n n n n n

 a0  xi a1  xi ...  ak 1  xi ak  xi   fi xi


2k 2 k 1 k 1 k k

 i 0 i 0 i 0 i 0 i0

 n 2 k 1 n n n n

 0 i 1 i k 1  i k i 
2 k 2 k 1
a x  a x ...  a x k
 a x  fi xik 1
 i 0 i 0 i 0 i 0 i 0
  

 n n n n

 a0  xi a1  xi ...  ak 1  xi   n  1 ak   f i .
k k 1

 i 0 i 0 i 0 i 0 (9.4)

Решив систему (9.4) находим a0 , a1 ,..., ak 1 , ak , подставляя их в формулу


(9.1) находим искомый многочлен. Возникает вопрос выбора наиболее
подходящей степени многочлена (9.1), то есть k. При этом исходя из
известных законов зависимости в природе и в технике ориентируются на
малые значения k.

Мы здесь подробнее остановимся на случае линейной регрессии, то


есть k=1. При этом система (9.4) примет достаточно простой вид

 n 2 n n

 a0  xi a1  xi   fi  xi
 i 0 i 0 i 0
 n n
a
 0 
xi  a1 
 n  1  fi .

i 0 i 0 (9.5)

Если разделить равенства (9.5) на (n+1) и ввести обозначения


n n n n

 xi2  xi  fi xi f i
X 2 i 0
;X i 0
;FX  i 0
;F  i 0
n 1 n 1 n 1 n 1
то решение (9.5) будет представлено в виде

FX FX
a0  2
; a1  F  a0  X .
X2  X
Полученное при этом уравнение

y  f  x   a0 x  a1

называется уравнением линейной регрессии, если обозначим

1 n 2 2

2 2
F2  fi ;  x  X 2  X ;  F2  F 2  F
n  1 i 0
FX FX
K yx 
 x  F (9.7)

K yx
то называется коэффициентом корреляции его значение оценивает
K yx
достоверность построенной модели (2.6). Доказано, что не превосходит
K yx
единицы. Чем ближе значение к единице тем достовернее будет
K
линейная модель (2.6). При малых значениях yx приходится переходить к
более сложным моделям. Например k=2, k=3 или k другим формам
зависимости.

Еще одним из подходов в таких случаях может быть принцип


получивший в алгоритмизации название «разделяй и властвуй». При этом
всю таблицу мы можем разделить на две или более частей и к каждой части в
отдельности применить изложенную методику. В этом случае мы получаем
несколько формул действующих на отдельных интервалах времени

 a0 1 x  a1 1 , 1  x  1
 2
f  t   a0  x  a1  , 1  x   2
2

  3  3
 a0 x  a1 ,  2  x   .

Это соответствует случаю, когда точки координаты которых


соответствуют табличным расположены так как на рисунке

Рисунок 9.1

x
0 α β