Академический Документы
Профессиональный Документы
Культура Документы
А. А. Аргучинцева
Учебное пособие
Иркутск 2007
1
УДК 551.46+551.501
ББК 26.23
А 79
Печатается по решению редакционно-издательского совета
Иркутского государственного университета
Аргучинцева А. В.
Методы статистической обработки и анализа гидрометеороло-
А 79 гических наблюдений : учеб. пособие / А. В. Аргучинцева. –
Иркутск : Иркут. гос. ун-т, 2007. – 105 с.
ISBN 978-5-9624-0165-2
УДК 551.46+551.501
ББК 26.23
2
ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ 5
1. КРАТКИЕ СВЕДЕНИЯ ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ
И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ 6
1.1. Основные понятия 6
1.2. Введение в теорию ошибок 18
1.2.1. Особенности обработки ограниченного числа
наблюдений. Оценки для неизвестных параметров
закона распределения 21
1.2.2. Оценки для неизвестных параметров генеральной
совокупности: математического ожидания и дисперсии 23
1.3 Множественное линейное уравнение регрессии. Множественный
коэффициент корреляции 27
1.4 Метод наименьших квадратов 33
1.4.1. Линейная связь между двумя случайными величинами 33
1.4.2 Построение нелинейных уравнений множественной
регрессии 35
2. СЛУЧАЙНЫЕ ФУНКЦИИ 38
2.1. Основные понятия 38
2.2. Основные характеристики случайной функции 41
2.3. Система случайных функций 46
2.4. Суммирование случайных функций 49
2.5. Стационарные случайные функции 51
2.5.1. Система стационарных случайных функций 54
2.6. Положительно определенные функции 57
2.7. Свойство эргодичности случайных процессов 57
3
2.8. Структурная функция 60
2.9. Случайные поля 63
2.9.1. Основные понятия 63
2.9.2. Однородные и изотропные случайные поля и их
характеристики 66
2.10. Экстраполяция, интерполяция и сглаживание случайных
функций 69
2.11. Влияние ошибок измерения на статистические характеристики
корреляционного анализа 72
3. ЧИСЛЕННЫЙ АНАЛИЗ ГИДРОМЕТЕОРОЛОГИЧЕСКОЙ
ИНФОРМАЦИИ 73
3.1. Метод полиномиальной интерполяции 75
3.2. Метод оптимальной интерполяции 80
3.3. Четырехмерный численный анализ 93
3.4. Метод контроля исходной информации 95
4
ВВЕДЕНИЕ
В настоящее время остро ощущается недостаток учебной ли-
тературы, в которой методически и в разумных пределах строгости
были бы освещены необходимые разделы для освоения грамотной
статистической обработки и анализа гидрометеорологических на-
блюдений. Дисциплина относится к основополагающим курсам в
системе подготовки высококвалифицированных специалистов, не-
зависимо от их специализации в области гидрометеорологии.
Цель пособия – освоение теоретических и практических ос-
нов прикладного статистического анализа.
Пособие рассчитано на знание основ математического анали-
за, теории вероятностей и математической статистики в рамках
программного курса для студентов, обучающихся по специально-
стям гидрология, метеорология или по направлению гидрометео-
рология. Материал, изложенный в пособии, может оказать сущест-
венную помощь и при изучении таких дисциплин, как «Гидроло-
гические прогнозы», «Численные методы анализа и прогноза пого-
ды», «Синоптическая метеорология», «Речной сток и гидрологиче-
ские расчеты», «Водохозяйственные расчеты», «Моделирование в
задачах охраны окружающей среды».
Учебное пособие состоит из введения, трех глав, списка ос-
новной и дополнительной литературы в алфавитном порядке.
Формулы имеют тройную нумерацию: первая цифра – номер гла-
вы, вторая – номер параграфа в соответствующей главе, третья –
номер формулы в рассматриваемом параграфе. Количество рисун-
ков ограничено, а потому их нумерация сквозная.
5
1. КРАТКИЕ СВЕДЕНИЯ
ИЗ ТЕОРИИ ВЕРОЯТНОСТЕЙ
И МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
6
висит от столь большого числа факторов, что практически невоз-
можно зарегистрировать и учесть все эти факторы. Это – задачи, в
которых многочисленные второстепенные, тесно переплетающие-
ся между собой случайные факторы играют заметную роль, а вме-
сте с тем число их так велико и влияние столь сложно, что приме-
нение методов исследования «точных наук» себя не оправдывает.
Очевидно, должна существовать принципиальная разница в
методах учета основных, решающих факторов, определяющих в
главных чертах течение явления, и вторичных, второстепенных
факторов, влияющих на течение явления в качестве «погрешно-
стей» или «возмущений». Элемент неопределенности, сложности,
многопричинности, присущий случайным явлениям, потребовал
создания специальных методов для изучения этих явлений. Имен-
но такие методы разработаны в теории вероятностей, математиче-
ской статистике, теории случайных процессов.
Практика показывает, что, наблюдая в совокупности массы
однородных случайных явлений, обычно обнаруживаются опреде-
ленные закономерности, своего рода устойчивости, свойственные
именно массовым случайным явлениям.
Подобные специфические, так называемые «статистические»,
закономерности наблюдаются всегда, когда мы имеем дело с мас-
сой однородных случайных явлений. Закономерности, проявляю-
щиеся в этой массе, оказываются практически независимыми от
индивидуальных особенностей отдельных случайных явлений,
входящих в массу. Эти отдельные особенности в массе как бы вза-
имно погашаются, нивелируются, и средний результат массы слу-
чайных явлений оказывается уже практически не случайным.
Именно эта многократно подтвержденная опытом устойчивость
массовых случайных явлений и служит базой применения вероят-
ностных (статистических) методов исследования.
Обычно случайные величины обозначают большими
(прописными) буквами латинского алфавита, а их возможные зна-
чения – соответствующими малыми (строчными) буквами с цело-
7
численными индексами. Например, случайная величина X с воз-
можными значениями x1 , x 2 ,..., x n . Рассматривают случайные ве-
личины двух типов: дискретные и непрерывные. Возможные зна-
чения дискретных величин можно перечислить (количество гид-
рометеорологических станций и постов в городе, количество теле-
фонных звонков, поступающих абоненту в сутки, количество сту-
дентов в группе и пр.). Возможные значения непрерывных вели-
чин заполняют некоторый промежуток, который иногда имеет
резко выраженные границы, а чаще – границы неопределенные,
расплывчатые. Примеры непрерывных величин – давление, модуль
скорости ветра, температура среды, рост человека и пр.
Необходимо вспомнить, что в теории вероятностей и матема-
тической статистике давались определения
m
классической вероятности – P = ,
n
где n – общее число исходов, m – число исходов, благоприятст-
вующих появлению интересуемого события. Иначе классическую
вероятность можно назвать теоретической вероятностью, или ве-
роятностью генеральной совокупности, или вероятностью до опы-
та (apriori). Определить такую вероятность можно при условии,
что для случайных событий выполнима схема случаев, т. е. выпол-
няются три условия: события образуют полную группу, несовме-
стны и равновозможны.
Если хотя бы одно из трех условий не выполняется, то опре-
делить классическую (теоретическую) вероятность нельзя. В этом
случае необходимо проделать серию опытов и определить так на-
зываемую
m
статистическую вероятность – P * = ,
n
где n – общее число опытов, m – число опытов, в которых появи-
лось (наблюдалось) интересуемое событие. Иначе статистическую
вероятность можно назвать эмпирической, или вероятностью выбо-
рочной совокупности, или вероятностью после опыта (a posteriori).
8
Между статистической и классической вероятностью суще-
ствует связь, определяемая законом больших чисел в виде теоремы
Бернулли (студенту предлагается вспомнить).
Случайная величина полностью определяется законом рас-
пределения (для дискретных величин – это ряд распределения или
функция распределения, для непрерывных величин – это функция
распределения или функция плотности вероятности).
Ряд (таблица) распределения – это задание возможных зна-
чений случайной величины с соответствующими вероятностями.
Например,
Х х1 х2 … хn
Р p1 p2 … pn
n
Здесь ∑ pi = 1 , n – либо общее число исходов, либо число
i =1
9
т. е. функция обеспеченности показывает вероятность превышения
некоторого заданного значения x и обладает свойствами:
при x 2 > x1 P (x 2 ) ≤ P (x 1 ) ;
lim P(x ) = 1, lim P(x ) = 0 ;
x → −∞ x → +∞
10
Однако найти конкретный закон распределения для случай-
ной величины не всегда возможно, а иногда и не нужно. Поэтому
часто достаточно охарактеризовать поведение случайной величи-
ны числовыми характеристиками, из которых студенту надо
вспомнить обыкновенные (степенные) начальные, центральные и
смешанные моменты. Чтобы четко понимать различие и сходство
моментов теоретических и статистических, условимся в левой по-
ловине листа записывать моменты теоретические, а в правой – ста-
тистические, разделяя их вертикальной чертой.
11
+∞
∑x i
α1 = = x – простое среднее
i =1
n
арифметическое
12
Начальные моменты выше первого порядка самостоятель-
ного значения не имеют и используются как вспомогательные
для более быстрого вычисления центральных моментов.
кретной величины n
∑ (x − x )
n
k
+∞ i
μ k = ∫ ( x − m x ) k f ( x )dx μk = i =1
−∞ n
для непрерывной величины
дискретной величины μ 2 = D в = i =1 ,
n
+∞ n
μ 2 = D = ∫ ( x − m x ) 2 f ( x )dx ∑ (x i − x )
2
−∞
μ 2 = D в = i =1 ,
для непрерывной величины n
n
∑ (x i − x )
2
i =1
μ 2 = Dв = для n < 30
n −1
13
На практике измерить все значения случайной величины не
всегда возможно. В этих случаях поступают следующим образом:
в расчет включают дополнительную характеристику, которая по-
зволяет по среднему значению, полученному на основании огра-
ниченного числаn n наблюдений, судить об общей (истинной)
величине средней всей совокупности. Такого рода характеристи-
ками являются средние случайные ошибки. Так, средняя ошибка
n
∑ xi − X
i =1
средней арифметической δ x = , а средняя ошибка сред-
n n
n
∑ (x i − X )
2
i =1 σ
него квадратического отклонения δ σ = = . От-
n n
δσ
ношение должно находиться в пределах 1,25 ÷ 1,30 , согласно
δx
которым случайные ошибки подчиняются закону нормального
распределения.
μ3
∑ (x i − m x ) 3 p i μ3
∑ (x i − x) 3 n i
i =1 i =1
A= = Aв = 3
=
σ 3
σ 3
σ nσ 3
для дискретной величины
+∞ n
∫ ( x − m x ) f ( x )dx ∑ (x i − x) 3
3
μ μ3
A = 33 = −∞
Aв = = i =1
σ σ 3
σ 3
nσ 3
для непрерывной величины
14
практике принято асимметрию при значении A ≤ 0,25 считать
малой, 0,25 < A ≤ 0,5 – умеренной, A > 0,5 – большой, A > 1,5
– исключительно большой.
n n
μ ∑ (x i − m x ) pi4
μ4 ∑ (x i − x)4 n i
E x = 44 − 3 = i =1 −3 E x = 4 − 3 = i=1 −3
σ σ4 σ nσ 4
для дискретной величины
+∞ n
μ4 ∫ ( x − m ) f ( x )dx
x
4
μ4 ∑ (x − x) i
4
Ex = − 3 = −∞ −3 Ex = −3= i =1
−3
σ 4
σ4 σ4 nσ 4
для непрерывной величины
15
провал, что соответствует генетической неоднородности ряда
случайных величин. Оценки эксцесса колеблются в [− 2, ∞[ . Если
E x = −2 – кривая распределения распадается на две отдельные,
при − 0,5 < E x < 3 считают, что распределение приближается к
нормальному.
Центральные моменты выше четвертого порядка на практи-
ке используются очень редко из-за быстрого накопления ошибок
округления при расчетах.
Коэффициент корреляции между двумя случайными величинами
Х и У характеризует степень тесноты линейной зависимости.
n n
∑ ∑ (x i − m x )(y j − m y )pij n n
rxy =
i =1 j=1
∑ ∑ (x i − x )(y j − y )n ij
σx σy i =1 j=1
rxy =
для дискретной величины nσ x σ y
+∞ +∞
∑ ∑ (x i − x )(y j − y )
n n
∫ ∫ (x − m x )(y − m y )f ( x, y)dxdy i =1 j=1
−∞ −∞ rxy =
rxy =
σx σ y nσ x σ y
для непрерывной величины n
∑ (x i − x )(yi − y )
rxy = i =1 при i=j.
nσ x σ y
16
Если rxy < 0 , то говорят об отрицательной корреляции, т. е. с
увеличением одной случайной величины другая имеет тенден-
цию убывать.
Из характеристик разброса:
размах R = x max − x min ,
n
∑X−X
i −1
среднее абсолютное отклонение d = ,
n
σx
коэффициент вариации ν= 100% , или ν=
σx
100 % , ис-
mx X
пользуемый для оценки однородности (неритмичности) рядов. На
практике при коэффициенте вариации более 33 % необходимо
тщательно проанализировать рассматриваемый ряд случайных ве-
личин, чтобы выяснить причину его неоднородности. Такие при-
17
чины могут быть обусловлены грубыми ошибками наблюдателя
или оператора, антропогенным вмешательством человека, клима-
тическими изменениями и пр. Ошибки необходимо устранить, ли-
бо разбить ряд на однородные части.
18
жем больше промедлить при запуске и недооценить время оборо-
та, или больше задержаться при остановке секундомера и переоце-
нить время. Так как обе возможности равновероятны, то знак эф-
фекта случаен. При многократном повторении измерения мы ино-
гда будем переоценивать время полного оборота диска, а иногда –
недооценивать. Таким образом, переменное время нашей реакции
проявится в различии полученных результатов. Анализируя раз-
брос в результатах методами статистики, мы можем получить
очень достоверную оценку ошибки этого (случайного) типа.
С другой стороны, если наш секундомер постоянно отстает,
то все измеренные значения времени будут недооценены и ника-
кое количество повторений измерений (с тем же секундомером) не
обнаружит этого источника ошибок. Ошибка такого типа называ-
ется систематической, поскольку она всегда систематически сме-
щает наш результат в одну и ту же сторону. Систематические
ошибки нельзя обнаружить статистическими методами.
В качестве второго примера проявления случайных и систе-
матических ошибок рассмотрим измерение точно определенной
длины с помощью рулетки. Один из источников погрешности – это
необходимость в интерполяции между делениями шкалы, и эта по-
грешность, очевидно, случайна (при интерполяции мы с равной
вероятностью как переоцениваем, так и недооцениваем результат).
Но имеется также вероятность того, что наша рулетка дефектна, а
это уже будет приводить к систематической ошибке.
Подобно этим двум примерам почти все измерения подвер-
жены как случайным, так и систематическим погрешностям. Не-
обходимо обратить внимание на то, что типичные источники слу-
чайных погрешностей – это небольшие ошибки наблюдателей (как
например, в случае с интерполяцией); небольшие помехи, воздей-
ствующие на аппаратуру (подобные механическим вибрациям) и
др. Наиболее очевидная причина систематических ошибок – это
раскалибровка измерительных приборов (отстающий секундомер,
19
вытянутая линейка, неустановленная точно на нуле стрелка прибо-
ра и др.).
Различия между случайными и систематическими ошибками
не всегда можно ясно определить. Например, при изменении по-
ложения головы наблюдателя по отношению к типичному стре-
лочному прибору результаты считывания могут изменяться. Этот
эффект называется параллаксом, и он приводит к тому, что пра-
вильное считывание со шкалы возможно только в случае, когда
взгляд наблюдателя направлен точно по перпендикуляру к стрел-
ке. Однако даже очень аккуратному наблюдателю не всегда удает-
ся правильно направить свой взгляд на стрелку, а потому измере-
ния будут содержать малые погрешности, связанные с параллак-
сом, и эти погрешности будут, вероятно, случайными. С другой
стороны, неосторожный экспериментатор, который поставит стре-
лочный прибор сбоку от себя и забудет о влиянии параллакса, вне-
сет систематическую ошибку во все свои измерения. Таким обра-
зом, один и тот же эффект параллакса может привести и к случай-
ным, и к систематическим погрешностям.
Учет случайных ошибок совершенно отличен от учета сис-
тематических. Статистические методы дают достоверную оценку
случайных погрешностей и, как мы увидим ниже, указывают на
точно определенный способ их уменьшения. Систематические
ошибки бывает трудно оценить и даже обнаружить. Опытный на-
блюдатель должен уметь предвидеть возможные источники систе-
матических ошибок и позаботиться о том, чтобы все систематиче-
ские ошибки были меньше требуемой точности наблюдения. Для
этого потребуется, например, проверка используемых приборов по
принятым стандартам, или даже, если необходимо, приобретение
более совершенных приборов.
Если мы производим n измерений некоторой величины X
(используя одну и ту же аппаратуру и метод измерения) и получа-
ем n значений: x1 , x 2 ,..., x n , то наилучшей оценкой величины X
будет ее среднее значение:
20
n
∑ xi
i =1
X наил = X = .
n
Если принять, что X – это наилучшая оценка величины X ,
то естественно рассмотреть разность x i − X = d i . Эта разность,
называемая отклонением (или остатком) x i от X , показывает, на-
сколько результат i-го измерения отличается от своего среднего
значения. Если все d i малы, то наши измерения сделаны сравни-
тельно точно, в противном случае – результаты грубы.
Часто вместо d i находят среднее квадратическое отклонение:
n
∑ (x i − X )
2
i =1
σ= .
n
21
Прежде всего, надо отметить, что любое значение искомого
параметра, вычисленное на основе ограниченного числа опытов,
всегда будет содержать элемент случайности. Такое приближенное
случайное значение мы будем называть оценкой параметра. На-
пример, оценкой для математического ожидания может служить
среднее арифметическое наблюдаемых значений случайной вели-
чины в n независимых опытах. При очень большом числе опытов
среднее арифметическое будет с большой вероятностью весьма
близко к математическому ожиданию. Если же число опытов n
невелико, то замена математического ожидания средним арифме-
тическим приводит к какой-то ошибке. Эта ошибка в среднем тем
больше, чем меньше число опытов. Также будет обстоять дело и с
оценками других неизвестных параметров генеральной совокупно-
сти. Любая из таких оценок случайна; при пользовании ею неиз-
бежны ошибки. Желательно выбрать такую оценку, чтобы эти
ошибки были по возможности минимальны.
Рассмотрим следующую общую задачу. Имеется случайная
величина X , закон распределения которой содержит неизвестный
параметр а. Требуется найти подходящую оценку для параметра а
по результатам n независимых опытов, в каждом из которых ве-
личина X приняла определенные значения: x 1 , x 2 ,..., x n .
Обозначим через ~ a оценку параметра а, которая естественно
есть функция x i i = 1,2,...,n
~ a (x1 , x 2 ,..., x n )
a=~
и, следовательно, сама является случайной величиной. Закон рас-
пределения ~a зависит, во-первых, от закона распределения вели-
чины X (в частности, от самого неизвестного параметра а) и, во-
вторых, от числа опытов n . Предъявим к оценке ~ a ряд требова-
ний, которым она должна удовлетворять, чтобы быть в каком-то
смысле «доброкачественной» оценкой.
Естественно потребовать от оценки ~a , чтобы при увеличении
числа опытов N она приближалась (сходилась по вероятности) к
22
параметру а. Оценка, обладающая таким свойством, называется
состоятельной.
Желательно, чтобы, пользуясь величиной ~a , мы, по крайней
мере, не делали систематической ошибки в сторону завышения
или занижения, т. е. чтобы выполнялось условие:
M(~a)= a .
Оценка, удовлетворяющая такому условию, называется не-
смещенной.
Наконец, желательно, чтобы выбранная несмещенная оценка
обладала (по сравнению с другими) наименьшей дисперсией, т. е.
D(~a ) = min . Оценка, обладающая таким свойством, называется эф-
фективной.
На практике не всегда удается удовлетворить всем этим трем
требованиям. Например, может оказаться, что даже если эффек-
тивная оценка существует, формулы для ее вычисления оказыва-
ются слишком сложными и приходится удовлетворяться другой
оценкой, дисперсия которой несколько больше. Иногда применя-
ются, в интересах простоты расчетов, незначительно смещенные
оценки. Однако выбору оценки всегда должен предшествовать ее
критическое рассмотрение со всех перечисленных выше точек
зрения.
23
n
∑ xi
~ =X=
m . i =1
x
n
Согласно Закону больших чисел эта оценка является состоя-
тельной, так как при увеличении опытов n величина m~ сходится
по вероятности к m .
Оценка m ~ является и несмещенной, так как
x
⎛ n ⎞
⎜ ∑ xi ⎟
~ ) = M (X ) = M⎜ i=1 ⎟ = 1 M⎛⎜ x ⎞⎟ = 1 M (X ) = 1 nm = m .
n n
M (m x ∑ ∑
⎜ n ⎟ n ⎝ i=1 i ⎠ n i=1 n
x x
⎜ ⎟
⎝ ⎠
Здесь и в дальнейшем используется условие, что операции
суммирования и математического ожидания перестановочны.
⎛ n ⎞
⎜ ∑ xi ⎟
~ ) = D⎜ i =1 ⎟ = 1 nD = D x
Дисперсия оценки D(m x x .
⎜ n ⎟ n2 n
⎜ ⎟
⎝ ⎠
Эффективность или неэффективность оценки зависит от вида
закона распределения случайной величины Х. Можно доказать,
что если Х распределена по нормальному закону, то дисперсия бу-
дет минимально возможной, т. е. оценка m~ является эффектив-
x
ной. Для других законов распределения это может быть и не так.
Перейдем теперь к оценке для неизвестной дисперсии D x ге-
неральной совокупности. Наиболее естественной оценкой пред-
ставляется дисперсия выборки D в .
n
∑ (x i − X )
2
~ i =1
D x = Dв = .
n
Проверим, является ли эта оценка состоятельной. Для этого
выразим оценку через начальные оценочные моменты α ~ (где це-
k
лочисленный индекс к определяет порядок момента):
24
~ ~ −α~2.
D = Dв = α 2 1
Из Закона больших чисел при n → ∞ оценочные моменты
выборки сходятся по вероятности к соответствующим начальным
моментам генеральной совокупности, т. е. с вероятностью P → 1
~ →α , α~ → α , а потому D ~
α1 1 2 2 x → D x , и мы можем утверждать, что
оценка состоятельна.
~ ~
Проверим, является ли оценка D несмещенной: M D = D . ( )
Найдем сначала
2 n
n
⎛ n ⎞ n n
∑ x i2 ⎜∑ i ⎟
x ∑ i ∑ i
x 2
x 2
∑ xix j
~ ~ ~2 − ⎜ i=1 ⎟ = i=1 − i=1 2 − 2
i =1 i < j
D=α 2 − α1 = =
n ⎜ n ⎟ n n n 2
⎜ ⎟
⎝ ⎠
n
∑ xix j
n −1 n 2 i< j
= 2 ∑ xi − 2 .
n i=1 n2
Теперь найдем
~ n −1 ⎛ n
( ) ⎞ 2 ⎛n ⎞ n −1 n
( )
M D = 2 M⎜ ∑ x i2 ⎟ − 2 M⎜⎜ ∑ x i x j ⎟⎟ = 2 ∑ M x i2 − 2 ∑ M (x i x j ).
2 n
n ⎝ i=1 ⎠ n ⎝ i< j ⎠ n i=1 n i< j
Так как дисперсия не зависит от выбора начала координат, то
~ . Так как опыты независимы, то
выберем его в точке X = m x
M (x i x j ) = M⎜ X i ⎟M⎜ X j ⎟ = K ij = 0 , где M⎜ X i ⎟ и M⎜ X j ⎟
⎛ 0 ⎞ ⎛ 0 ⎞ ⎛ 0 ⎞ ⎛ 0 ⎞
⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠
– математические ожидания центрированных величин, K ij – вто-
рой центральный смешанный корреляционный момент.
~ n −1 n −1
Поэтому M (D ) = 2 nD x = Dx .
n n
Из последнего выражения видим, что оценка по выборке не
является несмещенной для дисперсии генеральной совокупности,
~
т. е., пользуясь оценкой D = D в , мы будем совершать некоторую
систематическую ошибку в меньшую сторону. Чтобы ликвидиро-
25
вать это смещение, достаточно ввести поправку, умножив величи-
~ n
ну D на . Получим
n −1
⎛ n ~⎞ n n −1
M⎜ D⎟ = D x = D x несмещенную оценку.
⎝ n −1 ⎠ n −1 n
Итак,
n n
∑ (x i − X ) ∑ (x i − X )
2 2
n ~ n n i =1 i =1
D= Dв = = .
n −1 n −1 n −1 n n −1
~= i −1 ~
m и D − i=1 .
n n −1
26
1.3. Множественное линейное уравнение регрессии.
Множественный коэффициент корреляции
Общий случай
Имеем n опытов, в каждом из которых наблюдаются величи-
ны Y, X1, X2,..., Xm, где X1, X2, ..., Xm – факторы, или предикторы,
от которых может зависеть Y-предиктант.
В процессе наблюдений
Y изменяется: Y1, Y2, Y3,..., Yn ,
X1 – X11, X12, X13, ..., X1n,
X2 – X21, X22, X23, ..., X2n,
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .,
Xm – Xm1, Xm2, Xm3, ..., Xmn,
т. е. факторы Xhj , где h = 1, 2, 3, 4, ..., m; j = 1, 2, 3, 4, ..., n.
Парные коэффициенты корреляции между Y и каждым из
факторов в общем виде можно записать в следующем виде:
n
∑ (y i − y )(x hi − x h )
rhy = i =1
, (1.3.1)
nσ y σ h
где h = 1, 2, …, m.
Парный коэффициент корреляции между факторами:
− x h )(x ji − x j )
n
∑ (x hi
rhj = i =1
, (1.3.2)
nσ h σ j
где h, j = 1, 2, …, m.
Уравнение линии связи (линейной):
y − y = ∑ a j (x j − x j ),
m
(1.3.3)
j=1
Ф = ∑ [ y i − y − ∑ a j (x ji − x j )] 2 = min .
n m
i =1 j=1
27
Дифференцируя последнее уравнение по каждому неизвест-
ному a j , получаем систему m уравнений:
∂Ф n ⎡ ⎤
= 2 ∑ ⎢ y i − y − ∑ a j (x ji − x j )⎥[− (x hi − x h )] = 0 .
m
∂a j i =1 ⎢
⎣ j =1 ⎥⎦
Или
∑ ∑ a j (x ji − x j )(x hi − x h ) = ∑ (y i − y )(x hi − x h ) .
n m n
i =1 j=1 i =1
Обозначим:
σj
aj = β j , откуда
σ y
σy
a j = βj , j = 1, 2, 3, …, m (1.3.5)
σj
Система уравнений (1.3.4) примет вид:
m
∑ β j rhj =r hy , т. е.
j=1
28
В последней системе r11 = r22 = r33 = r44 = ... = rmm = 1 ,
неизвестные β1 , β2 , β3 ,...., β m .
Определитель системы имеет вид:
1 r12 ... r1m
r 1 ... r2 m
D = 21 .
... ... ... ...
rm1 rm 2 ... 1
29
β1
мер, если отношение > 1 , то можно утверждать во сколько раз
β2
фактор X1 влияет на изменение величины Y больше (сильнее), чем
фактор X 2 . Кроме того, знак перед коэффициентом β j показыва-
ет направленность действия соответствующего j-го фактора: знак
«+» – с увеличением фактора имеет тенденцию в среднем возрас-
тать Y-предиктант; знак «-» указывает на обратное влияние, т. е. с
увеличением фактора X j предиктант Y имеет тенденцию в сред-
нем убывать.
Необходимо отметить, что с увеличением учета числа факто-
ров коэффициенты β j могут по абсолютной величине уменьшать-
ся, т. е. дополнительный фактор уточняет влияние других величин.
Например, мы рассмотрели влияние на Y двух величин X1 и X 2 и
нашли коэффициенты β1 и β 2 . Если при включении нового фак-
тора X 3 , величины β1 и β 2 почти не изменились по абсолютной
величине, то влияние фактора X 3 несущественно и его нецелесо-
образно включать в рассмотрение. Если β1 и β 2 изменились, то
влияние X 3 желательно учитывать.
Множественный коэффициент корреляции иногда называют
совокупным коэффициентом корреляции. Квадрат множественно-
го коэффициента корреляции принято называть коэффициентом
детерминации.
Заметим, что формула расчета множественного коэффициен-
та корреляции записана в сигмальном масштабе в самом общем
виде, т. е. для любого количества факторов.
Свойства множественного коэффициента корреляции:
1) 0 ≤ R ≤ 1 , в отличие от парного коэффициента корреляции
множественный не показывает направленность действия факторов,
так как он только положительный (направленность факторов ха-
рактеризуют коэффициенты β j ).
30
2) R = 1 – связь между рассматриваемыми величинами функ-
циональная.
3) R = 0 – Y не может быть линейно связан с X j . Нелинейная
связь может иметь место.
Частные случаи
1) Z зависит от двух факторов X и Y , причем каждая пе-
ременная измеряется N раз.
Тогда формулы (1.3.1) и (1.3.2) принимают вид:
n n
∑ (z i − z )(x i − x ) ∑ (z i − z )(y i − y )
rzx = i =1 rzy = i =1 ,
nσ z σ x nσ z σ y
∑ (x i − x )(yi − y )
rxy = i =1
. (1.3.6)
nσ x σ y
Уравнение связи: z − z = a1 (x − x ) + a 2 (y − y ) .
n
Ф = ∑ [(z i − z ) − a1 (x i − x ) − a 2 (y i − y )]2 = min .
i =1
Далее,
∂Ф n
= −2 ∑ [(z i − z ) − a1 (x i − x ) − a 2 (y i − y )](x i − x ) = 0 ,
∂a1 i =1
∂Ф n
= −2 ∑ [(z i − z ) − a1 (x i − x ) − a 2 (y i − y )](y i − y ) = 0 .
∂a 2 i =1
Или
⎧ n n n
⎪⎪a1 ∑ (x i − x ) + a 2 ∑ (y i − y )(x i − x ) = ∑ (z i − z )(x i − x ),
2
⎨ i =n1 i =1
n
i =1
n
⎪ a1 ∑ (x i − x )(y i − y ) + a 2 ∑ (y i − y )2 = ∑ (z i − z )(y i − y ).
⎪⎩ i =1 i =1 i =1
31
⎧⎪a 1 rxx nσ 2x +a 2 ryx nσ y σ x = rzx nσ z σ x ,
⎨ 2
⎪⎩ a 1 rxy nσ x σ y + a 2 ryy nσ y = rzy nσ z σ y .
Учитывая, что rxx = ryy = 1 , и деля обе части первого уравне-
ния на nσ x , а второго – на nσ y , получим:
⎧ a 1σ x + a 2 ryx σ y = rzx σ z ,
⎨
⎩ a 1rxy σ x + a 2 σ y = rzy σ z .
σx σy
R = β1rxz + β 2 ryz , β1 = a1 , β2 = a 2 .
σz σz
2) Y зависит только от Х.
Уравнение связи: y − y = a (x − x ) или y = y + ax − ax , или
y = a 0 + ax , где a 0 = y − ax
n
∑ (x i − x )(y i − y )
i =1
rxy = ,
nσ x σ y
n
Ф = ∑ [(y i − y ) − a (x i − x )]2 = min .
i =1
∂Ф n
= −2∑ [(y i − y ) − a (x i − x )](x i − x ) = 0 ,
∂a i =1
n n
∑ a (x i − x ) = ∑ (y i − y )(x i − x ) ,
2
i =1 i =1
32
σy
a = rxy , так как rxx = 1.
σx
Уравнение связи:
σ σy
y − y = rxy y (x − x ) , или y = rxy (x − x ) + y , или
σx σx
σy σy
y = a 0 + rxy x, где a 0 = y − rxy x.
σx σx
33
наводит исследователя на мысль о линейной зависимости между
случайными величинами:
y = ax + b . (1.4.1)
Коэффициенты a , b в этой зависимости – неизвестны. Найдем их
согласно требованиям метода наименьших квадратов:
2
( )
n
Φ = ∑ y i теор − y i эмп = min , где yi теор – рассчитанные теорети-
i =1
ческие, yi эмп – эмпирические (наблюдаемые) значения величины
Y. Иначе последнее равенство можно записать:
n 2
⎧ n 2 n n
⎪⎪ ∑ i
a x + b ∑ i ∑ x i yi
x =
⎨ i =1 n i =1
n
i =1 (1.4.3)
⎪ a ∑ x i + bn = ∑ y i
⎪⎩ i =1 i =1
34
Естественно, что результаты, полученные в предыдущем парагра-
фе с использованием сигмального масштаба, должны полностью
совпадать с результатами, полученными методом наименьших
квадратов. С помощью среднего квадратического отклонения
можно оценить погрешность полученных расчетных значений:
∑ (y i теор − y i эмп )
n
2
i =1
δ= .
n
Совершенно очевидно, что по аналогии можно найти коэф-
фициенты множественного линейного уравнения регрессии.
35
Продифференцировав по всем a j ( j = 0 ÷ m ) и сделав преобра-
зования, получим нормальную систему m + 1 уравнений с m +1
неизвестными a 0 , a 1 , a 2 ,..., a m :
⎧ n n n n
⎪n lg a 0 + a1∑ lg x 1i + a 2∑ lg x 2i + ... + a m∑ lg x mi ∑lg yi ,
=
⎪ i=1 i=1 i=1 i=1
⎪ n n n n n
⎪lga0 ∑lgx1i + a1∑(lgx1i ) + a 2 ∑(lgx2i lgx1i ) + ...+ a m ∑(lgxmi lgx1i ) = ∑(lgyi lgx1i ),
2
⎨ i=1 i=1 i=1 i=1 i=1
⎪.........................................................................................................................................................,
⎪
⎪ n n n n n
⎪lga0 ∑lgxmi + a1∑(lgx1i lgxmi ) + a 2 ∑(lgx2i lgxmi ) + ...+ a m ∑(lgxmi ) = ∑(lg yi lgxmi ),
2 2
36
Однако на практике способ наименьших квадратов иногда бывает
неудобен, так как, приступая к вычислениям, мы часто не имеем
сведений относительно порядка корреляционного уравнения, ко-
торое давало бы достаточно точное приближение эмпирических
точек к графику теоретического вида связи. Поэтому приходится
постепенно повышать порядок корреляционного уравнения, а это
приводит к тому, что необходимо записывать новую нормальную
систему уравнений и проводить вновь всю вычислительную рабо-
ту. Для устранения этих неудобств П. Л. Чебышев предложил осо-
бый способ решения задачи подбора полиномов того или иного
порядка. По способу Чебышева члены уравнения более высокого
порядка прибавляются последовательно к уравнению порядка на
единицу ниже, полученному в предыдущих расчетах. Погрешность
нового уравнения оценивается при условии сохранения погрешно-
сти предыдущего уравнения. Если погрешность (невязка) нового
уравнения с требуемой точностью не превосходит предыдущей не-
вязки, то исследователь останавливает свой уже обоснованный
выбор на предыдущем уравнении.
Замечание. На практике корреляционную связь выше 3-го по-
рядка используют редко вследствие быстрого накопления ошибок
округления при работе с большими выборками.
37
2. СЛУЧАЙНЫЕ ФУНКЦИИ
38
о
U(t), С
20
U5 (t)
15
U4 (t)
U3 (t)
10 U1 (t)U2 (t)
5
0 3 6 9 12 15 18 21 [t,ч
39
функцию, значение которой при любом фиксированном значении
аргумента является случайной величиной U(ti).
Аргумент t может принимать либо любые вещественные зна-
чения в заданном интервале, либо только определенные дискрет-
ные значения. В первом случае случайную функцию называют
процессом, во втором – случайной последовательностью. Все гид-
рометеорологические процессы развертываются во времени не-
прерывно, однако ряды наблюдений мы, как правило, имеем в дис-
кретном виде. Обычно для простоты такого разделения не делают
и часто используют термин «случайный процесс» безотносительно
к физической природе аргумента.
Надо отметить, что аргументом случайной функции может
быть не только время.
Понятие случайной функции хорошо отражает сущность
всех гидрометеорологических явлений. Так, например, уровень во-
ды в реке (или водохранилище) меняется во времени случайным
образом в зависимости от количества осадков, таяния снега, ин-
тенсивности оросительных мероприятий, солнечной радиации и
пр.; дождевые осадки и сток изменяются во времени и по площади
водосбора; аналогично меняются скорость инфильтрации и ин-
фильтрационная способность почвы, распределение консерватив-
ных и неконсервативных загрязняющих ингредиентов в атмосфе-
ре, водотоках, водоемах, почве. Турбулентный характер атмосфер-
ных процессов влечет крайнюю изменчивость метеорологических
величин во времени и в пространстве. При этом интенсивные тур-
булентные пульсации имеют место как для крупномасштабных
процессов, так и для движений самого малого масштаба. Наличие
турбулентности приводит к тому, что начальные условия не опре-
деляют полностью течение процесса и, следовательно, опыты,
проведенные при одинаковых внешних условиях, будут приводить
к различным результатам.
40
2.2. Основные характеристики
случайной функции
В классической теории вероятностей случайная величина Х
считается полностью определенной с вероятностной точки зрения,
если известна ее функция распределения
F(x ) = P(X < x ) ,
где Р – вероятность.
Известно, что случайный процесс U(t ) можно рассматривать
как совокупность всех его сечений, каждое из которых представ-
ляет собой случайную величину. Поэтому, если мы имеем n сече-
ний случайного процесса: U(t 1 ), U(t 2 ), U(t 3 ),..., U(t n ), то этот слу-
чайный процесс мы можем приближенно охарактеризовать функ-
цией распределения полученной системы случайных величин
F(u 1 , u 2 , u 3 ,..., u n ) = P(U 1 < u 1 , U 2 < u 2 , U 3 < u 3 ,..., U n < u n ).
Очевидно, что эта функция распределения тем точнее будет
характеризовать случайный процесс, чем ближе друг к другу будут
расположены сечения и чем больше число n их взято. Исходя из
этого, случайный процесс U (t ) считают заданным, если для каж-
дого значения аргумента t определена функция распределения
случайной величины:
F1 (U; t ) = P[U (t ) < u ],
41
случайных величин U1 = U(t 1 ), U 2 = U(t 2 ), ..., U n = U(t n ) .
Если существуют смешанные частные производные от мно-
гомерной функции распределения, то можно записать многомер-
ный дифференциальный закон распределения (многомерную
функцию плотности вероятности):
42
α1 (t ) = M[U (t )] = m u (t ) , причем
⎧+ ∞
⎪ ∫ uf1 (u; t )dx при непрерывном t,
⎪
α1 (t ) = ⎨− ∞N
⎪ ∑ u p (u; t ) при дискретном t.
⎪⎩ k =1 k k
43
матическое ожидание случайной функции равно нулю. Записать
начальный момент любого порядка не представляет трудности.
Так, начальные моменты второго порядка q1 + q 2 + ... + q n = 2 мо-
гут быть двух типов:
⎡o ⎤
[ ]
μ1,1 (t1 , t 2 ) = M ⎢ U (t i ) U (t j )⎥ = M{[U (t i ) − m u (t i )] U (t j ) − m u (t j ) }.
o
⎣ ⎦
44
Момент μ 2,0 (t ) является функцией одного аргумента t
(t = t i = t j ) и при каждом фиксированном его значении представля-
ет собой дисперсию соответствующего сечения случайной функ-
ции:
μ 2 , 0 ( t ) = D U (t ) .
45
K u (t i , t j )
R u (t i , t j ) = ,
σ u (t i )σ u (t j )
i, j = 1,2,3,..., n; R u (t i , t j ) = R ij ; R 11 = R 22 = R 33 = ... = R nn = 1.
46
рассматривать ряд случайных процессов: температуру, ветер, дав-
ление атмосферы, солнечную радиацию и др.; при изучении потерь
стока рассматривают перехват, испарение, задержание в бессточ-
ных депрессиях, инфильтрацию. Поэтому, кроме рассмотренных
выше характеристик для каждой случайной функции, существен-
ным является еще установление связи между различными функ-
циями. Начальные моменты первого порядка совпадают с матема-
тическими ожиданиями соответствующих случайных функций.
Центральные моменты второго порядка могут быть двух видов: во-
первых, можно рассматривать второй центральный момент для
двух сечений одной и той же случайной функции (это мы делали в
предыдущем параграфе); во-вторых – для двух сечений, принад-
лежащих разным случайным функциям. При этом полученный
корреляционный момент называют корреляционной функцией свя-
зи, или взаимной корреляционной функцией между двумя случай-
ными функциями.
Рассмотрим, например, систему двух случайных процессов:
U(t ) и V(t ) . В корреляционной теории ее характеристиками будут:
m u (t ), m v (t ), K u (t i , t j ), K v (t i , t j ), а также корреляционная функция
связи:
[ ]
K uv (t i , t j ) = M{[U (t i ) − m u (t i )] V (t j ) − m v (t j ) },
47
K uv (t i , t j ) = K vu (t j , t i ). (2.3.1)
K uv (t i , t j )
R uv (t i , t j ) =
σ u (t i )σ v (t j )
48
(
K11 t i , t j ) (
K12 t i , t j ) ( )
... K1N t i , t j
(
K 21 t i , t j ) (
K 22 t i , t j ) ( )
... K 2 N t i , t j
( )
K sg t i , t j =
... ... ... ...
,
(
K N1 t i , t j ) (
K N2 ti , t j ) (
... K NN t i , t j )
( )
в которой для краткости записи K u s u g t i , t j = K sg t i , t j , и при s = g( )
(по главной диагонали) записаны корреляционные функции, а при
s ≠ g – корреляционные функции связи между сечениями различ-
ных случайных процессов (s, g = 1, 2, …, N).
[ ][ ]
K w (t i , t j ) = M{ U(t i ) + V(t i ) − m u (t i ) − m v (t j ) U(t j ) + V(t j ) − m u (t j ) − m v (t j ) }.
49
Тогда
⎧⎡ o o ⎤⎡ o o ⎤⎫
( )
K w t i , t j = M ⎨⎢ U(t i ) + V(t i )⎥ ⎢ U t j + V t j ⎥ ⎬. ( ) ( )
⎩⎣ ⎦⎣ ⎦⎭
Перемножим двучлены под знаком математического ожида-
ния. Получим:
⎡o o o o o o o o ⎤
( ) ( ) ( ) ( )
K w t i , t j = M ⎢ U ( t i ) U t j + V ( t i ) V t j + U (t i ) V t j + V ( t i ) U t j ⎥ .( )
⎣ ⎦
Используя свойство математического ожидания (математи-
ческое ожидание алгебраической суммы случайных величин равно
той же сумме математических ожиданий этих величин), оконча-
тельно имеем
⎡o o ⎤ ⎡o o ⎤ ⎡o o ⎤ ⎡o o ⎤
( ) ( ) ( ) ( )
Kw t i , t j = M⎢U(t i ) U t j ⎥ + M⎢V(t i ) V t j ⎥ + M⎢U(t i ) V t j ⎥ + M⎢V(t i ) U t j ⎥ = ( )
⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦
= K u (t i , t j ) + K v (t i , t j ) + K uv (t i , t j ) + K vu (t i , t j ). (2.4.3)
так как K uv (t i , t j ) = K vu (t i , t j ) = 0.
Если случайная функция состоит из N слагаемых
N
W (t ) = ∑ U g (t ) ,
g =1
50
K w (t i , t j ) = ∑ K u g (t i , t j ) + ∑ K u g u s (t i , t j ) ,
N N
g =1 g <s
K w (t i , t j ) = ∑ K u g (t i , t j ) .
N
g =1
51
Полагая в (2.5.1) t 0 = t1 , получим
= f 2 (u1 , u 2 ; t 2 − t1 ) = f 2 (u1 , u 2 ; τ ) ,
где τ = t 2 − t1 зависит только от одного аргумента τ – сдвига сече-
ний по координатной оси t.
Для двух произвольных сечений стационарной функции дву-
мерную плотность распределения вероятностей в общем виде мож-
но записать
52
f 2 (u i , u j ; t i , t j ) = f 2 (u i , u j ; t i - t 0 , t j − t 0 ) = f 2 (u i , u j ; 0, t j − t i ) =
= f 2 (u i , u j ; 0, t j − t i ) = f 2 (u i , u j ; τ ).
+∞ +∞
K u (t i .t j ) = ∫ ∫ (u i − m u )(u j − m u )f 2 (u i , u j ; τ )du i du j = K u (τ ) . (2.5.3)
−∞ −∞
53
класс случайных процессов, для которых выполняются условия
(2.5.2) и (2.5.3). Такие процессы называют стационарными в широ-
ком смысле. В общем случае стационарность в широком смысле не
тождественна стационарности в узком смысле. Случайные функ-
ции, стационарные в узком смысле, будут стационарны и в широ-
ком смысле, но не наоборот. Но имеется целый класс стационар-
ных процессов, для которых понятие стационарности в узком и
широком смысле совпадают. Это – нормальные стационарные
процессы, для которых функция плотности вероятностей полно-
стью определена математическим ожиданием и корреляционной
функцией. В дальнейшем, когда речь будет идти о стационарно-
сти, мы будем иметь в виду именно стационарность в широком
смысле.
Из симметричности корреляционной функции (см. свойство
(2.2.1)) следует и четность корреляционной функции стационарно-
го случайного процесса: K u (τ ) = K u (− τ ) .
На практике условия стационарности можно непосредствен-
но проверить, вычислив средние значения, дисперсии и корреля-
ционные функции для разных моментов времени. Если значения
средних и дисперсий постоянны для всех сечений, а коэффициен-
ты корреляции между любыми двумя сечениями не зависят от по-
стоянного сдвига, то процесс стационарен.
K sg (t i , t j ) = K sg (τ) , s, g = 1,2,..., N .
54
Здесь, как и в п. 2.2, обозначено K sg (t i , t j ) = K u s u g (t i , t j ).
Опираясь на свойство корреляционных функций (2.3.1), можно за-
писать K sg (τ) = K gs (− τ) , т. е. корреляционную функцию связи двух
стационарных процессов можно описать одной корреляционной
функцией связи, заданной как при положительных, так и отрица-
тельных значениях аргумента, при этом функция K sg (τ) в общем
случае не является четной.
Из изложенного ясно, что принятие гипотезы стационарно-
сти случайных функций приводит к значительному упрощению
описания их статистических свойств, что позволило, в свою оче-
редь, разработать эффективные математические методы, исполь-
зуемые при прогнозировании. Для нестационарных функций ре-
шение этих вопросов связано с большими трудностями. Поэтому
всякую случайную функцию, с которой имеют дело на практике,
прежде всего, пытаются рассматривать с точки зрения возможно-
сти считать ее стационарной. Для процессов, имеющих место в ат-
мосфере и гидросфере, гипотеза об их стационарности хорошо оп-
равдывается для сравнительно небольших интервалов времени или
расстояний. С увеличением интервалов изменения аргумента на-
блюдается и нарушение стационарности. Так, для гидрологиче-
ских рядов гипотеза о стационарности считалась достаточно есте-
ственной в течение длительного времени. Однако все возрастаю-
щая хозяйственная деятельность человека на водосборе, а также
возможные антропогенные изменения климата требуют в настоя-
щее время обоснование этой гипотезы для каждого конкретного
водосбора. Антропогенные изменения стока приводят к тому, что
стационарные распределения приходится строить либо по очень
коротким рядам, либо по неоднородным гидрологическим рядам,
что создает огромные проблемы в обеспечении устойчивости ста-
тистических параметров.
Аналогичные замечания можно сделать и для других гидро-
метеорологических характеристик. Несмотря на то, что нарушение
55
стационарности приводит к изменению математического ожидания
рассматриваемой гидрометеорологической величины, тем не ме-
нее, стационарность в смысле независимости корреляционной
функции от начала отсчета сохраняется с достаточно допустимым
на практике приближением. Исходя из этого, часто на практике
вместо самого случайного процесса целесообразно рассматривать
центрированный случайный процесс, так как этот процесс можно
уже считать стационарным с постоянным математическим ожида-
нием, равным нулю, а корреляционные функции центрированного
и исходного процессов совпадают. Поэтому для многих процессов
атмосферы и гидросферы на основе большого статистического ма-
териала различными авторами предложены разнообразные корре-
ляционные функции, общими свойствами которых являются: 1)
стремление их к нулю при возрастании аргумента, и 2) максималь-
ные значения этих функций, равные дисперсиям случайных про-
цессов, достигаются при нулевом значении аргумента. Если мы
рассматриваем стационарный процесс с корреляционной функцией
K u (τ ) , то ее максимум будет при τ = 0 , в то время как корреляци-
онная функция связи K uv (τ ) максимума при τ = 0 может не дости-
гать. Действительно, влияние одного процесса на другой может
происходить с некоторым запаздыванием, например нагревание
воды за счет солнечного излучения происходит лишь спустя неко-
торое время τ . В этом случае значение корреляционной функции
связи между сечениями этих процессов при интервале τ , отлич-
ном от нуля, будет больше, чем между одновременными сечения-
ми этих процессов. Наличие такого запаздывания может служить
причиной несимметричности корреляционной функции связи от-
носительно аргумента τ , т. е. K uv (τ ) ≠ K uv (− τ ) .
С некоторыми видами корреляционных функций мы позна-
комимся ниже.
56
2.6. Положительно определенные функции
Для убедительности доказательств последующих утвержде-
ний введем понятие положительно определенной функции.
Функция f(t), удовлетворяющая неравенству
i =1 j=1
2
( ) ⎡o
( )⎤ ⎡n ⎤
n n n n o o
∑∑ i j u i j ∑∑ ⎢ i
α α K t − t = M U ( t ) U t α α
j ⎥ i j = M ⎢ ∑ α1 U ( t i )⎥ ≥ 0.
i =1 j=1 i =1 j=1 ⎣ ⎦ ⎣i =1 ⎦
57
осреднения, если мы располагаем одной реализацией достаточной
продолжительности. При этом если связь между сечениями слу-
чайного процесса убывает быстро, то отдельные части реализации
мы имеем право рассматривать как независимые между собой. По-
этому совокупность таких отдельных n частей одной реализации
мы можем принимать за совокупность n самостоятельных реали-
заций. Для стационарных процессов нам известно, что математи-
ческое ожидание и дисперсия не зависят от аргумента, поэтому
можно, не разделяя реализацию на отдельные части, определить
эти характеристики по всей данной реализации:
2
1 Δt 1 Δt
mu = ∫
Δt 0
u ( t ) dt ; D u = ∫ [u (t ) − m u ] dt;
Δt 0
1 Δt
K u (t ) = ∫ [u (t ) − m u ][u (t + τ) − m u ]dt ,
Δt 0
58
Здесь использовано известное из теории вероятностей поня-
тие сходимости по вероятности, которое, например, для среднего
значения по реализации может быть записано в виде:
59
Надо отметить, что отдельные реализации случайного про-
цесса могут иметь свои специфические особенности, например,
колебания вокруг различных средних. В этом случае среднее зна-
чение, полученное по одной реализации, может значительно отли-
чаться от среднего по ансамблю реализаций.
По отношению к корреляционной функции свойства эрго-
дичности формулируются гораздо сложнее, а потому проверку их
на практике осуществить в основном не удается. В связи с этим
выводы об эргодичности делают, как правило, на основе сообра-
жений о физической сущности случайного процесса.
Выполнение свойства эргодичности имеет большое значение,
так как для определения статистических характеристик достаточно
располагать одной реализацией, что мы обычно и имеем на прак-
тике. Например, в гидрометеорологии далеко не всегда удается
осуществить многократное повторение эксперимента в одинако-
вых условиях, и потому все ряды наблюдений на гидрометеороло-
гических станциях и постах практически представляют собою
единственную реализацию. Если же мы все-таки располагаем не-
сколькими реализациями, полученными в одинаковых условиях,
то, пользуясь свойством эргодичности, можно получить статисти-
ческие характеристики осреднением по каждой реализации, а за-
тем взять в качестве искомых среднее арифметическое из них с
учетом веса каждой реализации.
60
[ ] {
B u (τ ) = M (ΔU )2 = M [U(t + τ) − U(t )]2 . } (2.8.1)
{ } { }
= M [U(t + τ ) − m u ]2 + M [U(t ) − m u ]2 − 2M{[U(t + τ) − m u ][U(t ) − m u ]} =
61
Тогда равенство (2.8.2) с условиями (2.8.3) и (2.8.4) примет вид:
Bu (τ) − Bu (∞ )
Bu (τ ) = Bu (∞ ) − 2K u (τ ) , или K u (τ ) = .
2
62
того, систематические ошибки, содержащиеся в данных различных
сечений, при вычислении структурных функций взаимопогашают-
ся. Таким образом, использование структурных функций в ряде
случаев позволяет уменьшить нестационарность (неоднородность)
случайного процесса и нивелировать систематические ошибки.
Однако преимущества структурных функций существенны только
при малых значениях τ . При вычислении же корреляционных
функций через структурные точность корреляционных функций не
повышается из-за ошибок вычисления насыщающего значения
структурной функции.
63
случайными процессами, случайное поле можно рассматривать как
множество всех его реализаций или множество всех его сечений,
понимая под сечением случайного поля случайную величину, по-
лученную при фиксированных значениях всех его аргументов
(иначе, при фиксированном λ ). Следовательно, простой заменой t
на λ все формулы, полученные для случайных процессов, будут
иметь место и для случайных полей. Поэтому для случайного поля
по аналогии можем записать n-мерную функцию распределения:
α1 (λ ) = M[U(λ )] = m u (λ ) ,
[
μ1,1 (λ i , λ j ) = M ⎢ U(λi ) U (λ j )⎥ = M{[U(λ i ) − m u (λ i )] U (λ j ) − m u (λ j ) },
⎡o ⎤
]
o
⎣ ⎦
64
нормированную корреляционную функцию
K u (λ i , λ j )
R u (λ i , λ j ) = ,
σu (λ i )σu (λ j )
65
жем рассматривать процессы синоптического характера; фиксируя
пространственные координаты, мы можем рассматривать эволю-
цию процесса в интересуемом месте.
Основное отличие пространственных рядов от временных
состоит в том, что их значения по пространственному аргументу
распределены неравномерно, так как точки наблюдений в про-
странстве в основном расположены на неравных расстояниях.
Временные процессы мы рассмотрели подробно, теперь ос-
тановимся на описании пространственных случайных полей.
66
По аналогии с п. 2.5,
f1 (u; λ ) = f1 (u; λ - λ 0 ) = f1 (u; 0) = f1 (u ) ,
f 2 (u i , u j ; λi , λ j ) = f 2 (u i , u j ; λ i - λ 0 , λ j - λ0 ) = f 2 (u i , u j ; 0, λ j - λi ) =
= f 2 (u i , u j ; λ j - λi ) = f 2 (u i , u j ; r ).
+∞ +∞
K u (λi , λ j ) = ∫ ∫ (ui − mu )(u j − mu )f2 (ui , u j; r )duidu j = Ku (r ). (2.9.2)
−∞ −∞
67
практике гидрометеорологии понимают однородность в широком
смысле. Естественно, что для полей гидрометеорологических ха-
рактеристик турбулентного потока предположение об однородно-
сти даже в широком смысле всегда является некоторой идеализа-
цией, так как точно оно никогда не выполняется. Действительно,
говоря об однородности, необходимо потребовать, чтобы поток
заполнял все неограниченное пространство, а уже одно это пред-
положение является идеализацией в применении к реальным пото-
кам. Далее, необходимо, чтобы все средние характеристики потока
(скорость, давление, температура, влажность, соленость и пр.) бы-
ли постоянными во всем пространстве, и чтобы статистический
режим пульсаций не менялся при переходе от одной части про-
странства к другой. Разумеется, что эти требования могут выпол-
няться лишь с удовлетворительной точностью в пределах некото-
рых ограниченных областей пространства, малых по сравнению с
масштабами макроскопических неоднородностей и достаточно
удаленных от всех ограничивающих поток твердых стенок. Таким
образом, на практике можно говорить об однородности гидроди-
намических полей лишь в некоторой определенной области.
По аналогии с временными процессами можно говорить и
об осреднении пространственных полей по одной реализации в
том случае, если выполняется условие эргодичности, а именно:
однородное поле обладает свойством эргодичности, если все
случайные характеристики, полученные осреднением по одной
реализации, при безграничном увеличении диаметра области
сходятся по вероятности к соответствующим характеристикам,
полученным осреднением по всему множеству реализаций слу-
чайного поля.
Структурная функция однородного случайного поля имеет
вид:
{
B u (r ) = M [U(λ + r ) − U(λ )]
2
}
и по аналогии вывода в п. 2.8 имеем:
68
Bu (r ) − Bu (∞ )
K u (r ) = .
2
Для характеристики случайного поля, однородность которого
является лишь приближенной, использование структурных функ-
ций по сравнению с корреляционными иногда бывают предпочти-
тельнее.
В частности, это, например, имеет место при исследованиях
пространственной мезо- и макроструктуры гидрометеорологиче-
ских полей, когда широтные различия в притоке солнечной энер-
гии, различный характер воздушных течений над океанами и мате-
риками и др. вызывают нарушения однородности пространствен-
ных полей. Однако надо помнить, что по экспериментальным дан-
ным часто бывает трудно получить значение структурной функции
Bu (r ) , которое для достаточно больших расстояний можно было
бы принять за насыщающее значение Bu (∞ ) .
69
ния. Такую задачу называют задачей сглаживания, или фильтра-
ции случайного процесса.
В гидрометеорологии эта задача возникает при обработке
экспериментальных данных как задача сглаживания ошибок, неиз-
бежно сопутствующих всем измерениям из-за точности исполь-
зуемых методов, точности измерительных приборов и т. д.
Если по имеющейся реализации требуется дать прогноз ис-
тинной реализации u (t ) для значений аргумента t = Δt + T , где
Т > 0, то такую задачу называют задачей об экстраполяции со
сглаживанием, при этом величину Т часто называют упреждением.
Например, имеется ряд N наблюдений за годовым объемом стока.
Требуется предсказать объем стока за последующий (N+1)-й год.
При Т<0 эту задачу называют задачей об интерполяции со
сглаживанием. Например, 1) во временном ряду наблюдений за
годовым объемом стока есть пропущенные данные, которые тре-
буется восстановить; 2) по имеющимся в распоряжении картам
снята батиметрия водоема или рельеф местности с некоторым ша-
гом (например, 1 км). Для каких-то целей требуются данные с ша-
гом 500 м.
Заметим, что в качестве аргумента t может выступать не
только время, но и любая другая переменная, предположим рас-
стояние.
На практике мы почти всегда получаем реализацию интере-
сующего нас случайного процесса, включающую ошибки измере-
ния. Если измерения проведены с требуемой точностью, то гово-
рят в этом случае соответственно о «чистой» экстраполяции и
«чистой» интерполяции. Задачи об экстраполяции, интерполяции и
сглаживании можно рассматривать как единую задачу определе-
ния истинного значения реализации u (t ) при некотором значении
аргумента t 0 . Математическая формулировка такой задачи заклю-
чается в следующем. Известна реализация w (t ) = u (t ) + v(t ) на не-
котором промежутке [0, Δt ] изменения параметра t . Требуется оп-
70
ределить значение u (t 0 ) реализации u (t ) в момент t 0 ∈ [Δt , T ]: при
Т > 0 речь идет об экстраполяции; при Т < 0 – об интерполяции;
при Т = 0 – о сглаживании.
Поскольку мы имеем дело со случайными функциями, то нас
интересует нахождение такого способа решения задачи, который
бы давал наилучший в некотором смысле результат по всему мно-
жеству реализаций, т. е. нахождение такого оператора L, который
в применении к множеству реализаций W (t ) давал бы наилучшие
в некотором смысле значения реализации U (t 0 ):
U(t 0 ) = L[W (t )], или U(t 0 ) = L[U(t ) + V(t )] .
Естественно, возникает вопрос, что понимать под критерием
качества решения поставленной задачи. В рамках случайных про-
цессов качество оператора можно оценить лишь статистически, т.
е. в среднем по всему выбранному множеству реализаций случай-
ной функции.
Можно назвать наилучшим тот оператор L , который обра-
щает в минимум разность δ = U (t 0 ) − L[W (t )] .
Однако с математической точки зрения наиболее удобным
критерием качества является обращение в минимум математиче-
ского ожидания квадрата разности
( ) {
M δ 2 = M [U(t 0 ) − L[W (t )]]2 .}
При выполнении этого условия оператор L называется оптималь-
ным и обеспечивает оптимальную экстраполяцию, интерполяцию
или сглаживание.
Способ решения поставленной задачи существенно зависит
от того, является ли интервал, на котором известна реализация, ко-
нечным или бесконечным. Для конечного интервала будем счи-
тать, что реализация задана при конечном числе дискретных зна-
чений параметра t , что наиболее часто имеет место в практике
гидрометеорологических измерений.
71
2.11. Влияние ошибок измерения
на статистические характеристики
корреляционного анализа
Пусть каждая реализация случайного процесса получена в
результате опыта с некоторой ошибкой, так что
w i (t ) = u i (t ) + v i (t ) , i − 1,2,..., N .
Тогда оценка для математического ожидания случайного процесса
согласно (2.4.2) имеет вид m w (t ) = m u (t ) + m v (t ) , т. е. математи-
ческое ожидание истинного случайного процесса завышено на ма-
тематическое ожидание случайных ошибок измерения.
Дадим оценку корреляционной функции. Согласно (2.4.3)
имеем
K w (t i , t j ) = K u (t i , t j ) + K v (t i , t j ) + K uv (t i , t j ) + K vu (t i , t j ) .
В гидрометеорологической практике обычно считают, что
ошибки измерений не коррелируют как с истинными значениями
измеряемой величины при любых значениях аргументов, так и
между собой только при различных значениях аргументов, т. е.
⎧ 0 при i ≠ j,
K uv (t i , t j ) = 0 ; ( )
K vu (t i , t j ) = 0 ; K v t i , t j = ⎨
D (t
⎩ v j ) при i = j
.
72
3. ЧИСЛЕННЫЙ АНАЛИЗ
ГИДРОМЕТЕОРОЛОГИЧЕСКОЙ
ИНФОРМАЦИИ
73
дении информации через технические устройства. За последние
десятилетия было уделено значительное внимание автоматизации
указанного процесса. В первую очередь была решена задача полу-
чения значений гидрометеорологических величин в узлах регуляр-
ной сетки по их значениям на станциях. Эта задача получила на-
звание численного или объективного анализа.
Впервые метод численного анализа был предложен Х. А. Па-
новским в 1949 г. Метод сводился к представлению какой-либо
метеорологической величины в виде некоторого полинома. Этот
метод стал называться методом полиномиальной интерполяции.
Различные варианты этого метода были позднее предложены
Г. П. Курбаткиным, Я. М. Хейфецем, П. Н. Беловым и другими.
Другой подход к численному анализу был предложен
Л. С. Гандиным. Существенным моментом этого метода, который
получил название метода оптимальной интерполяции, было ис-
пользование статистической структуры метеорологических полей.
Различные реализации этого метода были осуществлены С. Л. Бе-
лоусовым и другими. Позднее этот метод стал активно использо-
ваться для восстановления полей океана в узлах расчетной сетки
(работы В. И. Беляева, И. Е. Тимченко и др.).
Следует отметить, что с точки зрения требований, предъяв-
ляемых к оператору L, оба метода: метод полиномиальной интер-
поляции и метод оптимальной интерполяции являются оптималь-
ными с той лишь разницей, что первый из них не учитывает веро-
ятностную структуру случайных полей. Однако, следуя устано-
вившейся традиции, будем использовать предложенную термино-
логию.
В дальнейшем распространение получили различные методы
анализа, основанные на комбинировании линейной интерполяции
и статистической структуры гидрометеорологических полей. Это –
метод последовательных приближений (метод коррекции), метод
сплайн-полиномов.
74
В настоящее время сплайны успешно применяют при реше-
нии широкого круга гидрометеорологических задач, требующих
аппроксимации одномерных или многомерных полей сложной
структуры, заданных своими значениями в отдельных точках, и,
возможно, последующего интегрирования (осреднения) аппрокси-
манта по заданным областям с целью получения обобщенных про-
странственных характеристик этих полей. Последняя задача часто
усложняется нерегулярным расположением точек, в которых из-
вестны значения поля, неправильной формой области и т. д.
Развитие новых средств наблюдений, таких как спутниковые
системы, трансозондовые и др. привело к тому, что гидрометеоро-
логические наблюдения стали несинхронными. Это обстоятельст-
во потребовало разработки нового подхода к проблеме численного
анализа и привело к созданию четырехмерного численного анали-
за, который правильнее было бы назвать пространственно-
временным численным анализом.
Рассмотрим подробнее некоторые из наиболее употребитель-
ных методов численного анализа.
X 2 (x , y ) = X1 (x , y ) + a 3 xy + a 4 x 2 + a 5 y 2 ,
X 3 (x , y ) = X 2 (x , y ) + a 6 x 2 y + a 7 xy 2 + a 8 x 3 + a 9 y 3 ,
75
где x , y – координаты, a i (i = 1, 2, …, 9) – коэффициенты. Ука-
занные полиномы можно записать в более компактном виде:
i + j≤ 3
X (x , y ) = ∑ a ijx i y j .
i , j= 0
⎧ ∂Ф(x , y ) n
⎪ ∂a = 2 ∑ [a 0 + a1x i + a 2 y i − H i ] = 0,
⎪ 0 i =1
⎪ ∂Ф(x , y ) n
⎨ = 2∑ [a 0 + a1x i + a 2 y i − H i ]x i = 0,
⎪ ∂a 1 i =1
⎪ ∂Ф(x , y ) n
⎪ ∂a = 2∑ [a o + a1x i + a 2 y i − H i ]y i = 0.
⎩ 2 i =1
76
Решив полученную систему уравнений, найдем искомые ко-
эффициенты a 0 , a1 , a 2 в (3.1.1). Если мы поместим начало коорди-
нат в рассматриваемый узел сетки или интересуемую точку, то
x = y = 0 и H(0,0 ) = a 0 . Это значение можно принять в качестве
искомого значения геопотенциала в узле или точке сетки. Проде-
лав такую операцию для всех точек регулярной сетки или интере-
сующих каких-то точек (влияющие станции для каждой точки бу-
дут разными), мы получим в них значения геопотенциала, которые
далее можно использовать для численного прогноза либо автома-
тического расчерчивания диагностических полей.
Изложенная схема интерполяции дает хорошие результаты в
случае одинаковой достоверности данных во всех учитываемых
пунктах. Реальная же гидрометеорологическая информация имеет
различную достоверность в разных пунктах, что может быть свя-
зано с использованием приборов различных конструкций, ошиб-
ками измерений, различными расстояниями станций влияния и пр.
В этом случае интерполяция по приведенной схеме может дать не-
удовлетворительные результаты. Поэтому необходимо будет учи-
тывать различия в достоверности данных путем введения в систе-
му (3.1.2) дополнительных весов pi :
n 2 n 2
Ф(x , y ) = ∑ p i [H(x i , y i ) − H i ] = ∑ p i [a 0 + a1x i + a 2 y i − H i ] = min .
i −1 i −1
77
характеристик методом аналогий, когда данные наблюдений по
интересующему нас объекту отсутствуют.
Например, необходимо определить норму стока реки В, для
которой в качестве аналога взята река А. Для реки А имеются ре-
гулярные многолетние наблюдения, на основе которых найдена
норма стока q A = 2,1 л/(с км2). Для реки В проведены только за
шесть лет наблюдения, параллельные с наблюдениями за рекой А.
Результаты этих наблюдений отражены в таблице.
Таблица
Модуль стока q л/(с км2) рек А и В
Реки 1989 г. 1990 г. 1991 г. 1992 г. 1993 г. 1994 г.
А 1,10 1,18 2,09 1,65 2,58 0,78
В 1,38 0,99 2,28 2,08 3,30 0,65
q B = a 0 + a1q A (3.1.3)
0
-2 -1 0 1 2 3 qA, л/(с км2)
-1
-2
78
Коэффициенты a 0 и a1 определяем методом наименьших
квадратов из условий требования наилучшей линейной связи так,
чтобы
2
∑ (a 0 + a1q A i − q Bi ) = min .
6
i =1
После частного дифференцирования последнего выражения
система нормальных уравнений принимает вид:
⎧ 6 6
⎪⎪ na 0 + a1 ∑ q A i = ∑ q B i ,
i =1 i =1 . (3.1.4)
⎨ 6
( ) ( )
6 6
⎪a 0 ∑ q A + a1 ∑ q A = ∑ q A q B
2
⎪⎩ i = i i i =1
i
i =1
i i
∑ (q A q B ) = 19,90.
6
i i
i =1
⎧ 6a 0 + 9,38a1 = 10,68,
⎨ ,
⎩9,38a 0 + 16,96a 1 = 19,90
79
3.2. Метод оптимальной интерполяции
Рассмотрим метод линейной оптимальной интерполяции
случайной функции W(t), заданной дискретно для t 1 , t 2 ,..., t n на
конечном интервале, причем t1 < t 2 < ... < t n . Считая, что эти зна-
чения являются результатами измерений и содержат ошибки,
можно записать
W (t i ) = U (t i ) + V (t i ) , i = 1,2 = ..., n, (3.2.1)
80
Заметим, что в настоящее время практически приемлемое
решение поставленной задачи получено при предположениях о
линейности и стационарности оператора L, а также и стационар-
ной связности случайных процессов U(t) и V(t).
Известно, что необходимым условием минимума функции n
переменных является равенство нулю всех ее частных производ-
ных по каждой переменной, т. е. a1 , a 2 ,..., a n должны быть реше-
ниями системы уравнений:
∂σ 2n (a1,a 2,...,a n )
= 0, i = 1,2,...,n.
∂a i
⎧⎪ n ⎡n ⎤ ⎫⎪
2
σ 2n (a1 , a 2 ,..., a n ) = M ⎨U (t 0 ) − 2 U(t 0 )∑ a i W(t i ) + ⎢ ∑ a i W(t i )⎥ ⎬ .
2
⎪⎩ i =1 ⎣i =1 ⎦ ⎪⎭
В последнее выражение подставим (3.2.1)
⎧⎪ 2 n
⎡n ⎤ ⎫⎪
2
σ2n (a1,a2,...,an ) = M⎨U (t 0 ) − 2U(t 0 )∑ai [U(ti ) + V(ti )] +⎢∑ai [U(ti ) + V(ti )]⎥ ⎬.
⎪⎩ i =1 ⎣i =1 ⎦ ⎪⎭
[ ]
n
σ 2n (a1 , a 2 ,..., a n ) = M U 2 (t 0 ) − 2 ∑ a i {M[U (t 0 )U (t i )] + M[U (t 0 )V(t i )]}+
i =1
+ ∑ ∑ a i a j {M [U (t i )U (t j )] + M [U (t i )V (t j )] + M [V (t i )U (t j )] + M [V (t i )V (t j )]}=
n n
i =1 j =1
81
n
= K u (0 ) − 2 ∑ a i [K u (t 0 − t i ) + K uv (t 0 − t i )] +
i =1
[ ]
n n
+ ∑∑ a ia j K u (t j − t i ) + K uv (t j − t i ) + K vu (t j − t i ) + K v (t j − t i ) . (3.2.4)
i =1 j=1
Продифференцируем по всем a i :
∂σ 2n (a1 , a 2 ,..., a n )
= −2[K u (t 0 − t i ) + K uv (t 0 − t i )] +
∂a i
[ ]
+ ∑ a j K u (t j − t i ) + K uv (t j − t i ) + K vu (t j − t i ) + K v (t j − t i ) , i = 1, 2, …, n.
n
j=1
[ ]
Ku (t 0 − ti ) + Kuv(t0 − ti ) = ∑a j Ku (t j − ti ) + Kuv(t j − ti ) + Kvu(t j − ti ) + Kv (t j − ti ) . (3.2.5)
n
j=1
82
Как нам уже известно, с принципиальной точки зрения вывод
формул для оптимальной экстраполяции и оптимального сглажива-
ния не отличается от вывода формулы оптимальной интерполяции.
Рассмотрим частные случаи (3.2.5).
1. Ошибки измерения отсутствуют, т. е. имеем случай чистой
интерполяции или экстраполяции. В этом случае в формуле
(3.2.1) V(t i ) = 0 , а W (t i ) = U(t i ) . Следовательно, K v (τ ) = 0 ,
K uv (τ ) = 0, K vu (τ ) = 0 . Тогда формула (3.2.5) принимает вид:
K u (t 0 − t i ) = ∑ a jK u (t j − t i )
n
i = 1, 2, …, n . (3.2.6)
j=1
K u (t 0 − t i )
a1 = = R u (t 0 − t i ) ,
K u (0)
83
упреждения Т будет выбрана очень большой, то в равенстве
(3.2.6) K u (t 0 − t i ) = 0 и
∑ a jK u (t j − t i ) = 0 ,
n
i = 1, 2, …, n.
j=1
K v (τ ) = 0 при τ = 0 и K uv (τ ) = 0, K vu (τ ) = 0. (3.2.7)
[
K u (t 0 − t i ) = ∑ a j K u (t j − t i ) + K v (t j − t i ) . ]
n
j =1
K u (t 0 − t i ) = ∑ a jK u (t j − t i ) + a i K v (0) ,
n
(3.2.8)
j =1
где i=1,2,…, n.
Оценим ошибку оптимальной интерполяции со сглаживани-
ем. В нашем случае равенство (3.2.4) с учетом (3.2.7) принимает
вид:
n n n n
σ2n (a1, a 2 ,...,a n ) = Ku (0) − 2∑ai Ku (t 0 − t i ) + ∑∑aia jKu (t j − t i ) + ∑ai2Kv (0) . (3.2.9)
i =1 i =1 j=1 i =1
84
Умножив каждое из n равенств (3.2.8) на соответствующее
a i и сложив результаты, получим:
∑ a i K u (t 0 − t i ) = ∑ ∑ a i a jK u (t j − t i ) + K v (0)∑ a i2 .
n n n n
i =1 i =1 j =1 i =1
− K v (0 )∑ a i2 + ∑ ∑ a i a jK u (t j − t i ) + ∑ a i2 K v (0 ) .
n n n n
i =1 i =1 j =1 i =1
n
σ2n (a1, a 2 ,..., a n ) = K u (0) − ∑ a i K u (t 0 − t i ).
i =1
σ 2n
σ 2n (a1 , a 2 ,..., a n ) ≤ D , или = δ ≤ 1,
D
т. е. относительная ошибка не превосходит единицы. Окончатель-
но имеем:
n
δ = 1 − ∑ a i R u (t 0 − t i ) , (3.2.10)
i =1
K (t − t ) σ2n
где R u (t 0 − t i ) = u 0 i , = δ.
D D
85
Вернемся к равенству (3.2.8), обе части которого разделим на
дисперсию случайной функции (напомним, что в силу стацио-
нарности дисперсия для всех сечений случайного процесса по-
стоянна).
K u (t 0 − t i ) n K u (t j − t i ) K v (0)
= ∑a j + , i = 1, 2, …, n. (3.2.11)
D j=1 D D
где K v (0) – дисперсия ошибки, D – дисперсия истинной реали-
K v (0)
зации, – относительная ошибка измерения.
D
Через нормированные корреляционные функции равенство
(3.2.11) запишется:
R u (t 0 − t i ) = ∑ a jR u (t j − t i ) + a i δ ,
n
i = 1, 2, …, n.
j =1
R u (t 0 − t i ) = R 0 i , Ru (t j − t i ) = R ij .
Итак, окончательно система уравнений оптимальной интер-
поляции (экстраполяции) со сглаживанием имеет вид:
n
R 0i = ∑ a jR ij + a i δ , i = 1, 2, …, n.
j=1
86
Систему линейных алгебраических уравнений можно пере-
писать и для случая измерений без ошибок, когда δ = 0 .
Найденные значения a i (i = 1, 2, …, n) подставим в форму-
лу (3.2.2), записанную для центрированных величин (напомним,
что, не нарушая общности рассуждений, мы положили математи-
ческое ожидание равным нулю). Переходя к нецентрированным
величинам, получим истинное значение случайной функции при
заданном значении аргумента.
Очевидно, что методика, изложенная применительно к ста-
ционарным процессам одной переменной t, полностью применима
и для пространственной интерполяции (экстраполяции) изотроп-
ных и однородных полей. Соответствующие формулы легко полу-
чаются заменой скалярного аргумента t векторным аргументом
λ.
Метод оптимальной интерполяции, основанный на вероятно-
стной модели согласования гидрометеорологических наблюдений,
как показал опыт, обеспечивает по сравнению с другими методами
картирования максимальную точность восстановления полей в уз-
лах регулярной сетки.
В случае расчета карты одного крупномасштабного поля (по
измерениям этого же поля) для оптимальной интерполяции, как
мы уже убедились, необходима предварительная оценка корреля-
ционной функции поля. Эта функция служит естественной харак-
теристикой его пространственной изменчивости. Однако при прак-
тической оценке корреляционной функции приходится наклады-
вать статистические ограничения на изменчивость поля, вводя
предположения об однородности и изотропности его по отноше-
нию к корреляционной функции и о постоянстве его среднего зна-
чения. В этом случае корреляционная функция зависит не от коор-
динат точек, а только от скалярного расстояния между этими точ-
ками.
При океанографических съемках (в виду их высокой стоимо-
сти) целесообразно выполнять комплексные измерения многих
87
компонентов полей океана на каждой станции. Большинство из
измеряемых полей оказываются связанными между собой уравне-
ниями динамики океана, которые отражают реально существую-
щие в океане физические связи между параметрами состояния
водных масс. Физические связи между полями создают сущест-
венные ограничения на их пространственную изменчивость, кото-
рые отражаются на форме взаимных корреляционных функций
этих полей. Картирование крупномасштабной изменчивости океа-
на является задачей комплексного использования всей доступной
информации о каждом поле, содержащейся в измерениях различ-
ных полей. Так, в работе Неуймин Г. Г. и др. (см. список дополни-
тельной литературы) методом оптимальной интерполяции в узлах
регулярной сетки с шагом 2 o построены карты оптических харак-
теристик вод тропической зоны Атлантического океана по данным
ряда экспедиций судов Морского гидрофизического института.
Дальнейшая проверка полученных расчетов хорошо подтвердила
тот факт, что показатель ослабления оптических свойств в основ-
ном определяется содержанием планктона и продуктов его жизне-
деятельности: в районах с повышенным содержанием биогенов ве-
личина показателя ослабления увеличивается, а в зонах конверген-
ции показатель ослабления уменьшается; в прибрежных водах
прозрачность понижается не только за счет высокой продуктивно-
сти, но и за счет содержания терригенных веществ.
В метеорологии для крупномасштабной структуры, характе-
ризующейся горизонтальными расстояниями порядка сотен кило-
метров, можно говорить об однородности и изотропности только в
горизонтальном направлении или вдоль изобарической поверхно-
сти. С этой точки зрения при анализе крупномасштабной структу-
ры целесообразно рассматривать значения какой-либо одной ме-
теорологической величины на двух уровнях (или на двух изобари-
ческих поверхностях) как бы в качестве двух различных метеоро-
логических переменных.
88
Свойства изотропности и однородности выполняются при-
ближенно, и при расстояниях, сравнимых с радиусом Земли, они,
по-видимому, нарушаются. Практически, как показывают мно-
гочисленные расчеты, корреляционные функции высот изобари-
ческих поверхностей можно считать функциями только расстоя-
ния до тех пор, пока это расстояние не превышает примерно
3 000 км.
Хотя гипотезы однородности и изотропности не являются
столь уж принципиальными для ряда применений корреляционных
функций, в том числе и для оптимальной интерполяции, однако
принятие этих гипотез позволяет значительно облегчить использо-
вание корреляционных функций. Определение макромасштабных
корреляционных функций производится путем обработки массово-
го материала обычных аэрологических наблюдений. При выборе
исходного материала необходимо соблюдать ряд требований, на-
правленных на обеспечение однородности и репрезентативности
данных: данные следует брать в пределах одного сезона или его
части; не следует использовать данные за соседние сроки наблю-
дений из-за их связности (достаточно брать данные, отстоящие
друг от друга на двое-трое суток); в качестве норм следует прини-
мать средние значения по тому же материалу, который использу-
ется для определения корреляционных функций (то же относится и
к дисперсиям).
С помощью статистического анализа были исследованы кор-
реляционные крупномасштабные функции различных метеороло-
гических величин. Эти корреляционные функции в метеорологи-
ческих рекомендациях для различных метеовеличин даны или в
форме таблиц, или аналитических зависимостей. Так, например,
для высоты поверхности 500 гПа (АТ 500 ) нормированная корреля-
ционная функция аппроксимируется выражением
89
sin (1,51r )
R (r ) = exp(− 0,25r ) – формула Т. И. Олевской.
1,51r
⎛ t ⎞ ⎛ t ⎞
R (t ) = ⎜1 + ⎟ exp⎜ − ⎟ .
⎝ 30 ⎠ ⎝ 30 ⎠
Здесь r – расстояние в тысячах километров, t – время в ча-
сах.
Следует заметить, что приведенные формулы надо рассмат-
ривать как рабочие.
Пример.
На метеорологических станциях в какой-то стандартный срок
проведены наблюдения за полем высот изобарической поверхно-
сти 500 гПа. Относительная ошибка измерения δ = 0,02. Эти изме-
рения представлены в виде отклонений от соответствующих зна-
чений стандартной атмосферы. Используя для каждой точки регу-
лярной сетки данные наблюдений по четырем ближайшим метео-
станциям, рассчитать методом оптимальной интерполяции высоту
данной изобарической поверхности в каждом узле регулярной сет-
ки, если в качестве нормы принята средняя арифметическая (100
гп.м), рассчитанная по всему полю. Нормированную корреляцион-
ную функцию аппроксимировать формулой М. И. Юдина. Реше-
ние поставленной задачи продемонстрируем для одного из узлов
регулярной сетки, в окрестности которого находятся метеорологи-
ческие станции, имеющие следующие значения высот для рас-
90
сматриваемой изобарической поверхности: первая станция –
H1=150 гп.м, вторая – H2=150 гп.м, третья – H3=187 гп.м, четвертая –
H4=187 гп.м. Истинное значение высоты изобарической поверхно-
сти в данном узле обозначим через H0. Расположение станций дано
на схеме. Расстояние между точками
Решение:
Так как норма отлична от нуля, то формула оптимальной ин-
терполяции (3.2.2) будет в данных обозначениях иметь вид:
H 0 − H = ∑ a j (H j − H ) , где H – норма.
4
j=1
91
r01 = r02 = 0,600 ;
r12 = r21 = 0,848 ;
r34 = r43 = 0,424 ;
r03 = r04 = 0,300 .
Здесь индексы означают номера соответствующих пунктов.
Найдем нормированные корреляционные функции по формуле
М. И. Юдина, подставляя в нее соответствующие найденные рас-
стояния. В результате получим:
R 11 = R 22 = R 33 = R 44 = 1;
R 13 = R 31 = R 24 = R 42 = 0,779;
R 23 = R 32 = R 14 = R 41 = 0,859;
R 01 = R 02 = 0,882;
R 12 = R 21 = 0,797;
R 34 = R 43 = 0,934;
R 03 = R 04 = 0,964;
92
Или
Н0 = 100+0,166(150-100)+0,166(150-100)+0,354(187-100)+
+ 0,354(187-100) = 178,196 (гп.м).
4
δ = 1 − ∑ a i R 0i = 1 − 2(0.166 × 0,882 + 0,354 × 0,964) = 0,025 .
i =1
93
диагностических полей лишь для синоптических сроков наблюде-
ний. В этом отношении она не отличается от существующих мето-
дик объективного анализа. Различие же состоит в том, что при по-
строении каждого диагностического поля, наряду с данными на-
блюдений, относящихся к рассматриваемому сроку, используется
также асиноптическая информация, относящаяся к другим, более
ранним моментам времени. 2. Наиболее логичной является другая
непрерывная схема четырехмерного анализа, в рамках которой ка-
ждое наблюдаемое значение (синоптическое или асиноптическое)
усваивается соответственно тому времени, к которому это наблю-
дение относится. Это усвоение заключается в изменении результа-
тов численного прогноза для момента времени, соответствующего
поступившему наблюдению. Иначе говоря, каждый результат на-
блюдения вводится в численную прогностическую модель, кото-
рая действует непрерывно.
Рассмотрим, например, один из подходов решения задачи че-
тырехмерного анализа – полиномиальный. Метод полиномиаль-
ной интерполяции обобщается следующим образом. При пред-
ставлении поля скалярного аргумента, например температуры,
геопотенциала, давления и пр., в виде какого-либо полинома время
t рассматривается в качестве одной из независимых переменных.
Так, при использовании полинома второго порядка на плоскости
принимается, что
2
∑∑[Φis − ( )] pis ,
n m
a 0 + a1x i + a 2 yi + a 3x i yi + a 4 x i2 + a 5yi2 + a 6 t s + a 7 x i ts + a8yi t s + a 9 t s2
i =1 s =1
94
где индекс i показывает положение точки на плоскости, а индекс s –
момент времени, т. е. суммирование распространяется на все точки
на плоскости и на все моменты времени. Значение весовой функ-
ции pis может быть выбрано из каких-либо дополнительных сооб-
ражений (в простейшем случае pis = 1 ). Далее, согласно методу
наименьших квадратов, составляется нормальная система уравне-
ний для определения коэффициентов a j (j = 0, 1, 2, …, 9).
Аналогично можно рассматривать и метод оптимальной ин-
терполяции.
95
пример, в различных схемах численного анализа и прогнозах гид-
рометеорологических полей, используемых в нашей стране, при-
меняется один из следующих трех методов вертикального контро-
ля: статистический контроль производных по высоте, разработан-
ный С. Л. Белоусовым; статистический контроль при использова-
нии автокорреляционных матриц, предложенный М. Ю. Юдиным;
статический (гидростатический) контроль высот изобарических
поверхностей и температуры.
Рассмотрим для примера наиболее часто встречающийся ста-
тический контроль высот изобарических поверхностей и темпера-
туры. Этот контроль заключается в проверке выполнимости урав-
нения статики для политропной среды в слоях между каждыми со-
седними главными изобарическими поверхностями.
Уравнение статики атмосферы и гидросферы имеет вид:
dp
= − gρ ,
dz
где p – давление, g – ускорение свободного падения, ρ – плот-
ность, ось z направлена вертикально вверх.
Заменим высоту z геопотенциальной высотой Н. Известно,
что геопотенциальная высота Н представляет собой отношение
геопотенциала G к нормальному (стандартному) ускорению сво-
бодного падения g 0 :
G 1 z g
H= = ∫ gdz ≈ z, (g0 = 9,8 м/с2).
g0 g0 0 g0
96
Из последнего выражения найдем z = 98 H/g и подставим его
в уравнение гидростатики, предварительно записав его в виде:
dz 1 98dH 1 98dH 1
=− ; =− ; или = .
dp ρg gdp ρg dp ρ
R
H i +1 − H i = − (ln pi +1 − ln pi )Tm = R ln pi Tm , (3.4.1)
98 98 pi +1
R p (t + 273) + (t i +1 + 273)
H i +1 − H i = ln i i =
98 pi +1 2
273R p R p
= ln i + ln i (t i + t i +1 ) .
98 pi +1 196 pi +1
97
Обозначим в последнем равенстве первое слагаемое в правой
части через Ai , а выражение перед скобкой во втором слагаемом –
через Bi . Тогда
H i +1 − H i = A i + Bi (t i + t i +1 ) .
δi = H i +1 − H i − A i − Bi (t i + t i +1 ) .
Эта невязка может быть обусловлена отклонением профиля
температуры от линейного относительно ln p, а также случайны-
ми ошибками измерения и округления. Максимальное по модулю
значение δi , обусловленное указанными причинами, обозначим
Δ i . Если Δ i превышает допустимое значение, то весьма вероятна
грубая ошибка, по крайней мере, в одной из четырех величин:
H i , H i +1 , t i , t i +1 . Анализ соотношений в различных слоях часто по-
зволяет выяснить, какая из величин ошибочна, оценить величину
этой ошибки и внести соответствующие исправления.
98
Указание. Одно из двух значений высот соседних изобариче-
ских поверхностей считать ошибочным, если средняя темпера-
тура слоя, расположенного между двумя уровнями, определенная
как средняя арифметическая из измерений и по уравнению стати-
ки, отличается более чем на 4 o .
Решение: Находим среднюю температуру слоя, расположен-
ного между двумя уровнями:
1) как среднюю арифметическую
Ti + Ti +1
Tариф. = и
2
2) из уравнения статики (3.4.1)
98
Tm = (H i +1 − H i ) ,
R ln (pi pi +1 )
где R = 287 Дж (кг ⋅ K ) , К – кельвин.
В результате получим следующие значения для температуры
Слой
между уровня- Tариф. Tm Tариф − Tm
ми, гПа
99
сделанных расчетов, видим, что недопустимые ошибки имеются в
данных о высотах изобарических поверхностей 700 и 200 гПа. Ис-
правим эти данные, используя уравнение (3.4.1). Результаты ис-
правлений могут зависеть от того, какой индекс мы придали рас-
четной высоте i или i+1 (эти различия обусловлены не точным
линейным изменением температуры с высотой, а также ошибками
округления при расчетах).
Пусть H 700 = H i . Тогда из формулы (3.4.1):
R p T + Ti +1
H i = H 700 = H i +1 − ln i i =
98 pi +1 2
287 700
= 558 − ln 260,2 = 301,6 (гп. дам).
98 500
Видим, что исправленная высота изобарической поверхности
H 700 =301,6 гп. дам значительно отличается от заданной H 700 =402
гп. дам.
Пусть теперь H 700 = H i +1 . Тогда из формулы (3.4.1) имеем:
R p T + Ti +1
H i +1 = H 700 = H i + ln i i =
98 pi +1 2
287 850
= 146 − ln 273,6 = 301,6 (гп. дам).
98 700
100
Полагаем H 200 = H i . Тогда
R p T + Ti +1
H i = H 200 = H i +1 − ln i i =
98 pi +1 2
287 200
H 200 = 1620 − ln 216,7 = 1180,1 (гп. дам).
98 100
R p T + Ti +1
H i +1 = H 200 = H i + ln i i =
98 pi +1 2
287R 300
= 918 + ln 222,6 = 1182,3 (гп. дам).
98 200
101
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
Основная литература
102
11. Казакевич Д. И. Основы теории случайных функций в зада-
чах гидрометеорологии / Д. И. Казакевич. – Л. : Гидрометео-
издат, 1989. – 230 с.
12. Картвелишвили Н. А. Стохастическая гидрология /
Н. А. Картвелишвили. – Л. : Гидрометеоиздат, 1981. – 167 с.
13. Картвелишвили Н. А. Теория вероятностных процессов в
гидрологии и регулировании стока / Н. А. Картвелишвили. –
Л. : Гидрометеоиздат, 1985. – 192 с.
14. Тимченко И. Е. Динамико-статистические модели состояния
океана / И. Е. Тимченко. – Киев : Наукова думка, 1981. –
191 с.
15. Христофоров А. В. Теория случайных процессов в гидроло-
гии / А. В. Христофоров. – М. : МГУ, 1994. – 141 с.
16. Лекции по численным методам краткосрочного прогноза по-
годы. – Л. : Гидрометеоиздат, 1969. – 734 с.
17. Шелутко В. А. Статистические модели и методы исследова-
ния многолетних колебаний стока / В. А. Шелутко. – Л. :
Гидрометеоиздат, 1984. – 159 с.
18. Шелутко В. А. Численные методы в гидрологии / В. А. Ше-
лутко. – Л. : Гидрометеоиздат, 1991. – 238 с.
19. Юдин М. И. Новые методы и проблемы краткосрочного про-
гноза погоды / М. И. Юдин. – Л. : Гидрометеоиздат, 1963. –
404 с.
Дополнительная литература
103
4. Вентцель Е. С. Теория случайных процессов и ее инженер-
ные приложения / Е. С. Вентцель, Л. А. Овчаров. – М. : Нау-
ка, 1991. – 383 с.
5. Верещагин М. А. Статистические методы в метеорологии /
М. А. Верещагин, Э. П. Наумов, К. М. Шанталинский. – Ка-
зань: Изд-во Казан. ун-та, 1990. – 109 с.
6. Доценко С. В. Случайные процессы в гидрофизических изме-
рениях / С. В. Доценко. – Л. : Гидрометеоиздат, 1983. – 239 с.
7. Исаев А. А. Статистика в метеорологии и климатологии /
А. А. Исаев. – М. : МГУ, 1988. – 245 с.
8. Каган Р. Л. Осреднение метеорологических полей / Р. Л. Ка-
ган. – Л. : Гидрометеоиздат, 1979. – 213 с.
9. Карасев И. Ф. Стохастические методы речной гидравлики и
гидрометрии / И. Ф. Карасев, В. В. Коваленко. – СПб. : Гид-
рометеоиздат, 1992. – 208 с.
10. Коваленко В. В. Гидрометрическое оценивание речного сто-
ка с элементами стохастического подхода / В. В. Коваленко. –
Л. : ЛПИ, 1986. – 60 с.
11. Коваленко В. В. Измерение и расчет характеристик неустано-
вившихся речных потоков / В. В. Коваленко. – Л. : Гидроме-
теоиздат, 1984. – 160 с.
12. Кочергин В. П. Мониторинг гидрофизических полей океана /
В. П. Кочергин, И. Е. Тимченко. – Л. : Гидрометеоиздат,
1987. – 279 с.
13. Кучмент Л. С. Динамико-стохастические модели формиро-
вания речного стока / Л. С. Кучмент, А. Н. Гельфан. – М. :
Наука, 1993. – 103 с.
14. Монин А. С. Статистическая гидромеханика / А. С. Монин,
А. М. Яглом. – СПб. : Гидрометеоиздат, 1992. – Т. 1. – 694 с.
15. Монин А. С. Статистическая гидромеханика / А. С. Монин,
А. М. Яглом. – М. : Наука, 1967. – Ч 2. – 720 с.
16. Неуймин Г. Г. Построение поля показателя ослабления излу-
чения в Тропической Атлантике методом объективного ана-
104
лиза / Г. Г. Неуймин, Н. А. Сорокина, И. Е. Тимченко //
Океанология. – 1979, 19. – Вып. 4. – С. 600–607.
17. Музылев С. В. Статистические модели инженерной гидроло-
гии / С. В. Музылев, В. Е. Привальский, Д. Я. Раткович. – М. :
Наука, 1982. – 184 с.
18. Пановский Г. А. Статистические методы в метеорологии /
Г. А. Пановский, Г. В. Брайер. – Л. : Гидрометеоиздат, 1972. –
200 с.
19. Рождественский А. В. Статистические методы в гидрологии /
А. В. Рождественский, А. И. Чеботарев. – Л. : Гидрометеоиз-
дат, 1974. – 424 с.
20. Рожков В. А. Вероятностные модели океанологических про-
цессов / В. А. Рожков, Ю. А. Трапезников. – Л. : Гидрометео-
издат, 1990. – 272 с.
21. Смирнов Н. П. Методы многомерного статистического ана-
лиза в гидрологических исследованиях / Н. П. Смирнов. – Л. :
ЛГУ, 1986. – 190 с.
22. Рожков В. А. Вероятностные модели океанологических про-
цессов / В. А. Рожков, Ю. А. Трапезников. – Л. : Гидрометео-
издат, 1990. – 272 с.
23. Статистические методы в гидрологии / пер. с англ. М. И. Ру-
синова. – Л. : Гидрометеоиздат, 1970. – 271 с.
24. Гордин В. А. Математические задачи гидродинамического
прогноза погоды. Вычислительные аспекты / В. А. Гордин –
Л. : Гидрометеоиздат, 1987. – 264 с.
105
Учебное издание
ISBN 978-5-9624-0165-2
РЕДАКЦИОННО-ИЗДАТЕЛЬСКИЙ ОТДЕЛ
Иркутского государственного университета
664003, г. Иркутск, бульвар Гагарина, 36
106