EA 0030-Energiatervezes Okonometria-Regresszio 2017

Energiatervezési
módszerek
Egyváltozós regresszió-analízis, trend extrapoláció
Többváltozós regresszió-analízis, ökonometria
Egyváltozós statisztikai analízis
Statisztikai alapfogalmak
Regresszióanalízis
• Statisztika: a tömegjelenségek leírásával és jellemzésével
foglalkozó tudományág.
• Megállapításai és eredményei egyedi esetekre, egyénekre csak rendkívül
korlátozottan és nagy hibahatárokkal vonatkoztathatók.
• A jelenségek leírásához többnyire elégséges a számtani alapműveletek
használata.
• A jelenségek leírásán túlmenő statisztikai elemzések központi eleme a
becslés, és a becsléshez kapcsolódó valószínűségek, hibahatárok
elemzése.
• A populáció – magyarul alapsokaság – valamilyen ismertető jegyek,
tulajdonságok alapján összetartozó egyedek összességét jelenti.
• A minta a populáció vizsgált része.
• Az adatok jellegük szerint lehetnek
• minőségi / megállapítható / kvalitatív, vagy
• mennyiségi / mérhető / kvantitatív adatok
• Az adatok értékük / értékkészletük szerint lehetnek:
• bináris,
• diszkrét,
• folytonos adatok.
• Az adatok a skála típusa szerint lehetnek:
• nominális / névleges skála (nominal, categorical)
• ordinális / sorrendi / rendező skála (orderes, ordered categorical)
• intervallumskála (interval)
• arányskála (proportional)
Statisztikai adat
a mérés eredménye, valamely statisztikai sokaság elemeinek száma
vagy más számszerű jellemzője. Lehet
• közvetlenül mért alapadat (pl. GDP, energiafelhasználás)
• származtatott adat, alapadatok-ból számított mutató (pl.
energiahatékonyság)
Értékskála típusok
Nominális skála: minőségi (és területi) ismérveknél. Mennyiségi
értelmezésük nincs, csak az ismérvváltozatok azonosítására
szolgálnak. Például: Nem: férfi (1), nő (2); Megye: Veszprém (19),
Zala (20).
Sorrendi skála: az egymást követő számok rangsort fejeznek ki, de
nem jelentik azt, hogy az ismérv-értékek közötti távolság azonos.
Például: versenyen elért helyezés
Intervallum skála: nem csak a sorrend, hanem a számérték
(távolság) is fontos. Például: hőmérsékletérték
Arányskála: kötött kezdőpontú, mértékegység független, 0=az
ismérv hiánya. Például: GDP, villamosenergia-fogyasztás.
Változó és paraméter
• Paraméter: a vizsgált objektum/jelenség mért, számszerű
jellemzője, sajátossága:
• számszerű, mennyiségi jellegű,
• egyetlen számmal jellemezhető,
• egyértelmű,
• pontos, értelmezhető.
• Változó: olyan jellemző, ami nem rendelkezik a paraméter
ismérveivel
Függő és független változók!
Statisztika típusok
• Leíró statisztika
• (decriptives, basic statistic) a minta egyik változójának alapvető
jellemzőit adja meg, leírja a mintát, annak jellemzőit [átlag,
szórás, medián stb.]
• további vizsgálatok kiinduló adatai
• Középértékek
• átlag (számtani középérték) = mintaösszeg/elemszám
• medián: a nagyság szerint rendezett adatok közül a középső
• módusz: a leggyakrabban előforduló érték
• Szórások
• kiegészítő adatok a középértékek mellett
• az átlag körüli elhelyezkedést jellemzik
• Terjedelem (szélsőértékek)
• a legnagyobb és legkisebb elem különbsége
• Eloszlás
• az elemek előfordulási gyakorisága a szélsőértékek között
• Kvantilisek
• nagyság szerint sorbarendezett minta azonos elemszámú
csoportjai [leggyakoribb: kvartilisek, azaz négy csoport]
• Szórás az adatok változékonyságának mérőszáma [standard
eltérés (standard deviation), jelölése: s, SD]
• Variancia az adatok variálódását mutatja, az átlagtól való
eltérések négyzeteinek összege osztva (n-1)-gyel. Jelölése: s2 ,V
• Standard hiba (standard error): a populáció tényleges átlaga
körül hogyan szóródnak a populációból vett különböző minták
átlagai; a szórás és az elemszám négyzetgyökének hányadosa
(SE)
• Variációs együttható (relatív szórás): az adatok átlaghoz
viszonyított relatív változékonysága (különböző mennyiségek
szórása összehasonlítható ezzel), a szórás és az átlag hányadosa
Gyakoriság (frequency)
• az adott elem hányszor fordul elő a mintában
• osztályba sorolt adatok esetén: az osztály elemszáma
• osztályhatárok: egyértelmű besorolás
• a gyakoriság általában valamilyen mintázatot, eloszlást
mutat (legtöbbször normáleloszlást)
• ábrázolása hisztogrammal
Korreláció
Két mennyiség közötti lineáris kapcsolat nagysága (0..1)
n
 x i  x    yi  y 
Rx , y  i 1
 n  1 sx sy
Tapasztalati szórás:
n
1
s    xi  x 
2 2
n i 1
Matematikai (statisztikai) fogalmak
n
 xi
i 1
Átlag (számtani): x
n
n n
  xi  x    xi  x 
2 2
i 1 i 1
Szórás: σ σ
Átlagtól való n n 1
átlagos eltérés torzított becslés, n≥30 korrigált szórás
torzítatlan becslés, n<30
n
együttmozgás   xi  x  y i  y 
i 1
Kovariancia: cov( x, y ) 
n
n
Összeg: x
i 1
i
n
Négyzetösszeg: i
x 2
i 1
n
SQ    xi  x 
2
Négyzetes eltérés:
i 1

Standard hiba X 
n

Variációs együttható: v
x
Normális (Gauss-féle) eloszlás  x m
1 
Sűrűségfüggvény (gyakoriság): f x  e 2 2
 2
1
0.9
Eloszlásfüggvény: 0.8
X 0.7
FX   f  x  dx
0.6
0.5
 0.4
0.3
0.2
0.1
0
-3 -2 -1 0 1 2 3
f(x) F(x)
Statisztikai alapfogalmak - Példa
Energetikai mérnöki alapképzési szakra 2015A eljárásban felvettek
Hisztogram
22 22
21
15
14
9
7
6
0 2
500-490 490-480 480-470 470-460 460-450 450-440 440-430 430-420 420-410 410-400
Statisztikai alapfogalmak - Példa
Energetikai mérnöki alapképzési szakra 2015A eljárásban felvettek
Leíró statisztika
elemszám: 118 22 22
21
terjedelem: 408..487
átlag: 439,6
15
módusz: 434 14
medián: 438
szórás: 19,31 9
7
6
0 2
500-490 490-480 480-470 470-460 460-450 450-440 440-430 430-420 420-410 410-400
Regressziószámítás
Jelölések:
• eredmény- vagy függő változó: y vagy y (vektor)
• magyarázó- vagy független változó: x vagy X (mátrix)
• maradék vagy hiba: ε vagy ε (vektor)
• együtthatók: β vagy β (vektor)
k számú változóval és változónként n megfigyeléssel:
 y1  1 x11 x21 xk 1   β0   ε1 
y  1 x x22 xk 2  β  ε 
y   2 , X   12
, β   1  és ε   1 
  1     
       
yn  1 x1n x2n xkn   βk   εn 
y  Xβ  ε
• Becsült lineáris regressziós fgv. (^: becsült paraméter)
k
yˆ i  βˆ0   βˆk xk ,i
i 1
• A becsült regressziós fgv. hibája: reziduum (maradék):
ei  y i  yˆ i
Fontos! ei  εi
Regressziós fgv. paramétereinek becslése
Módszer: klasszikus legkisebb négyzetek módszere
(Ordinary Least Squares, OLS)
Célfüggvény: eltérések (reziduumok) négyzetösszege
n n
g     y i  yˆ i 
2
ei2
i 1 i 1
Cél: MIN(g)!
A regresszió „jóságát” meghatározó mutatók
n n
eltérések négyzetösszege:
RSS      y i  yˆ i 
2
ei2
(sum of squares of residuals) i 1 i 1
regressziós (magyarázott)
n
négyzetösszeg: ESS    yˆ i  y 
2
(explained sum of squares) i 1
teljes négyzetösszeg: TSS=ESS+RSS
ESS RSS
determinációs együttható: R 
2
 1
(a korrelációs együttható négyzete) TSS TSS
Trend extrapolációs módszer
Az extrapoláció bázisidőszaka meghatározza a jövőbeli értékeket.
13000.0
A függvény típusának
megválasztása kritikus. 12000.0
Esetünkben y = 2E-26e0.0341x
exponenciális, de 11000.0 R² = 0.9616
GDP Mrd 1995Ft

„ránézésre” lineáris is
10000.0
lehetne.
9000.0
8000.0
7000.0
6000.0
2000 2005 2010 2015 2020
évek
Bázisidőszak megválasztása: GDP 2005-2010
reál GDP
9000.0
y = 0.0147e0.0066x
8800.0
R² = 0.114
8600.0
8400.0
8200.0
8000.0
7800.0
7600.0
2004 2006 2008 2010 2012 2014 2016 2018 2020
1160
y = 1.6574x - 2223.2
1140
Primerenergia, PJ R² = 0.0687
1120
1100
1080
1060
1040
1990 1995 2000 2005 2010 2015 2020
Primerenergia, PJ év
Linear (Primerenergia, PJ)
Többváltozós statisztikai analízis
Ökonometria
Ökonometria
Mi az ökonometria?
Az ökonometria feladata gazdasági-társadalmi jelenségek
statisztikai modellezése.
Milyen ismeretek szükségesek:
• matematika (algebra)
• statisztika
Felhasznált módszer és eszköz:
módszer: regressziószámítás
eszköz: táblázatkezelő (MS Excel, OO Calc) és gretl.
A gretl elérhető: http://gretl.sourceforge.net/
Modellalkotás
• A modellek jellemzői
• Modell = egyszerűsítő (torzított) lényegkiemelés
• Kényelmes eszközzel (matematikai módszer) vizsgálható
• Kulcskérdés: absztrakciós szint megválasztása
• Egyensúlyozás: kezelhetőség ↔ valósághűség
• Mire jók a modellek?

• elemzés
• előrejelzés
Modellalkotás
Modellalkotás lépései
1. hipotézis felállítása (gondolkodási modell, célok
és eszközök)
2. adatgyűjtés
3. matematikai modell megválasztása
4. modellparaméterek meghatározása (becslése)
5. validáció (ellenőrzés)
Hipotézisvizsgálat
• az adatforrás működési „mechanizmusát” egy
véletlen eloszlás/függvénykapcsolat jellemzi,
• az adatok ismeretében megfogalmazódnak
bizonyos hipotézisek erre az
eloszlásra/függvénykapcsolatra nézve
• ellenőrizzük, hogy az adatok mennyire támasztják
alá a hipotéziseket
Korreláció és kauzalitás, Szimultaneitás
• A statisztikai modell nem adja meg az ok  okozati
kapcsolatot, ez az elemző feladata.
• A GDP változása ugyanolyan jól magyarázza a
villamosenergia-felhasználást, mint fordítva.
• Mi az ok, mi az okozat?
• A korreláció nem implikál kauzalitást! A matematikai
kapcsolat még nem jelent okokozati kapcsolatot.
• A változók kölcsönösen hatnak egymásra (HDI, GDP,
energiafelhasználás)
Statisztikai próbák
x m
t-statisztika (egymintás t-próba): t
 n
m: feltételezett (megadott) érték

Nullhipotézis: x m
Alternatív hipotézis: x m
A nullhipotézist el kell vetni ha t számított  t ,táblázat
A változó relevanciájára irányuló t-próba

t-próba szabadságfok
0.1
szignifikanciszint, α
0.05 0.01 0.001
1 6.31 12.71 63.66 636.62
2 2.92 4.30 9.93 31.60
3 2.35 3.18 5.84 12.92
4 2.13 2.78 4.60 8.61
Példa: sokaságból vett minta 5 2.02 2.57 4.03 6.87
feltételezett normáleloszlás 6
7
1.94
1.89
2.45
2.37
3.71
3.50
5.96
5.41
minta: 483, 502, 498, 496, 502, 483, 8 1.86 2.31 3.36 5.04
9 1.83 2.26 3.25 4.78
494, 491, 505, 486 10 1.81 2.23 3.17 4.59
átlag: 494 11
12
1.80
1.78
2.20
2.18
3.11
3.06
4.44
4.32
szignifikás-e (jellegzetes-e) az eltérés, 13 1.77 2.16 3.01 4.22
14 1.76 2.14 2.98 4.14
valóban 500 az átlag? 15 1.75 2.13 2.95 4.07
16 1.75 2.12 2.92 4.02
Nullhipotézis: az átlag = 500 17 1.74 2.11 2.90 3.97
szabadságfok: f=n-1 18 1.73 2.10 2.88 3.92
19 1.73 2.09 2.86 3.88
elemszám: 10 20 1.72 2.09 2.85 3.85
21 1.72 2.08 2.83 3.82
szórás: 8,05 22 1.72 2.07 2.82 3.79
t=2,36 23
24
1.71
1.71
2.07
2.06
2.82
2.80
3.77
3.75
Táblázatból: t0,05=2,26, 25 1.71 2.06 2.79 3.73
26 1.71 2.06 2.78 3.71
mivel t≥t0,05, ezért 27 1.70 2.05 2.77 3.69
28 1.70 2.05 2.76 3.67
a sokaság átlaga nem 500, az eltérés 29 1.70 2.05 2.76 3.66
szignifikáns 30 1.70 2.04 2.75 3.65
40 1.68 2.02 2.70 3.55
60 1.67 2.00 2.66 3.46
120 1.66 1.98 2.62 3.37
 1.65 1.96 2.58 3.29
Statisztikai próba, p-érték
Nullhipotézis: H0: R2=0, azaz nincs kapcsolat a változók között.
A p-érték fogalma van egy olyan legkisebb szigni-

fikanciaszint, amelyen már
biztosan el kell fogadnunk a
nullhipotézist
elfogadási tartomány
Ez az ún. p-érték
a p-érték nagy H0-t elfogadjuk
a p-érték kicsi H0-t elvetjük

Példa - Adatelemzés
GDP-TPES (1990-2009): nem látszik kapcsolat
1220
1200
1180 Ez a szóródási diagram, vagy scatterplot.
1160
1140
TPES
1120
1100
1080
1060
1040
5500 6000 6500 7000 7500 8000 8500
GDP
Példa - Adatelemzés
GDP-villamos energia (1990-2009): lineáris (?) kapcsolat
electr_en versus GDP (with least squares fit)
56000
Y = 1,53e+004 + 4,01X
54000
52000
50000
48000
electr_en
46000
44000
42000
40000
38000
36000
34000
5500 6000 6500 7000 7500 8000 8500
GDP
Példa - Eredmények
• β Std. hiba t-statisztika p-érték

• const 15326,4 3238,07 4,7332 0,00017 ***
• GDP 4,01053 0,466223 8,6022 <0,00001 ***
• Mean dependent var 43028,30 S.D. dependent var 351,920
• SSR 87790511 S.E. of regression 2208,450
• R-squared 0,838685 Adjusted R-squared 0,829723
• F(1, 18) 73,99734 P-value(F) 8,59e-08
• Log-likelihood -181,3261 Akaike criterion 366,6522
• Schwarz criterion 368,6436 Hannan-Quinn 367,0409
• rho 0,306655 Durbin-Watson 1,326367
A GDP jó magyarázó változó

A modell meggyőző erejű (a változás 83%-át magyarázza)
Példa2 – Kétváltozós regresszió
vill.en.=f(GDP, árindex) létezik?
electr_en versus price_idx (with least squares fit)
56000
Y = 8,68e+004 - 383,X
54000
52000
50000
48000
electr_en
46000
44000
42000
40000
38000
36000
34000
105 110 115 120 125 130 135
price_idx
Példa2 - Eredmények
• Coefficient Std. Error t-ratio p-value
• const -4440,38 11648,3 -0,3812 0,70777
• GDP 4,83871 0,743157 6,5110 <0,00001 ***
• price_idx122,986 60,238 2,0417 0,05702 *
• Mean dependent var 43028,30 S.D. dependent var 51,920
• Sum squared resid 79632667 S.E. of regression 2164,318
• R-squared 0,853675Adj. R-squared 0,836460
• F(2, 17) 51,00601P-value(F) 6,55e-08
• Log-likelihood -180,3508 Akaike criterion 366,7016
• Schwarz criterion 369,6888 Hannan-Quinn 367,2847
• rho 0,270488 Durbin-Watson 1,375572
Az árindex még elfogadható (határeset) magyarázó változó.
A modell jósága növekedett.
Regressziószámítás - Ellenőrzés
Több változó  további ellenőrzés
Változók közötti kapcsolat: egymást magyarázzák?
Kollinearitás, multikollinearitás
Variancianövelő tényező: VIF
(variance inflation factor) 1
VIFj 
1  R 2j
R 2j : determinációs együttható a j-edik és a többi vált. között

1  R 2j : tolerancia
VIF≥1, 10 felett: erős kollinearitás
Példa2 – Kollienearitás ellenrőzése
Variance Inflation Factors
Minimum possible value = 1.0

Values > 10.0 may indicate a collinearity problem
GDP 3,386
price_idx 3,386
A változók nem magyarázzák egymást, függetlenek.

Korrigált determinációs együttható
n 1
R 1
2
n  p 1
 1R 
2
n: változók száma
p: paraméterek száma
R2: eredeti det. együttható
Jellemzői:
• „bünteti” új változók bevonását
• negatív is lehet
Akaike információs kritérium (AIC)
 RSS 
AIC  n  ln    2p
 DFerror 
n: a mintaelemszám
RSS: a hibanégyzet összeg,
DFerror: a hiba szabadságfoka (n-p-1),
p: a modell paraméterszáma
Mivel a hibán (RSS) alapul, minél kisebb, annál jobb.
Sok paraméter (p)  jól magyaráz (RSS csökken)
 lényegkiemelő szerep csökken
Normalitás vizsgálat
A maradékoknak (e) normális eloszlásúnak kell lenniük!
Eszközök (grafikus, vizuális eszközök):

1.maradékok sűrűségfüggvénye (gyakoriságok)
2.Q-Q plot (Q-Q diagram)
3.további eszközök (pl. P-P plot stb.)
Példa2 – Normalitás vizsgálat
Normalitás vizsgálat – maradékok gyakorisága
0,00035
Test statistic for normality: uhat1
N(1,9281e-011 2164,3)
Chi-square(2) = 1,609 [0,4474]
0,0003
0,00025
0,0002
Density
0,00015
0,0001
5e-005
0
-6000 -4000 -2000 0 2000 4000 6000
uhat1
Példa2 – Normalitás vizsgálat
Normalitás vizsgálat – Q-Q plot
Q-Q plot for uhat1
5000
y=x
4000
3000
2000
1000
-1000
-2000
-3000
-4000
-5000
-5000 -4000 -3000 -2000 -1000 0 1000 2000 3000 4000 5000
Normal quantiles
Pontok illeszkedjenek az egyenesre!

EA 0030-Energiatervezes Okonometria-Regresszio 2017

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

EA 0030-Energiatervezes Okonometria-Regresszio 2017

Загружено:

Авторское право:

Доступные форматы

Energiatervezési

• A becsült regressziós fgv. hibája: reziduum (maradék):

Célfüggvény: eltérések (reziduumok) négyzetösszege

(explained sum of squares) i 1

teljes négyzetösszeg: TSS=ESS+RSS

GDP Mrd 1995Ft

• Mire jók a modellek?

m: feltételezett (megadott) érték

A nullhipotézist el kell vetni ha t számított  t ,táblázat

A változó relevanciájára irányuló t-próba

A p-érték fogalma van egy olyan legkisebb szigni-

a p-érték nagy H0-t elfogadjuk

a p-érték kicsi H0-t elvetjük

1180 Ez a szóródási diagram, vagy scatterplot.

• β Std. hiba t-statisztika p-érték

A GDP jó magyarázó változó

R 2j : determinációs együttható a j-edik és a többi vált. között

Minimum possible value = 1.0

A változók nem magyarázzák egymást, függetlenek.

Eszközök (grafikus, vizuális eszközök):

Pontok illeszkedjenek az egyenesre!

Вам также может понравиться