Вы находитесь на странице: 1из 45

Energiatervezési

módszerek
Egyváltozós regresszió-analízis, trend extrapoláció
Többváltozós regresszió-analízis, ökonometria
Egyváltozós statisztikai analízis
Statisztikai alapfogalmak
Regresszióanalízis
Statisztikai alapfogalmak
• Statisztika: a tömegjelenségek leírásával és jellemzésével
foglalkozó tudományág.
• Megállapításai és eredményei egyedi esetekre, egyénekre csak rendkívül
korlátozottan és nagy hibahatárokkal vonatkoztathatók.
• A jelenségek leírásához többnyire elégséges a számtani alapműveletek
használata.
• A jelenségek leírásán túlmenő statisztikai elemzések központi eleme a
becslés, és a becsléshez kapcsolódó valószínűségek, hibahatárok
elemzése.
• A populáció – magyarul alapsokaság – valamilyen ismertető jegyek,
tulajdonságok alapján összetartozó egyedek összességét jelenti.
• A minta a populáció vizsgált része.
Statisztikai alapfogalmak
• Az adatok jellegük szerint lehetnek
• minőségi / megállapítható / kvalitatív, vagy
• mennyiségi / mérhető / kvantitatív adatok
• Az adatok értékük / értékkészletük szerint lehetnek:
• bináris,
• diszkrét,
• folytonos adatok.
• Az adatok a skála típusa szerint lehetnek:
• nominális / névleges skála (nominal, categorical)
• ordinális / sorrendi / rendező skála (orderes, ordered categorical)
• intervallumskála (interval)
• arányskála (proportional)
Statisztikai alapfogalmak
Statisztikai adat
a mérés eredménye, valamely statisztikai sokaság elemeinek száma
vagy más számszerű jellemzője. Lehet
• közvetlenül mért alapadat (pl. GDP, energiafelhasználás)
• származtatott adat, alapadatok-ból számított mutató (pl.
energiahatékonyság)
Statisztikai alapfogalmak
Értékskála típusok
Nominális skála: minőségi (és területi) ismérveknél. Mennyiségi
értelmezésük nincs, csak az ismérvváltozatok azonosítására
szolgálnak. Például: Nem: férfi (1), nő (2); Megye: Veszprém (19),
Zala (20).
Sorrendi skála: az egymást követő számok rangsort fejeznek ki, de
nem jelentik azt, hogy az ismérv-értékek közötti távolság azonos.
Például: versenyen elért helyezés
Intervallum skála: nem csak a sorrend, hanem a számérték
(távolság) is fontos. Például: hőmérsékletérték
Arányskála: kötött kezdőpontú, mértékegység független, 0=az
ismérv hiánya. Például: GDP, villamosenergia-fogyasztás.
Statisztikai alapfogalmak
Változó és paraméter
• Paraméter: a vizsgált objektum/jelenség mért, számszerű
jellemzője, sajátossága:
• számszerű, mennyiségi jellegű,
• egyetlen számmal jellemezhető,
• egyértelmű,
• pontos, értelmezhető.
• Változó: olyan jellemző, ami nem rendelkezik a paraméter
ismérveivel
Függő és független változók!
Statisztikai alapfogalmak
Statisztika típusok
• Leíró statisztika
• (decriptives, basic statistic) a minta egyik változójának alapvető
jellemzőit adja meg, leírja a mintát, annak jellemzőit [átlag,
szórás, medián stb.]
• további vizsgálatok kiinduló adatai
• Középértékek
• átlag (számtani középérték) = mintaösszeg/elemszám
• medián: a nagyság szerint rendezett adatok közül a középső
• módusz: a leggyakrabban előforduló érték
Statisztikai alapfogalmak
• Szórások
• kiegészítő adatok a középértékek mellett
• az átlag körüli elhelyezkedést jellemzik
• Terjedelem (szélsőértékek)
• a legnagyobb és legkisebb elem különbsége
• Eloszlás
• az elemek előfordulási gyakorisága a szélsőértékek között
• Kvantilisek
• nagyság szerint sorbarendezett minta azonos elemszámú
csoportjai [leggyakoribb: kvartilisek, azaz négy csoport]
Statisztikai alapfogalmak
• Szórás az adatok változékonyságának mérőszáma [standard
eltérés (standard deviation), jelölése: s, SD]
• Variancia az adatok variálódását mutatja, az átlagtól való
eltérések négyzeteinek összege osztva (n-1)-gyel. Jelölése: s2 ,V
• Standard hiba (standard error): a populáció tényleges átlaga
körül hogyan szóródnak a populációból vett különböző minták
átlagai; a szórás és az elemszám négyzetgyökének hányadosa
(SE)
• Variációs együttható (relatív szórás): az adatok átlaghoz
viszonyított relatív változékonysága (különböző mennyiségek
szórása összehasonlítható ezzel), a szórás és az átlag hányadosa
Statisztikai alapfogalmak
Gyakoriság (frequency)
• az adott elem hányszor fordul elő a mintában
• osztályba sorolt adatok esetén: az osztály elemszáma
• osztályhatárok: egyértelmű besorolás
• a gyakoriság általában valamilyen mintázatot, eloszlást
mutat (legtöbbször normáleloszlást)
• ábrázolása hisztogrammal
Korreláció
Két mennyiség közötti lineáris kapcsolat nagysága (0..1)
n

 x i  x    yi  y 
Rx , y  i 1

 n  1 sx sy
Tapasztalati szórás:
n
1
s    xi  x 
2 2

n i 1
Matematikai (statisztikai) fogalmak
n
 xi
i 1
Átlag (számtani): x
n

n n
  xi  x    xi  x 
2 2

i 1 i 1
Szórás: σ σ
Átlagtól való n n 1
átlagos eltérés torzított becslés, n≥30 korrigált szórás
torzítatlan becslés, n<30

n
együttmozgás   xi  x  y i  y 
i 1
Kovariancia: cov( x, y ) 
n
Matematikai (statisztikai) fogalmak
n
Összeg: x
i 1
i

n
Négyzetösszeg: i
x 2

i 1
n
SQ    xi  x 
2
Négyzetes eltérés:
i 1

Standard hiba X 
n

Variációs együttható: v
x
Matematikai (statisztikai) fogalmak
Normális (Gauss-féle) eloszlás  x m
1 
Sűrűségfüggvény (gyakoriság): f x  e 2 2

 2
1
0.9
Eloszlásfüggvény: 0.8
X 0.7

FX   f  x  dx
0.6
0.5
 0.4
0.3
0.2
0.1
0
-3 -2 -1 0 1 2 3
f(x) F(x)
Statisztikai alapfogalmak - Példa
Energetikai mérnöki alapképzési szakra 2015A eljárásban felvettek
Hisztogram

22 22
21

15
14

9
7
6

0 2
500-490 490-480 480-470 470-460 460-450 450-440 440-430 430-420 420-410 410-400
Statisztikai alapfogalmak - Példa
Energetikai mérnöki alapképzési szakra 2015A eljárásban felvettek
Leíró statisztika
elemszám: 118 22 22
21
terjedelem: 408..487
átlag: 439,6
15
módusz: 434 14

medián: 438
szórás: 19,31 9

7
6

0 2

500-490 490-480 480-470 470-460 460-450 450-440 440-430 430-420 420-410 410-400
Regressziószámítás
Jelölések:
• eredmény- vagy függő változó: y vagy y (vektor)
• magyarázó- vagy független változó: x vagy X (mátrix)
• maradék vagy hiba: ε vagy ε (vektor)
• együtthatók: β vagy β (vektor)
k számú változóval és változónként n megfigyeléssel:

 y1  1 x11 x21 xk 1   β0   ε1 
y  1 x x22 xk 2  β  ε 
y   2 , X   12
, β   1  és ε   1 
  1     
       
yn  1 x1n x2n xkn   βk   εn 

y  Xβ  ε
Regressziószámítás
• Becsült lineáris regressziós fgv. (^: becsült paraméter)
k
yˆ i  βˆ0   βˆk xk ,i
i 1

• A becsült regressziós fgv. hibája: reziduum (maradék):

ei  y i  yˆ i
Fontos! ei  εi
Regressziószámítás
Regressziós fgv. paramétereinek becslése
Módszer: klasszikus legkisebb négyzetek módszere
(Ordinary Least Squares, OLS)

Célfüggvény: eltérések (reziduumok) négyzetösszege

n n
g     y i  yˆ i 
2
ei2
i 1 i 1

Cél: MIN(g)!
Regressziószámítás
A regresszió „jóságát” meghatározó mutatók

n n
eltérések négyzetösszege:
RSS      y i  yˆ i 
2
ei2
(sum of squares of residuals) i 1 i 1
regressziós (magyarázott)
n
négyzetösszeg: ESS    yˆ i  y 
2

(explained sum of squares) i 1

teljes négyzetösszeg: TSS=ESS+RSS

ESS RSS
determinációs együttható: R 
2
 1
(a korrelációs együttható négyzete) TSS TSS
Trend extrapolációs módszer
Az extrapoláció bázisidőszaka meghatározza a jövőbeli értékeket.

13000.0
A függvény típusának
megválasztása kritikus. 12000.0
Esetünkben y = 2E-26e0.0341x
exponenciális, de 11000.0 R² = 0.9616

GDP Mrd 1995Ft


„ránézésre” lineáris is
10000.0
lehetne.
9000.0

8000.0

7000.0

6000.0
2000 2005 2010 2015 2020
évek
Trend extrapolációs módszer
Bázisidőszak megválasztása: GDP 2005-2010
reál GDP
9000.0
y = 0.0147e0.0066x
8800.0
R² = 0.114
8600.0

8400.0

8200.0

8000.0

7800.0

7600.0
2004 2006 2008 2010 2012 2014 2016 2018 2020
Trend extrapolációs módszer

1160
y = 1.6574x - 2223.2
1140
Primerenergia, PJ R² = 0.0687

1120

1100

1080

1060

1040
1990 1995 2000 2005 2010 2015 2020

Primerenergia, PJ év
Linear (Primerenergia, PJ)
Többváltozós statisztikai analízis
Ökonometria
Ökonometria
Mi az ökonometria?
Az ökonometria feladata gazdasági-társadalmi jelenségek
statisztikai modellezése.
Milyen ismeretek szükségesek:
• matematika (algebra)
• statisztika
Felhasznált módszer és eszköz:
módszer: regressziószámítás
eszköz: táblázatkezelő (MS Excel, OO Calc) és gretl.
A gretl elérhető: http://gretl.sourceforge.net/
Modellalkotás
• A modellek jellemzői
• Modell = egyszerűsítő (torzított) lényegkiemelés
• Kényelmes eszközzel (matematikai módszer) vizsgálható
• Kulcskérdés: absztrakciós szint megválasztása
• Egyensúlyozás: kezelhetőség ↔ valósághűség

• Mire jók a modellek?


• elemzés
• előrejelzés
Modellalkotás
Modellalkotás lépései
1. hipotézis felállítása (gondolkodási modell, célok
és eszközök)
2. adatgyűjtés
3. matematikai modell megválasztása
4. modellparaméterek meghatározása (becslése)
5. validáció (ellenőrzés)
Hipotézisvizsgálat
• az adatforrás működési „mechanizmusát” egy
véletlen eloszlás/függvénykapcsolat jellemzi,
• az adatok ismeretében megfogalmazódnak
bizonyos hipotézisek erre az
eloszlásra/függvénykapcsolatra nézve
• ellenőrizzük, hogy az adatok mennyire támasztják
alá a hipotéziseket
Korreláció és kauzalitás, Szimultaneitás
• A statisztikai modell nem adja meg az ok  okozati
kapcsolatot, ez az elemző feladata.
• A GDP változása ugyanolyan jól magyarázza a
villamosenergia-felhasználást, mint fordítva.
• Mi az ok, mi az okozat?
• A korreláció nem implikál kauzalitást! A matematikai
kapcsolat még nem jelent okokozati kapcsolatot.
• A változók kölcsönösen hatnak egymásra (HDI, GDP,
energiafelhasználás)
Statisztikai próbák
x m
t-statisztika (egymintás t-próba): t
 n

m: feltételezett (megadott) érték


Nullhipotézis: x m
Alternatív hipotézis: x m

A nullhipotézist el kell vetni ha t számított  t ,táblázat

A változó relevanciájára irányuló t-próba


t-próba szabadságfok
0.1
szignifikanciszint, α
0.05 0.01 0.001
1 6.31 12.71 63.66 636.62
2 2.92 4.30 9.93 31.60
3 2.35 3.18 5.84 12.92
4 2.13 2.78 4.60 8.61
Példa: sokaságból vett minta 5 2.02 2.57 4.03 6.87
feltételezett normáleloszlás 6
7
1.94
1.89
2.45
2.37
3.71
3.50
5.96
5.41
minta: 483, 502, 498, 496, 502, 483, 8 1.86 2.31 3.36 5.04
9 1.83 2.26 3.25 4.78
494, 491, 505, 486 10 1.81 2.23 3.17 4.59
átlag: 494 11
12
1.80
1.78
2.20
2.18
3.11
3.06
4.44
4.32
szignifikás-e (jellegzetes-e) az eltérés, 13 1.77 2.16 3.01 4.22
14 1.76 2.14 2.98 4.14
valóban 500 az átlag? 15 1.75 2.13 2.95 4.07
16 1.75 2.12 2.92 4.02
Nullhipotézis: az átlag = 500 17 1.74 2.11 2.90 3.97
szabadságfok: f=n-1 18 1.73 2.10 2.88 3.92
19 1.73 2.09 2.86 3.88
elemszám: 10 20 1.72 2.09 2.85 3.85
21 1.72 2.08 2.83 3.82
szórás: 8,05 22 1.72 2.07 2.82 3.79
t=2,36 23
24
1.71
1.71
2.07
2.06
2.82
2.80
3.77
3.75
Táblázatból: t0,05=2,26, 25 1.71 2.06 2.79 3.73
26 1.71 2.06 2.78 3.71
mivel t≥t0,05, ezért 27 1.70 2.05 2.77 3.69
28 1.70 2.05 2.76 3.67
a sokaság átlaga nem 500, az eltérés 29 1.70 2.05 2.76 3.66
szignifikáns 30 1.70 2.04 2.75 3.65
40 1.68 2.02 2.70 3.55
60 1.67 2.00 2.66 3.46
120 1.66 1.98 2.62 3.37
 1.65 1.96 2.58 3.29
Statisztikai próba, p-érték
Nullhipotézis: H0: R2=0, azaz nincs kapcsolat a változók között.

A p-érték fogalma van egy olyan legkisebb szigni-


fikanciaszint, amelyen már
biztosan el kell fogadnunk a
nullhipotézist
elfogadási tartomány

Ez az ún. p-érték

a p-érték nagy H0-t elfogadjuk

a p-érték kicsi H0-t elvetjük


Példa - Adatelemzés
GDP-TPES (1990-2009): nem látszik kapcsolat
1220

1200

1180 Ez a szóródási diagram, vagy scatterplot.

1160

1140
TPES

1120

1100

1080

1060

1040
5500 6000 6500 7000 7500 8000 8500
GDP
Példa - Adatelemzés
GDP-villamos energia (1990-2009): lineáris (?) kapcsolat
electr_en versus GDP (with least squares fit)
56000
Y = 1,53e+004 + 4,01X

54000

52000

50000

48000
electr_en

46000

44000

42000

40000

38000

36000

34000
5500 6000 6500 7000 7500 8000 8500
GDP
Példa - Eredmények

• β Std. hiba t-statisztika p-érték


• const 15326,4 3238,07 4,7332 0,00017 ***
• GDP 4,01053 0,466223 8,6022 <0,00001 ***
• Mean dependent var 43028,30 S.D. dependent var 351,920
• SSR 87790511 S.E. of regression 2208,450
• R-squared 0,838685 Adjusted R-squared 0,829723
• F(1, 18) 73,99734 P-value(F) 8,59e-08
• Log-likelihood -181,3261 Akaike criterion 366,6522
• Schwarz criterion 368,6436 Hannan-Quinn 367,0409
• rho 0,306655 Durbin-Watson 1,326367

A GDP jó magyarázó változó


A modell meggyőző erejű (a változás 83%-át magyarázza)
Példa2 – Kétváltozós regresszió
vill.en.=f(GDP, árindex) létezik?
electr_en versus price_idx (with least squares fit)
56000
Y = 8,68e+004 - 383,X

54000

52000

50000

48000
electr_en

46000

44000

42000

40000

38000

36000

34000
105 110 115 120 125 130 135
price_idx
Példa2 - Eredmények
• Coefficient Std. Error t-ratio p-value
• const -4440,38 11648,3 -0,3812 0,70777
• GDP 4,83871 0,743157 6,5110 <0,00001 ***
• price_idx122,986 60,238 2,0417 0,05702 *
• Mean dependent var 43028,30 S.D. dependent var 51,920
• Sum squared resid 79632667 S.E. of regression 2164,318
• R-squared 0,853675Adj. R-squared 0,836460
• F(2, 17) 51,00601P-value(F) 6,55e-08
• Log-likelihood -180,3508 Akaike criterion 366,7016
• Schwarz criterion 369,6888 Hannan-Quinn 367,2847
• rho 0,270488 Durbin-Watson 1,375572
Az árindex még elfogadható (határeset) magyarázó változó.
A modell jósága növekedett.
Regressziószámítás - Ellenőrzés
Több változó  további ellenőrzés
Változók közötti kapcsolat: egymást magyarázzák?
Kollinearitás, multikollinearitás
Variancianövelő tényező: VIF
(variance inflation factor) 1
VIFj 
1  R 2j

R 2j : determinációs együttható a j-edik és a többi vált. között


1  R 2j : tolerancia
VIF≥1, 10 felett: erős kollinearitás
Példa2 – Kollienearitás ellenrőzése
Variance Inflation Factors

Minimum possible value = 1.0


Values > 10.0 may indicate a collinearity problem

GDP 3,386
price_idx 3,386

A változók nem magyarázzák egymást, függetlenek.


Regressziószámítás - Ellenőrzés
Korrigált determinációs együttható
n 1
R 1
2

n  p 1
 1R 
2

n: változók száma
p: paraméterek száma
R2: eredeti det. együttható
Jellemzői:
• „bünteti” új változók bevonását
• negatív is lehet
Regressziószámítás - Ellenőrzés
Akaike információs kritérium (AIC)
 RSS 
AIC  n  ln    2p
 DFerror 
n: a mintaelemszám
RSS: a hibanégyzet összeg,
DFerror: a hiba szabadságfoka (n-p-1),
p: a modell paraméterszáma
Mivel a hibán (RSS) alapul, minél kisebb, annál jobb.
Sok paraméter (p)  jól magyaráz (RSS csökken)
 lényegkiemelő szerep csökken
Regressziószámítás - Ellenőrzés
Normalitás vizsgálat
A maradékoknak (e) normális eloszlásúnak kell lenniük!

Eszközök (grafikus, vizuális eszközök):


1.maradékok sűrűségfüggvénye (gyakoriságok)
2.Q-Q plot (Q-Q diagram)
3.további eszközök (pl. P-P plot stb.)
Példa2 – Normalitás vizsgálat
Normalitás vizsgálat – maradékok gyakorisága
0,00035
Test statistic for normality: uhat1
N(1,9281e-011 2164,3)
Chi-square(2) = 1,609 [0,4474]

0,0003

0,00025

0,0002
Density

0,00015

0,0001

5e-005

0
-6000 -4000 -2000 0 2000 4000 6000
uhat1
Példa2 – Normalitás vizsgálat
Normalitás vizsgálat – Q-Q plot
Q-Q plot for uhat1
5000
y=x

4000

3000

2000

1000

-1000

-2000

-3000

-4000

-5000
-5000 -4000 -3000 -2000 -1000 0 1000 2000 3000 4000 5000
Normal quantiles

Pontok illeszkedjenek az egyenesre!

Вам также может понравиться