Академический Документы
Профессиональный Документы
Культура Документы
módszerek
Egyváltozós regresszió-analízis, trend extrapoláció
Többváltozós regresszió-analízis, ökonometria
Egyváltozós statisztikai analízis
Statisztikai alapfogalmak
Regresszióanalízis
Statisztikai alapfogalmak
• Statisztika: a tömegjelenségek leírásával és jellemzésével
foglalkozó tudományág.
• Megállapításai és eredményei egyedi esetekre, egyénekre csak rendkívül
korlátozottan és nagy hibahatárokkal vonatkoztathatók.
• A jelenségek leírásához többnyire elégséges a számtani alapműveletek
használata.
• A jelenségek leírásán túlmenő statisztikai elemzések központi eleme a
becslés, és a becsléshez kapcsolódó valószínűségek, hibahatárok
elemzése.
• A populáció – magyarul alapsokaság – valamilyen ismertető jegyek,
tulajdonságok alapján összetartozó egyedek összességét jelenti.
• A minta a populáció vizsgált része.
Statisztikai alapfogalmak
• Az adatok jellegük szerint lehetnek
• minőségi / megállapítható / kvalitatív, vagy
• mennyiségi / mérhető / kvantitatív adatok
• Az adatok értékük / értékkészletük szerint lehetnek:
• bináris,
• diszkrét,
• folytonos adatok.
• Az adatok a skála típusa szerint lehetnek:
• nominális / névleges skála (nominal, categorical)
• ordinális / sorrendi / rendező skála (orderes, ordered categorical)
• intervallumskála (interval)
• arányskála (proportional)
Statisztikai alapfogalmak
Statisztikai adat
a mérés eredménye, valamely statisztikai sokaság elemeinek száma
vagy más számszerű jellemzője. Lehet
• közvetlenül mért alapadat (pl. GDP, energiafelhasználás)
• származtatott adat, alapadatok-ból számított mutató (pl.
energiahatékonyság)
Statisztikai alapfogalmak
Értékskála típusok
Nominális skála: minőségi (és területi) ismérveknél. Mennyiségi
értelmezésük nincs, csak az ismérvváltozatok azonosítására
szolgálnak. Például: Nem: férfi (1), nő (2); Megye: Veszprém (19),
Zala (20).
Sorrendi skála: az egymást követő számok rangsort fejeznek ki, de
nem jelentik azt, hogy az ismérv-értékek közötti távolság azonos.
Például: versenyen elért helyezés
Intervallum skála: nem csak a sorrend, hanem a számérték
(távolság) is fontos. Például: hőmérsékletérték
Arányskála: kötött kezdőpontú, mértékegység független, 0=az
ismérv hiánya. Például: GDP, villamosenergia-fogyasztás.
Statisztikai alapfogalmak
Változó és paraméter
• Paraméter: a vizsgált objektum/jelenség mért, számszerű
jellemzője, sajátossága:
• számszerű, mennyiségi jellegű,
• egyetlen számmal jellemezhető,
• egyértelmű,
• pontos, értelmezhető.
• Változó: olyan jellemző, ami nem rendelkezik a paraméter
ismérveivel
Függő és független változók!
Statisztikai alapfogalmak
Statisztika típusok
• Leíró statisztika
• (decriptives, basic statistic) a minta egyik változójának alapvető
jellemzőit adja meg, leírja a mintát, annak jellemzőit [átlag,
szórás, medián stb.]
• további vizsgálatok kiinduló adatai
• Középértékek
• átlag (számtani középérték) = mintaösszeg/elemszám
• medián: a nagyság szerint rendezett adatok közül a középső
• módusz: a leggyakrabban előforduló érték
Statisztikai alapfogalmak
• Szórások
• kiegészítő adatok a középértékek mellett
• az átlag körüli elhelyezkedést jellemzik
• Terjedelem (szélsőértékek)
• a legnagyobb és legkisebb elem különbsége
• Eloszlás
• az elemek előfordulási gyakorisága a szélsőértékek között
• Kvantilisek
• nagyság szerint sorbarendezett minta azonos elemszámú
csoportjai [leggyakoribb: kvartilisek, azaz négy csoport]
Statisztikai alapfogalmak
• Szórás az adatok változékonyságának mérőszáma [standard
eltérés (standard deviation), jelölése: s, SD]
• Variancia az adatok variálódását mutatja, az átlagtól való
eltérések négyzeteinek összege osztva (n-1)-gyel. Jelölése: s2 ,V
• Standard hiba (standard error): a populáció tényleges átlaga
körül hogyan szóródnak a populációból vett különböző minták
átlagai; a szórás és az elemszám négyzetgyökének hányadosa
(SE)
• Variációs együttható (relatív szórás): az adatok átlaghoz
viszonyított relatív változékonysága (különböző mennyiségek
szórása összehasonlítható ezzel), a szórás és az átlag hányadosa
Statisztikai alapfogalmak
Gyakoriság (frequency)
• az adott elem hányszor fordul elő a mintában
• osztályba sorolt adatok esetén: az osztály elemszáma
• osztályhatárok: egyértelmű besorolás
• a gyakoriság általában valamilyen mintázatot, eloszlást
mutat (legtöbbször normáleloszlást)
• ábrázolása hisztogrammal
Korreláció
Két mennyiség közötti lineáris kapcsolat nagysága (0..1)
n
x i x yi y
Rx , y i 1
n 1 sx sy
Tapasztalati szórás:
n
1
s xi x
2 2
n i 1
Matematikai (statisztikai) fogalmak
n
xi
i 1
Átlag (számtani): x
n
n n
xi x xi x
2 2
i 1 i 1
Szórás: σ σ
Átlagtól való n n 1
átlagos eltérés torzított becslés, n≥30 korrigált szórás
torzítatlan becslés, n<30
n
együttmozgás xi x y i y
i 1
Kovariancia: cov( x, y )
n
Matematikai (statisztikai) fogalmak
n
Összeg: x
i 1
i
n
Négyzetösszeg: i
x 2
i 1
n
SQ xi x
2
Négyzetes eltérés:
i 1
Standard hiba X
n
Variációs együttható: v
x
Matematikai (statisztikai) fogalmak
Normális (Gauss-féle) eloszlás x m
1
Sűrűségfüggvény (gyakoriság): f x e 2 2
2
1
0.9
Eloszlásfüggvény: 0.8
X 0.7
FX f x dx
0.6
0.5
0.4
0.3
0.2
0.1
0
-3 -2 -1 0 1 2 3
f(x) F(x)
Statisztikai alapfogalmak - Példa
Energetikai mérnöki alapképzési szakra 2015A eljárásban felvettek
Hisztogram
22 22
21
15
14
9
7
6
0 2
500-490 490-480 480-470 470-460 460-450 450-440 440-430 430-420 420-410 410-400
Statisztikai alapfogalmak - Példa
Energetikai mérnöki alapképzési szakra 2015A eljárásban felvettek
Leíró statisztika
elemszám: 118 22 22
21
terjedelem: 408..487
átlag: 439,6
15
módusz: 434 14
medián: 438
szórás: 19,31 9
7
6
0 2
500-490 490-480 480-470 470-460 460-450 450-440 440-430 430-420 420-410 410-400
Regressziószámítás
Jelölések:
• eredmény- vagy függő változó: y vagy y (vektor)
• magyarázó- vagy független változó: x vagy X (mátrix)
• maradék vagy hiba: ε vagy ε (vektor)
• együtthatók: β vagy β (vektor)
k számú változóval és változónként n megfigyeléssel:
y1 1 x11 x21 xk 1 β0 ε1
y 1 x x22 xk 2 β ε
y 2 , X 12
, β 1 és ε 1
1
yn 1 x1n x2n xkn βk εn
y Xβ ε
Regressziószámítás
• Becsült lineáris regressziós fgv. (^: becsült paraméter)
k
yˆ i βˆ0 βˆk xk ,i
i 1
ei y i yˆ i
Fontos! ei εi
Regressziószámítás
Regressziós fgv. paramétereinek becslése
Módszer: klasszikus legkisebb négyzetek módszere
(Ordinary Least Squares, OLS)
n n
g y i yˆ i
2
ei2
i 1 i 1
Cél: MIN(g)!
Regressziószámítás
A regresszió „jóságát” meghatározó mutatók
n n
eltérések négyzetösszege:
RSS y i yˆ i
2
ei2
(sum of squares of residuals) i 1 i 1
regressziós (magyarázott)
n
négyzetösszeg: ESS yˆ i y
2
ESS RSS
determinációs együttható: R
2
1
(a korrelációs együttható négyzete) TSS TSS
Trend extrapolációs módszer
Az extrapoláció bázisidőszaka meghatározza a jövőbeli értékeket.
13000.0
A függvény típusának
megválasztása kritikus. 12000.0
Esetünkben y = 2E-26e0.0341x
exponenciális, de 11000.0 R² = 0.9616
8000.0
7000.0
6000.0
2000 2005 2010 2015 2020
évek
Trend extrapolációs módszer
Bázisidőszak megválasztása: GDP 2005-2010
reál GDP
9000.0
y = 0.0147e0.0066x
8800.0
R² = 0.114
8600.0
8400.0
8200.0
8000.0
7800.0
7600.0
2004 2006 2008 2010 2012 2014 2016 2018 2020
Trend extrapolációs módszer
1160
y = 1.6574x - 2223.2
1140
Primerenergia, PJ R² = 0.0687
1120
1100
1080
1060
1040
1990 1995 2000 2005 2010 2015 2020
Primerenergia, PJ év
Linear (Primerenergia, PJ)
Többváltozós statisztikai analízis
Ökonometria
Ökonometria
Mi az ökonometria?
Az ökonometria feladata gazdasági-társadalmi jelenségek
statisztikai modellezése.
Milyen ismeretek szükségesek:
• matematika (algebra)
• statisztika
Felhasznált módszer és eszköz:
módszer: regressziószámítás
eszköz: táblázatkezelő (MS Excel, OO Calc) és gretl.
A gretl elérhető: http://gretl.sourceforge.net/
Modellalkotás
• A modellek jellemzői
• Modell = egyszerűsítő (torzított) lényegkiemelés
• Kényelmes eszközzel (matematikai módszer) vizsgálható
• Kulcskérdés: absztrakciós szint megválasztása
• Egyensúlyozás: kezelhetőség ↔ valósághűség
Ez az ún. p-érték
1200
1160
1140
TPES
1120
1100
1080
1060
1040
5500 6000 6500 7000 7500 8000 8500
GDP
Példa - Adatelemzés
GDP-villamos energia (1990-2009): lineáris (?) kapcsolat
electr_en versus GDP (with least squares fit)
56000
Y = 1,53e+004 + 4,01X
54000
52000
50000
48000
electr_en
46000
44000
42000
40000
38000
36000
34000
5500 6000 6500 7000 7500 8000 8500
GDP
Példa - Eredmények
54000
52000
50000
48000
electr_en
46000
44000
42000
40000
38000
36000
34000
105 110 115 120 125 130 135
price_idx
Példa2 - Eredmények
• Coefficient Std. Error t-ratio p-value
• const -4440,38 11648,3 -0,3812 0,70777
• GDP 4,83871 0,743157 6,5110 <0,00001 ***
• price_idx122,986 60,238 2,0417 0,05702 *
• Mean dependent var 43028,30 S.D. dependent var 51,920
• Sum squared resid 79632667 S.E. of regression 2164,318
• R-squared 0,853675Adj. R-squared 0,836460
• F(2, 17) 51,00601P-value(F) 6,55e-08
• Log-likelihood -180,3508 Akaike criterion 366,7016
• Schwarz criterion 369,6888 Hannan-Quinn 367,2847
• rho 0,270488 Durbin-Watson 1,375572
Az árindex még elfogadható (határeset) magyarázó változó.
A modell jósága növekedett.
Regressziószámítás - Ellenőrzés
Több változó további ellenőrzés
Változók közötti kapcsolat: egymást magyarázzák?
Kollinearitás, multikollinearitás
Variancianövelő tényező: VIF
(variance inflation factor) 1
VIFj
1 R 2j
GDP 3,386
price_idx 3,386
n p 1
1R
2
n: változók száma
p: paraméterek száma
R2: eredeti det. együttható
Jellemzői:
• „bünteti” új változók bevonását
• negatív is lehet
Regressziószámítás - Ellenőrzés
Akaike információs kritérium (AIC)
RSS
AIC n ln 2p
DFerror
n: a mintaelemszám
RSS: a hibanégyzet összeg,
DFerror: a hiba szabadságfoka (n-p-1),
p: a modell paraméterszáma
Mivel a hibán (RSS) alapul, minél kisebb, annál jobb.
Sok paraméter (p) jól magyaráz (RSS csökken)
lényegkiemelő szerep csökken
Regressziószámítás - Ellenőrzés
Normalitás vizsgálat
A maradékoknak (e) normális eloszlásúnak kell lenniük!
0,0003
0,00025
0,0002
Density
0,00015
0,0001
5e-005
0
-6000 -4000 -2000 0 2000 4000 6000
uhat1
Példa2 – Normalitás vizsgálat
Normalitás vizsgálat – Q-Q plot
Q-Q plot for uhat1
5000
y=x
4000
3000
2000
1000
-1000
-2000
-3000
-4000
-5000
-5000 -4000 -3000 -2000 -1000 0 1000 2000 3000 4000 5000
Normal quantiles