Вы находитесь на странице: 1из 20

REGRESSIE-ANALYSE

Regressie-analyse wordt gebruikt om een relatie te beschrijven tussen


variabelen.
Doel: het voorspellen van de waarde van een afhankelijke (te verklaren)
variabele met behulp van de waarde(n) van de
onafhankelijke (verklarende) variabele(n).
Voorbeeld:
Hoeveel Lentebokbier moet Grolsch in voorraad hebben om aan de vraag
naar dit bier in de komende week te kunnen voldoen?
Oftewel: De afzet (vraag) moet voorspeld worden.
Deze afzet kan afhankelijk zijn van:
Gemiddelde temperatuur in de komende week
Vakantie of geen vakantie
Prijs van het bier
Prijs van concurrerende bieren, etc.
Les 5: Lineaire regressie

Johan van Berkel

STAPPEN BIJ REGRESSIE-ANALYSE


Definieer de probleemstelling of de vraag
Specificeer het model
Verzamel gegevens
Maak een spreidingsdiagram
Schat onbekende parameters

Evalueer het model


Gebruik het model om voorspellingen te doen
Les 5: Lineaire regressie

Johan van Berkel

PROBLEEMSTELLING
Meest kritieke stap
Geen juist antwoord willen hebben op de verkeerde vraag
Wat zijn de doelstellingen van het model?
Wie gaat het model gebruiken?
Wat levert het model op?
Zijn bronnen beschikbaar (data etc.)?
Hoe worden de resultaten gemplementeerd?

Les 5: Lineaire regressie

Johan van Berkel

MODEL SPECIFICEREN
Variabelen definiren
Conceptueel (bv. afzet, temperatuur)
Empirisch (bv. hoogste, gemiddelde temp.)
Meeteenheid (bv. hectoliter, oC)
Veronderstellingen omtrent de relatie
Verwachte effecten (+ of -)
Soort functie (rechtlijnig of niet rechtlijnig)
Interacties
Modellen worden gespecificeerd op basis van:
Algemene verwachtingen
Economische theorien
Vorige onderzoeken
Wiskundige theorien
Les 5: Lineaire regressie

Johan van Berkel

Verkopen

Verkopen

WELKE IS JUIST?

Reclameuitgaven

Reclameuitgaven

Verkopen

Verkopen

Reclameuitgaven

Reclameuitgaven

C
Les 5: Lineaire regressie

D
Johan van Berkel

REGRESSIEMODELLEN

1 verklarende
variabele

Regressie
modellen

Enkelvoudig

Lineair

Les 5: Lineaire regressie

2+ verklarende
variabelen

Meervoudig

Niet lineair

Johan van Berkel

Lineair

Niet lineair

LINEAIR REGRESSIEMODEL
Y
y = ax + b
verandering y
a = helling
verandering x

}b = snijpunt met de y-as

X
Relatie tussen variabelen is een lineaire functie
y = ax + b waarbij:
y = afhankelijke (te verklaren) variabele
x = onafhankelijke (verklarende) variabele
a = richtingscofficint
b = snijpunt met de y-as
Les 5: Lineaire regressie

Johan van Berkel

SPREIDINGSDIAGRAM
Y

Zet alle puntenparen (x,y) in de grafiek


Kijk welk regressiemodel het beste past
Welke lijn past het beste bij de punten?

Les 5: Lineaire regressie

Johan van Berkel

KLEINSTE-KWADRATENMETHODE
Het beste passen betekent dat de verschillen tussen de
waargenomen y-waarden en de voorspelde y-waarden
(m.b.v. de lijn) zo klein mogelijk zijn
Kleinste-kwadratenmethode:
Minimaliseer de som van de gekwadrateerde verschillen (e)
Y

} e4
} e2

} e3

} e1

X
Les 5: Lineaire regressie

Johan van Berkel

VOORBEELD EXCEL
Grolsch heeft van 10 aselect gekozen weken de afzet van
Lentebokbier en de gemiddelde maximumtemperatuur verzameld:
Temperatuur Afzet
10
14
16
24
13
18
15
12
22
30
28
52
17
34
25
48
19
40
20
36
Les 5: Lineaire regressie

Johan van Berkel

10

REGRESSIE MET SPREIDINGSDIAGRAM


Afzet van Grolsch lentebokbier
bij verschillende temperaturen
60

y = 2.2699x - 11.193

Afzet (hl)

50
40
30
20
10
0
0

10

20

30

Temperatuur (C)

Les 5: Lineaire regressie

Johan van Berkel

11

REGRESSIE-ANALYSE EVALUATIE
Hoe goed past het lineaire model om er
voorspellingen mee te doen?
Hoe ver liggen de punten van de lijn af?
(determinatiecofficint)
Aantal punten (betrouwbaarheid van de
schattingen van a en b)
Uitbijter(s)?
Interpoleren of extrapoleren?

Les 5: Lineaire regressie

Johan van Berkel

12

VARIANTIE VAN Y
De variantie van de y-waarden kan opgedeeld worden in:
variantie van de regressie (dus veroorzaakt door het verband met x)
eigen variantie (onafhankelijk van x)
onverklaarde variantie

(yi y i)

y = ax + b
totale variantie
(yi y)

verklaarde variantie

(y i y)

Les 5: Lineaire regressie

Johan van Berkel

13

DETERMINATIECOFFICINT (R2)
Het gedeelte van de variantie dat verklaard kan worden door
het verband tussen x en y

verklaardevariantie

totale variantie

0 < r2 < 1

81% van de variantie in de afzet kan verklaard


worden door de relatie met de temperatuur
Les 5: Lineaire regressie

Johan van Berkel

14

AANTAL PUNTEN
De betrouwbaarheid van de determinatiecofficint is afhankelijk
van het aantal punten (nb. bij slechts 2 punten is deze
cofficint zelfs 100% en heeft dan geen enkele betekenis).
De richtingscofficint (a) wordt geschat m.b.v. een steekproef.
Hoe kleiner de steekproef des te groter wordt het betrouwbaarheidsinterval. (In het voorbeeld: 1,38 < a < 3,16)
Het snijpunt (b) wordt geschat m.b.v. een steekproef.
Hoe kleiner de steekproef des te groter het betrouwbaarheidsinterval. (In het voorbeeld: -28,2 < b < 5,8)
Een voorspelling is dus sterk afhankelijk van het aantal
waarnemingen dat geanalyseerd is
Les 5: Lineaire regressie

Johan van Berkel

15

UITBIJTER
Als we bij de 10 waarnemingen m.b.t. Grolsch lentebokbier de
volgende waarneming toevoegen (temperatuur 22 en afzet 80)
dan krijgen we het volgende spreidingsdiagram:

Afzet

nieuw punt
90
80
70
60
50
40
30
20
10
0

y = 2.736x - 16.213
R2 = 0.5386

10

15

20

25

30

Tem peratuur

Les 5: Lineaire regressie

Johan van Berkel

16

UITBIJTER
Het nieuwe punt ligt ver buiten de puntenwolk.
Zon punt wordt een uitbijter genoemd en heeft grote invloed op
de regressielijn en op de determinatiecofficint.
Een uitbijter wordt altijd nader beschouwd.
Wat kan de reden zijn dat dit punt zo afwijkt en moeten we het
dan bij de analyse wel mee laten tellen?
In het voorbeeld kan het bijvoorbeeld zijn dat in de desbetreffende
week een speciale actie voor Grolsch lentebokbier werd gevoerd
(lagere prijs o.i.d.). Dat is dan een reden om dit punt buiten
beschouwing te laten (overige factoren worden namelijk constant
verondersteld).
Les 5: Lineaire regressie

Johan van Berkel

17

INTERPOLEREN / EXTRAPOLEREN
extrapoleren

interpoleren

10

extrapoleren

28 temperatuur

Om een afzet te voorspellen wanneer de temperatuur tussen de


laagste en hoogste waargenomen waarde van de regressielijn ligt
wordt interpoleren genoemd. Dit kan met een redelijke
betrouwbaarheid gedaan worden.
Een afzet voorspellen buiten dit bereik wordt extrapoleren
genoemd. Zeker als de waarde er ver buiten ligt is erg
onbetrouwbaar. (Op basis van de regressielijn zal de afzet bij een
temperatuur van 0 graden -11 hl bedragen, dus onmogelijk)
Les 5: Lineaire regressie

Johan van Berkel

18

CORRELATIE
Correlatie beantwoordt de vraag hoe sterk het lineaire verband is
tussen twee variabelen
Correlatiecofficint r ligt tussen -1 en 1 en is de wortel uit de
determinatiecofficint
perfecte
negatieve
correlatie

-1,0

geen
correlatie

-0,5

0,5

toenemende negatieve
correlatie
Les 5: Lineaire regressie

perfecte
positieve
correlatie

1,0

toenemende positieve
correlatie
Johan van Berkel

19

GRAFISCHE VOORBEELDEN CORRELATIE


Y 20

r=1

15
10
5
0
0

10
X

Y 25
20
15
10
5
0

r = -0,8

10
X

Les 5: Lineaire regressie

Johan van Berkel

20

Вам также может понравиться