Академический Документы
Профессиональный Документы
Культура Документы
PROBLEEMSTELLING
Meest kritieke stap
Geen juist antwoord willen hebben op de verkeerde vraag
Wat zijn de doelstellingen van het model?
Wie gaat het model gebruiken?
Wat levert het model op?
Zijn bronnen beschikbaar (data etc.)?
Hoe worden de resultaten gemplementeerd?
MODEL SPECIFICEREN
Variabelen definiren
Conceptueel (bv. afzet, temperatuur)
Empirisch (bv. hoogste, gemiddelde temp.)
Meeteenheid (bv. hectoliter, oC)
Veronderstellingen omtrent de relatie
Verwachte effecten (+ of -)
Soort functie (rechtlijnig of niet rechtlijnig)
Interacties
Modellen worden gespecificeerd op basis van:
Algemene verwachtingen
Economische theorien
Vorige onderzoeken
Wiskundige theorien
Les 5: Lineaire regressie
Verkopen
Verkopen
WELKE IS JUIST?
Reclameuitgaven
Reclameuitgaven
Verkopen
Verkopen
Reclameuitgaven
Reclameuitgaven
C
Les 5: Lineaire regressie
D
Johan van Berkel
REGRESSIEMODELLEN
1 verklarende
variabele
Regressie
modellen
Enkelvoudig
Lineair
2+ verklarende
variabelen
Meervoudig
Niet lineair
Lineair
Niet lineair
LINEAIR REGRESSIEMODEL
Y
y = ax + b
verandering y
a = helling
verandering x
X
Relatie tussen variabelen is een lineaire functie
y = ax + b waarbij:
y = afhankelijke (te verklaren) variabele
x = onafhankelijke (verklarende) variabele
a = richtingscofficint
b = snijpunt met de y-as
Les 5: Lineaire regressie
SPREIDINGSDIAGRAM
Y
KLEINSTE-KWADRATENMETHODE
Het beste passen betekent dat de verschillen tussen de
waargenomen y-waarden en de voorspelde y-waarden
(m.b.v. de lijn) zo klein mogelijk zijn
Kleinste-kwadratenmethode:
Minimaliseer de som van de gekwadrateerde verschillen (e)
Y
} e4
} e2
} e3
} e1
X
Les 5: Lineaire regressie
VOORBEELD EXCEL
Grolsch heeft van 10 aselect gekozen weken de afzet van
Lentebokbier en de gemiddelde maximumtemperatuur verzameld:
Temperatuur Afzet
10
14
16
24
13
18
15
12
22
30
28
52
17
34
25
48
19
40
20
36
Les 5: Lineaire regressie
10
y = 2.2699x - 11.193
Afzet (hl)
50
40
30
20
10
0
0
10
20
30
Temperatuur (C)
11
REGRESSIE-ANALYSE EVALUATIE
Hoe goed past het lineaire model om er
voorspellingen mee te doen?
Hoe ver liggen de punten van de lijn af?
(determinatiecofficint)
Aantal punten (betrouwbaarheid van de
schattingen van a en b)
Uitbijter(s)?
Interpoleren of extrapoleren?
12
VARIANTIE VAN Y
De variantie van de y-waarden kan opgedeeld worden in:
variantie van de regressie (dus veroorzaakt door het verband met x)
eigen variantie (onafhankelijk van x)
onverklaarde variantie
(yi y i)
y = ax + b
totale variantie
(yi y)
verklaarde variantie
(y i y)
13
DETERMINATIECOFFICINT (R2)
Het gedeelte van de variantie dat verklaard kan worden door
het verband tussen x en y
verklaardevariantie
totale variantie
0 < r2 < 1
14
AANTAL PUNTEN
De betrouwbaarheid van de determinatiecofficint is afhankelijk
van het aantal punten (nb. bij slechts 2 punten is deze
cofficint zelfs 100% en heeft dan geen enkele betekenis).
De richtingscofficint (a) wordt geschat m.b.v. een steekproef.
Hoe kleiner de steekproef des te groter wordt het betrouwbaarheidsinterval. (In het voorbeeld: 1,38 < a < 3,16)
Het snijpunt (b) wordt geschat m.b.v. een steekproef.
Hoe kleiner de steekproef des te groter het betrouwbaarheidsinterval. (In het voorbeeld: -28,2 < b < 5,8)
Een voorspelling is dus sterk afhankelijk van het aantal
waarnemingen dat geanalyseerd is
Les 5: Lineaire regressie
15
UITBIJTER
Als we bij de 10 waarnemingen m.b.t. Grolsch lentebokbier de
volgende waarneming toevoegen (temperatuur 22 en afzet 80)
dan krijgen we het volgende spreidingsdiagram:
Afzet
nieuw punt
90
80
70
60
50
40
30
20
10
0
y = 2.736x - 16.213
R2 = 0.5386
10
15
20
25
30
Tem peratuur
16
UITBIJTER
Het nieuwe punt ligt ver buiten de puntenwolk.
Zon punt wordt een uitbijter genoemd en heeft grote invloed op
de regressielijn en op de determinatiecofficint.
Een uitbijter wordt altijd nader beschouwd.
Wat kan de reden zijn dat dit punt zo afwijkt en moeten we het
dan bij de analyse wel mee laten tellen?
In het voorbeeld kan het bijvoorbeeld zijn dat in de desbetreffende
week een speciale actie voor Grolsch lentebokbier werd gevoerd
(lagere prijs o.i.d.). Dat is dan een reden om dit punt buiten
beschouwing te laten (overige factoren worden namelijk constant
verondersteld).
Les 5: Lineaire regressie
17
INTERPOLEREN / EXTRAPOLEREN
extrapoleren
interpoleren
10
extrapoleren
28 temperatuur
18
CORRELATIE
Correlatie beantwoordt de vraag hoe sterk het lineaire verband is
tussen twee variabelen
Correlatiecofficint r ligt tussen -1 en 1 en is de wortel uit de
determinatiecofficint
perfecte
negatieve
correlatie
-1,0
geen
correlatie
-0,5
0,5
toenemende negatieve
correlatie
Les 5: Lineaire regressie
perfecte
positieve
correlatie
1,0
toenemende positieve
correlatie
Johan van Berkel
19
r=1
15
10
5
0
0
10
X
Y 25
20
15
10
5
0
r = -0,8
10
X
20