Вы находитесь на странице: 1из 31

TECHNISCHE UNIVERSITÄT DARMSTADT

Institut für Volkswirtschaftslehre


Empirische Wirtschaftsforschung und Makroökonometrie
Prof. Dr. Uwe Hassler Sommersemester 03

Kurzskript zu Statistik I

Warnung: Die vorliegenden Seiten sind nur als kommentierte Formelsammlung zu verstehen. Sie sind
bewuÿt knapp gehalten und ersetzen keinesfalls ein umfangreicheres Skript oder Lehrbuch.

Inhaltsverzeichnis
1 Einführung 1

2 Darstellung und Beschreibung statistischer Daten 1


2.1 Grundbegrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.2 Häugkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2.1 Diskrete Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2.2 Stetige Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 Maÿzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3.1 Lagemaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.3.2 Streuungsmaÿe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.4 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.5 Bivariate Häugkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.6 Streudiagramm und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.7 Zufallsprinzip und Stichprobenauswahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Wahrscheinlichkeitsrechnung 8
3.1 Zufallsvorgang und Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Verknüpfungen von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.3 Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.4 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.5 Unabhängigkeit zweier Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

4 Zufallsvariablen und Verteilungen 11


4.1 Grundbegrie und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.2 Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.3 Stetige Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.4 Theoretische Maÿzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.4.1 Lage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.4.2 Streuung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.5 Verteilungsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.5.1 Diskrete Verteilungsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.5.2 Stetige Verteilungsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.6 Mehr zur Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.7 Summen und Mittel von Stichprobenvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.8 Asymptotische (approximative) Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . 17

5 Parameterschätzung 18
5.1 Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2 Eigenschaften von Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2.1 Erwartungstreue und Ezienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2.2 Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.3 Konstruktion von Schätzfunktionen (Momentenmethode) . . . . . . . . . . . . . . . . . . 21

6 Kondenzintervalle 21
6.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
6.2 Kondenzintervalle für den Erwartungswert µ bei Normalverteilung . . . . . . . . . . . . . 22
6.3 Kondenzintervalle für einen Anteilswert p . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

7 Statistische Tests 25
7.1 Prinzipien des Testens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
7.2 Tests auf µ bei Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
7.3 Test auf einen Anteilswert p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
7.4 Zweiseitige Tests und Kondenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

Literatur:
Bamberg, G., Baur, F., Statistik. 11. Au., Oldenbourg, 2000.
Bleymüller, J., Gehlert, G., Gülicher, H., Statistik für Wirtschaftswissenschaftler. 10. Au., Vahlen, 1996.
Fahrmeir, Künstler, Pigeot, Tutz, Statistik: Der Weg zur Datenanalyse. 2. Au., Springer, 1999.
Hartung, J., Statistik. Lehr- und Handbuch der angewandten Statistik. 11. Au., Oldenbourg, 1998.
Heike, H.-D., C. Tarcolea, Grundlagen der Statistik und Wahrscheinlichkeitsrechnung. Oldenbourg, 2000.
Krämer, W., So lügt man mit Statistik. Campus, 1997.
Lehn, J., Wegmann, H., Einführung in die Statistik. 3., überarbeitete Auage, Teubner, 2000.
Lehn, J., Wegmann, H., Rettig, S., Aufgabensammlung zur Einführung in die Statistik. 2. Au., Teubner,
1994.
Mittelhammer, R. C., Mathematical Statistics for Economics and Business. Springer, 1996.
Schlittgen, R., Einführung in die Statistik: Analyse und Modellierung von Daten. 9. Au., Oldenbourg,
1999.
1 Einführung
Die Statistik hat einen schlechten Ruf, den folgende Polemiken zum Ausdruck bringen:
• Glaube keiner Statistik, die du nicht selbst gefälscht hast. Volksmund,
• There are three kinds of lies: lies, damned lies, and statistics. Benjamin Disraeli.
Dies ist wohl darin begründet, daÿ wir Statistik häug nutzen wie Betrunkene einen Laternenpfahl: vor
allem zur Stütze unseres Standpunktes und weniger zum Beleuchten eines Sachverhalts, Andrew Lang.
Andererseits erfreut sich die Statistik auch von unvermuteter Seite groÿer Wertschätzung:
• Man hat behauptet, die Welt werde durch Zahlen regiert: das aber weiÿ ich, daÿ die Zahlen uns belehren,
ob sie gut oder schlecht regiert werde. Goethe, Gespräche mit Eckermann,
• A basic literacy in statistics will one day be as necessary for ecient citizenship as the ability to read
and write. H.G. Wells.
Tatsache ist, daÿ Statistik in vielen Bereichen des täglichen Lebens sowie der Wirtschaft und Wissenschaft
zur Anwendung kommt. Einige Beispiele sind:
• Mietspiegel
• Einschaltquote beim Fernsehen
• Wahlhochrechnungen
• Analyse von Finanzmärkten
• Marktforschung
• Prognose des Wirtschaftswachstums
• Wetter
Dabei gibt es den Begri Statistik in einem doppeltem Wortsinn. Er wird zum einen im Sinne der
Ansammlung quantitativer Informationen über bestimmte Sachverhalte verwendet, z.B. Arbeitslosensta-
tistik, zum anderen als Begri für Methoden zur Erhebung, Darstellung und Analyse von Daten. Diesen
Methoden sind die Lehrveranstaltungen Statistik I und II gewidmet. Im Prinzip haben wir
• beschreibende oder deskriptive Statistik: Darstellung von Daten,
• schlieÿende oder induktive Statistik: Statistische Schluÿfolgerungen auf der Basis von Modellen.
Diese Unterscheidung erscheint in der Praxis oft künstlich, weil es von der Deskription zur Indukiton
häug nur ein (gewagter?) Schritt ist.

2 Darstellung und Beschreibung statistischer Daten


Nach der Klärung einiger Grundbegrie werden wir Häugkeitsverteilungen, Lage- und Streuungsmaÿe
und Boxplots kennenlernen, die allgemein geeignet sind, in Daten vorhandene Information zu verdichten.
Eine solche Informationsverdichtung ist üblicherweise der erste Schritt zu einem Schluÿ auf unbekannte
Eigenschaften einer interessierenden Grundgesamtheit. Danach wenden wir uns kurz ersten Verfahren zu,
wie man Zusammenhänge zwischen mehreren Gröÿen messen kann.

2.1 Grundbegrie
Die Grundgesamtheit ist die Menge aller Personen, Einheiten oder Objekte, die im Hinblick auf ein
bestimmtes Untersuchungsziel relevant sind. Ein einzelnes Element dieser Grundgesamtheit heiÿt Merk-
malsträger, und die interessierenden Eigenschaften werden als Merkmale oder Variablen bezeichnet und
häug mit X notiert. Ein konkreter Wert eines Merkmals heiÿt Merkmalsausprägung oder Realisation.
Als Rohdaten bezeichnet man nicht geordnete, in der Erhebungsreihenfolge gegebene Daten (oder Beob-
achtungen ) x1 , . . . , xn . Die Anzahl der Daten n wird gern als Stichprobenumfang bezeichnet. Ein geord-
neter Datensatz beinhaltet der Gröÿe nach sortierte Beobachtungen, x(1) ≤ x(2) ≤ . . . ≤ x(n) .
Die Natur der Variablen bestimmt die statistischen Analysemöglichkeiten. Wir unterscheiden zwischen
diskreten und stetigen Variablen:
• diskret: endlich bzw. abzählbar viele Ausprägungen,
• stetig: alle Werte eines Intervalls möglich.
Überdies ist das Skalenniveau eines Merkmals maÿgeblich:
• nominal: reine Klasseneinteilung,
• ordinal: Ordnungsstruktur,
• metrisch: sinnvolle Abstände.
Schlieÿlich können Merkmale eindimensional (oder univariat, z.B. Gewicht einer Person) oder mehrdi-
mensional (z.B. bivariat, Gewicht und Körpergröÿe) sein.

2.2 Häugkeitsverteilungen
In diesem Abschnitt gehen wir von einem eindimensionalen Datensatz aus. Dieser kann in einer Häug-
keitstabelle oder auch in Form einer Graphik dargestellt werden. Die Vorgehensweise ist für diskrete und
stetige Variablen unterschiedlich, da man im diskreten Fall die Ausprägungen einzeln betrachten kann,
während im stetigen Fall die Ausprägungen in Klassen eingeteilt werden. Hat eine diskrete Variable sehr
viele einzelne Ausprägungen, so wird sie oft so behandelt, als wäre sie stetig. Genauso kann es auch sein,
daÿ aufgrund einer sehr groben Messung ein stetiges Merkmal als diskret interpretiert wird.

2.2.1 Diskrete Merkmale

Wir betrachten ein diskretes Merkmal X mit den Ausprägungen1 x1 , . . . , xk , wobei k die Anzahl der
verschiedenen Realisationsmöglichkeiten ist, und einen dazu gehörigen Datensatz vom Umfang n.
Die Anzahl der vorkommenden xi ist die absolute Häugkeit. Sie wird mit n(X = xi ) oder ni bezeichnet.
Setzt man die absolute Häugkeit in Relation zum Umfang des Datensatzes, so erhält man die relative
Häugkeit oder den Anteil der xi . Bezeichnet wird die relative Häugkeit mit h(X = xi ) = hi = ni /n. Die
P
kumulierte, relative Häugkeit ist in der Form h(X ≤ xi ) = ij=1 hj deniert, für x1 < x2 < · · · < xk .
Zusammengefaÿt werden die Häugkeiten in einer Häugkeitstabelle, wobei der Ausdruck F̂ (xi ) erst
nachfolgend deniert wird:
Pi
i xi ni hi j=1 hj = F̂ (xi )
.. .. .. .. ..
. . . . .

Um sich schnell einen Überblick über die Häugkeitsverteilung eines Merkmals zu verschaen, ist die
graphische Darstellung der Daten sehr sinnvoll. Dabei gibt es eine Vielzahl von Möglichkeiten. Bei einem
Stab- bzw. Balkendiagramm werden auf der horizontalen Achse die Merkmalsausprägungen abgetragen
1 Es besteht die Gefahr, die k Realisationsmöglichkeiten mit den n Realisationen notationell zu verwechseln; trotzdem

schiene es etwas übertrieben, für die Ausprägungen ein eigenes Symbol einzuführen.
und auf der vertikalen Achse die relativen (oder absoluten) Häugkeiten in Form von Stäben oder Balken.
Beim Kreis- bzw. Tortendiagramm entsprechen die Flächen der Kreissektoren bzw. der Tortenstücke
den Häugkeiten.
Um die kumulierten, relativen Häugkeiten graphisch darzustellen, muÿ man h(X ≤ x) für jeden x-Wert
in ein Diagramm zeichnen. Das führt auf die empirische Verteilungsfunktion, die folgendermaÿen deniert
ist für x1 < x2 < . . . < xk :


 0 für x < x1


Pi
F̂ (x) = h(X ≤ x) = hj für xi ≤ x < xi+1 , i = 1, . . . , k − 1


j=1

 1 für x ≥ xk

Im diskreten Fall ist die empirische Verteilungsfunktion eine Treppenfunktion. Sie ist monoton steigend
und beschränkt zwischen 0 und 1.

2.2.2 Stetige Merkmale

Es werde nun ein stetiges Merkmal X betrachtet. Die Realisationen dieser Variablen sind in k Klassen
eingeteilt:
(x∗0 , x∗1 ], (x∗1 , x∗2 ], (x∗2 , x∗3 ], . . . , (x∗k−1 , x∗k ].

Die Anzahl der Realisationen in der i-ten Klasse (x∗i−1 , x∗i ] ist die absolute Häugkeit. Sie wird analog
zum diskreten Fall mit ni oder n(x∗i−1 < X ≤ x∗i ) bezeichnet. Die relative Häugkeit ergibt sich wiederum
aus der Division durch n, den Umfang des Datensatzes, und beschreibt den Anteil der Realisationen in
Pi
der i-ten Klasse: hi = ni /n. Die kumulierte, relative Häugkeit ist durch h(X ≤ x∗i ) = j=1 hj deniert.
Da bei unterschiedlichen Klassenbreiten relative Häugkeiten für die graphische Darstellung wenig aus-
ssagekräftig sind, werden beim Übergang zur Häugkeitsdichte fˆ die relativen Häugkeiten hi durch die
Klassenbreiten ∆i = x∗i − x∗i−1 dividiert. Die Häugkeitsdichte ist damit wie folgt deniert:

 h(x∗ < X ≤ x∗ )/∆i für x∗ < x ≤ x∗ , i = 1, . . . , k
i−1 i i−1 i
fˆ(x) =
 0 sonst

Damit ergibt sich zusammengefaÿt die nachstehende Häugkeitstabelle:

Pi
i x∗i−1 < X ≤ x∗i ni hi ∆i fˆ(x) j=1 hj = F̂ (x∗i )
.. .. .. .. .. .. ..
. . . . . . .

Das Histogramm ist die graphische Darstellung der Häugkeitsdichte fˆ, die auf der vertikalen Achse
abgetragen wird. Die x-Werte benden sich auf der horizontalen Achse des Koordinatensystems. Es
werden beim Histogramm Blöcke der Fläche hi und der Breite ∆i auf die Klassenmitten der Klassen
gestellt, in die die jeweiligen Beobachtungen fallen.
Die empirische Verteilungsfunktion bei klassierten Daten ist deniert durch:


 0 für x ≤ x∗0


Pi−1 ˆ ∗
F̂ (x) = h(X ≤ x) = ∗ ∗ ∗
j=1 hj + (x − xi−1 ) · f (xi ) für xi−1 < x ≤ xi , i = 1, . . . , k



 1 für x > x∗ k
Für die Klassenobergrenzen x∗i , i = 1, . . . , k , entspricht F̂ (x∗i ) den kumulierten, relativen Häugkeiten
Pi
j=1 hj , wie auch schon der Häugkeitstabelle zu entnehmen ist. Eine andere Darstellung der empirischen
Verteilungsfunktion ist

F̂ (x) = F̂ (x∗i−1 ) + (x − x∗i−1 ) · fˆ(x∗i ) für x∗i−1 < x ≤ x∗i , i = 1, . . . , k.

Die empirische Verteilungsfunktion ist eine stetige, aus Geradenstücken zusammengesetzte, monoton
wachsende Funktion mit Werten zwischen 0 und 1.

2.3 Maÿzahlen
Zur Beschreibung der Häugkeitsverteilung eines Merkmals sind aber nicht nur die Häugkeitstabel-
len und entsprechende graphische Darstellungen wichtig, sondern auch Maÿzahlen, die beschreiben, um
welchen Wert herum sich die Verteilung bendet (Lage) und wie die Werte schwanken (Streuung).
Weiterhin wird ein eindimensionales Merkmal unterstellt.

2.3.1 Lagemaÿe

Das arithmetisches Mittel x (Mittelwert oder Durchschnitt) ist die bekannteste Maÿzahl zur Beschreibung
der Lage einer Verteilung. Es wird je nach Datengrundlage auf folgende Weise berechnet:

n
1X
x= xi (aus Rohdaten)
n i=1

k
X
x≈ mi · hi (aus Häugkeitstabelle, stetig, approximativ),
i=1

x∗i−1 + x∗i
wobei mi die Klassenmitte der i-ten Klasse ist: mi = .
2
Für das arithmetische Mittel gelten folgende Regeln:
• Lineartransformation der Daten yi = a + b xi , i = 1, . . . , n : y = a + bx
• Summe von Daten in der Form zi = xi + yi , i = 1, . . . , n : z =x+y

Ein weiteres Lagemaÿ ist der Median oder 50%-Punkt, x0.50 . Er halbiert den geordneten Datensatz
x(1) , . . . , x(n) . Bei ungeradem Umfang n ist der Median der mittlere Wert im geordneten Datensatz und
bei geradem n der Mittelwert aus den beiden mittleren Werten.

 x((n+1)/2) n ungerade
x0.5 =
 1 (x
2 (n/2) + x(n/2+1) ) n gerade

Im Unterschied zum arithmetischen Mittel x ist der Median robuster gegenüber Ausreiÿern in den Daten
und für die Beschreibung der Lage einer Verteilung in vielen Fällen besser geeignet.

2.3.2 Streuungsmaÿe

Die mittlere quadratische Abweichung d2 ist ein Maÿ für die Streuung der Daten, wobei Streuung ein
relativer Begri ist und der numerische Wert von der Skalierung des Merkmals abhängt. Formal handelt
es sich um das arithmetische Mittel der quadrierten, um x zentrierten Daten. Je nach Datengrundlage
wird d2 gemäÿ folgender Formeln berechnet:

n
1X
d2 = (xi − x)2 (aus Rohdaten)
n i=1
k
X
d2 ≈ (mi − x)2 · hi (aus Häugkeitstabelle, stetig, approximativ),
i=1

wobei mi wiederum die Klassenmitte der i-ten Klasse ist.


In vielen Fällen lassen sich mittlere quadratische Abweichungen besser mit der folgenden Zerlegungsformel
berechnen.
d2 = x2 − x2 ,
1
Pn
wobei x2 das arithmetische Mittel der quadrierten Daten ist, d.h. x2 = n i=1 x2i für die Rohdaten und
analog für die Berechnung aus Häugkeitstabellen.
Bei linearen Transformationen der Daten in der Form yi = a + b xi gilt für die mittlere quadratische
Abweichung:
d2y = b2 d2x

2.4 Quantile
Betrachtet man nicht nur den Median oder 50%-Punkt, sondern beliebige Prozentpunkte oder Quantile,
so bendet man sich sowohl bei einer Lage- als auch zum Teil schon bei einer Streuungsbetrachtung der
Verteilung.
Für die Rohdaten seien an dieser Stelle nur der 25%-Punkt (unteres Quartil ) x0.25 und der 75%-Punkt
(oberes Quartil ) x0.75 erwähnt. Um diese Werte zu bestimmen, geht man folgendermaÿen vor. Der Daten-
satz wird halbiert, wobei im Falle eines ungeraden Stichprobenumfangs n, der Median der Daten sowohl
der untere Datenhälfte als auch der oberen Datenhälfte zugeschlagen wird. Das untere Quartil x0.25 ist
dann der Median der unteren Hälfte des Datensatzes und das obere Quartil x0.75 der Median der oberen
Hälfte.
Für klassierte Daten werden beliebige Prozentpunkte oder p-Quantile betrachtet. Für 0 < p ≤ 1 und
F̂ (x∗i−1 ) < p ≤ F̂ (x∗i ) ergibt sich das p-Quantil in der folgenden Form:

p − F̂ (x∗i−1 )
xp = x∗i−1 + .
fˆ(x∗ )
i

Ein weiteres Streuungsmaÿ ist der sog. Interquartilsabstand

IQR = x0.75 − x0.25 ,

der wie auch schon der Median im Vergleich zum Mittelwert bei Ausreiÿern robuster als die mittlere
quadratische Abweichung ist.

Der Boxplot ist eine übersichtliche graphische Darstellungsform eines univariaten Datensatzes. Man be-
kommt unter anderem einen Eindruck über Lage, Streuung und Schiefe von Daten sowie insbesondere
beim Vergleich mehrerer Datensätze über Unterschiede hinsichtlich dieser Merkmale. Die grundlegen-
de Form des Boxplots basiert auf fünf Kennzahlen eines Datensatzes, dem Minimum x(1) , dem unteren
Quartil x0.25 , dem Median x0.50 , dem oberen Quartil x0.75 und dem Maximum x(n) . Diese Werte sind aus
einem geordneten Datensatz ohne groÿe Rechnung leicht zu bestimmen. Durch die Art der graphischen
Darstellung und die leichte Berechenbarkeit ermöglicht es einem der Boxplot, schnell einen eektiven
Überblick über die Daten zu bekommen. Das Grundschema eines Boxplots sieht folgendermaÿen aus:

x(1) x0.25 x0.50 x0.75 x(n)

Vom unteren bis zum oberen Quartil wird eine Schachtel (box) gezeichnet. Diese wird durch den Median
unterteilt. Vom unteren Quartil bis zum Minimum sowie vom oberen Quartil bis zum Maximum zeichnet
man Schnurrhaare (engl: whisker). Boxplot ist nämlich eigentlich die Kurzform von Box-and-Whisker-
Plot.

2.5 Bivariate Häugkeitsverteilungen


An jeweils einem Objekt werden nunmehr zwei diskrete Merkmale X und Y mit relativ wenigen Ausprä-
gungen gemessen. Es liegen also n Beobachtungspaare vor. Die gemeinsame Verteilung wird in Form einer
zweidimensionalen Häugkeitstabelle, auch Kontingenztabelle oder Kreuztabelle genannt, betrachtet.
Für die Häugkeiten wählen wir die folgende Notation, wobei X die Realisationen x1 , . . . , xk und Y die
Ausprägungen y1 , . . . , ym hat:

• absolute Häugkeit:
nij = n(X = xi , Y = yj )

• relative Häugkeit:
hij = h(X = xi , Y = yj ) = nij /n

• absolute Randhäugkeit:
Pm
ni• = n(X = xi ) = j=1 nij (i-te Zeile) und
Pk
n•j = n(Y = yj ) = i=1 nij (j-te Spalte)

• relative Randhäugkeit:
Pm
hi• = h(X = xi ) = j=1 hij (i-te Zeile) und
Pk
h•j = h(Y = yj ) = i=1 hij (j-te Spalte)

In der Kontingenztabelle sind noch einmal exemplarisch die absoluten Häugkeiten in allgemeiner Form
dargestellt.
Y
X\ y1 y2 ... ym Σ
x1 n11 n12 ... n1m n1•
x2 n21 n22 ... n2m n2•
.. .. .. .. .. ..
. . . . . .
xk nk1 nk2 ... nk
• −1 ≤ r ≤ 1 (Normierung),

• r=1:
Die Punkte liegen exakt auf einer steigenden Geraden (perfekter positiv linearer Zusammenhang),

• r = −1 :
Die Punkte liegen exakt auf einer fallenden Geraden (perfekter negativ linearer Zusammenhang),

• r=0:
Es besteht kein linearer Zusammenhang, aber möglicherweise trotzdem ein nicht-linearer Zusam-
menhang zwischen X und Y .

Je stärker der (positive oder negative) lineare Zusammenhang zwischen zwei Variablen ist, desto gröÿer ist
der Absolutbetrag des Korrelationskoezienten. Es sei nochmals betont, daÿ die Korrelation lediglich ein
Maÿ für den linearen Zusammenhang von zwei Merkmalen darstellt, und daÿ darüber hinaus Korrelation
und Kausalität nicht gleichgesetzt werden dürfen.

2.7 Zufallsprinzip und Stichprobenauswahl


Interessiert ist man eigentlich an der Grundgesamtheit. Eine Totalerhebung aber kann
• zu aufwendig (Zeit oder Geld) oder
• technisch unmöglich (Alkoholkontrolle!)
sein. Deshalb werden typischerweise nur Stichproben gezogen. Dabei ist darauf zu achten, daÿ die Stich-
probe repräsentativ für die Grundgesamtheit ist und zufällig erhoben wird. Natürlich ist dann der sta-
tistische Schluÿ von der Stichprobe auf die Grundgesamtheit mit Unsicherheit behaftet. Wie kann diese
Unsicherheit quantiziert werden? Wie groÿ muÿ der Stichprobenumfang sein, damit die Unsicherheit
innerhalb vorgegebener Grenzen bleibt? Die Beantwortung solcher Fragen verlangt Grundbegrie der
Wahrscheinlichkeitsrechnung als Fundament für die Erfassung des Zufalls.

3 Wahrscheinlichkeitsrechnung
3.1 Zufallsvorgang und Ereignisse
Ein Zufallsvorgang führt zu einem von mehreren, sich gegenseitig ausschlieÿenden Ergebnissen. Vor der
Durchführung ist ungewiÿ, welches Ergebnis tatsächlich eintreten wird. Von einem Zufallsexperiment
spricht man, wenn der Vorgang unter gleichen Randbedingungen wiederholbar ist. Die Ergebnismenge
Ω = {ω1 , ω2 , . . .} ist die Menge aller möglichen Ergebnisse ωi eines Zufallsvorgangs. Teilmengen von Ω
heiÿen Ereignisse und die speziellen Teilmengen {ωi } Elementarereignisse.

3.2 Verknüpfungen von Ereignissen


Weil Ereignisse im mathematischen Sinne Mengen sind, bedarf es Kenntnisse der Mengenlehre, um mit
Ereignissen operieren zu können. Einige Ereignisse als Mengen bzw. als Verknüpfungen von Mengen seien
an dieser Stelle vorgestellt:
Leere Menge: { } oder ∅ Unmögliches Ereignis

Teilmenge: A ⊆ B = {x | x ∈ A ⇒ x ∈ B} Wenn A eintritt, tritt auch B ein

Komplementärmenge: A = {x | x 6∈ A}  A tritt nicht ein

Schnittmenge: A ∩ B = {x | x ∈ A und x ∈ B}  A und B treten ein

A∩B =∅  A und B schlieÿen sich gegenseitig aus bzw.


 A und B sind disjunkt

Vereinigungsmenge: A ∪ B = {x | x ∈ A oder x ∈ B} Mindestens eines der Ereignisse A und B


tritt ein

Dierenzmenge: A \ B = {x | x ∈ A und x 6∈ B}  A tritt ein, aber nicht B 


Auÿerdem seien hier noch einmal kurz einige Rechenregeln für Mengen dargestellt:
Kommutativgesetz: A ∩ B = B ∩ A, A ∪ B = B ∪ A

Assoziativgesetz: (A ∩ B) ∩ C = A ∩ (B ∩ C)

(A ∪ B) ∪ C = A ∪ (B ∪ C)

Distributivgesetz: A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)

A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)

Regel von de Morgan: (A ∪ B) = A ∩ B

(A ∩ B) = A ∪ B

3.3 Wahrscheinlichkeiten
Vor der Durchführung eines Zufallsvorganges ist ungewiÿ, ob ein bestimmtes Ereignis eintreten wird oder
nicht. Allerdings möchte man in vielen Fällen etwas über die Chance für das Eintreten eines bestimmten
Ereignisses sagen können. Die Chance wird dabei mit einer Zahl bewertet. Diese Bewertung durch eine
Zahl bezeichnet man als Wahrscheinlichkeit, wenn sie bestimmten Anforderungen, den Axiomen von
Kolmogorov, genügt. Wir bezeichnen die Wahrscheinlichkeit für das Eintreten eines Ereignisses A mit
P(A).
Axiome von Kolmogorov:
1) P(A) ≥ 0,
2) P(Ω) = 1,
3) P(A ∪ B) = P(A) + P(B), falls A ∩ B = ∅.
Die Axiome von Kolmogorov lassen sich dadurch motivieren, daÿ man sich die Wahrscheinlichkeit für
das Eintreten eines Ereignisses A als die Zahl vorstellt, gegen welche die relative Häugkeit h(A) bei
wachsender Zahl von Wiederholungen eines Zufallsexperiments konvergiert.

Aus den Axiomen lassen sich Rechenregeln für Wahrscheinlichkeiten ableiten:


a) P(∅) = 0

b) P(A) = 1 − P(A)

c) P(A) ≤ P(B), falls A ⊆ B

d) P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

e) P(A ∩ B) = P(A \ B) = P(A) − P(A ∩ B)

Von besonderer Bedeutung in vielen Anwendungen ist ein Zufallsexperiment mit Ω = {ω1 , . . . , ωN },
1
bei dem alle Elementarereignisse gleichwahrscheinlich sind, d.h. P({ωi }) = N gilt. Es wird als Laplace-
Experiment oder auch als Gleichmöglichkeitsmodell bezeichnet. Für die Laplace-Wahrscheinlichkeit eines
Ereignisses A gilt:
|A| Anzahl der für A günstigen Ergebnisse
P(A) = = .
|Ω| Anzahl aller möglichen Ergebnisse (N )

3.4 Bedingte Wahrscheinlichkeiten


Die bedingte Wahrscheinlichkeit eines Ereignisses A unter der Bedingung des Eintretens des Ereignisses
B , mit P(B) > 0, ist
P(A ∩ B)
P(A |B) = .
P(B)
Die Axiome von Kolmogorov gelten entsprechend für bedingte Wahrscheinlichkeiten P(• | B).
Aus der Denition der bedingten Wahrscheinlichkeit folgt unmittelbar der sog. Multiplikationssatz :

P(A ∩ B) = P(A |B) · P(B).

Man spricht von einer disjunkten Zerlegung der Ergebnismenge Ω, wenn Ω = A1 ∪ A2 ∪ . . . ∪ Ak gilt,
wobei Ai ∩ Aj = ∅ für alle i 6= j , d.h. je zwei Mengen sind immer paarweise disjunkt.
Beim Satz der totalen Wahrscheinlichkeit geht man davon aus, daÿ A1 , . . . , Ak eine disjunkte Zerlegung
von Ω darstellt, wobei P(Ai ) > 0 für alle i ist. Dann gilt für B ⊂ Ω:
k
X
P(B) = P(B |Ai ) · P(Ai ).
i=1

In engem Zusammenhang mit dem Satz der totalen Wahrscheinlichkeit steht der Satz von Bayes, der wie
folgt lautet:
P(B |Aj )P(Aj ) P(B |Aj )P(Aj )
P(Aj |B) = Pk = , j = 1, . . . , k,
i=1 P(B |Ai )P(Ai )
P(B)

wobei P(B) > 0 gilt.

3.5 Unabhängigkeit zweier Ereignisse


Zwei Ereignisse A und B , mit P(A) > 0 und P(B) > 0, heiÿen (stochastisch) unabhängig, wenn gilt:

P(A ∩ B) = P(A) · P(B) bzw.


P(A |B) = P(A) bzw.
P(B |A) = P(B).
4 Zufallsvariablen und Verteilungen
4.1 Grundbegrie und Beispiele
In vielen Fällen ist man nicht an den eigentlichen Ergebnissen eines Zufallsvorgangs interessiert, sondern
eher an Zahlen, die mit den Ergebnissen verbunden sind. Eine Abbildung X , die jedem Ergebnis ω der
Ergebnismenge Ω genau eine Zahl x ∈ R zuordnet, heiÿt Zufallsvariable. Für das Ereignis  X nimmt den
Wert x an schreiben wir
{X = x} = {ω | ω ∈ Ω und X(ω) = x}.

Analog lassen sich weitere Ereignisse wie {X ≤ x} darstellen. Als Verteilungsfunktion F der Zufallsvaria-
blen X bezeichnen wir die Abbildung, die jedem reellen x folgende Wahrscheinlichkeit zuordnet:

F (x) = P(X ≤ x), x ∈ R.

Denitionsgemäÿ gilt, daÿ die Verteilungsfunktion


1) monoton wächst, d.h. x1 < x2 ⇒ F (x1 ) ≤ F (x2 ),
2) durch 0 und 1 beschränk ist: 0 ≤ F (x) ≤ 1.
Genau wie bei Merkmalen unterscheiden wir diskrete und stetige Zufallsvariablen. Eine Zufallsvariable
heiÿt diskret, wenn sie nur endlich viele Werte annehmen kann, oder nur soviele, wie es natürliche Zahlen
gibt; stetig heiÿt sie dagegen, wenn sie alle Werte aus einem reellen Intervall annehmen kann.

4.2 Diskrete Zufallsvariablen


Die Wahrscheinlichkeitsfunktion f (x) einer diskreten Zufallsvariablen X mit den Realisationen x1 , x2 , . . .
ist für x ∈ R deniert durch:

 P(X = xi ) = pi x = xi ∈ {x1 , x2 , . . .}
f (x) = .
 0 sonst

Durch die Wahrscheinlichkeitsfunktion läÿt sich die Verteilungsfunktion für eine diskrete Zufallsvariable
X berechnen als:
X
F (x) = P(X ≤ x) = f (xi ).
xi ≤x

Die Verteilungsfunktion einer diskreten Zufallsvariablen ist eine rechtsseitig stetige Treppenfunktion. Die
Höhe des Sprungs, den die Verteilungsfunktion F an der Stelle a macht, ist gleich der Wahrscheinlichkeit
P(X = a).

4.3 Stetige Variablen


Bei einer stetigen Variablen ist jeder Zwischenwert aus einem Intervall [ a, b ] als Realisation möglich;
dabei können die Intervallgrenzen auch ∞ bzw. −∞ sein (wobei es sich dann natürlich um oene In-
tervalle handelt). Da eine stetige Zufallsvariable also überabzählbar viele Werte annehmen kann, ist zur
Berechnung einer Wahrscheinlichkeit P(x1 < X ≤ x2 ) ein Aufsummieren einzelner Wahrscheinlichkeiten
nicht möglich. Statt dessen berechnet man Wahrscheinlichkeiten durch Integrale.
Die Funktion f (x) sei stetig und für alle x ∈ R nicht negativ. Dann heiÿt f (Wahrscheinlichkeits-)Dichte
(oder Dichtefunktion) von X , falls für beliebige Zahlen x1 < x2 gilt:
Z x2
P(x1 < X ≤ x2 ) = f (x) dx.
x1

In Analogie zum Histogramm, bei dem die Fläche der einzelnen Blöcke die relativen Häugkeiten reprä-
sentiert, entspricht nun die Fläche unter der Dichtefunktion der Wahrscheinlichkeit.
Eigenschaften der Dichtefunktion:

a) f (x) ≥ 0
Z +∞
b) f (x) dx = 1
−∞

Für eine stetige Zufallsvariable X gilt:

P(x1 ≤ X ≤ x2 ) = P(x1 < X ≤ x2 ) = P(x1 ≤ X < x2 ) = P(x1 < X < x2 )

und
P(X = x) = 0 für jedes x ∈ R.

Die Verteilungsfunktion einer stetigen Zufallsvariablen X berechnet sich wie folgt:


Z x
F (x) = P(X ≤ x) = f (t) dt.
−∞

4.4 Theoretische Maÿzahlen


In Analogie zur Empirie unterscheiden wir auch in der Theorie wiederum Maÿzahlen für die Lage und
die Streuung einer Verteilung.

4.4.1 Lage

Der Erwartungswert E(X) bzw. µx einer Zufallsvariablen X , dessen empirisches Pendant das arithmetische
Mittel x ist, wird für den diskreten und stetigen Fall folgendermaÿen deniert:

k
X
E(X) = xi P(X = xi ) (diskret),
i=1
Z ∞
E(X) = xf (x) dx (stetig),
−∞

wobei im diskreten Fall durchaus k = ∞ sein kann. Der Erwartungswert hat folgende Eigenschaften:
• Lineartransformation Y = a + b X : E(Y ) = E(a + b X) = a + b E(X),
• Summe zweier Zufallsvariablen, Z = X + Y : E(Z) = E(X + Y ) = E(X) + E(Y ).

Als weiteres Lagemaÿ hatten wir in der Empirie den Median oder 50%-Punkt kennengelernt, der auch
in analoger Weise in der Theorie deniert ist. Allerdings betrachten wir an dieser Stelle gleich beliebige
Quantile oder Prozentpunkte xp , die in der Empirie ebenfalls existieren. Wir beschränken uns aber auf
stetige Zufallsvariablen: Z xp
F (xp ) = f (t) dt = p, 0 < p < 1.
−∞

Der Median ist demnach x0.50 , von unterem und oberem Quartil (25%- und 75%-Punkt) spricht man für
x0.25 und x0.75 .
4.4.2 Streuung

Die Varianz Var(X) bzw. σx2 einer Zufallsvariablen X als Maÿ für die Streuung ist für diskrete und stetige
Zufallsvariablen wie folgt deniert:

k
X
Var(X) = (xi − E(X))2 P(X = xi ) (diskret),
i=1
Z ∞
Var(X) = (x − E(X))2 f (x) dx (stetig),
−∞

wobei wieder k = ∞ zugelassen ist. Motivieren läÿt sich diese Denition genauso wie die der mittleren
quadratischen Abweichung d2x , die das empirische Analogon zur Varianz darstellt. Wie bei der mittleren
quadratischen Abweichung gilt der entsprechende Zerlegungssatz:

Var(X) = E(X 2 ) − E(X)2 .

Die Varianz hat folgende Eigenschaften:

• Lineartransformation einer Zufallsvariablen Y = a + b X : Var(Y ) = Var(a + b X) = b2 Var(X),

• Summe von zwei unabhängigen Zufallsvariablen X und Y in der Form Z = X + Y :


Var(Z) = Var(X + Y ) = Var(X) + Var(Y ).

Um die Quadrierung in der Formel der Varianz zu relativieren und ein gut interpretierbares Maÿ für die
Streuung zu erhalten, ist es sinnvoll die Standardabweichung σx zu betrachen:
p
σx = Var(X).

Ein ebenfalls schon in Abschnitt 2 eingeführtes Streuungsmaÿ ist der Interquartilsabstand. Seine Denition
lautet: IQR = x0.75 − x0.25 .

Eine weitere Möglichkeit, die Sreuung einer speziell stetigen Zufallsvariablen zu messen, ist das zentrale
Schwankungsintervall zum Niveau 1 − α. In Worten ist dieses so deniert: mit Wahrscheinlichkeit α wer-
den Werte auÿerhalb des Schwankungsintervalls angenommen werden, und genauer: jeweils mit Wahr-
scheinlichkeit α/2 treten kleinere Werte als die untere Intervallgrenze und Werte oberhalb der oberen
Intervallgrenze auf. Mittels der Quantile xα/2 und x1−α/2 mit

P(X < xα/2 ) = P(X > x1−α/2 ) = α/2, 0 < α < 1,


£ ¤
ist daher das zentrale Schwankungsintervall einer stetigen Zufallsvariablen gerade durch xα/2 , x1−α/2
gegeben.

4.5 Verteilungsmodelle
Es sollen nun einige wichtige, in der Praxis häug eingesetzte Verteilungsmodelle betrachtet werden. Die
Darstellung der Verteilungen enthält überblicksartig das Verteilungssymbol, die jeweilige Wahrscheinlichkeits-
oder Dichtefunktionen sowie Formeln für den zugehörigen Erwartungswert und die Varianz.
4.5.1 Diskrete Verteilungsmodelle

Diskrete Gleichverteilung (für die ersten k natürlichen Zahlen 1, 2, . . . , k)

X ∼ DG(k)
1
P(X = x) = mit x = 1, 2, . . . k
k
k+1 k2 − 1
E(X) = und Var(X) =
2 12
Bernoulli-Verteilung (Grundbaustein der Binomialverteilung)

X ∼ Be(p)

P(X = x) = px (1 − p)1−x mit x = 0 oder 1 und 0 < p < 1

E(X) = p und Var(X) = p(1 − p)

Das bedeutet, X kann nur die Werte 0 und 1 annehmen, und zwar mit den Wahrscheinlichkeiten
P(X = 0) = 1 − p und P(X = 1) = p.

Binomialverteilung
Eine binomialverteilte Zufallsvariable X ergibt sich als Summe von n unabhängig, identisch verteilten
Bernoullivariablen (Xi ∼ Be(p)):

n
X
X= Xi ∼ Bi(n, p)
i=1
µ ¶
n x
P(X = x) = p (1 − p)(n−x) , x = 0, 1, . . . , n
x
E(X) = np und Var(X) = np(1 − p)

Poissonverteilung

X ∼ P o(λ), λ > 0
λx
P(X = x) = e−λ , x = 0, 1, . . .
x!
E(X) = λ und Var(X) = λ

4.5.2 Stetige Verteilungsmodelle

Stetige Gleichverteilung (auf dem Intervall [ a, b ])

X ∼ SG(a, b)
 1
 a≤x≤b
f (x) = b−a

0 sonst

a+b (b − a)2
E(X) = und Var(X) =
2 12
Exponentialverteilung

X ∼ Ex(λ), λ > 0

 λe−λx x ≥ 0
f (x) =
 0 sonst
1 1
E(X) = und Var(X) = 2
λ λ
Normalverteilung (C.F. Gauÿ)

X ∼ N (µ, σ 2 ), σ > 0
à µ ¶2 !
1 1 x−µ
f (x) = √ exp − , x∈R
2πσ 2 σ

E(X) = µ und Var(X) = σ 2

Standardnormalverteilung: Spezialfall mit µ = 0 und σ = 1, Z ∼ N (0, 1). Es gilt

X −µ
X ∼ N (µ, σ 2 ) ⇒ Z= ∼ N (0, 1).
σ
Die Verteilungsfunktion von Z hat die Bezeichung:

Φ(z) = P(Z ≤ z), z ∈ R.

4.6 Mehr zur Normalverteilung


Die Normalverteilung ist die für uns wichtigste stetige Verteilung. Bei
1 1 x−µ 2
f (x) = √ e− 2 ( σ ) , σ > 0,
2πσ
handelt es sich um eine symmetrische, glockenförmige Dichte, deren Maximum bei x = µ und deren
Wendepunkte bei x = µ ± σ liegen. Ihre Lage wird über das µ und ihre Breite über das σ gesteuert.
Aufgrund der Symmetrie der Normalverteilung stimmen Median x0.50 und Erwartungswert E(X) überein.
Die Schwierigkeit bei der Berechnung von Wahrscheinlichkeiten bei Normalverteilung besteht darin, daÿ
2
sich die Dichte der Normalverteilung nicht elementar integrieren läÿt, da zu der Funktion g(x) = e−x
keine Stammfunktion bekannt ist. Die Wahrscheinlichkeiten sind deshalb tabelliert oder müssen nähe-
rungsweise mit dem Computer berechnet werden. Allerdings beziehen sich die Wahrscheinlichkeitstabellen
immer auf die sog. Standardnormalverteilung. Durch Standardisierung läÿt sich aber jede beliebige Nor-
malverteilung in eine Standardnormalverteilung transformieren:
X −µ
X ∼ N (µ, σ 2 ) ⇒ Z= ∼ N (0, 1) .
σ
Aufgrund ihrer besonderen Bedeutung erhält die Verteilungsfunktion der Standardnormalverteilung eine
eigene Bezeichung. Es bezeichnet Φ die Verteilungfunktion von Z mit Φ(z) = P (Z ≤ z), ihre Werte sind
in Tabelle C der Tabellensammlung dargestellt. Für Φ gilt: Φ(−z) = 1 − Φ(z) (Symmetrieeigenschaft).
Zur Berechnung von Normalverteilungswahrscheinlichkeiten geht man folgendermaÿen vor:
µ ¶ µ ¶
x−µ x−µ
P (X ≤ x) = P Z ≤ =Φ ,
σ σ
wobei der Φ-Wert aus der Tabelle abgelesen oder mit dem Computer berechnet wird.
Um die Prozentpunkte oder Quantile xp einer Normalverteilung zu bestimmen, bedarf es der Prozentpunk-
te der Standardnormalverteilung zp , für die P (Z ≤ zp ) = Φ(zp ) = p gilt. Aufgelistet sind die p-Quantile
der Standardnormalverteilung in Tabelle D der Tabellensammlung. Für eine beliebige Normalverteilung
erhält man die Quantile durch die Umkehrung der Standardisierung:

xp = µ + zp · σ.

In vielen Fällen ist man aber nicht nur an einzelnen Prozentpunkten, sondern an Schwankungsbereichen
für normalverteilte Zufallsvariablen interessiert.

Ein zentrales Schwankungsintervall (ZSI) der Länge 2 k σ ist bei der Normalverteilung folgendermaÿen
deniert:
ZSI = [µ − k · σ, µ + k · σ] , k > 0.

Die Wahrscheinlichkeit, daÿ X Werte aus diesem Intervall annimmt, beträgt:

Φ(k) − Φ(−k) = 2Φ(k) − 1.

Dies gilt unabhängig von den konkreten Parameterwerten µ und σ . Es werden zwei Arten von zentralen
Schwankungsintervallen betrachtet:

a) Vorgabe eines Wertes für k , z.B. k = 0.5, 1, 2 oder 3,

b) Vorgabe einer Wahrscheinlichkeit, z.B. 1 − α = 0.90, 0.95 oder 0.99.

Im ersten Fall a) spricht man für k = 1 von einem einfachen, für k = 2 von einem zweifachen und für
k = 3 von einem dreifachen zentralen Schwankungsintervall. Unabhängig von der Parameterkonstellation
der Normalverteilung enthalten diese drei Intervalle immer mit folgenden Wahrscheinlichkeiten Werte
einer normalverteilten Zufallsvariablen X .

k 1 2 3
P (X ∈ [µ ± k · σ]) 68,3% 95,4% 99,7%

Im zweiten Fall b) werden die zentralen Schwankungsintervalle so konstruiert, daÿ X mit einer Wahr-
scheinlichkeit von 1 − α Werte im ZSI annimmt und dementsprechend mit einer Wahrscheinlichkeit von
α nicht:
£ ¤
ZSI = µ − z1−α/2 · σ, µ + z1−α/2 · σ .

4.7 Summen und Mittel von Stichprobenvariablen


Die Grundlage für die folgenden Kapitel bildet nicht eine einzelne Zufallsvariable X . Vielmehr faÿt man
eine beobachtete Stichprobe mit den konkreten Zahlenwerten x1 , x2 , . . . , xn vom Umfang n als Realisiation
sogenannter Stichprobenvariablen X1 , . . . , Xn auf. Wir unterstellen für das folgende eine Zufallsstichprobe,
was bedeuten soll, daÿ diese Zufallsvariablen stochastisch unabhängig und identisch verteilt sind. Letzteres
bedeutet, daÿ man für die gesamte Grundgesamtheit ein und dasselbe Verteilungsmodell unterstellt;
ersteres heiÿt, daÿ jede Beobachtung unabhängig von den anderen nach dem Zufallsprinzip gezogen wird.
Für eine solche Zufallsstichprobe schreibt man auch Xi ∼ i.i.d. F für i = 1, . . . , n, wobei F eine beliebige
Verteilung bezeichnet und i.i.d. die Abkürzung für den englischen Ausdruck independently identically
distributed (unabängig, identisch verteilt) ist.
Ein Beispiel für eine Summe unabhängig und identisch verteilter Zufallsvariablen ist die Binomialver-
teilung. Sind nämlich Xi unabhängig identisch Bernoulli-verteilt mit dem Parameter p (Xi ∼ Be(p),
i = 1, 2, . . . , n), so ist die Summe bekanntlich binomialverteilt mit den Parametern n und p:
n
X
X= Xi ∼ Bi(n, p) .
i=1

Erwartungswert und Varianz ergeben sich dann wie bekannt als

E(X) = np = n E(Xi ) , V ar(X) = np(1 − p) = nV ar(Xi ) .

Entsprechende Formeln für Erwartungswert und Varianz beliebiger Zufallsvariablen (d.h. ohne die Annah-
me der Bernoulli-Verteilung) gelten allgemein für Summen von Stichprobenvariablen. Seien X1 , . . . , Xn
unabhängig und identisch verteilt mit Erwartungswert E(Xi ) = µ und Varianz V ar(Xi ) = σ 2 , so gilt:
à n ! à n !
X X
E Xi = nµ , V ar Xi = nσ 2 .
i=1 i=1

In der Praxis sind wir meist nicht an der Summe selbst, sondern an dem darauf basierenden arithmeti-
Pn
schen Mittel interessiert: X = n1 i=1 Xi . Speziell bei Bernoulli-verteilten Stichprobenvariablen hat X
folgende Bedeutung. Sei Xi gleich 1 genau dann, wenn ein Ereignis A eintritt. Dann zählt die Summe
Pn
i=1 Xi , wie oft das Ereignis bei einer Stichprobe vom Umfang n eintritt, d.h. diese Summe gleicht der
absoluten Häugkeit, mit der A (oder Xi = 1) eintritt. Daher gibt X gerade die relative Häugkeit des
Eintretens an, oder den Anteil der eingetretenen Fälle in Relation zu allen n Beobachtungen. Aber auch
bei anderen Problemstellungen wird das arithmetische Mittel eine zentrale Rolle spielen. Daher interes-
sieren wir uns für Erwartungswert und Varianz des Mittels von n unabhängig und identisch verteilten
Stichprobenvariablen mit Erwartungswert E(Xi ) = µ und Varianz V ar(Xi ) = σ 2 . Aus den Formeln für
Erwartungswert und Varianz von Summen folgt sofort:

σ2 σ √
E(X) = µ , V ar(X) = σx2 = bzw. σx = √ ( n-Gesetz) .
n n
Speziell eine Linearkombination normalverteilter Zufallsvariablen ist wiederum normalverteilt, so daÿ sich
für X bei Normalverteilung ergibt: µ ¶
σ2
X ∼ N µ, .
n
Durch entsprechende Standardisierung,

X −µ
Z= √ ∼ N (0, 1) ,
σ/ n

oder deren Umkehrung lassen sich Wahrscheinlichkeiten und Prozentpunkte von X wie bei einer ge-
wöhnlichen Normalverteilung unter Zuhilfenahme der entsprechenden Wahrscheinlichkeiten oder Prozent-
punkte der Standardnormalverteilung berechnen.

4.8 Asymptotische (approximative) Normalverteilung


Pn
Bisher wurde die Verteilung von i=1 Xi und von X unter Normalverteilung betrachtet. Nun soll keine
spezielle Verteilungsannahme mehr unterstellt werden. Das Verzichten auf die Normalverteilungsannahme
hat aber seinen Preis: Statt dessen müssen wir unterstellen, daÿ der Stichprobenumfang n gegen ∞
Pn
strebt (Asymptotik), bzw. daÿ die Verteilungsaussagen für i=1 Xi und X für groÿen aber endlichen
Stichprobenumfang nur näherungsweise gelten (Approximation).
Zentraler Grenzwertsatz (ZGS):
X1 , . . . , Xn seien identisch verteilte, unabhängige Zufallsvariablen mit E(Xi ) = µ und V ar(Xi ) = σ 2 ,
i = 1, . . . , n. Dann gilt für die standardisierte Summe: Zn mit
Pn
Xi − nµ
Zn = i=1√

konvergiert für wachsendes n gegen eine Standardnormalverteilung. Man schreibt dafür
a
Zn ∼ N (0, 1)

und sagt  Zn ist asymptotisch oder approximativ standardnormalverteilt.

Pn
Die Bedeutung des zentralen Grenzwertsatzes besteht vor allem darin, daÿ für i=1 Xi und X einfache,
näherungsweise Berechnungen von Wahrscheinlichkeiten durchgeführt werden können, ohne die Vertei-
lung der Xi und die exakte Verteilung der Stichprobenfunktionen kennen zu müssen. Insbesondere für
stetige und symmetrische Verteilung sind Wahrscheinlichkeitsberechnungen über die Normalverteilung
im Rahmen des ZGS auch bei geringen Stichprobenumfängen schon erstaunlich genau.
Da auch X auf einer Summe von Stichprobenvariablen basiert, läÿt sich der ZGS entsprechend anwenden:
X −µ a
Zn = √ ∼ N (0, 1).
σ/ n

Wahrscheinlichkeiten für die betrachtete Stichprobenfunktion lassen sich mit Hilfe des ZGS wie folgt
näherungsweise berechnen:
à n ! µ ¶ µ ¶
X y − nµ w−µ
P Xi ≤ y ) ≈ Φ √ bzw. P (X ≤ w) ≈ Φ √ .
i=1
nσ σ/ n

Als eine wichtige spezielle Anwendung liefert der ZGS die Möglichkeit der approximativen Berechnung von
Binomialverteilungswahrscheinlichkeiten. Eine binomialverteilte Zufallsvariable X erfüllt die Vorausset-
zungen des ZGS. Der Erwartungswert lautet, wie oben wiederholt, np, und die Varianz beträgt np(1 − p).
Es gilt also: Pn
Xi − np X −p a
Zn = pi=1 =p ∼ N (0, 1).
np(1 − p) p(1 − p)/n
Als Faustregel für eine gute Approximation ist zu beachten, daÿ np ≥ 10 und n(1 − p) ≥ 10 sein sollten.

5 Parameterschätzung
Mit der Ziehung von Stichproben und der Bildung bestimmter Stichprobenfunktionen möchte man mög-
lichst gute Schlüsse über die Grundgesamtheit ziehen. Dabei unterstellt man für ein interessierendes
Merkmal eine Verteilungsannahme. Unbekannt ist hingegen der Wert der Parameter der Verteilung, z.B
das µ und σ bei Annahme der Normalverteilung, das λ bei einer Poissonverteilung. Der mit Unsicherheit
behaftete Schluÿ aus einer Stichprobe (Empirie) auf Parameter eines unterstellten Verteilungsmodells
der Grundgesamtheit (Theorie) macht das Wesen statistischen Schätzens aus. Wir geben hier nur eine
Einführung.
5.1 Schätzfunktionen
Eine Funktion g(X1 , . . . , Xn ) der Stichprobenvariablen, g: Rn → R, heiÿt Stichprobenfunktion oder Schätz-
funktion oder auch Statistik. Sie verdichtet die Information aus der Stichprobe vom Umfang n und soll
den Rückschluÿ auf einen unbekannten Parameter θ, θ ∈ R erlauben.

Theorie Empirie
Info
θ (unbek. Parameter) ←− g(X1 , . . . , Xn )
z.B. geeignete Funktion gesucht
Pn
µ bei Normalverteilung ←− X = n1 i=1 Xi
Pn
σ 2 bei Normalverteilung ←− D2 = n1 i=1 (Xi − X)2
Pn
p bei Bernoulliverteilung ←− X = n1 i=1 Xi
λ bei Poissonverteilung ←− ?
λ bei Exponentialverteilung ←− ?

Wir bezeichnen wieder mit Kleinbuchstaben xi die Realisationen (xi ∈ R) einer Zufallsvariablen Xi .
Der Zahlenwert g(x1 , . . . , xn ) fungiert dann als Schätzung für einen Parameter θ. Im Unterschied zum
Schätzwert g(x1 , . . . , xn ) ist die Schätzfunktion g(X1 , . . . , Xn ) eine Zufallsvariable. Alternativ schreibt
man häug für eine Funktion, die einen Parameter θ schätzen soll:

θ̂(X1 , . . . , Xn ) oder kurz θ̂.

Dabei steht die Kurzschreibweise θ̂ sowohl für die Zufallsvariable θ̂(X1 , . . . , Xn ) als auch für den konkreten
Schätzwert θ̂(x1 , . . . , xn ). Bei der Schätzung unbekannter Parameter aus einer Stichprobe stellen sich zwei
wesentliche Fragen:

a) Welche Eigenschaften haben statistische Schätzungen (siehe Abschnitt 5.2)?

b) Wie kann man Schätzfunktionen konstruieren (siehe Abschnitt 5.3)?

5.2 Eigenschaften von Schätzfunktionen


Um Schätzfunktionen beurteilen und auswählen zu können, braucht man Eigenschaften, die etwas darüber
aussagen, wie gut eine Schätzfunktion ist. Von einer Schätzfunktion für einen Parameter erwartet man, daÿ
sie im Schnitt den wahren Parameterwert trit. Diese Eigenschaft wird mit Erwartungstreue bezeichnet.
Auÿerdem sollte eine Schätzfunktion für einen Parameter aber nicht nur erwartungstreu oder zumindest
näherungsweise erwartungstreu sein, sondern auch mit wachsendem Stichprobenumfang immer präziser
werden. Dieses Phänomen wird Konsistenz genannt.

5.2.1 Erwartungstreue und Ezienz

Eine Schätzfunktion θ̂ für den Parameter θ wird erwartungstreu oder auch unverzerrt genannt, wenn gilt

E(θ̂) = θ.

Die Dierenz zwischen dem Erwartungswert der Schätzfunktion und dem Parameter heiÿt Bias (Verzer-
rung):
b(θ̂) = E(θ̂) − θ.
Gilt für eine Schätzfunktion
lim E(θ̂) = θ,
n→∞

so nennt man sie asymptotisch erwartungstreu.


Natürlich ist in der Praxis nicht nur wichtig, im Mittel den unbekannten Parameter richtig zu schätzen;
darüber hinaus spielt auch eine Rolle, wie stark eine Schätzfunktion um den wahren Parameterwert streut.
Dies miÿt man selbstverständlich mit der Varianz. Wollen wir zwei erwartungstreue Schätzfunktionen θ̂1
und θ̂2 miteinander vergleichen, so spricht man davon, daÿ θ̂1 ezienter ist als θ̂2 , wenn gilt:

V ar(θ̂1 ) < V ar(θ̂2 ).

5.2.2 Konsistenz

Eine Schätzfunktion θ̂ für den Parameter θ wird (schwach) konsistent genannt, wenn für ein beliebiges
positives ε > 0 gilt: ³ ´
lim P |θ̂ − θ| ≤ ε = 1 .
n→∞

Hinreichend dafür ist (starke) Konsistenz, nämlich dass

lim E(θ̂) = θ und lim V ar(θ̂) = 0


n→∞ n→∞

gilt. Eine stark konsistente Schätzfunktion ist also asymptotisch erwartungstreu, und ihre Varianz strebt
mit wachsendem Stichprobenumfang gegen Null.
Als Kriterium zur Beurteilung von Schätzfunktionen kann man auch den mittleren quadratischen Fehler
(MSE - mean squared error) heranziehen. Er ist folgendermaÿen deniert:
h i
M SE(θ̂) = E (θ̂ − θ)2

und läÿt sich auch in der folgenden Form darstellen:


³ ´2
M SE(θ̂) = E(θ̂) − θ + V ar(θ̂).

Damit kann man die Bedingungen für starke Konsistenz einer Schätzfunktion kompakt durch den M SE
formulieren:
lim M SE(θ̂) = 0.
n→∞

Einen Überblick über einige weit verbreitete Schätzfunktionen und ihre Eigenschaften bietet folgende
Tabelle.
Beispiele für Schätzfunktionen
Verteilung Parameter Schätzfunktion Erwartungstreue Konsistenz
Normalverteilung µ µ̂ = X ja ja
1
Pn
Normalverteilung σ2 σ̂12 = D2 = n i=1 (Xi − X)2 asympt. ja
1
Pn
σ̂22 = S 2 = n−1 i=1 (Xi − X)2 ja ja
Bernoulliverteilung p p̂ = X ja ja
Poissonverteilung λ λ̂ = X ja ja
1
Exponentialverteilung λ λ̂1 = asympt. ja
X
n−1
λ̂2 = Pn ja ja
i=1 Xi
Stet. Gleichvtlg. auf [0, b] b b̂ = 2 · X ja ja
Disk. Gleichverteilung k k̂ = 2 · X − 1 ja ja

5.3 Konstruktion von Schätzfunktionen (Momentenmethode)


Einige Schätzfunktionen sind für bestimmte Parameter naheliegend, aber grundsätzlich gilt für Schätz-
funktionen, daÿ sie nicht vom Himmel fallen. Insofern braucht man Konstruktionsprinzipien für Schätz-
funktionen. Solche Prinzipien sind u.a. die Momentenmethode (MM) und die Maximum-Likelihood-Methode
(ML). Im Gegensatz zur MM-Methode soll die ML-Methode hier allerdings nur erwähnt und nicht weiter
besprochen werden, auch wenn der ML-Methode in der Statistik eine zentrale Bedeutung zukommt.
Die Momentenmethode basiert im einfachsten Fall nur eines Parameters θ auf der Gegenüberstellung von
Erwartungswert und arithmetischem Mittel (die man auch theoretisches und empirisches Moment nennt,
daher der Name). Nehmen wir an, der Erwartungswert µ einer Verteilung hängt als Funktion h von dem
unbekannten Parameter θ ab: µ = h(θ). Dann setzt man das empirische Mittel dem theoretischen gleich,
X = h(θ̂), und löst diese Gleichung nach θ̂. Dies liefert den Momentenschätzer:

θ̂M M = h−1 (X) .

Die in obiger Tabelle angegebenen Schätzfunktionen für k bei diskreter Gleichverteilung, b bei stetiger
Gleichverteilung und für λ bei Poissonverteilung sind alle nach der Momentenmethode konstruiert. Auch
λ̂1 bei der Exponentialverteilung ist ein solcher Momentenschätzer.

6 Kondenzintervalle
6.1 Einführung
Eine Schätzfunktion θ̂ für einen unbekannten Parameter θ liefert i.d.R. nicht exakt den wahren Parame-
terwert. Auch wenn θ̂ ein sehr guter Schätzer für θ ist, weiÿ man im allgemeinen nicht, wie weit die
Schätzung vom wahren Wert entfernt liegt. Nach dem Prinzip Man trit eine Fliege kaum mit einer
Stecknadel, sondern besser mit einer Fliegenklatsche erfolgt der Übergang von der Punktschätzung zur
Intervallschätzung. Die Konstruktion eines Kondenzintervalls basiert auf einer entsprechenden Punkt-
schätzung, um die dann ein Sicherheitsbereich gelegt wird. Dieser Sicherheitsbereich wird nicht belie-
big gewählt, sondern orientiert sich an der Standardabweichung und Verteilung der Schätzfunktion und
zwar so, daÿ das Konndenzintervall (KI) [θ̂u , θ̂o ] den unbekannten Parameter θ mit einer vorgegebenen
Wahrscheinlichkeit von 1 − α überdeckt:

θ̂u = gu (X1 , . . . , Xn ) und θ̂o = go (X1 , . . . , Xn ) mit θ̂u < θ̂o ,

P (θ̂u ≤ θ ≤ θ̂o ) = 1 − α .

Ein so konstruiertes Kondenzintervall zum Kondenzniveau 1 − α überdeckt den wahren Parameter


θ mit einer Wahrscheinlichkeit von 1 − α. Man beachte, daÿ die Intervallgrenzen Zufallsvariablen sind.
Für eine konkrete Stichprobe x1 , . . . , xn erhält man dagegen das realisierte Kondenzintervall mit den
Grenzen gu (x1 , . . . , xn ) und go (x1 , . . . , xn ).
Das Festlegen des Kondenzniveaus 1 − α beinhaltet ein Abwägen zwischen der Aussagesicherheit und
der Aussagekraft eines Kondenzintervalls: Je gröÿer das Kondenzniveau ist, desto länger fällt in aller
Regel das Kondenzintervall aus. Um das Kondenzniveau kontrollieren zu können, unterstellen wir für
das folgende eine Zufallsstichprobe, d.h. X1 , . . . , Xn sind unabhängig und identisch verteilt (i.i.d.).

6.2 Kondenzintervalle für den Erwartungswert µ bei Normalverteilung


Sehr häug werden Durchschnittswerte µ, z.B. bei Renditen, Einkommen oder dem Energieverbrauch,
geschätzt. Unterstellt man für die betrachtete Zufallsvariable X eine Normalverteilung, so lassen sich bei
der Bestimmung des Kondenzintervalls für µ zwei Fälle unterscheiden: σ 2 bekannt und σ 2 unbekannt.

Kondenzintervall für µ (σ 2 bekannt)


2
Im Falle einer Schätzung von µ unter Normalverteilung mit bekanntem σ 2 hat X die Verteilung N (µ, σn ).
Damit gilt für das standardisierte X :
µ ¶ µ ¶
X −µ σ σ
P −z1− α2 ≤ √ ≤ z1− α2 = 1 − α ⇒ P X − z1− α2 √ ≤ µ ≤ X + z1− α2 √ = 1 − α.
σ/ n n n

Als Kondenzintervall für µ (σ 2 bekannt) ergibt sich damit zu einem Niveau von 1 − α:
· ¸
σ σ
KI1−α = X − z1− α2 √ ; X + z1− α2 √ .
n n

Ein so konstruiertes KI überdeckt mit Wahrscheinlichkeit 1 − α den wahren Parameter µ.


Die Länge des Kondenzintervalls für µ ist L = 2z1− α2 √σn . Daraus ergeben sich einige Folgerungen:

• Steigt der Stichprobenumfang n, dann wird die Länge L geringer.

• Steigt das Kondenzniveau 1 − α, dann steigt die Länge L ebenfalls.

• Steigt die Standardabweichung σ , dann wird die Länge L gröÿer.

Insbesondere aus dem ersten Zusammenhang zwischen Stichprobenumfang n und Länge L läÿt sich die
Frage ableiten, wie groÿ der Stichprobenumfang mindestens sein muÿ, damit ein Kondenzintervall eine
vorgegebene Länge nicht überschreitet. Um diese Frage zu beantworten, wird die Gleichung für die Länge
des Kondenzintervalls nach n aufgelöst, so daÿ man folgendes Resultat erhält:

2 σ2
n ≥ 4z1− α .
2 L2
Kondenzintervall für µ (σ 2 unbekannt)
Wir haben zunächst einmal die Situation betrachtet, daÿ σ 2 bekannt ist. Das ist in der Praxis aber nur
sehr selten der Fall, so daÿ die Annahme  σ 2 ist unbekannt sicher realistischer ist. Wenn σ 2 unbekannt ist,
1
Pn
muÿ es geschätzt werden, sinnvollerweise durch den erwartungstreuen Schätzer S 2 = n−1 2
i=1 (Xi −X) .
Die Ersetzung von σ durch S wirkt sich allerdings auf die Verteilung und damit auf die Gestalt des
Kondenzintervalls aus.

t-Verteilung
Es seien X1 , . . . , Xn normalverteilte Zufallsvariablen einer Zufallsstichprobe mit Xi ∼ N (µ, σ 2 ). Dann ist
aus Abschnitt 2.2 bekannt für das arithmetische Mittel:
√ X −µ
Z= n ∼ N (0, 1) .
σ
q Pn
1
Ersetzt man σ durch die erwartungstreue Schätzfunktion S = n−1 i=1 (Xi − X) ,
2

√ X −µ
T =
n ,
S
so schwankt die Zufallsvariable S naturgemäÿ um den wahren Wert σ . Diese durch die Schätung der
Standardabweichung verursachte Unsicherheit schlägt sich darin nieder, daÿ T stärker als Z um den
Erwartungswert 0 streut, d.h. T folgt keiner Normalverteilung, sondern einer sogenannten t-Verteilung
mit ν = n − 1 Freiheitsgraden:
√ X −µ
T =
n ∼ t(n − 1) .
S
Die hier nicht angegebene Dichtefunktion einer t(ν)-Verteilung hängt also von dem Parameter ν ab,
ν = 1, 2, . . .. Prinzipiell hat die t-Verteilung eine sehr ähnliche Gestalt wie die Standardnormalverteilung:
die Dichte ist symmetrisch um den Erwartungswert und Median Null und besitzt die charakteristische
Glockenform, hat allerdings im Vergleich zur Standardnormalverteilung mehr Wahrscheinlichkeitsmasse
an den Rändern (stärkere Streuung). Die Quantile sind in Abhängigkeit der Freiheitsgrade ν in Tabelle
E tabelliert. Wegen der Symmetrie gilt für das (1 − p) -Quantil

t(ν)1−p = −t(ν)p .

Durch Vergleich der Tabellen D und E sieht man weiterhin, daÿ für groÿe Anzahl an Freiheitsgraden gilt:
t(ν)p ≈ zp . Es stimmt in der Tat, daÿ die t-Verteilung mit wachsendem ν die Standardnormalverteilung
approximiert. Also gilt für obige Statistik T wie beim ZGS für groÿen Stichprobenumfang:
√ X −µ a
T =n ∼ N (0, 1) .
S
Damit haben wir ein allgemeines Prinzip aufgedeckt: Wann immer im folgenden die t(ν)-Verteilung einer
Statistik T auftaucht, basiert dies auf der Annahme einer normalverteilten Zufallsstichprobe; alternativ
kann man diese Annahme fallen lassen, bzw. durch die Annahme eines groÿen Stichprobenumfangs erset-
zen. Für groÿen Stichprobenumfang ist dann diese Statistik T näherungsweise standardnormalverteilt.

Zur Konstruktion eines Kondenzintervalls für µ bei unbekanntem σ verwendet man also die Prozent-
punkte t(n − 1)1− α2 der t-Verteilung:
· ¸
S S
KI1−α = X − t(n − 1)1−α/2 √ , X + t(n − 1)1−α/2 √ .
n n

Es sei noch einmal überblicksartig die Konstruktion eines KI für µ unter Normalverteilung dargestellt:
Kondenzintervall für µ
unter Normalverteilung

bei bekanntem σ bei unbekanntem σ

a) Kondenzniveau 1 − α festlegen a) Kondenzniveau 1 − α festlegen

b) z1− α2 bestimmen b) t(n − 1)1− α2 bestimmen

c) x berechnen c) x und s berechnen

d) Kondenzintervall aufstellen: d) Kondenzintervall aufstellen:


h i h i
x − z1− α2 √σn ; x + z1− α2 √σn x − t(n − 1)1− α2 √sn ; x + t(n − 1)1− α2 √sn

6.3 Kondenzintervalle für einen Anteilswert p


Wir betrachten nur noch eine weitere Art von Kondenzintervallen, nämlich für Anteilswerte p. Sie sind
in vielen Anwendungsbereichen von groÿer Bedeutung, z.B. bei der Ermittlung von Einschaltquoten im
Fernsehen, bei der Schätzung des Anteils der Wähler einer bestimmten Partei oder der Ermittlung des
Bekanntheitsgrades eines Produktes. Dieser Anteilswert entspricht der Wahrscheinlichkeit, mit der die
Bernoulli-verteilten Stichprobenvariablen den Wert 1 annehmen, P (Xi = 1) = p, i = 1, . . . , n.
Als Schätzfunktion für einen Anteilswert p verwenden wir die relative Häugkeit aus der Stichprobe,
welche gerade mit dem arithmetischen Mittel übereinstimmt, p̂ = X . Von p̂ wissen wir, daÿ es sich um
p(1−p)
eine erwartungstreue und konsistente Schätzfunktion für p handelt. Die Varianz von p̂ ist n . Zur
Konstruktion eines Kondenzintervalls für p gehen wir von der Punktschätzung p̂ aus, um die wir den
Sicherheitsbereich legen. Wie im Falle eines Kondenzintervalles für µ müssen wir jetzt die Verteilung
von p̂ kennen.
Die exakte Verteilung und vor allem ihre Prozentpunkte sind für p̂ nur sehr mühsam zu bestimmen. Da
es sich bei der Schätzfunktion p̂ aber um einen Mittelwert von unabhängigen Bernoulli-Variablen handelt
und damit im wesentlichen um eine Summe, läÿt sich der zentrale Grenzwertsatz anwenden. Damit ist
das standardisierte p̂ näherungsweise standardnormalverteilt:

p̂ − E(p̂) p̂ − p a
p =q ∼ N (0, 1) .
Var(p̂) p(1−p)
n

Diese Approximation ist um so besser, je näher p bei 0.5 liegt und je gröÿer n ist. Als Faustregel werden
oft n ≥ 100 oder np ≥ 10 und n(1 − p) ≥ 10 angegeben. Da p in der Varianz von p̂ allerdings nicht
bekannt ist, wird es dort durch den konsistenten Schätzer p̂ ersetzt. Damit lautet das approximative
Kondenzintervall zum Niveau 1 − α:
" r r #
p̂(1 − p̂) p̂(1 − p̂)
KI1−α = p̂ − z1−α/2 , p̂ + z1−α/2 .
n n

Auch an dieser Stelle sei die Bestimmung eines KI für p noch einmal zusammengefaÿt:
Kondenzintervall für p
(Berechnung approximativ über die Normalverteilung)

a) Kondenzniveau 1 − α festlegen

b) z1− α2 bestimmen

c) p̂ berechnen

d) Kondenzintervall aufstellen:
· q q ¸
p̂(1−p̂) p̂(1−p̂)
p̂ − z1− α2 n ; p̂ + z1− α2 n

Wie auch schon im Falle des Konndenzintervalls für µ bei bekanntem σ 2 stellt sich die Frage, wie groÿ
der Stichprobenumfang mindestens sein muÿ, damit das Kondenzintervall für q p eine vorgebene Länge
nicht überschreitet. Die Länge des Kondenzintervalls für p ist L = 2z1− α2 p̂(1−
n
p̂)
. Der erforderliche
Stichprobenumfang ergibt sich durch Auösen nach n:

2 p̂(1 − p̂)
n ≥ 4z1− α .
2 L2
Die Schwierigkeit besteht nun darin, daÿ p̂ vor der Untersuchung nicht bekannt ist und damit der Ausdruck
p̂(1 − p̂) nicht zur Verfügung steht. Zwei Lösungsmöglichkeiten bieten sich an:

a) Verwendung von Kenntnissen über p̂ aus früheren Untersuchungen, sofern sie existieren,

b) p̂ so wählen, daÿ p̂(1 − p̂) maximal wird, um auf der sicheren Seite zu sein, d.h. p̂ = 0.5 wählen.

7 Statistische Tests
Die bisherige Betrachtung bezog sich auf die Schätzung von Parametern (Punktschätzung und Intervall-
schätzung). Nun sollen Vermutungen, Behauptungen oder Hypothesen über Verteilungen oder Parameter
anhand von Stichproben untersucht werden. Diesen Bereich der Statistik nennt man (statistisches) Testen.
Wir leisten hier nur eine kleine Einführung. Viele für die Praxis wichtige Tests werden erst in Statistik
II vorgestellt.

7.1 Prinzipien des Testens


Ausgangspunkt für das Testen ist eine Hypothese H , oft auch als Nullhypothese H0 bezeichnet, z.B.

• Einkommen und Parteipräferenz sind unabhängig,

• groÿe Unternehmen sind erfolgreicher als kleine,

• Mädchen und Jungen haben gleiche mathematische Fähigkeiten,

• ein bestimmter Autotyp verbraucht höchstens 5 Liter pro 100 km,

und die zugehörige Alternativ- oder Gegenhypothese G oder entsprechend H1 . Die Schwierigkeit besteht
in der Praxis oft in der sog. Operationalisierung, d.h. der Umsetzung der Hypothese, so daÿ sie mit
statistischen Methoden überprüft werden kann.
Ähnlich wie in einer Situation vor Gericht bestehen beim statistischen Testen zwei Ebenen, die der Realität
(die Hypothese H oder die Hypothese G trit zu) und die der Entscheidung (die Hypothese H wird
abgelehnt oder nicht). Im Falle des Gerichts bezöge sich die Realitätsebene auf die Frage Was passierte
wirklich? und die Entscheidungsebene auf das Urteil Schuldig oder unschuldig. Ein statistischer Test
ist eine Entscheidungsregel, bei der auf Basis einer Stichprobe unter bestimmten Verteilungsannahmen
mit Hilfe einer Teststatistik bzw. Prüfgröÿe eine Entscheidung über eine Hypothese getroen wird. Dabei
können Fehlentscheidungen auftreten, wie das folgende Diagramm zeigt:

Realität H G
Entscheidung ist richtig ist richtig

für richtige Fehler 2. Art


H Entscheidung (β -Fehler)
gegen Fehler 1. Art richtige
H (α-Fehler) Entscheidung

In der Praxis weiÿ man i.d.R. nicht, ob man richtig oder falsch entschieden hat. Man kann lediglich Wahr-
scheinlichkeitsaussagen über die Fehlentscheidungen treen. Das setzt voraus, daÿ man ein bestimmtes
Verteilungsmodell für die Zufallsstichprobe unterstellt. Auf Basis dieser Stichprobe wird eine spezielle
Stichprobenfunktion gebildet: die Teststatistik. Eine konkrete Stichprobe liefert damit einen Wert für die
Teststatistik. Dabei gibt es Werte, die für und andere die gegen die Hypothese H sprechen. Lediglich
die in bezug auf die Hypothese H extremsten Werte der Teststatistik werden zu einer Ablehnung von
H führen, da aufgrund von Zufallsschwankungen gewisse Abweichungen toleriert werden müssen. Wo
aber die Grenze zu diesem Ablehnbereich liegt, kann erst bestimmt werden, wenn man die Verteilung
der Teststatistik unter H kennt und wenn man den Anteil α der extremsten Werte, den man nicht mehr
bereit ist zu tolerieren, festlegt. Die Grenzen des Ablehnbereiches oder auch kritischen Bereiches lassen
sich auf Basis der Verteilung der Teststatistik und dem festgelegten α bestimmen. Fällt der Wert der
Teststatistik in diesen kritischen Bereich, wird die Hypothese H abgelehnt (oder verworfen), ansonsten
wird sie beibehalten. Damit ist α die Wahrscheinlichkeit, mit der der Fehler 1. Art (Entscheidung gegen
die Hypothese H , obwohl diese richtig ist) höchstens auftreten kann. Man nennt α auch das sog. Signi-
kanzniveau des Tests. Da die Wahrscheinlichkeit des α-Fehlers beim Testen im Vorfeld festgelegt wird,
sollte man die Hypothesen so wählen, daÿ die schlimmere der beiden Fehlentscheidungen dem Fehler 1.
Art entspricht. Allerdings führt eine Verringerung von α zu einer Erhöhung von β , der Wahrscheinlichkeit
für den Fehler 2. Art, die Hypothese H nicht abzulehnen, obwohl sie falsch ist. Es ist also nicht möglich,
beide Fehlerwahrscheinlichkeiten gleichzeitig zu minimieren. Durch das Festlegen des Signikanzniveaus
ist α bekannt, wohingegen β unbekannt ist. Angenommen der zu testende Parameter sei θ, so hängt die
Wahrscheinlichkeit für den Fehler 2. Art von θ in der Form β(θ) ab und kann auch nur in Abhängigkeit
von θ berechnet werden. Zur Beurteilung von Tests verwendet man i.d.R. aber nicht β(θ) sondern die sog.
Güte des Tests 1 − β(θ). Die Güte gibt in Abhängigkeit von θ die Wahrscheinlichkeit an, H abzulehnen,
wenn H auch falsch ist. Sie wird um so gröÿer, je weiter θ von der Hypothese H entfernt ist. Verschie-
dene Tests für ein Testproblem werden bei gegebenem Signikanzniveau nach ihrer Güte beurteilt. Man
ist daran interessiert einen Test mit möglichst hoher Güte zu verwenden.
Ein Testablaufschema sieht folgendermaÿen aus:

a) Modell und Hypothesen,

b) Teststatistik und ihre Verteilung unter H ,


c) Signikanzniveau und kritischer Bereich,

d) Entscheidungsregel und Testentscheidung.

Die beiden folgenden Abschnitte behandeln nun Tests, bei denen sich die Hypothese auf die Parameter
eines Merkmals bezieht (Einstichprobenfall). Testet man aus einer Stichprobe auf einen unbekannten
Parameter θ, so unterscheiden wir zweiseitige von einseitigen Testproblemen:

• H : θ = θ0 gegen G : θ 6= θ0 (zweiseitiges Testproblem),

• H : θ ≤ θ0 gegen G : θ > θ0 und H : θ ≥ θ0 gegen G : θ < θ0 (einseitige Testprobleme).

Die Darstellungen für die Tests beschränken sich überwiegend auf das Testschema (Modell, Hypothesen,
Teststatistik, Verteilung unter H und Entscheidungsregel). Um das Signikanzniveau α kontrollieren zu
können, unterstellen wir für das folgende eine Zufallsstichprobe, d.h. X1 , . . . , Xn sind unabhängig und
identisch verteilt (i.i.d.).

7.2 Tests auf µ bei Normalverteilung


Im vorigen Kapitel wurden zwei Arten von Kondenzintervallen für µ vorgestellt: Der Fall σ bekannt und
der Fall σ unbekannt. Diese beiden Fälle werden nun ebenfalls beim Testen unterschieden.
Beim Test auf µ unterstellen wir zunächst ein Modell, in dem unsere Stichprobenvariablen normalverteilt
sind mit bekannter Varianz σ 2 . Es lassen sich je nach Fragestellung drei Arten von Hypothesen testen:

• H : µ = µ0 gegen G : µ 6= µ0 (zweiseitiges Testproblem),

• H : µ ≤ µ0 gegen G : µ > µ0 und H : µ ≥ µ0 gegen G : µ < µ0 (einseitiges Testproblem).

Zur Überprüfung dieser Hypothesen verwenden wir als Teststatistik X bzw. die unter der Hypothese H
X−µ
standardisierte Variante Z = √0,
σ/ n
um eine einfache Entscheidungsregel zu erhalten. Gilt für den wahren
Parameterwert, daÿ er mit µ0 übereinstimmt, µ = µ0 , so ist die Teststatistik Z standardnormalverteilt,
was im Falle der zweiseitigen Hypothese bei gegebenem Signikanzniveau α zu folgender Entscheidungs-
regel für das Ablehnen von H führt: Z < −z1−α/2 oder Z > z1−α/2 . Inhaltlich bedeutet das, daÿ sowohl
zu kleine als auch zu groÿe Werte der Teststatistik zur Ablehnung von H führen, und zwar so, daÿ gera-
de mit Wahrscheinlichkeit α die Hypothese abgelehnt wird, wenn sie richtig ist. Wir sagen dann, X ist
signikant (zum Niveau α) kleiner (oder gröÿer) als der hypothetische Wert µ0 , weshalb die Hypothese
verworfen wird.
Alternativ kann die Testentscheidung auch über den sog. p -Wert (in Englisch p -value für probability
value) erfolgen. Der p -Wert ist dabei die Wahrscheinlichkeit, unter der (Null-)Hypothese H den beob-
achteten Wert der Teststatistik oder einen in Richtung der Gegenhypothese G noch extremeren Wert zu
erhalten. Groÿe p -Werte sprechen also dafür, daÿ die Empirie mit der Hypothese H vereinbar ist, weshalb
man diese nicht verwerfen sollte. Kleine p -Werte hingegen sagen, daÿ das Auftreten der beobachteten
Realisation x unwahrscheinlich ist, wenn die Hypothese H stimmt, weshalb man dann dazu neigt, sie zu
verwerfen. Die Entscheidungsregel lautet also:

p ≤ α ⇒ H ablehnen .

Computerprogramme geben im allgemeinen beim Testen den p -Wert an, da auf diese Art und Weise kein
kritischer Wert in Abhängigkeit von α berechnet werden muÿ, sondern eine Entscheidung durch einen
einfachen Vergleich des p -Wertes mit α getroen werden kann. Allerdings besteht darin auch die Gefahr
einer nachträglichen Korrektur des α in Richtung einer gewünschten Testentscheidung. Ein Vorteil in der
Angabe von p -Werten liegt in der Vergleichbarkeit mehrerer Tests für ein Testproblem. Grundsätzlich ist
aber immer darauf zu achten, wie in einem Computerprogramm die Hypothese speziziert ist (zweiseitig
bzw. einseitig mit Gröÿer- oder Kleiner-Relation), da möglicherweise der angegebene p -Wert für die
Testentscheidung gemäÿ der Hypothesenart entsprechend umgerechnet werden muÿ.

Der Testablauf auf µ bei bekanntem σ wird in folgendem Schema zusammengefaÿt:

Test auf µ (σ bekannt)


Modell: Xi ∼ N (µ, σ 2 ), i = 1, . . . , n, σ bekannt
Hypothesen: a) H : µ = µ0 gegen G : µ 6= µ0
b) H : µ ≤ µ0 gegen G : µ > µ0
c) H : µ ≥ µ0 gegen G : µ < µ0
X − µ0 X − µ0 √ X − µ0
Teststatistik: Z= = √ = n
σx σ/ n σ
Verteilung unter µ = µ0 : Z ∼ N (0, 1)
Testentscheidung: a) |Z| > z1−α/2
H ablehnen, wenn b) Z > z1−α
c) Z < −z1−α

Nach dem unrealistischen Fall, daÿ σ 2 bekannt ist, soll nun der Test auf µ für Fall eines unbekannten σ 2
vorgestellt werden. Dieser Test wird als (Einstichproben-) t-Test bezeichnet. Dabei wird σ 2 analog zu der
Vorgehensweise bei Kondenzintervallen erwartungstreu durch S 2 geschätzt.
Testschema:

t-Test auf µ (σ unbekannt)


Modell: Xi ∼ N (µ, σ 2 ), i = 1, . . . , n, σ unbekannt
Hypothesen: a) H : µ = µ0 gegen G : µ 6= µ0
b) H : µ ≤ µ0 gegen G : µ > µ0
c) H : µ ≥ µ0 gegen G : µ < µ0
X − µ0 √ X − µ0
Teststatistik: T = √ = n
S/ n S
Verteilung unter µ = µ0 : T ∼ t(ν) mit ν = n − 1
Testentscheidung: a) |T | > t(n − 1)1−α/2
H ablehnen, wenn b) T > t(n − 1)1−α
c) T < −t(n − 1)1−α

Ohne Annahme normalverteilter Stichprobenvariablen gilt für groÿes n wie oben ausgeführt, daÿ T unter
a
µ = µ0 approximativ standardnormalverteilt ist, T ∼ N (0, 1). Entsprechend kann die t-Statistik T für
einen approximativen Normalverteilungstest verwendet werden.
7.3 Test auf einen Anteilswert p

In Analogie zu den Kondenzintervallen für p basiert auch der Test für p auf einer Approximation der
Teststatistik mittels des zentralen Grenzwertsatzes. Wiederum unterscheiden wir zweiseitige und einseitige
Testprobleme. Die Prüfgröÿe basiert auf der relativen Häugkeit p̂, die gerade gleich dem arithmetischen
Mittel der Stichprobenvariablen ist.
Testschema:

Test auf p
Modell: Xi ∼ Be(p), i = 1, . . . , n
Hypothesen: a) H : p = p0 gegen G : p 6= p0
b) H : p ≤ p0 gegen G : p > p0
c) H : p ≥ p0 gegen G : p < p0
p̂ − p0 p̂ − p0 √ p̂ − p0
Teststatistik: Z= =q = np
σ̂p̂ p0 (1−p0 ) p0 (1 − p0 )
n
a
Verteilung unter H : Z ∼ N (0, 1)
Testentscheidung: a) |Z| > z1−α/2
H ablehnen, wenn b) Z > z1−α
c) Z < −z1−α

7.4 Zweiseitige Tests und Kondenzintervalle


Zweiseitige Parametertestprobleme können auch über Kondenzintervalle entschieden werden. Betrachten
wir den Test auf µ bei unbekanntem σ , H : µ = µ0 gegen G : µ 6= µ0 , mit der Prüfgröÿe T und der
Entscheidungsregel: Lehne H ab, wenn |T | > t(n − 1)1−α/2 ist. Dieser Test zum Signikanzniveau α kann
auch wie folgt durchgeführt werden. Sei KI1−α ein Kondenzintervall zum Kondenzniveau 1 − α wie
aus Abschnitt 6.2; lehne dann H (zum Signikanzniveau α) ab, wenn KI1−α den hypothetischen Wert µ0
nicht überdeckt. Die Regel mittels der Prüfgröÿe T und die Regel mittels des Kondenzintervall führen,
wie man zeigen kann, zu identischen Entscheidungen. Entsprechendes gilt auch bei bekanntem σ oder bei
dem zweiseitigen Testproblem über einen Anteilswert p.

Вам также может понравиться