Stochastik II Skript zur Vorlesung Wolfgang N¨ather Dietrich Stoyan Helge Bahmann Tobias Schlemmer Gunter D¨oge April 20...
178 downloads
872 Views
733KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Stochastik II Skript zur Vorlesung Wolfgang N¨ather Dietrich Stoyan Helge Bahmann Tobias Schlemmer Gunter D¨oge April 2005
INHALTSVERZEICHNIS
i
Inhaltsverzeichnis 1 Nachtr¨ age zu den Grundlagen der Stochastik
3
1.1
Eigenschaften der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2
Darstellung der hypergeometrischen Verteilung als Bildmaß . . . . . . . . . . . . .
6
2 Zufallsgr¨ oßen und Verteilungen - maßtheoretisch 2.1
Zufallsgr¨ oßen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Erwartungswerte - maßtheoretisch 3.1
3.2
7 7 9
Allgemeines und Formeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3.1.1
Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
3.1.2
Berechnung von Erwartungswerten . . . . . . . . . . . . . . . . . . . . . . .
9
Einige Ungleichungen
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
4 Quantile und Zufallszahlen-Erzeugung
13
5 Unabh¨ angigkeit und Produktmaße
17
5.1
Unabh¨ angigkeit von σ-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
5.2
Unabh¨ angige oder Produkt-Experimente . . . . . . . . . . . . . . . . . . . . . . . .
17
6 Zuf¨ allige Vektoren, unabh¨ angige Zufallsgr¨ oßen 6.1
19
Zuf¨ allige Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
6.1.1
Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
6.1.2
Diskrete und absolutstetige Zufallsvektoren . . . . . . . . . . . . . . . . . .
20
6.2
Randverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
6.3
Unabh¨ angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
6.4
Erwartungswert, Kovarianz, Korrelation . . . . . . . . . . . . . . . . . . . . . . . .
24
6.5
Beispiele f¨ ur Verteilungen zuf¨alliger Vektoren . . . . . . . . . . . . . . . . . . . . .
26
6.5.1
Gleichverteilung auf G ∈ R . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
6.5.2
n-dimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . .
26
6.5.3
Gibbs-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
6.5.4
Bayes-a-posteriori-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . .
28
d
ii
INHALTSVERZEICHNIS
7 Bedingte Verteilungen, bedingte Erwartung
29
7.1
Einf¨ uhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
7.2
Bedingte Gr¨ oßen bez¨ uglich B ∈ A mit P (B) > 0 . . . . . . . . . . . . . . . . . . .
30
7.3
Verteilung von X unter der Bedingung Y = y . . . . . . . . . . . . . . . . . . . . .
31
7.4
Allgemeiner Begriff der bedingten Erwartung . . . . . . . . . . . . . . . . . . . . .
32
8 Funktionen von Zufallsvektoren, Faltung 8.1
Funktionen von zuf¨ alligen Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . .
9 Pr¨ ufverteilungen der Statistik 9.1
37 37 41
2
χ -Verteilung mit n Freiheitsgraden . . . . . . . . . . . . . . . . . . . . . . . . . . 2
41
9.2
Verteilung von S . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
9.3
t-Verteilung mit n Freiheitsgraden . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
9.4
F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
10 Charakteristische Funktionen
45
10.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
10.2 Elementare Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
10.3 Umkehr- und Eindeutigkeitssatz
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
10.4 Die charakteristische Funktion und Momente . . . . . . . . . . . . . . . . . . . . .
48
10.5 Stetigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
48
11 Gesetze der großen Zahlen
51
11.1 Konvergenzarten der Stochastik . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
11.2 Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
11.2.1 Schwache Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . .
52
11.2.2 Starkes Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . .
53
12 Zentrale Grenzwerts¨ atze
57
12.1 Vorbetrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
12.2 Grenzwertsatz von Moivre-Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
12.3 Grenzwertsatz f¨ ur Folgen von iid-Zufallsgr¨oßen . . . . . . . . . . . . . . . . . . . .
59
12.4 Grenzwertsatz von Lindeberg-Feller . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
13 Eigenschaften von Sch¨ atzern
67
13.1 Ungleichung von Rao-Cram´er . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
13.2 Suffiziente Sch¨ atzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
14 Signifikanztests
73
14.1 Einf¨ uhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73
14.2 Beispiel: Mittelwert-Tests im Fall der Normalverteilung . . . . . . . . . . . . . . .
74
14.2.1 Bekannte Varianz – Gauß-Test . . . . . . . . . . . . . . . . . . . . . . . . .
74
INHALTSVERZEICHNIS
1
14.2.2 Unbekannte Varianz – Student-Test, t-Test . . . . . . . . . . . . . . . . . .
76
14.2.3 Vergleich zweier Mittelwerte – Welch-Test . . . . . . . . . . . . . . . . . . .
77
14.3 Ausgew¨ ahlte weitere Tests im Fall der Normalverteilung . . . . . . . . . . . . . . .
77
14.3.1 Varianztest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
14.3.2 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
2
14.4 χ -Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Regressionsanalyse
78 79
15.1 Einf¨ uhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
79
15.2 Methode der kleinsten Quadrate f¨ ur Modell I . . . . . . . . . . . . . . . . . . . . .
80
15.3 Nicht parametrische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
16 Konfidenz-Intervalle
83
Literaturverzeichnis
87
Index
87
2
INHALTSVERZEICHNIS
3
Kapitel 1
Nachtr¨ age zu den Grundlagen der Stochastik In diesem Kapitel sollen die Grundlagen der Wahrscheinlichkeitstheorie auf der Grundlage der Maßtheorie erl¨ autert werden.
1.1
Eigenschaften der Wahrscheinlichkeit
Um ein Zufallsexperiment quantitativ zu beschreiben, werden den Ereignissen A ∈ A H¨aufigkeiten“ ihres m¨ oglichen Auftretens, die sog. Wahrscheinlichkeiten, zugeordnet. Die Wahr” scheinlichkeit1 daf¨ ur, dass A eintritt (kurz: Wahrscheinlichkeit von A), wird mit P (A) bezeichnet. Definition 1.1 Axiomatische Definition von Kolmogorow Der Maßraum [Ω, A, P ] ist der sogenannte Wahrscheinlichkeitsraum. Dabei ist P ein normiertes Maß, das sogenannte Wahrscheinlichkeits-Maß, auch Wahrscheinlichkeits-Verteilung genannt. Damit gen¨ ugt P : A → [0, 1] den folgenden Eigenschaften (jeweils f¨ ur beliebige A, B ∈ A): P (A) ≥ 0 P (Ω) = 1 A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B) S P A1 , A2 , . . . ∈ A paarweise unvereinbar ⇒ P ( i Ai ) = i P (Ai ) (σ-Additivit¨ at/Volladditivit¨at) Aus der Maßtheorie ergeben sich die folgenden Eigenschaften (f¨ ur A, B, Bn ∈ A): Bn ↓ B ⇒ P (Bn ) ↓ P (B) Stetigkeit P (∅) = 0 c P (A ) = 1 − P (A) A ⊂ B ⇒ P (A) ≤ P (B) (Monotonie) Ferner gilt die Einschluss-Ausschluss-Formel (Poincar´e-Formel): ! n n [ X X P (Ai1 ∩ . . . ∩ Aik ) P Ai = (−1)k−1 i=1 1 lat.
k=1
prob¯ abilit¯ as, -¯ atis“; engl. probability“ ” ”
1≤i1 <...
(1.1)
¨ KAPITEL 1. NACHTRAGE ZU DEN GRUNDLAGEN DER STOCHASTIK
4
F¨ ur n = 3 lautet diese Formel zum Beispiel: P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (B ∩ C) − P (A ∩ C) + P (A ∩ B ∩ C) und f¨ ur n = 2: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Bemerkung: Das Rechnen mit Komplementen ist eine h¨aufig angewendete Methode, zum Beispiel bei P ( mindestens ein . . .“) = 1 − P ( kein . . .“). ” ” Obwohl das unm¨ ogliche Ereignis die Wahrscheinlichkeit 0 hat, ist nicht jedes Ereignis, das die Wahrscheinlichkeit 0 hat, das unm¨ ogliche Ereignis. Dementsprechend heißen Ereignisse A mit • A 6= ∅, P (A) = 0 fast unm¨ oglich“ ” • A 6= Ω, P (A) = 1 fast sicher“ ” Weiterhin gilt f¨ ur beliebige Ereignisse A1 , A2 , . . . die Boolesche Ungleichung (vergleiche Maßtheorie): ! ∞ ∞ [ X P (Ai ) ≤ P (Ai ) (1.2) i=1
i=1
Satz 1.1 (1. Borel-Cantelli-Lemma) Sei {Ai } eine beliebige Folge von Ereignissen. Wenn ∞ X
P (Ai ) < ∞
i=1
ist, so gilt P
lim sup Ai
= 0.
i→∞
Beweis: Es gilt lim sup Ai = i→∞
∞ [ ∞ \
An ⊂
k=1 n=k
∞ [
An , (k beliebig).
n=k
Damit l¨ asst sich f¨ ur beliebig kleines ε zeigen, dass es ein k0 gibt, so dass f¨ ur alle k > k0 gilt: P
lim sup Ai i→∞
≤P
∞ [
! An
≤
n=k
∞ X
P (An ) < ε
n=k
Satz 1.2 (2. Borel-Cantelli-Lemma) Die Ereignisse A1 , . . . , An seien paarweise unabh¨ angig ∞ P mit P (An ) = ∞. Dann gilt: n=1
P (lim sup An ) = 1 n→∞
1.1. EIGENSCHAFTEN DER WAHRSCHEINLICHKEIT Beweis.
2
5
F¨ ur vollst¨ andig unabh¨ angige An gilt: P(
N \
Ack ) =
k=n
N Y
(1 − P (Ak )) ≤ exp −
k=n
N X
! P (Ak )
k=n
Letzterer Term strebt gegen Null, wenn N gegen Unendlich geht. (Die Absch¨atzung nutzte die Beziehung: (1 − x) ≤ e−x .) F¨ ur alle n ist daher P (
∞ T
k=n
Ack ) = 0, und nach der Booleschen Ungleichung und den de-Morganschen
Formeln folgt: 0=P
∞ \ ∞ [
∞ [ ∞ \
! Ack
= P
n=1 k=n
!c ! Ak
n=1 k=n
= P
c
(lim sup An ) n→∞
Demzufolge ist P (lim sup An ) = 1. n→∞
Diese S¨atze sind sogenannte Null-Eins-Gesetze“. Diese Gesetze enthalten Aussagen u ¨ber Wahr” scheinlichkeiten, die unter bestimmten Bedingungen nur die Werte 0 oder 1 annehmen k¨onnen. Eine Anwendung ergibt sich, wenn An das Ereignis beschreibt, dass bei der n-ten Lotto-Ziehung ullt. Schließlich sind die ein Sechser erzielt wird. Die Voraussetzungen von Satz 1.2 sind offenbar erf¨ einzelnen An unabh¨ angig und die Wahrscheinlichkeiten P (An ) liegen konstant bei P (A1 ), welche gr¨oßer als 0 ist. Der Satz besagt nun folgendes: Wenn die Menschheit unendlich lange Lotto spielen w¨ urde, k¨ame es unendlich oft vor, dass ein Sechser auftritt.
Wahrscheinlichkeits-Begriff Es gab in der Entwicklung der Wahrscheinlichkeitstheorie noch andere Versuche, die Wahrscheinlichkeit zu definieren: Bernoulli definierte 1713 die Wahrscheinlichkeit als Grad der Gewissheit, welcher sich zur Ge” ¨ wissheit wie der Teil zum Ganzen verh¨alt“. Ahnlich bezeichnete Laplace 1812 damit das Verh¨altnis der Anzahl der f¨ ur A g¨ unstigen F¨ alle zu der Anzahl der m¨oglichen F¨alle. Dies entspricht der sogenannten frequentistischen Auffassung, die von einer naturgesetzartigen Konvergenz der H¨aufigkeiten ausgeht. von Mises versuchte 1919, die Wahrscheinlichkeit folgendermaßen zu definieren: Wenn in einer Folge von gleichartigen Beobachtungen bei jeder regellosen Auswahl unendlich vieler Ereignisse die Wahrscheinlichkeit P (A) = lim h(A) stets das gleiche Ergebnis liefert, so ist dieses die n→∞ n Wahrscheinlichkeit. Kolmogorow f¨ uhrte 1933 die obige axiomatische Definition der Wahrscheinlichkeit ein: Der Vollst¨ andigkeit halber soll hier noch die subjektive Wahrscheinlichkeit angef¨ uhrt werden. Diese begegnet uns z. B., wenn beim Wetterbericht das Niederschlags-Risiko bekanntgegeben wird. Es handelt sich dabei oft um Zahlenwerte, die der Meteorologe vom Dienst festlegt. 2 vergleiche
[6], Seite 74. Dort steht auch der Beweis f¨ ur den allgemeinen Fall.
¨ KAPITEL 1. NACHTRAGE ZU DEN GRUNDLAGEN DER STOCHASTIK
6
1.2
Darstellung der hypergeometrischen Verteilung als Bildmaß
Das Lottomodell N . . . Anzahl m¨ oglicher Zahlen M . . . Anzahl der Gewinnzahlen n . . . Anzahl der getippten Zahlen (siehe Elementare Stochastik“, Kapitel B) kann durch ein diskretes Wahrscheinlichkeits-Maß auf ” Ω0 = {max{0, n − N + M }, max{0, n − N + M } + 1, . . . , min{n, M }} beschrieben werden, die sogenannte hypergeometrische Verteilung. Der Raum (Ω0 , A0 = P(Ω0 ), P(N,M,n) ) mit P(N,M,n) ({k})
=
M k
N −M n−k N n
(1.3)
ist ein Wahrscheinlichkeitsraum und eine Vergr¨ oberung des Ausgangswahrscheinlichkeitsraumes (Ω, A = P(Ω), P ), wobei Ω die Menge der N m¨ o glichen Tipps und P die diskrete Gleichverteilung n N −M auf A ist. Es gibt M Elemente von Ω, die auf dasselbe Element von Ω0 (n¨amlich k) f¨ uhren. k n−k Sei der Tipp z.B. die Menge {1, 2, . . . , n}. Dann kann eine diesen Tipp charakterisierende Abbildung S : Ω → Ω0 folgendermaßen definiert werden: S(ω) = |ω ∩ {1, . . . , n}|, ω ∈ Ω. ω ist dann ein n-tupel verschiedener Zahlen aus 1,. . . ,N. Da Potenzmengen σ-Algebren sind, ist in diesem Falle auch die Messbarkeit gegeben. Das dadurch induzierte Bildmaß ist durch PS ({k}) := P (S −1 ({k})) definiert. Dies l¨ asst sich noch etwas umformen: P (S −1 ({k})) = P ({ω : |ω ∩ {1, 2, . . . , n}| = k} = P(N,M,n) ({k}).
7
Kapitel 2
Zufallsgr¨ oßen und Verteilungen maßtheoretisch In diesem Kapitel soll nun der Zusammenhang zwischen der Wahrscheinlichkeitstheorie und der Maßtheorie vertieft werden. Reelle Funktionen werden mit Zufallsgr¨oßen und Abbildungen mit Zufallsvariablen identifiziert (diese sind ja beide messbar). Speziell wird aus der Funktion f ein X und aus dem Wert f (x) wird die Realisierung X(ω) = x.
2.1
Zufallsgr¨ oßen
Oft ist es sinnvoll, das Zufallsgeschehen von (Ω, A, P ) auf einen leichter beschreibbaren Raum (Ω0 , A0 ) zu transformieren (z.B. Ω0 = Rd ). Wenn zum Beispiel ωk ein Elementarereignis ist, in dem sich k Unf¨ alle an einem Tag ereignen, dann ist X(ωk ) = k eine sinnvolle Transformation. Ein weiteres Beispiel: W¨ urfeln mit zwei W¨ urfeln, wobei die Augensumme betrachtet wird. Ω ist dann Ω = {1, . . . , 6}×{1, . . . , 6}. F¨ ur den Bildraum ist Ω0 = R1 sinnvoll. Zu dem Elementarereignis ω = (ω1 , ω2 ) bietet sich das Bildelementarereignis ω 0 = ω1 + ω2 an. Allgemein muss gesichert sein, dass {X ∈ A0 } = {ω ∈ Ω : X(ω) ∈ A0 } = X −1 (A0 ) ∈ A,
(2.1)
damit {X ∈ A0 } ein Ereignis und P (X ∈ A0 ) definiert sind. X muss also eine (A, A0 )-messbare Abbildung sein. Definition 2.1 Seien (Ω, A, P ) ein Wahrscheinlichkeitsraum und (Ω0 , A0 ) ein messbarer Raum. Die Abbildung X : Ω → Ω0 heißt Zufallsvariable (zuf¨allige Variable), wenn sie (A, A0 )-messbar ist. Durch PX (A0 ) = P (X −1 (A0 )),
A0 ∈ A0
(2.2)
wird durch X auf (Ω0 , A0 ) ein Wahrscheinlichkeitsmaß PX induziert. (Ω0 , A0 , PX ) ist der BildWahrscheinlichkeitsraum bez¨ uglich X. PX heißt dann Verteilungs-Gesetz der Zufallsvariablen X. Wir interessieren uns im Folgenden speziell f¨ ur folgende Zufallsvariablen: Ω0 = R1 , A0 = R1 = σ-Algebra der Borelmengen des R1 ; dann heißt die Zufallsvariable Zufallsgr¨ oße. Ω0 = Rd , A0 = Rd = σ-Algebra der Borelmengen des Rd ; dann heißt die zuf¨allige Variable zuf¨ alliger Vektor bzw. Zufallsvektor.
8
¨ KAPITEL 2. ZUFALLSGROSSEN UND VERTEILUNGEN - MASSTHEORETISCH
Weitere wichtige Zufallsvariablen h¨ angen mit zuf¨alligen Funktionen, stochastischen Prozessen und zuf¨alligen Mengen zusammen. Speziell: Zufallsgr¨ oßen X
(Ω, A, P ) −→ (R1 , R1 , PX ) PX ist Wahrscheinlichkeitsmaß auf (R1 , R1 ), {(−∞; x) : x ∈ R} ist ein Erzeugendensystem f¨ ur R1 , das heißt durch PX ((−∞; x)) f¨ ur alle x ist PX bereits eindeutig bestimmt (siehe Maßtheorie). Daher: Definition 2.2 Es sei X eine Zufallsgr¨ oße auf (Ω, R, P ). Dann heißt die f¨ ur alle reellen x definierte Funktion = PX ((−∞; x)) = P ({ω ∈ Ω : X(ω) < x}) = P (X < x)
FX (x) Verteilungsfunktion
1
(2.3)
der Zufallsgr¨ oße X.
Bemerkung. Neben diskreten und absolut stetigen Verteilungen existieren auch singul¨ar stetige Verteilungen. Eine Verteilung Ps heißt singul¨ ar stetig, wenn ihre Verteilungsfunktion stetig ist und eine Lebesgue-Nullmenge N mit Ps (N ) = 1 existiert. Es gilt der Zerlegungssatz von Lebesgue: F¨ ur jede Verteilungsfunktion F existieren eindeutig bestimmte Verteilungsfunktionen Fa (absolut stetig), Fs (singul¨ ar stetig), Fd (diskret) und nichtnegative Zahlen αa , αs , αd mit F
= αa Fa + αs Fs + αd Fd ,
(2.4)
wobei αa + αs + αd = 1.
1 In vielen B¨ uchern findet sich ≤“ statt <“. Dann wird also mit den halboffenen Intervallen (−∞, x] gearbeitet. ” ” Dann ist die Verteilungsfunktion nicht mehr links-, sondern rechtsseitig stetig. Damit kann es vor allem bei Beweisen zu gewissen Unterschieden kommen, obwohl sich die Theorie vom Ergebnis her kaum unterscheidet.
9
Kapitel 3
Erwartungswerte - maßtheoretisch 3.1 3.1.1
Allgemeines und Formeln Definition
Hier soll nun die Identifikation desR Maßes µ mit R R der Wahrscheinlichkeit P forciert werden. Es werden die Integrale f (ω) µ(dω), f dµ und f (x) dx, sowie die Bezeichnungen EX, E(X) und EP (X) eingef¨ uhrt. Definition oße auf (Ω, A, P ), X sei integrierbar bez¨ uglich P (das R 3.1 Es sei X eine Zufallsgr¨ bedeutet |X(ω)| P (dω) < ∞). Dann heißt Ω
Z EX =
X(ω) P (dω)
(3.1)
Ω
Erwartungswert von X (Erwartungswert zur Verteilung PX ). Wenn X ≥ 0 ist, so ist die Existenz immer gegeben, aber unter Umst¨anden ist EX = ∞.
3.1.2
Berechnung von Erwartungswerten
Die Berechnung von Erwartungswerten basiert auf dem Transformationssatz der Maßtheorie. Dabei werden g mit X und g(µ) mit PX identifiziert. Demnach gilt: Z EX = R1
+∞ Z x PX (dx) = x dFX (x)
(Riemann-Stieltjes).
(3.2)
−∞
Im diskreten Fall ergibt sich daraus f¨ ur P (X = ak ) = pk : X EX = ak pk
(3.3)
(k)
und im absolutstetigen Fall: +∞ Z EX = xfX (x) dx.
(3.4)
−∞
EX kann als Massenschwerpunkt oder Mittelwert gedeutet werden. Hier nun noch zwei Spezialf¨alle:
10
KAPITEL 3. ERWARTUNGSWERTE - MASSTHEORETISCH • Es sei X = 1A mit A ∈ A. Dann ist EX = E1A = P (A), denn es gilt: Z
Z 1A (ω) P (dω) =
P (dω).
(3.5)
A
Eine alternative Begr¨ undung geht von der Formel EX =
P
ak pk aus und ergibt ebenfalls
EX = 0 · p0 + 1 · p1 = 0 · P (Ac ) + 1 · P (A) = P (A). • F¨ ur die Exponential-Verteilung lautet die Dichte-Funktion: fX (x) = 1[0,∞) λe−λx . F¨ ur den Erwartungswert ergibt sich also: Z∞ EX
=
xfX (x) dx −∞ Z∞
xλe−λx dx =
=
1 λ
0
Bemerkung. Die Integration ist eine lineare Operation, daher gilt f¨ ur beliebige reelle Zahlen α und β E(αX + βY ) = αEX + βEY, (3.6) sofern die Erwartungswerte EX und EY der beiden Zufallsgr¨oßen X und Y existieren. Anwendung Um den Erwartungswert einer Binomialverteilung auszurechnen, ist es ungeschickt, zu versuchen, ihn nach (3.3) direkt zu berechnen. Viel einfacher ist es hingegen, die Zufallsvariable entsprechend X=
n X
Xi ,
Xi = 1Ai
i=1
zu zerlegen, wobei Ai das Ereignis eines Erfolges im i-ten Versuch beschreibt. Die Xi sind dann diskret mit a1 = 0, a2 = 1, p1 = 1 − p und p2 = p. Damit ist der Erwartungswert EXi = p. Daraus folgt f¨ ur den Gesamt-Erwartungswert EX = np. (3.7) Wenn X ≥ 0, kann man den Erwartungswert mitunter elegant durch Integration u ¨ber die Verteilungsfunktion F (x) ermitteln: Z∞ EX = (1 − F (x)) dx. (3.8) 0
Damit kann man zum Beispiel noch einmal den Erwartungswert der Exponentialverteilung berechnen. Dichte- und Verteilungsfunktion sahen ja folgendermaßen aus: F (x) f (x)
= 1 − e−λx , = λe−λx ,
x≥0 x ≥ 0.
3.2. EINIGE UNGLEICHUNGEN
11
Es ergibt sich Z∞ = (1 − F (x)) dx
EX
0
Z∞ =
e−λx dx
0
∞ 1 −λx 1 = − e = λ λ 0 Hier noch eine Bezeichnungsweise: Z E(X; A) =
X(ω) P (dω) A
ist der auf das Ereignis A eingeschr¨ ankte Erwartungswert von X. Oft werden die speziellen Erwartungswerte E(X; X 6= Y ) und E(X; X > 0) ben¨otigt. Es ist offensichtlich, dass gilt: E(X; A) = E(X1A ). Es handelt sich hier nicht um einen bedingten Erwartungswert, wie er in 7.4 betrachtet wird. Beispiel. Bei einem W¨ urfelwurf beschreibe X die Augenzahl. A sei das Ereignis, dass die Augenzahl gr¨ oßer als 3 ist. Dann beschreibt E(X; A) den Mittelwert von Null oder der Augenzahl, ” sofern diese gr¨ oßer als 3 ist.“ Es ergibt sich rechnerisch: E(X; A) =
6 X
ak pk = 4 ·
k=4
3.2
1 1 1 + 5 · + 6 · = 2.5 6 6 6
Einige Ungleichungen
Satz 3.1 Es sei X eine Zufallsgr¨ oße und g eine auf [0, ∞) definierte nicht negative monoton wachsende Funktion mit E(g(|X|)) < ∞. Dann gilt f¨ ur jede positive Zahl z: P (|X| ≥ z) ≤
Eg(|X|) g(z)
(3.9)
Beweis. Es gilt f¨ ur alle ω g(|X(ω)|) ≥ g(|X(ω)|) 1 (|X(ω)| ≥ z) ≥ g(z) 1 (|X(ω)| ≥ z) , also Eg(|X|) ≥ E (g(|X|); {|X| ≥ z}) ≥ g(z)P (|X| ≥ z).
Speziell f¨ ur g(x) = xk , k > 0, ergibt sich die Markowsche Ungleichung P (|X| ≥ z) ≤
E|X|k zk
(3.10)
und f¨ ur X := X − EX und k = 2 die Tschebyschewsche Ungleichung: P (|X − EX| ≥ z) ≤
var X z2
(3.11)
12
KAPITEL 3. ERWARTUNGSWERTE - MASSTHEORETISCH
Satz 3.2 (Jensensche Ungleichung) g sei konvex und E|X| < ∞. Dann gilt g(EX) ≤ E(g(X))
(3.12)
Beweis. Wegen der Konvexit¨ at existiert ein reelles a, so dass f¨ ur alle x gilt: g(x) ≥ g(EX) + a(x − EX) (Wenn g differenzierbar ist, dann ist a = g 0 (EX).) F¨ ur x = X(ω) ergibt sich g(X(ω)) ≥ g(EX) + a(X(ω) − EX)
f¨ ur alle ω.
Damit ist dann Eg(X) ≥ g(EX) + a(EX − EX) = g(EX) An dieser Stelle sei noch auf die wichtigen Ungleichungen der Funktionalanalysis von H¨older, Ljapunow und Minkowski verwiesen. Die Cauchy-Schwarzsche Ungleichung gilt nat¨ urlich auch hier. Unter der Voraussetzung, dass EX 2 < ∞ und EY 2 < ∞ und damit auch E|XY | < ∞ sind, gilt: (E(XY ))2 ≤ EX 2 EY 2 . (3.13) Gleichheit gilt genau dann, wenn X und Y linear abh¨angig sind, also reelle Zahlen a und b existieren, so dass P (aX + bY = 0) = 1 ist.
13
Kapitel 4
Quantile, Quantilfunktionen und Zufallszahlen-Erzeugung Definition 4.1 Es seien X eine Zufallsgr¨ oße auf (Ω, B, P ) mit der Verteilungsfunktion FX , p ∈ (0, 1) sowie Q− p
=
sup{x ∈ R : FX (x) < p}
(4.1)
Q+ p
=
sup{x ∈ R : FX (x) ≤ p}.
(4.2)
+ Jeder Wert Qp ∈ [Q− p , Qp ] heißt p-Quantil der Verteilung FX . + F¨ ur fast alle p ist Q− p = Qp , d.h., es existiert zu p genau ein Quantilwert Qp . Ist die Verteilungs+ funktion FX jedoch in einem Intervall konstant mit Funktionswert p, so ist Q− p < Qp . Das tritt vor allem bei diskreten Verteilungen auf, aber auch bei stetigen Verteilungen, wenn die Wahrscheinlichkeitsmasse auf mehrere nicht zusammenh¨angende Intervalle konzentriert ist.
Es gilt: Qp ist p-Quantil ⇔ FX (Qp ) ≤ p ≤ FX (Qp + 0)
(4.3)
Interpretation: links“ von Qp liegen (maximal) 100% · p der Wahrscheinlichkeitsmasse“, rechts“ ” ” ” davon (maximal) 100% · (1 − p). Im Gegensatz zu EX und var X existieren Quantile immer. In dem Spezialfall, dass FX absolutstetig mit der Dichte fX ist, ist Qp L¨osung der Gleichung ZQp FX (Qp ) =
fX (x) dx = p
(4.4)
−∞
Besonders wichtig sind die Quantile f¨ ur sehr kleine bzw. sehr große p sowie die Werte • p = 14 , p = 43 , die sogenannten Quartile • p = 12 , der Median Im allgemeinen sind Median und Erwartungswert einer Verteilung verschieden (wie man beispielsweise an der Exponentialverteilung sieht), f¨ ur symmetrische Verteilungen (FX (EX + a) = + 1 − FX (EX − a)) stimmen beide u ¨berein, falls der Median eindeutig im Sinne von Q− 0.5 = Q0.5 ist.
14
KAPITEL 4. QUANTILE UND ZUFALLSZAHLEN-ERZEUGUNG F −1 6 6
F 6 1,0
5
0,8
4
0,6
3
0,4 0,2
2
0,0 0 1
2
1 0 0,0 0,2 0,4 0,6 0,8 1,0
3
4
5
6
Abbildung 4.1: Beispiel einer Verteilungsfunktion (links) sowie der zugeh¨origen Quantilfunktion (rechts) Satz 4.1 Sei X eine Zufallsgr¨ oße mit E|X| < ∞. Dann gilt E|X − Q 21 | = inf E|X − a|, a∈R
Falls X absolutstetig ist, so gilt die Formel Q 21 = arg min E|X − a|,
(4.5)
(a)
d.h., der Median minimiert den mittleren (erwarteten) Absolutfehler.1 Ebenfalls von Bedeutung (aber kein Quantil) sind Modalwerte: Dies sind die Werte der Zufallsgr¨oße, an denen die Dichte (bei einer absolutstetigen) bzw. Wahrscheinlichkeit (bei einer diskreten Zufallsgr¨ oße) ein lokales Maximum hat. Gibt es nur einen Modalwert, so heißt die Verteilung unimodal. Die Inverse der Verteilungsfunktion wird auch als Quantilfunktion bezeichnet: F −1 (x) = sup{t : FX (t) ≤ x}
(4.6)
Die Existenz dieser Funktion ist aufgrund der Monotonie von FX immer gegeben. Falls FX streng monoton ist, so handelt es sich hierbei um die Umkehrfunktion. Man setzt −1 FX (0) = sup{t : FX (t) = 0} −1 FX (1) = inf{t : FX (t) = 1}
Beispiel. In Abbildung 4.1 sind eine Verteilungs-Funktion und die zugeh¨orige Quantil-Funktion dargestellt. Als Auswahl seien hier folgende beiden Werte angegeben: F −1 (0.1) = sup{t : FX (t) ≤ 0.1} = 1.5 F −1 (0.5) = sup{t : FX (t) ≤ 0.5} = 2.5 Satz 4.2
1. F¨ ur alle x und t gilt: F −1 (x) < t ⇔ x < F (t).
2. F −1 ist wachsend und rechtsseitig stetig 3. Wenn F stetig ist, dann gilt F (F −1 (x)) = x f¨ ur alle x aus dem Intervall (0, 1). 1 Zum
Vergleich: Der Erwartungswert minimiert den mittleren quadratischen Fehler: var X = E(X − EX)2 = inf E(X − a)2 a∈R
15
Quantil-Transformation Die Quantil-Transformation bildet eine wichtige Grundlage der Monte-Carlo-Methode. Satz 4.3 Es sei F eine Verteilungsfunktion und U sei auf [0, 1] gleichm¨ aßig verteilt. Dann hat X = F −1 (U ) die Verteilungsfunktion F. Beweis. F −1 ist monoton, also Borel-messbar. Also ist X eine Zufallsgr¨oße. Wegen Satz 4.2 (1.) gilt: P (X < x) = P (F −1 (U ) < x) = P (U < F (x)) = F (x)
Inversionsmethode Aus Pseudo-Zufallszahlen u werden nach dem Prinzip X = F −1 (U ) Pseudo-Zufallszahlen mit der Verteilungsfunktion F erzeugt. Wir betrachten hier die Inversionsmethode im diskreten Fall. Es seien P (X = ai ) = pi f¨ ur i = 1, . . . k P pj . Eine naive L¨ osung ist folgende: und qk = j=1
Falls u < q1 → a1 q1 ≤ u < q2 → a2 .. . Eine eventuell cleverere L¨ osung ist nun, die pi so zu sortieren (hier dann mit p∗i bezeichnet), dass p∗1 > p∗2 > . . . gilt. Dann sieht die L¨ osung folgendermaßen aus: Falls u < q1∗ → a∗1 q1∗ ≤ u < q2∗ → a∗2 .. .
Verwerfungsmethode Die Verwerfungsmethode von J. v. Neuman geht davon aus, dass die Zufallsgr¨oße X eine Dichtefunktion f mit f (x) ≤ M und f (x) = 0 f¨ ur x < a und x > b besitzt. Man erzeuge Zufallszahlen ux und uy aus dem Intervall [0, 1]. Dann berechne man einen Punkt T = (a + ux (b − a), M uy ) = (xT , yT ). Falls T unter der Kurve (x, f (x)) liegt, setze man x = xT und erh¨alt somit eine Zufallszahl zur Dichte f (x). Falls T nicht unter der Kurve liegt, starte man neu. Begr¨ unden l¨ asst sich dieses Verfahren mittels geometrischer Wahrscheinlichkeiten: P (X < z)
= P (XT < z | YT < f (XT )) = 1 M (b−a)
=
Rz
f (x) dx
a 1 M (b−a)
P (XT < z, YT < f (XT )) P (YT < f (XT ))
Zz =
f (x) dx = F (z) a
16
KAPITEL 4. QUANTILE UND ZUFALLSZAHLEN-ERZEUGUNG
Bemerkungen: • Diese Methode funktioniert auch in hochdimensionalen F¨allen mit einer Dichtefunktion wie f (x1 , . . . , xn ). • Eine Vorsiebung kann die Effektivit¨at erh¨ohen.
17
Kapitel 5
Unabh¨ angigkeit und Produktmaße 5.1
Unabh¨ angigkeit von σ-Algebren
Definition 5.1 Eine Familie {Ei }i∈I von Ereignis-Systemen Ei ⊂ A heißt (vollst¨ andig) unabh¨ angig, wenn f¨ ur alle k und i1 , . . . , ik ∈ I und jede m¨ ogliche Wahl von Ereignissen Aim ∈ Eim (m = 1, . . . , k) die Gleichheit k k \ Y P( Aim ) = P (Aim ) (5.1) m=1
m=1
besteht. Falls die Ei die Einermengen {Ai } symbolisieren, so handelt es sich um unabh¨angige Ereignisse. Sind die Ei speziell σ-Algebren Ai , so werden die Ai ⊂ A als unabh¨angige σ-Algebren bezeichnet. Wenn die Ei durchschnittsstabil sind und die Beziehung Ai = σ(Ei ) gilt, so folgt aus der Unabh¨angigkeit der Ei auch die Unabh¨angigkeit der Ai , vgl. [6].
5.2
Unabh¨ angige oder Produkt-Experimente
Es seien (Ωk , Ak , Pk ) Wahrscheinlichkeitsr¨aume f¨ ur zuf¨allige Experimente, k = 1, . . . , n. Der Wahrscheinlichkeitsraum, auch Produktraum, f¨ ur das Produkt-Experiment, die stochastisch unabh¨angige Hintereinanderausf¨ uhrung dieser Einzel-Experimente, ist dann gegeben durch: (
n Y
Ων ,
ν=1
n O ν=1
Aν ,
n O
Pν ) = (Ω, A, P )
ν=1
mit Ω := A :=
n Y ν=1 n O
Ω1 × . . . × Ωn
Ων
=
Aν
= σ({A1 × . . . × An : Ak ∈ Ak })
ν=1
P ist dann das (eindeutig bestimmte) Produktmaß auf der Produkt-σ-Algebra A mit P (A1 × . . . × An ) = P1 (A1 ) · . . . · Pn (An ),
Ai ∈ Ai .
¨ KAPITEL 5. UNABHANGIGKEIT UND PRODUKTMASSE
18
A˜i = Ω1 × . . . × Ai × . . . × Ωn bezeichnet das Ereignis, dass im i-ten Experiment das Ereignis Ai eintritt. Es gilt: P (A˜i ) = Pi (Ai ) P (A˜i ∩ A˜j ) = P (Ω1 × . . . × Ai × . . . × . . . Aj × . . . × Ωn ) = Pi (Ai ) · Pj (Aj ) = P (A˜i ) · P (A˜j ) usw. D.h., die A˜i sind vollst¨ andig unabh¨angig.
Bernoulli-Schema Ein praktisch wichtiges Beispiel f¨ ur ein Produktexperiment ist die n-fache, stochastisch unabh¨angige Hintereinanderausf¨ uhrung von ein und demselben Bernoulli-Experiment, welches durch den Wahrscheinlichkeitsraum (Ω, A, P ) mit A = {∅, Ω, A, A} charakterisiert wird, P (A) = p. Dabei bedeute A einen Erfolg und A einen Nicht-Erfolg im k-ten Versuch. Das einzelne (Teil-)Experiment werde durch den Wahrscheinlichkeitsraum (Ω, A0 , P0 ) mit A0 = {∅, Ω, A, Ac } charakterisiert und es sei P0 (A) = p. Dabei bedeute z.B. A einen Erfolg und Ac einen Nicht-Erfolg. Dann ist P0 (Ac ) = 1 − p. Weil die (Teil-)Experimente alle gleich sind, gilt: Ω1 = . . . = Ωn A1 = . . . = An P1 = . . . = Pn
= Ω0 = A0 = P0
F¨ ur das Produkt-Experiment gilt dann: Ω
=
A = P
=
n Y
Ωi
i=1 n O i=1 n O
Ai Pi
i=1
ω
=
(ω1 , . . . , ωn )
Es sei Ai das Ereignis, dass im i-ten Versuch ein Erfolg eintritt. Dann sind Ai und Aj (i 6= j) stochastisch unabh¨ angig. P (Ai ) = 1 · . . . · 1 · P0 (A) · 1 · . . . · 1 = P0 (A) = p P (Ai ∩ Aj ) = 1 · . . . · 1 · P0 (A) · 1 · . . . · 1 · P0 (A) · 1 . . . · 1 = P0 (A)2 = p2
19
Kapitel 6
Zuf¨ allige Vektoren, unabh¨ angige Zufallsgr¨ oßen 6.1
Zuf¨ allige Vektoren
6.1.1
Grundbegriffe
Ein zuf¨alliger Vektor ist eine zuf¨ allige Variable (Borel-messbare Abbildung) X : Ω → Rd , X = T (X1 , . . . , Xd ) , d.h. X
(Ω, A, P ) −→ (Rd , Rd , PX ) mit PX (B) = P (X ∈ B), B ∈ Rd . Beispielsweise k¨onnte X1 die Gr¨oße, X2 das Gewicht und X3 den Bauchumfang eines Menschen beschreiben. Ebenso wie Zufallsgr¨ oßen k¨ onnen auch Zufallsvektoren durch Verteilungsfunktionen charakterisiert werden: Definition 6.1 Die durch FX (x1 , . . . , xd ) = P (X1 < x1 , . . . , Xd < xd )
(6.1)
gegebene Funktion FX : Rd → [0, 1] heißt Verteilungsfunktion des Zufallsvektors X bzw. gemeinsame Verteilungsfunktion der Komponenten von X (joint distribution function). Diese Verteilungsfunktion hat folgende Eigenschaften: 1. FX ist monoton steigend in jeder Variablen 2. 3.
lim
xk →−∞
FX (x1 , . . . , xk , . . . , xd ) = 0
lim FX (x1 , . . . , xd ) = 1
x1 →∞ x2 →∞
.. .
xd →∞
4. FX ist in jedem Argument linksseitig stetig
¨ ¨ ¨ KAPITEL 6. ZUFALLIGE VEKTOREN, UNABHANGIGE ZUFALLSGROSSEN
20
5. FX w¨ achst“ auf jedem d-dimensionalen Quader, d.h. ” FX (x1 + h1 , x2 + h2 , . . . , xd + hd ) − FX (x1 , x2 , . . . , xd ) − (FX (x1 , x2 + h2 , . . . , xd + hd ) − FX (x1 , x2 , . . . , xd )) − (FX (x1 + h1 , x2 , . . . , xd + hd ) − FX (x1 , x2 , . . . , xd )) .. . − (FX (x1 + h1 , x2 + h2 , . . . , xd ) − FX (x1 , x2 , . . . , xd )) ≥ 0 (6.2) Bemerkung: Es gibt Funktionen, die 1. bis 4. erf¨ ullen, jedoch 5. verletzen, z.B. im zweidimensionalen Fall 1 x1 + x2 > 0 F (x1 , x2 ) = 0 sonst PX ist eindeutig durch FX bestimmt. So gilt zum Beispiel: P (a ≤ X1 ≤ b, c ≤ X2 ≤ d)
= PX (Rechteck) = F (b, d) − F (a, d) − F (b, c) + F (a, c).
ultigkeit, auch VektorDer Zerlegungssatz von Lebesgue (2.4) hat auch im d-Dimensionalen G¨ funktionen lassen sich daher in einen absolut-stetigen, einen singul¨ar-stetigen und einen diskreten Anteil aufteilen. Wir beschr¨ anken uns jedoch auf 1. rein absolut-stetige Verteilungsfunktionen (d.h. PX νd ), charakterisiert durch die RadonNikodym-Dichte fX (x1 , . . . , xd ) 2. rein diskrete Verteilungsfunktionen, charakterisiert durch P (X1 = x1 , . . . , Xd = xd ) an diskreten Stellen (x1 , . . . , xd )
6.1.2
Diskrete und absolutstetige Zufallsvektoren
Bei einem diskreten Zufallsvektor existiert eine abz¨ahlbare Teilmenge C ⊂ Rd mit P (X ∈ C) = 1 und P (X = x) > 0 f¨ ur alle x ∈ C. Dies ist genau dann der Fall, wenn alle Komponenten diskret sind. Wenden wir uns nun den absolutstetigen Zufallsvektoren zu. Es sei PX νd . Dann existiert eine gemeinsame Dichte fX (x1 , . . . , xn ). F¨ ur die Verteilungsfunktion gilt dann: Zxd
Zx1 FX (x1 , . . . , xd ) =
... −∞
fX (t1 , . . . , td ) dt1 . . . dtd
−∞
Beachte: Auch wenn X1 , . . . , Xd absolutstetig sind, folgt nicht, dass X absolutstetig ist.
6.2. RANDVERTEILUNGEN
6.2
21
Randverteilungen
Die Verteilungsfunktion Fi der Komponente Xi kann aus FX erhalten werden. Sie wird RandVerteilungsfunktion genannt. Satz 6.1 Sei X ein zuf¨ alliger Vektor. Dann gilt f¨ ur jedes i und x: FXi (xi ) = x lim F (x1 , . . . , xi , . . . , xd ) →∞ X
(6.3)
j
j6=i
Beweis. Es gilt im Fall (xj ) → ∞ f¨ ur alle j 6= i: {X1 < x1 , . . . , Xi < xi , . . . , Xd < xd } ↑ {Xi < xi } Wegen der Stetigkeit von P (Satz 4.1 aus der Maßtheorie) folgt (6.3). Es ist z. B. FX1 (x1 )
= PX ((−∞, x1 ) × Rd−1 ) = P (X1 < x1 ) = x lim F (x1 , x2 , . . . , xd ) →∞ X 2
x3 →∞
.. .
xd →∞
die Randverteilung bez¨ uglich X1 ; die Zufallsgr¨oßen X2 , . . . , Xd werden in ihr nicht beachtet. Allgemein heißt FXi1 ,...,Xik (xi1 , . . . , xik )
=
lim
i∈{i / 1 ,...,ik }: xi →∞
FX (x1 , x2 , . . . , xd ) (6.4)
(k-dimensionale) Randverteilung bez¨ uglich (Xi1 , . . . , Xik )T . Speziell ergibt sich im zweidimensionalen Fall: FX1 (x1 ) = F(X1 ,X2 ) (x1 , ∞) FX2 (x2 ) = F(X1 ,X2 ) (∞, x2 ) Im absolut-stetigen Fall PX νd existieren Randverteilungsdichten: Z fXi1 ,...,Xik (xi1 , . . . , xik ) = fX (x1 , . . . , xd ) νd−k (dx0 ),
(6.5)
(6.6)
Rd−k
wobei sich die Integration u ¨ber die nicht erfassten Komponenten erstreckt. Soll die Randverteilung einer Komponente berechnet werden, sieht die Formel wie folgt aus: Z∞ fXi (x) =
Z∞ ...
−∞
fX (t1 , . . . , ti−1 , x, ti+1 , . . . , td ) dt1 . . . dti−1 dti+1 . . . dtd
−∞
Im zweidimensionalen Fall ergibt sich Z∞ fX1 (x1 )
=
f(X1 ,X2 ) (x1 , x2 ) dx2 −∞ Z∞
fX2 (x2 )
=
f(X1 ,X2 ) (x1 , x2 ) dx1 −∞
(6.7)
¨ ¨ ¨ KAPITEL 6. ZUFALLIGE VEKTOREN, UNABHANGIGE ZUFALLSGROSSEN
22
Im diskreten Fall ist P (Xi1 = xi1 , . . . , Xik = xik )
X
=
P (X1 = x1 , . . . , Xd = xd ),
(6.8)
xj1 ,...,xjd−k
wobei hier u ¨ber die (d − k) fehlenden Komponenten summiert wird, d.h., {i1 , . . . , ik } ∪ {j1 , . . . , jd−k } = {1, . . . , d},
{i1 , . . . , ik } ∩ {j1 , . . . , jd−k } = ∅.
Beispiele 1. Wir betrachten die Gleichverteilung auf einem zusammenh¨angenden Gebiet G ⊂ Rd ; diese ist eine absolutstetige Verteilung mit u ¨ber G konstanter Dichte fX (x1 , . . . , xd ) =
1 1G (x1 , . . . , xd ) νd (G)
F¨ ur die zweidimensionale Gleichverteilung auf [a, b] × [c, d] gilt fX1 ,X2 (x1 , x2 )
=
fX1 (x1 )
=
fX2 (x2 )
=
1 1[a,b]×[c,d] (x1 , x2 ) (b − a)(d − c) 1 1[a,b] (x1 ) b−a 1 1[c,d] (x2 ) d−c
2. Wir betrachten eine diskrete Verteilung im R2 mit endlich vielen Werten (x1i , x2j ), i = 1, . . . , q, j = 1, . . . , r. Die Wahrscheinlichkeiten P (X1 = x1i , X2 = x2j ) =: pij bilden eine q × r-Matrix P
=
(6.9)
(pij )
Die Randverteilungen ergeben sich als Zeilen- beziehungsweise Spaltensummen der Matrix: X P (X1 = x1i ) = pij = pi· , (6.10) j
P (X2 = x2j )
=
X
pij = p·j .
(6.11)
i
6.3
Unabh¨ angigkeit
Definition 6.2 Es sei (Xi )i=1,2,... eine Folge von Zufallsgr¨ oßen auf (Ωi , Ai , Pi ); die (Xi ) heißen total stochastisch unabh¨ angig, wenn f¨ ur jedes k der zuf¨ allige Vektor X = (Xi1 , . . . , Xik ) durch den Produkt-Wahrscheinlichkeitsraum Rk , Rk ,
k O
PXij
j=1
beschrieben wird (% Abschnitt 5.2). Insbesondere gilt also PX =
k O
PXij
(6.12)
j=1
f¨ ur jede Auswahl X = (Xi1 , . . . , Xik ). Sind alle Verteilungen PXi u ¨berdies gleich, so heißen die Xi , i = 1, 2, . . . unabh¨ angig und identisch verteilt (auch iid: independent and identically distributed“). ”
¨ 6.3. UNABHANGIGKEIT
23
Aus (6.12) und der Erzeugereigenschaft der (−∞, xi ) folgt: Genau dann gilt f¨ ur jede Auswahl X = (Xi1 , . . . , Xik ) FX (x1 , . . . , xk ) =
k Y
FXij (xj ),
(6.13)
j=1
wenn (Xi ) eine total stochastisch unabh¨angige Familie ist. Speziell ist also bei zuf¨alligen Vektoren mit unabh¨ angigen Komponenten die Verteilungsfunktion das Produkt der Randverteilungsfunktionen der einzelnen Komponenten. Im absolut-stetigen Fall folgt aus der Unabh¨angigkeit: fX (x1 , . . . , xd ) =
d Y
fXi (xi )
(6.14)
i=1
Ein Beispiel f¨ ur eine solche absolutstetige Verteilung ist die zweidimensionale Gleichverteilung auf [a, b] × [c, d] (siehe obiges Beispiel). Bei diskreten zuf¨ alligen Vektoren ist die Unabh¨angigkeit ¨aquivalent zu: P (X1 = x1 , . . . , Xd = xd ) =
d Y
P (Xi = xi )
(6.15)
i=1
ucken als: Bei diskreten Verteilungen im R2 l¨ asst sich (6.15) auch ausdr¨ pij = pi· · p·j
(6.16)
F¨ ur den Erwartungswert des Produkts zweier unabh¨angiger Zufallsgr¨oßen gilt E(XY ) = EX · EY
(6.17)
wegen Z∞ Z∞
Z E(XY )
=
X(ω)Y (ω) P (dω) = Z∞ Z∞
=
xy dF (x, y) −∞ −∞ Z∞
x dF (x) ·
xy dF (x) dF (y) = −∞ −∞
Z∞
−∞
y dF (y)
−∞
Speziell: Wenn X und A unabh¨ angig sind (d. h., σ(X) und R{∅, A, Ac , Ω} sind unabh¨angig), so sind X und 1A unabh¨ angig und es gilt f¨ ur E(X; A) = EX1A = X(ω) P (dω) A
E(X; A) = E(X1A ) = EX E1A = EX P (A). Beispiel. X sei die Augenzahl beim zweiten Wurf. A sei das Ereignis, dass die Augenzahl beim ersten Wurf gerade war. Dann betr¨ agt E(X; A) = 3.5 · 0.5.
24
6.4
¨ ¨ ¨ KAPITEL 6. ZUFALLIGE VEKTOREN, UNABHANGIGE ZUFALLSGROSSEN
Erwartungswert, Kovarianz, Korrelation
Definition 6.3 Es sei X ein d-dimensionaler zuf¨ alliger Vektor auf (Ω, A, P ). Der Erwartungswert EX (falls er existiert) ist gleich dem Vektor der Erwartungswerte der Komponenten von X, d.h., EX = (EX1 , . . . , EXd )T (6.18) Bemerkung: EX ist bereits durch die Randverteilungen FXi , i = 1, . . . , d, bestimmt: Z EXi =
Z xi dFX (x1 , . . . , xi , . . . , xd ) =
xi dFXi (xi )
(6.19)
R1
Rd
Wenn Xi und Xj unabh¨ angig sind, dann gilt nach (6.17) EXi Xj
= EXi · EXj
(6.20)
Definition 6.4 Es sei X ein d-dimensionaler zuf¨ alliger Vektor auf (Ω, A, P ). Die Gr¨ oße E ((Xi − EXi )(Xj − EXj )) = EXi Xj − EXi · EXj = cov(Xi , Xj )
(6.21)
heißt (sofern sie existiert) Kovarianz von Xi und Xj . Die normierte Gr¨ oße cov(Xi , Xj ) var Xi · var Xj
%(Xi , Xj ) = p
(6.22)
heißt Korrelationskoeffizient zwischen Xi und Xj . Als Spezialfall ergibt sich: cov(Xi , Xi ) = var Xi , %(Xi , Xi ) = 1. Als allgemeine Formel f¨ ur die Varianz der Summe von Zufallsgr¨oßen ergibt sich nunmehr var (Xi ± Xj ) = var Xi + var Xj ± 2cov(Xi , Xj ),
(6.23)
und f¨ ur unkorrelierte Xi und Xj gilt var (Xi ± Xj ) = var Xi + var Xj
(6.24)
Beweis von (6.23). var (Xi ± Xj )
= E((Xi − EXi ) ± (Xj − EXj ))2 = E((Xi − EXi )2 + (Xj − EXj )2 ± 2(Xi − EXi )(Xj − EXj )) = var Xi + var Xj ± 2cov(Xi , Xj ).
F¨ ur den d-dimensionalen Vektor X ist (cov(Xi , Xj ))d×d = ΣX
(6.25)
(%(Xi , Xj ))d×d = RX
(6.26)
sogenannte Kovarianzmatrix und sogenannte Korrelationsmatrix . ΣX und RX sind symmetrisch und positiv semidefinit.
6.4. ERWARTUNGSWERT, KOVARIANZ, KORRELATION
25
Nachweis: Es sei z der Spaltenvektor aus den Xi − EXi . Dann ist ΣX = E(zz T ). F¨ ur einen beliebigen d-Vektor t gilt tT ΣX t
= tT E(zz T )t = E(tT (zz T )t) = E((tT z)(z T t)) = E((tT z)2 ) !2 d X = E (ti (Xi − EXi )) ≥ 0. i=1
Hilbertraum der Zufallsgr¨ oßen 2. Ordnung. Zufallsgr¨oßen, deren ersten beide Momente existieren, heißen Zufallsgr¨ oßen 2. Ordnung. Wenn Xi und Xj zwei Zufallsgr¨oßen zweiter Ordnung sind, dann ist durch hXi , Xj i = EXi Xj (6.27) ein Skalarprodukt definiert. So entsteht ein Hilbertraum mit dem in (6.27) definierten Skalarprodukt. Es gilt die Cauchy-Schwarzsche Ungleichung: |EXi Xj |2 ≤ |EXi2 | · |EXj2 |
(6.28)
Wegen Z hXi , Xj i =
Xi (ω)Xj (ω) P (dω)
(6.29)
Ω
wird der Raum auch als L2 (Ω, A, P ) bezeichnet. Interpretation des Korrelationskoeffizienten: %(Xi , Xj ) misst den Grad der linearen Abh¨angigkeit zwischen Xi und Xj : Ist % > 0, dann besteht die Tendenz, dass bei großen Werten von Xi auch Xj groß ist, ist % < 0, dann treten bei großen Xi tendenziell kleine Xj auf. Eigenschaften des Korrelationskoeffizienten: 1. |%(Xi , Xj )| ≤ 1 2. Sind Xi und Xj unabh¨ angig, dann ist %(Xi , Xj ) = 0 (Xi und Xj sind unkorreliert) 3. Gilt Xk0 = ak Xk + bk f¨ ur k = i und j, so folgt %(Xi0 , Xj0 ) = %(Xi , Xj ). f.s.
4. |%(Xi , Xj )| = 1 ⇔ Xi = aXj + b Beweise. 1. folgt sofort aus der Schwarzschen Ungleichung 2. folgt aus (6.20) und (6.21) 3. Einfaches Ausrechnen 4. ⇐“: ergibt sich unmittelbar durch Einsetzen ” X −EXj √i −EXi , X 0 := √j ⇒“: Es sei %(Xi , Xj ) = +1, Xi0 := X ; es ist also EXi0 = EXj0 = 0, j var Xi var Xj ” var Xi0 = var Xj0 = 1. Es folgt: var (Xi0 − Xj0 ) f.s.
= 1 + 1 − 2cov(Xi0 , Xj0 ) = 2(1 − EXi0 Xj0 ) = 2(1 − %(Xi , Xj )) = 0 f.s.
Daraus folgt, dass Xi0 − Xj0 = 0, also Xi = aXj + b Als Folgerung aus (6.23) ergibt sich: Xi , Xj sind unkorreliert genau dann, wenn var (Xi + Xj ) = var Xi + var Xj . Sind die Komponenten des Vektors X alle unkorreliert, dann ist ΣX eine Diagonal- und RX eine Einheitsmatrix.
26
6.5 6.5.1
¨ ¨ ¨ KAPITEL 6. ZUFALLIGE VEKTOREN, UNABHANGIGE ZUFALLSGROSSEN
Beispiele fu alliger Vektoren ¨ r Verteilungen zuf¨ Gleichverteilung auf G ∈ Rd
Die Dichtefunktion hat die Form: fX (x) =
1G (x) , νd (G)
x ∈ Rd
Speziell f¨ ur G = [0, 1]d ergibt sich die Dichtefunktion 1, x ∈ [0, 1]d fX (x) = . 0, sonst d
Es gilt dann Xi = U mit U = glm[0, 1]. Die Xi sind hier iid.
6.5.2
n-dimensionale Normalverteilung
Vorerst ein paar Worte zur n-dimensionalen Standard-Normalverteilung. Dort sind die Komponenten Zi des Zufallsvektors Z unabh¨angig und N(0, 1)-verteilt. F¨ ur die Dichte-Funktion gilt ) ( n 1X 2 1 z (6.30) f (z1 , . . . , zn ) = ϕ(z1 ) · . . . · ϕ(zn ) = √ n exp − 2 i=1 i 2π wobei die zi beliebige reelle Zahlen sind. Doch nun zur allgemeinen mehrdimensionalen Normalverteilung. Eine regul¨are mehrdimensionale Normalverteilung ist eine absolutstetige Verteilung mit der Dichtefunktion 1 1 exp − (x − µ)T Σ−1 (x − µ) (6.31) fX (xi , . . . , xn ) = p 2 (2π)n det Σ wobei µ = (µ1 , . . . , µn )T , x = (x1 , . . . , xn )T und Σ eine positiv definite (n × n)-Matrix. Mit X = AZ + µ, wobei Z n-dimensional standard-normalverteilt ist und A eine n × n-Matrix mit det A 6= 0 sowie Σ = AAT erh¨ alt man (6.31) aus (6.30). Symbolisch wird dies ausgedr¨ uckt durch: X ∼ N(µ, Σ)
(6.32)
Die H¨ohenlinien“ der Dichte sind Ellipsen, deren Hauptachsen durch die Eigenwerte und Eigen” vektoren von Σ, der Kovarianzmatrix, bestimmt sind. Es gilt: EX = µ
(6.33)
Sind die Komponenten von X unkorreliert, so ist Σ eine Diagonalmatrix mit den Werten σ12 , . . . σn2 in der Hauptdiagonalen, wobei σk2 = var Xk . Die Dichte l¨asst sich in diesem Fall auch darstellen als: 2 ! n 1 1 X xi − µi fX (x) = s exp − 2 i=1 σi n Q (2π)n σi2 i=1
n Y
1
1 p = exp − 2 2 2πσi i=1
xi − µi σi
2 ! =
n Y i=1
fXi (xi )
¨ VERTEILUNGEN ZUFALLIGER ¨ 6.5. BEISPIELE FUR VEKTOREN
27
Aus (6.14) ergibt sich, dass die Komponenten unabh¨angig sind. Ist also X ∼ N(µ, Σ), so gilt: ⇐⇒
Komponenten unabh¨angig
Komponenten unkorreliert
(6.34)
Die Randverteilungen einer mehrdimensionalen Normalverteilung sind wieder Normalverteilungen: X ∼ N(µ, Σ)
⇒
Xi ∼ N(µi , σi2 )
Setzt sich der normalverteilte Vektor X aus zwei Vektoren zusammen, d.h., X1 Σ11 Σ21 µ1 X= , Σ= , µ= , X2 Σ21 Σ22 µ2 dann ist auch X1 normalverteilt:
X1 ∼ N(µ1 , Σ11 )
(6.35)
Lineare Transformationen von normalverteilten Zufallsgr¨oßen liefern wieder normalverteilte Zufallsgr¨oßen. Zu jeder positiv definiten symmetrischen Matrix Σ existiert eine absolutstetige Normalverteilung N(µ, Σ). Ist Σ symmetrisch und positiv semidefinit, aber nicht positiv definit, dann existiert zwar ein Zufallsvektor X mit normalverteilten Komponenten Xi und Kovarianzmatrix Σ, die Verteilung von X ist aber nicht absolutstetig bez¨ uglich νn , der sogenannte irregul¨are Fall. Dieser Fall tritt genau dann auf, wenn lineare Abh¨angigkeiten zwischen den Komponenten X1 ,. . . ,Xn bestehen. F¨ ur den Spezialfall einer zweidimensionalen Normalverteilung ergibt sich
fX (x1 , x2 )
=
( 2 x1 − µ1 1 1 p exp − 2(1 − %)2 σ1 2πσ1 σ2 1 − %2 2 !) x2 − µ2 x1 − µ1 x2 − µ2 + −2% , σ1 σ2 σ2
(6.36)
wobei % = %(X1 , X2 ) und Σ=
σ12 %σ1 σ2
%σ1 σ2 σ22
.
Will man im zweidimensionalen Fall normalverteilte Zufallsvektoren erzeugen, so kann man den log-tri-Algorithmus verwenden. Daf¨ ur verwendet man zwei gleichverteilte Zufallszahlen u1 und u2 aus dem Intervall [0, 1] und σ1 , σ2 und µ1 , µ2 und % wie oben. Die gesuchten Komponenten x1 und x2 k¨onnen dann wie folgt berechnet werden: p p x1 = µ1 + σ1 −2 ln u1 ( 1 − %2 cos(2πu2 ) + % sin(2πu2 )) p x2 = µ2 + σ2 −2 ln u1 sin(2πu2 )
28
6.5.3
¨ ¨ ¨ KAPITEL 6. ZUFALLIGE VEKTOREN, UNABHANGIGE ZUFALLSGROSSEN
Gibbs-Verteilung
Die Gibbs-Verteilung hat die Dichte-Funktion f (x1 , . . . , xn ) = exp{−U (x1 , . . . , xn )}C mit (x1 , . . . , xn ) ∈ B ⊂ Rn . U hat die Form U (x1 , . . . , xn ) =
X
Θ(|xi − xj |),
i<j
wobei Θ eine Paarpotential-Funktion ist. Beispielsweise k¨onnte ∞ t
6.5.4
Bayes-a-posteriori-Verteilung
Laut Bayesscher Formel gilt: P (A | Bi )P (Bi ) P (Bi | A) = P P (A | Bj )P (Bj ) (j)
Die absolutstetige Version dazu lautet dann: f (x | A) = R
P (A | x)f (x) = P (A | x)f (x)C P (A | y)f (y) dy
Wieder tritt das Problem der Bestimmung von C auf.
29
Kapitel 7
Bedingte Verteilungen, bedingte Erwartung 7.1
Einfu ¨ hrung
Bevor wir uns diesem Thema zuwenden, hier zwei einf¨ uhrende Beispiele: 1. (X, Y ) bezeichne den Zufallsvektor (Gr¨oße, Gewicht) eines zuf¨allig ausgew¨ahlten Menschen. Da es sich um absolutstetige Zufallsgr¨oßen handelt, ist P (X = x) = 0. Oft interessieren wir uns f¨ ur bedingte Wahrscheinlichkeiten wie P (Y < y | X = x) oder z. B. f¨ ur eine Gewichtstabelle am W¨ ageautomaten E(Y | X = x). Die bisherigen Formeln helfen uns nicht viel, da hier nach der Formel der einfachen bedingten Wahrscheinlichkeit durch Null geteilt wird. 2. Bei einem W¨ urfel ist Ω = {1, . . . , 6}, die σ-Algebra A ist die Potenzmenge P(Ω). F¨ ur die Zufallsgr¨ oße X gelte X(ω) = ω. Nun werden die beiden Seiten mit den Werten 1 und 6 zugeklebt und rot angemalt. Damit werden die Beobachtungen vergr¨obert. Zu diesem Versuch geh¨ ort nur noch eine kleinere σ-Algebra C. Diese enth¨alt zwar {1, 6} als Element, aber nicht {1} und {6}. Genauer gesagt gilt C = σ({2}, {3}, {4}, {5}, {1, 6}). Was wird nun aus X? X ist ja nun nicht mehr bez¨ uglich C messbar, denn das Urbild von 1 existiert ja nicht mehr. Es wird also eine vern¨ unftige“ Zufallsgr¨oße Augenzahl“ f¨ ur das ” ” vereinfachte Experiment gesucht. Wir f¨ uhren also ein: E(X | C)(ω) = X(ω), f¨ ur ω = 2, 3, 4, 5 E(X | C)(ω) = const., f¨ ur ω = 1, 6 1+6 = = 3.5. 2 W¨ urden wir nun alle Seiten zukleben, dann erg¨abe sich die σ-Algebra C0 = {∅, Ω}. Dann w¨ urden wir verwenden: E(X | C0 )(ω) = const. = 3.5 Daraus sieht man, dass einer Vergr¨oberung der σ-Algebra eine Vergr¨oberung von X entspricht, bei der sich die Varianz bei gleichbleibendem Erwartungswert verringert.
30
7.2
KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG
Bedingte Gr¨ oßen bezu ¨ glich B ∈ A mit P (B) > 0
Ausgangspunkt ist die in Kapitel 4 definierte bedingte Wahrscheinlichkeit P (A | B) =
P (A ∩ B) P (B)
PB (·) = P (· | B) ist dann ein Wahrscheinlichkeitsmaß. Wir betrachten nun die Transformation von dem Wahrscheinlichkeitsraum (Ω, A, P ) in den Raum (Ω, A, PB ). Sei B ∈ A mit P (B) > 0 ein Ereignis, X : Ω → R1 eine Zufallsgr¨oße, PX | B das Bildmaß von PB bei X. Dann ist PB (dω) =
P (dω) 1B (ω), P (B)
und die bedingte Verteilung ist definiert durch: PX | B (A) = P (X ∈ A | B) =
P ({X(ω) ∈ A} ∩ B) P (B)
(7.1)
F¨ ur die zugeh¨ orige bedingte Verteilungsfunktion gilt dann: FX | B (x) = P (X < x | B)
(7.2)
Falls PX | B absolutstetig ist, gilt Z
1 fX (t) dt = P (B)
FX | B (x) =
Zx
1 fX (t)1X(B) (t) dt, P (B)
−∞
(−∞,x)∩X(B)
also ist durch fX | B (x) =
1 fX (x)1X(B) (x) P (B)
(7.3)
die bedingte Dichte gegeben. Beispiel.(Zweiseitige Stutzung) Sei B = X −1 ([a, b]) = {ω ∈ Ω : a ≤ X(ω) ≤ b}. Dann sind X(B) = [a, b] und P (B) = FX (b) − FX (a). Die bedingte Dichte fX (x)1[a,b] (x) (7.4) fX | B (x) = FX (b) − FX (a) heißt dann die Dichte der bei a und b gestutzten Verteilung von X. Bedingter Erwartungswert E(X | B) unter der Hypothese B: R R X(ω)1B (ω) P (dω) X(ω) P (dω) Z E(X; B) E(X | B) = X(ω) PB (dω) = Ω (7.5) =B = P (B) P (B) P (B) Ω
oder: Z∞ E(X | B)
=
x dFX | B (x) −∞
=
1 P (B)
Z X(B)
X 1 xi (P (X = xi ) P (B) x ∈X(B) iZ x dFX (x) = 1 xfX (x) dx P (B) X(B)
(7.6)
7.3. VERTEILUNG VON X UNTER DER BEDINGUNG Y = Y
31
Bei der zweiseitigen Stutzung ergibt sich: Rb E(X | a ≤ X ≤ b) =
7.3
xfX (x) dx
a
F (b) − F (a)
Verteilung von X unter der Bedingung Y = y
Zun¨achst wird der diskrete Fall betrachtet. X nehme die Werte x1 , x2 , . . . und Y die Werte y1 , y2 , . . . an, P (Y = yi ) = pi > 0. Dann ist P (X = xi , Y = yj )
= pij ,
i, j = 1, 2, . . .
die gemeinsame Verteilung von (X, Y ) (siehe (6.9)). Dann ist P (X = xi | Y = yj ) = pi|j =
pij p·j
(7.7)
die Verteilung von X unter der Bedingung Y = yj , entsprechend pij P (Y = yj | X = xi ) = pj|i = pi· die Verteilung von Y unter der Bedingung X = xi . Es ergeben sich die bedingten Erwartungswerte E(X | Y = yj )
=
P
E(Y | X = xi )
=
P
1 X xi pij p·j i 1 X yj pij = pi· j
i xi pi|j =
j
yj pj|i
(7.8)
Betrachten wir nun den Fall, dass (X, Y ) absolutstetig mit der gemeinsamen Dichte f(X,Y ) ist. Wir suchen nun nach der bedingten Dichtefunktion fX | Y =y . Es gilt: Rx y+h R P (X < x | y ≤ Y ≤ y + h) =
−∞
f(X,Y ) (s, t) dt ds
y y+h R
fY (t) dt
y
Dann ist, falls fY (y) > 0 FX | Y =y (x)
=
=
lim P (X < x | y ≤ Y ≤ y + h)
h→0 Rx
f(X,Y ) (s, y) ds
−∞
(7.9)
fY (y)
die Verteilungsfunktion von X unter der Bedingung Y = y; die zugeh¨orige Dichtefunktion ist dann gegeben durch: f(X,Y ) (x, y) (7.10) fX | Y =y (x) = fY (y) Entsprechend ergeben sich FY sich:
| X=x
und fY
| X=x .
Als bedingter Erwartungswert mX (y) ergibt R∞
Z∞ mX (y) = E(X | Y = y)
=
xfX | Y =y (x) dx = −∞
xf(X,Y ) (x, y) dx
−∞
fY (y)
(7.11)
32
KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG
mX wird auch Regressionsfunktion 1. Art von X bez¨ uglich Y genannt. Entsprechend E(Y | X = x). Beispiel. Sei (X, Y ) normalverteilt (siehe (6.36)) mit 2 σX %σX σY Σ= . %σX σY σY2 Dann ist
(
σY (x − µX )]2 1 [y − µY − % σX exp − fY | X=x (y) = q 2 (1 − %2 )σY2 2π(1 − %2 )%2y
1
) ,
(7.12)
Y die Dichte der bedingten Verteilung ist also die Dichte der Verteilung N(µY + % σσX (x − µX ), (1 − 2 2 % )σY ). F¨ ur den bedingten Erwartungswert ergibt sich: σY E(Y | X = x) = µY + % (x − µX ) (7.13) σX
Die Regressionsfunktion von Y bez¨ uglich X ist also eine Gerade, was ein Charakteristikum der Normalverteilung ist. Die Gerade ist steigend, falls % > 0 bzw. fallend, falls % < 0.
7.4
Allgemeiner Begriff der bedingten Erwartung Der Erwartungswert ist wichtiger als die Wahrscheinlichkeit.“ ”
Denn es gilt: P (A) P (A | Y = y)
= E1A = E(1A | Y = y) =
X
1A (j)pj|i =
(j)
X
pj|i
j∈A
Offensichtlich ist E(X | Y = y) eine Funktion von y. Das f¨ uhrt zu der Einf¨ uhrung der Zufallsgr¨oße E(X | Y )(ω)
= E(X | Y = y)
f¨ ur alle ω mit Y (ω) = y. Mit der Messbarkeit von E(X | Y ) bzgl. σ(Y ) h¨angt die Bezeichnung E(X | σ(Y )) zusammen. Im Trivialfall ist E(X | X = x) = x und E(X | X) = X. Beispiel. Sei X die Augenzahl eines W¨ urfels. Y beschreibe folgendes Ereignis: g, gerade Y = u, ungerade Klassisch ermittelt sich der bedingte Erwartungswert auf die folgende Weise: X E(X | Y = g) = jpj|g j=1
=
2p2|g + 4p4|g + 6p6|g 1 = (2 + 4 + 6) · = 4 3 Analog berechnet sich auch E(X | Y = u) = 3. Dem entspricht die Zufallsgr¨oße: 3, ω ∈ {1, 3, 5}, d.h., wenn Y = u E(X | Y )(ω) = 4, ω ∈ {2, 4, 6}, d.h., wenn Y = g Es sei (Ω, A, P ) ein Wahrscheinlichkeitsraum, X : Ω → R eine Zufallsgr¨oße mit E|X| < ∞ (% Maßtheorie), C ⊂ A sei Unter-σ-Algebra von A. Nun wird eine zu C passende Vergr¨oberung der Zufallsgr¨oße X gesucht. Diese Zufallsgr¨ oße E(X | C) heißt bedingte Erwartung und hat zwei wichtige Eigenschaften:
7.4. ALLGEMEINER BEGRIFF DER BEDINGTEN ERWARTUNG
33
1. E(X | C) ist messbar bez¨ uglich C. ( Vergr¨oberung“) ” 2. F¨ ur alle C aus C gilt E(X; C) = E(E(X | C); C). ( beide Gr¨ oßen sind im Mittel gleich“) ” F¨ ur das W¨ urfelbeispiel gilt C = σ({1, 3, 5}, {2, 4, 6}). F¨ ur C = {1, 3, 5} gilt E(X; C)
=
1·
1 1 1 + 3 · + 5 · = 1.5, 6 6 6
also ist E(X | C)(ω) = 3 f¨ ur ω = 1, 3 und 5. Beispiel. (Vergr¨ oberte Exponentialverteilung) ur die mit beliebigen a 6= b gem¨aß Es sei X ∼ Exp(λ), dann ist der Median x0.5 = lnλ2 . F¨ a X(ω) ≤ x0.5 Y (ω) = b sonst definierte Zufallsgr¨ oße Y gilt dann P (Y = a) = P (Y = b) = 21 . Die von Y erzeugte σ-Alebra ist C = {∅, A, AC , Ω} mit A = {ω : X(ω) < x0.5 }. E(X | Y ) = E(X | C) ist auf A bzw. AC jeweils konstant, wie auch Y . Aber wie lauten die entsprechenden Werte cA bzw. cAC ? Z E(X; A)
=
x0.5 x0.5 Z Z X(ω) P (dω) = x dF (x) = xλe−λx dx 0
A
0
x0.5 1 e−λx = 1 − e−λx0.5 (1 + λx0.5 ) = λ 2 · (−λx − 1) λ λ 0 1 1 − ln 2 0.1534 1 1 − ln 2 1−e (1 + ln 2) = = = 1 − (1 + ln 2) = λ λ 2 2λ λ Durch E(E(X | C); A) = P (A) · cA erh¨ alt man cA = 1.6932 dann auch cAC = . λ Kontrolle mittels (7.6):
0.3068 1 , mit P (A) · cA + P (AC ) · cAC = EX = λ λ
E(X | Y = a) = E(X | X < x0.5 ) = 2 ·
x0.5 Z λe−λx dx = cA 0
Satz 7.1 Es sei X eine nichtnegative bzw. integrierbare Zufallsgr¨ oße auf (Ω, A, P ). C sei eine beliebige Teil-σ-Algebra von A. Dann existiert bis auf fast sichere Gleichheit eine C-messbare Zufallsgr¨ oße XC mit E(X; C) = E(XC ; C), C∈C (7.14) bzw.
Z
Z X(ω) P (dω) =
C
XC (ω) P (dω) C
XC ist fast sicher nichtnegativ bzw. integrierbar und wird bedingte Erwartung von X bez¨ uglich C genannt: XC = E(X | C)
34
KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG
Beweis f¨ ur X ≥ 0. Es wird der Satz von Radon-Nikodym verwendet, der besagt, dass f¨ ur ein σ-finites Maß µ und ein Maß ν mit ν µ eine Dichtefunktion f existiert mit Z ν(C) = f (ω) µ(dω), C ∈ C C
Wenn wir das jetzt auf unser Problem beziehen, sei PC die Einschr¨ankung von P auf C. Ferner sei Z Q(C) = X(ω) P (dω) = E(X; C). C
Um die Analogie zum obigen Formalismus herzustellen, identifizieren wir ν mit Q und µ mit PC . Die σ-Finitheit ist gegeben, da P ein Wahrscheinlichkeitsmaß ist. Nat¨ urlich ist Q PC , da aus PC (C) = P (C) = 0 Z X(ω) P (dω) = 0 C
folgt. Also existiert eine C-messbare nichtnegative Funktion XC mit Z Z Z X(ω) P (dω) = Q(C) = XC (ω) PC (dω) = XC (ω) P (dω), C
C
C
da XC C-messbar ist. XC ist P -fast-eindeutig: ¯ C eine andere Zufallsgr¨ Wenn X oße w¨ are, die der Bedingung ebenfalls gen¨ ugt, so muss gelten: ¯ C ) = 1, PC (XC = X ¯ C } ∈ C folgt P (XC = X ¯ C ) = 1. und weil {XC = X Die Fortsetzung des Beweises findet sich in [6] auf den Seiten 118 ff.
Bemerkungen 1. E(X | C) ist nur P -fast-sicher bestimmt. 2. Die Berechnung von E(X | C) ist oft schwierig. ( Differenzieren ist nicht immer leichter als ” Integrieren.“) 3. X → E(X | C) ist eine Gl¨ attung oder Mittelung (siehe Beispiele). 4. Zwei Extremf¨ alle: • E(X | A) = X fast sicher. • C = {∅, Ω} ⇒ E(X | C) = EX fast sicher. Fakten • Es gilt die Formel des totalen Erwartungswertes: E(E(X | C)) = EX.
(7.15)
(In (7.14) setzen wir C = Ω.) • Ist Z C-messbar, so gilt E(ZX | C) = ZE(X | C). • Es gilt E(|E(X | C)|p ) ≤ E|X|p f¨ ur p ≥ 1. Damit gilt auch: var (E(X | C)) ≤ var X
(7.16)
7.4. ALLGEMEINER BEGRIFF DER BEDINGTEN ERWARTUNG
35
• Wir betrachten nun L2(Ω,A,P ) , also Zufallsgr¨oßen mit EX 2 < ∞ (% Maßtheorie Abschnitt 11.2). Hier gilt: Alle X, die messbar bez¨ uglich C sind, bilden einen linearen Teilraum von L2 . • Im Spezialfall C = σ(Y ) schreibt man E(X | C) = E(X | Y ) • Es gilt E(X | X) = X fast sicher. • Es gilt E(X | Y ) = f (Y ).
(7.17)
Daraus ergibt sich ein Rezept zur Berechnung von E(X | Y ): Berechne f (y) = E(X | Y = y) mittels elementarer Stochastik. Setze dann E(X | Y ) = f (Y ). Wenn z. B. E(X + Y | Y ) f¨ ur unabh¨ angige X und Y gesucht ist, dann ergibt sich: E(X + Y | Y = y)
= E(X | Y = y) + E(Y | Y = y) = EX + y = f (y)
Also E(X + Y | Y ) = EX + Y . Bei stochastischen Prozessen (z. B. Martingalen) beschreibt C = σ(X1 , . . . , Xn ) die kleinste σ-Algebra, bez¨ uglich der X1 , . . . , Xn messbar sind. Interpretiert werden kann das auch wie folgt: E(Xn+1 | X1 , . . . , Xn ) ist gesucht, wobei die X1 , . . . , Xn die Vergangenheit“ darstellen. ” Bemerkungen • Wenn X und Y diskret sind, dann hat die Zufallsgr¨oße E(X | Y ) gerade die bedingten Erwartungswerte E(X | Y = y) aus (7.8) als m¨ogliche Realisierungen. Der Erwartungswert des bedingten Erwartungswertes E(X | Y ) ist nach (7.15) gleich EX: X E(E(X | Y )) = E(X | Y = yj )p·j = EX j
• Wenn X und Y absolutstetig sind, dann sind die E(X | Y = y) aus (7.11) die m¨oglichen Werte der Zufallsgr¨ oße E(X | Y ). Aus (7.15) folgt wiederum: Z∞ E(E(X | Y )) =
E(X | Y = y)fY (y) dy = EX −∞
• Sei A ∈ A und X(ω) = 1A (ω). Dann schreibt man E(X | C)(ω) = P (A | C)(ω)
(7.18)
und mit (7.14) ergibt sich f¨ ur alle B ∈ C Z P (A ∩ B) =
P (A | C)(ω) P (dω)
(7.19)
B
Speziell f¨ ur B = Ω ergibt sich Z P (A) =
P (A | C)(ω) P (dω),
Ω
die Formel der totalen Wahrscheinlichkeit.
(7.20)
36
KAPITEL 7. BEDINGTE VERTEILUNGEN, BEDINGTE ERWARTUNG
Sei Bi (i = 1, . . . , n) eine Folge von paarweise disjunkten Teilmengen aus Ω mit P (Bi ) > 0 und C = σ(B1 , . . . , Bn ) die von den Bi erzeugte σ-Algebra. Aus der C-Messbarkeit von E(X | C) folgt, dass E(X | C) konstant auf den Bi ist, spezieller: E(X | C)(ω) = E(X | Bi )
f¨ ur ω ∈ Bi
Dies ergibt sich aus E(X | C)(ω)
Z =
X(ω) P (dω) Bi
1 = E(X | Bi ) P (Bi )
(7.21)
37
Kapitel 8
Funktionen von Zufallsvektoren, Faltung 8.1
Funktionen von zuf¨ alligen Vektoren
Es sei X ein zuf¨ alliger Vektor auf (Ω, A, P ), g : Rd → Rd sei Borel-messbar, dann ist Y = g(X) ein zuf¨alliger Vektor auf demselben Wahrscheinlichkeitsraum mit PY (B) = PX (g −1 (B))
(8.1)
f¨ ur alle Borelmengen B. Es sei nun X absolutstetig mit der Dichte fX , g sei eineindeutig, g −1 = h sei die Umkehrabbildung, d.h. X = h(Y ) = (h1 (Y ), . . . , hd (Y )). Dann gilt: Z P (X ∈ A)
=
fX (x1 , . . . , xd ) dx1 . . . dxd A
Z =
fX (h(y))|J| dy1 . . . dyd g(A)
= P (Y ∈ g(A)).
(8.2)
Es gilt also fY (y) = |J|fX (h(y))
(8.3)
Hierbei ist J = det
∂hi (y) ∂yj
!
i,j=1,...,d
die sogenannte Jacobische Funktionaldeterminante. Beispiel. Seien X1 , X2 unabh¨ angig und gleichverteilt auf [0, 1]. Dann sind Y1 und Y2 mit Y1 Y2 unabh¨angig N(0, 1) verteilt.
√ = √−2 ln X1 sin 2πX2 = −2 ln X1 cos 2πX2
(8.4)
38
KAPITEL 8. FUNKTIONEN VON ZUFALLSVEKTOREN, FALTUNG
Anwendung von (8.3) auf X = (X1 , X2 )T mit der Dichte fX (x1 , x2 ) liefert: fX1 +X2 (z) fX1 −X2 (z) fX1 X2 (z) fX1 /X2 (z)
= = = =
R∞ −∞ R∞ −∞ R∞ −∞ R∞
fX1 ,X2 (x, z − x) dx
falls X1 ,X2 = unabh¨ angig
fX1 ,X2 (x, x − z) dx
=
1 z |x| fX1 ,X2 (x, x ) dx
=
|x|fX1 ,X2 (xz, x) dx
=
R∞ −∞ R∞ −∞ R∞ −∞ R∞
−∞
fX1 (x)fX2 (z − x) dx fX1 (x)fX2 (x − z) dx (8.5) z 1 |x| fX1 (x)fX2 ( x ) dx
|x|fX1 (xz)fX2 (x) dx
−∞
Beweis. Es werden nur die Aussagen u ¨ber die Addition und das Produkt von Zufallsgr¨oßen bewiesen. 1. Addition. Sei
g(x1 , x2 ) = Y1 = g1 (X1 , X2 ) = X1 Y2 = g2 (X1 , X2 ) = X1 + X2
x1 x1 + x2
X1 = h1 (Y1 , Y2 ) = Y1 X2 = h2 (Y1 , Y2 ) = Y2 − Y1
Es ergibt sich die Jacobi-Determinante 1 J = −1
0 =1 1
Damit folgt = fX1 ,X2 (y1 , y2 − y1 ) Z fY2 (z) = fX1 ,X2 (x, z − x) dx
fY1 ,Y2 (y1 , y2 )
2. Produkt. Sei
g(x1 , x2 ) = Y1 = g1 (X1 , X2 ) = X1 Y2 = g2 (X1 , X2 ) = X1 X2
Es ergibt sich die Jacobi-Determinante 1 J = y2 − y2 1
x1 x1 x2
X1 = h1 (Y1 , Y2 ) = Y1 Y2 X2 = h2 (Y1 , Y2 ) = Y1
0 1 y1
= 1 y1
Damit folgt 1 y2 fY1 ,Y2 (y1 , y2 ) = fX ,X y1 , |y1 | 1 2 y1 Z z 1 fY2 (z) = fX ,X x, dx |x| 1 2 x
¨ 8.1. FUNKTIONEN VON ZUFALLIGEN VEKTOREN Verteilung Normal Bernoulli Binomial Poisson Exponential Gamma Gleichm¨ aßig
Parameter µ1 , σ12 , µ2 , σ22 p n1 , p, n2 , p λ1 , λ2 λ, λ p1 , λ, p2 , λ [0, 1], [0, 1]
Summenverteilung Normal Binomial Binomial Poisson Gamma Gamma Dreieck
39 Parameter µ1 + µ2 , σ12 + σ22 2, p n1 + n 2 , p λ 1 + λ2 2, λ p 1 + p2 , λ [0, 2]
Tabelle 8.1: Verteilungen von Summen unabh¨angiger Zufallsgr¨oßen Die Operation
Z∞ fX1 (x)fX2 (z − x) dx
fX1 ∗ fX2 = fX1 +X2 =
(8.6)
−∞
wird als Faltung bezeichnet. Beispiele. Tabelle 8.1 zeigt einige Verteilungen von Summen unabh¨angiger Zufallsgr¨oßen. Der Beweis dieser Aussagen ergibt sich mit Hilfe des Faltungsintegrals (8.6) bzw. dem diskreten Analogon X P (X1 + X2 = k) = P (X1 = i)P (X2 = k − i) (8.7) i
bzw. leichter mit charakteristischen Funktionen (siehe n¨achstes Kapitel). Normalverteilung, Poissonverteilung und Binomialverteilung heißen auf Grund der Gleichungen in Tabelle 8.1 faltungsstabil. Die Formeln (8.5) lassen sich auch direkt erhalten, z.B. Z FX1 +X2 (y) = P (X1 + X2 < y) =
fX1 ,X2 (x1 , x2 ) dx1 dx2
x1 +x2
oder heuristisch Z∞ P (X1 + X2 < y)
P (X2 < y − x)
= −∞
fX1 (x) dx | {z }
P (X1 ∈(x,x+dx))
Z∞ FX2 (y − x)fX1 (x) dx,
= −∞
was auf Z∞ fX1 +X2 (y)
fX1 (x)fX2 (y − x) dx
= −∞
und fX1 +X2
= fX1 ∗ fX2
f¨ uhrt. Speziell f¨ ur die allgemeine zweidimensionale Normalverteilung von (X1 , X2 ) ergibt sich: X1 + X2 ∼ N(µ1 + µ2 , σ12 + σ22 + 2σ1 σ2 %). Ein wichtiges Problem der Statistik ist die Entfaltung“. Dabei sind f¨ ur Y = X1 + X2 die Daten ” von Y und die Verteilung von X1 bekannt, und X2 ist gesucht. Das ist ein typisches inverses Problem.
40
KAPITEL 8. FUNKTIONEN VON ZUFALLSVEKTOREN, FALTUNG
41
Kapitel 9
Pru ¨ fverteilungen der Statistik: χ2, t und F Wir betrachten hier eine mathematische Stichprobe vom Umfang n (vgl. S.67) aus einer N(µ, σ 2 )Grundgesamtheit. Der Stichprobenmittelwert und die Stichprobenstreuung sind definiert als n
X ¯= 1 X Xi n i=1
n
und S 2 =
1 X ¯ 2. (Xi − X) n − 1 i=1
Es gilt 2 ¯ ∼ N µ, σ X . n
9.1
χ2 -Verteilung mit n Freiheitsgraden
Es seien die Zufallsgr¨ oßen Xi ∼ N(0, 1) stochastisch unabh¨angig. Dann ist die positive Zufallsgr¨oße X 2 = X12 + . . . + Xn2 ∼ χ2n χ2 -verteilt mit n Freiheitsgraden. Um die Dichtefunktion fX 2 (x) zu erhalten, betrachten wir zuerst den Fall n = 1: √ √ √ √ P (X12 < x) = P (− x < X1 < x) = FX1 ( x) − FX1 (− x) Also gilt f¨ ur die Dichtefunktion √ √ 1 fX12 (x) = √ (fX1 ( x) + fX1 (− x)), 2 x woraus folgt: 1
x x− 2 fX12 (x) = √ e− 2 1[0,∞) (x). 2π
Das ist die Dichte der Γ-Verteilung mit p = 21 und λ = 12 . Nach dem Additionstheorem f¨ ur diese Verteilung ist X 2 ebenfalls Γ-verteilt, mit den Parametern p = n2 und λ = 12 . F¨ ur die Dichtefunktion gilt dann: fX 2 (x) = fχ2n (x) =
n x 1 x 2 −1 e− 2 1[0,∞) (x) n 2 2 Γ( n2 )
(9.1)
¨ KAPITEL 9. PRUFVERTEILUNGEN DER STATISTIK
42
Die zugeh¨ orige Verteilung heißt χ2 -Verteilung mit n Freiheitsgraden. Falls nun Xi = N(0, σ 2 ) verteilt ist, hat Xi2 eine Γ-Verteilung mit p = l¨asst sich ableiten, dass n X Y = Xi2 = X 2
1 2
und λ =
1 2σ 2 .
Daraus
i=1
Γ-verteilt mit den Parametern p =
n 2
und λ =
1 2σ 2
ist.
¯ und S 2 unabh¨ Satz 9.1 Genau dann, wenn Xi ∼ N(µ, σ 2 ) ist, sind X angig. Zum Beweis sei auf [13] verwiesen.
9.2
Verteilung von S 2
Es gilt
n−1 2 S ∼ χ2n−1 σ2
(9.2)
wegen (n − 1)S 2 =
n X
¯ 2. (Xi − X)
i=1
Es handelt sich um die Summe aus n Zufallsgr¨oßen, wobei die Bindung ¯= nX
n X
Xi
i=1
besteht. Daher spricht man von n − 1 Freiheitsgraden. Es gilt weiterhin: ES 2 var S 2
= σ2 =
2 σ4 n−1
Diese Tatsachen lassen sich auf die allgemein (d. h. ohne Normalverteilungs-Annahme) g¨ ultigen Aussagen ES 2 var S 2 zur¨ uckf¨ uhren.
9.3
=
var X1 1 n−3 4 2 = E(X1 − EX1 ) − (var X1 ) n n−1
1
t-Verteilung mit n Freiheitsgraden
Wenn zwei Zufallsgr¨ oßen X ∼ N(0, 1) und Y ∼ χ2n unabh¨angig sind, dann gilt: X q ∼ tn Y n
Die zugeh¨ orige Verteilung wird Studentsche t-Verteilung mit n Freiheitsgraden genannt. Als wichtige Anwendung gilt: ¯ −µ X ∼ tn−1 . (9.3) T = S √
1 Zum
Beweis siehe [8], Seite 177.
n
9.4. F -VERTEILUNG
43
Diese Verteilung wurde von Gosset, der unter dem Pseudonym Student“ ver¨offentlichte, 1908 ” publiziert. Die Dichtefunktion von tn ist n+1 − n+1 Γ 2 x2 2 fn (x) = n √ 1+ . n Γ πn 2 Die t-Verteilung n¨ ahert sich f¨ ur große n der Normalverteilung an. Deswegen kann man f¨ ur n ≥ 30 die Quantile tn,α und zα miteinander identifizieren (Regel 30 = ∞“). ”
9.4
F -Verteilung
Definition: Es seien X ∼ χ2n1 , Y ∼ χ2n2 sowie X und Y stochastisch unabh¨angig. Dann heißt die Verteilung der Zufallsgr¨ oße X n2 X n1 = Y n 1 Y n 2
F -Verteilung mit (n1 , n2 ) Freiheitsgraden (R.A. Fisher 1912). Wenn S12 und S22 die Stichproben-Streuungen zweier unabh¨angiger Stichproben aus N(µ, σ 2 ) mit den Umf¨ angen n1 und n2 sind, dann ist der Quotient S12 ∼ Fn1 −1,n2 −1 S22 F -verteilt (Fishersche F -Verteilung mit (n1 , n2 ) Freiheitsgraden). F¨ ur weitere Informationen und Tabellen sei auf entsprechende Literatur verwiesen.
44
¨ KAPITEL 9. PRUFVERTEILUNGEN DER STATISTIK
45
Kapitel 10
Charakteristische Funktionen 10.1
Definition
Charakteristische Funktionen sind ein wichtiges Hilfsmittel der Stochastik. Sie vereinfachen viele Darstellungen und Beweise: Faltung, Momentenberechnung, Beweis von Grenzwerts¨atzen. Erstmals eingef¨ uhrt wurden sie von Lagrange, und sie gehen zur¨ uck auf Laplace und Fourier (LaplaceTransformation, Fourier-Transformation). Die charakteristische Funktion der Zufallsgr¨oße X wird eingef¨ uhrt als Erwartungswert der Zufallsgr¨oße eitX . Zun¨achst werden daher komplexwertige Zufallsgr¨oßen eingef¨ uhrt. Z = X + iY ist eine komplexwertige Zufallsgr¨oße auf (Ω, A, P ) genau dann, wenn X und Y reelle Zufallsgr¨ oßen auf (Ω, A, P ) sind. Der Erwartungswert wird erkl¨art durch EZ = EX + iEY , die Varianz durch var Z = E|Z − EZ|2 . Zwei Zufallsgr¨oßen Z1 = X1 + iY1 und Z2 = X2 + iY2 heißen unabh¨angig genau dann wenn (X1 , Y1 )T und (X2 , Y2 )T unabh¨angig sind. Dann gilt z.B.: EZ1 Z2 = EZ1 · EZ2
(10.1)
H¨aufig wird die bekannte Euler-Relation verwendet: eitX = cos tX + i sin tX
(10.2)
Definition 10.1 ϕX (t)
= EeitX , −∞ < t < ∞ Z = eitX(ω) P (dω)
(10.3)
Ω
Z =
itx
e
Z∞ PX (dx) =
eitx dFX (x)
(∗)
−∞
R1
∞ R eitx f (x) dx (∗∗) X = P itxk −∞ P (X = xk ) ke
(10.4)
heißt charakteristische Funktion der Zufallsgr¨ oße X (bzw. der Verteilungsfunktion FX ). (∗) heißt auch Fourier-Stieltjes-Transformierte von FX , (∗∗) heißt auch Fourier-Transformierte von fX . Wegen |ϕX (t)| ≤ E|eitX | = 1 bzw.
R∞
|eitx | dFX (x) =
−∞
Zufallsgr¨ oße X eine charakteristische Funktion.
R∞ −∞
1 dFX (x) = 1 < ∞ existiert zu jeder
46
KAPITEL 10. CHARAKTERISTISCHE FUNKTIONEN
In Tabelle 10.1 sind die charakteristischen Funktionen einiger wichtiger Verteilungen zusammengestellt. Verteilung Konstant Bernoulli Binomial
Parameter c p n, p
Geometrisch
p
Negativ binomial
charakteristische Funktion eitc 1 − p + peit (1 − p + peit )n peit it 1 − (1 it− p)e m pe 1 − (1 − p)eit it eλ(e −1)
m, p
Poisson
λ
t2
e− 2
Standard normal
2 t2
µ, σ 2
Normal Exponential
eµit−σ 2 λ λ − itα λ λ − it sin at at
λ
Gamma
α, λ
gleichm¨ aßig [−a, a]
a
Tabelle 10.1: Charakteristische Funktionen wichtiger Verteilungen
10.2
Elementare Eigenschaften
Eigenschaften der charakteristischen Funktion: ϕX (0) = 1, |ϕ(x)| ≤ 1,
ϕX (−t) = ϕX (t)
(10.5)
Beweis: Z∞ ϕX (0)
=
1 dFX (x) = 1 −∞ Z∞
|ϕX (t)|
≤
itx
|e
Z∞ | dFX (x) =
−∞
ϕX (−t)
i(−t)X
= Ee
1 dFX (x) = 1 −∞
−itX
= Ee
= Eeitx = ϕX (t)
Satz 10.1 ϕX ist gleichm¨ aßig stetig auf R1 . Beweis: Es gilt f¨ ur beliebiges h: |ϕX (t + h) − ϕ(t)| = E eitX eihX − 1 ≤ E eitX eihX − 1 = E eihX − 1 . | {z } =1
Aus h → 0 folgt E|eihX − 1| → 0 nach dem Lebesgue-Satz u ¨ber die majorisierte Konvergenz mit P -integrierbarem |eihX |, wobei f¨ ur alle ω eihX(ω) gegen 1 konvergiert. Die Majorante ist 2.
10.3. UMKEHR- UND EINDEUTIGKEITSSATZ
47
Bei der linearen Transformation Y = aX + b verh¨alt sich die charakteristische Funktion folgendermaßen ϕaX+b (t) = Eeit(aX+b) = eitb ϕX (at) (10.6) Sei X ∼ N(0, 1) und Y = σX + µ. Dann ergibt sich itµ
ϕN(µ,σ2 ) = ϕY (t) = e
σ 2 t2 ϕX (σt) = exp itµ − 2
(10.7)
Satz 10.2 (Faltungssatz) Es seien X1 und X2 unabh¨ angig. Dann gilt f¨ ur Z = X1 + X2 : ϕZ (t) = ϕX1 (t)ϕX2 (t)
(10.8)
Beweis: ϕX1 +X2 (t)
= Eeit(X1 +X2 ) = EeitX1 eitX2 = EeitX1 EeitX2 = ϕX1 (t)ϕX2 (t)
Die charakteristische Funktion der Summe zweier Zufallsgr¨oßen ist also das Produkt der charakteristischen Funktionen der Zufallsgr¨ oßen. Sind beispielsweise X1 ∼ N(µ1 , σ12 ), X2 ∼ N(µ2 , σ22 ), dann gilt: σ 2 t2 σ 2 t2 ϕX1 +X2 = exp itµ1 − 1 · exp itµ2 − 2 2 2 2 2 2 (σ + σ2 )t = exp it(µ1 + µ2 ) − 1 2 Auf Grund des Eindeutigkeitssatzes (% sp¨ater) folgt X1 + X2 ∼ N(µ1 + µ2 , σ12 + σ22 )
10.3
Umkehr- und Eindeutigkeitssatz
Es gelten folgende Umkehrformeln“: ” Satz 10.3 An Stetigkeitsstellen a und b von FX (a < b) gilt: 1 FX (b) − FX (a) = 2π
Z∞
e−ita − e−itb ϕX (t) dt it
(10.9)
−∞
Im absolutstetigen Fall ergibt sich die Umkehrformel der Fourier-Transformation: 1 fX (x) = 2π
Z∞
ϕX (t)e−itx dt
(10.10)
−∞
d
Satz 10.4 (Eindeutigkeitssatz) Wenn ϕX (t) = ϕY (t) f¨ ur alle t gilt, dann folgt X = Y . Jede Verteilungsfunktion FX ist eindeutig durch die charakteristische Funktion ϕX bestimmt. Zu einem Beweis des Satzes siehe z. B. Gnedenko, Renyi.
48
10.4
KAPITEL 10. CHARAKTERISTISCHE FUNKTIONEN
Die charakteristische Funktion und Momente
Die Momente einer Verteilung k¨ onnen leicht aus ϕX berechnet werden. Satz 10.5 Falls EX n existiert, dann ist ϕX n-mal stetig differenzierbar und es gilt: (k)
(−i)k ϕX (0) = EX k ,
k = 1, 2, . . . , n
(10.11)
Beweis. Der Beweis wird nur f¨ ur den Fall k = 1 gef¨ uhrt. Es gilt: ϕ0X (t)
ϕX (t + h) − ϕX (t) h 1 i(t+h)X = lim E(e − eitX ) h→0 h =
lim
h→0
Nun konvergiert Zh = h1 (ei(t+h)X − eitX ) gegen Z = iXeitX , wenn h gegen 0 geht. Wegen |eity − eitz | ≤ |y − z| · |t| folgt |Zh | =
|h| · |X| 1 i(t+h)X |e − eitX | ≤ = |X|. |h| |h|
Also wird Zh durch |X| dominiert und geh¨ort damit zum L1 . Nach dem Lebesgue-Satz u ¨ber die majorisierte Konvergenz gilt lim EZh = E( lim Zh ) = E(iXeitX ),
h→0
h→0
woraus die Behauptung folgt.
Speziell gilt EX = −iϕ0X (0) und EX 2 = −ϕ00X (0). Beispielsweise ergibt sich f¨ ur X ∼ N(0, 1): t2
ϕX (t)
= e− 2
ϕ0X (t)
= −te− 2
ϕ00X (t)
=
t2 t2
(t2 − 1)e− 2
Daraus folgt EX = 0, EX 2 = 1 und var X = 1. Falls EX n existiert, dann kann ϕX in eine Taylor-Reihe der Ordnung n entwickelt werden, d.h. ϕX (t) = 1 +
n X 1 (it)k EX k + o(tn ) k!
(10.12)
k=1 (k)
Wenn ϕX (0) existiert, so existiert auch EX k f¨ ur gerade k.
10.5
Stetigkeitssatz d
Eine Folge von Zufallsgr¨ oßen Xn konvergiert in Verteilung gegen X (Xn − → X) genau dann, wenn lim FXn (x) = FX (x)
n→∞
¨ f¨ ur alle Stetigkeitspunkte x von F gilt. Aquivalent dazu ist lim Ef (Xn ) = Ef (X)
n→∞
f¨ ur alle stetigen und beschr¨ ankten Funktionen f . Hierbei ist Ef (X) =
R
f (x) dFX (x).
10.5. STETIGKEITSSATZ
49
Satz 10.6 Es gilt d
Xn − →X
⇐⇒
lim ϕXn (t) = ϕX (t) f¨ ur alle t.
n→∞
Beweis: =⇒“: Da cos(tx) und sin(tx) stetig und beschr¨ankt sind, konvergiert ” ϕXn (t) = E(cos(tXn )) + iE(sin(tXn )) gegen E(cos(tX)) + iE(sin(tX)). ⇐=“: Es gen¨ ugt zu zeigen, dass f¨ ur alle a und b mit a < b, die Stetigkeitspunkte aller FXn und ” von FX sind, gilt: FXn (b) − FXn (a) → FX (b) − FX (a) Es gilt FX (b) − FX (a)
1 = lim T →∞ 2π
ZT
e−ita − e−itb ϕX (t) dt it
−T
1 = lim T →∞ 2π
ZT
e−ita − e−itb ( lim ϕXn (t)) dt n→∞ it
−T
ZT
1 = lim lim n→∞ T →∞ 2π
e−ita − e−itb (ϕXn (t)) dt it
−T
=
lim (FXn (b) − FXn (b))
n→∞
nach dem Satz von der majorisierten Konvergenz. Satz 10.7 Stetigkeitssatz (L´evy, Cram´er). Fn (x) → F (x) f¨ ur n → ∞ an jeder Stetigkeitsstelle von F gilt genau dann, wenn ϕn (t) → ϕ(t) f¨ ur n → ∞ gleichm¨ aßig auf jedem endlichen Intervall konvergiert. Anwendungsbeispiel: Poissonscher Grenzwertsatz. Es sei Xn binomialverteilt mit den Parametern n und pn . Wenn n groß wird und pn gegen Null strebt, strebe npn gegen einen Wert λ mit 0 < λ < ∞. Es gilt EXn = npn . Es sei weiterhin X Poisson-verteilt mit dem Parameter λ d und damit mit dem Erwartungswert λ. Es gilt Xn − → X, was u ¨brigens heißt, dass die Einzelwahrscheinlichkeiten P (Xn = i) gegen P (X = i) konvergieren. Beweis. Es gilt ϕXn (t) ϕX (t)
=
(1 − pn + pn eit )n
= eλ(e
und 1 − pn + pn eit
n
it
−1)
∼
1−
strebt gegen eλ(e Nach Satz 10.6 folgt nun die Behauptung.
it
−1)
λ λ it + e n n
n
50
KAPITEL 10. CHARAKTERISTISCHE FUNKTIONEN
Bemerkungen: • X sei diskrete Zufallsgr¨ oße. Dann gilt ϕX (t) =
X
eitk P (X = k).
(10.13)
k
ϕX h¨ angt nur u ¨ber eit von t ab, ist damit periodisch mit der Periode 2π; die Kenntnis von ϕX auf [−π, π] gen¨ ugt, damit die zugeh¨orige Zufallsgr¨oße eindeutig bestimmt ist, es gilt: Zπ pk = P (X = k) =
eitk ϕX (t) dt
−π
Man erh¨ alt also den k-ten Koeffizienten der Fourier-Reihe von ϕX . • Substituiert man z = eit in (10.13), erh¨alt man: X GX (z) := pk z k ,
(10.14)
k
die erzeugende Funktion von X; es gilt ϕX (t) = GX (eit ). • Die charakteristische Funktion f¨ ur zuf¨allige Vektoren X = (X1 , . . . , Xd )T wird analog definiert: Pd T (10.15) ϕX (t1 , . . . , td ) = EeiX t = E ei j=1 Xj tj Dabei ist t = (t1 , . . . , tn )T Wenn X unabh¨angige Komponenten hat, so gilt: ϕX (t1 , . . . , td ) =
d Y
ϕXj (tj )
(10.16)
j=1
• Noch allgemeiner ist das charakteristische Funktional f¨ ur eine zuf¨allige Funktion X(u): R ϕX (t) = E ei t(u)X(u) du .
51
Kapitel 11
Gesetze der großen Zahlen 11.1
Konvergenzarten der Stochastik
Es sei (Xn )n∈N eine Folge von Zufallsgr¨oßen. • Verteilungskonvergenz d
Symbolisch: Xn − →X Die Folge (Xn ) heißt verteilungskonvergent gegen X, falls f¨ ur jede Stetigkeitsstelle x von FX gilt lim FXn (x) = FX (x) (11.1) n→∞
Bemerkung: Verteilungskonvergenz ist zur sogenannten schwachen Konvergenz Xn → X ur alle beschr¨ ankten und stetigen f gilt: ¨aquivalent, d.h., f¨ lim Ef (Xn ) = Ef (X)
n→∞
(11.2)
• Konvergenz in Wahrscheinlichkeit (stochastische Konvergenz) P
Symbolisch: Xn − →X Die Folge (Xn ) heißt stochastisch konvergent gegen X, wenn f¨ ur jedes positive ε gilt lim P (|Xn − X| ≥ ε) = 0
n→∞
(11.3)
(entspricht der Maßkonvergenz) • Konvergenz mit Wahrscheinlichkeit 1 (fast sichere Konvergenz) P −f.s.
Symbolisch: Xn −−−−→ X Die Folge (Xn ) heißt gegen X fast sicher konvergent, wenn P ({ω ∈ Ω : lim Xn (ω) = X(ω)}) = 1 n→∞
(11.4)
(vgl. Maßtheorie: Konvergenz P -fast u ¨berall) • Konvergenz im p-ten Mittel Lp
Symbolisch: Xn −−→ X lim E|Xn − X|p = 0,
n→∞
p≥1
(11.5)
Speziell f¨ ur p = 2 spricht man von der Konvergenz im quadratischen Mittel und f¨ ur p = 1 von der L1 -Konvergenz.
52
KAPITEL 11. GESETZE DER GROSSEN ZAHLEN
Im Rahmen der Maßtheorie wurden die meisten der folgenden Beziehungen zwischen den verschiedenen Konvergenzarten (% Abbildung 11.1) nachgewiesen. L2
Xn → X
L1
Xn → X
-
P -f.s.
HH H
Xn → X
HH P j X → H X * n 6
-
d
Xn → X
X=c Abbildung 11.1: Beziehungen zwischen den Konvergenzarten
11.2
Gesetze der großen Zahlen
11.2.1
Schwache Gesetze der großen Zahlen
Die Erfahrung lehrt, dass die relative H¨aufigkeit eines Ereignisses bei einer großen Anzahl von Versuchen gegen die Wahrscheinlichkeit strebt; das arithmetische Mittel von (unabh¨angigen) Zufallsgr¨oßen mit gleichem Erwartungswert strebt gegen den Erwartungswert. Die Gesetze der großen Zahlen sind S¨ atze u ¨ber die Konvergenz von arithmetischen Mitteln gegen Konstanten. Speziell: n
Xn =
1 1X Xi = Sn → EX n i=1 n
(11.6)
Schwache Gesetze der großen Zahlen h¨angen mit der stochastischen Konvergenz zusammen, w¨ahrend starke Gesetze der großen Zahlen zur fast sicheren Konvergenz geh¨oren. Satz 11.1 Es sei X1 , X2 , . . . eine Folge von unabh¨ angigen Zufallsgr¨ oßen auf (Ω, A, P ) mit EXi = µ
var Xi ≤ M < ∞
und
(11.7)
P
Dann gilt X n − → µ. Zwei Beweise: 1. Es gilt: EX n var X n
= µ =
P (|X n − µ| ≥ ε) ≤
n 1 X M var Xi ≤ 2 n i=1 n
var X n M n→∞ ≤ 2 −−−−→ 0 2 ε ε n
d
P
2. Allgemein gilt: Aus Xn − → c folgt Xn − → c. Das ergibt sich folgendermaßen. P (|Xn − c| > ε)
= P (Xn < c − ε) + P (Xn > c + ε) ≤ FXn (c − ε) + (1 − FXn (c + ε))
11.2. GESETZE DER GROSSEN ZAHLEN
53
d
Die rechte Seite strebt wegen Xn − → c gegen Fc (c − ε) + (1 − Fc (c + ε)) = 0 + (1 − 1) = 0. Es gen¨ ugt also zum Beweis des Gesetzes der großen Zahlen, die Konvergenz der charakteristischen Funktion ϕX¯ n (t) → eitµ zu zeigen: ϕX n (t)
n t t = ϕS n = ϕX n n n itµ 1 = 1+ −→ eitµ . +o n n
Beispiel. Unabh¨ angige Wiederholung eines Bernoulli-Experiments; sei 1, falls Erfolg im i-ten Versuch Xi = 0, falls Misserfolg im i-ten Versuch Es gilt P (Xi = 1) = p, EXi = p, var Xi = p(1 − p) ≤ anwendbar und es folgt: n 1X n→∞ Xi −−−−→ p. P n
1 4,
damit ist der eben bewiesene Satz (11.8)
k=1
(Bernoullisches Gesetz der großen Zahlen)
11.2.2
Starkes Gesetz der großen Zahlen P −f.s.
Unser Ziel ist es nun, X n −−−−→ µ unter den gleichen Voraussetzungen (11.7) zu beweisen. Satz 11.2 (Starkes Gesetz der großen Zahlen) Seien X1 , X2 , . . . unabh¨ angige Zufallsgr¨ oßen auf P −f.s.
(Ω, A, P ) mit EXi ≡ µ und var Xi ≤ M < ∞. Dann gilt Xn −−−−→ µ. Beweis. Sei Zn = Xn − µ =
1 n
n P
P −f.s.
P −f.s.
(Xi − µ). Dann ist Xn −−−−→ µ ⇔ Zn −−−−→ 0
i=1 P −f.s.
1. Es wird zun¨ achst gezeigt, dass Zn2 −−−−→ 0. Sei An := {|Zn2 | ≥ ε}; dann gilt: 2
var Zn2
n 1 X n2 M = 4 var Xi ≤ M 4 = 2 n i=1 n n
(11.9)
Mittels Tschebyschews Ungleichung folgt: P (An ) ≤ ∞ X
var Zn2 M ≤ 2 2 2 ε n ε
P (An ) < ∞
n=1
F¨ ur A∗ = lim sup Ai folgt aus dem Lemma von Borel-Cantelli (Satz 1.1) P (A∗ ) = 0; sei speziell 1 A∗k := {ω : Zn2 (ω) ≥ f¨ ur unendlich viele n} k
54
KAPITEL 11. GESETZE DER GROSSEN ZAHLEN S T Es folgt: P (A∗k ) = 0 damit auch P ( k A∗k ) = 0; mit E := k (A∗k )c folgt P (E) = 1, d.h. E enth¨ alt fast alle“ Elemente von Ω. F¨ ur fast jedes ω ∈ E und zu jedem k ∈ N gibt es nur ” endlich viele n mit 1 |Zn2 | ≥ (11.10) k d.h. f¨ ur P -fast falle ω ∈ Ω gilt: lim Zn2 = 0. n→∞
2. F¨ ur m ∈ N sei n = n(m) die nat¨ urliche Zahle mit n(m)2 ≤ m ≤ (n(m) + 1)2 ; Zm wird nun mit Zn2 verglichen. Sei k X Sk := (Xi − µ) i=1
Dann gilt: var (Sm − Sn2 ) =
m X
var Xi ≤ M (m − n2 )
i=n2 +1
und Tschebyschews Ungleichung liefert P (|Sm − Sn2 | ≥ εn2 ) ≤
M (m − n2 ) ε 2 n4
Summiert man nun u ¨ber m auf, ergibt sich: ∞ X m=1
2
P
1 |Sm − Sn2 (m) | ≥ ε n2 (m)
≤
∞ (n+1) −1 M X X m − n2 ε2 n=1 n4 2
=
∞ M X 1 (1 + 2 + . . . + 2n) ε2 n=1 n4
=
∞ M X 2n(2n + 1) <∞ ε2 n=1 2n4
m=n
Nach dem Lemma von Borel-Cantelli gilt f¨ ur fast alle ω und hinreichend große m: 1 |Sm − Sn2 (m) | < ε n2 (m) Es folgt daraus zeilenweise: Zn2 (m) =
1 n2 (m)
Sn2 (m)
<
ε
|Sm | = |Zm | < 2ε m Zm → 0 Die Gesetze der großen Zahlen sind spezielle Ergodens¨atze“. Solche S¨atze zeigen, dass unter ” gewissen Bedingungen gilt n
Xn =
1X Xi n i=1
Zeitmittel“ ”
n→∞
Z
−−−−→
X(ω) P (dω) Ω
Raummittel“ ”
Fasst man die Xi als zeitliche Abfolge von Zufallsgr¨oßen auf, deren Werte das Verhalten einer Gr¨oße an einem Ort im Raum Rd beschreibt, so bedeutet diese Beziehung, dass das Zeitmittel“ ”
11.2. GESETZE DER GROSSEN ZAHLEN
55
gegen das Raummittel“ konvergiert. Interessant ist dies insbesondere im Fall von stochastisch ” abh¨angigen X1 , X2 , . . . . Dass diese Konvergenz keineswegs immer gilt, zeigt folgendes Beispiel. Sei X1 =
1 p= −1 p =
Xi = X1
1 2 1 2
i = 2, 3, . . .
Offenbar ist EXi = 0, aber n
1X Xi = n i=1
1 −1
falls X1 = 1 falls X1 = −1
= X1 ,
d.h.,
lim X n = X1 6= EXi
n→∞
Es m¨ ussen also Voraussetzungen an die St¨arke der Abh¨angigkeit der Variablen gemacht werden, damit ein starkes Gesetz der großen Zahlen gilt.
56
KAPITEL 11. GESETZE DER GROSSEN ZAHLEN
57
Kapitel 12
Zentrale Grenzwerts¨ atze In diesem Kapitel betrachten wir die Konvergenz der Verteilung normierter Summen gegen N(0, 1).
12.1
Vorbetrachtungen
Es sei X1 , X2 , . . . eine total unabh¨ angige Folge von Bernoulli-Zufallsgr¨oßen mit 1 mit Wkt. p Xi = 0 mit Wkt. 1 − p Dann kann f¨ ur großes n die Verteilung von n X
Xk ∼ Bin(n, p)
(12.1)
k=1
durch eine Normalverteilung mit µ = np und σ 2 = np(1 − p) approximiert werden. Sei allgemeiner X1 , X2 , . . . eine beliebige Folge total unabh¨angiger Zufallsgr¨oßen mit EXi = µi und var Xi = σi2 . Gegen welche Verteilung konvergiert n 1 X Xi − µi = Sn (α) nα i=1 σi
?
(12.2) P −f.s.
F¨ ur α = 1 ergibt sich aus dem vorherigen Abschnitt, dass Sn (1) −−−−→ 0 (starkes Gesetz der großen Zahlen). Im Fall α = 0 ist var Sn (0) = n, es liegt also keine Konvergenz vor, die Verteilung verbreitert“ sich immer st¨ arker. Im Fall α = 12 ergibt sich unter gewissen Bedingungen eine ” Konvergenz gegen eine Normalverteilung: 1 d Sn − → N(0, 1) (12.3) 2 Sn 21 heißt auch asymptotisch normalverteilt. Die zentralen Grenzwerts¨atze behandeln Bedingungen f¨ ur diese Konvergenz.
12.2
Grenzwertsatz von Moivre-Laplace
Der Grenzwertsatz von Moivre-Laplace sichert die Konvergenz binomialverteilter Zufallsgr¨oßen gegen eine N(0, 1)-Verteilung.
¨ KAPITEL 12. ZENTRALE GRENZWERTSATZE
58
Satz 12.1 Sei Yn binomialverteilt mit den Parametern (p, n). Dann gilt: Yn − np d Zn = p − → Z, np(1 − p)
Z ∼ N(0, 1),
(12.4)
d. h. lim P
n→∞
! Yn − np p < x = Φ(x). np(1 − p)
(12.5)
Der Beweis wird sp¨ ater in allgemeinerem Zusammenhang nachgeholt werden.
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Binomialverteilung
-4
-3
-2
-1
0
1
2
3
4
Abbildung 12.1: Verteilungsfunktionen der Zn f¨ ur binomialverteilte Yn mit p = sowie der Standardnormalverteilung Bemerkung. Da Yn =
n P
1 3
und n = 5, 20, 100
Xi mit iid-Bernoulli-Variablen Xi ist, hat der Grenzwertsatz von
i=1
Moivre-Laplace tats¨ achlich die Form wie in (12.3).
¨ FOLGEN VON IID-ZUFALLSGROSSEN ¨ 12.3. GRENZWERTSATZ FUR
59
Der Zentrale Grenzwertsatz kann dazu benutzt werden, um eine Binomialverteilung anzun¨ahern. F¨ ur große n gilt: Bin(n, p) ≈ N(np, np(1 − p)) (12.6)
12.3
Grenzwertsatz fu oßen ¨ r Folgen von iid-Zufallsgr¨
Nachdem wir nun eine brauchbare N¨aherung f¨ ur die Binomialverteilung bei großen n haben, m¨ochten wir das nun etwas verallgemeinern und i.i.d. Zufallsgr¨oßen mit endlicher Streuung betrachten. Satz 12.2 Sei X1 , X2 , . . . eine Folge von iid-Zufallsgr¨ oßen mit EXi = µ und var Xi = σ 2 < ∞. Dann gilt n P Xi − nµ n X 1 1 Xi − µ d i=1 √ Sn =√ = −−−−→ Z ∼ N(0, 1) (12.7) n→∞ 2 σ n i=1 σ n oder
lim P
n→∞
Sn
1 < x = Φ(x) 2
(12.8)
Beweis. Ohne Beschr¨ ankung der Allgemeinheit sei µ = 0 (andernfalls setze man Xi0 = Xi − µ). Aus dem Faltungssatz (siehe (10.6) und (10.9)) ergibt sich f¨ ur die charakteristische Funktion von Sn := Sn 12 : n t √ ϕSn (t) = ϕX σ n Entwicklung von ϕX in eine Taylorreihe unter Ber¨ ucksichtigung von µ = 0 liefert: ϕX (t) = 1 − Damit ergibt sich:
Wegen lim 1 + n→∞
x n n
t2 σ 2 + o(t2 ) 2
2 n t2 t ϕSn (t) = 1 − +o 2n n = ex ergibt sich: t2
lim ϕSn (t) = e− 2
n→∞
Aus dem Stetigkeitssatz und dem Eindeutigkeitssatz f¨ ur charakteristische Funktionen folgt Sn ∼ N(0, 1).
Die unabh¨ angige Wiederholung ein und desselben Experiments f¨ uhrt in der Summe der Messwerte zu einer normalverteilten Zufallsgr¨ oße, d.h. n X
d
Xi ≈ N(nµ, nσ 2 )
(12.9)
i=1
Man spricht dann von einer asymptotisch normalverteilten“ Zufallsgr¨oße. Es gilt dann ” ! n X x − nµ √ P Xi < x ≈ Φ . nσ i=1 Oft ist diese N¨ aherung schon f¨ ur kleine n brauchbar. Dies ist nat¨ urlich von der Verteilung von X1 abh¨angig.
¨ KAPITEL 12. ZENTRALE GRENZWERTSATZE
60
Die Gleichverteilung auf dem Intervall [0, 1] der Zufallsgr¨oßen Xi ist hier ein wichtiger Spezialfall. Dort gilt z.B. n = 12 als eine ausreichend große Anzahl. Man geht dann n¨aherungsweise von folgendem Zusammenhang aus: S12
= X1 + . . . + X12 ∼ N(µ, σ 2 ) mit EX1 = 0.5, ES12
mit µ = 6 und σ 2 = 1, 1 , var S12 = 1 folgt = 6, var X1 = 12
S12 − 6 ∼ N(0, 1) Das wird ausgenutzt zur Erzeugung von normalverteilten Zufallszahlen.
12.4
Grenzwertsatz von Lindeberg-Feller
Die Bedingung, dass die Zufallsgr¨ oßen der betrachteten Folge identisch verteilt sein m¨ ussen, wird nun fallengelassen, lediglich Unabh¨ angigkeit wird auch weiterhin gefordert. Die behandelte Fra¨ ge ist wiederum die, wann die additive Uberlagerung vieler kleiner zuf¨alliger (Fehler-)Einfl¨ usse n¨aherungsweise auf eine Normalverteilung f¨ uhrt. Satz 12.3 (Lindeberg, 1922) Sei X1 , X2 , . . . eine Folge unabh¨ angiger Zufallsgr¨ oßen mit EXi = µi n P und var Xi < ∞, sowie Zn := Xi . Sei i=1
σn2
=
n X
var Xi = var Zn
(12.10)
i=1
und es gelte f¨ ur alle ε > 0 die Lindeberg-Bedingung, d.h. n 1 X E((Xi − µi )2 ; {|Xi − µi | > εσn }) = 0, 2 n→∞ σn i=1
lim
(12.11)
bzw. anders ausgedr¨ uckt n 1 X 2 n→∞ σn i=1
Z
lim
(x − µi )2 dFXi (x) = 0.
(12.12)
|x−µi |>εσn
Dann gilt gleichm¨ aßig in x: lim P
n→∞
! n 1 X (Xi − µi ) < x = Φ(x) σn i=1
(12.13)
Beispiele. 1. Wir betrachten gleichm¨ aßig beschr¨ankte Verteilungen, d.h., P (|Xi − µi | ≤ c) = 1 mit σn2 → ∞. Wir w¨ ahlen zu positivem ε ein n0 so, dass ε · σn > c f¨ ur alle n > n0 wird. Dann ist E((Xi − µi )2 ; {|Xi − µi | > εσn }) = 0 f¨ ur alle i. 2. Wenn die Zufallsgr¨ oßen iid. mit EX1 = 0 und var X1 = σ 2 sind, dann l¨asst sich mit dem Lebesgueschen Satz von der majorisierten Konvergenz zeigen, dass n √ 1 1 X E(Xi2 ; {|Xi | > εσn }) = 2 E(X12 ; {|X1 | > ε nσ}) → 0. 2 σn i=1 σ
12.4. GRENZWERTSATZ VON LINDEBERG-FELLER
61
Man beachte dazu Z
EX12
=
X12 (ω) µ(dω)
Z
E(X12 ; An ) √ wobei An = {ω : |X1 (ω)| > ε nσ}
=
fn (ω) µ(dω)
mit µ = P mit fn = X12 1An
Die Folge der An strebt gegen die leere Menge. Damit ergibt sich: fn (ω) → f (ω) ≡ 0, woraus folgt Z f (ω) µ(dω) = 0. Bevor wir zum Beweis dieses Grenzwertsatzes kommen, sind noch einige Vorbetrachtungen n¨ utzlich: n P
• Auf Grund der Unabh¨ angigkeit ist σn2 = var
Xi .
i=1
• (12.12) wird Lindeberg-Bedingung genannt. • Interpretation der Lindeberg-Bedingung: Sei |Xi − µi | Ai = >ε σn Dann gilt: Z dFXi (x) ≤
P (Ai ) = |x−µi |>σn ε
1 ε2 σn2
Z
(x − µi )2 dFXi (x)
|x−µi |>σn ε
Damit erh¨ alt man: P ≤
n X i=1
|Xi − µi | sup >ε σn 1≤i≤n
P (Ai ) ≤
n 1 X ε2 σn2 i=1
=P
n [
! Ai
i=1
Z
n→∞
(x − µi )2 dFXi (x) −−−−→ 0
|x−µi |>εσn
Aus (12.12) folgt also lim P
n→∞
|Xi − µi | sup > ε = 0, σn 1≤i≤n
(12.14)
d.h., die Summanden in der relevanten Summe 1 X |Xi − µi | σn werden gleichm¨ aßig klein (konvergieren gleichm¨aßig stark gegen Null). • Analog kann aus (12.12) gefolgert werden: √ lim sup
n→∞ 1≤i≤n
d.h., alle Standardabweichungen n P Xi gleichm¨ aßig klein. i=1
√
var Xi = 0, σn
(12.15)
var Xi sind im Vergleich zur Standardabweichung von
¨ KAPITEL 12. ZENTRALE GRENZWERTSATZE
62
• (12.15) ist hinreichend f¨ ur (12.14) (Tschebyschewsche Ungleichung) • (12.12) ist unter gewissen Bedingungen nicht nur hinreichend sondern auch notwendig, genauer: aus (12.13) und (12.15) folgt (12.12). Der Beweis wurde von Feller 1933 erbracht, daher heißt (12.15) Feller-Bedingung. • F¨ ur die Lindeberg-Bedingung (12.12) ist die sogenannte Ljapunow-Bedingung hinreichend. lim
n→∞
n 1 X
σnβ i=1
E|Xi − µi |β = 0 f¨ ur ein β > 2
(12.16)
Beweis. n 1 X σn2 i=1
Z
n X
Z
(x − µi )2 dFXi (x)
|x−µi |>εσn
≤
≤
1 σn2
i=1
1 εβ−2
|x − µi |β dFXi (x) (εσn )β−2
|x−µi |>εσn n 1 X
σnβ
! β
E|Xi − µi |
n→∞
−−−−→ 0
i=1
• Eine Fehlerabsch¨ atzung f¨ ur die Ann¨aherung an die Normalverteilung liefert der folgende Satz: Satz 12.4 (Berry- Esseen 1941) Seien X1 , X2 , . . . iid-Zufallsgr¨ oßen mit EXi = µ, var Xi = σ 2 und γ = E|Xi − µ|3 < ∞. F¨ ur die Verteilungsfunktion 1 X (Xi − µ) < x Fn (x) = P √ nσ gilt dann sup |Fn (x) − Φ(x)| ≤ 0.5 x
γ √ . σ3 n
Bemerkung: Die Konstante 0.5 stammt von Bentkus (1988); im urspr¨ unglichen Beweis (1941) betrug sie 7.59. Beispiel. Die Wahrscheinlichkeit f¨ ur das Eintreten eines Ereignisses soll durch die relative H¨aufigkeit hn = nk des Eintretens bei n-facher unabh¨angiger Wiederholung des Experiments gesch¨atzt werden (Bernoulli-Experiment mit Erfolgswahrscheinlichkeit p). hn ist Realisierung von n P Hn = n1 Xi , wobei Xi Erfolg (1) oder Misserfolg (0) im i-ten Experiment beschreibt, d.h., i=1
P (Xi = 1) = p und P (Xi = 0) = 1 − p. Wie groß ist die Wahrscheinlichkeit einer Abweichung um mehr als 0.05 gegen¨ uber dem tats¨ achlichen Wert, d. h. wie groß ist P (|Hn − p| ≥ 0.05)? 1. Absch¨ atzung durch Ungleichung von Tschebyschew: p(1 − p) n p(1 − p) 1 P (|Hn − p| > 0.05) ≤ ≤ n(0.05)2 4n(0.05)2 1 n = 100 = 0.1 n = 1000 EHn = p
var Hn =
12.4. GRENZWERTSATZ VON LINDEBERG-FELLER
63
2. Absch¨ atzung durch Approximation mit Normalverteilung (Grenzwertsatz von Moivreas Laplace): Hn ∼ N(p, p(1−p) ) n ! |Hn − p| √ 0.05 √ P (|Hn − p| > 0.05) = P p n> p n p(1 − p) p(1 − p) ! √ 0.05 √ ≤ P |Zn | ≥ p n = P (|Zn | > 0.1 n) 1/4 √ 0.3174 n = 100 = 2(1 − Φ(0.1 n)) = 0.0016 n = 1000 3. G¨ ute der Approximation durch eine Normalverteilung: Die Folge X1 , X2 , . . . erf¨ ullt die Voraussetzungen des Satzes von Berry-Esseen. Es gilt γ σ3
= E|Xi − p|3 = (1 − p)3 p + p3 (1 − p) = p(1 − p)(p2 + (1 − p)2 ) = (var Xi )3/2 = (p(1 − p))3/2
also
(1 − p)2 + p2 sup |Fn (x) − Φ(x)| ≤ 0.5 p x np(1 − p)
und speziell f¨ ur p = 0.5: sup |Fn (x) − Φ(x)|
0.5 √ = n
≤
x
0.05 n = 100 0.016 n = 1000
Tabelle 12.1 stellt die gewonnenen Ergebnisse noch einmal den tats¨achlichen Werten gegen¨ uber. n 100 1000
P (|Hn − 12 | > 0.05) 0.2713 0.0014
Tschebyschew 1,0 0.1
Moivre-Laplace 0.3173 0.0016
Tabelle 12.1: Exakte Werte f¨ ur P (|Hn − p|) und dessen Absch¨atzungen im Fall p = 0.5 Wir wenden uns nun dem Beweis des Satzes von Lindeberg zu: Beweis. Es sei ηk = Xk − µk (Eηk = 0), n n X 1 X ηk ηk = σn σn
ξn =
k=1
k=1
Zu zeigen ist nun lim P (ξn < x) = Φ(x). Wir benutzen charakteristische Funktionen und zeigen n→∞ n 2o lim ϕξn (t) = exp − t2 ; die Behauptung folgt dann aus Stetigkeits- und Eindeutigkeitssatz. Es n→∞ gilt: ϕ ηk (t) σn
=
ϕηk
t σn
Z =
=
eitx/σn dFηk (x)
−∞
itx/σn
e |x|>εσn
= I1 + I2
Z∞
Z dFηk (x) + |x|≤εσn
eitx/σn dFηk (x)
¨ KAPITEL 12. ZENTRALE GRENZWERTSATZE
64 mit ε > 0 beliebig. Einschub: Es gilt eia =
m−1 P ν=0
(ia)ν ν!
am Υm m!
+
mit |Υm | ≤ 1. Speziell ergibt sich mit m = 2: itx x2 t2 + Υ2 2 σn 2σn
(12.17)
x3 t3 itx x2 t2 + Υ3 3 − 2 σn 2σn 6σn
(12.18)
eitx/σn = 1 + und mit m = 3: eitx/σn = 1 + Mit (12.17) ergibt sich f¨ ur I1 : Z I1 =
dFηk (x) +
(1)
t2 2 2σn
R
(1)
x dFηk (x) + Rk |x|>εσn
|x|>εσn
mit |Rk | ≤
Z
it σn
x2 dFηk (x). F¨ ur I2 ergibt sich mit (12.18):
|x|>εσn
Z I2
=
dFηk (x) + |x|≤εσn 2
−
(2)
mit |Rk | ≤
|t|3 3 6σn
R
t 2σn2
|x|3 dFηk (x) ≤
|x|≤εσn
Damit k¨ onnen wir schreiben: t ϕηk σn
Z
it σn
x dFηk (x) |x|≤εσn
Z
(2)
x2 dFηk (x) + Rk
|x|≤εσn
ε|t|3 2 var Xk . 6σn
= I1 + I2 =
t2 1 + 0 − 2 var Xk 2σn
2
t (1) (2) + R k + R k + 2 2σn
Z
x2 dFηk (x)
|x|>εσn
Wir setzen nun ak bk
t2 var Xk 2σn2 t2 (1) (2) := Rk + Rk + 2 2σn
:= 1 + 0 −
Z
x2 dFηk (x)
|x|>εσn
Nach dem Faltungssatz ergibt sich: ϕξn =
n Y
ϕηk
k=1
t σn
Wir setzen ∆1 ∆2
:= :=
n Y
ϕηk
k=1 n Y k=1
t σn
−
n Y k=1
t2 1 − 2 var Xk 2σn
t2 1 − 2 var Xk 2σn
−
n Y k=1
2
t − 2σ 2 var Xk
e
n
12.4. GRENZWERTSATZ VON LINDEBERG-FELLER und erhalten
65
t2 ϕξn (t) − e− 2 ≤ |∆1 | + |∆2 |
Einschub: Es gilt: n Y
(ak + bk ) −
k=1
n Y
ak =
n X j=1
k=1
Y
bj
ak
k<j
Y
(aj + bj )
(12.19)
j
Mit Hilfe von (12.19) erhalten wir nun: ∆1 |bk |
= ≤
n X
Y t t2 var X ϕ k ηk 2 2σ σ n n j=1 j
Y
1−
⇒
|∆1 | ≤
n X
|bj |
j=1
|x|>εσn
|∆1 |
≤
n 2 X
ε|t|3 t + 2 6 σn
≤ ε
Z
(x − µj )2 dFXj (x)
j=1 |x−µj |>εσn
|t|3 + t2 6
f¨ ur n ≥ n0 = n0 (ε) wegen (12.12)
Auf Grund der Ungleichung −
e
t2 var Xk 2 2σn
≤
t2 var Xk 1− 2σn2
1 2
+
t2 var Xk 2σn2
2 !
erhalten wir wiederum mit (12.19) und (12.15) f¨ ur n ≥ n00 = n00 (ε): |∆2 |
≤
n X 1 t4 (var Xk )2 k=1
2 − t2
Damit folgt lim ϕηk (t) = e n→∞
8
σn4
≤
n X 1 k=1
8
t4
1 var Xk 2 ε = t4 ε 2 σn2 8
.
Bemerkungen. • Der zentrale Grenzwertsatz ist im allgemeinen nicht geeignet zur Absch¨atzung der Wahrscheinlichkeiten seltener Ereignisse, insbesondere der Wahrscheinlichkeiten großer Abweichungen von µ (large deviation, P (Zn > x)), auch wenn z. B. d
Zn − → N(0, 1), d. h., wenn |P (Zn ≥ x) − (1 − Φ(x))| = |P (Zn < x) − Φ(x)| klein wird (z. B. im Sinne von Berry-Esseen), kann der relative Fehler der Approximation sehr groß sein (ist beispielsweise P (Zn ≥ x) = 0.01 und 1 − Φ(x) = 0.0001, so betr¨agt der relative Fehler 100). • In der Theorie der großen Abweichungen wird daher eine Funktion Q(n, x) gesucht, f¨ ur die lim
n→∞ x→∞
P (Zn ≥ x) =1 Q(n, x)
(12.20)
(Dies ist z. B. in der Versicherungsmathematik bei der sogenannten Risikotheorie (Absch¨atzung der Wahrscheinlichkeit großer Sch¨aden) wichtig).
¨ KAPITEL 12. ZENTRALE GRENZWERTSATZE
66
• Es sind mehrere Verallgemeinerungen der Grenzwerts¨atze denkbar: – Verteilung einer zuf¨ alligen Anzahl von Summanden: N X
Xi
i=1
wobei N und Xi Zufallsgr¨ oßen bezeichnen (z.B. Schadenssummen pro Jahr). – Aufgabe der Unabh¨ angigkeit der Xi ; dies wird in Grenzwerts¨atzen u ¨ber stochastische Prozesse betrachtet – Aufgabe der Summenstruktur; z.B. ist die Konvergenz von min(X1 , . . . , Xn ) − an bn (entsprechend f¨ ur max) von Interesse (sogenannte Extremwertverteilung; z.B. ist die Weibull-Verteilung eine solche Extremwertverteilung). Ein weiterer bekannter Grenzwertsatz ist der Satz vom iterierten Logarithmus: Satz 12.5 (ohne Beweis) Die Folge der Zufallsgr¨ oßen Xi sei iid. mit EX1 = 0 und 0 < σ 2 = var X1 < ∞. Dann gilt: n P
Xi i=1 lim sup p =1 n→∞ 2σ 2 n log(log(n)) d.h., bei iid-Zufallsgr¨ oßen Xi wird
P
Xi von der Ordnung
fast sicher, p n log(log n) groß.
(12.21)
67
Kapitel 13
Eigenschaften von Sch¨ atzern Modell der klassischen mathematischen Statistik (Wiederholung) In der klassischen mathematischen Statistik betrachten wir Zufallsgr¨oßen X1 , . . . , Xn , die und abh¨angig und identisch verteilt sind. Dabei ist X1 = X, wobei X der Prototyp der Grundgesamtheit ist. Der Vektor X = (X1 , . . . , Xn )T wird als mathematische Stichprobe bezeichnet, deren Realisierung x = (x1 , . . . , xn ) konkrete Stichprobe heißt. Dabei wird mit n der Stichproben-Umfang bezeichnet. Die Aufgabe der klassischen mathematischen Statistik ist es nun, anhand von gegebenen kon¨ kreten Stichproben die Verteilung PX zu erforschen. Ublicherweise formuliert man aufgrund von Vorwissen oder einer Explorativen Datenanalyse eine Annahme. Auf dieser Annahme bauen dann weitere Untersuchungen auf. Unter sogenannten Verteilungsannahmen versteht man Annahmen der Form: Die gesuchte Ver” teilung geh¨ ort zu einer Menge P (PX ∈ P).“ Wichtig sind parametrische Aufgaben. Bei diesen gilt f¨ ur die Menge P: P = {P : P = Pϑ , ϑ ∈ Θ}
13.1
Ungleichung von Rao-Cram´ er
Im allgemeinen ist es erstrebenswert, bei erwartungstreuen Sch¨atzern die Sch¨atz-Varianz ˆ 2 m¨ E(ϑˆ − ϑ)2 = E(ϑˆ − Eϑ) oglichst klein zu halten. Unter gewissen Umst¨anden kann man hierf¨ ur eine untere Schranke angeben. Falls diese erreicht wird, spricht man von einem effektiven Sch¨atzer. ¨ Da viele Indizes die Ubersicht erschweren, treffen wir an dieser Stelle folgende Konvention: ϑ sei reell und ϑˆ ein Sch¨ atzer f¨ ur ϑ, wobei der Erwartungswert von ϑˆ endlich ist. Wir schreiben dann ˆ ˆ ϑ(X) bzw. ϑ(x) und meinen dabei ϑˆ = T (X). Es gilt: Eϑˆ =
Z
ˆ ϑ(x)L(x, ϑ) dx = ϑ + b(ϑ)
(13.1)
Mn
Dabei bezeichnet b(ϑ) den Bias, den systematischen Fehler. F¨ ur den absolutstetigen Fall ergibt sich speziell Z n Y ˆ Eϑˆ = ϑ(x) f (xi , ϑ) d x1 . . . dxn i=1
Mn
und im diskreten Fall Eϑˆ =
X
ˆ ϑ(x)
n Y i=1
P ({xi }, ϑ)
¨ KAPITEL 13. EIGENSCHAFTEN VON SCHATZERN
68
Es werden nun die folgenden Voraussetzungen gemacht: 1. Der Support supp L(x, ϑ) = {x ∈ M n : L(x, ϑ) > 0} ist von ϑ unabh¨angig. Dies ist beispielsweise f¨ ur die Gleichverteilung glm[0, ϑ] nicht erf¨ ullt. 2. L soll nach ϑ differenzierbar sein und 3. die Integration bez¨ uglich x muss mit der Differentiation bez¨ uglich ϑ (in Ausdr¨ ucken wie (13.1)) vertauschbar sein. Satz 13.1 (Informations-Ungleichung von Rao-Cram´er bei reellwertigem Parameter ϑ) Unter den obigen Voraussetzungen gilt (1 + b0 (ϑ))2 , nI(ϑ)
var ϑˆ ≥
(13.2)
wobei I(ϑ) = var
∂ ln f (X1 , ϑ) ∂ϑ
im stetigen Fall beziehungsweise I(ϑ) = var
∂ ln P ({X1 }, ϑ) ∂ϑ
im diskreten Fall ist, allgemein I(ϑ) =
1 var n
∂ ln L(X, ϑ) . ∂ϑ
I(ϑ) wird als Fisher-Information bezeichnet. Die rechte Seite von (13.2) heißt Rao-Cram´erSchranke. Bei r Parametern wird aus der Fisher-Information die Fishersche Informationsmatrix. Beweis. 1. Differentiation von 13.1 nach ϑ liefert Z
0
1 + b (ϑ) =
0 ˆ ϑ(x)L (x, ϑ) dx.
Mn
Hierbei ist u0 =
∂ ∂ϑ u.
Aus l = ln L folgt l0 =
1 + b0 (ϑ) =
Z
L0 L
und damit L0 = l0 L. Somit ergibt sich
0 ˆ ϑ(x)l (x, ϑ)L(x, ϑ) dx = E ϑˆ · l0 .
Mn
2. Aus 1 =
R
L(x, ϑ) dx folgt durch Differentation beider Seiten Z 0=
l0 (x, ϑ)L(x, ϑ) dx = El0 .
Speziell f¨ ur n = 1 ergibt sich 0=E
∂ ln f (X1 , ϑ) ∂ϑ
= El10 .
´ 13.1. UNGLEICHUNG VON RAO-CRAMER
69
3. F¨ ur die eigentliche Rechnung ergibt sich nun: ˆ 0 ), = E(ϑˆ · l0 ) − El0 · Eϑˆ = E((ϑˆ − Eϑ)l
1 + b0 (ϑ)
da El0 = 0 ist. Nach der Schwarzschen Ungleichung gilt: ˆ 2 · El0 2 = var ϑˆ · El0 2 . ≤ E(ϑˆ − Eϑ) P Da die Zufallsgr¨ oßen Xi unabh¨ angig identisch verteilt sind und l0 = li0 gilt, folgt (1 + b0 (ϑ))2
i
2
El0 = var l0 = n · var l10 = nI(ϑ) und die Behauptung.
Bemerkung. Bei Erwartungstreue erh¨alt der Z¨ahler in (13.2) den Wert 1. ˆ=X ¯ erwartungstreu ist. F¨ Beispiel. Wir betrachten die Poisson-Verteilung, wo bekanntlich λ ur 1 ¯ die Varianz gilt dann var X = n var X1 , und daraus ergibt sich ˆ = var X ¯= var λ
1 λ var X1 = . n n
Um nun die Fisher-Information zu berechnen, gehen wir folgendermaßen vor. Zuerst berechnen wir l(X1 , λ): X1 λ −λ e l(X1 , λ) = ln X1 ! = X1 ln λ − (λ + ln(X1 !)) Differentiation ergibt dann ∂l(X1 , λ) X1 = − 1. ∂λ λ Damit ergibt sich bei der Varianz-Berechnung l10 =
var l10
=
var
X1 1 λ 1 = 2 var X1 = 2 = . λ λ λ λ
Also betr¨ agt die Fisher-Information I(λ) = λ1 . Es folgt f¨ ur die rechte Seite von (13.2) var ϑˆ =
1 λ = , n n λ1
¯ effektiv. demnach ist X Definition 13.1 Ein erwartungstreuer Sch¨ atzer, der das durch (13.2) gegebene Minimum erreicht, heißt effektiv (effizient, wirksam). Nun wollen wir uns der Frage widmen, warum das so sch¨on klappt (und wann in der Schwarzschen Ungleichung das Gleichheitszeichen gilt). Die Bedingung daf¨ ur ist eine bestimmte Struktur der Verteilung. Wir befassen uns mit der Exponentialfamilie (Pϑ )ϑ∈Θ mit absolutstetigen Pϑ . Die zugeh¨orige Likelihoodfunktion hat die Struktur L(x, ϑ) = 1D (x) exp{A(ϑ)ˆ η (x) + B(ϑ) + C(x)}.
(13.3)
D bezeichnet hierbei eine Borel-Menge des Rn . A, B, C sind messbare Funktionen, die in die Menge der reellen Zahlen abbilden. Schließlich gilt noch ηˆ = ηˆ(x), ηˆ ist der Sch¨atzer f¨ ur einen Parameter η(ϑ), wobei im Augenblick noch nicht klar ist, wie η von unserem Modellparameter ϑ abh¨angt.
¨ KAPITEL 13. EIGENSCHAFTEN VON SCHATZERN
70
Wann gilt in (13.2) das Gleichheitszeichen? Im obigen Beweis wurde die Schwarzsche Ungleichung E(U V )2 ≤ EU 2 EV 2 f¨ ur die Zufallsgr¨oßen U = l0 und V = ηˆ − Eˆ η benutzt. Gleichheit gilt nur im Fall U = aV , wobei a eine reelle Konstante ist. Es gilt l0 (x, ϑ) = A0 (ϑ)ˆ η (x) + B 0 (ϑ),
x ∈ D.
Demnach muss 0 = El0 (X, ϑ) = A0 (ϑ)Eˆ η (X) + B 0 (ϑ) = A0 (ϑ)Eˆ η + B 0 (ϑ) gelten, woraus folgt B 0 (ϑ)
= −Eˆ η · A0 (ϑ), B 0 (ϑ) . Eˆ η = − 0 A (ϑ)
und damit
Daraus kann man nun auf l0 (x, ϑ) = A0 (ϑ)(ˆ η (x) − Eˆ η ),
x∈D
schließen. Mit a = A0 (ϑ) gilt dann tats¨achlich U = aV , 0
(ϑ) utzt das nun? Also ist ηˆ f¨ ur den Parameter η = − B A0 (ϑ) erwartungstreu und effektiv. Was n¨
Wir m¨ ussen jetzt die Formel (13.3) nehmen, die Dichtefunktion in eine passende Form bringen 0 (ϑ) und versuchen, ηˆ zu verstehen und hoffen, dass − B andig aussieht. A0 (ϑ) anst¨ Beispiel. F¨ ur die Exponentialverteilung ist die Dichtefunktion f (x, λ) = λe−λx 1[0,∞) (x) bekannt. Damit ergibt sich f¨ ur die Likelihood-Funktion ( n
L(x, λ) = 1[0,∞)n (x)λ exp −λ
n X
) xi
i=1
und damit
( L(x, λ) = 1[0,∞)n (x) exp −λ
n X
) xi + n ln λ
i=1
Damit geh¨ ort die Exponentialverteilung zur Exponential-Familie. Wir setzen also A(λ) = −λ, n 0 P (λ) n B(λ) = n ln λ und ηˆ = xi und erhalten B 0 (λ) = nλ und A0 (λ) = −1. Damit ist Eˆ η = −B A0 (λ) = λ . i=1
Also ist
n P i=1
f¨ ur
¯ erwartungstreu und effizient Xi erwartungstreu und effizient f¨ ur nλ . Entsprechend ist X
1 λ.
13.2
Suffiziente Sch¨ atzer
Beispiel 1. Gesucht wird mit Hilfe der Statistik die Einzelwahrscheinlichkeit p im BernoulliSchema. Dazu nehmen wir eine Stichprobe (x1 , . . . , xn ) = x (Folge von 0“ und 1“ der einzelnen ” ” xi , wobei 0“ einen Misserfolg und 1“ einen Erfolg bezeichnet). Wenn nur p zu sch¨atzen ist, ” ” gen¨ ugt es anscheinend, nur n X T (x) = xi i=1
¨ 13.2. SUFFIZIENTE SCHATZER
71
zu kennen. Es gilt ja dann: pˆ =
T (x) n
T (x) ∼ Bin(n, p).
Also ist viel weniger Information als das gesamte x erforderlich.
1
Beispiel 2. Ein Physiker will λ der Exponentialverteilung sch¨atzen. Er findet den Sch¨atzer ˆ= n λ n P Xi i=1
nicht gut, weil so viel Information verschenkt wird. Deswegen hat er ein Histogramm ermittelt und eine Exponentialfunktion angepasst. Ist das sinnvoll? Wann sind nun solche Datenreduzierungen zul¨assig und sinnvoll? Mit dieser Frage besch¨aftigt sich die Theorie der suffizienten/ersch¨ opfenden Statistiken. Definition 13.2 T (X) heißt suffizient (ersch¨ opfend) f¨ ur ϑ, wenn PX (·|T = t; ϑ) unabh¨ angig von ϑ ist. Beispiel. Im Bernoulli-Schema sei T (X) = k die Anzahl der Erfolge. Wenn k bekannt ist, wie hoch sind dann die Wahrscheinlichkeiten f¨ ur die verschiedenen Realisierungen von X = (X1 , . . . , Xn )? Es gibt dann nk m¨ ogliche F¨ alle, 2 die allesamt die gleiche Wahrscheinlichkeit haben. Damit ergibt −1 sich die Wahrscheinlichkeit von nk f¨ ur jedes (x1 , . . . , xn ). Diese ist offenbar unabh¨angig von p. Also ist T (X) suffizient. F¨ ur den absolutstetigen Fall mit reellem ϑ stellt eine Likelihood-Funktion der Form L(x, ϑ) = q(ϑ, T (x))r(x) ein hinreichendes Kriterium f¨ ur die Suffizienz dar. Im Falle der Exponential-Verteilung mit der Likelihood-Funktion ( ) n X n L(x, λ) = 1[0,∞)n (x)λ exp −λ xi i=1
n n P P n sind zum Beispiel r = 1[0,∞) (x) und q = λ exp −λ xi , wobei T (x) = xi ist. i=1
i=1
Die Verbesserung von Sch¨ atzern durch Bedingen mit suffizienten Sch¨atzern nennt man salopp Rao-Blackwellisieren. Es sei ϑˆ ein erwartungstreuer Sch¨atzer f¨ ur ϑ und T (X) sei suffizient. Dann kann man mittels der Formel ˆ ϑˆT (X) = E(ϑ(X) | T (X)) (13.4) einen neuen Sch¨ atzer ϑˆT konstruieren. Er ist wegen E(E(X | Y )) = EX
(13.5)
ˆ und ϑˆT ebenfalls erwartungstreu, nach (7.16) ist die Streuung kleiner (oder gleich) als die von ϑ, ist wie T (X) suffizient. 1 Nat¨ urlich gilt dies nicht f¨ ur alle Aufgaben. Wollte man zum Beispiel pr¨ ufen, ob das Bernoulli-Schema wirklich passend ist, so w¨ are es n¨ otig, wirklich x zu kennen. 2 Diese lassen sich kombinatorisch herleiten, indem die n Positionen von 1 bis n durchnumeriert werden. Jeder m¨ ogliche Fall beschreibt dann eine Auswahl von genau k dieser Positionen aus den n m¨ oglichen ohne Wiederholung. Daf¨ ur gibt es bekanntlich n M¨ oglichkeiten. k
¨ KAPITEL 13. EIGENSCHAFTEN VON SCHATZERN
72
Beispiel. Sei X auf dem Intervall [0, ϑ] gleichverteilt und ein geeigneter Sch¨atzer f¨ ur ϑ ge¯ der erwartungstreue sucht. Es seien weiterhin ϑˆ(1) = max Xi der M-L-Sch¨atzer und ϑˆ(2) = 2X i
Momentenmethoden-Sch¨ atzer f¨ ur ϑ. ϑˆ(1) ist suffizient f¨ ur ϑ, denn die Likelihood-Funktion L(X, ϑ) =
1 1[Xmax ,∞) (ϑ) ϑn
h¨angt nur von Xmax ab. Dann ergibt ¯ max ) = E(2X|X
n+1 Xmax = ϑˆT = ϑˆ(3) n
einen suffizienten Sch¨ atzer, der offensichtlich besser als ϑˆ(1) ist. ¯ max ) zu erforschen, wird die in Kapitel 11 skizzierte Methode Um die wahre“ Gestalt von E(2X|X ” ¯ max = x) berechnet. Es gilt angewendet. Dazu wird die Funktion f (x) = E(X|X f (x) =
1 n−1x n+1 x+ = x. n n 2 2n
Daraus folgt ¯ max ) = E(X|X
n+1 Xmax , 2n
¯ max ) = woraus unser oben genanntes Ergebnis E(2X|X Satz 13.2 (Rao-Blackwell) treu. Dann ist der Sch¨ atzer
n+1 n Xmax
folgt.
Es sei T (X) suffizient f¨ ur den Parameter ϑ und ϑˆ sei erwartungsˆ ϑˆT = E(ϑ(X)|T (X))
ˆ ebenfalls erwartungstreu und suffizient und hat h¨ ochstens die Varianz von ϑ, ˆ var ϑˆT ≤ var ϑ. Beweis. Die Erwartungstreue resultiert aus der Formel 13.5, die Suffizienz aus (7.17) mit E(X|Y ) = f (Y ) und die Varianzungleichung aus (7.16).
73
Kapitel 14
Signifikanztests 14.1
Einfu ¨ hrung
Die Signifikanztests werden manchmal als eine der 20 großen Erfindungen des 20. Jahrhunderts ¨ bezeichnet. Ein Test ist allgemein ein Verfahren zur Uberpr¨ ufung einer Hypothese. Als statistische Hypothesen werden oft die folgenden verwendet: 1. EX > µ0 (z. B. Festigkeit eines Werkstoffes) 2. p < p0 (z. B. Ausschussquote hinreichend klein). 3. Die Verteilungsfunktion einer Zufallsgr¨oße ist die Normalverteilungsfunktion mit den Parametern (µ, σ 2 ). 4. Zwei Stichproben stammen aus der gleichen Grundgesamtheit (z. B. Erzproben aus zwei Lagerst¨ atten). Das Ziel ist nun eine solche Hypothese anzunehmen oder abzulehnen, ausgehend von einer Stichprobe. Das Ergebnis ist vom Zufall abh¨angig. 1 Die Nullhypothese H0 spielt eine zentrale Rolle im Test, manchmal nur vergleichend, oftmals aber auch direkt. Sie legt die Verteilung eindeutig fest; wenn H0 erf¨ ullt ist, kann die Verteilung einer Testgr¨oße“ bestimmt werden. Oft macht sie nur die Aussage nichts los“ oder kein Effekt“. ” ” ” Alternativ dazu gibt es die sogenannte Alternativhypothese H1 (manchmal auch HA ). Sie wird akzeptiert, wenn H0 abgelehnt wird, wenn H0 als zu unwahrscheinlich erscheint. Dann spricht man von signifikanten“ oder statistisch gesicherten“ Abweichungen von H0 . Oft ist die Alterna” ” tivhypothese die Arbeitshypothese“, die man eigentlich beweisen will. ” Entscheidungsregeln k¨ onnen mittels einer Zufallsgr¨oße τ formuliert werden: 1, wenn H0 abgelehnt τ (ω) = 0, wenn H0 nicht abgelehnt werden kann Diese Zufallsgr¨ oße hat die Eigenschaft: τ (ω) = 1
⇐⇒
ω liegt im kritischen Bereich.
Bei den Tests gibt es zwei wichtige Fehler: 1 Uber ¨ die Richtigkeit oder Falschheit der Hypothese kann keine Aussage gemacht werden, weil die statistischen Untersuchungen auf Zufall und Wahrscheinlichkeiten beruhen und nicht auf Sicherheiten.
74
KAPITEL 14. SIGNIFIKANZTESTS 1. H0 ist richtig, aber wir lehnen H0 ab. Dieser Fehler wird als Fehler erster Art bezeichnet. 2. H0 wird nicht abgelehnt, obwohl sie falsch ist. Das ist dann der Fehler zweiter Art.
Bei den sogenannten Signifikanz-Tests ist die Wahrscheinlichkeit des Fehlers erster Art vorgegeben. Diese soll kleiner oder (idealerweise) gleich einer Zahl α sein, die dann Irrtums-Wahrscheinlichkeit 2 bzw. Signifikanzniveau 3 genannt wird. Die Tests kann man grob in zwei Klassen einteilen: Parameter-Test: Es werden Parameter betrachtet. So kann die Nullhypothese die Form H0 : µ = µ0 o. ¨ a. haben. nichtparametrischer Test: z.B. Anpassungs-Test: Es werden Verteilungsfunktionen betrachtet. So kann die Nullhypothese die Form H0 : F = F0 haben. (Englisch: goodness-of-fit test“). ” Ein weiterer nichtparametrischer Test ist z.B. der Test auf stochastische Unabh¨angigkeit zweier Merkmale.
14.2
Beispiel: Mittelwert-Tests im Fall der Normalverteilung
14.2.1
Bekannte Varianz – Gauß-Test
Die Nullhypothese lautet H0 : µ = µ0 , 2
und es wird angenommen, dass σ bekannt ist. µ k¨onnte beispielsweise die F¨ ullmenge von Bierflaschen angeben. Als Alternativ-Hypothese stehen die folgenden drei zur Verf¨ ugung: • Die zweiseitige Alternative H1 : µ 6= µ0 ist z. B. f¨ ur den Messtechniker, der eine m¨oglichst hohe Genauigkeit beim Bierabf¨ ullen erreichen will, interessant. Wenn er das Abf¨ ullger¨at eingestellt hat, hofft er auf eine Annahme von H0 . • Die einseitige Alternative H1 : µ > µ0 ist z. B. f¨ ur einen Alkoholgegner interessant, der bef¨ urchtet, dass die Leute durch (unbewusst) h¨oheren Bierkonsum abh¨angig werden. Er hofft auf die Ablehnung von H1 . • Die einseitige Alternative H1 : µ < µ0 ist z. B. f¨ ur einen S¨aufer interessant, der m¨oglichst viel trinken m¨ ochte und deshalb sicherstellen m¨ochte, dass die Flasche auch mindestens die theoretische F¨ ullmenge enth¨ alt. Auch er hofft auf die Ablehnung von H1 . Die beiden einseitigen Alternativen H1 : µ > µ0 bzw. H1 : µ < µ0 passen“ eigentlich besser zu ” den Nullhypothesen H0 : µ ≤ µ0 bzw. H1 : µ ≥ µ0 , und h¨aufig wird die Testproblematik dann auch so behandelt. Wenn nun H0 richtig ist, dann gilt f¨ ur die unabh¨angig identisch verteilten X1 , . . . , Xn X1 , . . . , Xn ∼ N(µ0 , σ 2 ) ¯ ∼ N(µ0 , σ2 ). Die Idee ist nun, H0 abzulehnen, wenn x und f¨ ur den Mittelwert X ¯ zu weit von n µ0 entfernt ist, also x ¯ µ0 oder x ¯ µ0 ist. Zur weiteren Rechnung f¨ uhren wir die kanonische Variable ω = x ¯ ein. Wenn wir H1 : µ > µ0 betrachten, dann erhalten wir f¨ ur die Zufallsgr¨oße τ : 1 x ¯ > x1−α τ (¯ x) = 0 sonst 2 Beachte:
Hier wird nur der Fehler erster Art betrachtet. wird auch 1 − α als Signifikanz-Niveau bezeichnet
3 Manchmal
14.2. BEISPIEL: MITTELWERT-TESTS IM FALL DER NORMALVERTEILUNG
75
mit geeignetem x1−α . Unser Ziel ist, dass der Fehler 1.Art die Wahrscheinlichkeit α hat, d.h., dass gilt ¯ > x1−α = α. Pµ0 X Das richtige x1−α finden wir gem¨ aß ¯ > x1−α ) = α P (X
=1−Φ
x1−α − µ0
!
√σ n
unter Ausnutzung der Normalverteilungsannahme. Es gilt x1−α − µ0 √σ n
= z1−α ,
also x1−α = µ0 + z1−α √σn . Der kleinste Wert von α, bei dem f¨ ur ein gegebenes x ¯ H0 abgelehnt wird, ist der sogenannte p-Wert. Im hier betrachteten Fall berechnet er sich folgendermaßen: ! x ¯ − µ 0 ¯ >x p = Pµ (X ¯) = 1 − Φ . √σ n
0
Die G¨ utefunktion (Macht, Power) ist die Wahrscheinlichkeit in Abh¨angigkeit von µ daf¨ ur, dass H0 abgelehnt wird. Sie hat folgende Form: σ ¯ g(µ) = Pµ X > µ0 + z1−α √ n ! σ µ0 + z1−α √n − µ = 1−Φ = 1 − Φ(z1−α − c) σ √
mit c :=
µ − µ0 √ n σ
n
Nichtzentralit¨atsparameter“ ”
.
g ist also monoton wachsend in µ. Damit l¨asst sich nun auch die maximale Wahrscheinlichkeit angeben, dass H0 f¨ alschlicherweise abgelehnt wird. Sie liegt hier bei: sup g(µ) = g(µ0 ), µ≤µ0
was plausibel erscheint. Bemerkenswert ist vielleicht noch lim g(µ) = 1.
µ→∞
Wir wollen nun x ¯ festhalten und den Einfluss von α und n auf das Testergebnis untersuchen. Wir beginnen mit α. H1 wird angenommen, wenn x ¯ > µ0 + z1−α √σn gilt. Nun f¨allt aber z1−α bei steigendem α. Damit w¨ urde dann H1 ¨ofter“ angenommen. Also ist ein großes α H0 -unfreundlich. ” Hieraus ergeben sich M¨ oglichkeiten, Betr¨ ugereien in der Statistik durchzuf¨ uhren. So kann man α sehr klein w¨ ahlen, wenn man H0 annehmen m¨ochte, und sehr groß, wenn man H1 annehmen ¨ m¨ochte. Ubliche Werte f¨ ur α sind von 0.05 bis 0.01, wobei in der Medizin oft auch mit 0.005 ¨ gerechnet wird. Außerst un¨ ublich sind dagegen Werte wie 0.10 oder 0.001. Kommen wir nun zum Einfluss von n. F¨ ur steigendes n f¨allt µ + z1−α √σn . Damit werden auch ¨ relativ kleine Anderungen von x ¯ ernst genommen. Der Fehler zweiter Art wird mit β bezeichnet. Bei uns wird α vorgegeben, w¨ahrend i.a. β berechnet werden muss. Kleine β sind oft nur durch große n zu erreichen. Berechnet wird der Fehler zweiter Art nach der Formel β(µ) = 1 − g(µ).
76
KAPITEL 14. SIGNIFIKANZTESTS
H0 richtig H0 falsch
H0 nicht abgelehnt richtige Entscheidung 1−α falsche Entscheidung β
H0 abgelehnt falsche Entscheidung α richtige Entscheidung 1−β
Tabelle 14.1: m¨ ogliche Entscheidungen und Fehler beim Signifikanztest
1 − g(µ) wird als Operations-Charakteristik (OC) bezeichnet. Die vier m¨oglichen Entscheidungen und Fehler sind in Tabelle 14.1 systematisiert. Beispiel. Eine Lebensdauer-Untersuchung wird angesetzt, um zu ermitteln, ob die Lebensdauer eines Bauteils gr¨ oßer als 100 Tage ist. Bei dieser Untersuchung sind n = 10, σ = 20 und α = 0.05 festgesetzt. Als Nullhypothese wurde H0 : µ = 100 genommen. Die Alternativhypothese lautet dann H1 : µ > 100. Damit ergibt sich µ0 = 100. In der Stichprobe m¨oge sich eine durchschnittliche Lebensdauer von x ¯ = 112 ergeben. Die Rechnung ergibt: 20 σ x1−α = µ0 + z1−α √ = 100 + 1.645 · √ = 110.4, n 10
d.h. x ¯ > x1−α .
Demnach wird H0 abgelehnt und H1 angenommen. Der p-Wert betr¨agt in diesem Falle 0.0289. Das bedeutet, dass bei einem α von 0.01 H0 angenommen w¨ urde. Das Ergebnis k¨onnte man etwa so formulieren: Die Messungen (Versuche) haben ergeben, dass die mittlere Lebensdauer signifikant ” (mit großer Sicherheit) u ¨ber 100 Tagen liegt.“ F¨ ur die G¨ utefunktion gilt in diesem Fall: g(µ) = 1 − Φ
100 +
32.9 √ n 20 √ n
−µ
!
Damit ergibt sich f¨ ur n = 10 und eine wahre mittlere Lebensdauer von 110 Tagen der Wert g(110) = 0.48. Das ist allerdings ein kl¨agliches Ergebnis: Wenn tats¨achlich µ = 110 ist, wird H1 nur in 48% der F¨ alle angenommen. Erst bei n = 43 gibt es diesbez¨ uglich ein einigermaßen sicheres Ergebnis: Es gilt dann g(110) = 0.95. x ¯ − µ0 Hier noch einmal die Testregeln f¨ ur den Gauß-Test: Testgr¨oße T = σ
µ ≤ µ0 µ ≥ µ0 H0 : µ = µ0
14.2.2
µ > µ0 : Lehne H0 ab, wenn T H1 : µ < µ0 : Lehne H0 ab, wenn T µ 6= µ : Lehne H ab, wenn T 0 0
sog. kritische Bereiche z }| { > z1−α . < −z1−α = zα . < −z1− α2 ∨ T > z1− α2 .
Unbekannte Varianz – Student-Test, t-Test
F¨ ur die Nullhypothese sei wieder H0 : µ = µ0 . Auch die Alternativhypothesen m¨ogen die gleichen F¨alle annehmen, wie im vorigen Abschnitt. Entsprechend Formel (9.3) gilt: T =
¯ −µ X √S n
∼ tn−1
¨ 14.3. AUSGEWAHLTE WEITERE TESTS IM FALL DER NORMALVERTEILUNG
77
Die drei Testregeln haben dann die folgende Form: 4 µ ≤ µ0 µ > µ0 : Lehne H0 ab, wenn T > tn−1,1−α . µ < µ0 : Lehne H0 ab, wenn T < −tn−1,1−α . µ ≥ µ H0 : H1 : 0 µ 6= µ0 : Lehne H0 ab, wenn |T | > tn−1,1− α2 . µ = µ0 ¯ asymptotisch Die Annahme hierbei ist, dass es sich um eine Normalverteilung handelt (bzw. dass X normalverteilt ist. Dieser Test ist relativ robust gegen¨ uber Abweichungen von der Normalverteilung.) Ab n = 30 kann u ¨brigens statt tn−1,1−α n¨aherungsweise z1−α genommen werden.
14.2.3
Vergleich zweier Mittelwerte – Welch-Test
Als Nullhypothese wird hier H0 : µX = µY betrachtet, wobei Xi Yi
2 ∼ N(µX , σX ) ∼ N(µY , σY2 )
Bei Verwendung von Stichprobenumf¨angen nX und nY und unbekannten und verschiedenen Va2 rianzen σX und σY2 gibt es von Welch gefundene N¨aherungsformeln f¨ ur H1 : µX 6= µY : T =q
¯ − Y¯ X 2 SX nX
+
∼ tm
2 SY nY
mit m = int
2
S X nX
S2 Y nY
2 2 SY SX nX + nY 2 2
nX +1
+
−2
nY +1
F¨ ur große nX und nY gilt m ≈ nX + nY .
14.3
Ausgew¨ ahlte weitere Tests im Fall der Normalverteilung
14.3.1
Varianztest
Bei einer Normalverteilung sei die Nullhypothese H0 : σ 2 = σ02 zu testen. Man benutzt die Testgr¨oße (n − 1)S 2 T = ∼ χ2n−1 , σ02 vgl. (9.2). Hier gibt es die folgenden Testregeln: 2 σ ≤ σ02 σ 2 ≥ σ02 H0 : 2 σ = σ02
2 2 σ > σ0 : 2 σ < σ2 : H1 : σ 2 6= σ02 : 0
Lehne H0 ab, wenn T > χ2n−1,1−α . Lehne H0 ab, wenn T < χ2n−1,α . Lehne H0 ab, wenn T < χ2n−1, α oder T > χn−1,1− α2 .
Hilfreich zum Verst¨ andnis ist hierzu [10], Seiten 120/121. 4 Siehe
auch Tabellen [10], Seite 117
2
78
14.3.2
KAPITEL 14. SIGNIFIKANZTESTS
Korrelation
Die Zufallsgr¨ oßen X und Y m¨ ogen eine zweidimensionale Normalverteilung haben. Wenn nun %XY = 0 ist, dann sind beide unabh¨ angig. Als Sch¨atzer f¨ ur %XY verwenden wir %ˆXY , f¨ ur dessen Realisierung in der Literatur oft das Symbol rXY verwendet wird. Der empirische Korrelationskoeffizient rXY wird berechnet durch Pn (xi − x ¯)(yi − y¯) . rXY = pPn i=1 Pn 2 ¯)2 (x − x ¯ ) i=1 (yi − y i=1 i Hierbei ist zu beachten, dass die Werte xi und yi f¨ ur jedes i zusammengeh¨oren. Als Testgr¨oße wird √ rXY n − 2 T = p ∼ tn−2 2 1 − rXY benutzt. Alternativhypothese ist H1 : %XY 6= 0. Als Testregel gilt hier: Lehne H0 ab, wenn |T | > tn−2,1− α2 . Auch hier wird von unehrlichen Statistikern oft getrickst. Ein gen¨ ugend großes α oder ein großes n f¨ uhren zur Ablehnung von H0 .
14.4
χ2 -Anpassungstest
Mit Hilfe des χ2 -Anpassungstests k¨ onnen Verteilungsannahmen getestet werden. Hier gilt bei großem n f¨ ur die Stichprobenfunktion T =
k X (hi − npi )2 i=1
npi
∼ χ2k−r−1 .
Dabei werden die Einzelergebnisse in k Klassen eingeteilt (z. B. die Intervalle [ai−1 , ai ), wobei meist a0 = 0, gegebenenfalls auch a0 = −∞, und ak = ∞ ist). Dann sind hi die H¨aufigkeiten in den einzelnen Klassen. n ist – wie immer – die Anzahl der Werte. F¨ ur die pi gilt hier pi = P (ai−1 ≤ X < ai ) = F0 (ai ) − F0 (ai−1 ). F¨ ur große n ergibt sich n¨ aherungsweise eine χ2 -Verteilung. Dabei gibt r die Anzahl der Parameter an, die nach der M-L-Methode aus der Stichprobe gesch¨atzt werden (z. B. r = 2 bei einer Normalverteilung). Die Nullhypothese H0 wird abgelehnt, wenn T > χ2k−r−1,1−α ist.
79
Kapitel 15
Regressionsanalyse 15.1
Einfu ¨ hrung
Bei der Regressions-Analyse soll eine Punktwolke, ein sogenannter Scatter-Plot, auf einen funktionalen Zusammenhang hin untersucht werden. Dazu werden in der Regel zwei Modelle verwendet: Modell I. Beim Modell I wird als Zusammenhang die Formel Y (x) = g(x) + ε(x) angenommen. Dabei ist g eine unbekannte deterministische Funktion. ε(x) ist der zuf¨allige Fehler bei der Beobachtung. Hier soll Eε(x) = 0 gelten, es soll also kein systematischer Fehler vorliegen. Ferner sei var ε(x) = σ 2 und die Fehler f¨ ur verschiedene x seien i.i.d. Der Parameter x ist einstellbar, wird also vorgegeben. Die Stichprobe y1 , . . . , yn besteht aus den Realisierungen Y (xi ) an den Beobachtungsstellen x1 , . . . , xn . Nun gibt es abh¨ angig von der Aufgabe zwei Wege, wie das Problem gel¨ost werden kann: Der parametrische und der nichtparametrische Weg. Wir werden uns zun¨achst dem parametrischen Weg widmen. Dabei wird ein Ansatz g(x, ϑ) (z. B. g(x) = a + bx mit ϑ = (a, b)) gemacht. Der lineare Ansatz hat die Form g(x, ϑ) = ϑ1 f1 (x) + . . . + ϑr fr (x), mit bekannten fi . Die ϑi k¨ onnen dann mit Hilfe der Approximations-Theorie oder Ausgleichsrechnung ermittelt werden. Modell II. Hier liegt ein Zufallsvektor (X, Y ) vor, dem ein Zusammenhang der Form Y = g(X)+ε angepasst wird. Die Daten sind analog zum Modell I gegeben. Der Unterschied liegt aber darin, dass sowohl X als auch Y zuf¨ allig sind, d.h., jetzt lautet die Stichprobe (x1 , y1 ), . . . , (xn , yn ). Beispiele. 1. Gr¨ oße (X) und Gewicht (Y ) des Menschen. 2. Gr¨ oße des Vaters (X) und des Sohnes (Y ). Woher kommt u ¨brigens der Name Regression“? Große V¨ater haben nicht immer so große S¨ohne ” und kleine V¨ ater nicht immer so kleine, wie schon Galton bei statistischen Untersuchungen feststellte. Dementsprechend ergibt sich eine Kurve wie in Abbildung 15.1 zu sehen. Dieses Zur¨ uckgehen ” zum Durchschnitt“ h¨ angt mit der Vorsilbe Re“ zusammen. ” ! Die optimale L¨ osung von E(Y − g(X))2 = min (messbares g) ist nat¨ urlich mit g(X) = E(Y | X) gegeben, h¨ aufig aber schwer zu berechnen. Daher wird oft eine aufgezwungene L¨osung verwendet,
80
KAPITEL 15. REGRESSIONSANALYSE Y ideale Gerade
6
beobachtete Kurve
X Abbildung 15.1: Regressions-Kurve die durch einen Ansatz bestimmt ist. Beispielsweise f¨ uhrt der lineare Ansatz zu dem Optimierungsproblem E((Y − a − bX)2 ) → min! Die Formeln zur Bestimmung von a und b unterscheiden sich nicht von denen im Modell I.
15.2
Methode der kleinsten Quadrate fu ¨ r Modell I
Im allgemeinen ist die Wahl der Messpunkte frei. Zur optimalen Wahl der xi kann man die Theorie der Versuchsplanung befragen. Zur Berechnung der N¨ aherung gibt es nun verschiedene M¨oglichkeiten: Zum einen gibt es die Tschebyschew-Approximation ϑˆ = arg min sup |g(xi , ϑ) − yi | ϑ
i=1,...,n
sowie die L1 -Approximation ϑˆ = arg min ϑ
n X
|g(xi , ϑ) − yi |.
i=1
Zum anderen gibt es die Methode der kleinsten Quadrate von Gauß und Legendre, die von Legendre 1805 publiziert worden ist und der L2 -Approximation entspricht. 1 ϑˆ = arg min ϑ
n X
(g(xi , ϑ) − yi )2 .
i=1
Im linearen Fall hat man damit keine gr¨oßeren Probleme. Aber im nichtlinearen Fall nutzt man h¨aufig eine der beiden Alternativen: 1. Numerische Verfahren. Hier ist die beliebteste Methode in der Statistik die MarquardtProzedur. 2. Transformationsmethode Beispiel. Die Funktion y = ae−bx kann man durch Logarithmieren auf eine lineare Form bringen: ln y zi 1 Gauß
= ln a − bx = A + Bxi
behauptete damals, schon lange so gerechnet zu haben.
¨ MODELL I 15.2. METHODE DER KLEINSTEN QUADRATE FUR
81
ˆ kann man nun folgendermaßen zur¨ Die daraus ermittelten Werte Aˆ und B ucktransformieren: F¨ ur ˆ A ˆ ˆ ˆ a ˆ gilt a ˆ = e und aus B wird b = −B.
Doch wenden wir uns jetzt dem linearen Fall zu. Wir betrachten also den Zusammenhang Y = a + bx + ε(x),
(15.1)
Y = ϑ1 f1 (x) + . . . + ϑr fr (x) + ε(x) = f (x)T ϑ + ε(x).
(15.2)
oder allgemeiner Wir fassen nun alle unsere Werte y1 ,. . . ,yn der Stichprobe zusammen. Dann sind y = (y1 , . . . , yn )T , ε = (ε1 , . . . , εn )T , F = (f (x1 ), . . . , f (xn ))T und ϑ = (ϑ1 , . . . , ϑr )T . Es ergibt sich die folgende Formel: y = Fϑ + ε n X
(f (xi )T ϑ − yi )2 = (F ϑ − y)T (F ϑ − y) = h(ϑ) = kF ϑ − yk2
i=1
Die Ableitung bez¨ uglich ϑ ergibt dann gradϑ h(ϑ) = 2F T (F ϑ − y) ˆ muss nun gelten: F¨ ur das optimale ϑ ˆ = 2F T F ϑ ˆ − 2F T y = 0. gradϑ h(ϑ) Damit ergibt sich das Normalgleichungssystem ˆ = F T y. FTFϑ
(15.3)
Wenn nun F T F regul¨ ar, also invertierbar ist, dann erh¨alt man nach Aufl¨osung von (15.3) den MKQ-Sch¨ atzer ˆ = (F T F )−1 F T y ϑ (15.4) Speziell f¨ ur Y = a + bx ergibt sich: a ˆ = Y¯ − ˆb¯ x n P xi Yi − n¯ xY¯ i=1 ˆb = . n P 2 2 xi − n¯ x i=1
Die MKQ-Sch¨ atzung hat f¨ ur regul¨ are F T F die folgenden Eigenschaften: ˆ ist erwartungstreu. Wegen Y = F ϑ + ε gilt: 1. ϑ ˆ = Eϑ =
(F T F )−1 F T EY (F T F )−1 F T F ϑ = ϑ.
2. Satz 15.1 (Gauß-Markow-Theorem) ˆ ist der beste lineare erwartungstreue Sch¨ ϑ atzer (BLUE) f¨ ur ϑ. Das bedeutet: F¨ ur jeden ˜ = CY gilt: covϑ ˜ − covϑ ˆ ist eine positiv anderen linearen erwartungstreuen Sch¨ atzer ϑ semidefinite r × r-Matrix.
82
KAPITEL 15. REGRESSIONSANALYSE 3. Bei i.i.d. normalverteilten Beobachtungen, das heißt, wenn Y ∼ N(g(x, ϑ), σ 2 ) oder ε(x) ∼ N(0, σ 2 ), ist der MKQ-Sch¨ atzer zugleich auch M-L-Sch¨atzer. Es ist ja ) ( n n Y 1 X 2 L(y, ϑ) = (g(xi , ϑ) − yi ) · (const)n f (yi ; ϑ) = exp − 2 2σ i=1 i=1 wegen 1 2 f (yi ; ϑ) = exp − 2 (g(xi , ϑ) − yi ) · (const). 2σ Damit wird L(y, ϑ) maximal, wenn
n P
(g(xi , ϑ) − yi )2 minimal wird.
i=1
¨ Die Uberpr¨ ufung des Modelles wird im allgemeinen mittels der Residuen durchgef¨ uhrt, die wie folgt definiert sind. ˆ εˆi = Yi − f (xi )T ϑ (15.5) Die Datenanalyse dieser Residuen erfolgt oft durch einfache Visualisierung. Falls sehr extreme Residuen auftauchen, muss das Modell gepr¨ uft werden.
15.3
Nicht parametrische Regression
Ein wichtiges Beispiel der nicht parametrischen Regression ist der Nadaraya-Watson-Sch¨ atzer. R∞ Hierzu brauchen wir wieder eine Kernfunktion Kh (x) mit Kh (x) dx = 1. Wichtige Kerne sind −∞
der Rechteck-Kern Kh (x) =
1 1[−h,h] (x) 2h
und der Epanechnikow-Kern Kh (x) =
3 4h
1−
x2 h2
1[−h,h] (x).
Der Sch¨ atzer hat dann die Form n P
gˆ(x) =
Kh (x − xi )yi
i=1 n P
. Kh (x − xi )
i=1
Er nimmt den Wert 0 an, wenn der Z¨ahler den Wert 0 hat. Probleme gibt es dabei am Rand und bei der Wahl von h. Große h f¨ uhren zu einer glatten Funktion.
83
Kapitel 16
Konfidenz-Intervalle Punktsch¨ atzungen liefern nur Punkte auf der Zahlengeraden. In vielen F¨allen ist aber P (ϑˆ = ϑ) = 0, auch wenn ϑˆ erwartungstreu ist. So ist zum Beispiel bei der Normalverteilung X1 ∼ N(µ, σ 2 ) ¯ ∼ N(µ, σ2 ), und es ist P (X ¯ = µ) = 0. Die neue Idee (Neyman, 1935) ist nun, anstelle mit µ ˆ=X n eines Punktes ein Intervall, einen Bereich oder sonst eine Menge zu betrachten. Dazu betrachten wir Stichprobenfunktionen I : M n → J, wobei J die Menge aller abgeschlossenen Intervalle in R ist. Ein etwas absonderliches, aber sicherlich anschauliches Beispiel ist eine Fliege an der Wand. Dabei kommt der Versuch, auf die Fliege zu schießen, einem Punktsch¨atzer gleich. Die Verwendung einer Menge entspricht dann dem Einsatz einer Fliegenklatsche. Sie trifft zwar auch nicht besser, aber sie erwischt doch mehr von der Wand. Damit ist die Wahrscheinlichkeit, die Fliege zu treffen, trotzdem h¨ oher, ohne dass aber der genaue Ort der Fliege erhalten wird. Das Ziel ist nun, ϑ mit m¨ oglichst großer Wahrscheinlichkeit zu u ¨berdecken, aber m¨oglichst schmale Intervalle zu verwenden. Definition 16.1 Eine Bereichssch¨ atzung I heißt Konfidenzsch¨atzung (-intervall, VertrauensIntervall) zum Niveau (1 − α), wenn f¨ ur alle ϑ ∈ Θ Pϑ (ϑ ∈ I) ≥ (1 − α)
(16.1)
gilt. Beliebte Werte f¨ ur 1 − α sind 0.95 und 0.99. Beispiele. 1. Hier betrachten wir Konfidenzintervalle f¨ ur µ bei der Normalverteilung N(µ, σ 2 ) mit bekann2 ter Varianz σ . Es gilt 2 ¯ ∼ N(µ, σ ) X n Also folgt nun ! ¯ −µ X Pµ −z1− α2 ≤ ≤ z1− α2 = 1 − α. σ √
n
Das l¨ asst sich umformen als ¯ − z1− α √σ ≤ µ ≤ X ¯ + z1− α √σ Pµ X = 1 − α. 2 2 n n
(16.2)
84
KAPITEL 16. KONFIDENZ-INTERVALLE Daraus ergibt sich nun f¨ ur das Intervall: σ ¯ σ ¯ α α I(µ) = X − z1− 2 √ , X + z1− 2 √ n n 2. Betrachten wir nun das Gleiche f¨ ur unbekannte Varianz. F¨ ur die Verteilungsfunktion gilt nun ¯ −µ X ∼ tn−1 . S √
n
Also gilt Pµ
−tn−1,1− α2 ≤
¯ −µ X √S n
! ≤ tn−1,1− α2
= 1 − α,
woraus folgt Pµ
¯ − tn−1,1− α √S ≤ µ ≤ X ¯ + tn−1,1− α √S X 2 2 n n
=1−α
(16.3)
Die hier betrachteten Intervalle sind zweiseitige Intervalle. Man kann aber auch einseitige Intervalle ¯ − tn−1,1−α √S , ∞)). Zu weiteren Intervallen sei hier auf die Tabellenb¨ ucher betrachten (z. B. [X n verwiesen. Hinweis. ϑ ist deterministisch und I(X) zuf¨allig. Es ist Pϑ (ϑ ∈ I(X)) ≥ 1 − α. Also ist ϑ mit einer Wahrscheinlichkeit, die gr¨oßer als 1−α ist, im Intervall. Das ist solange richtig, wie I(X) zuf¨ allig ist. Aus einer konkreten Statistik wird jedoch eine deterministische Realisierung von I(X) ermittelt. Dann liegt ϑ liegt entweder im Intervall oder nicht. Es ist dann nur bekannt, dass ein Rezept genommen wurde, das oft“, n¨amlich mit Wahrscheinlichkeit 1 − α, erfolgreich ist. ” Die Lage von ϑ im Intervall ist ein anderes Problem. Eine wichtige Anwendung der Konfidenzintervalle ist die Suche nach dem notwendigen Stichproben-Umfang n. F¨ ur seine Wahl gibt es als grobe Faustregel das folgende Rezept: • n ≥ 10 bei Parametersch¨ atzungen, • n ≥ 6 bei H0 : µ = µ0 und • n ≥ 50 bei Verteilungsfunktionssch¨atzungen. Die Idee, die bei der Anwendung eines Konfidenzintervalls zugrunde liegt, sagt: Gib α und die zul¨assige Breite 2b des Intervalls vor und berechne den notwendigen Stichprobenumfang n. Wollte man z.B. µ sch¨ atzen, dann gibt es die Formel S b = tn−1,1− α2 √ . n n muss man hier iterativ bestimmen. b ist in der Praxis oft schwer angebbar, w¨ahrend α nat¨ urlich einfacher zu w¨ ahlen ist. Das Problem, welches sich hier ergibt, ist, dass S n¨aherungsweise bekannt sein muss. Dies kann man durch eine Pilotuntersuchung l¨ osen. Was war nun der Grund, dass bei der Konstruktion der obigen Intervalle alles so sch¨on klappte? ¯ X−µ √ ) verwendet, die folgende Eigenschaften hatte: Wir hatten eine Pivot-Gr¨ oße (z.B. t = σ/ n 1. Die Verteilung ist unabh¨ angig von den unbekannten Parametern.
85 2. Die Ungleichung u ≤ t ≤ o l¨ asst sich leicht in eine Ungleichung der Form µu ≤ µ ≤ µo umformen. Im Fall einer Nicht-Normalverteilung gibt es unter anderem folgende Auswege: 1. NV-Asymptotik. Ein Beispiel f¨ ur die Normalverteilungs-Asymptotik ist die Suche nach einem Intervall f¨ ur p bei einer Bernoulli-Verteilung. 1 Hier wird eine asymptotische Pivot-Gr¨oße betrachtet. Dabei macht man sich den Sachverhalt S − np d p n −−−−→ N(0, 1) n→∞ np(1 − p) zunutze. Dabei ist Sn =
n P
Xi = k die Anzahl der Erfolge. Mit Hilfe von pˆ =
i=1
√
pˆ − p p
p(1 − p)
k n
ergibt sich
n −→ N(0, 1).
<
Aus der Bedingung P (p1 ≤ p ≤ p2 ) ≈ 1 − α ergeben sich nun die L¨osungen s 2 2 z1− z1− α α α z 1− 2 2 ∓ √ 2 pˆ(1 − pˆ) + pˆ + 2n 4n n . p1,2 = 2 z1− α 2 1+ n 2. Man kann auch die Bootstrap-Methode verwenden, die 1982 von Efron eingef¨ uhrt wurde. Wir betrachten sie hier f¨ ur µ = EX und X ∼ F mit unbekanntem F . Dabei gehen wir von der Gr¨ oße ¯ −µ X T = s √
n
aus. Um noch brauchbare Ergebnisse zu erzielen, m¨ ussen wir uns nun am eigenen Stiefelriemen aus dem Sumpf ziehen.2 Wir ersetzen dazu F durch Fˆn und kennzeichnen alle zugeh¨ origen Gr¨ oßen mit ∗. Dabei erhalten wir so die Formeln ¯ µ∗ = X,
und
t∗ =
¯∗ − X ¯ X S∗ √ n
.
ur diese Werte gelten dann die Formeln Die Quantile von t∗ bezeichnen wir mit tB und tB . F¨ P ∗ (t∗ ≤ tB ) = α2 und P ∗ (t∗ ≥ tB ) = α2 . Sie lassen sich entweder numerisch berechnen oder m¨ ussen er“-simuliert werden. ” Die Simulation l¨ auft dabei folgendermaßen ab: Aus den Stichprobendaten x1 , . . . , xn werden neue Stichproben (zuf¨ allig, mit Zur¨ ucklegen) vom Umfang m (h¨aufig: m = n) gebildet und jeweils t∗ ermittelt. Als Faustregel gelten ca. 1000 Simulationen. Aus den empirischen Quantilen t1 , t2 , . . . , t999 , t1000 werden dann Sch¨atzwerte f¨ ur tB und tB gebildet. Beispielsweise nimmt man f¨ ur α = 0.05 die Werte t25 und t976 . Das hierbei erhaltene Vertrauensintervall ¯ − √S tB , X ¯ − √S tB X n n ist dann oft besser als die NV-Asymptotik. 1 Vergleiche
dazu auch [13]. Eigentlich ziehen wir uns ja am eigenen Zopf aus dem Sumpf, aber die englischsprachige Gesellschaft verwendet dazu den Bootstrap, also den Stiefelriemen. 2
86
KAPITEL 16. KONFIDENZ-INTERVALLE
LITERATURVERZEICHNIS
87
Literaturverzeichnis []
Klassiker
[1] Feller, W., An Introduction to Probability Theory and its Application, J. Wiley & Sons (Vol I 1950, Vol II 1966) [2] Fisz, M., Wahrscheinlichkeitsrechnung und mathematische Statistik, Deutscher Verlag der Wissenschaften (11.Auflage 1988) [3] Gnedenko, B.W., Lehrbuch der Wahrscheinlichkeitsrechnung, Akademie Verlag Berlin (Neuauflage 1994; russisch 1954) [4] Kolmogorow, A.N., Grundbegriffe der Wahrscheinlichkeitsrechnung, Springer-Verlag (1933, Neuauflage 1973) [5] Renyi, A., Wahrscheinlichkeitstheorie, Deutscher Verlag der Wissenschaften (6.Auflage 1979) []
Neuere B¨ ucher
[6] Bauer, H., Wahrscheinlichkeitstheorie, Walter de Gruyter (4. Auflage 1991) 2, 5.1, 7.4 [7] Beichelt, F., Stochastik f¨ ur Ingenieure, Teubner (1995) [8] Beyer, O., H. Hackel und V. Pieper, Wahrscheinlichkeitsrechnung und mathematische Statistik, Teubner (8.Auflage 1999) 1 [9] Georgii, H.-O., Stochastik. Einf¨ uhrung in die Wahrscheinlichkeitstheorie und Statistik, Walter de Gruyter (2002) [10] G¨ohler, W. und B. Ralle, Formelsammlung H¨ohere Mathematik, Harry Deutsch (14.Auflage 1999) 14.3.1, 4 [11] Karr, A., Probability, Springer-Verlag (1993) [12] Krengel, U., Einf¨ uhrung in Wahrscheinlichkeitstheorie und Statistik, Vieweg Verlag Braunschweig (3.Auflage 1991) [13] Krickeberg, K. und H. Ziezold, Stochastische Methoden, Springer-Verlag (4.Auflage 1995) 9.1, 1 [14] Sachs, L., Angewandte Statistik. Anwendung statistischer Methoden, Springer-Verlag (10.Auflage 2002) [15] Storm, R., Wahrscheinlichkeitsrechnung, Mathematische Statistik und Statistische Qualit¨atskontrolle, Fachbuchverlag Leipzig (11.Auflage 2001) [16] Stoyan, D., Stochastik f¨ ur Ingenieure und Naturwissenschaftler, Akademie Verlag Berlin (1993) [17] Viertl, R., Einf¨ uhrung in die Stochastik, Springer-Verlag Wien (1997)
88
INDEX
Index σ-Additivit¨ at, 3 p-Wert, 75
Kovarianz, 24 -matrix, 24
Abweichung signifikante, 73 Alternative einseitige, 74 zweiseitige, 74
Maßraum, 3 Maß normiertes, 3 Wahrscheinlichkeits-, 6, 7
Bernoulli-Schema, 18 Dichte gemeinsame, 20 Erwartungswert, 9 Experiment Bernoulli-, 18 Produkt-, 17 unabh¨ angiges, 17 Fehler bei statistischen Tests, 73 erster Art, 74 zweiter Art, 74, 75 frequentistische Auffassung, 5 Funktion charakteristische, 45 G¨ ute-, 75 Verteilungs-, 8, 19 Gesetz Null-Eins-Gesetz, 5 Verteilungs-, 7 Hypothese Null-, 73 statistische, 73 Intervall Konfidenz-, 83 Inversionsmethode, 15 Korrelation -smatrix, 24 Korrelationskoeffizient, 24 empirischer, 78
Quantil, 13 -Funktion, 13 -Transformation, 15 Sch¨atzer effektiver, 67 Stichprobe konkrete, 67 mathematische, 67 Test, 73 Anpassungs-, 74 Parameter-, 74 Signifikanz-, 73, 74 Unabh¨angigkeit, 22 Ungleichung Boolesche, 4 Jensensche, 12 Markowsche, 11 Tschebyschewsche, 11 Vektor zuf¨alliger, 19 Zufalls-, 19 Verteilung hypergeometrische, 6 Verwerfungsmethode, 15 Volladditivit¨at, 3 Wahrscheinlichkeit, 3 Irrtums-, 74 subjektive, 5 WahrscheinlichkeitsMaß, 3 Verteilung, 3 Wahrscheinlichkeitsraum, 3 Bild-, 7
INDEX Zufallsgr¨ oße, 7 Unabh¨ angigkeit von ˜n, 22 Zufallsvariable, 7 Zufallsvektor, 19 Zufallszahlen-Erzeugung, 13
89