Stochastische Methoden Vorlesungsskript WS 2005/2006 Universit¨at Kaiserslautern Rainer Siegmund-Schultze 11. M¨arz 2006
Inhaltsverzeichnis 1 Einleitung
2
2 Grundbegriffe
4
2.1 2.2 2.3 2.4
Vorbemerkungen zur Axiomatik Unabh¨ angigkeit von Ereignissen Unendliche Ereignisr¨ aume . . . Die Verteilungsfunktion . . . .
der WT . . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
4 8 9 15
3 Abgeleitete Zufallsgr¨ oßen und Unabh¨ angigkeit
18
4 Bedingte Verteilungen
21
5 Die geometrische und die Exponentialverteilung
24
6 Binomialverteilung, Normalverteilung und der Grenzwertsatz von Moivre-Laplace 25 7 Erwartungswert und Varianz 7.1 Kovarianzmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Das schwache Gesetz der großen Zahlen im Fall endlicher Varianz 7.3 Mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . .
37 43 44 46
8 Ein Anwendungsbeispiel f¨ ur das Gesetz der großen Zahlen: Der Kodierungssatz von Shannon 51 9 Das Lemma von Borel-Cantelli und die fast sichere Konvergenz der H¨ aufigkeiten 57
1
10 Das Starke Gesetz der großen Zahlen f¨ ur unabh¨ angige Zufallsgr¨ oßen 62 11 Einige Grundbegriffe der Mathematischen Statistik 69 11.1 Hypothesentests und relative Entropie . . . . . . . . . . . . . . . 73 12 Stochastische Prozesse 79 12.1 Markowsche Prozesse mit diskretem Zustandsraum und diskreter Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 13 Anhang: Integration u aumen ¨ber Maßr¨ 13.1 Nichtnegative Funktionen . . . . . . . 13.2 Das Integral reellwertiger Funktionen . 13.3 Vektorwertige Funktionen . . . . . . . 13.4 Lp -R¨ aume meßbarer Funktionen . . . 13.5 Die Jensensche Ungleichung . . . . . . 14 Index
1
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
100 100 102 104 104 107 108
Einleitung
Diese Vorlesung wird Sie mit den Grundlagen einer Teildisziplin der Mathematik vertraut machen, in deren Zentrum der Zufallsbegriff steht. Zufall ist eigentlich der Inbegriff von Regellosigkeit und steht damit zun¨ achst in einem ziemlichen Gegensatz dazu, daß die Mathematik ja gerade diejenige Wissenschaft ist, die die in der Realit¨ at anzutreffenden formalisierbaren Regeln und Strukturen und die daraus logisch ableitbaren Aussagen untersucht, etwa in klassischen Disziplinen wie der Algebra, der Geometrie, Zahlentheorie, Analysis oder mathematischer Logik. Sie stellt Modelle bereit, mit deren Hilfe sich Vorhersagen u ¨ber das Verhalten realer Systeme, abgeleitet aus deren strukturellen Eigenheiten und inneren Gesetzm¨ aßigkeiten, ergeben. Andererseits wird ein eintretendes Ereignis als zuf¨ allig bezeichnet, wenn es sich gerade nicht auf irgendeine Weise aus den bekannten Anfangsbedingungen und Gesetzm¨ aßigkeiten heraus erkl¨ aren l¨ aßt. Seit je versucht der Mensch, die einer Abfolge von Ereignissen zugrunde liegenden inneren Gesetzm¨ aßigkeiten umfassend zu ergr¨ unden, um aus dieser Erkenntnis Nutzen zu ziehen. Der (objektive) Zufall ist aber ein Moment, in dem etwas im Kern grundloses passiert, etwas, das in dem konkreten Ergebnis unvorhersehbar ist, sich nicht aus der Vergangenheit eindeutig ableiten l¨ aßt. Wie kann denn das definitiv unvorhersehbare Gegenstand einer wissenschaftlichen, noch dazu mathematischen Disziplin sein?? Es ist doch eigentlich -an dieser Stelle- eine Bankrotterkl¨ arung der Wissenschaft schlechthin, oder nicht? Tats¨ achlich sind viele Menschen der Auffassung, so etwas wie Zufall g¨ abe es gar nicht, d.h. wenn wir etwas als zuf¨ allig ansehen, h¨ atten wir nur nicht das notwendige genaue Wissen u aßigkeiten. ¨ber Anfangsbedingungen oder die Gesetzm¨ 2
Von A. Einstein gibt es die ber¨ uhmte Feststellung: ”Der liebe Gott w¨ urfelt nicht!” Ganz bestimmt gibt es unz¨ ahlige Situationen, in denen es tats¨ achlich sehr schwer oder unm¨ oglich ist, schon alleine die notwendigen Informationen zu sammeln, obwohl die Gesetzm¨ aßigkeiten der Abfolge m¨ oglicherweise genau bekannt sind. 1. So weiß man seit langem, daß z.B. die Differentialgleichungen, die die Str¨omung von Fl¨ ussigkeiten und Gasen beschreiben, in bestimmten Situationen (niedrige Viskosit¨at, hohe Str¨omungsgeschwindigkeiten) folgendes Verhalten zeigen: Macht man bei der Bestimmung der Anfangsbedingungen einen (unvermeidlichen) Fehler der Ordnung ε, dann betr¨agt die Abweichung nach einer Zeiteinheit schon 10ε, nach zwei Zeiteinheiten 100ε u.s.w., das heißt nach n Zeiteinheiten 10n ε. Der Fehler w¨achst also exponentiell mit der Zeit. (!Pct!) Es ist in solchen Situationen nat¨ urlich unm¨ oglich langfristige Vorhersagen zu treffen. Man m¨ ußte alle eingehenden Parameter mit einer Genauigkeit von 100 Stellen messen, um den Zustand des Systems nach 100 Zeitschritten auch nur ann¨ahernd vorherzusagen, was selbstverst¨andlich physikalisch v¨ollig unrealistisch ist. Die besten Meßapparaturen liefern vielleicht 10 bis 15 g¨ ultige Stellen. Von D. Ruelle stammt die Bemerkung: ”Consider an air molecule in a room. Now remove a single electron from the far edge of the universe–10 billion light years away. The gravitational force (!) acting on the air molecule will now be ever-so-slightly different. Nevertheless, after only about fifty collisions with other air molecules, which takes place in a fraction of a second, the path of the target molecule will have diverged so much from its original trajectory that it will miss one of the molecules it would have hit originally; thereafter, the new and old trajectories will have nothing in common.” In der Theorie der Dynamischen Systeme nennt man ein solches Verhalten sensible Abh¨ angigkeit von den Anfangsbedingungen, popul¨ ar geworden ist dies als ”Schmetterlingseffekt” im Sinne der ”Chaostheorie”, oder eben ”kleine Ursache-große Wirkung”. Klar ist also, daß es -ob man nun die Existenz von objektivem Zufall anerkennt oder nicht- st¨ andig Situationen gibt, in denen zumindest subjektiver Zufall eine Rolle spielt, d.h. die praktische Unm¨ oglichkeit der Bestimmung der Systemparameter, so genau, um u ¨ber das Eintreten oder nicht Eintreten eines bestimmten Ereignisses vorher urteilen zu k¨ onnen. 3
2. Die moderne Physik in Gestalt der Quantenmechanik kennt Situationen, in denen schon die bloße Annahme irgendeiner Form von Vorbestimmtheit in unaufl¨ osbare logische Widerspr¨ uche f¨ uhrt, in denen also nicht viel mehr u ¨brig bleibt, als die Existenz sogar von objektivem Zufall zu akzeptieren. Da in einer vollst¨andig deterministisch ablaufenden Welt offenbar kein Raum f¨ ur freien Willen bleibt (vgl. aktuelle Diskussionen zu dieser Problematik!), ist dieser Umstand eher als gl¨ ucklich anzusehen. Wir werden uns bald mit einem solchen aus physikalischer Sicht rein zuf¨ alligen Ph¨ anomen, dem Zeitpunkt des radioaktiven Zerfalls eines instabilen Atoms, etwas n¨ aher besch¨ aftigen im Zusammenhang mit dem Begriff der Exponentialverteilung, einem grundlegenden Begriff in der Wahrscheinlichkeitstheorie. Was also kann Mathematik u ¨berhaupt leisten in Situationen, in denen Vorhersage extrem schwierig oder unm¨ oglich ist? Der Schl¨ ussel zur Antwort liegt zum Einen im Gesetz der großen Zahlen, einer zun¨ achst empirischen Beobachtung, daß unter gleichartigen Bedingungen auftretende Zufallsereignisse auf lange Sicht eine merkw¨ urdige Konstanz der H¨ aufigkeiten zeigen, die die Regellosigkeit der Einzelereignisse asymptotisch ’aushebelt’. Es ist, ein wenig paradoxerweise, gerade so, daß um so zuf¨ alliger ein Ereignis tats¨ achlich ist, man sich um so mehr auf das Gesetz der ¨ großen Zahlen verlassen kann. Uberall dort hingegen, wo man sich nicht sicher sein kann, ob es nicht doch einen verborgenen inneren Zusammenhang gibt, der gerade diese beobachtete Ereignisabfolge generiert, bleibt die Zul¨ assigkeit der Anwendung der Gesetze der Wahrscheinlichkeitstheorie zweifelhaft. Einschub: Himmelsmechanik -KAM-Theorie als gegenteiliges Beispiel, ebenso Mathematik: ’normale Zahlen’ !Pict!
2 2.1
Grundbegriffe Vorbemerkungen zur Axiomatik der WT
Als mathematische Disziplin ist die Wahrscheinlichkeitstheorie in gewissem Sinne Maßtheorie. Die allgemeine Situation ist folgende: Wir betrachten irgendeine Menge M von Elementarereignissen m ∈ M . (!Pic!) Wir stellen uns vor, daß aufgrund eines hier nicht n¨ aher zu beschreibenden Vorgangs ein Element von M zuf¨ allig ausgew¨ ahlt wird, also eines der elementaren Ereignisse m ∈ M . Wir m¨ ochten nun f¨ ur eine Teilmenge M 0 ⊆ M wissen, wie wahrscheinlich es ist, daß das ausgew¨ ahlte Element m gerade in M liegt. D.h., wie wahrscheinlich das zusammengesetzte (also i.A. nicht mehr elementare) Ereignis M 0 ist. 4
Beispiel. Ein Fahrzeug f¨ahrt von A nach B, es trifft nach einer Zeit t > 0 in B ein. Dieser eine Zeitpunkt t ∈ R+ =: M ist von vielen praktisch unvorhersehbaren kleinen Details beeinflußt. M 0 k¨onnte etwa die Menge (0, 2) sein, was der Aussage entspricht, daß das Fahrzeug weniger als zwei Stunden ben¨otigt. Dieses Ereignis setzt sich zusammen aus allen m¨oglichen konkreten Fahrzeiten t unter zwei Stunden. Also sollte eine Wahrscheinlichkeitsverteilung eine Funktion sein, die bestimmten Teilmengen M 0 ⊆ M eine Zahl zwischen 0 und 1 zuordnet (1 ∼ = 100%). (Wir werden sp¨ ater sehen, daß es schon im obigen Beispiel unm¨ oglich ist, tats¨ achlich allen Teilmengen von M auf konsistente Weise eine solche Wahrscheinlichkeit zuzuschreiben.) Das ist zun¨ achst nur eine (mehr oder weniger begr¨ undete) quantitative Angabe, ein Maß daf¨ ur, wie plausibel das Ereignis M 0 ist. Plausibel klingt nat¨ urlich wenig pr¨ azise, und subjektiv. Nehmen wir das allereinfachste Beispiel: Jemand wirft eine (perfekt symmetrische) M¨ unze. Dann ist M = {’Zahl’, ’Kopf’}, was wir einfacher durch M = {0, 1} symbolisieren wollen. Es ist nun, wenn der Werfer nicht schummelt, ’plausibel’, beiden m¨oglichen Elementarereignissen jeweils 50% ∼ = 0, 5 der Wahrscheinlichkeit zuzuschreiben. Tats¨achlich besitzt hier das Plausible einen objektiven Charakter. Dieses Experiment ist ja auf die eine oder andere Weise unz¨ahlige Male durchgef¨ uhrt worden, und man beobachtet immer wieder, daß, wenn man es lange genug probiert, die Anzahl der 1’en (’Kopf ’) tats¨achlich nahe bei 50% liegt. =⇒Gesetz der großen Zahlen Das erscheint sogar ein wenig eigenartig: Gibt es irgendeine omin¨ ose ausgleichende Kraft, die daf¨ ur sorgt, daß nach 7 mal ’0’ entsprechend viele ’1’ folgen, damit sich alles auf 50% einpegelt? (’ausgleichende Gerechtigkeit’)? Tats¨achlich neigen viele intuitiv zu einer ¨ahnlichen Sichtweise, bzw. wenn es ’nicht so gut l¨auft’ zum Gegenteil (’Pechstr¨ahne’). Was steckt hinter dieser Gesetzm¨aßigkeit? Wenn wir 100x die M¨ unze werfen, ist doch schließlich [0, 0, 0, ..., 0] ebenso wahrscheinlich wie [1, 0, 1, 0, 1, ..., 0] oder [1, 1, 1, ..., 1]! Wieso werden Folgen mit nahezu 50% Eins-Anteil ’bevorzugt? Antwort: Es gibt einfach unglaublich viel mehr 100’er-Folgen, deren ’1’-Anteil zwischen 45% und 55% liegt, als solche, wo dieser Anteil etwa zwischen 0% und 10% liegt. Das Verh¨ altnis der Anzahlen liegt bei mehr als 1016 ! Bei 1000’er-Folgen ist es schon gr¨ oßer als 10161. Betrachtet man Folgen der L¨ ange 10000, dann gibt es mehr als 1022 mal so viele Sequenzen, deren ’1’-Anteil zwischen 45% und 55% liegt, als alle u ¨ brigen zusammengenommen (also als diejenigen, deren ’1’Frequenz um mehr als 5% vom Idealwert abweicht). Es bestehen also weitaus gr¨ oßere Chancen, ein einzelnes markiertes Sandkorn in der Sahara zu finden, als diese 5% Abweichung bei einer Folge aus 10000 M¨ unzw¨ urfen. Was hier am einfachsten m¨ oglichen Beispiel (die Menge der Elementarereignisse besteht nur aus zwei Elementen genau gleicher Wahrscheinlichkeit) 5
erl¨ autert wurde, deckt sich mit der allgemeinen Beobachtung (empirisches Naturgesetz): Bei reproduzierbaren Zufallsvorg¨ angen pegelt sich die H¨ aufigkeit des Auftretens eines beliebigen Ereignisses M 0 auf seine Wahrscheinlichkeit P (M 0 ) ein: 1 N P (M 0 ), wobei f (M 0 ) N groß N 1 f1N (M 0 ) : = #{i : mi ∈ M 0 , 1 ≤ i ≤ N }. Hier ist mi das bei der i-ten Beobachtung eintretende zuf¨ allige Elementarereignis. Bemerkung: Es wurde hier bewußt nicht etwa limN →∞ N1 f1N (M 0 ) = P (M 0 ) geschrieben, weil es sich hier um reale Beobachtungen handelt, bei denen naturgem¨aß der Limesbegriff wegen der Endlichkeit jeder Beobachtungsreihe nicht streng anwendbar ist. Der Versuch einer solchen ’empirischen’ Limes-Definition des Begriffs Wahrscheinlichkeit durch Richard von Mises anstelle der axiomatischen Begr¨ undung (im Rahmen der Maßtheorie)durch Andrej N. Kolmogorov hat sich deshalb nicht durchsetzen k¨onnen. Wir setzen nun zun¨ achst voraus, M sei eine endliche Menge (im ersten Beispiel mit dem Fahrzeug ist M = R+ , also u ahlbar unendlich). Wie ¨berabz¨ wir eben an dem einfachen Beispiel des M¨ unzwurfes gesehen haben, l¨ aßt sich das empirische Naturgesetz ’Gesetz der großen Zahlen’ in sehr vielen F¨ allen durchaus n¨ aher begr¨ unden. Seien nun zwei sich gegenseitig ausschließende Ereignisse M 0 , M 00 ⊆ M gegeben, also M 0 ∩ M 00 = ∅. (!pic!) Wenn wir davon ausgehen, daß 1 N f (M 0 ) N 1 1 N f (M 00 ) N 1
P (M 0 ) sowie P (M 00 )
dann ergibt sich aus der Disjunktheit der beiden Mengen sofort 1 N 1 N f1 (M 0 ∪ M 00 ) = f1 (M 0 ) + f1N (M 00 ) N N
P (M 0 ) + P (M 00 ).
Aus dieser (heuristischen!) Betrachtung folgt, daß -f¨ ur den Fall der Endlichkeit von M - die Mengenfunktion P folgende Eigenschaften haben muß: a) b)
P : P(M ) 7→ [0, 1] (Mengenfunktion) P (M ) = 1 (Normiertheit)
c) P (M 0 ∪ M 00 ) = P (M 0 ) + P (M 00 ) falls M 0 ∩ M 00 = ∅ (Additivit¨ at). Das heißt, P muß ein normiertes Maß auf der endlichen Menge M sein. Es folgt sofort aus c), daß gelten muß P (∅) = 0, außerdem ergibt sich durch 6
vollst¨ andige Induktion f¨ ur ein beliebiges System paarweise disjunkter Teilmengen {Mi }ni=1 , Mi ⊆ M, Mi ∩ Mj = ∅ f¨ ur i 6= j: ! n n X [ P P (Mi ) (endliche Additivit¨ at). Mi = i=1
i=1
Bemerkung 1.: Aufgrund von c) kennen wir P komplett, wenn wir pm := P ({m}) f¨ ur jedes Elementarereignis m ∈ M kennen: X pm . P (M 0 ) = m∈M 0
0 Hier haben wir entscheidend benutzt, daß M (und demzufolge auch MP ) endlich 0 ist, denn f¨ ur u ahlbar unendliches M ist der Ausdruck ¨ berabz¨ m∈M 0 pm nicht definiert, w¨ahrend f¨ ur abz¨ ahlbar unendliches M 0 die endliche Additivit¨ at nicht ausreicht, um die Formel zu begr¨ unden.
Bemerkung 2.: Wenn aufgrund der Symmetrie der Situation klar ist, daß alle Elementarereignisse gleiche Chance haben, so wie im Fall der (perfekten) M¨ unze oder eines perfekten W¨ urfels, beim Roulette oder Zahlenlotto, dann gilt wegen c) pm
=
P (M 0 )
=
1 , also #M #M 0 . #M
Dies wird u ¨ blicherweise durch die Feststellung: Wahrscheinlichkeit = (Anzahl der g¨ unstigen F¨ alle)/(Anzahl aller F¨ alle) zum Ausdruck gebracht, die sich aber wie gesagt nur auf den Fall bezieht, daß alle Einzelf¨alle gleichwahrscheinlich sind. Damit ist die Bestimmung von Wahrscheinlichkeiten im Fall der Symmetrie eine Aufgabe der Kombinatorik geworden, n¨amlich geht es nur noch um die kombinatorische Bestimmung der Anzahl der Elemente von endlichen Mengen. Bemerkung 3.: Der Begriff des Elementarereignisses und damit die passende Wahl der Menge M ist situationsbedingt. So kann es sein, daß f¨ ur eine bestimmte Frage nicht die konkret gew¨ urfelte Augenzahl eines W¨ urfels von Interesse ist, sondern nur, ob die Zahl gerade oder ungerade ist. Dann k¨onnen wir die zusammengesetzten Ereignisse M u = {1, 3, 5} bzw. M g = {2, 4, 6} durch f = {’g’, ’u’} zu EleVergr¨ oberung des Ereignisraumes M = {1, 2, ..., 6} zu M mentarereignissen vereinfachen. Bemerkung 4.: Die letzten beiden Bemerkungen sind von einiger Bedeutung f¨ ur die Wahrscheinlichkeitstheorie endlicher Mengen, denn sie f¨ uhrt dazu, daß 7
man im Prinzip nicht nur im Fall von Symmetrie sondern in viel allgemeinerem Sinne f¨ ur endliches M die Kombinatorik als S¨ aule der diskreten Wahrscheinlichkeitstheorie ansehen kann: Sind n¨amlich alle auftretenden Einzelwahrscheinlichkeiten pm rationale Zahlen rRm , wobei R ein gemeinsamer Nenner ist, dann k¨onnen wir den den Ereignisraum M k¨ unstlich durch Verfeinerung so modifizieren, daß das Elementarereignis m ∈ M durch die Menge M m := {[m, 1], [m, 2], ..., [m, rm ]} von geordneten Paaren ersetzt wird, wobei wir allen diesen Paaren dieselbe Wahrscheinlichkeit R1 zuordnen. Damit sind wir im durch Bemerkung 2. beschriebenen Fall.
2.2
Unabh¨ angigkeit von Ereignissen
Ein zentraler Begriff in der Stochastik ist die Unabh¨ angigkeit. Dabei geht man zun¨ achst davon aus, zwei zuf¨ allige Ereignisse M 0 , M 00 in ganz allt¨ aglichem Sinn als unabh¨ angig voneinander anzusehen, wenn ihr Zustandekommen in keinerlei kausalem Zusammenhang steht, wenn also die Information dar¨ uber, daß M 0 eingetreten ist, nicht den geringsten R¨ uckschluß auf die Frage zul¨ aßt, ob M 00 eingetreten ist. Wenn wir etwa zwei W¨ urfel gleichzeitig werfen, dann kann man bei (fairem) Wurf davon ausgehen, daß etwa die Information, der erste W¨ urfel zeige die 1, nichts daran ¨ andert, daß f¨ ur die Augenzahl des zweiten W¨ urfels die Gleichverteilung anzunehmen ist. In der allgemeinen Situation bedeutet das folgendes: Wenn wir das zu einer Wahrscheinlichkeitsverteilung geh¨ orende Zufallsexperiment unter identischen Bedingungen sehr oft (N mal) durchf¨ uhren, dann k¨ onnen wir aufgrund der (heuristischen) Relation 1 N f (M 0 ) P (M 0 ) N groß N 1 davon ausgehen, daß die Anzahl der F¨ alle, in denen M 0 eintritt, nahe bei N 0 := 0 [N · P (M )] liegt. (Hier bezeichnet [x] den ganzen Teil einer reellen Zahl x.) Nun haben wir vorausgesetzt, daß das Eintreten von M 0 keinen R¨ uckschluß zul¨ aßt bzgl. M 00 . Wenn wir also nur jene ≈ N 0 Experimente betrachten, in denen jeweils M 0 eingetreten ist (und die restlichen f¨ ur den Augenblick vergessen), dann wird der Anteil derjenigen Versuche, in denen sich auch M 00 ereignet hat wegen 1 N0 f (M 00 ) 0 N N0 1
groß
P (M 00 )
nahe bei P (M 00 ) liegen. Dazu gen¨ ugt es, daß N 0 hinreichend groß ist, als N · 0 0 P (M ). Falls nicht gerade P (M ) = 0 ist, k¨ onnen wir also davon ausgehen, falls N groß genug ist. Der Fall P (M 0 ) = 0 soll uns im Moment nicht interessieren (er bedeutet, daß wir von vornherein davon ausgehen k¨ onnen, daß M 0 nicht eintreten wird). (!pic!) 8
Also wird die Anzahl der F¨ alle, in denen M 0 und M 00 eintreten, d.h. M 0 ∩M 00 , 0 00 nahe bei N · P (M ) = [N · P (M 0 )] · P (M 00 ) ≈ N · P (M 0 )P (M 00 ) liegen. Die Heuristik zeigt also, daß 1 N f (M 0 ∩ M 00 ) N N 1
groß
P (M 0 )P (M 00 ).
Folglich kommen wir zu der Relation u)
P (M 0 ∩ M 00 ) = P (M 0 )P (M 00 )
f¨ ur M 0 , M 00 unabh¨ angig.
Daher definiert man die Unabh¨ angigkeit zweier Ereignisse M 0 , M 00 durch die G¨ ultigkeit der Relation u). Bezeichnet etwa im oben betrachteten Beispiel M 0 das Ereignis {[1, 1], [1, 2], ..., [1, 6]} (d.h. der erste W¨ urfel zeigt eine 1) und M 00 das Ereignis {[1, 3], [2, 3], ..., [6, 3]} (der zweite W¨ urfel zeigt eine 3), dann gilt aufgrund der Symmetrie und damit Gleichwahrscheinlichkeit aller 36 m¨ oglichen Elementarereignisse [i, j] : P (M 0 ) P (M 0 ∩ M 00 )
1 1 = = P (M 00 ) sowie 36 6 1 = P ({[1, 3]}) = = P (M 0 )P (M 00 ) 36 = 6
wie erwartet. Beispiel: Wir betrachten den Wurf zweier M¨ unzen, wobei eine Seite wie ublich mit 0, die andere mit 1 bezeichnet wird. Der Ereignisraum ist also M ¨ = {[i, j] : i, j ∈ {0, 1}}. M 0 , M 00 seien die Menge M 0 := {[i, j] ∈ M : i + j ist gerade} = {[0, 0], [1, 1]} bzw. M 00 := {[i, j] ∈ M : i = 1}. Wieder ist leicht zu sehen, daß gilt P (M 0 ∩ M 00 ) = P ({[1, 1]}) =
1 = P (M 0 )P (M 00 ). 4
Das Beispiel zeigt, daß Unabh¨angigkeit auch bestehen kann, wenn es sich nicht einfach um Ereignisse handelt, von denen sich jedes nur auf eins von zwei v¨ollig getrennten Objekten bezieht ( M 0 ist eine gemeinsame Eigenschaft der beiden M¨ unzen).
2.3
Unendliche Ereignisr¨ aume
In der klassischen Phase der Wahrscheinlichkeitstheorie wurde in allererster Linie der eben betrachtete Fall eines endlichen Ereignisraumes M in Betracht gezogen und man untersuchte die dabei auftretenden kombinatorischen Fragen, etwa im Zusammenhang mit Gl¨ ucksspielen. Wenden wir uns nun dem Fall zu, daß die zugrundeliegende Menge M nicht mehr endlich, aber wenigstens abz¨ ahlbar unendlich ist, etwa die Menge der nat¨ urlichen Zahlen N. Wie oben schon festgestellt, reicht in diesem Falle die 9
Eigenschaft c) nicht aus, um die Wahrscheinlichkeiten von zusammengesetzten Ereignissen auf die von Elementarereignissen zur¨ uckzuf¨ uhren. Aber auch in diesem Fall kann man ¨ ahnliche heuristische H¨ aufigkeitserw¨ agungen wie oben anstellen, und zu dem Schluß kommen, daß man sinnvollerweise anstelle von c) die entsprechend st¨ arkere Forderung stellen muß: F¨ ur ein beliebiges System paarweise disjunkter Teilmengen {Mi }∞ i=1 mit Mi ⊆ M, Mi ∩ Mj = ∅ f¨ ur i 6= j soll gelten ! ∞ ∞ X [ P (Mi ) . Mi = c’) P i=1
i=1
Dies impliziert erneut P (∅) = 0 und nat¨ urlich auch c), wenn wir einfach M3 = M4 = ... = ∅ w¨ ahlen. Diese Eigenschaft heißt σ-Additivit¨ at. Aus ihr ergibt sich dann auch im abz¨ ahlbar unendlichen Fall die Eigenschaft X pm P (M 0 ) = m∈M 0
0
f¨ ur beliebige Teilmengen von M ∈ P(M ). Bemerkung: Es gibt normierte Mengenfunktionen auf P(N), die endlich additiv, aber nicht σ-additiv sind, z.B. solche, die jeder nat¨ urlichen Zahl n ∈ N das Maß 0 zuordnen, obwohl sie N das Maß 1 geben (Normiertheit). Diese ’exotischen’ Maße sind aber nicht konstruktiv angebbar und spielen in der ¨ ublichen Wahrscheinlichkeitstheorie keine Rolle. Eine Mengenfunktion mit den Eigenschaften a), b) und c’) ist im Sinne der Maßtheorie ein normiertes (σ-additives) Maß auf dem Mengensystem P(M ) u ahlbaren Menge M . Wir stellen fest, daß im betrachteten ¨ber der abz¨ Fall weiterhin jeder beliebigen Teilmenge von M ein Maß (Wahrscheinlichkeit) zugeordnet werden kann. Dieser Umstand geht im Falle eines u ahlbar unendlichen M im ¨ berabz¨ Allgemeinen leider zwangsl¨ aufig verloren. Bestimmten -allerdings wiederum ’exotischen’, nicht konstruktiven Teilmengen von R kann man im Allgemeinen auf keine sinnvolle Weise eine Wahrscheinlichkeit zuordnen (wenn man die σ-Additivit¨ at ber¨ ucksichtigt). Sie sind nicht meßbar. Damit werden Wahrscheinlichkeitstheorie und Mathematische Statistik in diesen F¨ allen erheblich komplizierter, weil man sich oft um die Frage der Meßbarkeit Gedanken machen muß. Wir m¨ ussen uns also im u ahlbaren Fall auf eine echte Teilmenge ¨berabz¨ A ⊂ P(M ) beschr¨ anken, P wird also nur noch eine Abbildung von A nach [0, 1] sein. Definition 1 Eine Teilmenge von P(M ) heißt σ-Algebra (¨ uber M ), falls die folgenden Eigenschaften erf¨ ullt sind: 1. M ∈ A 2. f¨ ur jedes M 0 ∈ A liegt auch M \ M 0 in A. S ∞ 3. f¨ ur alle Folgen (Mi )∞ i=1 , Mi ∈ A gilt auch i=1 Mi ∈ A. 10
Es wird also gefordert, daß das sichere Ereignis meßbar sein soll, weiterhin mit einem Ereignis auch das komplement¨ are Ereignis, und da die σAdditivit¨ at des Wahrscheinlichkeitsmaßes eine wichtige Eigenschaft ist, auf die man nicht verzichten will, ist es sinnvoll zu fordern, daß A gegen¨ uber der Bildung abz¨ ahlbarer Vereinigungen abgeschlossen sein soll. Aus 1. und 2. folgt sofort, daß auch die leere Menge (das unm¨ ogliche Ereignis) ∅ zu A geh¨ ort, und aufgrund der aus der elementaren Mengenlehre bekannten Beziehung zwischenT Komplementbildung und der Vereinigung von S∞ ∞ Mengen (M \ i=1 (M \Mi ) = i=1 Mi ) ergibt sich aus 1.-3., daß eine σ-Algebra auch gegen¨ uber der Bildung abz¨ ahlbarer Durchschnitte abgeschlossen ist: ∞ \ F¨ ur alle Folgen (Mi )∞ , M ∈ A gilt auch Mi ∈ A. i i=1 i=1
Beispiele f¨ ur σ-Algebren u ¨ber einer beliebigen Menge M sind: - das System {∅, M } (es ist allerdings nicht besonders interessant, Wahrschenlichkeitstheorie auf dieser σ-Algebra zu betreiben) - die komplette Menge P(M ) (aber wie gesagt ist diese σ-Algebra im Allgemeinen zu groß). Eine wichtige Eigenschaft von σ-Algebren ist, daß der Durchschnitt eines beliebigen Systems von σ-Algebren selbst wieder eine σ-Algebra ist: Sei I eine Indexmenge (evtl. u ahlbar) und (Aα )α∈I ein System von σ-Algebren u ¨berabz¨ ¨ber einer Menge M . Dann gilt: T Lemma 2 α∈I Aα ist eine σ-Algebra. Der Beweis dieser Aussage ist ganz einfach: Alle Aα enthalten das T Element M wegen 1., also auch ihr Durchschnitt. Wenn eine Menge M 0 in α∈I Aα enthalten ist, dann ist es in allen Aα enthalten, folglich ist nach 2. auch M \ M 0 in allen Aα enthalten, als auch in deren Durchschnitt, und analog wird 3. gezeigt.
Diese Aussage erm¨ oglicht die Konstruktion von σ-Algebren, die reichhaltig genug sind, um z.B. f¨ ur den Fall M = R alle Intervalle (a, b) und allgemeiner alle offenen Mengen zu umfassen, andererseits aber nicht zu groß sind (wie schon festgestellt ist etwa P(M ) f¨ ur u ahlbares M ungeeignet). ¨berabz¨ Wir werden uns in dieser Vorlesung haups¨ achlich mit abz¨ ahlbaren M und dem Fall befassen, daß M der d-dimensionale euklidische Raum Rd (bzw. eine geeignete Teilmenge davon) ist. Es sei O das System der offenen Teilmengen eines metrischen (oder allgemeiner topologischen Raumes) M , z.B. des Rd . T Definition 3 Die σ-Algebra B(M ) := {A : A ist σ-Algebra ¨ uber M , A ⊃ O} heißt die Borelsche σ-Algebra ¨ uber dem metrischen (topologischen) Raum M . Eine Teilmenge M 0 ⊆ M heißt Borel-meßbar, wenn M 0 ∈ B(M ).
11
Bemerkung: Da P(M )⊃ O, gibt es mindestens eine σ-Algebra, die O umfaßt. Wir werden sp¨ ater sehen, daß die auf diese Weise definierte σ-Algebra gut an die Belange der Wahrscheinlichkeitstheorie angepaßt ist. Es sei A eine σ-Algebra u ¨ber einer Menge M . Dann heißt das Tupel [M, A] meßbarer Raum. Definition 4 P heißt Wahrscheinlichkeitsmaß auf dem meßbaren Raum [M, A] falls: 1. P : A 7−→ [0, 1], 2. P (M ) = 1, 3. P ist σ-additiv. Das Tupel [M, A, P ] heißt Wahrscheinlichkeitsraum. Ein Wahrscheinlichkeitsmaß ist der Spezialfall eines Maßes. Definition 5 µ heißt Maß auf dem meßbaren Raum [M, A] falls: 1. µ : A 7−→ [0, +∞], 2. µ ist σ-additiv. Das Tupel [M, A, µ] heißt Maßraum. D.h. ein Wahrscheinlichkeitsmaß ist ein (auf 1) normiertes Maß. Ein Wahrscheinlichkeitsmaß ist also auch im allgemeinen Fall ein Objekt, das bestimmten Teilmengen einer umfassenden Menge M , n¨amlich den meßbaren Teilmengen (Ereignissen) ihre Wahrscheinlichkeit zuschreibt, wobei P (M ) = 1 und σ-Additivit¨at gelten. Wir sind nun auch in der Lage, etwa mit dem Fall der Menge Rd zu arbeiten, als meßbare Mengen w¨ ahlen wir B(Rd ). Aus der Analysis ist bekannt, daß es auf B(Rd ) genau ein ausgezeichnetes Maß µL (das Lebesguesche Maß) gibt, das die folgenden beiden Eigenschaften besitzt: 1. µL ([0, 1]d ) = 1 und 2. µL (B) = µL (B + x) f¨ ur alle B ∈ B(Rd ) und x ∈ Rd , wobei B + x := {y ∈ Rd : y − x ∈ B} die um den Vektor x verschobene Menge B ist. Dieses Maß verallgemeinert den klassischen Volumenbegriff auf alle Borelschen Mengen (sogar auf eine noch gr¨ oßere σ-Algebra, die Lebesguesche σ-Algebra, die wir hier aber nicht betrachten). Dieses (unendliche, da µL (Rd ) = +∞) Maß, wird, eingeschr¨ ankt auf die σ-Algebra B([0, 1]d ) (also wenn d d wir den Maßraum [[0, 1] , B([0, 1] ), µL ((·) ∩ [0, 1]d )] betrachten) wegen 1. zu einer Wahrscheinlichkeitsverteilung. Diese heißt Gleichverteilung auf [0, 1]d . Generell k¨ onnen wir f¨ ur jede Borelsche Menge C ⊂ Rd , die endliches positives ein Wahrscheinlichkeitsmaß einf¨ uhren, die Maß hat, durch den Ansatz µLµ((·)∩C) L (C) Gleichverteilung auf C. So wie im Falle einer endlichen Teilmenge E von Z die Gleichverteilung auf E durch Normierung des Z¨ ahlmaßes # entsteht: #((·)∩E) #(E) , genauso ist dies nun 12
im u ahlbaren Fall des Rd , wobei anstelle der Eigenschaft der diskreten ¨berabz¨ Gleichverteilung, allen Elementarereignissen gleiche Wahrscheinlichkeit zuzuordnen, nun die Eigenschaft 2. getreten ist, wobei wir vorauszusetzen haben, daß in 2. sowohl B als auch B + x ganz in C liegen. (!pic!) (Sofern Sie in der Analysis noch nicht mit dem Lebesgueschen Maß vertraut gemacht wurden, denken Sie zun¨ achst einfach an das u ¨bliche d-dimensionale Volumen von Mengen.) Das Lebesguesche Maß µL auf [Rd , B(Rd )] ist kein endliches Maß, denn es gilt ja µL (Rd ) = +∞. Es ist aber immer noch σ-endlich im Sinne von: Definition 6 Ein Maß µ auf einem meßbaren Raum [M, A] S∞heißt σ-endlich, falls es eine Folge (Mi )∞ von Mengen aus A gibt, so daß i=1 i=1 Mi = M gilt, sowie µ(Mi ) < +∞. S Denn es gilt ja x∈Zd (0, 1]d + x = Rd sowie µL ((0, 1]d +x) = µL ((0, 1]d ) = 1 nach Definition des Lebesgueschen Maßes. Bemerkung. Die Gleichverteilung auf einer Teilmenge B ⊂ Rd , 0 < µ(B) < +∞ hat die Eigenschaft, daß alle Elementarereignisse die Wahrscheinlichkeit 0 haben! Es gilt n¨amlich f¨ ur alle x ∈ Rd daß µL ({x}) = 0. Ein Maß mit dieser Eigenschaft heißt diffus. Es ist im Gegensatz zum abz¨ahlbaren oder endlichen Fall nicht mehr so, daß ein Wahrscheinlichkeitsmaß durch seine Werte auf s¨amtlichen Elementarereignissen definiert ist, denn es gibt sehr viele diffuse W-Maße auf ein und derselben Menge B ⊂ Rd , 0 < µ(B) < +∞ (z.B. jede Gleichverteilung auf einer Teilmenge B 0 ⊂ B l¨aßt sich ja auch als Verteilung auf B ansehen). Einschub: Vitali-Konstruktion einer nicht-meßbaren Menge. ¨ Uber die Gleichverteilungen hinaus ist das Lebesguesche Maß Grundlage f¨ ur die Konstruktion einer großen und zentral wichtigen Klasse von W-Verteilungen. Betrachten wir zun¨ achst irgendeine Rst¨ uckweise-stetige nicht-negative Funktion f auf dem Rd mit der Eigenschaft Rd f dx = 1. Dann definiert Z µf (C) := f dx C
R R eine normierte Mengenfunktion µf . Das Integral C f dx l¨ aßt sich auch als 1C f dx schreiben, wobei 1C die Indikatorfunktion der Menge C ist, d.h. 1 f¨ ur x ∈ C 1C (x) = . 0 sonst d Sei nun (Ci )∞ i=1 eine Folge von disjunkten Mengen aus B(R ). Dann gilt
1Sni=1 Ci =
n X i=1
1Ci %n→∞ 1S∞ i=1 Ci
13
(punktweise).
Nun folgt aus dem Satz von Lebesgue u ¨ ber monotone Konvergenz die σ-Additivit¨ at der normierten Mengenfunktion µf , da Z Z Z ∞ [ S f dx = 1 ∞ f dx = lim 1Sni=1 Ci f dx µf ( C i ) = S i=1 Ci ∞ i=1
i=1
= =
lim
n→∞ ∞ Z X i=1
n→∞
Ci
Z
Sn
i=1
f dx = lim
f dx = Ci
n→∞
Ci ∞ X
n Z X i=1
f dx Ci
µf (Ci ).
i=1
Also ist µf eine W-Maß. Man nennt µf die Wahrscheinlichkeitsverteilung mit der Dichtefunktion f . So ist die Gleichverteilung auf [0, 1]d gegeben durch ihre Dichtefunktion 1[0,1]d . So u ¨bernimmt hier die Dichtefunktion (kurz: Dichte) die Rolle, die die Einzelwahrscheinlichkeiten im endlichen oder abz¨ ahlbaren Fall innehaben: Sie bestimmt eindeutig das jeweilige W-Maß, und f¨ ur die Gleichverteilung auf einer (Borel-)meßbaren Menge B (d.h. B ∈ B(Rd )) gilt 1 ur einen endlichen W-Raum M . f ≡ µL1(B) analog zu P ({m}) ≡ #(M ) f¨ Bemerkung: Auf einer abz¨ ahlbar unendlichen Menge (z.B. N) gibt es keine Gleichverteilung. Die eben getroffene Voraussetzung, daß f st¨ uckweise stetig sein soll, l¨ aßt sich ersetzen durch die erheblich schw¨ achere Forderung, daß f meßbar ist: Definition 7 Eine Funktion f von einem meßbaren Raum [A, A] in einen weiteren [A0 , A0 ] heißt meßbar, falls f −1 (B) ∈ A f¨ ur alle B ∈ A0 gilt. Bemerkung: Diese Definition ist analog zur allgemeinen Stetigkeitsdefinition, wo gefordert wird, daß das Urbild jeder offenen Menge wieder offen ist. d d Ist nun f eine meßbare R Funktion von [R , B(R )] in [R, B(R)] mit den Eigenschaften f ≥ 0 und Rd f dx = 1 (in der Analysis wird das LebesgueIntegral meßbarer Funktionen eingef¨ uhrt), dann lassen sich die obigen Betrachtungen (einschließlich des Nachweises der σ-Additivit¨ at) unge¨ andert auf diesen Fall ausweiten. (In vielen F¨ allen werden uns aber st¨ uckweise stetige Funktionen gen¨ ugen, so daß man zur Not auch mit dem Riemannschen Integralbegriff auskommt.) Bemerkung: Die Dichte ist nicht vollkommen eindeutig definiert, man kann sie auf einer Menge N ∈ B(Rd ) mit µL (N ) = 0 beliebig ab¨andern, ohne daß sich etwas am durch sie definierten W-Maß ¨andern w¨ urde. So kann man sie in einem einzelnen Punkt x ∈ Rd letztlich v¨ollig beliebig w¨ahlen. L¨ angst nicht alle W-Maße auf [Rd , B(Rd )] besitzen jedoch eine Dichte(funktion)! Es ist leicht einzusehen, daß etwa die durch 1 falls 0 ∈ C δ0 (C) := , C ∈ B(Rd ) 0 sonst gegebene W-Verteilung δ0 -die Einpunktverteilung auf 0 - keine Darstellung u aßt. In der Analysis ¨ber eine Dichte (bezogen auf das Lebesguesche Maß) zul¨ 14
wird bewiesen, daß eine Wahrscheinlichkeitsverteilung P auf [Rd , B(Rd )] genau dann u ¨ber eine Dichtefunktion darstellbar ist, wenn sie absolut stetig ist, d.h. wenn P (N ) = 0 f¨ ur alle N ausB(Rd ) mit µL (N ) = 0 (Lebesgue-NullMengen) erf¨ ullt ist (Satz von Radon-Nikodym). Da f¨ ur die Einpunktverteilung in 0 ja δ0 ({0}) = 1 gilt, f¨ allt sie nicht in diese Klasse. Man unterscheidet auf [Rd , B(Rd )] folgende Typen von Grund-Typen von Verteilungen: a) diskrete Verteilungen: P (A) = 1 f¨ ur eine bestimmte endliche oder abz¨ahlbare Menge A b) singul¨ are Verteilungen P (N ) = 1 f¨ ur eine bestimmte Lebesgue-Nullmenge ( µL (N ) = 0) c) diffuse Verteilungen: P (A) = 0 f¨ ur jede endliche oder abz¨ahlbare Menge A d) absolut stetige Verteilungen. Diskrete W-Maße sind singul¨ar, denn jede abz¨ahlbare Menge hat das Lebesguesche Maß 0. Alle absolut stetigen W-Maße sind diffus, d.h. sie ordnen beliebigen einelementigen Mengen {x}, x ∈ Rd das Maß 0 zu. Es gibt aber auch diffuse W-Maße, die singul¨ar sind, also deren ganze Masse auf einer 0-Menge (bzgl. µL ) sitzt. Jede W-Verteilung l¨aßt sich darstellen als Mischung P = αP1 + βP2 + γP3. , α + β + γ = 1, α, β, γ ≥ 0, wobei P1 eine diskrete, P2 eine diffuse singul¨are und schließlich P3 eine absolut stetige Wahrscheinlichkeitsverteilung sind. Wie schon gesagt l¨aßt sich nur der absolut stetige Anteil P3 u ¨ ber eine Dichte charakterisieren.
2.4
Die Verteilungsfunktion
Wenngleich wir gesehen haben, daß Wahrscheinlichkeitsmaße auf [Rd , B(Rd )] nicht immer durch eine Dichtefunktion beschrieben werden k¨ onne, so lassen sie sich doch generell eindeutig durch einen anderen Typ von Funktionen beschreiben, n¨ amlich durch ihre Verteilungsfunktion. Dazu erinnern wir zun¨ achst an den Begriff eines Halbrings von Mengen: Definition 8 Es sei M eine Menge. Eine Teilmenge H von P(M ) heißt Halbring, falls mit M 0 , M 00 ∈ H auch M 0 ∩ M 00 ∈ S H und es endlich viele paarweise disjunkte Mi ∈ H gibt, so daß M 0 \ M 00 = i Mi gilt.
In der Maßtheorie wird gezeigt, daß zwei endlicheTMaße µ1 , µ2 , die auf einem Halbring H u ¨bereinstimmen, auch auf σ(H) := {A : A ist σ-Algebra u ur alle M 0 ∈ H ¨ber M , A ⊃ O} u ¨bereinstimmen, d.h. aus µ1 (M 0 ) = µ2 (M 0 ) f¨ 0 0 0 folgt µ1 (M ) = µ2 (M ) f¨ ur alle M ∈ σ(H). Nun bildet das System Q aller halbQ offenen (Hyper-)Quader des Rd der Form di=1 (ai , bi ] einen Halbring und jede offene Teilmenge des Rd l¨ aßt sich als abz¨ ahlbare Vereinigung von solchen Quadern darstellen, so daß σ(Q) = σ(O) = B(Rd ) die Borelschen Mengen des Rd sind. 15
Also ist ein W-Maß P auf [Rd , B(Rd )] eindeutig durch die Wahrscheinlichkeiten s¨ amtlicher halboffener Quader festgelegt. Nun ist es nicht schwer mittels der ¨ (endlichen) Additivit¨ at von P zu zeigen ugt, (Ubungsaufgabe), daß es sogar gen¨ Qd d (−∞, b ] f¨ u r beliebiges b = (b , ..., b ) ∈ R zu die Werte FP (b) := P i 1 d i=1 kennen, um eindeutig auf P schließen zu k¨ onnen. FP : Rd 7→ [0, 1] heißt Verteilungsfunktion von P . Sie besitzt folgende Eigenschaften Satz 9 1. FP (b(n) ) → 0 f¨ ur jede Folge d {b(n) }∞ n=1 , b(n) = (b(n),1 , b(n),2 , ..., b(n),d ) ∈ R
mit mini∈{1,...,d} b(n),i → −∞,, d 2. FP (b(n) ) → 1 f¨ ur jede Folge {b(n) }∞ n=1 , b(n) ∈ R mit b(n),i → +∞, i ∈ {1, ..., d}, 3. FP (a) ≤ FP (b) falls a, b ∈ Rd , ai ≤ bi , i ∈ {1, ..., d}, (Monotonie), 4. FP (b(n) ) → FP (b) f¨ ur jede Folge b(n) ∈ Rd mit b(n),i ≥ bi , b(n),i → bi , i ∈ {1, ..., d} (Rechts-Stetigkeit). B e w e i s. Wir zeigen zun¨ achst die rechtseitige Stetigkeit der Verteilungsfunktion, also Punkt 4. Sei b0 > b beliebig gew¨ ahlt (also b0i > bi , i = 1, 2, ..., d). Aus der Konvergenz b(n) → b folgt, daß f¨ ur gen¨ ugend großes n gilt: b0i > b(n),i ≥ bi , i = 1, 2, ..., d. Also gilt wegen d Y
i=1
(−∞, b0i ] ⊃
d Y
i=1
(−∞, b(n),i ] ⊇
d Y
(−∞, bi ]
(1)
i=1
auch FP (b0 ) ≥ FP (b(n) ) ≥ FP (b)
(2)
wenn n gen¨ ugend groß ist. Sei eine Folge {b0(k) }∞ ahlt, daß b0(k) → b k=1 so gew¨ 0 0 ur alle k und alle i = 1, 2, ..., d. Dann ist Wk := sowie b(k),i > b(k+1),i > bi f¨ Qd Qd T 0 k Wk = i=1 (−∞, bi ], i=1 (−∞, b(k),i ] eine absteigende Mengenfolge mit 0 ¨ also gilt (s. Ubungsaufgabe 2.2) P (Wk ) = FP (b(k) ) → FP (b) f¨ ur k → ∞. Aus (2) folgt nun auch, daß FP (b(n) ) → FP (b) f¨ ur n → ∞. Um Punkt 1. zu zeigen, bemerken wir zun¨ achst, daß aus der Bedingung an {b(n) } folgt, daß bei beliebig großem k ∈ N f¨ ur gen¨ ugend große n d Y
i=1
(−∞, b(n),i ] ⊆ Ak := {x ∈ Rd : xi ≤ −k f¨ ur mindestens ein i}
gilt. Folglich gilt FP (b(n) ) ≤ P (Ak ), falls n gn¨ ugend groß ist. Es gilt aber T A = ∅, und {A } ist eine absteigende Mengenfolge. Also folgt aus der k k k Stetigkeit von P , daß P (Ak ) → 0 und somit geht auch FP (b(n) ) gegen 0. 16
T Um Punkt 2. zu zeigen, stellen wir fest, daß sich aus der Beziehung P ( k Wk ) = S limk P (Wk ) f¨ ur jede absteigende Mengenfolge Wk auch P ( k Wk ) = limk P (Wk ) f¨ ur jede aufsteigende Folge ergibt, weil dann [ \ \ P ( Wk ) = P (Rd \ (Rd \ Wk )) = 1 − P ( (Rd \ Wk )) k
k
k
d
= 1 − lim P (R \ Wk ) = lim P (Wk ). k
k
Nun k¨ onnen wir Punkt 2. v¨ ollig analog zu 4. beweisen, indem wir eine Folge 0 0 0 {b0(k) }∞ so w¨ a hlen, daß b ur k=1 (k) → (+∞, +∞, ..., +∞) sowie b(k),i < b(k+1),i f¨ Qd 0 alle k und alle i = 1, 2, ..., d gilt. Dann ist n¨ amlich Wk := i=1 (−∞, b(k),i ] S d aufsteigend und k Wk = R . Q Q Punkt 3. folgt sofort aus der Additivit¨ at ( di=1 (−∞, a] ⊆ di=1 (−∞, b]).
Bemerkungen: 1. Man kann diesen Satz auch kurz so formulieren, daß jede Verteilungsfunktion monoton, stetig in −∞ und +∞ sowie rechtsseitig stetig ist. 2. Daß die linksseitige Stetigkeit i.A. nicht gilt liegt daran, daß f¨ ur b0(k) % S Q Q d d b, b0(k) < b nur k i=1 (−∞, b0(k),i ] = i=1 (−∞, bi ) folgt, die aufsteigende FolQd ge hat nicht etwa i=1 (−∞, bi ] als Limesmenge. Ist aber P absolut stetig, Qd Qd dann gilt auch die linksseitige Stetigkeit, denn i=1 (−∞, bi ) i=1 (−∞, bi ] \ ist eine Nullmenge bez¨ uglich des Lebesgueschen Maßes, also auch bez¨ uglich P ¨ (Ubungsaufgabe). Im eindimensionalen Fall ( d = 1) ist (−∞, b] \ (−∞, b) = {b}, also sicher eine P -Nullmenge, wenn P diffus ist, so daß f¨ ur d = 1 die Verteilungsfunktionen aller diffusen W-Verteilungen stetig sind. 3. Im Fall d = 1 gilt sogar, daß die Eigenschaften 1.-4. genau die Verteilungsfunktionen von Wahrscheinlichkeitsmaßen auf dem meßbaren Raum [R, B(R)] charakterisieren: Zu jeder Funktion auf dem R mit diesen Eigenschaften gibt es genau ein W-Maß, das die betreffende Funktion als Verteilungsfunktion hat. Das ergibt sich daraus, daß man zun¨achst aus der Funktion die ’Wahrscheinlichkeiten’ (wir haben das Maß ja noch nicht konstruiert) beliebiger halboffener Intervalle der Form (a, b] bestimmen kann als F (b) − F (a), und diese Werte bilden in ihrer Gesamtheit eine σ-additive Mengenfunktion auf dem Halbring der halboffenen Intervalle. In der Maßtheorie wird gezeigt, daß es zu einer solchen σ-additiven Mengenfunktion immer eine eindeutig bestimmte Wahrscheinlichkeitsverteilung gibt. Die σ-Additivit¨at folgt recht einfach aus der Rechts-Stetigkeit. F¨ ur d > 1 muß noch eine weitere Forderung gestellt werden, die sichert, daß die Wahrscheinlichkeiten aller halboffenen Quader nicht-negativ sind. Diese Forderung lautet etwa im Fall d = 2: F (x2 , y2 ) − F (x1 , y2 ) − F (x2 , y1 ) + F (x1 , y1 ) ≥ 0 f¨ ur beliebige x2 ≥ x1 , y2 ≥ y1 . (!pic!) F¨ ur gr¨oßere d l¨aßt sich eine (entsprechend kompliziertere) analoge Bedingung herleiten. 17
3
Abgeleitete Zufallsgr¨ oßen und Unabh¨ angigkeit
In den meisten Situationen, in denen ein Ereignis als zuf¨ allig angesehen wird, interessiert man sich nur f¨ ur einen Teilaspekt dieses Ereignisses bzw. f¨ ur daraus abgeleitete Gr¨ oßen. So ist in dem allerersten Beispiel, wo es um die Bewegung eines Fahrzeuges von A nach B ging, genau genommen die gesamte Fahrt in ihrem Ablauf durch das Wechselspiel zuf¨ alliger ¨ außerer Einfl¨ usse mit den Handlungen des Fahrers charakterisiert, und die Gesamtfahrzeit ergibt sich als eine Funktion des zeitlichen Ablaufs der Fahrt. Beim Wurf eines W¨ urfels interessiert nur die obenliegende Zahl, aber nicht, in welcher Orientierung der W¨ urfel liegenbleibt, wobei diese Orientierung ja ebenfalls ein zuf¨ alliges Ergebnis des Wurfes ist. Um diese Situation in einen allgemeinen Rahmen zu bringen, betrachten wir einen Wahrscheinlichkeitsraum [M, A, P ] sowie eine meßbare Abbildung ξ von c, A]. b Bei der zuf¨ [M, A, P ] in irgendeinen weiteren meßbaren Raum [M alligen Auswahl eines Elementes m aus M gem¨ aß P wird in einem anschaulichen Sinn c ausgew¨ auch ein Element aus M ahlt, n¨ amlich ξ(m). Das dazugeh¨ orige W-Maß b c Q auf [M, A] entsteht durch den Transport des Maßes P mittels ξ: b 7→ P (ξ −1 (A)) b∈A b ∈ [0, 1]. Q:A
b in A liegt, Hierbei haben wir benutzt, daß ξ meßbar ist und folglich ξ −1 (A) b b b falls A ∈ A. Wir m¨ ussen nun nachweisen, daß die auf A definierte nichtnegative Mengenfunktion Q normiert und σ-additiv ist. c = M , woraus sofort Q(M) c = 1 folgt. Außerdem sind bei Zun¨ achst ist ξ −1 (M) jeder Abbildung Mengen ebenfalls disjunkt und es gilt disjunkter die Urbilder S bα )α∈I . Daraus bα f¨ bα = S−1 ξ A u r beliebige Mengensysteme (A ξ −1 A α∈I α∈I
folgt nun unmittelbar die σ-Additivit¨ at von Q = P ◦ ξ −1 : ! !! ! ∞ ∞ ∞ ∞ [ [ [ X bi bi bi bi Q A = P ξ −1 A =P ξ −1 A = P ξ −1 A i=1
i=1
=
∞ X i=1
i=1
i=1
bi f¨ bi )∞ , A bi ∈ A b mit A bi ∩ A bj = ∅, i 6= j. Q A ur beliebige (A i=1
c A] b Wir k¨ onnen also auch im strengen Sinne davon sprechen, daß ξ auf [M, b c eine (abgeleitete) Zufallsgr¨ oße generiert, [M , A, Q] ist ein Wahrscheinlichkeitsraum. In der Wahrscheinlichkeitstheorie ist es u ¨blich, die Funktion ξ selbst als Zufallsgr¨ oße (oder Observable) zu bezeichnen. Seien nun auf [M, A, P ] zwei Zufallsgr¨ oßen ξ1 , ξ2 gegeben, d.h. zwei meßbare b i ], i = 1, 2. Dann ist [ξ1 , ξ2 ] : m ∈ M 7−→ ci , A Abbildungen ξi : [M, A] 7→ [M c1 × M c2 zun¨ c1 × M c2 . Wenn [ξ1 (m), ξ2 (m)] ∈ M achst eine Abbildung von M in M c c b b wir auf M1 × M2 die Produkt-σ-Algebra A1 ⊗ A2 := ∩{B : B σ-Algebra b 1, A b 2 } betrachten, also die von c1 × M c2 , A b1 × A b2 ∈ B f¨ b1 ∈ A b2 ∈ A u ur A ¨ber M b b b b allen Mengen der Gestalt A1 × A2 mit A1 , A2 beide meßbar erzeugte σ-Algebra, 18
c1 × M c2 , A b1 ⊗ A b 2 ], also dann ist [ξ1 , ξ2 ] eine meßbare Abbildung von [M, A] in [M eine Zufallsgr¨ oße.
Definition 10 Die beiden Zufallsgr¨oßen ξ1 , ξ2 heißen unabh¨ angig (voneinb 1 und A b 2 die beiden b(1) ∈ A b(2) ∈ A ander), falls f¨ ur zwei beliebige Mengen A −1 b −1 b Ereignisse ξ1 (A(1) ), ξ2 (A(2) ) ∈ A unabh¨angige Ereignisse sind.
Ein exemplarisches Beispiel kann wieder im Zusammenhang mit dem Wurf zweier W¨ urfel angegeben werden. In diesem Falle w¨ahlen wir als Menge M := {[k, l] : k, l ∈ {1, 2, ..., 6}}, P ist die Gleichverteilung und ξ1 , ξ2 sind beides c := {1, 2, ..., 6}, n¨amlich ξ1 ([k, l]) = k, ξ2 ([k, l]) = l. Abbildungen von M in M Die beiden Zufallsgr¨oßen sind also nichts anderes als die Angabe der Augenzahl jeweils nur eines der beiden W¨ urfel. Man u ¨berzeugt sich leicht von deren Unabh¨angigkeit.
Bemerkung: Der vorher eingef¨ uhrte Begriff der Unabh¨angigkeit zweier Mengen M 0 , M 00 geht aus der eben gegebenen Definition als Spezialfall hervor, wenn man als Zufallsgr¨oßen die Indikatorfunktionen 1M 0 und 1M 00 w¨ahlt, die in {0, 1} abbilden. Um das zu sehen muß man nur zeigen, daß mit M 0 , M 00 auch M \ M 0 , M 00 und M \ M 0 , M \ M 00 jeweils unabh¨angige Mengenpaare bilden. Daß z.B. die Komplemente zweier unabh¨angiger Mengen ebenfalls unabh¨angig sind, l¨aßt sich wie folgt sehen: P ((M \ M 0 ) ∩ (M \ M 00 ))
= P (M \ (M 0 ∪ M 00 )) = 1 − P (M 0 ∪ M 00 )
= 1 − (P (M 0 \ M 00 ) + P (M 00 \ M 0 ) + P (M 0 ∩ M 00 )) = 1 − (P (M 0 \ M 00 ) + P (M 00 \ M 0 ) + 2P (M 0 ∩ M 00 )) + P (M 0 ∩ M 00 )
= 1 − P (M 0 ) − P (M 00 ) + P (M 0 ∩ M 00 ) = 1 − P (M 0 ) − P (M 00 ) + P (M 0 )P (M 00 )
= (1 − P (M 0 ))(1 − P (M 00 )) = P ((M \ M 0 )P (M \ M 00 )) .
Die eben gegebene Definition der Unabh¨ angigkeit von zwei Zufallsgr¨ oßen verallgemeinert sich sinngem¨ aß auf den Fall mehrerer Zufallsgr¨ oßen. Definition 11 Ein endliches System von Zufallsgr¨oßen ξ1 , ξ2 , ..., ξn heißt vollst¨ andig b 1, A b(1) ∈ A b(2) ∈ unabh¨ angig (voneinander), falls f¨ u r n beliebige Mengen A b 2 , ..., A b(n) ∈ A b n die Beziehung P Tn ξ −1 (A b(i) ) = Qn P ξ −1 (A b(i) ) A i=1 i
i=1
i
erf¨ ullt ist.
Bemerkung: Allgemein folgt aus der paarweisen Unabh¨angigkeit der Zufallsgr¨oßen ξ1 , ξ2 , ..., ξn , d.h. der Unabh¨angigkeit von ξi , ξj f¨ ur i 6= j, noch nicht deren vollst¨andige Unabh¨angigkeit. 19
Beispiel: Wir betrachten den fairen Wurf dreier M¨ unzen mit dem zuf¨alligen Ergebnis [m1 , m2 , m3 ] ∈ {0, 1}3. Sei ξ1 := 1{m1 =m2 } , ξ2 := 1{m1 =m3 } und ξ3 := 1{m2 =m3 } . Man pr¨ uft leicht, daß je zwei dieser Zufallsgr¨oßen unabh¨angig voneinander sind, jedoch gilt P (ξ1 = ξ2 = ξ3 = 1) = 1/4 6=
3 Y
P (ξi = 1) = 1/8.
i=1
Wie wir gesehen haben, gilt f¨ ur zwei unabh¨ angige Zufallsgr¨ oßen ξi : [M, A] 7→ b c [Mi , Ai ], i = 1, 2 auf einem Wahrscheinlichkeitsraum [M, A, P ] die Beziehung b i , i = 1, 2. b1 ) ∩ ξ −1 (A b2 )) = P (ξ −1 (A b1 ))P (ξ −1 (A b2 )), A bi ∈ A P (ξ1−1 (A 2 1 2
Dies k¨ onnen wir auch schreiben als
b i , i = 1, 2. b1 × A b2 )) = P (ξ −1 (A b1 ))P (ξ −1 (A b2 )), A bi ∈ A P ([ξ1 , ξ2 ]−1 (A 1 2
b1 ⊗ A b 2 ] (also c1 × M c2 , A Wir bezeichnen nun das W-Maß P ([ξ1 , ξ2 ]−1 (·)) auf [M das durch Maßtransport mittels der Zufallsgr¨ oße [ξ1 , ξ2 ] aus P entstehende Maß kurz mit Q1,2 und entsprechend die W-Maße P (ξ1 −1 (·)) bzw. P (ξ2 −1 (·)) auf b 1 ] bzw. [M b 2 ] mit Q1 , Q2 . Dann gilt also c1 , A c2 , A [M b i , i = 1, 2. b1 × A b2 ) = Q1 (A b1 )Q2 (A b2 ), A bi ∈ A Q1,2 (A
In der Maßtheorie wird gezeigt:
Satz 12 Sind [M1 , A1 , µ1 ], [M2 , A2 , µ2 ] zwei Maßr¨aume mit µi (Mi ) < +∞, i = 1, 2, dann gibt es genau ein Maß µ1 ×µ2 auf dem meßbaren Raum [M1 ×M2 , A1 ⊗ A2 ] mit der Eigenschaft µ1 × µ2 (A1 × A2 ) = µ1 (A1 )µ2 (A2 ), Ai ∈ Ai , i = 1, 2, das Produktmaß von µ1 und µ2 . Es gilt also in unserem Fall zweier unabh¨ angiger Zufallsgr¨ oßen ξ1 , ξ2 die Beziehung Q1,2 := P ([ξ1 , ξ2 ]−1 (·)) = P (ξ1−1 (·)) × P (ξ1−1 (·)) = Q1 × Q2 . Das bedeutet: Satz 13 Zwei Zufallsgr¨oßen ξ1 , ξ2 sind genau dann unabh¨angig voneinander, c1 × M c2 , A b1 ⊗ A b 2 ] erzeugte W-Maß das wenn das von ihnen gemeinsam auf [M b i ], i = 1, 2 ci , A Produktmaß der jeweils von ξ1 bzw. ξ2 erzeugten Maße auf [M erzeugten W-Maße ist.
Bemerkung: Dies gilt auch f¨ ur endlich viele Q (und sogar abz¨ahlbar viele) Zufallsgr¨oßen ξ1 , ..., ξn , d.h. P ◦ [ξ1 , ..., ξn ]−1 = i P ◦ ξi , genau dann, wenn diese vollst¨andig unabh¨angig sind. Dies folgt genau wie eben aus der Definition der vollst¨andigen Unabh¨angigkeit. 20
4
Bedingte Verteilungen
Wir kommen nun zu einem weiteren zentralen Begriff der Wahrscheinlichkeitstheorie, der bedingten Wahrscheinlichkeit. Zun¨ achst stellen wir fest, daß die konkrete Wahl eines W-Maßes zur Modellierung eines Zufallsvorganges in starkem Maße von den Informationen abh¨ angt, u ugen. Wir hatten z.B. gesehen, daß die Information, daß die Ele¨ber die wir verf¨ mentarereignisse als vollkommen gleichberechtigt anzusehen sind, zwangsl¨ aufig zur Gleichverteilung f¨ uhrt. Bzw. daß die Information, daß zwei Zufallsgr¨ oßen unabh¨ angig sind, die Produkt-Verteilung als ihre gemeinsame Verteilung impliziert. Oft ist es so, daß ein Zufallsvorgang eintritt, wir jedoch zun¨ achst nur eine bestimmte Zufallsgr¨ oße (Observable) dieses Vorgangs beobachten k¨ onnen, d.h. eine abgeleitete Gr¨ oße, die uns noch nicht die volle Information u ¨ber das tats¨ achlich vorliegende Elementarereignis offenbart. Dennoch hat die Tatsache, c angenommen hat, plaudaß die betreffende Zufallsgr¨ oße ξ z.B. den Wert a ∈ M siblerweise einen gewissen informativen Wert, unser Wissen u ogli¨ber die m¨ chen Ausg¨ ange des Zufallsvorganges hat sich ver¨ andert. Das zwingt uns zu einer Neufestlegung der Wahrscheinlichkeitsmaßes. Wie sollen wir dieses neue W-Maß P (·|ξ = a) auf [M, A] aber w¨ ahlen? Bemerkung: Das gestaltet sich recht kompliziert f¨ ur den Fall, daß die Zufallsgr¨oße ξ ¨ uberabz¨ahlbar viele Ausg¨ange haben kann, also f¨ ur ¨ uberabz¨ahlbares c M. c endlich oder abz¨ Wir nehmen also von jetzt ab an, daß M ahlbar unendlich ist. Dann k¨ onnen wir aber auch annehmen, daß P (ξ = a) > 0 gilt, denn wegen der σ-Additivit¨ at von P gilt X X 0 = 0. 1P (ξ=a0 )=0 P (ξ = a0 ) = P ◦ ξ −1 ({a0 : P (ξ = a0 ) = 0}) = c a 0 ∈M
c a 0 ∈M
c : P (ξ = a0 ) = 0} hat also insgesamt die Wahrscheinlichkeit Die Menge {a0 ∈ M −1 0 bzgl. P ◦ ξ , derartige a0 werden wir also niemals beobachten. Zun¨ achst ist klar, daß s¨ amtliche Elementarereignisse m, die mit ξ = a unvereinbar sind (also m ∈ / ξ −1 ({a})) nun unm¨ oglich geworden sind, d.h. es muß gelten P ({m}|ξ = a) = 0 f¨ ur m ∈ / ξ −1 ({a}). Es wird also gelten P (ξ −1 ({a})|ξ = a) = 1, d.h. P (·|ξ = a) wird effektiv nur ein W-Maß auf der meßbaren Teilmenge Ma := ξ −1 ({a}) von M sein. (!pic!) Solche Wahrscheinlichkeitsmaße gibt es zwar zun¨ achst sehr viele, aber aus ahnlichen H¨ aufigkeitsbetrachtungen heraus wie weiter oben ist es plausibel anzu¨ nehmen, daß das Verh¨ altnis der Wahrscheinlichkeiten P (M 0 ), P (M 00 ) f¨ ur zwei
21
Teilmengen M 0 , M 00 von Ma mit P (M 00 ) 6= 0 durch die Neufestlegung unber¨ uhrt bleiben soll, d.h. P (M 0 )/P (M 00 ) = P (M 0 |ξ = a)/P (M 00 |ξ = a).
Da dies insbesondere auch f¨ ur M 00 = Ma gelten soll, kommen wir zu folgender: Definition 14 Es sei P ein W-Maß auf dem meßbaren Raum [M, A], ξ eine c, A] b abbildet, wobei M c als endlich oder abz¨ahlbar Zufallsgr¨oße, die [M, A] in [M c mit P (ξ = a) > 0 heißt unendlich angenommen wird. F¨ ur beliebiges a ∈ M P (·|ξ = a) := (P (ξ −1 ({a})))−1 P ((·) ∩ ξ −1 ({a}))
bedingte Wahrscheinlichkeitsverteilung unter der Bedingung ξ = a. Wir betrachten folgenden Spezialfall: ξ sei die Indikatorfunktion einer Menge M 0 mit P (M 0 ) > 0. Dann ergibt die gerade gegebene Definition f¨ ur P (·|1M 0 = 0 −1 0 0 1) = (P (M )) P ((·) ∩ M ). Statt P (·|1M = 1) schreibt man P (·|M 0 ). Wir erhalten f¨ ur beliebiges meßbares M 00 ⊆ M P (M 00 |M 0 ) =
P (M 00 ∩ M 0 ) (wobei P (M 0 ) > 0), P (M 0 )
und nennen dies bedingte Wahrscheinlichkeit des Ereignisses M 00 unter der Bedingung M 0 . Sind insbesondere M 0 , M 00 unanbh¨ angige Ereignisse, P (M 0 ) > 0, dann gilt offenbar P (M 00 )P (M 0 ) P (M 00 |M 0 ) = = P (M 00 ), P (M 0 ) was intuitiv vern¨ unftig ist: Die Beobachtung eines von dem gegebenen M 00 unabh¨ angigen Ereignisses ver¨ andert die urspr¨ ungliche Wahrscheinlichkeit f¨ ur M 00 nicht. Eine n¨ utzliche Beziehung ist die sogenannte Formel der totalen Wahrscheinlichkeit: Satz 15 Es sei (Mi )∞ i=1 eine disjunkte Zerlegung von M in meßbare Mengen, d.h. ∪i Mi = M, Mi ∩ Mj = ∅ f¨ ur i 6= j. Dann gilt f¨ ur beliebiges M 0 ∈ A X P (M 0 ) = P (M 0 |Mi )P (Mi ). i:P (Mi )>0
B e w e i s. Aus der Definition der bedingten Wahrscheinlichkeiten sowie der σ-Additivit¨ at von P folgt unmittelbar X
i:P (Mi )>0
P (M 0 |Mi )P (Mi ) =
X
i:P (Mi )>0
= P(
∞ [
∞ X i=1
(M 0 ∩ Mi )) = P (M 0 ∩
i=1 0
= P (M ). 22
P (M 0 ∩ Mi ) =
P (M 0 ∩ Mi ) ∞ [
i=1
Mi )
Ebenso elementar ist der Beweis der Bayesschen Formel:22 Satz 16 Unter den Voraussetzungen des vorhergehenden Satzes gilt: P (Mi |M 0 ) = P
P (M 0 |Mi )P (Mi ) , falls P (Mi ), P (M 0 ) > 0. 0 j:P (Mj )>0 P (M |Mj )P (Mj )
B e w e i s.
P (M 0 |Mi )P (Mi ) 0 j:P (Mj )>0 P (M |Mj )P (Mj )
P
= =
P (M 0 ∩ Mi ) P (M 0 ∩ Mi ) P = ∞ 0 0 j:P (Mj )>0 P (M ∩ Mj ) j=1 P (M ∩ Mj )
P
P (M 0 ∩ Mi ) = P (Mi |M 0 ). P (M 0 )
. Bemerkung: Wir haben bei der Begr¨ undung der Definition des bedingten Wahrscheinlichkeitsmaßes intuitiv mit der Vorstellung gearbeitet, daß das Eintreten eines Ereignisses mit dem Eingehen einer Information gleichzusetzen ist, die die Bewertung anderer Ereignisse -in Form eines W-Maßes- ver¨andert. Tats¨achlich l¨aßt sich Information quantifizieren. Daß dies unabh¨angig vom semantischen Gehalt der Information m¨oglich ist, ist eine der u ¨berraschenden Entdeckungen des 20. Jahrhunderts und war Grundlage der Entwicklung der mathematischen Informationstheorie durch Shannon 1948. Die Informationstheorie ist inhaltlich eng mit der Wahrscheinlichkeitstheorie verbunden und ist die mathematische Grundlage f¨ ur die technische M¨oglichkeit, Informationen beliebigen Inhalts effektiv zu ¨ ubertragen und zu speichern. Ein zentraler Begriff der Informationstheorie ist der Begriff Entropie. Wir haben mit den uns nun zur Verf¨ ugung stehenden elementaren wahrscheinlichkeitstheoretischen Begriffen ein grundlegendes Repertoire zur Konstruktion angepaßter w-theoretischer Modelle f¨ ur eine schon recht große Klasse praktischer Fragestellungen zur Verf¨ ugung. Dennoch ist bei der Wahl des passenden Wahrscheinlichkeitsraumes Umsicht geboten im Hinblick auf die Frage, wie die zugrundeliegenden Informationen in die konkrete Wahl einfließen sollen. Eine Reihe von bekannten wahrscheinlichkeitstheoretischer ’Paradoxa’ beruht darauf, daß ein auf den ersten Blick naheliegender Ansatz nicht ad¨aquat ist. Einschub: Gefangenenparadox 1
23
5
Die geometrische und die Exponentialverteilung
Wir wollen nun die erarbeiteten Hilfsmittel anwenden, um zwei wichtige Klassen von Verteilungen zu definieren, die im Grunde denselben Zufalls-Mechanismus charakterisieren, nur einmal im Falle einer diskreten, N-wertigen Zufallsgr¨ oße, und im zweiten Fall einer Zufallsgr¨ oße u ¨ber [R+ , B(R) ∩ R+ ]. Zun¨ achst der einfachere diskrete Fall. Angenommen wir werfen immer wieder eine M¨ unze, bis zum ersten Mal 0 10 erscheint. Z sei die notwendige Anzahl von W¨ urfen. Dabei sollen 0 00 und 0 10 nicht unbedingt die gleiche Wahrscheinlichkeit haben, d.h. p := P ({0}), q := P ({1}), p + q = 1. Nat¨ urlich nehmen wir an, daß die W¨ urfe vollst¨ andig voneinander unabh¨ angig sind. Es ist sogar einfacher, die Wahrscheinlichkeit pn := P (Z = n), daß im nten Wurf zum ersten Mal die 1 auftaucht, direkt auszurechnen. Wir w¨ ahlen aber, um f¨ ur den stetigen Fall vorbereitet zu sein, einen anderen Weg. Bemerkung: Die Betrachtung jetzt ist -vorerst- heuristischer Art, denn wenn wir von einer ’Zufallsgr¨oße’ Z reden, m¨ ußten wir ja den zugrundeliegenden W-Raum angeben, und die meßbare Abbildung Z : [M, A] 7−→ [N, P(N)]. M w¨are zu w¨ahlen als Menge aller unendlichen 0 − 1-Folgen ausgestattet mit einer passenden σ-Algebra sowie einem passenden W-Maß, und Z sollte dann jeder solchen 0 − 1-Folge den Zeitpunkt des ersten Auftretens der 1 zuordnen. Diese Konstruktion werden wir erst sp¨ater durchf¨ uhren, wir werden aber an dieser Stelle nur inhaltliche Argumente vorbringen, die die abgeleitete Verteilung von Z spezifizieren. Nun betrachten wir P (Z = n+1|Z > n). Es ist inhaltlich ’klar’, daß die Tatsache, daß die ersten n W¨ urfe jeweils eine 0 als Ergebnis hatten, keinen Einfluß auf den n¨ achstfolgenden Wurf haben darf, denn wir hatten die Unabh¨ angigkeit vorausgesetzt. Demzufolge gilt P (Z = n + 1|Z > n) = q. Also erhalten wir die Beziehung pn+1 Pn = q. 1 − i=1 pi Wir haben offenbar p1 = q, also gilt p2 = q(1 − q) = qp. Durch vollst¨ andige Induktion folgt nun leicht pn+1 = qpn , denn es gilt pn+1
= q(1 −
n X i=1
pi ) = q(1 −
n−1 X
i=1 n−1
= pn − qpn = ppn = pqp
pi − p n ) = qpn .
Im diskreten Fall ist dies ein -wie gesagt etwas umst¨ andlicher- Weg, die geometrische Verteilung mit Erfolgswahrscheinlichkeit q > 0 abzuleiten: pn := q(1 − q)n−1 . Wie wir aber auf diese Weise gesehen haben, ist dies 24
der einzige Verteilungstyp (auf N), bei dem die bedingte momentane Erfolgswahrscheinlichkeit (unter der Bedingung, daß der Erfolg bisher nicht eingetreten ist) konstant q ist. Nun k¨ onnen wir analog den kontinuierlichen Fall behandeln. So behauptet die Physik (aus gutem Grund), daß der Zerfall eines zu irgendeinem Zeitpunkt 0 (beispielsweise der Urknall, eine Supernovaexplosion oder der Zerfall eines Vorg¨ angeratoms) entstandenen radioaktiven Atoms dadurch charakterisiert ist, daß ein solches Atom eine von der bisher verflossenen Zeit absolut unabh¨ angige, also konstante Tendenz besitzt, demn¨ achst absolut zuf¨ allig zu zerfallen. Wenn also F die Verteilungsfunktion ist, die den zuf¨ alligen Zerfallszeitpunkt τ ≥ 0 beschreibt, dann gilt: a) F (t) = 0, t ≤ 0, (t) = F (h). b) F (t+h)−F 1−F (t) Mit anderen Worten, vor 0 kann das Atom nicht zerfallen sein, weil es da noch gar nicht existierte, und wenn es bis t noch nicht zerfallen ist, dann ist es wie vollkommen ’frisch’ entstanden, zerf¨ allt also innerhalb der n¨ achsten h Zeiteinheiten mit genau der selben W’kt, wie es w¨ ahrend der ersten h Momen¨ te h¨ atte zerfallen k¨ onnen. Man kann zeigen (Ubungsaufgabe), daß die einzigen Verteilungsfunktionen auf R, die a) und b) gleichzeitig erf¨ ullen, von der Gestalt F (t) = 1 − e−λt sind, wobei wieder -wie im diskreten Fall- λ ein Parameter ist, der von dem konkreten instabilen Isotop abh¨ angt. Er heißt Zerfallsrate (oder (konstante) Ausfallrate, wenn es statt um ein Atom etwa um den Zeitpunkt des Versagens eines Ger¨ ates geht, f¨ ur das die Konstantheit der Rate halbwegs realistisch ist). Entsprechend heißt eine Verteilung Pλ mit der Verteilungsfunktion F (t) = Fλ (t) = 1 − e−λt Exponentialverteilung mit Ausfallrate λ. Bemerkung: In der Physik ist es ¨ ublich, statt λ den Zeitpunkt t1/2 als Parameter anzugeben ( Halbwertszeit), f¨ ur den F (t1/2 ) = 1/2 gilt, so daß λ = tln1/22 . Die zur Verteilungsfunktion Fλ geh¨ orende Verteilung ist, wie leicht zu sehen ist, absolut stetig und hat die Dichtefunktion (bzgl. des Lebesgueschen Maßes) Fλ0 (t) = fλ (t) = λe−λt , t ≥ 0.
6
Binomialverteilung, Normalverteilung und der Grenzwertsatz von Moivre-Laplace
Wir hatten zu Beginn der Vorlesung im Fall des M¨ unzwurfes eine heuristische Begr¨ undung gegeben, warum sich die H¨ aufigkeit von ’Kopf’ bzw. ’Zahl’ auf die Wahrscheinlichkeit 1/2 ’einpegelt’, und hatten gesehen, daß dabei keine irgendwie ’lenkende, ausgleichende Kraft’ im Spiel ist, sondern daß der Anteil derjenigen Kombinationen, deren Anteil von ’Kopf’ um mehr als z.B. 5% von der Idealzahl 0, 5 abweicht, mit wachsender Wurfzahl astronomisch klein wird, etwa bei 10000 W¨ urfen schon in der Gr¨ oßenordnung 10−22 liegt. Andererseits wurde bemerkt, daß bei dieser Anzahl von Versuchen N = 104 eine Abweichung um 0, 5% noch v¨ ollig normal ist. Die Wahrscheinlichkeitstheorie beantwortet die 25
Frage nach der ’Normalit¨ at’ der -unvermeidlichen- Abweichung vom Idealwert mit Hilfe des Zentralen Grenzwertsatzes und der Gaußschen Normalverteilung, und dies werden wir in einem einfachen Fall demonstrieren. Dazu betrachten wir, etwas allgemeiner, nun den oftmaligen Wurf mit einer asymmetrischen M¨ unze, d.h. wir wollen nicht unbedingt annehmen, daß ’Kopf’ =1 b und ’Zahl’ =0 b gleichwahrscheinlich sind, sondern mit Wanrscheinlichkeit 0 < p < 1 bzw. q := 1 − p eintreten. Wir betrachten nun N unabh¨ angige W¨ urfe mit dieser M¨ unze. Wie groß ist nun die Wahrscheinlichkeit, daß genau k mal 1 auftritt? Wenn wir das Ergebnis des j-ten Wurfes mit ξj , 1 ≤ j ≤ N bezeichnen, dann fragen wir also PN nach der Wahrscheinlichkeit des zusammengesetzten Ereignisses j=1 ξj = k. Es ergibt sich: N X [ ξj = k = P {ξj = 1 f¨ ur j ∈ W, ξj = 0 sonst} pN : =P k j=1
=
X
W ⊆{1,2,...,N } #W =k
W ⊆{1,2,...,N } #W =k
P ({ξj = 1 f¨ ur j ∈ W, ξj = 0 sonst}) ,
denn die angegebene Zerlegung ist eine Zerlegung in Elementarereignisse. Aufgrund der (vollst¨ andigen) Unabh¨ angigkeit der einzelnen W¨ urfe voneinander erhalten wir nun X X = pk q N −k = pk q N −k 1 W ⊆{1,2,...,N } #W =k
W ⊆{1,2,...,N } #W =k
= pk q N −k · #{W ∈ P({1, 2, ..., N }) : #W = k}. N ! Teilmengen Aus der Kombinatorik ist bekannt, daß es genau := k!(NN−k)! k mit k Elementen einer N -elementigen Menge gibt, 0 ≤ k ≤ N . Also erhalten wir N pN = pk q N −k . k k
Die auf diese Weise eingef¨ uhrte Wahrscheinlichkeitsverteilung auf der Menge {0, 1, ..., N } heißt Binomialverteilung mit den Parametern N, p und wird mit B(N, p) Der Name nimmt auf das Auftauchen der Binomialkoeffizi bezeichnet. N enten in dem Verteilungsgesetz Bezug. Diese diskrete Verteilung, die in k vielen Anwendungen auftaucht, ist auch Ausgangspunkt f¨ ur zwei weitere sehr wichtige Verteilungstypen, die Normalverteilung und die Poissonsche Verteilung. Wir beginnen mit der Normalverteilung, die in der Stochastik sowie der Mathematischen Physik eine zentrale Rolle spielt. Dazu analysieren wir den N pk q N −k genauer. In der Analysis wird die Stirlingsche Formel Ausdruck k bewiesen, n¨ amlich die folgende Aussage 26
Satz 17 Es gilt die Beziehung n! =
√
2πn
n n e
α(n),
wobei α(·) eine Funktion mit der Eigenschaft limn→∞ α(n) = 1 ist. Die Stirlingsche Formel gestattet also die Berechnung der Fakult¨ atsfunktion mit einem prozentualen Fehler, der mit wachsendemn beliebig klein wird. Daher N N! = k!(N −k)! geeignet, ist sie auch zur Analyse der Binomialkoeffizienten k sofern sowohl N als auch k und N − k große Zahlen sind. Aus der Stirlingschen Formel folgt nach kurzer Rechnung: Lemma 18 F¨ ur alle ε > 0 existiert eine nat¨ urliche Zahl K > 0 so daß f¨ ur beliebige nat¨ urliche Zahlen N, k mit k, N − k > K die Absch¨atzung r k(N − k) 0 k N (p ) (1 − p0 )N −k ∈ (1 − ε, 1 + ε) 2π k N erf¨ ullt ist, wobei p0 = k/N . N D.h. l¨ aßt sich mit beliebig kleinem prozentualem Fehler durch die k p Gr¨ oße ( 2πN p0 (1 − p0 )(p0 )k (1 − p0)N −k )−1 ann¨ ahern, falls k, N − k groß genug sind. Wir fixieren nun ε, und folglich K. Wir wollen das Verhalten der binomialen Wahrscheinlichkeiten pN ur große N , aber f¨ ur alle k bestimmen, daher m¨ ussen k f¨ wir den Fall k ≤ K bzw. N − k ≤ K separat betrachten. F¨ ur k ≤ K gilt N! ≤ N (N − 1)...(N − k + 1) ≤ N k ≤ N K . k!(N − k)! Also erhalten wir K k N −k pN ≤ N K q N −K k ≤N p q
NK N = K q = q
√
N
N √ N q
! K N
q .
√ Nun gilt bekanntlich f¨ ur jede reelle Zahl x > 0, daß N x →N →∞ 1, und es gilt √ K √ N beliebig genau 1, falls N gen¨ ugend groß sogar N N →N →∞ 1. Also ist N√Nq ist. Da q = 1 − p, p > 0, sehen wir, daß es eine Zahl K 0 > 0 gibt, so daß f¨ ur N√ K N 0 q < a := 1 − p/2 < 1 wird. Wir erhalten also N > K der Ausdruck N√q
f¨ ur N > K 0 und k ≤ K die Absch¨ atzung
N pN k
d.h. s¨ amtliche Einzelwahrscheinlichkeiten mit kleinem k (k ≤ K) werden mit großem N exponentiell schnell klein. Der Fall N − k ≤ K ist wegen der Symmetrie der Binomialkoeffizienten v¨ ollig analog, nur tauschen p und q = 1 − p ihre Rollen. Wir erhalten 27
Lemma 19 Es existieren eine reelle Zahl a, 0 < a < 1, und eine Zahl K 0 , so daß N pN f¨ ur N > K 0 k 0 fixiert hatten. Lemma 20 Es existieren ein a0 , 0 < a0 < 1, und ein K 00 , so daß 0 N pN f¨ ur N > K 00 k < (a )
falls |p −
k N|
= |p − p0 | ≥ ε.
B e w e i s. 1. F¨ ur k ≤ K oder k ≥ N − K gilt die Behauptung aufgrund des vorhergehenden Lemmas mit K 00 := K 0 , a0 := a. 2. Sei k > K, N − k > k. Wir erhalten aufgrund der Stirlingschen Formel (aus Lemma 18) pN k
r
k(N − k) 0 k (p ) (1 − p0 )N −k < (1 + ε) 2π N √ k N −k N p 1−p < (1 + ε) √ 1 − p0 2π p0 p0 1−p0 !N √ p 1−p . < (1 + ε) N p0 1 − p0
!−1
pk (1 − p)N −k
x 1−p 1−x An dieser Stelle untersuchen wir die Funktion gp : x 7−→ xp ,x ∈ 1−x (0, 1). Es ist g¨ unstig, zum Logarithmus u ¨berzugehen. Wir erhalten ln gp (x) = x(ln p − ln x) + (1 − x)(ln(1 − p) − ln(1 − x)) und folglich durch Differentiation (ln gp (x))0
= ln p − ln x − 1 − ln(1 − p) + ln(1 − x) + 1 1 1 = ln( − 1) − ln( − 1). x p
Die Ableitung von ln gp ist also streng monoton fallend in (0, 1) und nimmt f¨ ur x = p den Wert 0 an. Also hat ln gp (und folglich auch g) f¨ ur x = p ein (einziges) absolutes Maximum. Es gilt, wie man leicht sieht, gp (p) = 1. Daher ist die in
28
(0, 1) stetige Funktion gp (x) f¨ ur |x − p| ≥ ε durch eine Konstante c < 1 nach oben beschr¨ ankt. Wir erhalten also f¨ ur |p0 − p| ≥ ε: √ N pN k < (1 + ε) N c =
√ 1/2 √ N c 1+ε N
N
N
.
√ √ Nun gehen wieder sowohl N 1 + ε als auch N N f¨ ur N → ∞ gegen 1, es gibt Konstanten c0 < 1 und C > 0, so daß f¨ ur N > C gilt 0 N pN k < (c ) .
3. Wir f¨ ugen nun Schritt 1. und 2. zusammen und erhalten mit K 00 := 0 max(C, K ), a0 := max(c0 , a) die Behauptung des Lemmas. Wir haben gesehen, daß bis auf Werte von k in der N¨ ahe des Idealwertes pN s¨ amtliche Einzelwahrscheinlichkeiten der Binomialverteilung B(N, p) gleichm¨ aßig exponentiell klein sind. Daraus ergibt sich nun ein interessanter Satz 21 (Satz u aufigkeit) Es sei ε > ¨ ber große Abweichungen der rel. H¨ 0 und P das Verteilungsgesetz einer binomialverteilten Zufallsgr¨oße ξ mit Parametern N und 0 < p < 1. Dann existiert eine Konstante 0 < d < 1 sowie ein D > 0 so daß P (|ξ − pN | ≥ N ε) < dN f¨ ur N > D. B e w e i s. Wir erhalten aufgrund des vorhergehenden Lemmas f¨ ur N > K 00 X X pN (a0 )N P (|ξ − pN | ≥ N ε) = k < k∈{0,1,...,N } k −p|≥ε |N
≤ N (a0 )N = (
√
k∈{0,1,...,N } k |N −p|≥ε
Na0 )N , √ und nun k¨ onnen wir erneut die Beziehung N N → 1 sowie a0 < 1 ausnutzen, um die Behauptung des Satzes zu erhalten. Dieser Satz ist ein Spezialfall einer in der Wahrscheinlichkeitstheorie unter dem Namen Prinzip der großen Abweichungen bekannten Aussage. Wir haben gesehen, daß f¨ ur jede fixierte prozentuale Abweichung vom zu erwartenden Wert pN beim Wurf von N asymmetrischen M¨ unzen die Wahrscheinlichkeit einer solchen oder gr¨oßeren Abweichung exponentiell (in N ) klein wird. Was ist nun aber f¨ ur großes N eine normale Abweichung? Detaillierte Antwort darauf gibt der Grenzwertsatz von Moivre und Laplace, ein spezieller Fall des Zentralen Grenzwertsatzes der Wahrscheinlichkeitstheorie. Dieser Satz begr¨ undet auch die ausgezeichnete Rolle, die eine bestimmte Verteilung, n¨ amlich die (Gaußsche) Normalverteilung, in der Stochastik und anderen Gebieten der Mathematik spielt. N
29
Dazu versuchen wir zuerst zu einer Vermutung u oßenordnung ¨ber die Gr¨ typischer Abweichungen zu kommen. Wie wir gesehen haben, liegen die gr¨ oßten Werte von pN ahe von k in der N¨ k ≈ pN . W¨ ahlen wir etwa k = bpN c, das heißt gleich der gr¨ oßten ganzen Zahl, die pN nicht u ¨bersteigt, so erhalten wir mit der Stirlingschen Formel genau wie k ≈ p n¨ aherungsweise weiter oben wegen p0 = N pN k
!−1 k(N − k) 0 k 0 N −k (p ) (1 − p ) ≈ pk (1 − p)N −k 2π N p −1 2πN p(1 − p)pk (1 − p)N −k pk (1 − p)N −k ≈ r
=
1 1 √ p . N 2πp(1 − p)
Die gr¨ oßten Werte von pN ahren Gr¨ oßenordnung √1N . k sind also von der ungef¨ √ Es bedarf etwa N solcher Werte, um insgesamt 1 zu erhalten. Diese Argumentation ist nicht streng, f¨ uhrt aber zu der Vermutung, daß die typischen √ Abweichungen vom Idealwert pN die Gr¨ o ßenordnung N haben k¨ onnten. Wir √ probieren daher den Ansatz k = pN + r N f¨ ur fixiertes r und wollen ausrechnen, was wir f¨ ur dieses (durch die reelle Zahl r) bestimmte ganze k als N¨ aherung f¨ ur pN achst stellen wir fest,√daß auch f¨ ur negatives r ≥ −R (f¨ ur k erhalten. Zun¨ irgendein festes R) der Ausdruck pN + r N positiv wird, wenn N gen¨ ugend groß ist, weil die Wurzelfunktion achst als pN . (Es gilt f¨ ur q w¨ q viel langsamer √ p p r2 R2 großes N pN + r N ≥ N (p − N ) ≥ N (p − N ) > N (p − 2 ) = N 2 > 0, denn
R2 N
→ 0 f¨ ur N → ∞).
Die Aussage ist, daß
2
r √1 √ 1 e− 2pq N 2πpq
eine sehr gute N¨ aherung f¨ ur pN k ist:
Satz 22 (Lokaler Grenzwertsatz f. Binomialgr¨ oßen) F¨ ur beliebiges R > 0 und beliebiges ε > 0 existiert ein K > 0, derart daß −1 r2 1 1 − 2pq √ √ e ∈ (1 − ε, 1 + ε) pN k N 2πpq √ falls k = pN + r N (mit |r| ≤ R) und falls N ≥ K. B e w e i s. Wir st¨ utzen uns wieder auf die Stirlingsche Formel. Wie wir eben gesehen haben, gibt es ein K0 , so daß f¨ ur N > K0 aus |r| ≤ R folgt √ k = pN + r N > N p2 . Andererseits gilt analog √ q N − k = qN − r N > N > 0, 2 falls N > K1 f¨ ur ein passend gew¨ ahltes K1 > 0. Daraus folgt, daß wir f¨ ur gen¨ ugend großes N sowohl k! als auch (N − k)! (und nat¨ urlich N !) durch die Stirlingsche Formel mit einer Genauigkeit (1 ± ε) nach oben beziehungsweise 30
unten abgech¨ atzt werden k¨ onnen. Genau wie am√Anfang von Schritt 2. in Lemma 20 erhalten wir nun f¨ ur beliebiges k = pN + r N , |r| ≤ R, falls N > K2 (K2 passend gew¨ ahlt in Abh¨ angigkeit von R) r k(N − k) 0 k 2π (p ) (1 − p0 )N −k p−k (1 − p)−(N −k) ∈ (1 − ε, 1 + ε), d.h. pN k N p 1 − p0 N −k p0 2πN p0 (1 − p0 )( )k ( pN ) ∈ (1 − ε, 1 + ε). k p 1−p
k Hier haben wir wieder der K¨ urze halber p0 = N = p + √rN gesetzt. Nun ist p0 f¨ ur gen¨ ugend großes N beliebig genau bei p (der Fehler ist f¨ ur alle r, |r| ≤ R h¨ ochstens √RN ). Daher erhalten wir f¨ ur passendes K3 > 0, daß f¨ ur alle N > K3
p
p0 k 1 − p0 N −k ) ( ) p 1−p −N p p p0 1 − p 1−p0 N ) pk 2πN pq ( 0 ) ( p 1 − p0 pN k
2πN p(1 − p)(
∈
(1 − 2ε, 1 + 2ε),
∈
(1 − 2ε, 1 + 2ε).
also
(3)
Wie im Beweis von Lemma 20 betrachten wir nun wieder die Funktion gp : x 7−→ 1−x p x 1−p , x ∈ (0, 1), allerdings f¨ ur Werte in der N¨ ahe von p. Wir hatten x 1−x
gesehen, daß ln gp in (0, 1) die Ableitung ln( x1 − 1) − ln( p1 − 1) besitzt. Diese hat den Wert 0 f¨ ur x = p. Um ln gp mit Hilfe der Taylorformel gen¨ ugend genau absch¨ atzen zu k¨ onnen, berechnen wir noch die zweite Ableitung und erhalten 1 . Daraus ergibt (ln gp )00 (x) = x21−x , der Wert an der Stelle x = p ist also − pq sich nach dem Taylorschen Satz: ln gp (p + h) = −
1 2 h + Dp (h)h2 2pq
f¨ ur gen¨ ugend kleine |h| (genauer |h| < min(p, q)), wobei Dp eine stetige Funktion von h ist, die f¨ ur h → 0 gegen 0 konvergiert. Wir setzen dies in (3) ein und erhalten 2 p 1 −Dp ( √rN )) rN N ( 2pq ∈ (1 − 2ε, 1 + 2ε), also 2πN pqe pN k p 2 2 1 √r ) r −r D ( p N N pk 2πN pqe 2pq ∈ (1 − 2ε, 1 + 2ε).
Daraus ergibt sich sofort die Absch¨ atzung p 2 1 2πN pqe 2pq r ∈ (1 − 3ε, 1 + 3ε), pN k
falls N gen¨ ugend groß ist (N > K4 , wobei K4 eine Konstante ist, deren Wert von R und ε abh¨ angt). Dies ist gleichbedeutend mit der Aussage des Satzes. Wir kennen nun mit beliebig kleinem (f¨ ur große N ) prozentualem Fehler die Einzelwahrscheinlichkeiten pN der Binomialverteilung mit den Parametern N, p k 31
√ p ≤ R (R ist auch beliebig, aber der Fehler f¨ ur solche Werte k so daß rk := k−N N h¨ angt von R ab). Bem. Durch eine leichte Verfeinerung des eben gef¨ uhrten Beweises sieht √ man, daß der Fehler sogar dann noch beliebig klein in N wird, wenn R/ 6 N gegen 0 geht. Wir k¨ onnen nun den angek¨ undigten Zentralen Grenzwertsatz der Wahrscheinlichkeitstheorie f¨ ur den Spezialfall binomialverteilter Zufallsgr¨ oßen beweisen:
Theorem 23 (Moivre-Laplace) Es sei 0 < p < 1, q = 1 − p und (ξN )∞ N =1 eine Folge binomialverteilter Zufallsgr¨oßen mit den Parametern N, p. Seien die Zufallsgr¨oßen ξbN gegeben durch ξbN := √1N (ξN − pN ). Dann gilt f¨ ur beliebiges x ∈ R f¨ ur die Verteilungsfunktion FξbN dieser Zufallsgr¨oßen Z x r2 1 e− 2pq dr. lim FξbN (x) = √ N →∞ 2πpq −∞ B e w e i s. Wir w¨ ahlen zun¨ achst zwei reelle Konstanten a < b. Sei PξbN die b zu ξN geh¨ orende Wahrscheinlichkeitsverteilung. Dann gilt aufgrund des vorher√ p ) f¨ ur beliebiges ε > 0 gehenden Satze (mit rk := k−N N X
√ √ pN +a N
< PξbN ((a, b]) X <
√
2 1 1 e− 2pq rk (1 − ε) 2πpqN
√
1 e 2πpqN
(4) (5)
√ √ pN +a N
1 rk2 − 2pq
(1 + ε)
falls N gen¨ ugend groß ist. Wir betrachten die Summe X 2 1 1 √ e− 2pq rk √ √ N pN +a N
=
1 √ N
X
1
2
e− 2pq rk
.
a
Betrachten wir nun amtliche Werte√rk f¨ ur k = 0, 1, 2, ..., N , dann ist der kleinste √ s¨ m¨ ogliche Wert − N p, der gr¨ oßte N q, und aufeinanderfolgende Werte haben alle den Abstand √1N . Damit bildet 1 √ N
X
1
2
e− 2pq rk
a
√ √ ab dem N , wo − N p ≤ a, N q ≥ b gilt, eine Riemannsche Approximation Rb r2 des bestimmten Riemannschen Integrals a e− 2pq dr mit der Schrittweite √1N . 32
Der Ausdruck konvergiert demzufolge f¨ ur N → ∞ gegen dieses Integral (der Integrand ist eine stetige beschr¨ ankte Funktion. Nun ergibt sich aus (4) f¨ ur gen¨ ugend große N (1 − ε) √
1 2πpq
Z
b
r2
e− 2pq dr
< PξbN ((a, b])
a
< (1 + ε) √
1 2πpq
Z
b
r2
e− 2pq dr.
a
Daraus folgt, da ε beliebig war, die Existenz des Limes lim PξbN ((a, b]) = √
N →∞
1 2πpq
Z
b
r2
e− 2pq dr.
a
Nun gilt f¨ ur beliebiges x ∈ R und beliebiges reelles a > −|x| ≤ FξbN (x) = PξbN ((−a, x]) + PξbN ((−∞, −a])
PξbN ((−a, x])
≤ PξbN ((−a, x]) + (1 − PξbN ((−a, a])).
Daher ergibt sich mit N → ∞ f¨ ur beliebiges a > −|x| Z x r2 1 √ e− 2pq dr ≤ liminfFξbN (x) ≤ limsupFξbN (x) N →∞ 2πpq −a N →∞ Z x 2 r 1 e− 2pq dr ≤ √ 2πpq −a Z a r2 1 e− 2pq dr . + 1− √ 2πpq −a
(6)
(7)
Wir benutzen nun folgende Aussage aus der Analysis: r2
Lemma 24 Die reelle Funktion e− 2 , r ∈ R ist auf dem Interval (−∞, +∞) √ R∞ r2 integrierbar und hat das Integral −∞ e− 2 dr = 2π. Also ist
R∞
r2
−∞
e− 2pq dr =
√
sowie √
1 2πpq
Z
x −a
√ √ 2πpq (Substitution r → r pq), und folglich gilt
1 2πpq
Z
a −a
r2
e− 2pq dr →a→∞ 1
r2
e− 2pq dr →a→∞ √
1 2πpq
Z
x
(8)
r2
e− 2pq dr.
−∞
Nun folgt aus (6) die Aussage des Theorems, wenn wir auf beiden Seiten der Absch¨ atzung a gegen +∞ gehen lassen.
33
Wie wir gesehen haben, wird f¨ ur große N die Verteilung der Zufallsgr¨ oße ξbN R r2 x − e 2p(1−p) dr beschrieimmer besser durch die Funktion F (x) := √ 1 −∞ 2πp(1−p)
ben. Diese Funktion erf¨ ullt alle Kriterien, die wir f¨ ur eine Verteilungsfunktion auf R abgeleitet haben: Es gilt limx→−∞ F (x) = 0, limx→∞ F (x) = 1 (wegen (8)), die Funktion ist monoton wachsend und die Funktion ist als Integral u ¨ber eine stetige Funktion stetig differenzierbar (also nicht nur rechts-stetig, wie gefordert war). Also gibt es eine Wahrscheinlichkeitsverteilung mit dieser Verteilungsfunktion. Diese Wahrscheinlichkeitsverteilung h¨ angt von dem Parameter p ab. Sie ist der Spezialfall eines Verteilungstyps, der durch die Verteilungsfunktionen der Form Z x (r−c)2 1 Φc,σ (x) := √ e− 2σ2 dr, σ > 0, c ∈ R 2πσ −∞ p p(1 − p)). gegeben ist (in unserem Fall ist der Parameter c = 0 und σ = Die entsprechende Wahrscheinlichkeitsverteilung heißt Normalverteilung mit Mittelwert c und Standardabweichung σ. Sie wird mit N (c, σ 2 ) bezeichnet (das Quadrat σ 2 der Standardabweichung heißt Varianz der Normalverteilung). Die Funktion Φc,σ l¨ aßt sich, wie bewiesen werden kann, nicht durch irgendwelche (endlichen) Kombinationen der u ¨blichen elementaren Funktionen (Polynome, Potenzen, Sinus, Logarithmus usw.) ausdr¨ ucken. Sie l¨ aßt sich nur auf die Verteilungsfunktion der Standardnormalverteilung N (0, 1) mit c = 0, σ = 1 zur¨ uckf¨ uhren. Es gilt die Beziehung Φc,σ (x) = Φ0,1 (
x−c ), σ
oder anders ausgedr¨ uckt, wenn ξ eine normalverteilte Zufallsgr¨ oße mit Mittelwert c und Standardabweichung σ ist, dann ist die abgeleitete Gr¨ oße ξ−c σ stan¨ dardnormalverteilt (Ubungsaufgabe). Aufgrund ihrer Bedeutung in der Stochastik (insbesondere auch der Statistik) und anderen mathematischen und naturwissenschaftlichen Gebieten wurde die Funktion Φ := Φ0,1 schon lange tabelliert und ist in Programmpaketen und auf wissenschaftlichen Taschenrechnern implementiert. Wie wir gesehen haben, besitzt die Normalverteilung N (c, σ 2 ) die Dichtefunktion (bez¨ uglich des Lebesgueschen Maßes) ϕc,σ (x) = 2 − x2
√ 1 e− 2πσ
(x−c)2 2σ2
, d.h.
ϕ0,1 (x) = √12π e . Diese Funktion (Gaußsche Glockenkurve) ist f¨ ur x → ±∞ extrem schnell fallend, nicht nur exponentiell, sondern noch sehr viel schneller. (!pic!) Das f¨ uhrt dazu, daß die Ann¨ aherung von Φ an 0 bzw. 1 f¨ ur x → ±∞ gleichfalls sehr viel schneller als exponentiell erfolgt. Bemerkung: Das erscheint zun¨achst etwas paradox, da wir gesehen hatten, daß Abweichungen der Gr¨oßenordnung aN, a < p, q (vom zu erwartenden Wert 34
pN ) bei der Binomialverteilung, als deren Limes wir die Normalverteilung erhalten haben, nur exponentiell (in N ) unwahrscheinlich sind. Es ist aber zu beachten, daß wir eine Skalierung mit dem Faktor √1N vorgenommen haben, d.h. daß eine Abweichung von aN bei unglichen binomialverteilten Zu√ 2 √ der urspr¨ −a2 N ist, fallsgr¨oße nun einer Abweichung a N entspricht, und e−(a N) = e√ wie erwartet, nur exponentiell klein in N (aber super-exponentiell in N ). Wir fassen noch einmal zusammen, daß uns auf dem Weg von der Binomialverteilung zur Normalverteilung eine Reihe von grundlegenden Ergebnissen der Wahrscheinlichkeitstheorie (im Spezialfall) begegnet ist: Das (schwache) Gesetz der großen Zahlen: Die Wahrscheinlichkeit, daß Z die relative H¨ aufigkeit N des Auftretens eines Ereignisses bei oftmaliger unabh¨ angiger Wiederholung des Zufallsexperiments um mehr als ε von dessen Wahrscheinlichkeit p abweicht, geht bei beliebigem ε > 0 gegen Null. Der Satz u ¨ber große Abweichungen besagt sogar, daß diese Wahrscheinlichkeit exponentiell schnell gegen Null geht. Der Satz von Moivre-Laplace als Spezialfall des Zentralen √ Grenzwertsatzes besagt, daß Abweichungen der Gr¨ oßenordnung 1/ N zu erwarten sind, und gibt eine√Asymptotik f¨ ur die Wahrscheinlichkeit von Abweichungen uckt sumder Gr¨ oße r/ N in Form der Normalverteilung. Anders ausgedr¨ mieren sich viele kleine unabh¨ angige Gr¨ oßen der Gr¨ oßenordnung 1/N bei passender Skalierung zu einer normalverteilten Gr¨ oße um den zu erwartenden Wert (in unserem Falle p). Schließlich haben wir gesehen, daß sogar die unskalierten Einzelwahrscheinlichkeiten in der N¨ ahe von N p immer genauer durch die Dichtefunktion der Normalverteilung berechnet werden k¨ onnen (Satz 22). Eine solche Aussage heißt in der Wahrscheinlichkeitstheorie Lokaler Grenzwertsatz bzw. (etwas umst¨ andlicher) Lokaler zentraler Grenzwertsatz. Aussagen dieses Typs k¨ onnen mit modernen Mitteln unter weitaus allgemeineren Voraussetzungen gezeigt werden. Bevor wir uns damit besch¨ aftigen, leiten wir noch einen weiteren wichtigen Verteilungstyp aus der Binomialverteilung ab. Wir betrachten diesmal den Fall, daß bei einer binomialverteilten Gr¨ oße nicht nur der Parameter N groß ist, sondern daß p (also die Wahrscheinlichkeit des betrachteten Einzelereignisses bei N -maliger unabh¨ angiger Wiederholung eines Experiments) entsprechend klein ist, etwa die Gr¨ oße λ/N hat, λ > 0 (im Gegensatz zu den Betrachtungen zum Satz von Moivre-Laplace, wo p fixiert war). So ist etwa bei modernen Schaltkreisen die Ausfallwahrscheinlichkeit eines einzelnen Transistors, etwa im Verlaufe eines Monats, extrem klein, daf¨ ur ist die Anzahl dieser Elemente auf einem Chip recht groß, im Bereich von einigen hundert Millionen Transistorfunktionen bei aktuellen CPU’s. 35
¨ Eine solche Situation ist uns im Zusammenhang mit Ubungsaufgabe 4.3 begegnet. Wir erhalten f¨ ur die Einzelwahrscheinlichkeit pN uglich B(N, λ/N )) folk (bez¨ gende Asymptotik N −k k λ λ N lim pN = lim 1 − k k N →∞ N →∞ Nk N N −k k N (N − 1)...(N − k + 1) λ λ lim 1− = k! N →∞ Nk N N −k k λ λ = , lim 1 − k! N →∞ N N −j N , 0 ≤ j ≤ k − 1, λ −k →N →∞ wegen 1 − N
denn jede der k Gr¨ oßen Weiter ergibt sich Exponentialfunktion lim
N →∞
pN k
= =
konvergiert f¨ ur N → ∞ gegen 1.
1 und aufgrund der Stetigkeit de
N λ N λk λk λ = lim 1 − lim eln(1− N ) N →∞ N →∞ k! N k!
λk limN →∞ N ln(1− Nλ ) λk limN →∞ N (− Nλ + Nλ R( Nλ )) = . e e k! k!
Hier haben wir die Taylorentwicklung der Funktion ln in der Umgebung von 1 benutzt, und R(x) ist eine stetige Funktion von x, |x| < 1 mit R(x) → 0 f¨ ur x → 0. Wir erhalten also schließlich lim pN k =
N →∞
Die (positiven) Limeswerte ∞ X λk k=0
P∞
k!
k
λ k!
λk −λ e . k!
e−λ summieren sich zu 1:
e−λ = e−λ
∞ X λk
k=0
k!
= e−λ eλ = 1,
k
denn k=0 λk! ist die (f¨ ur alle λ konvergierende) Taylorreihe der Funktion λ 7−→ eλ . Das ist durchaus nicht selbstverst¨andlich, denn wie wir gesehen haben sind f¨ ur p = const. die Limites aller Einzelwahrscheinlichkeiten pN k Null und haben als Summe ebenfalls Null. Wir erhalten also im Limes eine Wahrscheinlichkeitsverteilung (die von einem Parameter λ abh¨ angt). Diese heißt Poissonsche Verteilung mit Parameter λ. Damit haben wir -auf recht einfache Weise im Vergleich zur Ableitung der Normalverteilung, und ohne Skalierung- folgende Aussage bewiesen: Satz 25 Die Einzelwahrscheinlichkeiten der Binomialverteilung B(N, λ/N ) konvergieren f¨ ur N → ∞ gegen die entsprechenden Einzelwahrscheinlichkeiten der Poissonschen Verteilung mit Parameter λ. 36
Diese Aussage wird manchmal Gesetz der kleinen Zahlen genannt (unter Bezug darauf, daß die Erfolgswahrscheinlichkeit p klein wird).
7
Erwartungswert und Varianz
Nachdem wir uns mit einigen wichtigen Verteilungstypen besch¨ aftigt haben, wollen wir nun einige allgemeine numerische Charakteristika von reellen oder vektorwertigen Zufallsgr¨ oßen (bzw. deren Verteilungen) einf¨ uhren. Ausgangspunkt soll die Analogie zwischen einem Wahrscheinlichkeitsmaß und einer Massenverteilung sein. Wir k¨ onnen uns ein beliebiges Wahrscheinlichkeitsmaß auf dem Rd (mit der σ-Algebra der Borelschen Mengen) als Verteilung einer Gesamtmasse 1 im euklidischen Raum veranschaulichen, und wenn das Wahrscheinlichkeitsmaß eine Dichtefunktion besitzt, entspricht deren Wert der jeweiligen lokalen Massedichte. Bekanntlich spielt in der Physik in diesem Zusammenhang der Begriff des Schwerpunktes eine besondere Rolle. Entsprechende Bedeutung besitzt er auch in der Stochastik, insbesondere im Zusammenhang mit dem Gesetz der großen Zahlen. Hier heißt diese Gr¨ oße Erwartungswert (oder auch Mittelwert). Betrachten wir zuerst den eindimensionalen Fall. Definition 26 Gegeben sei ein Wahrscheinlichkeitsmaß P auf [R, B(R)]. Falls die Funktion | · | : x ∈ R 7−→ |x| ∈ R+ bez¨ uglich P integrierbar ist, also R +∞ R +∞ |x|P (dx) < +∞ gilt, heißt die reelle Zahl xP (dx) Erwartungswert −∞ −∞ des Wahrscheinlichkeitsmaßes. Entsprechend wird, f¨ ur eine beliebige reellwertiR ge Zufallsgr¨oße ξ : [M, A, P ] 7−→ [R, B(R), P ◦ ξ −1 ] die Zahl M ξ(m)P (dm) = R +∞ −1 (dx), also der Erwartungswert des Wahrscheinlichkeitsmaßes P ◦ −∞ xP ◦ ξ −1 ξ , als Erwartungswert Eξ der Zufallsgr¨oße ξ bezeichnet, sofern |ξ(·)| integrierbar ist. Bemerkung: Der Erwartungswert einer Zufallsgr¨oße h¨angt also nur von P ◦ ξ −1 ab, d.h. zwei Zufallsgr¨oßen, die dieselbe Verteilung auf [R, B(R)] generieren, haben auch denselben Erwartungswert. Entsprechend lautet die Definition im mehrdiemensionalen Fall: Definition ur ein Wahrscheinlichkeitsmaß P auf [Rd , B(Rd )], das die BeR 27 F¨ dingung Rd |xj |P (dx) < +∞, j = 1, 2, ..., d, erf¨ ullt, heißt der Vektor R RRd x1 P (dx) d x2 P (dx) Z R · xP (dx) = d R · R Rd xd P (dx) Erwartungswert(vektor) von P .
37
Bemerkung: Die IntegrierbarkeitRaller Koordinatenfunktionen |xj | ist gleich¨ bedeutend mit der Endlichkeit von Rd ||x||P (dx) (Ubungsaufgabe). Der Erwartungswert charakterisiert also den geometrischen Schwerpunkt eines Wahrscheinlichkeitsmaßes. Alle von uns bisher betrachteten konkreten Wahrscheinlichkeitsverteilungen besitzen einen Erwartungswert. So ist der Erwartungswert der Zweipunktverteilung, die der 1 die Wahrscheinlichkeit p ∈ [0, 1] und der 0 die Wahrscheinlichkeit 1−p = q zuweist, ist 1·p+0·q = p R1 der Erwartungswert der Gleichverteilung auf [0, 1] ist 1/2 = 0 xdx PN der Erwartungswert der Gleichverteilung auf {1, 2, ..., N } ist N2+1 = N1 i=1 i
der Erwartungswert P der geometrischen Verteilung mit ErfolgswahrscheinlichP∞ P∞ ∞ keit p ist p−1 = i=1 jp(1 − p)j−1 = p i=1 jq j−1 = p p12 ( i=1 j(−h)j−1 ist die Taylorreihe der Funktion x12 , entwickelt an der Stelle 1, setze h = −q) der Erwartungswert mit Ausfallrate λ ist entspre- R ∞der Exponentialverteilung R∞ ∞ chend λ−1 = 0 xλe−λx dx = λ 0 xe−λx dx = λ −λ−1 xe−λx − λ−2 e−λx 0 (also ist sowohl bei der diskreten als auch der stetigen Wartezeitverteilung die Ausfallrate reziprok zur mittleren Wartezeit) der Erwartungswert der Binomialverteilung B(N, p) ist N p, denn N N X X N −1 N pk q N −k pk q N −k = N Np = k k−1 k = Np
N X k=1
k=1
k=0
N −1 k−1
p
k−1 N −1−(k−1)
q
= Np
N −1 X k=0
N −1 k
pk q N −1−k
= N p(p + q)N −1 = N p1N −1 ,
der Erwartungswert ist also der Wert, der genau dem Idealwert der Anzahl des Auftretens der 1 (s. voriges Kapitel) entspricht, bei dem die relative H¨ aufigkeit genau p ist (N p ist nat¨ urlich i.A. keine ganze Zahl) der Erwartungswert der Normalverteilung N (c, σ 2 ) ist c: Z +∞ (x−c)2 1 √ xe− 2σ2 dx 2πσ −∞ Z +∞ Z +∞ 2 (x−c) (x−c)2 1 1 (x − c)e− 2σ2 dx + c √ e− 2σ2 dx =√ 2πσ −∞ 2πσ −∞ Z +∞ x2 1 xe− 2σ2 dx + c · 1 = c, =√ 2πσ −∞ x2
denn die Funktion f (x) = xe− 2σ2 ist ungerade (f (−x) = −f (x)) und absolut integrierbar, daher ist ihr Integral 0 38
der Erwartungswert der Poissonschen Verteilung mit Parameter λ ist λ: ∞ ∞ X X λk−1 −λ λk k e−λ = λ e k! (k − 1)! k=0
k=1 ∞ X
=λ
k=0
λk −λ e =λ k!
Die haupts¨ achliche Relevanz des Erwartungswertes liegt, wie wir noch sehen werden, im Gesetz der großen Zahlen begr¨ undet, ansonsten ist er nat¨ urlich nur ein einfaches, grobes Charakteristikum einer Verteilung. Er erlaubt aber im Falle einer positiven Zufallsgr¨ oße die Absch¨ atzung der Wahrscheinlichkeit großer Werte: Lemma 28 (Markovsche Ungleichung) Es sei P ein Wahrscheinlichkeitsmaß auf [R+ , B(R) ∩ R+ ] mit Erwartungswert E(P ). Dann gilt f¨ ur alle c > 0 P ([c, ∞)) ≤
E(P ) . c
B e w e i s. Es gilt, falls der Erwartungswert von P existiert, Z Z Z ∞ 1 ∞ 1 ∞ P ([c, ∞)) = cP (dx) ≤ xP (dx) P (dx) = c c c c c Z E(P ) 1 ∞ xP (dx) = . ≤ c 0 c Lemma 29 Der Erwartungswert der Summe zweier reellwertiger (vektorwertiger) Zufallsgr¨oßen ξ1 , ξ2 (¨ uber demselben Grundraum [M, A, P ]) existiert, wenn beide Zufallsgr¨oßen einen Erwartungswert besitzen, und ist gleich der Summe der beiden Erwartungswerte. B e w e i s. Wir erinnern zun¨ achst daran, daß mit ξ1 , ξ2 auch [ξ1 , ξ2 ] eine Zufallsgr¨ oße u ¨ber [M, A, P ] ist (d.h. eine meßbare Abbildung). Die Abbildung [x1 , x2 ] 7−→ x1 + x2 ist ebenfalls meßbar (von [R2 , B(R2 )] in [R, B(R)] bzw. von [R2d , B(R2d )] in [Rd , B(Rd )] im Vektorfall), denn sie ist stetig (Kurs Analysis). Die Verkn¨ upfung meßbarer Abbildungen ist meßbar. Also ist ξ1 + ξ2 eine Zufallsgr¨ oße. Nun gilt Z E(ξ 1 + ξ2 ) = (ξ1 (m) + ξ2 (m))P (dm) M Z Z = ξ1 (m)P (dm) + ξ2 (m)P (dm) M
M
= Eξ 1 + Eξ2 .
39
W¨ ahrend der Erwartungswert der Summe von Zufallsgr¨ oßen immer die Summe der Erwartungswerte ist, gilt die entsprechende Aussage f¨ ur das Produkt im Allgemeinen nur unter der zus¨ atzlichen Annahme der Unabh¨ angigkeit: Lemma 30 Der Erwartungswert des Produkts zweier unabh¨ angiger reellwertiger Zufallsgr¨oßen ξ1 , ξ2 (¨ uber demselben Grundraum [M, A, P ]) existiert, wenn beide Zufallsgr¨oßen einen Erwartungswert besitzen, und ist gleich dem Produkt der beiden Erwartungswerte. B e w e i s. Wir hatten gesehen, daß zwei Zufallsgr¨ oßen ξ1 , ξ2 u ¨ber demselben Grundraum [M, A, P ] genau dann unabh¨ angig sind, wenn P ◦ [ξ1 , ξ2 ]−1 = P ◦ ξ1 −1 × P ◦ ξ2 −1 erf¨ ullt ist. Folglich erhalten wir mit dem Satz von Fubini (Maßtheorie) Z Eξ1 ξ2 = ξ1 (m)ξ2 (m)P (dm) ZM x1 x2 (P ◦ ξ1 −1 × P ◦ ξ2 −1 )(d[x1 , x2 ]) = R2 Z Z = x2 (P ◦ ξ2 −1 )(dx2 ) x1 (P ◦ ξ1 −1 )(dx1 ) R Z ZR −1 = x1 (P ◦ ξ1 )(dx1 ) x2 (P ◦ ξ2 −1 )(dx2 ) R R Z Z = ξ1 (m)P (dm) ξ2 (m)P (dm) = Eξ 1 Eξ2 . M
M
Bemerkung: Der Satz von Fubini besagt, daß f¨ ur zwei σ-endliche Maße µ1 , µ2 die Identit¨at Z f (m1 , m2 )(µ1 × µ2 )(d[m1 , m2 ]) M1 ×M2 Z Z = f (m1 , m2 )µ1 (dm1 ) µ2 (dm2 ) M2
M1
R f¨ ur jede meßbare Funktion f : M1 ×M2 7−→ R erf¨ ullt ist, f¨ ur die M1 |f (m1 , m2 )|µ1 (dm1 ) f¨ ur µ2 -fast alle m2 existiert und als Funktion von m2 bez¨ uglich µ2 integrierbar ist. Definition 31 Wenn f¨ ur zwei -nicht unbedingt unabh¨angige- Zufallsgr¨oßen ξ1 , ξ2 der Erwartungswert Eξ1 ξ2 existiert und die Relation Eξ1 ξ2 = Eξ1 Eξ2 erf¨ ullt, dann heißen diese Gr¨oßen unkorreliert. Bemerkung. Die Unkorreliertheit ist eine schw¨achere Eigenschaft als die Un¨ abh¨angigkeit, denn es gibt unkorrelierte Zufallsgr¨oßen, die abh¨angig sind (Ubungsaufgabe). Wie wir festgestellt haben, charakterisiert der Erwartungswert (falls er existiert) nur den ’Schwerpunkt’ einer Zufallsgr¨ oße ξ, macht aber i.A. keine Angabe 40
dar¨ uber, wie sehr diese Zufallsgr¨ oße von diesem Schwerpunkt abweichen kann (f¨ ur positive Zufallsgr¨ oßen gibt die Markovsche Ungleichung allerdings eine grobe Absch¨ atzung f¨ ur die Wahrscheinlichkeit solcher Abweichungen, w¨ ahrend ohne diese Positivit¨ atsbedingung keinerlei allgemeing¨ ultige Absch¨ atzung aus dem Erwartungswert alleine m¨ oglich ist). Es liegt aufgrund der Markovschen Ungleichung nahe, die (abgeleitete) positive Zufallsgr¨ oße ξ 0 := (ξ − Eξ)2 zu betrachten, also das Quadrat der Abweichung der betrachteten Zufallsgr¨ oße ξ von ihrem eigenen Erwartungswert. Falls ξ 0 einen Erwartungswert besitzt -also große positive bzw. negative Abweichungen gen¨ ugend unwahrscheinlich sind- heißt diese Gr¨ oße Varianz von ξ und wird mit Varξ bezeichnet. Lemma 32 Eine reellwertige Zufallsgr¨oße ξ : [M, A, P ] 7−→ R besitzt genau R dann eine (endliche) Varianz Varξ, wenn Eξ 2 = M (ξ(m))2 P (dm) < +∞ (ξ ist quadratisch integrierbar) erf¨ ullt ist, und es gilt die Beziehung 2
Varξ = Eξ 2 − (Eξ) . B e w e i s. Zun¨ achst impliziert sowohl die Existenz der Varianz (nach Definition von ξ 0 ) als auch die Endlichkeit von Eξ 2 (wegen +∞ > Eξ 2 > E|ξ|) die Integrierbarkeit von ξ, d.h. die Existenz von E|ξ|. Dann ist wegen der Beziehung 0 ≤ ξ 0 = (ξ − Eξ)2 = ξ 2 − 2ξEξ + (Eξ)2 ≤ ξ 2 + 2|ξ| · |Eξ| + (Eξ)2 die Gr¨ oße ξ 0 genau dann (bez¨ uglich P ) integrierbar, wenn ξ 2 integrierbar ist (nach Lemma 29). In diesem Falle gilt Eξ 0
= E(ξ − Eξ)2 = E(ξ 2 − 2ξEξ + (Eξ)2 )
= Eξ 2 − 2EξEξ + (Eξ)2 = Eξ 2 − (Eξ)2 .
Unmittelbar aus der Markovschen Ungleichung ergibt sich nun eine erheblich bessere Absch¨ atzung f¨ ur Abweichungen vom Mittelwert, ohne Positivit¨ atsbedingung (aber um den Preis der Existenz der Varianz). Falls der Erwartungswert Eξ existiert, ist zumindest das Integral R Bemerkung. (ξ(m) − Eξ)2 µ(dm) =Var(ξ) als Integral u ¨ ber eine positive meßbare Funktion immer definiert, allerdings u.U. unendlich. Lemma 33 (Chebyschevsche Ungleichung) Es sei ξ : [M, A, P ] 7−→ R eine reellwertige Zufallsgr¨oße mit Eξ 2 < +∞. Dann gilt f¨ ur beliebiges c > 0 P (|ξ − Eξ| ≥ c) ≤
Varξ . c2
B e w e i s. Wir erhalten unter der angegebenen Bedingung, also falls die Varianz exitiert, aus der Markovschen Ungleichung P (|ξ − Eξ| ≥ c) = P ((ξ − Eξ)2 ≥ c2 ) ≤ 41
Varξ E(ξ − Eξ)2 = 2 . c2 c
Die Varianz ist also (¨ uber die Chebyschevsche Ungleichung) ein Maß f¨ ur die Wahrscheinlichkeit von Abweichungen vom Mittelwert (Streuung) einer reellen Zufallsgr¨ oße. Solche Abweichungen sind -falls die Varianz existiert- reziprok quadratisch in c unwahrscheinlich, w¨ ahrend die Markovsche Ungleichung nur -und auch nur f¨ ur positive Zufallsgr¨ oßen- ein reziprok proportionales Abfallen der Wahrscheinlichkeit großer Werte liefert. S¨ amtliche von uns bisher betrachteten konkreten Wahrscheinlichkeitsverteilungen besitzen auch eine Varianz. So ist f¨ ur eine Zufallsgr¨ oße ξ die Varianz im Fall der Zweipunktverteilung p · 12 + q · 02 − (Eξ)2 = p − p2 = pq R1 die Varianz der Gleichverteilung auf [0, 1] ist 1/12 = 0 x2 dx − ( 12 )2 = 13 − 41 die Varianz der Gleichverteilung auf {1, 2, ..., N } ist
2 N N +1 (N + 1)(2N + 1) (N + 1)2 1 X 2 N2 − 1 i − = = − 12 N i=1 2 6 4 die Varianz der geometrischen Verteilung mit Erfolgswahrscheinlichkeit p ist q p2
die Varianz der Exponentialverteilung mit Ausfallrate λ ist entsprechend λ−2 die Varianz der Binomialverteilung B(N, p) ist N pq die Varianz der Normalverteilung N (c, σ 2 ) ist σ 2 : 1 √ 2πσ
Z
+∞ −∞
(x − c)2 e−
(x−c)2 2σ2
dx
Z +∞ Z +∞ x2 x2 1 1 x2 e− 2σ2 dx = √ x · xe− 2σ2 dx 2πσ −∞ 2πσ −∞ h Z +∞ i +∞ 2 x x2 1 + σ2 −x · σ 2 e− 2σ2 e− 2σ2 dx =√ −∞ 2πσ −∞ Z +∞ x2 1 − 2σ 2 2 0+σ e =√ dx 2πσ −∞ = σ2
=√
die Varianz der Poissonschen Verteilung mit Parameter λ ist λ. W¨ ahrend der Erwartungswert immer additiv ist, ist die Varianz der Summe zweier Zufallsgr¨ oßen (mit endlichem Varianz) nur dann gleich der Summe der Varianzen, wenn die Gr¨ oßen unkorreliert sind (also insbesondere, wenn sie unabh¨ angig sind): 42
Satz 34 F¨ ur zwei Zufallsgr¨oßen ξ1 , ξ2 (¨ uber demselben Wahrscheinlichkeitsraum) mit endlichen Erwartungswerten gilt Var(ξ1 + ξ2 ) =Var(ξ1 )+ Var(ξ2 ) genau dann, wenn Eξ1 ξ2 = Eξ1 Eξ2 erf¨ ullt ist. B e w e i s. Aus der Endlichkeit der Varianzen folgt die Existenz von Eξ1 ξ2 (dies ist das Skalarprodukt in L2 (µ)). Außerdem liegt mit ξ1 und ξ2 auch ξ1 + ξ2 in L2 (µ), besitzt also eine Varianz. Nun gilt Var(ξ1 + ξ2 ) − (Var(ξ1 ) + Var(ξ2 ))
= E (ξ1 + ξ2 − Eξ1 − Eξ2 )
2
2
−E (ξ1 − Eξ1 ) − E (ξ2 − Eξ2 )
2
= Eξ12 + Eξ22 + 2Eξ1 ξ2 − (Eξ1 )2 − (Eξ2 )2 − 2Eξ1 Eξ2 −Eξ12 + (Eξ1 )2 − Eξ22 + (Eξ2 )2 = 2Eξ1 ξ2 − 2Eξ1 Eξ2 .
7.1
Kovarianzmatrix
Auch die Varianz besitzt eine mehrdimensionale Verallgemeinerung (den Erwartungswert hatten wir ja gleich zu Beginn auch im Rd definiert). Es seien ξ eine Zufallsgr¨ oße u ¨ber [M, A, P ] mit Werten im Rd , und sie sei quadratisch integrierbar, d.h. E||ξ||2 < ∞. Dann heißt die Matrix Σ2 (ξ) := (ki,j )di,j=1 mit den Eintr¨ agen ki,j := E(ξi − Eξi )(ξj − Eξj )
Kovarianzmatrix zu ξ. Wir k¨ onnen auch k¨ urzer Σ(ξ) = E(ξ − Eξ)(ξ − Eξ)0 0 schreiben, wobei (ξ − Eξ) den zu (ξ − Eξ) konjugierten Vektor (Zeilenvektor mit denselben Eintr¨ agen) bezeichnet. In der Hauptdiagonalen der Kovarianzmatrix stehen die Varianzen E(ξi − Eξi )2 der Koordinaten von ξ. Da Eξi2 ≤ E||ξ||2 , ist die Endlichkeit dieser Werte aufgrund der gestellten Bedingung gesichert. Aus der Cauchy-Schwarzschen Ungleichung folgt nun auch mit Z |(ξi (m) − Eξi )(ξj (m) − Eξj )|P (dm) ZM = |ξi (m) − Eξi | · |ξj (m) − Eξj |P (dm) M
≤ =
Z
M
(ξi (m) − Eξi )2 P (dm)
p Varξi · Varξj < +∞
1/2 Z
43
M
(ξj (m) − Eξj )2 P (dm)
1/2
die Endlichkeit s¨ amtlicher Kovarianzen sowie wegen Z | (ξi (m) − Eξi )(ξj (m) − Eξj )P (dm)| M Z ≤ |(ξi (m) − Eξi )(ξj (m) − Eξj )|P (dm) pM Varξi · Varξj ≤ die Beziehung
|ki,j | ≤
p Varξi · Varξj .
Die Kovarianzmatrix hat die Eigenschaft, daß f¨ ur jeden Vektor x ∈ Rd die 0 2 Ungleichung x Σ (ξ)x ≥ 0 erf¨ ullt ist, denn es gilt x0 Σ2 (ξ)x
=
d X
i,j=1
= E
xi xj E(ξi − Eξi )(ξj − Eξj )
d X
i,j=1 0
xi xj (ξi − Eξi )(ξj − Eξj )
= Ex (ξ − Eξ)(ξ − Eξ)0 x 2
= E hξ − Eξ, xi ≥ 0.
Hier bezeichnet h·, ·i das Skalarprodukt im Rd und wir haben benutzt, daß der Erwartungswert der Summe von Zufallsgr¨ oßen gleich der Summe der Erwartungswerte ist. Die Kovarianzmatrix ist also stets positiv-semidefinit. Wie wir gleich sehen werden, ist umgekehrt auch jede positiv-semidefinite Matrix Kovarianzmatrix zu einer (passend gew¨ ahlten) Zufallsgr¨ oße.
7.2
Das schwache Gesetz der großen Zahlen im Fall endlicher Varianz
Der Erwartungswert einer Zufallsgr¨ oße ist nicht nur ein einfaches numerisches Charakteristikum, sondern er bestimmt unter sehr allgemeinen Voraussetzungen das Verhalten der Summe wenn viele solche Gr¨ oßen addiert werden. Wir hatten das im allereinfachsten Fall einer Zweipunkt-Verteilung auf {0, 1} (BernoulliVerteilung) schon festgestellt: F¨ ur beliebiges positives ε wird es bei fortgesetzter unabh¨ angiger Wiederholung des Versuchs immer PNwahrscheinlicher, daß die Anzahl der ’Erfolge’ (Ergebnis 1), also die Summe i=1 ξi in dem Intervall [N (p−ε), N (p+ε)] liegt. Dazu hatten wir die Verteilung der Summe charakterisiert (die Binomialverteilung B(N, p), deren Erwartungswert N p ist) und deren Einzelwahrscheinlichkeiten f¨ ur großes N abgesch¨ atzt. Die Chebyschevsche Ungleichung erlaubt uns nun, eine solche Aussage recht allgemein zu beweisen. Die betreffenden Zufallsgr¨ oßen m¨ ussen nicht einmal dieselbe Verteilung besitzen, 44
und sie m¨ ussen auch nicht vollst¨ andig unabh¨ angig sein, sondern nur paarweise unkorreliert. Allerdings m¨ ussen sie, damit die Ungleichung einen Ansatzpunkt hat, alle eine (endliche) Varianz Var(ξi ) aufweisen und wir werden zus¨ atzlich die Existenz einer endlichen oberen Schranke f¨ ur alle diese Varianzen fordern. Satz 35 (Schwaches Gesetz der großen Zahlen bei beschr¨ ankter Varianz) Es sei {ξi }∞ eine Folge reeller Zufallsgr¨ o ßen u ber einem gemeinsamen Wahr¨ i=1 scheinlichkeitsraum [M, A, P ]. Es existiere f¨ ur alle i der Erwartungswert und die Varianz der Zufallsgr¨oße und es sei supi∈N Var(ξi ) < +∞. Die Gr¨oßen seien unkorreliert, d.h. f¨ ur beliebige i 6= j sei Eξi ξj = Eξi Eξj . Dann gilt f¨ ur beliebiges ε>0 ! N N 1 X 1 X lim P ξi − Eξi > ε = 0. N N →∞ N i=1
i=1
PN B e w e i s. Wir bezeichnen mit c das supi∈N Var(ξi ). Der Mittelwert N1 i=1 ξi P P N hat den Erwartungswert N1 N amtlichen ξi liegt auch N1 i=1 Eξi . Mit s¨ i=1 ξi in L2 (P ), besitzt also eine (endliche) Varianz: Var
N 1 X ξi N i=1
!
N
1 X ξi N i=1
= E
=
−
N 1 X Eξi N i=1
N N X X 1 2 ξi ξj ξ + 2 E i 2 N i,j=1 i=1
−
=
!2
i6=j
N X
N X
!2
1 (Eξi )2 + 2 Eξi Eξj 2 N i=1 i,j=1
1 N2
N X i=1
Var(ξi ) ≤
i6=j
c cN = . 2 N N
Nun m¨ ussen wir nur noch die Chebyschevsche Ungleichung anwenden: ! N N 1 X 1 X P ξi − Eξi > ε N N i=1 i=1 P N Var N1 i=1 ξi c ≤ ≤ −→ 0. 2 ε N ε2 N →∞ Der einfache Beweisgedanke ist also der, daß sich die Varianzen der unkorrelierten oßen als Maß ihrer Streuung bei der Summation addieren, so daß P Gr¨ N Var achst (h¨ ochstens wie N c), jedoch bei der Mittelung mit i=1 ξi linear w¨ 45
1 N
multipliziert sich die Streuung mit N12 , so daß die erwartete Streuung immer kleiner wird. Trotz des einfachen Beweises (und des Namens ’schwaches Gesetz’, der nur PN darauf hinweist, daß man in vielen F¨ allen sogar die Konvergenz von N1 i=1 ξi beweisen kann) ist dies eine recht starke und wichtige Aussage. Die Existenz der Varianzen macht ihren Beweis einfach. Wir werden sehen, daß auch die (genauere) Aussage des zentralen Grenzwertsatzes auf der Existenz der Varianzen fußt.
7.3
Mehrdimensionale Normalverteilung
Wir wollen nun auch die Klasse der Normalverteilungen auf den mehrdimensionalen Fall verallgemeinern. Zun¨ achst betrachten wir eine endliche Folge {ξi }di=1 unabh¨ angiger standard-normalverteilter Zufallsgr¨ oßen. Das Verteilungsgesetz des Vektors ξ1 ξ2 · , · ξd
d.h. das Produktmaß N (0, 1) × ... × N (0, 1) (d mal) wird als d-dimensionale Standardnormalverteilung N (0, I) bezeichnet. Hier steht 0 f¨ ur den Nullvektor als Erwartungswert und I f¨ ur die Einheitsmatrix, die die Kovarianzmatrix dieser Verteilung ist. Aus dem Satz von Fubini folgt, daß N (0, I) die Dichtefunk||x||2
uglich des d-dimensionalen Lebesgueschen Maßes besitzt. tion (2π)1d/2 e− 2 bez¨ Um den allgemeinen Fall untersuchen zu k¨ onnen, ben¨ otigen wir eine Aussage dar¨ uber, wie sich die Wahrscheinlichkeitsdichte bei einer linearen Transformation berechnet. Lemma 36 Es sei P ein absolut stetiges Wahrscheinlichkeitsmaß auf [Rd , B(Rd )] mit der Dichtefunktion f und A eine invertierbare lineare Abbildung des R d in sich. Die Verteilung von A, aufgefaßt als Zufallsgr¨oße ¨ uber dem Wahrscheinlichkeitsraum [Rd , B(Rd ), P ], ist absolut stetig mit der Dichtefunktion fA := det A−1 f (A−1 (·)). B e w e i s. Wir m¨ ussen zeigen, daß sich die Wahrscheinlichkeit eines beliebigen Menge X ∈ B(Rd ) durch ¨ber diese Menge ergibt. R Integration von fA u Wir erhalten P ◦ A−1 (X) = A−1 X f (x)dx und wenden nun die Substitution x → y = Ax an. Dabei multipliziert sich das Lebesguesche Maß mit det A−1 und es ergibt sich Z f (A−1 y)dy. P ◦ A−1 (X) = det A−1 X
Bemerkung. Wenn A nicht invertierbar ist, ist ARd =ImA ein linearer Unterraum von Rd kleinerer Dimension, dessen Lebesguesches Maß Null ist, aber 46
das Maß bez¨ uglich P ◦ A−1 ist 1. In diesem Fall hat also die Zufallsgr¨oße A eine singul¨are Verteilung und somit keine Dichtefunktion. Wenden wir solch eine lineare Transformation auf eine d-dimensionale standardnormalverteilte Zufallsgr¨ oße ξ an, so ergibt sich nun als Dichtefunktion 1 (2π)d/2
det A
e−
||A−1 x||2 2
1
=
(2π)d/2 p
=
det A 1
e−
(2π)d det AA0
x0 (A−1 )0 A−1 x 2
e−
x0 (AA0 )−1 x 2
.
Je nach Wahl von A ist Σ2 = AA0 eine beliebige positiv-definite (also symmetrische) Matrix (jede positiv definite Matrix B l¨ aßt sich (eindeutig) in der Form B = C 2 = C · C = C 0 C schreiben, wobei C wiederum positiv-definit ist). Man definiert die zentrierte d-dimensionale Normalverteilung N (0, Σ2 ) mit Kovarianzmatrix Σ2 dementsprechend als diejenige Verteilung, die die x0 Σ−2 x Dichtefunktion √ 1d besitzt. Tats¨ achlich ist Σ2 die Kovarianze− 2 (2π) det Σ
matrix dieser Verteilung, denn 2
Σ (A)
Z 2 1 0 − ||x|| 2 = E(Aξ)(Aξ) = dx (Ax)(Ax) e (2π)d/2 Rd Z 2 1 0 0 − ||x|| 2 = Axx A e dx (2π)d/2 Rd Z ||x||2 1 0 − 2 dx A0 xx e = A (2π)d/2 Rd 0
= AIA0 = AA0 = Σ2 .
Wenn wir nun noch eine Verschiebung um einen beliebigen Vektor c ∈ Rd zulassen, kommen wir zur Definition 37 Es sei c ∈ Rd und Σ2 eine beliebige positiv definite lineare Abbildung des Rd in sich. Die Wahrscheinlichkeitsverteilung mit der Dichtefunktion p
1 (2π)d det Σ2
e−
(x−c)0 Σ−2 (x−c) 2
heißt Normalverteilung mit Erwartungswert c und Kovarianzmatrix Σ2 und wird mit N (c, Σ2 ) bezeichnet. Bemerkung. Wenn A nicht invertierbar ist, dann ist AA0 nur positiv-semidefinit und det AA0 = det Σ2 = 0. In diesem Fall ist der Tr¨ager von P ◦ A−1 der lineare Unterraum ARd =ImA, d.h. P ◦ A−1 ist singul¨ar und man spricht von einer ausgearteten Normalverteilung. Die Kovarianzmatrix ist immer noch AA 0 , denn die obige Rechnung setzt nicht voraus, daß A invertierbar ist. Da sich jede positiv-semidefinite Matrix als AA0 schreiben l¨aßt, sehen wir, daß alle positivsemidefiniten Matrizen als Kovarianzmatrizen von Zufallsgr¨oßen auftauchen,
47
n¨amlich z.B. als Kovarianzmatrizen von (u.U. ausgearteten) Normalverteilungen. ¨ Wir hatten in Ubungsaufgabe 7.2 gesehen, daß im eindimensionalen Fall die Summe zweier unabh¨ angiger normalverteilter Zufallsgr¨ oßen wieder normalverteilt ist, mit der Summe der entsprechenden Erwartungswerte und Varianzen. Diese Aussage gilt in beliebigen Dimensionen: Satz 38 Es seien ξ1 , ξ2 zwei unabh¨angige normalverteilte Zufallsgr¨oßen, ξi besitze den Erwartungswert ci und die Kovarianzmatrix Σ2i , i = 1, 2. Dann ist ξ1 +ξ2 normalverteilt mit Erwartungswert c1 +c2 und Kovarianzmatrix Σ21 +Σ22 . B e w e i s. Es sei C ∈ B(Rd ) eine meßbare Menge. Dann gilt P (ξ1 + ξ2
∈ =
C) 1 1 p · d (2π) det Σ21 det Σ22 Z −2 −2 (x1 −c1 )0 Σ1 (x1 −c1 )+(x2 −c2 )0 Σ2 (x2 −c2 ) 2 (µL × µL )(d(x1 , x2 )) e− 2d (x1 ,x2 )∈R x1 +x2 ∈C
=
1 1 p (2π)d det Σ21 det Σ22 Z −2 −2 x 0Σ x +x 0 Σ x − 1 1 12 2 2 2 (µL × µL )(d(x1 , x2 )). · e 2d (x1 ,x2 )∈R x1 +x2 +c1 +c2 ∈C
Hier haben wir die Verschiebungsinvarianz des d-dimensionalen Lebesgueschen Maßes ausgenutzt, d.h. die Invarianz unter der Substitution x 7−→ x + c. Nun betrachten wir die Matrix 2 Σ1 0 Σ2 = , 0 Σ22 (2d)
benutzen, daß das 2d-dimensionale Lebesguesche Maß µL das Produktmaß µL × µL der beiden d-dimensionalen Lebesguesche Maße ist und erhalten Z 1 1 x0 Σ−2 x (2d) √ = e− 2 µL (dx). 2d d 2 x=(x ,x )∈R (2π) 1 2 det Σ x1 +x2 +c1 +c2 ∈C
Wir betrachten im R2d die Substitution
x1 x2
durch die symmetrische orthogonale Matrix T := (2d)
7−→
√1 2
√1 2
I I I −I
x1 + x 2 x1 − x2
, die
= T −1 be-
werkstelligt wird. Dabei multipliziert sich µL mit det T = 1, bleibt also unver¨ andert. Es ergibt sich Z 0 −1 −2 −1 1 1 − x T Σ2 T x (2d) √ µL (dx). e 2d (2π)d det Σ2 √x=(x1 ,x2 )∈R 2x1 +c1 +c2 ∈C
48
Nun gilt Σ−2 T
: = = = :
= T Σ−2 T −2 1 I I I I Σ1 0 I −I 0 Σ−2 2 I −I 2 −2 −2 1 I I Σ1 Σ1 −2 −2 I −I Σ −Σ 2 2 2 −2 −2 −2 1 Σ1 + Σ−2 Σ − Σ 2 1 2 −2 2 Σ−2 Σ−2 2 1 − Σ2 1 + Σ2 1 R+ R− , = 2 R− R+
−2 wobei R+ := Σ−2 als Summe zweier positiv definiter Matrizen wieder 1 + Σ2 positiv definit, also invertierbar ist. Daher gilt mit dem Satz von Fubini, mit 1 √ 1 Z := (2π) d det Σ2
P (ξ1 + ξ2
∈
C) Z = Z = Z = Z
Z
Z
Z
2d
x=(x1 ,x2 )∈R √ 2x1 +c1 +c2 ∈C √ 2x1 +c1 +c2 ∈C √ 2x1 +c1 +c2 ∈C
e−
−2 x0 Σ x T 2
Z Z
e− Rd
Rd
1
(2d)
µL (dx)
−2 x0 Σ x T 2
dx2 dx1
0 0 0 1 e− 4 (x1 R+ x1 +2x1 R− x2 +x2 R+ x2 ) dx2 dx1
0
1
0
−1
= Z √ e − 4 x 1 R+ x 1 + 4 x 1 R− R+ R− x 1 2x +c +c ∈C Z 1 1 2 −1 −1 0 0 1 · e− 4 (x1 R− R+ +x2 )R+ (x2 +R+ R− x1 ) dx2 dx1 . Rd
−1 weglassen (mit Hilfe Im inneren Integral k¨ onne wir den Summanden x01 R− R+ der Substitution) −1 x2 7−→ x2 − x01 R− R+
49
und erhalten P (ξ1 + ξ2
∈ =
= = =
C) Z −1 1 0 1 0 e − 4 x 1 R+ x 1 + 4 x 1 R− R+ R− Z √ 2x +c +c ∈C Z 1 1 2 − 14 x02 R+ x2 dx2 dx1 · e Rd Z p −1 1 0 1 0 e− 4 x1 R+ x1 + 4 x1 R− R+ R− dx1 Z(2π)d/2 det R+ √ Z 2x1 +c1 +c2 ∈C p −1 1 0 d/2 e− 4 x1 (R+ −R− R+ R− )x1 dx1 det R+ √ Z(2π) 2x1 +c1 +c2 ∈C Z − 21 x01 14 (R+ −R− R−1 0 + R− )x1 dx . e Z 1 x1 +c1 +c2 ∈C
√ Hier haben wir in der letzten Zeile x1 7−→ 2x1 substituiert und den Faktor Z 0 nicht ausgerechnet, der Wert ergibt sich sp¨ ater einfacher. F¨ ur die im Exponenten auftauchende Matrix ergibt sich 1 −1 Σ21 + Σ22 · (R+ − R− R+ R− ) 4 1 2 −2 −1 −2 −2 Σ1 + Σ22 R+ − (Σ−2 = 1 − Σ2 )R+ (Σ1 − Σ2 ) 4 1 −1 −2 −2 2 −2 = Σ21 + Σ22 R+ − (−Σ21 Σ−2 2 + Σ2 Σ1 )R+ (Σ1 − Σ2 ) 4 −1 −2 1 −2 R+ (Σ1 − Σ−2 = Σ21 + Σ22 R+ + (Σ21 − Σ22 ) Σ−2 2 ) 1 + Σ2 4 1 −2 = Σ21 + Σ22 R+ + (Σ21 − Σ22 )(Σ−2 1 − Σ2 ) 4 1 −2 −2 −2 2 2 = Σ21 + Σ22 (Σ−2 1 + Σ2 ) + (Σ1 − Σ2 )(Σ1 − Σ2 ) = I, 4 −1 −1 1 , d.h. R− ) = Σ21 + Σ22 also ist 4 (R+ − R− R+ P (ξ1 + ξ2
∈
C)
= Z0 = Z0
Z
Z
2 −1
e− 2 x1 (Σ1 +Σ2 ) 1
2
0
x1 +c1 +c2 ∈C 0
2
2 −1
e− 2 (x1 −c1 −c2 ) (Σ1 +Σ2 ) 1
x1
dx1 (x1 −c1 −c2 )
dx1 .
x1 ∈C
Wir sehen, daß ξ1 + ξ2 wieder normalverteilt ist, n¨ amlich gem¨ aß N (c1 + c2 , Σ21 + 2 Σ2 ), d.h. Erwartungswerte und Varianzen haben sich addiert. (Die Konstante Z 0 muß den Wert 1 Z0 = p (2π)d det (Σ21 + Σ22 ) haben, damit das Gesamtintegral 1 ergibt.)
50
8
Ein Anwendungsbeispiel fu ¨ r das Gesetz der großen Zahlen: Der Kodierungssatz von Shannon
Eine interessante und auch praktisch wichtige Anwendung findet das Gesetz der großen Zahlen in der Informationstheorie, indem es die Rolle der Entropie als ein Maß f¨ ur den Informationsgehalt begr¨ undet. Interessanterweise wurde erst ganz zu Beginn des Computerzeitalters, Ende der vierziger Jahre des 20. Jahrhunderts, die Tatsache registriert, daß sich Information unabh¨ angig von ihrem semantischen Gehalt quantitativ messen l¨ aßt, und dieses Maß ist entscheidend f¨ ur die Menge an Speicherplatz, die man zu ihrer Aufbewahrung braucht, oder ¨ ¨ auch f¨ ur die notwendige Ubertragungskapazit¨ at bei ihrer Ubermittlung. Ebenso wie die Wahrscheinlichkeitstheorie -mit der sie unmittelbar verwandt istwurde in der Informationstheorie zuerst der einfachste Fall betrachtet, n¨ amlich daß die Informationsquelle voneinander unabh¨ angige Dateneinheiten emittiert. Wir stellen uns vor, daß die Information in Form von Buchstaben aus irgendeinem Alphabet A aus d verschiedenen Buchstaben vorliegt. Diese ’Buchstaben’ k¨ onnen beispielsweise die Symbole {0, 1}, die lateinischen Buchstaben einschließlich Interpunktions- und Trennzeichen, oder auch Silben oder W¨ orter einer Sprache sein. Auf A (genauer P(A)) sei ein Wahrscheinlichkeitsmaß P gegeben, das f¨ ur jeden einzelnen Buchstaben die Wahrscheinlichkeit seines Auftretens angibt. Wir haben also nur den Begriff Elementarereignis durch den Begriff Buchstabe ersetzt. Nun wird (im einfachsten Fall) eine Informationsquelle durch eine vollst¨ andig unabh¨ angige Folge von Zufallsgr¨ oßen {ξi }i∈N oder {ξi }i∈Z mit Werten in A = {1, 2, ..., d} modelliert, wobei die ξi alle gem¨ aß P ∼ = {p1 , p2 , ..., pd } verteilt sind. Es ist sinnvoll anzunehmen, daß alle pi positiv sind, denn Buchstaben mit Wahrscheinlichkeit 0 k¨ onnen wir einfach aus dem Alphabet entfernen. Bisher haben wir bekannte Begriffe lediglich mit neuen Namen versehen. Die Informationstheorie stellt aber, wie schon erw¨ ahnt, spezifische Fragen. Wir wollen etwa wissen, wieviel Platz auf einem Datentr¨ ager die Speicherung der ersten n Buchstaben ben¨ otigen wird. Nun gibt es dn Buchstabenfolgen der L¨ ange n, und wenn wir der Einfachheit halber annehmen, daß d = 2m eine Potenz von Zwei ist, dann k¨ onnen wir den Block der ersten n Buchstaben auf jeden Fall mit mn Bit speichern. Diese Vorgehensweise ist aber nicht optimal. Wir werden sehen, daß im Allgemeinen von den dn m¨ oglichen n-Bl¨ ocken aus der Menge An tats¨ achlich nur eine winzige Teilmenge realistisch ist. Der Grund ist eine Variante des schwachen Gesetzes der großen Zahlen, die auf Shannon zur¨ uckgeht und die die Basis f¨ ur die M¨ oglichkeit verlustfreier Datenkompression darstellt. Die Idee besteht darin, zu untersuchen, welche Wahrscheinlichkeit der von der Quelle emittierte Block [ξ1 , ξ2 , ..., ξn ] urspr¨ unglich hatte, d.h. im Sinne des Produktmaßes P n auf P(An ). (Urspr¨ unglich deswegen, weil wir den Block (die mehrdimensionale Zufallsgr¨ oße) [ξ1 , ξ2 , ..., ξn ] ja schon beobachtet haben, so daß seine Wahrscheinlichkeit nun (a posteriori) 1 ist.) Im unabh¨ angigen Fall, auf 51
den wir uns hier beschr¨ anken, ist diese Wahrscheinlichkeit einfach P[ξ1 ,ξ2 ,...,ξn] = pξ1 ·pξ2 ·...·pξn . Wir haben es also mit einer abgeleiteten Zufallsgr¨ oße zu tun, die nichts anderes ist als -was f¨ ur eine wahrscheinlichkeitstheoretische Betrachtung zun¨ achst etwas seltsam anmutet- die (a priori) Wahrscheinlichkeit selber (die der Zufallsgr¨ oße [ξ1 , ξ2 , ..., ξn ]). Um nun das Gesetz der großen Zahlen ins Spiel zu bringen, das sich ja auf Summen von Zufallsgr¨ oßen bezieht, gehen wir zum Logarithmus u ¨ber (wie in der Informationstheorie u ¨blich, zur Basis 2) − log2 pξ1 · pξ2 · ... · pξn =
n X
(− log2 pξi ).
i=1
(Wir haben den Negativwert des Logarithmus gew¨ ahlt, damit wir positive Gr¨ oßen erhalten.) Genau wie die ξi sind auch die Zufallsgr¨ oßen − log pξi (vollst¨ andig) voneinander unabh¨ angig und besitzen alle dieselbe Verteilung: − log pξ1 nimmt den Wert − log pj mit Wahrscheinlichkeit pj an (j = 1, 2, ..., d), denn ξ1 nimmt den Wert j mit Wahrscheinlichkeit pj an. Da dies nur endlich viele m¨ ogliche Werte sind, ist die nichtnegative Zufallsgr¨ oße − log pξ1 beschr¨ ankt, besitzt also Pd sowohl einen Erwartungswert (n¨ amlich hP := − j=1 pj log pj ) als auch eine endliche Varianz. Damit sind die Voraussetzungen erf¨ ullt, um das schwache Gesetz der großen Zahlen anwenden zu k¨ onnen. Wir erhalten folgende Aussage: Satz 39 (Shannon) F¨ ur alle ε > 0 gilt n ! 1 X lim P (− log pξ1 ) − hP > ε = 0. n→∞ n i=1
Pd Definition 40 Die Gr¨oße hP := − j=1 pj log pj heißt Entropie der Wahrscheinlichkeitsverteilung P ∼ = {p1 , p2 , ..., pd }.
Bemerkung: Diese Definition wird auch auf den Fall erweitert, daß einige der pj = 0 sind. In diesem Fall wird der unbestimmte Ausdruck 0 log 0 als 0 definiert. Nun bedeutet n 1 X (− log pξ1 ) − hP ≤ ε, n i=1 daß
− log P[ξ1 ,ξ2 ,...,ξn ]
=
P[ξ1 ,ξ2 ,...,ξn ]
∈
n X
(− log pξ1 ) ∈ [n(hP − ε), n(hP + ε)],
i=1 −n(hP +ε)
[2
also
, 2−n(hP −ε) ]
Wir k¨ onnen also f¨ ur gen¨ ugend großes n mit beliebig großer Sicherheit davon ausgehen, daß die (a priori) Wahrscheinlichkeit der empfangenen Nachricht die
52
angig von der konkret erhalteexponentielle Gr¨ oßenordnung 2−nhP hat, unabh¨ nen Botschaft. Nat¨ urlich kann man die Frage stellen, welchen Sinn es macht, ziemlich genau zu wissen, welche Wahrscheinlichkeit urspr¨ unglich daf¨ ur bestand, genau die eben empfangene Botschaft zu erhalten. Der Punkt ist, daß diese Information sehr genau die Absch¨ atzung der Anzahl der realistischerweise als m¨ oglich anzusehenden Botschaften (typischen Botschaften) erlaubt: Bis auf eine beliebig geringe Restwahrscheinlichkeit wissen wir ja, daß [ξ1 , ξ2 , ..., ξn ] zu der Menge (n)
Atyp,ε := {[i1 , i2 , ..., in ] ∈ An : P[i1 ,i2 ,...,in] ∈ [2−n(hP +ε) , 2−n(hP −ε) ]} geh¨ ort. Nun gilt (n)
#Atyp,ε
X
=
1
(n) [i1 ,i2 ,...,in ]∈Atyp
= 2n(hP +ε)
X
2−n(hP +ε) (n)
[i1 ,i2 ,...,in ]∈Atyp
≤ 2n(hP +ε) ≤ 2n(hP +ε)
X
P[i1 ,i2 ,...,in]
(n) [i1 ,i2 ,...,in ]∈Atyp
X
P[i1 ,i2 ,...,in ]
[i1 ,i2 ,...,in ]∈An
= 2n(hP +ε) . (n)
Die typische Menge Atyp,ε , zu der aller Voraussicht nach der n-Block [ξ1 , ξ2 , ..., ξn ] geh¨ ort, hat also f¨ ur große n eine exponentiell große Anzahl von Elementen der Gr¨ oßenordnung 2nhP . Die Gesamtanzahl der Bl¨ ocke in An war dn = 2n log d . Nun gilt Lemma 41 Wenn P die Gleichverteilung auf A ist, ist hP = log2 d, in allen ubrigen F¨allen ist 0 ≤ hP < log d. ¨ B e w e i s. Wir k¨ onnen uns auf den Fall beschr¨ anken, daß alle pj > 0 sind, andernfalls m¨ ussen wir nur d durch einen kleineren Wert (die Anzahl der positiven pj ) ersetzen. Aufgrund der Jensenschen Ungleichung (s. Anhang) gilt, falls alle pj > 0 −hP
=
d X
pj log2 pj =
j=1
d X j=1
pj
1 − log2 pj
d X pj = − log2 d, ≥ − log2 p j=1 j
denn die Funktion − log2 ist streng konvex. Die Gleichheit gilt genau dann, wenn alle Werte p1j identisch sind, also pj = d1 gilt (Gleichverteilung). 53
Das bedeutet, daß in allen F¨ allen, außer dem daß s¨ amtliche Buchstaben in A gleichwahrscheinlich sind, die Menge der typischen Bl¨ ocke eine exponentiell kleinere Anzahl von Elementen enth¨ alt, als die Gesamtmenge An . Um ein beliebiges Element von An eindeutig zu spezifizieren, werden asymptotisch n log2 d Bit ben¨ otigt. Um ein Element der typischen Menge zu spezifizieren, kann man ihre Elemente durchnumerieren, und dann die entsprechende Nummer angeben, wozu man asymptotisch nhP Bit ben¨ otigt. Ein verlustfreies Datenkompressionsverfahren k¨ onnte also folgendermaßen funktionieren: (n) 1. Bestimmen der typischen Menge Atyp,ε und Zuweisung eines Index zu jedem Element (z.B. lexikographische Ordnung) (n) 2. Einlesen von [ξ1 , ξ2 , ..., ξn ] und pr¨ ufen, ob es zu Atyp,ε geh¨ ort. a) Wenn nicht, speichere Flag, daß Kompression nicht erfolgt (ben¨ otigt 1 Bit) plus die ungek¨ urzten n log2 d Bit, die das Element in An eindeutig festlegen. b) Wenn ja, speichere Flag, daß Kompression erfolgreich plus n(hP + ε) Bit, (n) die das Element in Atyp spezifizieren. W¨ ahrend man ohne Kompression also stets n log d ben¨ otigt, braucht man mit einem solchen Algorithmus niemals mehr als ein zus¨ atzliches Bit, aber in nahezu allen F¨ allen reduziert sich die Anzahl der ben¨ otigten Speicherpl¨ atze hP < 1 (falls P nicht die Gleichverteilung ist, bei der keine um den Faktor log 2d verlustfreie Kompression m¨ oglich ist). Bemerkung: Der beschriebene Algorithmus zeigt nur die theoretische M¨oglichkeit verlustfreier Datenkompression. Tats¨achlich ist er in der beschriebenen Form v¨ollig unpraktikabel, da insbesondere der 1. Schritt exponentiell aufwendig ist (sowohl vom Zeitbedarf als auch vom Speicherbedarf ). Man muß die gesamte exponentiell große typische Menge generieren. Tats¨achlich verwendet man AlhP gorithmen, die dasselbe leisten (Kompression um den Faktor log ), jedoch nur 2d einen im wesentlichen linear mit der Blockl¨ange wachsenden Aufwand erfordern (Lempel-Ziv-Algorithmus —>.zip-Fileformat oder sog. arithmetische Kodierer). Aus dem oben angef¨ uhrten Shannonschen Satz folgt auch sehr leicht, daß hP eine asymptotisch bessere verlustfreie Kompression als um den Faktor log 2d unm¨ oglich ist (insbesondere bietet die Gleichverteilung u ¨berhaupt keinen Ansatz f¨ ur Datenkompression). Es gilt n¨ amlich Satz 42 Es sei ε > 0 und {B (n) } eine Folge von Mengen mit B (n) ⊆ An , #B (n) ≤ 2n(hp −ε) . Dann gilt P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) ) −→ 0. n→∞
B e w e i s. Da nach dem oben bewiesenen Shannonschen Satz die Folge der
54
(n)
(n)
Mengen Atyp die Eigenschaft P ([ξ1 , ξ2 , ..., ξn ] ∈ Atyp,ε/2 ) −→ 1 hat, gilt n→∞
P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) )
(n)
(n)
= P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) ∩ Atyp,ε/2 ) + P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) \Atyp,ε/2 ) (n)
(n)
≤ P ([ξ1 , ξ2 , ..., ξn ] ∈ B (n) ∩ Atyp,ε/2 ) + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 ) X (n) = pi1 pi2 ...pin + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 ) (n)
[i1 ,...,in ]∈B (n) ∩Atyp,ε/2
≤
X
(n)
(n)
[i1 ,...,in ]∈B (n) ∩Atyp,ε/2
2−n(hp −ε/2) + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 ) (n)
≤ #B (n) · 2−n(hp −ε/2) + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 ) (n)
≤ 2n(hp −ε) 2−n(hp −ε/2) + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 ) (n)
= 2−nε/2 + P ([ξ1 , ξ2 , ..., ξn ] ∈ An \Atyp,ε/2 ), und beide Summanden in der letzten Zeile gehen f¨ ur n → ∞ gegen 0.
Jede Menge von Bl¨ ocken der L¨ ange n mit asymptotisch positiver Wahrscheinlichkeit enth¨ alt also mindestens (asymptotisch) 2nhP verschiedene Bl¨ ocke, zur Spezifizierung eines einzelnen Elementes ben¨ otigt man daher mindestens nhP hP Bit. Somit ist eine st¨ arkere verlustfreie Komprimierung als um den Faktor log 2d nicht m¨ oglich. Wir sehen, daß die Information u ¨ber die Wahrscheinlichkeiten pj der einzelnen Buchstaben j pro Buchstabe log2 d − hP Bit wert ist, also sind noch hP Bit pro Buchstabe an Information n¨ otig, um (asymptotisch) die Buchstabenfolge zu spezifizieren, denn insgesamt ben¨ otigt man log2 d Bit, um einen Buchstaben aus einem d-Alphabet anzugeben. In diesem Sinne sieht man die Gleichverteilung als die gegebene Wahrscheinlichkeitsverteilung an, wenn nichts weiter u ¨ber die Buchstabenstatistik bekannt ist. Sie hat die maximal m¨ ogliche Entropie (Entropie als ’Maß f¨ ur die Ungewißheit’). Hingegen ist die Entropie genau dann 0, falls eines der pj = 1 ist (Einpunktverteilung). In diesem Fall ist jeder einzelne Buchstabe gewiß j. (Dann enth¨ alt die Folge der Buchstaben keinerlei neue Information.) Wie festgestellt, ist das oben angegebene Kompressionsschema nicht praktikabel, sondern nur von theoretischem Wert, weil es die prinzipielle M¨ oglichkeit hP der Kompression um den Faktor log belegt. 2d Ein praktisch verwenbares -und oft eingesetzter- verlustfreies Kompressionsverfahren ist der Lempel-Ziv-Algorithmus. Wir betrachten den Fall, daß A = {0, 1}, also daß eine bin¨ are Datenquelle (z.B. u ¨bliche Zeichen im ASCIICode) komprimiert werden soll. Der Algorithmus funktioniert wie folgt: 1. Initialisiere eine ausreichend große Liste L von 0 − 1−strings variabler L¨ ange und eine Stringvariable v sowie zwei integer-Variable l, p
55
2. Speichere den leeren String o als erstes Listenelement in L. Setze v = o, l = 1, p = 1 3. Lies das n¨ achste ξi ein. 4. Bilde v = v + ξi (Verkettung) 5. Ist v ∈ L? Wenn ja, setze p = IndexL (v) (Position von v in L), gehe zu 3., sonst weiter 6. F¨ uge v an das Ende der Liste an 7. Ausgeben von p mit l bin¨ aren Stellen 8. Ausgeben von ξi 9. Setze v = o, p = 1 10. Wenn L¨ ange(L) (Anzahl der Eintr¨ age) gr¨ oßer gleich 2l , dann setze l = l+1 11. Gehe zu 3. Wie wir sehen, arbeitet der Algorithmus sequentiell, d.h. er erzeugt den komprimierten Code schrittweise aus dem Input, und universell, d.h. er benutzt die Buchstabenverteilung {pj } gar nicht. Betrachten wir seine Arbeitsweise an einem Beispiel: Am Input liege die Folge [101110110011111110...] an. -(Initialisierung) -1 wird eingelesen, v → [1], ist nicht in L, daher: L → [o, [1]] -Ausgabe von 1 (p =Position des Leerstrings in L), einstellig (l = 1) -Ausgabe von 1 (ξ1 ) -v → o, p → 1, l → 2 (ab jetzt zweistellig) -0 wird eingelesen, v → [0], nicht in L, L → [o, [1], [0]] -Ausgabe [01] (p zweistellig) -Ausgabe 0 (ξ2 ) -v → o, p → 1 -1 wird eingelesen, v → [1], ist in L, Position p → 10 (bin¨ ar 2) -1 wird eingelesen, v → [11], ist nicht in L, daher: L → [o, [1], [0], [11]] -Ausgabe [10] (p zweistellig) -Ausgabe 1 (ξ4 ) -v → o, p → 1, l → 3 -1 wird eingelesen, v → [1], ist in L, Position p → 10 (bin¨ ar 2) -0 wird eingelesen, v → [10], ist nicht in L, daher: L → [o, [1], [0], [11], [10]] -Ausgabe [010] (p dreistellig) -Ausgabe 0 (ξ6 ) -v → o, p → 1 u.s.w. Der Gesamtoutput ist: [11010101010010000111100110000...] Man u ¨berlegt sich leicht, daß die Eingangsfolge durch einen inversen Algorithmus eindeutig aus dem Output des Lempel-Ziv-Verfahrens rekonstruierbar ist. In den ersten Schritten ist die ausgegebene Zeichenfolge l¨anger als der bisher eingelesene Input. Aber nach und nach f¨ ullt sich L mit den im Input tats¨ achlich
56
vorkommenden Bl¨ ocken der L¨ ange n. Wenn die Buchstaben nicht gerade gleich(n) verteilt sind, werden dort zun¨ achst nur die Bl¨ ocke aus Atyp auftauchen (und erst viel sp¨ ater diejenigen aus dem Komplement). Bei der Ausgabe wird nur der Index des jeweiligen Blockes erzeugt und in einer L¨ ange der Gr¨ oßenordnung (n) log2 #Atyp ausgegeben, also etwa der L¨ ange nhP , sowie das jeweils neue Bit ξi . Man kann auch streng zeigen, daß dieser Algorithmus eine beliebige Quelle zuf¨alliger unabh¨angiger Symbole asymptotisch optimal komprimiert (in dem Sinne, daß er die durch die Entropie bestimmte maximale asymptotische Kompressionsrate erreicht), und sogar im abh¨angigen Fall ist das unter schwachen Voraussetzungen richtig.
9
Das Lemma von Borel-Cantelli und die fast sichere Konvergenz der H¨ aufigkeiten
Nach diesem ersten Abstecher in das Wechselspiel von Stochastik und Informationstheorie wenden wir uns einer einfachen, aber wichtigen Aussage der Wahrscheinlichkeitstheorie zu, die es uns erlauben wird, zu zeigen, daß bei (vollst¨ andig) unabh¨ angiger Wiederholung desselben Zufallsexperiments die H¨ aufigkeiten der Elementarereignisse gegen ihre jeweiligen Wahrscheinlichkeiten konvergieren. Dazu betrachten wir einen meßbaren Raum [M, A]TundSeine Folge ∞ ∞ {Ai }∞ i=1 von Mengen ausA (Ereignissen). Die Menge W = j=i Aj ist i=1 dann offenbar wieder meßbar. Ein Elementarereignis m ∈ M liegt genau dann in W , wenn es in unendlich vielen der Ai liegt. Das Ereignis W ist also mit dem Eintreten unendlich vieler der Ai identisch. Beispiel: Betrachten Sie den meßbaren Raum [R, B(R)] und die Folge der Ereignisse Ai := {x ∈ R : die i-te Nachkommastelle von x ist 7}. Dann ist die betreffende Menge W die Menge derjenige reellen Zahlen, die unendlich viele 7’en in ihre Dezimalentwicklung aufweisen (es ist nicht schwer zu zeigen, daß fast alle -bzgl. des Lebesgueschen Maßes- reellen Zahlen diese Eigenschaft haben). Satz 43 (Lemma von Borel und Cantelli) Es sei P ein Wahrscheinlichkeitsmaß auf dem meßbaren Raum [M, A] und {Ai }∞ i=1 eine Folge von Ereignissen ausA. Dann gilt: T P ∞ S∞ a) Wenn i P (Ai ) < +∞, dann ist P i=1 j=i Aj = 0. P b) Wenn die Ereignisse Ai vollst¨andig unabh¨angig sind, und i P (Ai ) = +∞, dann ist T ∞ S∞ P i=1 j=i Aj = 1. B e w e i s.
57
S∞ a) Die Folge von Ereignissen j=i Aj ist monoton fallend. Daher gilt ∞ ∞ [ ∞ [ \ P Aj = lim P Aj . i=1 j=i
i→∞
j=i
S P∞ ∞ Nun ist P ≤ j=i P (Aj ), und wegen der vorausgesetzten Konverj=i Aj P∞ P genz von i P (Ai ) konvergiert die Restsumme j=i P (Aj ) gegen Null. b) Es gilt c ∞ [ ∞ ∞ ∞ \ [ [ P Aj = 1 − P Aj i=1 j=i
T∞
= 1−P
i=1
j=i
∞ \ ∞ [
i=1 j=i
Acj .
Die Folge von Ereignissen j=i Aj ist monoton wachsend, daher ist ∞ \ ∞ ∞ [ \ P Acj = lim P Acj . i=1 j=i
i→∞
j=i
T T∞ TN ∞ c Die Ereignisfolge j=i Acj ist monoton fallend gegen j=i Acj , daher ist P A j=i j = T Q Q N ∞ N c c aufgrund der = limN →∞ j=i P Acj = limN →∞ P j=i P Aj j=i Aj vorausgesetzten vollst¨ andigen Unabh¨ a ngigkeit. Aus der Analysis ist bekannt, P P∞ c daß aus der Divergenz von ∞ (also 1 − P A P (A ) j = +∞, das j j=1 j=1 Q c hatten wir vorausgesetzt) die Divergenz des unendlichen Produkts ∞ j=1 P Aj , Q∞ also j=i P Acj = 0 f¨ ur alle i, folgt. Also gilt ∞ [ ∞ ∞ \ \ P Aj = 1 − lim P Acj i→∞
i=1 j=i
= 1 − lim
i→∞
j=i
∞ Y j=i
= 1 − 0 = 1.
P Acj
Bemerkung: Im Falle (vollst¨andig) unabh¨angiger Mengen Ai besagt also das Lemma von Borel-Cantelli, daß genau dann fast sicher unendlich viele der ErP∞ eignisse Ai eintreten, wenn ur i=1 P (Ai ) = +∞. Daß dieses Kriterium f¨ abh¨angige Ereignisse nicht ausreichend ist, sieht man leicht im Falle der Gleichverteilung auf {0, 1} am Beispiel der konstanten Mengenfolge Ai ≡ {0}. Es treten nur f¨ ur das Elementarereignis 0 unendlich viele der Ai ein, w¨ahrend f¨ ur 58
das Elementarereignis 1 kein einziges Ai eintritt. Punkt a) des Lemmas ben¨otigt die Unabh¨angigkeit, wie gesehen, nicht. Wir betrachten nun erneut den einfachen Fall von (vollst¨ andig) unabh¨ angigen identisch verteilten Bernoulli-Zufallsgr¨ oßen ξi (d.h. Zufallsgr¨ oßen mit nur zwei m¨ oglichen Werten 0 und 1, wobei p die 1-Wahrscheinlichkeit sein soll). Wir gehen aber diesmal davon aus, daß eine abz¨ ahlbar-unendliche Kollektion solcher Gr¨ oßen vorliegt, also i = 1, 2, .... Wir wissen, daß die Summe der ersten n dieser ξi (also die H¨ aufigkeit der 1) binomialverteilt gem¨ aß B(n, p) ist und hatten gesehen, daß f¨ ur jedes ε > 0 die Aussage n
P (|
1X ξi − p| > ε) −→ 0 n→∞ n i=1
richtig ist (Schwaches Gesetz der großen Zahlen). Definition 44 Eine Folge von Zufallsgr¨oßen ζi , i = 1, 2, ... (¨ uber einem Wahrscheinlicheitsraum [M, A, P ]) konvergiert in Wahrscheinlichkeit (oder auch: dem Maße nach) gegen eine Zufallsgr¨oße ζ, wenn f¨ ur alle ε > 0 die Beziehung P (|ζi − ζ| > ε) −→ 0 i→∞
erf¨ ullt ist. Im Sinne dieser Definition ist das Schwache Gesetz der großen Zahlen also eine Aussage ¨ber die Konvergenz in Wahrscheinlichkeit der Folge der ZufallsPn u gr¨ oßen n1 i=1 ξi gegen die deterministische Gr¨ oße p. Die Konvergenz in Wahrscheinlichkeit ist i.A. schw¨ acher als die folgende Eigenschaft: Definition 45 Eine Folge von Zufallsgr¨oßen ζi , i = 1, 2, ... (¨ uber einem Wahrscheinlicheitsraum [M, A, P ]) konvergiert fast sicher gegen eine Zufallsgr¨oße ζ, wenn es eine Menge K ∈ A mit P (K) = 1 gibt, so daß die Beziehung lim ζi (m) = ζ(m)
i→∞
f¨ ur alle m ∈ K erf¨ ullt ist. Beispiel: Wir betrachten wieder den Wahrsch.-Raum [[0, 1], B(R)∩[0, 1], µ L |[0,1] ], also die Gleichverteilung auf dem Einheitsintervall. Wir definieren die Folge der ζi durch m i+1−2m 1 f¨ ur x ∈ [ i−2 ] 2m , 2m ζi (x) = , i ∈ {2m , 2m +1, ..., 2m+1 −1}, m = 0, 1, 2, ... . 0 sonst Dann ’scannt’ die Folge das gesamte Intervall [0, 1] immer wieder l¨ uckenlos durch, f¨ ur jedes x wird die Zufallsgr¨oße unendlich oft 1 (aber immer seltener). Man sieht leicht, daß die Folge der ζi zwar in Wahrscheinlichkeit, jedoch eben nicht fast sicher gegen 0 konvergiert. Die fast sichere Konvergenz ist echt st¨ arker: 59
Satz 46 Aus der fast sicheren Konvergenz einer Folge von Zufallsgr¨oßen ζi gegen eine Zufallsgr¨oße ζ folgt die Konvergenz in Wahrscheinlichkeit. B e w e i s. Wir w¨ ahlen ε > 0. Dann gibt es nach Definition der fast sicheren Konvergenz eine Menge K ∈ A mit P (K) = 1, so daß limi→∞ ζi (m) = ζ(m) f¨ ur alle m ∈ K erf¨ ullt ist. Folglich liegt jedes m ∈ K nur in endlich vielen der T∞ S ∞ Mengen Ai := {m ∈ M : |ζi (m) − ζ(m)| > ε}, also ist K ∩ j=i Aj = ∅. i=1 T S∞ ∞ S∞ Da K das Maß 1 hat, gilt P j=i Aj eine j=i Aj = 0. Nun ist Bi := i=1 absteigende Mengenfolge, daher erhalten wir limi→∞ P (Bi ) = 0, und da Ai ⊆ Bi folgt nun unmittelbar die Behauptung limi→∞ P (|ζi − ζ| > ε) = 0.
Es ist also nicht ohne weiteres klar, ob f¨ ur unsere Folge von Bernoulli-Gr¨ Pn oßen ξi die st¨ arkere fast sichere Konvergenz der relativen H¨ aufigkeiten n1 i=1 ξi gegen p gilt, aus dem Schwachen Gesetz der großen Zahlen folgt dies jedenfalls nicht. Es folgt aber aus dem Satz u ¨ber große Abweichungen unter Benutzung des Borel-Cantelli-Lemmas: Satz 47 (Starkes Gesetz der großen Zahlen f¨ ur Bernoulli-Gr¨ oßen) Es sei {ξi }∞ andig unabh¨angige Folge von Bernoulli-Gr¨oßen ¨ uber dem i=1 eine vollst¨ selben Wahrscheinlichkeitsraum [M, A, P ] mit Erfolgswahrscheinlichkeit p. Dann gilt f¨ ur P -fast alle m die Beziehung n
1X ξi (m) = p. n→∞ n i=1 lim
B e w e i s. Im Satz u ur ¨ber große Abweichungen haben wir gezeigt, daß f¨ beliebiges ε > 0 Konstanten 0 < d < 1 und D ∈ N existieren, derart daß P ur n > ullt ist. Wir setzen ε = k1 , k ∈ P | n1 ni=1 ξi − p| > ε < dn f¨ D erf¨ P P n 1 1 N. Also ist n P | n i=1 ξi − p| > k < +∞. Daraus folgt mit Punkt a) im Lemma daß f¨ ur jedes k ∈ N die Menge U (k) := {m ∈ M : Pn von Borel-Cantelli, | n1 i=1 ξi (m) S ur unendlich viele n ∈ N} das Maß 0 hat. Folglich − p| > k1 f¨ ist auch U := k∈N Uk eine P -Nullmenge und es gilt P (U c ) = 1. Sei m ∈ U c fixiert ahlt. Da m ∈ / U (k) nach Voraussetzung, gilt P und k ∈ N beliebig gew¨ P | n1 ni=1 ξi (m) − p| > k1 nur f¨ ur endlich viele n ∈ N, d.h. | n1 ni=1 ξi (m) − p| P ≤ k1 ab einem (vom m und k abh¨ angigen) Index n0 . Das bedeutet aber, daß n 1 ξ (m) f¨ u r dieses m gegen p konvergiert. i i=1 n Es gibt also eine meßbare Menge (U c ) mit Maß 1, so daß f¨ ur alle P m ∈ U c der n 1 Pn 1 Mittelwert n i=1 ξi (m) gegen p konvergiert. Es gilt also limn→∞ n i=1 ξi = p fast sicher. Wir betrachten nun den Fall unabh¨ angiger beschr¨ ankter identisch verteilter Zufallsgr¨ oßen ξi , i = 1, 2, ....
60
Satz 48 (Starkes Gesetz der großen Zahlen f¨ ur beschr¨ ankte Zufallsgr¨ oßen) Es sei ξi , i = 1, 2, ..., eine Folge unabh¨angiger identisch verteilter beschr¨ankter reellwertiger Zufallsgr¨oßen ¨ uber einem Wahrscheinlichkeitsraum [M, A, P ]. Dann gilt P -fast sicher n 1X ξi = Eξ1 . lim n→∞ n i=1 B e w e i s. 1. Wir betrachten zun¨ achst den Fall nicht-negativer Zufallsgr¨ oßen. Die Gr¨ oßen seien beschr¨ ankt durch die reelle Zahl C. Wir definieren ξik,l := 1{m∈M :ξ (m)∈[l2−k C,(l+1)2−k C)} , k ∈ N, l ∈ {0, 1, 2, 3, ..., 2k − 1} . Dann gilt i f¨ ur beliebiges k ∈ N k 2X −1 k ξi := l2−k Cξik,l ≤ ξi . l=0
{ξik,l }∞ i=1
Wir fixieren k und l. Die Folge ist als Folge von aus {ξi }∞ i=1 abgeleiteten Zufallsgr¨ oßen vollst¨ andig unabh¨ angig und die Elemente sind identisch verteilte Bernoulli-Gr¨ oßen. Wir erhalten aus Satz 47, daß P -fast sicher die folgende Beziehung gilt n
1 X k,l ξi = P (ξ1 ∈ [l2−k , (l + 1)2−k )) . n→∞ n i=1 lim
Die abz¨ ahlbar vielen Limesbeziehungen (f¨ ur k ∈ N, l = 0, 1, ..., 2k −1) gelten fast sicher gleichzeitig (der Durchschnitt von endlich oder abz¨ ahlbar vielen Mengen vom Maß 1 hat wieder das Maß 1). Also gilt f¨ ur P -fast alle m ∈ M f¨ ur alle k∈N n
lim
n→∞
= =
k 2X −1
l=0 Eξ1k .
1X k ξ (m) n i=1 i
(9)
l2−k CP (ξ1 ∈ [l2−k , (l + 1)2−k ))
Die Folge {ξik }∞ ur jedes i ∈ N punktweise monoton wachsend k=1 konvergiert f¨ gegen ξi . Außerdem gilt n
0 ≤
n
n
1X 1X k 1X ξi (m) − ξi (m) = (ξi (m) − ξik (m)) n i=1 n i=1 n i=1 n
≤
1 X −k 2 C = 2−k C. n i=1
61
Daraus folgt n
1X k ξi (m) n→∞ n i=1 lim
n
≤ lim inf n→∞
1X ξi (m) n i=1 n
≤ lim sup n→∞
1X ξi (m) n i=1 n
≤
1X k ξi (m) + 2−k C. n→∞ n i=1 lim
Wegen (9) erhalten wir n
Eξ1k
≤ lim inf n→∞
1X ξi (m) n i=1 n
≤ lim sup n→∞
1X ξi (m) n i=1
≤ Eξ1k + 2−k C.
Aus dem Satz von Lebesgue u ¨ber majorisierte Konvergenz (Anhang) ergibt sich, daß das Integral (Erwartungswert) der durch C beschr¨ ankten Folge ξ1k f¨ ur k → 1 Pn ∞ gegen Eξ1 konvergiert. Also gilt P -fast sicher Eξ1 = lim n i=1 ξi (m). n→∞ 2. Wenn die ξi auch negative Werte annehmen k¨ onnen, zerlegen wir ξi = ξi+ − ξi− . Pn Pn Dann gilt Eξ1+ = lim n1 i=1 ξi+ (m), Eξ1− = lim n1 i=1 ξi− (m), also n→∞
Eξ1
n→∞
= E(ξ1+ − ξ1− ) = Eξ1+ − Eξ1− n n 1X 1X + = lim (ξi − ξi− ) = lim ξi . n→∞ n n→∞ n i=1 i=1
10
Das Starke Gesetz der großen Zahlen fu ¨ r unabh¨ angige Zufallsgr¨ oßen
Das im vorangehenden Abschnitt bewiesene Resultat f¨ ur beschr¨ ankte Zufallsgr¨ oßen folgte sehr einfach aus dem Satz u ¨ber große Abweichungen durch Anwendung des Lemmas von Borel und Cantelli. Das Starke Gesetz der großen Zahlen gilt jedoch f¨ ur unabh¨ angige identisch verteilte Zufallsgr¨ oßen ganz generell ohne weitere Annahmen, sofern der Erwartungswert u ¨berhaupt existiert (in der Formulierung des Satzes taucht der Erwartungswert ja als Limesgr¨ oße f¨ ur die Mittelwerte explizit auf). 62
Bemerkung. Die Nichtexistenz des Erwartungswertes kann zweierlei bedeuten: Entweder ist das Integral sowohl des positiven als auch des negativen Teils der Zufallsgr¨oße unendlich. In diesem Fall l¨aßt sich keine generelle Aussage ¨ uber das asymptotische Verhalten des Mittelwertes treffen. Wenn etwa die ξ i Cauchyverteilt sind, dann ist der Mittelwert wiederum Cauchy-verteilt und pegelt sich uberhaupt nicht auf irgendeinen Limes ein (vgl. das Ergebnis der Simulation in ¨ ¨ der Computer-Ubungsaufgabe Blatt 8). Wenn jedoch nur einer der beiden Anteile ein unendliches Integral besitzt, dann ist es nicht schwer zu zeigen, daß der Mittelwert (je nachdem, ob der positive oder negative Teil der Zufallsgr¨oße einen unendlichen Erwartungswert hat) gegen plus oder minus Unendlich strebt. Dieses Resultat wurde von A. Kolmogorov gezeigt. Wir folgen hier einem vergleichsweise einfachen Beweis, der auf Kayhan N. Etemadi zur¨ uckgeht und zudem nur die paarweise Unabh¨ angigkeit der Zufallsgr¨ oßen ben¨ otigt. Der Beweis ist nicht u aßig schwer zu verstehen. Zun¨ achst ein paar Vor¨berm¨ bemerkungen zur Beweisstrategie. Der Grundgedanke besteht darin, die Zufallsgr¨ oße in einen beschr¨ ankten und einen unbeschr¨ ankten Anteil zu zerlegen: ˙ ξi = ξi 1ξi ≤C + ξi 1ξi >C . F¨ ur den beschr¨ ankten Anteil ist der Beweis (wie wir gesehen haben) einfach, der unbeschr¨ ankte Anteil bereitet erhebliche Probleme. Diese Probleme mit dem unbeschr¨ ankten Teil lassen sich mildern (auf Kosten der Einfachheit im beschr¨ ankten Fall), dadurch daß man die Schnittzahl C nicht konstant f¨ ur alle i w¨ ahlt, sondern mit i linear wachsen l¨ aßt: Ci = i. Wir w¨ ahlen also die Zerlegung ξi = ξbi + ξˇi , wobei ξbi := ξi 1ξi ≤i , ξˇi := ξi 1ξi >i . Wir werden sehen, daß aus der Existenz des Erwartungswertes mit Hilfe von Borel-Cantelli folgt, daß fast sicher f¨ ur gen¨ ugend großes i die Zufallsgr¨ oßen ξi und ξbi u ¨bereinstimmen, woraus sich ergibt, daß man statt des Mittelwertes der ξi nur den der beschr¨ ankten Gr¨ oßen ξbi untersuchen muß. Diese Gr¨ oßen ξbi sind nun leider nicht mehr gleichm¨ aßig beschr¨ ankt. Nun l¨ aßt sich aber ausnutzen, daß der Mittelwert eine ’tr¨ age’ Zufallsgr¨ oße ist, der nur langsam auf die gelegentlich auftauchenden sehr großen Werte reagiert. Daher reicht es, den Mittelwert nicht f¨ ur alle n zu betrachten, sondern nur f¨ ur gen¨ ugend dichte Teilfolgen. F¨ ur diese Teilfolgen k¨ onnen wir die Chebyshevsche Ungleichung heranziehen -in ¨ ahnlicher Weise, wie beim Beweis des Schwachen Gesetzes der großen Zahlen (nur etwas trickreicher). Satz 49 (Starkes Gesetz der großen Zahlen f¨ ur paarweise unabh¨ angige Zufallsgr¨ oßen) angiger reeller Es Sei {ξi }∞ i=1 eine Folge identisch verteilter paarweise unabh¨ Zufallsgr¨oßen u ¨ber demselben Wahrscheinlichkeitsraum [M, A, P ], deren Erwartungswert existiert. Dann gilt P -fast sicher n
1X ξi = Eξ1 . i→∞ n i=1 lim
B e w e i s. 1. Genau wie im Beweis des vorangegangenen Satzes (Punkt 2) sehen wir, daß es gen¨ ugt positive Zufallsgr¨ oßen zu betrachten. 2. Wir setzen ξbi := ξi 1ξi ≤i . Dann existiert f¨ ur P -fast alle m eine nat¨ urliche Zahl N (m), derart daß ξi (m) = ξbi (m) f¨ ur i ≥ N (m) erf¨ ullt ist. 63
Wir m¨ ussen dazu zeigen, daß das Ereignis {ξi (m) > i} fast sicher nur endlich oft eintritt.PDies folgt nach dem Lemma von Borel-Cantelli aus der Konvergenz der Reihe i P (ξi > i). Daher gen¨ ugt es, diese Konvergenz zu zeigen: ∞ X
P (ξi
> i)
i=1
∞ X
=
i=1 ∞ X
≤
P (ξ1 > i) P (ξ1 ≥ i)
i=1 ∞ ∞ X X
=
i=1 j=i ∞ X
=
j=1 ∞ X
=
j=0
P (j ≤ ξ1 < j + 1)
jP (j ≤ ξ1 < j + 1) jP (j ≤ ξ1 < j + 1).
Hier haben wir den Satz benutzt, daß bei einer (Doppel)-Reihe aus positiven Gliedern die Summationsreihenfolge beliebig ver¨ andert werden darf. Jeder Summand P (j < ξ1 ≤ j + 1) taucht genau j mal auf. Die letzte Summe l¨ aßt sich auch als Integral u ¨ber eine Treppenfunktion schreiben (s. Anhang, Definition des Integrals): ∞ X
P (ξi
> i)
i=1
≤ =
∞ X j=0
Z
M
jP (j ≤ ξ1 < j + 1) bξ1 (m)c P (dm).
Hier bezeichnet wieder bxc den gr¨ oßten ganzen Anteil der reellen Zahl x, und wir haben benutzt, daß wir nach 1. ξ1 als nicht-negativ voraussetzen k¨ onnen. Wegen bxc ≤ x erhalten wir nun das gew¨ unschte Ergebnis ∞ X
P (ξi
> i)
i=1
≤ =
Z
ξ1 (m)P (dm)
ZM
ξ1 (m)P (dm) = Eξ1 < +∞.
M
64
Also gibt es eine meßbare Teilmenge K von M mit P (K) = 1, so daß f¨ ur alle m ∈ K die Zufallsgr¨ oßen ξi (m) und ξbi (m) f¨ ur i ≥ N (m) u ¨bereinstimmen. Dann gilt f¨ ur jedes m ∈ K n
1 1X ξi (m) = n i=1 n
N (m)−1
X
ξi (m) +
i=1
1 n
n X
ξi (m).
i=N (m)
Der erste der beiden Summanden konvergiertP f¨ ur n → ∞ gegen 0, der zweite ist nach Definition von N (m) identisch mit n1 ni=N (m) ξbi (m). Also konvergiert P f¨ ur m ∈ K der Mittelwert n1 ni=1 ξi (m) genau dann gegen irgendeinen Limes, Pn wenn n1 i=N (m) ξbi (m) gegen denselben Limes konvergiert. Auf genau dieselbe Pn Weise k¨ onnen wir bei 1 ξbi (m) die ersten N (m) Glieder wieder anf¨ ugen n
i=N (m)
und sehen, daß es gen¨ ugt, die fast sichere Konvergenz der Mittelwerte An (m) := Pn b 1 ξ (m) gegen Eξ i 1 zu beweisen. i=1 n 3. Gem¨ aß der oben skizzierten Beweisstrategie haben wir es nun nur noch mit beschr¨ ankten Zufallsgr¨ oßen zu tun (sie sind allerdings nicht mehr identisch verteilt und nicht gleichm¨ aßig beschr¨ ankt, sonst k¨ onnten wir nun einfach den vorangegangenen Satz benutzen). Wir haben bisher die Unabh¨ angigkeit nicht verwendet. Da die Zufallsgr¨ oße An beschr¨ ankt ist, existiert ihre Varianz, und wir erhalten aufgrund der Chebyshevschen Ungleichung f¨ ur beliebiges ε > 0 P (|An − EAn | ≥ ε) ≤
VarAn . ε2
(10)
Nun ist n
VarAn
= E
=
1X b (ξi − Eξbi ) n i=1
!2
n X 1 (ξbi − Eξbi ) E n2 i=1
!2
.
Die Gr¨ oßen (ξbi − Eξbi ) sind paarweise unabh¨ angig (ξbi ist eine aus ξi abgeleitete b b Zufallsgr¨ oße, daher sind mit ξi , ξj auch ξi , ξj f¨ ur i 6= j unabh¨ angig. Daher ist
65
E(ξbi − Eξbi )(ξbj − Eξbj ) = 0 f¨ ur i 6= j und wir erhalten VarAn
=
= = = = ≤
n 2 1 X b E ξi − Eξbi 2 n i=1
(11)
n n X 1 X bi ≤ 1 Var ξ Eξb2 n2 i=1 n2 i=1 i
n n 1 X 2 1 X 2 Eξ 1 = Eξ 1ξ ≤i ξ ≤i n2 i=1 i i n2 i=1 1 1 n Z 1 X ξ 2 (m)1ξ1 (m)≤i P (dm) n2 i=1 M 1 Z n X 1 2 ξ (m) 1ξ1 (m)≤i P (dm) 1 n2 M i=1 Z 1 2 ξ1 (m)1ξ1 (m)≤n P (dm). n M
Die Funktionenfolge n1 ξ12 1ξ1 ≤n ≤ n1 ξ1 n = ξ1 ist gleichm¨ aßig nach oben beschr¨ ankt durch ξ1 und wegen Eξ1 < +∞ ist ξ1 integrierbar. Daher kann man nach dem Satz von Lebesgue u ¨ber majorisierte Konvergenz (Anhang) Integration und die Bildung des Limes f¨ ur n → ∞ vertauschen. Wir erhalten also Z 1 lim ξ12 (m)1ξ1 (m)≤n P (dm) lim VarAn ≤ n→∞ n→∞ n ZM 1 ≤ lim ξ12 (m)P (dm) n→∞ n ZM = 0P (dm) = 0. M
Wegen der Chebyshevschen Ungleichung (10) gilt also f¨ ur jedes ε > 0 P (|An − EAn | ≥ ε) −→ 0. n→∞
Wenn wir zeigen k¨ onnten, daß die Gr¨ oßen EAn gegen Eξ1 konvergieren, h¨ atten wir zumindest schon das Schwache Gesetz der großen Zahlen bewiesen (diesmal ohne die Existenz der Varianz, aber unter der st¨ arkeren Voraussetzung, daß die Zufallsgr¨ oßen paarweise unabh¨ angig -statt nur unkorreliert- sowie identisch verteilt sind). Tats¨ achlich gilt ! n n 1X 1X EAn = Eξ1 1ξ1 ≤i = E ξ1 1ξ ≤i n i=1 n i=1 1 n + 1 − dξ1 e . = E ξ1 1ξ1 ≤n n 1e (Hier bezeichnet dxe die kleinste ganze Zahl ≥ x.) Die Zufallsgr¨ oße ξ1 1ξ1 ≤n n+1−dξ n ist nach oben beschr¨ ankt durch die integrierbare Zufallsgr¨ oße ξ1 und konvergiert
66
punktweise gegen ξ1 . Also gilt wieder aufgrund des Satzes u ¨ber majorisierte Konvergenz lim EAn = Eξ1 . n−∞
4. Wir wollen aber die fast sichere Konvergenz des Mittels An gegen Eξ1 zeigen. Dazu betrachten wir zun¨ achst nur eine geeignete Teilfolge, n¨ amlich wir setzen nk = ak f¨ ur ein beliebiges a > 1. Dann gilt nach (10) und (11) ∞ X k=1
nk ∞ 1 X 1 X E ξ12 1ξ1 ≤i 2 2 ε n k=1 k i=1 ! nk ∞ 1 X 1 X 2 E 2 ξ 1ξ ≤i ε2 nk i=1 1 1
P (|Ank − EAnk | ≥ ε) ≤ =
k=1
N
=
X nk + 1 − dξ1 e 1 lim Eξ12 1ξ1 ≤nk 2 ε N →∞ n2k k=1 N
=
X 1 nk + 1 − dξ1 e lim Eξ12 1ξ1 ≤nk 2 ε N →∞ n2k k=1
∞ X
1 2 Eξ ε2 1
≤
1 2 X 1 Eξ ε2 1 nk
≤
1 2 X 1 Eξ . ε2 1 k ak − 1
k=1
!
1 nk
≤
1ξ1 ≤nk
!
nk ≥ξ1 k≥1
a ≥ξ1 k≥1
Nun ist ak − 1 zwar f¨ ur jedes k kleiner als ak , aber der Quotient geht gegen 1, daher gilt f¨ ur ein passendes C(a) ∞ X k=1
P (|Ank − EAnk | ≥ ε) ≤
C(a) 2 X −k Eξ1 a ε2 k
=
C(a) 2 a−k0 (ξ1 ) Eξ1 , ε2 1 − a−1
67
a ≥ξ1 k≥1
wobei k0 (ξ1 ) der erste Index ist, so daß ak ≥ ξ1 ist. Also erhalten wir ∞ X k=1
P (|Ank − EAnk | ≥ ε) ≤ ≤
C(a) Eξ 2 a−k0 (ξ1 ) ε2 (1 − a−1 ) 1 C(a) Eξ1 < +∞. 2 ε (1 − a−1 )
Daraus folgt mit dem Lemma von Borel-Cantelli, daß das Ereignis {|Ank − EAnk | ≥ ε} f¨ ur beliebiges ε > 0 fast sicher nur endlich oft eintritt. Da EAnk nach 3. gegen Eξ 1 konvergiert, tritt auch das Ereignis {|Ank − Eξ1 | ≥ ε} nur endlich oft ein. Genau wie im Beweis des vorangegangenen Satzes folgt daraus, daß die Teilfolge der Ank fast sicher gegen Eξ1 konvergiert. 5. F¨ ur beliebiges a > 1 existiert also eine meßbare Menge K(a) ⊆ M mit P (K(a)) = 1, derart daß Abak c = Abak c (m) f¨ ur alle m ∈ K(a) gegen Eξ1 konvergiert. F¨ u r beliebiges n ∈ N bezeichnen wir mit k(n) dasjenige k, f¨ ur das k a ≤ n ≤ ak+1 gilt (es kann mehrere solche k geben, dann w¨ ahlen wir das kleinste). Die Folge k(n) geht f¨ ur n → ∞ gegen Unendlich. Wir erhalten Ak(n)
=
= = Also erhalten wir
1 ak(n) n ak(n)
k(n) baX c
i=1
n
X 1 ξbi ≤ k(n) ξbi a i=1
An ≤
1
ak(n)
ak(n)+1 Ak(n)+1 . ak(n)
bak(n)+1 X c i=1
ξbi
k(n)+1 ak(n) a Ak(n) ≤ An ≤ Ak(n)+1 n n
und daraus
ak(n) − 1 ak(n)+1 + 1 A ≤ A ≤ Ak(n)+1 . n k(n) ak(n)+1 + 1 ak(n) − 1 Die linke Seite konvergiert, falls m ∈ K(a), f¨ ur n → ∞ gegen a−1 Eξ1 , die rechte gegen aEξ1 und wir erhalten a−1 Eξ1 ≤ liminfAn (m) ≤ limsupAn (m) ≤ aEξ1 , m ∈ K(a). n→∞
n→∞
Nun w¨ ahlen wir noch eine Folge aj & 1. Dann gilt f¨ ur W := j→∞
Aussage P (W ) = 1 und f¨ ur m ∈ W gilt Eξ1 ≤ liminfAn (m) ≤ limsupAn (m) ≤ Eξ1 , n→∞
n→∞
68
T
j
K(aj ) die
also existiert f¨ ur m ∈ W der Grenzwert limn→∞ An (m) = Eξ1 . Unter 2. hatten wir gezeigt, daß es eine Menge K ⊆ PM mit P (K) = 1 gibt, auf der An genau dann konvergiert, wenn das Mittel n1 ni=1 ξi konvergiert. Nun hat die Menge K ∩ W volles Maß und dort gilt n
1X ξi (m) = lim An (m) = Eξ1 , m ∈ K ∩ W. n→∞ n n→∞ i=1 lim
Wir haben eben das Starke Gesetz der großen Zahlen f¨ ur reelle (also eindimensionale) paarweise unabh¨ angige und identisch verteilte Zufallsgr¨ oßen gezeigt. Der mehrdimensionale Fall ist ein einfaches Korrolar: Satz 50 (StGdgZ, mehrdimensional) Sei {ξi }∞ i=1 eine Folge identisch verteilter paarweise unabh¨angiger Zufallsgr¨oßen mit Werten in [Rd , B(Rd )] ¨ uber demselben Wahrscheinlichkeitsraum [M, A, P ], deren Erwartungswert existiert. Dann gilt P -fast sicher n 1X ξi = Eξ1 . lim i→∞ n i=1 B e w e i s. Wir bezeichnen f¨ ur i ∈ N mit ξi,j , 1 ≤ j ≤ d, die Komponenten der i-ten Zufallsg¨ oße. Dann sind f¨ ur fixiertes j die Zufallsgr¨ oßen ξi,j , i ∈ N, paarweise unabh¨ angig und identisch verteilt mit Erwartungswert Eξ1,j . Also gilt nach dem vorangegangenen Resultat P -fast sicher n
1X lim ξi,j = Eξ1,j , 1 ≤ j ≤ d. i→∞ n i=1 Also gilt auch P -fast sicher n
lim
i→∞
1X ξi = Eξ1 , n i=1
denn die Konvergenz einer Folge von Vektoren ist gleichbedeutend mit der Konvergenz s¨ amtlicher Komponenten.
11
Einige Grundbegriffe der Mathematischen Statistik
Wahrscheinlichkeitstheorie und Statistik besitzen einen gemeinsamen Ursprung. Rein wissenschaftlich gesehen ist dieser gemeinsame Ausgangspunkt das Gesetz der großen Zahlen. Historisch gesehen gab das Bem¨ uhen, aus Datenerhebungen Schl¨ usse u ange und Ent¨ber den Zustand des Gemeinwesens, u ¨ber Zusammenh¨ wicklungstendenzen zu ziehen, entscheidende Impulse f¨ ur die Entwicklung der 69
klassischen Wahrscheinlichkeitstheorie. Solche Erhebungen waren von erheblicher Bedeutung f¨ ur die sich entwickelnden modernen Staaten mit ihren u.U. vielen Millionen B¨ urgern. So war Statistik zun¨ achst Staat-istik, darin liegt auch der moderne etymologische Ursprung des Begriffs (statistique → l’´etat, bzw. die latinisierte Form), und er taucht nicht zuf¨ allig zuerst in Frankreich auf. In gewisser Weise sind die typischen Fragestellungen in Wahrscheinlichkeitstheorie und Statistik reziprok zueinander: W¨ ahrend die Wahrscheinlichkeitstheorie (zumindest in sehr vielen F¨ allen) aus Informationen u ¨ber die zugrundeliegende (theoretische) Verteilung Informationen u ¨ber die Realisierungen dieser Verteilungen abzuleiten sucht, geht die Statistik von Erhebungen (Stichproben, Zahlenstatistiken) aus, um daraus Informationen u ¨ber die zugrundeliegenden Wahrscheinlichkeitsverteilungen und ihre Struktur (z.B. Abh¨ angigkeiten: ’Korrelationen’) zu gewinnen, also ein wahrscheinlichkeitstheoretisches Modell. Nat¨ urlich sind diese Aussagen nicht v¨ ollig absolut zu nehmen, die ’Kompetenzbereiche’ gehen teilweise ineinander u ¨ber, aber in der Grundtendenz ist es so. Die Tatsache, daß jeweils der Begriff ’Information’ auftaucht, verweist auf den engen Zusammenhang der drei Disziplinen Wahrsdcheinlichkeitstheorie, Mathematische Statistik und Informationstheorie. Jedenfalls besteht Statistik im mathematischen Sinne nicht schlichtweg in der Auflistung endloser Zahlenkolonnen und bestenfalls der Berechnung einiger Mittelwerte und H¨ aufigkeiten, sondern stellt die mathematischen Methoden bereit, aus solchen Daten m¨ oglichst zuverl¨ assige Aussagen im schon genannten Sinne zu gewinnen. Grundlegender Ausgangspunkt sind dabei die Gesetze der Wahrscheinlichkeitstheorie, insbesondere nat¨ urlich das Gesetz der großen Zahlen (dessen G¨ ultigkeit Statistik erst m¨ oglich und sinnvoll macht) und der zentrale Grenzwertsatz, der die besondere Rolle der Normalverteilung in der Mathematischen Statistik begr¨ undet. Wir starten also mit einer Menge von konkreten Daten x = (x1 , x2 , ..., xn ) aus einer Gesamtheit m¨ oglicher Daten [M n , A⊗n ], nichts anderes als ein meßbarer (Produkt-)Raum also, der in der Statistik Stichprobenraum heißt. Das beobachtete Elementarereignis heißt nun Stichprobe. Was nun noch zum Gl¨ uck fehlt ist ein Wahrscheinlichkeitsmaß, aber eben dieses (oder zumindest einige seiner Eigenschaften) wollen wir ja gerade ermitteln. Grunds¨ atzlich geht man nat¨ urlich davon aus, daß den Daten tats¨ achlich irgendein Wahrscheinlichkeitsmaß P auf (M n , A⊗n ) zugrundeliegt, in vielen F¨ allen wird man die Gestalt P = (P0 )n voraussetzen, also die Unabh¨ angigkeit der einzelnen Stichprobenelemente. Ein wichtiger Spezialfall, den wir hier betrachten werden, ist die Annahme, daß P aus einer gewissen (eingeschr¨ ankten) Menge von durch einen reellen oder vektorwertigen Parameter θ eindeutig gegebenen Wahrscheinlichkeitsmaßen (Pθ )θ∈Λ⊆Rd stammt, so daß man also die Suche nach der richtigen Verteilung auf die Suche nach dem richtigen Parameter reduziert hat. Diese Vorgehensweise liegt der parametrischen Statistik zugrunde. Bemerkung: Wenn die Menge M endlich ist (und sogar im Prinzip wenn sie abz¨ahlbar-unendlich ist), dann l¨aßt sich im Prinzip jede Wahrscheinlichkeitsverteilung auf [M n , A⊗n ] durch einen reellen oder vektorwertigen ’Parameter’ charakterisieren, so daß in diesen F¨allen generell die Methoden der parametri70
schen Statistik Verwendung finden k¨onn(t)en. Man geht dann also davon aus, daß es einen wahren Parameter θ0 gibt, den man aus der endlichen Sichprobe nat¨ urlich weder beliebig genau noch mit beliebiger Sicherheit ermitteln kann. • Zun¨ achst kann man versuchen, einen einzelnen konkreten Parameterwert θ(x) aus der Stichprobe x abzuleiten, von dem man hofft, daß er dem wahren Parameter θ0 m¨ oglichst nahe kommt. Eine solche Zuordnung x 7−→ θ(x) heißt Punktsch¨ atzer (Punktsch¨ atzung), und θ(·) ist dann nichts anderes als eine sinnvoll gew¨ ahlte meßbare Abbildung θ(·) : [M n , A⊗n ] 7−→ [Rd , B(Rd )], also eine (reelle oder vektorwertige) abgeleitete Zufallsgr¨ oße. ¨ Uber die Angabe eines solchen Sch¨ atzers hinaus, wird man nat¨ urlich versuchen, Aussagen u ute dieser Sch¨ azung zu machen, etwa kann ¨ber die G¨ man den Ausdruck supθ0 ∈Λ EPθ0 (θ0 − θ)2 betrachten, also die maximale quadratische (mittlere) Abweichung des gesch¨ atzten Parameters vom wahren, und dann wird man versuchen, diesen Wert durch passende Wahl des Sch¨ atzers m¨ oglichst klein zu halten. • Eine andere M¨ oglichkeit ist, nicht einen einzelnen Parameterwert anzugeben, sondern ein Intervall [θu (x), θo (x)], in dem θ0 mit m¨ oglichst großer Wahrscheinlichkeit α liegen soll, das aber andererseits m¨ oglichst klein sein soll. Diese beiden Erwartungen an das Intervall [θu (x), θo (x)] sind direkt ¨ kontr¨ ar, man muß also einen Kompromiß schließen. Ublicherweise legt man sich auf einen fixierten Wert α (z.B. α = 0, 95) fest, und sucht dann die beiden meßbaren Funktionen θu (x), θo (x) so zu w¨ ahlen, daß die Intervall¨ ange θo (x) − θu (x) m¨ oglichst klein ist, jedoch Pθ0 ([θu (x), θo (x)] 3 θ0 ) ≥ α f¨ ur alle θ0 ∈ Λ gerade noch erf¨ ullt ist (Konfidenzintervall zum Niveau α). • Schließlich kann man -insbesondere dann, wenn man eine Vermutung (=Hypothese) bez¨ uglich m¨ oglicher Parameterwerte bereits hat- die Menge Λ in zwei disjunkte Teilmengen H und K (H ∪ K = Λ) zerlegen und einen Hypothesentest durchf¨ uhren. Dies bedeutet, im Stichprobenraum [M n , A⊗n ] eine meßbare Teilmenge A zu spezifizieren. Wenn die gegebene Stichprobe x zu A (’accept’) geh¨ ort, wird die Hypothese, daß θ0 ∈ H ist, angenommen. Wenn x ∈ R := M n \ A (’reject’), dann wird die Hypothese verworfen. Der Test beruht also auf der Auswertung der Bernoulli-Zufallsgr¨ oße 1A (x). Nat¨ urlich geht es insbesondere darum A so zu w¨ ahlen, daß f¨ ur diejenigen θ0 , die zu H geh¨ oren, die Wahrscheinlichkeit von A m¨ oglichst nahe bei 1 liegt, w¨ ahrend umgekehrt f¨ ur θ0 ∈ K die Wahrscheinlichkeit von R m¨ oglichst nahe bei 1 liegen soll. Auch dies ist wieder eine Frage der g¨ unstigen Balance, denn bei dieser Herangehensweise kann es einerseits vorkommen, daß die Hypothese f¨ alschlicherweise verworfen wird (θ0 ∈ H aber x ∈ R: Fehler 1. Art) oder aber f¨ alschlicherweise angenommen wird (θ0 ∈ K aber x ∈ A: Fehler 2. Art). Man sieht u alsch¨blicherweise die f¨ liche Ablehnung als gravierender an und verschiebt daher die Balance in die Richtung, daß man die Wahrscheinlichkeit des Fehlers 1. Art f¨ ur alle 71
θ0 ∈ H unter eine kleine fixierte Zahl ε (durch entsprechende Wahl von A) zu dr¨ ucken versucht: Pθ0 (A) ≥ 1 − ε, θ0 ∈ H. Die Zahl α := 1 − ε heißt dann Signifikanzniveau des Tests. Das k¨ onnte man nat¨ urlich dadurch erreichen, daß man einfach A = M n w¨ ahlt, also die Hypothese stets annimmt. So unwichtig ist aber der Fehler 2. Art nun auch wieder nicht, man wird also unter allen Mengen A eine solche w¨ ahlen, die einerseits das Signifikanzniveau α einh¨ alt, f¨ ur die andererseits aber λ(θ) := Pθ (R) f¨ ur θ ∈ K m¨ oglichst groß ist. Die Funktion λ(·) : Λ 7−→ [0, 1] heißt G¨ utefunktion des (jeweiligen) Test. Im (außer in Trivialf¨ allen) unerreichbaren Ideal w¨ are λ = 1K (Annahme genau dann, wenn θ ∈ H). Ein (durch die Angabe der Menge A festgelegter) Test heißt gleichm¨ aßig bester Test zum Signifikanzniveau α, wenn seine G¨ utefunktion f¨ ur alle θ ∈ K nicht schlechter (kleiner) als die jedes anderen Test mit dem selben Signifikanzniveau ist. In der Regel wird es dennoch so sein, daß selbst der gleichm¨ aßig beste Test (zu α) f¨ ur einige θ ∈ K kleine Werte von λ(θ) produziert (große Fehlerwahrscheinlichkeit 2. Art). Beim Begriff des Hypothesentests spielt es zun¨ achst keine Rolle, daß die Parametermenge eine Teilmenge des Rd ist, man kann ohne weiteres die Menge aller in Betracht gezogenen Wahrscheinlichkeitsverteilungen P selbst mit Λ bezeichnen und in zwei disjunkte Teilmengen H und K zerlegen, ohne eine Parametrisierung zu w¨ ahlen. Das f¨ allt in das Gebiet der nichtparametrischen Statistik. Z.B. k¨ onnte H die Menge aller Normalverteilungen der Gestalt N (c, σ 2 )×n bezeichnen. Das w¨ are dann ein Test auf Normalverteilung. Wir besch¨ aftigen uns zun¨ achst mit Punktsch¨ atzungen f¨ ur den wahren Parameter θ0 . Betrachten wir als Beispiel den Fall, daß wir begr¨ undet annehmen k¨ onnen, das der Stichprobe x = (x1 , x2 , ..., xn ) zugrundeliegende Wahrscheinlichkeitsmaß sei von der Gestalt N (θ0 , 1)×n , d.h. die einzelnen Stichprobenelemente sind unabh¨ angig voneinander erhoben worden und identisch verteilt, nur der Erwartungswert θ0 sei unbekannt (realistischer w¨ are, daß auch die Varianz unbekannt ist, aber der Einfachheit halber wollen wir das im Moment nicht betrachten). Nun wissen wir aufgrund des Schwachen GesetzesP der großen Zahlen, n daß f¨ ur gen¨ ugend großes n der Stichproben-Mittelwert n1 i=1 xi mit großer Wahrscheinlichkeit nahe onnen diese etwas vage AusP bei θ0 liegen wird. (Wir k¨ sage versch¨ arfen: n1 ni=1 xi − θ0 ist aufgrund von Satz 38 wieder normalverteilt mit Erwartungswert 0 und Varianz n1 , woraus sich leicht gute Absch¨ atzungen f¨ ur den Fehler bei konkretem n gewinnen lassen). Daher liegt es sehr nahe, die Pn Stichproben-Funktion (Zufallsgr¨ oße) A(x) := n1 i=1 xi als Punktsch¨ atzer f¨ ur θ0 zu verwenden. Zun¨ achst gilt n
EPθ0 A(x) = EPθ0
n
n
1X 1X 1X xi = E P θ 0 xi = θ0 = θ 0 , n i=1 n i=1 n i=1
der Erwartungswert des Sch¨ atzers ist also gleich dem zu sch¨ atzenden Parameter. Solche Sch¨ atzer heißen erwartungstreu. Die Erwartungstreue ist eine zwar 72
theoretisch recht angenehme, aber praktisch nicht unbedingt notwendige Eigenschaft, da gute Sch¨ atzer im Sinne eines m¨ oglichst kleinen mittleren Abstandes zum Parameter nicht zwangsl¨ aufig erwartungstreu sein m¨ ussen. Wir haben uns hier vom Gesetz der großen Zahlen inspirieren lassen, um zu einem plausiblen Sch¨ atzer zu kommen, weil der zu sch¨ atzende Parameter eben ein Erwartungswert war. Eine andere Methode ist die folgende: Betrachten wir zun¨ achst den Fall, daß die Pθ diskrete Wahrscheinlichkeitsmaße sind. Dann k¨ onnen wir der Stichprobe ihre jeweilige Wahrscheinlichkeit Pθ (x) -genauer Pθ ({x})- zuordnen (was nat¨ urlich immer geht, aber bei diffusen Maßen stets 0 ergibt). Ein sinnvoller Sch¨ atzer w¨ are der sogenannte Maximum-LikelihoodSch¨ atzer θML (·) : x ∈ M n 7−→ arg maxθ∈Λ Pθ ({x}), also derjenige Parameterwert, der der beobachteten Stichprobe die gr¨ oßte Wahrscheinlichkeit zuordnet (falls es derer mehrere gibt, nimmt man einen davon, denkbar w¨ are nat¨ urlich, daß das Maximum gar nicht existiert). Im (bzgl. Lebesgue-Maß) absolut stetigen Fall ersetzt man die Einzelwahrscheinlichkeit Pθ ({x}) durch die Dichte pθ (x) von Pθ im Punkt x, also θML (·) : x ∈ M n 7−→ arg maxθ∈Λ pθ (x). Hier m¨ ussen nat¨ urlich Existenz- und Meßbarkeitsaussagen gegeben sein. In dem von uns betrachteten Beispiel der Normalverteilung mit unbekanntem Erwartungswert erhalten wir θML (x)
= argmaxpθ ((x1 , ..., xn )) θ∈R
n Y
2 1 1 √ e− 2 (xi −θ) 2π i=1
= argmax θ∈R
1
= argmaxe− 2
Pn
i=1 (xi −θ)
2
θ∈R
= argmin θ∈R
Pn
n X (xi − θ)2 . i=1
P Die Funktion θ 7−→ i=1 (xi − θ)2 ist glatt, ihre Ableitung ist 2 ni=1 (θ − xi ) = 2n(θ − A(x)), dies wird 0 genau f¨ ur θ = A(x), und die zweite Ableitung 2n ist positiv, daher gilt in unserem Beispiel θML (x) = A(x), die Maximum-LikelihoodSch¨ atzung stimmt also (in diesem Fall!) mit dem gem¨ aß dem Gesetz der Großen Zahlen gew¨ ahlten erwartungstreuen Sch¨ atzer u ¨berein. Zun¨ achst ist die Wahl dieses ML-Sch¨ atzers nur eine Art plausibles ’Kochrezept’, und es ist Aufgabe der Mathematischen Statistik, in geeigneten Klassen von Sch¨ atzproblemen zu untersuchen, ob dieser Sch¨ atzer der -nach ebenfalls zu w¨ ahlenden Kriterien- beste ist.
11.1
Hypothesentests und relative Entropie
Wir betrachten nun einen speziellen Fall der Hypothesenpr¨ ufung, der f¨ ur das Zusammenspiel von Wahrscheinlichkeitstheorie und Informationstheorie bei der Untersuchung statistischer Fragestellungen exemplarisch ist. Wir betrachten 73
zwei Wahrscheinlichkeitsmaße P und Q auf einer endlichen Menge M . Nun nehmen wir an, wir sollen anhand einer (aus unabh¨ angigen Ziehungen bestehenden) Stichprobe vom Umfang n die Hypothese H, daß die zugrunde liegende Verteilung P ist, gegen die Gegenhypothese K zu einer gegebenen Signifikanz α pr¨ ufen, und diese Pr¨ ufung soll f¨ ur große n (also asymptotisch) optimal sein. Wir suchen also eine Teilmenge A(n) ⊆ M n derart, daß P (A(n) ) ≥ α erf¨ ullt ist, jedoch Q(A(n) ) m¨ oglichst klein bleibt. Wie wir sehen werden, l¨ aßt sich die Suche nach einer optimal trennenden Menge auf eine informationstheoretische Gr¨ oße zur¨ uckf¨ uhren, die relative Entropie, eine Verallgemeinerung des Begriffes der Entropie. Die Einzelwahrscheinlichkeiten bzgl. P seien mit pm , m ∈ M, bezeichnet, und die bzgl. Q mit qm . Definition 51 Die durch h(P, Q) :=
X
m∈M pm >0
pm log2
pm . qm
definierte Gr¨oße heißt relative Entropie von P bez¨ uglich Q, wobei log ∞ als +∞ angesehen wird. Die relative Entropie kann also unendlich sein, n¨ amlich genau dann, wenn es ein m ∈ M gibt mit qm = 0, pm > 0. Ebenso wie die Entropie ist auch die relative Entropie immer nicht-negativ, und sie ist genau dann 0, wenn P = Q. Lemma 52 Es gilt h(P, Q) ≥ 0, und die Gleichheit impliziert P = Q. B e w e i s. Wir k¨ onnen uns auf den Fall beschr¨ anken, daß f¨ ur alle m ∈ M aus qm = 0 auch pm = 0 folgt, da sonst mindestens einer der Summanden +∞ ist, w¨ ahrend −∞ nicht vorkommt, die Summe ist dann +∞ > 0.
74
Dann treten in der Summe nur endliche Summanden auf. Nun ist die Funktion − log2 streng konvex, also gilt nach Jensen X X qm pm pm log2 pm log2 = − qm pm m∈M pm >0
m∈M pm >0
X qm ≥ − log2 pm pm
m∈M pm >0
X = − log2 qm m∈M pm >0
X = − log2 qm m∈M pm >0
≥ − log2
X
m∈M
qm
!
= 0,
, pm > wobei das Gleichheitszeichen h¨ ochstens f¨ ur den Fall gilt, daß alle Zahlen pqm m 0, gleich sind (wir haben zweimal nach unten abgesch¨ atzt, daher ’h¨ ochstens’; bei der ersten vorkommenden Ungleichung besagt Jensen, daß sie genau dann zur , pm > 0, gleich sind). Gleichheit wird, wenn alle pqm m Also gilt qm = λpm falls pm > 0 f¨ ur ein λP> 0 (λ = 0 istPwegen unserer Anfangsannahme ausgeschlossen). Dann folgt pm >0 qm = λ pm >0 pm = λ, also λ ≤ 1. Nun gibt alle:P Wenn f¨ ur alle m mit qm > 0 auch pm > 0 P es zwei F¨ gilt, dann ist λ = pm ,qm >0 qm = qm >0 qm = 1, also folgt pm = qm f¨ ur alle m, also P = Q. Wenn es dagegen ein m gibt, so daß q > 0, p = 0, dann ist m m P P P λ = pm >0 qm = pm ,qm >0 qm < qm >0 qm = 1 und wir erhalten ! X X pm ≥ − log2 pm log2 qm = − log2 λ > 0. qm p >0 p >0 m
m
Betrachten wir nun den speziellen Fall, daß Q = G, die Gleichverteilung auf M ist, also gm ≡ d1 mit d := #M . Dann gilt X X X h(P, G) = pm log2 dpm = pm log2 pm + pm log2 d pm >0
pm >0
pm >0
= −hP + log2 d.
Wir erinnern uns, daß log2 d gerade die maximal m¨ ogliche Entropie, n¨ amlich die der Gleichverteilung ist (also G). Die Entropie einer beliebigen Verteilung ist also die Differenz aus log2 d = hG und h(P, G). Nun gilt folgender 75
Satz 53 (Steinsches Lemma) F¨ ur jedes ε > 0 existiert eine Folge A(n) von n Teilmengen von M derart, daß P n (A(n) ) −→ 1, Qn (A(n) ) ∈ [2−n(h(P,Q)+ε) , 2−n(h(P,Q)−ε) ] n→∞
(f¨ ur n gen¨ ugend groß), und f¨ ur jedes α ∈ (0, 1) und jede beliebige Folge B (n) von n n Teilmengen von M mit P (B (n) ) ≥ α gilt f¨ ur beliebiges ε > 0 die Beziehung Qn (B (n) ) ≥ 2−n(h(P,Q)+ε) , wenn n gen¨ ugend groß ist. (F¨ ur h(P, Q) = ∞ ist dies so zu interpretieren, daß man die Mengen A(n) dann so w¨ahlen kann, daß Qn (A(n) ) = 0 f¨ ur alle n gilt.) Bemerkung. Dies bedeutet, daß es in der gegebenen Situation m¨oglich ist, bei beliebiger Signifikanz α ∈ (0, 1) den Fehler 2. Art in der asymptotischen (exponentiellen) Gr¨oßenordnung 2−nh(P,Q) zu halten, w¨ahrend es unm¨oglich ist, eine bessere asymptotische Gr¨oßenordnung zu erzielen. Die relative Entropie hat also die Bedeutung der optimalen asymptotischen Trennbarkeitsrate. B e w e i s. Wir betrachten zuerst den Fall h(P, Q) < ∞. (n) 1. Wir fixieren zun¨ achst ein ε > 0 und betrachten die Menge MP,ε derjenigen (m1 , m2 , ..., mn ) ∈ M n mit der Eigenschaft pm1 pm2 ...pmn ∈ [2−n(hP +ε) , 2−n(hP −ε) ] (n)
sowie die Menge MQ,ε derjenigen (m1 , m2 , ..., mn ), so daß qm1 qm2 ...qmn ∈ [2−n(hP +h(P,Q)+ε) , 2−n(hP +h(P,Q)−ε) ] gilt. Nun wissen wir aufgrund des Schwachen Gesetzes der großen Zahlen (spe(n) ziell der Satz von Shannon), daß P n (MP,ε ) f¨ ur n → ∞ gegen 1 konvergiert. Es (n)
ist leicht zu sehen, daß auch P n (MQ,ε ) gegen 1 konvergiert: Wenn ξ gem¨ aß P verteilt ist, hat die nichtnegative (und nach unserer vorl¨ aufigen Vorausetzung auch P -fast oße − log2 qξ den endlichen ErwartungsP sicher endliche) Zufallsgr¨ wert − m∈M,pm >0 pm log2 qm = hP + h(P, Q). Nach dem Schwachen Gesetz der großen Zahlen geht daher f¨ ur eine unabh¨ angige Folge ξ1 , ξ2 , ...ξn derartiger Zufallsgr¨ oßen ! n 1X P n − log2 qξi − (hP + h(P, Q)) > ε n i=1
f¨ ur n → ∞ gegen 0, woraus die ben¨ otigte Aussage sofort durch exponenzieren mit der Basis 2 folgt.
76
(n)
(n)
Dann geht auch P n (MP,ε ∩ MQ,ε ) gegen 1. Es gilt aufgrund der Definition
von
(n) MP,ε
(n)
(n)
#(MP,ε ∩ MQ,ε )
(n)
≤ #(MP,ε ) =
X
X
= 2n(hP +ε)
1
(n) m∈MP,ε
2−n(hP +ε)
(n)
m∈MP,ε
X
≤ 2n(hP +ε)
pm1 pm2 ...pmn
(n)
m∈MP,ε
= 2n(hP +ε)
X
P n (m)
(n)
m∈MP,ε
≤ 2n(hP +ε) . Nun folgt sofort (n) (n) Qn MP,ε ∩ MQ,ε =
X
Qn (m)
(n) (n) m∈MP,ε ∩MQ,ε
X
=
qm1 qm2 ...qmn
(n) (n) m∈MP,ε ∩MQ,ε
≤
X (n)
2−n(hP +h(P,Q)−ε) (n)
m∈MP,ε ∩MQ,ε (n)
(n)
= #(MP,ε ∩ MQ,ε )2−n(hP +h(P,Q)−ε) ≤ 2n(hP +ε) 2−n(hP +h(P,Q)−ε) = 2−n(h(P,Q)−2ε) .
(n)
(n)
F¨ ur die (von ε abh¨ angige) Mengenfolge A(n) := MP,ε ∩ MQ,ε gilt also sowohl P n (A(n) ) −→ 1 als auch Qn (A(n) ) ≤ e−n(h(P,Q)−2ε) . Durch die Substitution n→∞
ε → ε/2 erhalten wir die obere Absch¨ atzung des Satzes. 2. Sei nun α ∈ (0, 1), ε > 0 und B (n) irgendeine Folge von Teilmengen von M n mit P n (B (n) ) ≥ α. A(n) sei die im ersten Beweisteil konstruierte Mengenfolge. Dann folgt wegen P n (A(n) ) −→ 1, daß f¨ ur gen¨ ugend große n die Beziehung n→∞
P n (B (n) ∩ A(n) ) ≥ α/2 > 0 erf¨ ullt ist. Wir erhalten ¨ ahnlich wie oben wegen
77
(n)
B (n) ∩ A(n) ⊆ MP,ε
#(B (n) ∩ A(n) ) =
X
1
m∈B (n) ∩A(n)
= 2n(hP −ε)
X
2−n(hP −ε)
m∈B (n) ∩A(n)
≥ 2n(hP −ε)
X
P n (m)
m∈B (n) ∩A(n)
= 2n(hP −ε) P n (B (n) ∩ A(n) ) ≥ 2n(hP −ε) α/2 ≥ 2n(hP −2ε)
(n)
f¨ ur gen¨ ugend große n. Also gilt wegen B (n) ∩ A(n) ⊆ MQ,ε f¨ ur gen¨ ugend große n Qn (B (n) ) ≥ Qn (B (n) ∩ A(n) ) X = Qn (m) m∈B (n) ∩A(n)
=
X
qm1 qm2 ...qmn
m∈B (n) ∩A(n)
≥
X
2−n(hP +h(P,Q)+ε)
m∈B (n) ∩A(n)
= #(B (n) ∩ A(n) )2−n(hP +h(P,Q)+ε) ≥ 2n(hP −2ε) 2−n(hP +h(P,Q)+ε)
= 2−n(h(P,Q)+3ε) .
Da ε beliebig war, haben wir damit die zweite Teilaussage (im Fall endlicher relativer Entropie) bewiesen. 3. Die eben bewiesene Aussage, daß Qn (B (n) ) (bei beliebigem ε > 0) f¨ ur gen¨ ugend große n mindestens den Wert 2−n(h(P,Q)+ε) hat, sofern P n (B (n) ) ≥ α > 0 (zumindest f¨ ur große n) gilt nat¨ urlich auch f¨ ur die unter 1. konstruierte Mengenfolge A(n) , denn diese erf¨ ullt sogar P (A(n) ) → 1. Damit haben wir auch die untere Absch¨ atzung f¨ ur Qn (A(n) ) bewiesen. Wir m¨ ussen uns nun noch um den Fall h(P, Q) = +∞ k¨ ummern. In diesem Fall lassen sich die beiden Verteilungen asymptotisch perfekt unterscheiden: Die relative Entropie ist genau dann unendlich, wenn es ein m ∈ M gibt, so daß pm > 0, qm = 0. Wir definieren A(n) := {m ∈ M n : Es existiert ein i0 so daß mi0 = m}. Offenbar gilt Qn (A(n) ) = 0 f¨ ur alle n. 78
Andererseits gilt f¨ ur beliebiges ε > 0 P n (A(n) )
= 1 − P n ({m ∈ M n : mi 6= m f¨ ur alle i}) n Y = 1− P (M {m}) i=1
= 1 − (P (M {m})) = 1 − (1 − pm )n ,
n
und dieser Ausdruck konvergiert f¨ ur n → ∞ gegen 1 wegen pm > 0.
12
Stochastische Prozesse
In vielen Situationen hat man es mit zeitlichen Abfolgen von Zufallsgr¨ oßen zu tun, die u ¨ber einem gemeinsamen Maßraum [M, A, P ] definiert sind, typischerweise entweder mit einer abz¨ ahlbaren Familie (ξi )i∈Z (bzw. auch (ξi )i∈N ), wobei der Index i nun als diskreter Zeittakt interpretiert wird, oder aber mit einer u ahlbaren Familie (ξt )t∈R (bzw. (ξt )t∈R+ ), hier ist t der (kontinuierli¨berabz¨ che) Zeitparameter. Eine solche Familie von Zufallsgr¨ oßen bezeichnet man als stochastischen Prozeß. Wir hatten schon vorher Beispiele von zeitdiskreten stochastischen Prozessen betrachtet (etwa im Zusammenhang mit dem Starken Gesetz der großen Zahlen), ohne diese Bezeichnung zu verwenden. Wir schreiben im Folgenden allgemein (ξt )t∈T , wobei T je nach Situation eine der Mengen N, Z, R+ oder R sein wird. Alle Eigenschaften einer einzelnen Zufallsgr¨ oße ξ mit Werten in einem meßb sind durch ihre Verteilung P ◦ ξ −1 gegeben, jedenfalls soc, A] baren Raum [M lange, wie man sich nur f¨ ur das Verhalten dieser einen Zufallsgr¨ oße interessiert, und wir hatten gesehen, wie man Zufallsgr¨ oßen mit bestimmten Eigenschaften konstruieren kann, um einen gegebenen Sachverhalt zu modellieren. Wir haben c, A] b = [R, B(R)] bewiesen, daß die Angabe einer Verteilungsfunkim Falle [M tion oder einer Dichte zu einer eindeutigen Festlegung von P ◦ ξ −1 , also dem Verteilungsgesetz der Zufallsgr¨ oße, f¨ uhren. Eine ganze Familie von solchen Gr¨ oßen ist durch die Angabe jedes einzelnen P ◦ξt−1 , t ∈ T, noch l¨ angst nicht eindeutig charakterisiert, da dadurch Abh¨ angigkeiten zwischen den verschiedenen Zeitpunkten nicht erfaßt werden. Daher betrachten wir irgendeine beliebige endliche Sequenz t1 < t2 < ... < tn von Zeitpunkten, ti ∈ T, und die zugeh¨ orige Zufallsgr¨ oße [ξt1 , ξt2 , ..., ξtn ] mit n b ⊗n c Werten in [M , A ]. Das dadurch generierte Verteilungsgesetz P ◦[ξt1 , ξt2 , ..., ξtn ]−1 bezeichnen wir mit Pt1 ,t2 ,...,tn , es heißt endlichdimensionale Verteilung (oder auch Randverteilung) des Prozesses zu den Zeitpunkten t1 , t2 , ..., tn . Das System (Pt1 ,t2 ,...,tn )n∈N,t1
b ander vertr¨ aglich: Es sei A1 , A2 , ..., An−1 irgendeine Folge von Mengen aus A. Dann gilt f¨ ur i ∈ {1, 2, ..., n} Pt1 ,t2 ,.,ti ,..,tn (A1 × A2 × .. ×
c M
i-te Stelle
× .. × An )
= P ◦ [ξt1 , ξt2 , ., ξti , .., ξtn ]−1 (A1 × A2 × .. ×
c M
i-te Stelle
× .. × An )
c, .., ξtn ∈ An ) = P (ξt1 ∈ A1 , .., ξti ∈ M = P (ξt1 ∈ A1 , .., ξti−1 ∈ Ai−1 , ξti+1 ∈ Ai+1 , .., ξtn ∈ An )
= Pt1 ,t2 ,..ti−1 ,ti+1 ,..,tn−1 (A1 × A2 × .. × Ai−1 × Ai+1 × .. × An−1 ). (Die Mengen der Form [ξt1 , ξt2 , ..., ξtn ]−1 (A1 × A2 × ... × An ) ∈ A heißen Zylindermengen). ¨ Anderung im folgenden Text! b = [Rd , B(Rd )] oder M c, A] c eine endliche Wir betrachten nun den Fall, daß [M oder abz¨ ahlbare Menge ist. Es stellt sich nun heraus, daß es in diesem Fall zu jeder vertr¨ aglichen Familie von Wahrscheinlichkeitsmaßen (Pt1 ,t2 ,...,tn )n∈N,t1
cT ) derjenigen Abbildungen m ∈ M cT , die gerade an den die Teilmenge (von M Stellen ti Werte aus Ai annehmen. Das System der Zylindermengen V := {A(t1 , t2 , ..., tn , A1 , A2 , ..., An )}n∈N,t1
cT . ist also eine Teilmenge von P M
Lemma 54 V bildet einen Mengen-Halbring. 80
¨ Der Beweis ist sehr einfach und wird zur Ubung u ¨berlassen. Weiter gilt Satz 55 Die durch P (A(t1 , t2 , ..., tn , A1 , A2 , ..., An )) A(t1 , t2 , ..., tn , A1 , A2 , ..., An )
:
= Pt1 ,t2 ,...,tn (A1 , A2 , ..., An ),
∈ V
gegebene Mengenfunktion P l¨aßt sich eindeutig zu einem WahrscheinlichkeitscT , σ(V)] fortsetzen. maß auf [M
Bevor wir diese Aussage beweisen, ist es g¨ unstig zu einer kompaktifizierten cu c = Rd . Version von M ¨berzugehen, insbesondere im Fall M Wir erinnern an die Konstruktion der Ein-Punkt-Kompaktifizierung der reellen Achse R aus der Analysis. Dazu wird R = R ∪ {∞} betrachtet und das System der offenen Mengen τR wie folgt definiert: Eine Teilmenge O ⊆ R sei offen, wenn O ∩ R im u ¨blichen Sinne offen ist und, falls ∞ ∈ O, es ein x ∈ R gibt, so daß (−∞, −x) ∪ (x, +∞) ⊆ O. Die dazugeh¨ orige σ-Algebra der Borelschen Mengen (also die kleinste σAlgebra B(R) = σ(τR ), die τR enth¨ alt) l¨ aßt sich einfach aus B(R) ableiten: Satz 56 Eine Teilmenge A von R geh¨ort genau dann zu B(R), wenn A ∩ R zu B(R) geh¨ort. B e w e i s. Man pr¨ uft sofort, daß das System σ 0 = B(R) ∪ {B ∪ {∞}, B ∈ B(R)} eine σ-Algebra u alt. Daher gilt ¨ber R ist, die alle τR -offenen Mengen enth¨ σ 0 ⊇ B(R). Es gilt {∞} ∈ B(R), denn {∞} ist der abz¨ ahlbare Durchschnitt der τR offenen Mengen {∞}∪(−∞, −n)∪(n, +∞), n ∈ N. Außerdem gilt offenbarB(R) ⊇ B(R), denn B(R) ist eine σ-Algebra und enth¨ alt alle τR -offenen Mengen (einschließlich R). Daher liegt jede Menge der Form B ∪ {∞}, B ∈ B(R) in B(R). Daher gilt σ 0 = B(R). Wir definieren nun das System H der halboffenen Intervalle in R: Wir setzen (a, b] f¨ ur a < b ∈ R ur b ≤ a ∈ R (a, +∞) ∪ {∞} ∪ (−∞, b] f¨ (a, +∞) ∪ {∞} f¨ ur a ∈ R, b = ∞ (a, b] := (−∞, b] f¨ ur b ∈ R, a = ∞ ∅ f¨ ur a, b = ∞. H ist ein Halbring und man sieht leicht, daß sich jede offene Teilmenge O von R als abz¨ ahlbare Vereinigung von Elementen aus H darstellen l¨ aßt (man w¨ ahle um jeden rationalen Punkt p von O ein halboffenes Intervall der Form (p − ε, p + ε], wobei ε = 21 sup{t : (p − t, p + t] ⊆ O} sowie, falls ∞ ∈ O, noch ein halboffenes Intervall der Form (x, −x], 0 < x ∈ R mit (x, −x] ⊆ O. Damit ist H ein B(R) erzeugender Halbring. 81
d
Analog wie im Fall des Rd definierte man nun auch im R halboffene Intervalle als d Y d (a, b] = (ai , bi ], a, b ∈ R i=1
d
d
d
und erh¨ alt wieder einen Halbring H ⊆ B(R ), der B(R ) erzeugt. Hier ist d B(R ) die kleinste σ-Algebra, die von τRd erzeugt wird, wobei τRd die d-fache d
Produkttopologie von τR ist: Eine Menge O ⊆ R ist offen (∈ τRd ), falls es zu Qd jedem x ∈ O offene Mengen O1 , O2 , ..., Od ⊆ τR gibt, so daß x ∈ i=1 Oi ⊆ O. d
Nun kommen wir zu dem wesentlichen Punkt, weswegen wir von Rd zu R gewechselt sind: Die eben wiederholte Definition der Produkttopologie l¨ aßt sich auf beliebige d Produkte, nicht nur endliche, verallgemeinern, etwa (R )T : d Eine Teilmenge O ⊆ (R )T heißt offen (∈ τ(Rd )T ), wenn es zu jedem m ∈ O endlich viele Mengen O1 , O2 , ..., On , Oi ∈ τRd und Zeitpunkte t1 , t2 , ..., tn gibt, so daß m ∈ A(t1 , t2 , ..., tn , O1 , O2 , ..., Od ) ⊆ O gilt. Nun gilt der folgende sehr wichtige Satz aus der Analysis (Satz von Tychonov): Bez¨ uglich der Produkttopologie ist das Produkt kompakter R¨ aume d T uglich τ(Rd )T . Diese Kompaktheit ist das kompakt. (R ) ist also kompakt bez¨ entscheidende technische Mittel beim c, A] b = B e w e i s von Satz 55. 1. Wir betrachten zun¨ achst den Fall [M d d [R , B(R )]. Es sei W das Teilsystem von V, das entsteht, wenn nur Mengen A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) betrachtet werden, bei denen alle Ii halboffene Ind tervalle im R sind. W ist wieder ein Halbring, denn der Durchschnitt von zwei Mengen A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) und A(t01 , t02 , ..., t0n0 , I10 , I20 , ..., In0 0 ) aus ogliW l¨ aßt sich als A(t001 , t002 , ..., t00n00 , I100 , I200 , ..., In00 ) darstellen, wobei die t00i alle m¨ chen tj und t0j durchlaufen und die Ii00 wieder Durchschnitte von h¨ ochstens zwei halboffenen Intervallen, also selbst halboffene Intervalle sind. Das Komplement A(t1 , t2 , ..., tn , I1 , I2 , ..., In )c l¨ aßt sich schreiben als disjunkte Vereinigung
=
A(t1 , t2 , ..., tn , I1 , I2 , ..., In )c n [ d d A(t1 , t2 , ..., tn , I1 , I2 , ..., Ii−1 , Iic , R , ..., R ). i=1
Nun ist Iic
= (Ii,1 × ... × Ii,d ) =
d [
j=1
c
c Ii,1 × ... × Ii,j−1 × Ii,j × R × ... × R
c und das eindimensionale Intervall Ii,j ist wieder ein halboffenes Intervall in R. Daraus ergibt sich eine Darstellung von A(t1 , t2 , ..., tn , I1 , I2 , ..., In )c als disjunkte Vereinigung von Mengen in W. Also sind die auftauchenden Mengen alle in
82
W. Dann ist auch A(t01 , t02 , ..., t0n0 , I10 , I20 , ..., In0 0 ) \ A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) = A(t01 , t02 , ..., t0n0 , I10 , I20 , ..., In0 0 ) ∩ (A(t1 , t2 , ..., tn , I1 , I2 , ..., In ))c als solch eine disjunkte Vereinigung von endlich vielen Mengen in W darstellbar,W ist also ein Halbring. 2. Es sei σ(W) die durch W erzeugte σ-Algebra. Dann gilt V ⊆ σ(W), d nd denn wenn Ai ∈ B(R ), i = 1, 2, ..., n, dann ist A1 × ... × An ∈ B(R ) und nd nd weil die halboffenen Intervalle in R die σ-Algebra B(R ) erzeugen, liegt A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) in der von allen Mengen der Form A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) ∈ W erzeugten σ-Algebra und folglich auch in σ(W). Da nun W ⊆ V ⊆ σ(W), gilt σ(V) = σ(W). Wenn wir zeigen k¨ onnen, daß sich das System der Pt1 ,t2 ,...,tn eindeutig von W zu einem Wahrscheinlichkeitsmaß P auf σ(V) = σ(W) fortsetzen l¨ aßt, dann c = Rd bewiesen. Dazu gen¨ ugt haben wir die Aussage des Satzes f¨ ur den Fall M es nach dem schon im Kapitel u ¨ber Verteilungsfunktionen zitierten maßtheoretischen Resultat u ¨ber die eindeutige Fortsetzbarkeit einer solchen Mengenfunktion zu einem Maß zu zeigen, daß P auf W σ-additiv ist. 3. Sei also A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) ∞ [ A(ti,1 , ti,2 , ..., ti,ni , Ii,1 , Ii,2 , ..., Ii,ni ) = i=1
eine Darstellung von A(t1 , t2 , ..., tn , I1 , I2 , ..., In ) ∈ W als disjunkte Vereinigung von Mengen aus W. Wir haben bisher nur Mengen der Gestalt A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) mit geordneter Menge t1 < t2 < ... < tn betrachtet. Nun definieren wir A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) auch f¨ ur beliebige t1 , t2 , ..., tn , ti 6= tj f¨ ur i 6= j, indem wir setzen A(t1 , t2 , ..., tn , A1 , A2 , ..., An ) := A(ti1 , ti2 , ..., tin , Ai1 , Ai2 , ..., Ain ), wobei ti1 < ti2 < ... < tin die geordnete Reihenfolge der ti ist. Weiter definieren wir auch A(t1 , t2 , ..., A1 , A2 , ...) f¨ ur beliebige unendliche d Folgen t1 , t2 , ..., ti 6= tj wenn i 6= j sowie A1 , A2 , ..., bei denen Ai 6= R nur endlich oft gilt, indem wir setzen A(t1 , t2 , ..., A1 , A2 , ...) := A(t1 , t2 , ..., tn , A1 , A2 , ..., An ), d
wobei n der letzte Index sei, bei dem An 6= R erf¨ ullt ist. 83
Dann k¨ onnen wir die obige Beziehung wie folgt schreiben A(s1 , s2 , ..., J1 , J2 , ...) ∞ [ = A(s1 , s2 , ..., Ji,1 , Ji,2 , ...), i=1
wobei s1 , s2 , ... alle Werte t1 , t2 , ..., tn sowie ti,1 , ti,2 , ..., ti,ni mit i ∈ N durchl¨ auft (dies sind ja abz¨ ahlbar viele. Dabei setzen wir Ji,k = Ii,l falls sk = ti,l und d
Ji,k = R sonst (und entsprechend f¨ ur J1 , J2 , ...). d
4. Nun gibt es f¨ ur jedes n ∈ N ein gr¨ oßtes k ∈ N derart, daß Jk 6= R oder d Ji,k 6= R f¨ ur irgendein i ≤ n. Dann gilt A(s1 , s2 , ..., J1 , J2 , ...) = A(s1 , s2 , ..., sk , J1 , J2 , ..., Jk ) ∞ [ A(s1 , s2 , ..., Ji,1 , Ji,2 , ...) = ⊇ =
i=1 n [
i=1 n [
A(s1 , s2 , ..., Ji,1 , Ji,2 , ...) A(s1 , s2 , ..., sk , Ji,1 , Ji,2 , ..., Ji,k ).
i=1
Folglich ist n [
i=1
Ji,1 × Ji,2 × ... × Ji,k
⊆ J1 × J2 × ... × Jk , und wir erhalten f¨ ur beliebige n n X
= =
i=1 n X
i=1 n X i=1
P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...)) P (A(s1 , s2 , ..., sk , Ji,1 , Ji,2 , ..., Ji,k )) Ps1 ,s2 ,...,sk (Ji,1 × Ji,2 × ... × Ji,k )
= Ps1 ,s2 ,...,sk
n [
i=1
Ji,1 × Ji,2 × ... × Ji,k
≤ Ps1 ,s2 ,...,sk (J1 × J2 × ... × Jk ) = P (A(s1 , s2 , ..., J1 , J2 , ...)) . 84
!
Mit n → ∞ folgt ∞ X
P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...))
i=1
≤ P (A(s1 , s2 , ..., J1 , J2 , ...)) . 5. Wir m¨ ussen nun noch die ≥-Relation zeigen. Wir fixieren ein ε > 0. d Sei k0 der gr¨ oßte Index, so daß Jk0 6= R . Dann ist A(s1 , s2 , ..., J1 , J2 , ...) = A(s1 , s2 , ..., sk0 , J1 , J2 , ..., Jk0 ). Aufgrund der Stetigkeit von Ps1 ,s2 ,...,sk0 finden wir abgeschlossene Intervalle Jjε ⊆ Jj , j = 1, 2, ..., k0 , derart daß Ps1 ,s2 ,...,sk0 (J1ε × J2ε × ... × Jkε0 ) ≥ Ps1 ,s2 ,...,sk0 (J1 × J2 × ... × Jk0 ) − ε. d
F¨ ur alle j > k0 setzen wir Jjε = R = Jj . d
Entsprechend sei ki der gr¨ oßte Index, so daß Ji,ki 6= R , und nun finden wir ε f¨ ur jedes i ∈ N offene Intervalle Ji,j ⊇ Ji,j , j = 1, 2, ..., ki , derart daß ε ε ε Ps1 ,s2 ,...,ski (Ji,1 × Ji,2 × ... × Ji,k ) ≤ Ps1 ,s2 ,...,ski (Ji,1 × Ji,2 × ... × Ji,ki ) + ε2−i . i d
ε F¨ ur alle j > ki setzen wir Ji,j = R = Ji,j . d
(Zu beachten ist, daß R sowohl offen als auch abgeschlossen als auch halbd
d
offen ( R = (0, 0] ) ist.) Wir erhalten
⊆
A(s1 , s2 , ..., sk0 , J1ε , J2ε , ..., Jkε0 ) ∞ [ ε ε ε ). A(s1 , s2 , ..., ski , Ji,1 , Ji,2 , ..., Ji,k i i=1
Nach Konstruktion ist A(s1 , s2 , ..., sk0 , J1ε , J2ε , ..., Jkε0 ) eine abgeschlossene Teild
ε ε ε menge des kompakten Raums (R )T ,also ist sie kompakt. Die A(s1 , s2 , ..., ski , Ji,1 , Ji,2 , ..., Ji,k ) i ¨ bilden eine offene Uberdeckung dieser kompakten Teilmenge. Also existiert ein n, so daß schon
A(s1 , s2 , ..., sk0 , J1ε , J2ε , ..., Jkε0 ) n [ ε ε ε ) A(s1 , s2 , ..., ski , Ji,1 , Ji,2 , ..., Ji,k ⊆ i i=1
85
erf¨ ullt ist. Sei k = max0≤i≤n ki . Dann gilt P (A(s1 , s2 , ..., J1 , J2 , ...)) = P (A(s1 , s2 , ..., sk , J1 , J2 , ..., Jk )) ≤ P (A(s1 , s2 , ..., sk , J1ε , J2ε , ..., Jkε )) + ε = Ps1 ,s2 ,...,sk (J1ε × J2ε × ... × Jkε ) + ε ! n [ ε ε ε Ji,1 × Ji,2 × ... × Ji,k + ε ≤ Ps1 ,s2 ,...,sk i=1
≤ ε+
n X i=1
ε ε ε Ps1 ,s2 ,...,sk Ji,1 × Ji,2 × ... × Ji,k ,
denn Ps1 ,s2 ,...,sk ist ein Wahrscheinlichkeitsmaß. Wir k¨ onnen nun die Ungleichungskette wie folgt fortsetzen P (A(s1 , s2 , ..., J1 , J2 , ...)) n X Ps1 ,s2 ,...,ski (Ji,1 × Ji,2 × ... × Ji,ki ) + ε2−i ≤ ε+ i=1 n X
= 2ε + ≤ 2ε +
i=1 ∞ X
P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...)) P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...)) .
i=1
Da ε beliebig war und wegen 4., gilt also
=
P (A(s1 , s2 , ..., J1 , J2 , ...)) ∞ X P (A(s1 , s2 , ..., Ji,1 , Ji,2 , ...)) . i=1
Wir haben damit gezeigt, daß P auf dem Halbring W σ-additiv ist, sich also zu einem Wahrscheinlichkeitsmaß auf σ(W) fortsetzen l¨ aßt, und folglich die c, A] b = [Rd , B(Rd )]. Aussage des Satzes im Fall [M c eine beliebige B(Rd )-meßbare Teilmenge von Rd (also insbe6. Sei nun M d sondere der R selbst oder eine endliche bzw. abz¨ ahlbare Menge, die wir durch irgendeine bijektive Abbildung in den Rd einbetten), versehen mit der σ-Algebra b=M b auch in B(Rd ) ⊆ B(Rd ). Somit l¨ c ∩ B(Rd ). Dann ist jede Menge in A A aßt b c sich jedes Wahrscheinlichkeitsmaß Q auf [M, A] auch als Wahrscheinlichkeitsd d c) = 1). maß auf [R , B(R )] auffassen (mit der Eigenschaft Q(M Analog l¨ aßt sich die gegebene vertr¨ agliche Familie von Maßen (Pt1 ,...,t n ) auf nd nd n n b ] als vertr¨ c) , A c)n = [(M agliche Familie auf [R , B(R )] ansehen (Pt1 ,...,tn (M 1). Wegen 1.-5. ist die dadurch gegebene Mengenfunktion auf 86
V := {A(t1 , t2 , ..., tn , A1 , A2 , ..., An )}n∈N,t
1
d
)
b ⊆ B(Rd ), gilt diese σ-Additivit¨ σ-additiv. Da A at gewiß auch auf dem Mengensystem V := {A(t1 , t2 , ..., tn , A1 , A2 , ..., An )}n∈N,t1
Aus dem im obigen Beweis schon benutzten Satz u ¨ber die eindeutige Fortsetzbarkeit einer auf einem erzeugenden Halbring σ-additiven Mengenfunktion zu einem Maß erhalten wir nun sofort b = c, A] Satz 57 (Existenz- und Eindeutigkeitsatz von Kolmogorov) Es sei [M d d c [R , B(R )] oder M eine h¨ochstens abz¨ahlbare Menge. Dann bestimmt jede vertr¨agliche Familie von Wahrscheinlichkeitsmaßen (Pt1 ,t2 ,...,tn )n∈N,t1
bar sind, die sich auf h¨ochstens abz¨ahlbar viele Zeitpunkte ti beziehen. Im Falle c T = R sind daher solche Aussagen wie m M, b t ≡ 1 oder ’ m b t ist stetig’ nicht meßbar. d So ist auch i.A. (Rd )T keine meßbare Teilmenge von (R )T ist, dazu ist die σ-Algebra σ(V) nicht umfassend genug. Es bedarf weiterer, teilweise erheblich komplizierterer maßtheoretischer ’Klimmz¨ uge’, um Versionen des Prozesses mit solchen Eigenschaften zu konstruieren, daß z.B. die genannten Aussagen meßbar werden. c heißt Zustandsraum des Prozesses, ein einzelnes m = (m Die Menge M b t )t cT heißt Trajektorienraum. heißt Trajektorie, M Eine wichtige Eigenschaft, die ein Prozeß evtl. hat, ist die Stationarit¨ at:
Definition 58 Der durch die vertr¨agliche Familie (Pt1 ,t2 ,...,tn ) bestimmte Prour alle n ∈ N, zeß P heißt station¨ ar, falls Pt1 ,t2 ,...,tn = Pt1 +t,t2 +t,...,tn +t f¨ t, t1 < t2 < ... < tn ∈ T erf¨ ullt ist. Bemerkung: Das von uns im unabh¨angigen Fall bewiesene Starke Gesetz der großen Zahlen (im Sinne der fast sicheren Konvergenz des Zeitmittels gegen 87
c = Rd , T = Z) mit Mitteln der einen i.A. zuf¨alligen Limes) l¨aßt sich (f¨ ur M Ergodentheorie f¨ ur beliebige station¨are Prozesse beweisen. Der einfachste Fall eines station¨ aren Prozesses entsteht, wenn wir Pt1 ,t2 ,...,tn := (P0 )n f¨ ur beliebige t1 < t2 < ... < tn ∈ T setzen, wobei P0 ein beliebiges Wahrc, A] b ist. (Die Familie ist offenbar vertr¨ scheinlichkeitsmaß auf [M aglich). Dieser Prozeß heißt der i.i.d.-Prozeß zu P0 (independent identically distributed, u.i.v.), manchmal auch weißes Rauschen genannt. Wir wissen genau genommen erst jetzt, daß die Aussage des StGdgZ nicht tats¨achlich leer ist, daß es also iid-Prozesse tats¨achlich gibt! Eine interessante Familie von Prozessen, die den iid-Fall umfaßt, werden wir nun betrachten.
12.1
Markowsche Prozesse mit diskretem Zustandsraum und diskreter Zeit
Die Grundidee besteht darin, daß reale Abl¨ aufe, zumindest bei gen¨ ugend detaillierter Beschreibung, folgende Eigenschaft haben: Die (evtl. zuf¨ allige) zuk¨ unftige Entwicklung ist allein aus der Kenntnis der Gegenwart ableitbar. Wenn wir also ξ0 = x0 , ξ1 = x1 , ..., ξn = xn kennen, dann ist P (ξn+1 ∈ (·)|ξ0 = x0 , ξ1 = x1 , ..., ξn = xn ) eine Wahrscheinlichkeitsverteilung, die nur von xn abh¨ angt. Wir betrachten hier nur den Fall, daß die Zufallsgr¨ oßen Werte aus einer endlichen oder abz¨ ahlbaren Menge M annehmen, sowie T = N∪{0} (bzw. Z). Im Sinne des eben formulierten ’Dogmas’ starten wir mit zwei Bestimmungsst¨ ucken: a) einer Wahrscheinlichkeitsverteilung π = (πa )a∈M auf M (Startverteilung), sowie b) einer Familie (Pa )a∈M = (pa,b )a,b∈M von Wahrscheinlichkeitsverteilungen auf M ¨ (Ubergangswahrscheinlichkeiten). Wir konstruieren nun die endlichdimensionalen Verteilungen (T = N ∪ {0}) wie folgt induktiv • P0 = π • P0,1,...,n+1 (m0 , m1 , ..., mn , mn+1 ) = P0,1,...,n (m1 , m2 , ..., mn )pmn ,mn+1 . Die bedingte Wahrscheinlichkeit, daß die Trajektorie zum Zeitpunkt n + 1 in mn+1 landet, wenn die gesamte Vergangenheit gegeben ist, soll also nur von dem Wert mn zum Zeitpunkt n abh¨ angen, und gleich pmn ,mn+1 sein. Es ¨ soll wieder als Ubung u uft werden, daß dadurch eine kompatible Familie ¨berpr¨ endlichdimensionaler Verteilungen erzeugt wird. Es gibt also genau einen stochastischen Prozeß P = P π,(pa,b ) auf [M N∪{0} , σ(V)], der diese endlichdimensionalen Verteilungen besitzt. Er heißt Markovscher
88
¨ Prozeß (Markovsche Kette) mit Startverteilung π und Ubergangsmatrix (pa,b )a,b∈M . ¨ Wir wollen uns nun, insbesondere im endlichen Fall #M < +∞, einen Uberblick u ¨ber das Langzeit-Verhalten solcher Markovschen Prozesse verschaffen, das sich, wie wir sehen werden, recht einfach verstehen l¨ aßt. Dazu klassifiziert man die Elemente (Zust¨ ande) in M im Zusammenhang ¨ mit der Ubergangsmatrix (pa,b ). Zwei verschiedene Elemente a, b aus M heißen aquivalent a ∼ b, falls man mit positiver Wahrscheinlichkeit (eventuell in meh¨ reren Schritten) von a nach b und umgekehrt gelangt (und wir setzen generell a ∼ a): Definition 59 Die Elemente a, b ∈ M werden ¨aquivalent genannt, wenn a = b gilt oder wenn es zwei endliche Folgen (a1 , a2 , ..., ak ), (b1 , b2 , ..., bl ) gibt, so daß pa,a1 pa1 ,a2 ...pak−1 ,ak pak ,b pb,b1 pb1 ,b2 ...pbl−1 ,bl pbl ,a > 0 ist. Anders gesagt: Wenn wir einen gerichteten Graphen mit Knotenmenge M betrachten, bei dem zwei Knoten x, y genau dann durch eine gerichtetet Kante (x, y) verbunden werden, wenn px,y > 0 ist, dann gilt a ∼ b f¨ ur a 6= b genau dann, wenn es einen gerichteten Weg von a nach a gibt, der u ber b f¨ uhrt. ¨ ¨ Durch diese Relation zerf¨ allt M in (disjunkte) Aquivalenzklassen M = M1 ∪ ¨ M2 ∪...∪Mr . Eine Aquivalenzklasse heißt wesentlich (und die darin enthaltenen Elemente wesentliche Zust¨ ande), wenn f¨ ur alle a ∈ M, b ∈ M c die Beziehung ¨ pa,b = 0 erf¨ ullt ist. Die restlichen Aquivalenzklassen mit ihren Zust¨ anden heißen ¨ unwesentlich. Eine Aquivalenzklasse ist also genau dann wesentlich, wenn kein Weg hinaus f¨ uhrt. Aus der Definition folgt sofort folgende Aussage: Lemma 60 Ist M ⊆ M eine wesentliche Klasse und gilt π(M ) = 1, dann gilt n auch P1,2,...,n (M ) = 1 f¨ ur alle n ∈ N. Wenn die Startverteilung π auf M konzentriert ist, bleiben die Trajektorien in endlichen Intervallen fast sicher in M . Daraus ergibt sich wiederum mit N Hilfe der σ-Additivit¨ at, daß auch P (M ) = 1 gilt, d.h. die Trajektorien bleiben generell fast sicher in M . Nicht viel schwieriger zu sehen ist folgende Aussage f¨ ur die unwesentlichen Klassen: Lemma 61 Ist M ⊆ M eine unwesentliche Klasse, dann gibt es eine Konstante γ < 1 und eine nat¨ urliche Zahl N0 derart, daß f¨ ur beliebige Startverteilungen π die Absch¨atzung Pn (M ) ≤ γ n f¨ ur n ≥ N0 erf¨ ullt ist. B e w e i s. 1. Wir fixieren zun¨ achst irgendein a ∈ M und betrachten den Fall πa = 1, d.h. π = δ{a} , wir starten fast sicher in a. Da M unwesentlich ist, c gibt es einen Zustand b in M sowie ein c ∈ M mit pb,c > 0. Außerdem gibt es einen Weg von a nach b, denn a und b sind ¨ aquivalent. (Wenn a = b, dann 89
hat der Weg die L¨ ange 0.) Es gibt also eine Zahl n(a) ∈ N ∪ {0} und Zust¨ ande a1 , a2 , ..., an−1 so daß p(a) := pa,a1 pa1 ,a2 ...pan(a)−1 ,b pb,c > 0 gilt. Nun gilt c
Pn(a)+1 (M ) ≥ Pn(a)+1 ({c}) ≥ p(a) . Es gilt sogar f¨ ur alle n > n(a) + 1 (wobei wir der K¨ urze halber P statt P π,(pa,b ) f¨ ur den Markovschen Prozeß schreiben, der mit π startet) π,(pa,b )
Pn
c
c
c
(M ) = Pn (M ) ≥ Pn(a)+1,n ({c}, M ) = Pn(a)+1 ({c}) ≥ p(a) ,
denn von c gibt es keinen Weg zur¨ uck nach M (sonst w¨ aren a und c a ¨quivalent, also c ∈ M). c die Menge derjenigen Zust¨ 2. Wir bezeichnen mit M ande, von denen aus es einen Weg nach a gibt:
{m ∈ M : ∃x1 , x2 , ..., xl(m) ∈ M mit q (m) := pm,x1 px1 ,x2 ...pxl(m)−1 ,xl(m) pxl(m) ,a > 0}.
c ⊇ M und M c enth¨ (Offenbar gilt M alt nur unwesentliche Zust¨ ande. c liegt nicht c c, ¨ in M.) Nun gilt offenbar f¨ ur den Fall πm = 1, m ∈ M ahnlich wie in 1. cc ) ≥ Pl(m)+n(a)+2 ({c}) ≥ q (m) p(a) Pl(m)+1+n(a)+1 (M
und sogar f¨ ur alle n > l(m) + n(a) + 2 π,(pa,b )
Pn
cc ) = Pn (M cc ) ≥ Pl(m)+n(a)+2,n ({c}, M cc ) = Pl(m)+n(a)+2 ({c}) ≥ q (m) p(a) . (M
c, sowie q0 die 3. Nun sei n0 die gr¨ oßte der endlich vielen Zahlen l(m), m ∈ M (m) c kleinste der Zahlen q , m ∈ M. Dann gilt f¨ ur k0 = n0 +n(a)+2 bei beliebigem c π mit πm = 1, m ∈ M π,(pa,b )
P k0
cc ) ≥ q0 p(a) . cc ) = Pk0 (M (M
cc starten, dann gilt sogar Pk0 (M cc ) = 1, Wenn wir hingegen mit πm = 1, m ∈ M cc gibt es keinen Weg zur¨ c Also gilt sogar f¨ denn aus M uck nach M. ur alle m ∈ M δ
Pk0{m}
,(pa,b )
cc ) ≥ q0 p(a) . (M
Schließlich gilt bei ganz beliebiger Startverteilung π X π,(p ) π,(p ) cc cc ) Pk0 a,b (M ) = P1,k0 a,b ({m}, M
(12)
m∈M
=
X
δ
P1π ({m})Pk0{m}
m∈M
≥
X
,(pa,b )
cc ) (M
P1π ({m})q0 p(a) = q0 p(a) .
m∈M
90
4. Wir setzen λ := 1 − q0 p(a) < 1 und zeigen induktiv, daß π,(pa,b )
Pnk0
c) ≤ λn (M
f¨ ur beliebige n ≥ 1 gilt. F¨ ur n = 1 ist die Beziehung wegen (12) richtig. Angecc zur¨ nommen, sie sei f¨ ur n erf¨ ullt. Dann gilt, da es keinen Weg aus M uck nach c M gibt X π,(p ) δ ,(p ) c π,(pa,b ) c Pnk0 a,b ({m})Pk0{m} a,b (M ) P(n+1)k ( M) = 0 m∈M
X
=
c m∈M
X
≤
δ
,(pa,b )
π,(pa,b )
({m})Pk0{m}
π,(pa,b )
({m})λ ≤ λn λ = λn .
Pnk0
Pnk0
c m∈M
c) (M
Damit ist die behauptete Beziehung f¨ ur alle Vielfachen nk0 von k0 bewiesen. F¨ ur n0 = nk0 + r, n, r ≥ 1 gilt X π,(p ) δ ,(p ) c π,(p ) c Pn0 a,b (M ) = Pnk0 a,b ({m})Pr {m} a,b (M) m∈M
X
=
c m∈M
X
≤
δ
,(pa,b )
π,(pa,b )
({m})Pr {m}
π,(pa,b )
({m}) = Pnk0
Pnk0
Pnk0
π,(pa,b )
c m∈M
also erhalten wir f¨ ur n ≥ k0 π,(pa,b )
Pn
c) ≤ λbn/k0 c . (M
c (M)
c), (M
1
Daraus folgt schließlich f¨ ur n ≥ N0 := 2k0 und γ := λ 2k0 π,(pa,b )
Pn
n−k
0 π,(p ) c ) ≤ λbn/k0 c ≤ λ k0 (M ) ≤ Pn a,b (M 1 n−k0 1 n/2 = λ k0 ≤ λ k0 = γn.
Mit dem Lemma von Borel-Cantelli ergibt sich nun sofort Lemma 62 F¨ ur fast alle Trajektorien (ξi ) bez¨ uglich P π,(pa,b ) wird jede unwesentliche Klasse M nur endlich oft besucht. Wie wir gesehen haben, geht die Wahrscheinlichkeit der entsprechenden cc , aus der nie wieder nach M zur¨ Menge M uckgekehrt wird, exponentiell gegen 1. Daraus erkl¨ art sich auch die Bezeichnung ’unwesentliche Klassen’. Die entsprechenden Zust¨ ande spielen im Langzeitverhalten keine Rolle. 91
Wir betrachten nun wieder den Fall, daß die Startverteilung π ganz auf einer bestimmten wesentlichen Klasse M konzentriert ist, d.h. π(M ). Aufgrund von Lemma 60 k¨ onnen wir in diesem Fall alle anderen Elemente von M einfach weglassen. Wir k¨ onnen also den Fall betrachten, daß alle Elemente von M zueinander ¨ aquivalent sind. Dies ist ein spezieller (der wichtigste) Fall der folgenden ¨ Definition 63 Die Ubergangsmatrix (pa,b )a,b∈M heißt irreduzibel, wenn es genau eine wesentliche Klasse gibt. (Im irreduziblen Fall kann es also auch unwesentliche Zust¨ande geben, wir haben diese aber eben auch noch weggelassen.) Betrachten wir nun zun¨ achst einen weiteren Spezialfall, n¨ amlich daß alle ¨ ¨ Ubergangswahrscheinlichkeiten pa,b > 0 sind. Die Ubergangsmatrix heißt dann positiv. In diesem Fall ist es nicht schwer zu zeigen, daß die Anfangssituation (also die Startverteilung) exponentiell schnell vergessen wird. Der Prozeß pegelt sich schnell auf ein station¨ ares Verhalten ein, im folgenden Sinn: Satz 64 (Exponentielle Konvergenz gegen die station¨are Startverteilung, positi¨ ver Fall) Alle Ubergangswahrscheinlichkeiten pa,b , a, b ∈ M, seien positiv. Dann existieren eine positive Konstante γ < 1, eine nat¨ urliche Zahl N0 und ein Wahrscheinlichkeitsvektor (e πa )a∈M , so daß f¨ ur beliebige Startverteilung π die Beziehung π,(p ) |e πx − Pn a,b ({x})| < γ n (13) f¨ ur n ≥ N0 und alle Zust¨ande x ∈ M erf¨ ullt ist. Es gilt π e,(p ) Pn a,b = π e f¨ ur alle n.
Bemerkung: Dies impliziert, daß -egal welche Startverteilung man w¨ahlt- f¨ ur gen¨ ugend große n das Verhalten des Prozesses praktisch nicht mehr von dem des ¨ (eindeutig bestimmten) station¨ aren Prozesses mit der gegebenen Ubergangsmatrix zu unterscheiden ist. Wenn γ sehr dicht bei 1 liegt (das kann eintreten, wenn einige der pa,b sehr klein sind), ist es mit der ’schnellen Konvergenz’ nat¨ urlich relativ zu sehen. B e w e i s. 1. Wir verwenden zum Beweis eine Technik, die als ’coupling’ bezeichnet wird. Dazu starten wir den Prozeß gleichzeitig in mehreren Versionen mit verschiedenen Anfangsverteilungen und beweisen, daß sich die verschiedenen Trajektorien zu einer einzigen vereinigen. Zur Vereinfachung der Bezeichnungen nehmen wir o.B.d.A. an, daß M = Mk := {1, 2, ..., k}
92
ist. Jeder Zeilenvektor (pa,b )b∈Mk mit fixiertem a kann dann als eine Wahrscheinlichkeitsverteilung auf R+ ⊃ Mk aufgefaßt werden, besitzt also eine Verteilungsfunktion Fa . Wir betrachten weiterhin eine auf [0, 1] gleichverteilte Zufallsgr¨ oße ξ. Dann besitzt die abgeleitete Zufallsgr¨ oße Fa−1 (ξ) nach dem Simulationsprinzip ¨ 8.2) die Verteilung (pa,b )b∈Mk . Der Zufallsvektor (UA v = [v (1) , ..., v (k) ] := [Fa−1 (ξ)]ka=1 ∈ (Mk )k besitzt also eine Verteilung Pv (auf (Mk )k ), deren eindimensionale Randverteilungen die einzelnen (pa,b )b∈Mk sind. Wir betrachten nun eine i.i.d.-Folge (vi )i∈N∪{0} , bei dem die vi gem¨ aß Pv verteilt sind. Eine Trajektorie (vi ) ist also ein Element von (Mkk )N , versehen mit der entsprechenden von den Zylindermengen erzeugten σ-Algebra σ(V). Wir benutzen diesen i.i.d.-Prozeß, um den Markovschen Prozeß zu generieren. Dazu betrachten wir den Produktraum Mk × (Mkk ){0,1,2,...,n} mit dem Wahrscheinlichkeitsmaß π × Pvn+1 und die folgende induktiv definierte Sequenz von Zufallsgr¨ oßen: η0
:
ηi+1
:
ζ := [α0 , v0 , ..., vn ] ∈ Mk × (Mkk ){0,1,...,n} 7−→ [α0 , v0 ] ∈ Mk × Mkk , (αi )
[α0 , v0 , ..., vn ] ∈ Mk × (Mkk ){0,1,...,n} 7−→ [αi+1 , vi+1 ] := [vi
i = 0, 1, 2, ..., n − 1.
, vi+1 ] ∈ Mk × Mkk ,
Die Folge der Zufallsgr¨ oßen (η0 , ..., ηn ) = ([α0 , v0 ], ..., [αn , vn ]) ist also wie folgt aufgebaut: Die zweite Komponente vi wird unver¨ andert aus ζ u ¨bernommen, die erste Komponente αi bestimmt sich ausschließlich aus ηi−1 . Daher bildet (η0 , ..., ηn ) einen (auf n + 1 Zeitpunkte begrenzten) Markovschen Prozeß. Betrachten wir nun die ersten Komponenten (α0 , ..., αn ). Es gilt P (αi+1
= ai+1 |α0 = a0 , ..., αi = ai ) P (α0 = a0 , ..., αi = ai , αi+1 = ai+1 ) = P (α0 = a0 , ..., αn = an )
(falls die Bedingung positive Wahrscheinlichkeit hat), und weiter P w1 ,...,wi P (α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi , αi+1 = ai+1 ) = P (α0 = a0 , ..., αi = ai ) 1 X P (α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi , αi+1 = ai+1 ), = Z w ,...,w 1
i
wobei Z der Nenner ist. Weiter geht es wie folgt =
1 Z
X
w0 ,...,wi
P (αi+1 = ai+1 |α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi ) ·P (α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi ). 93
Nun ist wie gesehen (η0 , ..., ηn ) = ([α0 , v0 ], ..., [αn , vn ]) ein Markowscher Prozeß, also 1 X P (αi+1 = ai+1 |αi = ai , vi = wi ) = Z w ,...,w 0
i
·P (α0 = a0 , v0 = w0 , ..., αi = ai , vi = wi )
= ·
1X Z w
P (αi+1 = ai+1 |αi = ai , vi = wi )
P (α0
= a0 , v0 = w0 , ..., αi = ai , vi = wi )
i
X
w0 ,...,wi−1
=
1 X Z w
P (αi+1 = ai+1 |αi = ai , vi = w)
·P (α1
= a1 , ..., αi = ai , vi = w)
Da die Zufallsgr¨ oße vi von allen α0 , ..., αi unabh¨ angig ist, k¨ onnen wir fortsetzen, wobei sich der Nenner wieder wegk¨ urzt =
1 X Z w
·P (α0 =
X w
=
X w
P (αi+1 = ai+1 |αi = ai , vi = wi ) = a0 , α1 = a1 , ..., αi = ai )P (vi = w)
P (αi+1 = ai+1 |αi = ai , vi = wi )P (vi = w) P (w(ai ) = ai+1 |αi = ai , vi = w)P (vi = w), (αi )
denn nach Konstruktion ergibt sich αi+1 deterministisch aus αi und vi als vi also X = δw(ai ) =ai+1 P (vi = w) w
=
X
,
P (vi = w)
w: w (ai ) =ai+1
= P (v (ai ) = ai+1 ) = Pξ (Fa−1 (ξ) = ai+1 ) i = pai ,ai+1 aufgrund des Simulationsprinzips und der Definition von v. Wir haben somit gezeigt, daß der aus (η1 , η2 , ..., ηn ) abgeleitete Prozeß (α1 , α2 , ..., αn ) ¨ ein Markovschen Prozeß ist, dessen Ubergangsmatrix gerade (pa,b ) ist. Da außerdem α1 nach Konstruktion die Verteilung π besitzt, handelt es sich genau um den Prozeß, von dem wir ausgegangen sind. 94
Bemerkung: Wir haben im 1. Schritt den Prozeß auf anscheinend kompliziertere Weise erneut konstruiert: Die heuristische Idee zur Konstruktion eines Markovschen Prozesses besteht ja darin, daß -angelangt im Zustand a zum Zeitpunkt i- ein ’W¨ urfel’ verwendet wird, der die Verteilung (pa,◦ ) ausw¨ urfelt, und daß damit der n¨achste Zustand b bestimmt wird. Man benutzt also f¨ ur jedes a einen anderen W¨ urfel. Wir haben stattdessen einen universellen W¨ urfel benutzt, der f¨ ur alle a gleichzeitig funktioniert, der η-Prozeß protokolliert das Ergebnis v des Wurfes mit dem universellen W¨ urfel und den jeweils erhaltenen neuen Zustand a. Da der W¨ urfel universell ist, k¨onnen wir ihn im n¨achsten Schritt dazu verwenden, zwei gekoppelte Versionen des Prozesses zu erzeugen. 2. Wir nehmen nun zwei (nicht notwendig verschiedene) Startverteilungen π (1) , π (2) und betrachten die Menge Mk ×Mk ×(Mkk ){0,1,2,...,n} mit dem W-Maß π (1) × π (2) × Pvn+1 . Genau wie im ersten Schritt generieren wir die Zufallsgr¨ oßen ηb0
:
[α0 , β0 , v0 , ..., vn ] 7−→ [α0 , β0 , v0 ], (αi )
ηbi+1 : [α0 , β0 , v0 , ..., vn ] 7−→ [vi i = 0, 1, 2, ..., n − 1.
(βi )
, vi
, vi+1 ],
Auch dies ist wieder ein Markovscher Prozeß, was genau wie im ersten Schritt gesehen werden kann, und (α0 , ..., αn ) sowie (β0 , ..., βn ), f¨ ur sich genommen, sind ¨ jeweils Markovsche Prozesse mit derselben Ubergangsmatrix (pa,b ), aber evtl. verschiedenen Startverteilungen π (1) , π (2) , denn die induktive Definition der α’s und β’s macht vom jeweils anderen Wert keinen Gebrauch. S¨ amtliche Zust¨ ande der Form [a, b, w] mit a 6= b sind unwesentliche Zust¨ ande in dem konstruierten Prozeß: Man kommt in einem Schritt zu dem Zustand [w(a) , w(b) , w0 ] mit w0 := [1, 1, ..., 1], n¨ amlich f¨ ur 0 ≤ ξ < mini Fi−1 (1) = mini pi,1 , und diese Ereignis besitzt positive Wahrscheinlichkeit, da alle pa,b positiv sind. Der n¨ achste Zustand ist dann [1, 1, w 00 ], und alle folgenden Zust¨ ande sind nun von der Form [x, x, u] nach Definition von ηb. 3. Wir benutzen nun Lemma 61. Es folgt die Existenz einer Konstanten δ < 1 und einer nat¨ urlichen Zahl K0 , derart daß P (αn 6= βn ) ≤ δ n , n ≥ K0 . (Das Lemma macht zun¨ achst nur eine Aussage u ¨ber eine einzelne unwesentliche Klasse. Da es aber nur endlich viele unwesentliche Klassen gibt, folgt die exponentielle Konvergenz gegen 0 auch f¨ ur die Gesamtheit der unwesentlichen Zust¨ ande.)
95
Wir erhalten nun f¨ ur beliebiges x ∈ M π ,(p
)
π ,(p
)
|Pn 1 a,b ({x}) − Pn 2 a,b ({x})| = |P (αn = x) − P (βn = x)|
(14)
= |P (αn = x, αn = βn ) + P (αn = x, αn 6= βn ) −P (βn = x, αn = βn ) − P (βn = x, αn 6= βn )|
= |P (αn = x, αn 6= βn ) − P (βn = x, αn 6= βn )| ≤ P (αn = x, αn 6= βn ) + P (βn = x, αn 6= βn ) ≤ 2P (αn 6= βn ) ≤ 2δ n , n ≥ K0 .
Da die Konstanten δ, K0 in dem Lemma unabh¨ angig von der Startverteilung sind, ist die zuletzt bewiesene Beziehung ebenfalls unabh¨ angig von der konkreten Wahl von π1 , π2 g¨ ultig. Nun fixieren wir ein k ∈ N und setzen π1 = π, π2 = π,(p ) Pk a,b . Wir starten also den zweiten gekoppelten Prozeß mit derjenigen Verteilung, in der sich der erste Prozeß erst zur Zeit k > 1 befindet. Aufgrund der Markovschen Eigenschaft sehen wir nun leicht, daß generell folgendes gilt π ,(pa,b )
Pn 1
π,(pa,b )
= Pn
π ,(pa,b )
2 = Pn−k
, n ≥ k.
Jetzt folgt aus (14) f¨ ur beliebiges x ∈ M π,(p
)
π,(pa,b )
|Pn+k a,b ({x}) − Pn π ,(pa,b )
= |Pn 2 n
({x})|
π ,(pa,b )
({x}) − Pn 1
(15)
({x})|
≤ 2δ , n ≥ K0 . π,(p
)
Das bedeutet, daß die Zahlen Pn a,b ({x}) f¨ ur jedes x ∈ M eine CauchyFolge bilden (in sich konvergent), es existiert also jeweils der Limes π ex := π,(p ) limn→∞ Pn a,b ({x}), und es gilt π,(pa,b )
|e πx − P n
Daraus folgt sofort die Existenz X π ex = 1 − x∈M
({x})| ≤ 2δ n , n ≥ K0 .
(16)
eines γ < 1 wie im Satz gefordert. X X π,(pa,b ) Pn ({x}) − π ex x∈M x∈M X π,(p ) ≤ |e πx − Pn a,b ({x})| x∈M
≤ #M · 2δ n , n ≥ K0 .
P ex = 1, π e Da der letzte Ausdruck f¨ ur n → ∞ gegen 0 konvergiert, gilt x∈M π ist eine Wahrscheinlichkeitsverteilung. Wir w¨ ahlen π e als Startverteilung. Dann 96
gilt f¨ ur jedes x ∈ M π e,(p
)
|e πx − P1 a,b ({x})| X π ey py,x | = |e πx − y∈M
π,(p
)
π,(p
)
= |(e πx − Pn a,b ({x})) + Pn a,b ({x}) X π,(p ) π,(p ) − (e πy − Pn a,b ({y})) + Pn a,b ({y})py,x| y∈M
π,(pa,b )
≤ |e πx − Pn
π,(pa,b )
+|Pn
({x})| +
({x}) −
X
X
y∈M
π,(pa,b )
Pn
y∈M
π,(pa,b )
|e πy − P n
({y})|
({y})py,x|.
Die ersten beiden Summanden gehen wegen (16) gegen 0. F¨ ur den dritten Summanden erhalten wir X π,(p ) π,(p ) |Pn a,b ({x}) − Pn a,b ({y})py,x | y∈M
=
π,(p ) |Pn a,b ({x}) π,(pa,b )
≤ |Pn
π,(p
)
− Pn+1 a,b ({x})|
π,(p
)
({x}) − π ex | + |e πx − Pn+1 a,b ({x})|
≤ 2γ n , n ≥ N0 ,
π e ,(p
)
er geht also ebenfalls gegen 0. Wir haben also gezeigt, daß π e = P0 a,b = π e,(pa,b ) π e,(p ) P1 . Daraus folgt mit vollst¨ andiger Induktion sofort π e = Pn a,b , n ∈ N ∪ {0} (mit π e als Startverteilung ist der Markovsche Prozeß station¨ ar), und aus (16) folgt auch sofort (13). ¨ Wir haben gesehen, daß es bei gegebener positiver Ubergangsmatrix (pa,b ) genau eine station¨ are Startverteilung π e gibt. Sie ist dadurch charakterisiert, π e,(p ) daß π e = P1 a,b gilt, daraus folgt dann leicht mit vollst¨ andiger Induktion π e,(p ) π e = Pn a,b f¨ ur alle n. Die Beziehung π e,(pa,b )
π e = P1
l¨ aßt sich in Matrixschreibweise ausdr¨ ucken π e=π e(pa,b ),
wenn π e als Zeilenvektor aufgefaßt wird. Generell gilt, nicht nur im station¨ aren Fall, π,(p ) P1 a,b = π(pa,b ),
97
woraus wieder mit vollst¨ andiger Induktion die Beziehung π,(pa,b )
Pn
= π(pa,b )n
folgt. Der Satz u are ¨ber die exponentielle Konvergenz gegen die (einzige) station¨ Anfangsverteilung gilt nicht nur im positiven Fall, sondern genau dann, wenn ¨ die Ubergangsmatrix nicht nur irreduzibel, sondern auch aperiodisch ist. ¨ Definition 65 Die Markovsche Ubergangsmatrix (pa,b ) heißt irreduzibel und aperiodisch, wenn es eine nat¨ urliche Zahl n0 gibt, derart daß (pa,b )n0 positiv ist.
Satz 66 (Exponentielle Konvergenz gegen die station¨are Startverteilung) Die ¨ Ubergangsmatrix (pa,b ) sei irreduzibel und aperiodisch. Dann existieren eine positive Konstante γ < 1, eine nat¨ urliche Zahl N0 und ein Wahrscheinlichkeitsvektor (e πa )a∈M , so daß f¨ ur beliebige Startverteilung π die Beziehung π,(pa,b )
|e πx − P n
({x})| < γ n
f¨ ur n ≥ N0 und alle Zust¨ande x ∈ M erf¨ ullt ist. Es gilt π e,(p ) Pn a,b = π e
(17)
(18)
f¨ ur alle n.
B e w e i s. Der Satz folgt sehr leicht aus dem vorangegangenen: Wir betrachten zun¨ achst den Prozeß P , der aus P dadurch entsteht, daß man jeweils n0 Schritte auf einmal macht, wobei n0 die in der Definition der Aperiodizit¨ at auftauchende Zahl ist. Es gilt also P 0,1,2,..,n = P0,n0 ,2n0 ,...,nn0 . ¨ Der Prozeß ist Markovsch mit Ubergangsmatrix (pa,b )n0 . Diese ist positiv. Es gibt also ein eindeutig bestimmtes π e und ein γ, so daß π,(p
)
|e πx − Pnn0 a,b ({x})| < γ n
f¨ ur gen¨ ugend große n gilt, unabh¨ angig von der Startverteilung π. Dann erhalten wir f¨ ur beliebiges 0 ≤ r < n0 π,(p
)
a,b |e πx − Pnn0 +r ({x})|
P ,(pa,b )
= |e πx − Pnnr0
98
({x})|,
π,(pa,b )
wobei Pr := Pr wird. Also gilt
die Verteilung nach r Schritten ist, wenn mit π gestartet π,(pa,b )
|e πx − P n ≤ γ
n−n0 n0
n
≤ γ 2n0
j
n
({x})| ≤ γ n0 1 n = γ 2n0
k
1
f¨ ur gen¨ ugend große n, und wir k¨ onnen nun γ := γ 2n0 setzen. Damit ist (17) bewiesen, und (18) folgt genau wie im vorangegangenen Satz. .................... Zur Vorbereitung der Pr¨ ufung Ziel der Vorlesung und der ¨ Ubungen war die Vermittlung grundlegender Begriffe und Zusammenh¨ ange der Stochastik. Daher wird es in der Pr¨ ufung vor allem darum gehen, die Kenntnis dieser Begriffe und die Sicherheit des Umgangs mit ihnen einzusch¨ atzen. Es wird nicht unbedingt erwartet, daß l¨ angere Rechnungen und Beweise ’aus dem Stand’ wiederholt werden k¨ onnen. (Die grundlegende jeweilige Beweisstrategie sollte aber verstanden worden sein.) Ebensowenig wird, da auf diesem Gebiet sehr unterschiedliche Vorkenntnisse vorlagen, allgemeine Maßtheorie Gegenstand der Pr¨ ufung sein. Das gilt insbesondere f¨ ur Studenten aus anderen Fachrichtungen und Lehramtsstudenten. Stattdessen sollten Sie aber belegen k¨ onnen, daß -Ihnen die grundlegenden Definitionen (Wahrscheinlichkeitsverteilungen, Zufallsgr¨ oßen, Verteilungsfunktionen, Dichten, Unabh¨ angigkeit, statistische Sch¨ atzungen und Tests, Konvergenzarten, Markovsche Prozesse,...) vertraut sind (pr¨ ufen Sie Index und Kapitel¨ uberschriften des Skripts sind hier hilfreich, dort tauchen die behandelten Themen in zusammengefaßter Form auf) -Sie die vorgestellten wichtigen S¨ atze kennen (z.B. Starkes und Schwaches GdgZ, Moivre-Laplace, Borel-Cantelli,...) (s. auch wieder den Index, wird noch erg¨ anzt) -Sie grundlegende Typen von Wahrscheinlichkeitsverteilungen mit ihren in der Vorlesung genannten charakteristischen Eigenschaften kennen Pr¨ ufungsfragen k¨ onnten etwa, mit steigendem Schwierigkeitsgrad, folgende sein: -Was ist eine Zufallsgr¨ oße? -Was besagt das Gesetz der großen Zahlen f¨ ur die relativen H¨ aufigkeiten von Ereignissen? Worin besteht der Unterschied zwischen der starken und schwachen Form? 99
-Woraus begr¨ undet sich die besondere Rolle der Normalverteilung in der Stochastik? Welche Bedeutung hat ihre Varianz? -K¨ onnen Sie den Beweis des SchwGdgZ skizzieren? -K¨ onnen Sie die folgende Aussage mit Hilfe des Lemmas von Borel-Cantelli beweisen:... -Wie wird das Steinsche Lemma bewiesen (grundlegende Beweisidee) ... ... Die Auswahl der Themen wird jeweils durch die Herkunfts-Fachrichtung mit beeinflußt.
Bitte schauen Sie sich das Skript noch einmal gr¨ undlich an. Ich w¨ unsche Ihnen viel Erfolg bei der Vorbereitung und nat¨ urlich bei der Pr¨ ufung!
Ihr Dozent Rainer Siegmund-Schultze
13
Anhang: Integration u aumen ¨ ber Maßr¨
In diesem Anhang werden einige in der Vorlesung ben¨ otigte Begriffe und Resultate (i.A. ohne Beweis) im Zusammenhang mit dem Integralbegriff zusammengefaßt. Wir setzen generell voraus, daß ein Maßraum [M, A, µ] gegeben ist, wobei µ der Einfachheit halber als σ-endlich angenommen wird. Die meisten hier aufgef¨ uhrten Resultate verallgemeinern die vom Lebesgueschen (oder auch vom historisch ¨ alteren Riemannschen) Integralbegriff bekannten Aussagen lediglich auf den allgemeineren Fall eines Maßraumes [M, A, µ] anstelle des Rd mit dem Lebesgueschen Maß (bzw. Riemannscher Inhalt, elementargeometrisches Volumen).
13.1
Nichtnegative Funktionen
Wir beginnen mit dem einfachsten Fall einer sog. (nichtnegativen) Treppenfunktion. Eine meßbare Funktion f : [M, A] 7−→ [R, B(R)] heißt Treppenfunktion, wenn sie nur abz¨ ahlbar oder endlich viele Werte annimmt, d.h. f (M ) = {ci }∞ i=1 .
100
Definition 67 Sei f eine Treppenfunktion mit den Werten {ci }∞ i=1 und f ≥ 0. Die Summe (nichtnegativer Summanden) Z
f dµ :=
∞ X
i=1 ci >0
ci µ(f −1 (ci )) ≤ +∞
heißt Integral der Treppenfunktion bez¨ uglich µ. Wenn der Wert endlich ist, heißt f integrierbar. Bemerkung. Wenn M abz¨ahlbar (oder sogar endlich) ist, sind alle FunktioR nen P auf M Treppenfunktionen und der Integralbegriff reduziert sich auf f dµ = m∈M f (m)µ({m}). Wir multiplizieren also lediglich die Maße der Mengen, auf denen f konstant ist, mit dem entsprechenden Funktionswert und summieren alles. Das Integral ist im nichtnegativen Fall immer definiert, aber nur wenn der Wert endlich ist, heißt die Funktion integrierbar. Die Schreibweise variiert, man schreibt auch (in Fortsetzung R R der vom Riemannschen Integral gewohnten Schreibweise) f (m)µ(dm) oder M f (m)µ(dm). Es ist nun u ur beliebige meßbare Funktionen ¨berhaupt nicht schwer, auch f¨ f ≥ 0 das Integral zu definieren. Wir approximieren zuerst f von unten durch eine Treppenfunktion: j k Sei n ∈ N und sei f(n) (m) := 2−n f2(m) . Die Funktion f(n) erf¨ ullt 0 ≤ −n f −2−n ≤ f(n) ≤ f . Außerdem gilt f¨ ur n0 ≥ n auch f(n0 ) ≥ f(n) , denn wir haben den Wertebereich R+ in Intervalle der Form [i2−n , (i + 1)2−n) zerlegt und f (m) durch den unteren Intervallendpunkt des betreffenden Intervalls ersetzt. Da f¨ ur n0 > n die Zerlegung verfeinert wird, ergibt sich f(n0 ) ≥ f(n) . Also gilt f(n) %n→∞ f. f(n) ist meßbar, denn sie nimmt nur die Werte 2−n i, i = 0, 1, 2, ... an (oder −1 −n eine Teilmenge davon) und es gilt f(n) (2 i) = f −1 ([i2−n , (i + 1)2−n )) ∈ A, denn f selbst ist meßbar. Also ist fn eine Treppenfunktion. Wir betrachten die aufsteigende Folge Z Z 0 ≤ f(n) dµ ≤ f(n+1) dµ, n = 1, 2, ... Definition 68 Der (eventuell unendliche) Grenzwert Z Z f dµ := lim f(n) dµ n→∞
heißt Integral bez¨ uglich µ der nichtnegativen meßbaren Funktion f . Wenn gilt R f dµ < +∞, dann heißt f integrierbar.
Bemerkung. Wenn f nicht integrierbar ist, kann dies folgende Gr¨ unde haben. 101
1. Die Mengen f −1 ([c, +∞)) fallen f¨ ur c % +∞ gegen ∅, aber ihr Maß f¨allt nicht schnell genug gegen 0, als daß das Wachstum von f kompensiert werden k¨onnte. 2. Es gibt ein c > 0 mit µ(f −1 ([c, ∞))) = +∞. 3. Die Mengen f −1 ([c, 1]) wachsen f¨ ur c & 0 (gegen f −1 ((0, 1])) und ihr Maß w¨achst zu schnell gegen +∞, als daß das Abklingen von f kompensiert w¨ urde. Wenn µ ein endliches Maß ist (z.B. ein Wahrscheinlichkeitsmaß), kann nur der erste Fall eintreten. Beim Lebesgueschen Maß µL auf [R, B(R)] sind alle Funktionen der Form |x|α , x 6= 0 f (x) = , α ∈ R, nicht-integrierbar, n¨amlich f¨ ur α ≥ 0 wegen 2., 0, x = 0 f¨ ur α ∈ [−1, 0) wegen 3. und f¨ ur α ∈ (−∞, −1] wegen 1. Satz 69 Wenn gilt 0 ≤ g ≤ f , und f ist integrierbar, dann ist auch g integrierbar. B e w e i s. F¨ ur die approximierenden Treppenfunktionen g(n) , f(n) gilt offenbar ebenfalls g(n) ≤ f(n) ,Ralso aufgrund R der Definition des Integrals der Treppenfunktionen als Summe g dµ ≤ f(n) dµ, und da die aufsteigende Folge (n) R f(n) dµ nach Voraussetzung einen endlichen Grenzwert hat, gilt dies auch f¨ ur R die aufsteigende Folge g(n) dµ. Wenn f ≥ 0 meßbar ist und C ∈ A, dann ist auch 1C · f ≤ f meßbar (Produkt meßbarer Funktionen) und man definiert Z Z f (m)µ(dm) := 1C · f dµ C
in Analogie zum Riemannschen Integral u ¨ber einer (elementargeometrischen) Menge. Es gilt (wir hatten µ als σ-endlich vorausgesetzt): R Satz 70 Die Mengenfunktion µf : C ∈ A 7−→ C f (m)µ(dm) ∈ R+ ist ein σ-endliches Maß auf [M, A]. Es ist absolut stetig in Bezug auf µ. ( f heißt Dichtefunktion von µf bez¨ uglich µ.) Der Beweis ist nicht schwierig, wenn man den weiter unten angegebenen Satz u ¨ber monotone Konvergenz benutzt.
13.2
Das Integral reellwertiger Funktionen
Nun ist es einfach, die Einschr¨ ankung f ≥ 0 wegzulassen: Wir betrachten die meßbare Menge Cf,+ := {m ∈ M : f (m) ≥ 0} und c · |f | als Differenz nichtzerlegen f in der Form f = f+ − f− = 1Cf,+ · f − 1Cf,+ negativer Funktionen mit disjunktem Positivit¨ atsbereich. Wir sehen leicht, daß f+ und f− genau dann beide integrierbar sind, wenn |f | = f+ + f− integrierbar ist. 102
Definition 71 Wir setzen Z
f dµ :=
Z
f+ dµ −
Z
f− dµ,
falls mindestens eine der beiden Funktionen f+ , f− integrierbar ist. f heißt integrierbar, wenn |f | integrierbar ist, also genau dann wenn beide Funktionen f+ , f− integrierbar sind. F¨ ur nichtnegatives f stimmt diese Definition der Integrierbarkeit mit der schon gegebenen u ¨berein. Wenn sowohl f+ als auch f− nicht integrierbar ist (Beispiel: die Funktion x1 sin x), dann ist der Wert des Integrals nicht definiert. Bemerkung. Man kann f¨ ur M = R, wie beim Riemannschen Integral, Z n f (x)µ(dx) lim n→∞
−n
betrachten, und wenn dieser Grenzwert existiert (wie im Beispiel x1 sin x) ein ’uneigentliches’ Integral einf¨ uhren. Da dessen Wert aber von der Wahl der R aussch¨opfenden Mengenfolge {[−n, n]}n∈N bestimmt wird , gelten bei einer solchen allgemeineren Definition viele grundlegende Aussagen nicht mehr. Außerdem gibt es bei allgemeinem M f¨ ur die Wahl der Mengenfolge kein kanonisches Pendant. Man beschr¨ankt sich daher auf die gegebene Definition des Integrals und befindet sich damit in Analogie zum Begriff der absoluten Summierbarkeit von Reihen. In Ausdehnung der bekannten Integrationsregeln gelten nun folgende Aussagen: Satz 72 (Linearit¨ at des Integrals) Wenn f, g integrierbare Funktionen sind und a, b reelle Zahlen, dann ist auch af + bg integrierbar und es gilt Z Z Z (af (m) + bg(m))µ(dm) = a f (m)µ(dm) + b g(m)µ(dm). Satz 73 F¨ ur jede integrierbare Funktion f gilt Z Z f dµ ≤ |f | dµ.
b sei ein weic, A] Satz 74 (Integral bzgl. eines transportierten Maßes) [M b Dann c, A]. terer meßbarer Raum, ξ eine meßbare Abbildung von [M, A] in [M c b ist eine meßbare Funktion f : [M , A] 7−→ [R, B(R)] genau dann integrierbar bez¨ uglich µ ◦ ξ −1 , wenn f ◦ ξ bez¨ uglich µ integrierbar ist, und es gilt Z Z f dµ ◦ ξ −1 = f ◦ ξdµ.
103
(Die letzte Aussage folgt sehr einfach aus der Definition des Integrals, zun¨ achst f¨ ur nichtnegative Funktionen, weil (µ ◦ ξ −1 )(f −1 ([i2−n , (i + 1)2−n ))) = µ(ξ −1 ◦ f −1 ([i2−n , (i + 1)2−n ))), und dann auch f¨ ur reelle Funktionen durch Zerlegung in f+ , f− .) Die folgende Aussage wird sehr oft ben¨ otigt. Sie hat die aus der Maßtheorie bekannte Aussage zur Voraussetzung, daß der punktweise Limes meßbarer Funktionen meßbar ist. Satz 75 (von Lebesgue u ¨ber majorisierte Konvergenz) Es sei {fn }n∈N eine Folge meßbarer Funktionen, f eine integrierbare Funktion mit |fn | ≤ |f |, n ∈ N. Falls der Limes limn→∞ fn (m) f¨ ur alle m ∈ M existiert, ist limn→∞ fn (·) eine integrierbare Funktion und es gilt Z Z lim fn (m)µ(dm) = lim fn (m)µ(dm). n→∞
n→∞
H¨ aufig kann man folgenden Satz verwenden, der nicht impliziert, daß der Limes der Funktionenfolge integrierbar ist. Satz 76 (von Lebesgue u ¨ber monotone Konvergenz) Es sei {fn }n∈N eine Folge integrierbarer Funktionen mit der Eigenschaft fn (m) %n→∞ f (m), m ∈ M. Dann gilt Z Z fn dµ %n→∞ f dµ.
R Bemerkung. Das Integral f dµ kann hier den Wert +∞ haben, also u.U. ist f nicht integrierbar, jedoch ist f− ≤ (f1 )− offenbar integrierbar.
13.3
Vektorwertige Funktionen
Wenn f : [M, A] 7−→ [Rd , B(Rd )] eine vektorwertige meßbare Funktion ist, so ¨ heißt sie integrierbar, falls ||f || integrierbar ist, was (Ubungsaufgabe Blatt 6) zur Integrierbarkeit s¨ amtlicher Koordinaten |fi | ¨ aquivalent ist. (||f || und alle |fi | sind meßbar, denn sie entstehen als Verkn¨ upfung von f mit den stetigen, also meßbaren Abbildungen x 7−→ ||x|| bzw. x 7−→ |xi |.) Man definiert dann R R f1 dµ f2 dµ Z . · f dµ := R · fd dµ
13.4
Lp -R¨ aume meßbarer Funktionen
Wir stellen zun¨ achst fest, daß wir den Rd auch als Vektor-Raum von Funktionen auf {1, 2, ..., d} auffassen k¨ onnen: x ∈ Rd : i ∈ {1, 2, ..., d} 7−→ xi . Als Maß µ auf 104
{1, 2, ..., d} w¨ ahlen wir die Gleichverteilung. Der Rd l¨ aßt sich auf verschiedene Weise mit einer Norm versehen: ||x||p := bzw.
X
|xi |p
1/p
,p ≥ 1
||x||∞ := max |xi |.
(Es gilt ||x||p →p→∞ ||x||∞ .) Mit diesen Normen wird der Rd jeweils zu einem Banachraum (vollst¨ andiger normierter Vektorraum). Die u bliche euklidische Norm ||x|| = ||x||2 wird durch das Skalarprodukt ¨P hx, yi = xi yi generiert, und der Rd mit dem Skalarprodukt ist ein (endlichdimensionaler) Hilbertraum. Es gilt die Cauchy-Schwarz sche Ungleichung | hx, yi | ≤ ||x|| · ||y||. Im Fall eines allgemeinen Maßraumes [M, A, µ] l¨ aßt sich analog vorgehen. Zwei meßbare Funktionen f, g sind hinsichtlich des Maßes µ im allgemeinen Fall nur bedingt unterscheidbar. Wir nennen f und g ¨ aquivalent (bzgl. µ), wenn es eine Menge N ∈ A gibt, so daß µ(N ) = 0 gilt und f (m) = g(m) f¨ ur alle m ∈ / N gilt. Wir schreiben dann f ˜g oder k¨ urzer f ˜g. Dann unterscheiden sich f+ und g+ bzw. f− und g− auch µ
nur auf einer Nullmenge und deren Approximationen durch Treppenfunktionen gleichfalls. Man sieht daher, daß die Integrierbarkeit f¨ ur beide stets gleichzeitig vorliegt und die Werte der Integrale u ¨bereinstimmen. Die meßbaren Funktionen bilden einen reellen Vektorraum V. Man pr¨ uft leicht, daß aus f1 ˜g1 und f2 ˜g2 auch af1 + bf2 ˜ag1 + bg2 folgt. Also bilden auch ¨ die Aquivalenzklassen f = {f }˜ := {g : g meßbar und g˜f } auf nat¨ urliche Weise e Aufgrund der Linearit¨ einen Vektorraum V. at des Integrals bilden die integrier¨ baren Funktionen einen linearen Unterraum von V und deren Aquivalenzklassen e eine Unterraum L1 (µ) von V. Wir definieren Z ||f ||1 = ||{f }˜ ||1 := |f |dµ f¨ ur f ∈ L1 (µ). Satz 77 ||·||1 ist eine Norm auf L1 (µ) und diese Norm ist vollst¨andig. (L1 (µ), ||· ||1 ) ist also ein Banachraum. ¨ ¨ Bemerkung. Der Ubergang zu den Aquivalenzklassen ist notwendig, weil sonst alle Funktionen, die ¨aquivalent zur Nullfunktion sind, die Norm 0 h¨atten. Eine Norm ist aber laut Definition nur auf einem Element eines Vektorraums gleich Null, dem Nullvektor. Entsprechend kann man f¨ ur beliebiges p ≥ 1 diejenigen Funktionen f (bzw. R ¨ deren Aquivalenzklassen f ) betrachten, die die Eigenschaft |f |p dµ < +∞ hae und man definiert ben. Sie bilden wiederum einen Unterraum Lp (µ) von V, Z 1/p ||f ||p = ||{f }˜ ||p := |f |p dµ f¨ ur f ∈ Lp (µ). 105
Auch in diesem allgemeineren Fall gilt Satz 78 || · ||p , p ≥ 1 ist eine Norm auf Lp (µ) und diese Norm ist vollst¨andig. (Lp (µ), || · ||p ) ist also ein Banachraum. Schließlich bilden die beschr¨ ankten Funktionen einen Unterraum von V, soe Wenn f ∈ L∞ (µ), ¨ wie deren Aquivalenzklassen eine Unterraum L∞ (µ) von V. ¨ dann gibt es mindestens ein f in der Aquivalenzklasse f , das beschr¨ ankt ist, also |f | ≤ cf < +∞. Alle anderen Funktionen aus {f }˜ sind beschr¨ ankt durch dasselbe cf bis auf eine entsprechende Nullmenge (sie sind µ-wesentlich beschr¨ ankt). Das kleinste derartige cf heißt wesentliches Supremum (f¨ ur jedes ¨ einzelne Element der Aquivalenzklasse). Man definiert demzufolge ||f ||∞ := inf sup |f (m)|, f ∈f m∈M
und erh¨ alt erneut Satz 79 ||·||∞ ist eine Norm auf L∞ (µ) und diese Norm ist vollst¨andig. (L∞ (µ), ||· ||∞ ) ist also ein Banachraum. Eine besondere Rolle unter den Lp -R¨ aumen spielt der L2 (µ). Hier kann man n¨ amlich die Norm aus einem Skalarprodukt erhalten. Wir setzen Z hf, gi := f · gdµ, f, g ∈ L2 (µ). Es gilt n¨ amlich Satz 80 (Cauchy-Schwarzsche Ungleichung) Sind f, g zwei meßbare Funktionen, dann ist Z
|f (m)g(m)|µ(dm) ≤
Z
f 2 (m)µ(dm)
1/2 Z
g 2 (m)µ(dm)
1/2
.
Dann ist hf, gi endlich f¨ ur f, g ∈ L2 (µ), denn f · g ist wegen dieser Ungleichung integrierbar. Nun gilt Satz 81 h·, ·i ist ein Skalarprodukt auf L2 (µ) und die dadurch bestimmte Norm ist vollst¨andig. (L2 (µ), h·, ·i) ist also ein Hilbertraumraum.
106
13.5
Die Jensensche Ungleichung
Viele wichtige Ungleichungen in der Mathematik lassen sich auf ein Konvexit¨ atsargument zur¨ uckf¨ uhren, die Jensensche Ungleichung. Zun¨ achst erinnern wir daran, daß eine Teilmenge K des Rd (oder allgemeiner eines Vektorraumes u ur zwei Punkte x, y ∈ K und ¨ber R) konvex heißt, wenn f¨ beliebiges λ ∈ [0, 1] auch λx + (1 − λ)y ∈ K gilt. Definition 82 Eine Abbildung f von einer konvexen Teilmenge K des Rd (oder f (x)+f (y) allgemeiner eines Vektorraumes) in R heißt konvex, wenn f ( x+y 2 ) ≤ 2 f¨ ur alle x, y ∈ K erf¨ ullt ist, und streng konvex, wenn in dieser Beziehung die Gleichheit genau dann gilt, falls x = y. Bemerkung: Konvexe Funktionen sind im Innern des betreffenden konvexen Definitionsbereiches K stetig, also dort auch meßbar (auf dem Rand kann eine konvexe Funktion sogar nicht-meßbar sein, allerdings nicht im Fall d = 1, denn im eindimensionalen Fall sind die einzigen konvexen Mengen -u.U. unendlicheIntervalle, der Rand besteht also aus h¨ochstens zwei Punkten). Im Falle d = 1 gilt: Satz 83 Wenn f stetig und im Innern von K differenzierbar ist, und f 0 (streng) monoton wachsend, dann ist f (streng) konvex. Falls f sogar zweimal differenzierbar ist, ist die Funktion also (streng) konvex, wenn f 00 (positiv) nichtnegativ ist. Dieses Kriterium gilt auch f¨ ur d > 1 in dem Sinne, daß die positive Semi-Definitheit der zweiten Ableitungsmatrix hinreichend f¨ ur Konvexit¨ at und ihre positive Definitheit hinreichend f¨ ur die strenge Konvexit¨ at ist. Satz 84 (Jensensche Ungleichung) Es sei K abgeschlossen und konvex, f eine meßbare konvexe Funktion mit Definitionsbereich K ⊆ Rd , sowie µ ein Wahrscheinlichkeitsmaß auf [Rd , B(Rd )] mit µ(K) = 1. Dann gilt Z Z f xµ(dx) ≤ f (x)µ(dx), und wenn f sogar streng konvex ist und µ({x}) 6= 1 f¨ ur alle x ∈ K gilt, dann ist die linke Seite echt kleiner als die rechte. P∞ Ein einfacher Spezialfall ergibt sich, falls µ diskret ist. Dann ist µ = i=1 pi δxi f¨ ur eine Folge {x1 , x2 , ...} von Punkten aus K und wir erhalten ! ∞ ∞ X X p i xi ≤ f pi f (xi ), i=1
i=1
wobei f¨ ur streng konvexes f die Gleichheit genau dann gilt, wenn alle xi identisch sind.
107
14
Index
σ-Additivit¨ at 10 σ-Algebra 10 -Produkt 18 Bayessche Formel 22 bedingte Wahrscheinlichkeit 21 Borel-meßbar 11 Borelsche σ-Algebra 11
Chebyschevsche Ungleichung 41 Coupling 92 Dichtefunktion 14 Einpunktverteilung 14 Elementarereignis 4, 7 σ-endlich 13 endliche Additivit¨ at 7 Entropie 23, 52 -relative 74 Erwartungswert 37 Exponentialverteilung 4 Fehler 1. und 2. Art 71 Formel der totalen Wahrscheinlichkeit 22 Gaußsche Glockenkurve 34 Gesetz der großen Zahlen 4, 5, 6 -schwaches 35 -starkes 60, 49 - - mehrdimensional 50 Gleichverteilung 12 -diskrete 13 Große Abweichungen 35 G¨ utefunktion 72 Halbring 15 Halbwertszeit 25 Hypothesentest 71 Information 23 Informationsquelle 51
108
Konfidenzintervall 71 Konvergenz -dem Maße nach 59 -fast sicher 59 -in Wahrscheinlichkeit 59 Kovarianzmatrix 43 Lebesguesches Maß 12 Lempel-Ziv-Algorithmus 55 Markovsche Ungleichung 39 Maß 12 -absolut stetiges 15 -diffuses 13 -diskretes 15 -Produkt 20 - Lebesguesches 12 -singul¨ ares 15 -Transport eines 18 Maßraum 12 Maximum-Likelihood-Sch¨ atzung 73 meßbarer Raum 12 meßbare Menge 14 Meßbarkeit 10 Normalverteilung 34 -mehrdimensionale 46 -Standard 34 Observable 18 Parameter 70 Prozeß -i.i.d. 88 -Markovscher 88 -stochastischer 79 -Stationarit¨ at 87 Punktsch¨ atzung 71 Randverteilung 79 Satz -Existenz- und Eindeutigkeitssatz (Kolmogorov) 87 -Exponentielle Konvergenz gegen die station¨ are Startverteilung 98 -Grenzwertsatz, lokaler f. Binomialgr¨ oßen 30 -Große Abweichungen d. rel. H¨ aufigkeit 29 -(Lemma)Borel-Cantelli 57 -(Lemma) Steinsches 76 109
-Moivre-Laplace 32 Sch¨ atzung -erwartungstreu 72 -Intervall 71 -Maximum-Likelihood 73 -Punkt 71 sicheres Ereignis 11 Signifikanzniveau 72 Standardabweichung 34 Standardnormalverteilung 34 Startverteilung 88 Stationarit¨ at 87 Statistik 70 -parametrische 70 Stichprobe 70 Stichprobenraum 70 Streuung 42 Trajektorie 87 ¨ Ubergangsmatrix 88 -irreduzible 92 -positive 92 Unabh¨ angigkeit 8 -paarweise 19 -vollst¨ andige 19 -zweier Ereignisse 9 -zweier Zufallsgr¨ oßen 19 Unkorreliertheit 40 unm¨ ogliches Ereignis 11 Varianz 34, 41 Verfeinerung des Ereignisraumes 8 Vergr¨ oberung des Ereignisraumes 7 Verteilung -absolut stetige 15 -diffuse 13 -diskrete 15 -endlichdimensionale 79 -Exponential 4, 25 -geometrische 24 -Normal 34 -Poissonsche 36 -Produkt 20 -singul¨ ares 15 -vertr¨ agliche Familie 80 110
Verteilungsfunktion 16 Wahrscheinlichkeitsmaß 12 Wahrscheinlichkeitsraum 12 Z¨ ahlmaß 12 Zerfallsrate 25 Zufallsgr¨ oße 18 zusammengesetztes Ereignis 4 Zustandsraum 87 Zust¨ ande ¨ -Aquivalenz 89 -unwesentliche 89 -wesentliche 89 Zylindermengen 80
111