W
Norbert Kusolitsch
Maß- und Wahrscheinlichkeitstheorie Eine Einführung
SpringerWienNewYork
Ao. Univ.-Prof. Norbert Kusolitsch Institut für Statistik und Wahrscheinlichkeitstheorie, Technische Universität Wien, Österreich
Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdruckes, der Entnahme von Abbildungen, der Funksendung, der Wiedergabe auf photomechanischem oder ähnlichem Wege und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Buch berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürfen. Produkthaftung: Sämtliche Angaben in diesem Fachbuch/wissenschaftlichen Werk erfolgen trotz sorgfältiger Bearbeitung und Kontrolle ohne Gewähr. Eine Haftung des Autors oder des Verlages aus dem Inhalt dieses Werkes ist ausgeschlossen. © 2011 Springer-Verlag/Wien Printed in Germany SpringerWienNewYork ist ein Unternehmen von Springer Science + Business Media springer.at Satz/Layout: Reproduktionsfertige Vorlage des Autors Druck: Strauss GmbH, 69509 Mörlenbach, Deutschland Gedruckt auf säurefreiem, chlorfrei gebleichtem Papier SPIN 80034812 Mit 20 Abbildungen Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
ISBN 978-3-7091-0684-6 SpringerWienNewYork
Tibor Nemetz zum Gedenken
Vorwort
Dieses Buch ist aus Vorlesungen über „Maß- und Wahrscheinlichkeitstheorie“ entstanden, die ich in den letzten Jahren an der TU Wien für drittsemestrige Studenten mit grundlegenden Kenntnissen aus Analysis im Anschluss an eine elementare Einführung in die Wahrscheinlichkeitsrechnung gehalten habe. Es ist daher empfehlenswert, wenn der Leser ein entsprechendes Wissen mitbringt, aber, um auch für das Selbststudium geeignet zu sein, ist das Buch so konzipiert, dass es für sich alleine gelesen werden kann (die dafür notwendigen Begriffe und Resultate sind im Anhang zusammengestellt). Es sei betont, dass es sich um ein Lehrbuch handelt, das sich an einen Leserkreis wendet, der sich einen ersten Überblick über die wesentlichsten Themen und Problemstellungen der Maß- und Integrationstheorie, sowie der auf maßtheoretischen Konzepten aufbauenden Wahrscheinlichkeitstheorie verschaffen möchte. Keinesfalls ist es für Experten gedacht, die nach einer umfassenden Darstellung mit Verweisen auf die Originalliteratur suchen, oder die sich einen Überblick über die neuesten Entwicklungen verschaffen möchten. Diejenigen Leserinnen und Leser, denen dieses Buch als Einstiegsdroge dient - ich hoffe es gibt welche - und die sich eingehender mit einem oder beiden Fachgebieten auseinandersetzen wollen, finden in der Literaturliste eine Reihe empfehlenswerter Werke. Zur Maß- und Integrationstheorie hervorheben möchte ich das gleichnamige Buch von J. Elstrodt, Neben einer umfangreichen Bibliographie an Originalarbeiten enthält es zahlreiche Bemerkungen über die historischen Entwicklungen und etliche Kurzbiographien von Mathematikern, die bedeutende Beiträge zu diesem Themenkreis geleistet haben. Ein ausgezeichnetes Buch, das beide Gebiete sehr ausführlich und umfassend behandelt, ist P. Billingsley’s „Probability and Measure“, und zur Wahrscheinlichkeitstheorie seien neben den klassichen zwei Bänden von W. Feller vor allem die Bücher von L. Breiman und D. Williams erwähnt. Der Zielsetzung des Buches entsprechend habe ich nicht immer die kürzeste und eleganteste Darstellung gewählt, sondern um des besseren Verständnisses willen mitunter auch Umwege in Kauf genommen oder auf Beweisideen zurückgegriffen, die mir intuitiver schienen. So wird etwa Lebesgues
viii
Vorwort
Satz über die Differenzierbarkeit monotoner Funktionen nicht, wie meist üblich, mit Hilfe von Vitali-Überdeckungen bewiesen, sondern ich habe dazu den geometrisch so anschaulichen Satz von Riesz über die aufgehende Sonne verwendet. Für einen einsemestrigen kombinierten Kurs über Maß- und Wahrscheinlichkeitstheorie ist der Umfang wohl zu groß. Da wird man eine Auswahl treffen müssen, etwa durch Verzicht auf die Abschnitte 6.6 - 6.8, 7.4 , 7.7, 7.8, 8.4, 10.3, 10.4, 13.3, 13.4, 14.3, 15.4, 17.3 - 17.5 sowie das gesamte Kapitel 16. Die Auswahl für einen Semesterkurs, der nur Maß- und Integrationstheorie behandelt, ergibt sich von selbst, und in zwei Semestern sollte es möglich sein den gesamten Stoff durchzuarbeiten. Mein besonderer Dank gilt den Studentinnen und Studenten, die bei der Verfassung des Manuskripts und der Erstellung der Grafiken mitgeholfen haben. Danken möchte ich aber auch jenen die mit Anregungen, Ratschlägen und Berichtigungen zur Verbesserung des Textes und der Beseitigung zahlreicher Fehler beigetragen haben. Für die verbleibenden Fehler und Unklarheiten ist selbstverständlich der Autor verantwortlich. Den Leserinnen und Lesern danke ich im Voraus, wenn sie mich darauf aufmerksam machen oder mir sonstige Verbesserungsvorschläge mailen (an
[email protected]). Und zu guter Letzt danke ich dem Team des Springer-Verlages, Wien, insbesondere Frau Schilgerius und Frau Mag. Martiska für die wohlwollende Unterstützung und kompetente technische Hilfe, mit der sie zur Verwirklichung und Fertigstellung des Buches beigetragen haben.
Wien, Oktober 2010
Norbert Kusolitsch
Inhaltsverzeichnis
1
Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 1
2
Mengen und Mengensysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Elementare Mengenlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Algebren und σ-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Semiringe, Ringe und σ-Ringe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Erzeugte Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Monotone Systeme und Dynkin-Systeme . . . . . . . . . . . . . . . . . . . .
5 5 10 13 19 22
3
Mengenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Inhalte und Maße auf Semiringen . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Die Fortsetzung von Inhalten und Maßen auf Ringe . . . . . . . . . . 3.3 Eigenschaften von Inhalten und Maßen . . . . . . . . . . . . . . . . . . . . . 3.4 Additionstheorem und verwandte Sätze . . . . . . . . . . . . . . . . . . . .
27 27 30 32 35
4
Fortsetzung von Maßen auf σ–Algebren . . . . . . . . . . . . . . . . . . . . . . . 4.1 Äußere Maße und Carathéodory-Messbarkeit . . . . . . . . . . . . . . . 4.2 Fortsetzungs- und Eindeutigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . 4.3 Vervollständigung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41 41 43 46
5
Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 5.1 Die durch ein Ereignis bedingte Wahrscheinlichkeit . . . . . . . . . . 51 5.2 Unabhängigkeit von Ereignissystemen . . . . . . . . . . . . . . . . . . . . . . 53
6
Lebesgue-Stieltjes-Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Definition und Regularität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Verteilungsfunktionen auf R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Das Lebesgue-Maß auf R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4 Diskrete und stetige Verteilungsfunktionen . . . . . . . . . . . . . . . . . . 6.5 Wahrscheinlichkeitsverteilungen auf R . . . . . . . . . . . . . . . . . . . . .
57 57 59 61 63 66
x
Inhaltsverzeichnis
6.6 Verteilungsfunktionen auf Rk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 6.7 Wahrscheinlichkeitsverteilungen auf (Rk , Bk ) . . . . . . . . . . . . . . . 76 6.8 Das k-dimensionale Lebesgue-Maß . . . . . . . . . . . . . . . . . . . . . . . . . 81 7
Messbare Funktionen - Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . 87 7.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 7.2 Erweitert reellwertige Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . 90 7.3 Treppenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 7.4 Baire-Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 7.5 Subsigmaalgebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 7.6 Unabhängige Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 7.7 Verallgemeinertes Null-Eins-Gesetz von Kolmogoroff . . . . . . . . . 101 7.8 Cantor-Menge und nichtmessbare Mengen . . . . . . . . . . . . . . . . . . 103 7.9 Konvergenzarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
8
Die Verteilung einer Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 113 8.1 Das induzierte Maß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 8.2 Gemeinsame Verteilung und Randverteilungen . . . . . . . . . . . . . . 114 8.3 Die inverse Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 8.4 Maßtreue Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
9
Das Integral - Der Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 9.1 Definition des Integrals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 9.2 Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 9.3 Das unbestimmte Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 9.4 Zusammenhang zwischen Riemann- und Lebesgues-Integral . . . 145 9.5 Das Integral transformierter Funktionen . . . . . . . . . . . . . . . . . . . . 149
10 Produkträume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 10.1 Die Produktsigmaalgebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 10.2 Der Satz von Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 10.3 Maße auf unendlich-dimensionalen Produkträumen . . . . . . . . . 176 10.4 Null-Eins-Gesetz von Hewitt- Savage . . . . . . . . . . . . . . . . . . . . . . . 182 10.5 Stetige Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 10.6 Die Faltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187 11 Zerlegung und Integraldarstellung signierter Maße . . . . . . . . . . . . 195 11.1 Die Hahn-Jordan-Zerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 11.2 Die Lebesgue-Zerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 11.3 Der Satz von Radon-Nikodym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 12 Integral und Ableitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203 12.1 Funktionen von beschränkter Variation . . . . . . . . . . . . . . . . . . . . . 203 12.2 Absolut stetige Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 12.3 Der Hauptsatz der Differential- und Integralrechnung . . . . . . . . 210
Inhaltsverzeichnis
xi
13 Lp - Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 13.1 Integralungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 13.2 Vollständigkeit der Lp -Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 13.3 Gleichmäßige Integrierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 13.4 Der Dualraum zu Lp (Ω, S, μ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226 14
Bedingte Erwartungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 14.1 Der Satz von der vollständigen Erwartung . . . . . . . . . . . . . . . . . . 231 14.2 Die durch eine σ-Algebra bedingte Erwartung . . . . . . . . . . . . . . . 234 14.3 Reguläre, bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . 242
15 Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 15.1 Die Varianz und andere Momente . . . . . . . . . . . . . . . . . . . . . . . . . 249 15.2 Schwache Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 254 15.3 Starke Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 256 15.4 Ergodensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264 16
Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 16.1 Definition und grundlegende Eigenschaften . . . . . . . . . . . . . . . . . 271 16.2 Transformation von Submartingalen . . . . . . . . . . . . . . . . . . . . . . 277 16.3 Konvergenzsätze für Submartingale . . . . . . . . . . . . . . . . . . . . . . . 282
17
Verteilungskonvergenz und Grenzwertsätze . . . . . . . . . . . . . . . . . . 289 17.1 Schwache Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 17.2 Der klassische zentrale Grenzverteilungssatz . . . . . . . . . . . . . . . 293 17.3 Schwache Kompaktheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 17.4 Charakteristische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 17.5 Der Grenzverteilungssatz von Lindeberg-Feller . . . . . . . . . . . . . . . 309
A
Anhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 A.1 Das Diagonalisierungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 A.2 Das Auswahlaxiom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 A.3 Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 A.4 Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 A.5 Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328 A.6 Konvexe Mengen und Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . 329 A.7 Eindeutigkeit der Exponentialfunktion . . . . . . . . . . . . . . . . . . . . . . 333 A.8 Trigonometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 A.9 Komplexe Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336 A.10 Funktionalanalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339 A.11 Drehung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 Stichwortverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
1 Einführung
1.1 Ein Beispiel Wirft man einen Würfel bis zur ersten Sechs, so kann man die Wahrscheinlichkeit, dass dies gerade beim n-ten Wurf passiert, berechnen, indem man die Menge Ωn := {1, . . . , 6}n aller n-Tupel betrachtet, die man mit den Augenzahlen 1, . . . , 6 bilden kann. Ωn besteht aus |Ωn | = 6n Elementen und bei einem fairen Würfel sollte jedes n-Tupel gleich wahrscheinlich sein. Die erste Sechs erscheint gerade dann beim n-ten Wurf, wenn das n-Tupel der Wurfergebnisse in An := {(x1 , . . . , xn−1 , 6) : xi ∈ {1, . . . , 5} ∀i = 1, . . . , n − 1} liegt. Wegen |An | = 5n−1 folgt dann aus der klassischen Wahrscheinlichkeitsdefinition günstige Fälle 5n−1 P (An ) = = n . mögliche Fälle 6 Um die Wahrscheinlichkeiten der einzelnen Ausgänge zu bestimmen, haben wir für jedes n einen anderen Wahrscheinlichkeitsraum Ωn verwendet. Man kann dies nur umgehen, wenn man als Raum der Versuchsausgänge die Menge Ω := {(x1 , x2 , . . . ) : xi ∈ {1, . . . , 6} ∀ i ∈ N} aller Folgen, die mit den Zahlen 1, . . . , 6 gebildet werden können, betrachtet. Ersetzt man in diesen Folgen jede Sechs durch eine Null, so kann man die ∞ entsprechende Folge (x1 , x2 , . . . ) interpretieren als Zahl x := xi 6−i , ani=1 n
geschrieben im 6-adischen Zahlensystem. Bei Zahlen der Form xn = 0 , die auch periodisch als
n−1 i=1
xi 6−i + (xn − 1) −n + 5
i=1 ∞
xi 6−i mit 6−i ange-
i=n+1
schrieben werden können, wollen wir immer die endliche Form verwenden. Dadurch entspricht jeder Zahl aus [0, 1) eine eindeutige Folge. Wir werden etwas später sehen, dass es praktisch keine Rolle spielt, wenn wir damit den Folgen (x1 , . . . , xn , 5, 5, . . . ), xn < 5 keine Zahl zuordnen kön-
2
1 Einführung
nen. Aber auf Grund der obigen Ausführungen ist klar, dass unser Raum Ω überabzählbar sein muss. Wir haben angenommen, dass jedes konkrete n-Tupel (x1 , . . . , xn ) ∈ Ωn mit der gleichen Wahrscheinlichkeit P ((x1 , . . . , xn )) := 6−n auftreten kann. Die Menge aller Folgen, deren erste n Würfe durch das n-Tupel (x1 , . . . , xn ) festgelegt sind, bezeichnen wir mit A(x1 , . . . , xn ) , d.h. A(x1 , . . . , xn ) := {(x1 , . . . , xn , xn+1 , . . . ) : xn+i ∈ {0, . . . , 5} Der Folge (x1 , . . . , xn , 0, . . . ) entspricht die Zahl x :=
n
∀ i ∈ N} .
xi · 6−i und der Folge
i=1
(x1 , . . . , xn , 5, . . . ) ist die Zahl x + 6−n zugeordnet. Da wir keine periodischen Darstellungen der Form (x1 , . . . , xn , 5, . . . ) zulassen, entsprechen den Folgen aus A(x1 , . . . , xn ) die Zahlen aus dem Intervall [x, x + 6−n ) , und die Länge dieses Intervalls ist gerade die Wahrscheinlichkeit von A(x1 , . . . , xn ) , d.h. P (A(x1 , . . . , xn )) = 61n . Von einem sinnvollen Wahrscheinlichkeitsbegriff wird man verlangen, dass keine Untermenge wahrscheinlicher als eine sie enthaltende Obermenge sein sollte. Man nennt das die Monotonie der Wahrscheinlichkeit. Da für jede Folge (x1 , x2 , . . . ) gilt (x1 , x2 , . . . ) ∈ A(x1 , . . . , xn ) ∀ n ∈ N , muss daraus folgen P ({(x1 , x2 , . . . )}) ≤ 61n ∀ n ∈ N , d.h. jede Folge hat Wahrscheinlichkeit P ((x1 , x2 , . . . )) = 0 . Damit ist klar, dass die Wahrscheinlichkeitsverteilung P nicht durch die Wahrscheinlichkeiten der einzelnen Punkte von Ω festgelegt werden kann. Außerdem kann man überabzählbar viele Terme nicht aufsummieren, d.h. eine Summe der Form P ((x1 , x2 . . .)) ergibt keinen Sinn. (x1 ,x2 ,...)∈ A(x1 ,x2 ,...,xn )
Die Menge der Folgen (x1 , . . . , xn , 5, 5, . . . ), xn < 5, n ∈ N ist abzählbar. Daher kann man die Summe der Wahrscheinlichkeiten der einzelnen Punkte dieser Menge bilden und erhält Wahrscheinlichkeit 0 , was durchaus unserer Intuition entspricht, denn man wird es für ausgeschlossen halten, dass bei einem fairen Würfel ab einem bestimmten Zeitpunkt nur mehr Sechsen geworfen werden. Somit ist es praktisch irrelevant sich mit dieser Menge zu beschäftigen. ∞ Ist nun [a, b) ein beliebiges Teilintervall von [0, 1) mit a = ai 6−i und b=
∞
i=1 −i
bi 6
, und bezeichnet man die auf n Stellen abgerundeten Werte von
i=1
a und b mit a ˆn bzw. ˆbn (d.h. a ˆn =
n i=1
ai 6−i bzw. ˆbn =
n
bi 6−i ), so bilden die
i=1
ˆn +6−n ), [ˆ an +6−n , a ˆn +2·6−n ), . . . , [ˆbn , ˆbn +6−n ) eine disjunkte Intervalle [ˆ an , a Überdeckung von [a, b) , deren Wahrscheinlichkeit der Summe ˆbn + 6−n − a ˆn der Längen der Teilintervalle entspricht. Ohne die beiden Randintervalle [ˆ an , a ˆn + 6−n ) , [ˆbn , ˆbn + 6−n ) reduziert sich die Gesamtlänge der Vereinigung an −6−n und diese Vereinigung liegt nun der verbleibenden Intervalle auf ˆbn −ˆ zur Gänze in [a, b) . Wegen der Monotonie der Wahrscheinlichkeitsverteilung
1.1 Ein Beispiel
3
sollte daher gelten ˆbn − a ˆn − 6−n ≤ P ([a, b)) ≤ ˆbn − a ˆn + 6−n . Daraus folgt −n ˆ ˆn = a, lim bn = b und lim 6 = 0 wegen lim a n→∞
n→∞
n→∞
P ([a, b)) = b − a . Diese Verteilung, die jedem Teilintervall [a, b) ⊆ [0, 1), a ≤ b seine Länge b − a als Wahrscheinlichkeit zuordnet, wird stetige Gleichverteilung auf [0, 1) genannt. Der Name rührt daher, dass jedes Teilintervall mit einer gegebenen Länge dieselbe Wahrscheinlichkeit besitzt, unabhängig von seiner Lage in [0, 1) . Man sagt auch, die stetige Gleichverteilung ist translationsinvariant. Wir zeigen nun, dass es unmöglich ist, durch P jeder Teilmenge von [0, 1) eine Wahrscheinlichkeit zuzuordnen, wenn man fordert, dass man die Wahrscheinlichkeiten abzählbar vieler disjunkter Mengen aufsummieren darf, und, wenn man die Forderung der Translationsinvarianz aufrecht erhalten möchte. Mit den Bezeichnungen x := max{z ∈ Z : z ≤ x}, x mod 1 := x − x ist x ∼ y ⇔ (x − y) mod 1 ∈ Q ∩ [0, 1) eine Äquivalenzrelation. und bestimmt daher eine Klassenzerlegung von [0, 1) . Man nimmt nun aus jeder Klasse genau ein Element und bildet damit eine Menge A (das Auswahlaxiom A.2 besagt, dass dies möglich ist). Somit gilt x = y , x, y ∈ A ⇒ (x − y) mod 1 ∈ / Q. Ist A + x := {y = (a + x) mod 1 : a ∈ A} , dann bilden die {A + q : q ∈ Q} eine disjunkte Zerlegung von [0, 1) , denn für q1 = q2 , qi ∈ Q gilt klarerweise A + q1 ∩ A + q2 = ∅ , und für jedes x ∈ [0, 1) gibt es ein y ∈ A , sodass A+q . x ∼ y ⇒ ∃ q : x−y mod 1 = q ∈ Q ⇒ x ∈ A+q. Also [0, 1) = q∈Q ∩[0,1)
Die Translationsinvarianz bedeutet P (A + q) = P (A) ∀ q ∈ Q . Darf man nun die Wahrscheinlichkeiten der A + q aufsummieren, so gilt 0 , wenn P (A) = 0 P ([0, 1)) = ∞ , wenn P (A) > 0 . Das widerspricht P ([0, 1)) = 1 , womit unsere Behauptung bewiesen ist. Wir müssen also für die stetige Gleichverteilung einen kleineren Definitionsbereich als die Potenzmenge von [0, 1) suchen.
2 Mengen und Mengensysteme
2.1 Elementare Mengenlehre Mit P(Ω) := {A : A ⊆ Ω} bezeichnen wir die Potenzmenge von Ω = ∅ . Die mengentheoretischen Operationen werden als bekannt vorausgesetzt. A∪B A∩B A \ B := A ∩ B c A B := (A \ B) ∪ (B \ A)
die Vereinigung vonA und B der Durchschnitt vonA und B die Differenz vonA und B die symmetrische Differenz vonA und B .
Definition 2.1. Ist f : Ω1 → Ω2 eine beliebige Abbildung und A ⊆ Ω1 , so nennt man die Abbildung f |A : A → Ω2 , definiert durch f |A (ω) := f (ω) ∀ ω ∈ A die Einschränkung oder Restriktion von f auf A . Definition 2.2. Ist f : Ω1 → Ω2 eine beliebige Abbildung, so nennt man f −1 (A) := {ω ∈ Ω1 : f (ω) ∈ A} das Urbild von A ⊆ Ω2 . In der Wahrscheinlichkeitstheorie ist auch die Schreibweise [f ∈ A]für das Urbild gebräuchlich. Für ∅ = C ⊆ P(Ω2 ) bezeichnet f −1 (C) := f −1 (C) : C ∈ C das System der Urbilder von C . Lemma 2.3 (Operationstreue des Urbilds). Ist f : Ω1 → Ω2 eine beliebige Abbildung, so gilt 1. f −1 (∅) = ∅, 2. f −1 (Ω2 ) = Ω1 , c −1 c 3. f −1 (A ) =f (A) , Ai = (f −1 (Ai )), 4. f −1 i i −1 −1 5. f Ai = (f (Ai )) . i
i
Beweis. Die obigen Aussagen folgen unmittelbar aus Definition 2.2.
6
2 Mengen und Mengensysteme
Definition 2.4. Ist (Ωi )i∈I eine Familie von Mengen mit einer beliebigen Indexmenge I , so nennt man
Ωi := {ω : I → Ωi : ω(i) ∈ Ωi ∀ i ∈ I} i
i∈I
I das kartesische Produkt der Ωi . Gilt Ωi = Ω ∀ i ∈ I , schreibt man dafür Ω . Ist J ⊆ I und bezeichnet man die Elemente von ΩJ := Ωj mit ωJ , so j∈J
wird durch prI,J (ω) := ωJ : ωJ (j) = ω(j) ∀ j ∈ J eine surjektive Funktion prI,J : ΩI := Ωi → ΩJ definiert, die man Projektion von ΩI auf ΩJ nennt. i∈I
Statt prI,J schreibt man auch prJ bzw. prj , wenn J = {j} , wenn I gegeben ist. Bemerkung 2.5.
Ωi der Raum der n-Tupel (ω1 , . . . , ωn ) , d. h. es gilt 1. Für |I| = n ist i∈I Ωi = {(ω1 , . . . , ωn ) : ωi ∈ Ωi ∀ i} . i∈I Ωi = {(ω1 , ω2 , . . .) : ωi ∈ Ωi n∀ i} als 2. Bei abzählbarem I kann i∈I
Folgenraum angeschrieben werden. Ωi . 3. Ist A ⊆ ΩJ , J ⊂ I , so gilt klarerweise pr−1 J (A) = A × i∈J c
Lemma 2.6. Sind A, B und C beliebige Teilmengen einer Menge Ω , so gilt: 1. A ∩ B = B ∩ A , 2. A ∩ (B ∩ C) = (A ∩ B) ∩ C , 3. A B = B A , 4. A B = Ac B c , 5. A ∅ = A , 6. A A = ∅ , 7. A B = (A ∪ B) \ (A ∩ B) , 8. (A B)c = (A ∩ B) ∪ (Ac ∩ B c ) , 9. A (B C) = (A B) C , 10. A ∩ (B C) = (A ∩ B) (A ∩ C) , 11. A C ⊆ (A B) ∪ (B C) , 12. (A ∩ B) (C ∩ D) ⊆ (A C) ∪ (B D) . Beweis. ad 1. -6. Diese Punkte sind trivial. ad 7. A B = (A∩ B c ) ∪ (B ∩ Ac ) = (A∪ B) ∩ (B ∪ B c ) ∩ (A ∪ Ac ) ∩ (Ac ∪ B c ) = (A ∪ B) ∩ (Ac ∪ B c ) = (A ∪ B) ∩ (A ∩ B)c = (A ∪ B) \ (A ∩ B) . ad 8. Aus Punkt 7. folgt (A B)c = (A∪B)c ∪(A∩B) = (Ac ∩B c )∪(A∩B) . ad 9. (B C)\A = Ac ∩[(B ∩C c )∪(B c ∩C)] = (Ac ∩B ∩C c )∪(Ac ∩B c ∩C) . Aus Punkt 8. folgt A \ (B C) = A ∩ [(B ∩ C) ∪ (Ac ∩ B c )] = (A ∩ B ∩ C) ∪ (A ∩ B c ∩ C c ) .
2.1 Elementare Mengenlehre
7
Die beiden obigen Gleichungen zusammen ergeben A (B C) = (A ∩ B ∩ C) ∪ (A ∩ B c ∩ C c ) ∪ (Ac ∩ B ∩ C c ) ∪ (Ac ∩ B c ∩ C). Da die rechte Seite dieser Gleichung symmetrisch in A, B und C ist, muss gelten A (B C) = (A B) C . ad 10. Durch Umformen erhält man (A ∩ B) (A ∩ C) = [(A ∩ B) ∩ (A ∩ C)c ] ∪ [(A ∩ B)c ∩ (A ∩ C)] = [(A ∩ B) ∩ (Ac ∪ C c )] ∪ [(Ac ∪ B c ) ∩ (A ∩ C)] = (A ∩ B ∩ C c ) ∪ (A ∩ B c ∩ C) = A ∩ [(B ∩ C c ) ∪ (B c ∩ C)] = A ∩ (B C) . ad 11. Auch dies ergibt sich durch einfache Umformung A C = (A ∩ C c ) ∪ (Ac ∩ C) = (A ∩ B ∩ C c ) ∪ (A ∩ B c ∩ C c ) ∪ (Ac ∩ B ∩ C) ∪ (Ac ∩ B c ∩ C) ⊆ (B ∩ C c ) ∪ (A ∩ B c ) ∪ (Ac ∩ B) ∪ (B c ∩ C) = (A B) ∪ (B C) . ad 12. (A ∩ B) \ (C ∩ D) = (A ∩ B) ∩ (C c ∪ D c ) = (A ∩ B ∩ C c ) ∪ (A ∩ B ∩ D c ) ⊆ (A ∩ C c ) ∪ (B ∩ Dc ) ⊆ (A C) ∪ (B D) . Aus Symmetriegründen gilt auch (C ∩ D) \ (A ∩ B) ⊆ (A C) ∪ (B D) . Lemma 2.7.
⎛
⎝
Ai
i∈I
⎞ Bj ⎠ ⊆
j∈I
(Ai Bi ) .
(2.1)
i∈I
Beweis. ⎞c ⎛ ⎞
⎛ ⎝Ai ∩ Ai ∩ ⎝ Bj ⎠ = Bjc ⎠ ⊆ (Ai ∩ Bic ) ⊆ (Ai Bi ). i
j
i
Analog zeigt man
Bj
j
j
∩
i
c Ai
i
⊆
i
(Ai Bi ) .
i
Lemma 2.8. Sind I1 , . . . , In endliche Indexmengen, so gilt für beliebige Mengen Ai,j i = 1, . . . , n, j ∈ Ii : n
Ai,j =
i=1 j∈Ii
und
n i=1 j∈Ii
(j1 ,...,jn )∈
Ai,j =
n n
Ii
(2.2)
Ai,ji
(2.3)
i=1
(j1 ,...,jn )∈
Ai,ji
i=1
n n i=1
Ii
i=1
8
2 Mengen und Mengensysteme
Beweis. Es genügt (2.2) zu beweisen. (2.3) folgt dann wegen der Regeln von de Morgan. ω∈
n
Ai,j
⇔
∀ i ∈ {1, . . . , n}
∃ ji ∈ Ii :
ω ∈ Ai,ji
i=1 j∈Ii
⇔ ∃ (j1 , . . . , jn ) ∈
n
Ii :
ω∈
i=1
n
Ai,ji
⇔
ω∈
i=1
(j1 ,...,jn )∈
n n
Ii
Ai,ji .
i=1
i=1
Bemerkung 2.9. Die Floskel „im Zeichen“ wird meist durch i.Z. abgekürzt. Definition 2.10. Unter dem limes superior einer Mengenfolge (An ) versteht man Ak , und als limes inferior der Foldie Menge limAn := lim sup An := n∈N k≥n ge bezeichnet man die Menge limAn := lim inf An := Ak . Wenn gilt n∈N k≥n
limAn = limAn , so nennt man A := lim An := limAn = limAn den Grenzwert n
der Folge, und sagt An konvergiert gegen A (i.Z. An → A). Lemma 2.11. Ist (An ) eine Mengenfolge, so gilt: 1. lim sup An = A := {ω : ω liegt in unendlich vielen An } 2. lim inf An = A := {ω : ω liegt in fast allen An } . Beweis. Für ω ∈ A existiert eine Teilfolge (ki ), sodass: ω∈ Aki ∀ i ∈ N. Ak . Somit gilt Daher gibt es für ∀ n ∈ N ein ki ≥ n : ω ∈ Aki ⊆ k≥n ω∈ Ak , d.h. A ⊆ lim sup An . n∈N k≥n
Gilt umgekehrt ω ∈ lim sup An , so konstruiert man eine Teilfolge (kn ), mit ω ∈ Akn ∀ n ∈ N folgendermaßen: k1 := min{k ≥ 1 : ω ∈ Ak } k2 := min{k ≥ k1 + 1 : ω ∈ Ak } .. . kn := min{k ≥ kn−1 + 1 : ω ∈ Ak } .. . Daher gilt auch lim sup An ⊆ A , und damit ist Punkt 1. des Lemmas gezeigt. Aus Punkt 1. folgt mit Hilfe der de Morgan’schen Regeln ⎛ ⎞c Ak ⎠ = Ack (lim inf An )c = ⎝ n∈N k≥n
= {ω :
n∈N k≥n
ω in unendlich vielen Acn } = {ω :
Somit gilt (lim inf An )c = Ac
⇒
ω in fast allen An }c .
lim inf An = A .
2.1 Elementare Mengenlehre
9
Lemma 2.12. Für jede Mengenfolge (An ) gilt lim inf An ⊆ lim sup An . Beweis. Obwohl das Lemma unmittelbar aus dem vorigen Lemma folgt, wollen wir einen Beweis auf Lemma 2.11 stützt. geben, der sich nicht Ak ⊆ Ak ⊆ Ak . Ist hingegen m < n , so führt Für m ≥ n gilt k≥n k≥m k≥m dies zu Ak ⊆ Ak ⊆ Ak . Somit gilt Ak ⊆ Ak ∀ m ∈ N . k≥n k≥n k≥m k≥n k≥m Ak ⊆ Ak , ∀ n ∈ N ⇒ Ak ⊆ Ak . Daraus folgt k≥n
m∈N k≥m
n∈N k≥n
m∈N k≥m
Definition 2.13. 1. Eine Funktion f : A → R mit A ⊆ R ist monoton steigend oder wachsend , wenn x < y ⇒ f (x) ≤ f (y) ∀ x, y ∈ A (i.Z. fn ). Die Funktion f : A → R ist strikt (streng) monoton steigend, wenn x < y ⇒ f (x) < f (y), ∀ x, y ∈ A. 2. Eine Funktion f : A → R mit A ⊆ R ist monoton fallend, wenn gilt x < y ⇒ f (x) ≥ f (y) ∀ x, y ∈ A (i.Z. fn ). Die Funktion f : A → R ist strikt (streng) monoton fallend, wenn x < y ⇒ f (x) > f (y) ∀ x, y ∈ A. 3. Eine reelle Zahlenfolge (xn ) wird monoton steigend genannt, wenn n < m ⇒ xn ≤ xm ∀ n, m ∈ N (i.Z. xn ). Die Folge ist strikt monoton steigend, wenn n < m ⇒ xn < xm ∀ n, m ∈ N. 4. Eine reelle Zahlenfolge (xn ) wird monoton fallend genannt, wenn n < m ⇒ xn ≥ xm ∀ n, m ∈ N (i.Z. xn ). Die Folge ist strikt monoton fallend, wenn n < m ⇒ xn > xm ∀ n, m ∈ N. 5. Eine Mengenfolge (An ) ist monoton steigend, wenn n < m ⇒ An ⊆ Am ∀ n, m ∈ N (i.Z. An ). Die Folge ist strikt monoton steigend, wenn: n < m ⇒ An ⊂ Am ∀ n, m ∈ N. 6. Eine Mengenfolge (An ) ist monoton fallend, wenn n < m ⇒ An ⊇ Am ∀ n, m ∈ N (i.Z. xn ). Die Folge ist strikt monoton fallend, wenn n < m ⇒ An ⊃ Am ∀ n, m ∈ N. Definition 2.14. Die Funktion sgn : R → {−1, 0, 1} definiert durch ⎧ ⎪ ⎨−1, x < 0 sgn(x) := 0, x = 0 ⎪ ⎩ 1, x > 0 wird Signum-Funktion oder Vorzeichenfunktion genannt. Definition 2.15. Der Indikator einer Menge A ⊆ Ω ist die Funktion 1, ω∈A 1A (ω) := 0 , ω ∈ Ac .
10
2 Mengen und Mengensysteme
Definition 2.16. δi,j :=
1, 0,
i=j sonst
wird Kronecker-Symbol genannt. Lemma 2.17. Ist (An ) eine endliche oder abzählbare n−1 Mengenfolge aus Ω und Ai A0 := ∅ , so gilt für die Mengen Bn := An \ ∀n∈N: 1.
n
2. 3.
An =
i=0
Bn ,
n
m = n ⇒ Bn ∩ Bm = ∅ , Bn ⊆ An ∀ n .
Beweis. Die Aussagen 2. und 3. folgen sofort aus der Definition der Bn , und 3. impliziert klarerweise Bn ⊆ An . n n Andererseits kommt jedes ω ∈ An in mindestens einer Menge An vor. n∈N
/ Ai , ∀ i < n0 ⇒ ω ∈ Bn0 . Mit n0 := min{n : ω ∈An } gilt ω ∈ An0 ∧ ω ∈ Daher gilt auch An ⊆ B n . n
n
Bemerkung 2.18. Für (An ) gilt: Bn = An \ An−1 . Lemma 2.19. Monoton steigende Mengenfolgen (An ) konvergieren gegen während monoton fallende Folgen gegen ihren Durchschnitt An gehen.
A k = An ⇒ Beweis. (An ) ⇒ k≥n Weiters gilt Ak = Ak ∀ n ∈ N ⇒ k≥1
k≥n
An ,
n
n
Ak = An . n∈N k≥n n∈N Ak = Ak . n∈N k≥n
k≥1
Die 2-te Aussage folgt aus der ersten, angewendet auf (Acn ) und den de Morgan’schen Regeln.
2.2 Algebren und σ-Algebren Wie schon früher erwähnt, kann man die Gleichverteilung nicht auf P([0, 1)) definieren. Man braucht also einen kleineren Definitionsbereich Aσ , der gewisse Bedingungen erfüllen sollte: 1. Da man Ω die Wahrscheinlichkeit 1 zuordnet, sollte gelten Ω ∈ Aσ . 2. Mit A ∈ Aσ und P (A) = p ∈ [0, 1] , wird man Ac die Wahrscheinlichkeit 1 − p zuordnen. Somit: A ∈ Aσ ⇒ Ac ∈ Aσ . 3. Da man einer abzählbaren Vereinigung disjunkter Mengen die Summe der Wahrscheinlichkeiten der einzelnen Mengen zuordnet, sollte gelten: An ∈ Aσ ∀ n ∈ N ⇒ An ∈ Aσ Ai ∩ Aj = ∅ ∀ i = j n∈N
2.2 Algebren und σ-Algebren
11
4. Sind A, B Mengen, die mit gewissen Wahrscheinlichkeiten auftreten können, so wird man auch A ∩ B eine Wahrscheinlichkeit zuordnen wollen, also A, B ∈ Aσ ⇒ A ∩ B ∈ Aσ . Definition 2.20. Ein Mengensystem C , das mit je zwei Mengen A , B auch deren Durchschnitt A ∩ B enthält, wird als durchschnittsstabil bezeichnet. Definition 2.21. Ist Ω eine Menge, so nennt man ein System Aσ ⊆ P(Ω) eine σ-Algebra (auf Ω), wenn gilt: 1. Ω ∈ Aσ 2. A ∈ Aσ ⇒ Ac ∈ Aσ 3. An ∈ Aσ ∀ n ∈ N, Ai ∩ Aj = ∅
∀ i = j ⇒
An ∈ Aσ
n∈N
4. A, B ∈ Aσ ⇒ A ∩ B ∈ Aσ
Schwächt man Bedingung 3. ab auf endliche Vereinigungen, so spricht man von einer Algebra. Definition 2.22. A ⊆ P(Ω) heißt Algebra, wenn 1. Ω ∈ A 2. A ∈ A ⇒ Ac ∈ A 3. A1 , . . . , An ∈ A, Ai ∩ Aj = ∅ 4. A, B ∈ A ⇒ A ∩ B ∈ A
∀ i = j ⇒
n
Ai ∈ A
i=1
Äquivalent zu obiger Definition sind die Bedingungen des nächsten Lemmas. Lemma 2.23. A = ∅ ist eine Algebra genau dann, wenn 1. A ∈ A ⇒ Ac ∈ A 2. A, B ∈ A ⇒ A ∪ B ∈ A . Beweis. Aus den Eigenschaften 2. und 4. der Algebra folgt: A, B ∈ A ⇒ Ac , B c ∈ A ⇒ Ac ∩ B c ∈ A ⇒ (Ac ∩ B c )c = A ∪ B ∈ A Somit folgen aus der Definition die Aussagen des Lemmas. Gelten umgekehrt die Bedingungen des Lemmas, so enthält A = ∅ eine Menge A und daher auch das Komplement Ac . Daraus folgt A ∪ Ac = Ω ∈ A . Mit A, B ∈ A gilt Ac ∪ B c ∈ A ⇒ (Ac ∪ B c )c = A ∩ B ∈ A . aus A , so folgt durch vollständige Induktion, dass gilt Sind A1 , .. . An Mengen n n−1 Ai = Ai ∪ An ∈ A . i=1
i=1
Lemma 2.24. Ist A eine Algebra, so gilt A, B ∈ A ⇒ A \ B = A ∩ B c ∈ A . Beweis. trivial Damit lässt sich auch leicht das folgende Lemma zeigen.
12
2 Mengen und Mengensysteme
Lemma 2.25. Aσ = ∅ ist eine σ- Algebra genau dann, wenn 1. A ∈ Aσ ⇒ Ac ∈ Aσ 2. (An ) ∈ Aσ ∀ n ∈ N ⇒
n∈ N
An ∈ Aσ .
Beweis. Aus den Bedingungen 1., 2. und Lemma 2.23 folgt, dass Aσ eine Algebra ist, die außerdem die abzählbaren Vereinigungen beinhaltet. daher ist Aσ eine σ-Algebra nach Definition 2.21. Ist umgekehrt Aσ eine σ-Algebra und (An ) eine Folge aus Aσ , so ist die Vereinigung An wegen Lemma 2.17 als disjunkte Vereinigung von Mengen n∈N n−1 Ai , ( A0 := ∅ ) darstellbar und die Bn liegen alle in Aσ . Bn = An \ i=1
Damit folgt die obige Bedingung 2. aus Punkt 3. der Definition der σ-Algebra. Beispiel 2.26. 1. Aσ = {∅, Ω} ist eine σ-Algebra. 2. Aσ =P(Ω) ist eine σ-Algebra. n [ai , bi ), n ∈ N, 0 ≤ ai ≤ bi ≤ 1 ist eine Algebra auf [0, 1) . 3. A = A = i=1
Dass die Beispiele 1. und 2. σ-Algebren sind, ist offensichtlich. Beispiel 3. erfüllt klarerweise Bedingung 2. von Lemma 2.23. Punkt 1. des Lemmas zeigen wir mit vollständiger Induktion. n = 1: [a1 , b1 ) ⊆[0, 1) ⇒ [a1, b1 )c = [0, a1 ) ∪ [b1 , 1) ∈ Aσ . c n m [ai , bi ) = [cj , dj ) folgt unter Verwendung der Ben → n + 1: Aus i=1
j=1
zeichnungen a ∧ b := min{a, b} und a ∨ b := max{a, b} c n c
n+1 [ai , bi ) = [ai , bi ) ∩ [an+1 , bn+1 )c i=1 m
i=1
[cj , dj ) ∩ ( [0, an+1 ) ∪ [bn+1 , 1) ) =
j=1
m
[cj , dj ∧ an+1 ) ∪ [cj ∨ bn+1 , dj ) .
j=1
Satz 2.27. Ist (An ) eine Folge aus einer σ- Algebra Aσ , so gilt Beweis.
n∈N
An =
c Acn
N
An ∈ Aσ .
.
n∈N
[ai , bi ), 0 ≤ ai ≤ bi ≤ 1} ist keine σ-Algebra N c auf [0, 1) , denn es gilt [x + n1 , 1) = (x, 1) ⇒ [x + n1 , 1) = [0, x] . n n Angenommen es gäbe Intervalle [ai , bi ) , sodass [0, x] = [ai , bi ) , dann folgte Beispiel 2.28. S := {A =
i∈N
2.3 Semiringe, Ringe und σ-Ringe
13
daraus [ai , bi ) ⊆ [0, x]
∀ i . Somit müsste gelten b := sup bi ≤ x , und dies i würde zum Widerspruch [0, x] = [ai , bi ) ⊆ [0, b) ⊆ [0, x) führen. i
Man kann also mit Intervallen leicht eine Algebra konstruieren, aber es ist nicht trivial, die σ- Algebra zu finden, die alle Intervalle enthält.
2.3 Semiringe, Ringe und σ-Ringe Jedem Intervall [a, b) ⊆ R kann man seine Länge λ([a, b)) := b − a zuordnen. n [ai , bi ), n ∈ N , ai ≤ bi ∈ R} keine Algebra, denn Nun ist R := {A = i=1
R ∈ / R . Da R und λ in der Analysis eine wichtige Rolle spielen, definieren wir: Definition 2.29. Ein Mengensystem R = ∅,
R ⊆ P(Ω) heißt Ring, wenn
1. A, B ∈ R ⇒ B \ A ∈ R 2. A, B ∈ R ⇒ A ∪ B ∈ R . Bemerkung 2.30. 1. Wegen 1. gilt ∅ = A \ A ∈ R , sodass man R = ∅ durch ∅ ∈ R ersetzen kann. 2. Die Intervalle bilden keinen Ring, da [a, b) ∪ [c, d) für b < c kein Intervall ist. Definition 2.31. Ein Mengensystem Rσ = ∅,
Rσ ⊆ P(Ω) heißt σ-Ring, wenn
Rσ 1. A, B ∈ Rσ ⇒ B \ A ∈ 2. An ∈ Rσ ∀ n ∈ N ⇒ An ∈ R σ . n
Lemma 2.32. Ist (An ) eine Folge aus einem σ-Ring Rσ , so gilt
An ∈ R σ .
n
An ∈ Rσ folgt Bn := A \ An ∈ Rσ ∀ n ∈ N . Daher gilt ⇒ A\ Bn = A ∩ Bnc = [A ∩ (Ac ∪ An )] = An ∈ Rσ .
Beweis. Aus A :=
n
B n ∈ Rσ
n
n
n
n
n
Bemerkung 2.33. Klarerweise ist jeder σ-Ring, der Ω enthält, eine σ-Algebra. Definition 2.34. T = ∅ ⊆ P(Ω) heißt Semiring, wenn gilt 1. A, B ∈ T ⇒ A ∩ B ∈ T 2. A, B ∈ T, A ⊆ B ⇒ ∃ n ∈ N, k A∪ Ci ∈ T, k = 1, . . . , n i=1
C1 , . . . , Cn ∈ T : Ci ∩ Cj = ∅ n ∧ B\A= Ci . i=1
∀ i = j,
14
2 Mengen und Mengensysteme
Bemerkung 2.35. Die Forderung 2. in der obigen Definition bedeutet, dass man, bildlich gesprochen, innerhalb des Semirings eine „Leiter“ von der Unterzur Obermenge bilden kann. Sie wird oft durch die schwächere Bedingung n Ci , C1 , . . . , Cn ∈ T, Ci ∩ Cj = ∅ ∀ i = j ersetzt. Wir sprechen B \A = i=1
dann von einem Semiring im weiteren Sinn (i.w.S.). Wollen wir hingegen betonen, dass es sich um einen Semiring gemäß Definition 2.34 handelt, so werden wir auch die Formulierung „Semiring im engeren Sinn“ (i.e.S.) verwenden. Die obige Definition des Semirings geht auf John von Neumann zurück; wir werden später sehen, dass sie eine Reihe von Vorteilen bringt. Lemma 2.36. Jeder Semiring T i.w.S. enthält ∅ . Beweis. T = ∅ ⇒ ∃A ∈ T . Wegen A ⊆ A muss es disjunkte Mengen n C1 , . . . , Cn aus T geben mit ∅ = A \ A = Ci ⇒ ∅ = C1 ∈ T . i=1
Satz 2.37. Sind Ti ,
i = 1, 2 Semiringe auf Ωi ,
i = 1, 2 , so ist
T1 ⊗ T2 := {A1 × A2 : Ai ∈ Ti } ein Semiring auf Ω1 × Ω2 .
Abb. 2.1. T1 ⊗ T2 ist ein Semiring
2.3 Semiringe, Ringe und σ-Ringe
15
Beweis. Dass die Durchschnitte in T1 ⊗ T2 liegen, ist leicht zu sehen: (A1 × A2 ) ∩ (B1 × B2 ) = (A1 ∩ B1 ) × (A2 ∩ B2 ) ∈ T1 ⊗ T2 . Da aus A1 ×A2 ⊆ B1 ×B2 folgt A1 ⊆ B1 ∧ A2 ⊆ B2 , gibt es disjunkte Mengen n h C1 , . . . , Cn ∈ T1 , sodass B1 \ A1 = Ci ∧ A1 ∪ Ci ∈ T1 , h = 1, . . . , n . i=1
i=1
Damit kann man von A1 × A2 innerhalb des Semirings nach B1 × A2 gehen, denn für h = 1, . . . , n gilt (A1 ∪
h
Ci ) × A2 ∈ T1 ⊗ T2 ∧ (Ci × A2 ) ∩ (Cj × A2 ) = ∅
∀ i = j . (2.4)
i=1
Es gibt aber auch disjunkte Mengen D1 , . . . , Dm aus T2 , sodass B2 \ A2 =
m
Di ∧ A2 ∪
i=1
h
Di ∈ T2 ,
h = 1, . . . , m .
i=1
Damit kommen wir von B1 × A2 nach B1 × B2 , weil für h = 1, . . . , m gilt B1 × (A2 ∪
h
Di ) ∈ T1 ⊗ T2 ∧ (B1 × Di ) ∩ (B1 × Dj ) = ∅
∀ i = j . (2.5)
i=1
Aus (2.4) und (2.5) folgt, dass T1 ⊗ T2 auch Eigenschaft 2. eines Semirings erfüllt, da wegen Dj ∩ A2 = ∅ auch (Ci × A2 ) ∩ (B1 × Dj ) = ∅ ∀ i, j gilt. Folgerung 2.38. Sind Ti Semiringe auf Ωi , i = 1, . . . , n , so ist n n
Ti := Ai : Ai ∈ Ti i=1
ein Semiring auf
n
i=1
Ωi .
i=1
Beweis. Nimmt man an, dass Satz, angewendet auf
n−1 i=1
n−1
Ti ein Semiring ist, so folgt aus dem obigen
i=1
Ti und Tn , dass auch
n
Ti ein Semiring ist und
i=1
damit ist die Folgerung durch vollständige Induktion bewiesen. Satz 2.39. Sind T1 und T2 zwei Semiringe auf Ω , so ist das Mengensystem D := {A ∩ B : A ∈ T1 , B ∈ T2 } ebenfalls ein Semiring. Beweis. ∅ = ∅ ∩ ∅ ∈ D ⇒ D = ∅ . Sind A1 ∩ B1 und A2 ∩ B2 Mengen aus D mit A1 , A2 ∈ T1 und B1 , B2 ∈ T2 , so gilt A1 ∩ B1 ∩ A2 ∩ B2 = (A1 ∩ A2 ) ∩ (B1 ∩ B2 ) ∈ D wegen A1 ∩ A2 ∈ T1
16
2 Mengen und Mengensysteme
und B1 ∩ B2 ∈ T2 . D ist also durchschnittsstabil. Ist nun A1 ∩ B1 enthalten in A2 ∩ B2 , so gilt A1 ∩ B1 = (A1 ∩ A2 ) ∩ (B1 ∩ B2 ) . Da T1 ein Semiring ist, gibt es disjunkte Mengen C1 , . . . , Cn aus T1 , sodass n k A2 \ (A1 ∩ A2 ) = Ci und (A1 ∩ A2 ) ∪ Ci ∈ T1 ∀ k = 1, . . . , n . i=1 i=1 k Ci ∩ B1 ∩ B2 ∈ D ∀ k = 1, . . . , n und Daraus folgt (A1 ∩ A2 ) ∪ i=1 n Ci ∩ B1 ∩ B2 = A2 ∩ B1 ∩ B2 . Diese Mengen bilden al(A1 ∩ A2 ) ∪ i=1
so eine „Leiter“ von A1 ∩ B1 nach A2 ∩ B1 ∩ B2 . Da auch T2 ein Semiring ist, gibt es weiters disjunkte Mengen D1 , . . . , Dm aus T2 , sodass m k B2 \ (B1 ∩ B2 ) = Dj und (B1 ∩ B2 ) ∪ Dj ∈ T2 ∀ k = 1, . . . , m . j=1 j=1 k Daraus folgt A2 ∩ (B1 ∩ B2 ) ∪ Dj ∈ D ∀ k = 1, . . . , m , aber auch j=1 m A2 ∩ (B1 ∩ B2 ) ∪ Dj = A2 ∩ B2 . Damit haben wir auch eine „Leij=1
ter“ von A2 ∩ B1 ∩ B2 nach A2 ∩ B2 , womit der Satz bewiesen ist. Satz 2.40. Sind A, A1 , . . . , An Mengen aus einem Semiring T , so gibt es disn k Ai = Cj . junkte Mengen C1 , . . . , Ck in T , sodass A \ i=1
j=1
Beweis. Der Beweis wird mit vollständiger Induktion geführt. n = 1 : Wegen A ∩ A1 ∈ T und A \ A1 = A \ (A ∩ A1 ) ergibt sich die Aussage des Satzes für n = 1 unmittelbar aus der Definition des Semirings. n → n + 1 : Auf Grund der Induktionsannahme gibt es disjunkte Mengen k n n Ai = Cj . Weiters gilt: C1 , . . . , Ckn in T mit A \ i=1
A\
n+1
Ai = (A \
i=1
j=1 n
Ai ) \ An+1 =
i=1
kn
(Cj \ An+1 ) .
(2.6)
j=1
Aus der Definition des Semirings folgt für jedes j = 1, . . . , kn die Existenz m j Cj,h . Dies disjunkter Mengen Cj,1 , . . . , Cj,mj in T , sodass Cj \An+1 = und (2.6)) liefert A \
n+1 i=1
Ai =
k n m j j=1 h=1
da klarerweise gilt Ci,h1 ∩ Cj,g2 = ∅,
h=1
Cj,h . Damit ist der Satz bewiesen, ∀ h1 , g2 ,
i = j .
Satz 2.41. Sind A1 , . . . , An Mengen aus einem Semiring T , so gibt es disjunkte n k Mengen C1 , . . . , Ck in T mit Ai = Cj und für jedes i = 1, . . . , n existiert i=1 j=1 eine Teilmenge Ii ⊆ {1, . . . , k} , sodass Ai = Cj . j∈Ii
2.3 Semiringe, Ringe und σ-Ringe
17
Beweis. Auch diesen Satz beweisen wir mit vollständiger Induktion. n = 1 : Für n = 1 sind die obigen Aussagen trivialerweise richtig. n → n + 1: Gilt der Satz für n ∈ N , so gibt es gemäß der Induktionsvorausn k setzung disjunkte Mengen C1 , . . . , Ck aus T , sodass Ai = Cj und i=1 j=1 Cj , ∀ i mit geeignetem Ii ⊆ {1, . . . , k} . Für jedes j ∈ {1, . . . , k} Ai = j∈Ii
existieren disjunkte Mengen Cj,1 , . . . , Cj,mj ∈ T mit Cj \An+1 =
m j
Cj,k .
k=1
Damit erhält man
n mj k k Ai \ An+1 = (Cj \ An+1 ) = Cj,h , i=1
j=1
(2.7)
j=1 h=1
wobei klarerweise Cj1 ,k1 ∩ Cj2 ,k2 ⊆ Cj1 ∩ Cj2 = ∅, ∀ j1 = j2 . Weiters gilt:
n k Ai ∩ An+1 = (Cj ∩ An+1 ), Cj ∩ An+1 ∈ T, ∀ j . (2.8) i=1
j=1
Wegen Satz 2.40 gibt es disjunkte Mengen B1 , . . . , Bh in T , sodass:
n h Ai = Bl . (2.9) An+1 \ i=1
l=1
Mit den Mengen Cj,h , Cj ∩ An+1 und Bl aus (2.7) , (2.8) und (2.9) gilt die Aussage des Satzes nun auch für A1 , . . . , An+1 . Beispiel 2.42. 1. a) J := {(a, b] : a ≤ b} ist ein Semiring auf R. (a1 , b1 ] ∩ (a2 , b2 ] = (max(a1 , a2 ), min(b1 , b2 )]. (a1 , b1 ] ⊆ (a2 , b2 ] ⇒ (a2 , b2 ] \ (a1 , b1 ] = (a2 , a1 ] ∪ (b1 , b2 ] mit (a1 , b1 ] ∪ (a2 , a1 ] = (a2 , b1 ] ∈ J. b) J1,Q := {(a, b] : a ≤ b, a, b ∈ Q} ist ein Semiring auf R . k 2. a) Jk := { (ai , bi ] := {(x1 , . . . , xk ) : ai < xi ≤ bi , ∀ i = 1, . . . , k} i=1
ist wegen Satz 2.37 und Punkt 1a . oben ein Semiring auf Rk . k b) Jk,Q := { (ai , bi ] : ai ≤ bi , ai , bi ∈ Q} ist ein Semiring auf Rk . i=1
Definition 2.43. Die achsenparallelen Quader
k
(ai , bi ] , die Elemente des Se-
i=1
mirings Jk , werden auch (linkshalboffene) Zellen des Rk genannt.
18
2 Mengen und Mengensysteme
Bemerkung 2.44. Sind a := (a1 , . . . , ak ) und b := (b1 , . . . , bk ) Punkte aus Rk , so werden wir im Folgenden a < b schreiben, wenn gilt ai < bi ∀ 1 ≤ i ≤ k und a ≤ b wird in analoger Weise verwendet. Weiters definieren wir a ± b := (a1 ± b1 , . . . , am ± bm ) bzw. a · b := (a1 · b1 , . . . , am · bm ) und a ± c := (a1 ± c, . . . , am ± c) , sowie c a := (c a1 , . . . , c am ) für c ∈ R und a ∈ Rk . Außerdem verwenden wir für 2 Vektoren a, b ∈ Rk auch die Kurzschreibweise a ∧ b := (min{a1 , b1 }, . . . , min{ak , bk }) , a ∨ b := (max{a1 , b1 }, . . . , max{ak , bk }) . k (ai , bi ] und Analoges gilt für Gilt a ≤ b , so schreiben wir (a, b] für die Zelle i=1
die Bezeichnungsweisen (a, b) , [a, b] und [a, b). Definition 2.45. Ein Semiring, der Ω enthält, heißt eine Semialgebra. Satz 2.46. Ein Ring, der Ω enthält, ist eine Algebra. Beweis. Dies ergibt sich sofort aus der Ringdefinition 2.29 und Lemma 2.23. Ringe sind bezüglich der Operationen und ∩ abgeschlossen. Satz 2.47. R = ∅ ist genau dann ein Ring, wenn mit A, B ∈ R auch A B und A ∩ B in R liegen. Beweis. ⇒ : A, B ∈ R ⇒ A \ B ∈ R ∧ B \ A ∈ R . Daraus folgt weiters A B = (A \ B) ∪ (B \ A) ∈ R . Dies wiederum impliziert A ∩ B = (A ∪ B) \ (A B) ∈ R. ⇐ : Sind A, B aus R , so liegt der Durchschnitt A ∩ B in R , und damit gilt B \ A = B (A ∩ B) ∈ R . Sind A, B ∈ R disjunkt, so gilt A ∪ B = A B (vgl. Lemma 2.6 Punkt 7.), also A ∪ B ∈ R . Wegen B ∩ (A \ B) = ∅ erhält man daraus aber für beliebige Mengen A, B ∈ R , dass A ∪ B = B ∪ (A \ B) ∈ R . Bemerkung 2.48. Der Name Ring kommt daher, dass R bezüglich der Operationen und ∩ abgeschlossen ist und deshalb (R, , ∩) einen Ring im algebraischen Sinn bildet (siehe Lemma 2.6) . Man kann einen Ring auch folgendermaßen charakterisieren. Satz 2.49. R = ∅ ist genau dann ein Ring, wenn 1. A, B ∈ R ∧ A ∩ B = ∅ ⇒ A ∪ B ∈ R 2. A, B ∈ R ∧ A ⊆ B ⇒ B \ A ∈ R 3. A, B ∈ R ⇒ A ∩ B ∈ R . Beweis. ⇒ : Aus der Definition des Ringes folgen klarerweise die Punkte 1. und 2., und in Satz 2.47 haben wir gezeigt, dass auch Punkt 3. aus der Definition folgt. ⇐ : Aus 2. und 3. folgt B \ A = B \ (A ∩ B) ∈ R . Darüber hinaus gilt A ∪ B = (A \ B) ∪ (B \ A) ∪ (A ∩ B) , wobei alle drei Mengen auf der rechten Seite disjunkt sind. Daher liegt auch A ∪ B in R .
2.4 Erzeugte Systeme
19
2.4 Erzeugte Systeme Wir haben in Abschnitt 1.1 den Intervallen Wahrscheinlichkeiten zugeordnet und wir haben gesehen, dass diese Wahrscheinlichkeiten nicht auf ganz P([0, 1)) definiert werden können. Die Intervalle bilden aber nur einen Semiring, während der natürliche Definitionsbereich einer Wahrscheinlichkeitsverteilung eine σ-Algebra ist. Es fragt sich nun, wie die „kleinste“ σ-Algebra aussieht, die die Intervalle enthält. Leider kann man diese σ- Algebra nicht konstruktiv beschreiben. Aber es gilt der folgende Satz. Satz 2.50. Sind Ri , i ∈ I beliebige Ringe aus P(Ω) , so ist auch Ri ein Ring. I
Für σ-Ringe, Algebren und σ-Algebren gelten analoge Aussagen. Beweis. Der Beweis ist trivial. Bemerkung 2.51. Der Durchschnitt von Semiringen ist im Allgemeinen kein Semiring, wie das folgende Beispiel zeigt. Beispiel 2.52. Auf Ω := {0, 1, 2} istT1 := ∅, {0}, {1, 2}, Ω ein Semiring. T2 := ∅, {0}, {1}, {2}, {0, 1}, Ω} ist ebenfalls ein Semiring i.e.S., denn Ω \ {0} = {1} ∪ {2} mit {0}∪{1} = {0, 1} ∈ T2 und {0}∪{1}∪{2} = Ω ∈ T2 , Ω \ {1} = {0} ∪ {2} mit {1}∪{0} = {0, 1} ∈ T2 und {1}∪{0}∪{2} = Ω ∈ T2 , Ω \ {2} = {0, 1} ∈ T2 , Ω \ {0, 1} = {2} ∈ T2 , {0, 1}\ {0} = {1} ∈ T2 und {0, 1} \ {1} = {0} ∈ T2 . Aber T1 ∩ T2 = ∅, Ω, {0} ist kein Semiring. Die Potenzmenge P(Ω) ist ein Ring. Daher gibt es zu jedem beliebigen Mengensystem C = ∅, C ⊆ P(Ω) mindestens einen Ring, der C enthält, d.h. R ist ein Ring. R(C) := {R ⊇ C, R ist ein Ring} = ∅ und R(C) := R∈R(C)
Definition 2.53. Ist C = ∅ , so nennt man R(C) := R(C) := {R ⊇ C,
R∈R(C)
R mit
R ist ein Ring} den von C erzeugten Ring.
Da die Potenzmenge auch ein σ-Ring, eine Algebra und σ-Algebra ist, gilt Rσ (C) := {Rσ ⊇ C, Rσ ist ein σ-Ring} = ∅ A(C) := {A ⊇ C, A ist eine Algebra} = ∅ Aσ (C) := {Aσ ⊇ C, Aσ ist eine σ-Algebra} = ∅ , Rσ ein σ-Ring, A(C) := A und dementsprechend ist Rσ (C) := A∈A(C) Rσ ∈Rσ (C) eine Algebra und Aσ (C) := Aσ eine σ-Algebra. Man definiert daher Aσ ∈Aσ (C)
mit den obigen Bezeichnungen: Definition 2.54. Ist C = ∅ , so nennt man Rσ den von C erzeugten σ-Ring, Rσ (C) := Rσ ∈Rσ (C)
20
2 Mengen und Mengensysteme
A(C) :=
A∈A(C)
Aσ (C) :=
A die von C erzeugte Algebra,
Aσ ∈Aσ (C)
Aσ die von C erzeugte σ-Algebra.
Lemma 2.55. Ist C = ∅ , so gilt 1. C ⊆ R 2. C ⊆ A 3. C ⊆ Rσ 4. C ⊆ Aσ
∧ ∧ ∧ ∧
R ist ein Ring A ist eine Algebra Rσ ist ein σ-Ring Aσ ist eine σ-Algebra
⇒ ⇒ ⇒ ⇒
R(C) ⊆ R, A(C) ⊆ A, Rσ (C) ⊆ Rσ , Aσ (C) ⊆ Aσ .
Beweis. Der Beweis folgt sofort aus den Definitionen 2.53 und 2.54. Definition 2.56. Ist Ω = Rk , so nennt man Bk := Aσ (Jk ) , die durch die Zellen aus Jk erzeugte σ-Algebra, die σ-Algebra der k-dimensionalen Borelmengen. Für k = 1 schreibt man einfach B statt B1 . (−n , n] gilt natürlich auch Bk := Rσ (Jk ) . Bemerkung 2.57. Wegen Rk = n∈Nk
Lemma 2.58. Das System {(a, b) : a, b ∈ Rk , a ≤ b} der offenen Zellen erzeugt Bk genauso, wie das System der abgeschlossenen Zellen oder das System der rechtshalboffenen Zellen oder auch Jk,Q . Beweis. Wegen (a, b) = (a, b − n1 ] enthält Bk alle offenen Zellen und daher n
auch die von den offenen Zellen gebildete σ-Algebra. Umgekehrt gilt (a, b] = (a, b+ n1 ) und daher enthält die von den offenen n
Zellen gebildete σ-Algebra das System Jk und deshalb auch Bk = Aσ (Jk ). Für die abgeschlossenen, die rechtshalboffenen Zellen oder Jk,Q verläuft der Beweis in analoger Weise. Aber die σ-Algebra der Borelmengen wird auch durch das System der offenen Mengen aus Rk und das System der abgeschlossenen Mengen aus Rk erzeugt. Lemma 2.59. Das System der offenen Mengen erzeugt Bk genauso, wie das System der abgeschlossenen Mengen. Beweis. Jede offene Menge U muss wegen Satz A.29 in der von den offenen Zellen erzeugten σ-Algebra, also Bk liegen und daher muss auch die von den offenen Mengen erzeugte σ-Algebra in Bk liegen. Umgekehrt enthält die von den offenen Mengen erzeugte σ-Algebra die offenen Zellen und damit auch Bk . Dass auch die abgeschlossenen Mengen Bk erzeugen, ergibt sich nun einfach aus der Tatsache, dass jede abgeschlossene Menge das Komplement einer offenen Menge ist. Den durch einen Semiring erzeugten Ring kann man explizit beschreiben.
2.4 Erzeugte Systeme
Satz 2.60. Ist T ein Semiring, so gilt n R(T) = R1 := Ai : Ai ∈ T, = R2 :=
i=1 n
21
n∈N
Ai :
Ai ∈ T,
n ∈ N,
Ai ∩ Aj = ∅
∀ i = j
.
i=1
Beweis. Sind B1 =
n i=1
Ai,1 , B2 =
m
Aj,2 Mengen aus R2 , so gibt es wegen
j=1
Satz 2.41 disjunkte Mengen C1 , . . . , Ck ∈ T , sodass B1 ∪ B2 =
k
Ci . Daraus
i=1
folgt B1 ∪ B2 ∈ R2 . Aus Satz 2.41 folgt aber auch, dass B1 und B2 darstellbar Ci , B2 = Ci , für geeignete Indexmengen sind in der Form B1 = i∈I1 i∈I2 I1 , I2 ⊆ {1, . . . , k}. Deshalb gilt B1 \ B2 = Ci ∈ R2 . Somit ist R2 ein i∈I1 \I2
Ring. Da R2 offensichtlich T enthält, folgt daraus R(T) ⊆ R2 . Zusammen mit R2 ⊆ R1 ergibt das R(T) ⊆ R2 ⊆ R1 . Aber R1 ist in jedem Ring R mit T ⊆ R enthalten. Somit gilt R(T) ⊆ R2 ⊆ R1 ⊆ R(T) ⇒ R(T) = R2 = R1 . Auch die von einem Ring erzeugte Algebra ist leicht zu bestimmen. Satz 2.61. Ist R ein Ring, so gilt A(R) = S := {A ⊆ Ω : A ∈ R ∨ Ac ∈ R} . Beweis. Da Algebren die Komplemente ihrer Mengen enthalten, muss S ein Teilsystem jeder Algebra A mit R ⊆ A sein. Daher gilt S ⊆ A(R) . Umgekehrt gilt R ⊆ S , und A ∈ S ⇔ Ac ∈ S . Zudem gilt für A, B ∈ S einer der folgenden Fälle • • • •
A, B ∈ R ⇒ A ∪ B ∈ R ⊆ S , A, B c ∈ R ⇒ B c \ A = B c ∩ Ac ∈ R ⇒ A ∪ B = (Ac ∩ B c )c ∈ S , Ac , B ∈ R Dieser Fall ist symmetrisch zu A, B c ∈ R , Ac , B c ∈ R ⇒ Ac ∩ B c ∈ R ⇒ A ∪ B = (Ac ∩ B c )c ∈ S .
S enhält deshalb mit je zwei Mengen deren Vereinigung. Somit ist S eine Algebra, die überdies R enthält. Daraus folgt A(R) ⊆ S . Also gilt A(R) = S . Die Vereinigung von zwei Algebren ist i.A. nicht einmal durchschnittsstabil, aber es gilt folgendes Lemma. Lemma 2.62. Sind A1 und A2 zwei Algebren auf Ω , so wird A(A1 ∪ A2 ) ergilt zeugt durch dieSemialgebra D := {A1 ∩ A2 : A1 ∈ A1 , A2 ∈ A2 } , also n A(A1 ∪ A2 ) = Di : n ∈ N , Di ∈ D , 1 ≤ i ≤ n , Di ∩ Dj = ∅ ∀ i = j . i=1
Beweis. D ist nach n Satz 2.39 ein Semiring und wegen Ω ∈ D sogar eine Semi Di : n ∈ N , Di ∈ D , 1 ≤ i ≤ n , Di ∩ Dj = ∅ ∀ i = j algebra. A := i=1
22
2 Mengen und Mengensysteme
ist laut Satz 2.60 die von D erzeugte Algebra. Aus C = C ∩ Ω ∈ D ∀ C ∈ A1 und D = Ω ∩ D ∈ D ∀ D ∈ A2 folgt A1 ∪ A2 ⊆ D ⇒ A(A1 ∪ A2 ) ⊆ A . Umgekehrt enthält A(A1 ∪A2 ) alle Mengen aus A . Somit gilt A(A1 ∪A2 ) = A . Satz 2.63. Ist f : Ω1 → Ω2 eine Abbildung und C = ∅ ein beliebiges Mengensystem auf Ω2 , so gilt R(f −1 (C)) = f −1 (R(C)) , A(f −1 (C)) = f −1 (A(C)) , Rσ (f −1 (C)) = f −1 (Rσ (C)) , Aσ (f −1 (C)) = f −1 (Aσ (C)) . Beweis. f −1 (R(C)) ist ein Ring, denn für je 2 Mengen A , B ∈ R(C) gilt f −1 (A) \ f −1 (B) = f −1 (A \ B) und f −1 (A) ∪ f −1 (B) = f −1 (A ∪ B) . Zusammen mit f −1 (C) ⊆ f −1 (R(C)) ergibt dasR(f −1 (C)) ⊆ f −1 (R(C)) . Wegen f −1 (C) ⊆ R(f −1 (C)) enthält S := A ⊆ Ω2 : f −1 (A) ∈ R(f −1 (C)) andererseits C , und S ist ein Ring, denn A , B ∈ S ist gleichbedeutend zu f −1 (A), f −1 (B) ∈ R(f −1 (C)) . Da R(f −1 (C)) ein Ring ist, folgt daraus f −1 (A \ B) = f −1 (A) \ f −1 (B) ∈ R(f −1 (C)) , also A \ B ∈ S , aber auch f −1 (A ∪ B) = f −1 (A) ∪ f −1 (B) ∈ R(f −1 (C)) , d.h. A ∪ B ∈ S . Somit gilt R(C) ⊆ S . Dies entspricht f −1 (R(C)) ⊆ R(f −1 (C)) . Damit ist f −1 (R(C)) = R(f −1 (C)) bewiesen. Die anderen Aussagen des Satzes zeigt man auf ganz ähnliche Art, sodass es sich erübrigt diese Beweise im Detail auszuführen. Definition 2.64. Ist C ⊆ P(Ω) ein beliebiges Mengensystem, so bezeichnet man C ∩ A := {B = C ∩ A : C ∈ C} als die Spur (oder Restriktion) von C auf A . Satz 2.65. Ist C = ∅ , so gilt Rσ (C ∩ A) = Rσ (C) ∩ A . Beweis. Mit Ω1 := A, Ω2 := Ω, f (ω) := ω, ∀ ω ∈ A erhält man f −1 (C) = C∩A und f −1 (Rσ (C)) = Rσ (C) ∩ A . Unter Berücksichtigung von Satz 2.63 ergibt das Rσ (C) ∩ A = Rσ (C ∩ A) .
2.5 Monotone Systeme und Dynkin-Systeme Die folgenden Mengensysteme haben vor allem beweistechnische Bedeutung. Definition 2.66. Ein Mengensystem M = ∅ wird monoton genannt, wenn für jede monotone Mengenfolge (An ) aus M die Grenzmenge lim An in M liegt. n
Definition 2.67. D ⊆ P(Ω) heißt Dynkin-System, wenn 1. Ω ∈ D 2. D ∈ D ⇒ Dc ∈ D 3. (Dn ) aus D ∧ Dn ∩ Dm = ∅
∀ n = m
⇒
Analog zu Satz 2.50 gilt die folgende Aussage.
N
Dn ∈ D .
2.5 Monotone Systeme und Dynkin-Systeme
23
Satz 2.68. Die Potenzmenge P(Ω) ist ein monotones Dynkin-System. Mi monoton. Sind die Mi , i ∈ I monoton, so ist i∈I Di ein Dynkin-System. Sind die Di , i ∈ I Dynkin-Systeme, so ist i∈I
Beweis. Der Beweis ist trivial. Wegen des obigen Satzes sind die folgenden Definitionen sinnvoll. Definition 2.69. Ist C = ∅ , so nennt man 1. M(C) := M mit M(C) := {M ⊇ C,
M ist ein monotones System}
M∈M(C)
das von C erzeugte monotone System, 2. D(C) := D mit D(C) := {D ⊇ C, D∈D(C)
D ist ein Dynkin-System} das
von C erzeugte Dynkin-System. Lemma 2.70. Ist M monoton und ∅ = C ⊆ M , so gilt M(C) ⊆ M . Ist D ein Dynkin-System und ∅ = C ⊆ D , so gilt D(C) ⊆ D . Beweis. Das Lemma ergibt sich unmittelbar aus der obigen Definition. Lemma 2.71. Jeder monotone Ring R ist ein σ-Ring. Beweis. Ist (An ) eine Mengenfolge in R , so bilden die Bn := monotone Folge aus R mit Bn
∞ n=1
An ⇒
∞
n
Ai eine
i=1
An ∈ R .
n=1
Bemerkung 2.72. Aus Definition 2.31 und Lemma 2.32 folgt umgekehrt sofort, dass jeder σ-Ring monoton ist. Satz 2.73. Ist R ein Ring, so gilt M(R) = Rσ (R). Beweis. Da R ⊆ Rσ (R) und Rσ (R) monoton ist, gilt M(R) ⊆ Rσ (R) . Definiert man umgekehrt zu jeder beliebigen Menge A das Mengensystem MA := {B ∈ M(R) : B \ A ∈ M(R) ∧ A \ B ∈ M(R) ∧ A ∪ B ∈ M(R)} , so gilt offenbar B ∈ MA ⇔ A ∈ MB , ∀ A, B . Zudem ist MA monoton, denn mit (Bn ) sind auch die Folgen (A \ Bn ), (Bn \ A) und (Bn ∪ A) monoton. Für A ∈ R und beliebiges B ∈ R gilt aber B \ A ∈ M(R), A \ B ∈ M(R) sowie A ∪ B ∈ M(R) . Daraus folgt R ⊆ MA ∀A ∈ R . Da MA monoton ist, impliziert dies aber auch M(R) ⊆ MA ∀ A ∈ R . Dies bedeutet, dass gilt B ∈ MA ∀ A ∈ R, B ∈ M(R) . Damit gilt auch R ⊆ MB ∀ B ∈ M(R) . Da MB monoton ist, folgt daraus wiederum M(R) ⊆ MB ∀ B ∈ M(R) . Also gilt B \ C ∈ M(R), C \ B ∈ M(R), B ∪ C ∈ M(R) ∀ B, C ∈ M(R) . Somit ist M(R) ein Ring und nach Lemma 2.71 auch ein σ-Ring, der natürlich R enthält. Daraus folgt M(R) ⊇ Rσ (R) . Somit gilt schließlich M(R) = Rσ (R) .
24
2 Mengen und Mengensysteme
Bemerkung 2.74. Das im obigen Beweis verwendete Verfahren wird oft als „Prinzip der guten Menge “ bezeichnet, da man dabei eine Menge MA definiert, die gerade die gewünschten Eigenschaften besitzt. Ein anderer Name für diese Beweistechnik ist „ Steigbügelmethode“, da MA quasi als Steigbügel dient. Satz 2.75. D ist genau dann ein Dynkin-System, wenn 1. Ω ∈ D 2. D1 , D2 ∈ D ∧ D1 ⊆ D2 ⇒ D2 \ D1 ∈ D 3. D ist monoton. Beweis. ⇒:
Aus den Bedingungen 1. und 2. der Definition 2.67 folgt ∅ ∈ D . Sind D1 ⊆ D2 zwei Mengen aus D , so bilden die durch A1 := D2c , A2 := D1 , An := ∅ ∀ n ≥ 3 definierten Mengen wegen D1 ∩ D2c = ∅ eine disjunkte Folge in D , sodass aus Bedingung 3. der Definition folgt An ∈ D , und wieder nach Bedingung 2. führt dies zu D2c ∪ D1 = n∈N
D2 \ D1 = D2 ∩ D1c = (D2c ∪ D1 )c ∈ D . Damit ist Punkt 2. gezeigt. Ist (Dn ) aus D monoton steigend, so gilt wegen der eben gezeigten Aussa ge mit D0 := ∅ auch Dn := Dn \ Dn−1 ∈ D ∀ n ∈ N .Da die D n disjunkt sind, folgt deshalb nach Bedingung 3 . der Definition Dn = Dn ∈ D . Ist (Dn ) aus D monoton fallend, so gilt Dnc Dnc . Daraus folgt n∈N c c c Dn ∈ D . Damit gilt aber Dn = Dn ∈ D nach Bedinn∈N
n∈N
n∈N
gung 2. der Definition. Somit ist auch der obige Punkt 3. bewiesen. ⇐: Aus den obigen Punkten 1. und 2. folgen klarerweise die ersten beiden Bedingungen der Definition eines Dynkin-Systems. Sind D1 , D2 ∈ D, D1 ∩D2 = ∅, so gilt D1 ⊆ D2c . Aus Punkt 2. des Satzes folgt deshalb D1c ∩ D2c = D2c \ D1 ∈ D ⇒ D1 ∪ D2 = Ω \ (D2c \ D1 ) ∈ D . Ist nun D1 , . . . , Dn eine Klasse disjunkter Mengen aus D , so liefert volln Di ∈ D ∀ n ∈ N . Zusammen mit Punkt 3. ergibt ständige Induktion das
∞
i=1
Dn ∈ D . Damit ist auch diese Richtung bewiesen.
n=1
Satz 2.76. Ein Dynkin-System D ist genau dann eine σ-Algebra, wenn D durchschnittsstabil ist. Beweis. Die eine Richtung ist klar, denn jede σ-Algebra ist ein Dynkin-System und durchschnittsstabil. Umgekehrt ist jedes durchschnittsstabile DynkinSystem D wegen Definition 2.21 auch eine σ-Algebra. Satz 2.77. Ist C = ∅ durchschnittsstabil, so gilt D(C) = Aσ (C) .
2.5 Monotone Systeme und Dynkin-Systeme
25
Beweis. Da jede σ-Algebra ein Dynkin System ist, gilt D(C) ⊆ Aσ (C) . Definiert man umgekehrt zu jedem D ∈ D(C) ein Mengensystem DD durch DD := {E ⊆ Ω : E ∩ D ∈ D(C)} , so ist DD offensichtlich monoton und es gilt Ω ∈ DD . Aus D1 , D2 ∈ DD und D1 ⊆ D2 folgt weiters D2 ∩ D ∈ D(C), D1 ∩ D ∈ D(C) und D1 ∩ D ⊆ D2 ∩ D . Daher gilt auch (D2 \ D1 ) ∩ D = (D2 ∩ D) \ (D1 ∩ D) ∈ D(C) , d.h. D1 , D2 ∈ DD und D1 ⊆ D2 impliziert D2 \ D1 ∈ DD . Somit ist DD ein Dynkin-System. Daraus folgt aber D(C) ⊆ DC , ∀ C ∈ C , denn für C ∈ C gilt C ⊆ DC . Für C ∈ C und D ∈ D(C) gilt also D ∩ C ∈ D(C) . Dies bedeutet C ∈ DD ∀ C ∈ C , oder anders ausgedrückt C ⊆ DD ∀ D ∈ D(C) . Da DD ein Dynkin-System ist, liefert dies D(C) ⊆ DD ∀ D ∈ D(C) . Somit ist D(C) durchschnittsstabil und daher nach Satz 2.76 eine σ-Algebra. Damit gilt aber auch Aσ (C) ⊆ D(C) .
3 Mengenfunktionen
3.1 Inhalte und Maße auf Semiringen Die wesentliche Eigenschaft von Wahrscheinlichkeitsverteilungen ist die σ-Additivität. Wir wollen uns daher in diesem Abschnitt mit additiven und σ-additiven Mengenfunktionen beschäftigen. Definition 3.1. Eine Mengenfunktion μ auf einem Mengensystem C = ∅ mit Werten aus (−∞, ∞] oder [−∞, ∞) heißt additiv, wenn für beliebige disjunkte n Mengen A1 , . . . , An aus C mit Ai ∈ C gilt i=1
μ
n
Ai
=
i=1
n !
μ(Ai ) .
(3.1)
i=1
μ heißt σ-additiv oder abzählbar additiv, wenn für jede Folge (An ) disjunkter Mengen aus C mit An ∈ C gilt n∈N
μ
n∈N
An
=
!
μ(An ) .
(3.2)
n∈N
Bemerkung 3.2. Der Wert der Reihe in (3.2) ist unabhängig von der Anordnung der An . Nach Satz A.14 kann die Reihe deshalb nicht bedingt konvergieren. Definition 3.3. Als Inhalt bezeichnet man eine nichtnegative, additive Mengenfunktion μ auf einem Semiring T mit μ(∅) = 0 . Auf Semiringen i.e.S. kann man Bedingung (3.1) etwas abschwächen. Satz 3.4. Ist T ein Semiring i.e.S. und μ eine nichtnegative Mengenfunktion auf T mit μ(∅) = 0 , so ist μ ein Inhalt genau dann, wenn für je zwei disjunkte Mengen A1 , A2 aus T gilt A1 ∪ A2 ∈ T ⇒ μ(A1 ∪ A2 ) = μ(A1 ) + μ(A2 ) .
(3.3)
28
3 Mengenfunktionen
Beweis. Da (3.3) aus (3.1) folgt, muss man nur die andere Richtung zeigen, die wir zunächst unter der einschränkenden Voraussetzung beweisen, dass die disjunkten Mengen A1 , . . . , An aus T so indiziert werden können, dass k gilt Ai ∈ T ∀ 1 ≤ k ≤ n . Wir zeigen das mit vollständiger Induktion. i=1
Für n = 2 ist nichts zu beweisen, und unter der Induktionsannahme, dass (3.1) für n Mengen, die die obige Bedingung erfüllen, gilt, erhält man
n
n
n+1 Ai = μ Ai ∪ An+1 = μ Ai + μ(An+1 ) μ i=1
i=1
=
n !
i=1
μ(Ai ) + μ(An+1 ) =
i=1
n+1 !
μ(Ai ) .
i=1
Damit ist die Gültigkeit von (3.1) unter der obigen Voraussetzung gezeigt. Auch den allgemeinen Fall zeigen wir mit vollständiger Induktion und nehmen an, dass (3.1) für n Mengen gilt. n+1 Ai ∈ T , Sind nun A1 , . . . , An+1 disjunkte Mengen aus T mit A := i=1
dann gibt es wegen An+1 ⊆ A disjunkte Mengen C1 , . . . , Ck ∈ T mit A \ An+1 =
n i=1
Ai =
k
Cj ,
An+1 ∪
j=1
l
Cj ∈ T ∀ 1 ≤ l ≤ k .
(3.4)
j=1
An+1 , C1 , . . . , Ck erfüllen demnach die obige Annahme und daher gilt μ(A) = μ(An+1 ) +
k !
μ(Cj )
(3.5)
j=1
Da Semiringe durchschnittsstabil sind und gilt Ai ∩ An+1 = ∅ ∀ 1 ≤ i ≤ n, folgt aus (3.4) auch ⎛ ⎛ ⎞ ⎞ l l l (Ai ∩ Cj ) = Ai ∩ ⎝ Cj ⎠ = Ai ∩ ⎝An+1 ∪ Cj ⎠ ∈ T ∀ 1 ≤ l ≤ k . j=1
j=1
j=1
Somit trifft die obige, einschränkende Voraussetzung für jedes i auf die Menk μ(Ai ∩Cj ) ∀ i = 1, . . . , n . gen Ai ∩Cj , 1 ≤ j ≤ k zu, und es gilt μ(Ai ) = j=1
Daraus folgt n !
μ(Ai ) =
i=1
Umgekehrt gilt wegen (3.4)
k n ! !
μ(Ai ∩ Cj ) .
(3.6)
i=1 j=1
Cj =
n
(Ai ∩ Cj )
∀ j = 1, . . . , k . Damit kann
i=1
die Induktionsvoraussetzung auf die Cj angewendet werden, und man erhält
3.1 Inhalte und Maße auf Semiringen
μ(Cj ) =
n
μ(Ai ∩ Cj )
29
∀ j = 1, . . . , k . Daraus folgt sofort
i=1 k !
μ(Cj ) =
j=1
n k ! !
μ(Ai ∩ Cj ) .
(3.7)
j=1 i=1
Setzt man (3.7) in (3.5) ein, so ergibt das unter Berücksichtigung von (3.6) μ(A) = μ(An+1 ) +
n k ! !
(Ai ∩ Cj ) = μ(An+1 ) +
j=1 i=1
n !
μ(Ai ) ,
i=1
womit auch der allgemeine Fall bewiesen ist. Definition 3.5. Ist T ein Semiring, so wird μ : T → R ein Maß oder eine Maßfunktion genannt, wenn gilt 1. μ(∅) = 0 , 2. μ(A) ≥ 0 ∀ A ∈ T , 3. μ ist σ-additiv . Bemerkung 3.6. Ein Maß ist auch stets additiv, denn es gilt wenn man Ai := ∅
n
Ai =
i=1
∀ i > n setzt.
∞
Ai ,
i=1
Definition 3.7. Ein Maß P auf einer Semialgebra mit P (Ω) = 1 wird als Wahrscheinlichkeitsverteilung (Wahrscheinlichkeitsmaß) bezeichnet. Bemerkung 3.8. Man sagt eine Mengenfunktion P auf einer Semialgebra T erfüllt das Kolmogoroff’sche Axiomensystem, wenn gilt 1. P (Ω) = 1 , 2. P (A) ≥ 0 ∀ A ∈ T , 3. P ist σ-additiv. Aus dem Kolmogoroff’schen Axiomensystem folgt
! 1 = P (Ω) = P Ω ∪ ∅ = P (Ω) + P (∅) ⇒ P (∅) = 0 , n∈N
n∈N
und P ist daher ein Wahrscheinlichkeitsmaß. Definition 3.9. Ein Maß μ auf einem Semiring T heißt endlich, wenn für alle A ∈ T gilt μ(A) < ∞ . Wenn es eine Folge (An ) aus T gibt mit Ω = An ∧ μ(An ) < ∞ ∀ n ∈ N , so N
nennt man μ σ-endlich. Wenn die Maße der obigen Folge (An ) eine konvergente Reihe bilden, wenn also μ(An ) < ∞ , so nennt man μ total-endlich. n∈N
30
3 Mengenfunktionen
Beispiel 3.10. Ω = N, T = P(N), genannt und ist σ-endlich auf T .
ζ(A) := |A|
∀ A ∈ T wird Zählmaß
Definition 3.11. Ist μ ein Maß auf einem Semiring T , so nennt man den Semiring μ- vollständig (vollständig bezüglich μ), wenn zu jeder Menge A ∈ T mit μ(A) = 0 auch alle Teilmengen B ⊆ A in T liegen. Lemma 3.12. Ist μ auf dem Semiring T additiv, dann gilt für A , B , B \ A ∈ T A ⊆ B ∧ |μ(A)| < ∞ ⇒ μ(B \ A) = μ(B) − μ(A) (Subtraktivität) . (3.8) Beweis. Aus B = A ∪ (B \ A) folgt μ(B) = μ(A) + μ(B \ A) , und wegen μ(A) ∈ R kann man μ(A) von beiden Seiten subtrahieren und erhält so (3.8). Lemma 3.13. Ist μ ein Inhalt auf einem Semiring T , so gilt für A, B ∈ T A ⊆ B ⇒ μ(A) ≤ μ(B)
(Monotonie) .
(3.9)
Beweis. Da es disjunkte Mengen C1 , . . . , Ck in T gibt, die auch zu A disjunkt k k sind, sodass B = A ∪ Cj , gilt μ(A) ≤ μ(A) + μ(Cj ) = μ(B) . j=1
j=1
Folgerung 3.14. Ist μ ein endlicher Inhalt auf einem Semiring T , so gilt für alle A, B ∈ T mit B \ A ∈ T μ(B) − μ(A) ≤ μ(B \ A) .
(3.10)
Liegen auch A \ B und A B in T , so gilt |μ(A) − μ(B)| ≤ μ(A B) .
(3.11)
Beweis. Aus A, B ∈ T folgt A∩B ∈ T und daher gilt nach dem obigen Lemma μ(B \ A) = μ(B \ (A ∩ B)) = μ(B) − μ(A ∩ B) ≥ μ(B) − μ(A) . Gilt außerdem A B ∈ T und A \ B ∈ T , so erhält man μ(A B) ≥ μ(A \ B) ≥ μ(A) − μ(B) ∧ μ(A B) ≥ μ(B \ A) ≥ μ(B) − μ(A) . Daraus folgt sofort μ(A B) ≥ |μ(A) − μ(B)| .
3.2 Die Fortsetzung von Inhalten und Maßen auf Ringe Wir werden sehen, dass es ausreicht, eine Maßfunktion auf einem Semiring festzulegen, da das auf dem Semiring T definierte Maß unter sehr allgemeinen Voraussetzungen in eindeutiger Weise auf Rσ (T) fortgesetzt werden kann. Als ersten Schritt wollen wir die Fortsetzung auf R(T) betrachten und zeigen das folgende Lemma.
3.2 Die Fortsetzung von Inhalten und Maßen auf Ringe
31
Lemma 3.15. Ist μ ein Inhalt auf einem Semiring T und sind B1 , . . . , Bn und n m Bi = Cj , so gilt C1 , . . . , Cm zwei Familien disjunkter Mengen aus T mit i=1 n !
μ(Bi ) =
i=1
m !
j=1
(3.12)
μ(Cj ) .
j=1
Beweis. Da T durchschnittsstabil ist, liegen die Bi ∩ Cj in T ∀ i, j und es gilt m n (Bi ∩ Cj ) ∀ i = 1, . . . , n ∧ Cj = (Bi ∩ Cj ) ∀ j = 1, . . . , m . Bi = j=1
i=1
Daraus folgt wegen der Additivität von μ n !
μ(Bi ) =
i=1
m n ! !
μ(Bi ∩ Cj ) =
i=1 j=1
n m ! !
μ(Bi ∩ Cj ) =
j=1 i=1
m !
μ(Cj ).
j=1
Satz 3.16. Ist μ ein Inhalt auf einem Semiring T , so gibt es einen eindeutig bestimmten Inhalt μ auf R(T) , sodass μ(A) = μ(A) ∀ A ∈ T . Ist μ ein Maß, so ist auch μ ein Maß. Ist μ endlich, so ist μ endlich, und, wenn μ σ–endlich ist, dann ist auch μ σ-endlich. Beweis. Ist A ∈ R(T) , so gibt es wegen Satz 2.60 disjunkte Mengen B1 , . . . , Bn n aus T mit A = Bi . Durch i=1
μ(A) :=
n !
(3.13)
μ(Bi )
i=1
wird A ein Wert zugewiesen, der wegen des obigen Lemmas unabhängig von der Zerlegung B1 , . . . , Bn ist. (3.13) definiert demnach eine Mengenfunktion μ auf R(T) , die klarerweise nichtnegativ und additiv ist. Natürlich gilt auch μ(B) = μ(B) ∀ B ∈ T , weshalb μ eine Fortsetzung von μ ist. Es bleibt nur noch die σ–Additivität von μ zu zeigen, wenn μ ein Maß ist. Liegt für eine Folge (An ) disjunkter Mengen aus R(T) auch die VereiniAn in R(T) , so gibt es disjunkte Mengen B1 , . . . , Bm in T , gung A := sodass A =
n∈N m
Bi und daher auch μ(A) :=
i=1
m
μ(Bi ) gilt. Auch für jedes An
i=1
gibt es disjunkte Mengen Cn,1 , . . . , Cn,kn in T , sodass An =
kn
Cn,j =
j=1
Daher gilt μ(An ) =
kn m
(Bi ∩ Cn,j )
mit Bi ∩ Cn,j ∈ T ∀ i, j .
i=1 j=1 kn m i=1 j=1
μ(Bi ∩ Cn,j )
∀ n ∈ N , woraus folgt
(3.14)
32
3 Mengenfunktionen
!
μ(An ) =
(Bi ∩ An ) =
n∈N
μ(Bi ∩ Cn,j ) .
(3.15)
n∈N i=1 j=1
n∈N
Da Bi =
kn m ! !!
kn
(Bi ∩ Cn,j )
∀ i = 1, . . . , m , und, weil μ auf
n∈N j=1 kn
T σ-additiv ist, gilt andererseits μ(Bi ) = Dies ergibt zusammen mit (3.13) μ(A) =
μ(Bi ∩Cn,j )
n∈N j=1 m
μ(Bi ) =
i=1
∀ i = 1, . . . , m .
kn m
μ(Bi ∩Cn,j ) .
i=1 n∈N j=1
Da die Summanden in dieser Gleichung alle nichtnegativ sind, kann man die Summationsreihenfolge auf Grund von Satz A.16 vertauschen. Damit stimmt ihre rechte Seite mit der rechten Seite von (3.15) überein. Also gilt ! μ(A) = μ(An ) . n∈N
Definition 3.17. Ist μ ein Inhalt auf einem Semiring T , so nennt man die gemäß Satz 3.16 auf R(T) definierte Funktion μ die Fortsetzung von μ und schreibt üblicherweise einfach μ statt μ .
3.3 Eigenschaften von Inhalten und Maßen Satz 3.18. Ist μ ein Inhalt auf einem Semiring T und sind A, A1 , . . . , AN N Mengen aus T mit A ⊆ An , so gilt n=1
μ(A) ≤
N !
μ(An )
(Subadditivität) .
(3.16)
n=1
Ist μ ein Maß auf T , so gilt (3.16) auch für abzählbar viele Mengen An aus T . Man spricht in diesem Fall von der σ-Subadditivität von μ . Beweis. Da man μ gemäß Satz 3.16 eindeutig auf R(T) fortsetzen kann, genügt es die obige Aussage für Ringe zu beweisen. N An , dann Sind A, A1 , . . . , AN Mengen aus einem Ring R mit A ⊆ n−1 n=1 liegen auch die Mengen B1 := A ∩ A1 , Bn := A ∩ An \ Ai , n≥2 i=1
in R . Von Lemma 2.17 wissen wir, dass die Bn ⊆ An disjunkt sind, und, dass N N N A= Bn . Daraus folgt μ(A) = μ(Bn ) ≤ μ(An ) . n=1
n=1
n=1
Ist μ ein Maß und (An ) eine abzählbare Überdeckungen von A , so geht der Beweis völlig analog zu oben, wenn man nur N durch ∞ ersetzt.
3.3 Eigenschaften von Inhalten und Maßen
33
Lemma 3.19. Ist μ ein Inhalt auf einem Semiring T und (An ) eine Folge disAn ⊆ A ∈ T , dann gilt junkter Mengen aus T mit n∈N
!
μ(An ) ≤ μ(A) .
(3.17)
n∈N
Beweis. Wir zeigen, dass (3.17) auf R(T) gilt, wenn man μ auf R(T) fortsetzt. Da An ∈ R(T) ∧ An ⊆ A ∀ N ∈ N , folgt aus Lemma 3.13 n≤N
n≤N
(Monotonie) und der Additivität von μ ⎛ ⎞ N ! μ(An ) = μ ⎝ An ⎠ ≤ μ(A) n=1
∀N ∈N ⇒
∞ !
μ(An ) ≤ μ(A) .
n=1
n≤N
σ-additive Mengenfunktionen haben gewisse Stetigkeitseigenschaften Satz 3.20. Ist μ ein Maß auf einem Semiring T und (An ) eine monoton steigende An ∈ T, so gilt Folge von Mengen aus T mit n∈N
μ
An
" # = μ lim An = lim μ(An ) n
n∈N
n
(stetig von unten) .
(3.18)
Beweis. Wie gewohnt setzen wir μ zunächst auf den Ring R(T)fort. Mit A0 := ∅ und Bn := An \ An−1 , n ∈ N gilt A = An = Bn , und die Bn sind disjunkt. Weiters gilt An =
n
n
Bk
n
∀ n ∈ N , und daraus folgt
k=1
μ
Ak
=μ
k∈N
Bk
=
k∈N
∞ !
μ(Bk ) = lim n
k=1
n !
μ(Bk ) = lim μ(An ) . n
k=1
Satz 3.21. Ist μ ein Maß auf einem Semiring T und existiert zu einer monoton fallenden Folge (An ) aus T mit An ∈ T ein n0 , sodass μ(An0 ) < ∞ , so gilt n
μ
An
" # = μ lim An = lim μ(An ) .
n∈N
Wir sagen μ ist in A =
n
(3.19)
n
An stetig von oben.
n∈N
Beweis. μ(An0 ) < ∞ ⇒ μ(An ) < ∞
∀ n ≥ n0 ∧ μ
N
An
< ∞.
Wegen An gilt An0 \ An für n ≥ n0 , sodass aus Satz 3.20 und der Subtraktivität des Maßes (Lemma 3.12) folgt
34
3 Mengenfunktionen
μ(An0 ) − μ
An
" # " # = μ An0 \ (lim An ) = μ lim(An0 \ An ) n
N
n
= lim μ(An0 \ An ) = lim [μ(An0 ) − μ(An )] = μ(An0 ) − lim μ(An ) . n
n
n
Subtrahiert man μ(An0 ) < ∞ auf beiden Seiten, so erhält man (3.19). Das folgende Beispiel zeigt, dass auf die Endlichkeitsvoraussetzung im obigen Satz nicht verzichtet werden kann. Beispiel Sei: T = P(0,$$1), μ(∅) $ 3.22. % %% = 0, μ(A) = ∞ ∀ A = ∅, dann gilt lim 0, n1 = ∅ aber lim μ 0, n1 = ∞ . n
n
Der nächste Satz stellt eine Umkehrung der Sätze 3.20 und 3.21 dar. Satz 3.23. Ein endlicher Inhalt μ auf einem Ring R , der bei jedem A ∈ R stetig von unten ist oder der bei der leeren Menge ∅ stetig von oben ist, ist ein Maß. Beweis. Ist (An ) eine Folge disjunkter Mengen aus R mit A := An ∈ R , so N An ) . Da μ stetig von unten bei A ist, folgt daraus gilt A = lim ( N ∈N n≤N
⎛ μ(A) = lim μ ⎝ N ∈N
⎞ An ⎠ = lim N
n≤N
!
μ(An ) =
∞ !
μ(An ) .
n=1
n≤N
Damit ist der Satz gezeigt, wenn der Inhalt stetig von unten ist. An ∅ Ist μ stetig von oben bei ∅ , so folgt aus BN := A \ n≤N
lim μ(BN ) = 0 . Da μ(A) = μ BN ∪ An = μ(BN ) + μ(An ) für alle N
n≤N
N ∈ N gilt, führt dies zu μ(A) = lim
N n≤N
n≤N
μ(An ) + lim μ(BN ) = N
∞
μ(An ) .
n=1
Wie in Satz 3.21 kann auch für die zweite Aussage von Satz 3.23 nicht auf die Endlichkeit von μ verzichtet werden. Beispiel 3.24. A = {A ⊂ N : |A| < ∞∨|Ac | < ∞}, ist eine Algebra auf Ω = N , 0, |A| < ∞ und die Mengenfunktion μ(A) := ist bei ∅ stetig von oben, ∞, sonst aber sie ist nicht σ–additiv. Anders als in den Sätzen 3.20 und 3.21 benötigt man in 3.23 als Definitionsbereich für μ einen Ring, wie das folgende Gegenbeispiel zeigt: Beispiel 3.25. Auf Ω := Q ∩ (0, 1] bilden die Aba := (a, b] ∩ Ω, 0 ≤ a ≤ b ≤ 1 einen Semiring T , auf dem durch μ(Aba ) := b − a ein endlicher Inhalt definiert wird, der, wie man leicht sieht, stetig von unten und von oben ist.
3.4 Additionstheorem und verwandte Sätze
35
Ist (qn ) eine Durchnummerierung von Ω und ε > 0 , so bilden die Mengen Abaii mit ai := max(0, qi − 2εi ) und bi = min(1, qi + 2εi ) ∀ i ∈ N eine Überdeckung Ω . Wäre μ σ-additiv, so müsste wegen Satz 3.18 gelten von μ(Ω) ≤ μ(Abaii ) ≤ 2 ε . Dies steht im Widerspruch zu μ(Ω) = 1 . μ kann i∈N
also nicht σ-additiv sein. Die Sätze 3.20 und 3.21 können in folgender Weise verallgemeinert werden. Satz 3.26. Ist μ ein endliches Maß auf einem σ–Ring Rσ und (An ) eine Mengenfolge aus Rσ , dann gilt " # μ lim inf An ≤ lim inf μ(An ) ≤ lim sup μ(An ) ≤ μ lim sup An . (3.20) n
n
n
n
Ak gilt Bn lim inf An , folgt aus Satz 3.20 und n # " wegen Bn ⊆ An , dass gilt μ lim inf An = lim μ(Bn ) ≤ lim inf μ(An ) . n n n Ak gilt Cn lim sup An . Da μ endlich ist und gilt Cn ⊇ An , Für Cn := k≥n n folgt daraus nach Satz 3.21 μ lim sup An = lim μ(Cn ) ≥ lim sup μ(An ) . Beweis. Da für Bn :=
k≥n
n
n
n
Dass lim inf μ(An ) ≤ lim sup μ(An ) gilt, ist klar. n
n
Der folgende Satz ist ein wichtiges Hilfsmittel der Wahrscheinlichkeitstheorie. Satz 3.27 (1-tes Lemma von Borel-Cantelli). Ist μ ein Maß auf einem σ–Ring Rσ und (An ) eine Folge von Mengen aus Rσ , dann gilt ∞ !
μ(An ) < ∞
⇒
= 0.
μ lim sup An
(3.21)
n
n=1
Beweis. Aus Satz 3.18 (Subadditivität) und lim sup An ⊆ Ak ∀ n ∈ N n k≥n
Ak ≤ μ(Ak ) ∀ n ∈ N . Damit aber ist folgt μ lim sup An ≤ μ n
k≥n ∞
der Satz bewiesen, denn aus
n=1
k≥n
μ(An ) < ∞ folgt lim
n k≥n
μ(Ak ) = 0 .
3.4 Additionstheorem und verwandte Sätze Dieser Abschnitt enthält einige wichtige Sätze der Wahrscheinlichkeitstheorie. Satz 3.28 (verallgemeinertes Additionstheorem). n Ist μ ein Inhalt auf einem Ring R und sind A1 , . . . , An Mengen aus R mit μ Ai < ∞ , so gilt i=1
36
3 Mengenfunktionen
μ
n
Ai
=
i=1
n !
(−1)
n
μ
1≤i1 <...
k=1
Beweis. Ist A :=
!
k−1
k
Aih
(3.22)
.
h=1
Ai , so definieren wir zu Jm := {j1 , . . . , jm } ⊆ {1, . . . , n}
i=1
mit 1 ≤ m ≤ n einen Durchschnitt D(Jm ) :=
m
A jh ∩
h=1
c g∈Jm
(A \ Ag ) . Die
D(Jm ) bilden eine Zerlegung von A . Daraus folgt μ(A) =
n ! !
(3.23)
μ (D(Jm )) .
m=1 Jm
Ist Ik := {i1 , . . . , ik } , so gilt umgekehrt A(Ik ) :=
k
Aih =
h=1
Damit wird die rechte Seite von (3.22) zu
k n n n ! ! ! ! ! k−1 (−1) μ Aih = (−1)k−1 Ik
k=1
n ! !
=
h=1 m !
!
(−1)k−1
m=k Ik ⊆Jm
!
D(Jm ) .
μ (D(Jm ))
m=k Ik ⊆Jm
Ik
k=1
n
(3.24)
μ (D(Jm )) .
Ik ⊆Jm
m=1 Jm k=1
$ % Da die letzte Summe oben aus m k Summanden $ % besteht, und μ (D(Jm )) von μ (D(Jm )) = m Ik unabhängig ist, gilt k μ (D(Jm )) . Daraus und wegen m
(−1)
$ % k−1 m k
k=1 n !
k−1
(−1)
=1−
! Ik
k=1
=
n !
Ik ⊆Jm m $ % m (−1)k k k=0
!
m=1 Jm
μ
k
Aih
=
n ! ! m ! m=1 Jm k=1
h=1
μ (D(Jm ))
1m−k = 1 − (1 − 1)m = 1 erhält man
m ! k=1
k−1
(−1)
(−1)k−1
m μ (D(Jm )) k
! n ! m μ (D(Jm )) . = k m=1
(3.25)
Jm
Die rechte Seite von (3.25) stimmt überein mit der rechten Seiten von (3.23). Somit ist der Satz bewiesen. Bemerkung 3.29. Der obige Satz wird oft auch Satz von Poincaré genannt. Als Additionstheorem bezeichnet man den Spezialfall für n = 2 , also die Formel μ(A1 ∪ A2 ) = μ(A1 ) + μ(A2 ) − μ(A1 ∩ A2 ) . (3.26) n Ai . Der nächste Satz liefert untere und obere Schranken für μ i=1
3.4 Additionstheorem und verwandte Sätze
37
Satz 3.30 (Ungleichungen von Bonferroni). n Ist μ ein Inhalt auf einem Ring Ai < ∞ , so gilt für 1 ≤ h ≤ n R und sind die A1 , . . . , An aus R mit μ i=1
⎡
n
(−1)h ⎣μ
Ai
+
i=1
h !
!
(−1)k
μ
1≤i1 <...
k=1
k
⎤ Aih ⎦ ≥ 0 .
(3.27)
h=1
Beweis. Mit den Bezeichnungen des verrallgemeinerten Additionstheorems n und mit S0 := μ Ai , Sk := μ (A(Ik )) , k = 1, . . . , n wird die eckii=1
Ik
ge Klammer in (3.27), nachdem man S0 durch μ (A(Ik )) durch h !
n
m=k Ik ⊆Jm
(−1)k Sk =
n ! !
μ(D(Jm )) und jedes
m=1 Jm
μ (D(Jm )) ersetzt, zu
μ(D(Jm )) +
m=1 Jm
k=0
n
h !
(−1)k
n !! !
μ (D(Jm )) .
Ik m=k Ik ⊆Jm
k=1
Vertauschung der Summationsreihenfolge in der zweiten Summe der Glei$ % chung und Berücksichtigung der Tatsache, dass es m Möglichkeiten gibt Ik k aus einer fixen Indexmenge Jm auszuwählen, ergibt ⎛ ⎞ h n ! h∧m ! ! ! ! (−1)k Sk = μ(D(Jm )) ⎝1 + (−1)k ⎠ k=1 Ik ⊆Jm
m=1 Jm
k=0
=
n ! !
μ(D(Jm ))
m=1 Jm
m (−1) . k
h∧m ! k=0
k
(3.28)
Wir betrachten nun die innerste Summe in der obigen Gleichung. h∧m m $ % $ % m k m−k = Für h ≥ m gilt (−1)k m = (1 − 1)m = 0 , und k k (−1) 1 k=0
k=0
daher ist in diesem Fall (3.27) erfüllt. Mit der Bezeichnung x := min{z ∈ Z : z ≥ x} (x $ m % heißt $ mAufrundungs% wegen ≥ ∀g≤u funktion) gilt für h = 2u , u ∈ N und h ≤ m 2g 2g−1 2 σh :=
h ! k=0
u ! m m m (−1) ≥ 0. =1+ − 2g − 1 k 2g g=1 k
Für h ≤ m 2 ∧ h = 2u − 1, u ∈ N erhält man σh =
m m ≤ 0, − 2g + 1 2g
u−1 ! g=0
38
3 Mengenfunktionen
h Für h ≤ m 2 gilt also (−1) σ $ h %≥ 0 $. m % m Aus σm = (1 − 1) = 0 und m k = m−k folgt aber auch
0 = σm = σh + (−1)m σm−h−1 ⇒ (−1)m−1 σm−h−1 = σh ⇒ (−1)m−h−1 σm−h−1 = (−1)−h σh = (−1)h σh ≥ 0 . Somit gilt (−1)h σh ≥ 0 (−1)h
h !
∀ 1 ≤ h ≤ n . Eingesetzt in (3.28) ergibt das
(−1)k Sk =
n ! !
μ(D(Jm )) (−1)h σh ≥ 0 ,
m=1 Jm
k=0
womit (3.27) bewiesen ist. Satz 3.31 (Satz von Jordan). n Ist μ ein Inhalt auf einem Ring R , sind Ai < ∞ und ist 1 ≤ m ≤ n , so gilt für die A1 , . . . , An aus R mit μ i=1 Menge A[m] := D(j1 , . . . , jm ) der Punkte, die in genau m der Ai liegen {j1 ,...,jm }
μ(A[m] ) =
n ! k=m
k k−m (−1) m
!
μ
1≤i1 <...
k
Aih
(3.29)
.
h=1
Beweis. Ersetzt man mit den Bezeichnungen der vorigen Sätze in (3.29) n μ (A(Ik )) durch μ (D(Jg )) , so erhält man nach Vertauschung der g=k Ik ⊆Jg
Summationsreihenfolge für die rechte Seite dieser Gleichung !! n n n ! ! ! k k−m k k−m (−1) (−1) μ (D(Jg )) Sk = m m Ik g=k Ik ⊆Jg k=m k=m ! g n ! ! ! k k−m = (−1) μ (D(Jg )) m g=m Jg k=m Ik ⊆Jg g n ! ! ! g k k−m . (3.30) = μ (D(Jg )) (−1) k m g=m Jg
Ist g = m , so gilt sg :=
k=m
g
(−1)k−m
k=m
Ist g > m , so gilt sg =
g $g% m
k=m
$ k % $g % m
(−1)k−m
= (−1)0
k
$g−m% k−m
=
$m% $m% m
$ g % g−m m
k=m
⎛ ! k Sk = (−1)k−m μ (D(Jm )) = μ ⎝ m Jm
womit der Satz bewiesen ist.
= 1.
(−1)j
j=0
Daher vereinfacht sich (3.30) zu n !
m
Jm ⊆{1,...,n}
$g−m% j
= 0.
⎞ D(Jm )⎠ = μ(A[m] ) ,
3.4 Additionstheorem und verwandte Sätze
39
Folgerung 3.32. Ist 1 ≤ m ≤ n , so gilt unter den Voraussetzungen und mit den A[g] der Punkte, die in Bezeichnungen von Satz 3.31 für die Menge A(m) := g≥m
mindestens m der Mengen Ai liegen $
%
μ A(m) =
n !
(−1)k−m
k=m
k−1 m−1
!
μ
1≤i1 <...
k
Aih
.
(3.31)
h=1
$ % $ % Beweis. Für m = n gilt A(n) = A[n] und nn = n−1 n−1 . Daher ergibt sich die Folgerung in diesem Fall unmittelbar aus dem vorigen Satz. Man führt nun einen Induktionsbeweis, beginnend mit m = n in umgekehrter Richtung und zeigt, dass die Folgerung für m gilt, wenn sie für m + 1 stimmt. Ist m < n, so gilt A(m) = A(m+1) ∪ A[m] und A(m+1) ∩ A[m] = ∅ . Aus der Induktionsvoraussetzung und Satz 3.31 folgt daher n ! k−1 k (−1)k−m Sk + Sk m m k=m+1 k=m n ! k−1 k m k−m Sk − Sm + = (−1) m m m k=m+1 n n ! ! m−1 k−1 k−1 k−m k−m Sm + = (−1) (−1) Sk = Sk . m−1 m−1 m−1
μ(A(m) ) =
n !
(−1)k−m−1
k=m+1
k=m
4 Fortsetzung von Maßen auf σ–Algebren
4.1 Äußere Maße und Carathéodory-Messbarkeit Das Ausschöpfungsprinzip des Eudoxos weist den Weg, wie man den Definitionsbereich eines Maßes auf σ-Algebren ausdehnen kann. Nach diesem Verfahren bestimmt man die Fläche eines Kreises approximativ, indem man den Kreis mit immer kleiner werdenden Quadraten überdeckt und andererseits die Flächen der Quadrate addiert, die zur Gänze im Kreis liegen.
Abb. 4.1. Ausschöpfungsprinzip des Eudoxos
Im Folgenden wird dieses Überdeckungsverfahren formalisiert. Definition 4.1. Ist μ ein Maß auf einem Ring R über Ω , so nennt man die durch ! ∗ μ(En ) : A ⊆ En , En ∈ R ∀ n ∈ N (4.1) μ (A) := inf n
n
auf P(Ω) definierte Mengenfunktion μ∗ das von μ induzierte äußere Maß, wobei mit der Vereinbarung inf ∅ := ∞ Mengen, die keine abzählbare Überdeckung durch Elemente aus R besitzen, das äußere Maß ∞ zugeordnet wird.
42
4 Fortsetzung von Maßen auf σ–Algebren
Wir zeigen nun, dass das induzierte äußere Maß eine Fortsetzung von μ ist. Lemma 4.2. Ist μ ein Maß auf einem Ring R und μ∗ das von μ induzierte äußere Maß, so gilt μ∗ (A) = μ(A) ∀ A ∈ R . Beweis. Ist 2 eine Folge aus R A ∈ R , sobilden E1 := A, En := ∅ ∀ n ≥ mit A ⊆ En ∧ μ(En ) = μ(A) . Daraus folgt μ∗ (A) ≤ μ(A) . n
n
Umgekehrt folgt aus Satz3.18, dass für jede Überdeckung (En ) von A mit Mengen aus R gilt μ(A) ≤ μ(En ) ⇒ μ(A) ≤ μ∗ (A) . n
Der nächste Satz listet grundlegende Eigenschaften des äußeren Maßes auf. Satz 4.3 (Eigenschaften des äußeren Maßes). Ist μ ein Maß auf einem Ring R und μ∗ das induzierte äußere Maß auf P(Ω) , so gilt 1. 2. 3. 4.
μ∗ (∅) = 0, μ∗ (A) ≥ 0 ∀ A ∈ P(Ω) , (Monotonie von μ∗ ), A ⊆ B ⇒ μ∗ (A) ≤ μ∗ (B) ∗ ∗ A⊆ An ⇒ μ (A) ≤ μ (An ) (σ-Subadditivität von μ∗ ) . n∈N
n∈N
Beweis. Da die Eigenschaften 1. - 3. offensichtlich sind, bleibt nur die abzählbare Subadditivität von μ∗ zu zeigen. Falls die Summe auf der rechten Seite von 4. unendlich ist, ist nichts mehr zu beweisen. Daher nehmen wir an, dass diese Summe endlich ist. Wegen (4.1) gibt es für und ε > 0 Folgen von Mengen (Cn,m ) ∈ R , jedes n ∈ N sodass An ⊆ Cn,m und μ(Cn,m ) ≤ μ∗ (An ) + ε 2−n ∀ n ∈ N . Aus m m∈N Cn,m und aus den obigen Ungleichungen folgt nun A⊆ n∈N m∈N
μ∗ (A) ≤
!! n
m
μ(Cn,m ) ≤
!
μ∗ (An ) + ε .
n
Damit ist der Satz bewiesen, da ε > 0 beliebig klein gewählt werden kann. Definition 4.4. Eine Funktion μ∗ auf P(Ω) mit den Eigenschaften 1. - 4. aus Satz 4.3 nennt man eine äußere Maßfunktion. Beispiel 4.5. Zwei Beispiele für äußeres Maße sind etwa: 0, A = ∅ 1. Ω = ∅ beliebig und μ∗ (A) := 1, A = ∅ . 2. Ist C = (ci,j )1≤i,j≤n eine n × n-Matrix, so ist μ∗ auf P ({ci,j }) definiert durch μ∗ (A) = |{j : ∃ i : ci,j ∈ A}| eine äußere Maßfunktion (μ∗ (A) ist die Anzahl der Spalten, die mindestens ein Element von A enthalten). Im Allgemeinen ist ein äußeres Maß keine Maßfunktion auf P(Ω) . Wir werden aber sehen, dass die Einschränkung von μ∗ auf ein geeignetes System von Mengen, die sogenannten messbaren Mengen, eine Maßfunktion ist.
4.2 Fortsetzungs- und Eindeutigkeitssatz
43
Bemerkung 4.6. Ist μ ein endliches Maß auf einer Algebra A , so liegt es nahe μ∗ (A) := μ(Ω) − μ∗ (Ac ) als inneres Maß für A zu verwenden und, dem Ausschöpfungsprinzip folgend, eine Menge A messbar zu nennen, wenn gilt μ∗ (A) = μ∗ (A) oder umgeformt μ(Ω) = μ∗ (Ω) = μ∗ (A) + μ∗ (Ac ) .
(4.2)
Carathéodory hat aber gezeigt, dass es beweistechnisch viel vorteilhafter ist die Messbarkeit von Mengen folgendermaßen zu definieren. Definition 4.7 (Carathéodory-Messbarkeit). Ist μ∗ ein äußeres Maß auf P(Ω) , so nennt man die Menge A ⊆ Ω μ∗ -messbar, falls für jedes B ⊆ Ω gilt μ∗ (B) = μ∗ (B ∩ A) + μ∗ (B \ A) = μ∗ (B ∩ A) + μ∗ (B ∩ Ac ) .
(4.3)
Bemerkung 4.8. 1. Dass (4.3) Bedingung (4.2) impliziert, ist klar, da (4.3) verlangt, dass jede Menge B von A additiv zerlegt wird, und nicht nur Ω . Wir werden später zeigen, dass die beiden Bedingungen für total-endliche Maße äquivalent sind. 2. Zum Nachweis der Carathéodory-Messbarkeit reicht der Beweis von μ∗ (B) ≥ μ∗ (B ∩ A) + μ∗ (B \ A)
∀ B ⊆ Ω mit μ∗ (B) < ∞ ,
(4.4)
denn einerseits ist μ∗ subadditiv und andererseits ist (4.4) für Mengen B mit μ∗ (B) = ∞ trivial.
4.2 Fortsetzungs- und Eindeutigkeitssatz Der untenstehende Satz ist von zentraler Bedeutung für die Fortsetzung eines Maßes auf einen σ-Ring. Satz 4.9. Ist μ∗ eine äußere Maßfunktion auf P(Ω) , so ist das System Mμ∗ der μ∗ -messbaren Mengen eine σ–Algebra auf Ω , und μ∗ ist ein Maß auf Mμ∗ . Beweis. Mμ∗ enthält offensichtlich Ω und, da die Definitionsgleichung (4.3) symmetrisch in A und Ac ist, gilt A ∈ Mμ∗ ⇔ Ac ∈ Mμ∗ . Sind A1 , A2 ∈ Mμ∗ und ist B ⊆ Ω beliebig, so kann man B durch A1 additiv zerlegen in B ∩ A1 und B ∩ Ac1 und dann B ∩ Ac1 durch A2 weiter zerlegen in B ∩ Ac1 ∩ A2 und B ∩ Ac1 ∩ Ac2 = B \ (A1 ∪ A2 ). Das führt zu μ∗ (B) = μ∗ (B ∩ A1 ) + μ∗ (B ∩ Ac1 ) = μ∗ (B ∩ A1 ) + μ∗ (B ∩ Ac1 ∩ A2 ) + μ∗ (B \ (A1 ∪ A2 )). Aber B ∩ A1 und B ∩ Ac1 ∩ A2 bilden die additive Zerlegung von B ∩ (A1 ∪ A2 ) durch A1 , daher gilt μ∗ (B ∩ A1 ) + μ∗ (B ∩ Ac1 ∩ A2 ) = μ∗ (B ∩ (A1 ∪ A2 ) ) . Oben eingesetzt ergibt das μ∗ (B) = μ∗ (B ∩ (A1 ∪ A2 )) + μ∗ (B \ (A1 ∪ A2 )) .
44
4 Fortsetzung von Maßen auf σ–Algebren
Abb. 4.2. A1 , A2 ∈ Mμ∗ ⇒ A1 ∪ A2 ∈ Mμ∗
Daraus folgt A1 ∪ A2 ∈ Mμ∗ . Somit ist Mμ∗ eine Algebra. Sind A1 , A2 ∈ Mμ∗ disjunkt und ist C ⊆ Ω beliebig, so ergibt (4.3) angewendet auf B := C ∩ (A1 ∪ A2 ) μ∗ (C ∩ (A1 ∪ A2 )) = μ∗ (C ∩ A1 ) + μ∗ (C ∩ A2 ) . Da Mμ∗ eine Algebra ist, ist auch die Spur Mμ∗ ∩C eine Algebra, und deshalb folgt aus Satz 3.4 und der obigen Gleichung, dass für beliebiges C ⊆ Ω , für alle disjunkten Mengen A1 , . . . , An aus Mμ∗ und für alle n ∈ N gilt
n n ! ∗ Ai = μ∗ (C ∩ Ai ) . (4.5) μ C∩ i=1
i=1
Ist (An ) eine Folge disjunkter Mengen aus Mμ∗ , so gilt für jedes C ⊆ Ω
n n ∗ ∗ ∗ Ak + μ C \ Ak μ (C) ≥ μ C ∩ k=1
≥
n !
k=1
∗
∗
μ (C ∩ Ak ) + μ
∞
C\
k=1
Ak
∀ n ∈ N.
(4.6)
k=1
Daraus folgt unter Berücksichtigung der Subadditivität von μ∗
∞ ∞ ! ∗ ∗ ∗ μ (C) ≥ μ (C ∩ An ) + μ C \ An n=1
∗
≥μ
C∩
∞ n=1
Die Vereinigung
∞ n=1
An
+μ
∗
n=1 ∞
C\
An
.
(4.7)
n=1
An einer Folge disjunkter Mengen An ∈ Mμ∗ liegt also
ebenfalls in Mμ∗ . Somit ist Mμ∗ ein durchschnittsstabiles Dynkin-System und damit eine σ-Algebra (siehe Satz 2.77).
4.2 Fortsetzungs- und Eindeutigkeitssatz
Mit C :=
∞
45
An wird (4.7) unter Beachtung der Subadditivität von μ∗ zu
n=1 ∞ !
∗
μ (An ) ≥ μ
∗
n=1
∞
An
≥
n=1
∞ !
μ∗ (An ) + μ∗ (∅) =
n=1
∞ !
μ∗ (An ) .
n=1
Somit ist μ∗ σ-additiv, also ein Maß auf Mμ∗ . Satz 4.10 (Fortsetzungssatz). Ist μ ein Maß auf einem Ring R , μ∗ das von μ induzierte äußere Maß und Mμ := Mμ∗ die σ-Algebra der μ∗ -messbaren Mengen, so gilt R ⊆ Mμ mit μ∗ (A) = μ(A) ∀ A ∈ R . μ∗ ist somit eine Fortsetzung von μ auf Mμ und damit auch auf Aσ (R) . Beweis. Nach Lemma 4.2 gilt μ(A) = μ∗ (A) ∀A ∈ R . Zum Nachweis der anderen Aussagen des Satzes reicht es daher R ⊆ Mμ zu zeigen, denn dann gilt auch Aσ (R) ⊆ Mμ , da Mμ eine σ-Algebra ist. Ist A ∈ R und B ⊆ Ω mit μ∗ (B) < ∞ , so gibt es zu jedem ε > 0 eine μ(Cn ) ≤ μ∗ (B) + ε . Überdeckung von B durch Mengen Cn aus R mit n Für A ∈ R gilt dann μ∗ (B) + ε ≥ μ(Cn ) = μ(Cn ∩ A) + μ(Cn \ A) . n n n Wegen (Cn ∩ A) ⊇ B ∩ A und (Cn \ A) ⊇ B \ A folgt daraus weiters n
n
μ∗ (B) + ε ≥ μ∗ (B ∩ A) + μ∗ (B \ A) . Da ε > 0 beliebig klein gewählt werden kann, gilt daher μ∗ (B) ≥ μ∗ (B∩A)+μ∗ (B\A) . Auf Grund von Bemerkung 4.8 Punkt 2. ist damit A ∈ Mμ bzw. R ⊆ Mμ gezeigt. Bemerkung 4.11. Ist μ ein Maß auf einem Ring R , so bezeichnet man die durch μ∗ auf Mμ gebildete Fortsetzung von μ üblicherweise ebenfalls mit μ und nicht mit μ∗ , um anzudeuten, dass es sich um ein Maß handelt. Nicht jede beliebige Maßfunktion auf einem Ring R kann in eindeutiger Weise auf die von R erzeugte σ–Algebra fortgesetzt werden, wie das folgende Gegenbeispiel zeigt. Beispiel 4.12. Auf Ω := Q ∩ (0, 1] ist T := {Aba ⊆ Ω : 0 ≤ a ≤ b ≤ 1} mit Aba := (a, b] ∩ Ω bekanntlich ein Semiring. Für jedes A ∈ T und damit auch für jedes A ∈ R(T) gilt A = ∅ ∨ |A| = ∞ . Definiert man auf R(T) die beiden Maße μ1 und μ2 durch μ1 (A) := |A|, μ2 (A) := 2 |A| , so gilt 0, A=∅ also μ1 ≡ μ2 auf R(T) . μ1 (A) = μ2 (A) = ∞, A = ∅ , 1 Aber {1} = A1− 1 ∈ Rσ (R) und μ1 ({1}) = 1 = μ2 ({1}) = 2 . n∈N
n
Satz 4.13 (Eindeutigkeitssatz). Ist μ ein σ–endliches Maß auf einem Ring R , ¯ ist σ–endlich. so gibt es genau ein Maß μ ¯ auf Aσ (R) , das μ fortsetzt. μ
46
4 Fortsetzung von Maßen auf σ–Algebren
Beweis. Gemäß Satz 4.10 gibt es eine Fortsetzung μ ¯ von μ auf Aσ (R) . Wir nehmen zunächst an, dass R eine Algebra ist und gilt μ(Ω) < ∞ . ˆ(A) = μ ¯(A) } , Ist μ ˆ eine weitere Fortsetzung von μ und C := {A ∈ Aσ (R) : μ so gilt klarerweise R ⊆ C und deshalb auch Ω ∈ C . C enthält mit jedem A ˆ(Ac ) = μ(Ω) − μ ˆ(A) ¯(A) = μ ¯(Ac ) . Sind die(An ) aus auch Ac , da μ = μ(Ω) −μ An = μ ˆ(An ) = μ ¯(An ) = μ ¯ An , C disjunkt, so gilt schließlich μ ˆ n
n
n
n
d.h. C ist ein Dynkin-System. Aus Satz 2.77 folgt aber Aσ (R) = D(R) . Daher ˆ und μ ¯ auf Aσ (R) überein. gilt C ⊆ Aσ (R) = D(R) ⊆ C . Somit stimmen μ Ist nun R ein Ring und μ σ-endlich auf R , so gibt es höchstens abzählbar viele disjunkte Mengen En ∈ R mit Ω = En und μ(En ) < ∞ . Da jedes n
R ∩ En zudem eine Algebra auf En ist, gilt für je zwei Fortsetzungen μ ¯ und μ ˆ ! ! μ ˆ(A ∩ En ) = μ ¯(A ∩ En ) = μ ¯(A) ∀ A ∈ Aσ (R) , μ ˆ(A) = n
n
womit der Satz bewiesen ist. Bemerkung 4.14. Wo immer in den Definitionen und Sätzen dieses Kapitels angenommen wurde, dass das Maß μ auf einem Ring definiert ist, kann dies durch die schwächere Voraussetzung, dass μ auf einem Semiring T festgelegt ist, ersetzt werden, denn nach Satz 3.16 wird dann μ eindeutig auf R(T) fortgesetzt.
4.3 Vervollständigung Ist μ ein Maß auf einem Ring R , so wird Aσ (R) nur durch R bestimmt und ist daher von μ völlig unabhängig. Wie die σ-Algebra Mμ aussieht, hängt hingegen sehr wohl von μ ab. In diesem Abschnitt soll nun geklärt werden, ob bzw. unter welchen Umständen trotzdem Zusammenhänge zwischen Aσ (R) und Mμ bestehen. Dazu als erstes eine leicht zu beweisende Feststellung. Lemma 4.15. Ist μ∗ ein äußeres Maß auf P(Ω) und Mμ∗ die σ-Algebra der μ∗ -messbaren Mengen, so liegt jedes A ⊆ Ω mit μ∗ (A) = 0 in Mμ∗ . Beweis. Aus μ∗ (A) = 0 folgt für jede Menge B ⊆ Ω auch μ∗ (B ∩ A) = 0 . Dies führt zu μ∗ (B) ≥ μ∗ (B ∩ Ac ) = μ∗ (B ∩ A) + μ∗ (B ∩ Ac ) ⇒ A ∈ Mμ∗ . Satz 4.16. Ist μ∗ ein äußeres Maß auf P(Ω) und Mμ∗ die dazugehörige σ-Algebra der μ∗ -messbaren Mengen, so ist Mμ∗ μ∗ -vollständig. Beweis. C ⊆ A ∈ Mμ∗ ∧ μ∗ (A) = 0 ⇒ μ∗ (C) = 0 ⇒ C ∈ Mμ∗ . Der nächste Satz beinhaltet das wichtigste Ergebnis dieses Abschnitts. Satz 4.17. Ist μ ein Maß auf einem σ-Ring Rσ und N das System der Teilmengen der μ-Nullmengen, also N := {M ⊆ Ω : M ⊆ N ∈ Rσ mit μ(N ) = 0} , so gilt
4.3 Vervollständigung
47
*σ := {A ∪ M : A ∈ Rσ ∧ M ∈ N} ist ein σ-Ring. 1. R *σ eine σ-Algebra. 2. Ist Rσ eine σ-Algebra, so ist auch R *σ fortsetzt, ist gegeben durch 3. Das einzige Maß, das μ auf R μ ¯(A ∪ M ) := μ(A)
∀ A ∈ Rσ , M ∈ N .
(4.8)
4. Gibt es auf einem σ–Ring S ⊇ Rσ ein Maß ν , das μ fortsetzt, und ist S *σ ⊆ S . vollständig bezüglich ν , so gilt R Beweis. *σ . ad 1. ∅ ∈ Rσ ∧ ∅ ∈ N ⇒ ∅ = ∅ ∪ ∅ ∈ R *σ mit A1 , A2 ∈ Rσ , M1 , M2 ∈ N Sind A1 ∪ M1 , A2 ∪ M2 Mengen aus R und Mi ⊆ Ni ∈ Rσ , μ(Ni ) = 0, i = 1, 2 , so gilt wegen N2c ⊆ M2c (A1 ∪ M1 ) \ (A2 ∪ M2 ) = (A1 ∪ M1 ) ∩ (Ac2 ∩ M2c ) = (A1 ∩ Ac2 ∩ M2c ) ∪ (M1 ∩ Ac2 ∩ M2c ) = (A1 ∩ Ac2 ∩ N2c ) ∪ (A1 ∩ Ac2 ∩ M2c ∩ N2 ) ∪ (M1 ∩ Ac2 ∩ M2c ) . Die Menge A1 ∩ Ac2 ∩ N2c = (A1 \ A2 ) \ N2 auf der rechten Seite der obigen Gleichung liegt in Rσ , (A1 ∩ Ac2 ∩ M2c ∩ N2 ) ∪ (M1 ∩ Ac2 ∩ M2c ) ist als Teilmenge von N1 ∪ N2 ein Element von N und daher liegt mit A1 ∪ M1 *σ . und A2 ∪ M2 auch (A1 ∪ M1 ) \ (A2 ∪ M2 ) in R * Ist (An ∪ Mn ) eine Mengenfolge in Rσ mit An ∈ Rσ, Mn ∈ N und Mn ⊆ Nn ∈ Rσ , μ(Nn ) = 0 ∀ n ∈ N , so gilt μ Nn = 0 und
(An ∪ Mn ) =
n
An
∪
n
*σ Somit An ∪ Mn ∈ R
⊆
Mn
n
∀n∈N
⇒
n
n
An
∪
Nn
.
n
*σ . (An ∪ Mn ) ∈ R
n∈N
*σ ist also ein σ-Ring. R *σ . ad 2. Ω ∈ Rσ ⇒ Ω = Ω ∪ ∅ ∈ R *σ eindeutig bestimmt, denn sind ad 3. Durch Gleichung (4.8) wird μ ¯ auf R A1 , A2 ∈ Rσ , M1 , M2 ∈ N mit A1 ∪ M1 = A2 ∪ M2 , so gilt A1 ∪ M1 = [(A1 ∪ M1 ) ∩ A2 ] ∪ [(A2 ∪ M2 ) ∩ Ac2 ] = (A1 ∩ A2 ) ∪ [(M1 ∩ A2 ) ∪ (M2 ∩ Ac2 )] , mit (M1 ∩A2 )∪(M2 ∩Ac2 ) ∈ N . ⇒ μ(A1 ) = μ ¯(A1 ∪M1 ) = μ(A1 ∩A2 ) . Aus ¯(A2 ∪M2 ) = μ(A1 ∩A2 ) . Somit ist Symmetriegründen gilt auch μ(A2 ) = μ μ ¯ wohldefiniert. Dass μ ¯ σ-additiv und daher ein Maß ist, ist offensichtlich. *σ , das μ fortsetzt und M ∈ N mit M ⊆ N ∈ Rσ , Ist ν ein Maß auf R μ(N ) = 0 , so gilt 0 ≤ ν(M ) ≤ ν(N ) = μ(N ) = 0 . Daher gilt für *σ mit A ∈ Rσ A∪M ∈R
4 Fortsetzung von Maßen auf σ–Algebren
48
μ(A) = ν(A) ≤ ν(A ∪ M ) ≤ ν(A) + ν(M ) = μ(A) = μ ¯(A ∪ M ) . *σ mit μ ¯ überein. ν stimmt demnach auf R ad 4. Da S ν-vollständig ist, muss jedes M ⊆ N ∈ Rσ mit μ(N ) = ν(N ) = 0 *σ ⊆ S . in S liegen, also N ⊆ S . Zusammen mit Rσ ⊆ S ergibt das R Definition 4.18. Ist μ ein Maß auf einem σ-Ring Rσ , so nennt man *σ := {A ∪ M : A ∈ Rσ , M ⊆ N ∈ Rσ mit μ(N ) = 0} R die Vervollständigung von Rσ bezüglich μ . Bemerkung 4.19. Ist μ ein σ-endliches Maß auf einem Ring R , so gibt es eine abzählbare Überdeckung von Ω durch Mengen En aus dem Ring und dementsprechend gilt Ω = En ∈ Rσ (R) . In diesem Fall stimmt also der von R n
erzeugte σ-Ring mit der von R erzeugten σ-Algebra überein. Satz 4.20. Ist μ ein σ –endliches Maß auf einem Ring R und ist μ∗ das von μ induzierte äußere Maß, so gibt es zu jedem A ∈ P(Ω) ein C ∈ Aσ (R) mit A ⊆ C und μ∗ (A) = μ(C) . Beweis. Ist A ⊆ Ω eine Menge mit μ∗ (A) = ∞ , so ist der Satz wegen Bemerkung 4.19 und μ(Ω) = μ∗ (Ω) ≥ μ∗ (A) = ∞ trivialerweise richtig. Ist hingegen μ∗ (A) < ∞ , so gibt es zu jedem n ∈ N Mengen Cn,m aus R mit A ⊆ Cn,m und m
∗
μ (A) ≤ μ
∗
Cn,m
=μ
m
Für C :=
n∈N
Cn,m
≤
m
!
μ(Cn,m ) ≤ μ∗ (A) +
m
1 . n
Cn,m
∈ Aσ (R) gilt klarerweise A ⊆ C und
m∈N
μ∗ (A) ≤ μ(C) ≤
!
μ(Cn,m ) ≤ μ∗ (A) +
m
1 n
∀ n ∈ N ⇒ μ∗ (A) = μ(C) .
Satz 4.21. Ist μ ein σ–endliches Maß auf einem Ring R , so gibt es zu jedem A ∈ Mμ Mengen C, D ∈ Aσ (R) mit D ⊆ A ⊆ C und μ(C \ D) = 0
∧
μ(D) = μ(A) = μ(C) .
(4.9)
Beweis. Wir beweisen den Satz zunächst unter der Annahme, dass μ totalendlich ist. Dann gilt natürlich μ(Ω) = μ∗ (Ω) < ∞. Für jede Menge A und ihr Komplement Ac gibt es nach Satz 4.20 Mengen C, D c ∈ Aσ (R) mit A ⊆ C, Ac ⊆ D c ∧ μ∗ (A) = μ(C), μ∗ (Ac ) = μ(D c ) . Daraus folgt A ⊇ D ∈ Aσ (R) und μ(Ω) = μ(D) + μ(Dc ) = μ(D) + μ∗ (Ac ) . Da aber A ∈ Mμ Ω additiv zerlegt, gilt auch μ(Ω) = μ∗ (A) + μ∗ (Ac ) , und
4.3 Vervollständigung
49
man erhält schließlich μ(D) = μ∗ (A) = μ(C) . Wegen μ(Ω) < ∞ folgt daraus nun μ(C \ D) = μ(C) − μ(D) = 0 . Damit ist der Satz für μ(Ω) < ∞ bewiesen. Ist En eine Zerlegung von Ω durch Mengen aus R mit μ(En ) < ∞ ∀ n ∈ N, so ist μ auf den Spuren R∩En total-endlich und deshalb gibt es für jedes n ∈ N En , für die gilt μ(Dn ) = μ(A ∩ En ) = μ(Cn ) Mengen Dn ⊆ A ∩ En ⊆ Cn ⊆ und μ(Cn \ Dn ) = 0 . Für C := Cn , D := Dn ∈ Aσ (R) gilt daher n
μ(D) =
!
μ(Dn ) =
n
= μ(A) =
!
n
!
μ(A ∩ En )
n
μ(A ∩ En ) =
!
n
und aus C \ D ⊆
μ(Cn ) = μ(C) ,
n
(Cn \ Dn ) folgt μ(C \ D) ≤ μ(Cn \ Dn ) = 0 . Damit ist n
n
auch der allgemeine Fall bewiesen. Folgerung 4.22. Ist μ ein σ– endliches Maß auf einem Ring R , so ist Mμ die Vervollständigung von Aσ (R) , d.h. es gilt A σ (R) = Mμ . Beweis. Da Mμ μ-vollständig ist und R ⊆ Mμ , folgt aus Satz 4.17 Punkt 4. A σ (R) ⊆ Mμ . Umgekehrt gibt es zu jedem A ∈ Mμ nach Satz 4.21 Mengen C, D aus Aσ (R) mit D ⊆ A ⊆ C und μ(C \ D) = 0 . Da A \ D ⊆ C \ D in N liegt, folgt daraus A = D ∪ (A \ D) ∈ A σ (R) . Also gilt auch Mμ ⊆ Aσ (R) . Bemerkung 4.23. Ist μ ein total-endliches Maß auf R , so gilt wegen Satz 4.20 μ∗ (A) = min{μ(C) : A ⊆ C ∧ C ∈ Aσ (R)}
∀A⊆Ω.
Definiert man nun für jedes A ∈ P(Ω) ein inneres Maß μ∗ durch μ∗ (A) = sup{μ(D) : D ⊆ A
∧
D ∈ Aσ (R)},
so gilt μ∗ (A) = sup{μ(D) : D ⊆ A ∧ D ∈ Aσ (R)} = sup{μ(Ω) − μ(Dc ) : Ac ⊆ Dc ∧ D c ∈ Aσ (R)} = μ(Ω) − inf{μ(D c ) : Ac ⊆ Dc ∧ Dc ∈ Aσ (R)} = μ(Ω) − μ∗ (Ac ) . (4.10) Bezeichnet man eine Menge A als messbar, wenn μ∗ (A) = μ∗ (A) , so ist dies nach (4.10) äquivalent zu (4.2), also μ(Ω) = μ∗ (A) + μ∗ (Ac ) . Aus A ∈ Mμ folgt nach Satz 4.21 μ∗ (A) = μ∗ (A) . Umgekehrt bedeutet μ∗ (A) = μ∗ (A) , dass Mengen D ⊆ A ⊆ C existieren mit C, D ∈ Aσ (R) und μ(C \ D) = μ(C) − μ(D) = 0 . Daraus folgt A = D ∪ (A \ D) ∈ A σ (R) ⊆ Mμ , d.h. A ist Carathéodory-messbar. Somit sind in diesem Fall, wie bereits in Bemerkung 4.8 erwähnt, die Gleichungen (4.2) und (4.3) äquivalent zueinander.
50
4 Fortsetzung von Maßen auf σ–Algebren
Satz 4.24 (Approximationssatz). Ist R ein Ring und μ ein Maß auf Aσ (R) , das auf R σ-endlich ist, so gibt es zu jedem A ∈ A σ (R) = Mμ mit μ(A) < ∞ und jedem ε > 0 ein Cε ∈ R , sodass μ(A Cε ) < ε .
(4.11)
Gibt es umgekehrt für A ⊆ Ω zu jedem ε > 0 ein Cε ∈ R mit μ∗ (A Cε ) < ε , so gilt A ∈ A σ (R) . Beweis. Da μ auf R σ-endlich ist, gilt μ(A) = μ∗ (A) ∀ A ∈ A σ (R) . Aus der Definition 4.1 des induzierten äußeren Maßes folgt, dass es zu jedem ε > 0 Mengen Cn ∈ R ∀ n ∈ N mit A ⊆ C := Cn gibt, für die gilt n μ∗ (A) = μ(A) ≤ μ(A) + μ(C \ A) = μ(C) ≤ μ(Cn ) ≤ μ∗ (A) + 2ε . Daraus n∈N μ(Cn ) < ∞, existiert auch ein Nε ∈ N , sodass folgt μ(C \ A) ≤ 2ε . Wegen n>Nε
n∈N
μ(Cn ) <
ε 2
. Klarerweise gilt Cε :=
N ε
Cn ∈ R .
n=1
Aus Cε \ A ⊆ C \ A folgt μ(Cε \ A) ≤ μ(C \ A) ≤ 2ε . Umgekehrt gilt wegen A ⊆ C auch μ(A \ Cε ) ≤ μ(C \ Cε ) ≤ μ(Cn ) < n>Nε
ε 2
.
Es gilt also μ(A Cε ) ≤ ε . Damit ist die erste Aussage des Satzes bewiesen. Ist umgekehrt A ⊆ Ω , ε > 0 , Cε ∈ R mit μ∗ (A Cε ) < ε , und B ⊆ Ω , eine beliebige Menge, so gelten folgende Ungleichungen μ∗ (B ∩ A) ≤ μ∗ (B ∩ A ∩ Cε ) + μ∗ (B ∩ A ∩ Cεc ) ≤ μ∗ (B ∩ Cε ) + μ∗ (A ∩ Cεc ) ≤ μ∗ (B ∩ Cε ) + ε ,
(4.12)
μ∗ (B ∩ Ac ) ≤ μ∗ (B ∩ Ac ∩ Cε ) + μ∗ (B ∩ Ac ∩ Cεc ) ≤ μ∗ (Ac ∩ Cε ) + μ∗ (B ∩ Cεc ) ≤ μ∗ (B ∩ Cεc ) + ε . (4.13) Aus (4.12), (4.13) und wegen der Messbarkeit von Cε folgt μ∗ (B ∩ A) + μ∗ (B ∩ Ac ) ≤ μ∗ (B ∩ Cε ) + μ∗ (B ∩ Cεc ) + 2 ε ≤ μ∗ (B) + 2 ε . Damit ist A ∈ Mμ gezeigt, da ε > 0 beliebig klein sein kann. Definition 4.25. Ein Tripel (Ω, S, μ) bestehend aus einer nichtleeren Menge Ω , einer σ–Algebra S von Teilmengen von Ω und einer Maßfunktion μ auf S , nennt man einen Maßraum. Der Maßraum heißt endlich bzw. σ-endlich, wenn μ endlich bzw. σ-endlich ist. Ein Paar (Ω, S) , bestehend aus einer Menge Ω = ∅ und einer σ–Algebra S von Teilmengen von Ω , heißt Messraum. Die Elemente von S werden manchmal auch messbare Mengen genannt (nicht zu verwechseln mit den messbaren Mengen im Sinne des Fortsetzungssatzes). Falls P ein Wahrscheinlichkeitsmaß ist, nennt man das Tripel (Ω, S, P ) einen Wahrscheinlichkeitsraum und die Mengen aus S werden Ereignisse genannt.
5 Unabhängigkeit
5.1 Die durch ein Ereignis bedingte Wahrscheinlichkeit Da die Begriffe und Ergebnisse dieses Abschnitts üblicherweise in Kursen über elementare Wahrscheinlichkeitsrechnung behandelt werden, stellen wir sie hier nur in aller Kürze vor. Definition 5.1. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und sind A, B ∈ S Ereignisse mit P (B) > 0 , so nennt man P (A | B) =
P (A ∩ B) P (B)
(5.1)
die durch B bedingte Wahrscheinlichkeit von A . Die Wahrscheinlichkeitsverteilung, die jedem A ∈ S die Wahrscheinlichkeit P (A | B) zuordnet, wird die durch B bedingte Wahrscheinlichkeitsverteilung genannt und mit P (. | B) bezeichnet. Bemerkung 5.2. 1. Der Nachweis, dass P (. | B) tatsächlich eine Wahrscheinlichkeitsverteilung auf (Ω, S) ist, ist trivial und kann dem Leser überlassen werden. 2. Aus der obigen Definition folgt sofort die als Multiplikationsregel bekannte Beziehung P (A ∩ B) = P (B) P (A | B) , (5.2) die mit der Vereinbarung P (B)P (A | B) := 0 bei P (B) = 0 für beliebige Ereignisse A, B gilt. 3. Die bedingte Wahrscheinlichkeit gibt an, mit welcher Wahrscheinlichkeit das Ereignis A eintreten wird, wenn man weiß, dass B eingetreten ist. Dementsprechend bedeutet P (A | B) < P (A) , dass B den Eintritt von A eher behindert, während bei P (A | B) > P (A) das Ereignis B den Eintritt von A begünstigt, und bei P (A | B) = P (A) hat B keinerlei Einfluss auf A . Im letzten Fall gilt nach der Multiplikationsregel P (A ∩ B) = P (A) P (B) ,
52
5 Unabhängigkeit
und diese Gleichung wird zur Definition der Unabhängigkeit von Ereignissen verwendet, da sie auch bei P (B) = 0 sinnvoll ist. Definition 5.3. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so nennt man die Ereignisse (Ai ) i∈I paarweise unabhängig, wenn gilt P (Ai ∩ Aj ) = P (Ai ) P (Aj )
∀ i = j .
(5.3)
Sie heißen unabhängig, wenn für alle endlichen Teilmengen {i1 , . . . , in } ⊆ I gilt ⎛ ⎞ n n
P⎝ Aij ⎠ = P (Aij ) . (5.4) j=1
j=1
Für die Praxis wichtig sind die beiden folgenden Resultate, für die wir noch eine Definition einführen. Definition 5.4. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so versteht man unter einem vollständigen Ereignissystem eine höchstens abzählbare Zerlegung von Ω durch Mengen Hi ∈ S , d.h. Hi ∩ Hj = ∅ ∀ i = j ∧ Hi = Ω . i
Die Ereignisse Hi werden manchmal auch Hypothesen genannt. Satz 5.5 (Satz von der vollständigen Wahrscheinlichkeit). Ist A ein beliebiges Ereignis und (Hi )i∈I ein vollständiges Ereignissystem auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt ! P (A) = P (Hi )P (A|Hi ) . (5.5) i∈I
Beweis. Da die Mengen Hi ein vollständiges Ereignissystem bilden, folgt aus der σ-Additivität von P und der Multiplikationsregel (5.2)
! ! P (A) = P (A ∩ Ω) = P A ∩ Hi = P (A ∩ Hi ) = P (Hi ) P (A|Hi ) . i∈I
i∈I
i∈I
Satz 5.6 (Bayes’sches Theorem). Ist (Hi )i∈I ein vollständiges Ereignissystem auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und A ein Ereignis mit positiver Wahrscheinlichkeit P (A) > 0 , so gilt P (Hi ) P (A | Hi ) . P (Hi | A) = P (Hj ) P (A | Hj )
(5.6)
j∈I
Beweis. Aus Definition 5.1, der Multiplikationsregel (5.2) und Satz 5.5 folgt P (Hi | A) =
P (A ∩ Hi ) P (Hi ) P (A | Hi ) P (Hi ) P (A | Hi ) = = . P (A) P (A) P (Hj ) P (A | Hj ) j∈I
5.2 Unabhängigkeit von Ereignissystemen
53
5.2 Unabhängigkeit von Ereignissystemen Als nächstes soll der Begriff der Unabhängigkeit auf Familien von Ereignissystemen ausgedehnt werden. Definition 5.7. Eine Familie von Ereignissystemen (Ci )i∈I auf einem Wahrscheinlichkeitsraum (Ω, S, P ) ist unabhängig, wenn für jede endliche Teilmenge {i1 , . . . , in } ⊆ I gilt ⎞ ⎛ n n
P⎝ Aij ⎠ = P (Aij ) ∀ Aij ∈ Cij , j = 1, . . . , n. j=1
j=1
Satz 5.8. Ist (Ci )i∈I eine unabhängige Familie durchschnittsstabiler Systeme auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so sind auch die von den Ci erzeugten σ–Algebren Ai := Aσ (Ci )i∈I unabhängig. Beweis. Wir nehmen o.E.d.A. I ⊆ N an und beweisen den Satz durch vollständige Induktion nach |I| . |I|= 2 : Zu B ∈ S definiert man DB := {A ∈ S : P (A ∩ B) = P (A) P (B)} . Klarerweise gilt Ω ∈ DB , und aus A ∈ DB folgt Ac ∈ DB , denn P (Ac ∩ B) = P (Ω ∩ B) − P (A ∩ B) = P (B)(1 − P (A)) = P (B)P (Ac ) . Ist (An ) eine Folge disjunkter Mengen aus DB , so gilt
! ! P An ∩ B = P (An ∩B) = P (B) P (An ) = P (B)P An . n
n
Daher gilt auch
n
n
An ∈ DB . Somit ist DB ein Dynkin - System.
n
Ist A2 ∈ C2 , so gilt C1 ⊆ DA2 . Daraus folgt D(C1 ) ⊆ DA2 . Wegen Satz 2.77 gilt aber A1 = Aσ (C1 ) = D(C1 ) . Somit gilt für alle A1 ∈ A1 und A2 ∈ C2 , dass P (A1 ∩ A2 ) = P (A1 ) P (A2 ) ⇒ C2 ⊆ DA1 ∀ A1 ∈ A1 . Daraus folgt A2 = Aσ (C2 ) = D(C2 ) ⊆ DA1 ∀ A1 ∈ A1 . Somit gilt P (A1 ∩ A2 ) = P (A1 ) P (A2 )
∀ A1 ∈ A1 , A2 ∈ A2 .
|I|=n → |I|+1 : Die Mengensysteme C˜i := Ci ∪{Ω}, i = 1, . . . , n sind n Ci : Ci ∈ C˜i durchdurchschnittsstabil und daher ist auch Cn1 := i=1
schnittsstabil. Da Cn1 unabhängig von Cn+1 ist, impliziert dies wegen der für |I| = 2 bewiesenen Aussage, dass Aσ (Cn1 ) unabhängig von An+1 ist. ⊆ Cn1 ∀ i = 1, . . . , n und daher auch Ai ⊆ Aσ (Cn1 ). DarNun gilt aber Ci n aus folgt An1 := Ai : Ai ∈ Ai ⊆ Aσ (Cn1 ) . An1 ist deshalb ebenfalls i=1
54
5 Unabhängigkeit
unabhängig von An+1 . Daraus erhält man schließlich unter Berücksichtigung der Induktionsvoraussetzung für alle Ai ∈ Ai
n+1
n n n+1
P Ai = P (An+1 ) P Ai = P (An+1 ) P (Ai ) = P (Ai ) . i=1
i=1
i=1
i=1
Folgerung 5.9. Sind die Ereignisse A1 , . . . , An unabhängig, so sind für jede Menge {i1 , . . . ik } ⊆ {1, . . . , n} auch die Ereignisse Aci1 , . . . , Acik , Aj1 , . . . , Ajn−k mit {j1 , . . . , jn−k } := {1, . . . , n} \ {i1 , . . . ik } unabhängig. Beweis. Das folgt aus Satz 5.8 mit Ci := {Ai } und Aσ (Ci ) = {∅, Ai , Aci , Ω} . Beispiel 5.10 (Eulersche ϕ-Funktion). Die Eulersche ϕ-Funktion ϕ(m) ist für jedes m ∈ N definiert als die Anzahl der zu m teilerfremden Zahlen aus {1, . . . , m} . Wir werden ihren Wert mit Hilfe des obigen Satzes bestimmen. n hj phi i , so gibt es pihi −1 pj = pmi Hat m die Primfaktorzerlegung m = i=1
j =i
Zahlen aus {1, . . . , m} , die durch pi teilbar sind. Bezeichnet man die Menge dieser Zahlen mit Ai und ist P die Gleichverteilung auf {1, . . . , m} , so gilt
phi i −1 P (Ai ) =
n
j=1
Daraus folgt P (Ai1 ∩ . . . ∩ Aik ) = nach Satz 5.8 P
n i=1
Aci
=
n
1 pi
=
h pj j
Aber es gilt auch |Ai1 ∩ . . . ∩ Aik | =
h
pj j
j =i
∀ i = 1, . . . , n.
g ∈{i / 1 ,...,ik }
k
1
j=1
P (Aci ) =
i=1
k
=
pij
h
pg g
h −1
j∈{i1 ,...,ik }
pj j
=
m k pij
.
j=1
P (Aij ) , und dies impliziert
j=1 n "
1−
i=1
1 pi
# .
n
Aci ist aber gera-
i=1
de die Menge der zu m teilerfremden Zahlen aus {1, . . . , m} und wir erhalten + +
n n n + +
1 + c+ c Ai = m ϕ(m) = + Ai + = mP 1− . + + pi i=1 i=1 i=1 Es gibt noch ein 2-tes Lemma von Borel-Cantelli für unabhängige Ereignisse. Satz 5.11 (2-tes Lemma von Borel-Cantelli). Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und sind die Ereignisse (An )n∈N unabhängig voneinander, so gilt ∞ ! n=1
P (An ) = ∞ ⇒ P
lim sup An n
= 1.
5.2 Unabhängigkeit von Ereignissystemen
55
c Ack = Bn mit Bn := Ak und n n k≥n k≥n n P (Bn ) . Aus der Subadditivität (Satz 3.18) folgt P (lim sup An )c ≤
Beweis. Aus (lim sup An )c =
∞
P (An ) = ∞ folgt aber
n=1
∞
n
P (Ak ) = k=n ∞ ln(1−P (Ak ))
∞
n
∀ n ∈ N . Damit erhält man nun −
∞
P (Ak )
= e−∞ = 0 ∀ n ∈ N . c Also gilt P (lim sup An ) = 0 bzw. äquivalent dazu P lim sup An = 1 .
P (Bn ) =
P (Ack )
=e
k=n
≤e
k=n
k≥n
n
n
Definition 5.12. Ist (An )n∈N eine Folge von Ereignissen in einem Wahrschein∞ Aσ (An , An+1 , . . . ) , lichkeitsraum (Ω, S, P ) , so bezeichnet man S∞ := n=1
den Durchschnitt der durch die Teilfolgen (An , An+1 , . . . ) erzeugten σ–Algebren Aσ (An , An+1 , . . . ) , als σ–Algebra der terminalen Ereignisse oder σ–Algebra der asymptotischen Ereignisse (klarerweise ist S∞ eine σ–Algebra). Dementsprechend heißen die Elemente von S∞ terminale oder asymptotische Ereignisse. Terminale Ereignisse sind beispielsweise lim inf An und lim sup An . Ereignisse aus S∞ sind entweder sicher oder unmöglich. Satz 5.13 (Kolmogoroff’sches Null-Eins-Gesetz). Ist (An ) eine Folge unabhängiger Ereignisse in einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt A ∈ S∞ ⇒ P (A) = 0 ∨ P (A) = 1 . k n Beweis. Die Ereignissysteme C1 := Aij : {i1 , . . . , ik } ⊆ {1, . . . , n} und j=1 k ∞ Aij : {i1 , . . . , ik } ⊆ {n + 1, n + 2, . . . } sind durchschnittsstaCn+1 := j=1
bil und unabhängig voneinander. Daher ist Aσ (Cn1 ) unabhängig von Aσ (C∞ n+1 ) . ) ist S deshalb unabhängig Wegen S∞ ⊆ Aσ (An+1 , An+2 , . . . ) ⊆ Aσ (C∞ ∞ n+1 n von Cn1 ∀ n ∈ N und daher auch unabhängig von C := C1 . n∈N
Da S∞ und C durchschnittsstabil sind, folgt aus Satz 5.8, dass auch S∞ und Aσ (C) = Aσ (A1 , A2 , . . .) unabhängig sind. Damit ist S∞ ⊆ Aσ (A1 , A2 . . .) unabhängig zu sich selbst. Für A ∈ S∞ gilt daher P (A) = P (A ∩ A) = P (A)2 . Daraus folgt P (A) = 0 ∨ P (A) = 1 .
6 Lebesgue-Stieltjes-Maße
6.1 Definition und Regularität In diesem Abschnitt betrachten wir Maßfunktionen, die auf der σ-Algebra Bk der k-dimensionalen Borelmengen des Rk definiert sind. Definition 6.1. Unter $einer Lebesgue-Stieltjes’schen Maßfunktion versteht man % eine Maßfunktion auf Rk , Bk , die jeder beschränkten Menge aus Bk ein endliches Maß zuordnet. Das System Jk der Zellen des Rk ist bekanntlich ein Semiring. Es genügt also eine Lebesgue-Stieltjes’sche Maßfunktion μ auf diesem Semiring zu definieren. Die Fortsetzung auf Bk ist dann eindeutig. $ % Definition 6.2. Ist μ ein Lebesgue-Stieltjes’sches Maß auf Rk , Bk , so nennt *k von Bk (bzw. Lμ := B , bei k = 1) bezügman die Vervollständigung Lμk := B lich μ das System der μ-Lebesgue-Stieltjes-messbaren Mengen. Da Lebesgue-Stieltjes’sche Maße σ-endlich sind, stimmt Lμk wegen Folgerung 4.22 mit der σ-Algebra Mμ der bezüglich μ messbaren Mengen überein und hängt deshalb im Unterschied zu Bk von μ ab. Zunächst betrachten wir ein paar Regularitätsaussagen, also Sätze über die Approximation des Maßes Lebesgue-Stieltjes-messbarer Mengen durch die Maße offener und abgeschlossener Mengen. $ % Satz 6.3. Ist μ ein Lebesgue-Stieltjes-Maß auf Rk , Lμk , so existieren zu jedem B ∈ Lμk und > 0 eine offene Menge U und eine abgeschlossene Menge A mit A ⊆ B ⊆ U ∧ μ (B \ A) < ∧ μ (U \ B) < . Beweis. Da die endlichen Vereinigungen von linkshalboffenen Zellen einen Ring bilden (siehe Satz 2.60) und auf Grund der Definition des induzierten äußeren Maßes (Def. 4.1) gibt es für jedes B ∈ Lμk mit μ (B) < ∞, und jedes ε > 0 eine Überdeckung durch halboffene Zellen (an , bn ] mit
58
6 Lebesgue-Stieltjes-Maße
μ(B) ≤
!
μ ((an , bn ]) < μ (B) +
n
ε . 2
(6.1)
1 Ist n ∈ N fest, so gilt (an , bn + m ) (an , bn ] und da μ stetig von oben ist (vgl. Satz 3.21), muss es zu jedem ε > 0 ein δn > 0 geben, sodass
μ((an , bn ]) ≤ μ ((an , bn + δn )) ≤ μ ((an , bn ]) + U :=
ε 2n+1
.
(6.2)
(an , bn + δn ) ist offen, B ⊆ U und wegen (6.1) und (6.2) gilt
n
μ(B) ≤ μ(U ) ≤
!
!
μ ((an , bn + δn )) ≤
n
μ ((an , bn ])+
n
! n
ε ≤ μ (B)+ε . 2n+1
Da μ(B) ≤ μ(U ) < ∞ , folgt daraus μ (U \ B) = μ (U ) − μ (B) ≤ ε . Gilt hingegen μ (B) = ∞ , so kann man B wegen der σ-Endlichkeit der Lebesgue-Stieltjes-Maße in Mengen Bn mit μ(Bn ) < ∞ ∀ n ∈ N zerlegen, und, wie oben gezeigt, gibt es zu jedem Bn eine offene Obermenge Un mit μ(Un \ Bn ) ≤ 2εn . Un ist daher eine offene Obermenge von B und es gilt n
μ
Un \ B
≤
n
!
μ (Un \ B) ≤
n
! n
μ (Un \ Bn ) ≤
! ε = ε. 2n n
Damit ist die Aussage über die Approximation von μ(B) durch die Maße offener Obermengen gezeigt. Daher existiert aber auch zu B c ein offenes V mit B c ⊆ V und ε ≥ μ(V \ B c ) = μ(V ∩ B) = μ(B \ V c ) . Da A := V c ⊆ B abgeschlossen ist, beweist dies auch den zweiten Teil des Satzes. Folgerung 6.4. Ist μ ein Lebesgue-Stieltjes-Maß auf (Rk , Lμk ) ,so sind die folgenden Bedingungen äquivalent 1. B ∈ Lμk . 2. Es gibt eine Folge (An ) abgeschlossener Teilmengen und eine Folge (Un ) offe1 ner Obermengen von B , mit μ(U n \ An ) ≤ n . 3. Es gibt eine Vereinigung A := An abzählbar vieler abgeschlossener Menn gen und einen Durchschnitt U := Un abzählbar vieler offener Mengen n
mit A ⊆ B ⊆ U ∧ μ(U \ A) = 0. Beweis.
1 . 1. ⇒ 2. : Dies folgt unmittelbar aus dem vorigen Satz 6.3 mit ε = 2n 1 ⊆ B ⊆ U mit μ(U \ A ) ≤ aus Punkt 2. 2. ⇒ 3. : Für die Mengen A n n n n n gilt An ⊆ A := An ⊆ B ⊆ U := Un ⊆ Un ∀ n ∈ N . Daraus folgt n
μ(U \ A) ≤ μ(Un \ An ) ≤
n
1 n
∀ n ∈ N ⇒ μ(U \ A) = 0 .
6.2 Verteilungsfunktionen auf R
59
3. ⇒ 1. : Da nach Lemma 2.59 alle offenen und abgeschlossenen Mengen Borel-messbar sind, gilt A, U ∈ Bk . Daraus folgt wegen B \ A ⊆ U \ A *k = Lμ . und μ(U \ A) = 0 sofort B = A ∪ (B \ A) ∈ B k Folgerung 6.5. Für jedes B ∈ Lμk gilt μ (B) = inf{μ (U ) : B ⊆ U, U ist offen} = sup{μ (A) : A ⊆ B, A ist abgeschlossen} = sup{μ (C) : C ⊆ B, C ist kompakt} .
(6.3) (6.4) (6.5)
Beweis. Es bleibt nur μ (B) = sup{μ (C) : C ⊆ B , C kompakt} zu zeigen. Zu jedem M < μ (B) existiert eine abgeschlossene Menge AM ⊆ B mit μ (AM ) > M. Die Mengen AM ∩[−n, n] , n ∈ Nk sind alle kompakt und bilden eine mit n monoton gegen AM steigende Folge. Wegen Satz 3.20 gibt es daher ein n0 ∈ Nk , sodass μ (AM ∩ [−n0 , n0 ]) > M, woraus folgt μ (B) = sup{μ (C) : C ⊆ B ,
C ist kompakt}.
Bemerkung 6.6. Man nennt Mengen, für die (6.3) gilt, oft von außen regulär und Mengen, die (6.5) erfüllen, von innen regulär. Gelten beide Beziehungen heißt die Menge regulär, und das Maß μ ist regulär, wenn alle Elemente der σ-Algebra, auf der μ definiert ist, regulär sind.
6.2 Verteilungsfunktionen auf R Als erstes wollen wir nun die Lebesgue-Stieltjes-Maße auf (R, B) untersuchen. Ist μ eine derartige Maßfunktion, so wird durch μ ((0, x]) , x ≥ 0 F (x) := sgn(x) μ ((0 ∧ x, 0 ∨ x]) = (6.6) −μ ((x, 0]) , x < 0 eine Funktion F : R → R definiert mit μ ((a, b]) = F (b)−F (a)
∀ a ≤ b ∈ R.
Definition 6.7. Ist μ ein Lebesgue-Stieltjes-Maß auf (R, B) , so bezeichnet man eine Funktion F : R → R als Verteilungsfunktion von μ , wenn gilt μ ((a, b]) = F (b) − F (a)
∀ a ≤ b ∈ R.
(6.7)
Wie wir gesehen haben, gibt es zu μ mindestens eine Verteilungsfunktion F . Das nächste Lemma zeigt, welcher Zusammenhang zwischen verschiedenen Verteilungsfunktionen F und G von μ besteht Lemma 6.8. Sind F und G zwei Verteilungsfunktionen eines Lebesgue-StieltjesMaßes μ auf (R, B) , so gibt es eine Konstante c ∈ R , sodass gilt F − G = c . Beweis. Aus μ ((a, b]) = F (b) − F (a) = G(b) − G(a) folgt F (b) − G(b) = c := F (a) − G(a)
∀ a < b.
60
6 Lebesgue-Stieltjes-Maße
Verteilungsfunktionen haben folgende Eigenschaften. Satz 6.9. Ist F die Verteilungsfunktion eines Lebesgue-Stieltjes-Maßes μ auf (R, B) , so gilt 1. F ist monoton steigend, d.h. x < y ⇒ F (x) ≤ F (y) , 2. F ist rechtsstetig, d.h. F+ (x) := lim F (x + hn ) = F (x) hn 0
∀ x ∈ R.
Beweis. ad 1. Für x < y gilt F (y) − F (x) = μ((x, y]) ≥ 0 . ad 2. Mit hn 0 gilt (x, x + hn ] (x, x] = ∅ , woraus wegen Satz 3.21 folgt lim (F (x + hn ) − F (x)) = lim μ((x, x + hn ]) = μ(∅) = 0 .
n→∞
n→∞
Bemerkung 6.10. Bezeichnet man mit F− (x) := lim F (x−h) den linksseitigen h 0 Grenzwert von F im Punkt x , so gilt wegen {x} = (x − n1 , x] und Satz 3.21 n
μ({x}) = lim μ (x − n
1 , x] n
= F (x) − F− (x)
∀ x ∈ R.
(6.8)
F ist daher in x genau dann linksstetig und damit auch stetig, wenn μ ({x}) = 0 . Wir zeigen nun, dass die beiden, im vorigen Satz aufgelisteten Eigenschaften Verteilungsfunktionen auf R charakterisieren. Satz 6.11. Ist F : R → R monoton steigend und in allen Punkten rechtsstetig, so gibt es eine eindeutig bestimmte Lebesgue-Stieltjes’sche Maßfunktion μF auf (R, B) , für die gilt μF ((a, b]) = F (b) − F (a) ∀ a ≤ b . Beweis. Mit μF ((a, b]) := F (b) − F (a) wird eine Mengenfunktion auf dem System J der linkshalboffenen Intervalle definiert, für die gilt μF (∅) = μF ((x, x]) = F (x) − F (x) = 0 , μF ((x, y]) = F (y) − F (x) ≥ 0 ∀ (x, y] ∈ J .
(6.9) (6.10)
Sind (a1 , b1 ] , (a2 , b2 ] zwei disjunkte Intervalle, deren Vereinigung wieder ein Intervall ist, so muss gelten b1 = a2 ∨ b2 = a1 . Nimmt man o.E.d.A. an, dass b1 = a2 , so gilt (a1 , b1 ] ∪ (a2 , b2 ] = (a1 , b2 ] , und daraus folgt μF ((a1 , b1 ] ∪ (a2 , b2 ]) = F (b2 ) − F (a1 ) = F (b2 ) − F (a2 ) + F (a2 ) − F (a1 ) = F (b2 ) − F (a2 ) + F (b1 ) − F (a1 ) = μF ((a2 , b2 ]) + μF ((a1 , b1 ]) . (6.11) Gemäß (6.9), (6.10), (6.11) und Satz 3.4 ist μF ein Inhalt auf J und es bleibt nur noch die σ-Additivität zu zeigen. Ist ((an , bn ]) eine Folge disjunkter Intervalle, mit (a, b] = (an , bn ], so n∈N
gilt wegen Lemma 3.19
6.3 Das Lebesgue-Maß auf R
F (b)−F (a) = μF ((a, b]) ≥
!
μF ((an , bn ]) =
n∈N
!
61
(F (bn ) − F (an )) . (6.12)
n∈N
Umgekehrt gibt es wegen der Rechtsstetigkeit von F zu jedem ε > 0 positive Zahlen δ, δn , sodass F (a) ≤ F (a + δ) ≤ F (a) + ε ∧ F (bn ) ≤ F (bn + δn ) ≤ F (bn ) +
ε 2n
∀ n ∈ N. (6.13) (an , bn ] ⊆ (an , bn + δn ) und dem Satz von HeineAus [a + δ, b] ⊆ n∈N
n∈N
Borel (Satz A.32) folgt, dass es ein n0 ∈ N gibt mit (a + δ, b] ⊆ [a + δ, b] ⊆
no
no
(an , bn + δn ) ⊆
n=1
(an , bn + δn ] .
n=1
Somit gilt wegen der Subadditivität von μF (Satz 3.18) und (6.13) μF ((a, b]) = F (b) − F (a) ≤ F (b) − F (a + δ) + ε = μF ((a + δ, b]) + ε n0 n0 ! ! μF ((an , bn + δn ]) + ε = (F (bn + δn ) − F (an )) + ε ≤ n=1
≤
!
n∈N
n=1
! ε (F (bn ) − F (an )) + + ε. 2n
(6.14)
n∈N
Da ε > 0 beliebig ist, folgt aus (6.12) und (6.14) μF ((a, b]) =
μF ((an , bn ]) .
n∈N
6.3 Das Lebesgue-Maß auf R Das wichtigste Lebesgue-Stieltjes-Maß ist das Lebesgue-Maß. Definition 6.12. Das Lebesgue-Stieltjes-Maß λ , das den Intervallen ihre Länge zuordnet, für das also gilt λ((a, b]) = b − a ∀ a ≤ b ,
(6.15)
wird als Lebesgue-Maß bezeichnet. Die σ-Algebra L := Lλ nennt man das System der Lebesgue-messbaren Mengen. Bemerkung 6.13. Dem Lebesgue-Maß entsprechen die Verteilungsfunktionen F (x) = x + c, x, c ∈ R und da diese stetig sind, gilt gemäß Bemerkung 6.10 λ ({x}) = 0 ∀ x ∈ R , sodass (6.15) auch für offene, abgeschlossene und rechtshalboffene Intervalle richtig bleibt. Das Lebesgue’sche Maß hat eine geometrisch interessante Eigenschaft. Es ist translationsinvariant. Es gilt sogar ein wenig mehr.
62
6 Lebesgue-Stieltjes-Maße
Satz 6.14. Für Abbildungen T : R → R der Form T (x) = α x + β mit α = 0 gilt 1. T (B) = {y = α x + β : x ∈ B} ∈ B ⇔ B ∈ B , 2. T (B) ∈ L ⇔ B ∈ L , 3. λ (T (B)) = |α| λ (B) ∀ B ∈ L . Beweis. ad 1. T ist stetig. Daher ist das Urbild T −1 (U ) jeder offenen Menge U offen. Bezeichnet man das System der offenen Mengen mit O , so gilt demnach T −1 (O) ⊆ O . Wegen α = 0 existiert die Umkehrabbildung T −1 , und diese ist ebenfalls stetig. Damit gilt für jede offene Menge U , dass auch (T −1 )−1 (U ) = T (U ) offen ist, d.h. T (O) ⊆ O . Daraus folgt O = T −1 (T (O)) ⊆ T −1 (O) . Somit gilt T −1 (O) = O , woraus nach Lemma 2.59 und Satz 2.63 folgt B = Aσ (O) = Aσ (T −1 (O)) = T −1 (Aσ (O)) = T −1 (B) .
(6.16)
−1 Demnach gilt T (B) ∈B ⇒ % T (T (B)) = B ∈ B . Aber (6.16) impliziert $ −1 auch T (B) = T T (B) = B , sodass auch gilt B ∈ B ⇒ T (B) ∈ B . ad 2. und 3. Die Maße μ1 ((a, b]) := λ (T (a, b]) und μ2 ((a, b]) := |α| λ ((a, b]) stimmen offensichtlich auf dem System J der linkshalboffenen Intervalle überein und damit auch auf B , Demnach gilt
λ (T (B)) = |α| λ (B)
∀ B ∈ B.
(6.17)
Aus B = C ∪ M ∈ L mit C ∈ B, M ⊆ N ∈ B, λ (N ) = 0 folgt T (B) = T (C) ∪ T (M ) ∧ T (M ) ⊆ T (N ) ∧ λ (T (N )) = |α| λ (N ) = 0 . Also gilt B ∈ L ⇒ T (B) ∈ L und λ(T (B)) = λ(T (C)) . Daraus folgt nun λ(T (B)) = λ(T (C)) = |α| λ(C) = |α| λ(B) . Ersetzt man in den obigen Überlegungen T durch T −1 , so führt dies zu B ∈ L ⇒ T −1 (B) ∈ L . Angewendet auf T (B) ergibt sich daraus schließlich T (B) ∈ L ⇒ T −1 (T (B)) = B ∈ L . Das Lebesguesche Maß ist bis auf eine multiplikative Konstante das einzige translationsinvariante Lebesgue-Stieltjes Maß auf (R, B) . Satz 6.15. Ist μ ein translationsinvariantes Lebesgue-Stieltjes Maß auf (R, B) , so gibt es eine Konstante k ≥ 0 , sodass μ (B) = k λ (B)
∀ B ∈ L.
Beweis. Ist A + c := {x + c : x ∈ A} , so gilt für alle m, n ∈ N und q ∈ Q m−1 $ % $$ 1- i q, q + m = 0, n + n + q . Daraus folgt wegen der Translationsn i=0 -% $$ -% $$ invarianz k := μ((0, 1]) = n μ 0, n1 bzw. μ 0, n1 = nk ∀ n ∈ N , was
6.4 Diskrete und stetige Verteilungsfunktionen
weiters zu μ
$$
q, q +
m n
-%
=
m−1 i=0
μ
$$
0, n1 + q +
i m
%
=
mk n
= kλ
$$
q, q +
63 m n
-%
führt. Die beiden Maße μ und k λ stimmen also auf J1,Q dem System der halboffenen Intervalle mit rationalen Endpunkten überein und, da dieses System gemäß Lemma 2.58 B erzeugt, müssen sie auch auf B identisch sein und dementsprechend die gleiche Vervollständigung besitzen, d.h. Lμ = Lk λ . Ist k = 0 , so sind alle B ⊆ R Nullmengen, und es gilt Lμ = Lk λ = P(R) . Für k > 0 gilt nach Satz 6.14 Lμ = Lk λ = L . Bemerkung 6.16. Auch das Zählmaß ζ(A) := |A| ist translationsinvariant, aber ζ ist wegen ζ((a, b]) = ∞ für a < b kein Lebesgue-Stieltjes-Maß. Bemerkung 6.17. Im Abschnitt 1.1 wurde (mit Hilfe des Auswahlaxioms A.2) gezeigt, dass es kein translationsinvariantes Maß auf P(R) geben kann, das den Intervallen ihre Länge als Maß zuordnet. Damit ist klar, dass L ein echtes Teilsystem von P(R) ist, also L ⊂ P(R), L = P(R) . Wir werden später sehen, dass L seinerseits eine echte Obermenge von B ist.
6.4 Diskrete und stetige Verteilungsfunktionen Definition 6.18. Ein Lebesgue-Stieltjes-Maß μ auf (Rk , Bk ) wird diskret genannt, wenn es eine Teilmenge D ⊆ Rk , |D| ≤ ℵ0 gibt, mit μ(D c ) = 0 . Wie das folgende Lemma zeigt, kann man diskrete Lebesgue-Stieltjes-Maße ohne Probleme auf die Potenzmenge fortsetzen. Lemma 6.19. Ist μ ein diskretes Lebesgue-Stieltjes-Maß auf (Rk , Bk ) , so gilt Lμk = P(Rk ) , d.h. alle Mengen sind μ-messbar. 1 (x − , x] in Bk liegen und n n D höchstens abzählbar ist, liegen alle Teilmengen von D in Bk ⊆ Lμk . Voraussetzungsgemäß liegen aber auch alle Teilmengen von D c als μ-Nullmengen in Lμk , und, da Lμk eine σ-Algebra ist, liegen auch alle Vereinigungen einer Teilmenge von D und einer Teilmenge von D c in Lμk . Beweis. Da alle einpunktigen Mengen {x} =
Die Verteilungsfunktionen diskreter Lebesgue-Stieltjes-Maße auf (R, B) können folgendermaßen charakterisiert werden. Lemma 6.20. Eine Funktion F : R → R ist genau dann die Verteilungsfunktion eines diskreten Lebesgue-Stieltjes-Maßes μ auf (R, B) , wenn es eine höchstens abzählbare Menge D und eine Funktion p : D → (0, ∞) gibt mit ! F (b) − F (a) = p(x) < ∞ ∀ a ≤ b . (6.18) x∈(a,b]∩D
64
6 Lebesgue-Stieltjes-Maße
Beweis. ⇒ : Ist μ ein diskretes Lebesgue-Stieltjes-Maß mit |D| ≤ ℵ0 und μ(Dc ) = 0 , so gilt für jede zu μ gehörige Verteilungsfunktion F ! μ({x}) < ∞ ∀ a ≤ b , F (b) − F (a) = μ((a, b]) = μ((a, b] ∩ D) = x∈(a,b]∩D
und p(x) := μ({x}) > 0 ∀ x ∈ D ist die gesuchte Funktion. ⇐: Gilt für F die Gleichung (6.18), so ist F klarerweise monoton und bis auf eine additive Konstante bestimmt. Außerdem gilt für a ∈ R und h > 0 ! F (a + h) − F (a) = p(x) < ∞ . (6.19) x∈(a,a+h]∩D
Mit (a, a + h] ∩ D = {x i : i ∈ I ⊆ N}, gibt es wegen (6.19) zu jedem ε > 0 ein n0 ∈ N , sodass p(xi ) < ε . Mit 0 < δ < min{|a − xi | : 1 ≤ i ≤ n0 } i>n0 p(xi ) < ε , d.h. F ist in jedem Punkt gilt dann F (a + δ) − F (a) ≤ i>n0
rechtsstetig. Deshalb gibt es ein Lebesgue-Stieltjes-Maß μ mit ! p(x) ∀ a ≤ b . μ((a, b]) = F (b) − F (a) =
(6.20)
x∈(a,b]∩D
: i ∈ I1 ⊆ N}, gibt es wegen (6.19) Für x ∈ D und (x − h, x) ∩ D = {xi zu jedem ε > 0 ein n1 ∈ N , sodass p(xi ) < ε . Wählt man δ1 > 0 so, i>n1
dass δ1 < min{|x − xi | : 1 ≤ i ≤ n1 } , dann gilt ! p(xi ) < p(x) + ε . p(x) ≤ F (x) − F (x − δ1 ) ≤ p(x) + i>n1
Daraus und aus (6.8) folgt p(x) = F (x) − F− (x) = μ({x}) ∀ x ∈ D . Desp(x) = μ((a, b]) ∀ a ≤ b . Dies implihalb gilt μ((a, b] ∩ D) = x∈(a,b]∩D
ziert μ((a, b] ∩ D c ) = 0
∀ a ≤ b ⇒ μ(D c ) = lim μ((−n, n] ∩ Dc ) = 0 . n
Demnach ist μ diskret, und wegen F (x) − F− (x) = μ({x}) = 0 hat F nur Unstetigkeitsstellen in D , sodass gilt p(x) , x ∈ D F (x) − F− (x) = μ({x}) = 0, x ∈ Dc .
∀ x ∈ Dc
(6.21)
Definition 6.21. Eine Funktion F : R → R nennt man eine diskrete Verteilungsfunktion, wenn es eine höchstens abzählbare Menge D und eine Funktion p : D → (0, ∞) gibt mit ! F (b) − F (a) = p(x) < ∞ ∀ a ≤ b . (6.22) x∈(a,b]∩D
6.4 Diskrete und stetige Verteilungsfunktionen
65
Bemerkung 6.22. Setzt man F (0) := 0 , so ist (6.22) äquivalent zu ! p(x) ∈ R ∀ b ∈ R . F (b) = sgn(b) x∈(0∧b, 0∨b]∩D
Lemma 6.23. Ist μ ein Lebesgue-Stieltjes-Maß auf (R, B) , so ist die Menge D := {x : μ({x}) > 0} höchstens abzählbar. Beweis. Da Dn := {x ∈ [−n, n] : μ({x}) > n1 } eine beschränkte Menge ist, gilt n1 |Dn | ≤ μ(Dn ) ≤ μ([−n, n]) < ∞ +. Daraus + folgt |Dn | < ∞ ∀ n ∈ N , + + ! + + und daraus ergibt sich schließlich |D| = + Dn + ≤ |Dn | ≤ ℵ0 . + + n
n
Folgerung 6.24. Ist F : R → R eine Verteilungsfunktion, so ist die Anzahl der Sprungstellen D := {x : F (x) − F− (x) > 0} höchstens abzählbar. Beweis. Ist μ das Lebesgue-Stieltjes-Maß von F , so gilt D = {x : μ({x}) > 0} . Satz 6.25. Ist F : R → R eine Verteilungsfunktion, so gibt es eine diskrete Verteilungsfunktion Fd und eine stetige Verteilungsfunktion Fs , sodass (6.23)
F = Fd + Fs . Fd und Fs sind bis auf eine additive Konstante eindeutig bestimmt.
Beweis. Ist μ das zu F gehörige Lebesgue-Stieltjes-Maß, so ist laut Lemma 6.23 D := {x : μ({x}) > 0} = {x : F (x) − F− (x) > 0} höchstens abzählbar, und dementsprechend ist μd (B) := μ(B ∩ D) ∀ B ∈ B ein diskretes Lebesgue-Stieltjes-Maß. Nach Lemma 6.20 ist jede Verteilungsfunktion Fd von μd ebenfalls diskret, wobei entsprechend Gleichung (6.21) gilt μd ({x}) = μ({x}) , x ∈ D (6.24) Fd (x) − Fd− (x) = 0, x ∈ Dc . Auch μs (B) := μ(B ∩ Dc ) ist ein Lebesgue-Stieltjes-Maß. Ist Fs eine Verteilungsfunktion von μs so muss wegen μ = μd + μs klarerweise gelten F (b)−F (a) = Fd (b)−Fd (a)+Fs (b)−Fs (a) ≥ Fs (b)−Fs (a)
∀ a ≤ b , (6.25)
Aus (6.25) folgt Fs (x) − Fs− (x) ≤ F (x) − F− (x) ∀ x ∈ R , und deshalb gilt Fs (x) − Fs− (x) = 0 ∀ x ∈ D c . Weil aber für alle Punkte x ∈ D ebenfalls gilt Fs (x) − Fs− (x) = μ({x} ∩ Dc ) = μ(∅) = 0 , ist Fs auf ganz R stetig. Somit ist (6.23) gezeigt, und es bleibt uns nur noch der Nachweis der Eindeutigkeit. Ist Gd eine diskrete Verteilungsfunktion der Gestalt ! Gd (b) − Gd (a) = q(x) ∀ a ≤ b, q : E → (0, ∞), |E| ≤ ℵ0 x∈(a,b]∩E
66
6 Lebesgue-Stieltjes-Maße
und existiert dazu eine stetige Verteilungsfunktion Gs , mit der zusammen gilt Gd + Gs = F = Fd + Fs , so folgt daraus Gd − Fd = Fs − Gs ist stetig auf R . Das zusammen mit Gleichung (6.24) ergibt μd ({x}) = μ({x}) , x ∈ D Gd (x) − Gd− (x) = Fd (x) − Fd− (x) = (6.26) 0, x ∈ Dc . q(x) , x ∈ E Da andererseits nach (6.21) gilt Gd (x) − Gd− (x) = muss 0, x ∈ Ec , daraus folgen E = D und q(x) = μ({x}) ∀ x ∈ D . Demnach müssen Gd und Fd bis auf eine additive Konstante übereinstimmen. Dann aber muss dies auch für Fs und Gs gelten.
6.5 Wahrscheinlichkeitsverteilungen auf R Ist μ ein endliches Maß auf dem Raum (R, B) , so gilt für alle Punkte x ∈ R F (x) := μ((−∞, x]) ≤ μ(R) < ∞ , und aus F (b) − F (a) = μ((a, b]) ∀ a ≤ b folgt, dass F eine Verteilungsfunktionen von μ ist. Für diese Verteilungsfunktion gilt wegen (−∞, −n] ∅ und (−∞, n] R zusätzlich F (−∞) := lim F (−n) = 0 und F (∞) := lim F (n) = μ(R) . n
n
Insbesondere für Wahrscheinlichkeitsverteilungen P auf (R, B) ist es üblich nur die oben definierten Verteilungsfunktionen zu betrachten. Definition 6.26. Eine Verteilungsfunktion F : R → R , für die zusätzlich gilt F (−∞) := lim F (x) = 0 ,
(6.27)
F (∞) := lim F (x) = 1 ,
(6.28)
x→−∞ x→∞
wird als Verteilungsfunktion im engeren Sinn (i.e.S.) oder als wahrscheinlichkeitstheoretische Verteilungsfunktion bezeichnet. Derartige Verteilungsfunktionen sind offensichtlich eindeutig festgelegt, sodass eine bijektive Beziehung zwischen der Menge der Wahrscheinlichkeitsverteilungen auf (R, B) und den Verteilungsfunktionen i.e.S. besteht. Als nächstes formulieren wir das Analogon von Satz 6.25 für Verteilungen. Satz 6.27. Jede Wahrscheinlichkeitsverteilung P auf (R, B) kann dargestellt werden als Mischung einer diskreten Wahrscheinlichkeitsverteilung Pd und einer Wahrscheinlichkeitsverteilung Ps mit stetiger Verteilungsfunktion P = α Pd + (1 − α) Ps , 0 ≤ α ≤ 1 . Jede Verteilungsfunktion i.e.S. F ist Mischung einer diskreten Verteilungsfunktion i.e.S. Fd und einer stetigen Verteilungsfunktion i.e.S. Fs F = α Fd + (1 − α) Fs , 0 ≤ α ≤ 1 .
6.5 Wahrscheinlichkeitsverteilungen auf R
67
Beweis. Zerlegt man die Verteilung P in ein diskretes Maß μd und ein Maß μs mit stetiger Verteilungsfunktion, also P = μd +μs , so gilt 0 ≤ α := μd (R) ≤ 1 . Für α = 0 hat P selbst eine überall stetige Verteilungsfunktion und man kann P in der Form P = 0 Pd + 1 P anschreiben, wobei Pd ein beliebiges diskretes Wahrscheinlichkeitsmaß ist. Bei α = 1 ist P diskret, und es gilt P = 1 P +0 Ps für jede Wahrscheinlichkeitsverteilung Ps mit stetiger Verteilungsfunktion. Gilt hingegen 0 < α < 1 , so ist Pd := μαd eine diskrete Wahrscheinlichkeitsμs verteilung und Ps := 1−α ist ein Wahrscheinlichkeitsmaß mit stetiger Verteilungsfunktion. Weiters gilt P = α Pd +(1−α) Ps . Sind Fd und Fs die zu Pd und Ps gehörigen Verteilungsfunktionen i.e.S., so gilt auch F = α Fd + (1 − α) Fs . Bemerkung 6.28. Der obige Satz bedeutet, dass man sich jeden Versuch mit Ausgängen aus R als zweistufiges Experiment denken kann, bei dem in der ersten Stufe mit den Wahrscheinlichkeiten α und 1 − α eine der beiden Verteilungen Pd oder Ps ausgewählt wird, und man dann im zweiten Schritt den Versuchsausgang gemäß dieser Verteilung bestimmt. Diskrete Wahrscheinlichkeitsverteilungen Beispiele für diskrete Wahrscheinlichkeitsverteilungen sind Beispiel 6.29 (Alternativ- oder Bernoulliverteilung Bp , 0 ≤ p ≤ 1 ). Bei der Alternativverteilung ist die gesamte Wahrscheinlichkeit auf die Punkte 0, 1 konzentriert, d.h. D = {0, 1}, p (1) = p , p (0) = 1 − p , 0 ≤ p ≤ 1 . Ist p = 0 oder p = 1 , so spricht man von einer Kausalverteilung, einer DiracVerteilung oder auch einer deterministischen Verteilung. Beispiel 6.30 (diskrete Gleichverteilung Dm , m ∈ N ). Bei der diskreten Gleichverteilung haben alle Punkte einer m-elementigen 1 1 , also p(x) = m , x ∈ D. Menge D die gleiche Wahrscheinlichkeit m Beispiel 6.31 (Binomialverteilung Bn,p , n ∈ N , 0 ≤ p ≤ 1 ). Die Binomialverteilung Bn,p gibt die Anzahl der „Einsen“ bei n Ziehungen mit Zurücklegen aus einer Urne mit einem Anteil p an „Einsen“ und einem Anteil 1 − p an „Nullen“ an und ist daher auf die Punkte D = {0, . . . , n} konzentriert mit den Punktwahrscheinlichkeiten n x n−x , x = 0, 1, . . . , n . p (1 − p) p(x) = x Die Bernoulliverteilung ist der Sonderfall der Binomialverteilung mit n = 1 . Beispiel 6.32 (Poissonverteilung Pθ , θ > 0). Die Poissonverteilung ist auf D = N0 konzentriert mit p(x) =
θx −θ e , x!
x ∈ N0 .
Sie dient unter anderem zur Approximation der Binomialverteilung. Wir werden später näher auf diesen Zusammenhang eingehen.
68
6 Lebesgue-Stieltjes-Maße
Beispiel 6.33 (Hypergeometrische Verteilung HA,N −A,n ). Hier enthält die Urne A „Einsen“ und N − A „Nullen“ und die n Ziehungen erfolgen ohne Zurücklegen. Die Anzahl der „Einsen“ in den Ziehungen kann natürlich n und A nicht übersteigen. Andererseits muss diese Anzahl nichtnegativ sein, und die Anzahl der „Nullen“ n − x in den Ziehungen kann nicht größer als N − A werden. Somit D = {max{0, n − N + A}, . . . , min{n, A}} . Man zieht x „Einsen“ gerade dann, wenn bei den Ziehungen aus den A „Einsen“ x Elemente $ %ausgewählt werden und aus den N − A „Nullen“ n − x Elemente. Da es N n Möglichkeiten gibt n Elemente aus N zu wählen, gilt $A% $N −A% p (x) =
x
, $Nn−x %
x ∈ D.
n
Beispiel 6.34 (negative Binomialverteilung neg Bn,p , n ∈ N, 0 ≤ p ≤ 1 ). Die Anzahl der „Nullen“ , die man mit Zurücklegen zieht, bis man n „Einsen“ gezogen hat, wobei die Urne wieder mit einem Anteil p an „Einsen“ und einem Anteil 1 − p an „Nullen“ gefüllt ist. Daher ist in diesem Fall D = N0 . n+x−1 n x (6.29) p (1 − p) , x ∈ N0 . p (x) = n−1 Die negative Binomialverteilung mit n = 1 wird geometrische Verteilung genannt und man verwendet für sie auch die Bezeichnung Gp . Für sie gilt x
p (x) = p (1 − p) ,
x ∈ N0 .
(6.30)
Verteilungen mit stetiger Verteilungsfunktion Viele Verteilungsfunktionen F von Wahrscheinlichkeitsmaßen lassen sich als Integral einer (bis auf endlich viele Punkte) stetigen, nichtnegativen Funktion .x f darstellen, also F (x) = f (t) dt . Die Funktion f wird Dichte genannt, ein −∞
Begriff, der erst später in allgemeinerer Weise definiert wird. Aus der Analysis ist bekannt, dass F dann differenzierbar ist mit F = f . .∞ Wegen F (∞) = 1 muss natürlich auch gelten f (t) dt = 1 . −∞
Beispiel 6.35 (stetige Gleichverteilung auf (a, b) , Ua,b , a < b). 1 Zu f (t) := b−a 1[a,b] (t) erhält man die Verteilungsfunktion ⎧ x
6.6 Verteilungsfunktionen auf Rk
69
[a, b] sie sich befinden. Daraus erklärt sich der Name stetige Gleichverteilung. Da die Verteilungsfunktion stetig ist, ist es unerheblich, ob man die stetige Gleichverteilung auf einem offenen oder einem abgeschlossenen Intervall betrachtet. Beispiel 6.36 (Weibull-Verteilung Wa,b , f (t) =
0 < a, b).
a b ta−1 e−b t , 0, a
t≥0 sonst
ist stetig für t > 0 und liefert die Verteilungsfunktion 0, x<0 a F (x) = 1 − e−b x , 0 ≤ x . Diese Verteilung wird häufig zur Modellierung der Lebensdauer von Werkstoffen verwendet und spielt eine große Rolle in der Zuverlässigkeitstheorie.
6.6 Verteilungsfunktionen auf Rk Ist x = (x1 , . . . , xn ) ∈ Rk , so bezeichnen wir für i ≤ j mit xji die Teilfolge xji := (xi , . . . , xj ); für i > j bezeichnet xji einfach eine leere Teilfolge, also bspw. (x12 , x3 , x4 ) = (x3 , x4 ) . Bei der Betrachtung mehrdimensionaler Verteilungsfunktionen empfiehlt sich die Verwendung des folgenden Begriffs. Definition 6.37. Ist F : Rk → R , i
a, b ∈ Rk , so wird $ i−1 % bi i−1 k k ai F (x) := F ((x1 , bi , xi+1 )) − F (x1 , ai , xi+1 )
als Differenzenoperator (in der i-ten Koordinate) bezeichnet. Für k = 1 schreibt man einfach ba F . Die nächsten Hilfssätze beinhalten wichtige Eigenschaften von
b a
.
Lemma 6.38. Sind F : Rk → R , G : Rk → R Funktionen auf Rk , so gilt i
bi ai (F
+ G) =
i
bi ai F
+
i
bi ai G .
(6.31)
Beweis. Das folgt unmittelbar aus der Definition des Differenzenoperators.. k Lemma der Koordinate xi $ i−16.39. kHängt % F : R → R nicht von F (x1 , xi , xi+1 ) = c ∀ xi ∈ R , so gilt abii F = 0 . i
Beweis. Klar.
ab, d.h.
70
6 Lebesgue-Stieltjes-Maße
Die Operatoren
i
,
j
∀ i = j sind vertauschbar.
Lemma 6.40. Ist F : Rk → R , so gilt ∀ ai , aj , bi , bj ∈ Rk i
bi ai
bj aj F
j
=
j
bj aj
i
bi ai F
.
Beweis. Da nur die Koordinaten i und j betroffen sind, kann man sich auf k = 2 beschränken. 1
b1 a1
2
b2 a2 F
=
1
b1 a1
( F (x1 , b2 ) − F (x1 , a2 ) )
= F (b1 , b2 ) − F (b1 , a2 ) − F (a1 , b2 ) + F (a1 , a2 )
= F (b1 , b2 ) − F (a1 , b2 ) − F (b1 , a2 ) + F (a1 , a2 ) = ab22 ( F (b1 , x2 ) − F (a1 , x2 ) ) = ab22 ab11 F . 2
2
1
Definition 6.41. Ist F : R → R , a, b ∈ R , so bezeichnet man k
k
b aF
:=
k
bk ak
...
1
b1 a1 F
(6.32)
als k-fachen Differenzenoperator. Lemma 6.42. Sind F : Rk → R , G : Rk → R, a, b ∈ Rk , so gilt b a (F
b aF
+ G) =
b aG .
+
Beweis. Dies folgt unmittelbar aus Lemma 6.38. Lemma 6.43. Hängt F : Rk → R von höchstens k − 1 Koordinaten ab, so gilt b aF
= 0.
Beweis. Ist F unabhängig von xi , so gilt
i
bi ai F
= 0 , Daraus folgt
b aF
= 0.
Folgerung 6.44. Sind F : Rk → R, und Hi : Rk → R , i = 1 . . . , k , Funktionen auf Rk , wobei jedes Hi unabhängig vom jeweiligen xi ist, so gilt
k ! b b Hi F+ ∀ a, b ∈ Rk . aF = a i=1
Beweis. Klar. Im Beweis von Lemma 6.40 sieht man, dass in
1
b1 a1
2
b2 a2 F
das Argument von
F alle Vektoren (x1 , x2 ) durchläuft, die mit den Werten a1 oder b1 für x1 und a2 oder b2 für x2 gebildet werden können, wobei das Vorzeichen davon abhängt, ob (x1 , x2 ) eine gerade oder ungerade Anzahl von a-Koordinaten enthält. Beim Übergang zu ab11 ab22 ba33 F muss jeder dieser Vektoren (x1 , x2 ) 1
2
3
einmal um die Koordinate x3 = b3 und einmal um x3 = a3 erweitert werden, wobei sich bei x3 = a3 das Vorzeichen des Summanden umkehrt. Somit
6.6 Verteilungsfunktionen auf Rk
durchläuft das Argument auch in
1
b1 a1
2
b2 a2
3
b3 a3 F
71
alle Vektoren (x1 , x2 , x3 ) ,
die mit xi = ai oder xi = bi , i = 1, 2, 3 gebildet werden können und wieder hängt das Vorzeichen davon ab, ob (x1 , x2 , x3 ) eine gerade oder ungerade Anzahl von a-Koordinaten enthält. Damit ist es nun leicht eine explizite Formel für b a F anzugeben. Satz 6.45. Ist F : Rk → R , a, b ∈ Rk , so gilt b aF
k
!
=
βi
(−1)
i=1
F ( β a + (1 − β) b ) .
(6.33)
β∈{0,1}k
Beweis. b1 k=1 : a1 F (x) = F (b1 ) − F (a1 ) . Damit ist (6.33) trivialerweise erfüllt. k –1 → k : Wegen der Induktionsvoraussetzung gilt " k−1 # b1 bk b F ak aF = ak−1 k 1 ⎛ ⎞ k−1 ! βi %% $$ = abk ⎝ (−1) i=1 F β k−1 ak−1 + (1 − β k−1 )bk−1 , xk ⎠ 1 1 1 1 k
k
β k−1 ∈{0,1}k−1 1 k−1
!
=
(−1) i=1
βi
F
$$
β k−1 ak−1 + (1 − β k−1 ) bk−1 , bk 1 1 1 1
%%
β k−1 ∈{0,1}k−1 1 k−1
!
−
(−1) i=1
βi
F
$$
β k−1 ak−1 + (1 − β k−1 ) bk−1 , ak 1 1 1 1
%%
β k−1 ∈{0,1}k−1 1 k
!
=
(−1)
βi
i=1
F (β a + (1 − β) b) .
β∈{0,1}k
Hilfssatz 6.46.
b aF
=
b aG
∀ a ≤ b ∈ Rk ⇒
Beweis. Für jede Funktion H gilt folgt
b aF
=
k
sgn(bi − ai )
i=1
voraussetzungsgemäß gilt
i
a∨b a∧b F a∨b a∧b F
=
bi ai H
und
b aF
=
b aG
∀ a, b ∈ Rk .
i = sgn(bi − ai ) bbii ∨a H . Daraus i ∧ai k
b sgn(bi − ai ) a∨b aG = a∧b G . Da
a∨b a∧b G
i=1
ist der Hilfssatz damit bewiesen.
Folgerung 6.47. Sind F : Rk → R und G : Rk → R zwei Funktionen mit b b k aF = a G ∀ a ≤ b ∈ R , so gibt es zu jedem i ∈ {1, . . . , k} eine von xi k unabhängige Funktion Hi : Rk → R , sodass gilt F − G = Hi . i=1
72
6 Lebesgue-Stieltjes-Maße
Beweis. Aus der Voraussetzung, dem obigen Hilfssatz 6.46 und Satz 6.45 folgt, dass für jedes x ∈ Rk gilt 0=
x 0 (F
− G)
!
= F (x) − G(x) +
β∈{0,1}k :
!
= F (x) − G(x) +
(−1) βi ≥1
(−1)
βi
k−1 β1 =1, β k 2 ∈{0,1}
(F − G)(β 0 + (1 − β) x)
01
/
+
(F − G)(β 0 + (1 − β) x)
βi
−H1 (x)
k !
!
i=2
k−i β i−1 =0,βi =1,βk 1 i+1 ∈{0,1}
(−1)
/
βi
2
(F − G)(β 0 + (1 − β) x) .
01
−Hi (x)
2
% $ Wegen β 0 + (1 − β) x = xi−1 , 0 , (1 − β ki+1 ) xki+1 ist jeder Summand in 1 Hi (x) unabhängig von xi . Hilfssatz 6.48. Ist μ ein Lebesgue-Stieltjes-Maß auf (Rk , Bk ) , so gilt ⎞ ⎛ k
⎝ sgn(xj ) μ ((0 ∧ x, 0 ∨ x])⎠ ∀ a ≤ b . μ ((a, b]) = b a
(6.34)
j=1
Beweis. Für jedes B ∈ Bk−1 wird durch μB (A) := μ(A × B) , A ∈ B ein Lebesgue-Stieltjes-Maß auf (R, B) definiert. Damit gilt wegen (6.6) und (6.7) μ((a, b] × B) = μB ((a, b]) = sgn(b)μB ((0 ∧ b, 0 ∨ b]) − sgn(a)μB ((0 ∧ a, 0 ∨ a]) (6.35) = ba sgn(x) μB ((0 ∧ x, 0 ∨ x]) = ba sgn(x) μ ((0 ∧ x, 0 ∨ x] × B) . Ist a ≤ b , so ergibt (6.35) mit (ak , bk ] und B := (ak−1 , bk−1 ] 1 1 % $ % $ , bk−1 ] = abkk sgn(xk ) μ (0 ∧ xk , 0 ∨ xk ] × (ak−1 , bk−1 ] . μ (ak , bk ] × (ak−1 1 1 1 1 k
Aus (6.35) mit (ak−1 , bk−1 ] und B := (0 ∧ xk , 0 ∨ xk ] × (ak−2 , bk−2 ] folgt 1 1 μ((a, b]) =
k
bk ak
bk−1 ak−1
k−1
k
$ % sgn(xj )μ (0 ∧ xkk−1 , 0 ∨ xkk−1 ] × (ak−2 , bk−2 ] . 1 1
j=k−1
Unter der Annahme, dass gilt μ ((a, b]) =
k
bk ak
. . . abi+1 i+1 i+1
k
$ % sgn(xj ) μ (0 ∧ xki+1 , 0 ∨ xki+1 ] × (ai1 , bi1 ] ,
j=i+1
i−1 liefert (6.35) angewandt auf (ai , bi ] und B := (0∧xki+1 , 0∨xki+1 ]×(ai−1 1 , b1 ]
6.6 Verteilungsfunktionen auf Rk
μ ((a, b]) =
k
bk ak
...
i
bi ai
k
73
$ % i−1 sgn(xj ) μ (0 ∧ xki , 0 ∨ xki ] × (ai−1 1 , b1 ] ,
j=i
und Induktion von k nach 1 führt schließlich zu ⎞ ⎛ k
⎝ μ ((a, b]) = b sgn(xj ) μ ((0 ∧ x, 0 ∨ x])⎠ . a j=1
Definition 6.49. Eine Funktion F : Rk → R heißt rechtsstetig im Punkt x , wenn zu jedem ε > 0 ein δ > 0 existiert, sodass für alle y ≥ x gilt !y − x! < δ ⇒ |F (y) − F (x)| < ε . Die Funktion heißt rechtsstetig, wenn sie rechtsstetig für alle x ∈ Rk ist. Beispiel 6.50. f (x, y) := xy 1{0<x≤y} (x, y)+ xy 1{0
h 0
lim f (h, h) = 1 = 0 = f (0, 0) , ist sie dort nicht rechtsstetig.
h 0
Definition 6.51. Eine Funktion F : Rk → R heißt (k-dimensionale) Verteilungsfunktion, wenn F rechtsstetig ist und wenn gilt b aF ≥ 0 ∀ a ≤ b . Mit der obigen Definition kann man folgenden Satz formulieren. Satz 6.52. Ist μ ein Lebesgue-Stieltjes-Maß auf (Rk , Bk ) , so gibt es eine zu μ gehörige Verteilungsfunktion F : Rk → R , sodass für alle (a, b] , a ≤ b gilt μ((a, b]) =
b aF
=
!
k
(−1)
βi
i=1
F (β a + (1 − β) b) .
(6.36)
β∈{0,1}k
Sind F und G zwei derartige Verteilungsfunktionen, so existiert zu jedem Index i ∈ {1, . . . , k} eine von der Koordinate xi unabhängige Funktion Hi , sodass gilt F −G=
k !
Hi .
i=1
Beweis. Wegen (6.33) und (6.34) erfüllt F (x) :=
k
sgn(xj ) μ ( (0 ∧ x , 0 ∨ x ])
j=1
die Gleichung (6.36), und es bleibt noch die Rechtsstetigkeit von F zu zeigen. Aus yn x folgt lim(0∧yn , 0∨yn ] = (0∧x , 0∨x ] , und Satz 3.26 impliziert n
lim μ ( (0 ∧ yn , 0 ∨ yn ] ) = μ ( (0 ∧ x , 0 ∨ x ] ) . n
(6.37)
Gilt xi = 0 für eine Koordinate von x , so ist (0 ∧ x , 0 ∨ x ] = ∅ . Aus (6.37) und der Definition von F folgt dann lim F (yn ) = 0 = F (x) . n
74
6 Lebesgue-Stieltjes-Maße
Gilt xi = 0
∀ i = 1, . . . , k , so folgt aus der Stetigkeit der Vorzeichenfunktion k in allen Punkten x mit xj = 0 , aus (6.37) und aus der Definition von F j=1
ebenfalls lim F (yn ) = F (x) . Somit ist F rechtsstetig. n
Die letzte Aussage des Satzes ergibt sich unmittelbar aus Folgerung 6.47. Bemerkung 6.53. Man beachte, dass nicht jede Funktion G , für die (6.36) gilt, eine Verteilungsfunktion von μ im Sinne von Definition 6.51 sein muss, da (6.36) auch dann richtig bleibt, wenn man zu F Funktionen Hi addiert, die nicht rechtsstetig sind. Bevor wir zeigen, dass Verteilungsfunktionen auf Rk Lebesgue-Stieltjes-Maße festlegen, beweisen wir noch ein paar Lemmata. Lemma 6.54. Sind A1 , . . . , Ak ; B1 , . . . , Bk beliebige, nichtleere Mengen mit k k k k k Ai ∩ Bi = ∅ und Ai ∪ Bi = Ci , so existiert ein Index g mit i=1
i=1
i=1
i=1
i=1
Ag ∩ Bg = ∅ und für alle Indices j = g giltAj = Bj . Beweis. Gäbe es in jedem Durchschnitt Ai ∩ Bi , i = 1, . . . , k wenigstens einen k k
Punkt xi , so läge x := (x1 , . . . , xk ) in Ai ∩ Bi = ∅ . Das ergibt einen i=1
i=1
Widerspruch, somit existiert ein Index g mit Ag ∩ Bg = ∅ . k k k
Wegen Ai ∪ Bi = Ci gilt Ai ⊆ Ci ∧ Bi ⊆ Ci i=1
i=1 k
∀ i . Daraus folgt
i=1 k
k Ai ⊆ Ci = Ai ∪ Bi . Aber wegen Aj ∩ (Bj \ Aj ) = ∅ (Bj \ Aj ) × i=1 i=1 i=1 i =j
k gilt (Bj \ Aj ) × Ai ∩ Ai = ∅ . Ist j = g , so folgt aus Ag ∩ Bg = ∅ i=1 i =j
k auch (Bj \ Aj ) × Ai ∩ Bi = ∅ . Also gilt (Bj \ Aj ) × Ai = ∅ . i =j
i=1
Daraus folgt Bj \ Aj = ∅ für j = g , da alle Ai nichtleer sind. Analog beweist man Aj \ Bj = ∅ ∀ j = g . Somit gilt Aj = Bj
i =j
∀ j = g .
Lemma 6.55. Ist F : Rk → R auf ganz Rk rechtsstetig, so gibt es für alle a, b ∈ Rk und zu jedem ε > 0 Werte δ , δˆ > 0 , sodass + + + + + b + + b+δˆ + ∧ + b F+ < ε. (6.38) + aF − b a+δ F + < ε aF − a Beweis. Weil F rechtsstetig ist, gibt es zu jedem β ∈ {0, 1}k und ε > 0 ein δ(β) > 0 , sodass | F (β a + (1 − β) b ) − F ( β (a + δ (β) ) + ( 1 − β) b ) | < 2εk . Mit δ := min{δ(β) : β ∈ {0, 1}k } ergibt sich daraus unter Berücksichtigung von Satz 6.45 und der Dreiecksungleichung die linke Ungleichung in (6.38). Die rechte Ungleichung beweist man völlig analog.
6.6 Verteilungsfunktionen auf Rk
75
Satz 6.56. Ist F eine Verteilungsfunktion auf Rk , so wird durch μ((a, b]) :=
b aF
∀a≤b
ein Lebesgue-Stieltjes-Maß auf (Rk , Bk ) definiert. Beweis. Klarerweise gilt μ(∅) = μ((a, a]) = aa F = 0 . Sind (a, b], (c, d] zwei disjunkte Zellen, deren Vereinigung wieder eine Zelle ist, dann kann nach Lemma 6.54 o.B.d.A. angenommen werden, dass gilt a1 ≤ b1 = c1 ≤ d1 ∧ ak2 = ck2 ∧ bk2 = dk2 . Die Vereinigung ergibt sich daher zu (a, b] ∪ (c, d] = (a1 , d1 ] × (ak2 , bk2 ] , und es gilt bk bk 3 μ((a, b] ∪ (c, d]) = ak2 ad11 F = ak2 F ((d1 , xk2 )) − F ((a1 , xk2 )) 2 1 2 bk 3 bk 3 = ak2 F ((d1 , xk2 )) − F ((c1 , xk2 )) + ak2 F ((b1 , xk2 )) − F ((a1 , xk2 )) 2
=
bk d1 2 c1 F ak 2 1
2
+
bk b1 2 a1 F ak 2 1
(6.39)
= μ((c, d]) + μ((a, b]) .
Gemäß Satz 3.4 ist damit die Additivität von μ auf Jk bewiesen. Sind nun (an , bn ] , n ∈ N disjunkte Zellen mit (a , b] = (an , bn ] , so n
gibt es nach Lemma 6.55 zu jedem ε > 0 und n ∈ N ein δn > 0 mit μ((an , bn ]) ≤ μ((an , bn +δn )) ≤ μ((an , bn +δn ]) ≤ μ((an , bn ])+
ε . (6.40) 2n
Außerdem gibt es dann auch ein δ > 0 , sodass μ((a, b]) ≥ μ([a + δ, b]) ≥ μ((a + δ, b]) ≥ μ((a, b]) − ε . (6.41) Nun gilt [a + δ, b] ⊆ (an , bn + δn ) und wegen des Satzes von Heine-Borel n
(Satz A.32) gibt es ein N ∈ N , sodass (a + δ, b] ⊆ [a + δ, b] ⊆
N
(an , bn + δn ) ⊆
n=1
N
(an , bn + δn ] .
n=1
Daraus folgt unter Berücksichtigung von (6.40) und (6.41) μ((a, b]) − ε ≤ μ([a + δ, b]) ≤
N !
μ((an , bn + δn ]) ≤
n=1
Deshalb gilt μ((a, b]) ≤
!
μ((an , bn ]) + ε .
n∈N
μ((an , bn ]) . Damit ist die σ-Additivität von μ μ((an , bn ]) gilt. gezeigt, da nach Lemma 3.19 auch μ((a, b]) ≥ n∈N
n∈N
76
6 Lebesgue-Stieltjes-Maße
Bemerkung 6.57. 1. Sind Fi , i = 1, . . . , k Verteilungsfunktionen auf R , so ist ihr Produkt k F (x) := Fi (xi ) , x ∈ Rk eine Verteilungsfunktionen auf Rk , denn klai=1
rerweise ist F rechtsstetig, und es gilt b aF
=
k
(Fi (bi ) − Fi (ai )) ≥ 0
∀ a ≤ b.
i=1
2. F (x1 , x2 ) = x1 x2 erzeugt das 2-dimensionale Lebesgue-Maß λ2 auf (R2 , B2 ). Man beachte, dass F für x2 < 0 in x1 monoton fällt und umgekehrt. 3. Das Lebesgue-Maß λ2 auf ([0, 1]2 , B2 ∩ [0, 1]2 ) kann man erzeugen durch ⎧ 0, x 1 < 0 ∨ x2 < 0 ⎪ ⎪ ⎪ ⎪ ⎨ x1 x2 , 0 ≤ xi ≤ 1 0 ≤ x1 ≤ 1 , x2 > 1 F (x1 , x2 ) = x1 , ⎪ ⎪ , x1 > 1 , 0 ≤ x2 ≤ 1 x ⎪ 2 ⎪ ⎩ 1, x1 > 1 , x 2 > 1 . Aber gemäß Folgerung 6.44 ist auch G(x1 , x2 ) = F (x1 , x2 ) − x1 − x2 eine Verteilungsfunktion von λ2 und G ist auf [0, 1]2 in jeder Variablen monoton fallend. Dementsprechend müssen mehrdimensionale Verteilungsfunktionen in keiner Koordinate monoton wachsend sein.
6.7 Wahrscheinlichkeitsverteilungen auf (Rk , Bk ) Der Zusammenhang zwischen k-dimensionalen Wahrscheinlichkeitsmaßen und ihren Verteilungsfunktionen wird im untenstehenden Satz beschrieben. Satz 6.58. Ist P eine Wahrscheinlichkeitsverteilung auf (Rk , Bk ) , so ist die Funktion FP (x) := P ((−∞, x]) eine Verteilungsfunktion von P , für die gilt 1.
lim
min xi →−∞
FP (x1 , . . . , xk ) = 0 ,
i
2.
lim
min xi →∞
FP (x1 , . . . , xk ) = 1 ,
i
3. FP ist monoton wachsend, d.h. x ≤ y ⇒ F (x) ≤ F (y) . FP ist die einzige Verteilungsfunktion von P mit Eigenschaft 1. Ist umgekehrt F eine Verteilungsfunktion mit den Eigenschaften 1. und 2., so definiert P ((−∞, x]) := F (x) ein Wahrscheinlichkeitsmaß auf (Rk , Bk ) . Beweis. Die Punkte 1. und 2. ergeben sich unmittelbar aus den Sätzen 3.21 und 3.20 (Stetigkeit von oben bzw. von unten), da aus min xi → −∞ folgt i
lim(−∞, x] = ∅ , und min xi → ∞ andererseits lim(−∞, x] = Rk impliziert. i
6.7 Wahrscheinlichkeitsverteilungen auf (Rk , Bk )
77
Punkt 3. ist auf die Monotonie von P zurückzuführen, und die Rechtsstetigkeit von FP folgt aus Satz 3.21, da gilt yn x ⇒ (−∞, yn ] (−∞, x] . k
F, (x) := sgn(xi ) P ( (0 ∧ x, 0 ∨ x] ) ist bekanntlich eine Verteilungsfunki=1
tion von P , und aus (6.34) zusammen mit (6.33) folgt FP (x) = lim P ((−n, x]) = lim x−n F, n→∞ n→∞ ! = F, (x) + lim (−1) βi F,(−β n + (1 − β) x) (6.42) n→∞
β∈{0,1}k :
/
βi ≥1
01
2
S
Wegen
βi ≥ 1 ist kein Summand in S von allen Koordinaten xi abhängig
i
b b, und daher liefert Folgerung 6.44 a FP = a F ≥ 0 ∀ a ≤ b . Somit ist F eine Verteilungsfunktion von P . Ist F umgekehrt eine Verteilungsfunktion von P , so gilt für alle x ∈ Rk
P ( ( −∞ , x ]) = lim P ( ( −n , x ]) = lim x−n F n→∞ n→∞ ! (−1) βi F (−β n + (1 − β) x) . (6.43) = F (x) + lim n→∞
β∈{0,1}k :
/
βi ≥1
01
2
S
Erfüllt F Bedingung 1., so konvergieren sämtliche Summanden in S gegen 0 , da mindestens eine Koordinate gegen −∞ strebt. Daher folgt aus (6.43) F (x) = P ( ( −∞ , x ]) ∀ x ∈ Rk , und damit ist dieses F die einzige Verteilungsfunktion von P , die Bedingung 1. erfüllt. Ist F eine beliebige Verteilungsfunktion, so gibt es bekanntlich ein zu F gehöriges Lebesgue-Stieltjes-Maß P . Wenn nun F der Bedingung 1. genügt, so gilt, wie wir oben gesehen haben, F (x) = P ( ( −∞ , x ]) ∀ x ∈ Rk . Daraus folgt P (Rk ) = lim P ((−∞ , n ] ) = lim F (n) , d.h. P ist ein Wahrscheinn→∞
n→∞
lichkeitsmaß, wenn F auch noch Bedingung 2. erfüllt. Lemma 6.59. Eine monoton steigende Funktion F : Rk → R ist genau dann rechtsstetig, wenn F in jeder Variablen rechtsstetig ist. Beweis. Rechtsstetige Funktionen sind auch in jeder Variablen rechtsstetig. Ist andererseits F in jeder Variablen rechtsstetig und a ∈ Rk , so gibt es wegen der Rechtsstetigkeit von F in x1 zu ε > 0 ein δ˜1 > 0 , sodass + + ε + + +F (a) − F ((a1 + δ˜1 , ak2 ))+ < . k Da F auch in x2 rechtsstetig ist, gibt es auch ein δ˜2 > 0 , sodass + ε + + + +F ((a1 + δ˜1 , ak2 )) − F ((a1 + δ˜1 , a2 + δ˜2 , ak3 ))+ < . k
78
6 Lebesgue-Stieltjes-Maße
Setzt man dieses Verfahren fort, erhält man schließlich ein δ˜k > 0 , sodass + + + ˜k−1 , ak )) − F ((ak1 + δ˜k1 ))++ < ε . + δ +F ((ak−1 1 1 k Aus der Dreiecksungleichung zusammen mit den obigen Ungleichungen folgt k + + + ! + + + + ˜i−1 , aki ))++ < ε . + δ +F ((ai1 + δ˜i1 , aki+1 )) − F ((ai−1 +F ((a + δ˜k1 )) − F (a)+ ≤ 1 1 i=1
Auf Grund der Monotonie von F gilt damit auch ∀ y mit 0 ≤ yi ≤ δ := min δ˜j
|F ((a + y)) − F (a)| < ε
1≤j≤k
∀ i = 1, . . . , k .
Lemma 6.60. Eine Funktion F : Rk → R , für die gilt 1. a ≤ b ⇒ b aF ≥ 0 , 2. F ist in jeder Variablen rechtsstetig, F (x1 , . . . , xk ) = 0 , 3. lim min xi →−∞ i
ist eine Verteilungsfunktion auf Rk . Beweis. Aus (6.33) und Punkt 3. folgt für alle x ∈ Rk lim
n→∞
x −n F
!
= F (x) + lim
n→∞
β∈{0,1}k :
/
(−1) βi ≥1
βi
F (−β n + (1 − β) x) = F (x),(6.44)
01
2
S
da in jedem Summanden von S mindestens eine Koordinate gegen −∞ strebt. ∀ a ≤ b wird, wie in Satz 6.56 gezeigt, ein Durch μ( (a, b] ) := b aF Inhalt auf Jk definiert. Da μ gemäß Lemma 3.13, monoton ist, folgt aus x ≤ y auch x−n F = μ( (−n, x] ) ≤ μ( (−n, y] ) = y−n F ∀ n ∈ N mit −n ≤ x . Daraus folgt unter Berücksichtigung von (6.44) weiters F (x) = lim
n→∞
x −n F
≤ lim
n→∞
y −n F
= F (y)
∀ x ≤ y.
(6.45)
Demnach ist F monoton, und, da es auch Bedingung 2. erfüllt, ist es nach Lemma 6.59 rechtsstetig. Somit ist F eine Verteilungsfunktion. Wegen des obigen Lemmas definiert man in der Wahrscheinlichkeitstheorie Verteilungsfunktionen meistens folgendermaßen. Definition 6.61. Eine Funktion F : Rk → R wird als Verteilungsfunktion im engeren Sinn (i.e.S.) oder als wahrscheinlichkeitstheoretische Verteilungsfunktion bezeichnet, wenn gilt
6.7 Wahrscheinlichkeitsverteilungen auf (Rk , Bk )
79
1. a ≤ b ⇒ b aF ≥ 0 , 2. F ist in jeder Variablen rechtsstetig, F (x1 , . . . , xk ) = 0 , 3. lim min xi →−∞ i
4.
lim
min xi →∞
F (x1 , . . . , xk ) = 1 .
i
Bemerkung 6.62. 1. Nach Satz 6.58 besteht eine bijektive Beziehung zwischen den Verteilungsfunktionen i.e.S. auf Rk und den Wahrscheinlichkeitsmaßen auf (Rk , Bk ) . a ≤ b für FP (x) := P ((−∞, x]) auch mit dem 2. Man kann b a F ≥ 0, verallgemeinerten Additionstheorem beweisen, denn mit B := (−∞, b] und k
(−∞, bj ] gilt (a, b] = B \ Ai . Daraus folgt Ai := (−∞, ai ] × i=1
j =i
0 ≤ P ((a, b]) = P (B) −
k !
(−1)j−1
Wegen P (B) = F (b) und P
P
1≤i1 <...
j=1
!
j
j
Aih
. (6.46)
h=1
Aih
= F ( β a + (1 − β) b ) mit den
h=1
β-Koordinaten βg := 1{i1 ,...,ij } (g) steht rechts in (6.46) gerade
b aF
.
Satz 6.63. Sind Pi , 1 ≤ i ≤ k Wahrscheinlichkeitsverteilungen auf (R, B) , mit k
den Verteilungsfunktionen Fi , so wird durch F (x) := Fi (xi ) eine Verteii=1
lungsfunktion i.e.S. auf Rk definiert. Die zugehörige Wahrscheinlichkeitsverteik lung Pi auf (Rk , Bk ) heißt Produktverteilung der Pi . Für sie gilt i=1 k
Pi
i=1
Auf ( Rk , Bk ,
k i=1
k
i=1
Bi
=
k
Pi (Bi )
∀ B1 , . . . , Bk ∈ B .
i=1
Pi ) sind die Sigmaalgebren B(i) :=
⎧ ⎨ ⎩
B×
j =i
⎫ ⎬ R: B∈B ⎭
unabhängig voneinander. Beweis. F (x) :=
k
Fi (xi ) ist natürlich eine Verteilungsfunktion i.e.S. auf Rk .
i=1
Für die zugehörige Wahrscheinlichkeitsverteilung P :=
k i=1
Pi gilt
80
6 Lebesgue-Stieltjes-Maße
⎛ P ⎝(ai , bi ] ×
J(i) := B(i)
⎞ R ⎠ = ( Fi (bi ) − Fi (ai ) ) = Pi ((ai , bi ]) , i = 1, . . . , k . (6.47)
j =i
⎧ ⎨
⎫ ⎬
(a , b ] × R : ai ≤ bi ist ein Semiring auf Rk , der die σ-Algebra ⎩ i i ⎭ j =i ⎧ ⎫ ⎨ ⎬
:= B × R : B ∈ B erzeugt, welche nach Satz 2.77 mit dem von ⎩ ⎭ j =i
Dynkin-System D(J(i) J(i) erzeugten ⎧ ⎫ ⎛ ⎞) übereinstimmt. ⎨ ⎬
R : P ⎝B × R ⎠ = Pi (B) ist ein Dynkin-System, denn Di := B × ⎩ ⎭ j =i j =i
R ∈ Di folgt C c = B c × R ∈ Di und sind es gilt Rk ∈ Di , aus C = B × Cn = Bn ×
B(i)
j =i
j =i
R disjunkte Mengen aus Di , so liegt auch ihre Vereinigung
Bn × R in Di . Di enthält wegen (6.47) J(i) , und daher gilt n j =i
⊆ Di . Das impliziert P B × R = Pi (B) ∀ B ∈ B , i = 1, . . . , k .
Cn =
n
j =i
j =i
Die J(i) sind unabhängige Mengensysteme auf (Rk , Bk , P ) , denn es gilt ⎞ ⎛ ⎞ ⎛ h h
$ % P⎝ (aij , bij ] × Rk−1 ⎠ = P ⎝ (aij , bij ] × Rk−h ⎠ j=1
=
j=1
h
$
h h
% %
$ Fij (bij ) − Fij (aij ) = Pij ((aij , bij ]) = P (aij , bij ] × Rk−1 .
j=1
j=1
j=1
Nach Satz 5.8 sind damit auch die B(i) , i = 1, . . . , k unabhängig, also gilt
k
k k k
$
% %
$ k−1 k−1 Bi × R = = Bi = P P Bi × R Pi (Bi ) . P i=1
i=1
i=1
Bemerkung 6.64. Auf (Rk , Bk ,
k i=1
i=1
Pi ) hat wegen der Unabhängigkeit der B(i)
keine Komponente des Versuchsausgangs Einfluss auf die anderen Komponenten. Bemerkung 6.65. Wie im eindimensionalen Fall, sind auch auf (Rk , Bk ) Verteilungen sehr wichtig, die eine stetige Dichte besitzen, für die also eine stetige Funktion f : Rk → [0, ∞) existiert, sodass 7 ∞ 7 ∞ ... f (t1 , . . . , tk ) dt1 . . . dtk = 1 . −∞
−∞
6.8 Das k-dimensionale Lebesgue-Maß
81
. xk . x1 F (x1 , . . . , xk ) := −∞ . . . −∞ f (t1 , . . . , tk ) dt1 . . . dtk ist, wie aus der Analysis bekannt, stetig und erfüllt die Punkte 1. und 2. von Satz 6.58. Zudem folgt aus 7xk i
bi ai F
=
x 7i+17bi x7i−1
... −∞
7x1
... −∞ ai −∞
für alle i = 1, . . . , k auch
b aF
f (t1 , . . . , ti , . . . , tk ) dt1 . . . dti . . . dtk
−∞
7bk =
7b1 f (t1 , . . . , tk ) dt1 . . . dtk ≥ 0 , a ≤ b .
... ak
a1
Somit ist F tatsächlich eine Verteilungsfunktion i.e.S.
6.8 Das k-dimensionale Lebesgue-Maß Definition 6.66. Das durch F (x1 , . . . , xk ) :=
k
xi erzeugte Maß auf (Rk , Bk )
i=1
heißt k-dimensionales Lebesgue-Maß und wird üblicherweise mit λk bezeichnet. Satz 6.67. Für T (x) = x + b
mit x, b ∈ Rk gilt
1. T (B) = {y = x + b : x ∈ B} ∈ Bk ⇔ B ∈ Bk , 2. T (B) ∈ Lk ⇔ B ∈ Lk , 3. λk (T (B)) = λk (B) ∀ B ∈ Lk . Beweis. Der Beweis folgt wörtlich dem von Satz 6.14 mit α = 1 , wenn man die Intervalle durch Zellen (a, b] ∈ Jk und B bzw. L durch Bk bzw. Lk ersetzt. λk ist also translationsinvariant, aber darüber hinaus gilt der folgende Satz. Satz 6.68. Ist A eine nichtsinguläre k ×k-Matrix und b ein beliebiger Vektor aus Rk , so gilt für T (x) := x A + b 1. T (B) ∈ Bk ⇔ B ∈ Bk , 2. T (B) ∈ Lk ⇔ B ∈ Lk , 3. λk (T (B)) = | det(A)| λk (B)
∀ B ∈ Lk .
Beweis. T ist stetig und, da A nichtsingulär ist, existiert die Umkehrabbildung T −1 , die ebenfalls stetig ist. Daher folgt der Beweis von Punkt 1. wörtlich dem Beweis des Punktes 1. von Satz 6.14, wenn man dort nur B durch Bk und O durch Ok das System der offenen Mengen auf Rk ersetzt. Auch die Punkte 2. und 3. ergeben sich genauso, wie die entsprechenden Punkte von Satz 6.14, wenn man zeigen kann, dass gilt λk (T (B)) = | det(A)| λk (B)
∀ B ∈ Bk .
(6.48)
Wir wollen daher (6.48) beweisen, und können dabei auf Grund von Satz 6.67 b = 0 annehmen, sodass T linear ist.
82
6 Lebesgue-Stieltjes-Maße
Es genügt (6.48) für Quader der Form (0, c] , c ≥ 0 zu zeigen, denn dann folgt aus der Linearität von T und Satz 6.67 für alle c ≤ d λk (T ( (c, d] ) ) = λk (T ( (0, d − c] ) + T (c) ) = λk (T ( (0, d − c] ) ) = λk ((0, d − c] ) = λk ((0, d − c] + c ) = λk ((c, d] ) . Weil aber jede nichtsinguläre, lineare Transformation durch das Hintereinanderausführen der elementaren Zeilen– und Spaltenoperationen a. b. c.
Vertauschung von Zeilen oder Spalten, Multiplikation einer Zeile oder Spalte mit α = 0 , Addition von 2 Zeilen oder Spalten
aus der Einheitsmatrix E := (δi,j ) (δi,j ist das in Definition 2.16 eingeführte Kronecker-Symbol) hervorgeht, braucht man (6.48) nur für diese elementaren Transformationen zu zeigen. ad a.
Der Transformation, die die Zeilen i und j in E vertauscht, also T ((x1 , . . . , xi , . . . , xj , . . . , xk )) := (x1 , . . . , xj , . . . , xi , . . . , xk ) ,
entspricht die Matrix A := (an,m ) mit ai,j = aj,i = 1, ai,i = aj,j = 0 und an,m = δn,m ansonst. Diese Matrix hat in jeder Zeile und Spalte genau einen nichtverschwindenden Eintrag 1 , und daher gilt | det(A)| = 1 . Aus T ((0, c]) = (0, (c1 , . . . , cj , . . . , ci , . . . , ck )] , c ≥ 0 folgt λk (T ((0, c])) =
k
ch = | det(A)| λk ((0, c]) .
h=1
ad b.
Der Zeilen- oder Spaltenmultiplikation mit α = 0 gegeben durch T ((x1 , . . . , xi , . . . , xk )) := (x1 , . . . , α xi , . . . , xk ) , α = 0
entspricht die Matrix A := (an,m ) mit an,m = δn,m ∀ (n, m) = (i, i) und ai,i = α . Daher gilt |det(A)| = |α| .
Aus T ( (0 , c] ) = ( 0 ∧ (α ci ) , 0 ∨ (α ci ) ] × ( 0 , cj ] folgt j =i
λk ( T ( ( 0 , c ] ) ) = |α| ci
cj = |α| λk ( ( 0 , c ] ) = | det(A)| λk ((0, c]) .
j =i
ad c.
Nimmt man o.E.d.A. an, dass Spalte 2 zu Spalte 1 addiert wird, also T (x) := (x1 + x2 , x2 , . . . , xk ) ,
so entspricht dem die Matrix A := (an,m ) mit a2,1 = 1 und ai,j = δi,j sonst. Daher gilt |det(A)| = 1 . In diesem Fall wird (0, c] abgebildet auf
6.8 Das k-dimensionale Lebesgue-Maß
83
T ((0, c]) = B ×(0k3 , ck3 ] mit B = {(x1 , x2 ) : 0 ∨ (x1 −c1 ) ≤ x2 ≤ c2 ∧ x1 } , d.h. B ist ein Parallelogramm mit den Eckpunkten e1 := (0, 0), e2 := (c1 , 0), e3 := (c1 + c2 , c2 ), e4 := (c2 , c2 ) . Für die Mengen D1 , D2 und D3 , definiert durch D1 := {(x1 , x2 ) : 0 < x1 ≤ c2 , x1 ≤ x2 ≤ c2 } × (0k3 , ck3 ] , D2 := {(x1 , x2 ) : 0 < x1 ≤ c2 , 0 < x2 < x1 } × (0k3 , ck3 ] , D3 := {(x1 , x2 ) : c1 < x1 ≤ c1 + c2 , 0 < x2 < x1 − c1 } × (0k3 , ck3 ] , gilt D1 ∩ D2 = ∅, D1 ∪ D2 = (0, c2 ]2 × (0k3 , ck3 ], D3 = D2 + (c1 , 0, . . . , 0) .
x1 6
(c2 , c2 )
(c1 + c2 , c2 )
B D1 D2 (0, 0)
(c1 , 0)
D3 (c2 , 0)
(c1 + c2 , 0)
-
x2
Abb. 6.1. Transformation durch Addition der Spalten
Daraus folgt c22
k
" -# $ 2 = λk (D1 ) + λk (D2 ) cj = λk (0, c2 ] × 0k3 , ck3
j=3
(6.49) = λk (D1 ) + λk (D3 ) = λk (D1 ∪ D3 ) . $ $ Wegen B × 0k3 , ck3 = (0 , c1 + c2 ] × (0 , c2$] × 0k3- , ck3 \ (D1 ∪ D3 ) und Gleichung (6.49) erhält man nun mit F := 0k3 , ck3
84
6 Lebesgue-Stieltjes-Maße
$ % λk (T ((0, c])) = λk ((0, c1 + c2 ] × (0, c2 ] × F ) − λk (0, c2 ]2 × F = (c1 + c2 )
k
j=2
cj − c22
k
j=3
cj =
k
cj = λk ((0 , c]) = | det A|λk ((0, c]) .
j=1
Daher gilt (6.48) auch in diesem Fall, und der Satz ist bewiesen. Beispiel 6.69. Der Einheitskreis K := {(x1 , x2 ) : x21 + x22 ≤ 1} ist als abgeschlossene Menge natürlich Borel-messbar und daher kann man ihm ein Lebesgue-Maß k := λ2 (K) zuordnen. Wir wollen zeigen, dass gilt k = π , wenn man, wie üblich den 9 8 Umfang des Einheitskreises mit 2 π bezeichnet. " 2π # sin Das Dreieck Dn := (x1 , x2 ) : 0 ≤ x1 ≤ cos 2nπ , 0 < x2 ≤ cos 2nπ x1 n % $ % $ mit den Eckpunkten 0 := (0, 0), a := cos 2nπ , 0 , b := cos 2nπ , sin 2nπ unterscheidet sich vom abgeschlossenen Dreieck Dn nur um Punkte auf der Abszissenachse, also um Punkte einer λ2 -Nullmenge und ist damit messbar. −1 0 2π 2π Die Abbildung Ts (x) := x A + (cos n , sin n ) mit A := bildet 0 −1 2π Dn in das Dreieck Ts (Dn ) mit den Eckpunkten 0, b und c := (0, sin n ) ab (Ts ist eine Punktspiegelung in 12 (cos 2nπ , sin 2nπ )), und auf Grund von Satz 6.68 ist Ts (Dn ) messbar und es gilt λ2 (Dn ) = λ2 (Ts (Dn )) .
Abb. 6.2. λ2 -Maß des Einheitskreises
3 - $ Wegen Dn ∪ Ts (Dn ) = 0, cos 2nπ × 0, sin 2nπ gilt cos
2π 2π sin = λ2 (Dn ∪ Ts (Dn )) = 2 λ2 (Dn ) − λ2 (Dn ∩ Ts (Dn )) . n n
6.8 Das k-dimensionale Lebesgue-Maß
85
Dn ∩ Ts (Dn ) liegt in der Geraden, ⎛ in welche die Abszissenachse durch die ⎞ cos 2nπ sin 2nπ ⎠ abgebildet wird und Drehung T 2nπ mit der Matrix B := ⎝ 2π 2π − sin n cos n ist daher eine λ2 -Nullmenge. Somit gilt λ2 (Dn ) = 12 cos 2nπ sin 2nπ . Wegen Satz 6.68 und det T 2nπ = 1 gilt aber auch λ2 (T 2nπ (Dn )) = λ2 (Dn ) , und vollständige Induktion liefert schließlich λ2 (T 2nπ m (Dn )) = λ2 (Dn ) ∀ m ∈ N . Drehungen bilden Punkte des Einheitskreises wieder in den Einheitskreis ab (vgl. Definition A.83), daher gilt n−1
T 2nπ m (Dn ) ⊆ K .
(6.50)
m=0
Mit Kα ,β ,a ,b := {(r cos ϕ , r sin ϕ) : 0 ≤ α < ϕ ≤ β ≤ 2 π ; 0 ≤ a < r ≤ b } bezeichnen wir den Kreisringsektor, der durch die Winkel α und β und die Radien a und b begrenzt wird. K0 , 2nπ ,0 ,1 ist demnach der Kreissektor des Einheitskreises zwischen 0 und 2nπ , und es gilt Dn ⊆ K0 , 2nπ ,0 ,1 . Aus dem Additionssatz für die# trigonometrischen Funktionen (siehe Satz A.55) " folgt sofort T 2nπ K0 , 2nπ ,0 ,1 = K 2nπ ,2 2nπ ,0 ,1 bzw. allgemeiner " # T 2nπ m K0 , 2nπ ,0 ,1 = K(m−1) 2nπ ,m 2nπ ,0 ,1 .
(6.51)
Die T 2nπ m (Dn ) sind als Teilmengen der jeweiligen Sektoren K(m−1) 2nπ ,m 2nπ ,0,1 für 0 ≤ m ≤ n − 1 disjunkt. Daher folgt aus (6.50)
n−1 n 2π 2π 2 π sin 2nπ T 2nπ m (Dn ) = cos ∀ n ∈ N. k ≥ λ2 sin = π cos 2π 2 n n n n m=0 Zusammen mit Satz A.56 und lim cos 2nπ = 1 führt dies zu k ≥ π . n
Andererseits liegt K zur Gänze in
n−1
T 2nπ m (Fn ) , wobei Fn durch eine
m=0 1 cos 2nπ
Streckung Tt aus Dn hervorgeht, die durch die mit
multiplizierte Ein#2 " heitsmatrix C := cos12 π E beschrieben wird. Wegen det C = cos12 π , gilt n n " " #2 #2 λ2 (Dn ) , bzw. k ≤ cos12 π n λ2 (Dn ) ∀ n ∈ N . daher λ2 (Fn ) = cos12 π n
n
Wir wissen aber bereits, dass gilt lim n λ2 (Dn ) = π und lim cos 2nπ = 1 . Damit n
n
erhält man die obere Abschätzung k ≤ π . Zusammen mit k ≥ π ergibt das λ2 (K) = k = π . Wegen K =
n m=1
K(m−1) 2nπ ,m 2nπ ,0 ,1 und (6.52) gilt auch
(6.52)
86
6 Lebesgue-Stieltjes-Maße
"
# π $ % m ⇒ λ2 K 0 , m π = λ2 K0 , 2nπ ,0 ,1 = n 2 π ,0 ,1 n n
∀ 0 ≤ m < n ∈ N,
und daraus folgt λ2 (K0 ,c 2 π ,0 ,1 ) = c π ∀ c ∈ [0 , 1] . Setzt man α := c 2 π , ergibt das λ2 (K0 ,α ,0 ,1 ) = α2 , 0 ≤ α ≤ 2 π . Da Kα ,β ,0 ,1 durch die Drehung Tα um den Winkel α aus K0 β−α ,0 ,1 hervorgeht, gilt allgemeiner ∀ 0 ≤ α ≤ β ≤ 2 π . Die Streckung Tr mit der Matrix λ2 (Kα ,β ,0 ,1 ) = β−α 2 2 ∀ 0 ≤ α ≤ β ≤ 2 π , und r E , r > 0 liefert daraus λ2 (Kα ,β ,0 ,r ) = β−α 2 r für den Kreisringsektor Kα ,β ,r1 ,r2 = Kα ,β ,0 ,r2 \ Kα ,β ,0 ,r1 mit 0 ≤ r1 ≤ r2 und 0 ≤ α ≤ β ≤ 2 π bekommt man schließlich λ2 (Kα ,β ,r1 ,r2 ) =
(β − α) (r22 − r12 ) 2
(6.53)
Es sei noch erwähnt,dass die Kreisringsektoren einen Semiring i.e.S. K auf R2 bilden, denn ∅ = Kα ,β ,r ,r , der Durchschnitt zweier Kreisringsektoren ist ein Kreisringsektor und für Kα ,β ,r1 ,r2 ⊆ Kγ ,δ ,R1 ,R2 mit γ ≤ α ≤ β ≤ δ und R1 ≤ r1 ≤ r2 ≤ R2 bilden C1 := Kγ ,α ,r1 ,r2 , C2 := Kβ ,δ ,r1 ,r2 und C3 := Kγ ,δ ,R1 ,r1 , C4 := Kγ ,δ ,r2 ,R2 eine „Leiter“, sodass für 1 ≤ m ≤ 4 gilt m 4 Ci ∈ K ∧ Kα ,β ,r1 ,r2 ∪ Ci = Kγ ,δ ,R1 ,R2 . Kα ,β ,r1 ,r2 ∪ i=1
i=1
Abb. 6.3. Semiring der Kreisringsektoren: B\A =
4 i=1
Ci
7 Messbare Funktionen - Zufallsvariable
7.1 Definition und Eigenschaften Bei der Durchführung eines Versuches interessieren uns oft nicht alle Einzelheiten des Ausgangs, stattdessen will man häufig nur ein bestimmtes Merkmal betrachten. So wird beispielsweise bei „6 aus 45“ den Spieler weniger sein konkreter Tipp, als vielmehr die Anzahl X der richtigen Zahlen auf seinem Tipp interessieren. Bei einer Gesundenuntersuchung könnten wieder Größe und Gewicht der untersuchten Personen von Bedeutung sein. Ist der Wahrscheinlichkeitsraum (Ω, S, P ) ein Modell für unseren Versuch, so kann man das wesentliche Merkmal durch eine Funktion X von Ω in einen Bildraum Ω beschreiben. Dabei ist Ω meist eine Teilmenge von R oder Rk . Natürlich wird man einer Aussage der Art „X liegt zwischen a und b “ , der die Menge {ω : X(ω) ∈ (a, b)} = X −1 ((a, b)) entspricht, eine Wahrscheinlichkeit zuordnen wollen. Das setzt aber voraus, dass das Urbild X −1 ((a, b)) des Intervalls (a, b) in S liegt für alle a ≤ b . Wegen Lemma 2.58 und Satz 2.63 liegt dann das Urbild X −1 (B) jeder Borelmenge B in S . Man definiert daher: Definition 7.1. Sind (Ωi , Si ) i = 1, 2 zwei Messräume, so nennt man die Funktion f : Ω1 → Ω2 S1 |S2 -messbar, wenn f −1 (A) ∈ S1 ∀ A ∈ S2 . Um auszudrücken, dass eine Funktion f : Ω1 → Ω2 S1 |S2 -messbar ist, werden wir auch die Notation f : (Ω1 , S1 ) → (Ω2 , S2 ) verwenden. Eine wesentliche Voraussetzung für die von Lebesgue stammende Verallgemeinerung des Riemann-Integrals einer Funktion f ist, wie wir in einem späteren Kapitel sehen werden, dass das Lebesgue-Maß der Urbilder von beliebigen Intervallen (oder Zellen – im mehrdimensionalen Fall) gebildet werden kann. Dies veranlasst uns zu folgender Definition. Definition 7.2. Eine Funktion f : Ω → Rk2 , Ω ∈ Lk1 wird Lebesgue-messbar genannt, falls sie Lk1 ∩ Ω|Bk2 -messbar ist. Die Funktion heißt Borel-messbar, wenn sie Bk1 ∩ Ω|Bk2 -messbar ist.
88
7 Messbare Funktionen - Zufallsvariable
Bemerkung 7.3. Da es, wie oben erwähnt, für die Verallgemeinerung des Integralbegriffs ausreicht, den Urbildern der Intervalle und damit den Urbildern der Borelmengen ein Lebesgue-Maß zuzuordnen, verwendet man, sowohl bei der Definition Lebesgue-messbarer Funktionen als auch bei der von Borel-messbaren Funktionen, auf dem Bildraum immer die σ-Algebra Bk2 der Borelmengen. Definition 7.4. ] Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so nennt man X : (Ω, S) → (Rk , Bk ) eine k-dimensionale Zufallsvariable oder auch einen k-dimensionalen Zufallsvektor. Bei k = 1 spricht man von einer Zufallsvariablen. Bemerkung 7.5. Dem allgemeinen Gebrauch folgend werden wir messbare Funktionen i.A. mit Kleinbuchstaben f, g, h, . . . bezeichnen und Zufallsvariable mit Großbuchstaben X, Y, . . . . Weiters schreiben wir [f ∈ B] für f −1 (B) , [f ≤ x] für f −1 ( (−∞, x] ) , etc., und μ([f ∈ B]) wird oft durch die abgekürzte Form μ(f ∈ B) ersetzt. Lemma 7.6. Ist (Ω, S) ein Messraum, so ist 1A , der Indikator einer Menge A S|B-messbar genau dann, wenn A ∈ S . Beweis. Für jedes B ∈ B gilt
⎧ Ω, ⎪ ⎪ ⎪ ⎨A , 1−1 A (B) := ⎪ c A , ⎪ ⎪ ⎩ ∅,
{0, 1} ⊆ B 1∈B ∧ 0∈ /B 0∈B ∧ 1∈ /B 1 ∈ B ∧ 0 ∈ /B.
Beim Nachweis der Messbarkeit einer Funktion hilft oft der folgende Satz. Satz 7.7. Sind (Ωi , Si ) zwei Messräume und wird S2 durch ein Mengensystem C aus Ω2 erzeugt, also S2 = Aσ (C) , so gilt f : (Ω1 , S1 ) → (Ω2 , S2 ) ⇐⇒ f −1 (C) ⊆ S1 . Beweis. Die eine Richtung ist klar. Wegen Satz 2.63 gilt aber auch Aσ (f −1 (C)) = f −1 (Aσ (C)) = f −1 (S2 ) und damit folgt aus f −1 (C) ⊆ S1 sofort f −1 (S2 ) ⊆ S1 . Folgerung 7.8. Ist (Ω, S) ein Messraum, so ist f : Ω → Rk genau dann, wenn eine der folgenden Bedingungen erfüllt ist 1. 2. 3. 4.
[f [f [f [f
S|Bk -messbar
≤ c] ∈ S ∀ c ∈ Rk , < c] ∈ S ∀ c ∈ Rk , ≥ c] ∈ S ∀ c ∈ Rk , > c] ∈ S ∀ c ∈ Rk .
Beweis. Jede der obigen Bedingungen folgt natürlich aus der S|Bk -Messbarkeit von f . Umgekehrt erzeugt jedes der Mengensysteme {(−∞, c] : c ∈ Rk }, {(−∞, c) : c ∈ Rk }, {[c, ∞) : c ∈ Rk }, {(c, ∞) : c ∈ Rk }, die σ-Algebra Bk . Wegen Satz 7.7 folgt daher auch aus jeder der obigen Bedingungen die S|Bk -Messbarkeit von f .
7.1 Definition und Eigenschaften
89
Folgerung 7.9. Ist f : Rk1 → Rk2 stetig, so ist f Borel-messbar, d.h. f : (Rk1 , Bk1 ) → (Rk2 , Bk2 ) . Beweis. Gemäß Lemma 2.59 erzeugen die offenen Mengen Bk2 und da f stetig ist, ist das Urbild f −1 (U ) jeder offenen Menge U selbst wieder offen und damit ein Element von Bk1 , was wegen Satz 7.7 die Folgerung impliziert. Folgerung 7.10. Ist f : R → R monoton, so ist f Borel-messbar. Beweis. Ist f monoton steigend, so ist das Urbild [f ≤ c] entweder (−∞, a] oder (−∞, a) mit a := sup{ω : f (ω) ≤ c} , und liegt daher in jedem Fall in B . Wegen Folgerung 7.8 reicht dies zum Nachweis der Borel-Messbarkeit von f . Ähnlich verläuft der Beweis für monoton fallendes f . Satz 7.11. f := (f1 , . . . , fk ) : (Ω, S) → (Rk , Bk ) gilt genau dann, wenn fi : (Ω, S) → (R, B) ∀ i = 1, . . . , k . Beweis. Wir verwenden für beide Richtungen Bedingung 1. aus Folgerung 7.8.
k −1 ⇒: f : (Ω, S) → (R , Bk ) ⇒ [fi ≤ ai ] = f R ∈ S. [−∞, ai ] × j =i
⇐ : fi : (Ω, S) → (R, B)
∀ i = 1, . . . , k ⇒ [f ≤ a] =
k
[fi ≤ ai ] ∈ S .
i=1
Die Zusammensetzung messbarer Funktionen ist wieder messbar. Satz 7.12. Sind (Ωi , Si ), i = 1, 2, 3 drei Messräume, so folgt aus f : (Ω1 , S1 ) → (Ω2 , S2 ) und g : (Ω2 , S2 ) → (Ω3 , S3 ) die S1 |S3 -Messbarkeit von g ◦ f , d.h. g ◦ f : (Ω1 , S1 ) → (Ω3 , S3 ). $ % Beweis. B ∈ S3 ⇒ g −1 (B) ∈ S2 ⇒ f −1 g −1 (B) ∈ S1 . Bemerkung 7.13. Ist f : Rk1 → Rk2 Lebesgue-messbar und g : Rk2 → Rk3 Borel-messbar, so ist g ◦ f Lebesgue-messbar. Wenn aber g Lebesgue-messbar ist, so muss g◦f nicht einmal dann Lebesgue-messbar sein, wenn f stetig ist, da dann die Voraussetzungen des obigen Satzes nicht erfüllt sind, denn f ist in diesem Fall Bk1 |Bk2 -messbar und g ist Lk2 |Bk3 -messbar. Folgerung 7.14. Aus fi : (Ω, S) → (R, B),
i = 1, 2
folgt
1. f1 + f2 : (Ω, S) → (R, B), 2. f1 f2 : (Ω, S) → (R, B), 3. f1 ∧ f2 : (Ω, S) → (R, B), 4. f1 ∨ f2 : (Ω, S) → (R, B) . Beweis. Nach Satz 7.11 gilt (f1 , f2 ) : (Ω, S) → (R2 , B2 ) . Die Funktionen s(x1 , x2 ) := x1 + x2 , p(x1 , x2 ) := x1 x2 , min(x1 , x2 ) := x1 ∧ x2 und max(x1 , x2 ) := x1 ∨ x2 sind stetig von R2 → R und daher Borel-messbar. Daraus zusammen mit Satz 7.12 folgen die obigen Aussagen unmittelbar.
90
7 Messbare Funktionen - Zufallsvariable
Definition 7.15. Ist f : Ω → R eine beliebige Funktion, so wird f + := f ∨ 0 als Positivteil von f bezeichnet. f − := −(f ∧ 0) = (−f ) ∨ 0 heißt der Negativteil. Bemerkung 7.16. Klarerweise gilt f = f + − f − , und mit f sind auch f + , f − , |f | := f + + f − , etf , ln(f ) etc. S|B-messbar.
7.2 Erweitert reellwertige Funktionen Es ist oft zweckmäßig Funktionen mit der erweiterten Zahlengeraden R := R ∪ {−∞, ∞} als Wertebereich zu betrachten, wobei für die Rechenoperationen auf R folgende Vereinbarungen getroffen werden: a + ∞ = ∞, a ∈ R ∪ {∞} , a − ∞ = −∞, a ∈ R ∪ {−∞} , ∞ − ∞ = undefiniert ⎧ ⎪ ⎨±∞, a > 0 , a · (±∞) = 0 a = 0, ⎪ ⎩ ∓∞ a < 0 .
(7.1) (7.2) (7.3) (7.4)
Lemma 7.17. B := {B ∪ C : B ∈ B, C ⊆ {−∞, ∞}} ist eine σ-Algebra auf R , deren Spur auf R mit B übereinstimmt, d.h. B ∩ R = B . Beweis.Da offensichtlich gilt R ∈ B , aus Bn ∪ Cn ∈ B ∀ n ∈ N folgt Bn ∪ Cn ∈ B und für B ∪ C ∈ B, B ∈ B, C ⊆ {−∞, ∞} gilt n
n
(B ∪ C)c = (R \ B) ∪ ( {−∞, ∞} \ C ) ∈ B , ist B eine σ-Algebra. Aus der Definition von B folgt sofort B∩ R ⊆ B . Aus B ⊆ B folgt umgekehrt B = B ∩ R ⊆ B ∩ R . Also gilt B = B ∩ R . Definition 7.18. B := {B ∪ C : B ∈ B, C ⊆ {−∞, ∞}} wird als System der erweiterten Borelmengen bezeichnet. Folgerung 7.19. Ist (Ω, S) ein Messraum, so ist f : Ω → R messbar genau dann, wenn eine der folgenden Bedingungen erfüllt ist 1. 2. 3. 4.
[f [f [f [f
≤ c] ∈ S ∀ c ∈ R , < c] ∈ S ∀ c ∈ R , ≥ c] ∈ S ∀ c ∈ R , > c] ∈ S ∀ c ∈ R .
Beweis. Jede der obigen Bedingungen folgt sofort aus der Messbarkeit von f . Aus J := {[−∞, c] : c ∈ R} ⊆ B folgt Aσ (J) ⊆ B . Umgekehrt folgt aus (a, b] = [−∞ , b] \ [−∞ , a] ∈ Aσ (J) ∀ a, b aber B ⊆ Aσ (J) , und wegen {−∞} = [−∞, −n] bzw. {∞} = [−∞, n]c liegen alle C ⊆ {−∞, ∞} n
n
ebenfalls in Aσ (J) , d.h. B ⊆ Aσ (J) . Also gilt B = Aσ (J) .
7.2 Erweitert reellwertige Funktionen
91
Analog zeigt man, dass auch { [−∞ , c) : c ∈ R } , { [c , ∞] : c ∈ R } und {(c , ∞] : c ∈ R } B erzeugen. Damit folgt andererseits nach Satz 7.7 aus jeder der obigen Bedingungen die Messbarkeit von f . Satz 7.20. Zu jeder Folge (fn ) messbarer Funktionen auf einem Messraum (Ω, S) sind sup fn , inf fn , limfn := lim sup fn , limfn := lim inf fn messbar. Beweis. Da für jedes c ∈ R gilt [sup fn ≤ c] = [fn ≤ c] ∈ S und n [inf fn ≥ c] = [fn ≥ c] ∈ S sind sup fn und inf fn messbar. Damit sind auch n lim inf fn = sup inf fk und lim sup fn = inf sup fk messbar. n
k≥n
n
k≥n
Folgerung 7.21. Ist (fn ) eine Folge messbarer Funktionen auf (Ω, S) , so gilt M := [ lim inf fn = lim sup fn ] ∈ S . Beweis. E := [−∞ < limfn < ∞] ∩ [−∞ < limfn < ∞] liegt in S und lim inf fn und lim sup fn sind auf E reellwertige, S ∩ E|B-messbare Funktionen. Wegen Folgerung 7.14 ist auch lim sup fn − lim inf fn S ∩ E|B-messbar. Daher gilt E := [−∞ < limfn = limfn < ∞] = E ∩ [limfn − limfn = 0] ∈ S . M− := [limfn = −∞] , M+ := [ limfn = ∞] liegen auch in S , und dies führt zu M = M− ∪ M+ ∪ E ∈ S . Definition 7.22. Gilt für eine Folge (an ) aus R lim inf an = lim sup an , so bezeichnet man lim an := lim inf an = lim sup an als den Grenzwert der Folge und sagt in diesem Fall, dass der Grenzwert der Folge existiert. Bemerkung 7.23. M := [ ∃ lim fn ] := {ω : lim inf fn (ω) = lim sup fn (ω } , die Menge , auf der der Limes existiert, ist messbar, also M ∈ S , und die Grenzfunktion lim fn ist auf (M, S ∩ M ) messbar. Wir verallgemeinern Folgerung 7.14 auf erweitert reellwertige Funktionen. Satz 7.24. Aus fi : (Ω, S) → (R, B), i = 1, 2 1. 2. 3. 4.
folgt
f1 ∨ f2 : (Ω, S) → (R, B) , f1 ∧ f2 : (Ω, S) → (R, B) , f1 f2 : (Ω, S) → (R, B) , f1 + f2 : (Ω , S ∩ Ω ) → (R, B) mit Ω := [ ∃ f1 + f2 ] := {ω : ( f1 (ω) ∧ f2 (ω) > −∞ ) ∨ ( f1 (ω) ∨ f2 (ω) < ∞ )} ∈ S .
Beweis. 1. und 2. folgen aus Satz 7.20 mit f1 := f1 , fn := f2 , ∀ n ≥ 2 . Damit sind auch die reellwertigen Funktionen fi,n := ( (fi ∨ −n) ∧ n ) , i = 1, 2 messbar für alle n ∈ N . Somit folgt aus 7.14 die Messbarkeit von f1,n f2,n bzw. f1,n + f2,n und dies impliziert wegen Satz 7.20 die Messbarkeit von f1 f2 = lim(f1,n f2,n ) bzw. von f1 + f2 = lim(f1,n + f2,n ) , wobei die n
n
Summe natürlich nur auf Ω sinnvoll ist. Somit sind auch 3. und 4. bewiesen.
92
7 Messbare Funktionen - Zufallsvariable
7.3 Treppenfunktionen Definition 7.25. Ist Ω eine beliebige Menge, so nennt man eine Funktion t : Ω → R Treppenfunktion, wenn es eine endliche Zerlegung A1 , . . . , An von Ω n αi 1Ai (ω) ∀ ω ∈ Ω . und reelle Zahlen α1 , . . . , αn gibt mit t(ω) = i=1
Lemma 7.26. Ist Ω eine beliebige Menge, so ist eine Funktion t : Ω → R genau dann eine Treppenfunktion, wenn es Mengen B1 , . . . , Bm und reelle Zahlen m βj 1Bj . β1 , . . . , βm gibt, sodass t = j=1
Beweis. Die eine Richtung ist klar. Ist umgekehrt B1 , . . . , Bm eine Familie von Mengen mit t = kann man eine disjunkte Zerlegung von Ω bilden mit D(∅) :=
m
βj 1Bj , so
j=1 m
Bjc und
j=1
D(j1 , . . . , jk ) :=
k
Bjh ∩
h=1
g∈{j1 ,...,jk
{j1 , . . . , jk } ⊆ {1, . . . , m} .
Bgc , }c
Sind D1 , . . . , Dn die nichtleeren Elemente dieser Zerlegung, so gilt ⎛ ⎞ m m n ! ! ! ! ! βj 1Bj = βj 1Di = 1Di ⎝ βj ⎠ , j=1
und mit αi := lung t =
n
j: Di ⊆Bj
j=1
i: Di ⊆Bj
βj ,
i = 1, . . . , n erhält man die gewünschte Darstel-
i=1
j: Di ⊆Bj
αi 1Di durch eine endliche Zerlegung.
i=1
Sind die Bj messbar, so natürlich auch die Durchschnitte Di . Bemerkung 7.27. Sind die Mengen Ai bzw. Bj alle messbar, so ist auch die damit gebildete Treppenfunktion messbar. Es ist aber durchaus möglich, dass man eine messbare Treppenfunktion mit Hilfe einer nichtmessbaren Zerlegung darstellen kann, bspw. t ≡ 0 = 0 1A + 0 1Ac mit A ∈ / S . Ist aber {x1 , . . . , xk } mit xi = xj ∀ i = j der Wertebereich einer messbaren Treppenfunktion, so k gilt klarerweise t = xi 1[t=xi ] mit Ai := [t = xi ] ∈ S ∀ 1 ≤ i ≤ k und Ai ∩ Aj = ∅
i=1
∀ i = j , d.h. zu jeder messbaren Treppenfunktion t gibt es eine k eindeutig bestimmte Darstellung der Form t = xi 1Ai mit xi = xj ∀ i = j i=1
und Ai ∈ S
∀ i = 1, . . . , k ; Ai ∩ Aj = ∅
∀ i = j und Ω =
k i=1
Ai .
7.3 Treppenfunktionen
93
Definition 7.28. Ist (Ω, S) ein Messraum und t eine messbare Treppenfunktion darauf mit dem Wertebereich {x1 , . . . , xk }, xi = xj ∀ i = j , so nennt man k t= xi 1[t=xi ] die kanonische Darstellung von t . i=1
Bemerkung 7.29. Von nun an werden folgende Bezeichnungen verwendet, wobei (Ω, S) immer ein Messraum ist. Dabei unterbleibt der Bezug auf (Ω, S) , wenn klar ist, um welchen Messraum es sich handelt M := M(Ω, S) := {f : (Ω, S) → (R, B)} , M+ := M+ (Ω, S) := {f ∈ M : f ≥ 0} , T := T(Ω, S) := {t ∈ M : t ist eine Treppenfunktion} , T + := T + (Ω, S) := {t ∈ T : t ≥ 0} , C := C(Rk ) := {f : Rk → R : f ist stetig} , C+ := C+ (Rk ) := {f ∈ C : f ≥ 0} , Während man in der klassischen Differential- und Integralrechnung Funktionen so durch Treppenfunktionen approximiert, dass man die x-Achse, also den Definitionsbereich, in kleine Intervalle zerlegt und allen Punkten eines jeden dieser Teilintervalle einen konstanten Funktionswert zuordnet, wird bei der im folgenden Satz beschriebenen Approximation der messbaren Funktionen die y-Achse, also der Wertebereich, unterteilt, und es werden jeweils alle Punkte des Definitionsbereichs zu einer Menge zusammengefasst, deren Funktionswerte im selben Intervall der y-Achse liegen. Diese Urbilder können wesentlich komplexer als Intervalle sein. Darin liegt der Schlüssel für die Lebesgue’sche Verallgemeinerung des Integralbegriffs. Satz 7.30. Zu jedem f ∈ M+ (Ω, S) gibt es eine monoton steigende Folge (tn ) aus T + (Ω, S) , sodass f (ω) = lim tn (ω) ∀ ω ∈ Ω . n
Zu jedem f ∈ M(Ω, S) gibt es eine Folge (tn ) aus T(Ω, S) , sodass f (ω) = lim tn (ω) ∀ ω ∈ Ω und | tn | ≤ | f | ∀ n ∈ N . n
Wenn f beschränkt ist, konvergiert (tn ) gleichmäßig gegen f . Beweis. Ist f ∈ M+ , so gilt für die Folge tn , definiert durch n, f (ω) ≥ n tn (ω) := k−1 k−1 , ≤ f (ω) < 2kn , k = 1, . . . , n 2n , 2n 2n tn ≤ tn+1
∀ n ∈ N und lim tn (ω) = f (ω) n
∀ω ∈Ω.
Für f ∈ M kann man den ersten Teil des Satzes auf f + und f − anwenden − + + und und erhält damit Folgen von Treppenfunktionen t+ n und tn mit tn f − + − + − + + t− f . Daraus folgt lim (t − t ) = f − f = f . Wegen t ≤ f und n n n n n
− − + − t− ∀ n ∈ N gilt auch |tn | = t+ = |f | ∀ n ∈ N . n ≤f n + tn ≤ f + f Wenn f durch M beschränkt wird, so gilt |f (ω) − tn (ω)| ≤ 21n ∀ ω ∈ Ω und n ≥ M , d.h. tn konvergiert dann gleichmäßig gegen f .
94
7 Messbare Funktionen - Zufallsvariable
Abb. 7.1. Approximation einer Funktion durch Treppenfunktionen
7.4 Baire-Funktionen Die stetigen Funktionen f : R → R sind gemäß Folgerung 7.9 Borel-messbar. Hat eine Funktionenfolge fn : (R, B) → (R, B) , n ∈ N in jedem Punkt einen Grenzwert f (ω) := lim fn (ω) ∈ R ∀ ω ∈ R , so ist gemäß Bemerkung 7.23 n
die Grenzfunktion f messbar auf (R, B) . Das System der Borel-messbaren Funktionen ist also gegen punktweise Konvergenz abgeschlossen. Zudem enthält es die stetigen Funktionen. Definition 7.31. Das kleinste Funktionensytem B auf R mit C ⊆ B , das zu jeder punktweise konvergenten Funktionenfolge auch die Grenzfunktion enthält, wird als System der Baire-Funktionen bezeichnet. Satz 7.32. Das System B der Baire-Funktionen stimmt mit dem System der Borel-messbaren Funktionen auf R überein. Beweis. Auf Grund der bisherigen Ausführungen ist klar, dass B im System der Borel-messbaren Funktionen enthalten ist. Um die andere Richtung zu zeigen, definiert man zu jedem f ∈ B das System Bf := {g ∈ B : g f ∈ B, g + f ∈ B} , das wegen g ≡ 0 ∈ Bf ∀ f ∈ B stets nichtleer ist. Aus f, g ∈ C ⇒ f g , f + g ∈ C ⊆ B folgt zudem C ⊆ Bf ∀ f ∈ C . Ist nun (gn ) eine punktweise gegen eine Funktion g konvergierende Folge aus
7.5 Subsigmaalgebren
95
Bf , so konvergieren die Folgen (f gn ) und (f +gn ) gegen f g bzw. f +g . Daher liegen diese Funktionen in B , und daraus folgt g ∈ Bf . Somit ist Bf gegen punktweise Konvergenz abgeschlossen. Da Bf für stetiges f auch C enthält, gilt deshalb Bf = B ∀ f ∈ C . Wegen g ∈ Bf ⇔ f ∈ Bg impliziert dies aber C ⊆ Bf ∀ f ∈ B , woraus wieder wegen der Abgeschlossenheit von Bf gegen punktweise Konvergenz folgt Bf = B ∀ f ∈ B , oder anders gesagt, f, g ∈ B ⇒ f g ∈ B ∧ f + g ∈ B . Wegen h ≡ α ∈ B ∀ α ∈ R gilt sogar f, g ∈ B ⇒ α f g + β f + γ g + δ ∈ B ∀ α, β, γ, δ ∈ R .
(7.5)
Demnach ist S := {A : 1A ∈ B} eine Algebra, denn aus (7.5) folgt 1R ≡ 1 ∈ B und 1A , 1B ∈ B ⇒ 1Ac = 1 − 1A ∈ B ∧ 1A∩B = 1A 1B ∈ B . Für jede Folge (An ) aus S gilt daher BN := wegen 1 An = lim 1BN letztlich folgt n
N
∞
N
An ∈ S ∀ N ∈ N , woraus
1
An ∈ S . Somit ist S eine σ-Algebra.
1
1 eine stetige Funktion fn durch Definiert man zu a < b und alle n > b−a ⎧ 0, ω ≤ a ∨ ω > b + n1 ⎪ ⎪ ⎪ ⎨n (ω − a), a < ω ≤ a + n1 fn (ω) := ⎪ 1, a + n1 < ω ≤ b ⎪ ⎪ ⎩ n (b + n1 − ω) b < ω ≤ b + n1 ,
so gilt lim fn = 1(a,b] . Daraus folgt J ⊆ S und damit auch B ⊆ S , d.h. n
1A ∈ B ∀ A ∈ B . Zusammen mit (7.5) impliziert das T ⊆ B . Damit ist der Satz bewiesen, denn gemäß Satz 7.30 gibt es zu jedem f : (R, B) → (R, B) eine Folge (tn ) aus T mit lim tn = f . n
7.5 Subsigmaalgebren Oft kann man den Ausgang eines Versuches nicht direkt beobachten und man muss aus den Werten einer Zufallsvariablen auf den Versuch zurückschließen. Beispielsweise wird ein Arzt versuchen aus verschiedenen Indikatoren, also Zufallsvariablen, wie etwa Körpertemperatur, Blutdruck etc. Rückschlüsse auf die Krankheit eines Patienten zu gewinnen. Es liegt in der Natur der Sache, dass dies je nach Art der Zufallsvariablen zu mehr oder minder starken Informationsverlusten führt. Beispiel 7.33. Der Wurf mit einem Würfel kann beschrieben werden durch (Ω, S, P ) mit Ω = {1, . . . , 6}, S = P(Ω), P (i) = 16 . Angenommen man weiß nur, ob eine gerade oder ungerade Augenzahl gewürfelt wurde, also
96
7 Messbare Funktionen - Zufallsvariable
X(ω) :=
0, 1,
ω ∈ {2, 4, 6} ω ∈ {1, 3, 5} ,
dann kann man aus der Kenntnis von X nicht zwischen {1, 3, 5} und nicht zwischen 2, 4 und 6 unterscheiden. Dies deshalb, weil aus dem Wert von X nur die entsprechende Urbildmenge ermittelt werden kann, aber nicht welcher Ausgang aus dieser Menge zum beobachteten Wert der Zufallsvariablen geführt hat. In unserem Beispiel kommen dafür nur die Mengen ∅ , Ω , {2, 4, 6} , {1, 3, 5} in Betracht. Die Urbilder bilden eine σ-Algebra S(X) , die wesentlich gröber als S ist. Kennt man auch den Wert der Zufallsvariable Y mit 0, ω ≤ 3 Y (ω) := 1, ω > 3 , so kann man etwa aus X = 0 und Y = 0 schließen, dass der Würfel die Augenzahl 2 gezeigt hat, aber bei X = 1 und Y = 0 , kann man nicht zwischen 1 und 3 unterscheiden. Die „kleinsten Mengen“ der σ-Algebra S(X, Y ) sind die Urbilder [ X = 0 , Y = 0 ] = {2} , [ X = 0 , Y = 1 ] = {4, 6} , sowie [ X = 1 , Y = 0 ] = {1, 3} und [ X = 1 , Y = 1 ] = {5} . Alle anderen Elemente von S(X, Y ) sind Vereinigungen dieser Mengen. Daher gilt für jedes A ∈ S(X, Y ) beispielsweise 4 ∈ A ⇔ 6 ∈ A oder 1 ∈ A ⇔ 3 ∈ A . Definition 7.34. Ist S eine σ-Algebra auf Ω , so nennt man ω und ω S-äquivalent, wenn ω ∈ A ⇔ ω ∈ A ∀ A ∈ S . Wie man leicht sieht, wird dadurch eine Äquivalenzrelation auf Ω definiert, und intuitiv ist klar, dass die zugehörige Klassenzerlegung umso feiner wird, je „reichhaltiger“ S ist. Ist Ω1 eine beliebige Menge, (Ω2 , S2 ) ein Messraum und f : Ω1 → Ω2 , so ist die σ-Algebra f −1 (S2 ) in jeder σ-Algebra S enthalten, bezüglich der f S|S2 -messbar ist, d.h. aus f : (Ω, S) → (Ω2 , S2 ) folgt f −1 (S2 ) ⊆ S . Definition 7.35. Ist Ω1 eine Menge, (Ω2 , S2 ) ein Messraum und f : Ω1 → Ω2 , so nennt man S(f ) := f −1 (S2 ) die von f erzeugte σ-Algebra. Beispiel 7.33 hat veranschaulicht, dass eine Zufallsvariable X auf einem Messraum (Ω1 , S1 ) umso weniger Information über (Ω1 , S1 ) enthält, je „gröber“ S(X) im Vergleich zu S1 ist. Beispiel 7.36. Bei einem zweistufigen Versuch wird zunächst gewürfelt. Die Augenzahl X des Würfels bestimmt dann, wie oft eine Münze geworfen wird. Mit Y wird die Anzahl der „Adler“ im Verlauf dieser Münzwürfe bezeichnet. Diesen Versuch kann man in geeigneter Weise beschreiben durch den Messraum (Ω, P(Ω)) mit Ω := {(x, y) : x ∈ {1, . . . , 6} , y ∈ {0, . . . , x} } . Ein Beobachter, der nur y kennt, kann nicht entscheiden, welcher Ausgang aus [Y = y] = {(y, y), . . . , (6, y)} zum Ergebnis y geführt hat. Da S(Y ) aus den Vereinigungen der Ereignisse [Y = y], 0 ≤ y ≤ 6 besteht, sind diese gerade die Äquivalenzklassen der S(Y )-äquivalenten Ausgänge.
7.5 Subsigmaalgebren
97
Das folgende Beispiel zeigt, wie sich der Informationsverlust, der entsteht, wenn man Messwerte einer Versuchsreihe der Größe nach ordnet, in der Struktur der entsprechenden Subsigmaalgebra widerspiegelt, wobei wir der Einfachheit halber annehmen, dass nur zwei Messwerte erhoben werden. Beispiel 7.37. Auf (Ω, S) := (R2 , B2 ) ist die Funktion f : (R2 , B2 ) → (R2 , B2 ) definiert durch f ((ω1 , ω2 )) := (ω1 ∧ ω2 , ω1 ∨ ω2 ) ∀ ω := (ω1 , ω2 ) ∈ R2 . Ein Beobachter, der f kennt, kennt zwar die Werte der Koordinaten von ω ∈ R2 , aber er weiß nicht in welcher Reihenfolge sie auftreten. Bezeichnet man für eine Teilmenge A ⊆ R2 mit AS die an der Geraden ω2 = ω1 gespiegelte Menge, also AS = {(ω1 , ω2 ) : (ω2 , ω1 ) ∈ A} , so gilt 01 S A = T (A) , wobei der nichtsingulären Transformation T die Matrix 10 S entspricht. Gemäß Satz 6.68 gilt daher A ∈ B2 genau dann, wenn A ∈ B2 . Offensichtlich gilt f ((ω1 , ω2 )) ∈ B ⇔ f ((ω2 , ω1 )) ∈ B ∀ B ∈ B2 , oder anders ausgedrückt ω ∈ f −1 (B) ⇔ ω ∈ (f −1 (B))S .Dies ist gleichbedeutend zu f −1 (B) = (f −1 (B))S ∀ B ∈ B2 ⇒ S(f ) ⊆ C := {A ∈ B2 : A = AS } . Ist A ∈ C und definiert man H durch H := {(ω1 , ω2 ) : ω1 ≤ ω2 } , so gilt (A ∩ H)S = AS ∩ H S = A ∩ H S ⊇ A ∩ H c . Daraus folgt A = A ∪ AS ⊇ (A ∩ H) ∪ (A ∩ H)S ⊇ (A ∩ H) ∪ (A ∩ H c ) = A , und dies impliziert f −1 (A ∩ H) = (A ∩ H) ∪ (A ∩ H)S = A ⇒ C ⊆ S(f ) . Somit ist S(f ) gerade die σ-Algebra C , der zur 45◦ -Geraden symmetrischen Borelmengen, und zwei Punkte sind S(f )-äquivalent, wenn sie durch Spiegelung an dieser Geraden ineinander übergehen Definition 7.38. Ist Ω eine beliebige Menge, (Ωi , Si ), i ∈ I eine Familie von Messräumen und fi : Ω → Ωi , i ∈ I eine Familie von Funktionen auf Ω , so nennt man die kleinste σ-Algebra S(fi : i ∈ I) , bezüglich der alle fi S(fi : i ∈ I)|Si -messbar sind, die von (fi )i∈I erzeugte σ-Algebra. Bemerkung 7.39. Offensichtlich gilt die folgende Beziehung
S(fi ) = Aσ fi−1 (Si ) . S(fi : i ∈ I) = Aσ i∈I
(7.6)
i∈I
Man kann die σ-Algebren S(fi ) = fi−1 (Si ) in (7.6) durch die Urbilder von Erzeugendensystemen Ci ersetzen, wie der folgende Satz zeigt.
fi−1 (Ci )
Satz 7.40. Sind (fi )i∈I Abbildungen von Ω in Messräume (Ωi , Si ), i ∈ I und gilt für die Mengensysteme Ci , i ∈ I jeweils Si = Aσ (Ci ) , dann gilt
−1 fi (Ci ) . S := S(fi : i ∈ I) = Aσ i∈I
98
7 Messbare Funktionen - Zufallsvariable
Beweis. Wegen
fi−1 (Ci )
i∈I
⊆
fi−1 (Si )
gilt Aσ
i∈I
%
$
fj−1 (Sj ) = fj−1 (Aσ (Cj )) = Aσ fj−1 (Cj ) ⊆ Aσ
fj−1 (Sj )
fi−1 (Ci )
⊆ S.
i∈I
Umgekehrt folgt aus Satz 2.63
fi−1 (Ci )
fi−1 (Ci )
∀j ∈ I.
i∈I
Deshalb gilt ⊆ Aσ . Daraus folgt unmittelbar j∈I i∈I
−1 −1 S = Aσ fj (Sj ) ⊆ Aσ fi (Ci ) , womit der Satz bewiesen ist. j∈I
i∈I
Wie der nächste Satz zeigt, ist jede S(f )-messbare, reellwertige Abbildung eine Funktion von f und enthält deshalb nicht mehr Information als f selbst. Satz 7.41. Für f : (Ω1 , S1 ) → (Ω2 , S2 ) und g : Ω1 → R gilt g : (Ω1 , f −1 (S2 )) → (R, B) ⇔ ∃ h : (Ω2 , S2 ) → (R, B) : g = h ◦ f . Beweis. Dass die Zusammensetzung g = h ◦ f einer S2 |B-messbaren Funktion h mit f f −1 (S2 )|B-messbar ist, folgt unmittelbar aus Satz 7.12. Ist hingegen g eine f −1 (S2 )-messbare Treppenfunktion mit der kanonin schen Darstellung g := αi 1Ai , Ai ∈ f −1 (S2 ) ∀ 1 ≤ i ≤ n , so gibt es zu i=1
jedem Ai ein Cˆi ∈ S2 : Ai = f −1 (Cˆi ) . Gäbe es zu ω ∈ Cˆj ∩ Cˆk , j = k ein ω ∈ Ω1 mit f (ω) = ω , so müsste wegen Ai = f −1 (Cˆi ) gelten ω ∈ Aj und ω ∈ Ak . Das wäre ein Widerspruch zu Aj ∩ Ak = ∅ . Daher sind die Ai auch i−1 ˆ Urbilder der disjunkten Mengen C1 := Cˆ1 und Ci := Cˆi \ Cj , i ≥ 2 , d.h. j=1
Ai = f
−1
(Ci )
∀ 1 ≤ i ≤ n , Definiert man h durch h :=
n
αi 1Ci , so gilt
i=1
h(f (ω)) =
n ! i=1
αi 1Ci (f (ω)) =
n !
αi 1f −1 (Ci ) (ω) =
i=1
n !
αi 1Ai (ω) = g(ω) .
i=1
Damit ist die andere Richtung für Treppenfunktionen gezeigt. Zu jeder f −1 (S2 )-messbaren Funktion g gibt es eine Folge von Treppenfunktionen (tn ) aus T(Ω1 , f −1 (S2 )) mit g(ω) = lim tn (ω) , und zu jedem tn n
gibt es ein hn : (Ω2 , S2 ) → (R, B) mit tn = hn ◦f . Dies bedeutet aber, dass gilt g(ω) = lim tn (ω) = lim hn (f (ω)) , d.h. für ω2 := f (ω) konvergiert (hn (ω2 ) ) . n n 8 9 Daraus folgt f (Ω1 ) ⊆ M := ω2 ∈ Ω2 : ∃ lim hn (ω2 ) . Nach Folgerung 7.21 n ˆ := lim hn gilt, wie in Bemerkung 7.23 festggeliegt M in S2 , und für h n ˆ 2 ), ω2 ∈ M h(ω ˆ stellt, h : (M, S2 ∩ M ) → (R, B) . Somit ist h(ω2 ) := /M 0, ω2 ∈
7.6 Unabhängige Zufallsvariable
99
die gesuchte, auf ganz Ω2 definierte, S2 |B-messbare Funktion, für die gilt ˆ (ω)) = h ◦ f (ω) ∀ ω ∈ Ω1 . g(ω) = lim hn (f (ω)) = h(f n
7.6 Unabhängige Zufallsvariable Die folgende Definition ist konsistent zu Definition 5.7. Definition 7.42. Eine Familie von Zufallsvektoren (Xi )i∈I auf einem Wahrscheinlichkeitsraum (Ω, S, P ) wird als unabhängig bezeichnet, wenn die Subsigmaalgebren S(Xi ), i ∈ I unabhängig sind. Bemerkung 7.43. Die Koordinaten der Xi müssen nicht unabhängig sein. Satz 7.44. Sind Xi : (Ω, S) → (Rki , Bki ), i ∈ I unabhängige Zufallsvektoren auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und sind die Funktionen Ti : (Rki , Bki ) → (Rgi , Bgi ) ∀ i ∈ I messbar, so sind die zusammengesetzten Abbildungen Ti ◦ Xi , i ∈ I unabhängig. Beweis. Die obige Aussage folgt sofort aus S(Ti ◦ Xi ) ⊆ S(Xi )
∀i∈I.
Satz 7.45. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so ist die Familie der Zufallsvariablen (Xi )i∈I auf (Ω, S, P ) unabhängig genau dann, wenn eine der untenstehenden Bedingungen für alle {i1 , . . . , im } ⊆ I erfüllt ist ⎛ ⎞ m m
% $ ∀ Bj ∈ B , 1. P ⎝(Xi1 , . . . , Xim ) ∈ Bj ⎠ = P Xij ∈ Bj j=1
⎛ 2. P ⎝(Xi1 , . . . , Xim ) ∈
m
j=1
⎞
(aj , bj ]⎠ =
j=1
m
$ % P Xij ∈ (aj , bj ]
∀ aj ≤ bj ,
j=1
3. P (Xi1 ≤ a1 , . . . , Xim ≤ am ) =
m
$ % P Xij ≤ aj
∀ aj ∈ R .
j=1
Beweis. Wegen (Xi1 , . . . , Xim ) ∈
m j=1
Bj =
m
[Xij ∈ Bj ] entspricht Punkt 1.
j=1
gerade der Definition der Unabhängigkeit der S(Xi ) . Bedingung 2. folgt aus Bedingung 1. und Bedingung 3. aus Bedingung 2. Schließlich folgt aus Punkt 3. nach Satz 5.8 die Unabhängigkeit der Xi , da die Ci := [Xi−1 (−∞, a] ] durchschnittsstabil sind und die S(Xi ) erzeugen. Lemma 7.46. Eine Folge von Zufallsvariablen Xn auf einem Wahrscheinlichfür alle n ≥ 2 von keitsraum (Ω, S, P ) ist genau dann unabhängig, wenn Xn−1 1 Xn unabhängig ist.
100
7 Messbare Funktionen - Zufallsvariable
Beweis. Die Notwendigkeit der obigen Bedingung ist klar. Um die umgekehrte Richtung zu beweisen, zeigen wir mit vollständiger Induktion, dass gilt
n n
n = P X1 ∈ Bi P ([Xi ∈ Bi ]) . (7.7) i=1
i=1
Wegen P ( (X1 , X2 ) ∈ B1 × B2 ) = P ([X1 ∈ B1 ] ∩ [X2 ∈ B2 ]) =
2
P (Xi ∈ Bi )
i=1
ist (7.7) für n = 2 richtig und, wenn (7.7) für n − 1 gilt, so folgt daraus
n n−1 n
n−1 n X1 ∈ P X1 ∈ Bi = P Bi ∩ [Xn ∈ Bn ] = P (Xi ∈ Bi ) . i=1
i=1
i=1
Damit ist die Gültigkeit von Gleichung (7.7) für alle n ∈ N gezeigt. Ist nun {i1 , . . . , im } eine Teilmenge von N , so wird aus (7.7) mit n := max ij 1≤j≤m
und Bg := R für alle Indizes aus {1, . . . , n} \ {i1 , . . . , im } die Gleichung aus Punkt 1. des vorigen Satzes. Damit ist auch die andere Richtung bewiesen. Definition 7.47. Ein Zufallsvektor X : Ω → Rk auf einem Wahrscheinlichkeitsraum (Ω, S, P ) heißt diskret, wenn sein Wertebereich höchstens abzählbar ist. Lemma 7.48. Ist X ein diskreter Zufallsvektor auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt S(X) = Aσ ({[X = xn ] : n ∈ N}) . [X = xn ] ∀ B ∈ Bk . Beweis. [X ∈ B] = xn ∈B
Für Familien von diskreten Zufallsvariablen kann man Satz 7.45 durch ein einfacheres Unabhängigkeitskriterium ersetzen. Satz 7.49. Eine Familie (Xi )i∈I diskreter Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) ist genau dann unabhängig, wenn für alle endlichen Teilmengen {i1 , . . . , im } ⊆ I gilt P ( Xi1 = x1 , . . . , Xim = xm ) =
m
% $ P Xij = xj
∀ xj ∈ R .
j=1
Beweis. Diese Aussage folgt direkt aus Satz 5.8 und Lemma 7.48. Lemma 7.50. Eine Folge diskreter Zufallsvariabler Xn auf einem Wahrscheinlichkeitsraum (Ω, S, P ) ist genau dann unabhängig, wenn P ( X1 = x1 , . . . , Xn = xn ) =
n
j=1
P ( Xi = xi )
∀ xi ∈ R, n ∈ N .
(7.8)
7.7 Verallgemeinertes Null-Eins-Gesetz von Kolmogoroff
Beweis. Sind die Xn unabhängig, so gilt (7.8) gemäß Satz 7.49. und Xn Aus (7.8) folgt andererseits die Unabhängigkeit von Xn−1 1 und damit ist nach Lemma 7.46 auch die Folge (Xn ) unabhängig.
101
∀ n ≥ 2,
Beispiel 7.51 (Unabhängigkeit der Ziffern einer gleichverteilten Zufallszahl). Für b ∈ N, b ≥ 2 und xi ∈ Zb := {0, . . . , b − 1} ∀ i besteht das Intervall n n xi xi 1 , + bn gerade aus den Zahlen ω ∈ [0, 1) , die in der Zahlendarbi bi i=1
i=1
stellung zur Basis b in den ersten n Nachkommastellen die Ziffern x1 , . . . , xn besitzen. Dabei wird die endliche Entwicklung verwendet, wenn ω eine endliche und eine Darstellung besitzt. Daher besteht die Vereinigung n periodische n xi xi 1 , + bn aus allen Zahlen, bei denen die Ziffer xn an bi bi xn−1 ∈Zbn−1 1
i=1
i=1
der n-ten Stelle, die wir mit Xn bezeichnen, steht. n n xi xi Wegen [Xn = xn ] = bi , bi + xn−1 ∈Zbn−1 1
i=1
i=1
∀ xn ∈ Zb sind die
1 bn
Xn messbar auf ([0, 1), B ∩ [0, 1)) und damit Zufallsvariablen auf dem Wahrscheinlichkeitsraum. ([0, 1), B ∩ [0, 1), P = λ) . Weiters gilt für alle xn ∈ Zb
n n ! ! xi ! 1 1 xi bn−1 P (Xn = xn ) = λ , + n = n = . i i b b b b b n−1 n−1 i=1 i=1 x1
∈Zb
Aus [X1 = x1 , . . . , Xn = xn ] =
n i=1
xi bi
P (X1 = x1 , . . . , Xn = xn ) = λ
,
n i=1
xi bi
+
1 bn
folgt
n n ! xi ! xi 1 , + n i i b i=1 b b i=1
und daher gilt P (X1 = x1 , . . . , Xn = xn ) =
n
P (Xi = xi )
=
1 , bn
∀ xi ∈ Zb . Nach
i=1
Lemma 7.50 impliziert dies die Unabhängigkeit der Folge (Xn ) . Die Ziffern einer aus [0, 1) gleichverteilt ausgewählten Zahl, angeschrieben in einem Zahlenssystem mit Basis b ≥ 2 , sind also voneinander unabhängig und nehmen alle möglichen Werte mit gleicher Wahrscheinlichkeit an. Bemerkung 7.52. Bereits in Kapitel 1.1 haben wir für b = 6 gezeigt, dass umgekehrt die Zahl, deren Ziffern aus einer Folge unabhängiger, auf {0, . . . , b − 1} gleichverteilter Zufallsvariabler gebildet werden, auf [0, 1) gleichverteilt ist. Dass dies auch für jede andere Basis b ≥ 2 gilt, sieht man, indem man der in 1.1 beschriebenen Vorgangsweise folgt und dort einfach 6 durch b ersetzt.
7.7 Verallgemeinertes Null-Eins-Gesetz von Kolmogoroff Definition 7.53. Eine einen Maßraum (Ω, S, μ) betreffende Aussage A gilt μ-fast überall (i.Z. μ–fü ), wenn sie bis auf eine μ-Nullmenge gilt. Ist P ein Wahrscheinlichkeitsmaß, so sagt man A gilt P -fast sicher (i.Z. P -fs).
102
7 Messbare Funktionen - Zufallsvariable
Dies bedeutet, dass A jedenfalls auf dem Komplement N c einer Menge N ∈ S mit μ(N ) = 0 gilt, aber A kann auch für einzelne Punkte ω ∈ N gelten, sodass weder die Menge der Punkte, für die A gilt, noch die Menge der Punkte, für die A nicht gilt, messbar sein muss, wenn S nicht μ-vollständig ist. Wie bei Folgen unabhängiger Ereignisse kann man auch für Folgen unabhängiger Zufallsvariabler terminale Ereignisse definieren, für die eine verallgemeinerte Form des Kolmogoroff’schen 0-1-Gesetzes (Satz 5.13) gilt. Definition 7.54. Ist (Xn ) eine Folge unabhängiger Zufallsvariabler auf einem ∞ S(Xn , Xn+1 , ...) Wahrscheinlichkeitsraum (Ω, S, P ), so nennt man S∞ := n=1
die σ-Algebra der terminalen Ereignisse (bzw. der asymptotischen Ereignisse). Satz 7.55 (verallgemeinertes Null-Eins-Gesetz von Kolmogoroff). Ist (Xn ) eine Folge unabhängiger Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt P (A) = 0 ∨ P (A) = 1 ∀ A ∈ S∞ . Beweis. Aus S(X1 , . . . , Xn ) ⊆ S := S(X1 , X2 , . . .) ∀ n ∈ N folgt
∞ ∞ , := Aσ S(X1 , . . . , Xn ) ⊆ S ⇒ S S(X1 , . . . , Xn ) ⊆ S . n=1
(7.9)
n=1
Umgekehrt gilt S(Xn ) ⊆ S(X1 , . . . , Xn ) ∀ n ∈ N ⇒ ∞ , , d.h. S = S ,. S(Xn ) ⊆ S aus folgt S = Aσ
, . DarS(Xn ) ⊆ S
n
n=1
Da S(X1 , . . . , Xn ) und S(Xn+1 , Xn+2 . . . ) voneinander unabhängig sind, ist auch S∞ ⊆ S(Xn+1 , Xn+2 . . . ) unabhängig von S(X1 , . . . , Xn ) ∀ n ∈ N . ∞ ∞ Somit ist S(X1 , . . . , Xn ) unabhängig von S∞ . Da S(X1 , . . . , Xn ) n=1
n=1
durchschnittsstabil ist, folgt daraus nach Satz 5.8, die Unabhängigkeit von S und S∞ . Demnach ist S∞ ⊆ S zu sich selbst unabhängig, also gilt P (A) = P (A ∩ A) = P (A)2 ⇒ P (A) = 0 ∨ P (A) = 1 ∀ A ∈ S∞ . Definition 7.56. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so nennt man eine σ-Algebra A ⊆ S P -fs trivial, wenn P (A) = 0 ∨ P (A) = 1 ∀ A ∈ A . Lemma 7.57. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so ist die σ-Algebra A ⊆ S genau dann P -fs trivial, wenn alle A-messbaren Zufallsvariablen X : (Ω, A) → (R, B) P -fs konstant sind. Beweis. Ist A trivial und X A-messbar, so gilt [X < a] ∈ A ∀ a ∈ R , d.h. P (X < a) = 0 ∨ P (X < a) = 1 . Definiert man c durch c := sup {a ∈ R : P (X < a) = 0} , so ist c = −∞ gleichbedeutend zu X = −∞ P –fs und aus c = ∞ folgt X = ∞ P –fs . Für c := sup {a : P (X < a) = 0} ∈ R gilt schließlich P (X < c + n1 ) = 1 ∧ P (X < c − n1 ) = 0
∀ n ∈ N ⇒ P (X = c) = 1 .
7.8 Cantor-Menge und nichtmessbare Mengen
103
Sind umgekehrt die X : (Ω, A) → (R, B) P -fs konstant, so gilt für A ∈ A 1A = 1 P -fs, d.h. P (A) = 1 , oder 1A = 0 P -fs, d.h. P (A) = 0 . Folgerung 7.58. Alle S∞ -messbaren Zufallsvariablen X sind P -fs konstant. Beweis. Dies ergibt sich unmittelbar aus Satz 7.55 und Lemma 7.57. Beispiel 7.59. Wir betrachten die Stichprobenmittelwerte X n := ner Folge von unabhängigen Zufallsvariablen Xn . m ai = 0 Ist (an ) eine Folge aus R , so gilt lim n1 n
lim sup X n ≤ c = n
k∈N nk >m n≥nk
1 n
n
Xi ei-
i=1
∀ m ∈ N . Daraus folgt
i=1
n 1 ! 1 Xi ≤ c + n i=m k
∈ S(Xm , Xm+1 , . . .)
für alle m ∈ N und c ∈ R . Deshalb ist lim sup X n S∞ -messbar. n
In analoger Weise zeigt man, dass lim inf X n ebenfalls terminal ist. Somit n
sind lim sup X n und lim inf X n P -fs konstante Funktionen, weshalb auch gilt n
n
P
lim inf X n = lim sup X n n
" =P
n
# " # ∃ lim X n = 0 ∨ P ∃ lim X n = 1 . n
n
7.8 Cantor-Menge und nichtmessbare Mengen In diesem Abschnitt betrachten wir den Raum [0, 1], λ ) . n−1( [0, 1], B ∩n−1 xi xi + 31n , + 32n ist die Die Vereinigung Cnc := 3i 3i xn−1 ∈{0,1,2}n−1 1
i=1
i=1
Menge aller Zahlen aus [0, 1] , deren n-te Ziffer in jeder triadischen Entwicklung 1 ist. So gehört bspw. 13 = 0.1 = 0.02˙ nicht zu C1c , da die periodische Form eine 0 als erste Ziffer besitzt. Cnc stimmt bis auf die linken Randpunkte seiner Intervalle mit [Xn = 1] aus Beispiel 7.51 überein. Daher unterscheiden n n sich auch die Durchschnitte Cic und [Xi = 1] nur in endlich vielen Punki=1 i=1 n n Cic = λ [Xi = 1] . ten, und es gilt λ (Cnc ) = λ(Xn = 1) bzw. λ Definition 7.60. Die Menge C :=
i=1
i=1
Cn heißt Cantorsche Menge.
n
Die Cantorsche Menge ist also die Menge aller Zahlen aus [0, 1] , die zumindest eine triadische Entwicklung ohne Ziffer 1 besitzen. Satz 7.61. C ist eine überabzählbare, abgeschlossene und nirgends dichte (siehe Definition A.20) Lebesgue-Nullmenge.
104
7 Messbare Funktionen - Zufallsvariable
Abb. 7.2. Iterative Konstruktion der Cantorschen Menge
Beweis. Da die Cnc offen sind, ist C ein Durchschnitt abgeschlossener Mengen und deshalb selbst abgeschlossen. Aus Satz 3.21 und der in Beispiel 7.51 gezeigten Unabhängigkeit der Xi folgt
n
n n 2 λ(C) = lim λ Ci = lim λ [Xi = 1] = lim = 0. n n n 3 i=1 i=1 C ist nirgends dicht, denn jedes Intervall (a, b) mit b − a > 0 enthält für n−1 n−1 xi xi 3 ein Intervall + 31n , + 32n , das in Cnc ⊆ C c liegt. n > b−a 3i 3i Jedem x :=
∞ i=1
i=1
xi 3i
i=1
, xi ∈ {0, 2} aus C wird durch FC (x) :=
eine Zahl aus [0, 1] zugeordnet. Daher ist C überabzählbar.
Abb. 7.3. Graph der Cantorschen Funktion FC
∞ i=1
xi /2 2i
bijektiv
7.9 Konvergenzarten
105
Man kann nun die Existenz nicht-messbarer Mengen zeigen. Satz 7.62. Das Auswahlaxiom vorausgesetzt gilt B ⊂ L ⊂ P(R) . Beweis. Bereits in Kapitel 1.1 wurde, das Auswahlaxiom vorausgesetzt, gezeigt, dass es eine Menge A ⊂ [0, 1] gibt, für die weder λ(A) > 0 noch λ(A) = 0 gelten kann. Daraus folgt A ∈ / L. ∞ yi Ist y := 2i , yi ∈ {0, 1} die Binärdarstellung von y ∈ [0, 1] , so wird i=1
durch
FC−1 (y)
=
∞ i=1
2yi 3i
die Umkehrfunktion von FC gebildet. Wie man leicht
sieht, sind FC und FC−1 monoton und damit nach Satz 7.10 Borel-messbar. Wegen FC−1 : [0, 1] → C gilt FC−1 (A) ⊆ C ⇒ λ(FC−1 (A)) = 0 , d.h. −1 FC (A) ∈ L . Aus FC−1 (A) ∈ B müsste auf Grund der Borel-Messbarkeit von %−1 $ −1 $ $ % % FC−1 folgen FC−1 FC (A) = FC FC−1 (A) = A ∈ B ⊆ L , was im Widerspruch zu A ∈ / L steht.
7.9 Konvergenzarten Auf einem Maßraum (Ω, S, μ) spielt das Verhalten von Funktionen auf einer μ-Nullmenge i.A. keine Rolle. Deshalb werden in diesem Abschnitt die aus der Analysis bekannten Konvergenzarten in geeigneter Weise angepasst. Bemerkung 7.63. Unterscheidet man nicht zwischen Funktionen, die μ–fü gleich sind, so wird dadurch eine Äquivalenzrelation f ∼ g := f = g μ–fü auf M(Ω, S) festgelegt. M(Ω, S, μ) bezeichnet den Raum der damit gebildeten Äquivalenzklassen. Üblicherweise wird in der Notation nicht zwischen Funktionen und den sie enthaltenden Äquivalenzklassen differenziert, d.h. f steht sowohl für eine Funktion, als auch für ihre zugehörige Äquivalenzklasse. Bemerkung 7.64. Manchmal wird auch der Begriff der μ-fast überall messbaren Funktion f verwendet, das ist entsprechend Definition 7.53 eine Funktion, die auf (N c , S ∩ N c ) mit μ(N ) = 0 messbar ist. M(Ω, S, μ) bzw. Mμ , wenn der Bezug auf (Ω, S) klar ist, bezeichnet die Menge der μ-fü messbaren Funktionen. + Entsprechend definiert man M+ μ := M (Ω, S, μ) := {f ∈ Mμ : f ≥ 0 μ–fü} . Dieser Begriff ist jedoch ohne große praktische Bedeutung, da einerseits f˜ := f 1N c auf (Ω, S, μ) messbar ist und μ-fast überall mit f übereinstimmt, und andererseits auf vollständigen Räumen jede μ–fü messbare Funktion auch messbar ist, sodass dort beide Begriffe zusammenfallen. Hinzu kommt, dass auf den besonders wichtigen σ-endlichen Räumen die Voraussetzung der Vollständigkeit wegen Folgerung 4.22 keine wirkliche Einschränkung darstellt. Der Begriff ist manchmal in Integralaussagen zu finden. Als erstes betrachten wir die gleichmäßige Konvergenz.
106
7 Messbare Funktionen - Zufallsvariable
Definition 7.65. Ist (Ω, S, μ) ein Maßraum, so konvergiert eine Folge (fn ) messbarer Funktionen auf diesem Raum gleichmäßig μ-fast überall (bzw. P –fs), wenn es eine μ-Nullmenge N gibt, sodass (fn ) auf N c gleichmäßig konvergiert. Die Folge (fn ) ist eine μ–fü gleichmäßig konvergente Cauchyfolge, wenn sie auf N c eine gleichmäßig konvergente Cauchyfolge ist. Wichtig im Zusammenhang mit dieser Konvergenzart ist der folgende Begriff. Definition 7.66. Eine messbare Funktion f auf einem Maßraum (Ω, S, μ) heißt μ-fast überall beschränkt, wenn es ein c ∈ R gibt mit μ( |f | > c ) = 0 . !f !∞ := ess sup f := inf{ c ∈ R : μ( |f | > c ) = 0 } wird als das essentielle Supremum von f bezeichnet. L∞ := L∞ (Ω, S, μ) := {f ∈ M(Ω, S, μ) : !f !∞ < ∞} , L∞ := L∞ (Ω, S, μ) ist der Raum der Äquivalenzklassen μ–fü gleicher Funktionen aus L∞ . Bemerkung 7.67. Klarerweise gilt |f | ≤ !f !∞
μ-fü.
Wir werden zeigen, dass ! !∞ , wie die Bezeichnungsweise schon vermuten lässt, eine Norm auf L∞ darstellt und die gleichmäßige Konvergenz μ-fü gerade der Konvergenz bezüglich dieser Norm entspricht. Satz 7.68. Ist (Ω, S, μ) ein Maßraum, so ist L∞ (Ω, S, μ) ein Banachraum (siehe Definition A.69), d.h. auf L∞ (Ω, S, μ) gelten folgende Aussagen 1. 2. 3. 4.
!f !∞ = 0 ⇔ f = 0 μ − fü , f ∈ L∞ , α ∈ R ⇒ α f ∈ L∞ ∧ !α f !∞ = |α| !f !∞ , f , g ∈ L∞ ⇒ f + g ∈ L∞ ∧ !f + g!∞ ≤ !f !∞ + !g!∞ , (fn ) konvergiert gleichmäßig μ-fü ⇔ lim !fn − fm !∞ = 0 ,
5.
lim !fn − fm !∞ = 0 ⇔ ∃ f ∈ L∞ : lim !fn − f !∞ = 0 .
n,m→∞
n,m→∞
n→∞
Beweis. ad 1.: Aus f = 0 μ-fü folgt μ( |f | > c ) = $ 0 ∀ c1 >% 0 ⇒ !f !∞ = 0. andererseits μ [|f | > k ] = 0 ∀ k ∈ N . Daher gilt Aus !f !∞ = 0. folgt μ ( [f = 0] ) = μ [ |f | > k1 ] = 0 , also f = 0 μ-fü. k
ad 2.: Dieser Punkt ist offensichtlich. ad 3.: Gemäß Bemerkung 7.67 gilt |f + g| ≤ |f | + |g| ≤ !f !∞ + !g!∞ μ-fü . Daraus folgt f + g ∈ L∞ und !f + g!∞ ≤ !f !∞ + !g!∞ . ad 4.: Konvergiert (fn ) gleichmäßig μ–fü , so gibt es eine μ-Nullmenge N und zu jedem ε > 0 ein nε , sodass für alle ω ∈ N c und n, m ≥ nε gilt |fn (ω) − fm (ω)| ≤ ε ⇒ !fn − fm !∞ ≤ ε . D.h. lim !fn − fm !∞ = 0 . n,m→∞
lim !fn − fm !∞ = 0 , dass es zu jedem k ∈ N n,m→∞ % $ gilt μ |fn −- fm | > k1 = 0 ∀ n, m ≥ nk . Daher ist ein nk gibt, sodass 3 |fn − fm | > k1 eine μ-Nullmenge. Aber auf N c bilden N := Umgekehrt folgt aus
k n,m≥nk
die fn offensichtlich eine gleichmäßig konvergente Cauchy-Folge.
7.9 Konvergenzarten
ad 5.: Gilt
107
lim !fn −fm !∞ = 0 , so gibt es wegen 4. eine μ-Nullmenge N ,
n,m→∞
sodass (fn ) auf N c eine gleichmäßig konvergente Cauchyfolge ist. Daher haben die Folgen (fn (ω)) , ω ∈ N c einen Grenzwert f (ω) := lim fn (ω) . n
Auf Grund der gleichmäßigen Konvergenz von fn auf N c gibt es zu jedem ε > 0 ein nε , sodass |fn (ω) − fm (ω)| < ε ∀ ω ∈ N c ; n, m ≥ nε . Da c der Betrag | | stetig +ist, folgt daraus, dass + für alle ω ∈ N und n ≥ nε + + gilt |f (ω) − fn (ω)| = +lim fm (ω) − fn (ω)+ = lim |fm (ω) − fn (ω)| ≤ ε , d.h. m
m
(fn ) konvergiert auf N c gleichmäßig gegen f . Damit konvergiert (fn ) aber auch gleichmäßig μ-fü gegen+ f˜ :=+ f 1N c . Diese Funktion ist μ–fü + + beschränkt, denn es gilt einerseits +f˜(ω)+ = 0 ∀ ω ∈ N und andererseits + + +˜ + +f (ω)+ = |f (ω)| ≤ |f (ω) − fn (ω)| + |fn (ω)| ≤ ε + !fn !∞ < ∞ ∀ ω ∈ N c . Der Beweis der umgekehrten Implikation ist trivial, denn, wenn es ein f ∈ L∞ mit lim !fn − f !∞ = 0 gibt, so gilt nach Punkt 3. n
!fn − fm !∞ = !fn − f + f − fm !∞ ≤ !fn − f !∞ + !f − fm !∞ → 0 . Das nächste hier vorgestellte Konvergenzkonzept ist die sogenannte μ-fast gleichmäßige Konvergenz, die etwas schwächer als die gleichmäßige Konvergenz μ–fü ist und mit dieser nicht verwechselt werden darf. Definition 7.69. Eine Folge (fn ) messbarer Funktionen auf einem Maßraum (Ω, S, μ) konvergiert μ-fast gleichmäßig, wenn es zu jedem ε > 0 ein Nε ∈ S gibt mit μ(Nε ) ≤ ε , sodass (fn ) auf Nεc gleichmäßig konvergiert. Beispiel 7.70. Auf ([0, 1], B ∩ [0, 1], λ) konvergiert fn (ω) := ω n , n ∈ N nicht gleichmäßig gegen 0 λ-fü, aber die Folge konvergiert auf jedem Intervall [0, 1 − ε], 0 < ε < 1 gleichmäßig. Weil gilt λ((1 − ε, 1]) ≤ ε , konvergiert sie somit λ-fast gleichmäßig gegen 0 . Im folgenden Satz wird eine hinreichende Bedingung für die μ-fast gleichmäßige Konvergenz einer Funktionenfolge vorgestellt. Satz 7.71. Eine Folge (fn ) messbarer, reellwertiger Funktionen auf einem Maßraum (Ω, S, μ) konvergiert μ-fast gleichmäßig, wenn für all ε > 0 gilt ⎛ ⎞ [ |fi − fj | > ε ] ⎠ = 0 . (7.10) lim μ ⎝ m
i,j≥m
Beweis. Zu jedem δ > 0 und alle k ∈ N gibt
es (7.10) zufolge ein mk, sodass
3 3 |fi − fj | > k1 < 2δk ⇒ μ |fi − fj | > k1 < δ. μ i,j≥mk k i,j≥mk 3 Aber auf dem Komplement von Nδ := |fi − fj | > k1 konvergiert k i,j≥mk
108
7 Messbare Funktionen - Zufallsvariable
Abb. 7.4. Fast gleichmäßige Konvergenz von fn (ω) = ω n
(fn ) gleichmäßig, denn zu jedem k ∈ N gibt es ein nur von k abhängiges mk , sodass für alle ω ∈ Nδc gilt |fi (ω) − fj (ω)| ≤ k1 , wenn i, j ≥ mk . Somit konvergiert (fn ) μ-fast gleichmäßig. Die μ-fast gleichmäßige Konvergenz hängt eng mit dem zur punktweisen Konvergenz analogen Konvergenzbegriff zusammen, den wir nun definieren. Definition 7.72. Eine Folge (fn ) messbarer Funktionen auf einem Maßraum (Ω, S, μ) ist eine Cauchy-Folge μ–fü (konvergiert μ–fü), wenn es ein N c ∈ S mit μ(N ) = 0 gibt, sodass die (fn (ω)) für alle ω ∈ N c Cauchy-Folgen sind. Die Folge (fn ) konvergiert μ–fü gegen eine Funktion f , wenn für alle ω ∈ N c gilt lim fn (ω) = f (ω) (i.Z. lim fn = f μ–fü bzw. fn → f μ–fü). n
n
Auf Wahrscheinlichkeitsräumen (Ω, S, P ) sagt man stattdessen die Folge (Xn ) ist eine Cauchy-Folge P –fs , konvergiert P –fs oder konvergiert P –fs gegen X (i.Z. lim Xn = X P –fs bzw. Xn → X P –fs). n
Lemma 7.73. Eine Folge (fn ) messbarer, reellwertiger Funktionen auf einem Maßraum (Ω, S, μ) ist eine Cauchy-Folge μ–fü genau dann, wenn es ein f ∈ M gibt, sodass lim fn = f μ–fü . f ist μ–fü eindeutig bestimmt. n
Beweis. Ist (fn ) eine Cauchy-Folge auf dem Komplement der μ-Nullmenge N , so gibt es nach dem Cauchyschen Konvergenzkriterium für alle ω ∈ N c einen Grenzwert f˜(ω) := lim fn (ω) . Somit gilt f := f˜ 1N c = lim fn μ–fü mit f ∈ M . n
n
Gibt es ein g und eine μ-Nullmenge N1 mit lim fn (ω) = g(ω) n
∀ ω ∈ N1c , so
gilt f (ω) = g(ω) ∀ ω ∈ N c ∩ N1c , und N ∪ N1 ist ebenfalls eine μ-Nullmenge. Umgekehrt folgt aus lim fn (ω) = f (ω) ∀ ω ∈ N c mit μ(N ) = 0 wegen n
|fn (ω) − fm (ω)| ≤ |fn (ω) − f (ω)| + |f (ω) − fm (ω)| , dass (fn ) eine CauchyFolge auf N c , also μ–fü ist.
7.9 Konvergenzarten
Bemerkung 7.74.
109
Für erweitert reellwertige fn ist lim fn = f μ–fü so zu n
verstehen, dass es eine μ-Nullmenge N gibt und für alle ε > 0 und ω ∈ N c ein n0 (ε, ω) ∈ N existiert, sodass für alle n ≥ n0 (ε, ω) gilt fn (ω) < − 1ε falls f (ω) = −∞ , fn (ω) > 1ε falls f (ω) = ∞ und |fn (ω) − f (ω)| < ε falls f (ω) ∈ R . Gleichmäßige Konvergenz μ–fü impliziert natürlich μ-fast gleichmäßige Konvergenz. Aus dieser folgt, wie nun gezeigt wird, die Konvergenz μ–fü . Satz 7.75. Ist (Ω, S, μ) ein Maßraum, so bilden die messbaren Funktionen fn genau dann eine μ-fast gleichmäßig konvergente Cauchy-Folge, wenn es eine messbare Funktion f gibt, sodass (fn ) μ-fast gleichmäßig gegen f konvergiert. f ist μ–fü eindeutig bestimmt, und es gilt lim fn = f μ–fü . n
Beweis. Gibt es ein f ∈ M gegen das (fn ) μ-fast gleichmäßig konvergiert, so ist (fn ) natürlich auch eine μ-fast gleichmäßig konvergente Cauchy-Folge. Falls (fn ) μ-fast gleichmäßig konvergiert, existiert zu jedem k ∈ N ein konvergiert. Nk ∈ S mit μ(Nk ) ≤ k1 , sodass (fn ) auf Nkc gleichmäßig c Daher konvergiert (fn (ω)) für jedes ω ∈ N c := Nk . Klarerweise folgt k 1 Nk = μ(N ) ∀ k ∈ N , dass N eine μ-Nullmenge ist. aus k ≥ μ(Nk ) ≥ μ k
Deshalb ist (fn ) eine Cauchy-Folge μ–fü , und nach Lemma 7.73 existiert eine messbare Grenzfunktion f mit lim fn = f μ–fü . n
Auf jeder Menge Nkc gibt es für alle ε > 0 ein nε , sodass für alle m, n ≥ nε gilt |fm (ω) − fn (ω)| + ≤ ε . Daraus folgt + wegen der Stetigkeit des Betrags | | + + |f (ω) − fn (ω)| = +lim fm (ω) − fn (ω)+ = lim |fm (ω) − fn (ω)| ≤ ε ∀ n ≥ nε . m
m
Somit konvergiert fn μ-fast gleichmäßig gegen f . Gibt es ein weiteres g ∈ M gegen das (fn ) μ-fast gleichmäßig konverˆk ) ≤ 1 , sodass (fn ) ˆk ∈ S mit μ(N giert, so existiert zu jedem k ∈ N ein N k ˆ c gleichmäßig gegen g konvergiert. Daher konvergiert (fn (ω)) für jeauf N k ˆ c := N ˆ = N ˆ c gegen g(ω) . Da N ˆk eine μ-Nullmenge ist, gilt des ω ∈ N k k
k
demnach lim fn = g μ–fü , und aus Lemma 7.73 folgt f = g n
μ–fü .
Aus der Konvergenz μ-fü folgt die μ-fast gleichmäßige Konvergenz i.A. nicht. Beispiel 7.76. Auf (N, P(N), ζ) mit ζ(A) = |A| ∀A ∈ P(N) konvergieren die Funktionen fn := 1{1,...,n} punktweise, und damit auch ζ-fü gegen f ≡ 1 . Da aus ζ(A) < ε < 1 folgt A = ∅ , entspricht die ζ-fast gleichmäßige Konvergenz in diesem Beispiel der gleichmäßigen Konvergenz. Doch (fn ) konvergiert auf N zweifellos nicht gleichmäßig gegenf ≡ 1 . Die μ–fü-Konvergenz kann man folgendermaßen charakterisieren. Lemma 7.77. Sind f und fn , n ∈ N messbare, reellwertige Funktionen auf einem Maßraum (Ω, S, μ) , so gelten die untenstehenden Beziehungen
110
7 Messbare Funktionen - Zufallsvariable
⎛ lim |fm − fn | = 0 μ–fü ⇔ μ ⎝
n,m
⎞ [ |fm − fn | > ε ] ⎠ = 0
∀ ε > 0,
n m≥n
⎛ lim fn = f μ–fü ⇔ μ ⎝
n
(7.11)
⎞ [ |fm − f | > ε ] ⎠ = 0
∀ ε > 0.
(7.12)
n m≥n
Beweis. Es gilt N
c
:=
3
|fm − fn | ≤
k n m≥n
1 k
-
=
lim |fn − fm | = 0
m ,n
,
denn ω ∈ N c ⇔ ∀ k : ∃ n ∀ m ≥ n : |fm (ω) − fn (ω)| ≤ k1 . Somit gilt lim |fm − fn | = 0 μ–fü genau dann, wenn μ(N ) = 0 . n,m 3 |fm − fn | > k1 ist genau dann eine μ-Nullmenge, Aber N =
k n m≥n 3 1 |fm − fn | > k = 0 ∀ k ∈ N . Das beweist (7.11). wenn gilt μ n m≥n
Zum Beweis der zweiten Beziehung (7.12) genügt es, in den obigen Ausführungen fn einfach durch f zu ersetzen. Lemma 7.78. Sind fn und f messbare, reellwertige Funktionen auf einem Maßraum (Ω, S, μ) , so gelten die folgenden Aussagen ⎛ ⎞ lim μ ⎝ [ |fm − fn | > ε ] ⎠ = 0 ∀ ε > 0 ⇒ lim |fn − fm | = 0 μ–fü , n
⎛ lim μ ⎝ n
n ,m
m≥n
(7.13)
⎞ [ |fm − f | > ε ] ⎠ = 0
∀ ε > 0 ⇒ lim fn = f μ–fü . n
m≥n
(7.14)
Ist (Ω, S, μ) ein endlicher Maßraum, so gelten auch die Umkehrungen ⎛ ⎞ lim |fn −fm | = 0 μ–fü ⇒ lim μ ⎝ [ |fm − fn | > ε ] ⎠ = 0 ∀ ε > 0 ,
n ,m→∞
n→∞
⎛ lim fn = f μ–fü ⇒ lim μ ⎝
n→∞
n→∞
m≥n
(7.15)
⎞ [ |fm − f | > ε ] ⎠ = 0
∀ ε > 0 . (7.16)
m≥n
[ |fm − fn | > ε ] = 0 ∀ ε > 0 folgt wegen der
Stetigkeit von oben (Satz 3.21) μ [ |fm − fn | > ε ] = 0 ∀ ε > 0 . Beweis. Aus lim μ n→∞
m≥n
n m≥n
Dies ist nach Lemma 7.78 äquivalent zu
lim
n ,m→∞
|fn − fm | = 0 μ–fü .
7.9 Konvergenzarten
111
Umgekehrt folgt aus lim |fn − fm | = 0 μ–fü nach Lemma 7.78 m ,n→∞
[ |fm − fn | > ε ] = 0 ∀ ε > 0 . Das impliziert auf endlichen Räuμ n m≥n
men nach Satz 3.21 lim μ [ |fm − fn | > ε ] = 0 ∀ ε > 0 . n→∞
m≥n
Analog zeigt man (7.14) und (7.16). Satz 7.79 (Satz von Egoroff). Auf einem endlichen Maßraum (Ω, S, μ) konvergiert jede μ–fü-konvergente Funktionenfolge (fn ) auch μ-fast gleichmäßig. Beweis. Dies folgt unmittelbar aus dem obigen Lemma und Satz 7.71.
[ |fm − fn | > ε ] = 0 ∀ ε > 0 Schwächt man die Bedingung lim μ n
m≥n
etwas ab, so führt dies zu einem von F. Riesz eingeführten Konvergenzbegriff, der vor allem in der Wahrscheinlichkeitstheorie sehr wichtig ist. Definition 7.80. Eine Folge (fn ) messbarer, reellwertiger Funktionen auf einem Maßraum (Ω, S, μ) konvergiert im Maß (bzw. in Wahrscheinlichkeit), wenn lim μ ( |fm − fn | > ε ) = 0 ∀ ε > 0 .
n,m→∞
Die Folge fn konvergiert im Maß (bzw. in Wahrscheinlichkeit) gegen f ∈ M (i.Z. μ μ − lim fn = f bzw. fn → f ), wenn gilt n
lim μ ( |fn − f | > ε ) = 0 ∀ ε > 0 .
n→∞
Satz 7.81. Konvergiert eine Folge (fn ) auf einem Maßraum (Ω, S, μ) gleichmäßig, so konvergiert sie auch im Maß.
μ-fast
Beweis. Aus der μ-fast gleichmäßigen Konvergenz folgt für jedes ε > 0 die Existenz einer Menge Nε ∈ S mit μ(Nε ) < ε , sodass (fn ) auf Nεc gleichmäßig konvergiert. Daher gibt es ein nε , sodass für alle m, n ≥ nε und alle ω ∈ Nεc gilt |fn (ω) − fm (ω)| ≤ ε . Daraus folgt [ |fn − fm | > ε ] ⊆ Nε . Somit gilt μ( |fn − fm | > ε ) ≤ μ(Nε ) < ε ∀ n, m ≥ nε . Satz 7.82. Konvergiert eine Folge (fn ) auf einem endlichen Maßraum (Ω, S, μ) μ–fü , so konvergiert sie auch im Maß. Beweis. Dies folgt unmittelbar aus Lemma 7.78 und Definition 7.80. Bemerkung 7.83. Die Aussage des obigen Satzes ist für beliebige Maßräume i.A. nicht richtig, so konvergiert die Folge aus Beispiel 7.76 punktweise aber nicht gleichmäßig. Doch auf (N, P(N), ζ) mit ζ(A) = |A| ∀ A ∈ P(N) ist die Konvergenz im Maß äquivalent zur gleichmäßigen Konvergenz, da aus lim ζ ( |fn − f | > ε ) = 0 folgt [ |fn − fm | > ε ] = ∅ für n, m hinreichend groß. n,m
112
7 Messbare Funktionen - Zufallsvariable
Aber auf endlichen Räumen ist die Konvergenz im Maß schwächer als die Konvergenz μ–fü , wie das folgende Beispiel zeigt. Beispiel 7.84. Auf dem Raum ([0, 1], ": B ∩ [0, 1], λ) konvergieren ;# die Funktionen √ √ n−[ n]2 n+1−[ n]2 1 √ 2 √ 2 im Maß, weil λ √ √ , → 0. 1 n−[ = 2[√n]+1 n] n+1−[ n] 2[ n]+1 2[ n]+1 √ √ , 2[
n]+1
2[
n]+1
Da die Trägerintervalle der obigen Indikatoren zwischen je 2 aufeinanderfolgenden Quadratzahlen m2 und (m + 1)2 das Intervall [0, 1] von links nach rechts durchlaufen, gilt fn(m) (ω) = 1 ∀ m ∈ N mit n(m) := m2 + [ω(2m+1)] . 2m+1 Daher konvergiert (fn ) in keinem einzigen Punkt von [0, 1] . Satz 7.85. Ist (Ω, S, μ) ein Maßraum, so bilden die messbaren,reellwertigen Funktionen fn genau dann eine Cauchy-Folge im Maß, wenn es eine messbare Funktion f gibt, für die gilt μ − lim fn = f . f ist μ–fü eindeutig bestimmt. n
Zudem enthält (fn ) eine Teilfolge, die μ-fast gleichmäßig gegen f konvergiert. Beweis. Die eine Richtung, dass jede Folge (fn ) eine Cauchy-Folge im Maß ist, wenn es ein f ∈ M gibt, sodass gilt μ − lim fn = f , ergibt sich sofort aus n - 3 3 ∀ ε > 0. [|fn − fm | > ε ] ⊆ |fn − f | > 2ε ∪ |f − fm | > 2ε Gilt μ − lim fn = g für ein weiteres g ∈ M , so folgt ähnlich wie oben aus n 3 - 3 ∀ ε > 0 sofort f = g μ–fü . [|f − g| > ε ] ⊆ |f − fn | > 2ε ∪ |fn − g| > 2ε Damit ist auch die Eindeutigkeitsaussage bewiesen. Wir zeigen nun, dass jede Cauchy-Folge im Maß eine μ-fast gleichmäßige Teilfolge enthält, und werden daraus auf die Existenz einer Funktion f mit μ−lim fn = f schließen. n
Zu jedem k ∈ N existiert ein n(k) , sodass für alle n , m ≥ n(k) gilt μ( |fn − fm | > 21k ) < 21k . Mit den rekursiv definierten Indices n1 := n(1), ∀ k ≥ 2 bildet-man die Teilfolge (fnk ) , sowie nk := max{(nk−1 + 1), n(k)} 3 die Mengen Nm := |fnk+1 − fnk | > 21k , deren Maß man abschätzen k≥m ∞
kann durch μ(Nm ) ≤ + + +fnj (ω) − fni (ω)+ ≤
k=m j−1 +
+fn
k=i
1 2k
k+1
=
1 2m−1
c ∀ m ∈ N . Nun gilt für alle ω ∈ Nm
∞ + (ω) − fnk (ω)+ ≤ k=m
1 2k
=
1 2m−1
∀m≤i<j,
c gleichmäßig. Somit ist (fnk ) eine μ-fast gleichd.h. (fnk ) konvergiert auf Nm mäßig konvergente Cauchy-Folge, und auf Grund von Satz 7.75 gibt es ein f ∈ M gegen das (fnk ) μ-fast gleichmäßig konvergiert. Nach Satz 7.81 gilt deshalb auch μ − lim fnk = f , und schließlich folgt 3 - 3 k aus [|fn − f | > ε ] ⊆ |f − fnk | > 2ε ∪ |fnk − fn | > 2ε ∀ ε > 0 , dass die gesamte Folge (fn ) im Maß gegen f konvergiert.
8 Die Verteilung einer Zufallsvariablen
8.1 Das induzierte Maß Wir haben schon in Abschnitt 7.1 festgestellt, dass eine Zufallsvariable das wesentliche Merkmal eines Versuches beschreibt und so zu einer Datenreduktion führt. Wenn wir nur an Aussagen über dieses Merkmal interessiert sind, wird es sinnvoll sein, den messbaren Teilmengen des Bildraums (des „Merkmalraums“) jene Wahrscheinlichkeiten zuzuordnen, mit denen die Zufallsvariable Werte aus der entsprechenden Menge annimmt. Dadurch wird der Bildraum selbst mit einer Wahrscheinlichkeitsverteilung ausgestattet und man kann sich in weiterer Folge mit diesem „einfacheren“ Raum beschäftigen, ohne immer wieder auf den ursprünglichen Grundraum (Ω, S, P ) zurückgreifen zu müssen. Das folgende Beispiel soll dies veranschaulichen. Beispiel 8.1 (die maximale Augenzahl beim Würfeln). Ein fairer Würfel wird 5mal geworfen. Der Spieler erhält einen Gewinn X in der Höhe der größten geworfenen Augenzahl. Man kann dieses Spiel durch die Menge der 5-Tupel Ω = { ω := (ω1 , . . . , ω5 ) : ωi ∈ {1, . . . , 6 } , 1 ≤ i ≤ 5 } mit S := P(Ω) und der diskreten Gleichverteilung P ( ω ) = 615 ∀ ω ∈ Ω , beschreiben. Der aus 65 = 7776 Punkten bestehende Raum Ω wird durch X mit X(ω) = max ωi 1≤i≤5
in den nur mehr 6 Werte umfassenden Bildraum Ω = {1, . . . , 6} abgebildet. In Hinblick auf den Gewinn kann sich der Spieler auf die Betrachtung des Bildraums beschränken, sobald er für jedes A ⊆ Ω die Wahrscheinlichkeit berechnet hat, dass der Gewinn in A liegt. Anders gesagt, er muss die Wahrscheinlichkeiten der Urbilder [X ∈ A ] bestimmen. Im Beispiel sind die Urbilder der einpunktigen Mengen {x} , 1 ≤ x ≤ 6 nicht auf den ersten Blick zu erkennen. Aber die Urbilder der Mengen Ax := {1, . . . , x} sind gegeben durch X −1 (Ax ) = [X ≤ x] = {ω ∈ Ω : ωi ∈ {1, . . . , x} ∀ 1 ≤ i ≤ 5} . 5 Daher gilt P (Ax ) = P ( X ≤ x ) = x65 , 1 ≤ x ≤ 6 . Daraus folgt mit A0 := ∅ 5
5
, 1 ≤ x ≤ 6 , da P ({x}) = P (Ax \ Ax−1 ) = P (Ax ) − P (Ax−1 ) = x −(x−1) 65 gilt Ax−1 ⊆ Ax ∀ 1 ≤ x ≤ 6 . Damit ist P festgelegt.
114
8 Die Verteilung einer Zufallsvariablen
Die obige Vorgangsweise kann man auf beliebige Räume verallgemeinern. Satz 8.2. Ist T eine S|S -messbare Abbildung von einem Maßraum (Ω, S, μ) in einen Messraum (Ω , S ) , so wird durch μT −1 (A ) := μ( T −1 (A ) )
∀ A ∈ S
(8.1)
ein Maß μT −1 auf (Ω , S ) definiert. μT −1 ist endlich, wenn μ endlich ist, und μT −1 ist eine Wahrscheinlichkeitsverteilung, wenn μ eine ist. Beweis. μT −1 ist natürlich nichtnegativ, und aus Lemma 2.3 Punkt 1. und 2. folgt sofort μT −1 (∅)) = μ(∅) = 0 und μT −1 (Ω )) = μ(Ω) . Daher ist μT −1 endlich, wenn μ endlich ist und μT −1 (Ω )) = 1 , wenn μ(Ω) = 1 . Sind die An ∈ S disjunkt, so sind nach Lemma 2.3 Punkt 5. auch die T −1 (An ) disjunkt. Mit Punkt 4. des Lemmas folgt daraus die σ-Additivität von μT −1 :
−1 −1 −1 =μ An = μ T An T (An ) μT n
=
! n
n
μ(T
−1
(An ))
=
!
n
μT
−1
(An ) .
n
Definition 8.3. Ist (Ω, S, μ) ein Maßraum, (Ω , S ) ein Messraum und T : (Ω, S) → (Ω , S ) , so nennt man das durch (8.1) auf (Ω , S ) definierte Maß μT −1 das (durch T ) induzierte Maß (die induzierte Wahrscheinlichkeitsverteilung) oder einfach das Maß (die Wahrscheinlichkeitsverteilung) von T . Bemerkung 8.4. Wenn μ σ-endlich ist, muss μT −1 nicht σ-endlich sein. Ist etwa (Ω, S, μ) := (R, B, λ) , (Ω , S ) := (R, {∅, R}) , so induziert jede Funktion T : (Ω, S) → (Ω , S ) das Maß λT −1 (∅) = 0, λT −1 (R) = ∞ , das nicht σ-endlich sein kann, weil S keine anderen Mengen enthält.
8.2 Gemeinsame Verteilung und Randverteilungen Definition 8.5. Ist X := (X1 , . . . , Xk ) ein k-dimensionaler Zufallsvektor auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so bezeichnet man P X−1 als die gemeinsame Verteilung von X1 , . . . , Xk . Die zugehörige Verteilungsfunktion FX : Rk → [0, 1] ist die gemeinsame Verteilungsfunktion von X1 , . . . , Xk . Bemerkung 8.6. Ein Zufallsvektor wird immer nach seiner induzierten Verteilung benannt, unabhängig vom Wahrscheinlichkeitsraum (Ω, S, P ) , auf dem er definiert ist, so spricht man etwa von einer Weibull-verteilten Zufallsvariablen X , wenn X auf (R, B) eine Weibull-Verteilung induziert. Für die Aussage: „X ist verteilt nach . . . “ werden wir die Schreibweise X ∼ gefolgt vom Symbol der entsprechenden Verteilung verwenden, so bedeutet etwa X ∼ Bn,p , dass X binomialverteilt mit den Parametern n und p ist. Wir werden etwas später sehen, dass es zu jeder Verteilungsfunktion i.e.S. eine Zufallsvariable auf ([0, 1], B ∩ [0, 1], λ) gibt, die gerade die zu dieser Verteilungsfunktion gehörige Verteilung induziert.
8.2 Gemeinsame Verteilung und Randverteilungen
115
Ist X := (X1 , . . . , Xk ) ein Zufallsvektor, so sind nach Satz 7.11 sowohl die einzelnen Komponenten Xj Zufallsvariable, als auch für alle Teilmengen I := {i1 , . . . , im } ⊆ {1, . . . , k} die Vektoren XI := Xi1 ,...,im := (Xi1 , . . . , Xim ) messbar, also XI : (Ω, S) → (Rm , Bm ) . Definition 8.7. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, X := (X1 , . . . , Xk ) ein Zufallsvektor auf diesem Raum und I := {i1 , . . . , im } ⊆ {1, . . . , k} , so wird die durch XI := Xi1 ,...,im = (Xi1 . . . Xim ) auf (Rm , Bm ) induzierte Verteilung −1 P X−1 I = P Xi1 ,...,im Randverteilung von Xi1 , . . . , Xim genannt. Beispiel 8.8 (multivariate hypergeometrische Verteilung HA1 ,...,Ak ,n ). Eine Grundgesamtheit von N Elementen besteht aus k einander ausschließenden Kategorien, wobei je Ai Elemente zur Kategorie i gehören, und jedes Element k der Grundgesamtheit einer Kategorie zugeordnet ist, d.h N = Ai . i=1
Werden n Elemente aus der Grundgesamtheit durch Ziehungen ohne Zurücklegen ausgewählt und bezeichnet man mit Xi die Anzahl der Elemente der k Kategorie i in der Stichprobe, so gilt [X1 = x1 , . . . , Xk = xk ] , xi = n i=1
gerade dann, wenn je xi Elemente aus den Ai Elementen der Kategorie i ausgewählt wurden. Daher gilt für die Verteilung von X := (X1 , . . . , Xk ) k $ % Ai
P X−1 (x1 , . . . , xk ) =
xi i=1 $N % n
,
k !
0 ≤ xi ≤ n ,
(8.2)
xi = n .
i=1
Da die k-te Koordinate Xk bereits durch (X1 , . . . , Xk−1 ) festgelegt ist, kann k−1 k−1 man (8.2) mit A := Ai und x := xi umformen zu i=1
i=1 k−1 $
P (X1 , . . . , Xk−1 )−1 (x1 , . . . , xk−1 ) =
i=1
Ai xi
% $N −A%
$N %
n−x
(8.3)
.
n
Bei der hypergeometrischen Verteilung, also bei k = 2 , vewendet man üblicherweise diese Form. Die Randverteilung von (Xi1 . . . Xim ) , {i1 , . . . , im } ⊂ {1, . . . , k} erhält m Aij Elemente, die nicht zu den Kategorien man, indem man die N − j=1
i1 , . . . , im gehören, zu einer Klasse zusammenfasst. Das ergibt ⎞ ⎛ m N− A ij m $ % A ij ⎠ ⎝ j=1 m j=1
P (Xi1 , . . . , Xim )
−1
(xi1 , . . . , xim ) =
xij
n−
$N % n
j=1
xij
.
(8.4)
116
8 Die Verteilung einer Zufallsvariablen
Das folgende Lemma besagt, dass man die Randverteilungen von X mit Hilfe der auf (Rk , Bk ) induzierten (gemeinsamen) Verteilung P X−1 bestimmen kann, ohne den Grundraum (Ω, S, P ) selbst kennen zu müssen. Lemma 8.9. Ist X = (X1 , . . . , Xk ) ein Zufallsvektor auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und I := {i1 , . . . , im } ⊆ {1, . . . , k} , so gilt
−1 (B ) = P X (B) mit B := B × R ∀ Bm ∈ Bm , (8.5) P X−1 m m I j ∈I /
xj , j ∈ I (8.6) ∞, sonst .
−1 −1 Bm × Beweis. (8.5) folgt sofort aus XI (Bm ) = X R , und (8.6) ist FXI (xi1 , . . . , xim ) = FX (y1 , . . . , yk ) mit yj =
nur der Spezialfall von (8.5) . für Bm =
m
j ∈I /
(−∞, xij ] .
j=1
Die Umkehrung gilt i.A. nicht, wie das folgende Beispiel zeigt. Beispiel 8.10. Auf (Ω, S, P ) := ([0, 1]2 , B2 ∩ [0, 1]2 , λ2 ) gilt mit ω := (ω1 , ω2 ) , X1 (ω) := ω1 und X2 (ω) := ω2 : P (X1 , X2 )−1 (B) = λ2 (B ∩ Ω) ∀ B ∈ B2 . FX1 (x) = FX2 (x) := x 1[0,1] + 1(1,∞) sind die Randverteilungsfunktionen, und die gemeinsame Verteilungsfunktion FX1 ,X2 ist gegeben durch ⎧ ⎪ 0, x1 ∧ x2 < 0 ⎪ ⎪ ⎪ ⎪ ⎪ x , 0 ≤ x1 , x2 ≤ 1 x ⎨ 1 2 FX1 ,X2 (x1 , x2 ) = x1 , 0 ≤ x1 ≤ 1 ∧ x2 > 1 ⎪ ⎪ ⎪ , 0 ≤ x2 ≤ 1 ∧ x1 > 1 x ⎪ 2 ⎪ ⎪ ⎩1 , sonst . Es gilt offensichtlich FX1 ,X2 = FX1 FX2 . Deshalb ist nach Satz 6.63 die σ−Algebra S(X1 ) = { B × [0, 1] : B ∈ B ∩ [0, 1] } unabhängig von S(X2 ) = { [0, 1] × B : B ∈ B ∩ [0, 1] } , d.h. X1 und X2 sind unabhängig. Für X3 := X1 gilt ebenfalls FX3 = FX1 . Aber wegen [ X1 ≤ x1 , X3 ≤ x2 ] = { ω : X1 (ω) = ω1 ≤ x1 ∧ X3 (ω) = ω1 ≤ x2 } ∩ Ω = { ( ω1 , ω2 ) : ω1 ≤ x1 ∧ x2 } ∩ [0, 1]2 , erhält man als gemeinsame Verteilungsfunktion von X1 , X3 ⎧ ⎪ x1 ∧ x 2 < 0 ⎪ ⎪0 , ⎪ ⎪ ⎪ ⎨x1 ∧ x2 , 0 ≤ x1 , x2 ≤ 1 FX1 ,X3 (x1 , x2 ) = x1 , 0 ≤ x1 ≤ 1 ∧ x2 > 1 ⎪ ⎪ ⎪x2 , 0 ≤ x2 ≤ 1 ∧ x1 > 1 ⎪ ⎪ ⎪ ⎩1 , sonst .
8.3 Die inverse Verteilungsfunktion
117
Ob, bzw. in welcher Weise Abhängigkeiten zwischen verschiedenen Zufallsvariablen bestehen, drückt sich also in der gemeinsamen Verteilung aus. Die Randverteilungen alleine liefern dazu keine Information. So, wie man die Randverteilungen bestimmen kann ohne den Grundraum kennen zu müssen, so kann man die Unabhängigkeit von Zufallsvariablen alleine durch auf dem Bildraum gegebene Bedingungen charakterisieren. Satz 8.11. Die Familie der Zufallsvariablen (Xi )i∈I auf dem Wahrscheinlichkeitsraum (Ω, S, P ) ist unabhängig genau dann, wenn eine der untenstehenden Bedingungen für alle {i1 , . . . , im } ⊆ I erfüllt ist ⎛ ⎞ m m
1. P (Xi1 , . . . , Xim )−1 ⎝ Bj ⎠ = P Xi−1 (Bj ) ∀ Bj ∈ B , j ⎛ 2. P (Xi1 , . . . , Xim )−1 ⎝
j=1 m
j=1
⎞
(aj , bj ]⎠ =
j=1
3. FXi1 ,...,Xim (x1 , . . . , xm ) =
m
P Xi−1 ( ( aj , bj ] ) j
∀ aj ≤ bj ,
j=1 m
∀ xj ∈ R .
FXij (xj )
j=1
Beweis. Der Beweis ergibt sich sofort aus Satz 7.45 und Definition8.3. Satz 8.12. Die Familie diskreter Zufallsvariabler (Xi )i∈I auf dem Wahrscheinlichkeitsraum (Ω, S, P ) ist unabhängig dann und nur dann, wenn für alle {i1 , . . . , im } ⊆ I gilt P (Xi1 , . . . , Xim )−1 ( (x1 , . . . , xm ) ) =
m
P Xi−1 (xj ) j
∀ xj ∈ R .
j=1
Beweis. Dies folgt aus Satz 7.49 und Definition 8.3.
8.3 Die inverse Verteilungsfunktion Die Verteilungsfunktion gibt an, mit welcher Wahrscheinlichkeit eine Zufallsvariable X eine gegebene Schranke x nicht überschreitet. Aber oft wird umgekehrt eine bestimmte Wahrscheinlichkeit fixiert, und man möchte den Wert bestimmen, den die Zufallsvariable mit dieser Wahrscheinlichkeit nicht übersteigen soll, etwa, wenn eine Versicherung wissen möchte, wie hoch sie die für Schadensauszahlungen vorgesehenen Reserven ansetzen muss, sodass sie damit mit bspw. 99 %-ger Sicherheit das Auslangen findet. Definition 8.13. Ist F eine Verteilungsfunktion i.e.S. auf R , so wird die durch F −1 (p) := inf{ x ∈ R : p ≤ F (x) } , 0 < p ≤ 1 definierte Funktion als (verallgemeinerte) inverse Verteilungsfunktion von F bezeichnet. Der Funktionswert xp := F −1 (p) an der Stelle p heißt p-Fraktil oder p-Quantil. Das 0.5-Fraktil nennt man Median.
118
8 Die Verteilung einer Zufallsvariablen
Bemerkung 8.14. 1. Manche Autoren definieren das p-Fraktil als 1 − p-Quantil. Doch ist diese Unterscheidung nicht allgemein üblich, und wir werden die beiden Begriffe daher synonym verwenden. 2. Wegen der Rechtsstetigkeit von F kann man das Infimum in der obigen Definition durch das Minimum ersetzen, also F −1 (p) := min{ x : p ≤ F (x) } . 3. Die verallgemeinerte Inverse existiert immer, selbst dann, wenn F , wie etwa bei diskreten Verteilungen, keine Inverse im üblichen Sinn besitzt. Falls es zu F eine Inverse gibt, stimmt diese, wie weiter unten gezeigt wird, mit der verallgemeinerten Inversen überein. Dies rechtfertigt Namen und Notation. 4. Aus F (x) < p ∀ x < xp folgt F− (x) = P (X < xp ) ≤ p . Daher gilt P (X < xp ) ≤ p ≤ P (X ≤ xp ),
(8.7)
bzw. umgeformt P (X < xp ) ≤ p
∧
P (X > xp ) ≤ 1 − p.
(8.8)
Dies bedeutet, dass die Werte von X höchstens mit Wahrscheinlichkeit p kleiner als xp sind, dass sie aber auch höchstens mit Wahrscheinlichkeit 1 − p größer als xp sind. Häufig werden die beiden Ungleichungen in (8.8) zur Definition des Fraktils verwendet. Man beachte aber, dass das Fraktil dann, im Unterschied zu Definition 8.13, nicht eindeutig bestimmt sein muss. Im nächsten Satz werden die wichtigsten Eigenschaften von F −1 beschrieben und einige Zusammenhänge zwischen F und F −1 aufgelistet. Satz 8.15. Ist F eine Verteilungsfunktion auf R und F −1 die verallgemeinerte Inverse, so gelten die folgenden Aussagen: 1. p ≤ F (x) ⇔ F −1 (p) ≤ x . $ %−1 ( (−∞ , x ] ) = ( 0 , F (x) ] . 2. F −1 3. 0 < p ≤ q ≤ 1 %⇒ F −1 (p) ≤ F −1 (q) . $ −1 4. p ≤ F F (p) ∀ p ∈ (0, 1] ∧ F −1 ( F (x) ) ≤ x ∀ x ∈ R . −1 5. F ist linksstetig. $ % 6. Gibt es zu p ∈ (0, 1] ein x ∈ R mit p = F (x) , so gilt F F −1 (p) = p . 7. Ist F strikt monoton in x , so gilt F −1 ( F (x) ) = x , d.h. F −1 ist die Inverse zu F , falls F auf R streng monoton wächst. Beweis. ad 1. Dies folgt aus der Definition von F −1 und Bemerkung 8.14 Punkt 2. ad 2. Aus Punkt 1. folgt $
F −1
%−1
( (−∞ , x] ) =
p : F −1 (p) ≤ x
= { p : p ≤ F (x) } = (0, F (x)].
ad 3. Die Monotonie ergibt sich unmittelbar aus Definition 8.13.
8.3 Die inverse Verteilungsfunktion
119
ad 4. Ist p ∈ (0, 1] gegeben, so gilt für x := F −1 klarerweise F −1 (p) ≤ x, % $ (p) −1 woraus wegen Punkt 1. folgt p ≤ F (x) = F F (p) . Für gegebenes x und p := F (x) gilt, ähnlich wie oben, p ≤ F (x), und dies ist gemäß Punkt 1. gleichbedeutend mit x ≥ F −1 (p) = F −1 ( F (x) ) . ad 5. Für x := F −1 (p) und ε > 0 gilt F (x − ε) < p . Daher gibt es zu jeder Folge (pn ) aus (0, 1] mit pn p ein nε ∈ N , sodass für alle n ≥ nε gilt F (x − ε) < pn ≤ p . Nach Punkt 1. und Punkt 3. folgt daraus für n ≥ nε F −1 (p) − ε = x − ε ≤ F −1 (pn ) ≤ F −1 (p) ⇒ lim F −1 (pn ) = F −1 (p) . n
mit ad 6. Aus F (x) $= p folgt% F −1 (p) ≤ x . Zusammen $ % den Punkten $ %3. und 4. ergibt das F F −1 (p) ≤ F (x) = p ≤ F F −1 (p) ⇒ F F −1 (p) = p . ad 7. Da F in x strikt monoton ist, gilt p := F (x) > F (x − n1 ) ∀ n ∈ N , woraus nach Punkt 1. und unter Berücksichtigung von Punkt 4. folgt x − n1 ≤ F −1 (p) = F −1 (F (x)) ≤ x ∀ n ∈ N ⇒ x = F −1 ( F (x) ) . Satz 8.16. Ist F eine Verteilungsfunktion i.e.S. auf R , so wird auf dem Wahrscheinlichkeitsraum ((0, 1], B ∩ (0, 1], λ) durch X(ω) := F −1 (ω) ∀ ω ∈ (0, 1] eine Zufallsvariable mit der Verteilungsfunktion FX = F definiert. Beweis. Nach Satz 8.15 Punkt 1. gilt {ω : F −1 (ω) ≤ x} = {ω : ω ≤ F (x)} , d.h. [X ≤ x] = {ω : ω ≤ F (x)} = (0, F (x)] . Daraus folgt nun offensichtlich FX (x) = λ ( X ≤ x ) = λ ( (0, F (x)] ) = F (x) . Bemerkung 8.17. ((0, 1], B ∩ (0, 1], λ) kann als Bildraum einer auf einem beliebigen Wahrscheinlichkeitsraum (Ω, S, P ) definierten Zufallsvariablen U angesehen werden, die auf (0, 1] stetig gleichverteilt ist, und daher kann man die Aussage von Satz 8.16 auch so formulieren : Ist F eine Verteilungsfunktion auf R mit der verallgemeinerten Inversen F −1 und U ∼ U0,1 , so gilt X := F −1 ◦ U ∼ F . Folgerung 8.18. Ist (Fn ) eine Folge von Verteilungsfunktionen i.e.S. auf R , so gibt es auf ((0, 1], B∩ (0, 1], λ) eine Folge unabhängiger Zufallsvariabler Xn , für die gilt Xn ∼ Fn ∀ n ∈ N . Beweis. Beispiel 7.51 zufolge sind die Ziffern Zn von ω ∈ (0, 1] im binären Zahlensystem unabhängige, B 12 - verteilte Zufallsvariable. Mit Hilfe des Diagonalisierungsverfahrens (Satz A.1) ordnet man jedem n bijektiv ein (i, j) ∈ N2 zu und erhält so unabhängige Folgen (Z1,j ), (Z2,j ), . . . . Wie in Bemerkung 7.52 ausgeführt, kann man aus jeder dieser Folgen je eine auf (0, 1] ∞ Zi,j gleichverteilte Zufallsvariable Ui := 2j generieren. Nach Folgerung 7.14 Punkt 1. sind die
n j=1
j=1
Zi,j 2j
S(Zi,1 , Zi,2 , . . .)-messbar und damit auch die Ui
(Satz 7.20). Da die S(Zi,1 , Zi,2 , . . .) unabhängig sind, sind die Ui ebenfalls unabhängig. Die Xn := Fn−1 ◦ Un bilden nun die gesuchte Folge.
120
8 Die Verteilung einer Zufallsvariablen
Bemerkung 8.19. In vielen Programmpaketen hat man Prozeduren, die Pseudozufallszahlen erzeugen, welche man als auf (0, 1] gleichverteilt ansehen kann. Hat man damit Zufallszahlen u1 , . . . , un generiert und transformiert man diese mit Hilfe einer verallgemeinerten Inversen F −1 zu xi := F −1 (ui ), i = 1, . . . , n , so sind die xi gemäß F verteilt. Dieses Verfahren nennt man Inversenmethode. Beispiel 8.20 (Exponentialverteilung Exτ , τ > 0). Die Dichte und Verteilungsfunktion der Exponentialverteilung Exτ sind gegeben durch % $ f (x) = τ e−τ x 1(0,∞) (x) , F (x) = 1 − e−τ x 1(0,∞) (x) . . F wächst auf R+ strikt und hat die Umkehrfunktion F −1 (p) = x = − ln(1−p) τ ln(1−U ) Ist U ∼ U0,1 , so gilt deshalb X := − τ ∼ Exτ . Es gilt aber auch ) Y := − ln(U ∼ Ex , da U ∼ U ⇔ 1 − U ∼ U τ 0,1 0,1 . τ Ist X ∼ Exτ , so gilt wegen [X > x + y] ⊆ [X > x] für alle x, y > 0 P (X > x + y | X > x) =
P (X > x + y) e−τ (x+y) = = P (X > y) . P (X > x) e−τ x
(8.9)
Fasst man X als Wartezeit bis zum Ausfall eines Systems auf, so bedeutet die obige Gleichung, dass ein System, das im Zeitpunkt x noch funktioniert, genau so wahrscheinlich eine weitere Zeitspanne y übersteht, wie ein System, das gerade zu arbeiten begonnen hat. Die vergangene Zeitspanne hat also keinen Einfluss auf die zukünftige Funktionsdauer. Man spricht in diesem Zusammenhang von der „Gedächtnislosigkeit“ der Exponentialverteilung. Die Gedächtnislosigkeit charakterisiert die Exponentialverteilung, denn, gilt für die Zufallsvariable X > 0 mit der stetigen Verteilungsfunktion FX (8.9) für alle x, y > 0 , so folgt daraus wegen der Multiplikationsregel 5.2 P (X > x + y) = P (X > x) P (X > x + y | X > x) = P (X > x) P (X > y) . Die Funktion G(x) := P (X > x) = 1 − FX (x) erfüllt demnach die Funktionalgleichung (A.16) aus Satz A.52 und ist stetig, da FX stetig ist. Daher existiert nach Satz A.52 ein γ ∈ R , sodass FX (x) = 1 − eγ x . Wegen 0 ≤ FX ∧ lim FX (x) = 1 ist γ < 0 . Somit gilt X ∼ Exτ mit τ := − γ > 0 . x→∞
Bemerkung 8.21. Ist X ∼ Gp , 0 < p < 1 (siehe Beispiel 6.34), so gilt ∞ p (1 − p)i = (1 − p)n . Daraus folgt G(n) := P (X ≥ n) = i=n
P (X ≥ n + m|X ≥ m) =
G(n + m) = (1 − p)n = G(n) = P (X ≥ n) . (8.10) G(m)
Erfüllt eine Zufallsvariable X mit Werten in N0 Gleichung (8.10), so folgt daraus G(n + m) = G(n) G(m) ∀ n, m ∈ N0 , und nach Satz A.53 führt das zu G(n) = G(1)n ⇒ P (X = n) = G(n) − G(n + 1) = G(1)n (1 − G(1) ) ∀ n , d.h. X ∼ Gp mit p := 1 − G(1) . Die geometrische Verteilung ist somit die einzige gedächtnislose Verteilung auf (N0 , P(N0 )) , also das diskrete Gegenstück zur Exponentialverteilung.
8.3 Die inverse Verteilungsfunktion
121
Beispiel 8.22 (Cauchyverteilung t1 ). Die Dichte und Verteilungsfunktion der Cauchyverteilung sind gegeben durch 1 1 + arctan(x) , x ∈ R . 2 π % % $$ Die inverse ist F −1 (p) = tan p − 12 π . Daher ist $ $ Verteilungsfunktion % % X := tan U − 12 π cauchyverteilt, wenn U ∼ U0,1 . Die Cauchyverteilung gehört zur Familie der t-Verteilungen, auf die wir hier nicht näher eingehen werden. f (x) =
1 , π(1 + x2 )
F (x) =
Beispiel 8.23 (Paretoverteilung). Die in den Wirtschaftswissenschaften verwendete Paretoverteilung hat als Dichte und Verteilungsfunktion f (x) = β
αβ , xβ+1
F (x) = 1 −
" α #β x
,
α > 0, β > 0, x > α .
1
1
F besitzt die Inverse F −1 (p) = α (1 − p)− β . Daher ist X := α (1 − U )− β mit 1 U ∼ U0,1 Pareto-verteilt aber auch Y := α U − β , da U ∼ U0,1 ⇔ 1−U ∼ U0,1 Im nächsten Beispiel wird eine diskrete Zufallsvariable generiert Beispiel 8.24. Verteilungsfunktion und verallgemeinerte Inverse der B2, 12 sind ⎧ 0, ⎪ ⎪ ⎪ ⎨ 0.25, F (x) = ⎪ 0.75, ⎪ ⎪ ⎩ 1,
x<0 0≤x<1 1≤x<2 2 ≤ x.
⇒
⎧ ⎪ ⎨0, 0 < p ≤ 0, 25 F −1 (p) = 1, 0.25 < p ≤ 0.75 ⎪ ⎩ 2, 0.75 < p ≤ 1 .
Nimmt also U ∼ U0,1 einen Wert aus ( 0 , 0.25 ] an, so setzt man X := 0 , bei U ∈ ( 0.25 , 0.75 ] setzt man X := 1 und bei U ∈ ( 0.75 , 1 ] setzt man X := 2 , und erhält so eine B2, 12 verteilte Zufallsvariable. 2 1 0
0,0
0,25
0,5
0,75
1,0
Abb. 8.1. verallgemeinerte Inverse
122
8 Die Verteilung einer Zufallsvariablen
8.4 Maßtreue Abbildungen Definition 8.25. Sind (Ωi , Si , μi ) zwei Maßräume, so nennt man eine Abbildung T : (Ω1 , S1 ) → (Ω2 , S2 ) maßtreu, wenn μ1 (T −1 (A2 )) = μ2 (A2 )
∀ A2 ∈ S2 .
Die Abbildung T ist also immer dann maßtreu, wenn das Maß auf dem Bildraum mit dem von T induzierten Maß übereinstimmt. Definition 8.26. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so nennt man eine Folge (Xn ) von Zufallsvariablen auf (Ω, S) einen (stark) stationären stochastischen Prozess, wenn gilt P (X1 , . . . , Xn )−1 = P (X2 , . . . , Xn+1 )−1 ∀ n ∈ N . Lemma 8.27. (Xn ) ist genau dann ein stationärer Prozess auf dem Wahrscheinlichkeitsraum (Ω, S, P ) , wenn gilt P (X1 , . . . , Xn )−1 = P (X1+k , . . . , Xn+k )−1
∀ n,k ∈ N.
(8.11)
Beweis. Gilt (8.11), so bilden die (Xn ) klarerweise einen stationären Prozess. Aus Definition 8.26 folgt umgekehrt die Gültigkeit von (8.11) für k = 1 . Gilt Gleichung (8.11) für ein k ∈ N und alle n ∈ N , so folgt daraus P ( X1+(k+1) , . . . , Xn+(k+1) )−1 (B) = P (X1+k , . . . , , Xn+1+k )−1 (R × B) = P (X1 , . . . , Xn+1 )−1 (R × B) = P (X2 , . . . , Xn+1 )−1 (B) = P (X1 , . . . , Xn )−1 (B)
∀ B ∈ Bn .
Damit ist die umgekehrte Richtung durch vollständige Induktion bewiesen. Satz 8.28. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, T : (Ω, S) → (Ω, S) eine maßtreue Transformation, X : (Ω, S) → (R, B) eine Zufallsvariable, und setzt man T 0 (ω) := id(ω) := ω , so bilden die zusammengesetzten Abbildungen Xn (ω) := X(T n (ω) ) , n ∈ N0 einen stationären stochastischen Prozess. Beweis. Tatsächlich gilt P (X1 , . . . , Xn+1 )−1 = P (X0 , . . . , Xn )−1 , denn P ( (X1 , . . . , Xn+1 ) ∈ B ) = P ( {ω : (X(T (ω)), . . . , X(T n ( T (ω) ) ) ) ∈ B } ) = P ( {ω : T (ω) ∈ [(X0 , . . . , Xn ) ∈ B ] } ) = P ( T −1 ( [( X0 , . . . , Xn ) ∈ B ] ) ) = P T −1 ( ( X0 , . . . , Xn ) ∈ B ) = P ( (X0 , . . . , Xn ) ∈ B )
∀ B ∈ Bn+1 .
Bemerkung 8.29. Wir werden später sehen, dass jeder stark stationäre stochastische Prozess mit Hilfe einer maßtreuen Abbildung auf dem Folgenraum R∞ := {(x1 , x2 , . . .) : xi ∈ R} in der im obigen Satz beschriebenen Art dargestellt werden kann. Insoferne sind die beiden Konzepte äquivalent.
8.4 Maßtreue Abbildungen
123
Beispiel 8.30. Auf (Ω, S, P ) = ([0, 1), B ∩ [0, 1), λ) gilt für die Transformation ω + 12 , ω < 12 T (ω) := (ω + 12 ) mod 1 = und alle Intervalle (a, b] ⊆ Ω ω − 12 , sonst ⎧ 1 1 1 ⎪ ≤a≤b<1 ⎨(a − 2 , b − 2 ], 2 −1 1 1 T ((a, b]) = (a + 2 , b + 2 ], 0 ≤ a ≤ b < 12 ⎪ ⎩ [0, b − 12 ] ∪ (a + 12 , 1), a ≤ 12 ≤ b . Daraus folgt μ((a, b]) := λ(T −1 (a, b]) = λ((a, b]) ∀ (a, b] . Damit gilt aber μ(B) = λ(T −1 (B)) = λ(B) ∀ B ∈ B ∩ [0, 1) auf Grund des Eindeutigkeitssatzes (Satz 4.13). T ist demnach maßtreu. ∞ ωi Schreibt man ω = 2i , ωi ∈ {0, 1} als Binärzahl, so erhält man T (ω) = 1−ω1 +
∞ i=2
i=1
ωi 2i
. Daher muss für die mittels X(ω) := 1[ 12 ,1) (ω) gebildete
gelten X2 k = ω1 ∧ X2 k+1 = 1 − ω1 Folge Xn := X ◦ T Xn , n ≥ 1 sind somit durch X0 deterministisch festgelegt. n−1
∀ k ∈ N0 . Die
Beispiel 8.31. Betrachtet man auf(Ω, S, P ) = ([0, 1), B ∩ [0, 1), λ) die Trans2ω, ω < 12 formation T (ω) := 2 ω mod 1 = so gilt 2 ω − 1 , sonst , a b a+1 b+1 , ∪ , ∀ 0 ≤ a ≤ b < 1, T −1 ((a, b]) = 2 2 2 2 wobei die beiden Intervalle in der Vereinigung wegen 2b < 12 < a+1 2 disjunkt sind. Daher gilt wieder μ( (a, b] ) := λ( T −1 (a, b] ) = λ( (a, b] ) ∀ (a, b] ⊆ Ω , und wie im obigen Beispiel folgt daraus die Maßtreue von T . ∞ ∞ ωi+n ωi n , ω ∈ {0, 1} gilt nun T (ω) = . Mit X := 1[ 12 ,1) Für ω = i i 2 2i i=1
i=1
wird die Folge Xn (ω) := X ◦ T n−1 (ω) = ωn+1 ∀ n ∈ N0 gebildet. Die Xn sind also die Ziffern von ω im binären Zahlensystem und bilden demnach eine unabhängige Folge von B 12 - verteilten Zufallsvariablen (siehe Beispiel 7.51). Eine wichtige Anwendung maßtreuer Abbildungen ist die Modellierung dynamischer Systeme, wobei T n (ω) die Lage (den Zustand) eines Teilchens in verschiedenen (diskreten) Zeitpunkten darstellt. Dabei stellt sich die Frage, ob die Analyse der Zeitreihe T n (ω) für ein einzelnes ω Rückschlüsse auf das gesamte System erlaubt. Intuitiv wird man annehmen, dass das nur dann geht, wenn T den Grundraum hinreichend „gut“ durchmischt . Die in Beispiel 8.31 betrachtete Transformation macht das offensichtlich deutlich besser als die Abbildung aus Beispiel 8.30. Wesentlich ist in diesem Zusammenhang der Begriff der invarianten Menge. Definition 8.32. Ist T : (Ω, S) → (Ω, S) eine maßtreue Abbildung auf dem Wahrscheinlichkeitsraum (Ω, S, P ) , so nennt man eine Menge A ∈ S invariant, wenn gilt T −1 (A) = A . A heißt P -fs invariant, wenn P (T −1 (A) A) = 0 .
124
8 Die Verteilung einer Zufallsvariablen
Beispiel 8.33. In Beispiel 8.30 ist [0, 14 ) ∪ [ 12 , 34 ) eine invariante Menge. Lemma 8.34. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so gilt für jede maßtreue Abbildung T : (Ω, S) → (Ω, S) P (A T −1 (A) ) = 2 P (A \ T −1 (A) ) = 2 P (T −1 (A) \ A )
∀ A ∈ S . (8.12)
Beweis. Da T maßtreu ist, gilt P (A) = P (T −1 (A) ) , und daraus folgt P (A \ T −1 (A) ) = P (A \ (A ∩ T −1 (A) ) ) = P (A) − P (A ∩ T −1 (A) ) = P (T −1 (A) ) − P (A ∩ T −1 (A) ) = P (T −1 (A) \ A ) . Damit ist klarerweise auch die linke Gleichung in (8.12) bewiesen. Lemma 8.35. Ist T : Ω → Ω eine maßtreue Abbildung auf (Ω, S, P ) und A eine P -fs invariante Menge, so gilt P (T −n (A) (T −m (A) ) = 0 ∀ m < n ∈ N0 . Beweis. Aus einer wiederholten Anwendung von Lemma 2.6 Punkt 11. folgt k $ % T −i (A) T −(i−1) (A) ∀ k ∈ N . Weil T maßtreu ist, T −k (A) A ⊆ i=1
erhält man unter Berücksichtigung dieser Inklusion mit k := n − m P (T −n (A) T −m (A) ) = P (T −m (T −k (A) A) ) = P (T −k (A) A) k " # ! ≤ P T −i (A) T −(i−1) (A) = k P (T −1 (A) A) = 0 . i=1
Lemma 8.36. Ist T : Ω → Ω eine maßtreue Abbildung auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so bilden die invarianten Mengen eine σ-Algebra I , und auch das System I der P -fs invarianten Mengen ist eine σ-Algebra. Beweis. Die erste Aussage des Lemmas ist trivial. Sie folgt unmittelbar aus Definition 8.32 und der Operationstreue des Urbilds (Lemma 2.3). Betrachtet man nun I , so gilt wegen I ⊆ I klarerweise ∅ ∈ I und Ω ∈ I . Aus A ∈ I folgt Ac ∈ I , denn wegen Lemma 2.6 Punkt 4. und Lemma 2.3 gilt P (T −1 (Ac ) Ac ) = P (T −1 (A)c Ac ) = P (T −1 (A) A) = 0 . Nach Lemma 2.3 und Lemma 2.7 gilt für jede Folge (An ) aus I
−1 −1 =P P T An Am T (An ) Am n
≤P
m
$
T −1 (An ) An
n
d.h. An ∈ I
∀n∈N ⇒
%
n
≤
m
!
P (T −1 (An ) An ) = 0 .
n
n
An ∈ I . Somit ist I eine σ-Algebra.
8.4 Maßtreue Abbildungen
125
Der nächste Satz zeigt, dass es genügt invariante Mengen zu betrachten. Satz 8.37. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und T : Ω → Ω eine maßtreue Abbildung, so gibt es zu jedem A ∈ I ein B ∈ I mit P (A B) = 0 . Beweis. Ist A ∈ I , so ist B := lim inf T −n (A) invariant, denn es gilt T −1 (B) =
n∈N0
T −k (A) =
n∈N k≥n
T −k (A) = B.
n∈N0 k≥n
−k Weiters gilt B \ A = T (A) ∩ Ac ⊆ (T −n (A) ∩ Ac ) und n∈N0 k≥n n∈N0
−k c A\B =A∩ T (A) ⊆ (A ∩ T −k (A)c ) . Da die Vereinigunn∈N0 k≥n
k≥0
gen auf den rechten Seiten dieser Beziehungen gemäß Lemma 8.35 aus P Nullmengen bestehen, gilt P (A B) = 0 . Definition 8.38. Ist T : (Ω, S) → (Ω, S) eine maßtreue Abbildung auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so bezeichnet man die I-messbaren Zufallsvariablen X als invariant und die I-messbaren als P -fs invariant. Lemma 8.39. Ist T : (Ω, S) → (Ω, S) eine maßtreue Abbildung auf dem Wahrscheinlichkeitsraum (Ω, S, P ) , so ist eine Zufallsvariable X genau dann invariant, wenn X = X◦T . X ist genau dann P -fs invariant, wenn X = X◦T P –fs . $ % Beweis. Ist X invariant, so gilt X −1 ({x}) = T −1 X −1 ({x}) ∀ x ∈ R , d.h. {ω : X(ω) = x} = {ω : T (ω) ∈ X −1 ({x})} = {ω : X(T (ω)) = x} . Das ist gleichbedeutend mit X(ω) = X(T (ω)) ∀ ω ∈ Ω . Aus X = X ◦ T folgt umgekehrt {ω : X(ω) ∈ B} = {ω : X(T (ω)) ∈ B} , $ % also X −1 (B) = T −1 X −1 (B) ∀ B ∈ B , d.h. X $ist invariant. % Wie eben gezeigt, gilt X −1 (B)∩[X = X◦T ] = T −1 X −1 (B) ∩ [X = X ◦ T ] . Aus X = X ◦ T P –fs folgt also X −1 (B) ∈ I , da dann gilt P ( X = X ◦ T ) = 0 . Ist andererseits X P –fs invariant, d.h. X −1 (B) ∈ I ∀ B ∈ B , so gilt P ([X < q < X ◦ T ] ∪ [X > q > X ◦ T ] ) = 0 ∀ q ∈ Q . Daraus folgt [X < q < X ◦ T ] ∪ [X > q > X ◦ T ] = 0 . P ( X = X ◦ T ) = P q∈Q
Definition 8.40. Eine maßtreue Transformation T auf einem Wahrscheinlichkeitsraum (Ω, S, P ) heißt mischend, wenn für alle A, B ∈ S gilt lim P ( A ∩ T −n (B) ) = P (A) P (B) . n
(8.13)
Wegen P (B) = P ( T −n (B) ) ist die obige Gleichung (8.13) äquivalent zu lim P (A | T −n (B) ) = P (A) . Man kann daher die Mischungseigenschaft so n
interpretieren, dass der Einfluss eines vergangenen Ereignisses B auf die Gegenwart mit zunehmender Zeitdauer immer geringer wird.
126
8 Die Verteilung einer Zufallsvariablen
Definition 8.41. Eine maßtreue Transformation T auf einem Wahrscheinlichkeitsraum (Ω, S, P ) heißt ergodisch, wenn gilt P (A) = P (A)2 ∀ A ∈ I . Bemerkung 8.42. Auf Grund von Satz 8.37 ist T genau dann ergodisch, wenn für jede P –fs invariante Menge gilt P (A) = 0 ∨ P (A) = 1 . Satz 8.43. Ist T eine mischende Abbildung auf dem Wahrscheinlichkeitsraum (Ω, S, P ) , so ist T ergodisch. Beweis. Für A ∈ I gilt A = T −n (A) und daher folgt aus (8.13) mit B := A P (A) = P (A ∩ A ) = P (A ∩ T −n (A) ) = lim P (A ∩ T −n (A) ) = P (A)2 . n
Satz 8.44. Eine maßtreue Transformation T : (Ω, S) → (Ω, S) auf einem Wahrscheinlichkeitsraum (Ω, S, P ) ist mischend, wenn Gleichung (8.13) für alle Mengen A, B aus einem Semiring T , der S erzeugt, gilt. Beweis. Gilt Gleichung (8.13) auf T , so gilt sie auch auf R := R(T) , da R nach Satz 2.60 aus endlichen Vereinigungen disjunkter Mengen aus T besteht. Zu allen A, B ∈ S und ε > 0 gibt es laut Approximationssatz (Satz 4.24) Mengen Aε , Bε ∈ R mit P (A Aε ) < ε und P (B Bε ) < ε . Damit gilt + + + + +P (A ∩ T −n (B)) − P (A) P (B)+ ≤ +P (A ∩ T −n (B)) − P (Aε ∩ T −n (Bε ))+ + + + +P (Aε ∩ T −n (Bε )) − P (Aε ) P (Bε )+ + |P (Aε ) P (Bε ) − P (A) P (Bε )| + |P (A) P (Bε ) − P (A) P (B)| .
(8.14)
Wegen Folgerung 3.14 und Lemma 2.6 Punkt 12. kann man den ersten Term auf der rechten Seite der obigen Ungleichung für alle n ∈ N abschätzen durch + + +P (A ∩ T −n (B)) − P (Aε ∩ T −n (Bε ))+ $ % ≤ P (A ∩ T −n (B)) (Aε ∩ T −n (Bε ) ) ≤ P (A Aε ) + P (T −n (B) T −n (Bε ) ) = P (A Aε ) + P (B Bε ) ≤ 2ε . Wegen Aε , Bε ∈ R gilt lim |P (Aε ∩ T −n (Bε ) ) − P (Aε ) P (Bε )| = 0 . n
Nach Folgerung 3.14 kann man die letzten beiden Terme abschätzen durch |P (Aε ) P (Bε ) − P (A) P (Bε )| ≤ P (Bε ) |P (Aε ) − P (A)| ≤ P (Aε A) ≤ ε und |P (A) P (Bε ) − P (A) P (B)| ≤ P (A) |P (Bε ) − P (B)| ≤ P (Bε B) ≤ ε . Also gilt lim P (A ∩ T −n (B)) = P (A) P (B) , womit der Satz bewiesen ist. n
Satz 8.45. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und T : (Ω, S) → (Ω, S) eine maßtreue Transformation, so sind die folgenden Bedingungen äquivalent : 1. T ist ergodisch. 2. Jede P -fs invariante Zufallsvariable ist P -fs konstant. 3. Jede invariante Zufallsvariable ist P -fs konstant.
8.4 Maßtreue Abbildungen
127
Beweis. Die Bedingungen 1. und 3. sind laut Lemma 7.57 äquivalent. Nach Bemerkung 8.42 ist aber auch Bedingung 2. äquivalent zu Bedingung 1. Beispiel 8.46. Auf ({0, 1, 2}, P({0, 1, 2}, P ) mit P (i) := 13 , i = 0, 1, 2 ist T1 (ω) := (ω + 1) mod 3 offensichtlich ergodisch, aber nicht mischend. T2 (ω) := (2ω) mod 3 ist maßtreu, aber nicht ergodisch, da {0} bzw. {1, 2} nichttriviale invariante Mengen sind. Auch die Abbildung aus Beispiel 8.30 ist nicht ergodisch, da es dafür, wie in Beispiel 8.33 gezeigt, nichttriviale invariante Mengen gibt. Beispiel 8.47. Die Transformation aus Beispiel 8.31 ist mischend, denn, wie wir nun zeigen, gilt (8.13) für den Semiring der diadische Intervalle. Das genügt nach Satz 8.44 zum Nachweis der Mischungseigenschaft g g k k bi ai ai bi 1 1 und B := mit Sind A := 2i , 2i + 2k 2i , 2i + 2g i=1
i=1
i=1
i=1
ai , bi ∈ {0, 1} , zwei derartige Intervalle, so gilt für n ≥ k n+g ! ci n+g ! ci 1 −n A ∩ T (B) = , + n+g . 2i i=1 2i 2 n−k i=1 (ck+1 ,...,cn )∈{0,1}
mit c1 = a1 , . . . , ck = ak ; cn+1 = b1 , . . . , cn+g = bg . Daher gilt % 2n−k $ 1 P A ∩ T −n (B) = n+g = k+g = P (A) P (B) 2 2
∀ n ≥ k.
9 Das Integral - Der Erwartungswert
9.1 Definition des Integrals Wir werden das Integral in 4 Schritten einführen: 1. 2. 3. 4.
für nichtnegative, messbare Treppenfunktionen, für nichtnegative, messbare Funktionen, für beliebige messbare Funktionen, für μ-fü messbare Funktionen. Doch zunächst möge ein Beispiel die Bedeutung des Begriffs illustrieren.
Beispiel 9.1 (Fortsetzung Bsp. 8.1). Wenn ein Glücksspielbetreiber das in Beispiel 8.1 beschriebene Spiel anbietet, dann wird er sich fragen, welchen Einsatz er verlangen muss, um nicht auf lange Sicht mit Verlust zu arbeiten. Spielt der Spieler n-mal und bezeichnet Hi , i = 1, . . . , 6 die Häufigkeit mit der der Gewinn X im Verlauf der n Spiele den Wert i annimmt, so be6 läuft sich der Gesamtgewinn auf i Hi . Der durchschnittliche Gewinn pro Spiel beträgt daher
6 i=1
i=1
i
Hi n
und man wird davon ausgehen, dass für großes n
die relativen Häufigkeiten Hni nahe bei P (X = i) liegen werden, sodass ein 6 Gewinn von ca. i P (X = i) pro Spiel erwartet werden kann. Daher muss i=1
der Einsatz wenigstens in dieser Höhe liegen, um zumindest die Gewinnausschüttung abdecken zu können. Definition 9.2. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und T ∈ T + (Ω, S) eine nichtnegative, messbare Treppenfunktion auf (Ω, S) mit der kanonischen k Darstellung T = xi 1[T =xi ] , so ist der Erwartungswert von T definiert durch i=1
E T := EP T :=
k ! i=1
x i P ( T = xi ) .
130
9 Das Integral - Der Erwartungswert
Die obige Definition ist sinnvoll, da die kanonische Darstellung von T eindeutig ist (siehe Bemerkung 7.27). Beispiel 9.3. X$ ∼% Bn,p nimmt die Werte 0, . . . , n mit den Wahrscheinlichkeiten P ( X = x ) = nx px (1 − p)n−x an. Daher gilt n n ! ! n − 1 x−1 n x p p (1 − p)n−x = n p x (1 − p)n−1−(x−1) x − 1 x x=0 x=1 n−1 ! n − 1 py (1 − p)n−1−y = n p [p + (1 − p)]n−1 = n p . (9.1) = np y y=0
EX =
Ist X bernoulliverteilt, so hat X demnach den Erwartungswert E X = p . Aber auch für Treppenfunktionen auf beliebigen Maßräumen (Ω, S, μ) ist k xi μ( t = xi ) zu betrachten. es oft sinnvoll die gewichteten Durchschnitte i=1
Definition 9.4. Ist (Ω, S, μ) ein Maßraum und hat t ∈ T + (Ω, S) die kanonik sche Darstellung t = xi 1[t=xi ] , so ist das μ-Integral von t (das Integral von t i=1
bezüglich μ) gegeben durch 7 t dμ :=
k !
xi μ( t = xi ) .
(9.2)
i=1
Bemerkung 9.5. Ist t eine nichtnegative, messbare Treppenfunktion auf (R, B) und sind die Urbilder [ t .= xi ] sehr „ einfach“ strukturierte Mengen, etwa Intervalle, so ist das Integral t dλ von t in Bezug auf das Lebesgue-Maß λ die Fläche zwischen der x-Achse und t und stimmt mit dem Riemann-Integral von t überein. Aber, da die Urbilder auch sehr komplizierte messbare Mengen sein können, geht die obige . Definition weit über das Riemann-Integral hinaus. So gilt etwa gemäß (9.2) 1Q dλ = 0 , während das Riemann-Integral von 1Q nicht existiert. Um das Integral einer Treppenfunktion t zu berechnen ist es nicht nötig auf die kanonische Darstellung zurückzugreifen, wie das folgende Lemma zeigt. Lemma 9.6. Ist t =
m
βj 1Bj eine nichtnegative, messbare Treppenfunktion
j=1
auf einem Maßraum (Ω, S, μ) mit Bj ∈ S, j = 1, . . . , m , so gilt 7 t dμ =
m !
βj μ(Bj ) .
(9.3)
j=1
Beweis. Nach Lemma 7.26 gibt es eine messbare Zerlegung D1 , . . . , Dn , soDi . Mit αi := βj , i = 1, . . . , n gilt dann dass Bj = i: Di ⊆Bj
j: Di ⊆Bj
9.1 Definition des Integrals m !
βj μ(Bj ) =
j=1
m !
!
βj
μ(Di ) =
i: Di ⊆Bj
j=1
n !
!
μ(Di )
βj =
n !
j: Di ⊆Bj
i=1
131
αi μ(Di ).
i=1
(9.4) Werte, die die Koeffizienten α annehmen, Sind x1 , . . . , xk die verschiedenen i Di . Deshalb kann man die rechte Seite von (9.4) so gilt [ t = xj ] = umformen zu
i: αi =xj
n
k
αi μ(Di ) =
i=1
erhält so
m
j=1
βj μ(Bj ) =
j=1
n
xj
μ(Di ) =
i: αi =xj k
αi μ(Di ) =
i=1
k
xj μ( t = xj ) , und
j=1
xj μ( t = xj ) =
.
t dμ .
j=1
Das Integral von Treppenfunktionen hat folgende Eigenschaften Lemma 9.7. Ist (Ω, S, μ) ein Maßraum, so gilt für s, t ∈ T + (Ω, S) 7 7 1. s ≤ t ⇒ s dμ ≤ t dμ (Monotonie), 7 7 2. α ≥ 0 ⇒ α s dμ = α s dμ (Homogenität), 7 7 7 3. s + t dμ = s dμ + t dμ (Additivität). Beweis. ad 1. Sind s =
k i=1
xi 1[s=xi ] und t =
g j=1
yj 1[t=yj ] die kanonischen Dar-
stellungen von s und t , so bilden die Di,j := [s = xi ] ∩ [t = yj ] , 1 ≤ i ≤ k , 1 ≤ j ≤ g eine messbare Zerlegung von Ω mit s=
g k ! !
∧
xi 1Di,j
t=
i=1 j=1
g ! k !
(9.5)
yj 1Di,j .
j=1 i=1
Gemäß Lemma 9.6 gilt daher 7 g k ! ! xi μ(Di,j ) s dμ =
7 ∧
t dμ =
i=1 j=1
g k ! !
yj μ(Di,j ) .
i=1 j=1
(9.6)
. . Daraus folgt s dμ ≤ t dμ , da wegen s ≤ t auf den Di,j = ∅ gilt xi ≤ yj . ad 2. Diese Aussage ist trivial. g k ad 3. Nach (9.5) gilt s + t = (xi + yj ) 1Di,j . Daraus und aus (9.6) folgt i=1 j=1
7 s + t dμ =
g k ! !
(xi + yj ) μ(Di,j )
i=1 j=1
=
g k ! ! i=1 j=1
xi μ(Di,j ) +
g k ! ! i=1 j=1
7 yj μ(Di,j ) =
7 s dμ +
t dμ .
132
9 Das Integral - Der Erwartungswert
Die untenstehende Folgerung aus Punkt 1. des obigen Lemmas wird für die Definition des Integrals von nichtnegativen, messbaren Funktionen benötigt. Folgerung 9.8. Ist (Ω, S, μ) ein Maßraum, so gilt für jedes t ∈∈ T + (Ω, S) 7 7 t dμ = sup s dμ : s ∈ T + ∧ s ≤ t . (9.7) . . Beweis. Aus t ∈ {s ∈ T + ∧s ≤ t} folgt t dμ ≤ sup s dμ : s ∈ T + ∧ s ≤ t . + Umgekehrt Lemma9.7 .Punkt 1. . . gilt für alle sˆ ∈ { s ∈ T .∧ s ≤ t } nach s dμ : s ∈ T + ∧ s ≤ t ≤ t dμ . sˆ dμ ≤ t dμ . Daher gilt auch sup Als nächstes wird das Integral nichtnegativer, messbarer Funktionen definiert. Definition 9.9. Ist (Ω, S, μ) ein Maßraum, so wird das Integral der Funktion f ∈ M+ (Ω, S) bezüglich μ (oder μ-Integral) definiert durch 7 7 + (9.8) f dμ := sup t dμ : t ∈ T ∧ t ≤ f . Definition 9.9 ist,. wie in Folgerung 9.8 gezeigt, konsistent zu Definition 9.4. Das Integral f dμ ist, wie aus der obigen Definition ersichtlich, für alle f ∈ M+ definiert, aber es kann auch den Wert ∞ annehmen. Lemma 9.10. Ist (Ω, S, μ) ein Maßraum, f ∈ M+ (Ω, S) und Tf+ die Menge aller t ∈ T + , zu denen es eine endliche messbare Zerlegung A1 , . . . , Ak von Ω k gibt, sodass t darstellbar ist in der Form t = inf f (ω) 1Ai , dann gilt i=1 ω∈Ai
7
7
t dμ : t ∈ Tf+
f dμ = sup
Beweis. Aus Tf+ ⊆ { t ∈ T + : t ≤ f } folgt sup
8.
(9.9)
.
t dμ : t ∈ Tf+
9
≤
.
f dμ .
Andererseits gilt für jedes s ∈ T , s ≤ f mit der kanonischen Darstellung k k s = si 1[s=si ] auch s ≤ s := inf f (ω) 1[s=si ] ∈ Tf+ . Daraus folgt i] i=1 i=1 ω∈[s=s 8 9 . . . + t dμ : t ∈ Tf für alle s ∈ T + mit s ≤ f . Daher gilt s dμ ≤ s dμ ≤ sup 8. 9 . t dμ : t ∈ Tf+ . auch die umgekehrte Ungleichung f dμ ≤ sup +
Definition 9.11. Ist f eine messbare Funktion f auf . einem Maßraum (Ω, S, μ) . mit Positivteil f + und Negativteil f − , für die gilt min f + dμ , f − dμ < ∞ , so wird das Integral von f bezüglich μ (μ-Integral vonf ) definiert durch 7 7 7 (9.10) f dμ := f + dμ − f − dμ . Das Integral von f existiert nicht, wenn min
.
f + dμ ,
.
f − dμ = ∞ .
9.1 Definition des Integrals
133
Bemerkung 9.12. Der Bezug auf μ unterbleibt meistens, wenn klar ist, um welches Maß es sich handelt. Unter dem Lebesgue-Integral einer Funktion f ∈ M(Rk , Lk ) versteht man das Integral in Bezug auf das Lebesgue-Maß λk . Für Zufallsvariable auf Wahrscheinlichkeitsräumen wird das Integral, wenn es existiert, wie bei nichtnegativen Treppenfunktionen, Erwartungswert genannt und die Bezeichnung E X bzw. EP X verwendet. Definition 9.13. Eine messbare Funktion Maßraum (Ω, S, μ) heißt . f+auf einem . integrierbar (bezüglich μ), wenn max f dμ , f − dμ < ∞ . Mit L1 := L1 (Ω, S, μ) bezeichnet man die Menge der integrierbaren Funktionen auf (Ω, S, μ) und mit L1 := L1 (Ω, S, μ) die Menge der Äquivalenzklassen μ–fü gleicher Funktionen aus L1 (Ω, S, μ) . Definition 9.14. Existiert auf.einem Maßraum (Ω, S, μ) für f ∈ M und A ∈ S . . f 1A dμ , so bezeichnet man f dμ := f 1A dμ als das Integral von f über A . A
Betrachtet man statt (Ω, S, μ) den Teilraum ( A, S ∩ A, μA ) , wobei μA := μ|S∩A die Restriktion von. μ auf S ∩ A ist, so sollte die obige Definition des Integrals von f über A mit f |A dμA übereinstimmen. Lemma 9.15. Ist (Ω, S, μ) ein Maßraum A ∈ S und f : Ω → R , so ist f 1A genau dann S|B-messbar, wenn . . f |A S ∩ A|B-messbar ist und, wenn eines der beiden Integrale f dμ oder f |A dμA existiert, so existiert auch das andere und A . . dann gilt f dμ = f |A dμA . A
Beweis. Da gilt (f |A )−1 (B) = (f 1A )−1 (B) ∩ A ∀ B ∈ B , impliziert |A : ( A, S ∩ A) → (R, B) . Die umgekehrte f 1A : (Ω, S) → (R, B) natürlich f 0∈ /B (f |A )−1 (B), Richtung folgt aus (f 1A )−1 (B) = −1 c (f |A ) (B) ∪ A , 0 ∈ B . . . Offensichtlich gilt t dμ = t|A dμA für alle t ∈ T + . A
Für f ∈ M+ folgt aus f 1A ∈ M+ (Ω, S) ⇔ f |A ∈ M+ (A, S ∩ A) und ( t ∈ T + (Ω, S) ∧ t ≤ f 1A ) ⇔ ( t|A ∈ T + (A, S ∩ A) ∧ t|A ≤ f |A ) sofort 7 7 + f dμ = sup t dμ : t ∈ T (Ω, S) , t ≤ f 1A A 7 7 + = sup s dμA : s ∈ T (A, S ∩ A) , s ≤ f |A = f |A dμA . Ist f 1A messbar, so zerlegt man in (f 1A )+ und (f 1A )− . Die Werte von f auf einer Nullmenge sind für das Integral unerheblich. Lemma .9.16. Ist (Ω, S, μ) ein Maßraum, f ∈ M und N eine. μ-Nullmenge, so . . f dμ existiert. Dann gilt f dμ = f dμ . existiert f dμ genau dann, wenn Nc
Nc
134
9 Das Integral - Der Erwartungswert
Beweis. Die Aussage ist für t ∈ T + trivial, und daher gilt auch für f ∈ M+ 7 7 f dμ = sup t dμ : t ∈ T + , t ≤ f 7 7 = sup t 1N c dμ : t 1N c ∈ T + , t 1N c ≤ f 1N c = f dμ . Für f ∈ M folgt aus
.
f + dμ =
.
f + dμ und
Nc
.
f − dμ =
.
Nc
f − dμ , dass
Nc
entweder beide Integrale existieren und gleich sind oder dass keines existiert. . Folgerung 9.17. Sind . f , g ∈ M μ–fü gleich, so. existiert .das Integral f dμ gerade dann, wenn g dμ existiert, und dann gilt f dμ = g dμ . c Beweis. Ist N ∈ S,.μ(N ) = 0 und f 1N c = g 1N c . f+ = g auf.N +, so folgt. aus + und Lemma 9.16 f dμ = f dμ = g dμ = g + dμ , aber auch Nc . − . − . − Nc . − f dμ = f dμ = g dμ = g dμ . Nc
Nc
Ist f eine μ-fü messbare Funktion und N ∈ S eine Nullmenge, auf deren Komplement f messsbar ist, so ist f˜ := f 1N c messbar. Für jede weitere messbare Funktion g , die μ–fü mit f übereinstimmt, gilt f˜ = g μ–fü . Gemäß obiger Folgerung besitzen daher alle messbaren Funktionen, die zu f μ–fü gleich sind, dasselbe Integral, oder es existiert für keine dieser Funktionen, und daher macht die folgende Erweiterung der Integraldefinition Sinn. Definition 9.18. Ist (Ω, S, μ) ein Maßraum, ist f ∈ Mμ und existiert das Integral von f 1N c für das Komplement N c einer μ-Nullmenge, auf der f messbar ist, so bezeichnet man 7 7 f dμ := f dμ Nc
als das Integral von f . Ansonsten existiert das Integral von f nicht. Satz 9.19. Ist (Ω, S, μ) ein Maßraum, so gilt, wenn die Integrale existieren 7 7 1. f ≤ g μ-fü ⇒ f dμ ≤ g dμ für f , g ∈ Mμ (Monotonie), 7 2. f = 0 μ-fü ⇔ f dμ = 0 für f ∈ M+ μ , 7 7 c f dμ = c f dμ für f ∈ Mμ (Homogenität). 3. c ∈ R ⇒ Beweis. ad 1. Für f, g ∈ T + wurde Punkt 1. bereits in Lemma 9.7 Punkt 1. bewiesen. + Statt f, g ∈ M+ μ kann man f, g ∈ M und f (ω) ≤ g(ω) ∀ ω ∈ Ω annehmen, da das Verhalten der Funktionen auf einer Nullmenge nach Lemma 9.16 für die Integrale bedeutungslos ist. Aus diesen Annahmen folgt
9.2 Konvergenzsätze
135
Tf := { t ∈ T + : t ≤ f } ⊆ Tg := { t ∈ T + : t ≤ g } , und deshalb gilt 7 7 7 7 f dμ = sup t dμ ≤ sup s dμ = g dμ . t∈Tf
s∈Tg
+ + und g − ≤ f − μ–fü . Für f, g ∈ .Mμ folgt aus . f+ ≤ g μ–fü . −f ≤ g. μ–fü + − Daher gilt f dμ ≤ g dμ und g dμ ≤ f dμ . Wenn die Integrale existieren, folgt daraus 7 7 7 7 7 7 + − + − f dμ = f dμ − f dμ ≤ g dμ − g dμ = g dμ .
ad 2. Die eine Richtung .ergibt sich aus Folgerung 9.17 mit g := 0 . Umgekehrt folgt aus f dμ = 0 und n1 1[f > n1 ] ≤ f ∀ n ∈ N nach Punkt 1. 7 7 1 1 1 0 = f dμ ≥ 1[f > n1 ] dμ = μ f > ≥ 0 ∀ n ∈ N. n n n $ % 3 Daher gilt μ f > n1 = 0 ∀ n ∈ N ⇒ μ(f > 0) = μ f > n1 = 0. n
ad 3. Wir nehmen zunächst an, .dass f und c nichtnegativ sind. Für c =. 0 gilt c f = 0 ⇒ c f dμ =. 0 . Dann gilt aber wegen 0 ∞ = 0 auch c f dμ = 0 , sogar dann, wenn f dμ = ∞ . Ist 0 < c < ∞ , so ist für jedes s ∈ Tf := { t ∈ T + , t ≤ f } die Funktion c s ein Element von Tcf := { t ∈ T + , t ≤ c f } . Andererseits gilt s ∈ Tcf ⇒ sc ∈ Tf . Daraus und aus Lemma 9.7 Punkt 2. folgt 7 7 7 7 7 c f dμ = c sup t dμ = sup c t dμ = sup s dμ = c f dμ . .
t∈Tf
t∈Tf
s∈Tcf
Ist c = ∞ . und f dμ = 0 , so ist f = 0 μ–fü . Aus Rechenregel . (7.4) folgt daher c f dμ = .0 und c f = 0 μ–fü.. Damit gilt aber auch c f dμ = 0 . Für c = ∞ und $f dμ > %0 gilt c f dμ = ∞ . Nach Punkt 2. muss es ein n geben mit μ f > n1 > 0 . Aus c f ≥ k 1[f > n1 ] ∀ k ∈ N folgt nun $ . . % . c f dμ ≥ k 1[f > n1 ] dμ = k μ f > n1 ∀k∈N ⇒ c f dμ = ∞ . . + . c ≥ 0 , so gilt, wie eben gezeigt, c f . dμ = c f.+ dμ und Ist. f ∈ Mμ und . + − c f −$. dμ = c f −. dμ . Daher % sind beide Ausdrücke c f dμ − c f dμ + − gleich oder und c f dμ − f dμ . sinnvoll und . −dann .auch . keiner. + + Aus −f = f − −f folgt (−f ) dμ = f dμ− f dμ = − . . . . f dμ , sodass für c < 0 gilt c f dμ = (−c) (−f ) dμ = (−c) (−f ) dμ = c f dμ .
9.2 Konvergenzsätze Definition 9.9 ist zur praktischen Berechnung des Integrals einer nichtnegativen, messbaren Funktion f ungeeignet. Stattdessen approximiert man f gemäß Satz 7.30 durch messbare Treppenfunktionen. Eine Schlüsselrolle spielt dabei der folgende auf B. Levi zurückgehende Satz.
136
9 Das Integral - Der Erwartungswert
Satz 9.20 (Satz von Levi – Konvergenz durch Monotonie). Ist (Ω, S, μ) ein Maßraum und (fn ) eine μ-fü monoton wachsende Folge aus M+ μ , dann gilt 7 7 lim fn dμ = lim fn dμ . n
n
Beweis. Wegen Lemma 9.16 kann man o.E.d.A. annehmen, dass die fn messbar sind und auf ganz Ω monoton wachsen. Damit existiert für jedes ω ∈ Ω der Grenzwert f (ω) := lim fn (ω) , wobei auch der Wert ∞ zugelassen ist. n
. Nach Satz 9.19 Punkt 1. bilden auch. die Integrale fn dμ eine monoton . wachsende Folge, für die gilt fn dμ ≤ f dμ ∀ n ∈ N . Daraus folgt 7 7 (9.11) lim fn dμ ≤ f dμ . n
Für jedes t =
k
βi 1Bi , Bi ∈ S und jede Folge von Mengen Am ∈ S mit
i=1
Am Ω gilt nach Satz 3.20 (Stetigkeit von unten) 7 lim m
t dμ = lim m
Am
k !
βi μ(Bi ∩ Am ) =
k !
i=1
7 βi μ(Bi ) =
t dμ .
i=1
Aus t ∈ T + , t ≤ f und 0 < α < 1 folgt daher wegen Cm := [fm ≥ α t] Ω 7 7 lim t dμ = t dμ . (9.12) m
Cm
. . t dμ ≤ fm dμ ≤ fm dμ ≤ fn dμ ∀ n ≥ m . Daraus folgt Nun gilt α Cm . Cm . α t dμ ≤ lim fn dμ ∀ m ∈ N . Damit erhält man unter Berücksichtigung n Cm . . . von (9.12) α t dμ = α lim t dμ ≤ lim fn dμ . Weil aber α ∈ (0 , 1) beliem n Cm . . big gewählt werden kann, gilt auch t dμ ≤ lim fn dμ ∀ t ∈ T + , t ≤ f . n . . Da das der Umkehrung von (9.11) f dμ ≤ lim fn dμ entspricht, ist der .
.
n
Satz somit bewiesen. Folgerung 9.21. Ist (Ω, S, μ) ein Maßraum, so existiert zu jedem f ∈ M+ μ eine monoton wachsende Folge (tn ) aus T + mit lim tn = f μ–fü , und für jede n
monoton wachsende Folge (sn ) aus T + mit lim sn = f n
7
μ–fü gilt
7 f dμ = lim n
sn dμ .
(9.13)
9.2 Konvergenzsätze
137
Beweis. Ist f auf N c ∈ S mit μ(N ) = 0 messbar, so ist f 1N c messbar und nach Satz 7.30 gibt es eine Folge (tn ) aus T + mit tn f 1N c . Daher gilt lim tn = f μ-fü, womit die erste Aussage der Folgerung bewiesen ist. n
Ist (sn ) eine Folge aus T + mit sn f μ-fü, so folgt (9.13) sofort aus dem oben bewiesenen Satz von B. Levi über die Konvergenz durch Monotonie. . Bemerkung 9.22. Da der Grenzwert f dμ in (9.13) nicht von der gegen f konvergenten Folge (sn ) abhängt, kann man auch (9.13) zur Definition des Integrals von f ∈ M+ verwenden. Diese Vorgangsweise hat den Vorteil einen Weg zur näherungsweisen Berechnung des Integrals aufzuzeigen. Lemma 9.23. Ist (Ω, S, μ) ein Maßraum und hat f ∈ M einen höchstens abzählbaren Wertebereich f (Ω) = { xi : i ∈ I ⊆ N } , so gilt 7 ! ! xi μ( f = xi ) + xi μ( f = xi ) , (9.14) f dμ = xi ≥0
xi <0
wenn mindestens eine Summe in der obigen Gleichung endlich ist. xi 1[ f =xi ] f + ∧ t− −xi 1[ f =xi ] f − . Beweis. t+ n := n := xi ≥0 ∧ i≤n
xi <0 ∧ i≤n
Aus Folgerung 9.21 kann man die Additivität des Integrals für nichtnegative, μ–fü messbare Funktionen leicht herleiten. Lemma 9.24. Ist (Ω, S, μ) ein Maßraum und sind f, g ∈ M+ μ , so gilt 7 7 7 f + g dμ = f dμ + g dμ .
(9.15)
Beweis. Für f, g ∈ T + wurde (9.15) schon in Lemma 9.7 Punkt 3. gezeigt. + Zu f, g ∈ M+ mit tn f μ–fü und μ gibt es Folgen(tn ) und (sn ) aus T sn g μ–fü ⇒ tn + sn f + g μ–fü . Daher folgt aus Satz 9.20 7 7 7 7 7 7 f +g dμ = lim tn +sn dμ = lim tn dμ+lim sn dμ = f dμ+ g dμ . n
n
n
Folgerung 9.25. Ist (Ω, S, μ) ein Maßraum, so gilt f ∈ L1 ⇔ |f | ∈ L1 . . . . + Beweis. Aus Lemma 9.24 und |f | = f . +f − folgt |f | dμ = f + dμ + f − dμ . . . f + dμ, f − dμ < ∞ . Demnach gilt |f | dμ < ∞ ⇔ max Lemma 9.26. Aus f ∈ L1 (Ω, S, μ) folgt μ([|f | = ∞]) = 0 . Beweis. Aus n 1[|f |=∞] . ≤ |f | ∀ n ∈. N folgt nach Lemma 9.19 Punkt 1. n μ( |f | = ∞ ) =. n 1[|f |=∞] dμ ≤ |f | dμ < ∞ ∀ n ∈ N . Daher gilt μ( |f | = ∞ ) ≤ n1 |f | dμ ∀ n ∈ N ⇒ μ( |f | = ∞ ) = 0 .
138
9 Das Integral - Der Erwartungswert
Lemma 9.27. Ist (Ω, S, μ) ein+.Maßraum, + . so gilt für jede μ–fü messbare Funktion f , deren Integral existiert + f dμ+ ≤ |f | dμ , . +. + +. + . . . . Beweis. + f dμ+ = + f + dμ − f − dμ+ ≤ f + dμ + f − dμ = |f | dμ . Lemma 9.28. Existiert das Integral einer auf einem Maßraum (Ω, S, μ) μ–fü . messbaren Funktion f , so existieren auch die Integrale A f dμ für alle A ∈ S . Ist f integrierbar, so sind alle diese Integrale endlich. Beweis. Dies folgt aus (f 1A )+ = f + 1A ≤ f + und (f 1A )− = f − 1A ≤ f − . Vor dem Beweis der Additivität des Integrals in allgemeiner Form zeigen wir noch ein einfaches Lemma, das uns als Hilfsmittel dient. Lemma 9.29. Für α, β ∈ R mit min{α , β} > −∞ oder max{α , β} < ∞ gilt (α + β)+ ≤ α+ + β + ∧ (α + β)− ≤ α− + β − .
(9.16)
Beweis. Für α ≥ 0 ∧ β ≥ 0 und α < 0 ∧ β < 0 ist (9.16) klar. Die rechte Ungleichung folgt aus der linken, indem man α, β durch −α, −β ersetzt und α < 0 ∧ β ≥ 0 ist symmetrisch zu α ≥ 0 ∧ β < 0 . Für α ≥ 0 ∧ β < 0 gilt aber (α + β)+ = ( α + β ) ∨ 0 ≤ α ∨ 0 ≤ ( α ∨ 0 ) + ( β ∨ 0 ) = α+ + β + . Satz 9.30 (Additivität des Integrals). Sind. f, g μ–fü messbare Funktionen auf . einem Maßraum (Ω, S, μ) , deren Integrale f dμ und g dμ existieren und ist . . f dμ + g dμ wohldefiniert, so existiert das Integral von f + g und es gilt 7 7 7 f + g dμ = f dμ + g dμ . (9.17) Beweis. Auf Grund der Voraussetzungen müssen entweder beide Positivteile + + − − . −f , g integrierbar sein, denn gilt etwa .f +und g oder beide Negativteile daraus f dμ .< ∞ . Dann muss aber auch gelten . f dμ = ∞ , so folgt . . g dμ > −∞ , d.h. g− dμ < ∞ , damit f dμ + g dμ sinnvoll ist. . − . f dμ , g − dμ < ∞ an. Aus Lemma 9.26 Wir nehmen o.E.d.A. max folgt dann f − < ∞ μ-fü. bzw. g − < ∞ μ-fü, und deshalb muss wegen Lemma 9.29 auch gelten (f + g)− ≤ f − + g − < ∞ μ-fü. Darum dürfen in (f + g)+ − (f + g)− = f + g = f + − f − + g + − g − die Ausdrücke (f + g)− , f − und g− auf die jeweils andere Seite gebracht werden und man erhält (f +g)+ +f − +g − = (f +g)− +f + +g + . Daraus folgt nach Lemma 9.24 7 7 7 7 7 7 (f + g)+ dμ + f − dμ + g − dμ = (f + g)− dμ + f + dμ + g + dμ . . . . Die Integrale f − dμ , g − dμ und (f +g)− dμ sind endlich (letzteres wegen (f + g)− ≤ f − + g− ). Bringt man sie auf die andere Seite, ergibt das 7 7 7 f + g dμ = (f + g)+ dμ − (f + g)− dμ 7 7 7 7 7 7 + − + − = f dμ − f dμ + g dμ − g dμ = f dμ + g dμ .
9.2 Konvergenzsätze
139
Es gibt eine nützliche Verallgemeinerung des Satzes von B. Levi. Satz 9.31 (Verallgemeinerung des Satzes von B. Levi). Gibt es zu einer monoton steigenden Folge μ–fü messbarer Funktionen. fn auf einem Maßraum (Ω, S, μ) ein g ∈ Mμ mit fn ≥ g μ–fü ∀ n ∈ N und g − dμ < ∞ , so gilt 7 7 lim fn dμ = lim fn dμ . (9.18) n
n
(9.18), wenn ein g ∈ Mμ existiert, Ist (fn ) monoton fallend, so gilt Gleichung . für das gilt fn ≤ g μ–fü ∀ n ∈ N und g + dμ < ∞ . − ≤ g− . Beweis. Aus f := lim fn ≥ fm ≥ g ≥ −g − ∀ m ∈ N folgt f − ≤ fm n . − . . g dμ < ∞ existieren deshalb die Integrale f dμ und fm dμ . Aus .Wegen g − dμ < ∞ folgt nach Lemma 9.26 auch 0 ≤ g − < ∞ μ–fü , und dar− − um Funktionen . − . .hn := fn. + −g und h := f + g . gilt für. die nichtnegativen hn dμ = fn dμ + g dμ und h dμ = f dμ + g dμ . Da die nichtnegativen Funktionen hn monoton gegen h steigen, gilt nach Satz 9.20 7 7 7 7 7 7 lim fn dμ + g − dμ = lim hn dμ = h dμ = f dμ + g − dμ . n
n
Subtrahiert man
.
g− dμ von beiden Seiten, so ergibt das (9.18).
Die 2-te Aussage folgt aus der 1-ten, indem man diese auf −fn anwendet. Folgerung 9.32 (Lemma von Fatou). Existiert zur Folge (fn ) aus M(Ω, S, μ) . ein g ∈ Mμ mit fn ≥ g μ–fü ∀ n ∈ N ∧ g − dμ < ∞ , dann gilt 7 7 (9.19) lim inf fn dμ ≤ lim inf fn dμ , n
n
. Gibt es jedoch ein g ∈ Mμ mit fn ≤ g μ–fü ∀ n ∈ N ∧ g + dμ < ∞ , so gilt 7 7 (9.20) lim sup fn dμ ≤ lim sup fn dμ . n
n
Beweis. Die hn := inf fk sind monoton steigend, und unter den Voraussetk≥n
zungen von (9.19) gilt g ≤ hn ∀ n . Deshalb folgt aus Satz 9.31 und hn ≤ fn 7 7 7 7 lim inf fn dμ = lim hn dμ = lim hn dμ ≤ lim inf fn dμ . n
n
n
n
Aus den Voraussetzungen von (9.20) folgt, dass (−fn ) die Bedingungen für (9.19) erfüllt. Mit limfn := lim sup fn und limfn := lim inf fn gilt daher n
n
7
7
7 limfn dμ = −
lim(−fn ) dμ ≥ −lim
7 −fn dμ = lim
fn dμ .
140
9 Das Integral - Der Erwartungswert
Einer der wichtigsten Konvergenzsätze ist der nun folgende Satz von Lebesgue über die Konvergenz durch Majorisierung. Satz 9.33 (Satz von Lebesgue – Konvergenz durch Majorisierung). Gibt es zu einer μ–fü konvergenten Folge (fn ) aus M(Ω, S, μ) ein g ∈ L1 mit |fn | ≤ g , so sind die fn und f := lim fn integrierbar, und es gilt gelten die Beziehungen n
7
7 |fn − f | dμ = 0 ∧ lim
lim n
n
7 fn dμ =
f dμ .
(9.21)
Beweis. Aus lim fn = f μ–fü folgt lim |fn − f | = 0 μ–fü . Außerdem gilt n
n
0 ≤ |fn − f | ≤ |fn | + |f | ≤ 2 g μ–fü . Demnach erfüllt die Folge |fn − f | die Voraussetzungen für (9.19) und (9.20) im Lemma von Fatou. Daraus folgt 7 7 0 = lim inf |fn − f | dμ ≤ lim inf |fn − f | dμ n n 7 7 ≤ lim sup |fn − f | dμ ≤ lim sup |fn − f | dμ = 0 . n
n
Wegen |f | ≤ g ist f integrierbar, und die rechte Gleichung in (9.21) folgt unmittelbar aus der linken, denn nach Lemma 9.27 gilt + +7 + 7 +7 7 + + + + + fn dμ − f dμ + = + fn − f dμ + ≤ |fn − f | dμ . + + + + Als Anwendungsbeispiele für den Satz von der Konvergenz durch Majorisierung bringen wir unten hinreichende Bedingungen über die Vertauschbarkeit von Limes- und Integralzeichen bzw. Differential- und Integraloperator, die bekannte Ergebnisse aus der klassischen Analysis verallgemeinern. Satz 9.34. Ist {fα : α ∈ (a, b) } eine Familie messbarer Funktionen auf einem Maßraum (Ω, S, μ), die im Punkt α0 ∈ (a, b) stetig gegen eine messbaμ-fü konvergieren, d.h. lim fα = fα0 μ-fü, und zu dere Funktion fα0 α→α0
nen ein g ∈ L1 (Ω, S, μ) und ein ε > 0 existieren mit |fα | ≤ g μ–fü ∀ α ∈ (α0 − ε, α0 + ε), dann gilt 7 7 (9.22) lim fα dμ = fα0 dμ . α→α0
Beweis. Gleichung (9.22) gilt gerade dann, wenn sie für jede gegen α0 konvergierende Folge aus (α0 − ε, α0 + ε) gilt. Ist (αn ) eine derartige Folge, so gilt auf Grund des obigen Satzes über die Konvergenz durch Majorisierung 7 7 lim fαn dμ = fα0 dμ . αn
9.2 Konvergenzsätze
141
Bemerkung 9.35. Man beachte, dass für eine beliebige Familie {fα : α ∈ A} messbarer Funktionen, anders als bei Funktionenfolgen, lim fα = fα0 i.A. α→α0
nicht messbar sein muss. Im obigen Satz wird daher die Existenz einer μ-Nullmenge N ∈ S vorausgesetzt, sodass auf N c gilt lim fα = fα0 . α→α0
Satz 9.36. Ist {fα : α ∈ (a, b) } eine Familie aus L1 (Ω, S, μ) , bei der die parti(ω,α) ellen Ableitungen ∂f ∂α ∀ ω ∈ Ω existieren und als Funktionen von ω mess+ + + f (ω,α)−f (ω,α0 ) + bar sind und zu der es ein g ∈ L1 gibt mit + + ≤ g(ω) μ-fü für alle α−α0 α = α0 aus einem Intervall (α0 − ε, α0 + ε), ε > 0, dann gilt + + 7 7 + ∂ ∂f (ω, α) ++ f (ω, α) dμ ++ = dμ . (9.23) + ∂α ∂α α=α0 α=α0 Beweis. Ist (αn ) eine Folge aus (α0 − ε, α0 + ε) mit lim αn = α0 , so kann n
auf Grund der Voraussetzungen der Satz von Lebesgue über die Konvergenz durch Majorisierung angewendet werden, und man erhält . . 7 f (ω, αn ) dμ − f (ω, α0 ) dμ f (ω, αn ) − f (ω, α0 ) lim dμ = lim αn →α0 αn →α0 αn − α0 αn − α0 + 7 7 f (ω, αn ) − f (ω, α0 ) ∂f (ω, α) ++ = lim dμ . dμ = αn →α0 αn − α0 ∂α +α=α0 Korollar 9.37. Ist {fα : α ∈ (a, b) } eine Familie aus L1 (Ω, S, μ) , deren parti(ω,α) ∀ ω ∈ Ω existieren und elle Ableitungen ∂f ∂α + + als Funktionen von ω messbar + ∂f (ω,α) + sind und zu der es ein g ∈ L1 gibt mit + ∂α + ≤ g(ω) ∀ α ∈ (a, b) , ω ∈ Ω , dann gilt auf (a, b) 7 7 ∂f (ω, α) ∂ f (ω, α) dμ = dμ . (9.24) ∂α ∂α Beweis. Aus dem Mittelwertsatz (siehe Satz A.40) folgt, dass es zu jedem α = α0 ein α zwischen α und α0 gibt mit + + + + + f (ω, α) − f (ω, α0 ) + + ∂f (ω, α ) + +=+ + ≤ g(ω) . + + + ∂α + + α − α0 Der Rest ergibt sich wieder aus Satz 9.33. Bemerkung 9.38. Sind f , g integrierbare Funktionen auf (Ω, S, μ) und ist α ∈ R , so gilt wegen Satz 9.19 Punkt 3. und Satz 9.30, dass . α f ∈ L1 und f + g ∈ L1 , d.h. L1 ist ein linearer Raum. Für !f !1 := |f | dμ folgt aus f = 0 μ–fü !f !1 = 0 , aus. α ∈ R , f ∈ L.1 folgt !α .f !1 = |α| !f !1 , und für f , g ∈ L1 gilt !f + g!1 = |f + g| dμ ≤ |f | dμ + |g| dμ = !f !1 + !g!1 , d.h. ! !1 ist eine Seminorm. Auf L1 ist ! !1 sogar eine Norm, die sogenannte L1 -Norm. bezüglich der, wie wir später sehen werden, L1 vollständig ist.
142
9 Das Integral - Der Erwartungswert
9.3 Das unbestimmte Integral In der Differential– und Integralrechnung berechnet man das bestimmte Integral über irgendeinem Intervall [a, b] , indem man die Integrationsgrenzen in das unbestimmte Integral (die Stammfunktion) einsetzt, das demnach als Mengenfuktion auf dem System der Intervalle interpretiert werden kann. Definition 9.39. Ist (Ω, S, μ) ein Maßraum . und existiert das Integral von f ∈ M , so nennt man die durch ν(A) := A f dμ ∀ A ∈ S definierte Mengenfunktion ν : S → R das unbestimmte Integral von f . . Offensichtlich gilt ν(∅) = ∅ f dμ . = 0 , sowie ν : S. → (−∞, ∞] oder ν : S → [−∞, ∞) , je nachdem, ob f − dμ < ∞ oder f + dμ < ∞ . Die folgenden Resultate werden zeigen, dass ν auch σ-additiv ist. Lemma 9.40. Ist (fn ) eine Folge aus M+ (Ω, S, μ) , dann gilt 7 ! !7 fn dμ . fn dμ = n
(9.25)
n N
Beweis. Da die Summen sN :=
fn mit N
μ–fü monoton wachsen, folgt
n=1
aus dem Satz von Levi (Satz 9.20) und Satz 9.30 (Additivität des Integrals) !7
fn dμ = lim N
n∈N
N 7 !
7 fn dμ = lim N
n=1
7 sN dμ =
lim sN dμ =
7 !
N
fn dμ .
n∈N
Lemma 9.41. Ist ν ein unbestimmtes Integral auf einem Maßraum (Ω, S, μ) , so ist ν σ-additiv, d.h. für jede Folge disjunkter Mengen An aus S gilt
∞ ∞ ! ν An = ν(An ) . (9.26) n=1
n=1
Beweis. Ist ν das unbestimmte Integral von f ∈ M und bezeichnet man mit ν + das unbestimmte Integral von f + , sowie mit ν − jenes von f − , so folgt aus Lemma 9.40, angewendet auf die Folgen (f + 1An ) und (f − 1An )
7 ! 7 ! !7 + + + + + ν (An ) = f dμ = 1An f dμ = f dμ = ν An , n
n
n
An
n
An
n
!
ν − (An ) =
!7
n
n
.
An
f − dμ =
7 ! n
7
1An f − dμ =
An
f − dμ = ν −
An
.
n
n
Gilt o.E.d.A. f − dμ < ∞ an, so sind beide Seiten der unteren Gleichung endlich. Daher darf man sie von der jeweils entsprechenden Seite der oberen Gleichung subtrahieren und erhält so (9.26).
9.3 Das unbestimmte Integral
143
Das unbestimmte Integral gehört zu folgender Klasse von Mengenfunktionen. Definition 9.42. Eine Mengenfunktion ν auf einem Messraum (Ω, S) wird als ein signiertes Maß bezeichnet, wenn gilt 1. ν : S → (−∞, ∞] oder ν : S → [−∞, ∞) , 2. ν(∅) = 0 , ∞ ∞ An = ν(An ) für alle Folgen disjunkter Mengen An aus S . 3. ν n=1
n=1
Das Tripel (Ω, S, ν) nennt man dann einen signierten Maßraum. Falls f ∈ M+ μ , so ist das unbestimmte Integral natürlich ein Maß. Wie der Beweis von Lemma 9.41 gezeigt hat, ist das unbestimmte Integral von f die Differenz der beiden zu f + bzw. f − gehörigen Maße ν + und ν − . Für diese Maße gilt ν + (f < 0) = 0 und ν − (f ≥ 0) = 0 . Definition 9.43. Zwei Maße μ und ν auf einem Messraum (Ω, S) heißen singulär zueinander (i.Z. ν⊥μ), wenn es ein A ∈ S gibt mit μ(A) = 0 ∧ ν(Ac ) = 0 . . Gilt μ(A) = 0 , so ist f 1A = 0 μ–fü . Daraus folgt ν(A) = A f dμ = 0 . Definition 9.44. Ist (Ω, S, μ) ein Maßraum, so heißt ein signiertes Maß ν auf (Ω, S) absolut stetig bezüglich μ (i.Z. ν % μ), wenn gilt μ(A) = 0 ⇒ ν(A) = 0 ∀ A ∈ S . Wir werden später zeigen, dass jedes signierte Maß die Differenz zweier zueinander singulärer Maße ist und, dass jedes bezüglich μ absolut stetige Maß als Integral bezüglich μ dargestellt werden kann. Unbestimmte Integrale mehrerer Funktionen können übereinstimmen. Beispiel 9.45. Auf (Ω = ∅, S := {∅, Ω}, μ) mit μ(∅) := 0, μ(Ω) := ∞ gilt etwa . μ(A) = A f dμ, ∀ A ∈ S für jedes f ≡ c > 0 . Aber unter gewissen Voraussetzungen ist die Darstellung eindeutig. Satz 9.46. Ist (Ω, S, μ) ein Maßraum, so gilt für Funktionen f und g aus L1 7 7 f dμ ≤ g dμ ∀ A ∈ S ⇒ f ≤ g μ–fü . (9.27) A
A
(9.27) gilt auch, wenn μ
σ-endlich ist und die Integrale von f und g existieren. Beweis. Sind f, g ∈ L1 und An := [ f > g + n1 ] , so gilt [ f > g ] = An und n
7
7
7
g dμ ≥ An
f dμ ≥ An
g+
An
1 n
7 g dμ +
dμ = An
1 μ(An ) . n
(9.28)
+ +. + + Wegen + An g dμ+ < ∞ folgt daraus μ(An ) = 0 ∀ n ∈ N ⇒ μ(f > g) = 0 .
144
9 Das Integral - Der Erwartungswert
Gilt Ω =
En , En ∈ S mit μ(En ) < ∞ , so reicht es die 2-te Aussage für
n
die En zu beweisen. Man kann daher o.E.d.A. annehmen, dass μ endlich ist. 1 Dann gilt (9.28) auch +. + für. die Mengen An := [ f ≥ g + n ∧ |g| ≤ n ] , + + und wegen + An g dμ + ≤ An |g| dμ ≤ n μ(An ) < ∞ folgt daraus, wie oben, μ(An ) = 0 ∀ n ∈ N . Da die An monoton gegen [ f > g ∧ |g| < ∞ ] wachsen, impliziert das seinerseits μ( f > g ∧ |g| < ∞ ) = 0 . Auf [ g = ∞ ] gilt natürlich f ≤ g , also μ( f > g, g = ∞ ) = 0 . Auf [ g = −∞ ]. gilt Bn :=.[ g = −∞, f ≥ −n ] [ g = −∞, f > g ] , und aus −∞ μ(Bn ) = Bn g dμ ≥ Bn f dμ ≥ −n μ(Bn ) folgt μ(Bn ) = 0 ∀ n ∈ N . Das ergibt schließlich μ( f > g, g = −∞ ) = 0 . Folgerung 9.47. Ist (Ω, S, μ) ein Maßraum und sind für μ und f, g ∈ Mμ die Voraussetzungen von Satz 9.46 erfüllt, so gilt 7 7 f dμ = g dμ ∀ A ∈ S ⇒ f = g μ–fü . A
A
Beweis. Klar. Auf σ-endlichen Maßräumen ist also das zu einem unbestimmten Integral gehörige f μ–fü eindeutig bestimmt. Daher ist die folgende Definition sinnvoll. Definition 9.48. Ist (Ω, S, μ) ein σ-endlicher Maßraum und ν ein signiertes Maß auf (Ω, S) , so nennt man f ∈ Mμ die Radon-Nikodym-Dichte oder Ablei. dν tung von ν in Bezug auf μ (i.Z. f = dμ ), wenn ν(A) = A f dμ ∀ A ∈ S . Satz 9.49. Ist (Ω, S, μ) ein Maßraum, f ∈ M+ μ und ν das unbestimmte Integral . von f bezüglich μ , d.h. ν(A) = f dμ ∀ A ∈ S , so existiert zu g ∈ M+ μ das A . . Integral g dν genau dann, wenn g f dν existiert, und in diesem Fall gilt 7 7 g dν = g f dμ ∀ B ∈ S . (9.29) B
B
Weiters gilt g ∈ L1 (Ω, S, ν) ⇔ g f ∈ L1 (Ω, S, μ) . . . . Beweis. Für g = 1A , A ∈ S gilt 1A dν = ν(A) = A f dμ = 1A f dμ . Auf Grund der Linearität des Integrals gilt (9.29) demnach für alle g ∈ T + . + Zu g ∈ M+ μ gibt es nach Satz 7.30 eine Folge (tn ) aus T mit tn g μ–fü . Da somit auch tn f 1B g f 1B μ–fü gilt, folgt aus dem Satz von Levi 7 7 7 7 g dν = lim tn dν = lim tn f dμ = g f dμ . B
n
B
n
B
B
Ist g ∈ Mμ , so gilt (9.29) für f + undf − . Damit ist der Satz bewiesen.
9.4 Zusammenhang zwischen Riemann- und Lebesgues-Integral
145
Folgerung 9.50 (Kettenregel). Sind f, g ∈ M+ μ reellwertige Funktionen auf einem Maßraum (Ω, S, μ) , ist ν das unbestimmte Integral von f bezüglich μ und ρ das unbestimmte Integral von g bezüglich ν , so ist ρ das unbestimmte Integral dρ dν von f g bezüglich μ . Mit f = dμ und g = dν kann man dies aussdrücken durch dρ dν dρ = dμ dν dμ
μ-fü .
(9.30)
Beweis. Weil μ σ-endlich ist, gibt es messbare Mengen En mit En Ω und μ(En ) < ∞ ∀ n ∈ N , und wegen f : Ω → R+ gilt auch [ f ≤ n ] Ω . ,n := En ∩ [ f ≤ n ] Ω . Da überdies auch noch gilt Daraus folgt aber E . , ν(En ) = En f dμ ≤ n μ(En ) < ∞ ∀ n ∈ N , ist ν σ-endlich. Mit dem gleichen Argument zeigt von ρ . . . man die σ-Endlichkeit Nun gilt nach (9.29) ρ(A) = A g dν = A g f dμ ∀ A ∈ S , und, da es wegen der σ-Endlichkeit von . μ nur eine μ-fü eindeutig bestimmte Funkdρ mit ρ(A) = A h dμ ∀ A ∈ S geben kann, muss gelten tion h = dμ h = g f μ–fü .
9.4 Zusammenhang zwischen Riemann- und Lebesgues-Integral In Bemerkung 9.5 wurde bereits das Beispiel einer Lebesgue-integrierbaren Funktion gebracht, die nicht Riemann- integrierbar ist. In diesem Abschnitt wird gezeigt, dass Riemann-integrierbare Funktionen auch Lebesgue-integrierbar sind, und dass für derartige Funktionen die beiden Integrale übereinstimmen, dass also das Lebesgue-Integral eine echte Verallgemeinerung des Riemann-Integrals ist. Zunächst wiederholen wir die Definition des (eigentlichen) RiemannIntegrals und ein paar Begriffe, die damit zusammenhängen. Definition 9.51. Ist A ⊆ Rk , so nennt man d(A) := sup{!x − y! : x, y ∈ A} den Durchmesser von A , wobei !x! die in Definition A.74 festgelegte Norm (die Euklidische Norm) bezeichnet. Definition 9.52. Eine Partition P von [a, b] ⊆ Rk ist eine Zerlegung I1 , . . . , In von [a, b] ⊆ Rk in achsenparallele Quader Ij mit λk (Ij ) > 0 ∀ j = 1, . . . , n . d(P ) := max d(Ij ) bezeichnet den Maximaldurchmesser der Partition. 1≤j≤n
Eine Partition P2 heißt feiner als eine andere Partition P1 , wenn jeder Quader von P1 eine Vereinigung von Quadern aus P2 ist. Definition 9.53. Ist f : [a, b] → R und P := {I1 , . . . , In } eine Partition von n [a, b] , so nennt man l(P ) := inf f (x) λk (Ij ) eine Riemannsche Untersumme und u(P ) :=
n
j=1 x∈Ij
sup f (x) λk (Ij ) wird Riemannsche Obersumme genannt.
j=1 x∈Ij
146
9 Das Integral - Der Erwartungswert
Wenn gilt −∞ < sup l(P ) = inf u(P ) < ∞ , so nennt man f RiemannP P .b integrierbar (im eigentlichen Sinn) und a f (x) dx := sup l(P ) = inf u(P ) P
P
heißt dann das (eigentliche) Riemann-Integral von f . Satz 9.54 (Lebesgues Kriterium der Riemann-Integrierbarkeit). Eine beschränkte, reellwertige Funktion f auf [a, b] ⊂ Rk ist genau dann Riemannintegrierbar, wenn sie λ− fü stetig ist. f ist dann auch Lebesgue-integrierbar und die beiden Integrale stimmen überein. Beweis. Da f beschränkt ist, gilt A := sup l(P ) ∈ R ∧ B := inf u(P ) ∈ R . P
P
Ist (P,n ) eine Partitionenfolge mit A − n1 ≤ l(P,n ) ∀ n ∈ N und (Pˆn ) eine Folge mit B + n1 ≥ u(Pˆn ) ∀ n ∈ N , so gilt für die Partitionen Pn , die jeweils aus den nichtleeren Durchschnitten der Quader von P˜n und Pˆn gebildet werden, erst recht A − n1 ≤ l(Pn ) ∧ u(Pn ) ≤ B + n1 ∀ n ∈ N , und diese Beziehung bleibt gültig, wenn man die Quader von Pn solange teilt bis d(Pn ) ≤ n1 . Es ändert sich auch dann nichts an der obigen Beziehung, wenn man P2 ersetzt durch die Partition P2 , die aus den nichtleeren Durchschnitten von P1 := P1 und P2 besteht, und dann rekursiv die Partitionen Pn aus den nichtleeren Durchschnitten von Pn−1 und Pn bildet. Dadurch erhält man eine Folge (Pn ) von immer feiner werdenden Partitionen, für die gilt A−
1 1 1 ≤ l(Pn ) ∧ u(Pn ) ≤ B + ∧ d(Pn ) ≤ n n n
Besteht Pn aus den Quadern I1 , . . . , Imn , so sind ln :=
∀ n ∈ N. m n
(9.31)
inf f (x) 1Ij und
j=1 x∈Ij
m n un := sup f (x) 1Ij messbare Treppenfunktionen mit ln ≤ f ≤ un und j=1 x∈Ij . . un dλk = u(Pn ) . Da die ln monoton steigen, die un ln dλk = l(Pn ) ∧ monoton fallen und gilt ln ≤ f ≤ un ∀ n ∈ N , existieren auch messbare Grenzfunktionen l := lim ln und u := lim un mit l ≤ f ≤ u . Weil f beschränkt n
n
ist, treffen die Voraussetzungen von Satz 9.33 auf (ln ) und (un ) zu. Daher gilt 7 7 A = lim l(Pn ) = lim ln dλk = l dλk n n 7 7 ≤ u dλk = lim un dλk = lim u(Pn ) = B . (9.32) n
n
.b Somit .ist f genau . dann Riemann-integrierbar, d.h. A = B = a f (x) dx , wenn l dλk = u dλk . Wegen u − l ≥ 0 ist das aber nach Satz 9.19 Punkt 2. äquivalent zu l = u λk –fü . Daraus folgt f = u = l ist λk –fü messbar, . . . .b Lebesgue-integrierbar und f dλk = u dλk = l dλk = a f (x) dx . [a, b]
9.4 Zusammenhang zwischen Riemann- und Lebesgues-Integral
147
Die Menge G aller Punkte, die in irgendeiner Partition Pn am Rand eines Quaders der Partition liegen, ist als abzählbare Vereinigung von λk -Nullmengen selbst eine λk -Nullmenge und für D , die Menge der Unstetigkeitsstellen von f , gilt [ l < u ] ⊆ D ⊆ [ l < u ] ∪ G . Daraus folgt l = u λk –fü ⇔ λk (D) = 0 , d.h. f ist genau dann λk –fü stetig, wenn l = u λk –fü , und dies ist, wie bereits gezeigt, äquivalent zur Riemann-Integrierbarkeit von f . Bemerkung 9.55. Bei uneigentlichen Riemann-Integralen, also Integralen der .b . bn Form a f (x) dx := lim f (x) dx , bei denen entweder der Quaan an →a, bn →b
der (a, b) selbst oder die Funktion f unbeschränkt ist, ist die Situation komplizierter. Ist f im uneigentlichen Sinn Riemann-integrierbar, so existieren die Riemann-Integrale von f auf den beschränkten Zellen [an , bn ] . Daher ist f dort beschränkt und nach dem vorigen Satz λ-fü stetig. Umgekehrt ist aber ∞ f := (−1)i 1[i−1, i) auf R λ-fü stetig, obwohl das uneigentliche Riemanni=1
Integral von f nicht existiert. Wie das folgende Beispiel zeigt, gibt es auch stetige Funktionen, deren uneigentliches Riemann-Integral existiert, die aber kein Lebesgue-Integral besitzen. Beispiel 9.56. Die Funktion f (x) := sinx x ist beschränkt mit |f | ≤ 1 . Definiert man f (0) := lim sinx x = 1 (siehe Satz A.56), so ist f stetig auf ganz R . x→0
Die Integrale In :=
. nπ 0
sin x x
dx =
n−1 . k=0
(k+1) π sin x x kπ
dx konvergieren, da
die Summe rechts eine bildet, die die Voraussetzungen +. alternierende+ Reihe + (k+1) π sin x + . (k+1) π 1 dx = 1 0 erfüllt. Davon Satz A.6 wegen + k π x dx+ ≤ k π . k∞π sin x k her existiert das uneigentliche Riemann-Integral 0 x dx . Andererseits gilt ∞ ∞ . . $ sin x %+ (2 k+1) π sin x 1 1 dλ ≥ x (2 k+2) π dλ = π k+1 = ∞ . Ebenso gilt R+ 2kπ k=0 k=0 . . $ sin x %− dλ = ∞ , d.h. das Lebesgue-Integral R+ sinx x dλ existiert nicht. x R+ Aber unter gewissen - vor allem für die Wahrscheinlichkeitstheorie wichtigen - Voraussetzungen stimmt das uneigentliche Riemann-Integral mit dem Lebesgue-Integral überein. Satz 9.57. Ist f ≥ 0 auf (a, b) ⊆ Rk , −∞ ≤ a < b ≤ ∞ uneigentlich Riemann-integrierbar, so ist f dort auch Lebesgue -integrierbar und die Integrale stimmen überein. Beweis. Ist a < an < bn < b , so ist f , wie oben erwähnt, auf [an , bn ] Riemann-integrierbar und beschränkt. Nach Satz 9.54 ist f 1[an , bn ] daher .b . λk –fü messbar und Lebesgue-integrierbar mit ann f (x) dx = [an , bn ] f dλk . Wegen f 1[an , bn ] f ist auch f λk –fü messbar, und aus Satz 9.20 folgt 7 bn 7 7 7 b f (x) dx = lim f (x) dx = lim f dλk = f dλk . a
n
an
n
[an , bn ]
(a, b)
148
9 Das Integral - Der Erwartungswert
Bemerkung 9.58. Ist f ≥ 0 auf R Riemann-integrierbar im uneigentlichen . Sinn, so ist f nach Satz 9.57 Lebesgue-integrierbar. Daher ist μf (A) := A f dλ das unbestimmte Integral. von f bezüglich . λ , ein endliches, bezüglich λ absolut x stetiges Maß, für das gilt −∞ f (t) dt = ( −∞ ,x ] f dλ = μf ( ( −∞ , x ] ) ∀ x ∈ R , .x und F (x) := −∞ f (t) dt ist eine Verteilungsfunktion von μf . Somit sind die Wahrscheinlichkeitsmaße aus Abschnitt 6.5, deren Verteilungsfunktionen sich als Riemann-Integrale stetiger Dichten darstellen lassen, absolut . . stetig bezüglich λ . Für g ∈ L1 (Ω, B, μf ) folgt aus Satz 9.49 g dμ = g f dλ , und, wenn g f . . Riemann-integrierbar ist, dann gilt sogar g dμf = g(t) f (t) dt . Beispiel 9.59. Ist etwa f (t) := τ e−τ t 1(0 ,∞) (t) , τ > 0 ,so existiert das unei.∞ ∞ gentliche Riemann-Integral 0 τ e−τ t dt = −e−τ t |0 = 1 , und μf ist die Exponentialverteilung. Exτ mit Parameter τ. . Für g(t) := t erhält man+ mittels . ∞ ∞ partieller Integration g dμf = g f dλ = 0 t τ e−τ t dt = − τ1 e−τ t +0 = τ1 . Beispiel 9.60 (Betaverteilung B (a , b) , a , b > 0). Für a , b ≥ 1 ist die Funktion f˜(t) := ta−1 (1 − t)b−1 , 0 ≤ t ≤ 1 stetig und beschränkt und damit klarerweise Riemann-integrierbar. Für 0 < a < 1 und/oder 0 < b < 1 strebt sie bei 0 und/oder 1 gegen ∞ . Aber f˜ wird durch h(t) := ta−1 ( 12 )b−1 1( 0 , 12 ] + ( 12 )a−1 ( 1 − t )b−1 1( 12 ,1 ) majorisiert und h ist offensichtlich uneigentlich Riemann-integrierbar mit + +1 .1 b 1 1 b−1 ta + 2 1 a−1 ( 1−t ) + h(t) dt = ( ) − ( ) + 1 < ∞ . Demnach existiert das un2 a 2 b 0 0 . 12 a−1 ( 1 − t )b−1 dt von f˜ , die aus eigentliche Riemann-Integral B(a , b) := 0 t ˜
f (t) , 0 < t < 1 ist die Dichder Analysis bekannte Betafunktion. f (t) := B(a ,b) te einer bezüglich λ absolut stetigen Verteilung, der Betaverteilung mit den Parametern a und b , die bei Ordnungsstatistiken eine wichtige Rolle spielt.
Beispiel 9.61 (Gammaverteilung Γ (a, 1) , a > 0). Die auf R+ definierte Funktion f (t) := ta−1 e−t > 0, a > 0 wird offensichtlich t durch h(t) := ta−1 1(0, 1] (t) + C e− 2 1(1,∞) (t) mit geeigneter Konstante C > 0 majorisiert. Das uneigentliche Riemann-Integral von h ist leicht zu bestim+∞ + .∞ ta +1 1 − 2t + − 12 < ∞ . Daher ist auch f auf men: 0 h(t) dt = a 0 −2 C e + = a +2 C e 1
(0, ∞) uneigentlich Riemann-integrierbar, obwohl f etwa für 0. < a < 1 bei 0 ∞ unbeschränkt ist. Das Integral ist die Gammafunktion Γ (a) = 0 ta−1 e−t dt , . x ta−1 e−t . ta−1 e−t + und F (x) := 0 Γ (a) dt = Γ (a) dλ ∀ x ∈ R ist eine Verteilungs(0, x]
funktion i.e.S. Die zugehörige Wahrscheinlichkeitsverteilung wird Gammaverteilung mit den Parametern a und 1 genannt (i.Z. Γ (a, 1)). Wir werden uns später nochmals mit dieser Verteilungsfamilie in einem etwas allgemeineren Rahmen beschäftigen.
9.5 Das Integral transformierter Funktionen
149
9.5 Das Integral transformierter Funktionen
Wenn wir Integrale auf verschiedenen Maßräumen (Ω, S, μ), (Ω , S , μ ) etc. betrachten, werden wir die Integrale oft . mit der jeweiligen . Integrationsvariablen anschreiben, also die Notation f (ω) dμ(ω), oder f (ω) μ(dω) statt . f dμ verwenden, um zu verdeutlichen, auf welchem Raum integriert wird. Satz 9.62 (allgemeiner Transformationssatz). Ist (Ω, S, μ) ein Maßraum, (Ω , S ) ein Messraum, G : (Ω, S) → (Ω , S ) und f ∈ M(Ω , S ), so existiert das Integral von f bezüglich μG−1 genau dann, wenn das Integral von f ◦ G bezüglich μ existiert, und dann gilt 7 7 f ◦ G dμ = f dμG−1 ∀ A ∈ S . (9.33) A
G−1 (A )
Weiters gilt f ∈ L1 (Ω , S , μG−1 ) ⇔ f ◦ G ∈ L1 (Ω, S, μ) .
Beweis. Für Indikatoren f := 1A , A ∈ S gilt 7 7 7 7 f ◦ G dμ = 1A ◦ G dμ = 1A (G(ω)) dμ(ω) = 1G−1 (A ) (ω) dμ(ω) 7 7 = μ(G−1 (A )) = μG−1 (A ) = 1A (ω ) dμG−1 (ω ) = f dμG−1 . . . Damit gilt die Beziehung f ◦ G dμ = f dμG−1 auch für f ∈ T + (Ω , S ) . Für f ∈ M+ (Ω , S ) existiert eine Folge (tn ) aus T + (Ω , S ) mit tn f . Damit gilt auch tn ◦ G f ◦ G , und aus dem Satz von B. Levi folgt 7 7 7 7 −1 f ◦ G dμ = lim tn ◦ G dμ = lim tn dμG = f dμG−1 . n
n
. . eben gezeigt, f.+ ◦ G dμ = f + dμG−1 und .Für−f ∈ M(Ω , S . )−gilt, wie −1 −1 . f ◦ G dμ = f dμG . Daher existiert f dμG genau dann, wenn f ◦ G dμ existiert, und es gilt dann allgemein 7 7 (9.34) f ◦ G dμ = f dμG−1 .
Daraus folgt natürlich f ∈ L1 (Ω , S , μG−1 ) ⇔ f ◦ G ∈ L1 (Ω, S, μ) . Ersetzt man f in (9.34) durch f 1A , so ergibt das (9.33). Bemerkung 9.63. Demnach gilt für jeden k-dimensionalen Zufallsvektor X auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und g : (Rk , Bk ) → (R, B) 7 7 (9.35) EP g ◦ X = g ◦ X dP = g(x) dP X −1 (x) = EP X−1 g , wenn die Integrale existieren. Man benötigt daher den ursprünglichen Raum (Ω, S, P ) nicht zur Berechnung des Erwartungswerts von g ◦ X .
150
9 Das Integral - Der Erwartungswert
Für diskretes X mit X(Ω) = {xn : n ∈ I ⊆ N} und pn := P X−1 (xn ) , n ∈ I wird Gleichung (9.35), die Existenz des Erwartungswerts vorausgesetzt, zu ! ! ! g(xn ) pn = g(xn ) pn + g(xn ) pn . Eg ◦ X = n∈I
g(xn )≥0
g(xn )<0
Insbesondere erhält man für k = 1 und g(x) := id(x) = x ! ! ! EX = xn pn = xn pn + xn pn . xn ≥0
n∈I
xn <0
Ist P X−1 das unbestimmte λk -Integral von f ∈ M+ λk , so wird (9.35) zu 7 Eg ◦ X =
7 g f dλk =
7 g f dλk +
[g≥0]
Für k = 1 und g = id ergibt das 7 7 E X = x f (x) dλ(x) =
g f dλk . [g<0]
7 x f (x) dλ(x) +
[x≥0]
x f (x) dλ(x) . [x<0]
Bemerkung 9.64. Für g(x1 , . . . , xk ) := x1 + · · · + xk wird (9.35) zu 7 E(X1 + · · · + Xk ) = x1 + · · · + xk dP (X1 , . . . , Xk )−1 (x1 , . . . , xk ) . Um den Erwartungswert der Summe nach dieser Formel berechnen zu können, muss man die gemeinsame Verteilung der X1 , . . . , Xk kennen. Aber nach k k . Satz 9.30 gilt E(X1 + · · · + Xk ) = E Xi = xi P Xi−1 (dxi ) , und zur i=1
i=1
Berechnung der rechten Seite dieser Gleichung benötigt man nur die Randverteilungen der Xi , die i. A. wesentlich leichter zu bestimmen sind als die gemeinsame Verteilung. Die folgenden Beispiele sollen das illustrieren. Beispiel 9.65 (Erwartungswert von HN,A,n ). Ist X ∼ HA,N −A,n , so kann X interpretiert werden als die Anzahl der „Einsen“ bei n Ziehungen ohne Zurücklegen aus einer Urne mit A „Einsen“ und N − A „Nullen“ (siehe Beispiel 6.33). Bezeichnet man das Ergebnis der i−ten n Xi . Daraus Ziehung mit Xi , i = 1, . . . , n , so gilt Xi ∼ B A ∀ i und X = N
folgt, obwohl die Xi voneinander abhängen, EX = sicher einfacher zu berechnen als EX =
n∧A
n i=1
x=0∨(n−N +A)
i=1 A EXi = n N . Dies ist
N −A x (A x ) ( n−x )
(Nn )
.
9.5 Das Integral transformierter Funktionen
151
Beispiel 9.66 (Erwartungswert von Bn,p ). Auch X ∼ Bn,p kann man als Ergebnis von n Ziehungen Xi aus einer mit „Nullen“ und „Einsen“ gefüllten Urne ansehen (siehe Beispiel 6.31), sodass n Xi . Wegen Xi ∼ Bp , i = 1, . . . , n folgt darauch in diesem Fall gilt X = aus EX =
n
i=1
EXi = n p , und, dass nunmehr die Summanden Xi unabhängig
i=1
sind, ist für die Berechnung des Erwartungswerts genauso unerheblich, wie im vorigen Beispiel deren Abhängigkeit. Beispiel 9.67 (Mittlere Anzahl der „runs“ in einer Folge von Bits). Ist x1 , . . . , xn eine Folge von „Nullen“ und „Einsen“ , so nennt man eine Teilfolge xk , . . . , xk+ einen „run“, wenn gilt xk = . . . = xk+ und wenn (k = 1 ∨ xk−1 = xk ) und wenn außerdem (k + = n ∨ xk++1 = xk+ ) . Die Anzahl der „runs“ wird oft zur Überprüfung der „Zufälligkeit“ der Folge x1 , . . . , xn verwendet, genauer gesagt dazu um zu testen, ob die Folge das Ergebnis von n unabhängigen B 12 -verteilten Zufallsvariablen sein kann. Daher ist es wichtig den Erwartungswert der Anzahl R der „runs“ zu kennen, wenn X1 , . . . , Xn unabhängig, B 12 -verteilte Zufallsvariable sind. 1 , Xi−1 = Xi In diesem Fall sind die Zufallsvariablen Yi := i = 2, . . . , n 0 , sonst, n Yi . Ohne die Verteilung von ebenfalls B 12 -verteilt und für R gilt R = 1 + i=2
R herleiten zu müssen folgt daraus sofort ER = 1 +
n i=2
EYi = 1 + n−1 2 =
n+1 2
.
Satz 9.68. Ist ν ein Wahrscheinlichkeitsmaß auf (R, B) mit stetiger Verteilungsfunktion F , so induziert F auf ([0, 1], B ∩ [0, 1]) das Maß νF −1 = λ|[0,1] . Beweis. Da F : (R, B) → ([0, 1], B ∩ [0, 1]) stetig ist (d.h. F = F − ), gilt $ % νF −1 ([p, 1]) = ν({x : F (x) ≥ p}) = ν {x : F −1 (p) ≤ x} $ % = ν [F −1 (p), ∞) = 1 − F − (F −1 (p) ) = 1 − p ∀ p ∈ (0, 1] . Bemerkung 9.69. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und X eine Zufallsvariable, deren (auf (R, B)) induzierte Verteilung P X −1 eine stetige Verteilungsfunktion F besitzt, so gilt nach Satz 9.68 Y = F ◦ X ∼ U0,1 . Die Transformation F ◦ X führt demnach zu einer Umkehrung der Inversenmethode. Satz 9.70. Ist G : (a, b) → G((a, b)) streng monoton wachsend . oder fallend, stetig differenzierbar mit G = g , und ist ν das durch ν(A) := A |g| dλ definierte Maß auf ( (a, b), B ∩ (a, b) ) , so gilt νG−1 = λ|G( (a,b) ) . Beweis. Da g stetig ist, gilt nach dem Hauptsatz der Differential- und Integral. .d rechnung ν((c, d)) = |g| dλ = |g| dx = |G(d) − G(c)| ∀ (c, d) ⊆ (a, b). (c,d)
c
Für (c , d ) ⊆ G( (a, b) ) folgt daraus
152
9 Das Integral - Der Erwartungswert
$
G−1 (c7 )∨G−1 (d )
7
%
νG−1 ( (c , d ) ) = ν G−1 ( (c , d )) =
|g| dλ = G−1 ( (c ,d ) )
|g| dx G−1 (c )∧G−1 (d )
+ + = +G( G−1 (c ) ∨ G−1 (d ) ) − G( G−1 (c ) ∧ G−1 (d ) )+ = d − c = λ( (c , d ) ) . Damit gilt νG−1 (A ) = λ(A )
∀ A ∈ B ∩ G((a, b)) .
Bemerkung 9.71. Die Voraussetzung, dass G stetig differenzierbar ist, wird nur . |g| dλ = |G(d) − G(c)| benötigt. Wir werfür die Gültigkeit der Beziehung (c,d)
den später sehen (siehe Satz 12.30), dass dies auch unter allgemeineren Voraussetzungen gilt, doch ist die im obigen Satz angegebene Bedingung in den meisten praktisch relevanten Fällen erfüllt. sin x π π Beispiel 9.72. G(x) := tan x = cos x bildet (− 2 , 2 ) ab in R , wächst streng cos2 x+sin2 x monoton und es = = 1 + G(x)2 . Ist ν gegeben cos2 x . gilt g(x) := G (x) 1 −1 durch ν(A) := A g dλ , so gilt νG = λ , und man erhält für f (y) := 1+y 2
7
∞ −∞
1 dy = 1 + y2 7
7
7 f dλ =
(−∞,∞)
π (− π 2,2)
7
7
f ◦ G dν
= π (− π 2,2)
(−∞,∞)
$ % 1 1 + G2 dλ = 2 1+G
f ◦ G g dλ =
=
f dνG
−1
π (− π 2,2)
7
π 2
1 dλ = π .
−π 2
Mit Hilfe von Satz 9.70 kann man unter gewissen Vorauss etzungen die Dichte einer transformierten Zufallsvariablen berechnen. Satz 9.73. Ist X eine Zufallsvariable, deren Verteilungsfunktion FX das Integral einer stetigen Dichte fX ≥ 0 ist, Y := T ◦ X , wobei es zur Transformation T k disjunkte Intervalle Ij := (aj , bj ) , 1 ≤ j ≤ k mit R ⊆ [aj , bj ] gibt, auf denen j=1
die Restriktionen Tj := T |Ij streng monoton sind und stetig differenzierbare Umkehrabbildungen Gj = Tj−1 besitzen, dann hat Y die Dichte fY (y) =
k !
+ + f (Gj (y) ) +Gj (y)+ .
j=1
3 Beweis. Für a < b unterscheiden sich [Y ∈ (a, b] ] = X ∈ T −1 ( (a, b] ) und k [X ∈ Gj ( (a, b] )] höchstens auf der Nullmenge [X ∈ {aj , bj , 1 ≤ j ≤ k} ] . j=1
k k . P (X ∈ Gj ((a, b] ) ) = f dλ . Für Daraus folgt P ( Y ∈ (a, b] ) = j=1 j=1 Gj ( (a,b] ) . + + νj (A) := +Gj + dλ gilt nach Satz 9.70 λ = νj G−1 j , Somit folgt aus Satz 9.62 A
9.5 Das Integral transformierter Funktionen
P ( Y ∈ (a, b] ) =
=
7
k !
k !
7 f dλ =
j=1 Gj ( (a,b] )
7
k !
f dνj G−1 j
j=1 Gj ( (a,b] )
+ + f ( Gj (y) ) +Gj (y)+ dλ(y) =
7
b
k !
+ + f (Gj (y) ) +Gj (y)+ dy ,
a j=1
j=1 −1 Gj (Gj ( (a,b] ) )
und deshalb ist fY (y) :=
153
k
+ + f (Gj (y) ) +Gj (y)+ die Dichte von Y .
j=1
Beispiel 9.74 (Rayleigh-Verteilung). X ∼ U0,1 , Y := T (X) := T : (0, 1] → R+ , G(y) = e−
y2 2
, y > 0 , |G (y)| = y e−
y2 2
,
√ −2 ln X ,
y > 0.
Wegen fX (x) = 1(0,1) (x) gilt f (G(y) ) = 1 ⇒ fY (y) = y e− Verteilungen mit der Dichte
y2 2
,
y > 0.
t2
t e− 2σ2 , t > 0, σ 2 > 0 f (t) = σ2 werden Rayleigh-Verteilungen mit dem Parameter σ2 genannt. Sie sind eine Unterfamilie der Weibull-Verteilungen mit a = 2 und b = 2σ1 2 . Satz 9.75. Ist G : Rk → Rk eine lineare Transformation mit der Determinante det G = 0 und existiert das Integral von f : Rk → R oder von f ◦ G , so gilt 7 7 f ◦ G |det G| dλk = f dλk ∀ A ∈ Bk . (9.36) G−1 (A)
A
+ + λk (A) Beweis. Nach Satz 6.68 gilt λk (G−1 (A)) = +det G−1 + λk (A) = |det G| ∀ A ∈ Bk , −1 d.h. |det G| λk G = λk . Daher folgt aus Satz 9.62 (Transformationssatz) 7 7 7 −1 |det G| f ◦ G dλk = |det G| f dλk G = f dλk . G−1 (A)
A
A
Folgerung 9.76. Hat der. Zufallsvektor X : (Ω, S) → (Rk , Bk ) die induzierte Verteilung P X−1 (A) = A f dλk mit f ∈ M+ λk und ist T eine lineare nichtsinguläre Transformation, so ist die Verteilung von Y = T ◦ X gegeben durch 7 + + P Y−1 (A) = f ◦ T −1 +det T −1 + dλk ∀ A ∈ Bk . A
Beweis. Aus Satz 9.75, angewandt auf G := T −1 folgt 7 P (Y ∈ A) = P (X ∈ T −1 (A) ) = P (X ∈ G(A) ) = 7
7 f ◦ G |det G| dλk =
= G−1 (G(A))
A
f dλk
G(A)
f ◦ T −1
+ + +det T −1 + dλk
∀ A ∈ Bk .
154
9 Das Integral - Der Erwartungswert
+ + Satz 9.77. . Ist das Maß ν auf (R × (0, 2π], B2 ∩ R × (0, 2π] ) gegeben durch ν(A) = r dλ2 , so induziert die Transformation G(r, ϕ) := (r cos ϕ , r sin ϕ) A
auf (R2 , B2 ) das Maß νG−1 = λ2 . Daher gilt für jedes f ∈ L1 (R2 , B2 , λ2 ) 7 7 f (r cos ϕ, r sin ϕ) r dλ2 = f (x, y) dλ2 (x, y) ∀ A ∈ B2 . (9.37) G−1 (A)
A
Beweis. G ordnet den Polarkoordinaten (r, ϕ) die kartesischen Koordinaten x := r cos ϕ und y := r sin ϕ zu, und bildet so jedes Rechteck (r1 , r2 ] × (α, β] aus R+ × (0, 2π] bijektiv ab in einen der in Beispiel 6.69 definierten Kreisringsektoren Kα,β,r1 ,r2 . Daher gilt G−1 (Kα,β,r1 ,r2 ) = (r1 , r2 ] × (α, β] und (β − α) (r22 − r12 ) = λ2 (Kα,β,r1 ,r2 ) = 2
7
7r2 7β r dr dϕ = r1
α
r dλ2 (r1 ,r2 ]×(α,β]
$ % = ν( (r1 , r2 ] × (α, β] ) = ν G−1 (Kα,β,r1 ,r2 ) ) = νG−1 (Kα,β,r1 ,r2 .
Abb. 9.1. Bijektive Zuordnung der Rechtecke auf die Kreisringsektoren
Da die Kreisringsektoren einen Semiring bilden, der B2 erzeugt, gilt damit auch λ2 (A) = νG−1 (A) ∀ A ∈ B2 , d.h. λ2 = νG−1 , und aus Satz 9.62 folgt 7 7 f (r cos ϕ, r sin ϕ) r dλ2 = f (r cos ϕ, r sin ϕ) dν G−1 (A)
7
= A
f (x, y) dνG−1 (x, y) =
7
G−1 (A)
f (x, y) dλ2 (x, y)
∀ A ∈ B2 .
A
Beispiel 9.78 (2 dimensionale Standardnormalverteilung N (0, 0, 1, 1, 0)). Gleichung (9.37) ergibt mit f (x, y) =
e−
x2 +y 2 2
2π
, (x, y) ∈ R2
9.5 Das Integral transformierter Funktionen
7
7
1 − x2 +y2 2 e dλ2 = 2π
1 − r2 cos2 ϕ+r2 sin2 ϕ 2 e r dλ2 = 2π
G−1 (A)
A
7
r − e 2π
e−
x2 +y 2 2
2π
7
7∞ 72π
r2
r e− 2 dλ2 = 2π
dλ2 =
R2
r2 2
dλ2 .
G−1 (A)
(9.38)
Mit A = R2 und G−1 (R2 ) = R+ × (0, 2π] folgt daraus 7
155
R+ ×(0,2π]
0
r2
r 2 +∞ r e− 2 dϕ dr = −e− 2 +0 = 1 . 2π
0
. 1 − x2 +y2 2 e dλ2 auf (R2 , B2 ) eine WahrscheinDaher wird durch P (A) := A 2π lichkeitsverteilung, die 2-dimensionale Standardnormalverteilung, definiert. 2 2 − u +v
2
−u
Weil die Funktionen f (u, v) = e 2π2 , f1 (u) = e√2π2 und f2 (v) = nichtnegativ und uneigentlich Riemann-integrierbar sind, gilt 7
e−
u2 +v 2 2
2π
7x 7y dλ2 = −∞ −∞
(−∞,x]×(−∞,y]
7x = −∞
u2
e− 2 √ dx 2π
7y −∞
e−
v2
e− 2 √ dy = 2π
7 (−∞,x]
u2 2
e− 2π
v2 2
u2
v2
− 2 e√ 2π
dx dy
e− 2 √ dλ 2π
7
v2
e− 2 √ dλ . (9.39) 2π
(−∞,y]
Für x = y = ∞ hat das Integral auf der linken Seite von (9.39) den Wert 1 . . − v2 . − u2 Daher muss auch gelten R e√2π2 dλ = R e√2π2 dλ = 1 . Demnach ist f1 (und natürlich auch f2 ) die Dichte einer Wahrscheinlichkeitsverteilung, der (eindimensionalen) Standardnormalverteilung (i.Z. N (0, 1)). Ist (X, Y ) ∼ N (0, 0, 1, 1, 0) , so sind X und Y unabhängig, N (0, 1)-verteilt, 2 2 . . −u −v 2 denn aus (9.39) folgt FX (x) = (−∞,x] e√2π2 dλ und FY (y) = (−∞,y] e√2π dλ aber auch FX,Y (x, y) = FX (x) FY (y) ∀ (x, y) ∈ R2 . 2 x2 . ∞ x e− x22 − x +∞ 2 + e− 2 e√ √ , x ≥ 0 gilt g ≥ 0 und dx = = √12π . Für g(x) := x √ 0 2π 2π 2π 0 2 x . . e− 2 Daraus folgt R+ g dλ = √12π bzw. R− x √ dλ = − √12π , und dementspre2π chend besitzt X ∼ N (0, 1) den Erwartungswert E X = 0 . Satz 9.79 (Box-Muller Verfahren). Aus je zwei unabhängigen, auf (0, 1) gleichverteilten Zufallsvariablen U, V √ erhält man durch die Transformation √ X := −2 ln U cos(2 π V ) und Y := −2 ln U sin(2 π V ) zwei unabhängige, N (0, 1)-verteilte Zufallsvariable X, Y , d.h. (X, Y ) ∼ N (0, 0, 1, 1, 0) . √ Beweis. Wie in Beispiel 9.74 gezeigt, ist R := −2 ln U verteilt mit der Dichte 2 r fR (r) = r e− 2 , r > 0 ; aus Satz 9.73 ist leicht herleitbar, dass Φ := 2 π V die 1 , 0 < ϕ < 2 π besitzt. R, Φ sind unabhängig. Daher gilt Dichte fΦ (ϕ) = 2π
156
9 Das Integral - Der Erwartungswert
P (R, Φ)−1 ( (r1 , r2 ] × (α, β] ) = P R−1 ( (r1 , r2 ] ) P Φ−1 ( (α, β] ) 7 7r2 7β 7r2 7β 2 1 r − r2 − r2 dr = re dϕ = e 2 dr dϕ = 2π 2π r1
α
r1 α
r − r2 e 2 dλ2 . 2π
(r1 ,r2 ]×(α,β]
. r − r2 e 2 dλ2 ∀ A ∈ B2 ∩ R+ × (0, 2π] . Das impliziert P (R, Φ)−1 (A) = A 2π Für (X, Y ) := G(R, Φ) := (R cos Φ, R sin Φ) folgt daraus und aus (9.38) 7
P ((X, Y ) ∈ A) = P ((R, Φ) ∈ G−1 (A)) =
r2
r e− 2 dλ2 = 2π
G−1 (A)
7
e−
x2 +y 2 2
2π
dλ2 .
A
Beispiel 9.80 (allgemeine Normalverteilung N (μ, σ 2 )). Für X ∼ N (0, 1) hat Y := σX + μ , σ > 0 , μ ∈ R , nach Satz 9.73 die Dichte fY (y) = √
(y−μ)2 1 e− 2 σ2 , 2π σ
y ∈ R.
Derartige Zufallsvariable heißen normalverteilt mit den Parametern μ und σ2 , wobei μ wegen EY = σEX + μ = μ der Erwartungswert von Y ist. Beispiel 9.81 (2-dimensionale Normalverteilung N (μ1 , μ2 , σ12 , σ22 , ρ)). μ1 , μ2 ∈ R , σ12 , σ22 > 0 , −1 < < ρ < 1. Die Transformation Y1 = 1 − ρ2 X1 + ρ X2 , Y2 = X2 , −1 < ρ < 1 ist linear und nichtsingulär. Die Umkehrabbildung G mit X1 = Y√1 −ρ Y22 und X2 = Y2 1−ρ ⎛ ⎞ √ 1 2, 0 1−ρ ⎠ und die Determinante det G = √ 1 hat die Matrix ⎝ −ρ . Ist √ 1−ρ2 , 1 2 1−ρ
(X1 , X2 ) ∼ N (0, 0, 1, 1, 0) . so folgt daher aus Satz 9.75 für alle (y1 , y2 ) ∈ R2 fY1 ,Y2 (y1 , y2 ) = |det G| f (G(y1 , y2 ) ) 2
=
2 )y 2 2
(y −ρy2 ) +(1−ρ 1 − 1 2(1−ρ2 ) < e 2 2π 1 − ρ
2
=
2
y −2ρy1 y2 +y2 1 − 1 2(1−ρ 2) < e . 2 2π 1 − ρ
Z1 = σ1 Y1 + μ1 , Z2 = σ2 Y2 + μ2 , σ1 , σ2 > 0 , μ1 , μ2 ∈ R hat dann die Dichte fZ1 ,Z2 (z1 , z2 ) =
2πσ1 σ2
1 <
−
1 − ρ2
e
1 ( z1σ−μ ) 1
2
−2ρ
(z1 −μ1 )(z2 −μ2 ) + σ1 σ2 2(1−ρ2 )
2 ( z2σ−μ ) 2
2
.
Das ist die Dichte der 2-dimensionalen Normalverteilung N (μ1 , μ2 , σ12 , σ22 , ρ) . Beispiel 9.82 (Gammaverteilung Γ (a, b) , a, b > 0). Ist X ∼ Γ (a, 1) (Bsp. 9.61), so hat Y = b X , b > 0 nach Satz 9.73 die Dichte + + y a−1 e− yb + + fY (y) = fX (G(y)) +G (y)+ = a , b Γ (a)
y > 0.
9.5 Das Integral transformierter Funktionen
157
Das ist die Dichte der Gammaverteilung mit den Parametern a, b > 0 . 7
∞
EY = 0
y
y a e− b dy = a b ba Γ (a)
7
∞ 0
y
y a+1−1 e− b dy = a b . ba+1 Γ (a + 1)
(9.40)
Die letzte Gleichung in der obigen Beziehung gilt, da im rechten Integral die Dichte einer Γ (a + 1, b)-Verteilung steht. Γ (a, b)-Verteilungen mit a := n ∈ N werden Erlangverteilt mit den Parametern n und τ := 1b genannt (i.Z. Ern,τ ). Ist Y ∼ Ern,τ , so gilt nach (9.40) EY = nτ . Für n = 1 erhält man die Exponentialverteilung Exτ . Die Teilfamilie mit den Parametern a = n2 , n ∈ N, b = 2 ist die Familie der Chiquadratverteilungen (i.Z. χ2n ). Der Parameter n wird hier als Freiheitsgrad der Verteilung bezeichnet. Der Erwartungswert einer χ2n -verteilten Zufallsvariablen ergibt sich zu EX = n2 2 = n . Wir zeigen als nächstes, dass die Chiquadratverteilung die Verteilung des Quadrats einer standardnormalverteilten Zufallsvariablen ist, d.h. dass gilt X ∼ N (0, 1) ⇒ Y = X 2 ∼ χ21 . Auf I1 := (−∞, 0) und I2 := [0, ∞) hat die Transformation y = T (x) = x2 die √ √ 1 , y > 0. Inversen G1 (y) = − y und G2 (y) = y und es gilt |Gi (y)| = 2 √ y Aus Satz 9.73 folgt daher, dass Y die Dichte y
y
y
1
y
e− 2 e− 2 e− 2 y 2 −1 e− 2 fY (y) = √ + √ =√ √ = , 1√ 2 2 πy 2 2 πy 2y π 22 π besitzt. fY stimmt bis auf den Faktor
√1 π
.
1
mit fχ21 (x) =
x
x 2 −1 e− 2 1 22
y>0
Γ ( 12 )
.
, x > 0 , der
Dichte der χ21 -Verteilung überein. Aus R+ fY (y) dy = 1 = R+ fχ21 (x) dx folgt √ aber π = Γ ( 12 ) , eine aus der Analysis bekannte Beziehung. Also gilt Y ∼ χ21 . Mit Hilfe von Satz 9.75 kann man auch die Dichte der Summe von 2 unabhängigen Zufallsvariablen X, Y mit stetigen Dichten fX , fY berechnen. Lemma 9.83. Sind X1 , X2 unabhängige Zufallsvariable mit den stetigen Dichten fX1 und fX2 , so hat die Summe X1 + X2 die Dichte 7 7 fX1 +X2 (s) = fX1 (s − x2 ) fX2 (x2 ) dx2 = fX2 (s − x1 ) fX1 (x1 ) dx1 . Beweis. Die linearen, nichtsingulären Transformation Z := X1 + X2 , Y := X2 hat die Umkehrabbildung (X1 , X2 ) := G(Z, Y ) = (Z .− Y, Y ) mit |det G| = 1 . Da X1 , X2 unabhängig sind, gilt P (X1 , X2 )−1 (A) = A fX1 fX2 dλ2 . Betrachtet man nun A = (−∞, s] × R , so folgt aus Satz 9.75
158
9 Das Integral - Der Erwartungswert
7 P (Z ≤ s) = P ((Z, Y ) ∈ A) = P ((X1 , X2 ) ∈ G(A)) = 7
G(A)
7 fX1 (z − y) fX2 (y) dλ2 =
= G−1 (G(A))
fX1 (z − y) fX2 (y) dz dy A
7s 7∞
7s fX1 (z − y) fX2 (y) dy dz =
=
fX1 (x1 )fX2 (x2 )dλ2
−∞ −∞
fX1 +X2 (z) dz . −∞
Die Verteilung von X1 + X2 ist also das unbestimmte Integral von fX1 +X2 , der sogenannten Faltungsdichte. Beispiel 9.84. Gesucht ist die Dichte von X1 + X2 , wobei X1 , X2 ∼ U0 ,1 unabhängig sind. 1, 0 < y < 1 ∧ z − 1 < y < z Wegen fX1 (z − y) fX2 (y) = 0 , sonst . z 1 dy = z , 0 < z ≤ 1, folgt aus dem obigen Lemma fX1 +X2 (z) = .01 1 dy = 2 − z , 1 < z ≤ 2 . z−1 6
fX1 +X2 (z) 1
@
@
@
@
@ @
0
1
2
z
Abb. 9.2. Faltungsdichte von fX1 +X2
10 Produkträume
10.1 Die Produktsigmaalgebra In der Wahrscheinlichkeitstheorie hat man oft Produkträume und Verteilungen auf diesen Räumen zu betrachten, etwa wenn der Zusammenhang zwischen mehreren Zufallsvariablen, wie etwa dem Körpergewicht und der Körpergröße, untersucht werden soll. Um aber Verteilungen auf einem Produktraum definieren zu können, benötigt man eine geeignete σ−Algebra darauf. ), i ∈ I eine Familie von Messräumen, so heißt die Definition 10.1. Ist (Ωi , Si durch die Projektionen auf Ωi erzeugte σ-Algebra Si := S(pri : i ∈ I) i∈I
i∈I
die Produktsigmaalgebra der Si . Die σ-Algebra B auf RI wird System der Borelmengen genannt. i∈I
Bemerkung 10.2. Statt
Si schreibt man S1 ⊗ S2 , und an Stelle von
i∈{1,2}
n Si ist auch die Bezeichnung Si gebräuchlich. Außerdem werden i∈{1,...,n} i=1 wir die Kurzbezeichnungen ΩJ := Ωj und SJ := Sj , J ⊆ I verwenden.
j∈J
Satz 10.3. Ist (Ωi , Si ), i ∈ I :=
j∈J
Jk eine Familie von Messräumen, so gilt
k∈K
SI :=
i∈I
Si =
k∈K
SJk =
k∈K
⎛ ⎝
⎞ Sj ⎠ .
(10.1)
j∈Jk
Beweis. Aus Bemerkung 7.39, Satz 7.40, der Operationstreue des Urbilds (Lemma 2.3) und prj = prJk ,j ◦ prI,Jk ∀ j ∈ Jk folgt mit H := SJk k∈K
160
10 Produkträume
H = Aσ ⎛ = Aσ ⎝ ⎛ = Aσ ⎝
pr−1 I,Jk (SJk )
k∈K
⎛
⎝ pr−1 I,Jk
⎛ = Aσ ⎝
⎛
⎝Aσ ⎝ pr−1 I,Jk
k∈K
⎞⎞⎞ ⎠⎠⎠ pr−1 Jk ,j (Sj )
j∈Jk
⎞⎞
⎠⎠ pr−1 Jk ,j (Sj )
j∈Jk
k∈K
⎛
⎞
⎛
#
"
−1 ⎠ = Aσ ⎝ pr−1 I,Jk prJk ,j (Sj )
k∈K j∈Jk
⎞ ⎠ = SI . pr−1 j (Sj )
j∈I
Folgerung 10.4. Ist (Ωi , Si ), i ∈ I eine Familie von Messräumen, so gilt prJ : (ΩI , SI ) → (ΩJ , SJ )
∀∅= J ⊆I.
c c Beweis. CJ ∈ SJ ⇒ pr−1 J (CJ ) = CJ × ΩJ ∈ SJ ⊗ SJ = SI .
Bei der Betrachtung von Produkträumen spielen die Schnitte von Mengen und Funktionen eine große Rolle. Wegen (ΩI , SI ) = (ΩJ × ΩJ c , SJ ⊗ SJ c ) kann man sich dabei auf 2-dimensionale Räume (Ω1 × Ω2 , S1 ⊗ S2 ) mit (Ω1 , S1 ) := (ΩJ , SJ ) und (Ω2 , S2 ) := (ΩJ c , SJ c ) beschränken. Definition 10.5. Ist C eine Teilmenge vonΩ1 ×Ω2 , ω1 ∈ Ω1 , ω2 ∈ Ω2 , so nennt man die Menge Cω1 := {ω2 ∈ Ω2 : (ω1 , ω2 ) ∈ C} den Schnitt von C in ω1 und Cω2 := {ω1 ∈ Ω1 : (ω1 , ω2 ) ∈ C} den Schnitt von C in ω2 . Definition 10.6. Ist f : Ω1 ×Ω2 → Ω , so heißt fω1 (ω2 ) := f (ω1 , ω2 ) der Schnitt von f in ω1 ∈ Ω1 und fω2 (ω1 ) := f (ω1 , ω2 ) der Schnitt von f in ω2 ∈ Ω2 . Klarerweise gilt fω1 : Ω2 → Ω bzw. fω2 : Ω1 → Ω . Die Schnitte sind operationstreu. Lemma 10.7. Für C , Cn , n ∈ N aus Ω1 × Ω2 und A ⊆ Ω1 , B ⊆ Ω2 gilt 1. 1Cωi = (1C )ωi , c 2. (Cωi ) = (C c )ωi ,
Cn = (Cn )ωi ∧ Cn 3. n
ωi
4. (A × B)ω1 =
n
n
= ωi
n
B , ω1 ∈ A ∧ (A × B)ω2 = /A ∅ , ω1 ∈
(Cn )ωi ,
A, ∅,
ω2 ∈ B / B. ω2 ∈
Beweis. Definiert man Sω1 : Ω2 → Ω1 ×Ω2 , ω1 ∈ Ω1 durch Sω1 (ω2 ) := (ω1 , ω2 ) und Sω2 : Ω1 → Ω1 × Ω2 , ω2 ∈ Ω2 durch Sω2 (ω1 ) := (ω1 , ω2 ) , so gilt Sω−1 (C) = Cω1 , Sω−1 (C) = Cω2 ∀ C ⊆ Ω1 × Ω2 , und die Punkte 1. - 3. 1 2 folgen sofort aus Lemma 2.3. Dass für A × B Punkt 4. gilt, ist klar. Lemma 10.8. Sind (Ωi , Si ) zwei Messräume, so gilt für jedes C ∈ S1 ⊗ S2 Cω1 ∈ S2
∀ ω1 ∈ Ω1 ∧ Cω2 ∈ S1
∀ ω2 ∈ Ω2 .
10.1 Die Produktsigmaalgebra
161
Beweis. Aus Lemma 10.7 Punkt 4. folgt, dass für die Abbildungen Sωi aus dem (A1 × A2 ) ∈ Sj Beweis dieses Lemmas und jedes A1 × A2 , Ai ∈ Si gilt Sω−1 i mit j := (i mod 2)+1 . Wegen S1 ⊗ S2 = Aσ ({A1 × A2 : Ai ∈ Si }) folgt aus Satz 7.7 Sωi : (Ωj , Sj ) → (Ω1 × Ω2 , S1 ⊗ S2 ) , d.h. Sω−1 (C) = Cωi ∈ Sj . i Lemma 10.9. Für jedes f : (Ω1 × Ω2 , S1 ⊗ S2 ) → (Ω, S) gilt fω1 : (Ω2 , S2 ) → (Ω, S)
∀ ω1 ∈ Ω1 ∧ fω2 : (Ω1 , S1 ) → (Ω, S)
∀ ω 2 ∈ Ω2 .
Beweis. Da die Abbildungen Sωi aus dem Beweis von Lemma 10.7, wie oben gezeigt, mit j := (i mod 2)+1 Sj |S1 ⊗S2 -messbar sind und gilt fωi = f ◦Sωi folgt aus Lemma10.7 sofort fωi : (Ωj , Sj ) → (Ω, S) ∀ ωi ∈ Ωi . Definition 10.10. Ist (Ωi , Si ) , i ∈ I eine Familie von Messräume, so heißt Z ⊆ ΩI ein Zylinder, wenn es eine endliche Teilmenge J = ∅ von I und ein C ⊆ ΩJ gibt, sodass Z = pr−1 J (C) = C × ΩJ c . C ist die Basis des Zylinders. Man nennt Z einen Pfeiler und die Basis C ein Rechteck, wenn C = Aj . j∈J
Bemerkung 10.11. Nach Lemma 10.8 sind Rechtecke
Aj genau dann mess-
j∈J
bar, wenn die Aj messbar sind, und zusammen mit Folgerung 10.4 impliziert das Lemma, dass Zylinder gerade dann messbar sind, wenn ihre Basen messbar sind. Das System der messbaren −1Pfeiler mit 1-dimensionaler Basis bezeichnen wir mit PI,1 , d.h. PI,1 = pri (Si ) , das System der messbaren Pfeiler mit PI , i∈I und ZI := pr−1 J (SJ ) ist das System der messbaren Zylinder. J⊆I∧|J|<∞
Folgerung 10.12. Sind (Ωi , Si ), i ∈ I Messräume, so gilt mit den Bezeichnungen aus Bemerkung 10.11 SI = Aσ (PI,1 ) = Aσ (PI ) = Aσ (ZI ) . Beweis. Die
linke Gleichung SI= Aσ (PI,1 ) ist nur die Definition von SI , SI = Aσ pr−1 = Aσ (ZI ) folgt aus Satz 10.3, wenn man J (SJ ) J⊆I∧|J|<∞
K := {J : J ⊆ I ∧ |J| < ∞} setzt, und wegen PI,1 ⊆ PI ⊆ ZI gilt auch SI ⊆ Aσ (PI ) ⊆ Aσ (ZI ) = SI . Bemerkung 10.13. Wegen prI,J = prK,J ◦ prI,K für ∅ = J ⊆ K ⊆ I gilt "
#
⎛
−1 −1 −1 ⎝ C× pr−1 I,J (C) = prI,K prK,J (C) = prI,K
⎞ Ωk ⎠ ∀ C ⊆ ΩJ . (10.2)
k∈K\J
Zylinder Ci , i = 1, . . . , n mit Basen in ΩJi , |Ji | < ∞ sind daher auch Zylinder n mit Basen in ΩJ für J := Ji , |J| < ∞ . Man kann daher annehmen, dass i=1
endlich viele Zylinder ihre Basen immer in einem gemeinsamen Raum ΩJ haben.
162
10 Produkträume
Lemma 10.14. Sind (Ωi , Si ) , i ∈ I Messräume, so bilden die messbaren Pfeiler eine Semialgebra und die messbaren Zylinder eine Algebra auf ΩI . Beweis. Klarerweise gilt ∅ , ΩI ∈ PI ⊆ ZI . Sind A und B zwei messbare Pfeiler, so gibt es nach Bemerkung 10.13 ein J ⊆ I mit |J| < ∞ und zwei messbare Rechtecke AJ und BJ , sodass −1 A = pr−1 J (AJ ) bzw. B = prJ (BJ ) . Da die Sj als σ-Algebren auch Semialgebren sind, bilden die messbare Rechtecke auf ΩJ nach Folgerung 2.38 eine Semialgebra HJ , und wegen Lemma 2.3 ist auch pr−1 J (HJ ) eine Semialgebra. Somit ist A ∩ B ein messbarer Pfeiler und zu A ⊆ B gibt es C1 , . . . , Ck g k aus pr−1 Ch ∧ A ∪ Ch ∈ pr−1 J (HJ ) sodass B \ A = J (HJ ) ∀ 1 ≤ g ≤ k . h=1
h=1
Folglich ist PI eine Semialgebra. Ebeso gibt es zu A, B ∈ ZI ein endliches J und Basen AJ , BJ aus SJ . c Wegen AcJ ∈ SJ bzw. AJ ∪ BJ ∈ SJ folgt daraus Ac = pr−1 J (AJ ) ∈ ZI bzw. −1 A ∪ B = prJ (AJ ∪ BJ ) ∈ ZI . Somit ist ZI eine Algebra. Satz 10.15. Ist (Ωi , Si ), i ∈ I eine Familie von Messräumen, so gilt pr−1 SI = ZI,ℵ0 := J (SJ ) .
(10.3)
J⊆I∧|J|≤ℵ0
Beweis. ∅ , ΩI ∈ ZI ⊆ ZI,ℵ0 , und aus A = pr−1 J (AJ ) , AJ ∈ SJ , |J| ≤ ℵ0 c folgt Ac = pr−1 (A ) ∈ Z . Ist (A ) eine Folge aus ZI,ℵ0 mit Basen I,ℵ n 0 J J An,Jn ∈SJn , |Jn | ≤ ℵ0 , so sind auch die An,J :=pr−1 J,Jn (An,Jn ) ∈ SJ mit Jn Basen der An . Aus |J| ≤ ℵ0 und An,J ∈ SJ folgt aber J := n∈N n∈N −1 An = prJ An,J ∈ ZI,ℵ0 . Somit ist ZI,ℵ0 eine σ-Algebra, und dan∈N
n∈N
her gilt ZI,ℵ0 = Aσ (ZI,ℵ0 ) . Aber aus Satz 10.3 mit K := {J : J ⊆ I , |J| ≤ ℵ0 } folgt SI = Aσ pr−1 = Aσ (ZI,ℵ0 ) . J (SJ ) J⊆I∧|J|≤ℵ0
Bemerkung 10.16. Aus dem obigen Satz folgt, dass Mengen aus der Produktsigmaalgebra durch höchstens abzählbar viele Koordinaten bestimmt werden. Daher sind etwa einpunktige Mengen nicht messbar, wenn I überabzählbar ist. Ein anderes Beispiel einer nicht messbaren Menge sind die stetigen Funktionen aus RR , denn wäre die Menge der stetigen Funktionen messbar, so müsste es eine abzählbare Menge J ⊂ R geben, sodass an Hand der Funktionswerte f (j) , j ∈ J entschieden werden könnte, ob die Funktion f stetig ist oder nicht; Änderungen in den Werten f (i) , i ∈ R \ J dürften darauf keinen Einfluss haben. Aber jede stetige Funktion kann durch Änderung eines einzigen Funktionswertes unstetig gemacht werden. Wir werden uns jedoch in diesem Buch nicht weiter mit der Problematik überabzählbar dimensionaler Produkträume befassen.
10.2 Der Satz von Fubini
163
10.2 Der Satz von Fubini Wir wollen uns in diesem Abschnitt mit Maßen auf Produkträumen beschäftigen und beginnen mit einem Beispiel. Beispiel 10.17. Ein brauchbares Modell für die Verteilung der Wartezeit T1 bis zum ersten Unfall an einer bestimmten Straßenstelle ist die Exponentialverteilung Exτ mit einem bestimmten Parameter τ > 0 , der üblicherweise aus empirischen Daten geschätzt wird. Man betrachtet also den Wahrscheinlichkeitsraum (R, B, P T1−1 ) , mit P T1−1 ∼ Exτ , d.h. FT1 (x) = (1 − e−τ x ) 1[0,∞) (x) ist die zu P T1−1 gehörige Verteilungsfunktion. Weiß man nun, dass der erste Unfall gerade zum Zeitpunkt T1 = s passiert ist, so kann T2 die Wartezeit ab Beginn der Beobachtungsperiode bis zum zweiten Unfall nur Werte größer als s annehmen. Falls an der betreffenden Straßenstelle keine Änderungen durchgeführt werden, wird sich T2 − s so verhalten, wie T1 und man wird daher die zu T1 = s gehörige Verteilung P T2−1 ( . |s) beschreiben durch die Verteilungsfunktion FT2 |s (t) := 1 − e−τ (t−s) , t > s (P T2−1 ( . |s) ist die bedingte Verteilung von T2 , ohne an dieser Stelle eine exakte Definition dieses Begriffs zu geben). Um aber Aussagen über die Wahrscheinlichkeit von Ereignissen, die sowohl von T1 als auch von T2 abhängen, machen zu können, benötigt man ein Wahrscheinlichkeitsmaß auf dem durch T1 und T2 bestimmten Produktraum. Im obigen Beispiel hat man einen Maßraum (Ω1 , S1 , μ1 ) und einen Messraum (Ω2 , S2 ) , auf dem für jedes ω1 ∈ Ω1 ein anderes Maßμ2 (ω1 , . ) definiert wird. Intuitiv ist es naheliegend in Verallgemeinerung des Satzes von der vollständigen Wahrscheinlichkeit der Menge A × B , A ∈ S1 , B ∈ S2 das Maß . μ(A × B) = A μ2 (ω1 , B) dμ1 (ω1 ) zuzuordnen. Wir wollen diesen Ansatz nun formalisieren. Definition 10.18. Eine Familie von Maßen μi , i ∈ I auf einem Messraum (Ω, S) heißt gleichmäßig σ-endlich, wenn es eine messbare Zerlegung En , n ∈ N von Ω gibt, sodass sup μi (En ) < ∞ ∀ n ∈ N . i∈I
Satz 10.19. Ist (Ω1 , S1 , μ1 ) ein σ-endlicher Maßraum, (Ω2 , S2 ) ein Messraum, auf dem es eine gleichmäßig σ-endliche Familie {μ2 (ω1 , .) : ω1 ∈ Ω1 } von Maßen (die man als die durch die ω1 bedingten Maße interpretieren kann) gibt, für die gilt μ2 ( . , B) : (Ω1 , S1 ) → (R, B) ∀ B ∈ S2 , dann wird durch 7 μ(C) := μ2 (ω1 , Cω1 ) dμ1 (ω1 ) (10.4) auf S1 ⊗ S2 ein σ-endliches Maß μ definiert, das folgende Bedingung erfüllt 7 (10.5) μ(A1 × A2 ) = μ2 (ω1 , A2 ) dμ1 (ω1 ) ∀ A1 × A2 , Ai ∈ Si . A1
μ ist durch (10.5) auf S1 ⊗ S2 eindeutig bestimmt.
164
10 Produkträume
Beweis. Wir nehmen zunächst an, dass sup μ2 (ω1 , Ω2 ) < ∞ . ω1 ∈Ω1
Ist C := {C ∈ S1 ⊗ S2 : fC (ω1 ) := μ2 (ω1 , Cω1 ) ist S1 |B − messbar} , so gilt für C = A1 × A2 , Ai ∈ Si wegen Lemma 10.7 Punkt 4. fA1 ×A2 (ω1 ) = μ2 (ω1 , (A1 × A2 )ω1 ) = μ2 (ω1 , A2 ) 1A1 (ω1 ) .
(10.6)
fA1 ×A2 ist also S1 |B-messbar und daher gilt {A1 × A2 : Ai ∈ Si } ⊆ C . n Ci in C enthalten, Sind C1 , . . . , Cn disjunkte Mengen aus C , so ist auch i=1
denn aus Lemma 10.7 Punkt 3. folgt ⎛ ⎞
n n n ! ⎠ = μ2 ω1 , (Ci )ω1 = μ2 ⎝ω1 , Ci μ2 (ω1 , (Ci )ω1 ) . i=1
i=1
ω1
i=1
Da die von der Semialgebra der messbaren Rechtecke erzeugte Algebra A gemäß Satz 2.60 aus den endlichen Vereinigungen disjunkter Mengen der Semialgebra besteht, enthält C demnach auchdiese Algebra. Ist (Cn ) eine Folge aus C mit Cn C := Cn , so gilt (Cn )ω1 Cω1 und n
aus Satz 3.20 folgt lim μ2 (ω1 , (Cn )ω1 ) = μ2 (ω1 , Cω1 ) n
∀ ω1 ∈ Ω1 . Daher ist
fC als Grenzwert messbarer Funktionen messbar, also C ∈ C . Cn fallende Folge aus C , so gilt Ist (Cn ) eine monoton gegen C := n
(Cn )ω1 Cω1 , und wegen ∞ > sup μ2 (ω1 , Ω2 ) ≥ μ2 (ω1 , (Cn )ω1 ) ∀ n ∈ N ω1 ∈Ω1
ergibt sich aus Satz 3.21 lim μ2 (ω1 , (Cn )ω1 ) = μ2 (ω1 , Cω1 ) . Demnach ist auch n
in diesem Fall fC ein Limes messbarer Funktionen und somit C ∈ C . C ist also ein monotones System und enthält deshalb das von A erzeugte monotone System, das aber nach Satz 2.73 mit der von A erzeugten σ-Algebra S1 ⊗ S2 übereinstimmt. Daher gilt C = S1 ⊗ S2 , d.h. fC ∈ M+ (Ω1 , S1 ). ∀ C ∈ S1 ⊗ S2 . Somit existiert für alle C ∈ S1 ⊗ S2 das . Integral μ(C) := f.C (ω1 ) dμ1 (ω1 ) = μ2 (ω1 , Cω1 ) dμ1 (ω1 ) , und aus (10.6) folgt μ(A1 × A2 ) = A1 μ2 (ω1 , A2 ) dμ1 (ω1 ) ∀ A1 × A2 , Ai ∈ Si . Natürlich gilt μ(∅) = 0 und μ(C) ≥ 0 ∀ C ∈ C , und für jede disjunkte Folge (Cn ) aus S1 ⊗ S2 erhält man mit Hilfe der Sätze 3.20 (Stetigkeit von unten) und 9.20 (Konvergenz durch Monotonie)
10.2 Der Satz von Fubini
μ
∞
n=1
lim μ2
=
N
= lim
μ2
7 ! N
N
∞ 7 !
ω1 ,
∞
ω1 ,
N
dμ1 (ω1 )
(Cn )ω1
(Cn )ω1
165
n=1
7
=
7 =
Cn
7 dμ1 (ω1 ) =
n=1
μ2 (ω1 , (Cn )ω1 ) dμ1 (ω1 ) = lim N
n=1
μ2 (ω1 , (Cn )ω1 ) dμ1 (ω1 ) =
n=1
∞ !
lim N
N !
μ2 (ω1 , (Cn )ω1 ) dμ1 (ω1 )
n=1
N 7 !
μ2 (ω1 , (Cn )ω1 ) dμ1 (ω1 )
n=1
μ(Cn ) .
n=1
Damit ist μ auch σ-additiv und daher ein Maß. Ist die Familie der Maße μ2 (ω1 , .) gleichmäßig σ-endlich, sodass für eine Folge disjunkter Mengen Fn ∈ S2 gilt sn := sup μ2 (ω1 , Fn ) < ∞ ∀ n ∈ N , ω1 ∈Ω1
so definiert man Maße μ(n) , wie oben dargestellt, auf den einzelnen Teilräuμ(n) . men (Ω1 × Fn , S1 ⊗ (S2 ∩ Fn ) ) und bildet damit μ := n∈N
Da μ1 voraussetzungsgemäß σ-endlich ist, gibt es eine messbare Zerlegung {En : n ∈ N} von Ω1 mit μ1 (En ) < ∞ ∀ n ∈ N , und die En × Fm n, m ∈ N bilden eine messbare Zerlegung von Ω1 × Ω2 , für die gilt 7 μ(En × Fm ) = μ2 (ω1 , Fm ) dμ1 (ω1 ) ≤ sm μ1 (En ) < ∞ ∀ n, m ∈ N . En
μ ist also auf der von den messbaren Rechtecken erzeugten Algebra σ-endlich, und damit nach dem Eindeutigkeitssatz 4.13 auf S1 ⊗S2 eindeutig bestimmt. Beispiel 10.20 (Fortsetzung Beispiel 10.17). In Beispiel . 10.17 ist μ1 auf dem Raum (Ω1 , S1 ) = (R, B) gegeben durch μ1 (B) = B τ e−τ s 1[0,∞) (s) dλ(s) ∀ B ∈ B . Definiert man μ2 (s, .) durch . auf (Ω2 , S2 ) = (R, B) die Familie von Maßen −τ (t−s) (t) τ e ,so gilt für μ2 (s, B) := B fs (t) dλ(t) , B ∈ B , mit fs (t) := 1[s,∞) . die zugehörigen Verteilungsfunktionen Fs (y) = [0,y] fs (t) dλ(t) klarerweise Fs (y) = 0 , wenn y ≤ s . Für y ≥ s erhält man hingegen 7y
7 Fs (y) =
fs (t) dλ(t) = [0,y]
τ e−τ (t−s) dt = 1 − e−τ (y−s) .
s
Die Verteilungsfunktionen Fs entsprechen somit den FT2 |s aus Beispiel 10.17 und natürlich gilt μ2 (s, R) = Fs (∞) = 1 ∀ s ≥ 0 , d.h. die μ2 (s, .) sind Wahrscheinlichkeitsmaße und damit gleichmäßig σ-endlich. sn → s0 impliziert lim fsn = fs0 λ-fü, und es gilt für jedes ε > 0 und für alle n
sn mit |sn − s0 | < ε fsn 1B ≤ 1[s0 −ε,s0 +ε] + fs0 +ε ∈ L1 (R, B, λ)
∀ B ∈ B.
166
10 Produkträume
Daraus folgt dann nach dem Satz über die Konvergenz durch Majorisierung lim μ2 (sn , B) = μ2 (s0 , B) ∀ B ∈ B . Die μ2 (., B) sind somit als Funktionen sn →s0
von s stetig und deshalb messbar. Auf (Ω1 ×Ω2 , S1 ⊗S2 ) = (R2 , B2 ) gibt es daher nach Satz 10.19 ein Maß μ , definiert durch 7 7 7 μ(C) = μ2 (s, Cs ) dμ1 (s) = 1[s,∞) (t) τ e−τ (t−s) dλ(t) τ e−τ s dλ(s) R+
7 7
= R+
R+
Cs
1[s,∞) (t) τ 2 e−τ t dλ(t) dλ(s) .
(10.7)
Cs
Für C = [0, x] × [0, y] ergibt das
Abb. 10.1. Die Menge C
7 μ([0, x] × [0, y]) = [0,x∧y] x∧y 7
⎡ ⎢ ⎣
7
[s,y]
⎤
⎤ ⎡ x∧y 7y 7 ⎥ ⎣ τ 2 e−τ t dt ⎦ ds τ 2 e−τ t dλ(t) ⎦ dλ(s) = 0
s
$
=
% τ e−τ s − τ e−τ y ds = 1 − e−τ (x∧y) − τ (x ∧ y) e−τ y .
0
Somit induzieren die beiden Zufallsvariablen T1 und T2 aus Beispiel 10.17 auf μ = P (T1 , T2%)−1 mit der Verteilungs(R2 , B2 ) ein Wahrscheinlichkeitsmaß $ −τ (x∧y) funktion Fμ (x, y) := 1 − e − τ (x ∧ y) e−τ y 1[0,∞)2 (x, y) . In Abschnitt 9.5 haben wir mehrdimensionale Integrale mit Hilfe eines Umwegs über Riemann-Integrale auf iterierte einfache Riemann-Integrale zurückgeführt, wobei wir die Berechnung mehrfacher Riemann-Integrale durch
10.2 Der Satz von Fubini
167
iterierte Integrale stillschweigend als bekannt vorausgesetzt haben. Danach wurden die eindimensionalen Riemann-Integrale wieder durch LebesgueIntegrale ersetzt. Diese Vorgangsweise ist natürlich unbefriedigend, und auch nur unter sehr einschränkenden Voraussetzungen möglich. Deshalb sollen in diesem Kapitel Integrale auf Produkträumen in systematischer Weise behandelt werden. Von entscheidender Bedeutung ist dabei der Satz von Fubini. Satz 10.21 (Verallgemeinerter Satz von Fubini). Ist (Ω1 , S1 , μ1 ) ein σendlicher Maßraum, (Ω2 , S2 ) ein Messraum mit einer gleichmäßig σ-endlichen Familie von Maßen μ2 (ω1 , . ) , ω1 ∈ Ω1 , die als Funktionen von ω1 für jedes B ∈ S2 messbar sind, d.h. μ.2 ( . , B) : (Ω1 , S1 ) → (R, B) , und ist μ auf S1 ⊗ S2 gegeben durch μ(C) := μ2 (ω1 , Cω1 ) dμ1 (ω1 ) , C ∈ S1 ⊗ S2 , so gilt . 1. für f ∈ M+ (Ω1×Ω2 , S1⊗S2 ) ist I2 f (ω1 ) := Ω2 f (ω1 , ω2 ) μ2 (ω1 , dω2 ) eine Funktion aus M+ (Ω1 , S1 ) und erfüllt die Gleichung ⎤ ⎡ 7 7 7 7 f dμ = I2 f (ω1 ) μ1 (dω1 ) = ⎣ f (ω1 , ω2 ) μ2 (ω1 , dω2 )⎦ μ1 (dω1 ) , Ω1
Ω1
Ω2
(10.8) . 2. existiert das Integral f dμ für f ∈ M(Ω1 ×Ω2 , S1 ⊗S2 ) , so ist I2 f eine μ1 –fü definierte Funktion aus Mμ1 (Ω1 , S1 ) , und es gilt Gleichung (10.8), 3. eine Funktion f ∈ M(Ω1×Ω2 , S1⊗S2 ) ist genau dann μ-integrierbar, wenn I2 |f | ∈ L1 (Ω1 , S1 , μ1 ) , wobei f auch in diesem Fall (10.8) erfüllt. Beweis. ad 1: Für Indikatoren f := 1C , C ∈ S1 ⊗ S2 stimmt (10.8) mit der in Satz 10.19 bewiesenen Gleichung (10.4) überein, und wegen der Linearität des Integrals gilt Aussage 1. damit auch für f ∈ T + (Ω1 ×Ω2 , S1 ⊗S2 ) , Zu f ∈ M+ (Ω1 × Ω2 , S1 ⊗ S2 ) gibt es nach Satz 7.30 eine Folge tn aus T + (Ω1 ×Ω2 , S1 ⊗S2 ) mit tn f , und aus Satz 9.20 (B. Levi) folgt 7 I2 f (ω1 ) = f (ω1 , ω2 ) μ2 (ω1 , dω2 ) Ω2
7
= lim
tn (ω1 , ω2 ) μ2 (ω1 , dω2 ) = lim I2 tn (ω1 ) .
n
n
Ω2
I2 f ist als Grenzfunktion S1 |B-messbarer Funktionen S1 |B-messbar. Zudem gilt I2 tn ≥ 0 mit I2 tn I2 f , sodass wieder aus Satz 9.20 folgt 7 7 7 7 f dμ = lim tn dμ = lim I2 tn (ω1 ) μ1 (dω1 ) = lim I2 tn (ω1 ) μ1 (dω1 ) n
n
n
Ω1
7 =
7 I2 f (ω1 ) μ1 (dω1 ) =
Ω1
Ω1
⎡ ⎣
Ω1
7 Ω2
⎤
f (ω1 , ω2 ) μ2 (ω1 , dω2 )⎦ μ1 (dω1 ) .
168
10 Produkträume
. . + . − ad 2: Existiert . . Nimmt man . − f dμ , so gilt f dμ < ∞ ∨. f− dμ < ∞ o.E.d.A f dμ < ∞ an, so folgt daraus I2 f dμ1 = f − dμ < ∞ . Daher gilt I2 f − < ∞ μ1 –fü , weshalb I2 f = I2 f + − I2 f − μ1 –fü existiert, und aus der bereits bewiesenen Aussage 1. des Satzes folgt 7 7 7 7 7 7 f dμ = f + dμ − f − dμ = I2 f + dμ1 − I2 f − dμ1 = I2 f dμ1 . ad 3: Die eine Richtung folgt unmittelbar aus Punkt 1. angewandt auf |f | . Gilt umgekehrt I2 |f | ∈ L1 (Ω1 , S1 , μ1 ) , so folgt aus f + ≤ |f | , f − ≤ |f | zunächst I2 (f.+ ) , I2 (f − ) ≤. I2 |f | und daraus . dann in einem weiteren + − (f ) dμ , I (f ) dμ } ≤ I2 |f | dμ1 < ∞ . Wegen Schritt max{ I 2 1 . 2 . + . .1 f dμ = I2 f + dμ1 und f − dμ = I2 f − dμ1 ist auch (10.8) erfüllt. Bemerkung 10.22. Für die Verallgemeinerung der Sätze 10.19 und 10.21 auf das Produkt endlich vieler Räume werden, zusätzlich zu den in Abschnitt 6.6 und in diesem Kapitel eingeführten Abkürzungen folgende Bezeichnungen verwendet: n n n Ωm := Ωi ,Snm := Si , Nm,n := {m, . . . , n} und Nn := N1,n , m ≤ n , i=m
ω J := (ωj1 , . . . , ωjm )
i=m
für J := {j1 , . . . , jm } .
Satz 10.23. Ist (Ω1 , S1 , μ1 ) ein σ-endlicher Maßraum, sind (Ωi , Si ) , i ∈ N2,n Messräume, auf denen es jeweils eine gleichmäßig σ-endliche Familie von Maßen i−1 ∈ Ω1i−1 gibt mit μi ( . , A) : (Ω1i−1 , Si−1 μi (ω i−1 1 , . ) , ω1 1 ) → (R, B) für alle A ∈ Si , dann gibt es auf (Ω1m , Sm ) , m ≤ n eindeutig bestimmte σ-endliche 1 m Di , Di ∈ Si ∀ i ∈ Nm gilt Maße μm 1 , sodass für die Rechtecke D := i=1
7 7
m−1 m μm (D) = · · · 1 (ω ) μ (ω , dω ) · · · μ (ω , dω ) μ1 (dω1 ) D m m 2 1 2 1 1 1 ⎡ ⎡ ⎤ ⎤ 7 7 7 = ⎣ ···⎣ μm (ω m−1 , dωm )⎦ · · · μ2 (ω1 , dω2 )⎦ μ1 (dω1 ) , (10.9) 1 D1
D2
7
Dm
und für die die unten angeführten Aussagen gelten: Inm f : -Ω1m−1 1. ist f ∈ M+ (Ω1n , Sn1 ) , .so3 sind 3. die Funktionen - → R , definiert m−1 n−1 m n · · · f (ω 1 ) μn (ω 1 , dωn ) · · · μm (ω m−1 , dωm ) durch In f (ω 1 ) := 1 nichtnegativ, Sm−1 |B-messbar, und sie erfüllen die Gleichungen 1 7 7 7 7 7 f dμn1 = In2 f dμ1 = In3 f (ω 21 ) μ2 (ω1 , dω2 ) μ1 (dω1 ) = In3 f dμ21 ... 7 7 7 m−1 m−2 m = · · · In f (ω 1 )μm−1 (ω 1 , dωm−1 ) · · · μ1 (dω1 ) = Inm f dμm−1 1 7 7 7 ··· = · · · f (ω n1 ) μn (ω n−1 , dωn ) · · · μ2 (ω1 , dω2 ) μ1 (dω1 ) , (10.10) 1
10.2 Der Satz von Fubini
169
insbesondere gilt für messbare Indikatoren f := 1C , C ∈ Sn1 7 7 7 n−1 n n μ1 (C) = ··· 1C (ω 1 ) μn (ω 1 , dωn ) · · · μ2 (ω1 , dω2 ) μ1 (dω1 ) , (10.11) . 2. existiert das Integral f dμn1 von f ∈ M(Ω1n , Sn1 ) , so sind die Funktionen -fü definiert, μm−1 -fü messbar, und es gilt Gleichung (10.10) . Inm f μm−1 1 1 3. ist f eine Funktion in M(Ω1n , Sn1 ) , so folgt aus f ∈ L(Ω1n , Sn1 , μn1 ) einer, μm−1 ) ∀ m ∈ N2 , n , und andererseits ist seits Inm |f | ∈ L(Ω1m−1 , Sm−1 1 1 n f μ1 -integrierbar, wenn ∃ m ∈ N2,n : Inm |f | ∈ L(Ω1m−1 , Sm−1 , μm−1 ), 1 1 wobei auch in diesem Fall Gleichung (10.10) erfüllt ist. Beweis. Für n = 2 ist der Satz lediglich eine Kombination der Sätze 10.19 und 10.21 und damit bewiesen. Ist n > 2 und nimmt man an, dass der Satz für n − 1 gilt, so gibt es laut auf (Ω1n−1 , Sn−1 ) , sodass für Induktionsannahme ein σ-endliches Maß μn−1 1 1 n−1 n−1 + f˜ ∈ M (Ω1 , S1 ) und 2 ≤ m ≤ n − 1 gilt 7 7 m ˜ f dμm−1 f˜ dμn−1 = In−1 1 1 7 7 n−1 n−2 ˜ = ··· f (ω 1 ) μn−1 (ω 1 , dωn−1 ) · · · μ1 (dω1 ) . (10.12) , μn−1 ) Gemäß den Sätzen 10.19 und 10.21, angewendet auf (Ω1n−1 , Sn−1 1 1 n−1 und (Ωn , Sn ) mit der Familie von Maßen μn (ω 1 , . ) existiert dann ein n σ-endliches Maß μn1 auf (Ω1n−1 × Ωn , Sn−1 , Sn1 ) , sodass für 1 .⊗ Sn )n = (Ω1n−1 n−1 + n n n , dωn ) nichtnejedes f ∈ M (Ω1 , S1 ) auch In f (ω 1 .) := f (ω 1 . 1 )nμn (ωn−1 n gativ und Sn−1 |B-messbar ist und gilt f dμ = I f (ω ) dμn−1 (ω n−1 ). n 1 1 1 1 1 Die rechte Seite dieser Gleichung gemäß (10.12) umgeformt ergibt dann 7 7 7 7 n−1 m−1 n n m n = Inm f dμm−1 f dμ1 = In f dμ1 = In−1 (In f ) dμ1 1 7 7 = ··· Inn f (ω n−1 ) μn−1 (ω n−2 , dωn−1 ) · · · μ1 (dω1 ) 1 1 7 7 = ··· f (ω n1 ) μn (ω n−1 , dωn ) · · · μ1 (dω1 ) . 1 Damit ist die Gültigkeit sowohl von Gleichung (10.10) als auch von Aussage 1. des Satzes für n gezeigt, denn (10.9) und (10.11) sind nur Sonderfälle m Di für jedes m ≤ n von (10.10) und, da die messbaren Rechtecke D := i=1
m eine Semialgebra bilden, die Sm 1 erzeugt, ist klar, dass die Maße μ1 jeweils durch(10.9) eindeutig festgelegt sind. . + n . n Sn1 ) gilt wegen (10.10) f dμ1 = . Inm f + dμm−1 Für 1 . f− ∈ n M(Ω.1 , m . und f dμ1 = In f − dμm−1 . Existiert f dμn1 , so gilt f + dμn1 < ∞ 1
170
10 Produkträume
. . oder. f − dμn1 < ∞ . .Nimmt man o.E.d.A f − dμn1 < ∞ an, so folgt dar= f − dμn1 < ∞ , und dies impliziert Inm f < ∞ μm−1 –fü , aus Inm f − dμm−1 1 1 m m + weshalb In f = In f − Inm f − μm−1 –fü definiert ist. Daraus folgt sofort, 1 dass Inm f μm−1 –fü messbar ist und, dass Gleichnung (10.10) für f gilt. Da1 mit ist auch Aussage 2. bewiesen. f ist genau dann μn1 -integrierbar, wenn |f | μn1 -integrierbar ist, sodass , μm−1 ). nach Punkt 1. aus f ∈ L1 (Ω1n , Sn1 , μn1 ) folgt Inm |f | ∈ L1 (Ω1m−1 , Sm−1 1 1 + − Die Umkehrung ergibt sich, wie in Satz 10.21, aus f , f ≤ |f | . Satz 10.24 (Satz von Fubini für endlich-dimensionale Produkträume). Sind (Ωi , Si , μi ), i = 1, . . . , n σ-endliche Maßräume, so gibt es auf jedem , SJ ) , ∅ = J := {j1 , . . . , jm Produktraum (ΩJ } ⊆ Nn ein eindeutig bestimmtes σ-endliches Maß μj , das auf den Mengen Aj , Aj ∈ Sj gegeben ist durch j∈J
⎛ μj ⎝
j∈J
j∈J
⎞ Aj ⎠ =
j∈J
μj (Aj )
∀ Aj ∈ Sj , j ∈ J ,
(10.13)
j∈J
und es gelten die folgenden Aussagen n jede Teilmenge ∅ = 1. für f ∈ M+ (Ω1n , S : 1 ) :und ; J := ; {j1 , . . . , jm } ⊂ Nn ist . . IJ f (ω J c ) := Ωj · · · Ωj f (ω) dμjm (ωjm ) · · · dμj1 (ωj1 ) eine Funkti1
m
on in M+ (ΩJ c , SJ c ) , und für jede Permutation π1 , . . . , πn von 1, . . . , n gilt 7 7 n n f (ω 1 ) d μi (ω 1 ) = IJ f (ω J c ) d μi (ω J c ) Ω1n
7 = Ω1
7 = Ωπ1
⎡
i∈Nn
⎡
⎣· · · ⎣ ⎡
7
ΩJ c
⎢ ⎢ ⎣· · · ⎣
i∈J c
⎤
f (ω1 , . . . , ωn ) dμn (ωn )⎦ · · · ⎦ dμ1 (ω1 )
Ωn
⎡
⎤
7
⎤
⎤
⎥ ⎥ f (ω1 , . . . , ωn ) dμπn (ωπn )⎦ · · · ⎦ dμπ1 (ωπ1 ) , (10.14)
Ωπn
. μi von f ∈ M (Ω1n , Sn1 ) , so ist IJ f eine 2. existiert das Integral f d i∈N n Funktion aus M ΩJ c , SJ c , μi , und es gilt Gleichung (10.14), i∈J c μi -Integrierbarkeit von f einer3. ist f ∈ M (Ω1n , Sn1 ) , so folgt aus der i∈Nn seits IJ |f | ∈ L1 ΩJ c , SJ c , μi ∀ ∅ = J , und andererseits ist f
i∈J c n n μi , wenn IJ |f | ∈ L1 ΩJ c , SJ c , μi für ein aus L1 Ω1 , S1 , i∈Nn
J = ∅ gilt, wobei wieder Gleichung (10.14) erfüllt ist.
i∈J c
10.2 Der Satz von Fubini
171
Beweis. Ist π := π1 , . . . , πn eine Permutation von 1, . . . , n und sind Ai ⊆ Ωi , Aπi nur eine andere Bezeichnung für Ai , denn klarerweise so ist πi ∈Nn i∈Nn gilt ωπi ∈ Aπi ∀ i ∈ Nn ⇔ ωi ∈ Ai ∀ i ∈ Nn . Somit gilt Ωπi = Ωi . π i∈Nn i ∈Nn Sπi = Si . Aus Definition 10.1 ist sofort ersichtlich, dass auch gilt πi ∈Nn
i∈Nn
Die Räume (Ωπi , Sπi , μπi ) , i = 1, . . . , n , erfüllen die Voraussetzungen von Satz 10.23, denn für alle A ∈ Si sind die μi (ω i−1 1 , A) := μi (A) als Funktionen von ω i−1 konstant und daher messbar, und zu jedem i besteht die Familie 1 i−1 i−1 {μ(ω i−1 , . ) : ω ∈ Ω } aus einem einzigen σ-endlichen Maß μi und 1 1 1 ist deshalb gleichmäßig σ-endlich. Daher existiert ein bestimmtes,
eindeutig
μπi auf Ωπ i , Sπi = Ωi , Si , σ-endliches Maß πi ∈Nn πi ∈Nn πi ∈Nn i∈Nn i∈Nn n n n n μπ i Aπi = μπi (Aπi ) = μi (Ai ) = μi Ai . sodass i=1 i=1 i=1 πi ∈Nn i∈Nn i=1 μπ i = μi . Daraus folgt für alle messbaren Rechtecke gilt, d.h. πi ∈Nn i∈Nn . . fd μπ i = f d μi ∀ f ∈ M+ Ωi Si , d.h. die linke πi ∈Nn
i∈Nn
i∈Nn
i∈Nn
Seite von (10.10) bleibt für jede Permutation π := π1 , . . . , πn gleich, während sich auf der rechten Seite die Integrationsreihenfolge ändert. Damit ist der Satz bewiesen, denn seine restlichen Aussagen sind nur Sonderfälle der entsprechenden Punkte von Satz 10.23. Auf Grund seiner historischen Bedeutung wollen wir den Satz von Fubini noch in seiner klassischen Form für 2-dimensionale Räume formulieren. Satz 10.25 (Satz von Fubini). Sind (Ωi , Si , μi ), i = 1, 2 zwei σ-endliche Maßräume, so existiert auf dem Produktraum (Ω1 × Ω2 , S1 ⊗ S2 ) ein durch μ1 ⊗ μ2 (A1 × A2 ) = μ1 (A1 ) μ2 (A2 )
∀ A1 ∈ S1 , A2 ∈ S2 ,
(10.15)
eindeutig bestimmtes σ-endliches Maß μ1 ⊗ μ2 , und es gelten folgende Aussagen . 1. für f ∈ M+ (Ω1 × Ω2 , S1 ⊗ S2 ) ist I2 f (ω1 ) := Ω2 f (ω1 , ω2 ) dμ2 (ω2 ) ei. ne Funktion aus M+ (Ω1 , S1 ) , I1 f (ω2 ) := Ω1 f (ω1 , ω2 ) dμ1 (ω1 ) ist aus M+ (Ω2 , S2 ) , und zwischen den Integralen besteht die Beziehung 7 7 f dμ1 ⊗ μ2 = f (ω1 , ω2 ) dμ1 ⊗μ2 (ω1 , ω2 ) Ω1 ×Ω2
7
7 I2 f dμ1 =
=
Ω1
7
7 =
I1 f dμ2 = Ω2
⎡ ⎣ ⎡ ⎣
7 Ω2
7 Ω1
⎤ f (ω1 , ω2 ) dμ2 (ω2 )⎦ dμ1 (ω1 ) ⎤ f (ω1 , ω2 ) dμ1 (ω1 )⎦ dμ2 (ω2 ) ,
(10.16)
172
10 Produkträume
die speziell für messbare Indikatoren 1C , C ∈ S1 ⊗ S2 so aussieht 7 7 (10.17) μ1 ⊗ μ2 (C) = μ2 (Cω1 ) dμ1 (ω1 ) = μ1 (Cω2 ) dμ2 (ω2 ) , . 2. existiert das Integral f dμ1 ⊗μ2 von f ∈ M(Ω1 ×Ω2 , S1 ⊗S2 ) , so ist I2 f aus M(Ω1 , S1 , μ1 ) , I1 f aus M(Ω2 , S2 , μ2 ) , und (10.16) bleibt gültig, 3. f ∈ M(Ω1 × Ω2 , S1 ⊗ S2 ) ist genau dann , μ1 ⊗ μ2 -integrierbar, wenn I2 |f | ∈ L1 (Ω1 , S1 , μ1 ) oder I1 |f | ∈ L1 (Ω2 , S2 , μ2 ) , wobei (10.16) gilt. Beweis. Das ist einfach der Spezialfall von Satz 10.24 für n = 2 . Definition 10.26. Sind (Ωi , Si , μi ) , i = 1, . . . ,n σ-endlicheMaßräume, so n n n μi := μi , das auf Ωi , Si eindeutig benennt man das Maß i=1 i=1 i=1 i∈N n n n n μi Ai = μi (Ai ) ∀ Ai ∈ Si , i ∈ Nn das stimmt wird durch i=1
i=1
i=1
Produktmaß der μi . Ist n = 2 schreibt man dafür μ1 ⊗ μ2 . Die Maße μi , i ∈ Nn heißen Rand- oder Marginalmaße von
n
μi .
i=1
Bemerkung 10.27. Unter Verwendung der obigen Definition sind Zufallsvariable X1 , . . . , Xk nach Satz 8.11 genau dann unabhängig, wenn ihre gemeinsame Verteilung P (X1 , . . . , Xk )−1 das Produktmaß der Randverteilungen P Xi−1 ist. Beispiel 10.28. Wir betrachten die Räume (Ω1 , S1 , μ1 ) := ([0, c] , B ∩ [0, c], λ) und (Ω2 , S2 , μ2 ) := (R+ , B ∩ R+ , λ) . Das Produktmaß λ ⊗ λ ist dann −t x sin x auf [0, c] × R+ , gilt klarerweise λ2 . Für die Funktion f (x, t) := " e−t x #+ . +∞ e I2 f (x) = [0,∞) e−t x sin x dλ(t) = sin x − x + = sinx x . I2 f ist auf + 0 + ([0, c] , B ∩ [0, c], λ) integrierbar, denn es gilt + sinx x + ≤ 1 (siehe Beispiel 9.56). Daher kann man Satz 10.25 anwenden und erhält ⎤ ⎡ 7 7 7 7c sin x ⎣ e−t x sin x dx⎦ λ(dt) . dλ(x) = e−t x sin x λ2 (dx, dt) = x [0,c]×R+
[0,c]
R+
0
Das innere Integral auf der Seite der obigen Gleichung ist aber ele" −trechten # ∂ e x mentar lösbar, denn ∂x (−t sin x − cos x) = e−t x sin x . Daher gilt 1+t2 . c −t x 1 −t c e sin x dx = 1+t (t sin c + cos c )] , und daraus folgt 2 [1 − e 0 7 7 7 sin x 1 e−t c dλ(t) − (t sin c + cos c ) dλ(t) . dλ(x) = 2 x 1+t 1 + t2 [0,c]
R+
Das erste Integral rechts hat den Wert
R+ π 2
(siehe Beispiel 9.72),+ der Absolutbe+ + c+cos c + trag des zweiten Integrals auf der rechten Seite kann wegen + t sin1+t +≤2 2 . ∞ −t c 2 dt = c . Daher gilt von oben abgeschätzt werden durch 0 2 e
10.2 Der Satz von Fubini
7 lim
c→∞ [0,c]
sin x π dλ(x) = . x 2
173
(10.18)
Man beachte, dass dieser Grenzwert, den wir später im Zusammenhang mit Funktionen benötigen, nicht dem Lebesgue-Integral . charakteristischen sin x dλ(x) entspricht, das, wie in Beispiel 9.56 gezeigt, gar nicht existiert. + x R Bemerkung 10.29. Aus der Vollständigkeit der σ-Algebren Si , i = 1, 2 bezüglich der zugehörigen Marginalmaße μi folgt i.A. nicht die Vollständigkeit von S1 ⊗ S2 bezüglich des Produktmaßes μ1 ⊗ μ2 , wie das folgende Beispiel zeigt. Beispiel 10.30 (Gegenbeispiel zur Vollständigkeit des Produktmaßes). Auf (R2 , L2 , λ2 ) gilt λ2 (R × {0}) = 0 ⇒ A × {0} ∈ L2 ∀ A ⊆ R . Aus A × {0} ∈ L ⊗ L mit A ∈ / L müsste nach Lemma 10.8 im Widerspruch zur Annahme folgen (A × {0})0 = A ∈ L . Somit gilt L ⊗ L = L2 , L ⊗ L ⊂ L2 . Ist eines der Maße μi nicht σ-endlich, so gilt der Satz von Fubini i. A. nicht. Beispiel 10.31. (Ωi , Si ) := ([0, 1] , B ∩ [0, 1]) , i = 1, 2 , μ1 = λ , μ2 = |A| . Für f := 1D mit D := {(ω1 , ω2 ) : ω1 = ω2 } ∈ B2 ∩ [0, 1]2 gilt 7 7 7 7 7 7 1D dμ2 dλ = 1 dλ = 1 , 1D dλ dμ2 = 0 dμ2 = 0 . [0,1]
[0,1]
Der Satz gilt i. A. auch dann nicht, wenn die an f gestellten Bedingungen verletzt sind, wie das nächste auf Cauchy zurückgehende Beispiel zeigt. Beispiel 10.32. (Ωi , Si , μi ) := ([0, 1] , B ∩ [0, 1] , λ) , i = 1, 2 , 0, x = y = 0, f (x, y) := x2 −y 2 (x2 +y 2 )2 , sonst . Aus
.1
x2 −y 2 0 (x2 +y 2 )2
⎡
7
⎢ ⎣
[0,1]
dy =
7
y
x2 +y 2
+1 + + = 0
1 1+x2
und
d arctan x dx
⎤
x −y ⎥ λ(dy)⎦ λ(dx) = (x2 + y 2 )2 2
2
0
[0,1]
71 =
71
⎡ ⎣
= 71 0
+1 1 π + dx = arctan x + = . 1 + x2 4 0
0
Aus
.1
x2 −y 2 0 (x2 +y 2 )2
+1 + x 1 dx = − x2 +y 2 + = − 1+y 2 folgt aber 0
1 1+x2
folgt ⎤
x −y dy ⎦ dx (x2 + y 2 )2 2
2
174
10 Produkträume
⎡
7
⎢ ⎣
[0,1]
7
⎤ x −y ⎥ λ(dx)⎦ λ(dy) = (x2 + y 2 )2 2
2
−
=
⎡ ⎣
0
[0,1]
71
71
71
⎤ x −y dx⎦ dy (x2 + y 2 )2 2
2
0
+1 1 π + dy = − arctan y + =− . 2 1+y 4 0
0
Der nächste Satz behandelt das Integral von Produkten von Funktionen. Satz 10.33. Sind (Ω1 , S1 , μ1 ) und (Ω2 , S2 , μ2 ) zwei σ-endliche Maßräume, so gilt für Funktionen fi ∈ M+ (Ωi , Si ) oder fi ∈ L1 (Ωi , Si , μi ) , i = 1, 2 7 7 7 f2 dμ2 , (10.19) f1 f2 dμ1 ⊗ μ2 = f1 dμ1 woraus für integrierbare fi zusätzlich folgt f1 f2 ∈ L1 (Ω1×Ω2 , S1⊗S2 , μ1⊗μ2 ) . Beweis. Unter beiden Voraussetzungen ist I1 (f1 f2 ) μ2 –fü sinnvoll definiert . mit I1 (f1 f2 )(ω2 ) = f2.(ω2 ) f1 (ω1 ) μ1 (dω1 ) ∀ ω2 ∈ Ω2 , und analog gilt I2 (f1 f2 )(ω1 ) = f1 (ω1 ) f2 (ω2 ) μ2 (dω2 ) ∀ ω1 ∈ Ω1 . Daraus folgt 7 7 7 7 7 f1 dμ1 , f1 f2 dμ1 ⊗ μ2 = I1 (f1 f2 ) dμ2 = I2 (f1 f2 ) dμ1 = f2 dμ2 sodass für integrierbare fi klarerweise gilt f1 f2 ∈ L1 (Ω1×Ω2 , S1⊗S2 , μ1⊗μ2 ) . Folgerung 10.34. Sind X : Ω → Rm , Y : Ω → Rn unabhängige Zufallsvektoren auf einem Wahrscheinlichkeitsraum (Ω, S, P ), ist f ∈ L1 (Rm , Bm , P X−1 ) und g ∈ L1 (Rn , Bn , P Y−1 ) , so gilt E f (X) g(Y) = E f (X) E g(Y) .
(10.20)
Insbesondere gilt für unabhängige, integrierbare Zufallsvariable X , Y EX Y = EX EY . (10.21) . Beweis. (10.20). folgt aus Ef ( X) g(Y) = f g dP (X, Y)−1 und Satz 10.33, da wegen der Unabhängigkeit von X, Y gilt P (X, Y)−1 = P X−1 ⊗ P Y −1 . Gleichung (10.21) ist der Sonderfall von (10.20) für f (x) := x und g(y) = y . Der Satz von Fubini besitzt eine Reihe interessanter Folgerungen, bspw. kann man daraus leicht die Formel für die partielle Integration herleiten. Satz 10.35. Sind F und G Verteilungsfunktionen endlicher Lebesgue-StieltjesMaße μF und μG auf R , so gilt mit G− (x) := lim G(xn ) ∀ x ∈ R xn x
7
7 G− dμF = F (b) G(b) − F (a) G(a)
F dμG + (a,b]
(a,b]
∀ a ≤ b.
10.2 Der Satz von Fubini
175
Abb. 10.2. Die Menge A
Beweis. Die Menge A := {(x, y) : a < y ≤ b , x ≤ y} besitzt in x die Schnitte Ax = (a, b] für x ≤ a , Ax = [x, , b] für a < x ≤ b und Ax = ∅ für x > b . Ihre y-Schnitte sind gegeben durch Ay = (−∞, x] für a < y ≤ b und Ay = ∅ sonst. Daher folgt aus dem Satz von Fubini 7
7
7 F (y) dμG (y) =
(a,b]
7 "7
= 7 =
1 dμF (x) dμG (y) (a,b] (−∞,y]
7 77 # 1Ax dμG (y) dμF (x) 1Ay dμF (x) dμG (y) = 1A dμF ⊗ μG = 7 7 7 1(a,b] dμG (y) dμF (x) + dμG (y) dμF (x)
(−∞,a] (a,b]
(a,b] [x,b]
7
= [G(b) − G(a)] F (a) +
[G(b) − G− (x)] dμF (x) (a,b]
7
= F (a) G(b) − F (a) G(a) + F (b) G(b) − F (a) G(b) −
G− (x) dμF .
(a,b]
Korollar 10.36. Unter den Voraussetzungen und mit den Bezeichnungen des vorigen Satzes gilt für Verteilungsfunktionen F und G , die keine gemeinsamen Unstetigkeitsstellen besitzen 7 7 F dμG + G dμF = F (b) G(b) − F (a) G(a) . (a,b]
(a,b]
Beweis. Haben F und G keine gemeinsamen Unstetigkeitsstellen, so bilden die Unstetigkeitsstellen von G eine μF -Nullmenge. Daher gilt G = G− μF -fü. Bemerkung 10.37. Sind F und G stetig differenzierbare Verteilungsfunktionen mit f := F und g := G , so reduziert sich der obige Satz auf die klassische Formel für die partielle Integration 7b
7b G f dx = F (b) G(b) − F (a) G(a) .
F g dx + a
a
176
10 Produkträume
10.3 Maße auf unendlich-dimensionalen Produkträumen Wir betrachten zuerst Folgenräume, also Räume mit der Indexmenge I := N . Lemma 10.38. Ist f : Ω → Ω surjektiv, so gilt f −1 (A) = f −1 (B) ⇒ A = B . Beweis. Ist a ∈ A , so gibt es ein ω ∈ f −1 (A) = f −1 (B) : f (ω) = a ⇒ a ∈ B . Analog folgt aus b ∈ B , dass b ∈ A . Satz 10.39 (Satz von Ionescu-Tulcea). Ist (Ω1 , S1 , P1 ) ein Wahrscheinlichkeitsraum, sind (Ωi , Si ) , i ≥ 2 Messräume, auf denen es jeweils eine Familie i−1 ∈ Ω1i−1 gibt mit Pi ( . , A) : von Wahrscheinlichkeitsmaßen Pi (ω i−1 1 , . ) , ω1 i−1 i−1 n (Ω1 , S1 ) → (R, B) ∀ A ∈ Si , und sind P1 die gemäß Satz 10.23 auf den endlich-dimensionalen Produkträumen (Ω1n , Sn1 ) definierten Wahrscheinlichkeitsverteilungen, dann gibt es auf (ΩN , SN ) ein eindeutig bestimmtes Wahrscheinlichkeitsmaß PN , sodass für jeden messbaren Zylinder C := pr−1 Nn (CNn ) mit CNn ∈ Sn1 gilt PN (C) = P1n (CNn ) . −1 m n Beweis. Aus C = pr−1 Nm (CNm ) , CNm ∈ S1 und C = prNn (CNn ) , CNn ∈ S1 , −1 −1 m < n folgt nach Bemerkung 10.13 pr−1 Nm (CNm ) = prNn (prNn ,Nm (CNm ) ) , und n das obige Lemma impliziert CNn = pr−1 Ωi bzw. Nn ,Nm (CNm ) = CNm × i=m+1
n 1CNn = 1CNm 1Ωm+1 . Somit gilt mit den Bezeichnungen aus Satz 10.23
7
7 ···
Inm+1 1CNn (ω m 1 )= 7
Ωm+1
7
···
= 1CNm (ω m 1 ) Ωm+1
n−1 1CNm (ω m , dωn ) · · · Pm+1 (ω m 1 ) Pn (ω 1 1 , dωm+1 )
Ωn m Pn (ω n−1 , dωn ) · · · Pm+1 (ω m 1 , dωm+1 ) = 1CNm (ω 1 ) , 1
Ωn
und damit ergibt sich aus eben diesem Satz 7 7 7 n n m+1 m P1 (CNn ) = 1CNn dP1 = In 1CNn dP1 = 1CNm dP1m = P1m (CNm ) . Die durch PN (C) := P1n (CNn ) auf dem System ZN der messbaren Zylinder definierte Mengenfunktion ist also von der Wahl der Basis CNn des jeweiligen Zylinders C unabhängig und daher wohldefiniert. Klarerweise gilt PN (∅) = 0 , PN (ΩN ) = 1 und PN (C) ≥ 0 ∀ C ∈ ZN . Sind C = pr−1 Nm (CNm ) −1 −1 und D = pr−1 (D ) aus Z disjunkt, so gilt C = pr (pr N N n Nn Nm∨n Nm∨n ,Nm (CNm ) ) −1 −1 bzw. D = prNm∨n (prNm∨n ,Nn (DNn ) ) und die Basen CNm∨n := pr−1 Nm∨n ,Nm (CNm ) und DNm∨n := pr−1 (D ) sind ebenfalls disjunkt. Daraus folgt N n Nm∨n ,Nn PN (C ∪ D) = P1m∨n (CNm∨n ∪ DNm∨n ) = P1m∨n (CNm∨n ) + P1m∨n (DNm∨n ) = PN (C) + PN (D) ,
10.3 Maße auf unendlich-dimensionalen Produkträumen
177
d.h. PN ist additiv und daher ein Inhalt auf ZN . Wir beweisen nun, dass PN bei ∅ stetig von oben und damit σ-additiv ist, indem wir zeigen, dass der Durchschnitt jeder monoton fallenden Folge (Cn ) aus ZN , für die es ein$ε > 0 gibt % mit PN (Cn ) > ε ∀ n ∈ N , nichtleer sein muss. n C solche Zylinder mit den Basen Cn,Nmn ∈ Sm Sind Cn = pr−1 n,N m 1 , Nmn n so kann o.E.d.A. mn < mn+1 ∀ n ∈ N angenommen werden. Fügt man den Zylinder ΩN (m1 − 1)-mal vor C1 in die Folge ein, und schiebt man zwischen Ck und Ck+1 mk+1 − mk − 1 Wiederholungen von Ck , so erhält man eine neue, ebenfalls monoton fallende Folge mit demselben Durchschnitt wie (Cn ) , für die mn = n ∀ n ∈ N gesetzt werden kann. Wir nehmen daher Sn ∀ n ∈ N . an, dass gilt Cn = pr−1 Nn (Cn,Nn ) , Cn,Nn ∈ . 1 n=1 1C (ω1 ) P1 (dω1 ) , Nun gilt ε < PN (Cn ) = P1n (Cn,Nn ) = . 2 1,N1 In 1Cn,Nn (ω1 ) P1 (dω1 ) , n > 1 . Cn ⊇ Cn+1 ⇒ Cn,Nn × Ωn+1 ⊇ Cn+1,Nn+1 ,d.h. 1Cn,Nn 1Ωn+1 ≥ 1Cn+1,Nn+1 . $ % k k Daraus folgt Ink 1Cn,Nn = In+1 1Cn,Nn 1Ωn+1 ≥ In+1 1Cn+1,Nn+1 für alle k ≥ 2 2 und n ≥ k . Da die In 1Cn,Nn nichtnegativ sind und eine monoton fallende Folge bilden, gibt es eine die Grenzfunktion f1 := lim In2 1Cn,Nn aus n
M+ (Ω1 , S1 ) ,.und aus dem Satz . über die Konvergenz durch Majorisierung ,1 mit ε ≤ f1 (, ω1 ) , folgt ε ≤ lim In2 1Cn,Nn dP1 = f1 dP1 . Daher gibt es ein ω n≥2
das wegen ε ≤ f1 (, ω1 ) ≤ In2 1Cn,Nn (, ω1 ) ≤ 1C1,N1 (, ω1 ) in C1,N1 liegt. . 2 ω1 ) = 1C2,N2 (, ω1 , ω2 ) P2 (, ω1 , dω2 ) Aber es gilt bekanntlich auch I2 1C2,N2 (, . ω1 ) = In3 1Cn,Nn (, ω1 , ω2 ) P2 ((, ω1 , dω2 ) für n > 2 . Da die Inteund In2 1Cn,Nn (, granden in diesen Integralen, wie oben gezeigt, ebenfalls eine monoton fallenω1 , . ) := lim In3 1Cn,Nn (, ω1 , . ) . de Folge aus M+ (Ω2 , S2 ) bilden, existiert f2 (, n≥3
Aus .dem Satz über die Konvergenz durch Majorisierung folgt nun wieder ε ≤ f2 (, ω1 , ω2 ) P2 (, ω1 , dω2 ) . Deshalb gibt es auch einen Punkt ω ,2 ∈ Ω2 mit ε ≤ f2 (, ω2 ) ≤ In3 1Cn,Nn (, ω1 , ω ,2 ) ≤ 1C2,N2 (, ω1 , ω ,2 ) ⇒ (, ω1 , ω ,2 ) ∈ C2,N2 . , k−1 := (, ω1 , . . . , ω ,k−1 ) aus Wir nehmen nun an, dass es einen Vektor ω 1 k−1 k , 1 ) ≤ 1Ck−1,Nk−1 (ω , k−1 ) ∀ n ≥ k. Ck−1,Nk−1 gibt mit ε ≤ In 1Cn,Nn (ω 1 . k−1 k−1 k−1 k , 1 , ωk ) Pk (ω , 1 , dωk ) bzw. ω 1 ) = 1Ck,Nk (ω Wie wir wissen, gilt Ik 1Ck,Nk (, . k+1 k−1 k−1 k−1 k In 1Cn,Nn (, ω1 ) = In 1Cn,Nn (, ω1 , ωk ) Pk ((, ω1 , dωk ) für n > k . Die Integranden bilden eine monoton fallende Folge nichtnegativer Funktionen, , k−1 ω k−1 , . ) := lim Ink+1 1Cn,Nn (ω , . ) ∈ M+ (Ωk , Sk ) . also existiert fk (, 1 1 n≥k+1
Wie zuvor. folgt aus dem Satz über die Konvergenz durch Majorisierung, dass ε ≤ fk (, ω k−1 , ωk ) Pk (, ω k−1 , dωk ) . Daher gibt es einen Punkt ω ,k mit 1 1 k−1 , k1 ) ∀ n ≥ k + 1 . Daher ω1 , ω ,k ) ≤ Ink+1 1Cn,Nn (, ω k1 ) ≤ 1Ck,Nk (ω ε ≤ fk (, , := (ω1 , ω2 , . . .) mit , k1 ∈ Ck,Nk . Somit kann man rekursiv eine Folge ω gilt ω , ∈ Ck ∀ k ∈ N folgt Ck = ∅ . (ω1 , . . . , ωk ) ∈ Ck,Nk ∀ k ∈ N bilden. Aus ω k
PN ist schließlich nach Satz 4.13 eindeutig bestimmt, da SN bekanntlich durch die Algebra der messbaren Zylinder erzeugt wird.
178
10 Produkträume
Ist (Ωi , Si ) , i ∈ I eine Familie von Messräumen und existiert eine Wahrscheinlichkeitsverteilung P auf dem Produktraum (ΩI , SI ) , so werden durch die Projektionen prJ , J ⊆ I , die ja gemäß Folgerung 10.4 SI |SJ -messbar sind, Verteilungen PJ := P pr−1 J auf den Teilräumen (ΩJ , SJ ) induziert. Definition 10.40. Ist (Ωi , Si ) , i ∈ I eine Familie von Messräumen und P eine Wahrscheinlichkeitsverteilung auf dem Produktraum (ΩI , SI ) , so nennt man die auf den Teilräumen (ΩJ , SJ ) , J ⊆ I induzierten Verteilungen PJ := P pr−1 J die Randverteilungen von P . Zwischen den Randverteilungen von P besteht folgender Zusammenhang. Lemma 10.41. Ist (Ωi , Si ) , i ∈ I eine Familie von Messräumen und P ein Wahrscheinlichkeitsmaß auf dem Produktraum (ΩI , SI ) , so gilt für AK ∈ SK und AJ ∈ SJ , K , J ⊆ I −1 pr−1 (10.22) J (AJ ) = prK (AK ) ⇒ PJ (AJ ) = PK (AK ) . $ −1 % $ −1 % Beweis. Das gilt, da PJ (AJ ) = P prJ (AJ ) und P prK (AK ) = PK (AK ).
(10.22) ist also eine notwendige Konsistenzbedingung dafür, dass zu einer Familie {PJ , J ⊆ I , |J| < ∞} von Wahrscheinlichkeitsmaßen eine Produktverteilung existiert, deren endlich-dimensionale Randverteilungen die PJ sind. Lemma 10.42. Ist (Ωi , Si ) , i ∈ I eine Familie von Messräumen und sind PJ Verteilungen auf den Räumen (ΩJ , SJ ) , J ⊆ I , |J| < ∞ , so erfüllen die PJ Beziehung 10.22 genau dann, wenn J ⊂ K ⇒ PJ = PK pr−1 K,J . Beweis. ⇒ : Für A = pr−1 J (AJ ) , AJ ∈ SJ , J ⊆ I , |J| < ∞ aus ZN gilt gemäß (pr−1 )) ∀ K ⊃ J , und aus (10.22) folgt daher (10.2) A = pr−1 K,J (A #J "K ∀ AJ ∈ SJ , d.h. PJ = PK pr−1 PJ (AJ ) = PK pr−1 K,J (AJ ) K,J . −1 −1 ⇐ : Aus A = pr "J (AJ ) = pr#K (AK ) , AJ ∈ S " J , AK ∈ SK#, |J| , |K| < ∞ −1 −1 −1 folgt prJ∪K prJ∪K,J (AJ ) = A = pr−1 J∪K prJ∪K,K (AK ) . Daraus folgt −1 nach Lemma 10.38 pr−1 J∪K,J (AJ ) = prJ∪K,K (AK ) . Weil voraussetzungsP pr−1 impliziert dies gemäß gilt PJ = PJ∪K pr−1 J∪K,J# und PK = " " J∪K J∪K,K # −1 −1 PJ (AJ ) = PJ∪K prJ∪K,J (AJ ) = PJ∪K prJ∪K,K (AK ) = PK (AK ) .
Man definiert daher: Definition 10.43. Ist (Ωi , Si ) , i ∈ I eine Familie von Messräumen und sind PJ Verteilungen auf den Räumen (ΩJ , SJ ) , J ⊆ I , |J| < ∞ , so nennt man die PJ konsistent, wenn PJ = PK pr−1 ∀ J ⊂ K ⊆ I , |J| , |K| < ∞ . K,J Der nächste Satz zeigt, dass aus der Konsistenz der endlich-dimensionalen Verteilungen PJ zumindest für den Fall Ωi = R ∀ i ∈ I , die Existenz einer entsprechenden Produktverteilung auf (RI , BI ) folgt.
10.3 Maße auf unendlich-dimensionalen Produkträumen
179
Satz 10.44 (Existenzsatz von Kolmogoroff). Ist I = ∅ eine beliebige Indexmenge, gibt es zu jedem J ⊆ I , |J| < ∞ eine Wahrscheinlichkeitsverteilung PJ auf (RJ , BJ ) und sind diese Verteilungen konsistent, dann gibt es ein eindeutig bestimmtes Wahrscheinlichkeitsmaß P auf (RI , BI ) , dessen endlichdimensionale Randverteilungen die PJ sind. Beweis. Auf den Zylindern C = pr−1 J (CJ ) , CJ ∈ BJ , J ⊆ I , |J| < ∞ wird durch P (C) := PJ (CJ ) eine nichtnegative Mengenfunktion P festgelegt, die nach den obigen Lemmata wegen der Konsistenz der PJ unabhängig von der Wahl der Basis und daher auch wohldefiniert ist. Klarerweise gilt P (∅) = 0 und P (RI ) = 1 . −1 Sind C = pr−1 J (CJ ) , CJ ∈ BJ und D = prK (DK ) , DK ∈ BK , zwei disjunkte Zylinder, so kann bekanntlich o.E.d.A. J = K angenommen werden. Da die Basen CJ und DJ ebenfalls disjunkt sein müssen, ergibt sich daraus P (C ∪ D) = PJ (CJ ∪ DJ ) = PJ (CJ ) + PJ (DJ ) = P (C) + P (D) . Wie im Beweis von Satz 10.39 zeigen wir schließlich, dass P bei ∅ stetig von oben und damit σ-additiv ist. Dazu beweisen wir, dass für jede monoton fallende Folge messbarer Zylinder Cn = pr−1 Jn (C n,Jn ) , Cn,Jn ∈ BJn , für die ein ε > 0 mit P (Cn ) > ε ∀ n ∈ N existiert, gilt Cn = ∅ . n Da nur die Indices aus Jn mit | Jn | ≤ ℵ0 für den weiteren Beweisvern
n
lauf relevant sind, kann nun o.E.d.A. I = N angenommen werden, und aus den bereits im Beweis von Satz 10.39 angeführten Gründen können die Indexmengen Jn nicht nur als monoton wachsend vorausgesetzt werden, sondern man kann sogar Jn = Nn ∀ n ∈ N setzen. Laut Folgerung 6.5 gibt es zu jeder Basis Cn,Nn eine kompakte Menge ε . Bildet man damit die DurchKn,Nn ⊆ Cn,Nn mit PNn (Cn,Nn \ Kn,Nn ) < 2n+1 −1 schnitte Kn := prNi (Ki,Ni ) , so erhält man eine monoton fallende Meni≤n
genfolge aus BI , für die gilt Kn ⊆ Cn ∀ n ∈ N . Weiters gilt ⎛ ⎞ c P (Cn \ Kn ) = P ⎝pr−1 (Cn,Nn ) ∩ pr−1 (Ki,Ni ) ⎠ Nn
⎛ =P⎝
Ni
⎞
i≤n
⎠≤ pr−1 Ni (Ci,Ni \ Ki,Ni )
i≤n
!
PNi (Ci,Ni \ Ki,Ni ) ≤
i≤n
ε . 2
Daraus folgt P (Kn ) ≥ 2ε ∀ n ∈ N , und deshalb existiert für alle n ∈ N ein (n) (n) Punkt x(n) := (x1 , x2 , . . .) ∈ Kn . Wegen Kn gilt x(n) ∈ K1 oder anders (n) Teilmenge von ausgedrückt x1 ∈ K1,N1 ∀ n ∈ N . Da K1,N " 1 eine#kompakte " # (n1,m )
R ist, existiert eine konvergente Teilfolge x1 x1 :=
(n ) lim x1 1,m m
∈ K1,N1 .
(n)
von x1
, für die gilt
180
10 Produkträume
# " (n ) (n ) Weiters gilt x(n1,m ) ∈ K2 , m ≥ 2 ⇒ x1 1,m , x2 1,m ∈ K2,N2 , m ≥ 2 . # " # " (n ) (n ) (n ) (n ) Also gibt es in x1 1,m , x2 1,m eine konvergente Subfolge x1 2,m , x2 2,m , " " # # (n ) (n ) (n ) für die gilt (ˆ x1 , x2 ) := lim x1 2,m , x2 2,m ∈ K2,N2 . x1 2,m ist aber eine #m " (n1,m ) ⇒ x ˆ1 = x1 ⇒ (x1 , x2 ) ∈ K2,N2 . Teilfolge von x1 ) immer eine TeilHat man nun Teilfolgen nj,m , j ≤ "k − 1 , sodass (nj,m# (n
)
(n
)
folge von (nj−1,m ) ist und die j-Tupel x1 j,m , . . . , xj j,m ∈ Kj,Nj konver" # (n ) (n ) gieren mit (x1 , . . . , xj ) := lim x1 j,m , . . . , xj j,m ∈ Kj,Nj ∀ j ≤ k − 1 , so # " m (n ) (n ) (nk−1,m ) gilt x ∈ Kk ⇒ x1 k−1,m , . . . , xk k−1,m ∈ Kk,Nk , m ≥ k . Da Kk,Nk # " (n ) (n ) kompakt ist, existiert eine konvergente Teilfolge x1 k,m , . . . , xk k,m von " # " # (n ) (n ) (n ) (n ) x1 k−1,m , . . . , xk k−1,m mit (x1 , . . . , xk−1 , xk ) = lim x1 k,m , . . . , xk k,m , m # " # " (n ) (nk,m ) (n ) (nk−1,m ) Teilfolge von x1 k−1,m , . . . , xk−1 ist. weil auch x1 k,m , . . . , xk−1 Für jedes k ∈ N bilden die „Diagonalindices “ nj $:= nj,j% mit j ≥ k eine Teilfolge von (nk,m ) , und deshalb gilt für die Teilfolge x(nj ) der Punkte x(n) " # (n ) (n ) lim x1 j , . . . , xk j = (x1 , . . . , xk ) ∈ Kk,Nk ⊆ Ck,Nk ∀ k ∈ N . j
Dies aber bedeutet, dass der Vektor x := (x1 , x2 , . . .) der Grenzwerte in jedem Ck , k ∈ N liegt, oder anders ausgedrückt: x ∈ Ck = ∅ . k
Die Eindeutigkeit von P ergibt sich wieder aus Satz 4.13. Definition 10.45. Ein stochastischer Prozess auf einem Wahrscheinlichkeitsraum (Ω, S, P ) ist eine Familie {Xi , i ∈ I} von Zufallsvariablen auf (Ω, S, P ) . Bemerkung 10.46. Die Projektionen Yi := pri , i ∈ I bilden auf (RI , BI , P ) einen stochastischen Prozess, der diesen Raum identisch auf sich selbst abbildet, deshalb ist die durch die Projektionen induzierte Verteilung einfach P selbst. Ist umgekehrt {Xi , i ∈ I} ein stochastischer Prozess auf einem beliebigen Raum (Ω, S, P ) , so wird für jedes ω ∈ Ω durch X(ω)(i) := Xi (ω) ∀ i ∈ I eine I Funktion X(ω) aus RI definiert, d.h.$X : Ω → Aus der Definition von X % R . −1 −1 −1 folgt pri ◦X = Xi ∀ i ∈ I ⇒ X pri (B) = Xi (B) ∀ i ∈ I ∀B ∈ B . −1 pri (B) . Da die Xi S|B-messbar sind, gilt demnach X−1 (C) ∈ S ∀ C ∈ i∈I −1 pri (B) ist aber ein Erzeuger von BI , d.h. X ist S|BI -messbar. i∈I n n = Ist J := {j1 , . . . , jn } ⊆ I und A := pr−1 A pr−1 jk jk (Ajk ) ein J k=1
messbarer Pfeiler mit Ajk ∈ B ∀ jk ∈ J , so gilt X−1 (A) =
n k=1
k=1
n n % $ −1 X−1 pr−1 (A ) = X (A ) = [Xjk ∈ Ajk ] , j j k k jk jk k=1
k=1
10.3 Maße auf unendlich-dimensionalen Produkträumen
181
und dies ergibt für die durch X auf (RI , BI ) induzierte Verteilung P X−1
n
−1 −1 PX A jk prJ = P ( X j1 ∈ A j1 , . . . , X jn ∈ A jn ) , k=1
von P X−1 stimmen d.h. die endlich-dimensionalen Randverteilungen P X−1 J mit den endlich-dimensionalen Randverteilungen des Prozesses überein, oder anders ausgedückt: die Projektionen Yi := pri , i ∈ I bilden einen stochastischen Prozess auf (RI , BI , P X−1 ) , dessen endlich-dimensionale Randverteilungen mit denen des ursprünglichen Prozesses übereinstimmen. Deshalb kann man (RI , BI , P X−1 ) als „kanonischen Raum“ von {Xi , i ∈ I} betrachten. Bemerkung 10.47. Ist J := {j1 , . . . , jn } eine endliche Teilmenge von I und π := π1 , . . . , πn eine Permutation von 1, . . . , n , so kann man den Bildraum RJ = {f : J → R} der Projektion prJ durch Gπ (f ) := (f (jπ1 ), . . . , f (jπn ) ) bijektiv auf Rn abbilden. Je nachdem, welche Permutation man wählt, werden dadurch unterschiedliche Verteilungen auf (Rn , Bn ) induziert, die aber folgendermaßen zusammenhängen: Bezeichnet man mit G die zur identischen Permutation gehörige Abbildung und ist Π : Rn → Rn definiert durch Π((x1 , . . . , xn ) ) := (xπ1 , . . . , xπn ) , so gilt Gπ = Π ◦ G , und daraus folgt $ −1 % −1 Π (A) ∀ A ∈ Bn . (10.23) P G−1 π (A) = P G Ist A := A1 × · · · × An , Ai ∈ B und π −1 die zu π inverse Permutation, so ist wegen πi = k ⇔ i = πk−1 , die Aussage f (jπi ) ∈ Ai ∀ 1 ≤ i ≤ n äquivalent zu f (jk ) ∈ Aπ−1 ∀ 1 ≤ k ≤ n , und deshalb wird Gleichung (10.23) zu k
P G−1 π
n
i=1
Ai
−1
= PG
n
Aπ−1 k
∀ Ai ∈ B .
(10.24)
k=1
Der Existenzsatz von Kolmogoroff kann daher auch so formuliert werden: Satz 10.48 (Existenzsatz von Kolmogoroff - 2.-te Fassung). Gibt es zu jedem n ∈ N und jedem n-Tupel (i1 , . . . , in ) verschiedener Indices aus I eine Verteilung Pi1 ,...,in auf (Rn , Bn ) , sodass die Konsistenzbedingungen Pi1 ,...,in ,in+1 (A × R) = Pi1 ,...,in (A)
∀ n ∈ N , A ∈ Bn ,
(10.25)
gelten, und, sodass für jede Permutation π := π1 , . . . , πn mit der oben definierten Funktion Π die zusätzlichen Konsistenzbedingungen % $ Piπ1 ,...,iπn (A) = Pi1 ,...,in Π −1 (A) ∀ n ∈ N , A ∈ Bn , (10.26) erfüllt sind, dann existiert ein Wahrscheinlichkeitsraum (Ω, S, P ) und ein stochastischer Prozess {Xi : i ∈ I} auf diesem Raum, sodass gilt Pi1 ,...,in (A) = P (Xi1 , . . . , Xin )−1 (A) ∀ n ∈ N , A ∈ Bn .
(10.27)
182
10 Produkträume
Beweis. Für jedes J := {j1 , . . . , jn } ⊆ I und alle Ak ∈ B , k = 1, . . . , n ist n Ak eine sinnvolPJ ({f : f (jk ) ∈ Ak , 1 ≤ k ≤ n} ) := Pj1 ,...,jn k=1
∀ k , π und wele Definition, denn f (jk ) ∈ Ak ∀ k ⇔ f (jπk ) ∈ Aπ k n n gen (10.26) gilt Pj1 ,...,jn Ak = Pjπ1 ,...,jπn Aπk . Damit sind auf k=1
k=1
(R|J| , B|J| ) , |J| < ∞ , J ⊆ I Verteilungen PJ definiert, die die Voraussetzungen von Satz 10.44 erfüllen.
10.4 Null-Eins-Gesetz von Hewitt- Savage Betrachtet man eine Folge (X n ) von unabhängigen Zufallsvariablen, so ist das ∞ Xi ≤ c nicht terminal, da es für jedes n ∈ N offensichtEreignis A := i=1
lich auch von den ersten n Gliedern X1 , . . . , Xn der Folge beeinflusst wird. Aber eine Permutation der X1 , . . . , Xn ist bei einer identisch verteilten Folge für den Eintritt von A ohne Bedeutung. Derartige Ereignisse nennt man symmetrisch und das Null-Eins-Gesetz lässt sich für unabhängig identisch verteilte Zufallsvariable auf solche Ereignisse verallgemeinern. Formal werden symmetrische Ereignisse als Urbilder bestimmter Teilmengen des Folgenraums (RN , BN ) definiert. Lemma 10.49. Ist Ω = ∅ eine beliebige Menge und f := (f1 , f2 , . . .) eine Folge von Funktionen fn : Ω → R , so gilt f −1 (BN ) = S(f ) := S(f1 , f2 , . . .) . Beweis. Aus f : Ω → RN , fi = pri ◦f ∀ i ∈ N und Satz 7.40 folgt
−1 −1 −1 −1 −1 pri (B) = Aσ f pri (B) f (BN ) = f Aσ
= Aσ
i∈N
i∈N
f
−1
$
pr−1 i (B)
%
= Aσ
i∈N
fi−1 (B)
= S(f1 , f2 , . . .) .
i∈N
Definition 10.50. Ist f := (f1 , f2 , . . .) eine Folge reellwertiger Funktionen auf einer Menge Ω = ∅ , so nennt man A ∈ S(f ) symmetrisch, wenn es für jedes n ∈ N und jede Permutation π1 , . . . , πn von 1, . . . , n ein B ∈ BN gibt, sodass A = (f1 , f2 , . . .)−1 (B) = (fπ1 , . . . , fπn , fn+1 , . . .)−1 (B) . Bemerkung 10.51. Terminale Ereignisse sind vom Verhalten endlich vieler Komponenten unabhängig und daher stets symmetrisch. Lemma 10.52. Ist X := (X1 , X2 , . . .) eine Folge unabhängig, identisch verteilter Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ), so gilt für jedes n ∈ N, jede Permutation π1 , . . . , πn von 1, . . . , n und jedes B ∈ BN $ % $ % P X−1 (B) = P (Xπ1 , . . . , Xπn , Xn+1 , . . .)−1 (B) . (10.28)
10.4 Null-Eins-Gesetz von Hewitt- Savage
183
Beweis. Mit der Bezeichnung Xπ := (Xπ1 , . . . , Xπn , Xn+1 , . . .) gilt für jeden n Bi × R messbaren Pfeiler B = i=1
$
P X
−1
%
(B) = P
i>n
(X1 , . . . , Xn )
−1
n
Bi
=
i=1
=
n
i=1
$
%
P X1−1 (Bi ) =
n
$
%
n
P Xi−1 (Bi )
i=1
$
% P Xπ−1 (Bi ) = P X−1 π (B) . i
i=1
Wegen des Eindeutigkeitssatzes gilt (10.28) damit für alle B ∈ BN . Satz 10.53 (Null-Eins-Gesetz von Hewitt- Savage). Ist X := (X1 , X2 , . . .) eine Folge unabhängig, identisch verteilter Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ), so gilt für jedes symmetrische Ereignis A ∈ S(X) P (A) = 0 ∨ P (A) = 1 . Beweis. Wir werden im Folgenden die Bezeichnung Xn1 := (X1 , . . . , Xn ) bzw. Xn1,π := (Xπ1 , . . . , Xπn ) und Xπ := (Xπ1 , . . . , Xπn , Xn+1 , . . .) , wenn π1 , . . . , πn eine Permutation von 1, . . . ,n ist, verwenden. Zu jeder Menge A ∈ S(X) = Aσ S(Xn1 ) und ε > 0 gibt es nach n∈N
Satz 4.24 ein n ∈ N und ein Aε ∈ S(Xn1 ) , sodass gilt P (A Aε ) ≤ ε . n −1 Zu Aε ∈ S(Xn1 ) existiert aber ein Bε,n ∈ Bn mit Aε = (X ε,n ) bzw. 1 ) (B−1 −1 R = prNn (Bε,n ) . Aε = X (Bε ) für den zugehörigen Zylinder Bε := Bε,n × i>n i + n, 1 ≤ i ≤ n Ist A symmetrisch und definiert man durch πi := i − n, n < i ≤ 2n eine Permutation π von 1, . . . , 2 n , so gibt es eine Menge B ∈ BN , für die gilt A = X−1 (B) = X−1 π (B) . Aus Lemma 10.52 folgt P (Aε ) = P (X−1 (Bε ) ) = P (X−1 π (Bε ) ) . Aus dieπ := X−1 sem Lemma folgt $unter Verwendung der Bezeichnung A ε π (Bε ) auch % $ −1 % π −1 P (A Aε ) = P Xπ (B Bε ) = P X (B Bε ) = P (A Aε ) ≤ ε . Aus dieser Beziehung erhält man mit Hilfe von Lemma 2.6 Punkt 12. P (A (Aε ∩Aπε ) ) = P ((A∩A) (Aε ∩Aπε ) ) ≤ P (A Aε )+P (A Aπε ) ≤ 2 ε . Wegen |P (A) − P (B)| ≤ P (A B) (siehe Folgerung 3.14) gelten deshalb folgende Ungleichungen |P (A) − P (Aε )| ≤ ε , |P (A) − P (Aπε )| ≤ ε , |P (A) − P (Aε ∩ Aπε )| ≤ 2 ε .
(10.29) (10.30) (10.31)
Da die Xi unabhängig sind, ist Aπε = X−1 π (Bε ) = [ (Xn+1 , . . . , X2 n ) ∈ Bε,n ] unabhängig von Aε = [ (X1 , . . . , Xn ) ∈ Bε,n ] , und dies impliziert seinerseits P (Aε ∩ Aπε ) = P (Aε ) P (Aπε ) = P (Aε )2 . Eingesetzt in (10.31) ergibt das
184
10 Produkträume
+ + +P (A) − P (Aε )2 + ≤ 2 ε .
(10.32)
Aus (10.29) , (10.30), (10.32) und der Dreiecksungleichung folgt nun + + +P (A) − P (A)2 + + + + + + + ≤ +P (A) − P (Aε )2 + + +P (Aε )2 − P (A) P (Aε )+ + +P (A) P (Aε ) − P (A)2 + ≤ 2 ε + P (Aε ) |P (Aε ) − P (A)| + P (A) |P (Aε ) − P (A)| ≤ 4 ε . Da ε > 0 beliebig ist, gilt somit P (A) = P (A)2 ⇒ P (A) = 0 ∨ P (A) = 1 .
10.5 Stetige Zufallsvariable Wir haben schon in den Abschnitten 6.5 und 6.6 erwähnt, dass Verteilungen sehr wichtig sind, deren Verteilungsfunktionen sich als Integrale nichtnegativer Funktionen f , die wir als Dichten bezeichnet haben, darstellen lassen (vgl. etwa Bemerkung 6.65). Dies soll nun präzisiert werden. Definition 10.54. Ein Zufallsvektor X := (X1 , . . . , Xk ) auf einem Wahrschein+ k lichkeitsraum (Ω, S, P . ) heißt stetig, wenn es ein fX ∈ M (R , Bk , λk ) gibt, −1 sodass P X (B) = B fX dλk ∀ B ∈ Bk , wenn also die induzierte Verteilung P X−1 auf (Rk , Bk ) als λk -Integral darstellbar ist. fX nennt man dann die gemeinsame Dichte des Zufallsvektors (oder auch Dichte von P X−1 ). Bemerkung 10.55. Diese Bezeichnungsweise ist sinnvoll, da Folgerung 9.47 besagt, dass die Dichte λk -fü eindeutig bestimmt ist. Lemma 10.56. Ist X := (X1 , . . . , Xk ) ein stetiger Zufallsvektor mit der Dichte fX und ist J := {j1 , . . . , jh } eine Teilmenge von Nk mit J c := {i1 , . . . , ik−h } , so ist der Zufallsvektor XJ := (Xj1 , . . . , Xjh ) ebenfalls stetig und besitzt die Dichte 7 7 fJ (xj1 , . . . , xjh ) := · · · fX (x1 , . . . , xk ) dλ(xi1 ) · · · dλ(xik−h ) . (10.33) Beweis. Mit Hilfe von Satz 10.24 erhält man für jedes B ∈ Bh 7 −1 k−h P X−1 (B) = P X (B × R ) = fX (x) dλk (x) J 7 = B
⎡ ⎣
B×Rk−h
7
7 ···
R
⎤
fX (x) dλ(xi1 ) · · · dλ(xik−h )⎦ dλh (xj1 , . . . , xjh ) .
R
Der Ausdruck in der eckigen Klammer ist gerade f.J (xj1 , . . . , xjh ) , und damit ist das Lemma bewiesen, da klarerweise auch gilt Rh fJ dλh = 1 . Definition 10.57. Mit den Bezeichnungen und unter den Voraussetzungen von Lemma 10.56 werden die fJ Randdichten der Zufallsvektoren XJ genannt.
10.5 Stetige Zufallsvariable
185
Beispiel 10.58 (Fortsetzung von Beispiel 10.17 und 10.20). Nach dem Satz von Fubini.stimmt das iterierte Integral in Gleichung 10.7 aus Beipiel 10.20 überein mit C τ 2 e−τ t 1[s,∞) (t) dλ2 (s, t) , d.h. es gilt 7 μ(C) = τ 2 e−τ t 1[s,∞) (t) dλ2 (s, t) ∀ C ∈ B2 . C
Die Zufallsvariablen T1 und T2 aus Beispiel 10.17 sind demnach stetig mit der gemeinsamen Dichte fT1 ,T2 (s, t) = 1[s,∞) (t) τ 2 e−τ t = 1[0,t] (s) τ 2 e−τ t , und ihre Randdichten fT1 und fT2 ergeben sich gemäß +∞ Lemma 10.56 zu . . 2 −τ t −τ t + τ e dλ(t) = −τ e fT1 (s) = f (s, t) dλ(t) = + = τ e−τ s , s > 0 s R [s,∞) . . und fT2 (t) = fT1 ,T2 (s, t) dλ(s) = [0,t] τ 2 e−τ t dλ(s) = τ 2 t e−τ t , t > 0 . R
T2 ist also erlangverteilt mit den Parametern n = 2 und τ . f (s,t) Da μ1 ( fT1 = 0 ) = 0 , ist fT2 |T1 (t|s) := Tf1T,T2(s) μ1 –fü definiert und man 1 kann P ([T1 ∈ A] ∩ [T2 ∈ B]) für A, B ∈ B anschreiben in der Form 7 7 P ([T1 ∈ A] ∩ [T2 ∈ B]) = μ(A × B) = fT2 |T1 (t|s) dλ(t) fT1 (s) dλ(s) 7 =
⎡ ⎣
A
7
⎤
A B
1[s,∞) (t) τ e−τ (t−s) dλ(t) ⎦ 1[0,∞) (s) τ e−τ s dλ(s) .
(10.34)
B
Die Integrale in den eckigen Klammern von (10.34) entsprechen gerade den Wahrscheinlichkeitsmaßen μ2 (s, .) aus Beispiel 10.20 , von denen wir in Beispiel 10.17 angenommen haben, dass sie die Verteilungen von T2 bei jeweils gegebenem T1 = s bilden sollten. Definiert man fT1 |T2 (s|t) :=
fT1 ,T2 (s,t) fT2 (t)
=
1[0,t] (s) τ 2 e−τ t 1[0,∞) (t) τ 2 t e−τ t
7 P ([T1 ∈ A] ∩ [T2 ∈ B]) = μ(A × B) = 7 = B
⎡ ⎣
7
⎤
B
⎡ ⎣
7
=
1 t
1[0,t] (s) , so gilt ⎤
fT1 |T2 (s|t) dλ(s)⎦ fT2 (t) dλ(t)
A
1 1[0,t] (s) dλ(s) ⎦ 1[0,∞) (t) τ 2 t e−τ t dλ(t) , t
(10.35)
A
Man gelangt also auch dann zur Verteilung μ auf dem Produktraum, wenn T2 ∼ Er2,τ und, wenn T1 bei gegebenem T2 = t auf [0, t] gleichverteilt ist. Allgemein wird das im Beispiel zuletzt beschriebene Konzept so formuliert: Definition 10.59. Ist (X, Y) , X : Ω → Rm , Y : Ω → Rn , ein stetiger Zufallsvektor auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit der Dichte fX,Y und den Randdichten fX , fY , so nennt man die P X−1 –fü definierte Funktion
186
10 Produkträume
fY|X (y|x) :=
fX,Y (x, y) fX (x)
die durch X = x bedingte Dichte von Y . Die zugehörige Verteilung 7 −1 P Y (B|X = x) := fY|X (y|x) dλn (y) , B ∈ Bn B
heißt die durch X = x bedingte Verteilung von Y . Bemerkung 10.60. 1. Dass P Y −1 ( . |X = x) tatsächlich eine Wahrscheinlichkeitsverteilung ist, folgt sofort aus . 7 fX,Y (x, y) n fX,Y (x, y) dλn (y) −1 n dλn (y) = .R = 1. P Y (R |X = x) = fX (x) f (x, y) dλn (y) Rn X,Y Rn
2. Besitzt X eine stetige Dichte fX , so gilt fX (x) − ε ≤ fX (u) ≤ fX (x) + ε für ε > 0 und u ∈ [x − Δ,. x] , wenn Δ hinreichend klein ist, und daraus folgt x P (X ∈ [x − Δ , x] ) = x−Δ fX (u) du ≈ fX (x) Δ . Dies impliziert nun lim
Δ→0
P (X ∈ [x − Δ , x] ) = f (x) . Δ
Man kann daher die Dichte interpretieren als Grenzwert des Quotienten der Wahrscheinlichkeit, mit der X Werte in einem kleinen Intervall annimmt, und der Länge dieses Intervalls. Sind die Dichten von X und Y und von (X, Y ) wie in Beispiel 10.58 stetig, so gilt sowohl fX,Y (x, y) − ε ≤ fX,Y (u, v) ≤ fX,Y (x, y) + ε , als auch fX (x) − ε ≤ fX (u) ≤ fX (x) + ε für ε > 0 und jeden Punkt (u, v) aus [x − Δ, x] × [y − Δ, y] , wenn Δ hinreichend klein ist. Daraus folgt P ([X ∈ [x − Δ, x] ∩ [Y ∈ [y − Δ, y]) P (Y ∈ [y − Δ, y]|X ∈ [x − Δ, x]) = P (X ∈ [x − Δ, x]) .x .y f (s, t) ds dt fX,Y (x, y) Δ2 x−Δ y−Δ X,Y .x = ≈ . fX (x) Δ f (s) ds x−Δ X bzw. fX,Y (x, y) P (Y ∈ [y − Δ, y]|X ∈ [x − Δ, x]) fX,Y (x, y)Δ2 = = lim . 2 Δ 0 Δ Δ fX (x) Δ fX (x) lim
Man kann daher diesen Grenzwert unter den oben erwähnten Voraussetzungen als die durch X = x bedingte Dichte von Y auffassen. Der Ansatz bedingte Wahrscheinlichkeiten für Bedingungen mit Wahrscheinlichkeit 0 durch einen Grenzübergang, bei dem die Wahrscheinlichkeit der Bedingung gegen 0 geht, einzuführen erweist sich aber i. A. als nicht zielführend. Das Konzept, das sich für eine allgemeine Definition der bedingten Wahrscheinlichkeiten eignet, wird erst in einem späteren Kapitel behandelt.
10.6 Die Faltung
187
Satz 10.61 (Multiplikationsregel). Ist (X, Y) ein stetiger Zufallsvektor mit der gemeinsamen Dichte fX,Y und den Randdichten fX bzw. fY , so gilt fX,Y (x, y) = fX (x) fY|X (y|x) = fY (y) fX|Y (x|y)
∀ x, y .
Beweis. Der Satz folgt unmittelbar aus Definition 10.59. Zusätzlich zu den in den Sätzen 7.45 bzw. 8.11 formulierten Unabhängigkeitskriterien gilt für stetige Zufallsvektoren der folgende Satz. Satz 10.62. Sind X : Ω → Rm und Y : Ω → Rn unabhängige, stetige Zufallsvektoren auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit den Dichten fX bzw. fY , so ist auch (X, Y) stetig mit der Dichte fX,Y = fX fY λm+n –fü . Gilt umgekehrt für einen stetigen Zufallsvektor (X, Y) fX,Y = fX fY λm+n –fü , dann sind X und Y unabhängig. Beweis. Aus der Unabhängigkeit, dem Satz von Fubini und Satz 10.33 folgt P (X, Y)−1 (A × B) = P ([X ∈ A] ∩ [Y ∈ B]) = P ([X ∈ A]) P ([Y ∈ B]) 7 7 7 = fX dλm fY dλn = fX fY dλn+m ∀ A ∈ Bm , B ∈ Bn . A
B
A×B
. Da P (X, Y)−1 auf den messbaren Rechtecken mit ν(C) := C fX fY dλn+m übereinstimmt und diese Rechtecke Bn+m erzeugen, gilt P (X, Y)−1 = ν . Somit ist fX fY die Dichte von (X, Y) . Ist umgekehrt fX fY die Dichte von (X, Y) , so gilt wegen Satz 10.33 7 7 7 P (X, Y)−1 (A × B) = fX fY dλn+m = fX dλm fY dλn A×B
= PX
A −1
(A) P Y
−1
(B)
B
∀ A ∈ Bm , B ∈ Bn ,
d.h. X und Y sind unabhängig. Bemerkung 10.63. Aus dem obigen Satz folgt sofort, dass bei unabhängigen Zufallsvektoren die bedingten Dichten stets mit den jeweiligen Randdichten übereinstimmen, dass also gilt fY|X (y|x) = fY (y) bzw. fX|Y (x|y) = fX (x) , ∀ x, y . d.h. die bedingten Verteilungen sind ident mit den Randverteilungen und daher unbeeinflusst vom Wert des jeweils anderen Zufallsvektors.
10.6 Die Faltung Definition 10.64. Die Faltung der σ-endlichen Maße μ1 und μ2 auf (R, B) ist das durch die Addition S(x, y) := x + y ∀ (x, y) ∈ R2 vom Produktraum (R2 , B2 , μ1 ⊗ μ2 ) auf (R, B) induzierte Maß μ1 ∗ μ2 := μ1 ⊗ μ2 S −1 .
188
10 Produkträume
Lemma 10.65. Sind μ1 , μ2 zwei σ-endliche Maße auf (R, B) , so gilt 7 7 μ1 ∗ μ2 (A) = μ1 (A − y) μ2 (dy) = μ2 (A − x) μ1 (dx) ∀ A ∈ B . (10.36) Beweis. Die Schnitte von S −1 (A) = (x, y) ∈ R2 : x + y ∈ A , A ∈ B sind gegeben durch S −1 (A)y = A − y := {a − y : a ∈ A} und S −1 (A)x = A − x . Gemäß Gleichung (10.17) aus Satz 10.25 gilt deshalb für alle A ∈ B 7 7 $ % μ1 ∗ μ2 (A) = μ1 ⊗ μ2 S −1 (A) = μ1 (A − y) dμ2 (y) = μ2 (A − x) dμ1 (x) . Satz 10.66. Sind μ1 , μ2 , μ3
σ-endliche Maße auf (R, B) , so gilt
1. μ1 ∗ μ2 = μ2 ∗ μ1 , 2. (μ1 ∗ μ2 ) ∗ μ3 = μ1 ∗ (μ2 ∗ μ3 ) , 3. μ1 (R) = μ2 (R) = 1 ⇒ μ1 ∗ μ2 (R) = 1 . Beweis. ad 1. : Dies folgt sofort aus Lemma 10.65. ad 2. : Mit Hilfe des Satzes von Fubini erhält man (μ1 ∗ μ2 ) ∗ μ3 (A) 7 7 7 μ2 (A − z − x) dμ1 (x) dμ3 (z) = μ1 ∗ μ2 (A − z) dμ3 (z) = 7 7 7 = μ2 (A − z − x) dμ3 (z) dμ1 (x) = μ2 ∗ μ3 (A − x) dμ1 (x) = (μ2 ∗ μ3 ) ∗ μ1 (A) = μ1 ∗ (μ2 ∗ μ3 )(A) . ad 3. : Aus R − y = R ∀ y ∈ R und μ1 (R) = μ2 (R) = 1 folgt sofort 7 7 7 μ1 ∗μ2 (R) = μ1 (R−y)dμ2 (y) = μ1 (R)dμ2 (y) = 1dμ2 = μ2 (R) = 1. Bemerkung 10.67. Punkt 3 im obigen Satz besagt, dass μ1 ∗μ2 ein Wahrscheinlichkeitsmaß ist, wenn die μi , i = 1, 2 Wahrscheinlichkeitsverteilungen sind. Dies ist auch intuitiv klar, denn sind X1 und X2 unabhängige Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und sind die μi die zugehörigen induzierten Verteilungen P Xi−1 , so stimmt μ1 ⊗ μ2 mit der gemeinsamen Verteilung P (X1 , X2 )−1 von (X1 , X2 ) überein, und μ1 ∗ μ2 ist die durch X1 + X2 induzierte Verteilung P (X1 + X2 )−1 und daher ebenfalls ein Wahrscheinlichkeitsmaß. Gerade aus dieser Beziehung, dass die Faltung die Verteilung der Summe unabhängiger Zufallsvariabler ist, ergibt sich auch ihre besondere Bedeutung. Satz 10.68. Sind die beiden Maße μ1 , μ2 unbestimmte Integrale bezüglich λ mit reellwertigen Dichten f, g , so gilt
10.6 Die Faltung
7 μ1 ∗ μ2 (A) = A
7 = A
⎡ ⎣ ⎡ ⎣
7
f (s − y) g(y) dλ(y)⎦ dλ(s)
R
7
189
⎤
⎤ g(s − x) f (x) dλ(x)⎦ dλ(s) .
(10.37)
R
Beweis. Für die Abbildungen Ty (x) = x − y , y ∈ R gilt wegen der Translationsinvarianz des Lebesgue-Maßes λTy−1 = λ . Zudem gilt Ty−1 (A − y) = A . Daher folgt aus Lemma 10.65, Satz 9.62 und dem Satz von Fubini ⎡ ⎤ 7 7 7 μ1 ∗ μ2 (A) = μ1 (A − y) dμ2 (y) = ⎣ f (x) λ(dx)⎦ g(y) dλ(y) 7 = R
7 = R
⎡ ⎣
R
7
⎤
⎣
7
A−y
f (x) dλTy−1 (x)⎦ g(y) dλ(y) =
A−y
⎡
R
⎤
f (s − y) dλ(s)⎦ g(y) dλ(y) =
A
⎡
7
⎣
R
7
⎡ ⎣
⎤
7
f ◦ Ty (s) dλ(s)⎦ g(y) dλ(y)
A
7
⎤
f (s − y) g(y) dλ(y)⎦ dλ(s) .
R
A
Die zweite Gleichung in (10.37) folgt aus Symmetriegründen. Definition 10.69. Sind f , g ∈ M+ (R, B) reellwertig, so nennt man 7 7 f ∗ g(s) = f (s − y) g(y) dλ(y) = g(s − x) f (x) dλ(x) R
R
die Faltung oder Faltungsdichte von f und g .
. Bemerkung 10.70. Man beachte, dass die zugehörigen Maße μ1 (A) = A f dλ . und μ2 (A) = A g dλ wegen der Reellwertigkeit von f , g σ-endlich sind (vgl. hiezu die Argumentation im Beweis der Kettenregel – Folgerung 9.50). Satz 10.71. Sind μ1 und μ2 zwei diskrete Lebesgue-Stieltjes-Maße auf (R, B) mit μi (Dic ) = 0 , |Di | ≤ ℵ0 , i = 1, 2 , so ist μ1 ∗ μ2 ebenfalls diskret mit dem Träger D∗ = {x + y : x ∈ D1 , y ∈ D2 } , d.h. μ1 ∗ μ2 (D∗c ) = 0 , und es gilt ! ! μ1 ∗ μ2 ({s}) = μ1 ({s − y}) μ2 ({y}) = μ2 ({s − x}) μ1 ({x}) ∀ s ∈ R. y∈D2
Beweis. μ1 ∗ μ2 (A) =
. D2
x∈D1
μ1 (A − y) dμ2 (y) =
y∈D2
μ1 (A − y) μ2 ({y}) . Da
c c gilt D∗c − y ⊆ D 1 ∀ y ∈ D2 , und D1 eine μ1 - Nullmenge ist, folgt daraus c c μ1 ∗ μ2 (D∗ ) = μ1 (D∗ − y) μ2 ({y}) = 0 . y∈D2 Für A = {s} erhält man μ1 ∗ μ2 ({s}) = μ1 ({s − y}) μ2 ({y}) , und aus y∈D 2 Symmetriegründen gilt auch μ1 ∗ μ2 ({s}) = μ2 ({s − x}) μ1 ({x}) . x∈D1
190
10 Produkträume
Im Folgenden wird die Faltung einiger spezieller Verteilungen untersucht. Dabei verwenden wir bei diskreten Verteilungen die Bezeichnung P (x) statt P ({x}) , wobei P durch das Symbol der jeweiligen Verteilung ersetzt wird, etwa durch Bn,p , wenn eine Binomialverteilung betrachtet wird. Beispiel 10.72 (Faltung von Binomialverteilungen). Bn,p ∗ Bm,p = Bn+m,p , d.h. sind X ∼ Bn,p , Y ∼ Bm,p unabhängig, dann folgt daraus X + Y ∼ Bn+m,p . Für μ1 := Bn,p und μ2 := Bp gilt D1 = {0, . . . , n} und D2 = {0, 1} . Daraus folgt D∗ = {0, . . . , n + 1} , und Satz 10.71 angewendet auf Bn,p und Bp ergibt Bn,p ∗ Bp (k) = Bp (0) Bn,p (k) + Bp (1) Bn,p (k − 1) n k n p (1 − p)n−k + p = (1 − p) pk−1 (1 − p)n−k+1 k k−1 n n + = pk (1 − p)n+1−k = Bn+1,p (k). k−1 k 01 2 / (n+1 k ) Insbesondere gilt B2,p = Bp ∗ Bp und vollständige Induktion führt schließlich zu Bn,p = Bp ∗ Bp ∗ . . . ∗ Bp , d.h. ist X Bn,p - verteilt, so ist X darstellbar / 01 2 n-mal n als Summe X = Xi unabhängiger Zufallsvariabler Xi mit Xi ∼ Bp ∀ i . 1=1
Aus Bn,p ∗ Bp = Bn+1,p und der Annahme Bn,p ∗ Bm−1,p = Bn+m−1,p folgt aber auch Bn,p ∗ Bm,p = Bn,p ∗ Bm−1,p ∗ Bp = Bn+m−1,p ∗ Bp = Bn+m,p , womit diese Beziehung ebenfalls durch vollständige Induktion bewiesen ist. Beispiel 10.73 (Faltung von negativen Binomialverteilungen). Es gilt neg Bn,p ∗neg Bm,p =neg Bn+m,p . Im ersten Schritt zeigen wir, dass neg Bn,p ∗ Gp =neg Bn+1,p .
10.6 Die Faltung
k ! n+i−1
pn (1 − p)i p (1 − p)k−i n − 1 i=0 n+k−1 n+k−2 n n−1 n+1 k + + ... + + =p (1 − p) n−1 n−1 n−1 n−1 n+k−1 n+1 n n = pn+1 (1 − p)k +. . .+ + + n−1 n−1 n−1 n
neg Bn,p
∗ Gp (k) =
191
B B n+k−1 n+2 n+1 n+1 n+1 k =p +. . .+ + + (1 − p) n−1 n−1 n−1 n n+k−1 n+3 n+2 n+2 + ... + + = pn+1 (1 − p)k + n−1 n−1 n−1 n .. . n+1 k n+k =p = neg Bn+1,p (k) . (1 − p) n Der Rest verläuft völlig analog zu Beispiel (10.72) mit der geometrischen Verteilung in der Rolle der Bernoulliverteilung. Somit ist X ∼ neg Bn,p darstellbar n Xi von unabhängigen, Gp - verteilten Zufallsvariablen Xi . als Summe X = i=1
Beispiel 10.74 ( Faltung von Poissonverteilungen ). Pτ ∗ Pρ = Pτ +ρ , d.h. X ∼ Pτ , Y ∼ Pρ , X, Y unabhängig ⇒ X + Y ∼ Pτ +ρ . Pτ ∗ Pρ (k) =
k k ! e−(τ +ρ) ! τ i e−τ ρk−i e−ρ k! = τ i ρk−i i! (k − i)! k! i! (k − i)! i=0
i=0
(τ + ρ)k e−(τ +ρ) = = Pτ +ρ (k) . k! Beispiel 10.75 (Faltung von Gammaverteilungen). Es gilt Γ (a1 , b) ∗ Γ (a2 , b) = Γ (a1 + a2 , b) . Da die Dichte f (x) einer Gammaverteilung für negative x verschwindet, kann das Produkt f1 (x) f2 (s − x) der Dichten f1 , f2 der Gammaverteilungen Γ (a1 , b) , Γ (a2 , b) nur für 0 ≤ x ≤ s von Null verschieden sein. Daher gilt 7s f1 ∗ f2 (s) = 0
xa1 −1 e− b (s−x)a2 −1 e− ba1 Γ (a1 ) ba2 Γ (a2 ) x
e− b = a1 +a2 b Γ (a1 ) Γ (a2 ) s
7s 0
s−x b
dx
xa1 −1 (s−x)a2 −1 dx .
192
10 Produkträume
Die Substitution y =
x s
führt das über in
sa1 +a2 −1 e− b f1 ∗f2 (s) = a1 +a2 b Γ (a1 )Γ (a2 ) s
71
sa1 +a2 −1 e− b B(a1 , a2 ) dy = . ba1 +a2 Γ (a1 ) Γ (a2 ) s
y
a1 −1
(1−y)
a2 −1
0
(a1 ,a2 ) mit der Dichte f einer Dies stimmt bis auf den konstanten Faktor Γ B (a .1 ) Γ (a2 ) . Γ (a1 + a2 , b)-Verteilung überein. Da aber gilt f1 ∗ f2 (s) ds = 1 = f (s) ds , müssen damit auch die konstanten Faktoren von f und f1 ∗ f2 gleich sein. Somit ist Γ (a1 , b) ∗ Γ (a2 , b) = Γ (a1 + a2 , b) gezeigt, und als Nebenprodukt wurde die folgende, aus der Analysis bekannte Gleichung bewiesen
B(a1 , a2 ) =
Γ (a1 ) Γ (a2 ) . Γ (a1 + a2 )
(10.38)
Die Summe von 2 unabhängig Γ (a1 , b) , bzw. Γ (a2 , b) verteilten Zufallsvariablen ist also Γ (a1 + a2 , b) verteilt. Daraus folgt natürlich sofort, dass die Summe einer χ2n -verteilten Zufallsvariablen und einer davon unabhängigen χ2m -verteilten Zufallsvariablen χ2n+m verteilt ist. Unter Berücksichtigung der Tatsache, dass das Quadrat einer N (0, 1)-verteilten Zufallsvariablen χ21 -verteilt ist (siehe Beispiel 9.82), kann man demnach χ2n -verteilte Zufallsvariable immer als Summe der Quadrate von n unabhängigen N (0, 1)-verteilten Zufallsvariablen interpretieren. Ebenso ist die Summe von unabhängigen Ern,τ - und Erm,τ -verteilten Zufallsvariablen Ern+m,τ verteilt und eine Ern,τ -verteilte Zufallsvariable als Summe von n unabhängigen exponentialverteilten Summanden darstellbar. Beispiel 10.76 (Faltung von Normalverteilungen). N (μ1 , σ12 ) ∗ N (μ2 , σ22 ) = N (μ1 + μ2 , σ12 + σ22 ) . Wir beweisen zunächst N (0, 1) ∗ N (0, σ 2 ) = N (0, 1 + σ 2 ) . Sind f1 , f2 die Dichten dieser beiden Normalverteilungen, so gilt 7∞ f1 ∗ f2 (s) = −∞
(s−x)2 1 e− 2σ2 − 2π σ
x2 2
7∞ dx = −∞
(s−x)2 +x2 σ 2 1 2σ 2 e− dx . 2π σ
Formt man den Exponenten im obigen Integral um zu < s2 s2 s 1 − , + 2 − 2 x2 (σ 2 + 1) − 2x σ 2 + 1 √ 2 2σ 2(σ + 1) σ2 + 1 σ + 1 so ergibt das 2
f1 ∗ f2 (s) = √
− 2(σs2 +1)
e √ 2π σ 2 + 1
7∞ −∞
− 2σ12
e
x
√ σ 2 +1− √
√
2π σ
s σ 2 +1
2
< σ 2 + 1 dx ,
10.6 Die Faltung
und die Substitution y = x
√
σ 2 + 1 führt zu
2 − 2(σs2 +1)
e f1 ∗ f2 (s) = √ √ 2π σ 2 + 1
193
7∞
e−
y− √ s σ 2 +1 2σ 2
√
−∞
2π σ
2
−
s2
e 2 (σ2 +1) dy = √ √ . 2π σ 2 + 1
(10.39) Das rechte Gleichheitszeichen in (10.39) gilt, da im Integral die Dichte einer N ( √σs2 +1 , σ 2 )-Verteilung steht, weshalb das Integral den Wert 1 annimmt. Sind also X ∼ N (0, 1) , Y ∼ N (0, σ 2 ) unabhängig, so ist X +Y ∼ N (0, 1+σ 2 ) . Gilt nun X ∼ N (μ1 , σ12 ) , Y ∼ "N (μ2 ,#σ22 ) , X , Y unabhängig, so sind auch X−μ1 σ1
∼ N (0, 1) und
Y −μ2 σ1
X − μ1 + Y − μ 2 ∼N σ1
σ2
∼ N 0, σ22
1
σ2 0, 1 + 22 σ1
unabhängig, und daraus folgt
⇒ X + Y ∼ N (μ1 + μ2 , σ12 + σ22 ) .
11 Zerlegung und Integraldarstellung signierter Maße
11.1 Die Hahn-Jordan-Zerlegung Ist ν das unbestimmte Integral einer Funktion f bezüglich μ, so gilt klarerweise ν(B) ≥ 0 ∀ B ⊆ [f ≥ 0] ∧ ν(B) ≤ 0 ∀ B ⊆ [f < 0] . Wir zeigen in diesem Abschnitt, dass es zu jedem signierten Maß ν eine Menge P ∈ S gibt mit ν(B) ≥ 0 ∀ B ⊆ P , B ∈ S ∧ ν(B) ≤ 0 ∀ B ⊆ N := P c , B ∈ S . Definition 11.1. Ist (Ω, S, ν) ein signierter Maßraum, so nennt man A ∈ S eine ν-positive Menge, wenn ν(B) ≥ 0 ∀ B ⊆ A , B ∈ S , man bezeichnet A als ν-negativ, wenn ν(B) ≤ 0 ∀ B ⊆ A , B ∈ S , und A ist eine ν−Nullmenge, wenn ν(B) = 0 ∀ B ⊆ A , B ∈ S . Definition 11.2. Ist (Ω, S, ν) ein signierter Maßraum, so bilden P ∈ S und P c eine Hahn-Zerlegung {P, P c } von Ω , wenn P positiv ist und P c negativ. Lemma 11.3. Ist (Ω, S, ν) ein signierter Maßraum und ist B ∈ S von endlichem signierten Maß, so haben alle messbaren Teilmengen von B ebenfalls endliches signiertes Maß, d.h. A, B ∈ S ∧ A ⊆ B ∧ |ν(B)| < ∞ ⇒ |ν(A)| < ∞ . Beweis. Dies folgt sofort aus ν(B) = ν(A) + ν(B \ A) für A ⊆ B . Als nächstes verallgemeinern wir die Sätze 3.20 und 3.21 auf signierte Maße. Lemma 11.4. Auf einem signierten Maßraum (Ω, S, ν) gilt für jede monoton An = lim ν(An ) (Stetigkeit von unten). steigende Folge (An ) aus S ν n
n
Ist (An ) monoton fallend und gibt es ein n0 mit |ν(An0 )| < ∞ , so gilt An = lim ν(An ) (Stetigkeit von oben). ν n
n
Beweis. Ist (An ) eine monoton steigende Folge aus S , so gilt mit A0 := ∅
196
11 Zerlegung und Integraldarstellung signierter Maße
ν
=ν
An
n
= lim N
(An \ An−1 )
n N !
ν(An \ An−1 ) = lim ν
n=1
N
=
!
ν(An \ An−1 )
n∈N N
(An \ An−1 )
= lim ν(AN ) . N
n=1
Für An und |ν(An0 )| < ∞ ist die Folge Bn := An0 \ An , n ≥ n0 monoton steigend, und es gilt |ν(Bn )| ≤ |ν(An0 )| < ∞ ∀ n ≥ n0 . Daraus folgt ⎞ ⎛
ν(An0 ) − ν An = ν ⎝ Bn ⎠ = lim ν(Bn ) = ν(An0 ) − lim ν(An ) , n
n
n≥n0
n
Weil ν(An0 ) endlich ist, kann man dies umformen zu ν
An
n
= lim ν(An ) . n
Lemma 11.5. Die negativen Mengen eines signierten Maßraums (Ω, S, ν) bilden einen σ-Ring S− . Beweis. Sind N1 , N2 negativ, so sind N1 ∩ N2 und N1 N2 ebenfalls negativ, da jedes B ⊆ N1 ∩ N2 bzw. B ⊆ N1 N2 Teilmenge von N1 oder N2 ist, und deshalb für solche B ∈ S gilt ν(B) ≤ 0 . Da auch ∅ ∈ S− , ist S− ein Ring. n Für Ni ∈ S− ∀ i ∈ N und B ⊆ Ni , B ∈ S gilt Bn := B ∩ Ni B . i∈N i=1 Ni ist negativ. Daraus folgt nach Lemma 11.4 ν(B) = lim ν(Bn ) ≤ 0 , d.h. n
i∈N
Satz 11.6 (Zerlegungssatz von Hahn). Zu jedem signierten Maßν auf einem Messraum (Ω, S) gibt es eine Hahn-Zerlegung. Beweis. Wir nehmen o.E.d.A. ν : S → (−∞, ∞] , sonst betrachtet man −ν . Ist S− das System der negativen Mengen, γ := inf ν(N ) und (γn ) eine N ∈S−
Folge mit γn > γ ∀ n ∈ N und γn γ , so gibt es zu jedem n ∈ N ein Nn ∈ S− mit ν(Nn ) ≤ γn . Nach Lemma 11.5 ist N := Nn negativ. Daher n
gilt ν(N ) ≤ γn ∀ n ∈ N . Daraus folgt ν(N ) = γ . Somit gilt γ > −∞ . P := N c kann keine negative Menge A mit ν(A) < 0 enthalten, denn sonst stünde ν(A ∪ N ) = ν(A) + ν(N ) < γ im Widerspruch zur Definition von γ . Falls es ein A ⊆ P , A ∈ S mit ν(A) < 0 gibt, muss demnach gelten ε1 := sup{ν(B) : B ∈ S , B ⊆ A} > 0 . Ist ε1 < ∞ , so gibt es ein B1 ⊆ A mit ν(B1 ) ≥ ε21 , ist hingegen ε1 = ∞ , so existiert ein B1 ⊆ A mit ν(B1 ) ≥ 1 . Daher gibt es jedenfalls ein B1 ⊆ A mit ν(B1 ) ≥ δ1 := min ε21 , 1 > 0 . Daraus folgt ν(A \ B1 ) = ν(A) − ν(B1 ) < ν(A) < 0 , und wegen A \ B1 ∈ / S− gilt ε2 := sup{ν(B) : B ∈ S , B ⊆ A \ B 1 } > 0 . Somit existiert eine Menge B2 ⊆ A \ B1 mit ν(B2 ) ≥ δ2 := min ε22 , 1 > 0 . Klarerweise gilt auch ν(A \ B1 \ B2 ) = ν(A \ B1 ) − ν(B2 ) < ν(A \ B1 ) < ν(A) < 0 .
11.1 Die Hahn-Jordan-Zerlegung
197
n−1 Gibt es disjunkte Mengen B1 , . . . , Bn−1 , mit ν A \ Bi < 0 , so folgt i=1 n−1 n−1 − aus A\ Bi ∈ / S wieder εn := sup ν(B) : B ∈ S , B ⊆ A \ Bi > 0 . i=1
εn
i=1
Also existiert ein Bn ⊆ A \ Bi mit ν(Bn ) ≥ δn := min 2 , 1 > 0 und i=1 n n−1 n−1 Bi = ν A \ Bi − ν(Bn ) < ν A \ Bi < 0 . ν A\ n−1
i=1
i=1
i=1
Teilmengen Demnach muss es eine Folge (Bn ) disjunkter, messbarer von A mit ν(Bn ) ≥ δn > 0 ∀ n ∈ N geben. Mit D := A \ Bn gilt A = Bn ∪ D , n∈N n∈N und aus ν(A) = ν(Bn ) + ν(D) folgt sowohl ν(D) < ν(A) < 0 als auch n∈N δn ≤ ν(Bn ) < ∞ . Somit gilt lim δn = 0 , und daraus folgt lim εn = 0 . n∈N
n
n∈N
Aus C ⊆ D ⊆ A\
n
Bi
∀ n ∈ N folgt ν(C) ≤ εn+1
n
∀ n ∈ N , d.h. ν(C) ≤ 0 .
i=1
D ist also negativ mit ν(D) < 0 . Weil P aber keine derartigen Teilmengen enthalten kann, hat damit die Annahme, dass ein A ⊆ P , A ∈ S mit ν(A) < 0 existiert, zu einem Widerspruch geführt. Das bedeutet P ist positiv. Beispiel 11.7. Ω = {−1, 0, 1}, S = P(Ω), ν({ω}) := ω ∀ ω ∈ Ω . Sowohl {{0, 1}, {−1}} , also auch {{1}, {−1, 0}} sind Hahn-Zerlegungen von Ω . Hahn-Zerlegung sind also i.A. nicht eindeutig, aber es gilt der folgende Satz. Satz 11.8. Sind {P1 , P1c } , {P2 , P2c } Hahn-Zerlegungen des signierten Maßraums (Ω, S, ν) mit den positiven Mengen P1 und P2 , so ist die symmetrische Differenz P1 P2 = P1c P2c eine ν-Nullmenge. Beweis. Aus A ⊆ P1 \ P2 = P1 ∩ P2c , A ∈ S folgt ν(A) ≥ 0 ∧ ν(A) ≤ 0 . d.h. ν(A) = 0 . Für A ⊆ P2 \ P1 gilt die Behauptung aus Symmetriegründen. Definition 11.9. Unter einer Jordan-Zerlegung eines signierten Maßes ν auf (Ω, S) , versteht man ein Paar ν + , ν − von singulären Maßen mit ν = ν + − ν − . Die Maße einer Jordan-Zerlegung erfüllen folgende Minimalitätsbedingung. Satz 11.10. Ist ν + , ν − eine Jordan-Zerlegung eines signierten Maßes ν auf (Ω, S) und sind ν1 , ν2 zwei beliebige Maße mit ν = ν1 − ν2 , so gilt ν + (A) ≤ ν1 (A) ∧ ν − (A) ≤ ν2 (A)
∀ A ∈ S.
Beweis. Da es zu ν + ⊥ ν − ein C ∈ S mit ν − (C) = ν + (C c ) = 0 gibt, gilt ν + (A) = ν + (A ∩ C) − ν − (A ∩ C) = ν(A ∩ C) und ν − (A) = −ν(A ∩ C c ) . Daraus folgt ν + (A) = ν(A ∩ C) = ν1 (A ∩ C) − ν2 (A ∩ C) ≤ ν1 (A ∩ C) ≤ ν1 (A) und ν − (A) = −ν(A ∩ C c ) = ν2 (A ∩ C c ) − ν1 (A ∩ C c ) ≤ ν2 (A ∩ C c ) ≤ ν2 (A) . Satz 11.11 (Zerlegungssatz von Jordan). Jedes signierte Maß ν auf einem Messraum (Ω, S) besitzt genau eine Jordan-Zerlegung ν + und ν − .
198
11 Zerlegung und Integraldarstellung signierter Maße
Beweis. Nach Satz 11.6 gibt es eine Hahn-Zerlegung {P, P c } , und die Maße ν + (A) := ν(A ∩ P ) und ν − (A) := −ν(A ∩ P c ) sind singulär mit ν = ν + − ν − . Damit ist die Existenz einer Jordan-Zerlegung gezeigt. Bilden μ+ ⊥ μ− eine weitere Jordan-Zerlegung von ν , so folgt aus Satz 11.10 sowohl ν + ≤ μ+ ∧ ν − ≤ μ− als auch μ+ ≤ ν + ∧ μ− ≤ ν − . Also gilt ν + = μ+ ∧ ν − = μ− , d.h. die Jordan Zerlegung ist eindeutig. Bemerkung 11.12. Man beachte, dass nur die Darstellung eines signierten Maßes als Differenz singulärer Maße eindeutig ist. Hat ν : S → R die JordanZerlegung ν + , ν − , so gilt beispielsweise auch ν = 2ν + − (ν + + ν − ) . Definition 11.13. Die Maße ν + und ν − der Jordan-Zerlegung eines signierten Maßes ν bezeichnet man als seine obere bzw. untere Variation, und das Maß |ν| := ν + + ν − wird Variation oder Totalvariation genannt. Lemma 11.14. Für signierte Maßräume (Ω, S, ν) gilt |ν(A)| ≤ |ν| (A) ∀ A ∈ S. Beweis. |ν(A)| = |ν + (A) − ν − (A)| ≤ ν + (A) + ν − (A) = |ν|(A) . Definition 11.15. Ist (Ω, S, μ) ein signierter Maßraum, so nennt man ein weiteres signiertes Maß ν absolut stetig bezüglich μ , wenn |ν| % |μ| , und μ und ν heißen singulär zueinander, wenn |ν| ⊥ |μ| .
11.2 Die Lebesgue-Zerlegung In diesem Abschnitt wird gezeigt, dass jedes σ-endliche Maß ν auf einem σ-endlichen Maßraum (Ω, S, μ) in ein bezüglich μ absolut stetiges Maß νc und ein zu μ singuläres Maß νs zerlegt werden kann. Definition 11.16. Unter der Lebesgue-Zerlegung eines σ-endlichen Maßes ν auf einem σ-endlichen Maßraum (Ω, S, μ) versteht man zwei Maße νc und νs , für die gilt νc % μ , νs ⊥ μ und ν = νc + νs . Satz 11.17 (Zerlegungssatz von Lebesgue). Zu jedem σ-endlichen Maß ν auf einem σ-endlichen Maßraum (Ω, S, μ) gibt es genau eine Lebesgue-Zerlegung. Beweis. Man darf o.E.d.A. μ und ν als endlich annehmen, da Ω in messbare Teilmengen zerlegt werden kann, auf denen beide Maße endlich sind. n P,i Sind {P,n , P,c } Hahn-Zerlegungen von ν − n μ , so ist die Menge Pn := n
i=1
(ν −n μ)-positiv. Aber da aus (ν −i μ)(A) ≤ 0 für i ≤ n folgt (ν − n μ)(A) ≤ 0 , sind alle P,ic (ν − n μ)-negativ. Daher ist nach Lemma 11.5 das Komplement n P,ic (ν − n μ)-negativ. Somit bilden die {Pn , Pnc } Hahn-Zerlegungen Pnc = i=1 c Pn und Pnc P c = Pn . der signierten Maße ν − n μ mit Pn P := n∈N
n∈N
Für die Maße νc (A) := ν(A ∩ P c ) und νs (A) := ν(A ∩ P ) gilt ν = νc + νs .
11.3 Der Satz von Radon-Nikodym
199
Aus μ(A) = 0 folgt μ(A∩Pnc ) = 0 ⇒ 0 = n μ(A∩Pnc ) ≥ ν(A∩Pnc ) ∀ n ∈ N . Daher gilt auch 0 = ν(A ∩ P c ) = νc (A) . νc ist also absolut stetig bezüglich μ . Aber aus ∞ > ν(Ω) ≥ ν(P ) ≥ n μ(P ) ∀ n ∈ N folgt μ(P ) = 0 , d.h. μ ⊥ νs . Ist ν,c % μ , ν,s ⊥ μ eine zweite Lebesgue-Zerlegung von ν , so folgt aus νc + νs = ν = ν,c + ν,s natürlich νs − ν,s = ν,c − νc . Zudem gibt es eine Menge P, ∈ S mit μ(P, ) = 0 und ν,s (P,c ) = 0 . Aus μ(P ∪ P,) = 0 , und νc % μ , ν,c % μ folgt deshalb ν,c (A) − νc (A) = 0 ∀ A ⊆ P ∪ P, , A ∈ S . Da für jedes A ⊆ P c ∩ P,c , A ∈ S klarerweise νs (A) − ν,s (A) = 0 gilt, ist damit νs (A) − ν,s (A) = ν,c (A) − νc (A) = 0 ∀ A ∈ S , also die Eindeutigkeit, gezeigt.
11.3 Der Satz von Radon-Nikodym . Jedes unbestimmte Integral ν(A) := A f dμ ist absolut stetig bezüglich μ . Daher ist die absolute Stetigkeit eine notwendige Bedingung für die Darstellung eines Maßes als Integral. Nun zeigen wir, dass sie auch hinreichend ist. Ist f eine Funktion auf einem Raum Ω , so folgt aus x < y natürlich Nx := [f ≤ x] ⊆ Ny := [f ≤ y] . Intuitiv kann man den Rand von Nx als Höhenschichtlinie interpretieren, die das Gebiet, in dem f unter der „Höhe “ x liegt, abgrenzt von dem Gebiet, wo f > x ist. So wie man aus den Höhenschichtlinien einer Landkarte Rückschlüsse auf das Landschaftsprofil ziehen kann, so lässt sich die Funktion f aus den Nx rekonstruieren. Lemma 11.18. Zu jeder Familie {Nq : q ∈ Q} messbarer Mengen auf einem Messraum (Ω, S) , für die gilt Nq1 ⊆ Nq2 ∀ q1 < q2 , gibt es eine Funktion f ∈ M(Ω, S) , sodass f ≤ q auf Nq und f ≥ q auf Nqc . Beweis. Für f (ω) := inf{q : ω ∈ Nq } ( inf ∅ = ∞ ) gilt f (ω) ≤ q ∀ ω ∈ Nq , / Np ∀ p ≤ q , gilt auch f (ω)≥ q ∀ ω ∈ Nqc , und, weil aus ω ∈ Nqc folgt ω ∈ Aus ω ∈ Np mit p < q folgt f (ω) < q . Deshalb gilt Np ⊆ [f < q] . p
Da aus f (ω) f (ω) < p < q folgt, gilt auch < q umgekehrt ω ∈ Np für p mit Np , und man erhält [f < q] = Np ∈ S . Somit ist f messbar. [f < q] ⊆ p
p
Wir kommen nun zum Hauptsatz dieses Abschnitts. Satz 11.19 (Satz von Radon-Nikodym). Auf einem σ- endlichen Maßraum (Ω, S, μ) gibt es zu jedem bezüglich μ absolut stetigen Maß ν .eine μ–fü eindeutig bestimmte Funktion f aus M+ (Ω, S, μ) , für die gilt ν(A) = A f dμ ∀ A ∈ S . f ist genau dann reellwertig μ–fü , wenn ν σ-endlich ist. Beweis. Man kann, wie üblich, o.E.d.A. annehmen, dass μ sogar endlich ist. Unter dieser Annahme sind die ν − q μ , q ∈ Q+ signierte Maße, und man kann Ω für jedes q ∈ Q+ in eine (ν − q μ)-positive Menge P,q und eine , (ν − q μ)-negative Menge P,qc zerlegen. Klarerweise ist auch Pq := Pp 0≤p≤q
200
11 Zerlegung und Integraldarstellung signierter Maße
eine (ν − q μ)-positive Menge, und, da für p ≤ q aus ν(P,pc ) − p μ(P,pc ) ≤ 0 folgt ,c Pp (ν − q μ)-negativ. ν(P,pc ) − q μ(P,pc ) ≤ 0 ist nach Lemma 11.5 Pqc = 0≤p≤q Aber zu den Nq := Pqc N := Pqc existiert nach Lemma 11.18 ein q∈Q+
messbares f mit f ≤ q auf Nq und f ≥ q auf Pq , also auch f ≥ 0 auf P0 = Ω .
Abb. 11.1. Beweisskizze zum Satz von Radon-Nikodym
Ist A ∈ S und n ∈ N fest, so kann man A zerlegen in die disjunkten Mengen Ai := A ∩ (N ni \ N i−1 ) und A∞ := A \ ( N ni ) = A ∩ N c . n i∈N . Aus μ(A∞ ) = 0 folgt A∞ f dμ = 0 . Wegen ν % μ gilt auch ν(A∞ ) = 0 , also 7
ν(A∞ ) =
(11.1)
f dμ = 0 . A∞
Die Mengen Ai ⊆ N ni \ N i−1 , i ∈ N erfüllen die folgenden Ungleichungen n
i i−1 μ(Ai ) ≤ ν(Ai ) ≤ μ(Ai ) n n Andererseits gilt auf N ni \ N i−1 bekanntlich n
7
i−1 μ(Ai ) ≤ n
i−1 n
∀ i ∈ N. ≤f ≤
i n
(11.2)
. Das führt zu
f dμ ≤
i μ(Ai ) n
μ(Ai )
∀ i . Daraus und aus (11.1) folgt
∀ i ∈ N.
(11.3)
Ai
+ + . + + Somit gilt +ν(Ai ) − Ai f dμ+ ≤
1 n
11.3 Der Satz von Radon-Nikodym
201
+ + + + + + + + 7 7 ! + !+ + + 1 +ν(A) − f dμ+ ≤ +ν(Ai ) − f dμ+ ≤ 1 μ(Ai ) = μ(A) . + + n + + n + i∈N + + + i∈N A
Ai
.
Demnach ist die Gleichung ν(A) = A f dμ richtig, wenn μ(A∞ ) = 0 . Aus μ(A∞ ) > 0 folgt ν(A∞ ) = ∞ , denn es gilt ν(A∞ ) ≥ .q μ(A∞ ) ∀ q ∈ Q+ . Da auf N c gilt f = ∞ , folgt aus μ(A∞ ) > 0 aber auch A∞ f dμ = ∞ . Des. . halb gilt auch in diesem Fall ν(A) = ν(A∞ ) = ∞ = A∞ f dμ = A f dμ . Dass f μ–fü eindeutig ist, ergibt sich aus Folgerung 9.47. Ist ν σ-endlich, so kann man Ω in Teilräume zerlegen, auf denen μ und ν c c + endlich sind. Auf diesen Räumen folgt
aus ∞ >ν (N ) ≥ q μ (N ) ∀ q ∈ Q , Nq ist f reellwertig. dass gilt μ (N c ) = 0 . Aber auf N = q∈Q+
Ist umgekehrt f reellwertig μ–fü , so ist N c wegen f (ω) = ∞ ∀ ω ∈ Nc eine Nq μ-Nullmenge, sodass aus ν % μ folgt ν(N c ) = 0 . Nun gilt Ω = N c ∪ q∈Q+
mit ν(N c ) = 0 und ν(Nq ) ≤ q μ(Nq ) < ∞
∀ q ∈ Q+ . Somit ist ν
σ-endlich.
Bemerkung 11.20. Schon in Definition 9.48 wurde f als Radon-Nikodymdν eingeführt. Dichte bezeichnet und dafür die Schreibweise f = dμ Wenn μ nicht σ-endlich ist, muss eine Dichte nicht existieren, und andererseits kann es dann auch mehrere Dichten geben, wie das folgende Beispiel zeigt. Beispiel 11.21. Auf (Ω, {∅, Ω}, μ) mit Ω = ∅ , μ(∅) = 0 und μ(Ω) = ∞ gilt . μ(A) = A c dμ ∀ c ∈ R , c > 0 , wie bereits in Bsp 9.45 gezeigt wurde. Andererseits kann es auf diesem Raum zu ν(∅) := 0, ν(Ω) := 1 keine . Funktion f ≥ 0 μ–fü geben mit ν(Ω) = Ω f dμ , obwohl ν % μ . Die Differentiationsregel
dx dy
=
1
dy dx
hat ein Analogon für Dichten.
Lemma 11.22. Sind μ und ν zwei σ-endliche Maße auf einem Messraum (Ω, S) mit ν % μ und μ % ν , so gilt dμ = dν Beweis. Wegen μ(A) =
. A
dν dμ
−1 (11.4)
μ–fü .
1 dμ ∀ A ∈ S gilt natürlich
dμ dμ
tenregel angewendet auf ρ := μ % ν % μ liefert nun 1 =
=1 dμ dμ
=
μ–fü . Die Ketdμ dν dν dμ
μ–fü .
12 Integral und Ableitung
Wie aus der Differential- und Integralrechnung bekannt, ist das unbestimmte .x Riemann-Integral F (x) := c + f (t) dt einer stetigen Funktion f : [a, b] → R a .x ∂ stetig differenzierbar mit F (x) = ∂x f (t) dt = f (x) , d.h. F ist eine a Stammfunktion von f . Ist F umgekehrt auf [a, b] stetig differenzierbar, . x so ist F das unbestimmte Integral seiner Ableitung, also F (x) = F (a) + a F (t) dt . Das Lebesgue-Integral betreffend stellen sich nun folgende Fragen: 1. Unter welchen Voraussetzungen ist F : [a, b] → R darstellbar als Lebesgue. f dλ mit f ∈ L1 ([a, b], B∩[a, b], λ) und welcher Integral F (x) = F (a)+ [a,x]
Zusammenhang besteht zwischen der Ableitung F von F und f ? 2. Welche λ-fü differenzierbaren Funktionen F sind das Lebesgue-Integral ihrer Ableitung F ? Die zur Beantwortung der obigen Fragen benötigten Begriffe stellen wir in den nächsten beiden Abschnitten vor.
12.1 Funktionen von beschränkter Variation Definition 12.1. f : [a, b] → R ist eine Funktion von beschränkter Variation, wenn es eine endliche obere Schranke M gibt, sodass für jede endliche Partition n a = x0 < x1 < · · · < xn = b, n ∈ N von [a, b] gilt |f (xi ) − f (xi−1 )| ≤ M . Vab f
:= sup
i=1 n !
|f (xi ) − f (xi−1 )| : a = x0 < x1 < · · · < xn = b, n ∈ N
i=1
heißt die Totalvariation (oder vollständige Variation) von f auf [a, b] . Das System der Funktionen von beschränkter Variation bezeichnet man mit BV(a, b) := f : [a, b] → R : Vab f < ∞ .
204
12 Integral und Ableitung
Lemma 12.2. Ist f ∈ BV(a, b) , so gilt Vab f = Vac f + Vcb f
∀ c ∈ (a, b) .
Beweis. Ist a = x0 < x1 < · · · < xm = c eine Partition des Intervalls [a, c] und ist c = xm < xm+1 < · · · < xm+n = b eine Partition des Intervalls [c, b] , so ist a = x0 < · · · < xm+n = b eine Partition von [a, b] und es gilt m !
m+n !
|f (xi ) − f (xi−1 )| +
i=1
|f (xj ) − f (xj−1 )| ≤ Vab f .
j=m+1
Da die obigen Partitionen von [a, c] und [c, b] beliebig sind, folgt daraus Vac f + Vcb ≤ Vab f .
(12.1)
Umgekehrt gibt es zu ε > 0 eine Partition a = x0 < · · · < xn = b , sodass n |f (xk ) − f (xk−1 )| . Mit j := min{k : xk ≥ c} gilt Vab f − ε ≤ k=1
Vab f − ε ≤ <
j−1 ! ⎡
n !
|f (xk ) − f (xk−1 )|
k=1
|f (xk ) − f (xk−1 )| + |f (c) − f (xj−1 )|
k=1
+ ⎣ |f (xj ) − f (c)| +
n !
⎤ |f (xk ) − f (xk−1 )| ⎦ ≤ Vac f + Vcb f . (12.2)
k=j+1
Da ε > 0 beliebig ist, folgt aus (12.1) und (12.2) die Aussage des Lemmas. Lemma 12.3. Ist f ∈ BV(a, b) , so sind die Funktionen v(x) := Vax f und w(x) := v(x) − f (x) monoton wachsend. Beweis. Aus Lemma 12.2 folgt sofort, dass v monoton wachsend ist. Für a < x < y < b gilt f (y) − f (x) ≤ |f (y) − f (x)| ≤ Vxy f = v(y) − v(x) . Daraus folgt w(x) = v(x) − f (x) ≤ v(y) − f (y) = w(y) . Der folgende Satz zeigt, dass eine Analogie zwischen den signierten Maßen und den Funktionen von beschränkter Variation besteht, denn er besagt, dass diese Funktionen Differenzen monotoner Funktionen sind. Satz 12.4. Die Funktion f : [a, b] → R ist von beschränkter Variation genau dann, wenn es zwei monoton wachsende Funktionen v , w gibt mit f = v − w . Beweis. Die eine Richtung ergibt sich aus dem obigen Lemma. Ist umgekehrt f = v − w , so gilt für jede Partition a = x0 < · · · < xn = b n ! i=1
|f (xi ) − f (xi−1 )| ≤
n !
( v(xi ) − v(xi−1 ) ) +
i=1
= v(b) − v(a) + w(b) − w(a) < ∞ .
n ! i=1
( w(xi ) − w(xi−1 ) )
12.2 Absolut stetige Funktionen
205
Lemma 12.5. Ist f : [a, b] → R monoton, so existieren die rechts- und linksseitigen Grenzwerte f+ (x), f− (x) ∀ x ∈ (a, b) und es gilt f− (x) ≤ f (x) ≤ f+ (x) . Zudem hat f höchstens abzählbar viele Unstetigkeitsstellen. Beweis. Für monoton wachsendes f , x ∈ (a, b) und hn 0 sind die Funktionswerte f (x + hn ) monoton fallend und von unten durch f (x) beschränkt. Daher existiert der Grenzwert lim f (x + hn ) ≥ f (x) . Die f (x − hn ) n
wachsen monoton mit f (x − hn ) ≤ f (x) , sodass auch f− (x) ≤ f (x) existiert. Da die Menge D = {x ∈ (a, b) : |f+ (x) − f− (x)| > 0} der Unstetigkeitsstellen darstellbar ist in der Form D = x ∈ (a, b) : |f+ (x) − f− (x)| > n1 n
und jede Menge in der Vereinigung endlich ist, gilt |D| ≤ ℵ0 . Definition 12.6. Eine Funktion f : R → R hat in x eine Unstetigkeit 1.ter Art, wenn f+ (x) und f− (x) existieren, aber f+ (x) = f (x) ∨ f− (x) = f (x) gilt. Folgerung 12.7. Jede Funktion f von beschränkter Variation hat höchstens abzählbar viele Unstetigkeitsstellen 1.ter Art und ist daher stetig λ–fü . Beweis. Dies folgt unmittelbar aus Satz 12.4 zusammen mit Lemma 12.5. Bemerkung 12.8. 1. Ist f ∈ BV(a, b) mit f = F − G , wobei F und G monoton wachsend sind und ersetzt man in jeder Unstetigkeitsstelle von F bzw. G den Funktionswert durch den rechtsseitigen Grenzwert, so erhält man zwei Lebesgue-StieltjesVerteilungsfunktionen F+ , G+ und f stimmt mit f+ := F+ − G+ λ–fü überein. f ist also λ–fü die „Verteilungsfunktion“ eines signierten LebesgueStieltjes-Maßes. Dies bedeutet, dass der Begriff der Funktion von beschränkter Variation im Wesentlichen mit dem des signierten Maßes übereinstimmt. 2. Da man die Verteilungsfunktionen F+ und G+ darstellen kann als Summen F+ = Fc + Fd , G+ = Gc + Gd stetiger und diskreter Verteilungsfunktionen Fc , Gc bzw. Fd , Gd , so ist auch f+ = (Fc − Gc ) + (Fd − Gd ) darstellbar als Summe einer stetigen und einer diskreten Funktion.
12.2 Absolut stetige Funktionen Definition 12.9. + Eine Funktion f : [a, b] → R heißt absolut stetig, wenn zu jedem ε > 0 ein δ > 0 existiert, sodass für jede endliche Familie von disjunkten Intervallen (ai , bi ) , i = 1, . . . , n aus [a, b] gilt n ! i=1
(bi − ai ) < δ ⇒
n !
|f (bi ) − f (ai )| < ε .
(12.3)
i=1
Lemma 12.10. Jede auf einem Intervall [a, b] absolut stetige Funktion f ist stetig und von beschränkter Variation.
206
12 Integral und Ableitung
Beweis. Dass eine absolut stetige Funktion stetig ist, ist klar. n n (bi − ai ) < δ ⇒ |f (bi ) − f (ai )| < ε . Zu ε > 0 gibt es ein δ > 0 , sodass i=1
i=1
Für jede Partition a = x0 < · · · < xn = b mit max (xi − xi−1 ) < δ gilt dann 1≤i≤n
i Vxxi−1 f
< ε , und daraus folgt nach Lemma 12.2 Vab f =
n i=1
i Vxxi−1 f ≤ nε.
Satz 12.11. Ist f : [a, b] → R absolut stetig, so ist v(x) := Vax f absolut stetig. Beweis. Wählt man zu ε > 0 ein δ > 0 , sodass disjunkten Intervalle (ai , bi ) , i = 1, . . . , n mit
n
|f (bi ) − f (ai )| < ε für alle
i=1 n
(bi −ai ) < δ und zerlegt man
i=1
jedes (ai , bi ) durch eine beliebige Partition ai = xi,0 < · · · < xi,mi = bi , so gilt mi mi n n n |f (xi,j ) − f (xi,j−1 )| < ε , da (xi,j − xi,j−1 ) = (bi − ai ) < δ . i=1 j=1
i=1 j=1
i=1
Daraus folgt schließlich ⎧ ⎫ mi n ⎨! ⎬ ! sup |f (xi,j ) − f (xi,j−1 )| : ai ≤ xi,0 < . . . < xi,mi = bi ⎩ ⎭ i=1
j=1
=
n !
Vabii f =
i=1
n !
|v(bi ) − v(ai )| < ε .
i=1
Folgerung 12.12. Jede absolut stetige Funktion f : [a, b] → R ist die Differenz zweier monoton wachsender Funktionen F und G , die beide absolut stetig sind. Beweis. Mit f und v ist auch u := v − f absolut stetig. Ist (Ω, S, μ) ein Maßraum, ν ein weiteres Maß auf (Ω, S) , für das es zu jedem ε > 0 ein δ > 0 gibt, sodass μ(A) < δ ⇒ ν(A) < ε ∀ A ∈ S , so ist ν natürlich absolut stetig bezüglich μ . Für endliches ν gilt auch die Umkehrung. Satz 12.13. Ist ν ein endliches Maß auf einem Maßraum (Ω, S, μ) , so gibt es für alle ε > 0 ein δ > 0 mit μ(A) < δ ⇒ ν(A) < ε genau dann, wenn ν % μ . Beweis. Wie oben erwähnt, ist die eine Richtung klar, es genügt daher zu zeigen, dass aus ν % μ die ε, δ- Bedingung folgt. Wir nehmen an, dass die Bedingung nicht gilt, obwohl ν % μ . Dann existiert ein ε > 0 und zu jedem n ∈N ein An ∈ S mit μ(An ) < 21n und Ak gilt dann nach dem ersten Lemν(An ) > ε . Für A := lim sup An = n
n k≥n
ma von Borel-Cantelli (Satz
3.27)μ(A) = 0 . Aber aus Satz 3.21 (Stetigkeit von oben) folgt wegen ν Ak ≥ ν(An ) > ε ∀ n ∈ N , dass ν(A) ≥ ε k≥n
gelten muss. Dies steht im Widerspruch zu ν % μ .
12.2 Absolut stetige Funktionen
207
Folgerung 12.14. Ist F die Verteilungsfunktion eines Lebesgue-Stieltjes-Maßes μ auf ([a, b], B ∩ [a, b]) , so ist F genau dann absolut stetig, wenn μ % λ . Beweis. Da μ als Lebesgue-Stieltjes-Maß endlich auf [a, b] ist, folgt auf Grund des obigen Satzes aus μ % λ , dass es zu jedem ε > 0 ein δ > 0 gibt, son (ai , bi ] eine Vereinigung disdass λ(A) < δ ⇒ μ(A) < ε . Ist nun A = i=1
junkter Intervalle (ai , bi ] , i = 1, . . . , n mit λ(A) = μ(A) =
n
(F (bi ) − F (ai )) =
i=1
n
n
(bi − ai ) < δ , so gilt
i=1
|F (bi ) − F (ai )| < ε , d.h. F ist absolut stetig.
i=1
Ist umgekehrt die Verteilungsfunktion F absolut stetig, so gibt es zu jedem ε > 0 ein δ > 0 , sodass für beliebige disjunkte Intervalle (ai , bi ] , i = 1, . . . , n n n aus (bi − ai ) < δ folgt (F (bi ) − F (ai )) < ε . Da für alle A ∈ B ∩ [a, b] gilt i=1 i=1 ∞ (bi − ai ) : A ⊆ (ai , bi ] (ai , bi ] ∩ (aj , bj ] = ∅ ∀ i = j , gibt λ(A) = inf i=1
i∈N
es zu jeder λ-Nullmenge N disjunkte Intervalle (ai , bi ] mit
∞
(bi − ai ) < δ
i=1
n (ai , bi ] . Damit gilt ( F (bi ) − F (ai ) ) < ε ∀ n ∈ N , und daraus i i=1 ∞ ∞ ( F (bi ) − F (ai ) ) = μ (ai , bi ] ≥ μ(N ) . Also gilt μ(N ) = 0 . folgt ε >
und N ⊆
i=1
i=1
Aus λ(N ) = 0 folgt demnach μ(N ) = 0 , d.h. μ ist absolut stetig bezüglich λ . Wir können nun die erste Frage beantworten. Satz 12.15. Eine Funktion F : [a, b] → R ist genau dann das Lebesgue-Integral einer Funktion f ∈ L1 ([a, b], B ∩ [a, b], λ) , wenn F absolut stetig ist. Beweis. Ist F absolut stetig, so gibt es monoton steigende, absolut stetige Funktionen G und H mit F = G − H . Da für die zu G und H gehörigen Lebesgue-Stieltjes-Maße μG , μH gilt μF % λ , μG % λ , gibt .es RadonG H und h := dμ , sodass μG (A) = g dλ und Nikodym-Dichten g := dμ dλ dλ . .A μH (A) = h dλ ∀ A ∈ B ∩ [a, b] . Daraus folgt F (x) − F (a) = g − h dλ . A
(a,x]
Ist umgekehrt f eine Lebesgue-integrierbare Funktion, so werden durch . . μ+ (A) := f+ dλ und μ− (A) := f− dλ zwei bezüglich λ absolut stetige A
A
Maße μ+ , μ− definiert, deren Verteilungsfunktionen wir mit G und H bezeichnen. Nach Folgerung 12.14 sind G und H . absolut stetig und daher ist f dλ absolut stetig. auch F (x) := G(x) − H(x) − G(a) + H(a) = (a,x]
Definition 12.16. Ist (Ω, S, μ) ein Maßraum, so heißt A ∈ S ein μ-Atom, wenn μ(A) > 0 und wenn für jedes B ∈ S , B ⊆ A gilt μ(B) = 0 ∨ μ(A \ B) = 0 . Gibt es keine μ-Atome in S , so nennt man μ atomlos. Ist μ σ-endlich und
208
12 Integral und Ableitung
existiert eine Folge c von Atomen An , n ∈ N , die auch leer oder endlich sein darf, An = 0 , so wird μ als rein atomar bezeichnet. mit μ n
Satz 12.17. Ein Lebesgue-Stieltjes-Maß auf (R, B) ist genau dann atomlos, wenn seine Verteilungsfunktion F stetig ist. Beweis. Ist F in x nicht stetig, so gilt μ({x}) = F (x) = F− (x) > 0 , aber {x} hat nur ∅ und {x} als Teilmengen und muss daher ein Atom sein. Ist umgekehrt A ein Atom von μ , so gilt An := A ∩ [−n, n] A mit n → ∞ , n ∈ N . Da μ stetig von unten ist, folgt daraus lim μ(An ) = μ(A) > 0 . n
Demnach muss ein N ∈ N existieren mit 0 < μ(AN ) ≤ μ([−N, N ]) < ∞ . Für B ∈ B , B ⊆ AN ⊆ A gilt μ(B) = 0 oder 0 = μ(A \ B) ≥ μ(AN \ B) ≥ 0 . Somit ist auch AN ein Atom und eine der beiden Teilmengen AN ∩ [−N, 0] oder AN ∩ [0, N ] muss dasselbe Maß wie AN besitzen. Man definiert nun I1 := [−N, 0] oder I1 := [0, N ] , je nachdem welche der beiden Teilmengen das Maß μ(AN ) hat (wenn die Maße beider Mengen mit μ(AN ) übereinstimmen, ist es egal 3welches Intervall nimmt). Dann teilt man [a1 , b1 ] := I1 in die 3 aman 1 1 +b1 und . Der Durchschnitt von AN mit einem , b Intervalle a1 , a1 +b 1 2 2 dieser Teilintervalle muss das Maß μ(AN ∩ I1 ) = μ(AN ) besitzen. Auf diese Art erhält man eine monoton fallende Folge von abgeschlossenen Intervallen In mit μ(AN ∩ In ) = μ(AN ) ∀ n ∈ N . In enthält nach Hilfssatz A.31 n 2N mindestens einen Punkt a . Aber wegen λ(In ) = 2n kann kein anderer Punkt in In liegen, d.h. In = {a} . Aber aus ∞ > μ(In ) ≥ μ(AN ) ∀ n ∈ N folgt n
n
F (a) − F− (a) = μ({a}) = lim μ(IN ) ≥ μ(AN ) > 0 , d.h. F ist in a unstetig. n
Bemerkung 12.18. Gemäß Satz 6.25 kann man jede Verteilungsfunktion F darstellen als Summe einer diskreten und einer stetigen Verteilungsfunktion Fd und Fs , sodass für das durch F definierte Maß μ gilt μ = μd + μs , wobei μd das durch Fd bestimmte Maß diskret ist während das zu Fs gehörige Maß μs atomlos ist. μs kann weiter zerlegt werden in μss ⊥ λ und μsc % λ . So erhält man schließlich μ = μd + μss + μsc bzw. F = Fd + Fss + Fsc , wobei Fss die Verteilungsfunktion von μss ist und Fsc die zu μsc gehörige Verteilungsfunktion. Fsc ist absolut stetig, während Fss zwar stetig ist, aber nicht absolut stetig sein kann. Man kann also jede Verteilungsfunktion darstellen als Summe einer Sprungfunktion, einer stetigen Verteilungsfunktion, die nicht absolut stetig ist, und einer absolut stetigen Verteilungsfunktion. Die Verteilungsfunktion F eines endlichen , atomlosen Maßes auf (R, B) ist, wie oben gezeigt, stetig. Da F natürlich monoton ist, ist es surjektiv von R auf [0, μ(R)] . Daher ist auch μ : B → [0, μ(R)] surjektiv. Der nächste Satz zeigt, dass dies für atomlose Maße auf beliebigen Messräumen (Ω, S) gilt. Satz 12.19. Ist μ ein endliches, atomloses Maß auf einem Messraum (Ω, S) , so ist μ : S → [0, μ(Ω)] surjektiv.
12.2 Absolut stetige Funktionen
209
Beweis. Wir beweisen zunächst, dass für jedes A ∈ S mit μ(A) > 0 gilt 0 < r < μ(A) ⇒ ∃ B ∈ S : B ⊂ A ∧ 0 < μ(B) < r .
(12.4)
Würde das nicht stimmen, so müsste für jedes B ⊂ A mit μ(B) > 0 gelten μ(B) ≥ r . Da A kein Atom ist, müsste es eine Menge B1 ⊂ A geben mit 0 < μ(B1 ) < μ(A) ⇒ r ≤ μ(B1 ) < μ(A) ⇒ μ(A \ B1 ) > 0 . Da auch A \ B1 kein Atom ist, müsste ein B2 ⊂ A \ B1 existieren mit 0 < μ(B2 ) < μ(A \ B1 ) . Aber wegen B2 ⊂ A müsste dann sogar gelten r ≤ μ(B2 ) < μ(A\B1 ) . Daraus folgt μ(A \ (B1 ∪ B2 )) > 0 , und, da auch A \ (B1 ∪ B2 ) kein Atom sein kann, müsste ein B3 ⊂ A \ (B1 ∪ B2 ) existieren mit r ≤ μ(B3 ) < μ(A \ (B1 ∪ B2 )) . Auf diese Art könnte man rekursiv eine Folge disjunkter Mengen Bn ⊂ A konstruieren mit r ≤ μ(Bn ) ∀ n ∈ N ⇒ μ(A) = ∞ . Dies widerspricht der Endlichkeitsvoraussetzung, und damit ist unsere obige Behauptung bewiesen. Wir nehmen nun an, dass es ein 0 < a < M := μ(Ω) gibt, sodass gilt μ(A) = a ∀ A ∈ S (0 und M sind klarerweise die zu ∅ und Ω gehörigen Bildpunkte), oder anders ausgedrückt, dass ein 0 < a < M existiert, sodass A ∈ S ⇒ μ(A) < a ∨ μ(A) > a .
(12.5)
Wegen (12.4) gilt 0 < γ1 := sup{μ(A) : A ∈ S ∧ μ(A) < a} . Daher muss es ein A1 ∈ S geben, sodass a > μ(A1 ) ≥ γ21 , und aus Beziehung (12.5) folgt 0 < d1 := a − μ(A1 ) . Also gibt es nach (12.4) ein A ⊂ Ω \ A1 mit 0 < μ(A) < d1 , d.h. 0 < γ2 := sup{μ(A) : A ⊆ Ω \ A1 ∧ μ(A) < d1 } . Daher existiert ein A2 ⊆ Ω \ A1 mit d1 > μ(A2 ) ≥ γ22 . Auch in diesem Fall muss gelten 0 < d2 := a − μ(A1 ) − μ(A2 ) , da ja sonst μ(A1 ∪ A2 ) = a im Widerspruch zu (12.5) stünde. Daher existiert ein A ⊂ Ω \ (A1 ∪ A2 ) mit 0 < μ(A) < d2 ⇒ 0 < γ3 := sup{μ(A) : A ⊆ Ω \ (A1 ∪ A2 ) ∧ μ(A) < d2 } . Demnach existiert ein A3 ⊆ Ω \ (A1 ∪ A2 ) mit d2 > μ(A3 ) ≥ γ23 . Hat man derart die Existenz disjunkter Mengen , . . . , Ak−1 A1k−1 nachgewiek−1 μ(Ai ) < μ Ω \ Ai sen, für die gilt 0 < dk−1 := a − , dann muss i=1 i=1 k−1 Ai geben, für das gilt 0 < μ(A) < dk−1 . Daraus folgt es ein A ⊆ Ω \ i=1 k−1 Ai ∧ μ(A) < dk−1 . Daher gibt aber 0 < γk := sup μ(A) : A ⊆ Ω \ i=1 k−1 Ai mit dk−1 > μ(Ak ) ≥ γ2k , und wegen (12.5) es eine Menge Ak ⊆ Ω \ i=1 k k . muss wieder gelten 0 < dk := a − μ(Ai ) < μ Ω \ Ai i=1
i=1
Demnach muss eine Folge disjunkter Mengen Ak ∈ S existieren, sodass n ∞ μ(Ak ) < a ∀ n ∈ N ⇒ μ Ak = μ(Ak ) ≤ a . Für die Menge k=1 k∈N k=1 ∞ ∞ Ai gilt daher μ(D) = μ(Ω) − μ(Ak ) ≥ μ(Ω) − a > 0 . D := Ω \ i=1
k=1
210
12 Integral und Ableitung
Da aus B ⊆ D folgt B ⊆ Ω \
k−1
Ai
∀ k ≥ 2 , gilt für jedes beliebige
i=1
k ≥ 2 entweder μ(B) ≤ γk oder μ(B) dk−1 γ≥ . k ≤ μ(Ak ) ≤ μ(Ω) < ∞ gegen 0 , Die γk konvergieren aber wegen 2 k
sodass aus μ(B) ≤ γk
k
∀ k ≥ 2 folgt μ(B) = 0 . Gibt es hingegen ein k ∈ N ∞ μ(Ak ) , d.h. für alle B ⊆ D , B ∈ S mit μ(B) ≥ dk , so gilt μ(B) ≥ d := a − k=1
gilt μ(B) = 0 ∨ μ(B) ≥ d . Damit würde d > 0 (12.4) widersprechen, und ∞ bei d = 0 wäre a = μ(Ak ) = μ Ak im Widerspruch zu (12.5). Unsere k=1
k
Annahme führt also in jedem Fall zu einem Widerspruch, und daher muss es zu jedem 0 ≤ a ≤ μ(Ω) ein A ∈ S mit μ(A) = a geben.
12.3 Der Hauptsatz der Differential- und Integralrechnung Wir wenden uns nun der eingangs gestellten zweiten Frage zu, und betrachten zunächst die Ableitungen monotoner Funktionen. (x) , Lemma 12.20. Ist f : [a, b] → R monoton, so sind ∂ r f (x) := lim sup f (y)−f y−x y x
∂r f (x) := lim inf y x
∂l f (x) := lim inf yx
f (y)−f (x) y−x
f (y)−f (x) y−x
und
(x) ∂ l f (x) := lim sup f (y)−f y−x
wie auch
yx
messbar.
Beweis. Die oben definierten Ableitungen existieren, da f monoton ist, Die Menge U der Unstetigkeitsstellen von f ist höchstens abzählbar, daher ist C := (Q ∪ U ) ∩ [a, b] ebenfalls abzählbar aber dicht in [a, b] . Deshalb gilt f (c)−f (x) (x) dn (x) := sup f (y)−f = sup . Nach Satz 7.20 ist daher y−x c−x 1 x
dn und in weiterer Folge auch
1 c∈C∩(x,x+ n ) r ∂ f = inf dn n l r
messbar.
Wegen ∂r f = −∂ (−f ) und ∂ f = ∂ g , ∂l f = ∂r g mit g(x) := f (a + b − x) sind damit auch die anderen Aussagen des Lemmas bewiesen. r
Definition 12.21. Hat f : [a, b] → R nur Unstetigkeiten 1.Art, so heißt x ∈ (a, b) unsichtbar von rechts (für f ), wenn es ein y ∈ (x, b] gibt, sodass fˆ(x) := max{f− (x), f (x), f+ (x)} < f (y) .
(12.6)
Gilt (12.6) für y ∈ [a, x) , so nennt man x unsichtbar von links. Satz 12.22 (Riesz’s Satz von der aufgehenden Sonne). Hat f : [a, b] → R nur Unstetigkeiten 1.Art, so sind die Mengen Uf+ der von rechts unsichtbaren Punkte und Uf− der von links unsichtbaren Punkte Vereinigungen von höchstens abzählbar vielen, disjunkten, offenen Intervallen (an , bn ) , für die im 1-ten Fall gilt f+ (an ) ≤ fˆ(bn ) und im 2-ten Fall fˆ(an ) ≥ f− (bn ) .
12.3 Der Hauptsatz der Differential- und Integralrechnung
211
Abb. 12.1. von rechts unsichtbare Punkte
Beweis. Zu jedem x ∈ (a, b) und alle ε > 0 gibt es δ1 , δ2 > 0 , sodass aus x < y < x + δ1 folgt |f+ (x) − f (y)| < ε während aus x − δ2 < y < x folgt |f− (x) − f (y)| < ε . Ist x ∈ Uf+ , z > x mit fˆ(x) < f (z) , ε < f (z) − fˆ(x) und δ := δ1 ∧ δ2 , so gilt demnach f (y) < fˆ(x) + ε ∀ y ∈ (x − δ, x + δ) . Daraus folgt fˆ(y) ≤ fˆ(x) + ε < f (z) ∀ y ∈ (x − δ, x + δ) , d.h. (x − δ, x + δ) ⊆ Uf+ . Somit ist Uf+ offen, also Uf+ = (an , bn ) mit disjunkten (an , bn ) (Satz A.30). n
Ist f+ (an ) > fˆ(bn ) , so gibt es ein x0 ∈ (an , bn ) mit f (x0 ) > fˆ(bn ) . Auch ∗ x := sup{x ∈ (an , bn ) : f (x) ≥ f (x0 )} muss in (an , bn ) liegen, denn aus x∗ = bn würde folgen f− (bn ) ≥ f (x0 ) im Widerspruch zu f (x0 ) > fˆ(bn ) . Zudem gilt fˆ(x∗ ) ≥ f− (x∗ ) ≥ f (x0 ) > fˆ(bn ) . Da x∗ ∈ (an , bn ) und deshalb unsichtbar von rechts ist, existiert ein z ∈ (x∗ , b] mit f (z) > fˆ(x∗ ) > fˆ(bn ) . Da aus z > bn folgen würde bn ∈ Uf+ , bn aber definitionsgemäß sichtbar ist, muss gelten z < bn . Wegen f (z) > f (x0 ) und x∗ < z < bn widerspricht das aber der Definition von x∗ . Daraus folgt notwendigerweise f+ (an ) ≤ fˆ(bn ) . Ersetzt man f durch g(x) := f (a + b − x) , so erhält man die 2-te Aussage über Uf− , denn die Punkte aus Uf− , sind von rechts unsichtbar für g . Satz 12.23. Die Verteilungsfunktion F eines Lebesgue-Stieltjes-Maßes μ ist auf jeder μ-Nullmenge N λ–fü differenzierbar mit F (x) = 0 λ–fü . (x) = μ(x∧y,x∨y] ≥ 0 folgt ∂F := min{∂l F , ∂r F } ≥ 0 . Es Beweis. Aus F (y)−F y−x λ(x∧y,x∨y] $ 3 -% r genügt daher λ (N ∩ [∂ F > 0]) = λ N ∩ ∂ l F > 0 = 0 zu zeigen. Nun gilt [∂ r F > q] bzw. [∂ l F > 0] = [∂ l F > q] , sodass es [∂ r F > 0] = q∈Q ,q>0
q∈Q ,q>0
sogar reicht λ(N ∩ ([∂ r F > q] ∪ [∂ l F > q]) ) = 0 für q > 0 zu beweisen. Wegen μ(N ) = 0 gibt es zu jedem ε > 0 disjunkte Intervalle (an , bn ] mit N ⊆ (an , bn ] und μ((an , bn ]) = (F (bn ) − F (an )) < ε . n
n
n
Aus ∂ r F (x) > q folgt, dass es in jeder offenen Umgebung um x ein y > x (x) mit F (y)−F > q gibt. Daher sind alle x ∈ [an , bn ] ∩ [∂ r F > q] von rechts y−x unsichtbar für g(x) := F (x) − q x . Daher gibt es nach Satz12.22 disjunkte Intervalle (an,k , bn,k ) ⊆ [an , bn ] mit [an , bn ] ∩ [∂ r F > q] ⊆ (an,k , bn,k ) und k
212
12 Integral und Ableitung
g ˆ(bn,k ) = F (bn,k ) − q bn,k ≥ g+ (an,k ) = F (an,k ) − q an,k ∀ k Daraus folgt (bn,k − an,k ) ≤ 1q (F (bn,k ) − F (an,k ) ) ≤ F (bn ) − F (an ) , und man erhält k k
schließlich λ (an,k , bn,k ) ≤ 1q (F (bn )−F (an ) ) ≤ 1q ε ∀ ε > 0 . Somit n n,k muss N ∩ [∂ r F > q] ⊆ (an,k , bn,k ) für alle q > 0 eine λ-Nullmenge sein. n,k
Die x ∈ [an , bn ]∩[∂ l F > q] sind von links unsichtbar für h(x) := q x − F (x) . Daher gibt es disjunkte Intervalle (cn,k , dn,k ) ⊆ [an , bn ], die [an , bn ] ∩ [∂ l F > q] ˆ überdecken, mit h(cn,k ) = q cn,k1 − F− (cn,k ) ≥ h− (dn,k ) = q dn,k − F− (dn,k ) . Daraus folgt (dn,k − cn,k ) ≤ q (F− (dn,k ) − F− (cn,k ) ) ≤ F (bn ) − F (an ) , k
k (cn,k , dn,k ) ≤ 1q (F (bn ) − F (an ) ) ≤ 1q ε . Deshalb ist auch sodass λ n
n,k
N ∩ [∂ l F > q] für alle q > 0 eine λ-Nullmenge. Damit ist der Satz bewiesen. Folgerung 12.24. Die Verteilungsfunktion F eines zu λ singulären LebesgueStieltjes-Maßes μ ist λ–fü differenzierbar, wobei gilt F = 0 λ–fü . Beweis. Da μ ⊥ λ , gibt es ein N ∈ B mit μ(N ) = 0 und λ(N c ) = 0 . Gemäß Satz 12.23 gilt F = 0 λ–fü auf N . Aber wegen λ(N c ) = 0 ist das äquivalent zu F = 0 λ–fü . Beispiel 12.25. Wir verwenden die Bezeichnungen aus Abschnitt 7.8, d.h C ist die Cantormenge und ihr Komplement auf [0, 1] ist gegeben durch
n−1 n−1 ! xi 1 ! xi 2 [0, 1] \ C = + n, + n . 3i 3 3i 3 n−1 n−1 n∈N x
1
∈{0,1,2}
i=1
i=1
Die Funktion FC : C → [0, 1] aus Satz 7.61, definiert durch
∞ ∞ ! xi ! xi /2 FC := , xi ∈ {0, 2} ∀ i ∈ N i 3 2i i=1 i=1 ist bekanntlich monoton und surjektiv. Die Funktion F* C , definiert durch ⎧ x≤0 ⎨0, x∈C FC (x) , F* C (x) := ⎩ sup{F (y) : y ∈ C , y ≤ x} , x ∈ / C, setzt FC zu einer Funktion auf R fort, die ebenfalls monoton und surjektiv ist. Daher ist F* C stetig und damit Verteilungsfunktion einer Maßfunktion μ mit μ(R) = 1 . Weil F* C aber auf jedem Intervall von [0, 1] \ C , auf (−∞, 0] und [1, ∞) konstant ist, ist jedes dieser Intervalle eine μ-Nullmenge, und deshalb gilt auch μ(C c ) = 0 . Andererseits gilt λ(C) = 0 und daraus folgt μ ⊥ λ , sowie * F* C ist λ–fü differenzierbar mit FC = 0 λ–fü . Offensichtlich gilt
12.3 Der Hauptsatz der Differential- und Integralrechnung
* 1 = F* C (1) − FC (0) >
7
213
F* C dλ = 0 .
[0,1]
F* C wird Cantor-Funktion genannt. Satz 12.26. Ist μ oder −μ ein bezüglich λ absolut stetiges Lebesgue-StieltjesMaß, so ist seine Verteilungsfunktion F λ–fü differenzierbar mit F = dμ λ–fü . dλ " # Beweis. Wir zeigen zunächst, dass gilt λ ∂F := ∂ r F ∨ ∂ l F > dμ = 0 , und dλ ; : ; " # : dμ dμ = genügt es λ = 0 für wegen ∂F > dμ ∂F > q > ∂F > q > dλ dλ dλ q∈Q
alle q ∈ Q zu beweisen. " # . dμ Durch ν(A) := − q dλ ∀ A ∈ B wird ein Lebesgue-Stieltjesdλ A∩ [ dμ ≥q ] dλ # " = 0 . Daher folgt aus Satz 12.23, Maß auf R definiert, für das gilt ν dμ dλ < q : ; < q . dass für die Verteilungsfunktion Fν von ν gilt Fν = 0 λ–fü- auf dμ dλ # # . " dμ . " dμ Nun gilt μ(A) − q λ(A) = dλ − q dλ ≤ dλ − q dλ = ν(A) für A A∩ [ dμ dλ ≥q ] alle beschränkten A ∈ B (beschränkt, damit (μ − q λ)(A) wohldefiniert ist). (x∧y,x∨y] ) (x) ν (x) = F (y)−F − q ≤ Fν (y)−F ∀ x, y ∈ R . Daraus folgt (μ−qλ)( λ((x∧y,x∨y] ) y−x y−x : ; dμ Daher gilt ∂F − q ≤ Fν = 0 λ–fü bzw. ∂F ≤ q λ–fü auf dλ < q . Das ist # " = 0. aber gleichbedeutend mit λ dμ dλ < q < ∂F " # Das obige Ergebnis angewendet auf −μ liefert λ ∂(−F ) > − dμ = 0 . Da dλ # " = 0 . Somit gilt F = dμ −∂(−F ) = ∂F , folgt daraus λ ∂F < dμ λ–fü . dλ dλ Folgerung 12.27. Die Verteilungsfunktion F eines Lebesgue-Stieltjes-Maßes μ c λ–fü , wobei μc das bezüglich λ ist λ–fü differenzierbar mit F = Fc = dμ dλ absolut stetige Mass der Lebesgue-Zerlegung von μ bezeichnet und Fc die zugehörige Verteilungsfunktion. Beweis. Sind Fc und Fs die Verteilungsfunktionen der Maße μc % λ , μs ⊥ λ der Lebesgue-Zerlegung von μ , so gilt F = Fc + Fs . Nach Satz 12.26, und c Folgerung 12.24 gilt weiters Fc = dμ λ–fü und Fs = 0 λ–fü, . Demnach dλ c λ–fü . ist F λ–fü differenzierbar mit F = Fc + Fs = Fc = dμ dλ Wir können nun Folgerung 12.24 umkehren und zeigen, dass ein zum Lebesgue-Maß singuläres Maß durch eine λ–fü verschwindende Ableitung ihrer Verteilungsfunktion charakterisiert wird. Folgerung 12.28. Ein Lebesgue-Stieltjes-Maß μ , für dessen Verteilungsfunktion F gilt F = 0 λ–fü , ist zu λ singulär.
214
12 Integral und Ableitung
Beweis. Nach Folgerung 12.27 gilt mit den dort Bezeichnungen . verwendeten dμc c λ–fü . Daraus folgt μ (A) = λ = 0 ∀ A ∈ B , d.h. 0 = F = dμ c dλ A dλ μc ≡ 0 . Somit gilt μ = μs , und damit ist μ singulär zu λ . Folgerung 12.27 besagt im Wesentlichen, dass monotone Funktionen (bzw. ihre rechtsstetigen Versionen) λ–fü differenzierbar sind. Daraus lässt sich leicht der Satz von Lebesgue über die Differenzierbarkeit von Funktionen von beschränkter Variation herleiten. Satz 12.29 (Satz von Lebesgue über die Differenzierbarkeit von Funktionen mit beschränkter Variation). Ist F : [a, b] → R von beschränkter Variation, so ist F λ–fü differenzierbar. Ist F : [a, b] → R monoton steigend, so ist F λ–fü differenzierbar, und es gilt 7 F (b) − F (a) ≥ F dλ . (12.7) [a,b]
Beweis. F ist als Funktion von beschränkter Variation die Differenz zweier monotoner Funktionen G, H und hat daher nur höchstens abzählbar viele Unstetigkeitsstellen. Die rechtsstetigen Versionen f+ , G+ , H+ stimmen also λ–fü mit F, G, H überein. Da laut Folgerung 12.27 G+ , H+ und damit auch f+ λ–fü differenzierbar sind, sind daher auch F , G , H λ–fü differenzierbar. Ist F monoton steigend, so ist F+ die Verteilungsfunktion eines LebesgueStieltjes-Maßes Lebesgue-Zerlegung μc % λ , μs ⊥ λ besitzt, und . μ , das eine . dμ c für das gilt F dλ = dλ dλ = μc ( (a, b] ) ≤ μ( (a, b] ) = F (b) − F (a) . [a,b]
[a,b]
Der nächste Satz ist eine Verschärfung von Satz 12.15. Satz 12.30 (Hauptsatz der Differential- und Integralrechnung für das Lebesgue-Integral). Ist f : [a, b] → R eine Lebesgue-integrierbare Funktion, so . f dλ absolut stetig und λ–fü differenzierbar mit F = f λ–fü . ist F (x) := [a,x]
Ist F : [a, b] → R absolut stetig, so besitzt F λ–fü eine Ableitung F , die Lebesgue-integrierbar ist und für die gilt 7 F (x) − F (a) = F (t) dλ ∀ x ∈ [a , b] . (12.8) [a,x]
Beweis. Da man f in Positivteil f + und Negativteil f − zerlegen kann und F als Differenz zweier monoton wachsender Funktionen darstellbar ist, darf o.E.d.A. angenommen . werden, dass f ≥ 0 gilt und F monoton wächst. Wegen μ(A) := f dλ % λ ist F als zugehörige Verteilungsfunktion absoA
= f λ–fü . lut stetig und laut Folgerung 12.27 gilt F = dμ dλ Ist F absolut stetig, so ist auch das zugehörige stetig, und . Maß μ.absolut dμ Folgerung 12.27 besagt F = dμ λ–fü ⇒ F dλ = dλ = μ(A) für dλ dλ alle A ∈ B . Mit A := [a , x] ergibt das (12.8).
A
A
13 Lp - Räume
13.1 Integralungleichungen Eine der wichtigsten Integralungleichungen ist die Jensen’sche Ungleichung über den Erwartungswert konvexer Transformationen (siehe Anhang A.6) von Zufallsvariablen. Satz 13.1 (Ungleichung von Jensen). Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, X : Ω → (a, b) eine P - integrierbare Zufallsvariable und ϕ : (a, b) → R konvex, so existiert der Erwartungswert von ϕ ◦ X und es gilt ϕ( EX ) ≤ E( ϕ ◦ X ) .
(13.1)
Beweis. Ist a = −∞, so gilt a = −∞ < EX , da X integrierbar ist; für a ∈ R gilt hingegen wegen X(Ω) ⊆ (a, b) , dass X − a > 0 P –fs ⇒ EX > a . Analog zeigt man EX < b , somit EX ∈ (a , b) ⇒ ϕ( EX ) ∈ R . Ungleichung (A.14) ergibt mit y := X(ω) und x := E X ϕ( X(ω) ) ≥ ϕ( EX ) + ∂ r ϕ( EX ) ( X(ω) − EX )
∀ω ∈Ω.
(13.2)
Da die rechte Seite von (13.2) integrierbar ist (ϕ(EX) , ∂ r ϕ(EX) und EX sind Konstante und X ∈ L1 (Ω, S, P )), existiert das Integral von ϕ ◦ X bezüglich P und Integration von (13.2) ergibt 7 E( ϕ ◦ X ) = ( ϕ ◦ X ) dP 7 7 7 r X dP − EX dP ≥ ϕ( EX ) dP + ∂ ϕ( EX ) = ϕ(EX) + ∂ r ϕ( EX )( EX − EX ) = ϕ(EX) . Bemerkung 13.2. Es ist klar, dass sich die Jensen’sche Ungleichung für konkave Funktionen umkehrt, dass also für konkaves ϕ gilt ϕ( EX ) ≥ E( ϕ ◦ X ) .
(13.3)
13 Lp - Räume
216
Beispiel 13.3. Ein bekannter Spezialfall der Jensen’schen Ungleichung ist die Mittelungleichung ? @ n n ! @
n xi n A , x1 , . . . , xn ∈ R+ . ≤ x ≤ (13.4) i n n 1 i=1
i=1
xi
i=1
ϕ(x) := − ln x ist nach Lemma A.50 auf (0, ∞) konvex, da ϕ (x) = x12 > 0 . Mit Ω := {x1 , . . . , xn } , P (xi ) := n1 , i = 1, . . . , n ergibt (13.1) ⎛
n
n n1 ⎞ n n ! xi
! xi 1 ! ⎝ ⎠ ⇒ ln . (− ln xi ) ≥ − ln xi ≤ ln n i=1 n n i=1 i=1 i=1 Da ln x monoton steigt, folgt daraus die rechte Ungleichung in (13.4). Die linke Ungleichung aus (13.4) erhält man, indem man die rechte Ungleichung auf yi := x1i ∈ R+ , i = 1, . . . , n anwendet. Auch die Hölder’sche Ungleichung lässt sich leicht aus Satz 13.1 herleiten. Satz 13.4 (Ungleichung von Hölder). Sind f , g messbare Funktionen auf einem Maßraum (Ω, S, μ) , so gilt für 1 < p, q < ∞ und p1 + 1q = 1 7
7 |f g| dμ ≤
p
|f | dμ
p1 7
q
|g| dμ
1q .
(13.5)
. . Beweis. Aus |f |p dμ = 0 ∨ |g|q dμ =. 0 folgt f = 0 bzw. g = . 0 q μ–fü , und p dμ = ∞ oder |g| dμ = ∞ . dann ist (13.5) trivial, ebenso wie bei |f | Ansonst ist P (A) := 7
p
|f | q dP = |g|
|g|q dμ A q |g| dμ
7
∀ A ∈ S ein Wahrscheinlichkeitsmaß. Wegen . 7 p p p q |f | dμ |f | |g| |f | . . dμ = <∞ dP = q q q q |g| |g| ( |g| dμ) |g| dμ
[|g|>0] 1
| p ist |f |g|q bezüglich P integrierbar. Da außerdem ϕ := x konkav auf (0, ∞) ist, q folgt unter Berücksichtigung von (13.3) und q − 1 = p p
7
p 7 7 q |f | |g| |f | |g| |f | p dμ = dμ q dP q q−1 . q ( |g| dμ) |g| ( |g| dμ) |g| p %1 $. 7 p1 7 p p1 p p |f | dμ p |f | |f | = dP ≤ = $. q q dP %1 . |g| |g| |g|q dμ p
.
Daraus erhält man sofort p1 7 1− p1 7 p1 7 q1 7 7 p q p q |g| dμ |g| dμ = |f | dμ . |f g| dμ ≤ |f | dμ
13.1 Integralungleichungen
217
Bemerkung 13.5. Der Spezialfall der Hölder’schen Ungleichung für p = q = 2 B7 B7 7 |f |2 dμ
|f | |g| dμ ≤
|g|2 dμ
(13.6)
ist als Cauchy- Schwarz’sche Ungleichung bekannt. Definition 13.6. Die Menge der Funktionenf ∈ M(Ω , S , μ) , für die f p , p ≥ 1 integrierbar ist, wird mit Lp := Lp (μ) := Lp (Ω, S, μ) bezeichnet. Derarti$. %1 p |f | dμ p heißt ge Funktionen werden Lp -integrierbar genannt, !f !p := Lp -Norm von f , und unter einem Lp -Raum Lp := Lp (μ) := Lp (Ω, S, μ) versteht man das System der Äquivalenzklassen μ-fü gleicher Funktionen aus Lp . Bemerkung 13.7. Mit der obigen Bezeichnung kann man die Hölder’sche Ungleichung anschreiben als !f g!1 ≤ !f !p !g!q ,
(13.7)
und in dieser Form gilt sie, wie man leicht sieht, auch für p = 1 und q = ∞ . Die nächste Ungleichung rechtfertigt die Bezeichnung Lp -Norm. Satz 13.8 (Ungleichung von Minkowski). Ist (Ω, S, μ) ein Maßraum, so gilt für 1 ≤ p ≤ ∞ und alle f , g ∈ M , deren Summe f + g μ–fü wohldefiniert ist, !f + g!p ≤ !f !p + !g!p .
(13.8)
Beweis. Gemäß Bemerkung 9.38 bzw. Satz 7.68 Punkt 3. gilt der Satz für p = 1 bzw. p = ∞ , und für !f !p = ∞ oder !g!p = ∞ ist nichts zu beweisen. Aus f, g ∈ Lp mit 1 < p < ∞ , folgt zunächst p
p
p
p
p
p
|f + g| ≤ 2p (|f | ∨ |g|) = 2p (|f | ∨ |g| ) ≤ 2p (|f | + |g| ) .
(13.9)
Daher ist f +g Lp -integrierbar. Aber aus der Dreiecksungleichung folgt weiters 7 7 7 |f + g|p dμ ≤ |f + g|p−1 |f | dμ + |f + g|p−1 |g| dμ . (13.10) " #q p−1 p−1 p p ist |f + g| wegen |f + g| = |f + g| aus Lq , und Für q := p−1 Satz 13.4 angewendet auf die Integrale der rechten Seite von (13.10) ergibt # . $. % 1q " p p |f + g| dμ ≤ !f !p + !g!p . Daraus folgt sofort |f + g| dμ 7 !f + g!p =
p
|f + g| dμ
p1
7 =
p
|f + g| dμ
1− q1
≤ !f !p + !g!p .
218
13 Lp - Räume
Der obige Satz zeigt, dass die Lp (Ω, S, μ) lineare Räume mit einer Seminorm !.!p sind. Deshalb sind die Lp -Räume normiert mit der Norm !.!p . Wir werden im nächsten Abschnitt sehen, dass sie sogar vollständig sind. Die folgenden Ungleichungen spielen vor allem in der Wahrscheinlichkeitstheorie eine wichtige Rolle. Satz 13.9 (Markoff’sche Ungleichung). Ist (Ω, S, μ) ein Maßraum, so gilt für jede Funktion f aus M+ und C > 0 . . f dμ f dμ [ f ≥C ] μ( f ≥ C ) ≤ ≤ . (13.11) C C . . Beweis. C 1[f ≥C] ≤ f ⇒ C μ( f ≥ C ) = C 1[f ≥C] dμ ≤ f dμ . Folgerung 13.10 (Tschebyscheff’sche Ungleichung). Ist f ∈ M(Ω, S, μ) , ϕ : [0, ∞) → [0, ∞) monoton steigend, ϕ(x) > 0 ∀ x > 0 und C > 0 , so gilt . . ϕ ◦ |f | dμ ϕ ◦ |f | dμ [ |f |≥C ] μ( |f | ≥ C ) ≤ ≤ . (13.12) ϕ(C) ϕ(C) Beweis. Da ϕ monoton wächst, gilt [|f | ≥ C] = [ϕ ◦ |f | ≥ ϕ(C)] . Somit folgt (13.12) aus Satz 13.9 angewendet auf g := ϕ ◦ |f | . Bemerkung 13.11. Für ϕ(x) = xk , x ≥ 0 , k > 0 erhält man die Ungleichung . μ( |f | ≥ C ) ≤
.
k
[ |f |≥C ]
|f | dμ
Ck
≤
k
|f | dμ . Ck
(13.13)
Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und X ∈ L2 (Ω, S, P ) , so gilt wegen der Cauchy-Schwarz’schen Ungleichung B7 B7 7 7 √ |X|2 dP 12 dP = EX 2 < ∞ , |X| dP = |X| 1 dP ≤ d.h. X ∈ L1 (Ω, S, P ) , und aus (13.13) mit f := (X − EX) und k = 2 folgt . (X − EX)2 dP E(X − EX)2 [ |X−EX|≥C ] ≤ . P ( |X − EX| ≥ C ) ≤ 2 C C2 (13.14) Mit σ 2 := E(X − EX)2 und C := γ σ erhält man (13.14) in der Form P ( |X − EX| ≥ γ σ ) ≤
1 . γ2
(13.15)
Bemerkung 13.12. Die Namensgebung für die obigen Ungleichungen ist nicht einheitlich. So wird oft (13.13) als Markoff’sche Ungleichung bezeichnet, und mit Tschebyscheff’scher Ungleichung ist (13.14) bzw. (13.15) gemeint.
13.2 Vollständigkeit der Lp -Räume
219
13.2 Vollständigkeit der Lp -Räume Definition 13.13. Eine Folge (fn ) aus Lp (Ω, S, μ) ist eine Cauchyfolge im p-ten Mittel (konvergiert im p-ten Mittel), wenn lim !fn − fm !p = 0 ,
(13.16)
m,n→∞
sie konvergiert im p-ten Mittel gegen f ∈ Lp (i.Z. Lp − lim fn = f ), wenn n
lim !fn − f !p = 0 .
(13.17)
n
Bei p = 1 spricht man von Konvergenz im Mittel und bei p = 2 von quadratischer Konvergenz. Die Konvergenz im p-ten Mittel wird auch Lp -Konvergenz genannt. Bemerkung 13.14. Aus der Konvergenz im p−ten Mittel folgt i.A. keine Konvergenz μ–fü . Die Funktionen fn aus Beispiel 7.84 konvergieren bekanntlich in keinem Punkt von [0, 1] gegen 0 . Aber für 1 ≤ p < ∞ gilt
√ 2 √ 2 n − n n + 1 − n p √ √ , → 0. !fn !p = λ 2 n + 1 2 n + 1 Daher konvergieren die fn im p-ten Mittel gegen 0 . Umgekehrt folgt nicht einmal aus gleichmäßiger Konvergenz, dass eine Folge im p-ten Mittel konvergiert. Die 1 Folge fn (ω) := √ 1 (ω) konvergiert gleichmäßig gegen 0 , aber es gilt p n [0,n] !fn !p = 1
∀ n ∈ N ⇒ lim !fn − 0!p = 0 . n
Aber aus der Konvergenz im p-ten Mittel folgt Konvergenz im Maß. Satz 13.15. Auf jedem Maßraum (Ω, S, μ) gelten für alle p ∈ [1, ∞] und f, fn aus Lp (Ω, S, μ) folgende Beziehungen lim !fn − fm !p = 0
⇒
lim !fn − f !p = 0 ⇒
n→∞
n,m→∞ n→∞
lim μ( |fn − fm | > ε ) = 0 ∀ ε > 0
n,m→∞
lim μ( |fn − f | > ε ) = 0 ∀ ε > 0 .
Beweis. p = ∞ ist trivial, sonst folgt aus (13.13) mit C = ε > 0 und k = p μ( |fn − fm | > ε ) ≤
!fn − fm !pp εp
∧ μ( |fn − f | > ε ) ≤
!fn − f !pp εp
.
Satz 13.16 (Satz von Riesz-Fischer). Für alle p ∈ [1, ∞] besitzt jede auf einem Maßraum (Ω, S, μ) Lp -konvergente Folge (fn ) aus Lp eine Grenzfunktion f ∈ Lp , sodass lim !fn − f !p = 0 , d.h. die Lp (Ω, S, μ) sind Banachräume. n
13 Lp - Räume
220
Beweis. Für p = ∞ wurde die Behauptung bereits in Satz 7.68 bewiesen. Ist 1 ≤ p < ∞ und (fn ) eine Cauchyfolge im p-ten Mittel, so ist (fn ) nach dem obigen Satz auch eine Cauchyfolge im Maß. Auf Grund von Satz 7.85 gibt es daher eine messbare Funktion f und eine Teilfolge (fnk ) , die μ-fast gleichmäßig und daher auch μ-fü (siehe Satz 7.75) gegen f konvergiert. p Ist ε > 0 , so gibt es ein nε : !fn − fm !p < ε ∀ n , m ≥ nε . Daher gilt für p festes n ≥ nε und alle nk ≥ nε !fn − fnk !p < ε , und aus dem Lemma von Fatou (Folgerung 9.32) folgt 7 7 7 |fn − f |p dμ = lim inf |fn − fnk |p dμ ≤ lim inf |fn − fnk |p dμ ≤ ε . k
k
Daher gilt lim !fn − f !p = 0 . Aber aus der obigen Ungleichung und Satz 13.8 n
(Ungleichung von Minkowski) folgt auch !f !p ≤ !fn !p + !f − fn !p < ∞ . . Bemerkung 13.17. Auf L2 (Ω, S, μ) ist )f, g* := f g dμ ein inneres Produkt, und L2 (Ω, S, μ) ist daher ein Hilbert-Raum (siehe Definitionen A.74 und A.80). Bemerkung 13.18. In der Literatur wird häufig folgende Aussage als Satz von Riesz-Fischer bezeichnet: Ist {ei }i∈I ein Orthonormalsystem (siehe Definition A.81) auf einem Hilbertraum H und {αi }i∈I eine Familie komplexer Zahlen, so existiert ein h ∈ H mit den Fourier-Koeffizienten αi , d.h. αi = )h, ei * ∀ i ∈ I , 2 αi < ∞ . genau dann, wenn i∈I
Dies ist insoferne irreführend, als dabei die Vollständigkeit des Raumes vorausgesetzt wird. Riesz hat aber beim Beweis seines entsprechenden Satzes über die Fourier-Koeffizienten im L2 die Vollständigkeit des Raumes L2 erst nachgewiesen. Als nächstes wird ein Kriterium für die Lp -Konvergenz vorgestellt. Das folgende auf Riesz zurückgehende Resultat dient dazu als Hilfsmittel. Satz 13.19. Ist (Ω, S, μ) ein Maßraum und 1 ≤ p < ∞ , so gilt für jede Lp −integrierbare Folge (fn ) lim fn = f n
μ–fü ∧ lim !fn !p = !f !p < ∞ ⇒ lim !f − fn !p = 0 . n
n
p
p
p
Beweis. Da nach (13.9) gilt |f − fn | − 2p (|f | + |fn | ) ≤ 0 ∀ n ∈ N , folgt aus dem Lemma von Fatou 7 7 7 |f |p dμ + |f |p dμ = lim sup (|f − fn |p − 2p (|f |p + |fn |p ) ) dμ −2p n 7 7 7 |f − fn |p dμ − 2p |f |p dμ − 2p |fn |p dμ ≥ lim sup n 7 7 7 p p p |f | dμ − 2p lim |fn | dμ = lim sup |f − fn | dμ − 2p n n 7 7 7 p p p p |f | dμ + |f | dμ . = lim sup |f − fn | dμ − 2 n
13.2 Vollständigkeit der Lp -Räume
221
$. % . |f.|p dμ + |f |p dμ zu beiden Seiten Addiert man 2p er. der Ungleichung, p p gibt das 0 ≥ lim sup |f − fn | dμ ≥ 0 . Somit gilt lim |f − fn | dμ = 0 . n
n
Satz 13.20. Ist (Ω, S, μ) ein Maßraum und 1 ≤ p < ∞ , so konvergiert eine Folge (fn ) aus Lp genau dann im p-ten Mittel, wenn (fn ) im Maß gegen ein f ∈ Lp konvergiert und gilt lim !fn !p = !f !p . n
Beweis. Konvergiert (fn ) im p-ten Mittel, so gibt es nach Satz 13.16 ein f ∈ Lp mit lim !fn − f !p = 0 , und aus Satz 13.15 folgt μ − lim fn = f . n
n
Da aus !f !p ≤ !f − fn !p + !fn !p und !fn !p ≤ !f − fn !p + !f !p aber folgt | !f !p − !fn !p | ≤ !f − fn !p , gilt auch lim !fn !p = !f !p . n
Konvergiert umgekehrt (fn ) im Maß gegen f , so existiert nach Satz 7.85 eine Teilfolge (fnk ) mit lim fnk = f μ–fü . Da voraussetzungsgemäß gilt k
f ∈ Lp und lim !fnk !p = !f !p , folgt aus Satz 13.19 lim !f − fnk !p = 0 . k
k
Würde (fn ) nicht im p-ten Mittel C gegen f Ckonvergieren, so müsste es ein ε > 0 und eine Teilfolge (fmj ) mit Cf − fmj Cp ≥ ε ∀ j geben. Aber wegen C C " # C C μ − lim fmj = f müsste (fmj ) eine Subfolge fmjh mit lim Cf − fmjh C = 0 j
h
p
haben. Da das der Definition von (fmj ) widerspricht, gilt lim !f − fn !p = 0. n
Auch das folgende Ergebnis, das einen Zusammenhang zwischen der Konvergenz von Verteilungen und der Konvergenz ihrer Dichten herstellt, hat Riesz mit Satz 13.19 in wesentlich allgemeinerer Form vorweggenommen. Satz 13.21 (Satz von Scheffé). Sind νn , ν Maße auf einem σ-endlichen Maßraum (Ω, S, μ) mit νn , ν % μ und νn (Ω) = ν(Ω) < ∞ ∀ n ∈ N , so gilt dνn dν = μ–fü ⇒ lim sup |νn (A) − ν(A)| = 0 . n A∈S dμ dμ + + + +. . dν + . ++ dνn . ++ dνn dν + n +≤ + dμ − dμ − dμ ≤ Beweis. Wegen ++ dν + + dμ − dμ dμ dμ dμ + lim n
A
A
(13.18) +
dν + dμ +
dμ ist
A
das nur ein Sonderfall von Satz 13.19 für fn , f ≥ 0
μ–fü und p = 1 .
Beispiel 13.22 (Poisson-Approximation der Binomialverteilung). Auf (N0 , P(N0 ), ζ) mit ζ(A) := |A| sind die fn , definiert durch $ % n pn ω (1 − pn )n−ω , 0 ≤ ω ≤ n ω fn (ω) := 0, sonst mit 0 < pn < 1 ∀ n Dichten von Binomialverteilungen Bn,pn bezüglich ζ . Aus lim n pn = θ > 0 (d.h. die Erwartungswerte n pn der Bn,pn konvergieren n
gegen eine Konstante θ) folgt lim pn = 0 und man erhält n
13 Lp - Räume
222
ω−1 n 1
pn ω (1 − pn )n−ω = lim fn (ω) = lim lim [(n − i) pn ] lim(1 − pn )n−ω n n n ω ω! i=0 n =
θω θ ω lim θ ω −θ [−pn (n−ω)] lim e(n−ω) ln(1−pn ) = en e = ω! n ω! ω!
∀ ω ∈ N0 .
ω
Für f (ω) := θω! e−θ ∀ ω ∈ N0 gilt somit lim fn = f ζ–fü . n ∞ . θ ω −θ θ −θ Wegen f dζ = e = e e = 1 ist das unbestimmte Integral Pθ ω! N0
ω=0
von f ein Wahrscheinlichkeitsmaß, und daher folgt aus dem obigen Satz sup | Bn,pn (A) − Pθ (A) | → 0 , wobei sich die Notation von selbst erklärt. A⊆N0
Die Grenzverteilung Pθ kennen wir bereits aus Beispiel 6.32, es ist die Poissonverteilung mit dem Parameter θ > 0 . Wegen lim n pn = θ sollte X ∼ Pθ die Erwartung θ haben. Tatsächlich gilt n
EX =
∞ !
x
x=0
∞ ∞ ! ! θx −θ θ x−1 −θ θy e =θ e = θ e−θ = θ e−θ eθ = θ . x! (x − 1)! y! x=1 y=0
Ist 1 ≤ p < q , so folgt aus f ∈ Lq i.A. nicht f ∈ Lp und aus !fn − f !q → 0 folgt nicht !fn − f !p → 0 , wie die folgenden Beispiele zeigen. Beispiel 13.23. Auf ( [1, ∞), B ∩ [1, ∞), λ) ist f (x) := x1 , + x ≥ 1 quadratisch . .∞ ∞ integrierbar, denn es gilt [1,∞) f 2 dλ = 1 x12 dx = − x1 +1 = 1 , aber f ist + . .∞ ∞ wegen [1,∞) f dλ = 1 x1 dx = ln(x) +1 = ∞ nicht integrierbar. Beispiel 13.24. Auf (R, B, λ) gilt für fn :=
1 n
1[0,n] , n ∈ N
1 lim !fn − 0!2 = lim √ = 0 , aber !fn − 0!1 = 1 n n n
∀ n ∈ N.
Anders sieht die Situation auf endlichen Maßräumen, also insbesondere auf Wahrscheinlichkeitsräumen aus, denn dann gilt der folgende Satz. Satz 13.25. Auf endlichen Maßräumen (Ω, S, μ) gilt für 1 ≤ p ≤ q Lq ⊆ Lp , zudem konvergiert jede Lq -konvergente Folge (fn ) aus Lq auch im p-ten Mittel, und aus lim !fn − f !q = 0 folgt lim !fn − f !p = 0 . n
n
Beweis. Der Fall q = ∞ ist trivial, und bei q = p gibt es nichts zu beweisen. q Für 1 ≤ p < q ergibt die Hölder’sche Ungleichung mit r := pq > 1 und s := q−p 7
7 p
|f | |1| dμ ≤
p r
(|f | ) dμ
r1 7
s
|1| dμ
1s
7 =
q−p
q
|f | dμ
pq
1
(μ(Ω)) s .
Für f ∈ Lq gilt daher !f !p ≤ !f !q μ(Ω) p q < ∞ , d.h. f ∈ Lp . Ersetzt man in dieser Ungleichung f durch fn − fm bzw. durch fn − f ,
13.3 Gleichmäßige Integrierbarkeit
so folgt daraus 0 ≤ lim sup !fn − fm !p ≤ lim !fn − fm !q μ(Ω) n,m
n,m
0 ≤ lim sup !fn − f !p ≤ lim !fn − f !q μ(Ω)
q−p pq
n
n
q−p pq
223
und
, Damit ist der Satz bewiesen.
Für endliche Maßräume lässt sich auch folgende Aussage treffen. Satz 13.26. Ist (Ω, S, μ) ein endlicher Maßraum, so gilt lim !f !p = !f !∞ . p→∞
Beweis. Bei μ(Ω) = 0 ist nichts zu beweisen, und für μ(Ω) > 0 folgt aus . 1 |f |p dμ ≤ !f !p∞ μ(Ω) !f !p ≤ !f !∞ μ(Ω) p . Somit gilt die Ungleichung lim sup !f !p ≤ !f !∞
1
lim μ(Ω) p
p→∞
= !f !∞ .
. p Umgekehrt gilt nach der Ungleichung von Markoff |f | dμ ≥ C p μ(|f | ≥ C) 1 für alle C > 0 . Daraus folgt lim inf !f !p ≥ C lim μ(|f | ≥ C) p . Da für p→∞
p→∞
p→∞
0 < C < !f !∞ gilt μ ( |f | ≥ C) > 0 , ergibt sich daraus lim inf !f !p ≥ !f !∞ . p→∞
Man beachte, dass der obige Beweis und damit der Satz auch für !f !∞ = ∞ gilt, aber die Endlichkeit von μ ist, wie das folgende Beispiel zeigt, wesentlich. Beispiel 13.27. Auf (R , B , λ) gilt !1R !∞ = 1 ∧ !1R !p = ∞ ∀ 1 ≤ p < ∞ .
13.3 Gleichmäßige Integrierbarkeit Ein 2-tes Kriterium für die Lp -Konvergenz beruht auf dem Konzept der gleichmäßigen Integrierbarkeit, das wir hier nur für endliche Maßräume vorstellen. Definition 13.28. Eine Familie {fi , i ∈ I} messbarer Funktionen auf einem endlichen Maßraum (Ω, S, .μ) heißt gleichmäßig integrierbar, wenn es zu jedem ε > 0 ein c gibt, sodass sup [|fi |≥c] |fi | dμ < ε . i
Satz 13.29. Auf einem endlichen Maßraum (Ω, S, μ) ist eine Familie messbarer Funktionen {fi , i ∈ I} genau dann gleichmäßig integrierbar, wenn die untenstehenden Bedingungen 1. und 3. oder 2. und 3. gelten. . 1. C := sup |fi | dμ < ∞ . i
2. lim sup μ ( |fi | ≥ c ) = 0 .
c→∞ i . 3. ∀ ε > 0 ∃ δ > 0 : μ(A) < δ ⇒ sup A |fi | dμ < ε , d.h. die Maße i . νi (A) := A |fi | dμ sind gleichmäßig absolut stetig bezüglich μ .
Beweis. Punkt 1. folgt aus der gleichmäßigen Integrierbarkeit, denn 7 7 7 |fi | dμ+ |fi | dμ ≤ c μ ( |fi | < c )+ε ≤ c μ(Ω)+ε |fi | dμ = [|fi |
[|fi |≥c]
∀ i.
13 Lp - Räume
224
Punkt 1. impliziert Punkt 2., da wegen Satz 13.9 (Markoff-Ungleichung) gilt 7 1 C C |fi | dμ ≤ ∀ i ⇒ lim sup μ ( |fi | ≥ c ) ≤ lim = 0. μ ( |fi | ≥ c ) ≤ c→∞ i c→∞ c c c Ist {f.i , i ∈ I} gleichmäßig integrierbar und wird c zu ε > 0 so gewählt, dass sup [|fi |≥c] |fi | dμ < 2ε , so gilt für A ∈ S mit μ(A) < δ := 2εc und alle i i
7
7
7
|fi | dμ =
|fi | dμ + A∩[|fi |≥c]
A
|fi | dμ ≤
ε ε ε + c μ(A) = + = ε . 2 2 2
A∩[|fi |
Die gleichmäßige Integrierbarkeit impliziert demnach auch Punkt 3. Gelten umgekehrt die Punkte 2. und 3. und wählt man c so, dass nach Punkt 2. gilt . gemäß Punkt 3. für jedes i ∈ I . μ( |fi | ≥ c ) < δ ∀ i ∈ I , so muss gelten sup [|fi |≥c] |fj | dμ < ε . Daraus folgt [|fi |≥c] |fi | dμ < ε ∀ i ∈ I , also j
die gleichmäßige Integrierbarkeit. Klarerweise folgt die gleichmäßige Integrierbarkeit damit auch aus den Punkten 1. und 3., denn 2. ist schwächer als 1. Bemerkung 13.30. Nach Punkt 1. des obigen Satzes sind natürlich alle Funktionen einer gleichmäßig integrierbaren Familie {fi , i ∈ I} integrierbar. Das Lemma von Fatou und der Satz über die Konvergenz durch Majorisierung können für gleichmäßig integrierbare Folgen verallgemeinert werden. Satz 13.31. Ist (fn ) eine Folge gleichmäßig integrierbarer Funktionen auf einem endlichen Maßraum (Ω, S, μ) , so gilt . . . . 1. lim inf fn dμ ≤ lim inf fn dμ ≤ lim sup fn dμ ≤ lim sup fn dμ . n n n . .n μ 2. Aus fn → f oder lim fn = f μ–fü folgt f ∈ L1 und lim fn dμ = f dμ . n
n
Beweis. Wählt man für ε > 0 ein c ≥ 0 mit sup n
7
7
7
fn dμ =
fn dμ + [fn ≥−c]
. [|fn |≥c]
|fn | dμ < ε , so gilt
7 fn dμ ≥
fn dμ − ε
∀ n ∈ N.
[fn ≥−c]
[fn <−c]
(13.19) Aber für fn 1[fn ≥−c] ≥ −c gilt nach Folgerung 9.32 (Lemma von Fatou) 7 7 lim inf fn 1[fn ≥−c] dμ ≤ lim inf fn 1[fn ≥−c] dμ . (13.20) n
n
Aus lim inf fn ≤ lim inf fn 1[fn ≥−c] , (13.19) und (13.20) folgt nun n
n
13.3 Gleichmäßige Integrierbarkeit
7
225
7 lim inf fn dμ − ε ≤
lim inf fn dμ − ε
n
n
[fn ≥−c]
7
7
fn dμ − ε ≤ lim inf
≤ lim inf n
fn dμ .
n
[fn ≥−c]
Da ε > 0 beliebig ist, impliziert das die linke Ungleichung in Punkt 1. Unter Berücksichtigung von − lim inf (−fn ) = lim sup fn ergibt sich daraus, n
n
angewendet auf (−fn ) die. rechte Ungleichung in Punkt 1. Damit gilt auch . lim fn = f μ–fü ⇒ lim fn dμ = f dμ , also der 1-te Teil von Punkt 2. n
n
Konvergiert (fn ) hingegen im Maß gegen f , so gibt es nach Satz 7.85 eine Teilfolge (fnk ) mit lim fnk = f μ–fü , woraus, wie eben gezeigt, folgt k . . . . lim fnk dμ = f dμ . Würde fn dμ nicht gegen f dμ konvergieren, so k +. + $ % . + fm dμ − f dμ+ > ε für müsste es ein ε > 0 und eine Teilfolge f mit m j j % $ f konvergiert, müsste alle j ∈ N geben. " Da # aber$auch% fmj im Maß gegen . . eine Subfolge fmjh von fmj existieren mit lim fmjh dμ = f dμ . Das h % . $ . widerspricht der Definition von fmj , also gilt lim fn dμ = f dμ . n
Wir können nun das zweite Kriterium für die Lp -Konvergenz formulieren. Satz 13.32. Auf einem endlichen Maßraum (Ω, S, μ) konvergiert eine Folge p (fn ) aus Lp , 1 ≤ p < ∞ genau dann im p-ten Mittel, wenn die |fn | gleichmäßig integrierbar sind und (fn ) im Maß konvergiert. Beweis. Konvergiert (fn ) im p-ten Mittel, so gibt es nach Satz 13.20 ein f ∈ Lp , sodass lim !fn − f !p = 0 ∧ lim !fn !p = !f !p < ∞ . Daher gilt n n . p C := sup |fn | dμ < ∞ . Deshalb existiert aber auch zu jedem ε > 0 ein n
1
nε ∈ N , sodass für alle n > nε gilt !fn − f !p ≤ 12 ε p . Außerdem gibt es . p ein δ > 0 , sodass aus μ(A) < δ folgt A |f | dμ ≤ 2−p ε . Daraus und aus !fn 1A !p ≤ !f 1A !p + !(fn − f ) 1A !p ≤ !f 1A !p + !fn − f !p folgt, dass für A ∈ S mit μ(A) < δ und n > nε gilt p 7 1 p1 1 1 p ε + εp |fn | dμ ≤ = ε. 2 2 A
Da . es pfür alle i mit 1 ≤ i ≤ nε ein δi > 0 gibt, sodass aus μ(A) < δi folgt .A |fi | p dμ ≤ ε . gilt für jedes A ∈ S mit μ(A) p< min{δ, δ1 , . . . , δnε } natürlich |f | dμ ≤ ε ∀ n ∈ N . Somit sind die |fn | nach Satz 13.29 gleichmäßig A n integrierbar. Aus Satz 13.15 folgt schließlich μ − lim fn = f . n
Konvergiert andererseits (fn ) im Maß, so gibt es nach Satz 7.85 ein f ∈ M p p μ–fü . und eine Teilfolge (fnk ) mit lim fnk = f μ–fü ⇒ lim |fnk | = |f | k
k
226
13 Lp - Räume p
Da die (|fnk | ) gleichmäßig integrierbar sind, folgt nach Satz 13.31 Punkt 2. lim !fnk !p = !f !p . Nach Satz 13.19 gilt dann auch lim !fnk − f !p = 0 . k
k
Würde !fn − f !p nicht gegen 0 konvergieren, so müsste es ein ε > 0 und C C % $ eine Teilfolge fmj mit Cfmj − f Cp > ε ∀ j ∈ N geben. Aber wegen " # % $ μ − lim fmj = f müsste eine Subfolge fmjh von fmj existieren mit j C C C C lim Cfmjh − f C = 0 . Das ist ein Widerspruch, also gilt lim !fn − f !p = 0 . h
n
p
Bemerkung 13.33. Konvergiert eine Folge Lp -integrierbarer Funktionen fn auf p einem endlichen Maßraum im Maß, so sind die |fn | auf Grund der Sätze 13.20 und 13.32 genau dann gleichmäßig integrierbar, wenn die Grenzfunktion f Lp -integrierbar ist und gilt lim !fn !p = !f !p < ∞ . n
13.4 Der Dualraum zu Lp (Ω, S, μ) In diesem Abschnitt wird gezeigt, dass der Dualraum (siehe Definition A.73) zu Lp (Ω, S, μ) , 1 ≤ p < ∞ gerade der Raum Lq (Ω, S, μ) mit p1 + 1q = 1 ist. Für 1 < p < ∞ gilt dies auf beliebigen Maßräumen und für p = 1 , wenn das Maß σ-endlich ist. Wir beweisen zunächst ein paar Hilfssätze. Lemma 13.34. Ist (Ω, S, μ) ein Maßraum, so gibt es zu f ∈ Lp , 1 ≤ p ≤ ∞ eine Folge (tn ) aus T(Ω, S) mit !tn !p ≤ !f !p ∀ n ∈ N und lim !f − tn !p = 0 . n
Beweis. Für die im Beweis von Satz 7.30 konstruierte Folge (tn ) gilt offensichtlich |tn | ≤ |f | ∀ n ∈ N und lim tn = f μ–fü . Daraus folgt klan
rerweise !tn !p ≤ !f !p , 1 ≤ p ≤ ∞ und |f − tn |p ≤ (2 |f |)p sowie lim |f − tn |p = 0 μ–fü für 1 ≤ p < ∞ . Somit impliziert der Satz über die n
Konvergenz durch Majorisierung lim !f − tn !p = 0 für 1 ≤ p < ∞ . n
Ist p = ∞ , so konvergieren die tn bekanntlich gleichmäßig gegen f , sodass in diesem Fall lim !f − tn !∞ = 0 trivialerweise gilt. n
Lemma 13.35. Ist (Ω, S, μ) ein Maßraum, p ∈ (1 , ∞) und q := 1 1 p + q = 1 , so wird zu jedem g ∈ Lq (Ω, S, μ) durch
p p−1
, d.h.
7 Tg (f ) :=
f g dμ ,
f ∈ Lp (Ω, S, μ)
(13.21)
ein beschränktes, lineares Funktional auf Lp (Ω, S, μ) mit !Tg ! = !g!q definiert. Ist μ σ-endlich, so gilt die obige Aussage auch für p = 1 und q = ∞ . Beweis. Ist. p = 1 , q =. ∞ , f ∈ L1 und g ∈ L∞ , so gilt offensichtlich |Tg (f )| ≤ |f | |g| dμ ≤ |f | !g!∞ dμ ≤ !g!∞ !f !1 ⇒ !Tg ! ≤ !g!∞ . Um !Tg ! ≥ !g!∞ zu zeigen, nehmen wir zunächst μ(Ω) < ∞ an. Dann sind
13.4 Der Dualraum zu Lp (Ω, S, μ)
227
die Funktionen gM := (sgn g) 1[ |g|≥M ] , M ≥ 0 wegen |gM | ≤ 1 integrierbar, und es gilt |gM | = 1[ |g|≥M ] , sowie !gM !1 = μ( |g| ≥ M ) . Daraus folgt +7 + + + + gM g dμ+ ≤ !Tg ! !gM !1 = !Tg ! μ( |g| ≥ M ) . (13.22) + + Aber wegen gM g = |g| 1[ |g|≥M ] ≥ 0 und der Markoff’schen Ungleichung gilt +7 + 7 7 + + + gM g dμ+ = gM g dμ = |g| dμ ≥ M μ( |g| ≥ M ) . (13.23) + + [ |g|≥M ]
Aus 13.22 und 13.23 folgt, dass M > !Tg ! nur dann gelten kann, wenn μ( |g| ≥ M ) = 0 . Somit ist g μ–fü beschränkt mit !g!∞ ≤ !Tg ! . Ist μ σ-endlich und bilden die En , n ∈ N eine messbare Zerlegung von Ω mit μ(En ) < ∞ ∀ n ∈ N , so muss !g 1En !∞ ≤ !Tg 1En ! ∀ n ∈ N gelten. Aber aus !f !1 ≤ 1 folgt !f 1En !1 ≤ 1 ∀ n ∈ N , und dies impliziert + +7 + + !Tg 1En ! = sup ++ (f 1En ) g dμ++ : !f !1 ≤ 1 + +7 + + ≤ sup ++ f g dμ++ : !f !1 ≤ 1 = !Tg ! ∀ n ∈ N . Damit gilt !g 1En !∞ ≤ !Tg ! ∀ n ∈ N ⇒ !g!∞ ≤ !Tg ! . Für 1 < p, q < ∞ folgt aus der Hölder’schen Ungleichung +7 + 7 + + + f g dμ+ ≤ |f g| dμ ≤ !f !p !g!q ⇒ !Tg ! ≤ !g!q . + + q
q
q−1
(13.24) q
p p g) g = |g| |g| = |g| ≥ 0 , und Mit f := (sgn +. g) |g| + gilt. f g = |g| (sgn + + daraus folgt f g dμ = f g dμ = !g!qq . Aber wegen |f |p = |g|q gilt f ∈ Lp q $. q %1 q−1 |g| dμ p = !g!qp = !g!q , und man erhält schließlich mit !f !p = +7 + + + q + ⇒ !g!q ≤ !Tg ! . !g!q = + f g dμ++ ≤ !Tg ! !f !p = !Tg ! !g!q−1 q
Bemerkung 13.36. Aus f , g ∈ Lq , f = g folgt 0 < !f − g!q = !Tf −g ! = !Tf − Tg ! ⇒ Tf = Tg . Daher ist die im obigen Lemma gemachte Zuordnung g → Tg injektiv. Dass sie auch surjektiv ist, zeigt der nächste Satz. Satz 13.37 (Darstellungssatz von Riesz). Ist (Ω, S, μ) ein Maßraum und T ein beschränktes, lineares Funktional auf Lp (Ω, S, μ) , 1 < p < ∞ , so gibt es p ein eindeutig bestimmtes g ∈ Lq (Ω, S, μ) , für das gilt zu q := p−1 7 T (f ) = f g dμ ∀ f ∈ Lp und !T ! = !g!q . (13.25) Auf σ-endlichen Maßräumen gilt die obige Aussage auch für p = 1 mit q = ∞ .
13 Lp - Räume
228
Beweis. Wir beweisen den Satz zunächst für μ(Ω) < ∞ . Ist T ein beschränktes, lineares Funktional auf Lp , so kann man durch ν(A) := T (1A ) , A ∈ S eine Mengenfunktion ν auf S definieren. Wegen 1∅ = 0 gilt natürlich ν(∅) := T (1∅ ) = T (0) = 0 . Für A , B ∈ S disjunkt gilt 1A∪B = 1A + 1B . Da T linear ist, folgt daraus ν(A ∪ B) = T (1A + 1B ) = T (1A ) + T (1B ) = ν(A) + ν(B) , d.h. ν ist additiv. Sind die An ∈ S , n ∈ N disjunkt, so gilt auf Grund der Beschränktheit von T ⎞+ +
N + ++ ⎛ + ∞ + + + + + + ⎝ + + ⎠ An − ν An + = +T 1 ∞ −1 +ν N + An + + + An + n=1 n=1 n=1 n=1 + ⎛ C C ⎞+ p1
∞ + C + C + C + C C ⎠+ ≤ !T ! C1 ∞ = ++T ⎝1 ∞ An . C An C = !T ! μ An ++ + C C n=N +1 n=N +1 n=N +1 p
Weil μ stetig von oben ist und
∞
An ∅ mit N → ∞ , folgt daraus
n=N +1
ν
∞
= lim ν
An
N
n=1
N n=1
An
= lim N
N !
ν(An ) =
n=1
∞ !
ν(An ) .
n=1
Somit ist ν σ-additiv. ν ist aber auch endlich und absolut stetig bezüglich 1 1 μ , da |ν(A)| = |T (1A )| ≤ !T ! !1A !p = !T ! μ(A) p ≤ !T ! μ(Ω) p < ∞ . Nach dem Satz von Radon-Nikodym existiert daher ein eindeutig bestimmtes . . g ∈ L1 mit T (1A ) = ν(A) = A g dμ = 1A g dμ ∀ A ∈ S . Da sowohl T , als auch das Integral linear sind, folgt daraus 7 T (t) = t g dμ ∀ t ∈ T(Ω , S) . (13.26) Ist nun p = 1 , so liegt jedes tA := (sgn g) 1A , A ∈ S in T , und es gilt +7 + 7 7 7 + + + 0 ≤ |g| dμ = tA gdμ = + tA gdμ++ ≤ !T ! !1A !1 = !T ! μ(A) = !T ! dμ. A
A
.
.
Aber aus A |g| dμ ≤ A !T ! dμ ∀ A ∈ S folgt |g| ≤ !T ! μ–fü . Dies bedeutet, dass in diesem Fall g in L∞ liegt mit !g!∞ ≤ !T ! . q p , so gibt es zu |g| ∈ M+ nach Satz 7.30 eine Ist 1 < p < ∞ und q := p−1 1
Folge (tn ) aus T + mit tn |g|q . Klarerweise gilt dann tnq ≤ |g| 1 p
∀ n ∈ N,
und sn := (sgn g) tn ∈ T ∀ n ∈ N . Damit erhält man 7 1 1 7 1 7 7 1 0 ≤ tn dμ = tnp tnq dμ ≤ tnp |g| dμ = (sgn g) tnp g dμ 7 =
+7 + 7 p1 + + + + tn dμ . sn g dμ = + sn g dμ+ ≤ !T ! !sn !p = !T !
13.4 Der Dualraum zu Lp (Ω, S, μ)
229
$. %1− p1 $. %1 tn dμ tn dμ q ≤ !T ! ∀ n ∈ N , und damit Daraus .folgt 0 ≤ = gilt lim tn dμ ≤ !T !q . Wegen 0 ≤ tn |g|q folgt aber aus dem Satz von Levi .n . q lim tn dμ = |g| dμ , sodass für 1 < p < ∞ gilt g ∈ Lq und !g!q ≤ !T ! . n . Wegen g ∈ Lq mit p1 + 1q = 1 , ist Tg (f ) = f g dμ nach Lemma 13.35 ein beschränktes lineares Funktional auf Lp mit !Tg ! = !g!q , und gemäß (13.26) gilt T (t) = Tg (t) ∀ t ∈ T . Ist nun f ∈ Lp , so gibt es laut Lemma 13.34 eine Folge (tn ) aus T mit !tn !p ≤ !f !p und lim !f − tn !p = 0 . Für jedes ε > 0 n
existiert daher ein nε , sodass !f − tnε !p ≤ ε . Daraus aber folgt |T (f ) − Tg (f )| ≤ |T (f ) − T (tnε )| + |Tg (tnε ) − Tg (f )| ≤ ( !T ! + !Tg ! ) !f − tnε !p ≤ ( !T ! + !Tg ! ) ε , d.h. T (f ) = Tg (f ) ∀ f ∈ Lp ⇒ T = T.g ∧ !T ! = !Tg ! = !g!q . . Gilt für ein g1 ∈ .Lq ebenfalls T (f ) = f g1 dμ ∀ f ∈ Lp , so folgt daraus g dμ = T (1A ) = A g1 dμ ∀ A ∈ S , und Folgerung 9.47 impliziert daher A g = g1 μ–fü . Damit ist der Satz für endliche Maßräume bewiesen. Ist μ σ-endlich, so gibt es En ∈ S mit μ(En ) < ∞ ∀ n ∈ N und En Ω . Die Räume Lp,n := Lp (En , S ∩ En , μ|En ) bzw. Lq,n := Lq (En , S ∩ En , μ|En ) können gleichgesetzt werden mit den Teilräumen {f 1En : f ∈ Lp } ⊆ Lp bzw. {g 1En : g ∈ Lq } ⊆ Lq . Ist nun T ein beschränktes, lineares Funktional auf Lp , so gilt nach Bemerkung A.71 für die Einschränkungen Tn := T |Lp,n von T auf die Räume Lp,n !Tn ! ≤ !T ! ∀ n ∈ N . Auf Grund der oben bewiesenen Aussage für endliche Maßräume existiert zu . . jedem n ∈ N ein gn ∈ Lq,n mit T (f 1En ) = Tn (f 1En ) = (f 1En ) gn dμ = (f 1En ) (gn 1En ) dμ ∀f ∈ Lp und !gn !q = !Tn ! ≤. !T ! . Aber Lp,n ist .ein Teilraum von Lp,n+1 , sodass auch gilt T (f 1En ) = (f 1En ) gn+1 dμ = (f 1En ) (gn+1 1En ) dμ ∀ f ∈ Lp . Deshalb impliziertdie Eindeutigkeitsaussage gn = gn+1 1En μ–fü auf En . Für g := g1 1E1 + gn 1En \En−1 gilt daher g 1En = gn ∀ n ∈ N . n≥2
Für p = 1 gilt !gn !∞ ≤ !T ! < ∞ ∀ n ∈ N . Daraus folgt für alle M > !T !
! [ |g| ≥ M ] ∩ En ≤ μ ( |gn | ≥ M ) = 0 . μ ( |g| ≥ M ) = μ n
n
In diesem Fall gilt deshalb g ∈ L∞ und !g!∞ ≤ !T ! . 1 < p < .∞ , so gilt |g 1En |q |g|q , und aus dem Satz von Levi folgt . Ist q q |g| dμ = lim |g 1En | dμ = lim !gn !qq ≤ !T !q ⇒ g ∈ Lq ∧ !g!q ≤ !T ! . n
n
Für f ∈ Lp gilt lim |f − f 1En |p = 0 μ–fü , |f − f 1En |p ≤ 2p |f |p ∀ n ∈ N n . p und 2p |f | dμ < ∞ . Das führt nach dem Satz über die Konvergenz durch Majorisierung zu lim !f − f 1En !p = 0 . Da T beschränkt ist, folgt daraus n
7 T (f ) = lim T (f 1En ) = lim n
n
7 (f 1En ) gn dμ = lim n
(f 1En ) g dμ .
(13.27)
230
13 Lp - Räume
Da auch gilt lim f 1En g = f g μ–fü und |f 1En g| ≤ |f g| ∀ n ∈ N mit n . |f g| dμ ≤ !f !p !g!q < ∞ , folgt aus dem Satz über die Konvergenz durch . . Majorisierung weiters f g dμ = lim (f 1En ) g dμ . Eingesetzt in (13.27) ern . gibt das T (f ) = f g dμ , womit der Satz für σ-endliche Maße bewiesen ist. Es bleibt nur noch zu zeigen, dass der Satz für 1 < p < ∞ auf beliebigen Maßräumen gilt. Für jedes A ∈ S können die Räume Lp,A := Lp (A, S ∩ A, μ|A ) bzw. Lq,A := Lq (A, S ∩ A, μ|A ) gleichgesetzt werden mit {f 1A : f ∈ Lp } ⊆ Lp bzw. {g 1A : g ∈ Lq } ⊆ Lq , und für die Einschränkungen TA := T |Lp,A gilt !TA ! ≤ !T ! ∀ A ∈ S sowie A ⊆ B , A , B ∈ S ⇒ !TA ! ≤ !TB ! . Das System C der σ-endlichen Mengen aus S ist nichtleer ( ∅ ∈ C ). Ist A ∈ C , so gibt es, wie oben gezeigt, ein eindeutig bestimmtes gA = gA 1A ∈ Lq,A mit q !gA !q = !TA ! ≤ !T ! . Daraus folgt 0 ≤ γ := sup !gA !q ≤ !T !q < ∞ . Nun A∈C gibt es eine Folge (Cn ) aus C mit lim !gCn !qq = γ , und es gilt C := Cn ∈ C . n n . Für A ∈ C gilt zudem T.(f 1A ) = f 1A. gA dμ ∀ f ∈ Lp . Ist A ⊆ B ∈ C , so gilt auch T (f 1A ) = f 1A gB dμ = f 1A gB 1A dμ ∀ f ∈ Lp , und aus der Eindeutigkeit folgt gA = gB 1A μ–fü . Das impliziert !gA !q ≤ !gB !q , q und wegen Cn ⊆ C ∀ n ∈ N folgt daraus γ = !gC !q . Für B ∈ C gilt Cq Cq C C q q C ∪ B ∈ C ⇒ γ = !gC∪B !q = !gC !q + CgB\C Cq = γ + CgB\C Cq . Daraus +q .+ folgt +gB\C + dμ = 0 ⇒ gB\C = 0 μ–fü bzw. gC∪B = gC μ–fü . Nun $ 1 %p gilt$ für jedes % f ∈ Lpp nach der Markoff’schen % Ungleichung (Satz 13.9) $ 1 1 ≤ !f ! < ∞ ∀ n ∈ N , sodass μ |f | ≥ < ∞ ⇒ μ |f | ≥ p 3 n n n 1 |f | ≥ n ∈ C . Wegen f = f 1Af ∪C gilt deshalb Af := {ω : |f (ω)| > 0 } = n
7 T (f ) = T (f 1Af ∪C ) =
7 f gAf ∪C dμ =
f gC dμ ,
(13.28)
. d.h. T (f ) = TgC (f ) := f gC dμ ∀ f ∈ Lp und gC ∈ Lq . Daraus und aus Lemma 13.35 folgt !T ! = !TgC ! = !gC !q . Somit ist der Satz auch auf beliebigen Maßräumen für 1 < p < ∞ bewiesen.
14 Bedingte Erwartungen
14.1 Der Satz von der vollständigen Erwartung Definition 14.1. Ist X eine diskrete Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit P (X ∈ D) = 1 , |D| ≤ ℵ0 , P (X = x) > 0 ∀ x ∈ D , , A∈S so wird für jedes x ∈ D durch hA (x) := P (A|X = x) := P (A∩[X=x]) P ( X=x ) eine Wahrscheinlichkeitsverteilung P ( . |X = x) definiert, die durch [X = x] bedingte Verteilung P ( . |X = x) . Die obige Definition ist natürlich konsistent mit Definition 5.1. Lemma 14.2. Unter den Voraussetzungen und mit den Bezeichnungen von Definition 14.1 liegt jede integrierbare Zufallsvariable Y für alle x ∈ D auch in L1 (Ω, S, P ( . |X = x) ) , und es gilt . 7 Y 1[X=x] dP . (14.1) hY (x) := E(Y |X = x) := Y (ω) P (dω|X = x) = P(X = x) Beweis. Für Y := 1A , A ∈ S stimmt (14.1) überein mit Definition 14.1. Wegen der Additivität des Integrals gilt (14.1) damit auch für jedes t ∈ T + . Ist Y ∈ M+ (Ω, S) , so gibt es tn ∈ T + mit tn Y und die Gültigkeit von (14.1) folgt aus dem Satz über die Konvergenz durch Monotonie. Ein beliebiges Y ∈ L1 braucht man nur in Y + und Y − zerlegen. Bemerkung 14.3. hY ist eine Funktion auf D , die durch die willkürliche Vereinbarung hY (x) := EY , x ∈ Dc auf R fortgesetzt werden kann. Da hY nur höchstens abzählbar viele Werte annimmt, ist es messbar, und deshalb ist E(Y |X) := hY ◦ X eine Zufallsvariable auf (Ω, S, P ) , die wegen Satz 7.41 sogar S(X)-messbar ist. Definition 14.4. Unter den Voraussetzungen und mit den Bezeichnungen von Definition 14.1 und Lemma 14.2 nennt man E(Y |X) := hY ◦ X , Y ∈ L1 die durch X bedingte Erwartung von Y . Ist Y = 1A , A ∈ S , so verwendet man die Bezeichnung P (A|X) = h1A ◦ X = hA ◦ X und spricht von der durch X bedingten Wahrscheinlichkeit von A .
232
14 Bedingte Erwartungen
Mit Hilfe von Definition 14.4 kann man den Satz von der vollständigen Wahrscheinlichkeit (Satz 5.5) folgendermaßen verallgemeinern. Satz 14.5 (Satz von der vollständigen Erwartung). Unter den Voraussetzungen und mit den Bezeichnungen von Definition 14.1 und Lemma 14.2 gilt 7 7 ! Y dP = E(Y |X = x) P (X = x) = E(Y |X) dP . (14.2) [X∈B]
x∈B∩D
[X∈B]
Beweis. Aus dem Transformationssatz (Satz 9.62), Gleichung (14.1) sowie P (X ∈ D) = 1 und P ( X = x ) > 0 ∀ x ∈ D folgt 7 7 ! E(Y |X) dP = E(Y |X = x) dP X −1 (x) = hY (x) P X −1 (x) B
[X∈B]
=
!
. P(X = x)
x∈B∩D
[X=x]
x∈B∩D
7
Y dP
P(X = x)
=
Y dP . [X∈B]
Beispiel 14.6. Jeder von 2 Spielern S1 und S2 erhält 13 Karten aus einem Paket von 52 Karten zu 4 Farben. Die Anzahl X der „Piks“ für Spieler S1 ist daher eine H13,39,13 -verteilte Zufallsvariable auf einem fiktiven Wahrscheinlichkeitsraum (Ω, S, P ) , ebenso wie die Anzahl Y der „Piks“ für Spieler S2 . Weiß man nun, dass S1 x „Piks“ bekommen hat, so verbleiben noch 13−x „Piks“ im Restpaket von 39 Karten, und daher muss Y unter dieser Bedingung H13−x,26+x,13 -verteilt sein, d.h. es gilt für jedes B ∈ B $13−x% $26+x% ! y 13−y $39% . P (Y ∈ B|X = x) = y∈B∩{0,...,13−x}
13
Diese Formel kann natürlich auch aus Definition 5.1 hergeleitet werden, denn aus (X, Y ) ∼ H13,13,26, 13 (vgl. Beispiel 8.8) folgt klarerweise, dass gilt (13) (13) ( 26 ) P ([X = x] ∩ [Y = y]) = x y 5213−x−y . Damit erhält man schließlich (13) $13% $13% $ 26 % P(Y = y |X = x) =
x
$13y% $ x
13−x−y % 39 13−x
13! 26! (13 − x)! (26 + x)! = = y! (13 − y)! (13 − x − y)! (13 + x + y)! 39!
$13−x% $26+x% y
13−y
$39%
.
13
Da in unserem Beispiel P (Y ∈ . |X = x) einer H13−x,26+x,13 -Verteilung A entspricht und für Y ∼ HA,N −A,n gilt EY = n N (siehe Beispiel 9.65), erhält 13−x 13−x . Mittelt man über man E(Y |X = x) = 13 39 = 3 bzw. E(Y |X) = 13−X 3 die Werte E(Y |X = x) , x = 0, . . . , 13 gemäß der Verteilung von X , so ergibt das in Übereinstimmung mit Satz 14.5
14.1 Der Satz von der vollständigen Erwartung
7
233
$13% $ 39 % 13 ! 13 − x x 13−x $52% E(Y |X) dP = 3 13 x=0 $13% $ 39 % $13% $ 39 % 7 13 13 ! ! 13 1 13 EX 13 x 13−x x 13−x $ % $ % x = − = − = = Y dP . 52 52 3 x=0 3 x=0 3 3 4 13 13
Aber nach Satz 14.5 muss sogar für jedes B ∈ B gelten $13% $ 39 % 7 7 ! 13 − x x 13−x $52% = E(Y |X) dP = 3 13 [X∈B]
x∈B∩{0,...,13}
Y dP =
=
[X∈B]
7
7
[X∈B,Y ∈R]
Y dP
y dP (X, Y )
−1
=
!
13−x !
x∈B∩D y=0
B×R
$13% $13% $
y
x
y
26 13−x−y
$52%
% ,
13
und die Summe in der 1-ten Zeile der obigen Gleichung wird meistens leichter zu berechnen sein, als die Doppelsumme unten. Sind die Maße im verallgemeinerten Satz von Fubini (Satz 10.21) Wahrscheinlichkeitsverteilungen P1 auf (Ω1 , S1 ) bzw. P2 (ω1 , . ) , ω1 ∈ Ω1 auf (Ω2 , S2 ) , so kann man dies so interpretieren, dass in einem ersten Schritt ein Ausgang ω1 ∈ Ω1 ausgewählt wird und dann je nach Ausgang ein Versuch mit Ausgängen aus Ω2 durchgeführt wird, dessen Verteilung P2 (ω1 , . ) entspricht. Der Produktraum (Ω1 × Ω2 , S1 ⊗ S2 , P ) (P wird entsprechend Satz 10.19 gebildet) ist dann ein Modell für das zusammengesetzte Experiment. Entsprechend dieser Interpretation wird man P (ω1 , . ) als die durch ω1 bedingte Wahrscheinlichkeitsverteilung ansehen und man wird für eine Zufallsvariable Y ∈ L1 (Ω1 × Ω2 , S1 ⊗.S2 , P ) den durch ω1 bedingten Erwartungswert festlegen als E(Y |ω1 ) := Y (ω1 , ω2 ) P2 (ω1 , dω2 ) , selbst dann, wenn P1 ({ω1 }) = 0 (dass E(Y | . ) S1 -messbar und P1 -integrierbar ist wurde bereits in Satz 10.21 gezeigt). Man kann ω1 auch als Wert der Projektion pr1 : Ω1 × Ω2 → Ω1 ansehen und E(Y | pr1 = ω1 ) statt E(Y |ω1 ) schreiben. Da pr1 S1 ⊗ S2 |S1 -messbar ist, ist die zusammengesetzte Abbildung E(Y | pr1 ) := E(Y | pr1 = . ) ◦ pr1 , die durch pr1 bedingte Erwartung von Y , eine pr−1 1 (S1 )-messbare Zufallsvariable, für die wegen Satz 10.21 und dem Transformationssatz (Satz 9.62) gilt 7 7 7 7 Y dP = Y dP = Y (ω1 , ω2 ) P2 (ω1 , dω2 ) P1 (dω1 ) [pr1 ∈A]
7
A×Ω2
A
7
E(Y | pr1 = ω1 ) P1 (dω1 ) =
= A
E(Y | pr1 ) dP .
(14.3)
[pr1 ∈A]
Es gilt also auch in diesem Fall eine zu (14.2) völlig analoge Beziehung zwischen den Integralen von Y und E(Y | pr1 ) , und wieder ist E(Y | pr1 ) messbar bezüglich der durch die bedingende Funktion erzeugten Subsigmaalgebra.
234
14 Bedingte Erwartungen
Sind X , Y Zufallsvariable mit der gemeinsamen Dichte fX,Y , so induzieren die beiden Zufallsvariablen auf (R2 , B2 ) die gemeinsame Verteilung . −1 P (X, Y ) (C) = C fX,Y (x, y) λ2 (dx, dy) , C. ∈ B2 , X induziert auf (Ω1 , S1 ) = (R, B) die Verteilung P X −1 (B) = B fX (x) λ(dx) , B ∈ B , und . zu jedem x ∈ R gibt es eine Verteilung P Y −1 (B|X = x) = B fY |X (y|x) λ(dy) auf (Ω2 , S2 ) = (R, B) . Daher wird (14.3) in diesem Sonderfall zu 7 7 7 y fY |X (y|x) λ(dy) fX (x) λ(dx) y 1B (x) fX,Y (x, y) dλ2 (x, y) = B
7 E(Y |X = x) fX (x) λ(dx)
=
∀ B ∈ B,
(14.4)
B
und es ist offensichtlich, dass dies ebenfalls eine Verallgemeinerung des Satzes von der vollständigen Erwartung darstellt. Zur Illustration betrachten wir nochmals die Zufallsvariablen T1 , T2 aus den Beispielen 10.17, 10.20 und 10.58. Beispiel 14.7. Wir haben in den oben erwähnten Beispielen gesehen, dass die bedingte Verteilung von T2 unter T1 = s sinnvollerweise durch die Dichte fT2 |T1 (t|s) = τ e−τ (t−s) 1[s,∞) (t) bestimmt sein sollte. Daher sollte gelten .∞ E(T2 |T1 = s) = s t τ e−τ (t−s) dt = s + τ1 bzw. E(T2 |T1 ) = T1 + τ1 . .∞ Aus (14.4) muss deshalb folgen ET2 = 0 (s + τ1 ) τ e−τ s ds = τ2 , in Übereinstimmung mit der Tatsache, dass T2 Er2,τ -verteilt ist. Natürlich kann man T2 auch darstellen als Summe von T1 und einer davon unabhängigen Wartezeit Tˆ vom 1-ten bis zum 2-ten Unfall, die beide exponentialverteilt mit Parameter τ sind, sodass aus der Additivität des Erwartungswertes ebenfalls folgt ET2 = ET1 + ETˆ = τ2 .
14.2 Die durch eine σ-Algebra bedingte Erwartung Sind die Maße im verallgemeinerten Satz von Fubini Wahrscheinlichkeitsverteilungen, so geht aus der Beschreibung der Grundsituation hervor, dass man die μ2 (ω1 , . ) als bedingte Verteilungen interpretieren kann, und damit ist auch klar, wie die bedingten Erwartungswerte aussehen müssen. Damit ist aber keineswegs das Problem gelöst, wie bedingte Erwartungen im Allgemeinen definiert werden können, wenn die Bedingungen Wahrscheinlichkeit 0 besitzen. Aber die Ausführungen des vorigen Abschnitts geben wichtige Hinweise, wie eine sinnvolle Definition beschaffen sein sollte. Natürlich muss ein sinnvoller bedingter Erwartungswert vom Wert von X abhängen und damit variieren, er muss also eine Funktion von X sein. Dann besagen Gleichung (14.2) im Satz von der vollständigen Erwartung bzw. die dazu analoge Beziehung (14.3), dass dasselbe Ergebnis herauskommen
14.2 Die durch eine σ-Algebra bedingte Erwartung
235
sollte, wenn man einerseits Y über ein durch X beschriebenes Ereignis mittelt, und wenn man andererseits zuerst dieses Ereignis in „Elementarbedingungen “ zerlegt, Y unter diesen Elementarbedingungen mittelt und zuletzt diese Mittelwerte - gewichtet entsprechend der Verteilung von X- wieder zusammensetzt. Mathematisch ausgedrückt, es sollte gelten E(Y |X) = h ◦ X bzw. äquivalent dazu E(Y |X) ist S(X)-messbar (siehe Satz 7.41) und 7 7 Y dP = E(Y |X) dP ∀ B ∈ B . [X∈B]
[X∈B]
Dadurch aber ist . E(Y |X) , zumindest P –fs , eindeutig bestimmt, denn durch ν( X ∈ B ) := [X∈B] Y dP wird für Y ≥ 0 ein Maß auf S(X) mit ν % P definiert. Ist P |S(X) die Restriktion von P auf S(X) , so gibt es nach dem Satz von Radon-Nikodym (Satz 11.19) eine P |S(X) –fs eindeutig bestimmte, S(X). dν , für die gilt ν( X ∈ B ) = dP |S(X) . messbare Funktion dP |dν [X∈B] dP |S(X) S(X) Daraus folgt E(Y |X) = dP |dν P |S(X) –fs . Eine beliebige Funktion Y ∈ L1 S(X) + − zerlegt man einfach in Y und Y . Erzeugen X1 und X2 dieselbe σ-Algebra S(X) := S(Xi ) , i = 1, 2 , so ist E(Y |X1 ) S(X2 )-messbar, und es gilt 7 7 7 E(Y |X1 ) dP = Y dP = E(Y |X2 ) dP ∀ A ∈ S(X) = S(X2 ) . A
A
A
Daraus folgt E(Y |X1 ) = E(Y |X2 ) P |S(X)–fs (siehe Folgerung 9.47). Dies ist nicht weiter verwunderlich, denn nach Satz 7.41 ist X2 eine Funktion von X1 und umgekehrt. Die für den bedingten Erwartungswert relevante Information wird demnach eigentlich durch die erzeugte Subsigmaalgebra bereit gestellt, und nicht durch die Zufallsvariable. Wir fassen die obigen Ausführungen nochmals in einem Satz zusammen. Satz 14.8. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, Y eine Zufallsvariable, deren Erwartungswert existiert, und ist A eine Subsigmaalgebra von S , so gibt es eine A-messbare Funktion E(Y |A) , für die gilt 7 7 Y dP = E(Y |A) dP |A ∀ A ∈ A . (14.5) A
A
E(Y |A) wird durch die obige Gleichung P |A –fs eindeutig bestimmt. . Beweis. Ist Y ∈ M+ , so wird durch ν(A) := A Y dP , A ∈ A ein Maß auf A mit ν % P definiert. Nach dem Satz von Radon-Nikodym gibt es daher eine P |A –fs eindeutig bestimmte, A-messbare Funktion E(Y |A) := dPdν|A , für die . gilt ν(A) = A dPdν|A dP |A ∀ A ∈ A . . Existiert EY , Y ∈ M , so zerlegt man das signierte Maß ν(A) = A Y dP in dν + dν − ν + und ν − und bildet E(Y |A) := dP |A − dP |A .
236
14 Bedingte Erwartungen
Definition 14.9. Unter den Voraussetzungen und mit den Bezeichnungen des obigen Satzes nennt man E(Y |A) , die durch A bedingte Erwartung von Y . Ist Y = 1C , C ∈ S , so spricht man von der durch A bedingten Wahrscheinlichkeit von C und schreibt P (C|A) statt E(1C |A) . Ist (Ω , S ) ein Messraum und X : (Ω, S) → (Ω , S ) , so schreibt man E(Y |X) statt E(Y |X −1 (S )) und nennt das die durch X bedingte Erwartung von Y . Wenn Y nicht A-messbar ist, stimmt E(Y |A) natürlich nicht mit Y überein. Da aus dem Zusammenhang klar sein sollte, wo P und wo die Restriktion P |A zu verwenden ist, werden wir, der Kürze halber, im weiteren Verlauf meist nicht mehr zwischen P und P |A unterscheiden. Satz 14.10. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und sind A, C ⊆ S σ-Algebren , so gilt für Zufallsvariable X, Y , deren Erwartungswerte existieren: 1. E(E(Y |A) ) = EY . 2. Aus der A-Messbarkeit von Y folgt E(Y |A) = Y P –fs . Damit gilt insbesondere E(Y |S) = Y und E(c|A) = c für alle c ∈ R . 3. E(a X + b Y |A) = a E(X|A) + b E(Y |A) ∀ a, b ∈ R , wenn die Summen auf beiden Seiten sinnvoll sind. Somit gilt E(Y |A) = E(Y + |A) + E(Y − |A) . 4. X ≤ Y P –fs ⇒ E(X|A) ≤ E(Y |A) P –fs . Daraus folgt weiters |E(Y |A)| ≤ E(|Y | |A) und 0 ≤ E(Y |A) P –fs für Y ∈ M+ . 5. A ⊆ C ⇒ E(E(Y |A)|C) = E(E(Y |C)|A) = E(Y |A) P –fs . Beweis. ad 1.: Wegen .Ω ∈ A folgt. dies sofort aus Definition 14.9 ad 2.: Es gilt A Y dP = A Y dP ∀ A ∈ A und Y ist A-messbar. Y ist S-messbar, und Y ≡ c ist sogar {∅, Ω}-messbar also auch A-messbar. ad 3.: a E(X|A) + b E(Y |A) ist A-messbar und es gilt 7 7 7 ( a E(X|A) + b E(Y |A) ) dP = a E(X|A) dP + b E(Y |A) dP A
7
7 X dP + b
=a A
A
7 Y dP =
A
7
E(a X + b Y |A)dP ,
(a X + b Y ) dP = A
A
A
sodass Folgerung 9.47 zu E(a X + b Y |A) = a E(X|A) + b E(Y |A) führt. ad 4.: Folgt aus Satz 9.46 wegen 7 7 7 7 E(X|A) dP = X dP ≤ Y dP = E(Y |A) dP ∀ A ∈ A . A
A
A
A
ad 5.: Da E(Y |A) wegen A ⊆ C auch C-messbar ist folgt aus Punkt 2. sofort E(E(Y |A)|C) = E(Y |A) P –fs . Andererseits gilt 7 7 7 7 E(E(Y |C)|A) dP = E(Y |C) dP = Y dP = E(Y |A) dP ∀ A ∈ A. A
A
A
Daraus folgt E(E(Y |C)|A) = E(Y |A) dP
A
P –fs .
14.2 Die durch eine σ-Algebra bedingte Erwartung
237
Satz 14.11 (Konvergenz durch Monotonie für bedingte Erwartungen). Ist (Yn ) eine monoton steigende Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , zu der es ein Z mit Yn ≥ Z ∀ n ∈ N und EZ − < ∞ gibt, so gilt für Y := lim Yn und jede Subsigmaalgebra A ⊆ S n
lim E(Yn |A) = E(Y |A) .
(14.6)
n
(14.6) gilt auch, wenn Yn und Yn ≤ Z
∀ n ∈ N mit EZ + < ∞ .
Beweis. Aus −Z − ≤ −Z − 1A ≤ Yn 1A Y 1A , n ∈ N , A ∈ A und dem verallgemeinerten Satz von B. Levi (Satz 9.31) folgt 7 7 7 Y dP = lim Yn dP = lim E(Yn |A) dP ∀ A ∈ A . (14.7) n
n
A
A
A
Da nach Satz 14.10 Punkt 1. gilt E(E(−Z − |A) ) = EZ − < ∞ und aus Punkt 4. folgt E(−Z − |A) ≤ E(Yn |A) P –fs ∀ n ∈ N sowie E(Yn |A) P –fs , |A) 1 ) angewendet werden. Dakann Satz 9.31 auch auf die Folge (E(Y n A . . her gilt A lim E(Yn |A) dP = lim A E(Yn |A) dP . Eingesetzt in (14.7) ergibt n n . . das A Y dP = A lim E(Yn |A) dP ∀ A ∈ A . Da lim E(Yn |A) als Grenzwert n
n
A-messbarer Funktionen selbst A-messbar ist, folgt daraus (14.6). Für Yn wendet man die eben bewiesene Aussage auf −Yn und −Z an. Satz 14.12 (Lemma von Fatou für bedingte Erwartungen). Für Zufallsvariable Yn , n ∈ N auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , zu denen es ein Z mit Yn ≥ Z ∀ n ∈ N und EZ − < ∞ gibt, und jede σ-Algebra A ⊆ S gilt E(lim inf Yn |A) ≤ lim inf E(Yn |A) n
Aus Yn ≤ Z
n
P –fs .
(14.8)
P –fs .
(14.9)
∀ n ∈ N mit EZ + < ∞ folgt lim sup E(Yn |A) ≤ E(lim sup Yn |A) n
Beweis. Aus Yn ≥ Z
n
∀ n folgt Xn := inf Yk ≥ Z k≥n
wächst und gilt Xn ≤ Yn
∀ n . Da Xn monoton
∀ n folgt aus Satz 14.11 und Satz 14.10 Punkt 4.
E(limYn |A) = E(lim Xn |A) = lim E(Xn |A) ≤ limE(Yn |A) n
n
P –fs .
(14.8) mit −Yn , −Z ergibt E(lim (−Yn )|A) ≤ lim E(−Yn |A) . Daraus folgt lim E(Yn |A) = −lim E(−Yn |A) ≤ −E(lim (−Yn )|A) = E(lim Yn |A) . Satz 14.13 (Majorisierte Konvergenz für bedingte Erwartungen). Ist (Yn ) eine P –fs konvergente Folge auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit |Yn | ≤ Z ∀ n ∈ N , Z ∈ L1 (Ω, S, P ) und ist A ⊆ S eine σ-Algebra, so gilt E(lim Yn |A) = lim E(Yn |A) n
n
P –fs .
(14.10)
238
14 Bedingte Erwartungen
Beweis. Mit Y := lim Yn folgt aus Satz 14.12 wegen −Z ≤ Yn ≤ Z n
E(Y |A) = E(lim inf Yn |A) ≤ lim inf E(Yn |A) ≤ lim sup E(Yn |A) n
n
n
≤ E(lim sup Yn |A) = E(Y |A) ⇒ E(Y |A) = lim E(Yn |A) . n
n
Das nächste Lemma schwächt die Definitionsgleichung (14.5) ein wenig ab. Lemma 14.14. Ist Y eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und A ⊆ S eine Subsigmaalgebra, die von einer Semialgebra T erzeugt wird, so gilt für alle A-messbaren Funktionen Z 7 7 Y dP = Z dP ∀ C ∈ T ⇒ Z = E(Y |A) P –fs . (14.11) C
C
. . Beweis. Das System C := C ∈ A : C Y dP = C Z dP enthält T und, wegen der Additivität des Erwartungswertes, mit endlich vielen disjunkten Mengen auch deren Vereinigung. Da R(T) aus den endlichen, disjunkten Vereinigungen von Mengen aus T besteht (siehe Satz 2.60), gilt auch R(T) ⊆ C . Zudem folgt aus Satz 9.33 (Konvergenz durch Majorisierung), dass C ein monotones System ist, weshalb gemäß Satz 2.73 gilt C = Rσ (R(T) ) = A . Satz 14.15. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, C ⊆ S eine σ-Algebra und Y eine von C unabhängige Zufallsvariable, deren Erwartungswert existiert, so gilt für jede von C unabhängige Subsigmaalgebra A ⊆ S E(Y |Aσ (A ∪ C) ) = E (Y |A) P –fs .
(14.12)
Für A := {∅ , Ω} ergibt das E (Y |C) = E Y P –fs . Beweis. Wir beweisen (14.12) zunächst für integrierbare Zufallsvariable Y . Da die Semialgebra D := {A ∩ C : A ∈ A , C ∈ C} nach Lemma 2.62 Aσ (A ∪ C) erzeugt und E (Y .|A) Aσ (A ∪ C)-messbar ist, genügt es gemäß . Lemma 14.14 A∩C Y dP = A∩C E (Y |A) dP ∀ A ∈ A , C ∈ C zu zeigen. Weil aber Y 1A und E (Y |A) 1A unabhängig von 1C sind, ergibt sich das aus Folgerung 10.34 und der Definition der bedingten Erwartung E (Y |A) 7 7 7 7 Y dP = Y 1A 1C dP = Y 1A dP 1C dP A∩C
=
7
7 E (Y |A) 1A dP
7 1C dP =
7 E (Y |A)1A 1C dP =
E (Y |A) dP . A∩C
Ist Y ∈ M+ unabhängig von C , so sind auch die Yn := Y 1[Y ≤n] , n ∈ N unabhängig von C . Daher gilt E(Yn |Aσ (A ∪ C) ) = E (Yn |A) P –fs ∀ n ∈ N . Da klarerweise gilt Yn Y , ergibt das zusammen mit Satz 14.11
14.2 Die durch eine σ-Algebra bedingte Erwartung
239
E(Y |Aσ (A ∪ C) ) = lim E(Yn |Aσ (A ∪ C) ) = lim E (Yn |A) = E (Y |A) P –fs . n
n
Existiert E Y , so wendet man das obige Ergebnis auf Y + und Y − an. Die σ-Algebra A := {∅ , Ω} ist offensichtlich unabhängig von jeder anderen σ-Algebra C , und es gilt E Y = E (Y |A) P –fs sowie A ∪ C = C . Daraus folgt E Y = E (Y |A) = E (Y |Aσ (A ∪ C)) = E (Y |C) P –fs . Wie man die Eigenschaften der bedingten Erwartung anwendet, wird im Beweis des folgenden Lemmas illustriert. Lemma 14.16. Ist X1 , X2 , . . . eine Folge unabhängig, identisch verteilter Zufallsvariabler mit endlichem Erwartungswert auf einem Wahrscheinlichkeitsn raum (Ω, S, P ) und sind Sn := Xi die akkumulierten Summen, so gilt i=1
E (Xi |Sn , Sn+1 , . . .) = E (Xi |Sn ) =
Sn n
P –fs 1 ≤ i ≤ n .
(14.13)
Beweis. Mit Sn , Sn+1 , . . . kennt man auch Sn , Xn+1 , Xn+2 , . . . und umgekehrt. Daher gilt S(Sn , Sn+1 , . . .) = S(Sn , Xn+1 , Xn+2 , . . .) . Da Xi , 1 ≤ i ≤ n und Sn unabhängig sind von Xn+1 , Xn+2 , . . . folgt aus dem vorigen Satz E (Xi |Sn , Sn+1 , . . .) = E (Xi |Sn ) . Die Punkte 2. und 3. von Satz 14.10 imn plizieren Sn = E (Sn |Sn ) = E (Xi |Sn ) , sodass es zum Beweis des Lemmas i=1
reicht E (Xi |Sn ) = E (Xk |Sn ) für alle 1 ≤ i , k ≤ n zu zeigen. Da die Xj unabhängig, identisch verteilt sind, ergibt sich aus Satz 9.33 und dem Satz von Fubini (Satz 10.24) für B ∈ B unter Verwendung der Bezeichn xj und A := s−1 (B) nungen s(x1 , . . . , xn ) := j=1
7
7 Xi dP =
[Sn ∈B]
7
x ⎡ x⎣
P Xj−1 (Ax ) P Xi−1 (dx) =
j =i
7
Ax
d
P Xj−1 (dxn1 ) =
j=1
A
7
=
xi
n
⎡
7
x⎣
7 d
Ax
7 x
⎤ P Xj−1 ⎦ P Xi−1 (dx)
j =i
P Xj−1 (Ax ) P Xk−1 (dx)
j =k
⎤ P Xj−1 ⎦ P Xk−1 (dx) =
j =k
7 xk A
n j=1
7
P Xj−1 (dxn1 ) =
Xk dP . [Sn ∈B]
Nun gibt es zu jedem C ∈ S(Sn ) ein B ∈ B mit C = [Sn ∈ B] und es gilt auf Grund der Definition der bedingten Erwartung und der obigen Gleichung 7 7 7 7 E (Xi |Sn ) dP = Xi dP = Xk dP = E (Xk |Sn ) dP ∀ C ∈ S(Sn ) . C
C
C
Damit ist E (Xi |Sn ) = E (Xk |Sn )
C
P –fs
∀ 1 ≤ i, k ≤ n gezeigt.
240
14 Bedingte Erwartungen
Satz 14.17. Sind X und Y Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , für die die Erwartungswerte von Y und X Y existieren, und ist A eine Subsigmaalgebra von S , bezüglich der X messbar ist, so gilt E(X Y |A) = X E(Y |A)
P –fs .
(14.14)
Beweis. Indikatoren X = 1A , A ∈ A sind A-messbar und es gilt 7 7 7 7 1A Y dP = Y dP = E(Y |A) dP = 1A E(Y |A) dP ∀ C ∈ A . C
A∩C
A∩C
C
Somit gilt (14.14) für messbare Indikatoren. Auf Grund von Satz 14.10 Punkt 3. gilt (14.14) damit auch für messbare Treppenfunktionen t ∈ T . Ist X ≥ 0 A-messbar, so gibt es nach Satz 7.30 eine Folge von Treppenfunktionen tn aus T + mit tn X . Für Y ∈ M+ gilt daher auch tn Y X Y und tn E(Y |A) X E(Y |A) . Aus Satz 14.11 und der Gültigkeit von (14.14) für Treppenfunktionen folgt daher E(X Y |A) = lim E(tn Y |A) = lim tn E(Y |A) = X E(Y |A) n
n
P –fs .
(14.15)
Wir betrachten nun den allgemeinen Fall für A-messbares X , beliebiges, messbares Y und existierenden Erwartungswerten EY und EX Y . Da EX Y existiert, folgt aus der Additivität der bedingten Erwartung (Satz 14.10 Punkt 3.) E(X Y |A) = E( (X Y )+ |A) − E( (X Y )− |A) . Nun gilt (X Y )+ = X + Y + + X − Y − und (X Y )− = X + Y − + X − Y + , wobei sämtliche Terme nichtnegativ sind. Daher folgt aus Satz 14.10 Punkt 3. und (14.15) E((XY )+ |A) = E(X + Y + |A) + E(X − Y − |A) = X + E(Y + |A) + X − E(Y − |A) E((XY )− |A) = E(X + Y − |A) + E(X − Y + |A) = X + E(Y − |A) + X − E(Y + |A) . Fasst man diese Gleichungen zusammen, so erhält man unter Berücksichtigung der Existenz von EY und nochmaliger Anwendung der Additivität E(X Y |A) = (X + − X − ) E( Y + |A) − (X + − X − ) E( Y − |A) $ % = X E( Y + |A) − E( Y − |A) = X E( Y |A) . Folgerung 14.18. Ist (Ω, S, P ) , ein Wahrscheinlichkeitsraum, A eine Subsigmaalgebra von S , X ∈ L2 (Ω, A, P ) und Y ∈ L2 (Ω, S, P ) , so gilt 7 X [ Y − E (Y |A) ] dP = 0 ∀ A ∈ A , (14.16) .
A
also insbesondere X [ Y − E (Y |A) ] dP = 0 , d.h. Y − E (Y |A) ist orthogonal (siehe Definition A.81) zum Teilraum L2 (Ω, A, P ) . Beweis. Aus der Ungleichung von Hölder (Satz 13.4) folgt, dass die Zufallsvariable X ( Y.− E(Y |A) ) integrierbar ist. Gleichung (14.15) entspricht aber . X Y dP = A X E (Y |A) dP ∀ A ∈ A , was umgeformt (14.16) ergibt. A
14.2 Die durch eine σ-Algebra bedingte Erwartung
241
Der nächste Satz besagt, dass E(Y |A) in L2 die beste Approximation von Y unter allen A-messbaren Zufallsvariablen im Sinne der L2 -Norm ist. Satz 14.19 (Minimalitätseigenschaft der bedingten Erwartung). Ist Y eine quadratisch integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und A eine Subsigmaalgebra von S , so gilt für alle X ∈ L2 (Ω, A, P ) E( Y − X )2 = E( Y − E(Y |A) )2 + E( E(Y |A) − X )2 . und
E( Y − E(Y |A) )2 =
min X∈L2 (Ω,A,P )
E( Y − X )2 .
(14.17) (14.18)
Beweis. Für X ∈ L2 (Ω, A, P ) gilt 2
E( Y − X )2 = E [ ( Y − E(Y |A) ) + ( E(Y |A) − X ) ]
= E(Y − E(Y |A))2 + E(E(Y |A) − X)2 + 2E [(E(Y |A) − X)(Y − E(Y |A))] . Da E(Y |A) − X eine Funktion aus L2 (Ω, A, P ) ist, gilt jedoch gemäß der obigen Folgerung E [ ( E(Y |A) − X ) ( Y − E(Y |A) ) ] = 0 , und man erhält E( Y − X )2 = E( Y − E(Y |A) )2 + E( E(Y |A) − X )2 . Daraus folgt Beziehung (14.18) unmittelbar. Satz 14.20 (Ungleichung von Jensen für bedingte Erwartungen). Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, Y : Ω → (a, b) eine P - integrierbare Zufallsvariable und ϕ : (a, b) → R konvex, so gilt ϕ( E(Y |A) ) ≤ E( ϕ ◦ Y |A )
P –fs .
(14.19)
Beweis. Im Beweis der Ungleichung von Jensen (Satz 13.1) wurde die Existenz von E ϕ ◦ Y > −∞ bewiesen, sodass E( ϕ ◦ Y |A ) sinnvoll ist. Voraussetzungsgemäß gilt a < Y < b P –fs . Daraus folgt 7 7 ( E(Y |A) − a ) dP = ( Y − a ) dP ≥ 0 mit Y − a > 0, 0≥ [E(Y |A)≤a]
[E(Y |A)≤a]
sodass P ( [E(Y |A) ≤ a] ) = 0 bzw. E(Y |A) > a P –fs . Analog zeigt man E(Y |A) < b P –fs . Daher ist ϕ( E(Y |A) ) P –fs sinnvoll definiert. Nach dem Tangentensatz (Satz A.49) gibt es reelle Zahlen cn und dn mit ϕ( E(Y |A) ) = sup{cn E(Y |A) + dn } und ϕ(Y ) = sup{cn Y + dn } . Somit gilt n
n
ϕ(Y ) ≥ cn Y + dn ∀ n ∈ N ⇒ E(ϕ(Y )|A) ≥ cn E(Y |A) + dn ∀ n ∈ N . Daraus folgt nun E(ϕ(Y )|A) ≥ sup{cn E(Y |A) + dn } = ϕ( E(Y |A) . n
Satz 14.21. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, A ⊆ S eine σ-Algebra und Y eine Zufallsvariable, für die EY existiert, so gilt auf jedem Atom A ∈ A
242
14 Bedingte Erwartungen
. E(Y |A) =
Y dP . P (A)
A
(14.20)
Ist A rein atomar mit den Atomen Ai , i ∈ I ⊆ N , so gilt . ! A Y dP i 1 Ai . E(Y |A) = P (Ai ) i
(14.21)
Beweis. Ist A ein Atom, so ist die Spur A ∩ A natürlich trivial bezüglich ∀ C ∈ A ∩ A . Nach Lemma 7.57 ist daher E(Y |A) P,–fs P,(C) := PP (C) (A) konstant auf . A . Damit ist E(Y |A) auch P –fs konstant auf A . Deshalb gilt . Y dP = E(Y |A) dP = E(Y |A) P (A) , woraus (14.20) sofort folgt. A A Wendet man (14.20) auf die einzelnen Ai an, erhält man (14.21). Bemerkung 14.22. Im Grunde ist der obige Satz nur eine andere Formulierung von Satz 14.5, von dem unsere Überlegungen ihren Ausgang genommen haben.
14.3 Reguläre, bedingte Wahrscheinlichkeiten Mit Hilfe der bisher bewiesenen Sätze über bedingte Erwartungen lassen sich leicht die folgenden Eigenschaften bedingter Wahrscheinlichkeiten herleiten. Satz 14.23. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und A eine Subsigmaalgebra von S , so gilt: 1. P (∅|A) = 0 P –fs , P (Ω|A) = 1 P –fs . 2. 0 ≤ P (A|A) ≤ 1 P –fs ∀ A ∈ S . 3. Ist (An ) eine disjunkte Folge aus S , so gilt
! P An |A = P (An |A) n
P –fs .
(14.22)
n
Beweis. ad 1. : Folgt aus Satz 14.10 Punkt 2. mit 1∅ = 0 bzw. 1Ω = 1 . ad 2. : Folgt aus Satz 14.10 Punkt 4. wegen 0 ≤ 1A ≤ 1 . ad 3. : Folgt aus Satz 14.10 Punkt 3. und Satz 14.11 (Konvergenz durch Mon n = 1 Ai . notonie für bedingte Erwartungen) mit Yn := 1 Ai
i=1
i=1
Der obige Satz lässt vermuten, dass die bedingten Wahrscheinlichkeiten alle von den Maßen μ2 (ω1 , A2 ) im verallgemeinerten Satz von Fubini (Satz 10.21) geforderten Eigenschaften besitzen, dass also P (A|A)( . ) für jedes A ∈ S als Funktion von ω A-messbar ist, und dass P ( . |A)(ω) für jedes ω ∈ Ω eine Wahrscheinlichkeitsverteilung auf (Ω, S) darstellt.
14.3 Reguläre, bedingte Wahrscheinlichkeiten
243
Die Nullmenge, auf der (14.22) nicht gilt, hängt aber von der Folge (An ) ab. Da es i.A. überabzählbar viele disjunkte Folgen gibt, kann man nicht sagen, ob ihre Vereinigung Wahrscheinlichkeit 0 besitzt oder, ob sie überhaupt messbar ist. In der Tat lassen sich Gegenbeispiele konstruieren, in denen (14.22) auf einer Menge von positivem Maß nicht für jede disjunkte Folge gilt, sodass P ( . |A)(ω) für die ω aus dieser Menge kein Wahrscheinlichkeitsmaß ist. Definition 14.24. Sind A , C Subsigmaalgebren auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so heißt P, ( . |A)( . ) : C × Ω → [0, 1] eine reguläre durch A bedingte Wahrscheinlichkeitsverteilung auf C , wenn für jedes C ∈ C gilt P,(C|A)( . ) = P (C|A) P –fs und, wenn P, ( . |A)(ω) für jedes ω ∈ Ω eine Wahrscheinlichkeitsverteilung auf C ist. Satz 14.25. Unter den Voraussetzungen und mit den Bezeichnungen der obigen Definition gilt für jedes C-messbare Y , dessen Erwartungswert existiert, 7 (14.23) E(Y |A)(ω) = Y (ω ) P, (dω |A)(ω) P –fs . Beweis. Ist Y = 1C , C ∈ C ein messbarer Indikator, so gilt 7 1C (ω ) P, (dω |A)(ω) = P, (C|A)(ω) = P (C|A)(ω) = E(1C |A)(ω)
P –fs .
Auf Grund der Additivität des Integrals und der bedingten Erwartung gilt (14.23) aber auch für Y ∈ T + (Ω, C) . Da es zu Y ∈ M+ (Ω, C) eine Folge (tn ) aus T + (Ω, C) gibt mit tn Y , folgt aus den Sätzen über die Konvergenz durch Monotonie (Satz 9.20 und 14.11) 7 7 Y (ω ) P, (dω |A)(ω) = lim tn (ω ) P, (dω |A)(ω) n
= lim E(tn |A)(ω) = E(Y |A)(ω) n
P –fs .
Ist Y ∈ M(Ω, C) und existiert EY , so zerlegt man in Y + und Y − . Bemerkung 14.26. Wir haben bereits in Abschnitt 14.1 die im verallgemeinerten Satz von Fubini beschriebenen Voraussetzungen als Modell eines zweistufigen Experiments interpretiert, wenn die entsprechenden Maße Wahrscheinlichkeitsverteilungen P1 bzw. P2 (ω1 , . ) sind. Der betrachtete Grundraum ist dort der Produktraum (Ω1 × Ω2 , S1 ⊗ S2 , P ) , pr−1 1 (S1 ) = {A × Ω2 : A1 ∈ S1 } entspricht der σ-Algebra A . hC (ω1 ) := P, (C|pr1 = ω1 ) := P2 (ω1 , Cω1 ) , C ∈ S1 ⊗ S2 ist als Funktion von ω1 S1 -messbar und als Funktion von C eine Wahrscheinlichkeitsverteilung für jedes ω1 ∈ Ω1 . Daher ist auch P,(C|pr1 ) := hC ◦ pr1 als Funktion von C eine Wahrscheinlichkeitsverteilung für jedes ω := (ω1 , ω2 ) aus Ω1 × Ω2 . Für festes C ist P, (C|pr1 ) als Zusammensetzung von pr1 und hC klarerweise pr−1 1 (S1 )-messbar und es gilt nach Satz 10.21 und Satz 9.62
244
14 Bedingte Erwartungen
7
7 1C dP = A1 ×Ω2
7
=
A1
⎛ ⎝
7
⎞ 1Cω1 P2 (ω1 , dω2 )⎠ P1 (dω1 ) =
Ω2
P2 (ω1 , Cω1 ) P1 (dω1 ) A1
7
hC (ω1 ) P pr−1 1 (dω1 ) =
7
P, (C| pr1 )(ω) P (dω) .
pr−1 1 (A1 )=A1 ×Ω2
A1
Somit ist P,( . |pr1 ) eine reguläre durch pr1 bedingte Wahrscheinlichkeitsverteilung auf C := S1 ⊗ S2 . P, (C|pr1 )(ω) = P2 (pr1 (ω) , Cpr1 (ω) ) = P2 (ω1 , Cω1 ) ist mit ω := (ω1 , ω2 ) für alle C ∈ S1 ⊗ S2 äquivalent zu 7 7 1C (ω ) P, (dω |pr1 )(ω) = 1Cpr1 (ω) (ω2 ) P2 (pr1 (ω), dω2 ) 7 7 (14.24) = 1Cω1 (ω2 ) P2 (ω1 , dω2 ) = 1C (ω1 , ω2 ) P2 (ω1 , dω2 ) . Man beachte, dass ω und ω2 in der obigen Gleichung Integrationsvariable sind, während ω1 , ω2 die Argumente der Funktion darstellen. Da (14.24) für alle messbaren Indikatoren gilt, muss es wegen der Additivität auch für alle Treppenfunktionen t ∈ T(Ω1 × Ω2 , S1 ⊗ S2 ) gelten. Konvergenz durch Monotonie liefert die Gültigkeit von (14.24) für messbare Y ≥ 0 . Beliebige Y ∈ M mit existierendem EY zerlegt man in Y + und Y − und erhält schließlich 7 7 , Y (ω ) P (dω |pr1 )(ω) = Y (ω1 , ω2 ) P2 (ω1 , dω2 ) . . Da die rechte Seite hY (pr1 (ω) ) = hY (ω1 ) := Y (ω1 , ω2 ) P2 (ω1 , dω2 ) der obigen Gleichung nur von ω1 abhängt und deshalb in Bezug auf ω2 wie eine Konstante zu behandeln ist, ergibt Integration auf A1 × Ω2 , A1 ∈ S1 und Anwendung des verallgemeinerten Satzes von Fubini ⎞ ⎛ 7 7 7 hY (pr1 (ω)) dP (ω) = ⎝ hY (ω1 ) P2 (ω1 , dω2 ) ⎠ dP1 (ω1 ) A1 ×Ω2
A1
7
Ω2
7
hY (ω1 ) P2 (ω1 , Ω2 ) dP1 (ω1 ) =
= A1
7 7
= A1
Y (ω1 , ω2 ) P2 (ω1 , dω2 )
hY (ω1 ) dP1 (ω1 ) A1
7
dP1 (ω1 ) =
Y (ω1 , ω2 ) dP (ω1 , ω2 ) .
A1 ×Ω2
# ". Damit ist Y (ω ) dP, (ω |pr1 ) tatsächlich eine Version von E(Y | pr1 ) und stimmt überein mit dem in Gleichung (14.3) intuitiv verwendeten Ausdruck für die bedingte Erwartung.
14.3 Reguläre, bedingte Wahrscheinlichkeiten
245
Für Zufallsvariable X, Y mit der gemeinsamen Dichte fX,Y erhält man als Spezialfall aus den obigen Ausführungen den in Gleichung (14.4) verwendeten . . f (x,y) y fY |X (y|x) λ(dy) . Ausdruck E(Y |X = x) = y X,Y fX (x) λ(dy) = Definition 14.27. Ist Y eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und A ⊆ S eine σ-Algebra, so heißt F (y|A)(ω) : R × Ω → [0, 1] eine reguläre durch A bedingte Verteilungsfunktion von Y , wenn für jedes y ∈ R gilt F (y|A)( . ) = P (Y ≤ y|A) P –fs und wenn F ( . |A)(ω) eine Verteilungsfunktion auf R für alle ω ∈ Ω ist. Satz 14.28. Unter den Voraussetzungen und mit den Bezeichnungen der obigen Definition existiert eine reguläre durch A bedingte Verteilungsfunktion von Y . Beweis. Wir definieren zunächst F (q|A) := P (Y ≤ q|A) ∀ q ∈ Q . Aus Satz 14.13 und 1[Y ≤−n] 0 , 1[Y ≤n] 1 folgt, dass die beiden Mengen N−∞ := {ω : lim F (−n|A)(ω) = 0 } und N∞ := {ω : lim F (n|A)(ω) = 1 } n→∞
n→∞
P -Nullmengen sind. Aus Satz 14.13 und 1[Y ≤q+ n1 ] 1[Y ≤q] folgt , dass auch für alle Mengen Nq := {ω : lim F (q + n1 |A)(ω) = F (q|A)(ω) } mit q ∈ Q gilt P (Nq ) = 0 . n→∞ Nq ebenfalls eine P -Nullmenge. Somit ist NR := q∈Q
Für p < q haben schließlich die Mengen Np,q := {ω : F (q|A)(ω) < F (p|A)(ω)} nach Satz 14.10 Punkt 4. P -Maß 0 . Für NM := Np,q gilt daher P (NM ) = 0 . p
Für ω ∈ N := NR ∪NM ∪N∞ ∪N−∞ setzt man nun F ( . |A)(ω) gleich mit einer beliebigen Verteilungsfunktion i.e.S., bspw. F, (y|A)(ω) := 1[0,∞) (y) ∀ y ∈ R . Für ω ∈ N c definiert man F ( . |A)(ω) durch F, (y|A)(ω) := inf F (q|A)(ω) . q≥y ,q∈Q
Da F ( . |A)(ω) für ω ∈ N c monoton ist, gilt F, (q|A)(ω) = F (q|A)(ω) ∀ q ∈ Q . F, ( . |A)(ω) bildet also eine Fortsetzung von F ( . |A)(ω) auf R . Zudem wächst F, (y|A)(ω) seiner Definition gemäß monoton in y . Daraus aber folgt 0 = lim F (q|A)(ω) = lim F, (z|A)(ω) ≤ F,(y|A)(ω) q→−∞
z→−∞
≤ lim F, (z|A)(ω) = lim F (q|A)(ω) = 1 ∀ y ∈ R . z→∞
q→∞
(14.25)
Aus der Monotonie von F, ( . |A)(ω) folgt auch, dass für jede Folge yn y gilt F,(y|A)(ω) ≤ lim F, (yn |A)(ω) . Andererseits gibt es zu jedem ε > 0 ein n
q ∈ Q mit y < q und F (q|A)(ω) ≤ F, (y|A)(ω) + ε . Für alle yn ≤ q gilt daher F, (yn |A)(ω) ≤ F, (y|A)(ω) + ε . Daraus folgt lim F,(yn |A)(ω) ≤ F,(y|A)(ω) + ε . n
Also gilt F, (y|A)(ω) = lim F, (yn |A)(ω) , d.h. F,( . |A)(ω) ist rechtsstetig und yn y
erfüllt damit für ω ∈ N c alle Eigenschaften einer Verteilungsfunktion i.e.S. Für q ∈ Q gilt vereinbarungsgemäß F (q|A) = P (Y ≤ q|A) P –fs . Ist y ∈ R , so gibt es eine Folge (qn ) in Q mit qn y , sodass 1[Y ≤qn ] 1[Y ≤y] . Daraus ergibt sich nach Satz 14.13 und der Rechtsstetigkeit von F,(y|A)(ω)
246
14 Bedingte Erwartungen
F, (y|A) = lim F (qn |A) = lim P (Y ≤ qn |A) = P (Y ≤ y|A) n
n
P –fs .
Demnach ist F, (y|A) für jedes y ∈ R eine Version von P (Y ≤ y|A) . Die nächsten Sätze zeigen, dass reguläre Verteilungen zumindest für die in der Praxis wichtigsten Fälle existieren, nämlich dann, wenn die Verteilungen durch Zufallsvariable oder Zufallsvektoren induziert werden. Satz 14.29. Unter den Voraussetzungen und mit den Bezeichnungen von Definition 14.27 existiert eine reguläre durch A bedingte Wahrscheinlichkeitsverteilung P,( . |A) auf Y −1 (B) , d.h. P, (Y ∈ B|A) = P (Y ∈ B|A) P –fs ∀ B ∈ B und für jedes ω ∈ Ω ist P, ( . |A)(ω) eine Wahrscheinlichkeitsverteilung auf Y −1 (B) . Man nennt P,(Y ∈ . |A)( . ) die durch A bedingte, reguläre Verteilung von Y . Beweis. Für jedes ω ∈ Ω wird von der durch A bedingten, regulären Verteilungsfunktion F, ( . |A)(ω) von Y aus dem vorigen Satz eine Wahrscheinlichkeitsverteilung P Y −1 ( . |A)(ω) auf (R, B) bestimmt.
Nun sind in G := {B ∈ B : P Y −1 (B|A) = P (Y ∈ B|A) P –fs} auf Grund des vorigen Satzes die Intervalle (−∞, y] , y ∈ R enthalten, und wegen Satz 14.10 Punkt 3. liegen damit auch alle Intervalle (a, b] , a, b ∈ R , sowie alle Vereinigungen von endlich vielen, disjunkten Intervallen in G . Da das System der endlichen Vereinigungen disjunkter Intervalle einen Ring bildet, und, da aus Satz 14.13 folgt, dass G ein monotones System ist, ergibt sich aus Satz 2.73 und Bemerkung 2.57 G = B , Damit ist P, (Y ∈ B|A)(ω) := P Y −1 (B|A)(ω) einerseits für jedes ω ∈ Ω eine Wahrscheinlichkeitsverteilung auf Y −1 (B) und stimmt andererseits für jedes [Y ∈ B] aus Y −1 (B) mit P (Y ∈ B|A) P –fs überein. P,( . |A)( . ) ist somit die gesuchte durch A bedingte reguläre Verteilung von Y . Definition 14.30. Ein Messraum (Ω, S) heißt Borel-Raum, wenn es ein B ∈ B und eine bijektive Abbildung ϕ : Ω → B gibt, sodass ϕ : (Ω, S) → (B , B ∩ B) und ϕ−1 : (B , B ∩ B) → (Ω, S) . Die Abbildung ϕ wird als Borel-Äquivalenz zwischen (Ω, S) und (B, B ∩ B) bezeichnet.
Satz 14.31. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, A ⊆ S eine Subsigmaalgebra, (Ω , S ) ein Borel-Raum und X : (Ω, S) → (Ω , S ) , so existiert eine reguläre durch A bedingte Wahrscheinlichkeitsverteilung P,( . |A) auf X −1 (S ) , d.h. P,(X ∈ C|A) = P (X ∈ C|A) P –fs ∀ C ∈ S und für jedes ω ∈ Ω ist P,( . |A)(ω) eine Wahrscheinlichkeitsverteilung auf X −1 (S ) . Beweis. Ist ϕ eine Borel-Äquivalenz auf (Ω , S ) , so gibt es zu jedem C ∈ S ein B ∈ B mit C = ϕ−1 (B) bzw. B = (ϕ−1 )−1 (C) = ϕ(C) . Damit gilt [X ∈ C] = [X ∈ ϕ−1 (B)] = [ϕ ◦ X ∈ B] . Y := ϕ ◦ X ist aber eine Zufallsvariable, und daher existiert eine reguläre durch A bedingte Verteilung P, (Y ∈ . |A)( . ) von Y , d.h. für jedes C ∈ S mit B := ϕ(C) gilt
14.3 Reguläre, bedingte Wahrscheinlichkeiten
247
P, (X ∈ C|A) = P, (Y ∈ B|A) = P (Y ∈ B|A) = P (X ∈ C|A) P –fs , und für jedes ω ist P, ( . |A)(ω) eine Wahrscheinlichkeitsverteilung auf den Mengen [Y = ϕ(C)] = [X ∈ C] , die bekanntlich X −1 (S ) bilden. Wir zeigen zum Abschluss noch, dass die Abbildung X aus dem obigen Satz ein Zufallsvektor und sogar eine Folge von Zufallsvariablen sein kann. Satz 14.32. (Rk , Bk ) , k ∈ N und (R∞ , B∞ ) sind Borel-Räume. Beweis. Durch die Funktion F (x) := 12 ex 1(−∞,0] (x) + (1 − 12 e−x ) 1(0,∞) (x) wird R auf (0, 1) abgebildet. Da F strikt monoton wachsend und stetig ist, sind sowohl F als auch F −1 messbar. Daher genügt es zu zeigen, dass eine Borel-Äquivalenz zwischen ( (0, 1), B ∩ (0, 1) ) und ( (0, 1)∞ , B∞ ∩ (0, 1)∞ ) bzw. ( (0, 1)k , Bk ∩ (0, 1)k ) besteht. Ist ω ∈ (0, 1) und Xn (ω) die n-te Ziffer von ω in seiner Binärdarstellung, so ist Xn messbar, wie in Beispiel 7.51 bewiesen wurde. Im Beweis von Folgerung 8.18 wurde gezeigt, dass die Folge (Xn (ω)) in bijektiver Weise (mit Hilfe des Diagonalisierungsverfahrens) in Teilfolgen (Xi,j (ω))j∈N aus {0, 1}∞ aufgespalten werden kann, und entsprechend den Ausführungen aus Bemerkung 10.46 sind mit den Xi,j auch die Vektoren ∞ Xi,j (ω) wird jedem Xi := (Xi,1 , Xi,2 , . . .) messbar. Durch Z(Xi (ω)) := 2j j=1
Xi (ω) in messbarer und eindeutiger Weise eine Zahl aus (0, 1) zugeordnet. Damit bildet aber nach den Ausführungen aus Bemerkung 10.46 die Funktion ϕ(ω) := (Z(X1 (ω)), Z(X2 (ω)), . . .) das Intervall (0, 1) messbar auf (0, 1)∞ ab. Umgekehrt wird jede Folge x := (x1 , x2 , . . . , ) aus (0, 1)∞ durch die Projektionen pri messbar auf Zahlen xi ∈ (0, 1) abgebildet, denen wieder auf messbare Art Binärfolgen (bj (pri (x))) zugeordnet werden können. Diese Folgen werden wieder mit dem Diagonalisierungsverfahren zu einer einzigen Folge b(x) := (b1 (x), b2 (x), . . .) zusammengefasst, und klarerweise ist auch ∞ bn (x) die Abbildung b : (0, 1)∞ → {0, 1}∞ messbar. Z(b(x) ) := ordnet 2n n=1
schließlich jeder Binärfolge messbar ein ω ∈ (0, 1) zu. Die Borel-Äquivalenz zwischen ( (0, 1), B∩(0, 1) ) und ( (0, 1)k , Bk ∩(0, 1)k ) zeigt man wobei es hier genügt die Ziffernfolge Xn in die k Teil" ganz ähnlich, # folgen Xi, n−1 +1 , i = 0, . . . , k − 1 mit i ≡ n mod k aufzuspalten. k
15 Gesetze der großen Zahlen
15.1 Die Varianz und andere Momente Oft lassen sich Aussagen über bestimmte Ereignisse machen ohne die Verteilung einer Zufallsvariablen X zu kennen, wenn man gewisse Kenngrößen dieser Zufallsvariablen bestimmen oder schätzen kann. So liefert etwa Ungleichung (13.14) bzw. (13.15) eine obere Schranke für die Wahrscheinlichkeit der Abweichungen vom Mittelwert, wenn man den Erwartungswert E X und 2 σX := E(X − EX)2 kennt. Ungleichung (13.15) besagt bspw. konkret, dass höchstens γ12 ∗100% der Ausgänge eines Experiments einen größeren Abstand als γ σ vom Erwartungswert haben. Definition 15.1. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und X eine Zufalls2 2 := Var X := variable aus L2 , so nennt man σX < die Varianz von √ E (X − EX) X . Als Streuung von X bezeichnet man σX := Var X = E(X − EX)2 . Bemerkung 15.2. 1. Aus Satz 13.25 folgt, dass jedes X ∈ L2 (Ω, S, P ) einen endlichen Erwartungswert E X besitzt, sodass die obige Definition sinnvoll ist. 2. Da die Varianz einer Zufallsvariablen, wie oben erwähnt, angibt, wie stark die Ausgänge eines Zufallsexperiments um den Mittelwert streuen, wird sie als Streuungsparameter bezeichnet. Kenngrößen, die die Lage der Werte einer Zufallsvariablen charakterisieren, nennt man hingegen Lageparameter. Dazu gehören Erwartungswert und Median. Der folgende Satz beinhaltet eine Minimalitätseigenschaft des Erwartungswerts und erleichtert oft die Berechnung der Varianz. Satz 15.3. Ist X eine quadratisch integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt E(X − a)2 = E(X − EX)2 + (EX − a)2
∀ a ∈ R,
(15.1)
woraus folgt E( X − EX )2 = min E( X − a )2 und Var X = EX 2 − (EX)2 . a∈R
250
15 Gesetze der großen Zahlen
Beweis. Dieser Satz ist nichts anderes, als der Spezialfall von Satz 14.19 für A := {∅ , Ω} . Mit a = 0 erhält man Var X = EX 2 − (EX)2 . Bemerkung 15.4. (15.1) ist auch als Steiner’scher Verschiebungssatz bekannt. Man beachte aber E |X − EX| = min E |X − a| . wie der folgender Satz zeigt. a∈R
Satz 15.5 (Minimalitätseigenschaft des Medians). Ist X eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und m ein Median gemäß Bemerkung 8.14 Punkt 4, d.h. P (X < m) ≤ 12 ≤ P (X ≤ m) , so gilt E |X − m| = min E |X − a| . a∈R
(15.2)
Beweis. Ist a ≥ m, so gilt ⎧ ⎪ ⎨m − a, |X − a| − |X − m| = m + a − 2X, ⎪ ⎩ a − m,
X>a m<X≤a X ≤ m,
d.h. |X − a| − |X − m| ≥ (a − m) 1[X≤m] + (m − a) 1[X>m] . Daraus folgt 3 E( |X − a| − |X − m| ) ≥ E (a − m) 1[X≤m] + (m − a) 1[X>m] 1 1 − ≥ 0. = (a − m) ( P ( X ≤ m ) − P ( X > m ) ) ≥ (a − m) 2 2 Für a < m führt man den Beweis analog. Erwartungswert und Median einer Zufallsvariablen aus L2 können höchstens um die Streuung differieren, wie der folgende Satz zeigt. Satz 15.6. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und X ∈ L2 (Ω, S, P ) eine Zufallsvariable mit dem Median m und der Streuung σ , so gilt | m − EX |≤ σ.
(15.3)
Beweis. Aus der Jensen’schen Ungleichung (Satz 13.1), dem obigen Satz und der Cauchy-Schwarz’schen Ungleichung (13.6) folgt | E X − m | = | E (X − m) | ≤ E | X − m | ≤ E | X − E X | √ < = E | X − E X | | 1 | ≤ E(X − E X)2 E 12 = σ . Definition 15.7. Als Kovarianz der quadratisch integrierbaren Zufallsvariablen X, Y bezeichnet man den Ausdruck Cov( X , Y ) := E(X −EX ) ( Y −EY ) , und ) ist der Korrelationskoeffizient von X und Y . ρ := ρ(X , Y ) := Cov(X,Y σX σY Man sagt X , Y sind unkorreliert, wenn Cov( X , Y ) = 0 . Der nächste Satz listet elementare Eigenschaften der Varianz auf.
15.1 Die Varianz und andere Momente
251
Satz 15.8. Sind X , Y quadratisch integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt 1. Var(X + a) = Var X ∀ a ∈ R , 2. Var(a X) = a2 Var X ∀ a ∈ R , 3. Var(X + Y ) = Var X + Var Y + 2 Cov(X , Y ) , 4. Var(X + Y ) = Var X + Var Y für X , Y unkorreliert. Beweis. ad 1 : ad 2 : ad 3 : ad 4 :
Var(X + a) = E[ X + a − E(X + a) ]2 = E(X − EX)2 = Var X . Var(a X) = E( a X − a EX)2 = a2 E(X − EX)2 = a2 Var X . Var(X + Y ) = E[ (X − EX ) + (Y − EY ) ]2 = Var X + Var Y + 2 E( X − EX ) ( Y − EY ) . Dies folgt sofort aus Punkt 3.
Beispiel 15.9. In Beispiel 9.78 wurde gezeigt, dass X ∼ N (μ, σ2 ) den Erwartungswert EX = μ besitzt. Für X ∼ N (0, 1) gilt also EX = 0 ∧ Var X = EX 2 . Aus X ∼ N (0, 1) folgt aber Y := X 2 ∼ χ21 ⇒ Var X = EY = 1 (siehe Beispiel 9.82). Z := σ X + μ ist dann bekanntlich N (μ, σ 2 )- verteilt, und aus Satz 15.8 Punkt 1. und 2. folgt Var Z = σ2 . Die Parameter einer Normalverteilung sind also der Erwartungswert und die Varianz. Lemma 15.10. Sind X , Y quadratisch integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt Cov( X , Y ) = E(X Y ) − EX EY .
(15.4)
Beweis. Cov( X , Y ) = E(X − EX ) ( Y − EY ) = E(X Y ) − 2 EX EY + EX EY = E(X Y ) − EX EY . Lemma 15.11. Unabhängige, quadratisch integrierbare Zufallsvariable X , Y auf einem Wahrscheinlichkeitsraum (Ω, S, P ) sind immer unkorreliert. Beweis. Nach Folgerung 10.34 gilt für unabhängige Zufallsvariable X , Y E( X − EX ) ( Y − EY ) = E( X − EX ) E( Y − EY ) = 0 . Die Umkehrung gilt i.A. nicht, wie das folgende Beispiel zeigt. Beispiel 15.12. Nimmt X die Werte −1 , 0 , 1 mit den Wahrscheinlichkeiten 1 1 1 2 4 , 2 , 4 an und ist Y := 1 − X , so wird Y durch X deterministisch festgelegt. Aber wegen X Y ≡ 0 gilt E(X Y ) = 0 . Zusammen mit EX = 0 ergibt das Cov(X , Y ) = E(X Y ) − EX EY = 0 . Lemma 15.13. Sind X , Y quadratisch integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt −1 ≤ ρ(X , Y ) ≤ 1 . Beweis. Unter Berücksichtigung der Cauchy-Schwarz’sche Ungleichung (Ungleichung (13.6)) gilt |Cov(X , Y )| ≤ E |X − EX | | Y − EY | ≤ σX σY .
252
15 Gesetze der großen Zahlen
Beispiel 15.14. < Sind X1 , X2 N (0, 1)-verteilte, unabhängige Zufallsvariable, Z1 := σ1 1 − ρ2 X1 + σ1 ρ X2 + μ1 und Z2 := σ2 X2 + μ2 , so gilt, wie in Beispiel 9.80 gezeigt wurde, (Z1 , Z2 ) ∼ N (μ1 , μ2 , σ12 , σ22 , ρ) . Daraus folgt # :" < ; Cov(Z1 , Z2 ) = E σ1 1 − ρ2 X1 + σ1 ρX2 + μ1 (σ2 X2 + μ2 ) − μ1 μ2 # ; :" < = E σ1 1 − ρ2 X1 + σ1 ρX2 σ2 X2 :< ; = σ1 σ2 1 − ρ2 EX1 EX2 + ρ EX22 = σ1 σ2 ρ . Somit ist ρ der Korrelationskoeffizient von Z1 , Z2 . Beispiel 15.15 (Fortsetzung von Beispiel 10.17 , 10.20 und 10.58). In Beispiel 10.58 wurde gezeigt, dass für die Zufallsvariablen T1 und T2 aus Beispiel 10.20 gilt T1 ∼ Exτ , T2 ∼ Er2,τ ⇒ ET1 = τ1 , ET2 = τ2 . E(T1 T2 ) kann man mit dem Satz von Fubini ausrechnen ⎞ ⎛ ∞ ⎞ ⎛ 7∞ 7∞ 7∞ 7 E(T1 T2 ) = ⎝ x y τ 2 e−τ y dy ⎠ dx = x ⎝ y τ (τ e−τ y ) dy ⎠ dx 7∞ = 7∞
0
⎛
+∞ x ⎝ −τ y e−τ y +x +
7∞
$
−τ x
+e
0
−τ x
%
x
0
⎞
τ e−τ y dy ⎠ dx =
x
0
x τ xe
=
x
2 dx = 2 τ
7∞ 0
7∞
+∞ % $ x τ x e−τ x − e−τ y +x dx
0 3
2 −τ x
τ x e 2
1 dx + 2 τ
7∞
τ 2 x e−τ x dx =
3 . τ2
0
Die letzte Gleichung oben gilt, da im vorletzten Integral der obigen Gleichung die Dichte einer Er3,τ -Verteilung steht und im letzten Integral die Dichte einer Er2,τ -Verteilung, sodass beide Integrale den Wert 1 haben. Die Kovarianz von T1 und T2 ergibt sich nun zu Cov(T1 , T2 ) = E(T1 T2 ) − ET1 ET2 = τ12 . Definition 15.16. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und X eine Zufallsvariable aus Lk (Ω, S, P ) mit k ∈ N , so nennt man EX k das k-te Moment k von X , E |X| heißt k-tes absolutes Moment, E(X − EX)k ist das k-te zentrale Moment, und E |X − EX|k ist das k-te absolute, zentrale Moment. Gemäß obiger Definition ist der Erwartungswert EX das 1-te Moment einer Zufallsvariablen X , und die Varianz ist das 2-te zentrale Moment von X . Für das 1-te zentrale Moment gilt klarerweise immer E(X −EX) = EX −EX = 0 . Bemerkung 15.17. 1. Obwohl EX k für gerades k immer existiert, spricht man von der Existenz des k-ten Moments nur dann, wenn EX k ∈ R . In diesem Sinn existiert das k-te Moment genau dann, wenn das k-te absolutes Moment existiert.
15.1 Die Varianz und andere Momente
253
2. Aus der Existenz des k-ten Moments folgt nach Satz 13.25 die Existenz der Momente EX g mit 1 ≤ g ≤ k . k $ % k 3. Wegen (X −EX)k = X i (EX)k−i und Punkt 2. folgt aus der Existenz i i=0
des k-ten Moments die Existenz des k-ten zentralen Moments. Definition 15.18. Eine Zufallsvariable X auf einem Wahrscheinlichkeitsraum (Ω, S, P ) heißt symmetrisch um a , wenn X − a dieselbe Verteilung wie a − X besitzt, wenn also gilt P (X ≤ a − x) = P (X ≥ a + x) ∀ x ∈ R . Ist F die zu X gehörige Verteilungsfunktion, so ist dies äquivalent zu F (a−x) = 1−F− (a+x) . Hat X eine Dichte f , so ist auch f (a−x) = f (a+x) eine äquivalente Bedingung. Bemerkung 15.19. Das Symmetriezentrum a einer symmetrischen Zufallsvariablen X ist ein Median von X gemäß Bemerkung 8.14 Punkt 4, denn mit x = 0 gilt F (a) = 1 − F− (a) . Daraus folgt 2 F (a) ≥ F (a) + F− (a) = 1 und 1 = F (a) + F− (a) ≥ 2 F− (a) , was umgeformt F (a) ≥ 12 ≥ F− (a) ergibt. Lemma 15.20. Existiert für n ≥ 0 das 2 n + 1-te Moment der um a symmetrischen Zufallsvariablen X , so gilt E (X − a)2 n+1 = 0 . Beweis. Aus (X − a)2 n+1 ∼ (a − X)2 n+1 = −(X − a)2 n+1 folgt unmittelbar E (X − a)2 n+1 = −E (X − a)2 n+1 ⇒ E (X − a)2 n+1 = 0 . Beispiel 15.21. X ∼ N (0, 1) ist symmetrisch um 0 . Außerdem müssen alle x2
− √x
Momente existieren, denn für alle n ∈ N und x ≥ 0 gilt xn e− 2 ≤ xn e 2 , und die rechte Seite dieser Ungleichung ist integrierbar, √ da sie bis auf eine multiplikative Konstante mit der Dichte einer Γ (n + 1, 2)-Verteilung übereinstimmt. Demnach gilt E X 2n−1 = 0 ∀ n ∈ N . In Beispiel 15.9 wurde bereits gezeigt, dass gilt E X 2 = 1 . Damit folgt aus n (2 i − 1) durch partielle Integration der Induktionsannahme E X 2 n = i=1
7∞ EX
2 (n+1)
$
2 n+1
x
= −∞ 7∞
= (2n + 1)
$
x
−∞
2n
%
%
x2 1 √ x e− 2 2π
x2 1 √ e− 2 2π
Somit hat X die Momente E X 2 n =
dx
dx = (2n + 1) E X 2 n =
n+1
(2 i − 1) .
i=1 n
(2 i − 1) ∧ E X 2n−1 = 0
∀ n ∈ N.
i=1
Der Vollständigkeit halber erwähnen wir noch 2 Kenngrößen, die über die Gestalt der Dichten stetiger Zufallsvariabler Auskunft geben und daher in der Statistik oft gebraucht werden. Man kann diese beiden Parameter aber für beliebige Zufallsvariable, deren 3-te bzw. 4-te Momente existieren, definieren.
254
15 Gesetze der großen Zahlen
Definition 15.22. Ist X eine Zufallsvariable auf einem Wahrscheinlichkeits3 die raum (Ω, S, P ) , deren 3-tes Moment existiert, so nennt man E(X−EX) σ3 Schiefe von X . Für X ∈ L4 (Ω, S, P ) heißt
E(X−EX)4 (Var X)2
X
Exzeß(Wölbung,Kurtosis).
15.2 Schwache Gesetze der großen Zahlen Definition 15.23. Ist X eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so heißt Y := X − EX die zugehörige zentrierte als standardisiert. Zufallsvariable, und für X ∈ L2 bezeichnet man Z := X−EX σX Für zentrierte Zufallsvariable Y gilt natürlich immer EY = 0 , und für standardisierte Zufallsvariable gilt EZ = 0 ∧ Var Z = 1 . Definition 15.24. Ist X = (X1 , . . . , Xn ) ein Zufallsvektor auf einem Wahrn Xi den Mittelwert scheinlichkeitsraum (Ω, S, P ) , so nennt man X n := n1 i=1
der Xi . Sind die Xi unabhängig, identisch verteilt, so spricht man auch vom Stichprobenmittelwert der Stichprobe (X1 , . . . , Xn ) . Bemerkung 15.25. Sind X1 , . . . , Xn unabhängig, identisch verteilte Zufallsva2 riable aus L2 (Ω, S, P ) mit der gemeinsamen Varianz σX , so folgt aus Satz 15.8 n 2 2 n σ σ Var Xi = n2X = nX . Dies deckt sich durchPunkt 2. und 4. Var X n = n12 i=1
aus mit unserer Intuition, denn man wird erwarten, dass einzelne Messergebnisse stärker streuen, als die Mittelwerte mehrerer Versuchsreihen. Schwache Gesetze der großen Zahlen sind Aussagen darüber, unter welchen Voraussetzungen Mittelwerte in Wahrscheinlichkeit konvergieren, wie sie etwa in den nächsten Sätzen formuliert sind. Im Folgenden werden wir auch die Abkürzungen GGZ für Gesetz der großen Zahlen und iid (independent, identically distributed) für unabhängig, identisch verteilt verwenden. Satz 15.26 (Schwaches Gesetz der großen Zahlen). Ist (Xn ) eine Folge unkorrelierter Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit M := sup Var Xn < ∞ , so konvergieren die Mitelwerte Y n der zentrierten Zun∈N
fallsvariablen Yi := Xi − EXi in Wahrscheinlichkeit gegen Null, d.h. es gilt +
+ n +1 ! + + + ( Xi − EXi )+ > ε = 0 ∀ ε > 0 . (15.5) lim P + n→∞ +n + i=1
Beweis. Es gilt EY n = 0 und Var Y n =
1 n2
n i=1
Var Yi =
1 n2
n i=1
Var Xi ≤
M n
.
Die Tschebyscheff’sche (Ungleichung (13.14)), angewendet auf + $ + Ungleichung % Y n ergibt daher P + Y n + > ε ≤ nMε2 ∀ n ∈ N , woraus (15.5) sofort folgt.
15.2 Schwache Gesetze der großen Zahlen
255
Satz 15.27 (Schwaches GGZ für iid Zufallsvariable). Die Stichprobenmittel n X n := n1 Xi einer jeden Folge unabhängig, identisch verteilter Zufallsvariai=1
bler aus L2 (Ω, S, P ) konvergieren in Wahrscheinlichkeit gegen den gemeinsamen Erwartungswert EX der Zufallsvariablen, es gilt also +
+ n +1 ! + + + Xi − E X + > ε = 0 ∀ ε > 0 . (15.6) lim P + n→∞ +n + i=1
Beweis. Da unabhängige Zufallsvariable unkorreliert sind und für die Varian2 < ∞ ∀ n ∈ N , folgt dies unmittelbar aus Satz 15.26. zen gilt Var Xn = σX Bemerkung 15.28. 1. Für die Praxis wichtig ist allerdings die spezielle Gestalt von Ungleichung (13.14), angewendet auf das Stichprobenmittel unabhängig, identisch verteilter Zufallsvariabler, die unter Berücksichtigung von Bemerkung 15.25 zu + $+ % σ2 P +X n − E X + ≥ ε ≤ X2 nε
(15.7)
führt. Man kann damit bei vorgegebener Genauigkeit ε und vorgegebener oberer Schranke α für die Wahrscheinlichkeit größerer Abweichungen des Stichprobenmittels vom Erwartungswert (der Irrtumswahrscheinlichσ2 keit) durch Auflösung der Gleichung n X ε2 = α nach n den für die Erfüllung dieser Vorgaben erforderlichen Stichprobenumfang n ermitteln. Umgekehrt kann man die Schranke für die Irrtumswahrscheinlichkeit bestimmen, wenn ε und n gegeben sind, oder man kann ε berechnen bei fixem n und α . 2. Wir werden etwas später sehen, dass bei unabhängig, identisch verteilten Zufallsvariablen Xn die Integrierbarkeit der Xn für die Gültigkeit des schwachen Gesetzes der großen Zahlen ausreicht, aber man benötigt die Existenz der Varianz für die Abschätzung (15.7). die 3. Wie aus (15.7) leicht ersichtlich, gibt es Nullfolgen (εn ) , bspw. + % Folge $+ 1 εn := n−( 2 −δ) , δ > 0 , für die sogar gilt lim P +X n − E X + > εn = 0 . n→∞
Mit Hilfe des Gesetzes der großen Zahlen lassen sich Integrale, wie im nächsten Beispiel gezeigt, auf einfache Weise numerisch berechnen. Beispiel 15.29 (Numerische Integration). Ist f : [a, b] → R eine integrierbare .b .b Funktion, von der man weiß, dass I := a |f | dx < ∞ , deren Integral a f dx aber nicht explizit bestimmt werden kann, so gibt es folgende Möglichkeit I numerisch zu approximieren. Sind U1 , U2 , . . . unabhängige Zufallsvariable mit Ui ∼ Ua,b ∀ i ∈ N , so haben die transformierten Zufallsvariablen Yi := f (Ui ) bekanntlich .b 1 I den Erwartungswert EYi = a f (x) b−a dx = b−a . Deshalb konvergien Yi ren die mit b − a multiplizierten Stichprobenmittel Y,n := b−a n i=1
256
15 Gesetze der großen Zahlen
in Wahrscheinlichkeit gegen I (wie später gezeigt wird, konvergieren sie sogar P –fs), und wegen + + + # "+ + I ++ ε σ 2 (b − a)2 + + ≤α P +Y,n − I + ≥ ε = P ++Y n − ≥ ≤ Y + b−a b−a n ε2 σ 2 (b−a)2
den notwendigen Stichprobenumfang erhält man aus n ≥ Y α ε2 (also die Mindestanzahl an zu erzeugenden Zufallszahlen), wenn das numerische Ergebnis mit einer Wahrscheinlichkeit von mindestens 1 − α um nicht mehr als ε vom wahren Wert I abweichen darf. Wenn I nicht explizit angegeben werden kann, ist es meist auch schwierig oder unmöglich σY2 auszurechnen. Aber in der Praxis genügt eine Schranke für die Varianz, wobei natürlich klar ist, dass n umso größer wird, je schlechter diese Schranke ist. Wir wollen nun bestimmen, wieviele Zufallszahlen man zur Berechnung .π des Integrals π2 cosx x dx benötigt, damit das Ergebnis mit 90-prozentiger Si4 cherheit um nicht mehr als ε = 0.01 vom wahren Wert2 abweicht. 2 2 π σY 105 π 2 σY . In die obige Formel eingesetzt erhält man n ≥ 16·0.1·0.01 2 = 16 Schätzt man die Varianz σY2 etwa ab durch 2 7 π 2 cos2 x 4 cos U cos U 2 ≤E dx σY = Var = π U U x2 π 4 + π4 7 π2 + 4 8 π 4 2 π −2 2 π −1 + x dx = ≤ cos cos x + = 2 cos2 , π π 4 4 π 4 π 4 π 2
so ergibt das n ≥ 30843 . Das mag auf den ersten Blick viel erscheinen, aber gleichverteilte Zufallszahlen kann man sehr schnell generieren. Außerdem lässt sich das Verfahren ohne zusätzlichen Programmieraufwand auf mehrdimensionale Integrale übertragen; der einzige Unterschied besteht darin, dass man statt der auf [a, b] gleichverteilten Zufallsvariablen Ui Zufallsvektoren Ui nimmt, die auf mehrdimensionalen Quadern [a, b] gleichverteilt sind.
15.3 Starke Gesetze der großen Zahlen Natürlich interessiert auch die Frage unter welchen Voraussetzungen Mittelwerte P –fs konvergieren. Aussagen dieser Art werden als starke Gesetze der großen Zahlen bezeichnet. Lemma 7.78, wahrscheinlichkeitstheoretisch formuliert, besagt, dass eine Folge von Zufallsvariablen Xn gerade
dann gegen ein X P –fs konvergiert, [ |Xm − X| > ε ] = 0 ∀ ε > 0 . Die im folgenden Satz wenn lim P n→∞
m≥n
vorgestellte Kolmogoroff’sche Ungleichung stellt eine in diese Richtung gehende Verschärfung der Tscheyscheff’schen Ungleichung dar.
15.3 Starke Gesetze der großen Zahlen
257
Satz 15.30 (Ungleichung von Kolmogoroff). Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und (Xn ) eine Folge unabhängiger Zufallsvariabler aus L2 , so gilt + +
n k +! + 1 ! + + P max + ( Xi − EXi )+ ≥ ε ≤ 2 Var Xi ∀ ε > 0 . (15.8) + 1≤k≤n + ε i=1 i=1 k Yi , k ≥ 1, Beweis. Mit den Bezeichnungen Yi := Xi − EXi , S0 := 0, Sk := i=1 A := max |Sk | ≥ ε und Bk := |Sk | ≥ ε > max |Si | , 1 ≤ k ≤ n gilt 1≤k≤n
n
A=
0≤i≤k−1
Bk . Da die Bk disjunkt sind, folgt daraus und aus Satz 13.9
k=1
ε2 P (A) = ε2
n !
P (Bk ) ≤
k=1
n 7 !
Sk2 dP
∀ ε > 0.
(15.9)
k=1B k
Andererseits gilt E Sn2 ≥
n 7 !
Sn2 dP =
k=1B k
≥
n 7 !
n 7 ! 3
Sk2 + 2 Sk (Sn − Sk ) + (Sn − Sk )2 dP
k=1B k
Sk2 dP + 2
k=1B k
n−1 !7
(Sk 1Bk ) (Sn − Sk ) dP .
(15.10)
k=1
Sk und 1Bk sind als Funktionen von X1 , . . . , Xk für 1 ≤ k ≤ n − 1 unabhängig n Yi Daher gilt für alle Integrale im letzten Term auf der von Sn − Sk = i=k+1
rechten Seite von (15.10) 7
⎛ (Sk 1Bk ) (Sn − Sk ) dP = ⎝
7
⎞ Sk dP ⎠ ( ESn − ESk ) = 0 .
(15.11)
Bk
Somit erhält man aus (15.10)
n .
n
k=1
i=1
S 2 dP ≤ E Sn2 = Var Sn = Bk k
Var Xi .
Dies, eingesetzt in (15.9), liefert (15.8). Mit der Kolmogoroff’schen Ungleichung lässt sich der folgende Satz beweisen. Satz 15.31. Ist (Xn ) eine Folge unabhängiger, quadratisch integrierbarer Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , für die zusätzlich ∞ ∞ gilt Var Xn < ∞ , so konvergiert (Xn − E Xn ) P –fs . n=1
n=1
258
15 Gesetze der großen Zahlen
Beweis. Mit Yn := Xn − E Xn und Sn :=
n
Yi erhält man aus der Kolmogo-
i=1
roff’schen Ungleichung für beliebiges ε > 0 und festes m ∈ N + +
k +! + + + P max |Sm+k − Sm | ≥ ε = P max + Ym+i + ≥ ε + 1≤k≤n 1≤k≤n + i=1
≤
m+n !
∞ !
m+n !
Var Yj Var Xj Var Xj = ≤ 2 2 ε ε ε2 j=m+1 j=m+1 j=m+1
∀ n ∈ N.
(15.12)
∞ ∞ Var Xj Var Xj < ∞ sup |Sm+k − Sm | ≥ ε ≤ ε2 . Wegen k∈N j=m+1 j=1 folgt daraus lim P sup |Sm+k − Sm | ≥ ε = 0 ∀ ε > 0 , sodass die Sn Daher gilt P
m→∞
k∈N
nach Lemma 7.78 eine Cauchyfolge P –fs bilden. Da jede derartige Folge eine Grenzfunktion S mit lim Sn = S P –fs besitzt, ist der Satz damit bewiesen. n
Die folgenden Lemmata werden zum Beweis des starken GGZ benötigt. ∞ 1 2 ∀ k ∈ N. Lemma 15.32. n2 ≤ k n=k
Beweis. Für k ≥ 2 und jedes m ∈ N gilt k+m ! n=k
k+m k+m ! ! 1 1 1 1 2 1 1 1 = − )= − ≤ ≤ . ≤ ( 2 n n (n − 1) n−1 n k−1 k+m k−1 k n=k
n=k
∞
Daraus folgt
n=k ∞
1 n2
Für k = 1 gilt
n=1
≤
1 n2
2 k
für k ≥ 2 .
=1+
∞ n=2
1 n2
≤1+
Lemma 15.33. lim an = a ∈ R ⇒ lim n1 n
n
2 2
=2=
n
2 1
.
ai = a .
i=1
Beweis. Ist ε > 0 und nε ∈ N , sodass |an − a| ≤ ε ∀ n ≥ nε , so gilt nε nε n 1 ! 1 ! n − nε 1 ! n − nε (a − ε) ≤ (a + ε). ai + ai ≤ ai + n i=1 n n i=1 n i=1 n
für n > nε . Aus lim n1 n
nε i=1
ε ai = 0 und lim n−n = 1 folgt nun lim n1 n
n
Lemma 15.34 (Kroneckers Lemma). Aus bn > 0
n
∞
n
ai = a.
i=1
ai = a ∈ R , bn ∞ und
i=1
∀ n ∈ N folgt lim n
n 1 ! ai bi = 0 . bn i=1
(15.13)
15.3 Starke Gesetze der großen Zahlen ∞
Beweis. Da
ai ∈ R, muss für rn :=
i=1
∞
259
ai gelten lim |rn | = 0 , und daraus n
i=n
folgt R := max |rn | < ∞ . Mit b0 := 0 erhält man dann n∈N
n !
ai bi =
i=1
= b1 r1 +
n ! i=1 n !
bi (ri − ri+1 ) =
n !
bi ri −
i=1
n !
bi ri+1 =
i=1 n !
ri (bi − bi−1 ) − bn rn+1 =
i=2
n !
b i ri −
i=1
n+1 !
bj−1 rj
j=2
ri (bi − bi−1 ) − bn rn+1 .
i=1
Ist ε > 0 und wählt man nε so, dass |rn | < ε ∀ n ≥ nε , dann gilt für n > nε + + + + +n + n n ε + + +1 ! + 1 ++ ! 1 ++! + + + + ai b i + ≤ ri (bi − bi−1 )+ + ri (bi − bi−1 )+ + |rn+1 | + + + + bn + + + bn + bn + i=1
i=1
i=nε +1
nε 1 R! (bi − bi−1 ) + ≤ bn i=1 bn
n !
|ri | (bi − bi−1 ) + ε ≤
i=nε +1
Rbnε bn − bnε +ε + ε. bn bn
+ + n + +1 + Für hinreichend großes n gilt < ε . Daraus folgt + bn ai bi ++ ≤ 3 ε . Da i=1 ε > 0 beliebig gewählt werden kann, impliziert dies (15.13). R bn ε bn
Satz 15.35 (Kolmogoroffs 1-tes Gesetz der großen Zahlen). Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum und (Xn ) eine Folge unabhängiger Zufallsvariabler ∞ Var Xn < ∞ , so gilt aus L2 (Ω, S, P ) mit n2 n=1
n 1 ! (Xi − E Xi ) = 0 P –fs . n→∞ n i=1
(15.14)
lim
Beweis. Für Zn :=
Xn −E Xn n
gilt E Zn = 0 ∧
Daher folgt aus Satz 15.31 ∃ S :
∞
∞ n=1
Zi = lim
n
n→∞ i=1
i=1
∞
Var Zn =
n=1
Zi = S
Var Xn n2
< ∞.
P –fs . Nach
Kroneckers Lemma, angewendet auf ai := Zi , bi := i , i ∈ N , gilt deshalb n n (Xi − E Xi ) = lim n1 i Zi = 0 P –fs . lim n1
n→∞
n→∞
i=1
i=1
Für unabhängig, identisch verteilte Zufallsvariable gilt das Gesetz der großen Zahlen bereits, wenn nur der Erwartungswert endlich ist. Ein einfaches Lemma über den Erwartungswert erleichtert den Beweis. Lemma 15.36. Ist X eine nichtnegative Zufallsvariable auf (Ω, S, P ) , so gilt ∞ ! k=1
P(X > k ) ≤ EX ≤
∞ ! k=1
P(X > k ) + 1.
(15.15)
260
15 Gesetze der großen Zahlen
Beweis. Für die Zufallsvariable Y :=
∞ j=1
EY = =
∞ !
j 1[ j<X≤j+1 ] gilt
j P(j < X ≤ j + 1) =
j=1 ∞ ! ∞ !
j ∞ ! !
P(j < X ≤ j + 1)
j=1 k=1 ∞ !
P(j < X ≤ j + 1) =
k=1 j=k
P(X > k ).
k=1
Daraus und aus Y ≤ X ≤ Y + 1
P –fs folgt (15.15) unmittelbar.
Folgerung 15.37. Ist X eine Zufallsvariable auf (Ω, S, P ), so gilt E |X| < ∞ ⇔
∞ !
P ( |X| > k ) < ∞ .
k=1
Beweis. Dies ergibt sich sofort aus dem obigen Lemma. Satz 15.38 (Kolmogoroffs 2-tes Gesetz der großen Zahlen). Besitzen die auf einem Wahrscheinlichkeitsraum (Ω, S, P ) unabhängig, identisch verteilten Zufallsvariablen Xn , n ∈ N einen Erwartungswert E X := E Xn , n ∈ N , so gilt lim
n→∞
n 1 ! Xi = E X n i=1
P –fs .
(15.16)
Beweis. Wir beweisen den Satz zunächst für integrierbare Zufallsvariable. Die gestutzten Zufallsvariablen Yn := Xn 1[ |Xn |≤n ] sind beschränkt. Deshalb sind+ sie+ natürlich quadratisch integrierbar. Für Y,n := X1 1[|X1 |≤n] ∀ n ∈ N + + gilt +Y,n + ≤ |X1 | ∈ L1 ∀ n ∈ N und lim Y,n = X1 P –fs , sodass aus dem n→∞
Satz über die Konvergenz durch Majorisierung folgt lim E Y,n = E X P –fs . n n 1 , E Yi = E X P –fs . Da aber die Xn Nach Lemma 15.33 gilt daher lim n n
i=1
identisch verteilt sind, haben Yn und Y,n dieselbe Verteilung für jedes n ∈ N , sodass mit der obigen Gleichung auch gilt lim n
n 1 ! E Yi = E X n i=1
P –fs .
(15.17)
Nun gilt unter Berücksichtigung von Lemma 15.32 i n n n n ! ! ! ! Var Yi Var Y,i E Y,i2 1 ! 2 = ≤ ≤ k P ( k − 1 < |X1 | ≤ k ) i2 i2 i2 i2 i=1 i=1 i=1 i=1 k=1
= ≤
n ! k=1 ∞ ! k=1
n n ! ! 2 1 2 k P ( k − 1 < |X1 | ≤ k ) ≤ k 2 P ( k − 1 < |X1 | ≤ k ) i2 k i=k
k=1
2 k P ( k − 1 < |X1 | ≤ k ) ≤ 2 E( |X1 | + 1 ) < ∞ .
15.3 Starke Gesetze der großen Zahlen
261
Damit erfüllen die Yn die Voraussetzungen von Kolmogoroffs 1-tem Gesetz der n (Yi − E Yi ) = 0 P –fs . Zusammen großen Zahlen, und deshalb gilt lim n1 n
i=1
mit (15.17) ergibt das lim n
n n n 1 ! 1 ! 1 ! Yi = lim (Yi − E Yi ) + lim E Yi = E X n n n n n i=1 i=1 i=1 ∞
∞
n=1
P ( |Xn | > n ) =
∞
P ( |X1 | > n ) ≤ E |X1 | < ∞ folgt nach dem 1-ten Lemma von Borel-Cantelli P lim sup[Yn = Xn ] = 0
Aus
P ( Yn = Xn ) =
P –fs . (15.18)
n=1
n=1
n
bzw. äquivalent dazu P ({ω : Xn (ω) = Yn (ω) für fast alle n} ) = 1 . Daher n n gilt lim n1 Xi = lim n1 Yi P –fs , und zusammen mit (15.18) ergibt das n
i=1
n
i=1
n 1 ! Xi = EX n i=1
lim n
P –fs .
(15.19)
Sind die Xn alle nichtnegativ mit EX = ∞ und ist N ∈ N fest, so haben die Zufallsvariablen Xn,N := Xn 1[ Xn ≤N ] den gemeinsamen Erwartungswert 0 ≤ EXn,N = EX1,N < ∞ . Nach dem im ersten Schritt Bewiesenen gilt n Xi,N = EX1,N P –fs . Aus Xn,N ≤ Xn ∀ n ∈ N folgt aber daher lim n1 n
lim inf n
1 n
i=1
n i=1
Xi ≥ lim n1 n
n i=1
ergibt sich daraus lim inf n
1 n
Xi,N . Da N ∈ N beliebig gewählt werden kann, n i=1
Xi ≥ EX1,N
P –fs ∀ N ∈ N .
Aber die Folge (X1,N ) , N ∈ N wächst monoton gegen X1 , sodass aus dem Satz über die Konvergenz durch Monotonie folgt lim EX1,N = EX1 = ∞ . N n Xi ≥ EX1 = ∞ P –fs . Damit erhält man letztlich lim inf n1 n
i=1
Sind die Xn beliebige iid Zufallsvariable mit EXn = ∞ , so konvergieren n Xi− der Negativteile gegen EX1− ∈ R , die Mittel die Stichprobenmittel n1 1 n
n i=1
i=1
Xi+
der Positivteile streben gegen ∞ , und damit gilt lim n1 n
n
Xi = ∞ .
i=1
Ist (Xn ) eine iid Folge mit EXn = −∞ , so ergibt sich die Aussage des Satzes aus dem bisher Gezeigten, angewandt auf (−Xn ) . Zum obigen Satz existiert folgende Umkehrung. Satz 15.39. Ist (Xn ) eine Folge unabhängiger, identisch verteilter Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , deren Stichprobenmittelwern te X n := n1 Xi gegen einen endlichen Grenzwert c konvergieren, so sind die i=1
Xn integrierbar mit EXn = c
∀ n ∈ N.
262
15 Gesetze der großen Zahlen
Beweis. Gilt lim X n (ω) = c , so gibt es zu jedem ε > 0 ein nε ∈ N mit n + + +X n (ω) − X m (ω)+ < ε ∀ n , m ≥ nε . Da dann aber gilt lim X n (ω) = 0 , n n + + + X n (ω) + gibt es auch ein mε , sodass + n + < ε ∀ n > mε , und für n > nε ∨ mε gilt + n + n−1 + + + + + + X (ω) − Xi (ω) + + + +n − 1 $ + Xn (ω) + + i=1 i % X n (ω) + i=1 +=+ +=+ + + X n (ω) − X n−1 (ω) + + + n + n + + n n + + + + + + + + + X n (ω) + n − 1 ++ + ≤ 2ε. ≤ X n (ω) − X n−1 (ω)+ + ++ n n + ": ;# lim Xnn = 0 = 1 , und das imAus lim X n (ω) = c P –fs folgt daher P n n pliziert P lim sup[ |Xn | > n ] = 0 , denn |Xn (ω)| > n kann nur für endlich n
viele n gelten, wenn Xnn(ω) gegen 0 konvergiert. Wäre E |Xn | = E |X1 | = ∞ , so müsste wegen Folgerung 15.37 auch gel∞ ten P ( |X1 | > n ) = ∞ . Da die Xn identisch verteilt sind, gilt jedoch n=1
∞ n=1
P ( |X1 | > n ) =
∞ n=1
P ( |Xn | > n ) , sodass
∞
P ( |Xn | > n ) = ∞ dar-
n=1
aus folgen müsste. Wegen der Unabhängigkeit der Ereignisse [|Xn | > n] würde dies aber nach dem 2-ten Lemma von Borel-Cantelli (Satz 5.11) zu P lim sup[ |Xn | > n ] = 1 und damit zu einem Widerspruch führen. Daher n
gilt E |X1 | = E |Xn | < ∞ . Aus Satz 15.38 folgt nun EX1 = lim n1 n
n
Xi = c .
i=1
Zur Formulierung des nächten Satzes benötigen wir folgenden Begriff. Definition 15.40. Ist X1 , X2 , . . . eine iid Folge von Zufallsvariablen , so bezeichn 1(−∞,x] (Xi ) als (n-te) empirische Verteilungsfunktion. net man Fn (x) := n1 i=1
Bemerkung 15.41. Hat man n gleichartige Versuche unabhängig voneinander durchgeführt und die Beobachtungswerte x1 , . . . , xn erhalten, so gibt Fn (x) den relativen Anteil der Beobachtungswerte ≤ x an. Natürlich wird sich Fn als Funktion von (X1 , . . . , Xn ) mit den Beobachtungswerten ändern, aber man wird intuitiv vermuten, dass Fn (x) für großes n nahe bei F (x) = P (X ≤ x) liegen wird. Dies bestätigt der folgende Satz. Satz 15.42 (Satz von Glivenko-Cantelli - Fundamentalsatz der Statistik). Ist (Xn ) eine Folge von unabhängigen, identisch verteilten Zufallsvariablen mit Verteilungsfunktion F und empirischen Verteilungsfunktionen Fn , so gilt
15.3 Starke Gesetze der großen Zahlen
P
263
lim
n→∞
sup |Fn (x) − F (x)| = 0
= 1,
x∈R
d.h. die Fn konvergieren gleichmäßig gegen F
P –fs .
Beweis. Die Zufallsvariablen Yi := 1(−∞,x] (Xi ) , x ∈ R sind bernoulli-verteilt mit p = F (x) und als Funktionen der Xi unabhängig. Daher folgt aus Kolmogoroffs 2-tem Gesetz der großen Zahlen (Satz 15.38) lim Fn (x) = lim n
n
n 1 ! Yi = EY1 = P ( X1 ≤ x ) = F (x) n i=1
P –fs .
(15.20)
Die Zi := 1(−∞,x) (Xi ) ∼ BF− (x) sind ebenfalls unabhängig , sodass auch gilt lim Fn− (x) = lim n
n
n 1 ! Zi = P ( X1 < x ) = F− (x) . n i=1
(15.21)
Bildet man zu N ∈ N die Fraktile x Ni := F −1 ( Ni ) , i = 0, 1, . . . , N , so gelten die Gleichungen (15.20) und (15.21) natürlich auch für diese Fraktile. " # " # i−1 Für x i−1 < x < x i gilt i−1 ≤ F x (x) ≤ F (x) ≤ F ≤ F ≤ Ni , − − x i N N N N " N# " # aber auch Fn x i−1 ≤ Fn− (x) ≤ Fn (x) ≤ Fn− x Ni . N Ist F (x) ≥ Fn (x) , so folgt daraus " # " # + " # " #+ + + |F (x) − Fn (x)| ≤ F− x i − Fn x i−1 = +F− x i − Fn x i−1 + N N N N + " # " #+ + " # " #+ + + + + ≤ +F− x i − F x i−1 + + +F x i−1 − Fn x i−1 + N N N N + " # " #+ # " #+ 1 i − 1 ++ " i + + + − + +F x i−1 − Fn x i−1 + = + +F x i−1 − Fn x i−1 + . ≤ N N N N N N N Ist F (x) < Fn (x) , so folgt in ähnlicher Weise " # " # + " # " #+ + + |F (x) − Fn (x)| ≤ Fn− x i − F x i−1 = +Fn− x i − F x i−1 + N N N N + " # " #+ + " # " #+ + + + + ≤ +Fn− x Ni − F− x Ni + + +F− x Ni − F x i−1 + N + " # " #+ " # " #+ i 1 i − 1 ++ + + + ≤ +Fn− x Ni − F− x Ni + + − = +Fn− x Ni − F− x Ni + + . N N N Daher gilt für Dn := sup |Fn (x) − F (x)| x∈R
8+ " # " #+ + " # " #+9 1 + + + + Dn ≤ + max +Fn x Ni − F x Ni + , +Fn− x Ni − F− x Ni + . N 0≤i≤N Damit ist die gleichmäßige Konvergenz bewiesen.
264
15 Gesetze der großen Zahlen
Bemerkung 15.43. Ist F stetig und hat man n konkrete Beobachtungswerte x1 , . . . , xn gegeben, so kann der maximale Abstand Dn = sup |Fn (x) − F (x)| x∈R
nur bei den Sprungstellen von Fn , also den Beobachtungswerten, auftreten. Daher reicht es max {|Fn (xi ) − F (xi )| , |Fn− (xi ) − F− (xi )| } zu berechnen. 1≤i≤n
Kolmogoroff und Smirnoff haben die asymptotische Verteilung von Dn bestimmt und damit die Grundlage für einen der wichtigsten statistischen Tests, den Kolmogoroff-Smirnoff-Test, geschaffen.
15.4 Ergodensätze Wir haben in Abschnitt 8.4 gesehen, dass jede maßtreue Transformation T auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , die diesen Raum in sich abbildet, zusammen mit einer Zufallsvariablen X : (Ω, S) → (R, B) einen stationären Prozess (Xn := X ◦T n )n∈N0 bildet. Nun wird gezeigt, dass für X ∈ L1 die Mitn−1 telwerte X n := n1 Xi dieses Prozesses fast sicher konvergieren, und die i=0
Grenzfunktion mit dem Erwartungswert EX übereinstimmt, wenn die Transformation T ergodisch ist. Wir beginnen mit einem Lemma. Lemma 15.44. Ist X eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und T : (Ω, S) → (Ω, S) maßtreu, so gilt ∀ n ∈ N0 .
EX = EX ◦ T n
(15.22)
Beweis. Aus Satz 9.62 (Transformationssatz) und der Maßtreue von T folgt 7 7 7 X ◦ T dP = X dP T −1 = X dP . Für n > 1 ergibt sich das Lemma durch vollständige Induktion. Die nächste Ungleichung spielt in der Ergodentheorie eine zentrale Rolle. Satz 15.45 (Maximaler Ergodensatz). Ist X eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , T : (Ω, S) → (Ω, S) maßtreu und ist Y ebenfalls integrierbar und P –fs invariant, so gilt 7 7 X dP ≥ Y dP . (15.23)
sup
k∈N
1 k
k−1
X◦T i >Y
sup
k∈N
i=0
Beweis. Ist Sk :=
k−1
1 k
k−1
X◦T i >Y
i=0
X ◦ T i , UN := max Sk und U := sup Sk , so gilt 1≤k≤N
i=0
+ X + UN ◦ T = X + max 0, X ◦ T, . . . ,
N +1 ! i=1
k∈N
X ◦ Ti
=
max
1≤k≤N +1
Sk = UN +1 .
15.4 Ergodensätze
265
+ + Daraus folgt X = UN +1 − UN ◦ T ≥ UN − UN ◦ T , also auch + + + ◦ T 1[UN >0] = UN − UN ◦ T 1[UN >0] . X 1[UN >0] ≥ UN 1[UN >0] − UN . . + + + Da aus UN ◦T ≥ 0 folgt UN ◦T dP ≥ UN ◦T dP , ergibt das mit (15.22)
7
7 X dP ≥
[UN >0]
7 + UN dP −
[UN >0]
7
+ UN ◦ T dP ≥
7 + UN dP −
+ UN ◦ T dP = 0 .
[UN >0]
(15.24) Aus [UN > 0] [U > 0] folgt lim X 1[UN >0] = X 1[U >0] . Da zudem gilt N + + +X 1[U >0] + ≤ |X| ∈ L1 ∀ N ∈ N , impliziert der Satz über die Konvergenz N durch Majorisierung 7 7 X dP = lim X dP ≥ 0 . (15.25) N
[U >0]
[UN >0]
k−1 Da für alle i gilt Y ◦T i = Y P –fs , kann man A := sup (X − Y ) ◦ T i > 0 k∈N i=0 k−1 k−1 1 i i X ◦ T − k Y > 0 = sup k X ◦T >Y . umformen zu A = sup k∈N
k∈N
i=0
i=0
Deshalb erhält man, wenn X in Gleichung (15.25) durch X − Y ersetzt wird, 7 7 0≤ (X − Y ) dP = (X − Y ) dP .
sup
k−1
k∈N i=0
(X−Y )◦T i >0
sup
k∈N
Bemerkung 15.46. Da gilt sup k1
k−1
k∈N
1 k
k−1
X◦T i >Y
i=0
k−1 1 X k k∈N i=0
(−X) ◦ T i = − inf
i=0
Gleichung (15.23), angewendet auf −X und −Y zu 7 7 X dP ≤
k−1 inf 1 X◦T i
Y dP .
k−1 inf 1 X◦T i
◦ T i wird
(15.26)
Damit können wir nun den Ergodensatz beweisen. Satz 15.47 (Der Ergodensatz von Birkhoff). Ist X eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , T : (Ω, S) → (Ω, S) maßtreu und ist I die σ-Algebra der bezüglich T invarianten Mengen, so gilt lim k
k−1 1 ! X ◦ T i = E(X|I) k i=0
Ist T ergodisch, gilt sogar lim k1 k
k−1 i=0
X ◦ T i = EX
P –fs .
P –fs .
(15.27)
266
15 Gesetze der großen Zahlen
Beweis. Wir beweisen den Satz zunächst für X ≥ 0 und verwenden die Bek−1 k−1 X ◦ T i und L(X) := lim sup k1 X ◦ Ti . zeichnungen L(X) := lim inf k1 k
k
i=0
X ∈ L1 ist P –fs endlich ist. Daher gilt lim X k =0 k
k 1 ! L(X) ◦ T = lim sup X ◦ T i = lim sup k k k i=1
= lim k
k+1 1 lim sup k k + 1 k
k !
i=0
P –fs . Daraus folgt
k 1 1 ! X ◦ Ti − X k k
i=0
X ◦ T i − lim k
i=0
X = L(X) k
P –fs ,
d.h. L(X) ist P –fs invariant. Die Invarianz von L(X) zeigt man analog. Für alle n ∈ N und jedes A aus der σ-Algebra I , der P –fs3invarianten Men-gen sind die Funktionen Ln,A := (L(1A X)∧n)− n1 1A = 1A (L(X) ∧ n) − n1 beschränkt und deshalb integrierbar. Außerdem sind sie I-messbar. Man kann daher Satz 15.45 auf 1A X und Y := Ln,A anwenden. Das ergibt 7 7 1A X dP ≥ Ln,A dP .
sup k∈N
1 k
k−1
(1A X)◦T i >Ln,A
sup k∈N
i=0
1 k
k−1
(1A X)◦T i >Ln,A
i=0
k−1 k−1 Wegen sup k1 (1A X) ◦ T i > Ln,A = 1A sup k1 X ◦ T i > Ln,A = A k∈N i=0 . k∈N i=0 . und A E (X|I) dP = A X dP folgt daraus 7 7 7 E (X|I) dP = X dP ≥ Ln,A dP ∀ n ∈ N . (15.28) A
A
A
Weil die Ln,A von unten durch −1 beschränkt sind und Ln,A monoton gegen L(1A X) = 1A L(X) wächst, folgt aus dem verallgemeinerten Satz von B. Levi (Satz 9.31) und (15.28) 7 7 E (X|I) dP ≥ L(X) dP (15.29) A
A
Da diese Ungleichung für beliebiges A ∈ I richtig ist, und weil E (X|I) wie auch L(X) I-messbar sind, muss E (X|I) ≥ L(X) P –fs gelten. Dies zusammen mit 0 ≤ L(X) ≤ L(X) , impliziert die Integrierbarkeit von L(X) und L(X) . Somit kann man Bemerkung 15.46 auf X und L(X) + ε mit ε > 0 anwenden und erhält 7 7 X dP ≤ ( L(X) + ε ) dP .
k−1 1 X◦T i
inf
k−1 1 X◦T i
inf
15.4 Ergodensätze
267
k−1 Da offensichtlich gilt inf k1 X ◦ T i < L(X) + ε = Ω , ist dies gleichk∈N . . i=0 bedeutend zu X dP ≤ L(X) dP + ε . Aber ε > 0 ist beliebig, also gilt . . X dP ≤ L(X) dP . Mit den bereits bewiesenen Beziehungen ergibt das 7 7 7 7 7 X dP ≤ L(X) dP ≤ L(X) dP ≤ E (X|I) dP = X dP . Daraus folgt L(X) = L(X) = E (X|I) P –fs . Weil E (X|I) mit E (X|I) P –fs übereinstimmt, ist damit (15.27) für nichtnegatives X bewiesen. Ist X beliebig aber integrierbar, so zerlegt man einfach in X + und X − . Die 2-te Aussage des Satzes ist klar, da für ergodisches T gilt E (X|I) = E X . Folgerung 15.48. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so ist eine maßtreue Abbildung T : Ω → Ω genau dann ergodisch, wenn lim k
k−1 1 ! 1A ◦ T i = P (A) k
∀ A ∈ S.
(15.30)
i=0
Beweis. Wenn T ergodisch ist, dann folgt (15.30) unmittelbar aus dem vorigen Satz mit X = 1A und E 1A = P (A) . Für jedes invariante A gilt 1A (T i (ω)) = 1A (ω) ∀ i ∈ N0 , und damit auch k−1 1 1A (T i (ω)) = 1A . Aus (15.30) folgt deshalb umgekehrt, dass für jedes k i=0
invariante A gilt P (A) = 0 oder P (A) = 1 , d.h. dass T ergodisch ist. Bemerkung 15.49. Mit der Bezeichnung X k :=
1 k
k−1
X ◦ T i gilt nach dem
i=0
Ergodensatz für jedes X ∈ L1 (Ω, S, P )
lim (X + )k = E(X + |I) P –fs und C Ck C C P –fs . Weiters gilt C(X + )k C = !X + !1 = !E(X + |I)!1
lim (X − )k = E(X − |I) k C 1 C C C und C(X − )k C = !X − !1 = !E(X − |I)!1 ∀ k ∈ N . Aus Satz 13.19 folgt daher 1 C C C C C C C C lim C(X + )k − E(X + |I)C = 0 und lim C(X − )k − E(X − |I)C = 0 . Dies führt k k 1 C C C C C 1 C C C C C wegen CX k − E(X|I)C1 ≤ C(X + )k − E(X + |I)C + C(X − )k − E(X − |I)C zu 1 1 7 C + + C lim CX k − E(X|I)C1 = lim +X k − E(X|I)+ dP = 0 . k
k
Wie wir nun zeigen, gilt die obige Aussage auch für p > 1 . Satz 15.50 (Mittel-Ergodensatz). Ist X auf einem Wahrscheinlichkeitsraum (Ω, S, P ) Lp -integrierbar mit 1 ≤ p < ∞ , T : (Ω, S) → (Ω, S) maßtreu und I die σ-Algebra der bezüglich T invarianten Mengen, so gilt C C C 1 k−1 C C ! C i X ◦ T − E(X|I)C = 0 . (15.31) lim C C k Ck i=0
p
268
15 Gesetze der großen Zahlen
Beweis. Zu jedem ε > 0 existiert nach Lemma 13.34 ein t ∈ T , sodass !t!p ≤ !X!p und !X − t!p ≤ ε . Ist I die σ-Algebra der invarianten Menk−1 gen und bezeichnet man die Mittelwerte mit X k := k1 X ◦ T i und tk :=
1 k
k−1
i=0
t ◦ T i , so gilt wegen der Minkowski’schen Ungleichung
i=0
C C C C C C CX k − E(X|I)C ≤ CX k − tk C + Ctk − E(t|I)C + !E(t|I) − E(X|I)! . p p p p (15.32) Da T maßtreu ist, gilt für den ersten Term auf der rechten Seite von (15.32) k−1 !C C C C C X k − tk C ≤ 1 CX ◦ T i − t ◦ T i C = !X − t! ≤ ε . p p p k i=0
(15.33)
C C t ist als Treppenfunktion beschränkt, und es gilt Ctk C∞ ≤ !t!∞ ∀ k ∈ N und + +p p E(t|I) ≤ !t!∞ . Daraus folgt +tk − E(t|I)+ ≤ 2p !t!∞ ∀ k ∈ N . Zudem gilt nach dem Ergodensatz (Satz15.47) lim tk = E(t|I) P –fs , und damit auch k + +p lim +tk − E(t|I)+ = 0 P –fs . Daher ergibt sich aus dem Satz über die Konverk
genz durch Majorisierung für alle hinreichend großen k C C Ctk − E(t|I)C ≤ ε . p
(15.34)
Der Jensen’schen Ungleichung für bedingte Erwartungswerte (Satz 14.20) zufolge gilt |E(X|I) − E(t|I)|p = |E(X − t|I)|p ≤ E (|X − tp |I)| P –fs , da p ϕ(x) := |x| , 1 ≤ p < ∞ konvex ist. Daraus folgt 7 !E(X|I) − E(t|I)!pp = |E(X − t|I)|p dP 7 7 p p (15.35) ≤ E (|X − t| |I) dP = |X − t| dP ≤ εp . C C Wegen (15.32), (15.33), (15.34) und (15.35) gilt CX k − E(X|I)Cp ≤ 3 ε für jedes ε > 0 und alle hinreichend großen k . Damit ist der Satz bewiesen. Gemäß Bemerkung 10.46 kann jeder stochastische Prozess (Xn )n∈N0 auf einem beliebigen Raum (Ω, S, P $ ) ersetzt werden% durch den Prozess der Projektionen prn , n ∈ N0 auf RN0 , BN0 , P X−1 , wobei X die in Bemerkung 10.46 beschriebene Abbildung von Ω in RN0 ist und die endlich dimensionalen Randverteilungen von (Xn )n∈N0 und von (prn )n∈N0 ident sind. Für jeden stationären Prozess (Xn )n∈N0 und alle Zylinder pr−1 Nn (B) gilt daher "
0
#
$ % P X−1 pr−1 (B) = P (Xn0 )−1 (B) Nn 0 " # $ % = P (Xn+1 )−1 (B) = P X−1 pr−1 . n+1 (B) 1 N 1
(15.36)
15.4 Ergodensätze
269
Definiert man auf RN0 einen Verschiebeoperator (oder Shift-Operator) sh durch sh( (x0 , x1 , . . .) ) := (x1 , x2 , . . .) , so erhält man # 8 9 8 9 " −1 −1 (B) = x : sh(x) ∈ pr (B) = x : (x , x , . . .) ∈ pr (B) sh−1 pr−1 n n n 1 2 N N N 0
0
= {x : (x1 , . . . , xn+1 ) ∈ B} =
0
pr−1 (B) Nn+1 1
∀
pr−1 (B) , Nn 0
B ∈ Bn+1 .
Da die pr−1 (B) , B ∈ Bn+1 , n ∈ N eine Algebra bilden, die BN0 erNn 0 % $ N % $ N 0 0 zeugt, "folgt daraus # sh : R" , B"N0 → R# #, BN0 , und (15.36) wird zu (B) = P X−1 sh−1 pr−1 (B) ∀ pr−1 (B) . Damit gilt aber P X−1 pr−1 Nn Nn Nn 0 0 0 $ % −1 −1 −1 sh $ (C) ∀ C ∈ B auch P X (C) = P X % N0 . Für stationäre Prozesse N0 −1 ist sh demnach maßtreu auf R , BN0 , P X . Weiters gilt offensichtlich prn .= pr0 ◦ shn ., n ∈ N0 . Ist .X0 integrierbar, so ist auch pr0 integrierbar, da gilt X0 dP = pr0 ◦X dP = pr0 dP X−1 . Bezeichnet IN0 die σ-Algebra der sh-invarianten Mengen in (RN0 , BN0 , P X−1 ) , so folgt demnach aus Satz 15.47 k−1 E(pr0 |IN0 ) = lim k1 pri P X−1 –fs , und das impliziert k
i=0
E(pr0 |IN0 ) ◦ X = lim k
k−1 k−1 1 ! 1 ! pri ◦X = lim Xi k k k i=0 i=0
P –fs .
(15.37)
I := X−1 (IN0 ) ist wegen Lemma 2.3 (Operationstreue des Urbilds) eine σAlgebra auf Ω . Man bezeichnet ihre Elemente als invariante Mengen. Definition 15.51. Ist (Xn )n∈N0 ein stationärer stochastischer Prozess auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so nennt man eine Menge A ∈ S invariant, wenn es ein shift-invariantes B ∈ BN0 gibt mit A = X−1 (B) . Für jedes A = X−1 (B) mit B ∈ IN0 gilt auf Grund des Transformationssatzes 7 7 7 7 X0 dP = pr0 dP X−1 = E(pr0 |IN0 ) dP X−1 = E(pr0 |IN0 ) ◦ X dP . A
B
B
A
Daraus folgt E(X0 |I) = E(pr0 |IN0 ) ◦ X E(X0 |I) = lim k
P –fs und (15.37) wird zu
k−1 1 ! Xi k i=0
P –fs .
(15.38)
Definition 15.52. Einen stationären stochastischen Prozess (Xn )n∈N0 auf einem Wahrscheinlichkeitsraum (Ω, % ergodisch, wenn der Verschiebe$ S, P ) nennt man operator sh ergodisch auf RN0 , BN0 , P X−1 ist. Bemerkung 15.53. Klarerweise ist der Prozess (Xn )n∈N0 genau dann ergodisch, wenn für jede invariante Menge A ∈ S gilt P (A) = 0 ∨ P (A) = 1 .
270
15 Gesetze der großen Zahlen
Wir können mit diesen Begriffen den Ergodensatz von Birkhoff für stationäre Prozesse formulieren ohne auf den Folgenraum Bezug nehmen zu müssen. Satz 15.54. Ist (Xn )n∈N0 ein stationärer Prozess auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit integrierbarem X0 (d.h. EX0 = EXn ∈ R ∀ n), so gilt k−1 1 ! lim Xi = E(X0 |I) k k i=0
P –fs ,
(15.39)
wobei I das System der invarianten Mengen ist. Ist der Prozess ergodisch, gilt lim k
k−1 1 ! Xi = EX0 k i=0
P –fs .
(15.40)
Der Mittel-Ergodensatz (Satz 15.50) lautet dementsprechend Satz 15.55. Ist (Xn )n∈N0 ein stationärer Prozess auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und ist X0 für ein p ∈ [1, ∞) Lp -integrierbar, so gilt C C C C 1 k−1 C C ! Xi − E(X0 |I)C = 0 . (15.41) lim C C k Ck i=0
p
Bemerkung 15.56. A ∈ S ist definitionsgemäß gerade dann invariant, wenn B = sh%−n (B) ∀ n ∈ N0 und A = X−1 (B) . Also ein B ∈ BN0 existiert, sodass $ −n −1 −1 gilt A = X (B) = X sh (B) ∀ n ∈ N0 . Explizit angeschrieben ergibt −1 , X , . . .) (B) = (X , X , . . .)−1 (B) ∀ n ∈ N0 . Daraus folgt das A = (X 0 1 n n+1 A ∈ S(Xn , Xn+1 , . . .) ∀ A ∈ I . Somit ist jede invariante Menge terminal. n
Lemma 15.57. Jede unabhängig, identisch verteilte Folge (Xn ) von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, S, P ) ist ergodisch. Beweis. Dies folgt sofort aus Bemerkung 15.56 und dem verallgemeinerten 0-1-Gesetz von Kolmogoroff (Satz 7.55). Bemerkung 15.58. Auf Grund des obigen Lemmas ist Satz 15.54 eine Verallgemeinerung von Kolmogoroffs 2-tem Gesetz der großen Zahlen (Satz 15.38).
16 Martingale
16.1 Definition und grundlegende Eigenschaften Ist X1 , X2 , . . . eine Folge unabhängiger Zufallsvariabler mit EXn = 0 ∀ n ∈ N, n Xi nicht mehr unabhängig. so sind die akkumulierten Summen Sn := i=1
Die Xn können etwa die Gewinne eines Spielers in einer Serie von fairen Spielen, die einander nicht beeinflussen, darstellen, und man wird intuitiv annehmen, dass der Spieler bei derartigen Spielen seinen Spielstand aus den vergangenen Spielen nach jedem neuen Spiel im Schnitt halten sollte, ohne, dass ihm die Information, die er aus dem bisherigen Spielverlauf erhalten hat, weiterhilft. Diese Information wird beschrieben durch die σ-Algebren S(Xn1 ) := S(X1 , . . . , Xn ) , n ∈ N , die übereinstimmen mit den σ-Algebren S(Sn1 ) := S(S1 , . . . , Sn ) , da die Summen S1 , . . . , Sn durch die X1 , . . . , Xn festgelegt sind und umgekehrt. Mathematisch kann man unsere intuitive Annahme so formulieren. E(Sn+1 |S(Xn1 ) ) = E(Sn+1 |Xn1 ) = Sn
P –fs
∀ n ∈ N.
(16.1)
Tasächlich folgt aus Satz 14.15 und Satz 14.10 Punkt 2. E(Sn+1 |Sn1 ) = E(Xn+1 + Sn |Sn1 ) = E(Xn+1 |Sn1 ) + E(Sn |Sn1 ) = E(Xn+1 |Xn1 ) + Sn = EXn+1 + Sn = Sn ∀ n ∈ N . (16.2) Die folgenden Begriffe dienen zur Formalisierung der obigen Überlegungen. Definition 16.1. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum, so versteht man unter einer Filtration eine Folge monoton wachsender σ-Algebren An ⊆ S . Die Filtration beschreibt also die mit fortschreitendem Spielverlauf zunehmende Information des Spielers. Definition 16.2. Ist (Ω, S, P ) ein Wahrscheinlichkeitsraum mit einer Filtration (An ) , so nennt man eine Folge von Zufallsvariablen (Sn ) adaptiert an die Filtration (oder adaptiert an die An ), wenn jedes Sn An -messbar ist.
272
16 Martingale
Adaptierte Zufallsvariable werden somit durch die σ-Algebren der Filtration bestimmt. Ist etwa der Spielverlauf bekannt, so weiß man auch über die Gewinne Bescheid. Bemerkung 16.3. Ist eine Folge (Sn ) an eine Filtration (An ) adaptiert, so gilt natürlich S(Sn1 ) ⊆ An ∀ n . Die S(Sn1 ) bilden insofern die „kleinste“ Filtration an die die Sn adaptiert sind. Definition 16.4. Ist (Sn ) eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so nennt man die Folge von σ-Algebren S(Sn1 ) , n ∈ N die kanonische (oder natürliche) Filtration zu den Sn . Definition 16.5. Eine Folge (Sn , An ) bestehend aus integrierbaren Zufallsvariablen Sn und den σ-Algebren An einer Filtration heißt ein Martingal (in Bezug auf (An )), wenn die Sn an die An adaptiert sind und, wenn gilt E(Sn+1 |An ) = Sn
P –fs ∀ n .
(16.3)
(Sn , An ) ist ein Submartingal, wenn (16.3) ersetzt wir durch die Ungleichung E(Sn+1 |An ) ≥ Sn
P –fs ∀ n ,
(16.4)
und man nennt (Sn , An ) ein Supermartingal, wenn statt (16.3) gilt E(Sn+1 |An ) ≤ Sn
P –fs ∀ n .
(16.5)
Ein Submartingal ist also für den Spieler günstig und ein Supermartingal ist für ihn ungünstig. Es genügt Submartingale zu betrachten, denn (−Sn , An ) ist ein Submartingal für jedes Supermartingal (Sn , An ) . Beispiel 16.6. Sind X1 , X2 , . . . unabhängige Zufallsvariable mit EXn = 1 ∀ n, n so bilden die Sn := Xi ein Martingal bezüglich S(Sn1 ) := S(S1 , . . . , Sn ) , i=1
denn aus Satz 14.17 und Satz 14.15 folgt E(Sn+1 |Sn1 ) = E(Xn+1 Sn |Sn1 ) = Sn E(Xn+1 |Sn1 ) = Sn EXn+1 = Sn
P –fs .
Bemerkung 16.7. 1. Ist (Sn , An ) ein Martingal, so sind auch die Differenzen Xn+1 := Sn+1 − Sn an die An adaptiert und aus (16.3) und Satz 14.10 Punkt 2. folgt E(Xn+1 |An ) = E(Sn+1 |An ) − E(Sn |An ) = Sn − Sn = 0
P –fs . (16.6)
Ist umgekehrt (Xn ) eine an die An adaptierte Folge integrierbarer Funktion nen, für die (16.6) gilt, so bilden die Sn := Xi mit den An ein Martingal, i=1
denn jedes Sn ist klarerweise An -messbar und es gilt E(Sn+1 |An ) = E(Xn+1 |An ) + E(Sn |An ) = Sn . Man kann also jedes Martingal entsprechend den einleitenden Ausführungen als Folge akkumulierter Gewinne in einer Serie fairer Spiele interpretieren.
16.1 Definition und grundlegende Eigenschaften
273
2. Aus der Definition der bedingten Erwartung folgt sofort, dass die Beziehungen (16.3), (16.4) bzw. (16.5) äquivalent sind zu 7 7 Sn+1 dP = Sn dP ∀ A ∈ An , (16.7) A
A
7
7
Sn+1 dP ≥ A
∀ A ∈ An ,
(16.8)
Sn dP
∀ A ∈ An .
(16.9)
A
7
7
Sn+1 dP ≤ A
Sn dP
A
Also gilt insbesondere ESn = ES1 ∀ n bei einem Martingal, ESn bei einem Submartingal und ESn bei einem Supermartingal. Lemma 16.8. Ist (Sn , An ) ein Submartingal, Supermartingal oder Martingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so ist auch (Sn , S(Sn1 ) ) eines. Beweis. Da die S(Sn1 ) eine Filtration mit S(Sn1 ) ⊆ An ∀ n bilden (siehe Bemerkung 16.3) gilt für Submartingale gemäß Satz 14.10 Punkt 5. und 2. E(Sn+1 |Sn1 ) = E (E(Sn+1 |An )|Sn1 ) ≥ E(Sn |Sn1 ) = Sn P –fs . Für Supermartingale gilt die Aussage, weil (−Sn , An ) ein Submartingal ist, und für Martingale, weil sie sowohl Sub- als auch Supermartingale sind. Lemma 16.9. Ist (Sn , An ) ein Martingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gilt E(Sn+k |An ) = Sn
P –fs
∀ n,k ≥ 1.
(16.10)
Bei einem Submartingal wird das Gleichheitszeichen in der obigen Beziehung durch ≥ und bei einem Supermartingal durch ≤ ersetzt. Beweis. Für k = 1 entspricht (16.10) gerade der Definitionsgleichung (16.3), sodass nur der Schritt von k nach k + 1 zu zeigen bleibt. Aber aus An+k ⊇ An , Satz 14.10 Punkt 5. und der Induktionsannahme folgt E(Sn+k+1 |An ) = E (E(Sn+k+1 |An+k )|An ) = E(Sn+k |An ) = Sn P –fs . Der Beweis für Sub- bzw. Supermartingale verläuft völlig analog. Die folgenden Überlegungen zeigen, dass Kolmogoroffs 1-tes Gesetz der großen Zahlen sehr leicht auf Folgen von Zufallsvariablen verallgemeinert werden kann, die nicht unabängig sind, sondern nur Gleichung (16.6) genügen, also auf Martingaldifferenzen.
274
16 Martingale
Lemma 16.10. Ist (Sn , An ) ein quadratisch integrierbares Martingal auf einem Wahrscheinlickeitsraum (Ω, S, P ) , so gilt mit S0 := 0 für l ≤ k ≤ m ≤ n 7 7 7 2 (Sk − Sl ) (Sn − Sm ) dP = 0 ∧ Sk2 dP ≤ Sm dP ∀ Ak ∈ Ak . (16.11) Ak
Ak
Ak
Somit sind die Xn := Sn − Sn−1 unkorreliert, und es gilt E Sn2 =
n
E Xi2 .
i=1
Beweis. Wegen Sk − Sl ∈ L2 (Ω, Am , P ) , Sn − Sm = Sn − E (Sn |Am ) , und Ak ∈ Ak ⊆ Am impliziert Folgerung 14.18 die linke Gleichung in (16.11). Damit gilt aber auch die Ungleichung, rechts in (16.11), denn 7 7 2 Sm dP = [ Sk + ( Sm − Sk ) ]2 dP Ak
Ak
7
7
Ak
Ak
Sk2 dP + Ak
( Sk − S0 ) ( Sm − Sk ) dP Ak
7
7
=
7 ( Sm − Sk )2 dP + 2
Sk2 dP +
=
7 ( Sm − Sk )2 dP ≥
Ak
Sk2 dP . Ak
Mit Ak := Ω , l := k − 1, n := m + 1 erhält man E Xk Xn = 0 n aus Satz 15.8 folgt E Sn2 = E Xi2 .
∀ k < n , sodass
i=1
Lemma 16.11 (verallgemeinerte Ungleichung von Kolmogoroff). Für jedes quadratisch integrierbare Martingal (Sn , An ) auf einem Wahrscheinlichkeitsraum (Ω, S, P ) gilt mit X1 := S1 , Xn := Sn − Sn−1 , n ≥ 2 n 1 1 ! P max |Si | ≥ ε ≤ 2 E Sn2 = 2 EXi2 ∀ ε > 0 . (16.12) 1≤i≤n ε ε i=1 max Si2 ≥ ε2 mit ε > 0 ist die Vereini1≤i≤n 1≤i≤n 3 2 gung der Mengen A1 := S1 ≥ ε2 bzw. Ai := Si2 ≥ ε2 > max Sj2 für
Beweis. A :=
max |Si | ≥ ε
=
1≤j≤i−1
2 ≤ i ≤ n , die natürlich disjunkt sind. Daraus und aus Lemma 16.10 folgt n n 7 n 7 n ! ! ! ! P (Ai ) ≤ Si2 dP ≤ Sn2 dP ≤ E Sn2 = E Xi2 . ε2 P (A) = ε2 i=1
i=1 A
i
i=1 A
i=1
i
Bemerkung 16.12. Da der Beweis von Satz 15.31 nur auf der Ungleichung von Kolmogoroff beruht, kann dieser Satz auch auf Martingaldifferenzen verallgen meinert werden. Somit konvergiert das Martingal Sn = Xi P –fs, wenn i=1
16.1 Definition und grundlegende Eigenschaften n
275
Var Xi2 = sup E Sn2 < ∞ . Sind die Xi Martingaldifferenzen, so erfüllen auch n
i=1 Xi i
Gleichung (16.6) und sind deshalb ebenfalls Martingaldifferenzen. n n Var Xi2 Xi Daher folgt aus < ∞ , dass das Martingal S,n := P –fs koni2 i die Yi :=
i=1
vergiert, was zusammen mit dem Lemma von Kronecker
1 n
n
i=1
Xi → 0 impliziert.
i=1
Wir werden aber etwas später sehen, dass dieses Gesetz der großen Zahlen unmittelbar und viel einfacher aus dem Submartingalkonvergenzsatz folgt. Satz 16.13. Ist X eine integrierbare Zufallsvariable und (An ) eine Filtration auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so ist (E(X|An ) , An ) ein Martingal. Beweis. Aus Satz 14.10 Punkt 5. und An+1 ⊇ An folgt E(Xn+1 |An ) = E (E(X|An+1 )|An ) = E(X|An )
P –fs .
Definition 16.14. Ist (An ) eine Filtration auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und X ∈ L1 (Ω, S, P ) , so heißt (E(X|An ), An ) ein Doob-Martingal. Nicht jedes Martingal ist ein Doob-Martingal, es gibt also nicht zu jedem Martingal (Sn , An ) ein X ∈ L1 mit Sn = E(X|An ) . wie das nächste Beispiel zeigt. Beispiel 16.15. Sind X1 , X2 , . . . unabhängig, identisch verteilte Zufallsvariable n Xi mit P (Xi = 0) = P (Xi = 2) = 12 , so gilt EXi = 1 ∀ i und die Sn := i=1
bilden zusammen mit den S(Sn1 ) ein Martingal, wie in Beispiel 16.6 gezeigt. Daher gilt gemäß Bemerkung 16.7 Punkt 2. ESn = ES1 = 1 . Gäbe es ein X ∈ L1 und eine monoton steigende Folge von Subsigmaalgebren An mit Sn = E(X|An ) , müsste auch gelten EX = E(E(X|An ) ) = ESn = 1 . Aber aus An := [Sn = 0] ∈ An würde folgen 7 7 7 7 Sn dP = E(X|An ) dP = X dP = X 1An dP ∀ n ∈ N . 0= An
An
Nun gilt lim 1An = 1 P –fs n
An
⇒
lim X 1An = X P –fs , sodass aus dem Satz n
über die Konvergenz durch Majorisierung (Satz 9.33) weiters folgen müsste EX = lim E(X 1An ) = 0 . Dies steht im Widerspruch zu EX = 1 . n
Definition 16.16. Ist (An ) eine Filtration mit A0 := {∅, Ω} auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so nennt man die Folge (Yn )n∈N von Zufallsvariablen vorhersagbar (bezüglich (An )), wenn jedes Yn An−1 -messbar ist. Bemerkung 16.17. Sind die Zufallsvariablen eines Martingals (Sn , An ) bezüglich der Filtration vorhersagbar, so gilt nach Satz 14.10 Punkt 2. Sn+1 = E(Sn+1 |An ) = Sn = · · · = S1
P –fs ,
d.h. das Martingal ist insoferne entartet als es nur S1 wiederholt.
276
16 Martingale
Jedes Submartingal lässt sich in ein Martingal und einen vorhersagbaren monoton steigenden stochastischen Prozess zerlegen. Satz 16.18 (Doob-Zerlegung). Ist (Xn , An ) ein Submartingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so gibt es ein Martingal (Sn , An ) und eine vorhersagbare, monoton wachsende Folge von Zufallsvariablen Yn mit Y1 = 0 , sodass Xn = Sn + Yn P –fs für alle n . Diese Zerlegung ist eindeutig. Beweis. Mit S1 := X1 und Y1 := 0 gilt X1 = S1 + Y1 , und S1 ist A1 -messbar. Definiert man für n > 1 die Sn rekursiv durch Sn := Sn−1 +Xn −E(Xn |An−1 ) , so folgt unter der Induktionsannahme, dass Sn−1 An−1 -messbar ist, dass auch Sn An -messbar ist. Damit gilt aber wegen Satz 14.10 Punkt 2. E(Sn |An−1 ) = E(Sn−1 |An−1 ) + E(Xn |An−1 ) − E(Xn |An−1 ) = Sn−1
P –fs ,
d.h. (Sn , An ) ist ein Martingal. Yn := E(Xn |An−1 ) − Sn−1 ist An−1 -messbar, und es gilt Xn = Sn + Yn P –fs für alle n . Ersetzt man Sn−1 in der Definition von Yn durch Xn−1 − Yn−1 , so ergibt das Yn = E(Xn |An−1 ) − Xn−1 + Yn−1 . Da (Xn , An ) ein Submartingal ist, folgt daraus sofort Yn ≥ Yn−1 P –fs , und mit der Induktionsannahme Yn−1 ≥ 0 P –fs folgt daraus auch Yn ≥ 0 P –fs . Ist (Tn , An ) ein Martingal und (Zn ) eine Folge von Zufallsvariablen mit Z1 = 0 , Zn , Zn An−1 -messbar für alle n > 1 und Xn = Tn + Zn P –fs , so folgt aus Z1 = 0 = Y1 natürlich T1 = S1 P –fs bzw. S1 −T1 = 0 P –fs . Aus Xn = Sn + Yn = Tn + Zn P –fs folgt aber Sn − Tn = Zn − Yn P –fs ∀ n . Deshalb ist Sn − Tn An−1 -messbar, d.h. das Martingal (Sn − Tn , An ) ist vorhersagbar, und nach Bemerkung 16.17 gilt Sn −Tn = S1 −T1 = 0 P –fs ∀ n ∈ N . Damit gilt aber auch Yn = Zn P –fs , womit die Eindeutigkeit bewiesen ist. Satz 16.19. Ist (Xn , An ) ein Submartingal, ϕ : R → R monoton steigend und konvex mit ϕ(Xn ) ∈ L1 ∀ n , so ist auch (ϕ(Xn ), An ) ein Submartingal. Ist (Xn , An ) ein Submartingal, so ist insbesondere (Xn+ , An ) ein Submartingal. Ist (Xn , An ) ein Martingal, so ist (ϕ(Xn ), An ) ein Submartingal, wenn ϕ : R → R konvex ist und die Funktionen ϕ(Xn ) für alle n integrierbar sind. Für jedes Martingal (Xn , An ) und p ≥ 1 ist daher (|Xn |p , An ) ein Submartingal, wenn Xn ∈ Lp ∀ n (für p = 1 gilt diese Bedingung voraussetzungsgemäß). Beweis. Aus der Jensen’schen Ungleichung für bedingte Erwartungen (Satz 14.20), der Submartingaleigenschaft der Xn und der Monotonie von ϕ folgt E( ϕ(Xn+1 )|An ) ≥ ϕ(E(Xn+1 |An ) ) ≥ ϕ(Xn )
P –fs .
Mit Xn ist Xn+ integrierbar, und ϕ(x) := x+ ist monoton steigend und konvex. Für ein Martingal gilt E(Xn+1 |An ) = Xn ⇒ ϕ(E(Xn+1 |An ) ) = ϕ(Xn ) , sodass aus Satz 14.20 folgt E( ϕ(Xn+1 )|An ) ≥ ϕ(E(Xn+1 |An ) ) = ϕ(Xn ) P –fs. p Die anderen Aussagen sind klar, da ϕ(x) := |x| für p ≥ 1 konvex ist. Abschließend soll noch der Begriff des rückwärts gerichteten Martingals (Sub-, Supermartingals) vorgestellt werden.
16.2 Transformation von Submartingalen
277
Definition 16.20. Ein rückwärts gerichtetes Martingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) ist eine Folge (Xn , An ) , bestehend aus monoton fallenden Subsigmaalgebren An und An -messbaren Zufallsvariablen Xn ∈ L1 mit E(Xn |An+1 ) = Xn+1
P –fs ∀ n .
(16.13)
Gilt E(Xn |An+1 ) ≥ Xn+1 P –fs ∀ n , so spricht man von einem rückwärts gerichteten Submartingal, und man nennt (Xn , An ) ein rückwärts gerichtetes Supermartingal, wenn E(Xn |An+1 ) ≤ Xn+1 P –fs ∀ n . Bemerkung 16.21. (Xn , An ) ist genau dann ein rückwärts gerichtetes Martingal (Submartingal, Supermartingal), wenn (X−n , A−n ) ein Martingal (Submartingal, Supermartingal) ist, denn damit gilt A−n−1 ⊆ A−n und (16.13) wird zu E(X−n |A−n−1 ) = ( ≥ , ≤ ) X−n−1 .
16.2 Transformation von Submartingalen Es erhebt sich die Frage, ob ein Spieler seine Situation verbessern kann, wenn er vor jedem neuen Spiel entscheidet, ob er nur einen Teil des Einsatzes oder auch gar nicht setzt . Formal kann man dies beschreiben durch Funktionen 0 ≤ Bn ≤ 1 , n ≥ 2 die jeweils An−1 -messbar, also vorhersagbar sind, da wir natürlich annehmen, dass der Spieler keine hellseherischen Fähigkeiten besitzt und er deshalb seine Entscheidung auf Grund der vergangenen Spiele trifft. Statt der ursprünglichen Gewinnsummen Sn sammelt der Spieler bei Verwendung einer derartigen Strategie folgende Summen an Yn := S1 +
n !
Bi (Si − Si−1 )
(16.14)
i=2
Der nächste Satz zeigt, dass diese Vorgangsweise dem Spieler nichts bringt. Ein Submartingal bleibt ein Submartingal und deshalb bleibt ein Supermartingal (also die Art von Spiel, die dem Spieler normalerweise angeboten wird) ein Supermartingal. Einzig und allein der erwartete Gewinn (besser Verlust) verringert sich, wenn er nicht den gesamten Einsatz spielt. Satz 16.22. Ist (Xn , An ) ein Submartingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und (Bn ) , n ≥ 2 eine bezüglich (An ) vorhersagbare Folge von Zufallsvariablen, für die gilt 0 ≤ Bn ≤ 1 P –fs ∀ n , so ist auch (Yn , An ) mit n Y1 := X1 und Yn := X1 + Bi (Xi − Xi−1 ) , n ≥ 2 ein Submartingal und es i=2
gilt EYn ≤ EXn . Ist (Xn , An ) ein Martingal, so ist auch (Yn , An ) ein Martingal und dann gilt EYn = EXn . Beweis. Aus der An -Messbarkeit der Yn , der Vorhersagbarkeit der Bn , der Rekursion Yn+1 = Yn + Bn+1 (Xn+1 − Xn ) und E(Xn+1 |An ) ≥ Xn folgt
278
16 Martingale
E(Yn+1 |An ) = Yn + Bn+1 (E(Xn+1 |An ) − Xn ) ≥ Yn
P –fs .
Die Ungleichung EYn ≤ EXn ist für n = 1 klar, sodass es zum Beweis durch vollständige Induktion reicht den Schritt von n nach n + 1 zu zeigen. Aus der obigen Rekursion für die Yn , der Additivität des Erwartungswerts, der Induktionsvoraussetzung, Satz 14.10 Punkt 1, der Vorhersagbarkeit der Bn zusammen mit Satz 14.17 und wegen 0 ≤ Bn+1 ≤ 1 in Verbindung mit E(Xn+1 − Xn |An ) ≥ 0 folgt EYn+1 ≤ EXn + E (E(Bn+1 (Xn+1 − Xn )|An )) = EXn + E(Bn+1 E(Xn+1 − Xn |An ) ) ≤ EXn + E(E(Xn+1 − Xn |An ) ) = EXn + E(Xn+1 − Xn ) = EXn+1 . Falls die Bn nur die Werte 0 und 1 annehmen, wenn also der Spieler vor jedem Spiel nur entscheidet, ob er daran teilnimmt oder nicht, so spricht man von einer optionalen Auswahl (optional sampling) des Spielers. Diese Auswahl kann auch beschrieben werden durch die Zeitpunkte, in denen der Spieler aufhört zu spielen bzw. in denen er wieder zu spielen beginnt. Diese Zeitpunkte hängen vom bisherigen Spielverlauf ab und sind deshalb selbst Zufallsvariable. Derartige Zufallsvariable bezeichnet man als Stoppzeiten. Sie werden folgendermaßen definiert. Definition 16.23. Ist (An ) eine Filtration auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so nennt man eine Funktion T : Ω → N ∪ {∞} eine Stoppzeit, wenn [T ≤ n] ∈ An ∀ n ∈ N . Die Stoppzeit ist endlich, wenn P ( T = ∞ ) = 0 . Bemerkung 16.24. 1. Endliche Stoppzeiten werden auch Stoppregeln genannt. Allerdings sind diese Bezeichnungen nicht einheitlich; manche Autoren nennen T eine Stoppregel, wenn P ( T = ∞ ) > 0 , und sprechen von einer Stoppzeit, wenn T : Ω → N . 2. Die Bedingung [T ≤ n] ∈ An ∀ n in der obigen Definition der Stoppzeit ist n wegen [T = n] = [T ≤ n] \ [T ≤ n − 1] und [T ≤ n] = [T = i] äquivalent i=1
zu [T = n] ∈ An ∀ n . 3. T ≡ n ist trivialerweise eine Stoppzeit. 4. Sind T1 , T2 Stoppzeiten, so sind auch T1 ∨ T2 und T1 ∧ T2 Stoppzeiten wegen [T1 ∨ T2 ≤ n] = [T1 ≤ n] ∩ [T2 ≤ n] und [T1 ∧ T2 ≤ n] = [T1 ≤ n] ∪ [T2 ≤ n] . Lemma 16.25. Ist T eine Stoppzeit bezüglich der Filtration (An ) auf dem Wahrscheinlichkeitsraum (Ω, S, P ) , so ist AT := {A ∈ S : A ∩ [T = n] ∈ An ∀ n} eine σ-Algebra und T ist AT -messbar. Sind T1 , T2 Stoppzeiten mit T1 ≤ T2 P –fs , so gilt AT1 ⊆ AT2 . Insbesondere folgt aus T ≤ n P –fs , dass AT ⊆ An . Beweis. Offensichtlich gilt ∅ ∈ AT und Ω ∈ AT . Ist A ∈ AT , so folgt aus A ∩ [T = n] ∈ An auch Ac ∩ [T = n] = [T = n] \ ( A ∩ [T = n] ) ∈ An . Somit
16.2 Transformation von Submartingalen
279
gilt ∈ AT ⇒ Ac ∈ AT . Ist schließlich (Ai ) eine Folge aus AT , so gilt A Ai ∩ [T = n] = (Ai ∩ [T = n]) ∈ An , d.h. Ai ∈ AT . i i i [T = n] ∈ An , m = n , Wegen [T = m]∩[T = n] = ist T AT -messbar. ∅ ∈ An , m = n Ist T1 ≤ T2 und nA ∈ AT1 , so gilt A ∩ [T1 = i] ∈ An ∀ i ≤ n . Daraus folgt A ∩ [T2 = n] = A ∩ [T1 = i] ∩ [T2 = n] ∈ An , also A ∈ AT2 . i=1
Die letzte Aussage gilt, da aus T2 ≡ n folgt AT2 = An . Lemma 16.26. Mit den Bezeichnungen des vorigen Lemmas gilt für jede an eine Filtration (An ) adaptierte Folge von Zufallsvariablen Xn und jede endliche Stoppzeit T , dass XT := Xn 1[T =n] AT -messbar ist. n
Beweis. Ist B ∈ B , so gilt XT−1 (B) ∩ [T = n] = Xn−1 (B) ∩ [T = n] ∈ An für alle n ∈ N . Daraus folgt XT−1 (B) ∈ AT ∀ B ∈ B , d.h. XT ist AT -messbar. Satz 16.27. Ist (Xi , Ai )1≤i≤n ein Submartingal und sind Tj , j ∈ N Stoppzeiten mit 1 ≤ Tj ≤ Tj+1 ≤ n P –fs ∀ j , so ist (XTj , ATj ) ein Submartingal. Ist (Xi , Ai )1≤i≤n ein Martingal, so ist auch (XTj , ATj ) ein Martingal. + +n n + + + + + + + |Xi | sind die XTj integrierbar. Beweis. Wegen XTj = + Xi 1[Tj =i] ++ ≤ i=1
i=1
n . . XTj dP . Ist A ∈ ATj und Ai := A ∩ [Tj = i] ∈ Ai , so gilt A XTj dP = Ai i=1 . . Es reicht daher Ai XTj dP ≤ Ai XTj+1 dP ∀ i = 1, . . . , n zu zeigen, um . . X dP ≤ A XTj+1 dP zu beweisen. Da A ∈ ATj beliebig ist, impliziert A Tj dies die Submartingaleigenschaft von (XTj , ATj ) . Wegen Tj. ≤ Tj+1 ≤ n stimmen XTj und . . XTj+1 auf An überein mit Xn . Daraus folgt An XTj dP = An XTj+1 dP = An Xn dP . Für i < n ist die Folge Bk := 1[Tj+1 >k−1] , k = i + 1, . . . , n vorhersagbar bezüglich (Ak )i≤k≤n , da gilt [Tj+1 > k − 1] = [Tj+1 ≤ k − 1]c ∈ Ak−1 . (i) (i) (i) Definiert man Yi := Xi 1Ai und Yk := Yk−1 + Bk (Xk 1Ai − Xk−1 1Ai ) (i)
(i)
für k > i , so gilt auf Ai Yi = XTj und Yn = XTj+1 . Nach Satz 16.22 (i) (i) (i) ist (Yk , Ak )i≤k≤n ein Submartingal. Demnach gilt E(Yn |Ai ) ≥ Yi P –fs , . . . . (i) (i) und daraus folgt Ai XTj+1 dP = Ai Yn dP ≥ Ai Yi dP = Ai XTj dP . (i)
Ist (Xi , Ai ) ein Martingal, so ist nach Satz 16.22 (Yk , Ak )i≤k≤n ein Martingal. Deshalb ist auch (XTj , ATj ) ein Martingal. Bemerkung 16.28. Unter den und mit. den Bezeichnungen des . . Voraussetzungen obigen Satzes gilt natürlich XTj dP ≤ XTj+1 dP ≤ Xn dP . Folgerung 16.29. Ist (Xn , An ) ein Submartingal und T eine Stoppzeit, so ist (XT ∧n , An ) ebenfalls ein Submartingal. (XT ∧n , An ) ist ein Martingal, wenn (Xn , An ) eines ist.
280
16 Martingale
Beweis. Auf Tm := T ∧ m und Tn := T ∧ n , m < n treffen die Voraussetzunen von Satz 16.27 zu. Deshalb ist (XTi , ATi )i=m,n ein Submartingal (bzw. ein Martingal, wenn (Xn , An ) ein Martingal ist). Ist A ∈ Am , so liegt A ∩ [T ≥ m] j<m ∅ ∈ Aj , wegen A ∩ [T ≥ m] ∩ [Tm = j] = in ATm , A ∩ [T ≥ m] ∈ Am , j = m . . und daher gilt A∩[T ≥m] XTm dP ≤ A∩ [T ≥m] XTn dP . Auf [T < m] stimmen . . Tm und Tn überein, sodass A∩[T <m] XTm dP = A∩ [T <m] XTn dP . Somit gilt . . X dP ≤ A XTn dP ∀ A ∈ Am , und XTm ist ATm -messbar und demA Tm nach auch Am -messbar. Dies bedeutet E(XTn |Am ) ≥ XTm P –fs (die Ungleichungen werden durch Gleichungen im Martingalfall ersetzt). Also bilden die XTn auch ein Submartingal (Martingal) bezüglich (An ) . Auch die im nächsten Satz formulierten Ungleichungen lassen sich leicht mit Hilfe von Satz 16.27 herleiten Satz 16.30 (Doob’sche Extremal-Ungleichungen). Ist (Xn , An ) ein Submartingal auf einem Wahrscheinlickeitsraum (Ω, S, P ) und ε > 0 , so gilt 1 1 P max Xi ≥ ε ≤ E Xn+ ≤ E |Xn | , (16.15) 1≤i≤n ε ε % 1 $ E Xn+ − E X1 . (16.16) P min Xi ≤ −ε ≤ 1≤i≤n ε min{j : Xj ≥ ε}, ω ∈ A Beweis. Mit A := max Xi ≥ ε und T (ω) := 1≤i≤n n, ω ∈ Ac gilt 1 ≤ T ≤ n P –fs und A = [XT ≥ ε] ∈ AT . Daher folgt aus Satz 16.27 7 7 7 ε P (A) ≤ XT dP ≤ Xn dP ≤ Xn+ dP ≤ E Xn+ ≤ E |Xn | . A
A
A
min{j ≤ n : Xj ≤ −ε} , ω ∈ B n, ω ∈ Bc , 3 so folgt wegen 1 ≤ T, ≤ n und B = XT ≤ −ε ∈ AT abermals aus Satz 16.27 7 7 7 E X1 ≤ E XT = XT dP + XT dP ≤ XT dP − ε P (B) .
Ist B :=
min Xi ≤ −ε und T,(ω) :=
1≤i≤n
Bc
B
Bc
Umgeformt und unter nochmaliger Anwendung von Satz 16.27 ergibt das ⎛ ⎛ ⎞ ⎞ 7 7 1 ⎝ 1 P (B) ≤ XT dP − E X1 ⎠ ≤ ⎝ Xn dP − E X1 ⎠ ε ε Bc Bc ⎛ ⎞ 7 % 1 $ 1 E Xn+ − E X1 . ≤ ⎝ Xn+ dP − E X1 ⎠ ≤ ε ε Bc
16.2 Transformation von Submartingalen
281
Bemerkung 16.31. Aus Ungleichung (16.15) folgt die verallgemeinerte Ungleichung von Kolmogoroff unmittelbar, denn, wenn (Sn , An ) ein Martingal ist, so ist nach Satz 16.19 (Sn2 , An ) ein Submartingal und daher gilt mit S0 := 0
max |Si | ≥ ε
P
1≤i≤n
≤
max Si2 ≥ ε2
=P
1≤i≤n
n 1 1 ! 2 E S = E (Si −Si−1 )2 . n ε2 ε2 i=1
Sind die Stoppzeiten endlich aber unbeschränkt, so gilt folgender Satz. Satz 16.32. Ist (Xn , An )n∈N ein Submartingal und sind + T+j , j = 1, 2, . . . end+XT + < ∞ ∀ j und liche Stoppzeiten mit 1 ≤ T ≤ T P –fs , E j j+1 j . lim inf [Tj >n] |Xn | dP = 0 ∀ j , so ist (XTj , ATj ) ebenfalls ein Submartingal. n
Ist (Xn , An ) ein Martingal, so ist auch (XTj , ATj ) ein Martingal.
Beweis. Wir werden unter Verwendung der Bezeichnungen aus Satz 16.27 . . zeigen, dass gilt Ai XTj+1 dP ≥ Ai XTj dP ∀ i ∈ N , womit der Satz gemäß der Argumentation aus dem Beweis von Satz 16.27 bewiesen ist. Da auf Tj ∧ n und Tj+1 ∧ n Satz 16.27 anwendbar ist, gilt 7 7 7 $ % XTj+1 dP = XTj+1 ∧n dP + XTj+1 − XTj+1 ∧n dP Ai
Ai
7
7
≥
Ai
XTj ∧n dP + Ai
$
% XTj+1 − XTj+1 ∧n dP .
(16.17)
Ai
Auf Ai ∩ [Tj+1 ≤ n] stimmen Tj+1 und Tj+1 ∧ n überein. Daher gilt weiters 7 7 $ % $ % XTj+1 − XTj+1 ∧n dP = XTj+1 − XTj+1 ∧n dP Ai
Ai ∩[Tj+1 >n]
7
7 XTj+1 dP −
= Ai ∩[Tj+1 >n]
Xn dP .
(16.18)
Ai ∩[Tj+1 >n]
Weil Tj+1 eine endliche Stoppzeit ist, gilt [Tj+1 > n] ∅ mit n → ∞ . Daraus folgt Yn := 1Ai ∩[Tj+1 >n] XTj+1 → 0 P –fs , und, da die Yn offensichtlich durch XTj+1 ∈ L1 majorisiert werden, . impliziert dies nach dem Konvergenzsatz von Lebesgue (Satz 9.33) lim Ai ∩[Tj+1 >n] XTj+1 dP = 0 . n
Das 2-te Integral in der 2-ten Zeile von (16.18) konvergiert für eine Teilfolge (nk ) voraussetzungsgemäß gegen 0 . Daher kann das letzte Integral in n = nk beliebig klein gemacht werden. Somit gilt .(16.17) für geeignetes . X dP ≥ X dP . Aber auf Ai = A ∩ [Tj = i] stimmen Tj und T T ∧n j+1 j Ai Ai . . Tj ∧n für n ≥ i überein. Daraus folgt Ai XTj+1 dP ≥ Ai XTj dP . Ist (Xn , An ) ein Martingal, so wird. die Ungleichung . in (16.17) durch eine Gleichung ersetzt, und man erhält Ai XTj+1 dP = Ai XTj dP . Damit ist der Satz gezeigt.
282
16 Martingale
Das nächste Lemma zeigt, dass die gleichmäßige Beschränktheit der Integrale eines Submartingals durch eine schwächere Bedingung ersetzt werden kann. Lemma 16.33. Ist (Xn , An ) ein Submartingal mit sup E Xn+ < ∞ , so gilt n
sup E |Xn | ≤ |EX1 | + 2 n
sup E Xn+ n
< ∞.
(16.19)
Beweis. Aus |Xn | = Xn+ + Xn− = 2 Xn+ − Xn und EX1 ≤ EXn folgt E |Xn | = 2 EXn+ − EXn ≤ 2 EXn+ − EX1 ≤ 2 sup E Xn+ + |EX1 | < ∞ ∀ n . n
Der folgende Satz gibt Bedingungen an, unter denen die Integrale eines durch optionale Auswahl gebildeten Submartingals beschränkt sind. Satz 16.34. Ist (Xn , An )n∈N ein Submartingal, für das gilt sup E |Xn | < ∞ , n
und sind Tj , j+ = 1,+ 2, . . . endliche Stoppzeiten mit.1 ≤ Tj ≤ Tj+1 P –fs , ∀ j , so gilt sup E +XTj + < ∞ . Gilt außerdem lim inf [Tj >n] |Xn | dP = 0 ∀ j , so n j % $ ist XTj , ATj ein Submartingal. Beweis. Nach Satz 16.19 ist (Xn+ , An ) ein Submartingal, und klarerweise gilt C := sup E Xn+ ≤ sup E |Xn | < ∞ . Mit T0 := 1 ist laut Satz 16.27 n
n
(XT+j ∧m , ATj ∧m )j∈N0 ebenfalls ein Submartingal für alle m ∈ N, und wegen + Bemerkung 16.28 gilt E XT+j ∧m ≤ E Xm ≤ C < ∞ ∀ j . Nach Satz 16.27 ist aber auch +(XTj ∧m+, ATj ∧m )j∈N ein Submartingal, für das gemäß Lemma 16.33 gilt sup E +XTj ∧m + ≤ 2 C + |EXT0 ∧m | = 2 C + |E X1 | < ∞ . j
Da die Stoppzeiten Tj endlich sind, gilt lim Tj ∧ m = Tj , und daraus folgt + m + + + lim XTj ∧m = XTj P –fs . also auch lim +XTj ∧m + = +XTj + P –fs . Nach dem m + + +m + Lemma von Fatou gilt daher E +XTj + ≤ lim inf E +XTj ∧m + ≤ 2 C + |E X1 | ∀ j, m + + d.h. sup E +XT + ≤ 2 C + |E X1 | < ∞ . j
j
Die letzte Aussage des Satzes folgt nun unmittelbar aus Satz 16.32.
16.3 Konvergenzsätze für Submartingale Die Konvergenzaussagen dieses Abschnitts beruhen auf dem folgenden Satz. Satz 16.35 (Überquerungssatz von Doob). Ist (Xi , Ai )i=1,...,n ein Submartingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) und bezeichnet man für zwei gegebene reelle Zahlen a < b mit Un (ω) , ω ∈ Ω die Häufigkeit, mit der die Folge (X1 (ω), . . . , Xn (ω) ) von einem Wert Xi (ω) ≤ a zu einem Wert Xj (ω) ≥ b , j > i wandert, so ist die Funktion Un : Ω → N0 messbar und es gilt E Un ≤
E(Xn − a)+ . b−a
(16.20)
16.3 Konvergenzsätze für Submartingale
Beweis. Ist A0 := Ω und Ak :=
k
1≤j1 <···<j2k ≤n h=1
283
[Xj2h−1 ≤ a] ∩ [Xj2h ≥ b] für
k ≥ 1 , so gilt Un (ω) = max {k : ω ∈ Ak } und [Un ≥ k] = Ak , woraus sofort folgt, dass Un messbar ist. Wegen 0 ≤ Un ≤ n2 ist es auch integrierbar. Yi := (Xi − a)+ , i = 1, . . . , n ist nach Satz 16.19 ebenfalls ein Submartingal bezüglich (Ai ) , und Un (ω) entspricht gerade der Häufigkeit, mit der die Folge (Y1 (ω), . . . , Yn (ω) d.h. ) von 0 zu einem Wert Yj (ω) ≥ d := b − a wandert, k Un (ω) := max k : ω ∈ [Yj2h−1 = 0] ∩ [Yj2h ≥ d] . 1≤j1 <···<j2k ≤n h=1
Abb. 16.1. Überquerungssatz von Doob
Man definiert nun rekursiv die Stoppzeiten T1 , . . . , Tn durch T1 (ω)
:= min{ min{i : Yi (ω) = 0 } , n } , .. .
T2j (ω) := min{ min{i > T2j−1 (ω) : Yi (ω) ≥ d } , n } , T2j+1 (ω) := min{ min{i > T2j (ω) : Yi (ω) = 0 } , n } ∀ ω ∈ Ω , wobei, wie üblich min ∅ = ∞ gesetzt wird. Klarerweise gilt für diese Stoppzeiten 1 ≤ Ti ≤ Tj ≤ n P –fs ∀ 1 ≤ i < j ≤ n und Tn ≡ n P –fs . n n 2$ 2$ % % Aus Yn = YTn ≥ YTn − YT1 = YT2i − YT2i−1 + YT2i+1 − YT2i i=1
i=1
folgt 2 ! $ n
EYn ≥
i=1
%
2 ! $ n
EYT2i − EYT2i−1 +
% EYT2i+1 − EYT2i .
i=1
Da nach Bemerkung 16.28 gilt EYT2i+1 − EYT2i ≥ 0 , impliziert dies ⎛ n ⎞ n 2 2 ! ! $ % $ % EYT2i − EYT2i−1 = E ⎝ YT2i − YT2i−1 ⎠ . (16.21) EYn ≥ i=1
i=1
284
16 Martingale
Nun gilt für alle ω ∈ Ω YT1 (ω) = 0 oder YT1 (ω) = Yn (ω) aber auch YT2Un (ω)+1 (ω) = 0 oder YT2Un (ω)+1 (ω) = Yn (ω) . Daraus folgt Yn − YT1 ≥ 0
und
Yn − YT2Un +1 ≥ 0 .
(16.22)
Auf [Un = 0] gilt T2 = T3 = · · · = Tn = n P –fs . Daraus und aus der linken Ungleichung in (16.22) ergibt sich auf dieser Menge die Beziehung 2 ! $ n
% YT2i − YT2i−1 = Yn − YT1 ≥ 0 = d Un
P –fs .
(16.23)
i=1
Auf [Un > 0] gilt
n 2$
i=1
Un $ % % $ % YT2i − YT2i−1 = YT2i − YT2i−1 + Yn − YT2Un +1 . i=1
Das und die rechte Ungleichung in (16.22) führen auch auf dieser Menge zu 2 ! $ n
Un % ! $ % YT2i − YT2i−1 ≥ YT2i − YT2i−1 ≥ d Un
i=1
P –fs .
(16.24)
i=1
2$ % YT2i − YT2i−1 ≥ d Un P –fs auf ganz Ω , und daraus folgt Somit gilt i=1
n 2 $ % YT2i − YT2i−1 ≥ d EUn . Eingesetzt in (16.21) ergibt das nun E n
i=1
E(Xn − a)+ = EYn ≥ d EUn = (b − a) EUn , also die Behauptung des Satzes. Satz 16.36 (Konvergenzsatz von Doob für Submartingale). Ist (Xn , An ) ein Submartingal auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , für das gilt C := sup EXn+ < ∞ , so konvergiert Xn P –fs gegen ein X ∈ L1 (Ω, S, P ) . n
Beweis. Die Menge, auf der Xn nicht konvergiert, ist darstellbar als Vereinigung der Mengen Aa,b := [lim inf Xn < a < b < lim sup Xn ] , a, b ∈ Q , a < b . n
n
Ist für festes a < b Un definiert wie in Satz 16.35 als Anzahl der Überquerungen des Intervalls [a, b] durch X1 , . . . , Xn und ist U die Anzahl der Überquerungen von [a, b] durch die gesamte Folge (Xi ) , so gilt klarerweise Un U P –fs . Auf Aa,b gilt aber auch U ≡ ∞ , sodass aus P (Aa,b ) > 0 folgen müsste EU = ∞ . + n −a) ≤ C+|a| < ∞ ∀ n , sodass Satz 16.35 besagt jedoch E Un ≤ E(Xb−a b−a aus dem Satz über die Konvergenz durch Monotonie folgt EU ≤ C+|a| b−a < ∞ . Somit gilt P (Aa,b ) = 0 ∀ a < b , a, b ∈ Q , d.h. X := lim Xn existiert P –fs . n
, := sup E |Xn | < ∞ , sodass das Lemma von Aus Lemma 16.33 folgt C n
, < ∞ führt. Daher ist X integrierbar und Fatou zu E |X| ≤ lim inf E |Xn | ≤ C n
P –fs endlich.
16.3 Konvergenzsätze für Submartingale
285
Bemerkung 16.37. Ist (Sn , An ) ein Martingal mit den Differenzen X1 := S1 , Xn := Sn −Sn−1 , n ≥ 2 , so sind die Xnn Differenzen des Martingals (Tn , An ) mit n ∞ Xi Var Xi Tn := . Gilt nun sup E Tn2 = < ∞ , so erfüllt das Submartingal i i2 n
i=1
i=1
(Tn2 , An ) die Voraussetzungen des obigen Satzes. Daher konvergiert Tn2 gegen n Xi ein integrierbares T 2 P –fs . Daraus folgt lim Tn = P –fs . Dies i = T n
impliziert nach dem Lemma von Kronecker lim n
1 n
n
i=1
Xi = 0
P –fs . Somit gilt
i=1
Kolmogoroffs 1-tes Gesetz der großen Zahlen auch für Martingaldifferenzen. auf eiSatz 16.38. Ist (Xn , An ) ein gleichmäßig integrierbares Submartingal An , so gibt es nem Wahrscheinlichkeitsraum (Ω, S, P ) und A∞ := Aσ n
ein X∞ ∈ L1 , sodass (Xn , An )n∈N∪{∞} ein Submartingal ist und gilt lim Xn = X∞ n
P –fs ∧ lim !Xn − X∞ !1 = 0 . n
Falls(Xn , An ) ein Martingal ist, dann ist auch (Xn , An )n∈N∪{∞} eines. In diesem Fall gilt daher Xn = E(X∞ |An ) P –fs ∀ n ∈ N , d.h. jedes gleichmäßig integrierbare Martingal ist ein Doob-Martingal. Beweis. Wegen Satz 13.29 Punkt 1. gilt ∞ > C := sup E |Xn | ≥ sup E Xn+ . n
n
Daher existiert nach dem Konvergenzsatzes von Doob ein X∞ ∈ L1 mit lim Xn = X∞ P –fs . Die Xn konvergieren natürlich auch in Wahrscheinn
lichkeit gegen X∞ , sodass aus Satz 13.32 folgt lim !Xn − X∞ !1 = 0 . n
X∞ ist als Limes der A∞ -messbaren Funktionen Xn ebenfalls A∞ -messbar. Für jedes A ∈ S sind mit den Xn auch die Xn 1A gleichmäßig integrierbar und. konvergieren . P –fs gegen X∞ 1A . Daher folgt aus Satz 13.31 Punkt 2. lim A Xn dP = A X∞ dP . Für A ∈ Am und alle n ≥ m gilt demnach n
7
7
7 Xm dP ≤
A
7
Xn dP ≤ lim
Xi dP =
i
A
A
X∞ dP .
(16.25)
A
Das ist aber äquivalent zu Xm ≤ E (X∞ |Am ) P –fs , d.h. (Xn , An )n∈N∪{∞} ist gleichfalls ein Submartingal. Ist (Xn , An ) ein Martingal, so wird (16.25) zu 7 7 7 7 Xm dP = Xn dP = lim Xi dP = X∞ dP , i
A
A
also gilt Xm = E (X∞ |Am )
A
P –fs
∀ m ∈ N.
Umgekehrt gilt für Doob-Martingale.
A
286
16 Martingale
Satz 16.39. Besitzt die Zufallsvariable X auf dem Wahrscheinlichkeitsraum (Ω, S, P ) einen endlichen Erwartungswert und ist {Ai : i ∈ I} eine Familie von Subsigmaalgebren, so sind die Xi := E (X|A i ) gleichmäßig integrierbar. An und X∞ := E (X|A∞ ) , so ist Ist (An )n∈N eine Filtration A∞ := Aσ n
(Xn , An )n∈N∪{∞} ein Martingal, d.h. Xn = E (X∞ |An ) lim Xn = X∞ n
P –fs und es gilt
P –fs ∧ lim !Xn − X∞ !1 = 0 . n
.
Beweis. ν(A) := A |X| dP ist absolut stetig bezüglich P . Daher gibt es zu jedem ε > 0 ein δ > 0 , sodass aus P (A) ≤ δ folgt ν(A) ≤ ε . Weiters impliziert c P (|Xi | ≥ c) ≤ E |Xi | = E |E(X|Ai )| ≤ E (E (|X| |Ai ) ) = E |X| < ∞ ∀ i ∈ I , sowohl Bedingung 1. aus Satz 13.29, als auch sup P (|Xi | ≥ c) ≤ δ für c>
E |X| δ
i
. Daher und wegen [|Xi | ≥ c] ∈ Ai gilt für solches c und alle i ∈ I 7 7 |X| dP = E(|X| |Ai ) dP ε ≥ ν( |Xi | ≥ c ) = [|Xi |≥c]
7
7
|E(X|Ai )| dP =
≥ [|Xi |≥c]
[|Xi |≥c]
|Xi | dP . [|Xi |≥c]
Somit sind die Xi gleichmäßig integrierbar. Ist (An ) eine Filtration, so folgt bereits aus Satz 16.13, dass die (Xn , An )n∈N ein Martingal bilden. Da dieses Martingal gleichmäßig integrierbar ist, existiert nach Satz 16.38 eine A∞ -messbare Zufallsvariable X∞ , sodass auch (Xn , An )n∈N∪{∞} ein Martingal ist, also gilt Xn = E (X∞ |An ) P –fs , und gegen das die Xn im Mittel und P –fs konvergieren. Wegen Xn = E (X|An ) und Xn = E (X∞ |An ) gilt für jedes A ∈ An und n ∈ N 7 7 7 7 X∞ dP = Xn dP = E (X|An ) dP = X dP . A
A
A
.
A
.
Somit stimmen ρ(A) := A X dP und μ(A) := A X∞ dP auf der AlgeAn überein. Laut Eindeutigkeitsssatz (Satz 4.13) gilt deshalb auch bra n . . X dP = A X∞ dP ∀ A ∈ A∞ ⇒ X∞ = E (X|A∞ ) P –fs . A Bemerkung 16.40. Die Sätze 16.38 und 16.39 zeigen, dass die Doob-Martingale gerade den gleichmäßig integrierbaren Martingalen entsprechen. Wie aus Beispiel 16.15 ersichtlich, ist somit nicht jedes Martingal gleichmäßig integrierbar. Zum Abschluss noch ein Satz über rückwärts gerichtete Submartingale. Satz 16.41. Ist (Xn , An )n∈N ein rückwärts gerichtetes Submartingal und ist A0 := An , so existiert die A0 -messbare Grenzfunktion X∞ := lim Xn P –fs . n
n
16.3 Konvergenzsätze für Submartingale
287
Gilt zudem inf E Xn > −∞ , so ist X∞ integrierbar. n
Ist (Xn , An )n∈N ein rückwärts gerichtetes Martingal, dann gilt lim Xn = X∞ = E (X1 |A0 )
P –fs und lim !Xn − E (X1 |A0 )!1 = 0 .
n
n
Beweis. Für jedes n ∈ N ist (Xi , Ai )i=n,...,1 voraussetzungsgemäß ein Submartingal. Ist Un für a < b , a, b ∈ Q die Anzahl der Überqerungen von [a, b] + 1 −a) durch (Xi , Ai )i=n,...,1 , so gilt nach Satz 16.35 E Un ≤ E (Xb−a < ∞ . Daher muss auch für U die Anzahl aller Überqerungen von [a, b] durch (Xi , Ai )i∈N wegen Un U nach dem Satz über die Konvergenz durch Monotonie gelten + 1 −a) E U ≤ E (Xb−a < ∞ , woraus entsprechend der Argumentation im Beweis von Satz 16.36 folgt, dass X∞ := lim Xn P –fs existiert. n
Für jedes m ∈ N sind alle Xn mit n ≥ m Am -messbar. Somit ist auch X∞ als Grenzfunktion Am -messbar ∀ m ∈ N , d.h. X∞ ist A0 -messbar. Nach Satz 16.19 ist (Xi+ , Ai )i=n,...,1 ebenfalls ein Submartingal, also gilt E Xn+ ≤ E X1+ . Daraus zusammen mit |Xn | = 2 Xn+ − Xn folgt nun E |Xn | = 2 E Xn+ − E Xn ≤ C := 2 E X1+ − inf E Xi < ∞ ∀ n ∈ N . Daher imi
pliziert das Lemma von Fatou E |X∞ | = E lim inf |Xn | ≤ lim inf E |Xn | ≤ sup E |Xn | ≤ C < ∞ . n
n
n
Für rückwärts gerichtete Martingale gilt Xn = E (X1 |An ) ∀ n ∈ N . Daher sind die Xn gemäß Satz 16.39 gleichmäßig integrierbar, sodass aus Satz 13.32 und lim Xn = X∞ P –fs folgt lim !Xn − X∞ !1 = 0 . n
n
Aber auch die Xn 1A sind für alle A ∈ S gleichmäßig integrierbar, und es gilt lim Xn 1A = X∞ 1A P –fs . Aus Satz 13.31 Punkt 2. folgt daher n . . X dP = lim A Xn dP . Dies und A0 ⊆ An ∀ n ∈ N ergibt für A ∈ A0 A ∞ n
7
7 X∞ dP = lim n
A
7 n
A
7 E(X1 |An ) dP = lim
Xn dP = lim
n
A
7 X1 dP =
A
Dies ist äquivalent zu X∞ = E (X1 |A0 )
P –fs , da X∞
X1 dP . A
A0 -messbar ist.
Aus dem obigen Satz kann man sehr leicht Kolmogoroffs 2-tes Gesetz der großen Zahlen herleiten und sogar um die L1 -Konvergenz erweitern. Folgerung 16.42. Ist (Xn ) eine Folge unabhängig, identisch verteilter Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) mit endlichem Erwarn Xi tungswert E X , so gilt für die Summen Sn := i=1
lim
n→∞
1 Sn = E X n
P –fs
∧
C C C C1 C = 0. lim C − E X S n C C n→∞ n 1
(16.26)
288
16 Martingale
Beweis. Die bedingten Erwartungen E(X1 |Sn , Sn+1 , . . .) bilden zusammen mit gerichtetes Martingal. Unden σ-Algebren S(Sn , Sn+1 , . . .) ein rückwärts ter Verwendung der Bezeichnung S0 := S(Sn , Sn+1 , . . .) folgt daher aus n
Satz 16.41, dass E (X1 |Sn , Sn+1 , . . .) sowohl P –fs als auch im Mittel gegen E (X1 |S0 ) konvergiert. Da jedoch, wie in Lemma 14.16 gezeigt, gilt 1 S = E (X1 |Sn , Sn+1 , . . .) P –fs , ist dies äquivalent zu n n C C C1 C 1 C lim Sn = E (X1 |S0 ) P –fs ∧ lim C Sn − E (X1 |S0 )C C = 0 . (16.27) n n n n 1 Nun haben wir in Beispiel 7.59 gezeigt, dass lim n1 Sn eine terminale Funktion n
und daher P –fs konstant ist. Wegen E X = E X1 = E ( E (X1 |S0 ) ) muss diese Konstante aber mit E X P –fs übereinstimmen. Bemerkung 16.43. Dass E (X1 |S0 ) konstant ist, kann man auch aus dem NullEins-Gesetz von Hewitt-Savage herleiten, denn die Summen Sn , Sn+1 , . . . ändern sich durch eine Permutation der ersten n Summanden X1 , . . . , Xn nicht. Die Mengen aus S0 = S(Sn , Sn+1 , . . .) werden daher durch keine Permutation n
von endlich vielen Koordinaten beeinflusst und sind somit symmetrisch, d.h. sie haben Wahrscheinlichkeit 0 oder 1 .
17 Verteilungskonvergenz und Grenzwertsätze
17.1 Schwache Konvergenz Häufig muss man in der Wahrscheinlichkeitstheorie Verteilungen approximieren. Dem dient das folgende Konvergenzkonzept, das wir hier nur für den Raum (R , B) vorstellen, obwohl es in einfacher Weise auf metrische Räume verallgemeinert werden kann. Definition 17.1. Eine Folge endlicher Maße μn auf (R , B) bzw. die Folge der zugehörigen Verteilungsfunktionen Fn konvergiert schwach gegen das endliche Maß μ bzw. seine Verteilungsfunktion F (i.Z. μn ⇒ μ bzw. Fn ⇒ F ), wenn für jeden Stetigkeitspunkt x von F (d.h. F− (x) = F (x)) gilt lim Fn (x) = F (x) . n→∞
Werden die Verteilungsfunktionen Fn und F durch Zufallsvariable Xn und X induziert (d.h. die Fn und F sind Verteilungsfunktionen i.e.S.), die nicht auf demselben Wahrscheinlichkeitsraum definiert sein müssen, so sagt man auch die Fn konvergieren in Verteilung (oder stochastisch) gegen F , wobei man diese Ausdrucksweise für die Zufallsvariablen Xn und X ebenfalls verwendet und dann Xn ⇒ X schreibt. Der Limes wird durch die schwache Konvergenz eindeutig bestimmt. Lemma 17.2. Sind Fn , n ∈ N , F und G Verteilungsfunktionen auf R , so folgt aus Fn ⇒ F und Fn ⇒ G , dass gilt F = G . Beweis. F und G haben als Verteilungsfunkionen nur höchstens abzählbar viele Unstetigkeitsstellen. Zudem sind sie rechtsstetig. Daher gibt es zu jedem x ∈ R eine Folge (xk ) mit xk x , die nur aus Stetigkeitspunkten von F und G besteht. Daher gilt F (xk ) = lim Fn (xk ) = G(xk ) ∀ k ∈ N . Daraus folgt n
F (x) = lim F (xk ) = lim G(xk ) = G(x) . k
k
Dass es sinnvoll ist nur Konvergenz in den Stetigkeitspunkten von F zu verlangen, wird durch das folgende Beispiel verdeutlicht.
290
17 Verteilungskonvergenz und Grenzwertsätze
Beispiel 17.3. Die gesamte Masse der Wahrscheinlichkeitsverteilungen Pn mit den Verteilungsfunktionen Fn (x) := n (x − a) 1[a,a+ n1 ] (x) + 1(a+ n1 ,∞) (x) liegt in den Intervallen [a, a + n1 ] , die mit wachsendem n gegen {a} gehen. Daher sollten sie die Kausalverteilung im Punkt a mit der Verteilungsfunktion F (x) := 1[a ,∞) (x) als Grenzverteilung besitzen. Tatsächlich gilt lim Fn (x) = F (x) ∀ x = a . Aber aus Fn (a) = 0 ∀ n ∈ N n
folgt lim Fn (a) = 0 = F (a) = 1 . Der Name wird dadurch gerechtfertigt, dass selbst Konvergenz in Wahrscheinlichkeit schwache Konvergenz impliziert. Satz 17.4. Ist (Xn ) eine Folge von Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , die in Wahrscheinlichkeit gegen die Zufallsvariable X konvergiert, so konvergiert die Folge auch in Verteilung gegen X . Beweis. Für alle ε > 0 gilt [ X ≤ x − ε ] \ [ |Xn − X| > ε ] ⊆ [ Xn ≤ x ] und [ Xn ≤ x ] ⊆ [ X ≤ x + ε ] ∪ [ |Xn − X| > ε ] . Daraus folgt für die durch die Xn und X induzierten Verteilungsfunktionen Fn undF F (x − ε) − P (|Xn − X| > ε) ≤ Fn (x) ≤ F (x + ε) + P (|Xn − X| > ε) Ist x ein Stetigkeitspunkt von F ergibt sich demnach lim Fn (x) = F (x) . n
Der obige Satz lässt sich i.A. schon deshalb nicht umkehren, weil die Zufallsvariablen Xn und X bei Verteilungskonvergenz nicht einmal auf demselben Wahrscheinlichkeitsraum definiert sein müssen. Aber wenn die Xn stochastisch gegen eine Konstante konvergieren (d.h. die induzierten Verteilungen konvergieren gegen eine Kausalverteilung), dann gilt folgende Aussage: Satz 17.5. Sind Xn Zufallsvariable auf beliebigen Wahrscheinlichkeitsräumen (Ωn , Sn , Pn ) , dann folgt aus Xn ⇒ a ∈ R auch lim Pn (|Xn − a| > ε) = 0 ∀ ε > 0 . n
Beweis. Bezeichnet man mit Fn jeweils die Verteilungsfunktion von Xn und ist ε > 0 , so folgt aus [ |Xn − a| > ε ] ⊆ [ Xn > a + ε ] ∪ [ Xn ≤ a − ε ] , dass gilt Pn (|Xn − a| > ε) ≤ 1 − Fn (a + ε) + Fn (a − ε) . Aber Xn ⇒ a ist äquivalent zu lim Fn (x) = 0 ∀ x < a und lim Fn (x) = 1 ∀ x > a . Somit impliziert die n
n
eben gezeigte Ungleichung lim Pn (|Xn − a| > ε) = 0 ∀ ε > 0 . n
Wenngleich man aus der Verteilungskonvergenz nicht auf fast sichere Konvergenz schließen kann, so lässt sich doch zu jeder Folge (Fn ) von Verteilungsfunktionen, die stochastisch gegen eine Verteilungsfunktion F konvergieren, ein Wahrscheinlichkeitsraum mit Zufallsvariablen Xn ∼ Fn und X ∼ F konstruieren, sodass lim Xn → X fs. Dies ist der Inhalt des Darstellungssatzes n
von Skorochod mit dessen Hilfe sich viele Sätze über Verteilungskonvergenz stark vereinfacht beweisen lassen. Das Kernstück der Skorochod-Konstruktion bildet die folgende Aussage, die wir als eigenen Satz formulieren.
17.1 Schwache Konvergenz
291
Satz 17.6. Konvergieren die Verteilungsfunktionen Fn stochastisch gegen die Verteilungsfunktion F , so konvergieren die inversen Verteilungsfunktionen Fn−1 auf (0, 1) in jedem Stetigkeitspunkt von F −1 gegen F −1 . Beweis. Da F als monotone Funktion nur höchstens abzählbar viele Unstetigkeitsstellen besitzt (siehe Lemma 12.5), gibt es zu jedem p ∈ (0, 1) und ε > 0 ein x aus CF , der Menge der Stetigkeitspunkte von F mit F −1 (p) − ε < x < F −1 (p) . Wegen Satz 8.15 Punkt 1. gilt F (x) < p und, da die Fn in x gegen F konvergieren, muss deshalb auch für jedes hinreichend große n gelten Fn (x) < p , sodass wieder aus Satz 8.15 Punkt 1. folgt Fn−1 (p) ≥ x . Dies impliziert aber lim inf Fn−1 (p) ≥ x > F −1 (p) − ε . Da ε > 0 n
in dieser Ungleichung beliebig ist, folgt daraus lim inf Fn−1 (p) ≥ F −1 (p) . n
Ist umgekehrt 0 < p < 1 ein Stetigkeitspunkt von F+−1 und ε > 0 , so gibt + es ein δ > 0 , sodass aus |q − p| < δ und q ∈ (0, 1) folgt +F −1 (q) − F −1 (p)+ < ε . Für jedes q mit p < q < min{p + δ, 1} gilt daher F −1 (q) < F −1 (p) + ε , und es gibt ein x ∈ CF mit F −1 (q) < x < F −1 (p) + ε . Wieder folgt daraus nach Satz 8.15 Punkt 1. F (x) ≥ q > p , sodass für alle hinreichend großen n gelten muss Fn (x) > p , was seinerseits Fn−1 (p) ≤ x impliziert. Somit gilt lim sup Fn−1 (p) ≤ x < F −1 (p) + ε ∀ ε > 0 . Daraus folgt n
lim sup Fn−1 (p) ≤ F −1 (p) . Zusammen mit F −1 (p) ≤ lim inf Fn−1 (p) ergibt das n
n
F −1 (p) = lim Fn−1 (p) für jeden Stetigkeitspunkt von F −1 . n
Folgerung 17.7 (Darstellungssatz von Skorochod). Konvergieren die Verteilungsfunktionen Fn stochastisch gegen die Verteilungsfunktion F , so gibt es auf dem Wahrscheinlichkeitsraum ( ( 0, 1), B ∩ (0, 1), λ) eine λ–fs konvergente Folge von Zufallsvariablen Xn mit Xn ∼ Fn ∀ n ∈ N und X := lim Xn ∼ F . n
Beweis. Die auf ( ( 0, 1), B ∩ (0, 1), λ ) definierten Zufallsvariablen Xn := Fn−1 und X := F −1 haben nach Satz 8.16 die Verteilungsfunktionen Fn und F . Zudem konvergieren die Fn−1 , wie eben gezeigt in jedem Stetigkeitspunkt von F −1 gegen F −1 . Nach Lemma 12.5 hat F −1 nur höchstens abzählbar viele Unstetigkeitsstellen. Daher ist die Menge der Sprungstellen von F −1 eine λ-Nullmenge, also gilt lim Xn = lim Fn−1 = F −1 = X λ–fs . n
n
Das englische Wort „ portmanteau “, was soviel wie Handkoffer bedeutet, dient als Namensgeber für den folgenden Satz. Denn, so wie ein Handkoffer notwendige Utensilien für die Reise enthält, beinhaltet er wichtige Kriterien für die Verteilungskonvergenz. Er ist sehr einfach mit Hilfe des Darstellungssatzes herleitbar. Satz 17.8 (Portmanteau-Satz). Sind Pn , n ∈ N und P Wahrscheinlichkeitsmaße auf (R, B) mit den Verteilungsfunktionen Fn und F , so sind die folgenden Aussagen zueinander äquivalent: 1. Pn ⇒ P .
292
2. 3.
17 Verteilungskonvergenz und Grenzwertsätze
.
f dP ≤ lim inf n
.
f dPn für alle beschränkten Funktionen f , die
P –fs von
unten halbstetig sind . (siehe Definition A.26). . f dP ≥ lim sup f dPn für alle beschränkten Funktionen f , die
P –fs
n
4.
von sind (siehe Definition A.26). . oben halbstetig . f dP = lim f dPn für alle beschränkten und P –fs stetigen Funktionen f . n
5. P (U ) ≤ lim inf Pn (U ) für alle offenen Mengen U . n
6. P (A) ≥ lim sup Pn (A) für alle abgeschlossenen Mengen A . n
7. P (A) = lim Pn (A) für alle Mengen A , deren Rand eine P -Nullmenge ist. n . . 8. f dP = lim f dPn für alle beschränkten, 2-fach differenzierbaren Funkn
tionen f mit beschränkten und gleichmäßig stetigen Ableitungen f und f . Beweis. 1. ⇒ 2. ∧ 3. : f ist genau dann von unten halbstetig, wenn −f von oben halbstetig ist (siehe Bemerkung A.27). Daher sind die Aussagen 2. und 3. zueinander äquivalent, sodass es reicht 2. aus 1. herzuleiten. Gilt Pn ⇒ P , so gibt es dem Darstellungssatz von Skorochod zufolge auf ( ( 0, 1), B ∩ (0, 1), λ) Zufallsvariable Xn ∼ Pn und X ∼ P mit lim Xn = X λ–fs . Ist A := {ω ∈ (0, 1) : f (X(ω)) > lim inf f (Xn (ω))} und n
n
B := {x ∈ R : ∃ (xn ) mit lim xn = x ∧ f (x) > lim inf f (xn )} , so gilt n
n
ω ∈ A ⇒ X(ω) ∈ B , d.h. A ⊆ X −1 (B) . B ist aber eine P -Nullmenge. $ % Demnach existiert ein N ∈ B mit B ⊆ N und 0 = P (N ) = λ X −1 (N ) (die Gleichung rechts gilt, da P durch X induziert wird). Somit ist A eine λ-Nullmenge, also gilt f ◦ X ≤ lim inf f ◦ Xn λ–fs . Zudem gilt n
|f ◦ Xn | ≤ C := sup |f (x)| < ∞ ∀ n ∈ N . Deshalb sind f ◦ Xn und x
lim inf f ◦ Xn integrierbar und die Voraussetzungen für das Lemma von n
Fatou (Folgerung 9.32) erfüllt. Damit erhält man in Verbindung mit dem Transformationssatz (Satz 9.62) 7 7 7 7 f dP = f dλX −1 = f ◦ X dλ ≤ lim inf f ◦ Xn dλ n 7 7 7 −1 ≤ lim inf f ◦ Xn dλ = lim inf f dλXn = lim inf f dPn . n
n
n
2. ∧ 3. ⇒ 4. : Ist f P –fs stetig, so ist es P –fs halbstetig von unten und von oben (siehe Bemerkung A.27 Punkt 1.). Daher gilt 7 7 7 7 f dP ≤ lim inf f dPn ≤ lim sup f dPn ≤ f dP . n
n
2. ⇒ 5. ∧ 3. ⇒ 6. : Nach Folgerung A.23 sind die Indikatoren der offenen Mengen halbstetig von unten und die Indikatoren der abgeschlossenen Mengen halbstetig von oben. Daher ist Punkt 5. nur ein Spezialfall von Punkt 2. und Punkt 6. ein Spezialfall von Punkt 3.
17.2 Der klassische zentrale Grenzverteilungssatz
293
◦
5. ∧ 6. ⇒ 7. : Ist A das Innere von A und A¯ seine abgeschlossene Hülle, ◦ ¯ . Daher gilt so folgt aus P (∂A) = 0 offensichtlich P (A) = P (A) = P (A) ◦
◦
P (A) = P (A) ≤ lim inf Pn (A) ≤ lim inf Pn (A) n
n
¯ ≤ P (A) ¯ = P (A) . ≤ lim sup Pn (A) ≤ lim sup Pn (A) n
n
7. ⇒ 1. : Der Rand von (−∞, x] besteht nur aus dem Punkt x . Ist nun x ein Stetigkeitspunkt von F , so gilt P ({x}) = F (x) − F − (x) = 0 , und aus Punkt 7. folgt F (x) = P ( (−∞, x] ) = lim Pn ( (−∞, x] ) = lim Fn (x) . n
4. ⇒ 8. : Dies ist trivial. 8. ⇒ 1. : Ist y < z , so hat die Funktion fyz , definiert durch
fyz (x) :=
die Ableitungen fyz (x) =
⎪ ⎪ ⎪ ⎩
1−
"
x−y z−y
#3 3
x≤y ,
(17.1)
y<x
0,
"
#3 2 "
#2 x−y = −9 1 − 1(y,z) (x) und z−y " # " #3 " #3 x−y x−y x−y − 1 1(y,z) (x) , die 4 1 − z−y z−y z−y
fyz (x)
18 (z−y)2
⎧ ⎪ 1, ⎪ ⎪ ⎨
n
x−y z−y
beide beschränkt und gleichmäßig stetig sind. Ist nun x ein Stetigkeitspunkt von F , so gibt es zu jedem ε > 0 ein δ > 0 , sodass aus |x − y| ≤ δ folgt |F (x) − F (y)| < ε . Weiters gilt offensichtlich x ≤ 1(−∞,x] ≤ fxx+δ ≤ 1(−∞,x+δ] . daraus folgt 1(−∞,x−δ] ≤ fx−δ 7 7 x x F (x) − ε ≤ F (x − δ) ≤ fx−δ dP = lim fx−δ dPn ≤ lim inf Fn (x) n n 7 7 ≤ lim sup Fn (x) ≤ lim fxx+δ dPn = fxx+δ dP ≤ F (x + δ) ≤ F (x) + ε . n
n
Da ε > 0 beliebig gewählt werden kann, folgt daraus F (x) = lim Fn (x) . n
17.2 Der klassische zentrale Grenzverteilungssatz Der folgende Satz liefert ein Beispiel für das sogenannte Invarianzprinzip. Zugleich bildet er die Grundlage für einen interessanten Beweis des klassischen zentralen Grenzwertsatzes.
294
17 Verteilungskonvergenz und Grenzwertsätze
Satz 17.9. Gibt es eine Folge unabhängig, identisch verteilter und quadratisch integrierbarer ZufallsvariablerXi mit μ := E Xi und σ 2 := Var Xi > 0 , deren n Xi√ −μ standardisierte Summen Sn := in Verteilung gegen eine Zufallsvariable σ n i=1
S konvergieren, so gilt für jede andere Folge (Yn ) unabhängig, identisch verteilter und quadratisch integrierbarer Zufallsvariabler mit gleichem Erwartungswert μ und gleicher Varianz σ 2 ebenfalls Tn :=
n ! Yi − μ √ ⇒ S. σ n i=1
Beweis. Bezeichnet man mit PX und PY die Verteilung der Xi und der Yi , so gibt es, wie in Folgerung 8.18 gezeigt, eine Folge unabhängig, identisch verteilter Zufallsvariabler Zi mit bspw. Z2i ∼ PX und Z2i−1 ∼ PY . Man kann daher o.E.d.A. annehmen, dass beide Folgen auf einem Wahrscheinlichkeitsraum (Ω, S, P ) definiert und unabhängig voneinander sind. Wegen P Sn−1 ⇒ P S −1 und Satz 17.8 Punkt 8. gilt für jede Funktion f , die die dort angeführten Voraussetzungen erfüllt 7 7 (17.2) E f ◦ S = f dP S −1 = lim f dP Sn−1 = lim E f ◦ Sn . n
n
Wir zeigen nun, dass gilt |E f ◦ Tn − E f ◦ Sn | → 0 , denn daraus und aus . . (17.2) folgt f dP S −1 = E f ◦ S = lim E f ◦ Tn = lim f dP Tn−1 . Das aber n
n
ist nach Satz 17.8 Punkt 8. äquivalent zu P Tn−1 ⇒ P S −1 bzw. Tn ⇒ S . ˆ n+1 := 0 , Dazu schreiben wir f ◦Tn −f ◦Sn mit den Bezeichnungen Yˆ0 := X Xi −μ ˆ Yi −μ ˆ Xi := σ , Yi := σ , 1 ≤ i ≤ n als Teleskopsumme folgendermaßen an
n
n ! Yˆi ! X ˆi √ √ −f f ◦ Tn − f ◦ Sn = f n n i=1 i=1
n−1
n+1 n−1 n+1 ! Yˆi ! X ! Yˆi ! X ˆn ˆi ˆi Yˆn X √ +√ + √ √ +√ + √ =f −f n n i=n+1 n n n i=n+1 n i=0 i=0
n−2
n−2 n+1 ˆ ! Yˆi ! Yˆi ! X ˆ n−1 n+1 ˆi Yˆn−1 ! X X i √ + √ + √ √ + √ + √ −f +f n n n n n n i=0 i=n i=0 i=n
n−3
n+1 1 ! Yˆi ! X ! ! X ˆi ˆi ˆ 2 n+1 Yˆi Yˆn−2 X √ + √ + √ √ +√ + √ +f − ··· − f n n n n n i=3 n i=0 i=n−1 i=0
0
0 n+1 ! Yˆi ! X ! Yˆi ! X ˆ 1 n+1 ˆi ˆi Yˆ1 X √ +√ + √ √ +√ + √ −f +f n n i=2 n n n i=2 n i=0 i=0 Mit der Notation Vj :=
j−1 i=0
Yˆi √ n
+
n+1 i=j+1
ˆi X √ n
,
1 ≤ j ≤ n gilt also
17.2 Der klassische zentrale Grenzverteilungssatz
f ◦ Tn − f ◦ Sn =
1 ! j=n
f
Yˆj Vj + √ n
−f
Daraus folgt offensichtlich
ˆj X Vj + √ n
295
+
1 + ! ˆj Yˆj X + |E f ◦ Tn − E f ◦ Sn | ≤ − f Vj + √ + E f Vj + √ + n n j=n
.
+ + + + +
(17.3)
Nach dem Satz von Taylor (siehe A.41) gilt f (v + h) = f (v) + f (v) h + f (v + θ h) Die Funktion δ(h) :=
h2 2
∀ v, h ∈ R mit 0 ≤ θ ≤ 1 . (17.4)
sup |f (x) − f (y)| , h > 0 ist klarerweise mo-
|x−y|
noton und damit messbar. Da f beschränkt ist, ist auch δ beschränkt, und aus der gleichmäßigen Stetigkeit von f folgt lim δ(h) = 0 . Setzt man nun h 0
f (v) − δ(|h|) ≤ f (v + θ h) ≤ f (v) + δ(|h|) in (17.4) ein, so erhält man h2 h2 ≤ f (v+h) ≤ f (v)+f (v)h+[f (v)+δ(|h|)] . 2 2 " # Yˆj Angewendet auf f Vj + √n ergibt das die Ungleichung +
+
+ Yˆ + Yˆ 2 ˆ2 ˆj ˆj Y Y Y + + j j j − δ +√ + ≤ f Vj + √ f (Vj ) + f (Vj ) √ + f (Vj ) + n+ 2 n 2n n n +
+ + Yˆ + Yˆ 2 Yˆj2 Yˆj + j + j + δ +√ + . (17.5) ≤ f (Vj ) + f (Vj ) √ + f (Vj ) + n+ 2 n 2n n
f (v)+f (v)h+[f (v)−δ(|h|)]
In (17.5) sind sämtliche Terme wegen der Beschränktheit von f, f , f und δ integrierbar. Berücksichtigt man, dass Vj unabhängig von Yˆj ist, und, dass gilt E Yˆj = 0 , E Yˆj2 = 1 , so erhält man durch Übergang zu den Erwartungswerten +
+ + Yˆ + Yˆ 2 1 Yˆj + j + j E f (Vj ) + E f (Vj ) − E δ + √ + ≤ E f Vj + √ + n+ 2 n 2n n +
+ + Yˆ + Yˆ 2 1 + j + j E f (Vj ) + E δ + √ + . (17.6) ≤ E f (Vj ) + + n+ 2 n 2n Eine völlig analoge Argumentation führt zur Ungleichung +
+ +X ˆ2 ˆ j ++ X ˆj 1 X + j E f (Vj ) − E δ + √ + ≤ E f Vj + √ E f (Vj ) + + n+ 2 n 2n n +
+ +X + ˆ2 1 + ˆj + X j E f (Vj ) + E δ + √ + . (17.7) ≤ E f (Vj ) + + n+ 2 n 2n
296
17 Verteilungskonvergenz und Grenzwertsätze
Da die Yj bzw. Xj jeweils identisch verteilt sind, folgt aus (17.6) und (17.7) +
+ + ˆ i ++ Yˆj X + − E f Vj + √ +E f V j + √ + + n n + + +
+
+ + +X + Yˆ + Yˆ 2 ˆ2 + ˆj + X + j + j j + E δ +√ + ≤ E δ +√ + + n+ 2 n + n+ 2 n + +
+
+ + + Yˆ + Yˆ 2 +X ˆ2 + 1+ + ˆ1 + X 1 1 = E δ +√ + + E δ +√ + . (17.8) + n+ 2 n + n+ 2 n (17.8) eingesetzt in (17.3) ergibt + + +
+ + Yˆ + Yˆ 2 + X +X ˆ2 ˆ + 1+ + + 1 1 1 |E f ◦ Tn − E f ◦ Sn | ≤ E δ + √ + + δ +√ + + n+ + n+ 2 2
.
(17.9)
: "+ + # ˆ 2 "+ + # ˆ 2 ; ˆ + + Yˆ1 + Y1 +√ X1 = 0 fs. Außerdem werden die + δ Nun gilt lim δ + √ + + X1 + n "+ +n# ˆ 2 2 "+ +n# ˆ 2 2 + Yˆ1 + Y1 + Yˆ1 + Y1 + δ +√ für alle n ∈ N majorisiert durch die Funktionen δ + √ 2 2 n+ n+ integrierbare Funktion sup δ(x) x
ˆ2 Yˆ12 +X 1 2
, sodass auf die rechte Seite von (17.9)
der Satz über die Konvergenz durch Majorisierung angewendet werden kann. Daraus folgt lim |E f ◦ Tn − E f ◦ Sn | = 0 , womit der Satz bewiesen ist. n
Satz 17.10 (klassischer zentraler Grenzverteilungssatz). Ist (Yn ) eine Folge unabhängiger, identisch verteilter, quadratisch integrierbarer Zufallsvariabler mit μ := E Yn und σ2 := Var Yn > 0 , so konvergieren die standardisierten Sumn Yi√ −μ men Tn := in Verteilung gegen N (0, 1) . σ n i=1
Beweis. Nach Folgerung 8.18 existiert auf einem Wahrscheinlichkeitsraum (Ω, S, P ) eine iid Folge (Xn ) mit Xn ∼ N (0, 1) ∀ n ∈ N . Für die Sumn Xi √ gilt dann Sn ∼ N (0, 1) ∀ n ∈ N (vgl. Beispiel 10.76), men Sn := n i=1 " # woraus trivialerweise folgt P Sn−1 ⇒ N (0, 1) . Wegen E Ynσ−μ = 0 und # " Var Ynσ−μ = 1 gilt daher nach dem vorigen Satz auch P Tn−1 ⇒ N (0, 1) .
17.3 Schwache Kompaktheit Wir haben bisher, entweder immer angenommen oder es hat sich aus den Satzvoraussetzungen ergeben, dass das Grenzmaß gegen das eine Folge von Wahrscheinlichkeitsverteilungen konvergiert, selbst eine Wahrscheinlichkeitsverteilung ist. Das muss i.A. nicht der Fall sein, wie das nächste Beispiel zeigt.
17.3 Schwache Kompaktheit
297
Beispiel 17.11. Für die Verteilungsfunktionen Fn (x) := 1[n,∞) (x) gilt Fn ⇒ 0. Aber es gilt die folgende Aussage, die von grundlegender Bedeutung ist. Satz 17.12 (Satz von Helly). Jede Folge (Fn ) von Verteilungsfunktionen auf R , die gleichmäßig beschränkt ist, für die also Konstante a, b ∈ R existieren mit a ≤ Fn (−∞) ≤ Fn (∞) ≤ b ∀ n ∈ N , enthält eine Teilfolge (Fnk ) , die schwach gegen eine Verteilungsfunktion F mit a ≤ F (−∞) ≤ F (∞) ≤ b konvergiert. Beweis. Wir betrachten die Verteilungsfunktionen zunächst auf den durchnummerierten rationalen $ %Zahlen q1 , q2 , . . . . Da die Folge Fn (q1 ) beschränkt ist, gibt es eine konvergente Teilfolge $ % Fn(1) (q1 ) mit F, (q1 ) := lim Fn(1) (q1 ) (siehe Folgerung A.38). k k k % $ Fn(1) (q2 ) ist ebenfalls beschränkt und daher gibt es eine konvergente Teilk $ % $ % folge Fn(2) (q2 ) von Fn(1) (q2 ) mit F, (q2 ) := lim Fn(2) (q2 ) . Da aber auch k k k k % $ % $ Fn(2) (q1 ) eine Teilfolge von Fn(1) (q1 ) ist, gilt weiters F,(q1 ) = lim Fn(2) (q1 ) . k k k " # k (j) Im j-ten Schritt erhält man auf diese Art eine Teilfolge nk , die in allen # " (i) Folgen nk , i < j enthalten ist. Daher gilt lim Fn(j) (qi ) = F,(qi ) ∀ i ≤ j . k " k # (k) Da für jedes j ∈ N die Glieder der Diagonalfolge nk mit Indices k ≥ j in # " (j) der Folge nm enthalten sind, gilt lim Fn(k) (qj ) = F, (qj ) ∀ j ∈ N . k
k
Die Funktion F, : Q → [a, b] ist monoton steigend, denn aus qi < qj folgt Fn (qi ) ≤ Fn (qj ) ∀ n ∈ N und damit auch F, (qi ) ≤ F, (qj ) . Durch F (x) := inf F, (q) wird nun eine Funktion F : R → [a, b] definiert, x
die offensichtlich ebenfalls monoton steigend ist. Man beachte, dass aus F, (ˆ q ) ≤ F, (q) ∀ q > qˆ zwar folgt F,(ˆ q ) ≤ F (ˆ q ) , dass , aber nicht gelten muss F (ˆ q ) = F (ˆ q ) . Aber die obige Definition garantiert die Rechtsstetigkeit von F , denn auf Grund der Definition von F gibt es für alle ε > 0 ein rationales q > x , für das gilt F (x) ≤ F,(q) < F (x) + ε . Nun existiert für jede Folge (xn ) , die von rechts gegen x konvergiert, ein n0 , sodass xn < q ∀ n ≥ n0 ⇒ F (xn ) ≤ F, (q) < F (x) + ε ∀ n ≥ n0 . Andererseits gilt F (x) ≤ F (xn ) ∀ n ∈ N . Das ergibt insgesamt lim F (xn ) = F (x) . n
Ist nun x ein Stetigkeitspunkt von F , so existiert zu jedem ε > 0 ein δ > 0 , sodass aus |x − y| < δ folgt |F (x) − F (y)| < ε . Wählt man q , q ∈ Q und y ∈ R so, dass x − δ < y < q < x < q < x + δ , so gilt F (x) − ε < F (y) ≤ F, (q ) ≤ F (x) ≤ F, (q ) ≤ F (q ) < F (x) + ε .
(17.10)
Mit limFn(k) (x) := lim inf Fn(k) (x) und limFn(k) (x) := lim sup Fn(k) (x) gilt k
k
k
k
k
k
F,(q ) = lim Fn(k) (q ) ≤ limFn(k) (x) ≤ limFn(k) (x) ≤ lim Fn(k) (q ) = F, (q ) . k
k
k
k
k
k
(17.11)
298
17 Verteilungskonvergenz und Grenzwertsätze
Da ε > 0 beliebig gewählt werden kann, folgt aus (17.10) und (17.11) F (x) = lim inf Fn(k) (x) = lim sup Fn(k) (x) = lim Fn(k) (x) . k
k
k
k
k
k
Damit ist der Satz bewiesen. Um sicherzustellen, dass eine schwach konvergente Folge von Verteilungsfunktionen i.e.S. gegen eine Verteilungsfunktion i.e.S. konvergiert, benötigt man die folgende, zusätzliche Bedingung. Definition 17.13. Eine Menge {Fi : i ∈ I} von Verteilungsfunktionen i.e.S. heißt straff, wenn es zu jedem ε > 0 eine Konstante 0 < M < ∞ gibt, für die gilt inf [Fi (M ) − Fi (−M )] > 1 − ε . i∈I
Damit gilt: Satz 17.14 (Satz von Prochorov). Eine Menge F := {Fi : i ∈ I} von Verteilungsfunktionen i.e.S. ist straff genau dann, wenn jede Folge daraus eine Teilfolge enthält, die schwach gegen eine Verteilungsfunktion i.e.S. konvergiert. Beweis. ⇒ : Ist (Fn ) eine Folge aus F , so folgt aus dem Satz von Helly, dass eine Teilfolge (Fnk ) existiert, die schwach gegen eine Verteilungsfunktion F mit 0 ≤ F (−∞) ≤ F (∞) ≤ 1 konvergiert. Da F straff ist, gibt es zu jedem ε > 0 ein 0 < M < ∞ , sodass sup Fi (−M ) < ε und inf Fi (M ) > 1 − ε . Sind nun x < −M und y > M i
i
zwei Stetigkeitspunkte vonF , so gelten folgende Beziehungen F (−∞) ≤ F (x) = lim Fnk (x) ≤ sup Fi (x) ≤ sup Fi (−M ) < ε k
i
i
F (∞) ≥ F (y) = lim Fnk (y) ≥ inf Fi (y) ≥ inf Fi (M ) > 1 − ε . i
k
i
Daraus folgt sofort F (−∞) = 0 und F (∞) = 1 . ⇐ : Ist F nicht straff, so existiert ein ε > 0 , für das gilt ε ∀ n ∈ N. inf [ Fi (n) − Fi (−n) ] ≤ 1 − ε < 1 − i∈I 2 Daher gibt es zu jedem n ein Fin mit Fin (n) − Fin (−n) < 1 − 2ε . Nach dem Satz von Helly enthält (Fin ) aber eine Teilfolge (Fink ) mit Fink ⇒ F . Sind x < 0 < y beliebige Stetigkeitspunkte von F , so gilt (x, y] ⊆ (−nk , nk ] für fast alle k . Daraus folgt " # F (y) − F (x) = lim Fink (y) − Fink (x) k # " ε ≤ lim sup Fink (nk ) − Fink (−nk ) ≤ 1 − . 2 k Dies impliziert F (∞) − F (−∞) = lim F (y) − lim F (x) ≤ 1 − y∞
F ist keine Verteilungsfunktion i.e.S.
x −∞
ε 2
, d.h.
17.4 Charakteristische Funktionen
299
17.4 Charakteristische Funktionen Bevor wir uns mit charakteristischen Funktionen beschäftigen können, müssen wir den Integralbegriff auf komplexwertige Funktionen verallgemeinern. Definition 17.15. Ist f eine komplexwertige Funktion auf einem Maßraum (Ω, S, μ) und existieren die Integrale von +f hiezu Anhang Defi. . und ,f (siehe . nition A.60), so bezeichnet man f dμ := +f dμ + i ,f dμ als Integral von μ . Man nennt f integrierbar, wenn +f und ,f integrierbar sind. Lemma 17.16. Eine komplexwertige Funktion f auf einem Maßraum (Ω, S, μ) ist genau dann integrierbar, wenn |f | integrierbar ist. Beweis. Dies folgt unmittelbar aus |+f | ∨ |,f | ≤ |f | ≤ |+f | + |,f | (siehe Bemerkung A.63 Punkt 3.) Lemma 17.17. Existiert das Integral von f , so existiert auch das Integral der . . konjugierten Funktion f = +f − i ,f und es gilt f dμ = f dμ . Beweis. Dies folgt sofort aus Definition 17.15. Bemerkung 17.18. Auf Grund der obigen Definition ist klar, dass wichtige Eigenschaften und Aussagen, wie etwa die Linearität des Integrals oder der Satz über die Konvergenz durch Majorisierung für Integrale komplexwertiger Funktionen weiterhin gültig bleiben. Nur die Verallgemeinerung der Ungleichung aus Lemma 9.27 erfordert einen neuen Beweis. Lemma 17.19. Ist f eine komplexwertige Funktion auf einem Maßraum +. + . (Ω, S, μ) , deren Integral existiert, so gilt + f dμ+ ≤ |f | dμ . + +. . Beweis. Für + f dμ+ = 0 ist die Ungleichung trivial, ebenso für |f | dμ = ∞ .
f dμ
Ansonsten definiert man c := | f dμ| ∈ C . Weil der Absolutbetrag immer reellwertig ist (Bemerkung A.63 Punkt 2.), wegen Bemerkung A.63 Punkt 3. und wegen |c| = 1 gilt dann +7 + 7 7 7 7 + + + f dμ+ = c f dμ = c f dμ = +(c f ) dμ ≤ |+(c f )| dμ + + 7 7 7 ≤ |c f | dμ = |c| |f | dμ = |f | dμ . Definition 17.20. Ist μ ein endliches Maß auf (R, B) , so nennt man 7 ϕ(t) := ei t x dμ(x) , t ∈ R die Fouriertransformierte von μ . Ist (Ω, S, μ) ein endlicher Maßraum und f eine reellwertige, messbare Funktion darauf, so wird die Fouriertransformierte des induzierten Maßes μf −1 auch Fouriertransformierte von f genannt. Ist X eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , so spricht man von der charakteristischen Funktion von P X −1 bzw. von X .
300
17 Verteilungskonvergenz und Grenzwertsätze
.
Klarerweise gilt ϕ(t) =
ei t x dP X −1 (x) =
.
ei t X dP = E ei t X .
Beispiel 17.21. X ∼ U0,1 hat die charakteristische Funktion 71 ϕ(t) =
ei t x dx =
0
+1 i − i ei t ei t x ++ ei t − 1 = . = + it 0 it t
Beispiel 17.22. X ∼ Ex1 hat die charakteristische Funktion 7∞ ϕ(t) =
e
i t x −x
0
e
+∞ e(i t−1) x ++ 1 dx = = . + (i t − 1) 0 1 − it −|x|
Beispiel 17.23. Eine Zufallsvariable X mit der Dichte f (x) := e 2 , x ∈ R wird Laplace-verteilt genannt. Ihre charakteristische Funktion ist ⎞ ⎛∞ 7 70 1 1 ⎝ 1 1 1 i t x−x i t x+x ⎠ e dx + e dx = . ϕ(t) = + = 2 2 1 − it 1 + it 1 + t2 0
−∞
(17.12)
In den folgenden Sätzen sind einige elementare Eigenschaften der Fouriertransformierten aufgelistet. Satz 17.24. Ist (Ω, S, μ) ein endlicher Maßraum, f eine messbare Funktion darauf und ϕf die zugehörige Fouriertransformierte, so gilt: 1. ϕa f +b (t) = ei t b ϕf (a t) ∀ a, b ∈ R . 2. Ist f symmetrisch um 0 , d.h. f und −f induzieren dasselbe Maß auf (R, B) (vgl. Definition 15.18) so ist die Fouriertransformierte ϕf reellwertig. Beweis.
. . ad 1. : ϕa f +b (t) = ei t (a f (x)+b) dμ(x) = ei b t ei a t f (x) dμ(x) = ei b t ϕf (a t). ad 2. gilt für. jedes μf −1 -integrierbare g . : Auf Grund . der Voraussetzungen . −1 g ◦ f dμ = g dμf = g dμ(−f )−1 = g ◦ (−f ) dμ . Daraus folgt . itf . −i t f . dμ = e dμ = ei t f dμ = ϕf (t) ⇒ ϕf (t) ∈ R . ϕf (t) = e
Satz 17.25. Sind μ und ν endliche Maße auf (R, B) mit den Fouriertransformierten ϕμ und ϕν , so gilt ϕμ∗ν = ϕμ ϕν . Sind X und Y unabhängige Zufallsvariable, so gilt insbesonders ϕX+Y = ϕX ϕY . . . . . Beweis. Aus ei t s dμ∗ν(s) = ei t (x+y) dμ⊗ν(x, y) = ei t x dμ(x) ei t y dν(y) folgt unmittelbar ϕμ∗ν (t) = ϕμ (t) ϕν (t) . Satz 17.26. Ist μ ein endliches Maß auf (R, B) , so ist die Fouriertransformierte ϕ gleichmäßig stetig und es gilt |ϕ(t)| ≤ ϕ(0) = μ(R) ∀ t ∈ R .
17.4 Charakteristische Funktionen
301
+ + itx Beweis. Nach Satz A.65 Punkt 4. gilt +ei t x + = 1 ∀ t , x ∈ R .+ Daher + ist e i t x+ + für jedes t integrierbar, und aus Lemma 17.19 zusammen mit e = 1 folgt + 7 +7 7 + + + + |ϕ(t)| = ++ ei t x dμ++ ≤ +ei t x + dμ = μ(R) = ei 0 dμ = ϕ(0) . + + Aus Satz A.65 Punkt 2. folgt lim +ei h x − 1+ = 0 ∀ x ∈ R . Da außerdem gilt h→0 + ihx + + + +e der − 1+ ≤ +ei h x + + 1 = 2 impliziert + Satz über die Konvergenz durch .+ Majorisierung (Satz 9.33) lim +ei h x − 1+ dμ(x) = 0 . Daraus folgt nun h→0
+ +7 + + % $ 0 ≤ lim sup |ϕ(t + h) − ϕ(t)| = lim sup ++ ei t x ei h x − 1 dμ(x)++ h→0 h→0 7 7 + i t x+ + i h x + + + ≤ lim sup +e + +e − 1+ dμ(x) ≤ lim +ei h x − 1+ dμ(x) = 0 . h→0
h→0
Da der letzte Ausdruck in der obigen Ungleichung unabhängig von t ist, ist damit die gleichmäßige Stetigkeit von ϕ gezeigt. Zwischen der Existenz der Momente einer Zufallsvariablen und der Differenzierbarkeit der charakteristischen Funktion besteht folgender Zusammenhang Satz 17.27. Existiert das n-te Moment einer Zufallsvariablen X , so ist ihre charakteristische Funktion ϕ n-fach differenzierbar und es gilt % $ (17.13) ϕ(k) (t) = ik E X k ei t X ⇒ ϕ(k) (0) = ik E X k 1 ≤ k ≤ n . + + Ist umgekehrt ϕ in 0 für ein n ∈ N 2 n-fach differenzierbar mit +ϕ(2 n) (0)+ < ∞ , k so sind die Momente E |X| endlich und es gilt (17.13) für alle k ≤ 2 n . Beweis. Den Beweis, dass aus der Existenz des n-ten Moments die n-fache Differenzierbarkeit folgt, führen wir durch vollständige Induktion und betrachten zunächst den Fall n = 1 . Dafür gilt ihX i (t+h) X − ei t X −1 e e ϕ(t + h) − ϕ(t) =E = E i Xei t X . h h ihX + + " ihX # + + Aus Satz A.65 Punkt 5. und 9. folgt +ei t X e i h X−1 i X + ≤ |X| ∀ h ∈ R , " ihX # und Punkt 2. dieses Satzes impliziert lim i X ei t X e i h X−1 = i X ei t X . Weh→0
gen E |X| < ∞ folgt aus dem Satz über die Konvergenz durch Majorisierung ihX ϕ(t + h) − ϕ(t) −1 e itX = lim E i X e ϕ (t) = lim h→0 h→0 h ihX ihX $ % e − 1 = E lim i X ei t X = E i X ei t X . h→0 ihX
302
17 Verteilungskonvergenz und Grenzwertsätze
Ist nun (17.13) für ein k < n richtig, so gilt ihX −1 e ϕ(k) (t + h) − ϕ(k) (t) k k itX =E i X e h h ihX e −1 k+1 k+1 i t X , X e =E i ihX + " i h X #+ + + k+1 k+1 wobei +ik+1 X k+1 ei t X e i h X−1 + ≤ |X| mit E |X| < ∞ . Nochmalige Anwendung des Satzes über die Konvergenz durch Majorisierung ergibt daher ϕ(k+1) (t) = ik+1 E X k+1 ei t X , womit die eine Richtung bewiesen ist. Auch die Umkehrung beweisen wir durch vollständige Induktion. Für n = 1 gilt 2ihX h) ϕ(2 h)−ϕ(0) − ϕ(0)−ϕ(−2 e − 2 + e−2 i h X 2h 2h = lim E ϕ (0) = lim h→0 h→0 2h 4 h2 ⎡
$ i h X % 2 ⎤ 2 ihX 2 i , e − e− i h X e ⎦ = lim E = lim E ⎣X 2 h→0 h→0 2h 2hX 2 2 sin (h X) sin ( h X) 2 2 2 = lim E i X = − lim E X . (17.14) h→0 h→0 hX hX Da die X 2
"
sin(h X) hX
E lim inf X h→0
2
#2
nichtnegativ sind, gilt nach dem Lemma von Fatou
sin (h X) hX
2
≤ lim E X
2
h→0
Aus Satz A.65 Punkt 10. folgt aber lim X 2 h→0 2
"
sin (h X) hX sin(h X) hX
2
#2
= |ϕ (0)| < ∞ .
= X 2 . Eingesetzt in
folgt nun, wie die obige Ungleichung ergibt dies E X ≤ |ϕ (0)|$< ∞ . Daraus % im ersten Teil des Beweises gezeigt, ϕ (t) = −E X 2 ei t X ∀ t ∈ R. % $ Aus der Annahme, dass für k−1 gilt ϕ(2 k−2) (t) = (−1)k−1 E X 2 k−2 ei t X , folgt aber unter nochmaliger Anwendung der oben gemachten Umformungen ϕ(2 k−2) (2 h)−ϕ(2 k−2) (0) 2h
(2 k−2)
(2 k−2)
(0)−ϕ (−2 h) −ϕ 2h h→0 2h 2ihX − 2 + e−2 i h X e = lim (−1)k−1 E X 2 k−2 h→0 4 h2 2 sin (h X) = lim (−1)k E X 2 k . h→0 hX
ϕ(2 k) (0) = lim
Daraus folgt unter Anwendung des Lemmas von Fatou und, weil bekanntlich " #2 X) = X2 k gilt (Satz A.65 Punkt 10.) lim X 2 k sin(h hX h→0
17.4 Charakteristische Funktionen
303
2 + + sin (h X) + (2 k) + 2k ≥ E X2 k . ∞ > +ϕ (0)+ = lim E X h→0 hX % $ ∀ t ∈ R nach der ersten Daraus folgt wieder ϕ(2 k) (t) = (−1)k E X 2 k ei t X Aussage des Satzes. Damit ist auch die Umkehrung bewiesen. Folgerung 17.28. Existiert das n-te Moment einer Zufallsvariablen X , so gilt für ihre charakteristische Funktion ϕ ϕ(t) =
n !
(i t)k
k=0
E Xk + o(tn ) k!
mit
o(tn ) = 0. t→0 tn "
Sind alle Momente endlich, so folgt aus C := lim sup k
ϕ(t) =
∞ !
(i t)k
k=0
E Xk k!
(17.15)
lim
E|X|k k!
∀ t : |t| < ρ :=
# k1
1 . C
<∞
(17.16)
Beweis. Der Satz von Taylor (Satz A.41) angewendet auf den Real- und den Imaginärteil von ϕ ergibt zusammen mit dem obigen Satz ϕ(t) =
n−1 !
(i t)k
k=0
EX k (i t)n + E [X n (cos(δ1 t) + i sin(δ2 t) )] mit 0 < δ1 , δ2 < 1. k! n!
Der Erwartungswert im letzten Term auf der rechten Seite der obigen Gleichung kann umgeformt werden zu E X n +E [X n (cos(δ1 t) + i sin(δ2 t) − 1 ) ] . Nun gilt |X n (cos(δ1 t) + i sin(δ2 t) − 1 )| ≤ 3 |X|n mit E |X|n < ∞ und lim X n (cos(δ1 t) + i sin(δ2 t) − 1) = 0 , sodass nach dem Satz über die Konvert→0
n
t) E [X n (cos(δ1 t) + i sin(δ2 t) − 1 ) ] genz durch Majorisierung für o(tn ) := (in! n gilt lim o(ttn ) = 0 . t→0 + + + Xk + Für |t| ≤ θ ρ mit 0 ≤ θ < 1 gilt +(i t)k E k! + < θk für fast alle k . Daher konvergiert die Reihe in (17.16) für diese t absolut. Wegen (17.15) stimmt sie im Konvergenzbereich (−ρ, ρ) mit ϕ überein
Beispiel 17.29. Ist X ∼ N (0, 1) , so existieren, wie in Beispiel 15.21 gezeigt, n (2 k − 1) . Da die alle Momente, und es gilt E X 2 n−1 = 0 und E X 2 n = k=1 # " ∞ ∞ n 2 2 (i t)2 n E X 2 n 1 − t2 Reihe = − t2 offensichtlich für alle t ∈ R (2n)! n! = e n=0
n=0
t2
absolut konvergiert, hat X die charakteristische Funktion ϕX (t) = e− 2 . Y ∼ N (μ, σ2 ) ist bekanntlich darstellbar als Y = σ X +μ und besitzt daher nach Satz 17.24 Punkt 1. die charakteristische Funktion ϕY (t) = ei μ t−
σ 2 t2 2
.
304
17 Verteilungskonvergenz und Grenzwertsätze
Dass die Umkehrung von Satz 17.27 nur für Ableitungen gerader Ordnung gilt, zeigt das folgende Gegenbeispiel. Beispiel 17.30. Die Zufallsvariable X , die die Werte ± n , n ≥ 2 mit den Wahrscheinlichkeiten P (X = n) = P (X = −n) := n2 cln n für einen geeigneten Normierungsfaktor c > 0 annimmt, besitzt keinen Erwartungswert wegen ∞ ∞ 2m+1 ∞ −1 1 c 2m E X+ = E X− = = c n ln n n ln n ≥ c 2m+1 (m+1) = ∞ . m=1 n=2m
n=2
m=1
Da X symmetrisch um 0 ist, ist die zugehörige charakteristische Funktion ∞ $ % ei t n + e−i t n n2 1ln n . Daraus reellwertig und gegeben durch ϕ(t) = c n=2
erhält man unter Berücksichtigung von
∞
n=2
2c n2 ln n
=1
+ + + + + ∞ ++ i t n ! + ϕ(t) − ϕ(0) + + ϕ(t) − 1 + e + e−i t n − 2+ + +=+ +≤c . + + + + t t |t| n2 ln n n=2
(17.17)
1 , 2} Aus Satz A.65 Punkt 5. und Lemma 15.32 folgt nun mit m := max{ |t|
∞ ! 1 4 lim sup ≤ lim sup |t| n2 ln n |t| ln(m + 1) n=m+1 n2 |t|→0 n=m+1 |t|→0 2 8 4 (m + 1) 8 = lim sup ≤ lim = 0. ≤ lim sup ln(m + 1) m + 1 ln(m + 1) |t|→0 − ln |t| |t|→0 |t|→0 + itn + ∞ +e ! + e−i t n − 2+
$ %$ % 2 − ei t n − e−i t n = ei t n − 1 e−i t n − 1 zusammen mit Satz A.65 Punkt 9. und Lemma 15.33 führt andererseits zu + ++ + m ++ i t n m + itn ! ! +e + e−i t n − 2+ e − 1 ++ ++ e−i t n − 1 ++ |t| n2 + lim sup = lim sup + tn + + + n2 ln n |t| n2 ln n tn |t|→0 |t|→0 n=2 n=2
m m ! ! 1 1 1 ≤ lim = 0. ≤ lim sup |t| m→∞ ln n m − 1 ln n |t|→0 n=2 n=2 Somit gilt ϕ (0) = lim
t→0
ϕ(t)−ϕ(0) t
= 0 , obwohl X keinen Erwartungswert hat.
Satz 17.31 (Umkehrsatz). Ist F eine beschränkte Verteilungsfunktion auf R mit der Fouriertransformierten ϕ , so gilt für alle Stetigkeitspunkte a < b von F 7 c −i t a 1 e − e−i t b ϕ(t) dt (17.18) F (b) − F (a) = lim c→∞ 2 π −c it Beweis. Ersetzt man die Fouriertransformierte ϕ durch ihre Definition , so hat . c e−i t a −e−i t b . i t x 1 das Integral in (17.18) die Form I(c) := 2π e dF (x) dt . it −c R In I(c) kann die Integrationsreihenfolge nach dem Satz von Fubini vertauscht werden, denn aus den Punkten 5. und Punkt 9. von Satz A.65 folgt
17.4 Charakteristische Funktionen
305
+ −i t a −i t b + + i t (x−b) + ++ ei t (b−a) −1 ++ +e −e i t x+ +e ++ = (b − a) e + + i t (b−a) + ≤ b − a , und klarerweise gilt . it (b − a) λ ⊗ F (dt, dx) = 2 c (b − a) (F (∞) − F (−∞) ) < ∞ . Mit der Be[−c,c]×R
zeichnung Ic (x) :=
.c −c
ei t (x−a) −ei t (x−b) it
dt ergibt das I(c) =
h) eine ungerade Funktion in t ist und daher gilt Da cos(t t kann man das innere Integral Ic (x) umformen zu
7c Ic (x) = −c 7c
= −c
.
1 I (x) dF (x) . R c .2π c cos(t h) dt = 0 , t −c
cos(t (x − a)) − cos(t (x − b)) + i sin(t (x − a)) − i sin(t (x − b)) dt it sin(t (x − a)) − sin(t (x − b)) dt t
(17.19)
Das letzte Integral in (17.19) ist für x = a bzw. x = b von der Gestalt . c sin(t k) dt mit k = b − a > 0 . Für a < x < b kann es angeschrieben werden −c .c . c t sin(t k) als −c t dt + −c sin(tt h) dt mit k = x − a > 0 und h = b − x > 0 , und für .c .c k) x < a oder x > b kann man es darstellen als −c sin(t dt − −c sin(tt h) dt mit t k = b−x > 0 und h = a−x > 0 bzw. > 0.und h = x−b > 0 . Die Sub. c k = x−a y k) dt = −y sinu u du mit y := c k . Für stitution u := k t , k > 0 führt zu −c sin(t t . y sin u g(y) := −y u du gilt nach Gleichung (10.18) lim g(y) = π . Deshalb gibt y→∞
es zu ε > 0 ein yε , sodass |g(y)| ≤ π + ε ∀ y ≥ yε . Da g außerdem stetig in y ist, ist es nach Satz A.34 auch auf [0, yε ] beschränkt, d.h. es gibt ein M < ∞ mit sup |g(y)| ≤ M . Damit gilt aber auch sup |Ic (x)| ≤ 2 M . Nun folgt aus den c,x
y≥0
obigen Ausführungen und Gleichung (10.18) lim Ic (x) = 2 π 1(a,b) +π 1{a,b} , c→∞
und der Satz über die Konvergenz durch Majorisierung impliziert schließlich 7 7 1 1 Ic (x) dF (x) = lim Ic (x) dF (x) lim I(c) = lim c→∞ c→∞ 2π c→∞ 2π R R 7 1 1 = (2 π 1(a,b) + π 1{a,b} ) dF = [F (b) + F− (b) − F (a) − F− (a)] . 2π 2 R
Für Stetigkeitspunkte a, b von F stimmt das überein mit Gleichung (17.18), sodass damit der Satz bewiesen ist. Folgerung 17.32. Jede beschränkte Verteilungsfunktion F auf R wird durch ihre Fouriertransformierte ϕ eindeutig bestimmt. Beweis. Nach dem Umkehrsatz ist F in allen Stetigkeitspunkten eindeutig festgelegt. Wie im Beweis von Lemma 17.2 gezeigt, ist F damit für alle x ∈ R eindeutig bestimmt.
306
17 Verteilungskonvergenz und Grenzwertsätze
Erst mit dieser Aussage gewinnen die Sätze 17.24 und 17.25 an Bedeutung, wie am folgenden Beispiel demonstriert wird. Beispiel 17.33. Sind Xi ∼ N (μi , σi2 ) , i = 1, 2 unabhängige Zufallsvariable, so t2
2
2
gilt ϕX1 +X2 (t) = ϕX1 (t) ϕX2 (t) = ei t (μ1 +μ2 )− 2 (σ1 +σ2 ) . Dies ist die charakteristische Funktion einer N (μ1 +μ2 , σ12 +σ22 )-Verteilung. Daher ist die Summe unabhängiger, normalverteilter Zufallsvariabler ebenfalls normalverteilt. Zu Satz 17.24 Punkt 2. können wir nun folgende Umkehrung formulieren. Satz 17.34. Ist (Ω, S, μ) ein endlicher Maßraum und f : (Ω, S) → (R, B) eine Abbildung mit einer reellwertigen Fouriertransformierten ϕf , dann gilt μf −1 = μ(−f )−1 , d.h. f ist symmetrisch um 0 . Beweis. Da ϕf reellwertig ist, gilt ϕf (t) = ϕf (t) = ϕ(−f ) (t) ∀ t ∈ R . Somit haben die Maße μf −1 und μ(−f )−1 dieselbe Fouriertransformierte, sodass nach Folgerung 17.32 gilt μf −1 = μ(−f )−1 . Ist die Fouriertransformierte integrierbar, vereinfacht sich der Umkehrsatz zu: Satz 17.35. Ist μ ein endliches Maß auf (R, B) mit einer integrierbaren Fouriertransformierten ϕ , so ist μ absolut stetig bezüglich λ und besitzt die gleichmäßig stetige, beschränkte Dichte 7 1 f (x) := e−i t x ϕ(t) λ(dt) . (17.20) 2π R
Beweis. Aus Lemma 17.19 und Satz A.65 Punkt 5. folgt für alle x ∈ R 7 7 + −i t x + 1 1 +e + |ϕ(t)| λ(dt) ≥ |f (x)| , |ϕ(t)| λ(dt) = ∞ > K := 2π 2π R
R
d.h. f ist beschränkt. Gemäß der obigen Definition von K gilt für alle a < b ⎡ + ⎤ + 7 + −i t x 7 7 e ϕ(t)+ ⎣ ⎦ λ(dt) λ(dx) = K λ(dx) = K (b − a) < ∞ . (17.21) 2π (a,b]
R
(a,b]
Aus Lemma 17.19 und Satz A.65 Punkt 5. und Punkt 9. folgt ferner 7 + −i t x + + −i t h + 1 +e + +e − 1+ |ϕ(t)| dλ(t) |f (x + h) − f (x)| ≤ 2π R 7 7 + −i t h + 1 1 +e + = − 1 |ϕ(t)| dλ(t) ≤ |h| |ϕ(t)| dλ(t) (17.22) 2π 2π R
R
Da der Integrand des Integrals ganz rechts in (17.22) mit h → 0 ebenfalls gegen 0 strebt und durch |ϕ| majorisiert wird, konvergiert nach dem Satz über
17.4 Charakteristische Funktionen
307
die Konvergenz durch Majorisierung das Integral selbst gegen 0 . Dieses Integral ist unabhängig von x . Somit ist f gleichmäßig stetig. Gemäß (17.21) ist e−i t x ϕ(t) auf (a, b] × R integrierbar. Daher kann man in der untenstehenden Gleichung nach dem Satz von Fubini die Integrationsreihenfolge vertauschen. In Verbindung mit dem Umkehrsatz ergibt sich damit für beliebige Stetigkeitspunkte a < b der Verteilungsfunktion F von μ ⎡ ⎤ 7 7 7 1 ⎢ ⎥ f (x) λ(dx) = ϕ(t) ⎣ e−i t x λ(dx)⎦ λ(dt) 2π (a,b]
= lim
c→∞
1 2π
7
R
c
e
−i t a
−c
(a,b]
−e it
−i t b
ϕ(t) dt = F (b) − F (a) .
(17.23)
Da die Stetigkeitspunkte von F dicht in R sind, gibt es zu jedem x ∈ R und jedem ε > 0 Stetigkeitspunkte a, b mit x − ε < a < x < b < x + ε , sodass aus (17.21) und (17.23) folgt μ({x}) ≤ F (b) − F (a) ≤ 2 K ε . Somit gilt μ({x}) = F (x) − F− (x) = 0 , d.h. F ist stetig und (17.23) gilt für alle a < b . Wäre ,f (x) = 0 , etwa o.E.d.A. ,f (x) > 0 für ein x ∈ R , so müsste für alle y in einem hinreichend kleinen Intervall (a, b] um x gelten ,f (y) > f2(x) , und F (b) − F (a) wäre nicht reellwertig. Somit gilt f (x) ∈ R ∀ x ∈ R . Mit dem nämlichen Argument zeigt man, dass f (x) < 0 nicht.gelten kann. Da f demnach nichtnegativ reellwertig ist, wird durch ν(B) := B f dλ , B ∈ B ein Maß definiert, das auf den halboffenen Intervallen und damit nach dem Eindeutigkeitssatz (Satz 4.13) auf ganz B mit μ übereinstimmt. Daher gilt μ % λ , und nach Satz 12.30 ist F differenzierbar mit F = f . Beispiel 17.36. In Beispiel 17.23 haben wir gesehen, dass eine Laplace-verteilte 1 Zufallsvariable X die charakteristische Funktion ϕX (t) = 1+t 2 , die offensicht−|x|
lich integrierbar ist, besitzt. Da X die Dichte f (x) = e 2 hat, muss gemäß .∞ −|x| 1 Gleichung (17.20) gelten e 2 = 21π −∞ e−i t x 1+t 2 dt . Mit der Substitution . ∞ 1 1 −|x| ivx v := −t erhält man daraus e = −∞ e π (1+v 2 ) dv . Weil aber π (1+v 2 ) die Dichte der Cauchyverteilung ist, haben wir damit gezeigt, dass Cauchyverteilte Zufallsvariable die charakteristische Funktion ϕ(x) = e−|x| besitzen. Zum Beweis des letzten Satzes dieses Abschnitts, der den Zusammenhang zwischen der stochastischen Konvergenz von Verteilungsfunktionen und der punktweisen Konvergenz der zugehörigen charakteristischen Funktionen herstellt, benötigen wir die im nächsten Lemma formulierte Ungleichung. Lemma 17.37. Ist P eine Wahrscheinlichkeitsverteilung auf (R, B) mit der cha.c rakteristischen Funktion ϕ und c > 0 , so gilt −c ( 1 − ϕ(t) ) dt ∈ R sowie P
2 2 − , c c
c
1 ≤ c
7c ( 1 − ϕ(t) ) dt . −c
(17.24)
308
17 Verteilungskonvergenz und Grenzwertsätze
Aus |1 − ϕ(t)| ≤ 1 + |ϕ(t)| ≤ 2 (Satz 17.26) folgt, dass das Integral .Beweis. c ( 1 − ϕ(t) ) dt existiert und endlich ist. Dass es zudem reellwertig ist, ergibt −c .c .c .c sich aus −c ( 1 − ϕ(t) ) dt = 0 ( 2 − ϕ(t) − ϕ(−t) ) dt = 0 [ 2 − 2 +(ϕ(t) ) ] dt . + . c 3. . c 3. + Wegen −c R +1 − ei t x + P (dx) dt ≤ −c R 2P (dx) dt = 4 c < ∞ % .c . $ kann man in −c R 1 − ei t x P (dx) dt die Integrationsreihenfolge vertau+ + + + schen und erhält wegen ,(ei c x ) ≤ +,(ei c x )+ ≤ +ei c x + ≤ 1 ⎡ ⎤ 7 c 7 c 7 $ % 1 1 ⎣ ( 1 − ϕ(t) ) dt = 1 − ei t x P (dx)⎦ dt c −c c −c R 7 c 7 7 $ % 1 ei c x − e−i c x 2− dP (x) 1 − ei t x dt dP (x) = = c icx −c R R + + 7 7 icx +,(ei c x )+ ,(e ) =2 1− 1− dP (x) ≥ 2 dP (x) cx |c x| R R c 7 7 1 1 2 2 1− 1− . dP (x) ≥ 2 dP (x) ≥ P − , ≥2 |c x| |c x| c c R
{|x|> 2c }
Satz 17.38 (Stetigkeitssatz von Lévy). Eine Folge (Pn ) von Wahrscheinlichkeitsmaßen auf (R, B) konvergiert genau dann gegen eine Wahrscheinlichkeitsverteilung P , wenn die Folge (ϕn ) der charakteristischen Funktionen punktweise gegen eine komplexwertige Funktion ϕ konvergiert, die stetig in 0 ist. ϕ ist dann die charakteristische Funktion von P . Beweis. ⇒ : Nach Satz 17.8 Punkt 8, angewendet auf den Real- und den Imaginärteil von ei t x , folgt aus Pn ⇒ P sofort lim ϕ(t) = ϕ(t) . n
Satz 17.26 impliziert die Stetigkeit von ϕ in 0 . ⇐: Aus ϕ(t) = lim ϕn (t) ∧ ϕn (0) = 1 ∀ n ∈ N folgt ϕ(0) = 1 . Weil aber n
− ϕ(t)| ≤ 2ε für ϕ stetig in 0 ist, gibt es für alle ε > 0 ein cε > 0 , sodass |1 . . c c ε alle t ∈ [−cε , cε ] . Daraus folgt c1ε −cε |1 − ϕ(t)| dt ≤ c1ε −cε ε 2ε dt = ε . Da gilt lim |1 − ϕn | = |1 − ϕ| und |1 − ϕn (t)| ≤ 2 folgt aus dem Satz über n
die Konvergenz durch Majorisierung 7 cε 7 |1 − ϕn (t) | dt = lim n
−cε
cε −cε
|1 − ϕ(t) | dt .
Daher existiert ein n0 , sodass für alle n ≥ n0 gilt 7 cε 7 cε 1 1 |1 − ϕn (t) | dt ≤ |1 − ϕ(t) | dt + ε ≤ 2 ε . cε −cε cε −cε
17.5 Der Grenzverteilungssatz von Lindeberg-Feller
309
": ;c # Nach Lemma 17.37 gilt dann auch Pn − c2ε , c2ε ≤ 2 ε für alle n ≥ n0 . Daher sind die Pn straff, und nach dem Satz von Prokoroff (Satz 17.14) existiert eine Teilfolge (Pnk ) und eine Verteilung P mit Pnk ⇒ P . Für die charakteristische Funktion ϕP von P gilt, wie oben gezeigt, lim ϕnk = ϕP . k
Da andererseits gilt lim ϕnk = ϕ , stimmt ϕ mit ϕP überein. k
Gäbe es eine Teilfolge(Pmi ) mit Pmi P , so wäre auch diese Teilfolge straff, und deshalb müsste es eine Subfolge (Pmij ) und eine Verteilung Q = P mit Pmij ⇒ Q geben. Für die charakteristischen Funktionen dieser Subfolge würde daher im Widerspruch zu den Voraussetzungen gelten lim ϕmij = ϕQ = ϕ . Also gilt Pn ⇒ P . j
17.5 Der Grenzverteilungssatz von Lindeberg-Feller In diesem Abschnitt wird Satz 17.10 auf unabhängige, aber nicht identisch verteilte Folgen von Zufallsvariablen verallgemeinert. 1901 zeigte Lyapunov die Gültigkeit des Satzes B für derartige Folgen unter n E (Xk − EXk )2 gilt der Voraussetzung, dass für ein δ > 0 mit sn := k=1
1
lim
n→∞
n !
s2+δ n k=1
2+δ
E |Xk − EXk |
= 0.
(17.25)
Die obige Beziehung wird Lyapunov-Bedingung genannt, aber, da sie die Existenz der Momente der Ordnung 2 + δ voraussetzt, stellt Lyapunovs Resultat keine echte Verallgemeinerung von Satz 17.10 dar. Erst Lindeberg konnte 1922 eine schwächere, hinreichende Bedingung, die nach ihm benannte Lindeberg-Bedingung finden, welche für unabhängige, identisch verteilte Zufallsvariable mit endlicher Varianz σ 2 > 0 immer gilt. Definition 17.39. Eine Folge unabhängiger Zufallsvariabler Xk auf einem Wahrscheinlichkeitsraum (Ω, S, P ) , deren Varianzen σk2 endlich und nicht alle 0 sind, n erfüllt die Lindeberg-Bedingung, wenn mit s2n := σk2 gilt k=1
lim
n→∞
n 1 ! s2n
k=1
7 ( Xk − EXk )2 dP = 0
∀ ε > 0.
(17.26)
[|Xk −EXk |≥ε sn ]
Lemma 17.40. Jede unabhängig, identisch verteilte Folge von Zufallsvariablen Xk auf einem Wahrscheinlichkeitsraum (Ω, S, P ) erfüllt die Lindeberg-Bedingung, wenn gilt 0 < σ 2 := E(Xk − EXk )2 < ∞ .
310
17 Verteilungskonvergenz und Grenzwertsätze
Beweis. Da für ε > 0 gilt (X1 − EX1 )2 ≥ 1[|X1 −EX1 |≥ε σ √n ] (X1 − EX1 )2 0 folgt aus dem Satz über die Konvergenz durch Majorisierung . ( X1 − EX1 )2 dP lim
√
[|X1 −EX1 |≥ε σ
n]
∀ ε > 0.
=0
σ2
n→∞
Diese Beziehung stimmt aber für iid Folgen mit (17.26) überein. Lemma 17.41. Gilt für eine Folge (Xk ) von unabhängigen Zufallsvariablen die Lyapunov-Bedingung (17.25), so gilt auch die Lindeberg-Bedingung. n σk2 , Beweis. Ist (17.25) für δ > 0 erfüllt und definiert man s2n durch s2n := k=1 . so gilt E |Xk − EXk |2+δ ≥ εδ sδn ( Xk −EXk )2 dP . Daraus folgt [|Xk −EXk |≥ε sn ]
1
n !
s2+δ n
k=1
E |Xk − EXk |
2+δ
n εδ ! ≥ 2 sn k=1
7 ( Xk − EXk )2 dP . [|Xk −EXk |≥ε sn ]
woraus sich die Aussage des Lemmas unmittelbar ergibt. Lemma 17.42. Erfüllt eine Folge (Xk ) unabhängiger Zufallsvariabler die Lindeberg-Bedingung, so gilt mit den Bezeichnungen von Definition 17.39 max σk2
1≤k≤n lim n→∞ s2n
und lim
max P
n→∞ 1≤k≤n
(17.27)
=0
+ + + Xk − EXk + + + ≥ ε = 0. + + sn
(17.28)
Beweis. Da die Folge (Xk ) die Lindeberg-Bedingung genau dann erfüllt, wenn sie auch für die Folge der zentrierten Zufallsvariablen Xk − EXk gilt, kann o.E.d.A. EXk = 0 ∀ k ∈ N angenommen werden. Für alle k mit 1 ≤ k ≤ n und jedes beliebige ε > 0 gilt σk2 = s2n
7 [|Xk |<ε sn ]
Daraus folgt
Xk2 dP + s2n
2 max σk
1≤k≤n s2n
7
[|Xk |≥ε sn ]
≤
1 s2n
n
n 1 ! Xk2 2 dP ≤ ε + s2n s2n j=1
.
j=1 [|Xj |≥ε sn ]
7 Xj2 dP . [|Xj |≥ε sn ]
Xj2 dP , womit (17.27) gezeigt ist,
da die rechte Seite dieser Ungleichung voraussetzungsgemäß gegen 0 strebt. (17.28) folgt nun aus (17.27) nach der Tschebyscheff’schen Ungleichung.
17.5 Der Grenzverteilungssatz von Lindeberg-Feller
311
Folgerung 17.43. Erfüllt eine Folge (Xk ) unabhängiger Zufallsvariabler die Lindeberg-Bedingung, so gilt lim s2n = ∞ , und deshalb sind unendlich viele Xk n
nicht entartet, d.h. für unendlich viele k gilt σk2 > 0 . Beweis. Aus σk2 ≥ 0
∀ k ∈ N folgt S :=
setzungsgemäß existiert zudem ein j mit 2 max σk
1≤k≤n s2n
≥
σj2 S
∞
σk2 ≥ s2n ∀ n k=1 σj2 > 0 . Daher gilt
. Zusammen mit (17.27) ergibt das 0 = lim
n→∞
∈ N . Vorausfür alle n ≥ j 2 max σk
1≤k≤n s2n
≥
σj2 S
.
Daraus folgt S = ∞ , und klarerweise gilt dann σk2 > 0 für unendlich viele k . Die Gleichungen (17.27) und (17.28) zeigen, dass in einer Folge von Zufallsvariablen, die der Lindeberg-Bedingung genügt, die Abweichungen der einzelnen Variablen von ihrem jeweiligen Mittelwert unwesentlich in Bezug auf die Varianz der Summe sind. Man definiert daher: Definition 17.44. Eine Folge (Xk ) unabhängiger, quadratisch integrierbarer Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) heißt gleichmäßig asymptotisch vernachlässigbar, wenn (17.28) gilt. Das folgende Beispiel zeigt, dass es Folgen gibt, die nicht gleichmäßig asymptotisch vernachlässigbar sind und die daher auch nicht die Lindeberg-Bedinn Xk −EXk gung erfüllen , deren standardisierte Summen aber in Verteilung sn k=1
gegen N (0, 1) konvergieren. Somit stellt die Lindeberg-Bedingung keine notwendige Voraussetzung für die schwache Konvergenz gegen Normalverteilung dar. Wir werden aber später sehen, dass (17.26) für gleichmäßig asymptotisch vernachlässigbare Folgen nicht nur hinreichend, sondern auch notwendig ist. Beispiel 17.45. Sind die Xk ∼ N (0, 2k−1 ) , k ∈ N unabhängig, so gilt n Xk ∼ N (0, 1) ∀ n ∈ N . Damit ist s2n = 1 + · · · + 2n−1 = 2n − 1 und s1n k=1
die Verteilungskonvergenz gegen N (0, 1) trivialerweise gegeben. Aber es gilt + + + + + Xk + + Xk + sn + + + + ≥ ε = lim max P + ≥ε lim max P + n 1≤k≤n n 1≤k≤n sn + σk + σk
D " # n √ 2 −1 = 2 − 2 lim Φ ε = 2 − 2Φ ε 2 > 0 ∀ ε > 0. n 2n−1 Um zu zeigen, dass die Lindeberg-Bedingung hinreichend ist, werden zumeist Logarithmen mit komplexen Argumenten verwendet. Dies lässt sich mit dem folgenden Lemma vermeiden. Lemma 17.46. Sind x1 , . . . , xn und y1 , . . . , yn komplexe Zahlen mit |xi | ≤ 1 sowie |yi | ≤ 1 für alle 1 ≤ i ≤ n , so gilt
312
17 Verteilungskonvergenz und Grenzwertsätze
+ + n n n +
+ !
+ + xi − yi + ≤ | xi − y i | . + + + i=1
i=1
(17.29)
i=1
Beweis. Für n = 1 ist (17.29) klar. Gilt (17.29) aber für n − 1 , so folgt daraus + + + n−1 + + n
n−1 + n n−1 + + + + + +
+ + + + + + xi − yi + ≤ + xn xi − y i + + | xn − y n | + yi + + + + + + + + i=1 i=1 i=1 i=1 i=1 + + n−1 n−1 n−1 +
++ ! + ≤ |xn | + xi − yi + + | xn − yn | ≤ | xi − yi | + | xn − yn | . + + i=1
i=1
i=1
Damit ist das Lemma durch vollständige Induktion bewiesen. Zudem benötigt man ein paar Näherungsformeln für die Exponentialfunktion, die im nächsten Lemma zusammengefasst sind. Lemma 17.47. Für x ∈ R und z ∈ C gelten folgende Ungleichungen: 1. 2. 3. 4. 5.
1 z |e + i x− 1 − + z| ≤ |z| , wenn |z| ≤ 2 , +e − 1+ ≤ min{2 , |x|} , + + n + ix + |x|n+1 |x|n+2 ik xk + +e − für x2 ≤ (n + 2) (n + 3) , k! + ≤ (n+1)! + (n+2)! + k=0 + ix + + + |x| , x2 } , + +e − 1 − i x ≤ min{2 2+ + ix 3 +e − 1 − i x + x2 + ≤ min{x2 , |x| } . 2
Beweis. ad 1.: Aus |z| ≤
1 2
folgt
|ez − 1 − z| ≤ |z|
2
∞ ! k=0
k 2 ∞ 2 ∞ |z| |z| ! k |z| ! −k 2 ≤ |z| ≤ 2 = |z| . (k + 2)! 2 2 k=0
k=0
+ + + + ad 2.: Aus Satz A.65 Punkt 2. folgt +ei +x − 1+ ≤+ +ei x + + 1 = 2 ∀ x ∈ R , und aus Punkt 9. desselben Satzes folgt +ei x − 1+ ≤ |x| ∀ x ∈ R . ad 3.: Unter Berücksichtigung von Lemma A.5 gilt für x2 ≤ (n + 2) (n + 3) + + + + ++ + + ∞ n ∞ + k k+ 2k 2k ++ 2k+1 2k+1 ++ ! ! ! + + i x + + i x + + i x + ix + +≤ +e − +++ + k! + ++ (2 k)! (2 k + 1)! ++ + +k= n k=0 k= n +1 2 2 + + + + + ∞ + + ∞ 2k 2k+1 ++ ! + ! + + |x| + |x| + + = ++ (−1)k (−1)k + + +i (2 k)! (2 k + 1)! ++ + + + n n k= 2 +1
≤
2n 2 +2
k= 2
2n 2 +1
n+1 n+2 |x| |x| |x| |x| + = + , (17.30) n n (2 2 + 2)! (2 2 + 1)! (n + 1)! (n + 2)!
da die Absolutbeträge der Glieder der beiden alternierenden Reihen in der 2-ten Zeile für x2 ≤ (n + 2) (n + 3) monoton fallen.
17.5 Der Grenzverteilungssatz von Lindeberg-Feller
313
+ + + + ad 4.: Zunächst gilt ++ei x − 1 − i x++≤ +ei x − 1+ + |x| ≤ 2 |x| wegen Punkt 2. Daraus folgt auch +ei x − 1 − i x+ ≤ x2 für |x| ≥ 2 . Aber"für |x| < # 2 gilt + ix + x2 |x|3 |x| 1 2 + + gemäß (17.30) ebenfalls e − 1 − i x ≤ 2 + 6 = x 2 + 6 ≤ x2 . √ 2 3 ad 5.: Da aus |x| ≥ 1 + 5 folgt 2 + |x| ≤ x2 ≤ |x| , erhält man für diese x + + 2+ 2 2 + ix + + +e − 1 − i x + x + ≤ +ei x + + 1 + |x| + x = 2 + |x| + x ≤ x2 ≤ |x|3 . + + 2 2 2 √ √ Andererseits gilt für |x| < 1 + 5 < 20 auf Grund von (17.30) + + 3 2+ 4 2 + ix +e − 1 − i x + x + ≤ |x| + x = |x|3 1 + |x| = x2 |x| + x + 2+ 3! 4! 6 24 6 24 √
2
√
√
√
2
5 mit 16 + |x| ≤ 16 + 1+24 5 < 1 und |x| + x24 ≤ 1+6 5 + (1+24 5) = 5+3 < 1. 24 6 12 Demnach ist die Ungleichung von Punkt 5. für alle x ∈ R bewiesen.
Wir können nun den zentralen Grenzverteilungssatz von Lindeberg beweisen. Satz 17.48 (Zentraler Grenzverteilungssatz von Lindeberg). Erfüllt eine Folge (Xk ) unabhängiger Zufallsvariabler auf einem Wahrscheinlichkeitsraum n (Ω, S, P ) die Lindeberg-Bedingung, so gilt mit s2n := E(Xk − EXk )2 k=1 n ! Xk − EXk sn
⇒ N (0, 1) .
(17.31)
k=1
Beweis. Mit den Bezeichnungen σk2 := E(Xk − EXk )2 , Zn :=
n k=1
Xk −EXk sn
und
ϕX für die charakteristische Funktion einer Zufallsvariablen X gilt (17.31) t2 nach Satz 17.38 genau dann, wenn lim ϕZn (t) = e− 2 ∀ t ∈ R , n
Das zeigen wir nun, und nehmen o.E.d.A. EXk = 0 ∀ k ∈ N an. Unter Berücksichtigung von Lemma 17.46 erhält man für jedes t ∈ R + + t2 + + +ϕZn (t) − e− 2 + + + + + n
2 + 2 + n n + +
t2 σk t 2 σk ! t t − − + + + + ϕXk e 2 s2n + ≤ − − e 2 s2n + =+ +ϕXk + + + + sn sn k=1 k=1 k=1 + + + 2 + n + n t 2 σk ! + t2 σk2 t t2 σk2 ++ ! ++ − + 2 s2 +ϕX n − e 1 − ≤ + − 1 + + + (17.32) + k sn + + 2 s2n + 2 s2n k=1
Da aus (17.27) folgt
k=1
2 t2 σk 2 s2n
≤
1 2
für alle 1 ≤ k ≤ n , wenn n groß genug ist,
ergibt Lemma 17.47 Punkt 1. angewendet auf x := −
2 t2 σk 2 s2n
mit Mn :=
2 max σk
1≤k≤n s2n
314
17 Verteilungskonvergenz und Grenzwertsätze
+ n + ! + − +e +
+ 2 n n t4 ! σk2 t2 σk2 ++ t4 Mn ! σk2 t4 Mn ≤ . −1+ ≤ = + 2 s2n + 4 s2n 4 s2n 4
2 t2 σk 2 2 sn
k=1
k=1
k=1
Gemäß (17.27) strebt daher die letzte Summe in (17.32) für jedes t gegen 0 . Die Summanden der vorletzten Summe in (17.32) kann man wegen EXk = 0 und Lemma 17.47 Punkt 5. für alle ε > 0 abschätzen durch + + + + + i t Xk i t Xk t2 Xk2 ++ t t2 σk2 ++ ++ +ϕX s + k sn − 1 + 2 s2 + = +E e n − 1 − sn + 2 s2 + n n + + 3 3 2 2+ 2 2 + i t Xk i t X t |t| X X |X | t k k k+ k + , ≤ E ++e sn − 1 − ≤ E min sn 2 s2n + s2n s3n 7 7 3 3 |t| |Xk | t2 Xk2 dP + dP ≤ s3n s2n [|Xk |≤ε sn ]
≤
|t| ε sn s3n
≤ε
σ2 |t|3 2k sn
[|Xk |>ε sn ]
7
3
Xk2 dP + [|Xk |≤ε sn ] 2
t + 2 sn
7 Xk2
[|Xk |>ε sn ]
t2 s2n
7 Xk2 dP
[|Xk |>ε sn ]
t2 dP ≤ ε |t| + 2 sn
7
3
Xk2 dP . [|Xk |>ε sn ]
Da die Lindeberg-Bedingung erfüllt ist und ε > 0 beliebig, gilt demnach + 7 n n + ! + t t2 ! t2 σk2 ++ + 0≤ Xk2 dP → 0 . +ϕXk sn − 1 + 2 s2 + ≤ s2 n n k=1
k=1 [|X |>ε s ] n k
Somit konvergieren beide Summen in der 2-ten Zeile von (17.32) gegen 0 , und damit ist der Satz bewiesen. Der zentrale Grenzverteilungssatz kann unter gewissen Voraussetzungen auch auf Folgen abhängiger Zufallsvariabler verallgemeinert werden. Damit werden wir uns nicht beschäftigen. Aber zum Abschluss dieses Kapitels wollen wir noch Fellers Umkehrung des Satzes von Lindeberg für asymptotisch gleichmäßig vernachlässigbare Folgen zeigen. Satz 17.49 (Satz von Feller). Eine Folge (Xk ) asymptotisch gleichmäßig vernachlässigbarer Zufallsvariabler auf einem Wahrscheinlichkeitsraum (Ω, S, P ) erfüllt die Lindeberg-Bedingung. wenn Gleichung (17.31) gilt. Beweis. Wir werden den Beweis mit den Bezeichnungen des vorigen Satzes und der o.E.d.A. gemachten Voraussetzung EXk = 0 ∀ k ∈ R in zwei Schritten führen. Im ersten Schritt wird gezeigt, dass gilt n ! t t2 lim ∀ t ∈ R. (17.33) −1 =− + ϕXk n sn 2 k=1
17.5 Der Grenzverteilungssatz von Lindeberg-Feller
Dazu betrachtet man + + n ( ϕX ( t )−1 ) k sn + k=1 − e− +e +
315
+ + + + + + + + n ( ϕX ( t )−1 ) t2 + k sn + + + + k=1 − ϕZn (t)+ + +ϕZn (t) − e− 2 + . + ≤ +e + + + (17.34) + + n t2 + + Xk Wegen Zn = ⇒ N (0, 1) gilt nach Satz 17.38 lim +ϕZn (t) − e− 2 + = 0. sn n k=1 + " + " # #+ " #+ + + + t t + Klarerweise gilt ++ ϕXk sn + ≤ +ϕXk sn + ≤ 1 , und daraus folgt we+ + t + ϕXk ( stn )−1 + gen Satz A.65 Punkt 8. +e + = e(ϕXk ( sn ) )−1 ≤ 1 . Außerdem gilt " # n ϕXk stn . Somit kann man auf den ersten Term auf der rechϕZn (t) = t2 2
k=1
ten Seite von (17.34) Lemma 17.46 anwenden und erhält + + + n + + ! + n ( ϕX ( t )−1 ) + ϕ ( t )−1 t ++ k sn + + k=1 Xk sn + e . − ϕ (t) ≤ − ϕ e + + Zn Xk + + + sn +
(17.35)
k=1
Unter Berücksichtigung von Lemma 17.47 Punkt 2. gilt nun für alle ε > 0 + + + + itX + + t +ϕX + ≤ E ++e sn k − 1++ ≤ E min 2 , |t| |Xk | − 1 + k sn + sn + + 7 7 + Xj + |t| |Xk | dP + 2 dP ≤ ε |t| + 2 max P ++ ++ ≥ ε . ≤ 1≤j≤n sn sn [|Xk |<ε sn ]
[|Xk |≥ε sn ]
Die beiden Ausdrücke ganz rechts in der obigen Beziehung sind unabhängig von k , und der letzte Term strebt voraussetzungsgemäß gegen 0 . Daher gilt + + + + t + − 1++ → 0 . (17.36) Mn := max +ϕXk 1≤k≤n sn dass für alle hinreichend großen n und alle 1 ≤ k ≤ n gilt + +Daraus " folgt, # + + +ϕXk stn − 1+ ≤ 12 . Deshalb ergibt sich aus Lemma 17.47 Punkt 1. + n + ! + ϕ ( t )−1 t ++ +e Xk sn − ϕXk + sn +
k=1
=
+2 + ! n + n + ! + ϕ ( t )−1 + + + t t +e Xk sn + + + (17.37) − 1 − ϕ ϕ − 1 ≤ − 1 Xk Xk + + + + sn sn
k=1
k=1
Wegen EXk = 0 und Lemma 17.47 Punkt 4. kann man die rechte Summe in (17.37) von oben beschränken durch +2 + n + n + n + i t Xk + ! ! ! + + + + t t + + +ϕX + + + E +e sn − 1+ + k sn − 1+ ≤ Mn +ϕXk sn − 1+ ≤ Mn k=1 k=1 k=1 + + n n 2 ! ! + + i t Xk t X X k+ ≤ Mn t2 E ++e sn − 1 − i E 2k = Mn t2 . (17.38) = Mn sn + sn k=1
k=1
316
17 Verteilungskonvergenz und Grenzwertsätze
Aber aus (17.35), (17.36), (17.37) und (17.38) folgt, dass auch der erste Ausdruck auf der rechten Seite von (17.34) gegen 0 konvergiert.+ Daher gilt + n + n ( ϕX ( t )−1 ) + 2 ( ϕXk ( stn )−1 ) t t2 k sn + + → e− 2 , und damit gilt auch +ek=1 ek=1 + → e− 2 . + + Aber wegen |ez | = e(z) ∀ z ∈ C (siehe Satz A.65 Punkt 8.) ist dies äquivan ( ϕXk ( stn )−1 ) t2 lent zu ek=1 → e− 2 . Da die Exponentialfunktion auf R streng monoton und stetig ist, folgt daraus schließlich (17.33). Im zweiten Schritt des Beweises leiten wir nun die Gültigkeit der Lindeberg-Bedingung aus (17.33) her. Dazu formen wir (17.33) zunächst um zu lim
n 7 !
n
cos
k=1
t Xk sn
t2 Xk2 −1+ 2 s2n
(17.39)
dP = 0 .
Da in (17.39) der Integrand gemäß Folgerung A.57 nichtnegativ ist, gilt auch lim n
n !
7
cos
k=1 [|Xk |≥ε sn ]
t Xk sn
t2 Xk2 −1 + 2 s2n
dP = 0
∀ ε > 0.
(17.40)
Aus 1 − cos x ≤ 2 und der Tschebyscheff’schen Ungleichung (13.14) folgt aber 7 7 2 Xk2 t Xk dP . 1 − cos dP ≤ 2 P (|Xk | ≥ ε sn ) ≤ 2 sn ε s2n
[|Xk |≥ε sn ]
[|Xk |≥ε sn ]
Das zusammen mit (17.40) impliziert nun für alle t ∈ R und ε > 0 2 7 Xk2 t 2 lim sup − 2 dP ≤ 0 . 2 ε s2n n
(17.41)
[|Xk |≥ε sn ]
2
Da für festes ε > 0 und |t| > 2ε der Ausdruck t2 − ε22 strikt positiv ist, folgt . Xk2 dP = 0 , also die Lindeberg-Bedingung. aus (17.41) lim s2 n
[|Xk |≥ε sn ]
n
A Anhang
A.1 Das Diagonalisierungsverfahren Satz A.1 (Diagonalisierungsverfahren). Es gibt eine bijektive Abbildung von N2 auf N . Beweis. Schreibt man die Punkte von N2 in eine nach unten und rechts offene Matrix , so besteht die erste Diagonale aus dem Punkt (1, 1) , die zweite Diagonale enthält die beiden Punkte (1, 2), (2, 1) und die d-te Diagonale setzt sich aus aus den d Punkten (1+k, d−k), k = 0, . . . , d−1 zusammen. Nummeriert man die Eingänge der Matrix nach Diagonalen geordnet und innerhalb einer Diagonalen jeweils von oben beginnend, so erhält man eine Abbildung a : N2 → N mit a(1, 1) = 1, a(1, 2) = 2, a(2, 1) = 3, . . . . 1 (1, 1) 3 (2, 1) 6 (3, 1) 10 (4, 1)
2 4 7 (1, 2) (1, 3) (1, 4) . . . - 5 - 8 (2, 2) (2, 3) . . . - 9 (3, 2) . . . ...
Ein beliebiger Punkt (i, j) ∈ N2 steht in der d := i + j − 1-ten Diagonale in der i-ten Zeile. Daher kommen vor diesem Punkt alle Punkte der Diagonalen 1 bis d − 1 , sowie der oberen i − 1 Zeilen der d-ten Diagonale. Das sind d−1 k = i−1+ d(d−1) Punkte. Unser Punkt bekommt daher die Nummer i−1+ 2 k=0
a(i, j) = i + d(d−1) = i + (i+j−1)(i+j−2) . 2 2 Aus (i, j) = (k, l) und i+j = k+l folgt i = k , und weiters a(i, j) = a(k, l) . Gilt i + j = k + l , etwa o.E.d.A. i + j < k + l , so folgt erst recht
318
A Anhang
(i + j − 1)(i + j − 2) (i + j − 1)(i + j − 2) ≤i+j−1+ 2 2 (k + l − 2)(k + l − 1) (i + j − 1)(i + j) ≤ < a(k, l) . = 2 2
a(i, j) = i +
Somit ist a injektiv. Ist n ∈ N, dn := max{d ∈ N0 : d(d+1) < n} , i := n − dn (d2n +1) und 2 j := dn + 2 − i , so gilt 1 ≤ i ≤ dn + 1 ∧ 1 ≤ j ≤ dn + 1 ∧ i + j − 1 = dn + 1 . Daraus folgt a(i, j) = n und deshalb ist a auch surjektiv.
A.2 Das Auswahlaxiom Axiom A.2 (Auswahlaxiom) Ist {Ωi : i ∈ I = ∅} eine nichtleere Klasse von Ωi , sodass Mengen Ωi = ∅ , ∀ i ∈ I , so gibt es eine Funktion f : I → i∈I
f (i) ∈ Ωi , ∀ i ∈ I .
A.3 Reihen Definition A.3. Eine Reihe men sn :=
n
∞
ai konvergiert, wenn die Folge ihrer Partialsum-
i=1
ai konvergiert, wenn also zu jedem ε > 0 ein nε ∈ N existiert,
i=1
sodass für alle n, m ≥ nε gilt |sn − sm | < ε . ∞ ∞ ai konvergiert absolut, wenn die Reihe |ai | konvergiert. Die Reihe i=1
i=1
Lemma A.4. Konvergiert die Reihe
∞
ai , so gilt lim |ai | = 0 . i
i=1
Beweis. Dies folgt sofort aus |ai | = |si − si−1 |
∀ i ≥ 2.
Lemma A.5. Ist (an ) eine Folge nichtnegativer Zahlen mit an 0 , so gilt 0≤
k !
(−1)i an+i ≤ an
∀ k ≥ 0 und n ∈ N .
(A.1)
i=0
Beweis. Wegen
0
(−1)i an+i = an
∀ n ∈ N ist (A.1) für k = 0 gültig. Aus
i=0
der Annahme, dass (A.1) für ein k ∈ N und alle n ∈ N richtig ist, folgt aber 0 ≤ an − an+1 ≤ an −
k !
(−1)i an+1+i =
i=0
= an −
k ! i=0
(−1)i an+1+i ≤ an .
k+1 !
(−1)j an+j
j=0
A.3 Reihen
319
Damit gilt (A.1) gilt auch für k + 1 ., und das Lemma ist durch vollständige Induktion bewiesen. Satz A.6. Ist (ai ) eine Folge nichtnegativer Zahlen mit ai 0 , so konvergiert ∞ (−1)i ai . die alternierende Reihe i=1
Beweis. Aus dem obigen Lemma folgt unmittelbar + + +k−1 + k−1 +! + ! |sn − sn+k | = + (−1)i an+1+i + = (−1)i an+1+i ≤ an+1 , + + i=0
i=0
womit die Konvergenz der Reihe bewiesen ist. Lemma A.7. Jede absolut konvergente Reihe
∞
ai ist konvergent.
i=1 n
Beweis. Ist ε > 0 und wählt man nε so, dass mit σn :=
|ai | gilt
i=1
|σn − σm | < ε,
∀ n, m ≥ nε , dann gilt auch + + m m + ! + ! + + ai + ≤ |ai | = |σn − σm | < ε . |sn − sm | = + + + i=n+1 ∞
Definition A.8. Die Reihe aber
∞
i=n+1
ai konvergiert bedingt, wenn
i=1
∞
ai konvergiert
i=1
|ai | nicht konvergiert.
i=1 ∞
Beispiel A.9. Die Reihe
(−1)i i
i=1
ist wegen Satz A.6 konvergent, aber sie ist
nicht absolut konvergent, denn auf [1, n + 1) gilt daraus folgt σn :=
n i=1
1 i
≥
. n+1 1
i=1 1 x
vergieren auch die Reihen
1 1 (x) i [i,i+1)
∞
ai → a und
i=1
(ai + bi ) → a + b und
∞
∞
i=1
und
bi → b , dann kon-
i=1
c ai → c a mit c ∈ R .
i=1
Beweis. Der Beweis ergibt sich sofort aus + + + + + + m m m + + + + + + ! ! ! + + + + + + (ai + bi )+ ≤ +a − ai + + +b − bi + +(a + b) − + + + + + + i=1
1 x
n
i=1
+ + m + + c ai ++ ≤ |c| bzw. aus ++c a −
≥
dx = ln (n + 1) ⇒ lim σn = ∞ .
Lemma A.10. Konvergieren die Reihen ∞
n
+ + m + + +a − + a i+ . + i=n+1
i=1
i=1
320
A Anhang
Definition A.11. Eine Umordnung ist eine Bijektion k von N → N . Dabei verwenden wir üblicherweise die Notation kn := k(n) . Man beachte, dass kn := 2 n , n ∈ N zwar eine Bijektion zwischen N und G := {2 n : n ∈ N} darstellt aber keine Umordnung ist, da der Wertebereich nicht mit N übereinstimmt. ∞ ai mit ai ≥ 0, ∀ i ∈ N verändert ihren Wert Lemma A.12. Eine Reihe i=1
nicht durch Umordnung. Beweis. Für
∞
ai = ∞ gibt es zu jedem M > 0 ein nM ∈ N mit
i=1
n M
ai > M .
i=1
Ist k eine Umordnung, so ist {1, . . . , nM } Teilmenge von {k1 , . . . , kj } mit j n ∞ M j := max k −1 (i) . Daraus folgt M < ai ≤ akh ⇒ akh = ∞ . 1≤i≤nM ∞
h=1
h=1
ai = s < ∞ , so gibt es zu jedem ε > 0 ein nε ∈ N mit
Gilt s ≥
i=1
i=1 nε
ai > s − ε . Wieder existiert ein j
: {1, . . . , nε } ⊆ {k1 , . . . , kj } .
i=1
Andererseits existiert auch ein N : {k1 , . . . , kj } ⊆ {1, . . . , N } . Daraus folgt s−ε<
nε !
ai ≤
i=1
j !
akh ≤
N !
ai ≤ s ⇒
i=1
h=1
Satz A.13. Eine absolut konvergente Reihe
∞ !
akh = s .
h=1 ∞
ai verändert ihren Wert nicht
i=1
durch Umordnung. Beweis. Nach Lemma A.7 ist die Reihe einen endlichen Grenzwert a := nε ∈ N , sodass
∞
∞
ai konvergent und daher gibt es
i=1
ai . Weiters existiert zu jedem ε > 0 ein
i=1
∞
|ai | <
i=nε +1
ε 2
. Ist nun k eine Umordnung, so gibt es ein j ,
für das gilt {1, . . . , nε } ⊆ {k1 , . . . , kj } . Umgekehrt existiert zu jedem h ≥ j ein n > nε mit {k1 , . . . , kh } ⊆ {1, . . . , n} . Somit ist H := {k1 , . . . , kh }\{1, . . . , nε } eine Teilmenge von {nε + 1, . . . , n} . Daher gilt für jedes h ≥ j + + + + + + + +n + +n nε h h ε ε + +! + + ! + +! + +! + +! ! + + + + + + + + + + aki − a+ ≤ + aki − ai + + + a i − a+ = + ai + + + a i − a+ + + + + + + + + + + + i=1 i=1 i=1 i=1 i=1 i∈H + + n ∞ + ! + ε ! ε + + ≤+ ai + + ≤ |ai | + ≤ ε , + + 2 2 i=n +1 i=n +1 ε
womit der Satz bewiesen ist.
ε
A.3 Reihen
Satz A.14 (Umordnungssatz von Riemann). Konvergiert die Reihe
∞ !
aki = A ∧ lim sup
∞ !
i=1
ai be-
i=1
dingt, so gibt es zu jedem A ≤ B eine Umordnung (ki ) mit lim inf
∞
321
aki = B .
i=1
Beweis. Da Glieder ai = 0 den Wert einer Reihe nicht beeinflussen, können wir derartige Glieder weglassen und o.E.d.A. annehmen, dass ai = 0, ∀ i . ∞ ∞ + − a+ a− Würden die Reihen i mit ai := ai ∨ 0 und i mit ai := −(ai ∧ 0) i=1
konvergieren, so müsste auch
∞
|ai | =
i=1
i=1
∞ i=1
a+ i
+
∞
a− im Widerspruch zu i
i=1
den Voraussetzungen konvergieren. ∞ ∞ Würde eine der beiden Reihen a+ a− i und i konvergieren, so müsste i=1
i=1
− − + wegen a+ i = ai + ai bzw. ai = ai − ai und, da ja
∞
ai konvergiert, auch
i=1
die andere Reihe konvergieren. Dies führt, wie wir gesehen haben, auf einen Widerspruch, und daher müssen beide Reihen divergieren. ∞ ∞ Streicht man in a+ a− i und i alle Nullen, so erhält man zwei neue Reihen
∞
i=1
pi = ∞ und
i=1
∞
i=1
qi = ∞ und jedes Glied von
i=1
ai = 0, ∀i genau einmal in genau einer der Reihen
∞
∞
ai kommt wegen
i=1
i=1
Man definiert nun rekursiv j n1 := min j : pi ≥ B , i=1 j n2 := min j : σ1 − qi ≤ A , .. . n2k n2k+1
σ1 σ2
−qi vor.
i=1
:=
n1
pi
i=1
i=1
∞
pi oder
:= σ1 −
n2
qi
i=1
j
n 2k := min j : σ2k−1 − qi ≤ A , σ2k := σ2k−1 − qi i=n2k−2 +1 i=n2k−2 +1 n2k+1 j := min j : σ2k + pi ≥ B , σ2k+1 := σ2k + pi i=n2k−1 +1
i=n2k−1 +1
Das ergibt eine Aneinanderreihung von Teilfolgen der Reihenglieder ai , also eine Umordnung, und für die Partialsummen σ2k gilt |σ2k − A| ≤ |an2k | , während die Partialsummen σ2k+1 die Ungleichung |σ2k+1 −B| ≤ |an2k+1 | erfüllen (nur für σ1 gilt diese Ungleichung bei B < 0 nicht). Unter Berücksichtigung von Lemma A.4 ist damit der Satz bewiesen.
322
A Anhang
Bemerkung A.15. Bei A = B gilt lim inf vergiert
∞
∞
∞
aki = lim sup
i=1
aki , also kon-
i=1
aki für die entsprechende Umordnung gegen A , während
i=1
∞ ∞
aki bei
i=1
A = B klarerweise divergiert. Satz A.16. Ist
∞
ai,j eine Doppelreihe mit ai,j ≥ 0, ∀ (i, j) ∈ N2 , so
i=1 j=1
existiert s :=
lim
n m
n,m→∞ i=1 j=1
s=
∞ ! i=1
ai,j (s kann auch ∞ sein) und es gilt ⎛ ⎞
∞ ∞ ∞ ! ! ! ⎝ ai,j ⎠ = ai,j , j=1
j=1
(A.2)
i=1
d.h. man kann s sowohl durch Addition der Zeilensummen, als auch der Spaltensummen berechnen und Vertauschung der Zeilen und Spalten ändert nichts am Wert der Doppelreihe. Beweis. Die Existenz von s ist klar, da die Folge sn,m :=
m n
ai,j wegen
i=1 j=1
ai,j ≥ 0,
∀ (i, j) in n, m monoton wächst. Aus nämlichen Grund müssen ∞ ∞ ai,j und alle Spaltensummen cj := ai,j auch alle Zeilensummen ri := j=1
i=1
existieren. Gilt s = ∞ , so gibt es zu jedem K > 0 ein nK , mK ∈ N mit K≤
mK nK ! !
ai,j ≤
i=1 j=1
nK !
nK mK ! !
ri ∧ K ≤
i=1
ai,j ≤
j=1 i=1
Ist n fest, so gilt sn,m ≤ s,
mK !
cj ⇒
j=1
m→∞
alle n ∈ N gilt, muss auch gelten
ri =
i=1
∀ m ∈ N ⇒ lim sn,m = ∞
∞ !
n
∞ !
ri ≤ s . Da dies für
i=1
ri ≤ s , und analog sieht man
i=1
nε !
ri ≤
i=1
Somit gilt s =
∞
ri =
i=1
∞ !
ri ≤ s ∧ s − ε ≤ snε ,mε ≤
i=1 ∞
∞ ∞
cj ≤
j=1
cj ≤ s .
∞ !
cj ≤ s .
j=1
cj .
j=1
Satz A.17. Sind die Reihen a := auch c :=
mε !
∞ j=1
Ist s < ∞ , so gibt es zu jedem ε > 0 Indices nε , mε ∈ N mit s − ε ≤ snε ,mε ≤
cj = ∞ .
j=1
∞
ai und b :=
i=0
∞
bi absolut konvergent, so ist
i=0
ai bj absolut konvergent, und es gilt c =
i=0 j=0
c wird als Produktreihe von a und b bezeichnet.
k ∞ k=0 i=0
ai bk−i = a b .
A.4 Topologie
323
∞ ∞ Beweis. Voraussetzungsgemäß gilt A := |ai | < ∞ und B := |bi | < ∞ . i=0
i=0 m n n m Nun gilt |ai | |bj | = |ai | |bj | ≤ A B < ∞ für alle n, m ∈ N . i=0 j=0
i=0
j=0 k ∞
Somit ist c absolut konvergent, und aus Satz A.13 folgt c = Wählt man zu ε > 0 ein nε , sodass für alle n, m > nε mit sn :=
n
∞
|ai | < ε und
i=nε +1
ai und tm :=
i=0
m
n m
n,m→∞ i=0 j=0
|bi | < ε , so gilt
bj
j=0
i=n+1
lim
∞
i=nε +1
+ + + + ⎛m ⎞ + + ! +! + m ! + + n + n ! + + + + ai bj − a b+ = + ai ⎝ bj ⎠ − a b++ + + + i=0 + i=0 j=0 + j=0 + + ∞ + + ! + + ≤ |sn tm − a tm | + |a tm − a b| ≤ |tm | + ai + + |a| + + Also gilt
ai bk−i .
k=0 i=0
+ + ∞ + ! + + + bi + ≤ B ε + A ε . + + + i=m+1
ai bj = a b .
A.4 Topologie Definition A.18. Eine Menge U ⊆ Rk heißt offen, wenn es zu jedem x ∈ U einen Quader (x − ε, x + ε) ⊆ U mit ε > 0 gibt. Die Menge A ⊆ Rk wird abgeschlossen genannt, wenn ihr Komplement offen ist. Eine Menge K ⊆ Rk heißt kompakt, wenn sie abgeschlossen und beschränkt ist. Bemerkung A.19. Da der Quader B (x − ε, x + ε)mit ε > 0 die offene Kugel k (yi − xi )2 < ε enthält und K(x, ε) umgeK(x, ε) := y : !y − x! := i=1 " # kehrt Obermenge des Quaders x − √εk , x + √εk ist, kann man die Quader in Definition A.18 durch Kugeln ersetzen. Definition A.20. Ist A eine beliebige Teilmenge von Rk , so versteht man unter ◦
dem Inneren von A die Menge A := {x ∈ A : ∃ ε > 0 : K(x, ε) ⊆ A} , die Menge A¯ := {x : ∃ y ∈ A ∩ K(x, ε) ∀ ε > 0 } wird als abgeschlossene Hülle ◦ von A bezeichnet, und ∂A := A¯ \ A ist der Rand von A . A ist dicht, wenn A¯ = Rk . A ist nirgends dicht, wenn das Innere von A¯ leer ist. ◦
Lemma A.21. Ist A ⊆ Rk , so ist A offen und A¯ sowie ∂A sind abgeschlossen.
324
A Anhang ◦
Beweis. Ist x ∈ A und K(x, ε) ⊆ A mit ε > 0 , so gilt für jedes y ∈ K(x, ε) ◦
natürlich K(y, ε − !y − x!) ⊆ K(x, ε) ⊆ A ⇒ K(x, ε) ⊆ A, . Für jedes x ∈ A¯c gibt es definitionsgemäß ein ε > 0 mit K(x, ε) ⊆ Ac , und für jedes y ∈ K(x, ε) gilt K(y, ε − !y − x!) ⊆ K(x, ε) ⊆ Ac . Daraus folgt K(x, ε) ⊆ A¯c , d.h. A¯c ist offen. Somit ist A¯ abgeschlossen. Daraus folgt aber auch, dass ∂A = A¯ ∩
c
◦
als Durchschnitt abgeschlossener Mengen
A
ebenfalls abgeschlossen ist. Lemma A.22. U ⊆ Rk ist genau dann offen, wenn fast alle Glieder einer jeden Folge (xn ) mit lim xn = x ∈ U in U liegen. n
Beweis. ⇒ : Ist x ∈ U , so gibt es ein ε > 0 mit K(x, ε) ⊆ U . Gilt nun lim xn = x , so n
gibt es zu diesem ε ein nε ∈ N , sodass !xn − x! < ε ∀ n ≥ nε . Daraus folgt xn ∈ U ∀ n ≥ nε . ⇐ : Ist U nicht offen, so existiert ein x ∈ U , sodass es für alle n ∈ N ein / U ∀ n ∈ N. xn ∈ K(x, n1 ) ∩ U c gibt. Somit gilt lim xn = x und xn ∈ n
Folgerung A.23. Es gelten die beiden zueinander äquivalenten Beziehungen lim xn = x ⇒ 1U (x) ≤ lim inf 1U (xn )
∀U
offen ,
(A.3)
lim xn = x ⇒ 1A (x) ≥ lim sup 1A (xn )
∀A
abgeschlossen .
(A.4)
n
n
n
n
Beweis. Für offenes U, x ∈ U und lim xn = x folgt aus dem obigen Lemma n
1U (xn ) = 1 für fast alle n . Daher gilt lim inf 1U (xn ) = 1 = 1U (x) . Für x ∈ U c n
gilt 1U (x) ≤ lim inf 1U (xn ) wegen 1U (x) = 0 . Damit ist (A.3) gezeigt. n
Die Äquivalenz von (A.3) und (A.4) folgt einfach aus 1A (x) = 1 − 1Ac (x) , lim sup 1A (xn ) = 1 − lim inf 1Ac (xn ) und Ac offen ⇔ A abgeschlossen. n
n
Lemma A.24. A ⊆ Rk ist genau dann abgeschlossen, wenn der Grenzwert einer jeden konvergenten Folge (xn ) aus A ebenfalls in A liegt. Beweis. Für jede Folge (xn ) aus A gilt 1A (xn ) = 1 ∀ n ∈ N , woraus folgt lim sup 1A (xn ) = 1 . Ist nun A abgeschlossen und gilt lim xn = x , so folgt aus n
n
Ungleichung (A.4) 1A (x) ≥ lim sup 1A (xn ) = 1 ⇒ x ∈ A . n
Ist andererseits A nicht abgeschlossen, so ist Ac nicht offen und daher gibt es, wie im Beweis von Lemma A.22 gezeigt ein x ∈ Ac und eine Folge (xn ) aus A mit lim xn = x . Damit ist auch die Umkehrung bewiesen. n
Lemma A.25. Für jede Menge A ⊆ Rk stimmt die Menge der Unstetigkeitsstellen von 1A überein mit dem Rand ∂A .
A.4 Topologie
325
◦
Beweis. Gilt x ∈ A und lim xn = x , so liegen nach Lemma A.22 fast alle ◦
n
Glieder von (xn ) in A . Daher gilt lim 1A (xn ) = 1 = 1A (x) . Aus x ∈ A¯c und n
lim xn = x folgt mit demselben Argument lim 1A (xn ) = 0 = 1A (x) . Daher n
n
◦
gilt A ∪ A¯c ⊆ S , der Menge der Stetigkeitspunkte von 1A , bzw. S c ⊆ ∂A . ◦
Gilt umgekehrt x ∈ A ∩ ∂A , so liegt x nicht in A . Daher gilt für alle n ∈ N K(x, n1 ) ∩ Ac = ∅ . Somit gibt es zu jedem n ein xn ∈ Ac mit !xn − x! < n1 . Für die Folge (xn ) gilt demnach lim xn = x und lim 1A (xn ) = 0 = 1A (x) = 1 . n n Gilt x ∈ Ac ∩ ∂A , so gibt es wegen x ∈ A¯ zu jedem n ein xn ∈ A mit !xn − x! < n1 . Somit gilt lim xn = x und lim 1A (xn ) = 1 = 1A (x) = 0 . n
n
Damit ist auch ∂A ⊆ S c bewiesen.
Definition A.26. Eine Funktion f : Rk → R heißt halbstetig von unten, wenn aus lim xn = x folgt f (x) ≤ lim inf f (xn ) , und sie heißt halbstetig von oben, n
n
wenn aus lim xn = x folgt f (x) ≥ lim sup f (xn ) . n
n
Bemerkung A.27. 1. f ist genau dann stetig, wenn es halbstetig von unten und von oben ist. 2. Gemäß der obigen Definition ist der Indikator einer jeden offenen Menge halbstetig von unten und der Indikator einer jeden abgeschlossenen Menge ist halbstetig von oben. 3. f ist genau dann von unten halbstetig, wenn −f von oben halbstetig ist. Satz A.28. f : Rk → R ist genau dann halbstetig von unten, wenn [f > a] für jedes a ∈ R offen ist. f : Rk → R ist genau dann halbstetig von oben, wenn [f ≥ a] für jedes a ∈ R abgeschlossen ist. Beweis. Wir beweisen zunächst die erste Aussage. ⇒: Ist x ∈ [f > a] und lim xn = x , so folgt aus a < f (x) ≤ lim inf f (xn ) , n
n
dass fast alle Folgenglieder xn in [f > a] liegen. Nach Lemma A.22 ist [f > a] daher offen. ⇐: Ist x ∈ Rk und ε > 0 , so ist [f > f (x) − ε] offen und enthält deshalb eine offene Kugel K(x, δ) , δ > 0 . Gilt lim xn = x , so liegen fast alle xn in n
dieser Kugel, woraus folgt lim inf f (xn ) > f (x) − ε . Da ε > 0 beliebig ist, n
impliziert das lim inf f (xn ) ≥ f (x) . n
Wendet man das eben Bewiesene auf −f an, so ergibt sich die zweite Aussage. Satz A.29. Ist U ⊆ Rk eine offene Menge, so gibt es eine Folge ((an , bn )) mit U = (an , bn ). n
326
A Anhang
Beweis. Die Familie der offenen Würfel (q − δ, q + δ) ⊆ U mit q ∈ Qk , δ ∈ Q ist abzählbar und ihre Vereinigung ist klarerweise eine Teilmenge von U . Da U offen ist, gibt es umgekehrt zu jedem x ∈ U ein > 0 und einen offenen Würfel (x − , x + ) ⊆ U. Wählt man nun einen Punkt q ∈ Qk , sodass max |xi − qi | < 2 und ein δ ∈ Q : max |xi − qi | < δ < 2 , so gilt 1≤i≤k
1≤i≤k
x ∈ (q − δ, q + δ) ⊆ (x − , x + ) ⊆ U . Daher überdeckt die obige Familie ihrerseits U , d.h. ihre Vereinigung stimmt mit U überein. Satz A.30. Jede offene Menge U ⊆ R ist Vereinigung von höchstens abzählbar vielen disjunkten offenen Intervallen (an , bn ) . Beweis. Für U = ∅ ist nichts zu beweisen. Zu x ∈ U gibt es ein ε > 0 , sodass (x − ε, x + ε) ⊆ U , und es gibt ein q ∈ Q mit |q − x| < 2ε . Daraus folgt x ∈ (q − 2ε , q + 2ε ) ⊂ U . Definiert man zu q das (a, b) . System Iq := {(a , b) ⊆ U : q ∈ (a , b) } , dann gilt also x ∈ Iq := (a,b)∈Iq Iq . Da x ∈ U beliebig ist, impliziert dies U = Für q ∈ U ∩ Q und aq :=
q∈U ∩Q
inf (a ,b)∈Iq
sup b gilt nun Iq ⊆ (aq , bq ) .
a bzw. bq :=
(a ,b)∈Iq
Umgekehrt gibt es zu aq < x ≤ q ein a < x mit (a, b) ∈ Iq , und aus q ∈ (a, b) folgt x ∈ (a, b) ⇒ x ∈ Iq . Ähnlich zeigt man, dass für alle q < x < bq ebenfalls gilt x ∈ Iq . Daraus folgt (aq , bq ) = Iq ⊆ U und (aq , bq ) ∈ Iq . Aus x ∈ (ap , bp ) ∩ (aq , bq ) , p, q ∈ Q folgt nun p, q ∈ (ap ∧ aq , bp ∨ bq ) ⊆ U . Damit aber muss gelten ap = ap ∧ aq = aq und bp = bp ∨ bq = bq , d.h. die Iq , q ∈ Q ∩ U sind entweder disjunkt oder identisch. Hilfssatz A.31. Ist (In ) eine monoton fallende Folge nichtleerer abgeschlossener Zellen aus Rk , so gilt: In = ∅. n
Beweis. Mit In := [an , bn ], ∀ n ∈ N folgt aus In+1 ⊆ In an ≤ an+1 ≤ bn+1 ≤ bn ≤ b1 . (an ) ist also eine monoton steigende, von oben beschränkte Folge und besitzt daher einen Grenzwert a := lim an (d.h. ist an = (an,1 , . . . , an,k ), so n
sind sämtliche Koordinaten an,i , i = 1, . . . , k mit n monoton steigend und beschränkt und konvergieren daher gegen einen Grenzwert ai ). Klarerweise gilt (A.5) an ≤ a ∀ n ∈ N . Andererseits gilt auch an+m ≤ bn+m ≤ bn ∀ n, m ∈ N ⇒ a = lim an+m ≤ bn ∀ n ∈ N . m
Wegen (A.5) und (A.6) gilt a ∈ [an , bn ] ∀n ∈ N ⇒ a ∈
n
In .
(A.6)
A.4 Topologie
327
Satz A.32 (Satz von Heine-Borel). Ist I := [a, b] eine abgeschlossene Zelle aus Rk und (Ij )j∈J eine Überdeckung von I durch offene Zellen, so gibt es eine m I jk . endliche Teilfamilie {j1 , . . . , jm } ⊆ J mit I ⊆ k=1
Beweis. Man führt den Beweis indirekt und nimmt an, dass es keine endliche Überdeckung von Iˆ1 := I gibt. Dann gibt es auch für mindestens eine der 2k Teilzellen die durch Halbierung der Kanten von Iˆ1 entstehen keine endliche Überdeckung, da man ansonsten einen Widerspruch zur Annahme hätte. Für Iˆ2 wählt man eine dieser Teilzellen ohne endliche Überdeckung und unterteilt Iˆ2 wieder in 2k Teilzellen durch Halbierung der Kanten. Auch von diesen Teilzellen kann mindestens eine nicht durch eine endliche Teilfamilie überdeckt werden. Eine derartige Teilzelle nimmt man dann für Iˆ3 . Auf diese Weise erhält man eine monoton fallende Folge (Iˆn ) von abgeschlossenen Zellen, von denen keine durch eine endliche Teilfamilie überdeckt werden kann . Wegen des obigen Hilfssatzes A.31 gibt es ein x ∈ Iˆn ⊆ I und, da (Ij )j∈J n
eine Überdeckung von I ist, existiert ein i ∈ J mit x ∈ Ii . Ii ist aber offen und daher gibt es ein > 0, sodass (x − , x + ) ⊆ Ii . Ist nun n so groß, dass die Kantenlänge von Iˆn kleiner als ist, so muss wegen x ∈ Iˆn gelten Iˆn ⊆ (x − , x + ) ⊆ Ii . Dies ist ein Widerspruch zur Aussage, dass keines der Folgenglieder Iˆn durch eine endliche Teilfamilie überdeckt werden kann. Definition A.33. f : Rk → R heißt gleichmäßig stetig, wenn es zu jedem ε > 0 ein δ > 0 gibt sodass !x − y! < δ ⇒ |f (x) − f (y)| < ε . Satz A.34. Jedes stetige f : [a, b] → R ist gleichmäßig stetig und beschränkt. Beweis. Weil f stetig ist, gibt es zu jedem ε > 0 und jedem x ∈ [a, b] ein ⇒ |f (x) − f (y)| < ε . Nun bilden die δx > 0 , sodass !x − y! < δx Zellen Ix := ( x − 3δ√xk , x + 3δ√xk ) , x ∈ [a, b] eine offene Überdeckung von [a, b] . und nach dem Satz von Heine-Borel existieren endlich viele Punkte n Ixi . Somit gibt es für alle x, y ∈ [a, b] Punkte x1 , . . . , xn , sodass [a, b] ⊆ i=1 δ xi 1≤i≤n 3
xi , xj mit x ∈ Ixi und y ∈ Ixj . Gilt !x − y! < δ := min
und o.E.d.A.
δxi ≤ δxj , so folgt daraus !xi − xj ! ≤ !xi − x! + !x − y! + !y − xj ! < δxj , und dies impliziert |f (xi ) − f (xj )| < ε . Damit gilt jedoch |f (x) − f (y)| ≤ |f (x) − f (xi )| + |f (xi ) − f (xj )| + |f (xj ) − f (y)| < 3 ε . Dies beweist die gleichmäßige Stetigkeit von f . Beschränkt ist f , weil offensichtlich gilt min f (xi ) − ε < f (x) < max f (xi ) + ε ∀ x ∈ [a, b] . 1≤i≤n
1≤i≤n
Definition A.35. Ein Punkt x ∈ Rk heißt Häufungspunkt der Menge A ⊆ Rk , wenn K(x, ε) ∩ A \ {x} = ∅ ∀ ε > 0 .
328
A Anhang
Bemerkung A.36. Offensichtlich ist x genau dann ein Häufungspunkt von A , wenn es eine eine Folge (xn ) aus A \ {x} gibt, die gegen x konvergiert. Satz A.37 (Satz von Bolzano-Weierstraß). Jede beschränkte unendliche Menge A ⊆ Rk besitzt einen Häufungspunkt. Beweis. Da A beschränkt ist, gibt es eine Zelle I1 := [a, b] mit A ⊆ I1 . Man unterteilt nun I1 , wie im Beweis des Satzes von Heine-Borel, durch Halbierung der Kanten in 2k abgeschlossene Teilzellen, und nimmt als I2 eine dieser Teilzellen, die unendlich viele Punkte von A enthält. Setzt man dieses Verfahren ad infinitum fort, so erhält man eine monoton fallende Folge In von abgeschlossenen Zellen, deren Durchschnitt nach Hilfssatz A.31 einen Punkt Da die Kantenlängen gegen 0 gehen, ist x0 das einzige Element x0 enthält. von In und offensichtlich Häufungspunkt von A . n
Folgerung A.38. Jede beschränkte Folge (xn ) enthält eine konvergente Teilfolge. Beweis. Ist die Menge A := {xn : n ∈ N} endlich, so gibt es einen Index m , sodass xm = xn ∀ n ≥ m , und (xn )n≥m ist die gesuchte Teilfolge. Ist A unendlich, so gibt es nach dem Satz von Bolzano-Weierstraß einen Häufungspunkt y von A und damit auch eine Teilfolge (xnk ) , die gegen y konvergiert (siehe Bemerkung A.36).
A.5 Analysis Satz A.39. Jede stetige Funktion f : [a, b] → R nimmt ihre Extremwerte an. Beweis. Da f nach Satz A.34 beschränkt ist, sind m :=
inf f (x) und
a≤x≤b
M := sup f (x) beide reellwertig. Es genügt, zu zeigen, dass ein x ∈ [a, b] a≤x≤b
existiert, sodass M = f (x) , denn das Ergebnis für das Minimum ergibt sich dann durch Übergang von f zu −f . Die Folge (xn ) mit f (xn ) ≥ M − n1 ∀ n ∈ N enthält gemäß Folgerung A.38 eine konvergente Teilfolge (xnk ) , für die gilt y := lim xnk ∈ [a, b] , da das k
Intervall abgeschlossen ist. Klarerweise gilt M = f (y) . Satz A.40 (Mittelwertsatz). Ist f auf [a, b] , a < b stetig und auf (a, b) diffe(a) = f (x) . renzierbar, so gibt es einen Punkt x ∈ (a, b) , sodass f (b)−f b−a (a) Beweis. Für g(x) := f (x) − f (a) − f (b)−f (x − a) ≡ 0 ist die Aussage trivial. b−a Ansonsten muss es ein y ∈ (a, b) geben mit g(y) > 0 oder g(y) < 0 . Man kann o.E.d.A. g(y) > 0 annehmen, da man ansonsten einfach g durch −g ersetzt. Wie im vorigen Satz gezeigt, gibt es dann ein a ≤ x ≤ b mit g(x) = max g(y) . a≤y≤b
Wegen g(a) = g(b) = 0 muss sogar a < x < b gelten. Nun gilt g(y) ≤ g(x)
A.6 Konvexe Mengen und Funktionen
329
f (b)−f (a) (y − x) für alle y = x , was b−a f (y)−f (x) f (b)−f (a) ≤ ist, während sich die wiederum für y > x äquivalent zu y−x b−a f (y)−f (x) f (b)−f (a) Ungleichung für y < x umkehrt und zu ≥ b−a wird. Daraus y−x f (b)−f (a) (a) und andererseits f (x) ≥ f (b)−f . Da folgt aber einerseits f (x) ≤ b−a b−a (a) . f in x differenzierbar ist, gilt somit f (x) = f (b)−f b−a
bzw. äquivalent dazu f (y) − f (x) ≤
Satz A.41 (Satz von Taylor). Hat f auf [a, b] , a < b ∈ R eine stetige n − 1-te Ableitung f (n−1) und existiert f (n) auf (a, b) , so gibt es ein x ∈ (a, b) , sodass f (b) =
n−1 ! i=0
f (n) (x) f (i) (a) (b − a)i + (b − a)n . i! n!
Beweis. Für n = 1 entspricht die obige Aussage gerade dem Mittelwertsatz. n−1 f (i) (a) n! (x − a)i , Δ := (f (b) − P (b)) (b−a) Definiert man P (x) := n und i! i=0
n
für n > 1 , so ist g stetig auf [a, b] , und es gilt g(x) := f (x) − P (x) − Δ (b−a) n! g(a) = g(b) = 0 , sowie g (i) (a) = 0 ∀ i = 1, . . . , n − 1 . Daher folgt aus dem Mittelwertsatz zunächst die Existenz eines Punktes x1 ∈ (a, b) mit g (x1 ) = 0 . Wegen g (a) = g (x1 ) = 0 muss aber dem Mittelwertsatz, angewandt auf g im Intervall [a, x1 ] , zufolge ein x2 ∈ (a, x1 ) existieren mit g (x2 ) = 0 . Wiederholt man diese Argumentation, so zeigt sich nach n − 1 Schritten, dass ein xn−1 ∈ (a, b) existieren muss mit g (n−1) (xn−1 ) = 0 . Aus dem Mittelwertsatz, angewandt auf g (n−1) im Intervall [a, xn−1 ] , ergibt sich daher die Existenz eines Punktes xn ∈ (a, xn−1 ) ⊆ (a, b) , für den gilt g (n) (xn ) = f (n) (xn ) − Δ = 0 . n−1 (n) f (i) (a) (b−a)i + f n!(xn ) (b−a)n mit a < xn < b . Daraus folgt sofort f (b) = i! i=0
A.6 Konvexe Mengen und Funktionen Definition A.42. Eine Menge A ⊆ Rk heißt konvex, wenn für alle x , y ∈ A und α ∈ [0, 1] gilt α x + (1 − α) y ∈ A . Definition A.43. Ist A ⊆ Rk eine konvexe Menge, so nennt man die Funktion ϕ : A → R konvex, wenn gilt ϕ(α x + (1 − α) y) ≤ α ϕ(x) + (1 − α) ϕ(y)
∀ x , y ∈ A , α ∈ [0, 1] . (A.7)
Gilt hingegen ϕ(α x + (1 − α) y) ≥ α ϕ(x) + (1 − α) ϕ(y)
∀ x, y ∈ A , α ∈ [0, 1] , (A.8)
so nennt man ϕ konkav. Für unsere Zwecke reicht es aus konvexe Funktionen auf R zu betrachten. In diesem Fall ist der Definitionsbereich ein Intervall I .
330
A Anhang
Abb. A.1. Graph einer konvexen Funktion
Satz A.44. Eine Funktion ϕ : (a, b) → R ist genau dann konvex, wenn für alle x = (x1 , x2 ), y = (y1 , y2 ) mit x1 < x2 , y1 < y2 und x ≤ y gilt ϕ(y2 ) − ϕ(y1 ) ϕ(x2 ) − ϕ(x1 ) ≤ . x2 − x 1 y2 − y1
(A.9)
Beweis. ⇒: Aus x1 < x2 ≤ y2 folgt mit α := x2 =
y2 −x2 y2 −x1
∈ [0, 1]
y2 − x2 x2 − x1 x1 + y2 = α x1 + (1 − α) y2 . y2 − x1 y2 − x1
Daher gilt ϕ(x2 ) ≤ α ϕ(x1 ) + (1 − α) ϕ(y2 ) . Analog zeigt man, dass aus x1 ≤ y1 < y2 mit β :=
y2 −y1 y2 −x1
(A.10) gilt
ϕ(y1 ) ≤ β ϕ(x1 ) + (1 − β) ϕ(y2 ) .
(A.11)
(A.10) ergibt umgeformt ϕ(x2 ) − ϕ(x1 ) ≤ (1 − α) (ϕ(y2 ) − ϕ(x1 )) , also ϕ(y2 ) − ϕ(x1 ) ϕ(x2 ) − ϕ(x1 ) ≤ . x2 − x1 y2 − x1
(A.12)
(A.11) impliziert ϕ(y2 ) − ϕ(y1 ) ≥ β (ϕ(y2 ) − ϕ(x1 )) , und daraus folgt ϕ(y2 ) − ϕ(y1 ) ϕ(y2 ) − ϕ(x1 ) ≥ . y2 − y1 y2 − x1 (A.12) führt nun in Verbindung mit (A.13) zu Ungleichung (A.9).
(A.13)
A.6 Konvexe Mengen und Funktionen
331
⇐: Ist x1 < y2 und 0 < α < 1 , so gilt x1 < x2 := α x1 + (1 − α) y2 < y2 , und 1) 2) ≤ ϕ(yy22)−ϕ(x , daher folgt aus (A.9) mit y1 := x2 , dass gilt ϕ(xx22)−ϕ(x −x1 −x2 bzw. ϕ(x2 ) (y2 − x2 ) − ϕ(x1 ) (y2 − x2 ) ≤ ϕ(y2 ) (x2 − x1 ) − ϕ(x2 ) (x2 − x1 ) . Umgeformt ergibt das ϕ(x2 ) (y2 − x1 ) ≤ (y2 − x2 ) ϕ(x1 ) + (x2 − x1 )ϕ(y2 ) , x2 −x1 2 bzw. ϕ(x2 ) ≤ yy22 −x −x1 ϕ(x1 ) + y2 −x1 ϕ(y2 ) = α ϕ(x1 ) + (1 − α) ϕ(y2 ) . Damit ist auch die umgekehrte Richtung gezeigt. Lemma A.45. Ist ϕ : (a, b) → R konvex, so ist ϕ auf jedem abgeschlossenen Intervall [c, d] ⊂ (a, b) absolut stetig. Beweis. Sind (ci , di ) , i = 1, ..., n disjunkte Intervalle aus [c, d] , für die gilt n (di − ci ) < δ , so folgt aus (A.9) mit 0 < Δ < min{(c − a) , (b − d)} i=1
Cu :=
ϕ(di ) − ϕ(ci ) ϕ(c) − ϕ(a + Δ) ϕ(b − Δ) − ϕ(d) ≤ . ≤ Co := c−a−Δ di − ci b−Δ−d
Daher gilt |ϕ(di ) − ϕ(ci )| ≤ max{|Co |, |Cu |} (di − ci ) n |ϕ(di ) − ϕ(ci )| ≤ max{|C0 |, |Cn |} δ . daraus folgt
∀ i = 1, . . . , n , und
i=1
Lemma A.46. Ist ϕ : (a, b) → R konvex, so sind die linksseitigen Differenzenquotienten in jedem Punkt x ∈ (a, b) monoton fallend, die rechtsseitigen Differenzenquotienten sind monoton steigend, und es gilt stets ϕ(y) − ϕ(x) ϕ(z) − ϕ(x) ≤ y−x z−x
∀ y < x < z,
d.h. ein linksseitiger Differenzenquotient in x kann nie größer als ein rechtsseitiger Differenzenquotient in diesem Punkt sein. Beweis. Alle Aussagen des Lemmas folgen unmittelbar aus Ungleichung (A.9). Folgerung A.47. Ist ϕ : (a, b) → R konvex, so existieren in jedem x ∈ (a, b) die und die rechtsseitige Ableitung linksseitige Ableitung ∂ l ϕ(x) := lim ϕ(y)−ϕ(x) y−x yx
ϕ(y)−ϕ(x) y−x y x
∂ r ϕ(x) := lim
, wobei gilt ∂ l ϕ(x) ≤ ∂ r ϕ(x) .
Die Ableitung ϕ existiert bis auf höchstens abzählbar viele Punkte und sie wächst monoton. Aus a < x < y < b folgt außerdem ∂ r ϕ(x) ≤ ∂ l ϕ(y) . Beweis. Dass ∂ l ϕ , ∂ r ϕ existieren und dass ∂ l ϕ ≤ ∂ r ϕ gilt, folgt unmittelbar aus dem obigen Lemma. Ist x < y, so gilt ∂ r ϕ(x) ≤ ϕ(y)−ϕ(x) ≤ ∂ l ϕ(y) ≤ ∂ r ϕ(y) . Daher ist die Funky−x r tion g(x) := ∂ ϕ(x) monoton und hat somit nur höchstens abzählbar viele Unstetigkeiten mit g(x) − g− (x) > 0 . Wegen ∂ r ϕ(x) − ∂ l ϕ(x) ≤ g(x) − g− (x) gibt es deshalb auch nur höchstens abzählbar viele x mit ∂ r ϕ(x)−∂ l ϕ(x) > 0 .
332
A Anhang
Abb. A.2. unterschiedliche links- und rechtsseitige Ableitungen in x0
Folgerung A.48. Ist ϕ : (a, b) → R konvex, so gilt für jedes x ∈ (a, b) 3 ϕ(y) ≥ ϕ(x) + k (y − x) ∀ y ∈ (a , b ) , k ∈ ∂ l ϕ(x) , ∂ r ϕ(x) ,
(A.14)
d.h. die Funktion ϕ liegt stets oberhalb ihrer Tangenten. Beweis. Aus den obigen Ausführungen folgt sofort, dass für y < x < z gilt ϕ(x)−ϕ(y) ≤ ∂ l ϕ(x) ≤ ∂ r ϕ(x) ≤ ϕ(z)−ϕ(x) . Die rechte Ungleichung impliziert x−y z−x ϕ(z) ≥ ϕ(x) + ∂ r ϕ(x) (z − x) ≥ ϕ(x) + k (z − x) ∀ z > x , k ≤ ∂ r ϕ(x) . ϕ(y) ≥ ϕ(x) + ∂ l ϕ(x) (y − x) ≥ ϕ(x) + k (y − x) ∀ y < x , k ≥ ∂ l ϕ(x) . folgt aus der linken Ungleichung, und damit gilt für jedes k ∈ [∂ l ϕ(x) , ∂ r ϕ(x) ] ϕ(y) ≥ ϕ(x) + k (y − x) ∀ y ∈ (a , b ) . Satz A.49 (Tangentensatz). Ist ϕ : (a, b) → R konvex, so gibt es Folgen (cn ) und (dn ) aus R , sodass ϕ(y) = sup{cn y + dn } n
∀ y ∈ (a, b) .
Beweis. Definiert man für die rationalen Zahlen qn aus (a, b) und dn := ϕ(qn ) − ∂ r ϕ(qn ) qn , so gilt nach Folgerung A.48 ϕ(y) ≥ ϕ(qn ) + ∂ r ϕ(qn ) (y − qn ) = cn y + dn Somit gilt ϕ(y) ≥ sup{cn y + dn } n
(A.15) cn := ∂ r ϕ(qn )
∀ y ∈ (a, b) , ∀ n ∈ N .
∀ y ∈ (a, b) . Aber für jede Teilfolge (qnk )
mit a < qnk y gilt wegen Lemma A.45 und Folgerung A.47
A.7 Eindeutigkeit der Exponentialfunktion
333
|ϕ(y) − cnk y − dnk | = |ϕ(y) − ϕ(qnk ) − ∂ r ϕ(qnk ) (y − qnk )| ≤ |ϕ(y) − ϕ(qnk )| + max {|∂ r ϕ(qn1 )| , |∂ r ϕ(y)|} |y − qnk | → 0 . Damit ist der Satz bewiesen. Lemma A.50. Ist ϕ auf (a, b) differenzierbar und ist ϕ monoton wachsend, so ist ϕ konvex. Speziell ist ϕ konvex, wenn es 2- mal differenzierbar mit ϕ ≥ 0 ist. Beweis. Ist x < y < z, so folgt aus dem Mittelwertsatz ( Satz A.40 ), dass ein u ∈ [x , y] und ein v ∈ [y , z] existieren mit ϕ(z) − ϕ(y) ϕ(y) − ϕ(x) = ϕ (u) ≤ ϕ (v) = . y−x z−y Umgeformt ergibt das ϕ(y) [(z −y)+(y −x)] ≤ (z −y) ϕ(x)+(y −x) ϕ(z) , worz−y z−y aus folgt ϕ(y) ≤ z−x ϕ(x) + y−x ϕ(z) . F ür α := z−x gilt y = α x + (1 − α) z , z−x sodass dies äquivalent ist zu ϕ(α x + (1 − α) z) ≤ α ϕ(x) + (1 − α) ϕ(z) . Bemerkung A.51. Ist ϕ konkav, so ist −ϕ konvex, daher erübrigt sich eine gesonderte Betrachtung konkaver Funktionen.
A.7 Eindeutigkeit der Exponentialfunktion ∀τ,
Es ist bekannt, dass eτ (x+y) = eτ x eτ y umgekehrt
x, y ∈ R . Aber es gilt auch
Satz A.52. Gilt für eine stetige Funktion f : R+ → R, f = 0 die Funktionalgleichung (A.16) f (x + y) = f (x) f (y) ∀ x, y ∈ R+ , ∀ x ∈ R+ .
so existiert ein τ ∈ R , sodass f (x) = eτ x
Beweis. Aus f (x + y) = f (x) f (y) ∀ x, y ∈ R+ folgt für festes aber beliebiges m∈N 2 2 1 1 1 1 1 f =f + =f f =f . m m m m m m $ 1 %n $n% =f m folgt weiters Unter der Annahme, dass gilt f m f
n+1 m
Damit gilt f
=f "n# m
"n# m
=f
f
1 m
1 m
=f
1 m
n+1 .
n ∀n∈N.
(A.17)
334
A Anhang
$ 1 %m $ % $1% 1 = f (1) m . Dies eingesetzt f (1) = f m ergibt umgeformt f m m = f m in (A.17) führt zu "n# n f = f (1) m ∀ n, m ∈ N . m Also gilt mit τ := ln f (1) f (q) = f (1)q = eτ q
∀ q ∈ Q+ .
(A.18)
Ist x ∈ R+ , so gibt es wegen der Stetigkeit von f und ex zu jedem ε > 0 ein q ∈ Q+ , q > x : |eτ x −eτ q | < 2ε ∧ |f (x)−f (q)| < 2ε ⇒ |eτ x −f (x)| < ε . Somit gilt f (x) = eτ x ∀ x ∈ R+ . Satz A.53. Gilt für f : N0 → R, f = 0 f (m + n) = f (m) f (n) so folgt daraus f (n) = f (1)n = en ln f (1) n ∈ N0 .
∀ m, n ∈ N0 ,
Beweis. f (0) = f (0 + 0) = f (0) f (0) ⇒ f (0) = 1 . f (2) = f (1 + 1) = f (1) f (1) = f (1)2 . Gilt f (n) = f (1)n , so gilt auch f (n + 1) = f (n) f (1) = f (1)n+1 . Damit ist der Satz bewiesen.
A.8 Trigonometrie Wir begnügen uns hier mit der üblichen elementargeometrischen Definition der Winkelfunktionen, wobei Winkel im Bogenmaß angegeben werden. Definition A.54. Die x-Koordinate des Punktes x des Kreisbogens der Länge α , der auf dem Einheitskreis im Punkt 1 := (1, 0) beginnt und gegen den Uhrzeigersinn führt, wird mit cos α bezeichnet. Die y-Koordinate von x nennt man sin α . Wenn man den Kreisumfang mit 2 π bezeichnet, so ergeben sich unmittelbar aus der Definition die folgenden Beziehungen: sin(−α) = − sin(α), cos(−α) = cos(α), cos(α ± π) = − cos α . Vertauschung der x- und y-Achse liefert # " "π π# − α = cos α − . sin α = cos 2 2
(A.19)
(A.20)
Da der Punkt x = (cos α, sin α) definitionsgemäß auf dem Einheitskreis liegt, gilt natürlich auch sin2 α + cos2 α = 1 . (A.21) Satz A.55 (Additionssatz für Sinus und Kosinus). cos(α ± β) = cos α cos β ∓ sin α sin β ,
(A.22)
sin(α ± β) = sin α cos β ± cos α sin β .
(A.23)
A.8 Trigonometrie
335
Beweis. Sind w := (w1 , w2 ) und v := (v1 , v2 ) die zu den Winkeln α und β gehörigen Punkte auf dem Einheitskreis, so ist α − β der Winkel zwischen w und v und man erhält cos(α − β) indem man die x-Achse in die Gerade durch den Ursprung 0 = (0, 0) und v verdreht und die x-Koordinate von w im neuen Koordinatensystem berechnet. Das ist aber nichts anderes als die Strecke 0 s zwischen dem Ursprung und dem Schnittpunkt der Geraden g(x) := vv21 x und der darauf Normalen durch den Punkt w , die durch die Gleichung h(x) := − vv12 x + vv12 w1 + w2 bestimmt wird. Der Schnittpunkt hat die Koordinaten s1 = (v1 w1 + v2 w2 ) v1 und s2 = (v1 w1 + v2 w2 ) v2 , und daher ist v1 w1 + v2 w2 die gesuchte Strecke 0 s . Somit gilt cos(α − β) = v1 w1 + v2 w2 .
(A.24)
Wegen v1 = cos β, v2 = sin β, w1 = cos α, w2 = sin α ergibt das cos(α − β) = cos α cos β + sin α sin β . Ersetzt man β durch −β , so liefert das die Formel für cos(α + β) . Mit Hilfe der Gleichungen (A.19) und (A.20) kann man die Beziehung (A.23) auf (A.22) zurückführen. Satz A.56. lim
α→0
sin α =1. α
Abb. A.3. Beweisskizze zu lim
α→0
(A.25)
sin α α
=1
Beweis. Der Abstand zwischen den Punkten (cos α, sin α) und (1, 0) beträgt E (1 − cos α)2 + sin2 α und ist kleiner als die Länge α des Kreisbogens zwischen diesen Punkten. Daraus folgt sin2 α ≤ α2 bzw. |sin α| ≤ |α| . Zusamsin α men mit α ≤ tan α führt dies zu sin α < α < tan α = cos α . Daraus folgt sin α sin α cos α < α < 1 ⇒ 1 = lim cos α ≤ lim inf α ≤ lim sup sinα α ≤ 1 . α→0
α→0
α→0
336
A Anhang
Folgerung A.57. cos α = 1 − 2 sin2 Beweis. Aus Satz A.55 folgt cos α = cos2 cos α + 2 sin2 Wegen sin2
α 2
≤
α2 4
α α2 ≥1− . 2 2 α 2
− sin2
α 2
(A.26)
. Daraus erhält man
α α α α = cos2 + sin2 = 1 ⇒ cos α = 1 − 2 sin2 . 2 2 2 2 (siehe im Beweis oben) gilt damit auch cos α ≥ 1 −
α2 2
.
Lemma A.58. sin α = cos α , cos α = − sin α . Beweis. Aus Satz A.55 folgt h sin(α + h) = sin (α + ) + 2 h sin α = sin (α + ) − 2
h h h h h = sin α + cos + cos α + sin 2 2 2 2 2 h h h h h = sin α + cos − cos α + sin . 2 2 2 2 2 % $ Daraus erhält man sin(α + h) − sin α = 2 cos α + h2 sin h2 . Unter Berücksichtigung von Satz A.56 folgt daraus schließlich sin h h sin(α + h) − sin α = lim cos α + lim h 2 = cos α . lim h→0 h→0 h 2 h→0 2 % % $ $ Aus cos α = sin α + π2 folgt cos α = cos α + π2 = − sin α .
Satz A.59. sin α =
∞ i=0
(−1)i
α2 i+1 (2 i+1)!
, cos α =
∞
(−1)i
i=0
α2 i (2 i)!
.
Beweis. Der Beweis folgt sofort aus dem Satz+ von Taylor mit a = + (Satz +A.41) n+ + (n) + 0 , b = α , weil in beiden Fällen gilt 0 ≤ lim + f n!(x) αn + ≤ lim + αn! + = 0 . Wie n
n
leicht zu sehen, konvergieren die beiden obigen Reihen absolut.
A.9 Komplexe Analysis Definition A.60. Die Punkte der Zahlenebene R2 zusammen mit der durch (x1 , x2 ) + (y1 , y2 ) := (x1 + y1 , x2 + y2 ) definierten Addition und der durch (x1 , x2 ) (y1 , y2 ) := (x1 y1 − x2 y2 , x1 y2 + x2 y1 ) definierten Multiplikation werden als Körper der komplexen Zahlen bezeichnet. Für die Menge der komplexen Zahlen verwenden wir die Notation C anstatt R2 . Ist x := (x1 , x2 ) , so nennt man x1 den Realteil von x und bezeichnet ihn mit + x , x2 wird Imaginärteil genannt und durch , x dargestellt.
A.9 Komplexe Analysis
337
Bemerkung A.61. 1. Man kann leicht nachprüfen, dass die Körperaxiome tatsächlich erfüllt sind, wobei 0 := (0, 0) das Nullelement und 1 := (1, 0) das Einselement darstellt, und das zu x := (x1 , x2 )= 0 bezüglich derMultiplikation inverse Element √
gegeben ist durch x−1 =
x1 , x21 +x22
2 √−x 2
x1 +x22
.
2. Fasst man C als Vektorraum über R auf und definiert man i als i := (0, 1) , so gilt x := (x1 , x2 ) = x1 1 + i x2 , bzw., wenn man die Multiplikation mit dem Einselement nicht anschreibt, x = x1 + i x2 . Das ist die für komplexe Zahlen übliche Notation, die auch hier von nun an√verwendet wird. 3. Mit der obigen Bezeichnung gilt i2 = −1 bzw. i = −1 . Definition A.62. Ist x ∈ C , so heißt x := +x − i ,x die zu x Konjugierte. Bemerkung A.63. 1. Offensichtlich gilt x + y = x + y , x y = x y , x + x = 2 +x , x − x = 2 i ,x . eines inneren Produkts 2. Die Abbildung )x, y* := x y hat alle Eigenschaften √ (siehe Definition A.74), deshalb wird durch |x| := x x eine Norm auf C definiert. Man nennt |x| den Absolutbetrag von x . Klarerweise gilt |x| ∈ R . 3. Es gilt max{|+x| , |,x|} ≤ |x| ≤ |+x| + |,x| . 4. Aus Punkt 3 folgt lim xn = x ⇔ ( lim +xn = +x ∧ lim ,xn = ,x ) . n
n
n
x 5. Mit den obigen Bezeichnungen gilt x−1 = |x| . x x 6. Mit θ := arg x := arctan x = arccos |x| = arcsin x |x| kann man x = 0 in trigonometrischer Form x = |x| (cos θ + i sin θ) darstellen. θ wird als Argument von x bezeichnet. Auf Grund von Satz A.55 ergibt sich damit für die Multiplikation zweier komplexer Zahlen x = |x| (cos α + i sin α) und y = |y| (cos β + i sin β) die folgende Beziehung
x y = ( |x| (cos α + i sin α) ) ( |y| (cos β + i sin β) ) = |x| |y| (cos(α + β) + i sin(α + β)) . Lemma A.64. Die Reihe durch ex :=
∞ n=0
∞ n=0
xn n!
xn n!
(A.27)
konvergiert auf C absolut, sodass jedem x ∈ C
ein endlicher Wert zugewiesen wird. Die entsprechende Funk-
tion wird (komplexe) Exponentialfunktion genannt. Beweis. Aus
|x|n+1 (n+1)! |x|n n!
=
|x| n+1
<
1 2
∀ n > 2 |x| folgt nach dem Quotientenkri-
terium die absolute Konvergenz der Reihe. Nach Satz A.7 konvergiert daher ∞ xn auch die Reihe n! . n=0
338
A Anhang
Satz A.65. 1. ex+y = ex ey ∀ x, y ∈ C . x 2. lim e x−1 = 1 . x→0
3. (ex ) = ex . 4. +ei x = + cos x + i sin x ∀ x ∈ R (Euler’sche Formel). 5. +ei x + = 1 ∀ x ∈ R . 6. (ei x ) = e−i x . 7. ex = ex ei (x) = ex ( cos (,x) + i sin (,x) ) . 8. |ex | = ex . |ei x −1| 9. |x| ≤ 1 ∀ x ∈ R . (ei x ) 10. lim x = lim sinx x = 1 . x→0 +x→0 + + (ei x ) + + sin x + 11. ++ x ++ = + x + ≤ 1 . Beweis. ad 1. : Dies folgt aus Satz A.17 wegen n ∞ ∞ ! ! ! (x + y)n xk yn−k = n! k! (n − k)! n=0 n=0 k=0 ∞
∞ ! xn ! ym = ex ey . = n! m! n=0 m=0
ex+y =
∞ xn−2 = 1+x n! . Daraus folgt die Behauptung unmittel+ + n=2 ∞ ∞ ∞ + + |x|n−2 xn−2 + 1 + bar, da für |x| ≤ 1 gilt +x n! + ≤ |x| (n−2)! ≤ |x| m! = |x| e .
ad 2. : Es gilt
ex −1 x
n=2
n=2
m=0
ad 3. : Aus den Punkten 1. und 2. folgt
ex+h − ex eh − 1 = ex lim = ex . h→0 h→0 h h
(ex ) = lim
ad 4. : Dies folgt aus Lemma A.10 in Zusammenhang mit Satz A.59, denn die Summe der Reihen für cos x und i sin x ergibt die Reihe für ei x . + +2 ad 5. : Wegen Punkt 4. gilt +ei x + = cos2 x + sin2 x = 1 . ad 6. : Dies folgt aus Punkt 4. und cos(−x) = cos x , sin(−x) = − sin x . ad 7. : Wegen x = +x + i ,x folgt dies sofort aus den Punkten 1. und 4. ad 8. : Dies folgt + sofort+ aus+ den+ Punkten 5. und 7. ad 9. : Wegen +ei x − 1+ ≤ +ei x + + 1 = 2 ist die Aussage trivial für |x| ≥ 2 . Für 0 ≤ |x| ≤ 2 gilt + + ix $ %$ % +e − 1+2 = ei x − 1 e−i x − 1 = 1 − ei x − e−i x + 1 ∞ k k ∞ ∞ ! ! ! i x (−1)k ik xk x2 n = 2− − =2 . (−1)n−1 k! k! (2 n)! n=1 k=0
k=0
A.10 Funktionalanalysis 2
Daraus folgt Glieder
|ei x −1| 2
|x|
= 1−2
∞
(−1)n
n=2
2 n−2
x2 n−2 (2 n)!
339
. Da für 0 ≤ |x| ≤ 2 die
x (2 n)!
der Reihe auf der rechten Seite der Gleichung monoton ∞ 2 n−2 2 (−1)n x(2 n)! ≤ x4! ≤ 16 , gegen 0 fallen, impliziert Lemma A.5 0 ≤ n=2
|ei x −1|
sodass auch in diesem Fall |x| ≤ 1 gelten muss. " ix ix −i x (ei x ) e −1 1 ad 10. : lim x = lim e 2−e = lim ix 2 ix + x→0
x→0
folgt nach Punkt 2.
ad
lim sin x = 1 . x→0 x+ + + (ei x ) + + 11. : + x ++
(ei x ) lim x x→0
+ i x −i x + + + = + e 2−e +≤ ix
x→0
e−i x −1 −i x
# . Daraus
= 1 . Dies ist ein anderer Beweis für
"+ i x + + −i x +# + e −1 + + e −1 + + i x + + + −i x + ≤ 1 nach Punkt 9. + sin x + Dies ist ein anderer Beweis für + x + ≤ 1 . 1 2
A.10 Funktionalanalysis Definition A.66. Eine nichtleere Menge V heißt Vektorraum oder linearer Raum über K := R oder K := C , wenn es eine Abbildung + : V2 → V gibt mit folgenden Eigenschaften 1. x , y ∈ V ⇒ x + y = y + x , 2. x , y , z ∈ V ⇒ (x + y) + z = x + (y + z) , 3. ∃ 0 ∈ V : x + 0 = x ∀ x ∈ V , 4. x ∈ V ⇒ ∃ −x ∈ V : x − x := x + (−x) = 0 , und, wenn es eine „Multiplikation “ · gibt, die K × V abbildet in V und die die folgenden Eigenschaften hat 1. α , β ∈ K , x ∈ V ⇒ α · (β · x) = (α β) · x , 2. 1 · x = x ∀ x ∈ V , 3. α , β ∈ K , x ∈ V ⇒ (α + β) · x = α · x + β · x , 4. α ∈ K , x , y ∈ V ⇒ α · (x + y) = α · x + α · y . Ist K := R , so spricht man von einem reellen Vektorraum, und einen Vektorraum über K := C nennt man einen komplexen Vektorraum. Statt α · x schreibt man üblicherweise α x . Definition A.67. Ist V ein Vektorraum über K , so nennt man eine Abbildung T : V → K ein lineares Funktional, wenn T (α x + β y) = α T (x) + β T (y)
∀ α,β ∈ K, x,y ∈ V .
(A.28)
Definition A.68. Eine Seminorm !.! ist eine Abbildung von einem Vektorraum V über K in R , für die gilt
340
A Anhang
1. !α x! = |α| !x! ∀ α ∈ K , x ∈ V , 2. !x + y! ≤ !x! + !y! ∀ x , y ∈ V . Punkt 1. impliziert !0! = 0 . Gilt zusätzlich !x! = 0 man von einer Norm.
⇒
x = 0 , so spricht
Definition A.69. Ein Vektorraum V zusammen mit einer Norm ist ein normierter, linearer Raum. Ist der Raum V vollständig, wenn also zu jeder Cauchyfolge aus V ein Grenzwert in V existiert, so nennt man V einen Banachraum. Definition A.70. Ist V ein normierter, linearer Raum, so nennt man ein lineares Funktional T auf V beschränkt, wenn !T ! := sup{!T (x)! : !x! ≤ 1 } < ∞ . !T ! wird als Norm von T bezeichnet. Bemerkung A.71. Ist W ⊆ V ebenfalls ein normierter, linearer Raum, also ein Teilraum von V , so ist T |W ein lineares Funktional auf W , für das klarerweise gilt !T |W ! ≤ !T ! , d.h. die Norm der Einschränkung eines beschränkten, linearen Funktionals auf einen Teilraum ist nie größer als die Norm des Funktionals selbst. Bemerkung A.72. Es ist leicht zu sehen, dass die beschränkten, linearen Funktionale auf einem Banachraum V auch einen normierten, linearen Raum bilden. Definition A.73. Unter dem zu einem Banachraum V dualen Raum versteht man den Raum der beschränkten, linearen Funktionale auf V . Definition A.74. Ist V ein Vektorraum über K := R oder K := C , so nennt man eine Abbildung ). , . * von V2 in K ein inneres Produkt, wenn 1. )α x + β y , z* = α )x , z* + β )y , z* ∀ α , β ∈ K , x , y , z ∈ V , 2. )x , y* = )y , x* ∀ x , y ∈ V (in der obigen Gleichung bezeichnet α , α ∈ C die zu α konjugiert komplexe Zahl; dementsprechend gilt )x , y* = )y , x* , wenn K := R), 3. )x , x* ≥ 0 ∀ x ∈ V , 4. )x , x* = 0 ⇔ x = 0 . Räume mit innerem Produkt werden auch als Prähilberträume bezeichnet. Beispiel A.75. Wie man leicht sieht, wird durch )v, w* :=
k !
vi wi ,
v := (v1 , . . . , vk ) , w := (w1 , . . . , wk ) ∈ Rk
(A.29)
i=1
ein inneres Produkt auf Rk definiert. Bemerkung A.76. Sind v und w zwei Vektoren aus R2 , so stimmt nach Gleichung (A.24) der Kosinus cos(v, w) des Winkels zwischen v und w überein mit dem inneren Produkt der entsprechenden Einheitsvektoren, also cos(x, y) =
)v, w* . !v! !w!
(A.30)
A.11 Drehung
341
Satz A.77 (Cauchy-Schwarz’sche Ungleichung). Ist V ein Prähilbertraum, < so gilt mit !x! := )x , x* , x ∈ V |)x , y*| ≤ !x! !y!
∀ x,y ∈ V.
(A.31)
Beweis. Wegen )x , 0* = )x , 0 + 0* = )x , 0* + )x , 0* gilt )x , 0* = 0 . Daher ist die obige Gleichung für y = 0 trivial. Ist y = 0 , so gilt 0 ≤ )x −
)x , y* !y!
2
= !x! − 2
2
y,x −
)x , y* !y!
)x , y* )x , y* !y!
2
2
+
y*
)x , y* )x , y* !y!
2
2
= !x! −
Folgerung A.78. Ist V ein Prähilbertraum, so ist !x! := Norm auf V .
<
|)x , y*| !y!
2
2
.
)x , x* , x ∈ V eine
Beweis. Definitionsgemäß gilt !x! = 0 ⇔ x = 0 , und !α x! = |α| !x! ist klar. Daher genügt es die Dreiecksungleichung zu beweisen. Sind x , y ∈ V mit )x , y* = a + i b , a , b ∈ R , so gilt 2
2
2
2
2
!x + y! = !x! + !y! + )x , y* + )x , y* = !x! + !y! + 2 a ≤ !x!2 + !y!2 + 2 |)x , y*| ≤ !x!2 + !y!2 + 2 !x! !y! = (!x! + !y!)2 . k Beispiel A.79. Die durch das B innere Produkt aus Beispiel A.75 auf R definierte k < vi2 wird als euklidische Norm bezeichnet. Norm !v! := )v, v* = i=1
Definition A.80. Ein Hilbertraum ist ein bezüglich der oben definierten Norm vollständiger Prähilbertraum. Definition A.81. Zwei Vektoren eines Prähilbertraums V heißen orthogonal und man schreibt x ⊥ y , wenn )x , y* = 0 . Sie heißen orthonormal, wenn gilt x ⊥ y ∧ !x! = !y! = 1 . Eine Teilmenge A von V ist ein Orthogonalsystem, wenn je zwei Vektoren aus A orthogonal sind, und A ist ein Orthonormalsystem, wenn je zwei Vektoren aus A orthonormal sind. F G x x x Definition A.82. Der Vektor s := y, x x = )y, x* x2 wird die Projektion von y auf x genannt.
A.11 Drehung Definition A.83. Eine Drehung (um den Ursprung) ist eine lineare Abbildung T : R2 → R2 , für die gilt !v! = !T (v)! ∀ v ∈ R2 und deren Matrix die Determinante 1 besitzt.
342
A Anhang
Satz A.84. Die 2×2-Matrix D ist genau dann die Matrix einer Drehung T , wenn det D = 1 und )v, w* = )T (v), T (w)* ∀ v, w ∈ R2 . Beweis. Mit v = w folgt aus )v, w* = )T (v), T (w)* natürlich !v! = !T (v)! . Umgekehrt erhält man aus !v! = !T (v)! ∀ v ∈ R2 !v!2 + !w!2 + 2 )v, w* = !v + w!2 = !T (v + w)!2 = !T (v) + T (w)!2 = !T (v)!2 + !T (w)!2 + 2 )T (v), T (w)* ⇒ )v, w* = )T (v), T (w)* . Satz A.85. Die zu einer Drehung T um den Ursprung gehörige Matrix D hat die Gestalt a b D= (A.32) −b a mit det D = a2 + b2 = 1 , d.h. D kann dargestellt werden als cos α sin α D= − sin α cos α
(A.33)
mit geeignetem α . Dieses α wird Drehwinkel genannt. ab Beweis. Ist D = die Matrix von T , so werden die Vektoren (1, 0), (0, 1) c d und (1, 1) abgebildet auf (a, b), (c, d) und (a+c, b+d) . Wegen !v!2 = !T (v)!2 bekommt man daraus die Gleichungen a2 + b2 = 1 , c2 + d2 = 1 und 2 = a2 + b2 + c2 + d2 + 2 (a c + b d) = 2 + 2 (a c + b d) . ⇒ a c = −b d Daraus und aus det D = a d − b c = 1 folgt −b d2 = a c d = b c2 + c ⇒ c = −b . Dies eingesetzt in a c = −b d liefert a c = c d ⇒ a = d für c = 0 . c = b = 0 und a = −d würde det D = −1 ergeben. Daher gilt a = d auch bei c = 0 . Lemma A.86. Für Drehungen T ist )v, T (v)* für alle v mit !v! = 1 konstant. a b Beweis. Ist D = die Matrix von T , so wird v := (v1 , v2 ) in den Vektor −b a (a v1 − b v2 , b v1 + a v2 ) abgebildet und damit erhält man )v, T (v)* = a v12 − b v1 v2 + b v1 v2 + a v22 = a !v! = a .
Literaturverzeichnis
1. Apostol, T.M.: Mathematical Analysis, Addison-Wesley, Reading, 1974. 2. Ash, R.B.; Doléans-Dade, C.A.: Probability and Measure Theory, Academic Press, San Diego, 2000. 3. Bauer, H.: Maß- und Integrationstheorie, W. de Gruyter, Berlin, 1992 . 4. Billingsley, P.: Probability and Measure, Wiley, New York, 1986. 5. Breiman, L.: Probability, SIAM, Philadelphia, 1993. 6. Capi` nski, M.; Kopp, E.: Measure, Integral and Probability, Springer, Berlin, 2004. 7. Doob, J.L.: Stochastic Processes, Wiley, New York, 1953. 8. Dudley, R.M.: Real Analysis and Probability, Cambridge University Press, Cambridge, 2002. 9. Elstrodt, J.: Maß- und Integrationstheorie, Springer, Berlin, 2005. 10. Feller, W.: An Introduction to Probability Theory and its Applications, Vol.1, Wiley, New York, 1968. 11. Feller, W.: An Introduction to Probability Theory and its Applications, Vol.2, Wiley, New York, 1971. 12. Galambos, J.: Advanced Probability Theory, Marcel Dekker,Inc., New York, 1988. 13. Halmos, P.R.: Measure Theory, Springer, Berlin, 1974. 14. Kingman, J.F.C.; Taylor, S.J.: Introduction to Measure and Probability, Cambridge University Press, Cambridge, 1966. 15. Kolmogorov, A.N.; Fomin, S.V.: Reelle Funktionen und Funktionalanalysis, Deutscher Verlag der Wissenschaften, Berlin, 1975. 16. Rényi, A.: Foundations of Probability, Holden-Day,Inc., San Francisco, 1970. 17. Rényi, A.: Probability Theory, North-Holland, Amsterdam, 1970. 18. Riesz, F.: Gesammelte Arbeiten, Verlag der Ungarischen Akademie der Wissenschaften, Budapest, 1960. 19. Riesz, F.; Sz-Nagy, B.: Vorlesungen über Funktionalanalysis, Deutscher Verlag der Wissenschaften, Berlin, 1982. 20. Royden, H.L.: Real Analysis, Macmillan Comp., New York, 1968. 21. Rudin, W.: Analysis, Oldenbourg, München, 2005. 22. Rudin, W.: Reelle und Komplexe Analysis, Oldenbourg, München, 1999. 23. Williams, D.: Probability with Martingales, Cambridge University Press, Cambridge, 2010.
Stichwortverzeichnis
abgeschlossen, 323 abgeschlossene Hülle, 323 Abrundungsfunktion x, 3 absolut konvergent, 318 absolut stetig, 143, 198 absolut stetige Funktion, 205 absolut stetige Maße, 143 adaptiert an eine Filtration, 271 addditiv, 27 Additionssatz für Winkelfunktionen, 334 Additionstheorem, 36 verallgemeinertes, 35 äquivalent bezüglich S , 96 äußeres Maß, 42 induziertes, 41 Algebra, 11 erzeugte, 20 Alternativverteilung, 67 Approximationssatz, 50 asymptotisches Ereignis, 55 Atom, 207 atomar rein, 207 atomlos, 207 Aufrundungsfunktion x , 37 Ausschöpfungsprinzip des Eudoxos, 41 Auswahlaxiom, 318 Baire-Funktionen, 94 Banachraum, 340 Basis eines Zylinders, 161 Bayes’sches Theorem , 52 bedingte Dichte, 185
bedingte Erwartung, 231, 236 bedingte Verteilung, 185, 231 bedingte Wahrscheinlichkeit, 231, 236 bedingt konvergent, 319 Bernoulliverteilung, 67 beschränkt μ–fü , 106 beschränktes lineares Funktional, 340 beschränkte Variation, 203 Betaverteilung, 148 Binomialverteilung, 67 Bonferroni-Ungleichungen, 37 Borel-Äquivalenz, 246 Borel-Cantelli 1-tes Lemma , 35 2-tes Lemma , 54 Borel-messbare Funktion, 87 Borel-Raum, 246 Borelmenge, 20, 159 System der erweiterten, 90 Box-Muller Verfahren, 155 Cantor-Funktion, 213 Cantor-Menge, 103 Carathéodory-Messbarkeit, 43 Cauchy-Schwarz’sche Ungleichung, 217, 341 Cauchyverteilung, 121 charakteristischen Funktion, 299 Chiquadratverteilung, 157 Cosinus, 334 Darstellungssatz von Riesz, 227 Darstellungssatz von Skorokhod, 291 Diagonalisierungsverfahren, 317
346
Stichwortverzeichnis
dicht, 323 Dichte, 144 bedingte, 185 Differenzenoperator, 69 k-facher, 70 Diracverteilung, 67 diskretes Maß, 63 Doob’sche Extremal-Ungleichungen, 280 Doob’scher Überquerungssatz, 282 Doob-Martingal, 275 Doob-Zerlegung, 276 Doobs Konvergenzsatz, 284 Drehung, 341 dualer Raum, 340 Durchmesser, 145 durchschnittsstabil, 11 Dynkin-System, 22 erzeugtes, 23 Eindeutigkeitssatz, 45 Einschränkung einer Funktion, 5 empirische Verteilungsfunktion, 262 Ereignis, 50 asymptotisches, 55, 102 terminales, 55, 102 Ereignisse paarweise unabhängige, 52 unabhängige, 52 Ereignissysteme unabhängige, 53 Ergodensatz maximaler, 264 Mittel-, 267 von Birkhoff, 265 ergodisch, 126 Erlangverteilung, 157 Erwartung, 133 bedingte, 231, 236 Erwartungswert, 133 einer Treppenfunktion, 129 essentielles Supremum, 106 euklidische Norm, 341 Euler’sche Formel, 338 Euler’sche ϕ-Funktion, 54 Existenzsatz von Kolmogoroff, 179 Exponentialverteilung, 120 Exzeß, 254 Faltung, 187
Binomialverteilung, 190 Eigenschaften, 188 Formel, 188 diskret, 189 negative Binomialverteilung, 190 Normalverteilung, 192 Poissonverteilung, 191 Faltungsdichte, 157, 189 fast überall, 101 fast überall konvergent, 108 fast gleichmäßig konvergent, 107 fast sicher, 101 Fatou’s Lemma, 139 Filtration, 271 kanonische, 272 Folge monoton fallend, 9 monoton steigend, 9 strikt monoton fallend, 9 strikt monoton steigend, 9 Fortsetzung eines Inhalts , 32 Fortsetzungssatz, 45 Fouriertransformierte, 299 Fraktil, 117 Fundamentalsatz der Statistik, 262 Funktion Borel-messbare, 87 Lebesgue-messbare, 87 messbare, 87 monoton fallend, 9 monoton steigend, 9 strikt monoton fallend, 9 strikt monoton steigend, 9 Gammaverteilung, 148, 156 geometrische Verteilung, 68 Gesetz der großen Zahlen Kolmogoroffs 1-tes , 259 Kolmogoroffs 2-tes , 260 schwaches, 254, 255 GGZ, 254 gleichmäßig asymptotisch vernachlässigbar, 311 gleichmäßig integrierbar, 223 gleichmäßig konvergent, 106 gleichmäßig σ-endlich, 163 gleichmäßig stetig, 327 Grenzverteilungssatz klassischer, 296
Stichwortverzeichnis Lindeberg, 313 Häufungspunkt, 327 Hahn-Zerlegung, 195 halbstetig von oben, 325 halbstetig von unten, 325 Hauptsatz der Differential- und Integralrechnung, 214 Hilbertraum, 341 Hölder’sche Ungleichung, 216 hypergeometrische Verteilung, 68 Hypothese, 52 iid, 254 Imaginärteil, 336 Indikator, Indikatorfunktion, 9 induziertes Maß, 114 induzierte Verteilung, 114 Inhalt, 27 Inneres einer Menge, 323 inneres Produkt, 340 Integral einer messbaren Funktion, 132 einer nichtnegativen messbaren Funktion, 132 einer Treppenfunktion, 130 Lebesgue-, 133 nicht existent, 132 unbestimmtes, 142 integrierbar, 133 invariant, 123 P -fast sicher, 123 Invarianzprinzip, 294 Inversenmethode, 120 inverse Verteilungsfunktion, 117 Jensen’sche Ungleichung, 215 für bedingte Erwartungen, 241 Jordan-Zerlegung, 197 kanonische Filtration, 272 kartesisches Produkt, 6 Kausalverteilung, 67 Kettenregel, 145 klassische Wahrscheinlichkeitsdefinition, 1 Kolmogoroff’sches Axiomensystem , 29 Kolmogoroff’sche Ungleichung, 257 Kolmogoroffs 1-tes Gesetz der großen Zahlen, 259
347
Kolmogoroffs 2-tes Gesetz der großen Zahlen, 260 Kolmogoroffs Existenzsatz, 179 kompakt, 323 konjugiert komplexe Zahl, 337 konkave Funktion, 329 konsistent, 178 Konvergenz μ-fast überall, P -fast sicher, 108 μ-fast gleichmäßige, 107 gleichmäßig μ–fü, 106 im p-ten Mittel, 219 im Maß, in Wahrscheinlichkeit, 111 im Mittel, 219 in Verteilung, 289 quadratische, 219 schwache, 289 stochastische, 289 konvexe Funktion, 329 konvexe Menge, 329 Korrelationskoeffizient, 250 Kovarianz, 250 Kronecker-Symbol, 10 Kroneckers Lemma, 258 Kurtosis, 254 Lageparameter, 249 Laplaceverteilung, 300 Lebesgue-Integral, 133 Lebesgue-Maß, 61 k-dimensionales, 81 Lebesgue-messbare Funktion, 87 Lebesgue-Stieltjes-Maß, 57 Lebesgue-Stieltjes-messbare Menge, 57 Lebesgue-Zerlegung, 198 Lebesgues Kriterium der RiemannIntegrierbarkeit, 146 Lemma von Borel-Cantelli 1-tes, 35 2-tes, 54 Lemma von Fatou, 139 für bedingte Erwartungen, 237 Lindeberg-Bedingung, 309 linearer Raum, 339 lineares Funktional, 339 Lp -integrierbar, 217 Lp -Konvergenz, 219 Lp -Norm, 217 Lp -Raum, 217
348
Stichwortverzeichnis
Lyapunov-Bedingung, 309 Maß, 29 σ-endliches, 29 äußeres, 42 diskretes, 63 endliches, 29 induziertes, 114 induziertes äußeres, 41 inneres, 43 Lebesgue-Stieltjes-, 57 Marginal-, 172 Produkt-, 172 Rand-, 172 signiertes, 143 total-endliches, 29 Maßraum, 50 σ-endlicher , 50 endlicher , 50 signierter, 143 maßtreu, 122 Marginalmaß, 172 Markoff’sche Ungleichung, 218 Martingal, 272 Doob-, 275 rückwärts gerichtetes , 277 Maximaldurchmesser, 145 Maximaler Ergodensatz, 264 Median, 117 Menge Lebesgue-Stieltjes-messbare, 57 messbare, 43 Mengendifferenz, 5 Mengenfolge Grenzwert , 8 limes inferior , 8 limes superior , 8 monoton fallend, 9 monoton steigend, 9 strikt monoton fallend, 9 strikt monoton steigend, 9 messbare Funktion, 87 messbare Menge, 43 Messraum, 50 Minimalitätseigenschaft der bedingten Erwartung, 241 des Erwartungswerts, 249 des Medians, 250 Minkowski’sche Ungleichung, 217
mischend, 125 Mittel-Ergodensatz, 267 Mittelungleichung, 216 Mittelwert, 254 Mittelwertsatz, 328 Moment, 252 absolutes, 252 absolutes zentrales, 252 zentrales, 252 monotones System, 22 erzeugtes, 23 Multiplikationsregel, 51, 187 multivariat hypergeometrische Verteilung, 115 negative Binomialverteilung, 68 negative Menge, 195 Negativteil, 90 nicht ganzzahliger Rest, 3 nicht messbare Menge, 3 nirgends dicht, 323 Norm, 340 Normalverteilung eindimensionale, 156 zweidimensionale, 156 normierter linearer Raum, 340 Null-Eins-Gesetz von Hewitt- Savage, 183 von Kolmogoroff, 55, 102 Nullmenge, 195 offen, 323 Operationstreue des Urbilds, 5 orthogonal, 341 Orthogonalsystem, 341 orthonormal, 341 Orthonormalsystem, 341 Paretoverteilung, 121 partielle Integration, 174, 175 Partition, 145 feinere, 145 Pfeiler, 161 Poissonverteilung, 67 Portmanteau-Satz, 291 positive Menge, 195 Positivteil, 90 Potenzmenge, 5 Prähilbertraum, 340
Stichwortverzeichnis Prinzip der guten Menge, 24 Produktmaß, 172 Produktsigmaalgebra, 159 Produktverteilung, 79 Projektion, 6 Projektion eines Vektors, 341 Quantil, 117 rückwärts gerichtetes Martingal, 277 Radon-Nikodym-Dichte, 144, 201 Randdichte, 184 Rand einer Menge, 323 Randmaß, 172 Randverteilung, 115, 178 Rayleighverteilung, 153 Realteil, 336 Rechteck, 161 rechtsstetig, 73 regulär, 59 reguläre bedingte Verteilung, 246 Verteilungsfunktion, 245 Wahrscheinlichkeitsverteilung, 243 rein atomar, 207 Restriktion einer Funktion, 5 eines Mengensystems, 22 Riemann-Integral, 145 Riemannsche Obersumme, 145 Riemannsche Untersumme, 145 Ring, 13 erzeugter, 19 S-äquivalent, 96 Satz Approximations-, 50 Birkhoff, 265 Bolzano-Weierstraß, 328 Doobs Konvergenz-, 284 Doobs Überquerungs-, 282 Eindeutigkeits-, 45 Feller, 314 Fortsetzungs-, 45 Fubini, 170, 171 Fubini verallgemeinerter, 167, 168 Glivenko-Cantelli, 262 Hahns Zerlegungs-, 196
349
Hauptsatz der Differential- und Integralrechnung, 214 Heine-Borel, 327 Helly, 297 Ionescu-Tulcea, 176 Jordan, 38 Jordans Zerlegungs-, 197 Kolmogoroffs Existenz-, 179 Lebesgue über die Differenzierbarkeit von Funktionen mit beschränkter Variation, 214 Lebesgue über majorisierte Konvergenz, 140 Lebesgues Zerlegungs-, 198 Levi, 136 Levi verallgemeinerter, 139 Lévys Stetigkeits-, 308 Lindebergs Grenzverteilungs-, 313 maximaler Ergoden-, 264 Mittelergoden-, 267 Poincaré, 36 Portmanteau, 291 Prohoroff, 298 Radon-Nikodym, 199 Riemanns Umordnungs-, 321 Riesz’scher Darstellungs-, 227 Riesz-Fischer, 219 Riesz über die aufgehende Sonne, 210 Scheffé, 221 Skorokhod, 291 Steiner’scher Verschiebungs-, 250 Taylor, 329 Umkehr-, 304 von der majorisierten Konvergenz, 140 von der majorisierten Konverrgenz für bedingte Erwartungen, 237 von der monotonen Konvergenz, 136 von der monotonen Konvergenz für bedingte Erwartungen, 237 von der vollständigen Wahrscheinlichkeit, 52 von der vollständigen Erwartung, 232 Schiefe, 254 Schnitt einer Funktion, 160 einer Menge, 160 schwache Konvergenz, 289 schwaches Gesetz der großen Zahlen, 254, 255
350
Stichwortverzeichnis
Semialgebra, 18 Seminorm, 339 Semiring, 13 im engeren Sinn, 14 im weiteren Sinn, 14 μ-vollständiger, 30 σ-addditiv, 27 σ-Algebra, 11 erzeugte, 20 erzeugt von Funktion, 96 erzeugt von Funktionenfamilie, 97 Produkt-, 159 terminale, 55, 102 triviale, 102 σ-endlich, 29 σ-Ring, 13 erzeugter, 19 σ-subadditiv, 32 signiertes Maß, 143 Signumfunktion, 9 singuläre Maße, 143 singulär, 143, 198 Sinus, 334 Skorokhods Darstellungssatz, 291 Spur, 22 standardisierte Zufallsvariable, 254 Standardnormalverteilung 2-dimensionale, 154 eindimensionale, 155 stationärer stochastischer Prozess, 122 Steigbügelmethode, 24 Steiner’scher Verschiebungssatz, 250 stetige Gleichverteilung, 68 stetige Zufallsvariable, 184 Stetigkeitssatz von Lévy, 308 stetig von oben, 33 stetig von unten , 33 Stichprobenmittel, 254 stochastische Konvergenz, 289 stochastischer Prozess, 180 Stoppregel, 278 Stoppzeit, 278 endliche, 278 straffe Verteilungsfunktionen, 298 Streuung, 249 Streuungsparameter, 249 subadditiv, 32 Submartingal, 272 Supermartingal, 272
symmetrische Differenz, 5 symmetrische Menge, 182 symmetrische Zufallsvariable, 253 Tangentensatz, 332 terminale σ-Algebra, 55 terminales Ereignis, 55 Transformationssatz, 151, 152 allgemeiner, 149 mehrdimensionaler, 153 Treppenfunktion, 92 kanonische Darstellung, 93 Tschebyscheff’sche Ungleichung, 218 Umkehrsatz, 304 Umordnung, 320 Umordnungssatz von Riemann, 321 unabhängig Ereignisse, 52 Ereignissysteme, 53 Zufallsvariable, 99 Zufallsvektoren, 99 unkorreliert, 250 unsichtbar von links, 210 unsichtbar von rechts, 210 Unstetigkeit 1. Art, 205 Urbild, 5 Varianz, 249 Variation, 198 beschränkte, 203 obere, 198 Total-, 198, 203 untere, 198 vollständige, 203 Vektorraum, 339 Verteilung Alternativ-, 67 bedingte, 185, 231 Bernoulli-, 67 Beta-, 148 Binomial-, 67 Cauchy, 121 Chiquadrat-, 157 Dirac-, 67 Erlang-, 157 Exponential-, 120 Gamma-, 148, 156 gemeinsame, 114
Stichwortverzeichnis geometrische, 68 hypergeometrische, 68 Kausal-, 67 Laplace-, 300 multivariat hypergeometrische, 115 negative Binomial-, 68 Normal- 2-dimensional, 156 Normal- eindimensional, 156 Pareto, 121 Poisson-, 67 Rand-, 115, 178 Rayleigh, 153 reguläre bedingte, 246 Standardnormal- 2-dimensional, 154 Standardnormal- eindimensional, 155 stetige Gleich-, 68 Weibull-, 69 Verteilungsfunktion, 59 diskrete, 64 empirische, 262 gemeinsame, 114 i.e.S., 66 inverse, 117 mehrdimensionale, 73 mehrdimensionale i.e.S., 78 reguläre bedingte, 245 wahrscheinlichkeitstheoretische , 66 Vervollständigung eines σ-Rings, 48 vollständiges Ereignissystem, 52 vorhersagbar, 275 Vorzeichenfunktion, 9
Wahrscheinlichkeit bedingte, 51, 231, 236 reguläre bedingte, 243 Wahrscheinlichkeitsmaß, 29 Wahrscheinlichkeitsraum , 50 Wahrscheinlichkeitsverteilung, 29 bedingte, 51 induzierte, 114 Weibullverteilung, 69 Wölbung, 254 Zählmaß, 30 Zelle, 17 zentraler Grenzverteilungssatz, 296 zentrierte Zufallsvariable, 254 Zerlegungssatz von Hahn, 196 Zerlegungssatz von Jordan, 197 Zerlegungssatz von Lebesgue, 198 Zufallsvariable, 88 diskrete, 100 invariante, 125 P –fs invariante, 125 standardisierte, 254 stetige, 184 symmetrische, 253 unabhängige, 99 zentrierte, 254 Zufallsvektor, 88 diskreter, 100 stetiger, 184 Zufallsvektoren unabhängige, 99 Zylinder, 161
351