Springer-Lehrbuch
Klaus D. Schmidt
Maß und Wahrscheinlichkeit Zweite, durchgesehene Auflage
123
Prof. Dr. Klaus D. Schmidt Technische Universität Dresden Fachrichtung Mathematik Lehrstuhl für Versicherungsmathematik Zellescher Weg 12-14 01062 Dresden Deutschland
[email protected]
ISSN 0937-7433 ISBN 978-3-642-21025-9 e-ISBN 978-3-642-21026-6 DOI 10.1007/978-3-642-21026-6 Springer Heidelberg Dordrecht London New York Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Mathematics Subject Classification (2010): 28-01, 60-01 c Springer-Verlag Berlin Heidelberg 2008, 2011 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Einbandentwurf: WMXDesign GmbH, Heidelberg Gedruckt auf säurefreiem Papier Springer ist Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.com)
Vorwort zur 2. Auf lage
Das Manuskript wurde sorgf¨altig durchgesehen und an vielen Stellen korrigiert oder in der Darstellung verbessert. Dabei wurde ich von Georg Berschneider, Sebastian Fuchs, Klaus Th. Hess, Elisabeth L¨oser, Wilfried Schenk und nicht zuletzt von meinen Studenten mit vielen wertvollen Hinweisen unterst¨ utzt. Elisabeth L¨ oser und Christiane Weber haben wieder bei der Erstellung des Symbolverzeichnisses und des Sachverzeichnisses mitgewirkt. Ihnen allen sei herzlich gedankt. Dresden, im Mai 2011
Klaus D. Schmidt
Vorwort zur 1. Auf lage Jede Zeit erfordert ihre eigene Sicht der Dinge. Das Anliegen dieses Buches ist ¨ es, in einer Zeit des Ubergangs von einer Vielfalt von Diplomstudieng¨ angen zu einer noch gr¨ oßeren Vielfalt von Bachelor– und Master–Studieng¨ angen und der damit verbundenen Tendenz zur Verlagerung der Studieninhalte von der Theorie zur Anwendung, die Grundlagen der Wahrscheinlichkeitstheorie im Spannungsfeld zwischen Theorie und Anwendung darzustellen. Als theoretische Grundlage der Wahrscheinlichkeitstheorie ist die Maß– und Integrationstheorie unverzichtbar, und zu einem gewissen Grad gilt dies auch f¨ ur die Topologie, auf der unter anderem der Begriff der Borelschen σ–Algebra, die Konstruktion des Lebesgue–Maßes und die Konstruktion stochastischer Prozesse beruht. Auf der anderen Seite erfordern Anwendungen der Wahrscheinlichkeitstheorie ein umfangreiches Repertoire an Methoden zur Konstruktion wahrscheinlichkeitstheoretischer Modelle. Grundlegend sind hier zum einen der Begriff der Unabh¨ angigkeit und zum anderen der Begriff der bedingten Erwartung und
vi
Vorwort
der davon abgeleitete Begriff der bedingten Verteilung. In Anwendungen der Wahrscheinlichkeitstheorie ist schließlich auch die Kenntnis der Eigenschaften spezieller univariater und multivariater Verteilungen erforderlich. Neben der Darstellung der Grundlagen der Wahrscheinlichkeitstheorie liefert dieses Buch mit zahlreichen Aufgaben auch Ansatzpunkte f¨ ur das Studium spezieller Fragestellungen, von denen einige theoretisch orientiert sind und andere sich aus Anwendungen insbesondere im Bereich der Statistik und der Versicherungsmathematik ergeben. Ein Autor, der st¨arker der angewandten reinen Mathematik als der reinen angewandten Mathematik verhaftet ist, ist geneigt, mathematische Aussagen unter m¨ oglichst allgemeinen Voraussetzungen zu beweisen. Die Aufgabe, ein Lehrbuch zu schreiben, setzt dieser Versuchung nat¨ urliche Grenzen, und so habe ich mich bem¨ uht, zwischen dem Streben nach Allgemeinheit und der Beschr¨ ankung auf das Wesentliche ein Gleichgewicht zu finden. Bei der Arbeit an diesem Buch habe ich vielf¨altige Unterst¨ utzung erhalten: – Klaus Th. Hess und Mathias Zocher haben die Entstehung des Buches begleitet und mir als anregende Gespr¨achspartner zur Seite gestanden. – Lothar Partzsch und Wilfried Schenk haben Teile des Manuskriptes durchgesehen und wertvolle Hinweise gegeben. – Elisabeth L¨ oser, Alexander Ludwig, Andreas Ringel und viele andere Studenten haben zu wesentlichen Verbesserungen beigetragen. – Mandy Karzig hat fast alle Beispiele und Aufgaben zu univariaten und multivariaten Verteilungen u uft. ¨berpr¨ – Christiane Weber hat Teile des Manuskriptes mit der ihr eigenen un¨ ubertrefflichen Sorgfalt korrekturgelesen und zusammen mit Elisabeth L¨ oser bei der Erstellung des Symbolverzeichnisses und des Sachverzeichnisses mitgewirkt. Ihnen allen sei herzlich gedankt. Schließlich danke ich dem Springer–Verlag und insbesondere Clemens Heine f¨ ur die angenehme Zusammenarbeit. Dresden, im November 2008
Klaus D. Schmidt
Inhaltsverzeichnis
Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
Teil I Mengensysteme und Abbildungen 1
Mengensysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Topologien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 σ–Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Dynkin–Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 ∩–stabile Mengensysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Halbringe und Ringe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7 8 14 16 17 19
2
Topologische R¨ aume und messbare R¨ aume . . . . . . . . . . . . . . . . 2.1 Urbilder von Mengensystemen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Topologische R¨aume und stetige Abbildungen . . . . . . . . . . . . . . . 2.3 Messbare R¨aume und messbare Abbildungen . . . . . . . . . . . . . . . .
25 25 27 29
3
Produktr¨ aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Produkte und Projektionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Produkte von topologischen R¨aumen . . . . . . . . . . . . . . . . . . . . . . . 3.3 Produkte von messbaren R¨aumen . . . . . . . . . . . . . . . . . . . . . . . . .
33 33 36 39
Teil II Maßtheorie 4
Mengenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Inhalte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Signierte Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43 44 49 57
viii
Inhaltsverzeichnis
5
Fortsetzung von Maßen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Eindeutigkeitssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ 5.2 Außere Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Existenzsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Approximationssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Lebesgue–Maß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63 63 65 67 70 72
6
Transformation von Maßen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Bildmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Translationsinvariante Maße auf B(Rn ) . . . . . . . . . . . . . . . . . . . . . 6.3 Lineare Abbildungen des Lebesgue–Maßes . . . . . . . . . . . . . . . . . .
79 79 80 85
Teil III Integrationstheorie 7
Messbare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 7.1 Messbare Funktionen auf einem Messraum . . . . . . . . . . . . . . . . . . 92 7.2 Messbare Funktionen auf einem Maßraum . . . . . . . . . . . . . . . . . . 101
8
Lebesgue–Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 8.1 Positive einfache Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 8.2 Positive messbare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 8.3 Integrierbare Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 8.4 Lp –R¨ aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
9
Berechnung des Lebesgue–Integrals . . . . . . . . . . . . . . . . . . . . . . . . 147 9.1 Integralinduzierte Maße und signierte Maße . . . . . . . . . . . . . . . . . 148 9.2 Integration nach einem Maß mit Dichte . . . . . . . . . . . . . . . . . . . . 149 9.3 Absolutstetige und singul¨are Maße . . . . . . . . . . . . . . . . . . . . . . . . . 155 9.4 Integration nach einem Bildmaß . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 9.5 Integration nach einem eingeschr¨ankten Maß . . . . . . . . . . . . . . . . 165 9.6 Produktmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 9.7 Integration nach einem Produktmaß . . . . . . . . . . . . . . . . . . . . . . . 175 9.8 Lebesgue–Integral und Riemann–Integral . . . . . . . . . . . . . . . . . . . 180
Teil IV Wahrscheinlichkeitstheorie 10 Wahrscheinlichkeitsr¨ aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 10.1 Wahrscheinlichkeitsr¨aume und Zufallsgr¨ oßen . . . . . . . . . . . . . . . . 194 10.2 Diskrete Wahrscheinlichkeitsr¨aume . . . . . . . . . . . . . . . . . . . . . . . . 196 10.3 Symmetrische Wahrscheinlichkeitsr¨aume . . . . . . . . . . . . . . . . . . . . 198 10.4 Endliche Produkte von Wahrscheinlichkeitsr¨ aumen . . . . . . . . . . . 202 10.5 Projektive Familien von Wahrscheinlichkeitsr¨ aumen . . . . . . . . . . 204 10.6 Satz von Andersen/Jessen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209
Inhaltsverzeichnis
ix
11 Unabh¨ angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219 11.1 Unabh¨ angige Familien von Ereignissen . . . . . . . . . . . . . . . . . . . . . 219 11.2 Unabh¨ angige Familien von Ereignissystemen . . . . . . . . . . . . . . . . 229 11.3 Unabh¨ angige Familien von Zufallsgr¨ oßen . . . . . . . . . . . . . . . . . . . 236 11.4 Produkte von Wahrscheinlichkeitsr¨aumen . . . . . . . . . . . . . . . . . . . 242 12 Univariate Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 12.1 Verteilungen und Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . 245 12.2 Transformationen von Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 267 12.3 Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 12.4 Zentrale Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 13 Multivariate Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 13.1 Verteilungen und Verteilungsfunktionen . . . . . . . . . . . . . . . . . . . . 293 13.2 Transformationen von Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 301 13.3 Randverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303 13.4 Unabh¨ angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 13.5 Verteilungen von Summen von Zufallsvariablen . . . . . . . . . . . . . . 313 13.6 Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318 13.7 Zentrale Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 14 Konvergenz von Folgen von Zufallsvariablen . . . . . . . . . . . . . . . 331 14.1 Fast sichere Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 14.2 Stochastische Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333 14.3 Konvergenz im p–ten Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335 15 Gesetze der Großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 337 15.1 Schwache Gesetze der Großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 337 15.2 Starke Gesetze der Großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . 341 15.3 Satz von Glivenko/Cantelli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 15.4 Irrfahrten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 Teil V Vertiefung der Wahrscheinlichkeitstheorie 16 Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 369 16.1 Wahrscheinlichkeitserzeugende Funktion . . . . . . . . . . . . . . . . . . . . 370 16.2 Momenterzeugende Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378 16.3 Kumulantenerzeugende Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . 381 16.4 Charakteristische Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383 17 Schwache Konvergenz und Zentraler Grenzwertsatz . . . . . . . . 391 17.1 Schwache Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392 17.2 Straffheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400 17.3 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
x
Inhaltsverzeichnis
18 Bedingte Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409 18.1 Bedingte Erwartung einer positiven Zufallsvariablen . . . . . . . . . 410 18.2 Bedingte Erwartung und bedingte Integrierbarkeit . . . . . . . . . . . 416 18.3 Bedingte Erwartung als Projektion . . . . . . . . . . . . . . . . . . . . . . . . 426 18.4 Martingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428 19 Bedingte Wahrscheinlichkeit und bedingte Verteilung . . . . . . 435 19.1 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 435 19.2 Bedingte Unabh¨angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 438 19.3 Bedingte Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442 19.4 Bedingte Dichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 19.5 Bedingte Gesetze der Großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . 452 20 Regularit¨ at und Satz von Kolmogorov . . . . . . . . . . . . . . . . . . . . . 455 20.1 Regularit¨at . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 456 20.2 Satz von Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 458 Anhang A
Fakult¨ at und Gamma–Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 465 A.1 Fakult¨ at und Binomial–Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . . 465 A.2 Gamma–Funktion und Beta–Funktion . . . . . . . . . . . . . . . . . . . . . . 466
B
Vektorr¨ aume, Ordnung und Topologie . . . . . . . . . . . . . . . . . . . . . 467 B.1 Vektorr¨ aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 467 B.2 Ordnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468 B.3 Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469 B.4 Ordnung und Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 470
C
Der C.1 C.2 C.3 C.4
Euklidische Raum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471 Vektoren und Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471 Ordnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473 Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474 Ordnung und Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 Symbolverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 477 Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
Einleitung
Das vorliegende Buch bietet eine Einf¨ uhrung in die Maß– und Integrationstheorie und die Wahrscheinlichkeitstheorie. Diese Teilgebiete der Mathematik sind eng miteinander verbunden: Einerseits bildet die Maß– und Integrationstheorie die unverzichtbare Grundlage f¨ ur die Wahrscheinlichkeitstheorie, und andererseits ist die Wahrscheinlichkeitstheorie neben der Funktionalanalysis das wichtigste Anwendungsgebiet der Maß– und Integrationstheorie. Das Buch ist in f¨ unf Teile gegliedert, deren Inhalte wir im folgenden skizzieren: Teil I – Mengensysteme: Mengensysteme sind Familien von Teilmengen einer Grundmenge und werden nach ihren Stabilit¨ atseigenschaften unter mengentheoretischen Operationen klassifiziert. Die grundlegenden Mengensysteme in der Maß– und Integrationstheorie und damit auch in der Wahrscheinlichkeitstheorie sind die σ–Algebren, die in vielen wichtigen F¨ allen durch eine Topologie erzeugt werden. Daher werden neben den Eigenschaften spezieller Mengensysteme auch die Analogien zwischen Topologien und σ–Algebren und zwischen topologischen und messbaren R¨aumen sowie zwischen stetigen und messbaren Abbildungen dargestellt. Teil II – Maßtheorie: Gegenstand der Maßtheorie sind Abbildungen von einem Mengensystem in die Menge der erweiterten reellen Zahlen. Derartige Abbildungen werden allgemein als Mengenfunktionen bezeichnet und messen die Mengen des Mengensystems, auf dem sie definiert sind. Die wichtigsten Mengenfunktionen sind die Maße, und das Maßproblem ist das Problem der Fortsetzung eines Maßes von einem kleinen Mengensystem auf ein m¨ oglichst großes Mengensystem. Im Fall des Rn f¨ uhrt die L¨ osung des Maßproblems f¨ ur das Volumen von Intervallen auf das Lebesgue–Maß. Teil III – Integrationstheorie: Das Maß einer Menge der σ–Algebra, auf der das Maß definiert ist, kann als Integral ihrer Indikatorfunktion aufgefasst werden. Damit ist ein allgemeines Integral bez¨ uglich einem Maß definiert, das als Lebesgue–Integral bezeichnet wird und zun¨ achst auf positive
2
Einleitung
einfache Funktionen und dann auf positive messbare Funktionen und auf eine Klasse beliebiger messbarer Funktionen fortgesetzt wird. Dieser Fortsetzungsprozess, der auch als algebraische Induktion bezeichnet wird, bildet gleichzeitig die Grundlage f¨ ur den Beweis vieler Ergebnisse u ¨ber das Lebesgue– Integral. Die Berechnung des Lebesgue–Integrals kann in vielen F¨ allen durch die Ber¨ ucksichtigung der besonderen Eigenschaften des integrierenden Maßes vereinfacht werden. Im Fall der Integration nach dem Lebesgue–Maß liefert insbesondere der Zusammenhang mit dem Riemann–Integral ein wichtiges Hilfsmittel f¨ ur die Berechnung des Lebesgue–Integrals. Teil IV – Wahrscheinlichkeitstheorie: Die Wahrscheinlichkeitstheorie hat ihren Ursprung in der Untersuchung von Gl¨ ucksspielen. Es ist Kolmogorov zu verdanken, dass die Wahrscheinlichkeitstheorie durch ihre Einbettung in die Maß– und Integrationstheorie zu einer mathematischen Disziplin geworden ist, ohne die beispielsweise die moderne Versicherungsmathematik undenkbar w¨ are. Gegen¨ uber der allgemeinen Maß– und Integrationstheorie ergeben sich in der Wahrscheinlichkeitstheorie Besonderheiten daraus, dass Wahrscheinlichkeitsmaße auf Eins normiert sind. Aufgrund dieser Normierung ist der f¨ ur die Wahrscheinlichkeitstheorie typische und in ihr zentrale Begriff der Unabh¨ angigkeit sinnvoll. Auf diesem Begriff beruht insbesondere das Gesetz der Großen Zahlen, das f¨ ur eine unabh¨angig und identisch verteilte Folge von Zufallsvariablen die Konvergenz der Stichprobenmittel gegen den gemeinsamen Erwartungswert der Zufallsvariablen gew¨ahrleistet und damit eine Grundlage f¨ ur die Sch¨ atzung ihres Erwartungswertes liefert. Teil V – Vertiefung der Wahrscheinlichkeitstheorie: Das Gesetz der Großen Zahlen ist nur ein erstes Ziel der Wahrscheinlichkeitstheorie und eine erste Grundlage f¨ ur die Mathematische Statistik. Da neben der Konvergenz der Stichprobenmittel gegen den Erwartungswert auch die Abweichung der Stichprobenmittel vom Erwartungswert von Interesse ist, stellt sich die Frage nach der n¨ aherungsweisen Berechnung ihrer Verteilungen. Diese Frage wird mit dem Zentralen Grenzwertsatz beantwortet, der eine weitere Grundlage f¨ ur die Mathematische Statistik bildet. Die Annahme der Unabh¨ angigkeit einer Familie von Zufallsvariablen, die in den starken Gesetzen der Großen Zahlen und im Zentralen Grenzwertsatz getroffen wird, ist ein wichtiges Hilfsmittel bei der Konstruktion wahrscheinlichkeitstheoretischer Modelle, aber sie ist in vielen F¨ allen nicht vertretbar. In derartigen F¨ allen ist es oft angemessen, f¨ ur eine Familie von Zufallsvariablen Annahmen u ¨ber ihre bedingte Verteilung bez¨ uglich einem zuf¨alligen Parameter und Annahmen u ¨ber die unbedingte Verteilung des Parameters zu treffen. Diese zweistufige Modellierung ist daher ein weiteres Hilfsmittel bei der Konstruktion wahrscheinlichkeitstheoretischer Modelle. Ein solches Hilfsmittel ist schließlich auch der Satz von Kolmogorov, der die Grundlage f¨ ur die Theorie der stochastischen Prozesse bildet. Ein Buch wie dieses steht im Spannungsfeld zwischen Theorie und Handwerk: Zum einen beruhen Teile der Maß– und Integrationstheorie und der
Einleitung
3
Wahrscheinlichkeitstheorie auf Ergebnissen der Topologie und zum anderen ist f¨ ur Anwendungen der Wahrscheinlichkeitstheorie eine gewisse Vertrautheit mit speziellen univariaten und multivariaten Verteilungen sowie die F¨ ahigkeit, mit Verteilungen zu rechnen, unerl¨asslich. Im Hinblick auf Anwendungen der Wahrscheinlichkeitstheorie ist es außerdem wichtig, nicht nur die wesentlichen Ergebnisse der Theorie zu kennen, sondern auch die Beweismethoden zu einem gewissen Grad zu beherrschen. Dies ist die Voraussetzung f¨ ur die F¨ ahigkeit, bei Bedarf neue Ergebnisse zu entdecken und zu beweisen, die zun¨ achst sehr anwendungsspezifisch sein m¨ogen, aber auch die allgemeine Theorie bereichern und sich in ganz anderen Anwendungen als n¨ utzlich erweisen k¨ onnen. Es ist daher nicht das Ziel dieses Buches, m¨oglichst schnell zu m¨ oglichst wichtigen Ergebnissen hinzuf¨ uhren. Statt dessen wird ein mathematischer Begriff zusammen mit den typischen Beweismethoden zun¨ achst ausgeleuchtet, bevor weitere Begriffe eingef¨ uhrt werden. Die Darstellung der allgemeinen Theorie wird durch zahlreiche Beispiele und Aufgaben begleitet. Dies gilt insbesondere f¨ ur die Wahrscheinlichkeitstheorie, in der neben univariaten Verteilungen auch multivariate Verteilungen eingehend behandelt werden und Ansatzpunkte zu speziellen Themen und Anwendungen der Wahrscheinlichkeitstheorie gegeben werden, die u ¨ber den Rahmen dieses Buches hinausgehen. Konventionen: Wir verwenden die in der Maß– und Integrationstheorie und damit auch in der Wahrscheinlichkeitstheorie u ¨bliche Konvention 0 := 0 0 sowie die Konvention 00 := 1 ¯ als Wir bezeichnen eine reelle Zahl x ∈ R und eine Funktion f : Ω → R positiv , wenn x ≥ 0 bzw. f (ω) ≥ 0 f¨ ur alle ω ∈ Ω gilt. Des weiteren setzen wir N0 := N ∪ {0} und f¨ ur m ∈ N setzen wir N(m) := {n ∈ N | m ≤ n} wobei N die Menge der nat¨ urlichen Zahlen {1, 2, . . . } bezeichnet. F¨ ur weitere Bezeichnungen und Begriffe verweisen wir auf das Symbolverzeichnis und das Sachverzeichnis.
Teil I
Mengensysteme und Abbildungen
1 Mengensysteme
Ein Mengensystem ist eine Familie von Teilmengen einer Grundmenge und damit eine Teilmenge der Potenzmenge der Grundmenge. In diesem Kapitel untersuchen wir Mengensysteme, die unter bestimmten mengentheoretischen Operationen stabil sind. Die wichtigsten Mengensysteme sind die Topologien und die σ–Algebren, wobei in der Maßtheorie vor allem die σ–Algebren von Bedeutung sind. Zwischen Topologien und σ–Algebren bestehen Analogien, die es als sinnvoll erscheinen lassen, diese Mengensysteme parallel zu untersuchen. So lassen sich zum Beispiel die Mengen, die einer Topologie oder σ–Algebra angeh¨ oren, nur in seltenen F¨ allen explizit beschreiben. Topologien und σ–Algebren werden daher oft indirekt definiert, indem man ein kleineres Mengensystem angibt, das die Topologie oder die σ–Algebra in einer noch zu pr¨ azisierenden Weise erzeugt. Da bestimmte σ–Algebren durch eine Topologie erzeugt werden, beginnen wir die Untersuchung von Mengensystemen mit Topologien (Abschnitt 1.1) und f¨ uhren erst dann σ–Algebren ein (Abschnitt 1.2). Die n¨ achsten Abschnitte betreffen Mengensysteme, die f¨ ur die Erzeugung von σ–Algebren von Bedeutung sind. Dies sind vor allem Dynkin–Systeme (Abschnitt 1.3) und ∩–stabile Mengensysteme (Abschnitt 1.4) sowie Halbringe und Ringe (Abschnitt 1.5). Im gesamten Kapitel sei Ω eine nichtleere Menge. Wir bezeichnen die Potenzmenge von Ω mit 2Ω F¨ ur A ∈ 2Ω bezeichnen wir die M¨achtigkeit von A mit |A| und das Komplement von A mit A K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_1, © Springer-Verlag Berlin Heidelberg 2011
8
Kapitel 1. Mengensysteme
F¨ ur disjunkte Mengen A, B ∈ 2Ω setzen wir A + B := A ∪ B Eine Familie {Ai }i∈I ⊆ 2Ω heißt disjunkt, wenn Ai ∩ Aj = ∅ f¨ ur alle i, j ∈ I mit i 6= j gilt, und in diesem Fall setzen wir X [ Ai := Ai i∈I
i∈I
Ω
F¨ ur eine Folge {An }n∈N ⊆ 2 heißt die Menge lim inf An := n→∞
∞ \ ∞ [
Ak
n=1 k=n
der Limes inferior der Folge {An }n∈N und die Menge lim sup An := n→∞
∞ [ ∞ \
Ak
n=1 k=n
heißt der Limes superior der Folge {An }n∈N . Es gilt ¯ n o ¯ lim inf An = ω ∈ Ω ¯ ω ∈ An f¨ ur alle außer endlich viele n ∈ N n→∞
und
¯ n o ¯ lim sup An = ω ∈ Ω ¯ ω ∈ An f¨ ur unendlich viele n ∈ N n→∞
und damit lim inf n→∞ An ⊆ lim supn→∞ An . Eine Menge heißt abz¨ ahlbar , wenn sie endlich oder abz¨ ahlbar unendlich ist. Jede Teilmenge der Menge 2Ω heißt Mengensystem auf Ω.
1.1 Topologien Ein Mengensystem T ⊆ 2Ω heißt Topologie auf Ω, wenn es die folgenden Eigenschaften besitzt: (i) Es gilt Ω ∈ T und ∅ ∈ T . S (ii) F¨ ur jede Familie {Qi }i∈I ⊆ T gilt i∈I Qi ∈TT . (iii) F¨ ur jede endliche Familie {Qi }i∈I ⊆ T gilt i∈I Qi ∈ T . Ist T ⊆ 2Ω eine Topologie, so heißt eine Menge A ∈ 2Ω – offen bez¨ uglich T , wenn A ∈ T gilt. – abgeschlossen bez¨ uglich T , wenn A ∈ T gilt. – kompakt bez¨ u glich T , wenn es zu jeder Familie {Q S S i }i∈I ⊆ T mit A ⊆ i∈I Qi eine endliche Menge J ⊆ I gibt mit A ⊆ i∈J Qi . 1.1.1 Beispiele. (1) Die Potenzmenge 2Ω ist eine Topologie auf Ω. (2) Das Mengensystem {∅, Ω} ist eine Topologie auf Ω.
1.1 Topologien
9
1.1.2 Beispiel (Topologie eines normierten Raumes). Sei (E , k . k) ein normierter Raum. F¨ ur x ∈ E und ε ∈ (0, ∞) sei ¯ n o ¯ Bk . k (x, ε) := y ∈ E ¯ ky − xk < ε Die Menge Bk . k (x, ε) heißt offene Kugel um x mit Radius ε bez¨ uglich der Norm k . k. Sei ¯ n o ¯ Tk . k := Q ∈ 2E ¯ f¨ ur alle x ∈ Q gibt es ein ε ∈ (0, ∞) mit Bk . k (x, ε) ⊆ Q Dann ist Tk . k eine Topologie auf E und jede offene Kugel bez¨ uglich der Norm k . k ist offen bez¨ uglich der Topologie Tk . k . In der Tat: Wir zeigen zun¨ achst, dass Tk . k eine Topologie auf E ist: (i) Offenbar gilt E ∈ Tk . k und ∅ ∈ Tk . k . (ii) Sei {Qi }i∈I eine beliebige Familie von Mengen in Tk . k und sei [ Q := Qi i∈I
Sei x ∈ Q. Dann gibt es ein i ∈ I mit x ∈ Qi . Wegen Qi ∈ Tk . k gibt es ein ε ∈ (0, ∞) mit Bk . k (x, ε) ⊆ Qi und wegen Qi ⊆ Q folgt daraus Bk . k (x, ε) ⊆ Q. Daher gilt Q ∈ Tk . k . (iii) Sei {Qi }i∈I eine endliche Familie von Mengen in Tk . k und sei \ Q := Qi i∈I
Sei x ∈ Q. F¨ ur alle i ∈ I gilt x ∈ Qi und wegen Qi ∈ Tk . k gibt es f¨ ur alle i ∈ I ein εi ∈ (0, ∞) mit Bk . k (x, εi ) ⊆ Qi . Sei ε := mini∈I εi . Da I endlich ist, gilt ε ∈ (0, ∞) und f¨ urT alle i ∈ I ergibt sich Bk . k (x, ε) ⊆ Bk . k (x, εi ) ⊆ Qi . Daraus folgt Bk . k (x, ε) ⊆ i∈I Qi = Q. Daher gilt Q ∈ Tk . k . Daher ist Tk . k eine Topologie auf E. Wir zeigen nun, dass jede offene Kugel bez¨ uglich der Norm k . k offen bez¨ uglich der Topologie Tk . k ist: Sei x ∈ E und ε ∈ (0, ∞). F¨ ur y ∈ Bk . k (x, ε) sei ηy := ky − xk und εy := ε − ηy . Wegen ηy < ε gilt εy ∈ (0, ∞). F¨ ur alle z ∈ Bk . k (y, εy ) gilt daher kz−xk ≤ kz −yk + ky−xk < εy + ηy = (ε−ηy ) + ηy = ε und damit z ∈ Bk . k (x, ε). Da z ∈ Bk . k (y, εy ) beliebig war, ergibt sich Bk . k (y, εy ) ⊆ Bk . k (x, ε) Da y ∈ Bk . k (x, ε) beliebig war, ergibt sich Bk . k (x, ε) ∈ Tk . k Daher ist jede offene Kugel bez¨ uglich der Norm k . k offen bez¨ uglich der Topologie Tk . k .
F¨ ur einen normierten Raum (E, k . k) wird die in Beispiel 1.1.2 definierte Topologie Tk . k als die von der Norm k . k erzeugte Topologie oder als die Normtopologie bez¨ uglich der Norm k . k bezeichnet.
10
Kapitel 1. Mengensysteme
Wir betrachten nun Durchschnitte von Topologien: 1.1.3 Satz. Sei H eine nichtleere Indexmenge und sei {Th }h∈H eine Familie von Topologien auf Ω. Dann ist das Mengensystem \ T := Th h∈H
eine Topologie auf Ω. Beweis. Wir zeigen, dass T die Axiome einer Topologie erf¨ ullt: T (i) F¨ ur alle h ∈ H gilt Ω, ∅ ∈ Th . Daher gilt Ω, ∅ ∈ h∈H TT h =T. (ii) Sei {Qi }i∈I eine beliebige Familie von Mengen in T = h∈H Th . F¨ ur alle h ∈ H und f¨ u r alle i ∈ I gilt dann Q ∈ T . F¨ u r alle h ∈ H folgt daraus i h S S T i∈I Qi ∈ Th . Daher gilt i∈I Qi ∈ h∈H Th = T . T (iii) Sei {Qi }i∈I eine endliche Familie von Mengen in T = h∈H Th . F¨ ur alle h ∈ H und f¨ u r alle i ∈ I gilt dann Q ∈ T . F¨ u r alle h ∈ H folgt daraus i h T T T i∈I Qi ∈ Th . Daher gilt i∈I Qi ∈ h∈H Th = T . Daher ist T eine Topologie auf Ω. 2 Aus Satz 1.1.3 ergibt sich eine wichtige Folgerung: 1.1.4 Folgerung. Zu jedem Mengensystem E ⊆ 2Ω gibt es eine kleinste Topologie auf Ω, die E enth¨ alt. Beweis. Wir betrachten die Familie aller Topologien auf Ω, die E enthalten. Diese Familie ist nichtleer, denn die Potenzmenge 2Ω ist eine Topologie mit E ⊆ 2Ω . Nach Satz 1.1.3 ist der Durchschnitt aller Topologien, die E enthalten, ebenfalls eine Topologie. Diese Topologie enth¨alt E und ist offenbar die kleinste Topologie, die E enth¨alt. 2 F¨ ur ein Mengensystem E ⊆ 2Ω bezeichnen wir die kleinste Topologie auf Ω, die E enth¨ alt, mit τ (E) Diese Topologie wird als die von E erzeugte Topologie bezeichnet und das Mengensystem E wird als Erzeuger der Topologie τ (E) bezeichnet. 1.1.5 Beispiel (Topologie eines normierten Raumes). Sei (E, k . k) ein normierter Raum. Sei ferner ¯ n o ¯ Ek . k := Bk . k (x, ε) ¯ x ∈ E, ε ∈ (0, ∞) Dann gilt Tk . k = τ (Ek . k ) In der Tat: Nach Beispiel 1.1.2 gilt
1.1 Topologien
11 E k . k ⊆ Tk . k
und aus der Definition von τ (Ek . k ) folgt nun τ (Ek . k ) ⊆ Tk . k Sei nun T eine beliebige Topologie auf E mit Ek . k ⊆ T . Sei Q ∈ Tk . k . F¨ ur alle x ∈ Q gibt es ein εx ∈ (0, ∞) mit Bk . k (x, εx ) ⊆ Q. Daraus folgt [ [ Q= {x} ⊆ Bk . k (x, εx ) ⊆ Q x∈Q
x∈Q
S
und damit Q = x∈Q Bk . k (x, εx ). Wegen Bk . k (x, εx ) ∈ Ek . k ⊆ T gilt daher Q ∈ T . Daraus folgt zun¨ achst Tk . k ⊆ T und aus der Definition von τ (Ek . k ) folgt nun Tk . k ⊆ τ (Ek . k ) Daher gilt τ (Ek . k ) = Tk . k .
Auf einem Vektorraum k¨onnen mehrere Normen definiert sein; insbesondere ist jedes strikt positive Vielfache einer Norm wieder eine Norm. Interessanter ist das folgende Beispiel: 1.1.6 Beispiel (Normen auf Rn ). F¨ ur jedes p ∈ [1, ∞] ist die Abbildung k . kp : Rn → R+ mit à !1/p X p |x | falls p ∈ [1, ∞) i kxkp := i∈{1,...,n} max |xi | falls p = ∞ i∈{1,...,n}
n
eine Norm auf R .
Damit stellt sich die Frage, unter welchen Umst¨ anden die von verschiedenen Normen erzeugten Topologien u ¨bereinstimmen. 1.1.7 Beispiel (Topologien ¨ aquivalenter Normen). Sei E ein Vektorraum und seien k . k0 : E → R+ und k . k00 : E → R+ Normen. Die Normen k . k0 und k . k00 heißen ¨ aquivalent, wenn es reelle Zahlen c0 , c00 ∈ (0, ∞) gibt derart, dass f¨ ur alle x ∈ E kxk0 ≤ c00 · kxk00 kxk00 ≤ c0 · kxk0 gilt. Sind k . k0 : E → R+ und k . k00 : E → R+ ¨ aquivalente Normen, so gilt Tk . k0 = Tk . k00
12
Kapitel 1. Mengensysteme
In der Tat: Zum Nachweis der behaupteten Identit¨ at gen¨ ugt es, eine der Inklusionen Tk . k0 ⊆ Tk . k00 und Tk . k00 ⊆ Tk . k0 zu zeigen. Sei Q ∈ Tk . k0 . F¨ ur alle x ∈ Q gibt es ein εx ∈ (0, ∞) mit Bk . k0 (x, εx ) ⊆ Q. Daher gilt [ [ [ Q= {x} ⊆ Bk . k00 (x, εx /c00 ) ⊆ Bk . k0 (x, εx ) ⊆ Q x∈Q
und damit Q =
S x∈Q
x∈Q
x∈Q
Bk . k00 (x, εx /c00 ) ∈ Tk . k00 .
Ist E ein endlichdimensionaler Vektorraum, so sind alle Normen auf E aquivalent. In diesem Fall stimmen nach Beispiel 1.1.7 alle von einer Norm ¨ erzeugten Topologien auf E u ¨berein und die von einer beliebigen Norm auf E erzeugte Topologie T (E) wird als nat¨ urliche Topologie auf E bezeichnet. Ist T eine Topologie und E ⊆ T ein Mengensystem mit der Eigenschaft, dass jede Menge in T als Vereinigung von Mengen in E dargestellt werden kann, so heißt E Basis der Topologie T ; in diesem Fall gilt insbesondere T = τ (E). Das folgende Beispiel zeigt, dass die nat¨ urliche Topologie auf Rn eine abz¨ ahlbare Basis besitzt: 1.1.8 Beispiel (Nat¨ urliche Topologie auf Rn ). Sei k . k : Rn → R eine beliebige Norm und sei ¯ n o ¯ Ek . k,Q := Bk . k (x, ε) ¯ x ∈ Qn , ε ∈ Q ∩ (0, ∞) Dann ist Ek . k,Q abz¨ ahlbar und eine Basis der nat¨ urlichen Topologie T (Rn ). In der Tat: Offenbar ist Ek . k,Q abz¨ ahlbar und nach Beispiel 1.1.2 gilt Ek . k,Q ⊆ Tk . k = T (Rn ) Sei nun Q ∈ Tk . k . F¨ ur x ∈ Rn gibt es ein εx ∈ (0, ∞) mit Bk . k (x, εx ) ⊆ Q, und damit gibt es auch ein ηx ∈ Q ∩ (0, ∞) mit Bk . k (x, ηx ) ⊆ Q Außerdem gibt es ein zx ∈ Qn mit kzx −xk < ηx /2 und damit x ∈ Bk . k (zx , ηx /2) F¨ ur alle y ∈ Bk . k (zx , ηx /2) gilt ky−xk ≤ ky−zx k + kzx −xk < ηx /2 + ηx /2 = ηx und damit y ∈ Bk . k (x, ηx ). Daraus folgt Bk . k (zx , ηx /2) ⊆ Bk . k (x, ηx ) Daher gilt
1.1 Topologien Q=
13 [ x∈Q
{x} ⊆
[
Bk . k (zx , ηx /2) ⊆
x∈Q
und damit Q=
[
Bk . k (x, ηx ) ⊆ Q
x∈Q
[
Bk . k (zx , ηx /2)
x∈Q
Daher ist Ek . k,Q eine Basis von Tk . k = T (Rn ).
Ausgehend von der nat¨ urlichen Topologie auf R l¨ asst sich eine Topologie auf ¯ := R ∪ {−∞, ∞} definieren: der Menge R 1.1.9 Beispiel (Nat¨ urliche Topologie n ¯ := Q ∈ 2R¯ T (R)
¯ auf R). Das Mengensystem ¯ o ¯ ¯ Q ∩ R ∈ T (R)
¯ und wird als nat¨ ¯ bezeichnet. Die ist eine Topologie auf R urliche Topologie auf R ¯ besteht offenbar genau aus den Mengen der Form Q, nat¨ urliche Topologie auf R Q ∪ {−∞}, Q ∪ {∞}, Q ∪ {−∞, ∞} mit Q ∈ T (R).
Aufgaben 1.1.A
Sei T eine Topologie auf Ω. Zu jeder Menge A ∈ 2Ω gibt es eine gr¨ oßte offene Menge A◦ mit A◦ ⊆ A und eine kleinste abgeschlossene Menge A• mit A ⊆ A• . Die Menge A◦ heißt das Innere von A, die Menge A• heißt der Abschluss von A, und die Menge ∂A := A• \ A◦ heißt der Rand von A. Der Rand von A ist abgeschlossen.
1.1.B
Sei T eine Topologie auf Ω. Ist K ∈ 2Ω kompakt und A ∈ 2Ω abgeschlossen, so ist K ∩ A kompakt.
1.1.C
Mindestens eine der Topologien 2R und {∅, R} kann nicht durch eine Norm auf R erzeugt werden. Welche?
1.1.D
Topologie eines metrischen Raumes: Sei (E, d) ein metrischer Raum. F¨ ur x ∈ E und ε ∈ (0, ∞) sei ¯ n o ¯ Bd (x, ε) := y ∈ E ¯ d(y, x) < ε Die Menge Bd (x, ε) heißt offene Kugel um x mit Radius ε bez¨ uglich der Metrik d. Sei ¯ n o ¯ Td := Q ∈ 2E ¯ f¨ ur alle x ∈ Q gibt es ein ε ∈ (0, ∞) mit Bd (x, ε) ⊆ Q Dann ist Td eine Topologie auf E. Die Topologie Td wird als die von der Metrik d erzeugte Topologie bezeichnet. Sei ferner ¯ n o ¯ Ed := Bd (x, ε) ¯ x ∈ E, ε ∈ (0, ∞) Dann gilt Td = τ (Ed ).
1.1.E
Hausdorff–R¨ aume: Ein topologischer Raum (E, T ) heißt Hausdorff– Raum, wenn es f¨ ur alle x, y ∈ E mit x 6= y offene Mengen U, V ∈ T gibt mit x ∈ U und y ∈ V sowie U ∩ V = ∅. (1) F¨ ur jeden metrischen Raum (E, d) ist (E, Td ) ein Hausdorff–Raum. (2) In einem Hausdorff–Raum ist jede kompakte Menge abgeschlossen.
14
Kapitel 1. Mengensysteme
1.2 σ–Algebren Ein Mengensystem F ⊆ 2Ω heißt σ–Algebra auf Ω, wenn es die folgenden Eigenschaften besitzt: (i) Es gilt Ω ∈ F. (ii) F¨ ur jede Menge A ∈ F gilt A ∈ FS . (iii) F¨ ur jede Folge {An }n∈N ⊆ F gilt n∈N An ∈ F. Ist F ⊆ 2Ω eine σ–Algebra, so heißt eine Menge A ∈ 2Ω messbar bez¨ uglich F, wenn A ∈ F gilt. 1.2.1 Beispiele. (1) Die Potenzmenge 2Ω ist eine σ–Algebra auf Ω. (2) Das Mengensystem ¯ n o ¯ F := A ∈ 2Ω ¯ A oder A ist abz¨ ahlbar ist eine σ–Algebra auf Ω. (3) F¨ ur jede Menge A ∈ 2Ω mit A ∈ / {∅, Ω} ist das Mengensystem F := {∅, A, A, Ω} eine σ–Algebra auf Ω. (4) Das Mengensystem {∅, Ω} ist eine σ–Algebra auf Ω.
1.2.2 Lemma. Sei F eine σ–Algebra auf Ω. Dann gilt: (1) ∅ ∈ F. T (2) F¨ ur jede Folge {An }n∈N ⊆ F gilt n∈N An S ∈ F. T (3) F¨ ur jede endliche Familie {Ai }i∈I ⊆ F gilt i∈I Ai ∈ F und i∈I Ai ∈ F . Beweis. Es gilt ∅ = Ω ∈ F und f¨ ur jede Folge {An }n∈N ⊆ F gilt \ [ An = An n∈N
n∈N
T
und damit n∈N An ∈ F. Damit sind (1) und (2) gezeigt. Schließlich folgt (3) aus (1) und (2), da man jede endliche Familie von Mengen in F mit Hilfe der Mengen ∅ bzw. Ω zu einer Folge in F erweitern kann, ohne die Vereinigung bzw. den Durchschnitt zu ver¨andern. 2 Den n¨ achsten Satz und die anschließende Folgerung beweist man genau wie im Fall von Topologien: 1.2.3 Satz. Sei H eine nichtleere Indexmenge und sei {Fh }h∈H eine Familie von σ–Algebren auf Ω. Dann ist das Mengensystem \ F := Fh h∈H
eine σ–Algebra auf Ω.
1.2 σ–Algebren
15
1.2.4 Folgerung. Zu jedem Mengensystem E ⊆ 2Ω gibt es eine kleinste σ–Algebra auf Ω, die E enth¨ alt. F¨ ur ein Mengensystem E ⊆ 2Ω bezeichnen wir die kleinste σ–Algebra auf Ω, die E enth¨ alt, mit σ(E) Diese σ–Algebra wird als die von E erzeugte σ–Algebra bezeichnet und das Mengensystem E wird als Erzeuger der σ–Algebra σ(E) bezeichnet. F¨ ur eine Menge A ∈ 2Ω schreiben wir auch σ(A) anstelle von σ({A}) und bezeichnen σ(A) als die von A erzeugte σ–Algebra. Von Interesse sind unter anderem σ–Algebren auf Ω, die von einer Topologie auf Ω erzeugt werden. Ist T eine Topologie auf Ω, so wird die σ–Algebra B(Ω, T ) := σ(T ) als Borelsche σ–Algebra bez¨ uglich T bezeichnet. Jede Menge B ∈ B(Ω, T ) heißt Borel–Menge von Ω bez¨ uglich T . 1.2.5 Beispiel (Borelsche σ–Algebra auf Rn ). Die σ–Algebra B(Rn ) := σ(T (Rn )) wird als Borelsche σ–Algebra (bez¨ uglich der nat¨ urlichen Topologie) auf Rn bezeichnet; vgl. Aufgabe 1.2.A.
¯ Von Interesse ist auch die Borelsche σ–Algebra auf R: ¯ 1.2.6 Beispiel (Borelsche σ–Algebra auf R). Die σ–Algebra ¯ := σ(T (R)) ¯ B(R) ¯ bezeichnet. Es gilt wird als Borelsche σ–Algebra auf R ¯ n o ¯ = B ∈ 2R¯ ¯¯ B ∩ R ∈ B(R) B(R) ¯ besteht offenbar genau aus den Mengen der Form B, Die Borelsche σ–Algebra B(R) B ∪ {−∞}, B ∪ {∞}, B ∪ {−∞, ∞} mit B ∈ B(R).
Aufgaben 1.2.A
Borelsche σ–Algebra auf Rn : F¨ ur jede Norm k . k : Rn → R+ gilt B(Rn ) = σ(Ek . k,Q ) Insbesondere besitzt die Borelsche σ–Algebra auf Rn einen abz¨ ahlbaren Erzeuger.
1.2.B
Erzeugte σ–Algebra: Bestimmen Sie f¨ ur A ∈ 2Ω die σ–Algebra σ(A).
16
Kapitel 1. Mengensysteme
1.3 Dynkin–Systeme Ein Mengensystem D ⊆ 2Ω heißt Dynkin–System auf Ω, wenn es die folgenden Eigenschaften besitzt: (i) Es gilt Ω ∈ D. (ii) F¨ ur jede Menge A ∈ D gilt A ∈ D. P (iii) F¨ ur jede disjunkte Folge {An }n∈N ⊆ D gilt n∈N An ∈ D. 1.3.1 Lemma. Jede σ–Algebra ist ein Dynkin–System. Die Umkehrung der Implikation von Lemma 1.3.1 ist jedoch falsch; vgl. Beispiel 1.3.6. 1.3.2 Lemma. Sei D ein Dynkin–System. Dann gilt f¨ ur alle A, B ∈ D mit B⊆A A\B ∈D Beweis. Wegen B ⊆ A gilt A ∩ B = ∅ und damit A \ B = A ∩ B = A ∪ B = A + B ∈ D. 2 Den n¨ achsten Satz und die anschließende Folgerung beweist man genau wie im Fall von Topologien: 1.3.3 Satz. Sei H eine nichtleere Indexmenge und sei {Dh }h∈H eine Familie von Dynkin–Systemen auf Ω. Dann ist das Mengensystem \ D := Dh h∈H
ein Dynkin–System auf Ω. 1.3.4 Folgerung. Zu jedem Mengensystem E ⊆ 2Ω gibt es ein kleinstes Dynkin–System auf Ω, das E enth¨ alt. F¨ ur ein Mengensystem E ⊆ 2Ω bezeichnen wir das kleinste Dynkin–System auf Ω, das E enth¨alt, mit δ(E) Dieses Dynkin–System wird als das von E erzeugte Dynkin–System bezeichnet und das Mengensystem E wird als Erzeuger des Dynkin–Systems δ(E) bezeichnet. 1.3.5 Folgerung. Sei E ⊆ 2Ω ein Mengensystem. Dann gilt δ(E) ⊆ σ(E) Beweis. Die Behauptung folgt aus Lemma 1.3.1.
2
1.4 ∩–stabile Mengensysteme
17
Das folgende Beispiel zeigt, dass das von einem Mengensystem erzeugte Dynkin–System keine σ–Algebra zu sein braucht: 1.3.6 Beispiel. Sei Ω := {1, 2, 3, 4} und sei A := {1, 2} und B := {1, 3}. F¨ ur das Mengensystem E := {A, B} gilt dann δ(E) = {∅, A, A, B, B, Ω} 6= 2Ω = σ(E).
Unter einer zus¨ atzlichen Bedingung an das Mengensystem E, die wir im n¨ achsten Abschnitt behandeln, gilt jedoch δ(E) = σ(E).
1.4 ∩–stabile Mengensysteme Ein Mengensystem C ⊆ 2Ω heißt ∩–stabil , wenn f¨ ur alle A, B ∈ C A∩B ∈ C gilt. Offenbar ist jede Topologie und jede σ–Algebra ∩–stabil. Andererseits muss ein Dynkin–System nicht ∩–stabil sein; vgl. Beispiel 1.3.6. Der folgende Satz kl¨ art die Beziehung zwischen σ–Algebren und Dynkin–Systemen: 1.4.1 Satz. F¨ ur ein Mengensystem F ⊆ 2Ω sind folgende Aussagen ¨ aquivalent: (a) F ist eine σ–Algebra. (b) F ist ein ∩–stabiles Dynkin–System. Beweis. Wegen Lemma 1.2.2 und Lemma 1.3.1 ist jede σ–Algebra ein ∩– stabiles Dynkin–System. Sei nun F ein ∩–stabiles Dynkin–System. (i) Es gilt Ω ∈ F. (ii) F¨ ur jede Menge A ∈ F gilt A ∈ F . (iii) Sei {An }n∈N ⊆ F und ∞ [
A :=
An
n=1
Um zu zeigen, dass A ∈ F gilt, konstruieren wir eine disjunkte Folge {Bn }n∈N ⊆ F mit A=
∞ X
Bn
n=1
Die Folge {Cn }n∈N0 mit Cn :=
n [ k=1
Ak
18
Kapitel 1. Mengensysteme
(und damit C0 = ∅) ist monoton wachsend und die Folge {Bn }n∈N mit Bn := Cn \ Cn−1 ist disjunkt mit Cn =
n X
Bk
k=1
Daher gilt A=
∞ [
An =
n=1
∞ [ n [
Ak =
n=1 k=1
∞ [
Cn =
n=1
∞ X n [ n=1 k=1
Bk =
∞ X
Bn
n=1
Außerdem gilt f¨ ur alle n ∈ N Bn = Cn \ Cn−1 Ã n ! n−1 [ [ = Ak \ Ak k=1
= An \
k=1 n−1 [
Ak
k=1
= An ∩ = An ∩
n−1 [ k=1 n−1 \
Ak Ak
k=1
Da F ein ∩–stabiles Dynkin–System ist, folgt daraus {Bn }n∈N ⊆ F und damit A ∈ F. Damit ist gezeigt, dass F eine σ–Algebra ist. 2 Der folgende Satz zeigt, dass f¨ ur einen ∩–stabilen Erzeuger das erzeugte Dynkin–System mit der erzeugten σ–Algebra u ¨bereinstimmt: 1.4.2 Satz. Sei E ⊆ 2Ω ein ∩–stabiles Mengensystem. Dann ist δ(E) ∩–stabil und es gilt δ(E) = σ(E) Beweis. Ist E leer, so gilt δ(E) = {∅, Ω} = σ(E). Sei also E nichtleer. Nach Folgerung 1.3.5 gilt δ(E) ⊆ σ(E) Zum Beweis der Inklusion σ(E) ⊆ δ(E) gen¨ ugt es zu zeigen, dass das Dynkin–System δ(E) ∩–stabil ist, denn dann ist δ(E) nach Satz 1.4.1 eine σ–Algebra, die E und damit auch σ(E) enth¨ alt.
1.5 Halbringe und Ringe
19
F¨ ur B ∈ δ(E) sei ¯ n o ¯ DB := C ∈ 2Ω ¯ C ∩ B ∈ δ(E) Dann ist DB ein Dynkin–System: (i) Es gilt Ω ∩ B = B ∈ δ(E). Daher gilt Ω ∈ DB . (ii) Sei C ∈ DB . Dann gilt C ∩ B ∈ δ(E) und C ∩ B ⊆ B ∈ δ(E). Aus Lemma 1.3.2 folgt C ∩ B = B \ C = B \ (C ∩ B) ∈ δ(E). Daher gilt C ∈ DB . (iii) Sei {Cn }n∈N ⊆ DB disjunkt. Dann ist auch P P die Folge {Cn ∩B}n∈N ⊆ δ(E) disjunkt und es gilt ( C ) ∩ B = n n∈N n∈N (Cn ∩ B) ∈ δ(E). Daher gilt P C ∈ D . n B n∈N Sei E ∈ E. F¨ ur alle F ∈ E gilt, da E ∩–stabil ist, F ∩ E ∈ E ⊆ δ(E) und damit F ∈ DE . Daraus folgt zun¨achst E ⊆ DE und sodann δ(E) ⊆ DE Sei D ∈ δ(E). F¨ ur alle E ∈ E ergibt sich aus der letzten Inklusion D ∈ DE und damit E ∈ DD . Daraus folgt zun¨achst E ⊆ DD und sodann δ(E) ⊆ DD F¨ ur alle C, D ∈ δ(E) ergibt sich aus der letzten Inklusion C ∈ DD und damit C ∩ D ∈ δ(E). Daher ist das Dynkin–System δ(E) ∩–stabil. 2 Aufgaben 1.4.A
Der Durchschnitt einer nichtleeren Familie von ∩–stabilen Mengensystemen auf Ω ist ein ∩–stabiles Mengensystem.
1.4.B
Ein Mengensystem C ⊆ 2Ω heißt ∪–stabil, wenn f¨ ur alle A, B ∈ C A∪B ∈ C gilt. Jede Topologie und jede σ–Algebra ist ein ∪–stabiles Mengensystem.
1.4.C
Ein Mengensystem C ⊆ 2Ω heißt Verband , wenn es ∪–stabil und ∩–stabil ist. Jede Topologie und jede σ–Algebra ist ein Verband.
1.5 Halbringe und Ringe Ein Mengensystem H ⊆ 2Ω heißt Halbring auf Ω, wenn es die folgenden Eigenschaften besitzt: (i) Es gilt ∅ ∈ H. (ii) F¨ ur alle A, B ∈ H gilt A ∩ B ∈ H. (iii) F¨ ur alle A, BP ∈ H gibt es eine endliche disjunkte Familie {Cj }j∈J ⊆ H mit A \ B = j∈J Cj . Der Begriff des Halbringes ist durch das folgende Beispiel motiviert:
20
Kapitel 1. Mengensysteme
1.5.1 Beispiel (Halbring der halboffenen Intervalle auf Rn ). Wir setzen ¯ n o ¯ (a, b) := x ∈ Rn ¯ a < x < b ¯ n o ¯ (a, b] := x ∈ Rn ¯ a < x ≤ b ¯ n o ¯ [a, b] := x ∈ Rn ¯ a ≤ x ≤ b und – – – Das
bezeichnen (a, b) als offenes Intervall , (a, b] als halboffenes Intervall und [a, b] als abgeschlossenes Intervall . Mengensystem ¯ n o ¯ J (Rn ) := (a, b] ¯ a, b ∈ Rn mit a ≤ b
ist ein Halbring und wird als Halbring der halboffenen Intervalle auf Rn bezeichnet.
Das folgende Beispiel zeigt, dass die Borelsche σ–Algebra auf Rn auch durch den Halbring der halboffenen Intervalle des Rn erzeugt wird: 1.5.2 Beispiel (Borelsche σ–Algebra auf Rn ). Es gilt B(Rn ) = σ(J (Rn )) Außerdem enth¨ alt die Borelsche σ–Algebra B(Rn ) alle offenen und alle abgeschlossenen Intervalle und jede abz¨ ahlbare Teilmenge des Rn . In der Tat: Sei x ∈ Rn und ε ∈ (0, ∞). Dann gilt ¸ [µ 1 Bk . k∞ (x, ε) = (x − ε1, x + ε1) = x − ε1, x + ε1 − 1 n n∈N
und damit Bk . k∞ (x, ε) ∈ σ(J (Rn )). Daher gilt Ek . k∞ ⊆ σ(J (Rn )) und insbesondere Ek . k∞ ,Q ⊆ σ(J (Rn )) Nach Beispiel 1.1.8 ist das Mengensystem Ek . k∞ ,Q eine abz¨ ahlbare Basis der Topologie Tk . k∞ . Daraus ergibt sich nun Tk . k∞ ⊆ σ(J (Rn )) und damit σ(Tk . k∞ ) ⊆ σ(J (Rn )) Sei nun J ∈ J (Rn ). Dann gibt es a, b ∈ Rn mit a ≤ b und ¶ \µ 1 J = (a, b] = a, b + 1 n n∈N
n
Da jedes offene Intervall in R eine Menge in Tk . k∞ ist, folgt daraus J ∈ σ(Tk . k∞ ). Daher gilt J (Rn ) ⊆ σ(Tk . k∞ ) und damit σ(J (Rn )) ⊆ σ(Tk . k∞ )
1.5 Halbringe und Ringe
21
Daher gilt B(Rn ) = σ(Tk . k∞ ) = σ(J (Rn )) Außerdem gilt f¨ ur alle a, b ∈ Rn mit a ≤ b ¸ \µ 1 [a, b] = a − 1, b n n∈N und damit [a, b] ∈ B(Rn ), und f¨ ur alle x ∈ Rn ergibt sich dann {x} = [x, x] ∈ B(Rn ). Damit ist auch die abschließende Behauptung gezeigt.
¯ Wir betrachten nun Intervalle auf R: ¯ ¯ 1.5.3 Beispiel (Halbring der halboffenen Intervalle auf R). F¨ ur a, b ∈ R setzen wir ¯ n o ¯ ¯¯ a < x < b (a, b) := x ∈ R ¯ n o ¯ ¯¯ a < x ≤ b (a, b] := x ∈ R ¯ n o ¯ ¯¯ a ≤ x ≤ b [a, b] := x ∈ R und – – – Das
bezeichnen (a, b) als offenes Intervall , (a, b] als halboffenes Intervall und [a, b] als abgeschlossenes Intervall . Mengensystem ¯ n o ¯ := (a, b] ¯¯ a, b ∈ R ¯ mit a ≤ b J (R)
¯ bezeichnet. ist ein Halbring und wird als Halbring der halboffenen Intervalle auf R ¯ Es gilt 1.5.4 Beispiel (Borelsche σ–Algebra auf R). ¯ = σ(J (R)) ¯ B(R) ¯ In der Tat: Sei (a, b] ∈ J (R). ¯ – Im Fall b = −∞ gilt (a, b] ∩ R = ∅ ∈ B(R) und damit (a, b] ∈ B(R). ¯ – Im Fall b ∈ R gilt (a, b] ∩ R = (a, b] ∈ B(R) und damit (a, b] ∈ B(R). ¯ – Im Fall b = ∞ gilt (a, b] ∩ R = (a, ∞) ∈ B(R) und damit (a, b] ∈ B(R). ¯ ⊆ B(R) ¯ und sodann Daraus folgt zun¨ achst J (R) ¯ ⊆ B(R) ¯ σ(J (R)) ¯ Dann gilt Q ∩ R ∈ B(R) und damit Sei nun Q ∈ B(R). ¯ – Im Fall Q ∈ B(R) gilt Q ∈ σ(J (R)) ⊆ σ(J (R)). ¯ – Im Fall Q = {∞} gilt Q = (−∞, ∞] \ R ∈ σ(J (R)). ¯ \ (−∞, ∞] ∈ σ(J (R)). ¯ – Im Fall Q = {−∞} gilt Q = R ¯ Daraus folgt zun¨ achst B(R) ∪ {∞} ∪ {−∞} ⊆ σ(J (R)) und sodann ¯ ⊆ σ(J (R)) ¯ B(R) Damit ist die Behauptung gezeigt.
22
Kapitel 1. Mengensysteme
Wir betrachten abschließend eine weitere Klasse von Mengensystemen, die mit Halbringen verwandt sind: Ein Mengensystem R ⊆ 2Ω heißt Ring auf Ω, wenn es die folgenden Eigenschaften besitzt: (i) Es gilt ∅ ∈ R. (ii) F¨ ur alle A, B ∈ R gilt A \ B ∈ R. (iii) F¨ ur alle A, B ∈ R gilt A ∪ B ∈ R. 1.5.5 Lemma. Jeder Ring ist ein Halbring. Beweis. Wegen A ∩ B = (A ∪ B) \ ((A\B) ∪ (B\A)) ist jeder Ring ∩–stabil. Daraus folgt die Behauptung. 2 Das folgende Beispiel zeigt, dass die Umkehrung der Implikation von Lemma 1.5.5 im allgemeinen falsch ist: 1.5.6 Beispiel. Sei Ω := {1, 2, 3} und H := {∅, {1}, {2}, {3}, Ω}. Dann ist H ein Halbring, aber kein Ring.
Der Durchschnitt einer nichtleeren Familie von Ringen auf Ω ist ein Ring; vgl. Aufgabe 1.5.F. Daher gibt es zu jedem Mengensystem E ⊆ 2Ω einen kleinsten Ring %(E) auf Ω, der E enth¨ alt. Dieser Ring wird als der von E erzeugte Ring bezeichnet und das Mengensystem E wird als Erzeuger des Ringes %(E) bezeichnet. Der folgende Satz gibt eine explizite Darstellung des von einem Halbring erzeugten Ringes: 1.5.7 Satz (Der von einem Halbring erzeugte Ring). Sei H ⊆ 2Ω ein Halbring und sei ¯ ( ) ¯ X Ω ¯ R := A ∈ 2 ¯ A = Hi mit I endlich und {Hi }i∈I ⊆ H disjunkt ¯ i∈I
Dann gilt R = %(H). Beweis. Es gilt H ⊆ R ⊆ %(H). Daher gen¨ ugt es zu zeigen, dass R ein Ring ist. (i) Wegen ∅ ∈ H und H ⊆ R gilt ∅ ∈ R. (ii) Sei A, B ∈ R. Dann gibtPes endliche disjunkte P Familien {Gi }i∈I ⊆ H und {Hj }j∈J ⊆ H mit A = i∈I Gi und B = j∈J Hj , und es gilt à ! à ! X X A\B = Gi \ Hj i∈I
j∈J
1.5 Halbringe und Ringe
23
=
X
Gi ∩
i∈I
=
X\
\
Hj
j∈J
Gi ∩ Hj
i∈I j∈J
=
X\
Gi \ Hj
i∈I j∈J
Da H ein Halbring ist, T gilt Gi \ Hj ∈ R. Da H ∩–stabil ist, ist auch R ∩–stabil und es gilt j∈J \ Hj ∈ R. Da die Familie {Gi }i∈I disjunkt P GiT ist, gilt sogar A \ B = i∈I j∈J Gi \ Hj ∈ R. (iii) Sei A, B ∈ R. Da R ∩–stabil ist, gilt A ∩ B ∈ R, und aus (ii) folgt A \ B ∈ R und B \ A ∈ R. Wegen A ∪ B = (A \ B) + (A ∩ B) + (B \ A) gilt dann auch A ∪ B ∈ R. Daher ist R ein Ring. 2 Aufgaben 1.5.A
Sei H ⊆ 2Ω ein Halbring und sei {Ai }i∈I ⊆ H eine endliche Familie. Dann gibt es eine endliche S disjunkte Familie {Cj }j∈J ⊆ H und eine Familie {Ji }i∈I ⊆ 2J mit i∈I Ji = J derart, dass [
Ai =
i∈I
X
Cj
j∈J
und f¨ ur alle i ∈ I Ai =
X
Cj
j∈Ji
gilt. 1.5.B
Ist der Durchschnitt einer nichtleeren Familie von Halbringen auf Ω ein Halbring?
1.5.C
Jedes offene Intervall des Rn ist eine offene Menge bez¨ uglich der nat¨ urlichen Topologie, und jedes abgeschlossene Intervall des Rn ist eine abgeschlossene Menge bez¨ uglich der nat¨ urlichen Topologie.
1.5.D
Borelsche σ–Algebra auf Rn : Sei ¯ n o ¯ J (Qn ) := (a, b] ¯ a, b ∈ Qn Dann gilt B(Rn ) = σ(J (Qn )).
1.5.E
Jeder Ring ist ein Verband.
1.5.F
Der Durchschnitt einer nichtleeren Familie von Ringen auf Ω ist ein Ring.
1.5.G
F¨ ur ein Mengensystem R ⊆ 2Ω sind folgende Aussagen ¨ aquivalent: (a) R ist ein Ring. (b) R ist ein ∪–stabiler Halbring.
24
Kapitel 1. Mengensysteme
1.5.H
Ideale: Sei R ⊆ 2Ω ein Ring. Ein Mengensystem I ⊆ R heißt Ideal in R, wenn es die folgenden Eigenschaften besitzt: (i) Es gilt ∅ ∈ I. (ii) F¨ ur alle A ∈ I und alle B ∈ R mit B ⊆ A gilt B ∈ I. (iii) F¨ ur alle A, B ∈ I gilt A ∪ B ∈ I. Jedes Ideal in einem Ring ist ein Ring.
1.5.I
Algebren: Ein Mengensystem R ⊆ 2Ω heißt Algebra auf Ω, wenn es die folgenden Eigenschaften besitzt: (i) Es gilt Ω ∈ R. (ii) F¨ ur alle A ∈ R gilt A ∈ R. (iii) F¨ ur alle A, B ∈ R gilt A ∪ B ∈ R. Jede σ–Algebra ist eine Algebra, und jede Algebra ist ein Ring.
1.5.J
σ–Ringe: Ein Mengensystem R ⊆ 2Ω heißt σ–Ring auf Ω, wenn es die folgenden Eigenschaften besitzt: (i) Es gilt ∅ ∈ R. (ii) F¨ ur alle A, B ∈ R gilt A \ B ∈ R.S (iii) F¨ ur jede Folge {An }n∈N ⊆ R gilt n∈N An ∈ R. Jede σ–Algebra ist ein σ–Ring, und jeder σ–Ring ist ein Ring.
1.5.K
σ–Ideale: Sei R ⊆ 2Ω ein σ–Ring. Ein Mengensystem I ⊆ R heißt σ–Ideal in R, wenn es die folgenden Eigenschaften besitzt: (i) Es gilt ∅ ∈ I. (ii) F¨ ur alle A ∈ I und f¨ ur alle B ∈ RSmit B ⊆ A gilt B ∈ I. (iii) F¨ ur jede Folge {An }n∈N ⊆ I gilt n∈N An ∈ I. Jedes σ–Ideal in einem σ–Ring ist ein σ–Ring.
1.5.L
Stellen Sie die Inklusionen zwischen den in diesem Kapitel betrachteten Klassen von Mengensystemen in einem Diagramm dar.
1.5.M
Borelsche σ–Algebra auf R: Sei ¯ n o ¯ E := (−∞, c] ¯ c ∈ R Dann gilt B(R) = σ(E).
1.5.N
¯ Sei Borelsche σ–Algebra auf R: ¯ n o ¯ E¯ := [−∞, c] ¯ c ∈ R ¯ = σ(E). ¯ Dann gilt B(R)
2 Topologische R¨ aume und messbare R¨ aume
In diesem Kapitel betrachten wir Abbildungen zwischen Mengen, die beide mit einer Topologie oder beide mit einer σ–Algebra ausgestattet sind. In beiden F¨ allen sind die wichtigsten Abbildungen durch Eigenschaften ihres Urbildes definiert. Wir erinnern zun¨ achst an die Eigenschaften des Urbildes einer Abbildung und definieren das Urbild eines Mengensystems (Abschnitt 2.1). Wir betrachten sodann topologische R¨aume und stetige Abbildungen zwischen topologischen R¨ aumen (Abschnitt 2.2) sowie messbare R¨aume und messbare Abbildungen zwischen messbaren R¨aumen (Abschnitt 2.3). Die Beweise der allgemeinen Ergebnisse u ¨ber topologische oder messbare R¨ aume und u ¨ber stetige oder messbare Abbildungen verlaufen analog und werden daher nur f¨ ur topologische R¨aume und stetige Abbildungen ausgef¨ uhrt. F¨ ur Abbildungen zwischen topologischen R¨aumen ergibt sich ein interessanter Zusammenhang zwischen der Stetigkeit bez¨ uglich den gegebenen Topologien und der Messbarkeit bez¨ uglich den zugeh¨origen Borelschen σ–Algebren.
2.1 Urbilder von Mengensystemen Im gesamten Abschnitt seien Ω und Ω0 nichtleere Mengen und sei f : Ω → Ω0 eine Abbildung. F¨ ur A ∈ 2Ω heißt die Menge n f (A) := ω 0 ∈ Ω0
¯ o ¯ 0 ur ein ω ∈ A ¯ ω = f (ω) f¨
das Bild von A unter f . K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_2, © Springer-Verlag Berlin Heidelberg 2011
26
Kapitel 2. Topologische R¨ aume und messbare R¨ aume 0
Die Abbildung f −1 : 2Ω → 2Ω mit ¯ n o ¯ f −1 (A0 ) := ω ∈ Ω ¯ f (ω) ∈ A0 0
heißt Urbild von f und f¨ ur A0 ∈ 2Ω heißt die Menge f −1 (A0 ) das Urbild von 0 A unter f . Das Urbild einer Abbildung kommutiert mit den grundlegenden Operationen der Mengenlehre: 2.1.1 Lemma. (1) Es gilt f −1 (Ω0 ) = Ω und f −1 (∅) = ∅. 0 (2) F¨ ur alle A0 ∈ 2Ω gilt f −1 (A0 ) = f −1 (A0 ) 0
(3) F¨ ur jede Familie {A0i }i∈I ⊆ 2Ω gilt à ! [ [ −1 0 f Ai = f −1 (A0i ) i∈I
und
à f
−1
\
i∈I
i∈I
! A0i
=
\
f −1 (A0i )
i∈I
Insbesondere sind die Urbilder disjunkter Mengen disjunkt. 0
F¨ ur ein Mengensystem E 0 ⊆ 2Ω heißt das Mengensystem ¯ n o ¯ f −1 (E 0 ) := A ∈ 2Ω ¯ A = f −1 (A0 ) mit A0 ∈ E 0 das Urbild von E 0 unter f . 2.1.2 Folgerung. (1) Das Urbild einer Topologie ist eine Topologie. (2) Das Urbild einer σ–Algebra ist eine σ–Algebra. Aufgabe 0
2.1.A
F¨ ur alle A0 , B 0 ∈ 2Ω gilt f −1 (A0 \ B 0 ) = f −1 (A0 ) \ f −1 (B 0 ).
2.1.B
F¨ ur welche der in Kapitel 1 eingef¨ uhrten Klassen von Mengensystemen 0 besitzt das Urbild f −1 (E 0 ) eines Mengensystems E 0 ⊆ 2Ω dieselben Eigen0 schaften wie E ?
2.1.C
Sei Ω := {1, 2, 3} und Ω0 := {1, 2, 3, 4} und sei f : Ω → Ω0 gegeben durch f (ω) := ω Dann gibt es ein Dynkin–System D 0 auf Ω0 derart, dass f −1 (D 0 ) kein Dynkin–System ist.
2.2 Topologische R¨ aume und stetige Abbildungen
27
2.2 Topologische R¨ aume und stetige Abbildungen Ist Ω eine nichtleere Menge und T eine Topologie auf Ω, so wird das Paar (Ω, T ) als topologischer Raum bezeichnet. Sind (Ω, T ) und (Ω0 , T 0 ) topologische R¨aume, so heißt eine Abbildung f : Ω → Ω0 T –T 0 –stetig oder T –stetig oder stetig f¨ ur T oder kurz stetig, wenn f −1 (T 0 ) ⊆ T gilt. Ist Ω eine nichtleere Menge und (Ω0 , T 0 ) ein topologischer Raum, so ist jede Abbildung f : Ω → Ω0 stetig f¨ ur die Topologie 2Ω und aus Folgerung 1.1.4 ergibt sich nun, dass es eine kleinste Topologie τ (f ) auf Ω gibt, f¨ ur die f stetig ist; diese Topologie wird als die von f erzeugte Topologie bezeichnet. Nach Folgerung 2.1.2 ist auch das Mengensystem f −1 (T 0 ) eine Topologie auf Ω, f¨ ur die f offenbar stetig ist. Wir erhalten damit den folgenden Satz: 2.2.1 Satz. Sei Ω eine nichtleere Menge und sei (Ω0 , T 0 ) ein topologischer Raum. Dann gilt f¨ ur jede Abbildung f : Ω → Ω0 τ (f ) = f −1 (T 0 ) Sind also (Ω, T ) und (Ω0 , T 0 ) topologische R¨aume, so ist eine Abbildung f : Ω → Ω0 genau dann stetig, wenn die von f erzeugte Topologie τ (f ) in der Topologie T enthalten ist. 0
2.2.2 Lemma. Sei E 0 ⊆ 2Ω ein Mengensystem und sei f : Ω → Ω0 eine Abbildung. Dann gilt τ (f −1 (E 0 )) = f −1 (τ (E 0 )) Beweis. Wegen E 0 ⊆ τ (E 0 ) gilt f −1 (E 0 ) ⊆ f −1 (τ (E 0 )) und aus Folgerung 2.1.2 folgt, dass f −1 (τ (E 0 )) eine Topologie ist. Daher gilt τ (f −1 (E 0 )) ⊆ f −1 (τ (E 0 )) Zum Nachweis der umgekehrten Inklusion betrachten wir das Mengensystem ¯ n o 0 ¯ T00 := A0 ∈ 2Ω ¯ f −1 (A0 ) ∈ τ (f −1 (E 0 ))
28
Kapitel 2. Topologische R¨ aume und messbare R¨ aume
Dann gilt E 0 ⊆ T00 und aus Lemma 2.1.1 folgt, dass T00 eine Topologie ist. Daher gilt τ (E 0 ) ⊆ T00 und damit f −1 (τ (E 0 )) ⊆ f −1 (T00 ) ⊆ τ (f −1 (E 0 )) Damit ist das Lemma bewiesen.
2
Der folgende Satz erleichtert den Nachweis der Stetigkeit einer Abbildung zwischen topologischen R¨aumen: 2.2.3 Satz (Stetige Abbildungen). Seien (Ω, T ) und (Ω0 , T 0 ) topologische R¨ aume und sei E 0 ein Erzeuger von T 0 und f : Ω → Ω0 eine Abbildung. Dann sind folgende Aussagen ¨ aquivalent: (a) f ist stetig. (b) Es gilt f −1 (E 0 ) ⊆ T . Beweis. Wir nehmen zun¨achst an, dass f stetig ist. Dann gilt f −1 (T 0 ) ⊆ T , und wegen E 0 ⊆ τ (E 0 ) = T 0 ergibt sich daraus f −1 (E 0 ) ⊆ f −1 (T 0 ) ⊆ T . Daher folgt (b) aus (a). Wir nehmen nun an, dass f −1 (E 0 ) ⊆ T gilt. Da T eine Topologie ist, gilt dann auch τ (f −1 (E 0 )) ⊆ T , und mit Lemma 2.2.2 erhalten wir f −1 (T 0 ) = f −1 (τ (E 0 )) = τ (f −1 (E 0 )) ⊆ T . Daher folgt (a) aus (b). 2 2.2.4 Lemma (Komposition). Seien (Ω, T ), (Ω0 , T 0 ) und (Ω00 , T 00 ) topologische R¨ aume und seien f : Ω → Ω0 und g : Ω0 → Ω00 stetig. Dann ist auch die Komposition g ◦ f stetig. Beweis. Es gilt (g ◦ f )−1 (T 00 ) = f −1 (g −1 (T 00 )) ⊆ f −1 (T 0 ) ⊆ T .
2
Wir betrachten nun stetige Abbildungen zwischen normierten R¨ aumen: 2.2.5 Beispiel (Stetige Abbildungen zwischen normierten R¨ aumen). Seien (E, k . k) und (E 0 , k . k0 ) normierte R¨ aume. Eine Abbildung f : E → E 0 heißt stetig in x ∈ E, wenn es f¨ ur alle ε ∈ (0, ∞) ein δ ∈ (0, ∞) gibt derart, dass f¨ ur alle y ∈ E mit ky −xk < δ auch kf (y)−f (x)k0 < ε gilt. F¨ ur eine Abbildung f : E → E 0 sind folgende Aussagen ¨ aquivalent: (a) f ist stetig. (b) F¨ ur alle x ∈ E ist f stetig in x. In der Tat: Sei zun¨ achst f stetig und x ∈ E. F¨ ur alle ε ∈ (0, ∞) gilt Bk . k0 (f (x), ε) ∈ Tk . k0 . Aus der Stetigkeit von f folgt x ∈ f −1 (Bk . k0 (f (x), ε)) ∈ Tk . k . Daher gibt es ein δ ∈ (0, ∞) mit Bk . k (x, δ) ⊆ f −1 (Bk . k0 (f (x), ε)). F¨ ur alle y ∈ E mit ky − xk < δ gilt daher y ∈ Bk . k (x, δ) ⊆ f −1 (Bk . k0 (f (x), ε)) und damit f (y) ∈ Bk . k0 (f (x), ε), also kf (y)−f (x)k0 < ε. Daher ist f f¨ ur alle x ∈ E stetig in x. Sei nun f f¨ ur alle x ∈ E stetig in x und sei Q0 ∈ Tk . k0 . F¨ ur alle x ∈ f −1 (Q0 ) gilt f (x) ∈ Q0 . Daher gibt es ein ε ∈ (0, ∞) mit Bk . k0 (f (x), ε) ⊆ Q0 . Da f stetig in x ist, gibt es ein δ ∈ (0, ∞) mit f (Bk . k (x, δ)) ⊆ Bk . k0 (f (x), ε) ⊆ Q0 und damit Bk . k (x, δ) ⊆ f −1 (Q0 ). Daraus folgt f −1 (Q0 ) ∈ Tk . k . Daher ist f stetig. Damit ist die Behauptung bewiesen.
2.3 Messbare R¨ aume und messbare Abbildungen
29
Aufgaben 2.2.A
Spurtopologie: Sei (Ω, T ) ein topologischer Raum. Dann ist f¨ ur jede nichtleere Menge C ∈ 2Ω das Mengensystem ¯ n o ¯ T (C) := D ∈ 2Ω ¯ D = A ∩ C f¨ ur eine Menge A ∈ T eine Topologie auf C. Die Topologie T (C) heißt Spurtopologie oder kurz Spur von T auf C.
2.2.B
Restriktion: Seien (Ω, T ) und (Ω0 , T 0 ) topologische R¨ aume und sei f : Ω → Ω0 stetig. Dann ist f¨ ur jede nichtleere Menge C ∈ 2Ω die Abbildung f |C : C → Ω0 mit f |C (c) := f (c) T (C)–T 0 –stetig. Die Abbildung f |C heißt Restriktion von f auf C.
2.2.C
Seien (Ω, T ) und (Ω0 , T 0 ) topologische R¨ aume und sei f : Ω → Ω0 stetig. Ω Ist K ∈ 2 kompakt, so ist auch f (K) kompakt.
2.2.D
Bildtopologie: Sei (Ω, T ) ein topologischer Raum, sei Ω0 eine nichtleere Menge und sei f : Ω → Ω0 eine Abbildung. Dann ist das Mengensystem ¯ n o 0 ¯ Tf := A0 ∈ 2Ω ¯ f −1 (A0 ) ∈ T eine Topologie auf Ω0 , f¨ ur die f stetig ist. Die Topologie Tf ist die gr¨ oßte Topologie auf Ω0 , f¨ ur die f stetig ist. Die Topologie Tf heißt Bildtopologie von T unter f .
2.2.E
Stetige Abbildungen zwischen metrischen R¨ aumen: Seien (E, d) und (E 0 , d0 ) metrische R¨ aume. Eine Abbildung f : E → E 0 heißt stetig in x ∈ E , wenn es f¨ ur alle ε ∈ (0, ∞) ein δ ∈ (0, ∞) gibt derart, dass f¨ ur alle y ∈ E mit d(y, x) < δ auch d0 (f (y), f (x)) < ε gilt. F¨ ur eine Abbildung f : E → E 0 sind folgende Aussagen ¨ aquivalent: (a) f ist stetig. (b) F¨ ur alle x ∈ E ist f stetig in x.
2.3 Messbare R¨ aume und messbare Abbildungen Ist Ω eine nichtleere Menge und F eine σ–Algebra auf Ω, so wird das Paar (Ω, F) als messbarer Raum oder als Messraum bezeichnet. Sind (Ω, F ) und (Ω0 , F 0 ) messbare R¨aume, so heißt eine Abbildung f : Ω → Ω0 F–F 0 –messbar oder F –messbar oder messbar f¨ ur F oder kurz messbar , wenn f −1 (F 0 ) ⊆ F gilt.
30
Kapitel 2. Topologische R¨ aume und messbare R¨ aume
Ist Ω eine nichtleere Menge und (Ω0 , F 0 ) ein messbarer Raum, so ist jede Abbildung f : Ω → Ω0 messbar f¨ ur die σ–Algebra 2Ω und aus Folgerung 1.2.4 ergibt sich nun, dass es eine kleinste σ–Algebra σ(f ) auf Ω gibt, f¨ ur die f messbar ist; diese σ–Algebra wird als die von f erzeugte σ– Algebra bezeichnet. Nach Folgerung 2.1.2 ist auch das Mengensystem f −1 (F 0 ) eine σ–Algebra auf Ω, f¨ ur die f offenbar messbar ist. Wir erhalten damit den folgenden Satz: 2.3.1 Satz. Sei Ω eine nichtleere Menge und sei (Ω0 , F 0 ) ein messbarer Raum. Dann gilt f¨ ur jede Abbildung f : Ω → Ω0 σ(f ) = f −1 (F 0 ) Sind also (Ω, F) und (Ω0 , F 0 ) messbare R¨aume, so ist eine Abbildung f : Ω → Ω0 genau dann messbar, wenn die von f erzeugte σ–Algebra σ(f ) in der σ–Algebra F enthalten ist. 0
2.3.2 Lemma. Sei E 0 ⊆ 2Ω ein Mengensystem und sei f : Ω → Ω0 eine Abbildung. Dann gilt σ(f −1 (E 0 )) = f −1 (σ(E 0 )) Der folgende Satz erleichtert den Nachweis der Messbarkeit einer Abbildung zwischen messbaren R¨aumen: 2.3.3 Satz (Messbare Abbildungen). Seien (Ω, F) und (Ω0 , F 0 ) messbare R¨ aume und sei E 0 ein Erzeuger von F 0 und f : Ω → Ω0 eine Abbildung. Dann sind folgende Aussagen ¨ aquivalent: (a) f ist messbar. (b) Es gilt f −1 (E 0 ) ⊆ F. 2.3.4 Lemma (Komposition). Seien (Ω, F ), (Ω0 , F 0 ) und (Ω00 , F 00 ) messbare R¨ aume und seien f : Ω → Ω0 und g : Ω0 → Ω00 messbar. Dann ist auch die Komposition g ◦ f messbar. Wir zeigen nun, dass stetige Abbildungen zwischen topologischen R¨ aumen bez¨ uglich den zugeh¨origen Borelschen σ–Algebren messbar sind: 2.3.5 Satz (Stetigkeit und Messbarkeit). Sei T eine Topologie auf Ω und sei T 0 eine Topologie auf Ω0 . Dann ist jede T –T 0 –stetige Abbildung Ω → Ω0 B(Ω, T )–B(Ω0 , T 0 )–messbar.
2.3 Messbare R¨ aume und messbare Abbildungen
31
Beweis. Sei f : Ω → Ω0 T –T 0 –stetig. Dann gilt f −1 (T 0 ) ⊆ T ⊆ σ(T ) und damit σ(f −1 (T 0 )) ⊆ σ(T ) Aus Lemma 2.3.2 folgt nun f −1 (B(Ω0 , T 0 )) = f −1 (σ(T 0 )) = σ(f −1 (T 0 )) ⊆ σ(T ) = B(Ω, T ) Daher ist f B(Ω, T )–B(Ω0 , T 0 )–messbar.
2
2.3.6 Beispiel. Jede (bez¨ uglich der nat¨ urlichen Topologien auf Rm und Rn ) stetige m n Abbildung f : R → R ist (bez¨ uglich der Borelschen σ–Algebren auf Rm und Rn ) messbar.
Andererseits zeigen die folgenden Beispiele, dass eine messbare Abbildung zwischen topologischen R¨aumen nicht notwendigerweise stetig ist: 2.3.7 Beispiele. (1) Dirichlet–Funktion: Die Dirichlet–Funktion f : R → R mit ½ 1 falls x ∈ Q f (x) := 0 sonst ist messbar, aber nicht stetig. In der Tat: Da Q abz¨ ahlbar ist, gilt Q ∈ B(R). Wegen f −1 ({1}) = Q und −1 f ({0}) = R \ Q gilt f¨ ur alle B ∈ B(R) falls 0 ∈ B und 1 ∈ B R R \ Q falls 0 ∈ B und 1 ∈ /B −1 f (B) = Q falls 0 ∈ / B und 1 ∈ B ∅ falls 0 ∈ / B und 1 ∈ /B und damit f −1 (B) ∈ B(R). Daher ist f messbar. (2) Monotone Funktionen: Jede monotone Funktion f : R → R ist messbar. In der Tat: Wir nehmen zun¨ achst an, dass f monoton wachsend ist, und betrachten das Mengensystem ¯ n o ¯ E := (−∞, c] ¯ c ∈ R Dann gilt B(R) = σ(E). Da f monoton wachsend ist, gilt f¨ ur alle B ∈ E entweder f −1 (B) ∈ {∅, R} oder es gibt ein a ∈ R mit f −1 (B) ∈ {(−∞, a), (−∞, a]}; in beiden F¨ allen gilt daher f −1 (B) ∈ B(R). Daher gilt f −1 (E) ⊆ B(R), und aus Satz 2.3.3 folgt nun, dass f messbar ist. Wir nehmen nun an, dass f monoton fallend ist, und betrachten die Funktionen g, h : R → R mit g(x) := −f (x) und h(x) := −x. Dann ist g monoton wachsend und damit messbar, h ist stetig und damit messbar, und es gilt f = h ◦ g. Aus Lemma 2.3.4 folgt nun, dass f messbar ist.
32
Kapitel 2. Topologische R¨ aume und messbare R¨ aume
Aufgaben 2.3.A
Spur–σ–Algebra: Sei (Ω, F ) ein messbarer Raum. Dann ist f¨ ur jede nichtleere Menge C ∈ 2Ω das Mengensystem ¯ n o ¯ F (C) := D ∈ 2Ω ¯ D = A ∩ C f¨ ur eine Menge A ∈ F eine σ–Algebra auf C. Die σ–Algebra F (C) heißt Spur–σ–Algebra oder kurz Spur von F auf C.
2.3.B
Restriktion: Seien (Ω, F ) und (Ω0 , F 0 ) messbare R¨ aume und sei f : Ω → Ω0 messbar. Dann ist f¨ ur jede nichtleere Menge C ∈ 2Ω die Abbildung f |C : C → Ω0 mit f |C (c) := f (c) F (C)–F 0 –messbar. Die Abbildung f |C heißt Restriktion von f auf C.
2.3.C
Bild–σ–Algebra: Sei (Ω, F ) ein messbarer Raum, sei Ω0 eine nichtleere Menge und sei f : Ω → Ω0 eine Abbildung. Dann ist das Mengensystem ¯ n o 0 ¯ Ff := A0 ∈ 2Ω ¯ f −1 (A0 ) ∈ F eine σ–Algebra auf Ω0 , f¨ ur die f messbar ist. Die σ–Algebra Ff ist die gr¨ oßte σ–Algebra auf Ω0 , f¨ ur die f messbar ist. Die σ–Algebra Ff heißt Bild–σ–Algebra von F unter f .
3 Produktr¨ aume
In diesem Kapitel f¨ uhren wir ein allgemeines Prinzip zur Konstruktion von topologischen oder messbaren R¨aumen auf dem Produkt der Grundmengen einer Familie von topologischen oder messbaren R¨ aumen ein. Wir definieren zun¨achst das Produkt einer Familie von Mengen und das Produkt einer Familie von Mengensystemen (Abschnitt 3.1). Die Forderung der Stetigkeit bzw. der Messbarkeit aller Projektionen des Produktes der Familie der Grundmengen auf seine Koordinaten f¨ uhrt dann in nat¨ urlicher Weise auf die Definition des Produktes einer Familie topologischer R¨ aume (Abschnitt 3.2) und auf die Definition des Produktes einer Familie messbarer R¨ aume (Abschnitt 3.3). Die Beweise der allgemeinen Ergebnisse u ¨ber Produkte von topologischen oder messbaren R¨ aumen verlaufen analog und werden daher nur f¨ ur Produkte von topologischen R¨ aumen ausgef¨ uhrt. Sei I eine nichtleere Indexmenge und sei H(I) die Familie der endlichen nichtleeren Teilmengen von I.
3.1 Produkte und Projektionen Sei {Ωi }i∈I S eine Familie von nichtleeren Mengen. Die Menge aller Abbildungen ω : I → i∈I Ωi mit ω(i) ∈ Ωi f¨ ur alle i ∈ I heißt das Produkt der Familie {Ωi }i∈I und wird mit Y Ωi Q
i∈I
bezeichnet. F¨ ur ω ∈ i∈I Ωi und i ∈ I setzen wir ωi := ω(i) und nennen ωi die i–te Koordinate von ω. Außerdem identifizieren wir jede Abbildung Q ω ∈ i∈I Ωi mit der Familie {ωi }i∈I ihrer Koordinaten. Dann l¨ asst sich das Produkt der Familie {Ωi }i∈I in der Form K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_3, © Springer-Verlag Berlin Heidelberg 2011
34
Kapitel 3. Produktr¨ aume
Y
¯ n o ¯ Ωi = {ωi }i∈I ¯ ωi ∈ Ωi f¨ ur alle i ∈ I
i∈I
darstellen; im Fall Ωi = Ω f¨ ur alle i ∈ I setzen wir Y ΩI := Ω i∈I
F¨ ur j ∈ I heißt die Abbildung πj :
Q i∈I
Ωi → Ωj mit
πj (ω) := ωj die Projektion auf die j–te Koordinate. F¨ ur j ∈ I und Aj ∈ 2Ωj erh¨ alt man f¨ ur das Urbild von Aj unter πj die Darstellung Y πj−1 (Aj ) = Bi i∈I
mit
½ Bi :=
Ai Ωi
falls i = j sonst
und damit eine Darstellung als Produkt von Mengen. Sei nun {Ei }i∈I eine Familie von Mengensystemen mit Ei ⊆ 2Ωi f¨ ur alle i ∈ I. Dann heißt das Mengensystem ¯ ( ) ¯ Y Y ¯ Ei = Ai ¯ Ai ∈ Ei f¨ ur alle i ∈ I ¯ i∈I
i∈I
das Produkt der Familie {Ei }i∈I . Es gilt Y Q Ei ⊆ 2 i∈I Ωi i∈I
Erf¨ ullen die Mengensysteme f¨ ur alle i ∈ I die Bedingung Ωi ∈ Ei , so gilt f¨ ur alle j ∈ I Y πj−1 (Ej ) ⊆ Ei i∈I
Diese Bedingung ist f¨ ur jede Familie von Topologien oder σ–Algebren erf¨ ullt. Wir betrachten abschließend den Fall einer abz¨ ahlbaren Indexmenge I. In diesem Fall existiert eine Menge N ⊆ N mit |I| = |N | sowie eine Bijektion I → N und die nat¨ urliche Ordnungsrelation auf N induziert eine vollst¨ andige Ordnungsrelation auf I, sodass das Produkt der Familie {Ωi }i∈I durch ein kartesisches Produkt dargestellt werden kann, in dem die Koordinaten von Q ω ∈ i∈I Ωi vollst¨andig geordnet sind; entsprechend kann auch das Produkt der Familie {Ei }i∈I durch ein kartesisches Produkt dargestellt werden.
3.1 Produkte und Projektionen
35
Q 3.1.1 Beispiel. Sei I = {◦, •}. Dann kann das Produkt i∈I Ωi der Familie {Ωi }i∈I durch die kartesischen Produkte ¯ n o ¯ Ω◦ × Ω• := (ω◦ , ω• ) ¯ ω◦ ∈ Ω◦ , ω• ∈ Ω• und Ω• × Ω◦ :=
¯ n o ¯ (ω• , ω◦ ) ¯ ω• ∈ Ω• , ω◦ ∈ Ω◦
Q dargestellt werden, und das Produkt i∈I Ei der Familie {Ei }i∈I kann durch die entsprechenden kartesischen Produkte ¯ n o ¯ E◦ × E• := A◦ ×A• ¯ A◦ ∈ E◦ , A• ∈ E• bzw. E• × E◦ :=
n A• ×A◦
¯ o ¯ ¯ A• ∈ E• , A◦ ∈ E◦
dargestellt werden.
Das Beispiel zeigt, dass das Produkt einer abz¨ ahlbaren Familie von Mengen oder Mengensystemen im allgemeinen auf mehrere Weisen durch ein kartesisches Produkt dargestellt werden kann. Dessen ungeachtet Q werden wir im Fall zweier Faktoren im allgemeinen Ω1 × Ω2 anstelle von i∈{1,2} Ωi und E1 × E2 Q anstelle von i∈{1,2} Ei schreiben. Sind K, L ⊆ I nichtleer und disjunkt mit K + L = I, so ist die Abbildung à ! à ! Y Y Y Ωi × Ωi → Ωi i∈K
mit
³
i∈L
i∈I
´ {ωi }i∈K , {ωi }i∈L → 7 {ωi }i∈I
eine Bijektion, die es gestattet, diese Produkte miteinander zu identifizieren. Dadurch wird die Bildung von Produkten von Mengen oder Mengensystemen zu einer assoziativen Operation. Sind Ω und Ω0 nichtleere Mengen und ist f : Ω → Ω0 eine Abbildung, so heißt die Abbildung F : Ω → Ω × Ω0 mit F (ω) := (ω, f (ω)) der Graph von f . Aufgabe 3.1.A
Halbringe: Das Produkt einer endlichen Familie von Halbringen ist ein Q Halbring. Insbesondere gilt J (Rn ) = i∈{1,...,n} J (R).
36
Kapitel 3. Produktr¨ aume
3.2 Produkte von topologischen R¨ aumen Sei {(Ωi , Ti )}i∈I eine Familie topologischer R¨aume. Dann gibt es eine kleinste Topologie O Ti i∈I
Q
auf i∈I Ωi , f¨ ur die alle Projektionen stetig sind. Diese Topologie wird als Produkttopologie der Familie {Ti }i∈I bezeichnet und der topologische Raum à ! O Y O (Ωi , Ti ) := Ωi , Ti i∈I
i∈I
i∈I
wird als topologisches Produkt der Familie {(Ωi , Ti )}i∈I oder als Produkt der topologischen R¨ aume (Ωi , Ti ) bezeichnet. Das folgende Beispiel zeigt, dass die nat¨ urliche Topologie auf Rn als Produkttopologie dargestellt werden kann: 3.2.1 Beispiel (Nat¨ urliche Topologie auf Rn ). F¨ ur alle n ∈ N gilt O T (Rn ) = T (R) i∈{1,...,n} n
In der Tat: F¨ ur alle x ∈ R und ε ∈ (0, ∞) gilt Y Bk . k∞ (x, ε) = B| . | (xi , ε) = i∈{1,...,n}
\
πi−1 (B| . | (xi , ε))
i∈{1,...,n}
Da alle Projektionen bez¨ uglich der Produkttopologie N stetig sind, ergibt sich daraus N Bk . k∞ (x, ε) ∈ i∈{1,...,n} T (R). Daher gilt Ek . k∞ ⊆ i∈{1,...,n} T (R) und damit Tk . k∞ ⊆
O
T (R)
i∈{1,...,n}
Sei nun i ∈ {1, . . . , n}. F¨ ur alle x ∈ Rn und f¨ ur alle ε, δ ∈ (0, ∞) mit δ ≤ ε gilt πi (Bk . k∞ (x, δ)) ⊆ πi (Bk . k∞ (x, ε)) = B| . | (πi (x), ε) Daher ist πi f¨ ur alle x ∈ Rn stetig in x, und damit stetig bez¨ uglich der Topologie Tk . k∞ . Damit ist gezeigt, dass alle Projektionen bez¨ uglich der Topologie Tk . k∞ stetig sind, und daraus folgt O T (R) ⊆ Tk . k∞ i∈{1,...,n}
Die Behauptung folgt nun aus T (Rn ) = Tk . k∞ .
Die Darstellung einer Topologie als Produkttopologie kann den Nachweis der Stetigkeit einer Abbildung erleichtern:
3.2 Produkte von topologischen R¨ aumen
37
3.2.2 Satz (Stetige Abbildungen in ein topologisches Produkt). Sei Q (Ω0 , T0 ) ein topologischer Raum und sei f : Ω0 → i∈I Ωi eine Abbildung. Dann sind folgende Aussagen ¨ aquivalent : Q (a) f ist stetig bez¨ uglich der Produkttopologie auf i∈I Ωi . (b) F¨ ur alle i ∈ I ist πi ◦ f stetig. Beweis. Wir nehmen zun¨achst an, dass f bez¨ uglich der Produkttopologie auf Q Ω stetig ist. Da alle Projektionen bez¨ u glich der Produkttopologie stetig i i∈I sind, ist dann auch f¨ ur alle i ∈ I die Komposition πi ◦ f stetig. Daher folgt (b) aus (a). Wir nehmen nun an, dass f¨ ur alle i ∈ I die Komposition πi ◦ f stetig ist. Dann gilt à ! ³ ´ [ [ [ −1 −1 f πi (Ti ) = f −1 πi−1 (Ti ) = (πi ◦ f )−1 (Ti ) ⊆ T0 i∈I
i∈I
i∈I
und damit à ! à à !! à à !! O [ [ −1 −1 −1 −1 −1 f Ti ⊆ f τ πi (Ti ) =τ f πi (Ti ) ⊆ T0 i∈I
i∈I
i∈I
Daher folgt (a) aus (b).
2
3.2.3 Satz. F¨ ur alle i ∈ I sei Ei ein Mengensystem mit Ti = τ (Ei ). Dann gilt à ! O [ −1 Ti = τ πi (Ei ) i∈I
i∈I
Beweis. F¨ ur alle j ∈ I gilt à πj−1 (Tj )
=
πj−1 (τ (Ej ))
=
τ (πj−1 (Ej ))
⊆τ
[
! πi−1 (Ei )
i∈I
Daraus folgt, dass alle Projektionen bez¨ uglich der Topologie τ stetig sind. Daher gilt à ! O [ −1 Ti ⊆ τ πi (Ei ) i∈I
Die umgekehrte Inklusion ist klar.
¡S i∈I
¢ πi−1 (Ei )
i∈I
2
Wir betrachten abschließend das Produkt einer endlichen Familie von Topologien:
38
Kapitel 3. Produktr¨ aume
3.2.4 Satz. Sei I endlich. Dann gilt O
Ã
Ti = τ
i∈I
Y
! Ti
i∈I
Beweis. F¨ ur alle i ∈ I gilt Ωi ∈ Ti . Daher gilt f¨ ur alle j ∈ I Ã ! Y Y −1 πj (Tj ) ⊆ Ti ⊆ τ Ti i∈I
i∈I
Daraus folgt, dass alle Projektionen bez¨ uglich der Topologie τ sind. Daher gilt à ! O Y Ti ⊆ τ Ti i∈I
¡Q i∈I
¢ Ti stetig
i∈I
Sei nun {Ai }i∈I eine Familie von Mengen mit Ai ∈ Ti f¨ ur alle i ∈ I. Da alle Projektionen bez¨ uglich der Produkttopologie stetig sind, gilt f¨ ur alle j ∈ I O −1 πj (Aj ) ∈ Ti i∈I
Da I endlich und jede Topologie ∩–stabil ist, folgt daraus Y \ O Ai = πi−1 (Ai ) ∈ Ti i∈I
i∈I
Daraus ergibt sich zun¨achst
Y
i∈I
Ti ⊆
i∈I
und sodann
à τ
Y
O
Ti
i∈I
! Ti
⊆
i∈I
O
Ti
i∈I
Daraus folgt die Behauptung.
2
Aufgaben 3.2.A
Sei {(Ωi , Ti )}i∈I eine Familie topologischer R¨ aume. Sind K, L ⊆ I nichtleer mit K + L = I, so gilt à ! à ! O O O Ti = Ti ⊗ Ti i∈I
i∈K
i∈L
Hinweis: Verwenden Sie Satz 3.2.2. 3.2.B
Graph: Seien (Ω, T ) und (Ω0 , T 0 ) topologische R¨ aume und sei f : Ω → Ω0 0 stetig. Dann ist der Graph von f T –(T ⊗T )–stetig.
3.3 Produkte von messbaren R¨ aumen
39
3.3 Produkte von messbaren R¨ aumen Sei {(Ωi , Fi )}i∈I eine Familie messbarer R¨aume. Dann gibt es eine kleinste σ–Algebra O Fi i∈I
Q auf i∈I Ωi , f¨ ur die alle Projektionen messbar sind. Diese σ–Algebra wird als Produkt–σ–Algebra oder als Kolmogorovsche σ–Algebra der Familie {Fi }i∈I bezeichnet und der messbare Raum à ! O Y O (Ωi , Fi ) := Ωi , Fi i∈I
i∈I
i∈I
wird als messbares Produkt der Familie {(Ωi , Fi )}i∈I oder als Produkt der messbaren R¨ aume (Ωi , Fi ) bezeichnet. Das folgende Beispiel zeigt, dass die Borelsche σ–Algebra auf Rn als Produkt– σ–Algebra dargestellt werden kann: 3.3.1 Beispiel (Borelsche σ–Algebra auf Rn ). F¨ ur alle n ∈ N gilt O B(Rn ) = B(R) i∈{1,...,n} n
In der Tat: F¨ ur alle a, c ∈ R gilt Y (a, c] = (ai , ci ] = i∈{1,...,n}
\
πi−1 ((ai , ci ])
i∈{1,...,n}
Da alle Projektionen bez¨ uglich der Produkt–σ–Algebra N N messbar sind, ergibt sich daraus (a, c] ∈ i∈{1,...,n} B(R). Daher gilt J (Rn ) ⊆ i∈{1,...,n} B(R), und damit O B(Rn ) ⊆ B(R) i∈{1,...,n}
Sei nun i ∈ {1, . . . , n} und (a, b] ∈ J (R). F¨ ur alle j ∈ {1, . . . , n} und k ∈ N sei ½ (a, b] falls j = i Hj,k := (−k, k] sonst Dann gilt πi−1 ((a, b]) =
[
Y
Hj,k ∈ σ(J (Rn )) = B(Rn )
k∈N j∈{1,...,n}
Damit ist gezeigt, dass alle Projektionen bez¨ uglich der σ–Algebra B(Rn ) messbar sind, und daraus folgt O B(R) ⊆ B(Rn ) i∈{1,...,n}
Damit ist die Behauptung gezeigt.
40
Kapitel 3. Produktr¨ aume
Die Darstellung einer σ–Algebra als Produkt–σ–Algebra kann den Nachweis der Messbarkeit einer Abbildung erleichtern: 3.3.2 Satz (Messbare Abbildungen in einQmessbares Produkt). Sei (Ω0 , F0 ) ein messbarer Raum und sei f : Ω0 → i∈I Ωi eine Abbildung. Dann sind folgende Aussagen ¨ aquivalent: Q (a) f ist messbar bez¨ uglich der Produkt–σ–Algebra auf i∈I Ωi . (b) F¨ ur alle i ∈ I ist πi ◦ f messbar. 3.3.3 Satz. F¨ ur alle i ∈ I sei Ei ein Mengensystem mit Fi = σ(Ei ). Dann gilt à ! O [ Fi = σ πi−1 (Ei ) i∈I
i∈I
Wir betrachten abschließend das Produkt einer abz¨ ahlbaren Familie von σ– Algebren: 3.3.4 Satz. Sei I abz¨ ahlbar. Dann gilt à ! O Y Fi = σ Fi i∈I
i∈I
Die unterschiedlichen Voraussetzungen an die M¨ achtigkeit der Indexmenge in den S¨ atzen 3.2.4 und 3.3.4 haben ihre Ursache darin, dass Topologien unter der Bildung von endlichen Durchschnitten stabil sind, w¨ ahrend σ–Algebren unter der Bildung von abz¨ahlbaren Durchschnitten stabil sind. Aufgaben 3.3.A
Sei {(Ωi , Fi )}i∈I eine Familie messbarer R¨ aume. Sind K, L ⊆ I nichtleer mit K + L = I, so gilt à ! à ! O O O Fi = Fi ⊗ Fi i∈I
3.3.B
i∈K
i∈L
Graph: Seien (Ω, F ) und (Ω0 , F 0 ) messbare R¨ aume und sei f : Ω → Ω0 0 messbar. Dann ist der Graph von f F –(F ⊗F )–messbar.
Teil II
Maßtheorie
4 Mengenfunktionen
In diesem Kapitel betrachten wir Abbildungen von einem nichtleeren Mengensystem nach [0, ∞] oder [−∞, ∞]. Eine derartige Abbildung wird als Mengenfunktion bezeichnet. Die wichtigsten Mengenfunktionen sind Inhalte (Abschnitt 4.1) und Maße (Abschnitt 4.2). Die Bildung der Differenz zwischen zwei Maßen, von denen mindestens eines endlich ist, f¨ uhrt auf den Begriff des signierten Maßes (Abschnitt 4.3). Im gesamten Kapitel sei Ω eine nichtleere Menge und C ⊆ 2Ω ein Mengensystem mit ∅ ∈ C. F¨ ur eine Mengenfunktion µ : C → [0, ∞] und ein nichtleeres Mengensystem D ⊆ C bezeichnen wir die Abbildung µ|D : D → [0, ∞] mit µ|D [D] := µ[D] als Restriktion von µ auf D. F¨ ur Mengenfunktionen µ, ν : C → [0, ∞] und α ∈ R+ definieren wir Mengenfunktionen µ + ν : C → [0, ∞] und αµ : C → [0, ∞] durch (µ+ν)[C] := µ[C] + ν[C] (αµ)[C] := αµ[C] und wir schreiben µ≤ν wenn f¨ ur alle C ∈ C µ[C] ≤ ν[C] gilt. K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_4, © Springer-Verlag Berlin Heidelberg 2011
44
Kapitel 4. Mengenfunktionen
4.1 Inhalte Eine Mengenfunktion µ : C → [0, ∞] heißt – additiv , wenn f¨ ur je zwei Mengen A, B ∈ C mit A ∩ B = ∅ und A + B ∈ C µ[A + B] = µ[A] + µ[B] –
gilt. endlich additiv , wenn f¨ ur jede endliche disjunkte Familie {Ai }i∈I ⊆ C mit P i∈I Ai ∈ C " # X X µ Ai = µ[Ai ] i∈I
i∈I
gilt. – Inhalt, wenn µ[∅] = 0 gilt und µ endlich additiv ist. Jede endlich additive Mengenfunktion ist additiv. 4.1.1 Beispiele. Sei Ω := N und C := { A ∈ 2Ω | A oder Ω \ A ist endlich}. (1) Die Mengenfunktion µ : C → [0, ∞] mit µ[A] := ∞ ist endlich additiv, aber kein Inhalt. (2) Die Mengenfunktion µ : C → [0, ∞] mit ½ 0 falls A endlich ist µ[A] := ∞ sonst ist ein Inhalt. (3) Die Mengenfunktion µ : C → [0, ∞] mit µ[A] := |A| ist ein Inhalt.
Das folgende Lemma erleichtert den Nachweis der Additivit¨ at einer Mengenfunktion auf einem Ring; vgl. Aufgabe 4.1.A: 4.1.2 Lemma. Sei C ein Ring und sei µ : C → [0, ∞] eine Mengenfunktion. Dann sind ¨ aquivalent: (a) µ ist additiv. (b) µ ist endlich additiv. Beweis. Da C ein Ring ist, enth¨alt C mit jeder endlichen Familie von Mengen auch deren Vereinigung. Wir nehmen an, dass µ additiv ist, und zeigen durch vollst¨ andige Induktion, dass f¨ ur alle n ∈ N und jede disjunkte Familie {Ai }i∈{1,...,n} ⊆ C " n # n X X µ Ai = µ[Ai ] i=1
gilt:
i=1
4.1 Inhalte
• •
45
n = 1: In diesem Fall ist nichts zu zeigen. n → n + 1: Wir nehmen an, die Behauptung sei f¨ ur n bereits bewiesen, und betrachten eine disjunkte Familie {Ai }i∈{1,...,n+1} ⊆ C. Aus der Additivit¨ at von µ folgt dann "n+1 # " n # X X µ Ai = µ Ai + An+1 i=1
i=1
" n # X =µ Ai + µ[An+1 ] i=1
=
n X
µ[Ai ] + µ[An+1 ]
i=1
=
n+1 X
µ[Ai ]
i=1
Daher ist µ endlich additiv.
2
¨ Das folgende Beispiel zeigt, dass die Aquivalenz aus Lemma 4.1.2 f¨ ur Mengenfunktionen auf einem Halbring im allgemeinen nicht gilt: 4.1.3 Beispiel. Sei Ω := {1, 2, 3} und C := {∅, {1}, {2}, {3}, Ω}. Dann ist C ein Halbring, aber kein Ring, und die Mengenfunktion µ : C → [0, ∞] mit 0 falls A = ∅ µ[A] := 1 falls A = {ω} f¨ ur ein ω ∈ Ω 4 falls A = Ω ist additiv, aber nicht endlich additiv.
Die Untersuchung von Inhalten auf einem Halbring wird dadurch erschwert, dass Halbringe im allgemeinen nicht stabil unter der Bildung von Vereinigungen und relativen Komplementen sind; vgl. Beispiel 4.1.3. Hier hilft der folgende Fortsetzungssatz: 4.1.4 Satz. Sei C ein Halbring. Dann besitzt jeder Inhalt C → [0, ∞] eine eindeutige Fortsetzung zu einem Inhalt %(C) → [0, ∞]. Beweis. Sei µ : C → [0, ∞] ein Inhalt. Nach Satz 1.5.7 gilt ¯ ( ) ¯ X Ω ¯ %(C) = A ∈ 2 ¯ A = Hi mit I endlich und {Hi }i∈I ⊆ C disjunkt ¯ i∈I
Ist µ ˜ : %(C) → [0, ∞] ein Inhalt mit µ ˜|C = µ, so gilt ur alle A ∈ %(C) und jede Pf¨ endliche disjunkte Familie {Hi }i∈I ⊆ C mit A = i∈I Hi X X µ ˜[A] = µ ˜ [Hi ] = µ[Hi ] i∈I
i∈I
Andererseits gilt f¨ ur endliche disjunkte Familien {Gi }i∈I ⊆ C und {Hj }j∈J ⊆ C
46
mit
Kapitel 4. Mengenfunktionen
P i∈I
Gi = X
P j∈J
Hj
µ[Gi ] =
X
i∈I
i∈I
X
X
" µ Gi ∩
X
# Hj =
XX
j∈J
µ[Gi ∩ Hj ]
i∈I j∈J
und
j∈J
µ[Hj ] =
" µ Hj ∩
j∈J
X
# Gi =
i∈I
XX
µ[Hj ∩ Gi ]
j∈J i∈I
und damit X
µ[Gi ] =
i∈I
X
µ[Hj ]
j∈J
Daher ist die Abbildung µ ¯ : %(C) → [0, ∞] mit X µ ¯[A] := µ[Hi ] i∈I
P und einer endlichen disjunkten Familie {Hi }i∈I ⊆ C mit A = i∈I Hi wohldefiniert und f¨ ur alle H ∈ C gilt µ ¯[H] = µ[H]. Daher ist µ ¯ eine Fortsetzung von µ und es ist klar, dass µ ¯ ein Inhalt ist. 2 Eine Mengenfunktion µ : C → [0, ∞] heißt – monoton, wenn f¨ ur alle A, B ∈ C mit B ⊆ A µ[B] ≤ µ[A] –
gilt. subadditiv , wenn f¨ ur alle A, B ∈ C mit A ∪ B ∈ C µ[A ∪ B] ≤ µ[A] + µ[B]
–
gilt. endlich subadditiv , wenn f¨ ur jede endliche Familie {Ai }i∈I ⊆ C mit S i∈I Ai ∈ C " # [ X µ Ai ≤ µ[Ai ] i∈I
i∈I
gilt. Jede endlich subadditive Mengenfunktion ist subadditiv, und jede subadditive Mengenfunktion auf einem Ring ist endlich subadditiv. 4.1.5 Lemma. Sei C ein Halbring und sei µ : C → [0, ∞] ein Inhalt. Dann ist µ monoton und endlich subadditiv.
4.1 Inhalte
47
Beweis. Aufgrund von Satz 4.1.4 k¨onnen wir annehmen, dass C ein Ring ist. F¨ ur alle A, B ∈ C mit B ⊆ A gilt µ[B] ≤ µ[B] + µ[A \ B] = µ[B + (A \ B)] = µ[A] Daher ist µ monoton. Sei nun {Ak }k∈{1,...,n} ⊆ C eine endliche Familie und f¨ ur alle k ∈ {1, . . . , n} sei Bk := Ak \
k−1 [
Aj
j=1
Pn Dann Sn ist {Bk }k∈{1,...,n} eine endliche disjunkte Familie in C mit k=1 Bk = at und der Monotonie von µ ergibt k=1 Ak und aus der endlichen Additivit¨ sich nun " n # " n # n n [ X X X µ Ak = µ Bk = µ[Bk ] ≤ µ[Ak ] k=1
k=1
k=1
k=1
Daher ist µ endlich subadditiv.
2
Eine Mengenfunktion µ : C → [0, ∞] heißt endlich, wenn f¨ ur alle A ∈ C µ[A] < ∞ gilt. Eine endliche Mengenfunktion ist genau dann ein Inhalt, wenn sie endlich additiv ist. Aufgaben 4.1.A
Sei C ∪–stabil und sei µ : C → [0, ∞] eine Mengenfunktion. Dann sind aquivalent: ¨ (a) µ ist additiv. (b) µ ist endlich additiv.
4.1.B
Sei C ∪–stabil und sei µ : C → [0, ∞] eine Mengenfunktion. Dann sind aquivalent: ¨ (a) µ ist subadditiv. (b) µ ist endlich subadditiv.
4.1.C
Eine Mengenfunktion µ : C → [0, ∞] heißt subtraktiv , wenn f¨ ur alle A, B ∈ C mit B ⊆ A und A \ B ∈ C sowie µ[B] < ∞ µ[A \ B] = µ[A] − µ[B] gilt. Jede additive Mengenfunktion ist subtraktiv.
4.1.D
Eine Mengenfunktion µ : C → [0, ∞] heißt modular , wenn f¨ ur alle A, B ∈ C mit A ∪ B ∈ C und A ∩ B ∈ C µ[A ∪ B] + µ[A ∩ B] = µ[A] + µ[B] gilt. Jede modulare Mengenfunktion µ : C → [0, ∞] mit µ[∅] = 0 ist additiv, und jede endlich additive Mengenfunktion auf einem Halbring ist modular.
48 4.1.E
Kapitel 4. Mengenfunktionen Einschluss–Ausschluss–Formel (Poincar´ e): Sei C ein Ring und sei µ : C → [0, ∞] additiv und endlich. Dann gilt f¨ ur jede endliche Familie {Ak }k∈{1,...,n} ⊆ C " # " # n [ X X \ i−1 µ Ak = (−1) µ Ak i=1
k∈{1,...,n}
4.1.F
I⊆{1,...,n}, |I|=i
Nullmengen: Sei C ein Ring und sei das Mengensystem n Nµ := N ∈ C
k∈I
µ : C → [0, ∞] ein Inhalt. Dann ist ¯ o ¯ ¯ µ[N ] = 0
ein Ideal in C. Jede Menge N ∈ Nµ heißt µ–Nullmenge. 4.1.G
Eine Mengenfunktion µ : C → [0, ∞] heißt vollst¨ andig, wenn f¨ ur alle A ∈ C mit µ[A] = 0 und alle B ⊆ A B∈C gilt. Ist C ein Ring und µ : C → [0, ∞] ein vollst¨ andiger Inhalt, so ist jede Teilmenge einer µ–Nullmenge selbst eine µ–Nullmenge.
4.1.H
Vervollst¨ andigung: Sei C ein Ring und sei µ : C → [0, ∞] ein Inhalt. Sei ferner ¯ n o ¯ Mµ := A ∈ 2Ω ¯ A ⊆ N f¨ ur ein N ∈ Nµ und Cµ := Dann gilt
¯ n o ¯ A ∈ 2Ω ¯ A = C + D mit C ∈ C und D ∈ Mµ disjunkt n A ∈ 2Ω n = A ∈ 2Ω
Cµ =
¯ o ¯ ¯ A = C ∪ D mit C ∈ C und D ∈ Mµ ¯ o ¯ ¯ A = C4 D mit C ∈ C und D ∈ Mµ
= %(C ∪ Mµ ) Sei ferner µ e : Cµ → [0, ∞] gegeben durch µ e[A] := µ[C] mit (1) (2) (3)
C ∈ C sodass A = C + D f¨ ur ein D ∈ Mµ gilt. Dann gilt: µ e ist wohldefiniert und ein vollst¨ andiger Inhalt mit µ e|C = µ. µ e ist der einzige Inhalt auf Cµ , der µ fortsetzt. Ist C0 ein Ring auf Ω mit C ⊆ C0 und ist µ0 : C0 → [0, ∞] ein vollst¨ andiger Inhalt mit µ0 |C = µ, so gilt Cµ ⊆ C0 und µ0 |Cµ = µ e. Der Inhalt µ e heißt die Vervollst¨ andigung von µ. 4.1.I
Sei C ein Ring und sei µ : C → [0, ∞] ein Inhalt. Zwei Mengen A, B ∈ C heißen µ–¨ aquivalent, wenn µ[A4B] = 0 gilt, und in diesem Fall schreiben wir A =µ B ¨ Dann ist =µ eine Aquivalenzrelation auf C und C/=µ ist ein Ring.
4.2 Maße 4.1.J
49 Sei C ein Ring und sei µ : C → [0, ∞] ein endlicher Inhalt. Dann ist die Abbildung dµ : C/=µ × C/=µ → R+ mit dµ (A, B) := µ[A4B] (wohldefiniert und) eine Metrik.
4.1.K
Sei C ein Halbring und sei µ : C → [0, ∞] ein endlicher Inhalt. Dann ist der eindeutig bestimmte Inhalt µ ¯ : %(C) → [0, ∞] mit µ ¯|C = µ endlich.
4.2 Maße Eine Mengenfunktion µ : C → [0, ∞] heißt P∞ – σ–additiv , wenn f¨ ur jede disjunkte Folge {Ak }k∈N ⊆ C mit k=1 Ak ∈ C "∞ # ∞ X X µ Ak = µ[Ak ] k=1
k=1
gilt. – Maß , wenn µ[∅] = 0 gilt und µ σ–additiv ist. Die folgende Charakterisierung von Maßen ist offensichtlich: 4.2.1 Lemma. Sei µ : C → [0, ∞] eine Mengenfunktion. Dann sind ¨ aquivalent: (a) µ ist ein Maß. (b) µ ist ein σ–additiver Inhalt. 4.2.2 Beispiele. (1) Sei Ω := N und C := { A ∈ 2Ω | A oder Ω \ A ist endlich}. Dann ist die Mengenfunktion µ : C → [0, ∞] mit ½ 0 falls A endlich ist µ[A] := ∞ sonst ein Inhalt, aber kein Maß. (2) Sei Ω := R und C := { A ∈ 2Ω | A oder Ω \ A ist abz¨ ahlbar}. Dann ist die Mengenfunktion µ : C → [0, ∞] mit ½ 0 falls A abz¨ ahlbar ist µ[A] := ∞ sonst ein Maß. (3) Dirac–Maß: F¨ ur jedes ω ∈ Ω ist die Mengenfunktion δ ω : C → [0, ∞] mit ½ 1 falls ω ∈ A δ ω [A] := 0 sonst ein endliches Maß. Das Maß δ ω heißt Dirac–Maß bez¨ uglich ω ∈ Ω.
50
Kapitel 4. Mengenfunktionen
(4) Z¨ ahlmaß: Die Mengenfunktion ζ : 2Ω → [0, ∞] mit ζ[A] := |A| ist ein Maß. Das Maß ζ heißt Z¨ ahlmaß . (5) Lokales Z¨ ahlmaß: Sei C ∈ 2Ω abz¨ ahlbar. Dann ist die Mengenfunktion ζ C : 2Ω → [0, ∞] mit ζ C [A] := |A ∩ C| ein Maß mit ζ C [A] =
X
δ ω [A]
ω∈C
Das Maß ζ C heißt lokales Z¨ ahlmaß bez¨ uglich C.
Der folgende Fortsetzungssatz ist ein Analogon zu Satz 4.1.4: 4.2.3 Satz. Sei C ein Halbring. Dann besitzt jedes Maß C → [0, ∞] eine eindeutige Fortsetzung zu einem Maß %(C) → [0, ∞]. Beweis. Sei µ : C → [0, ∞] ein Maß. Dann ist µ ein Inhalt und nach Satz 4.1.4 gibt es einen eindeutig bestimmten Inhalt µ ¯ : %(C) → [0, ∞] mit µ ¯|C = µ. Wir zeigen nun, dass µ ¯ σ–additiv ist: P∞ Sei A ∈ %(C) und sei {Ak }k∈N ⊆ %(C) eine disjunkte Folge mit A = P k=1 Ak . Dann gibt es eine endliche disjunkte Familie {Bi }i∈I ⊆ C mit A = i∈I Bi und f¨ ur alle P k ∈ N gibt es eine endliche disjunkte Familie {Bk,j }j∈J(k) ⊆ C mit Ak = j∈J(k) Bk,j . Es gilt Bi = Bi ∩ A = Bi ∩
∞ X
Ak = Bi ∩
k=1
∞ X X
Bk,j =
k=1 j∈J(k)
∞ X X
Bi ∩ Bk,j
k=1 j∈J(k)
und Bk,j = Bk,j ∩ A = Bk,j ∩
X
Bi =
i∈I
X
Bi ∩ Bk,j
i∈I
Aus der Definition von µ ¯ und der σ–Additivit¨ at von µ ergibt sich nun µ ¯[A] =
X
µ[Bi ] =
i∈I
∞ X XX
µ[Bi ∩ Bk,j ]
i∈I k=1 j∈J(k)
und ∞ X
µ ¯[Ak ] =
k=1
und damit µ ¯[A] =
∞ X X k=1 j∈J(k)
P∞ k=1
µ[Bk,j ] =
∞ X X X
µ[Bi ∩ Bk,j ]
k=1 j∈J(k) i∈I
µ ¯[Ak ]. Daher ist µ ¯ σ–additiv.
2
4.2 Maße
51
Eine Mengenfunktion µ : C → [0, ∞] heißt – stetigSvon unten, wenn f¨ ur jede monoton wachsende Folge {Ak }k∈N ⊆ C mit k∈N Ak ∈ C " # [ µ Ak = sup µ[Ak ] k∈N
k∈N
–
gilt. stetig von oben, wenn f¨ ur jede monoton fallende Folge {Ak }k∈N ⊆ C mit T A ∈ C und µ[A ] <∞ k 1 k∈N " # \ µ Ak = inf µ[Ak ] k∈N
k∈N
–
gilt. ∅–stetig, wenn f¨ ur jede monoton fallende Folge {Ak }k∈N ⊆ C mit T A = ∅ und µ[A1 ] < ∞ k∈N k inf µ[Ak ] = 0
k∈N
gilt. 4.2.4 Lemma. Sei C ein Ring und sei µ : C → [0, ∞] ein Inhalt. Dann sind aquivalent: ¨ (a) µ ist σ–additiv. (b) µ ist stetig von unten. Beweis. Sei zun¨ achst µ σ–additiv und sei {Ak }k∈N ⊆ C eine monoton wachS sende Folge mit k∈N Ak ∈ C. Sei A0 := ∅ und f¨ ur alle k ∈ N sei Bk := Ak \ Ak−1
P∞ S Dann ist {Bk }k∈N ur Pn eine disjunkte Folge in C mit k=1 Bk = k∈N Ak und f¨ alle n ∈ N gilt k=1 Bk = An . Daraus folgt " # "∞ # [ X µ Ak = µ Bk k∈N
k=1
=
∞ X
µ[Bk ]
k=1
= sup n∈N
n X
= sup µ n∈N
µ[Bk ]
k=1
" n X k=1
= sup µ[An ] n∈N
Daher ist µ stetig von unten.
# Bk
52
Kapitel 4. Mengenfunktionen
Sei P∞nun µ stetig von unten und sei {Ak }k∈N ⊆ C eine disjunkte Folge mit ur alle n ∈ N sei k=1 Ak ∈ C. F¨ Bn :=
n X
Ak
k=1
Dann P∞ ist {Bn }n∈N eine monoton wachsende Folge in C mit k=1 Ak . Daraus folgt "∞ # " # X [ µ Ak = µ Bn k=1
S n∈N
Bn =
n∈N
= sup µ[Bn ] n∈N " n # X = sup µ Ak n∈N
k=1 n X
= sup n∈N
=
∞ X
µ[Ak ]
k=1
µ[Ak ]
k=1
Daher ist µ σ–additiv.
2
4.2.5 Lemma. Sei C ein Ring und sei µ : C → [0, ∞] ein Inhalt. Ist µ stetig von unten, so ist µ stetig von oben. T Beweis. Sei {Ak }k∈N ⊆ C eine monoton fallende Folge mit k∈N Ak ∈ C und µ[A S 1 ] < ∞. Dann ist {A T 1 \ Ak }k∈N eine monoton wachsende Folge in C mit (A \ A ) = A \ 1 k 1 k∈N k∈N Ak ∈ C. Daraus folgt µ[A1 ] − inf µ[Ak ] = µ[A1 ] + sup(−µ[Ak ]) k∈N
k∈N
= sup(µ[A1 ] − µ[Ak ]) k∈N
= sup µ[A1 \ Ak ] k∈N " # [ =µ (A1 \ Ak ) k∈N
"
= µ A1 \
#
\
Ak
k∈N
"
= µ[A1 ] − µ
\
k∈N
# Ak
4.2 Maße
53
und aus µ[A1 ] < ∞ folgt nun " µ
\
# Ak = inf µ[Ak ] k∈N
k∈N
Daher ist µ stetig von oben.
2
Wir notieren eine offensichtliche Folgerung aus Lemma 4.2.4 und Lemma 4.2.5: 4.2.6 Folgerung. Sei C ein Ring und sei µ : C → [0, ∞] ein Maß. Dann ist µ stetig von oben. F¨ ur endliche Inhalte auf einem Ring gilt auch die Umkehrung der Implikation von Lemma 4.2.5: 4.2.7 Lemma. Sei C ein Ring und sei µ : C → [0, ∞] ein endlicher Inhalt. Ist µ stetig von oben, so ist µ stetig von unten. S Beweis. Sei {A S k }k∈N ⊆ C eine monoton wachsende Folge mit k∈N Ak ∈ C und seiTA := k∈N Ak . Dann ist {A \ Ak }k∈N eine monoton fallende Folge in C mit k∈N (A \ Ak ) = ∅. Nach Voraussetzung gilt supk∈N µ[Ak ] ≤ µ[A] < ∞ und damit µ[A] − sup µ[Ak ] = µ[A] + inf (−µ[Ak ]) k∈N
k∈N
= inf (µ[A] − µ[Ak ]) k∈N
= inf µ[A \ Ak ] k∈N
= µ[∅] =0 Daher ist µ stetig von unten.
2
Das folgende Beispiel zeigt, dass im letzten Lemma die Forderung der Endlichkeit des Inhaltes wesentlich ist: 4.2.8 Beispiel. Sei Ω := N und C := { A ∈ 2Ω | A oder Ω \ A ist endlich}. Dann ist die Mengenfunktion µ : C → [0, ∞] mit ½ 0 falls A endlich ist µ[A] := ∞ sonst ein Inhalt und stetig von oben, aber sie ist nicht stetig von unten.
Wir kl¨ aren nun noch den Zusammenhang zwischen der Stetigkeit von oben und der ∅–Stetigkeit:
54
Kapitel 4. Mengenfunktionen
4.2.9 Lemma. Sei C ein Ring und sei µ : C → [0, ∞] ein Inhalt. Dann sind aquivalent: ¨ (a) µ ist stetig von oben. (b) µ ist ∅–stetig. Beweis. Es ist klar, dass (b) aus (a) folgt. Wir nehmen T nun an, dass (b) gilt. Sei {Ak }k∈N ⊆ C eineTmonoton fallende Folge mit k∈N Ak ∈ C und µ[A1 ] < ∞, und sei AT:= k∈N Ak . Dann ist {Ak \ A}k∈N eine monoton fallende Folge in C mit k∈N (Ak \ A) = ∅ und µ[A1 \ A] < ∞. Daraus folgt " # \ µ Ak = µ[A] " # k∈N \ = µ[A] + µ (Ak \ A) k∈N
= µ[A] + inf µ[Ak \ A] k∈N
= inf (µ[A] + µ[Ak \ A]) k∈N
= inf µ[Ak ] k∈N
Daher folgt (a) aus (b).
2
F¨ ur endliche Inhalte auf einem Ring k¨onnen wir die letzten Ergebnisse wie folgt zusammenfassen: 4.2.10 Folgerung. Sei C ein Ring und sei µ : C → [0, ∞] ein endlicher Inhalt. Dann sind ¨ aquivalent: (a) µ ist σ–additiv. (b) µ ist stetig von unten. (c) µ ist stetig von oben. (d) µ ist ∅–stetig. Eine Mengenfunktion ur jede Folge S∞ µ : C → [0, ∞] heißt σ–subadditiv , wenn f¨ {Ak }k∈N ⊆ C mit k=1 Ak ∈ C "∞ # ∞ [ X µ Ak ≤ µ[Ak ] k=1
k=1
gilt. Wegen ∅ ∈ C ist jede σ–subadditive Mengenfunktion µ : C → [0, ∞] mit µ[∅] = 0 endlich subadditiv. 4.2.11 Lemma. Sei C ein Halbring und sei µ : C → [0, ∞] ein Maß. Dann ist µ monoton und σ–subadditiv.
4.2 Maße
55
Beweis. Aufgrund von Satz 4.2.3 k¨onnen wir annehmen, dass C ein Ring ist. Da µ ein Maß ist, ist µ auch ein Inhalt, und aus Lemma 4.1.5 folgt nun, dass µ monoton und endlich subadditiv ist. Nach Lemma 4.2.4 ist µ außerdem stetig von unten. S∞ Sn Sei nun {Ak }k∈N ⊆ C eine Folge mit k=1 ∈ C. Dann ist S∞Ak S S∞{ k=1 Ak }n∈N n eine monoton wachsende Folge in C mit n=1 k=1 Ak = k=1 Ak ∈ C und es gilt "∞ # "∞ n # " n # n ∞ [ [ [ [ X X µ Ak = µ Ak = sup µ Ak ≤ sup µ[Ak ] = µ[Ak ] k=1
n∈N
n=1 k=1
n∈N
k=1
k=1
k=1
Daher ist µ σ–subadditiv.
2
F¨ ur Mengenfunktionen auf einem Halbring erhalten wir die folgende Variante von Lemma 4.2.1: 4.2.12 Lemma. Sei C ein Halbring und sei µ : C → [0, ∞] eine Mengenfunktion. Dann sind ¨aquivalent: (a) µ ist ein Maß. (b) µ ist ein σ–subadditiver Inhalt. Beweis. Sie zun¨ achst µ ein Maß. Dann ist µ ein Inhalt. Da C ein Halbring ist, ist µ nach Lemma 4.2.11 auch σ–subadditiv. Daher folgt (b) aus (a). Sei nun P∞µ ein σ–subadditiver Inhalt und sei {Ak }k∈N ⊆ C eine disjunkte Folge mit k=1 Ak ∈ C. Nach Satz 4.1.4 besitzt µ eine eindeutige Fortsetzung zu einem Inhalt µ : %(C) → [0, ∞] und nach Lemma 4.1.5 ist µ monoton. Daher gilt f¨ ur alle n ∈ N " n # "∞ # "∞ # n n X X X X X µ[Ak ] = µ[Ak ] = µ Ak ≤ µ Ak = µ Ak k=1
k=1
k=1
k=1
k=1
und daraus folgt ∞ X
" µ[Ak ] ≤ µ
k=1
∞ X
# Ak
k=1
Da µ σ–subadditiv ist, gilt außerdem "∞ # ∞ X X µ Ak ≤ µ[Ak ] k=1
k=1
Aus den letzten beiden Ungleichungen folgt nun, dass µ σ–additiv ist. Daher folgt (a) aus (b). 2 Eine Mengenfunktion S µ : C → [0, ∞] heißt σ–endlich, wenn es eine Folge {Ak }k∈N ⊆ C gibt mit k∈N Ak = Ω und µ[Ak ] < ∞ f¨ ur alle k ∈ N.
56
Kapitel 4. Mengenfunktionen
Aufgaben 4.2.A
Ist jede σ–additive Mengenfunktion additiv?
4.2.B
Sei C ein σ–Ring und sei µ : C → [0, ∞] ein Maß. Dann ist das Mengensystem ¯ n o ¯ Nµ := N ∈ C ¯ µ[N ] = 0 ein σ–Ideal in C.
4.2.C
Vervollst¨ andigung: Sei C eine σ–Algebra und sei µ : C → [0, ∞] ein Maß. Sei ferner ¯ n o ¯ Mµ := A ∈ 2Ω ¯ A ⊆ N f¨ ur ein N ∈ Nµ und Cµ :=
¯ n o ¯ A ∈ 2Ω ¯ A = C + D mit C ∈ C und D ∈ Mµ disjunkt
Dann gilt Cµ = σ(C ∪ Mµ ) Sei ferner µ e : Cµ → [0, ∞] gegeben durch µ e[A] := µ[C] mit C ∈ C derart, dass A = C + D f¨ ur ein D ∈ Mµ mit C ∩ D = ∅ gilt. Dann gilt (1) µ e ist wohldefiniert und ein vollst¨ andiges Maß mit µ e|C = µ. (2) µ e ist das einzige Maß auf Cµ , das µ fortsetzt. (3) Ist C0 eine σ–Algebra auf Ω mit C ⊆ C0 und ist µ0 : C0 → [0, ∞] ein vollst¨ andiges Maß mit µ0 |C = µ, so gilt Cµ ⊆ C0 und µ0 |Cµ = µ e. Das Maß µ e ist die Vervollst¨ andigung von µ. 4.2.D
Sei C ∩–stabil, sei µ : C → [0, ∞] ein Maß und sei C ∈ C. Dann ist die Mengenfunktion µC : C → [0, ∞] mit µC [A] := µ[A ∩ C] ein Maß.
4.2.E
Sei {µn }n∈N eine Folge von Maßen C → [0, ∞] und sei {an }n∈N ⊆ R+ . Dann ist die Mengenfunktion µ : C → [0, ∞] mit µ[A] :=
∞ X
an µn [A]
n=1
ein Maß. 4.2.F
Ist jede endliche Mengenfunktion σ–endlich?
4.2.G
Sei C eine σ–Algebra und sei µ : C → [0, ∞] ein σ–endliches Maß. Dann ist jede disjunkte Familie {Ai }i∈I ⊆ C mit µ[Ai ] > 0 f¨ ur alle i ∈ I abz¨ ahlbar.
4.3 Signierte Maße
57
4.3 Signierte Maße ¯ heißt signiertes Maß, wenn sie die folgenden Eine Mengenfunktion ν : C → R Eigenschaften besitzt: (i) ν nimmt h¨ ochstens einen der Werte −∞ und +∞ an. (ii) Es gilt ν[∅] = 0. P (iii) F¨ ur jede disjunkte Folge {Ak }k∈N ⊆ C mit ∞ k=1 Ak ∈ C gilt "∞ # ∞ X X ν Ak = ν[Ak ] k=1
k=1
P∞ ¯ Diese Bedingung ist so zu verstehen, dass die£P Reihe ¤k=1 ν[Ak ] in R ∞ unbedingt konvergent ist und den Grenzwert ν A besitzt. k=1 k Jedes Maß ist ein signiertes Maß, aber nicht jedes signierte Maß ist ein Maß. ¯ ist genau dann ein Maß, wenn ν(C) ⊆ [0, ∞] Ein signiertes Maß ν : C → R gilt. Das folgende Lemma liefert eine einfache M¨ oglichkeit, signierte Maße zu erzeugen, die keine Maße sind: 4.3.1 Lemma. Seien ϕ, ψ : C → [0, ∞] Maße, von denen mindestens eines endlich ist. Dann ist ϕ − ψ ein signiertes Maß. Wir wollen nun zeigen, dass sich jedes signierte Maß auf einer σ–Algebra als Differenz zweier Maße, von denen mindestens eines endlich ist, darstellen l¨ asst. Wir ben¨ otigen das folgende Analogon zu Folgerung 4.2.6: ¯ ein signiertes Maß. Dann 4.3.2 Lemma. Sei C ein Ring und sei ν : C → R T gilt f¨ ur jede monoton fallende Folge {Ak }k∈N ⊆ C mit k∈N Ak ∈ C und |ν[A1 ]| < ∞ " # \ lim ν[Ak ] = ν Ak k→∞
k∈N
Der Beweis von Lemma 4.3.2 ergibt sich durch Wiederholung der in den Beweisen von Lemma 4.2.4 und Lemma 4.2.5 verwendeten Argumente, wobei alle auftretenden Suprema und Infima durch Limites zu ersetzen sind. F¨ ur A ∈ C setzen wir
¯ n o ¯ C(A) := B ∈ C ¯ B ⊆ A
¯ definieren wir Mengenfunktionen und f¨ ur eine Mengenfunktion ν : C → R + − ν : C → [0, ∞] und ν : C → [0, ∞] durch ν + [A] := sup ν[B] B∈C(A) −
ν [A] := sup (−ν[B]) B∈C(A)
58
Kapitel 4. Mengenfunktionen
Die Mengenfunktion ν + heißt die positive Variation oder der Positivteil von ν und die Mengenfunktion ν − heißt die negative Variation oder der Negativteil von ν. F¨ ur signierte Maße auf einer σ–Algebra erhalten wir das folgende Ergebnis: ¯ 4.3.3 Satz (Jordan–Zerlegung). Sei C eine σ–Algebra und sei ν : C → R ein signiertes Maß. Dann sind ν + und ν − Maße, von denen mindestens eines endlich ist, und es gilt ν = ν + − ν − . Beweis. Wir f¨ uhren den Beweis in mehreren Schritten. (1) Wir zeigen zun¨achst, dass die Mengenfunktionen ν + und ν − Maße sind: (i) Es gilt ν + [∅] = ν[∅] = 0. P∞ (ii) Sei nun A ∈ C und {Ak }k∈N ⊆ C eine disjunkte Folge mit k=1 Ak = A. F¨ ur jede Menge B ∈ C(A) gilt dann ν[B] =
∞ X
ν[B ∩ Ak ] ≤
k=1
∞ X
ν + [Ak ]
k=1
und damit ν + [A] ≤
∞ X
ν + [Ak ]
k=1
Sei nun {Bk }k∈N ⊆ C eine Folge mit Bk ∈ C(Ak ) f¨ urPalle k ∈ N. Dann ist n die Folge {Bk }k∈N disjunkt und f¨ ur alle n ∈ N gilt k=1 Bk ∈ C(A) und damit " n # n X X ν[Bk ] = ν Bk ≤ ν + [A] k=1
k=1
Durch Variation u alt man zun¨ achst ¨ber alle derartigen Folgen erh¨ n X
ν + [Ak ] ≤ ν + [A]
k=1
und sodann ∞ X
ν + [Ak ] ≤ ν + [A]
k=1
Daher gilt ∞ X
ν + [Ak ] = ν + [A]
k=1
Damit ist gezeigt, dass ν + ein Maß ist. Da mit ν auch −ν ein signiertes Maß ist, ist auch ν − = (−ν)+ ein Maß.
4.3 Signierte Maße
59
(2) Wir zeigen nun, dass mindestens eines der Maße ν + und ν − endlich ist. Dazu k¨ onnen wir ohne Beschr¨ankung der Allgemeinheit annehmen, dass f¨ ur alle A ∈ C ν[A] < ∞ gilt, und zeigen, dass in diesem Fall ν + endlich ist. Wir f¨ uhren den Beweis durch Widerspruch und nehmen an, dass ν + [Ω] = ∞ gilt. Wir konstruieren nun induktiv eine monoton fallende Folge {An }n∈N ⊆ C mit ν + [An ] = ∞ f¨ ur alle n ∈ N: • n = 1: Sei A1 := Ω •
Dann gilt A1 ∈ C und ν + [A1 ] = ∞. n → n + 1: Sei An ∈ C mit ν + [An ] = ∞ gegeben. Dann gibt es eine Menge Bn ∈ C(An ) mit ν[Bn ] ≥ n und max{ν + [Bn ], ν + [An \ Bn ]} = ∞ und wir setzen ½ Bn falls ν + [Bn ] = ∞ An+1 := An \ Bn sonst
Dann gilt An+1 ∈ C und ν + [An+1 ] = ∞ sowie An+1 ⊆ An . F¨ ur die Folgen {An }n∈N und {Bn }n∈N gilt eine der folgenden Alternativen: – Es gibt unendlich viele n ∈ N mit An+1 = An \ Bn – Es gibt ein m ∈ N mit An+1 = Bn f¨ ur alle n ∈ N(m). Wir untersuchen diese Alternativen getrennt: – Im ersten Fall besitzt die Folge {Bn }n∈N eine disjunkte Teilfolge {Bnk }k∈N und es gilt "∞ # ∞ ∞ X X X ν Bnk = ν[Bnk ] ≥ nk = ∞ k=1
–
k=1
k=1
Im zweiten Fall ist die Folge {Bn }n∈N(m) monoton fallend. In diesem Fall gibt es entweder ein n ∈ N(m) mit ν[Bn ] = ∞ oder es gilt ν[Bn ] < ∞ f¨ ur alle n ∈ N(m) und aus Lemma 4.3.2 folgt " # \ ν Bn = lim ν[Bn ] ≥ lim n = ∞ n∈N(m)
n→∞
n→∞
Daher gibt es in jedem Fall ein B ∈ C mit ν[B] = ∞. Dies widerspricht der Annahme an ν. Daher ist ν + endlich.
60
Kapitel 4. Mengenfunktionen
(3) Zum Beweis der letzten Behauptung k¨onnen wir wieder ohne Beschr¨ ankung der Allgemeinheit annehmen, dass f¨ ur alle A ∈ C ν[A] < ∞ gilt. Dann ist ν + endlich. Sei nun A ∈ C. – Im Fall ν[A] = −∞ gilt ν − [A] = ∞ und damit ν[A] = ν + [A] − ν − [A] –
Im Fall ν[A] ∈ R gilt ν + [A] − ν[A] = sup ν[B] − ν[A] B∈C(A)
= sup (ν[B]−ν[A]) B∈C(A)
= sup (−ν[A \ B]) B∈C(A)
= sup (−ν[C]) C∈C(A)
= ν − [A] und damit ebenfalls ν[A] = ν + [A] − ν − [A] Damit ist auch die letzte Behauptung des Satzes gezeigt.
2
Der folgende Satz pr¨azisiert die Jordan–Zerlegung eines signierten Maßes: ¯ ein 4.3.4 Satz (Hahn–Zerlegung). Sei C eine σ–Algebra und sei ν : C → R + − + signiertes Maß. Dann gibt es disjunkte Mengen Ω , Ω ∈ C mit Ω = Ω + Ω− sowie ν + [A] = ν[A ∩ Ω+ ] und ν − [A] = − ν[A ∩ Ω− ] f¨ ur alle A ∈ C. Beweis. Wir k¨ onnen ohne Beschr¨ankung der Allgemeinheit annehmen, dass ν + endlich ist. Dann gibt es eine Folge {An }n∈N ⊆ C mit ν + [Ω] ≤ ν[An ] + 1/2n und wir setzen
4.3 Signierte Maße
61
Ω+ := Ω− :=
∞ [ ∞ \
Ak
n=1 k=n ∞ \ ∞ [
(Ω \ Ak )
n=1 k=n
Dann gilt Ω+ , Ω− ∈ C sowie Ω+ ∩ Ω− = ∅ und Ω = Ω+ + Ω− . Aus der Jordan– Zerlegung erhalten wir ν − [Ak ] = ν + [Ak ] − ν[Ak ] ≤ ν + [Ω] − ν[Ak ] ≤ 1/2k , und aus Lemma 4.2.12 folgt nun "∞ # ∞ ∞ [ X X 1 1 ν− Ak ≤ ν − [Ak ] ≤ ≤ n−1 2k 2 k=n k=n k=n S∞ Insbesondere gilt ν − [ k=1 Ak ] ≤ 1 < ∞ und aus Folgerung 4.2.6 ergibt sich nun "∞ ∞ # "∞ # \ [ [ − + − − ν [Ω ] = ν Ak = lim ν Ak = 0 n→∞
n=1 k=n +
+
k=n
+
Ferner gilt ν [An ] + ν [Ω \ An ] = ν [Ω] ≤ ν[An ] + 1/2n ≤ ν + [An ] + 1/2n . Da ν + endlich ist, folgt daraus zun¨achst "∞ # \ + ν (Ω \ Ak ) ≤ ν + [Ω \ An ] ≤ 1/2n k=n
und sodann mit Lemma 4.2.4 "∞ ∞ # "∞ # [ \ \ + − + + ν [Ω ] = ν (Ω \ Ak ) = lim ν (Ω \ Ak ) = 0 n→∞
n=1 k=n
k=n
Aus der Jordan–Zerlegung erhalten wir nun f¨ ur alle A ∈ C ν + [A] = ν + [A ∩ Ω+ ] + ν + [A ∩ Ω− ] = ν + [A ∩ Ω+ ] = ν + [A ∩ Ω+ ] − ν − [A ∩ Ω+ ] = ν[A ∩ Ω+ ] und analog zeigt man ν − [A] = −ν[A ∩ Ω− ]. ¯ heißt Eine Mengenfunktion ν : C → R – endlich, wenn f¨ ur alle A ∈ C |ν[A]| < ∞ –
gilt. beschr¨ ankt, wenn sup |ν[A]| < ∞ A∈C
gilt. Jede beschr¨ ankte Mengenfunktion ist endlich.
2
62
Kapitel 4. Mengenfunktionen
Aufgaben 4.3.A
Sei C eine σ–Algebra und seien ϕ, ψ : C → [0, ∞] Maße. Dann ist jede der Mengenfunktionen ϕ ∨ ψ, ϕ ∧ ψ : C → [0, ∞] mit ³ ´ (ϕ ∨ ψ)[A] := sup ϕ[B] + ψ[A \ B] B∈C(A)
(ϕ ∧ ψ)[A] :=
inf
B∈C(A)
³
´ ϕ[B] + ψ[A \ B]
ein Maß. 4.3.B
Formulieren und beweisen Sie f¨ ur Inhalte Analoga zu den Aussagen von Aufgabe 4.3.A.
4.3.C
Formulieren und beweisen Sie f¨ ur endliche signierte Maße Analoga zu den Aussagen von Aufgabe 4.3.A. ¯ ein signiertes Jordan–Zerlegung: Sei C eine σ–Algebra und sei ν : C → R Maß. Dann ist die Mengenfunktion |ν| : C → [0, ∞] mit ¯ ( n ) ¯ X ¯ |ν|[A] := sup |ν[Ak ]| ¯ n ∈ N und {Ak }k∈{1,...,n} ⊆ C(A) disjunkt ¯
4.3.D
k=1
4.3.E
4.3.F
ein Maß und es gilt |ν| = ν + + ν − sowie ν + ∨ ν − = |ν| und ν + ∧ ν − = 0. Das Maß |ν| heißt die totale Variation von ν. ¯ ein signiertes Jordan–Zerlegung: Sei C eine σ–Algebra und ν : C → R Maß. Sind ϕ, ψ : C → [0, ∞] Maße mit ν = ϕ − ψ, so gilt ν + ≤ ϕ und ν − ≤ ψ; im Fall ϕ ∧ ψ = 0 gilt sogar ν + = ϕ und ν − = ψ. ¯ ein signiertes Maß. Hahn–Zerlegung: Sei C eine σ–Algebra und ν : C → R F¨ ur i ∈ {1, 2} seien Pi , Ni ∈ C Mengen mit Pi ∩ Ni = ∅ und Pi + Ni = Ω sowie ν + [A] = ν[A ∩ Pi ] ν − [A] = −ν[A ∩ Ni ]
4.3.G
f¨ ur alle A ∈ C. Dann gilt |ν|(P1 4P2 ) = 0 = |ν|(N1 4N2 ). ¯ ein signiertes Maß. Dann sind folgende Sei C eine σ–Algebra und ν : C → R Aussagen ¨ aquivalent: (a) ν ist endlich. (b) ν ist beschr¨ ankt.
5 Fortsetzung von Maßen
In diesem Kapitel untersuchen wir f¨ ur ein Maß auf einem Mengensystem, das die leere Menge enth¨alt, die Existenz und die Eindeutigkeit einer Fortsetzung zu einem Maß auf einer σ–Algebra, die das gegebene Mengensystem enth¨ alt. Wir beginnen mit einem Eindeutigkeitssatz (Abschnitt 5.1). Als Vorbereitung f¨ ur den Beweis eines Fortsetzungssatzes f¨ uhren wir dann ¨ außere Maße ein und zeigen, dass es zu jedem ¨außeren Maß eine σ–Algebra gibt, f¨ ur die die Restriktion des ¨ außeren Maßes ein Maß ist (Abschnitt 5.2). Wir beweisen sodann den Satz von Caratheodory u ¨ber die Existenz und Eindeutigkeit einer Fortsetzung eines σ–endlichen Maßes von einem Halbring auf die von ihm erzeugte σ–Algebra (Abschnitt 5.3). Aus dem Fortsetzungssatz erhalten wir einen n¨ utzlichen Approximationssatz (Abschnitt 5.4) und das Lebesgue–Maß auf der Borelschen σ–Algebra des Euklidischen Raumes (Abschnitt 5.5). Im gesamten Kapitel sei Ω eine nichtleere Menge.
5.1 Eindeutigkeitssatz In diesem Abschnitt zeigen wir, dass ein σ–endliches Maß auf einem nichtleeren ∩–stabilen Mengensystem h¨ochstens eine Fortsetzung auf die erzeugte σ–Algebra besitzt: 5.1.1 Satz (Eindeutigkeitssatz). Sei F ⊆ 2Ω eine σ–Algebra und sei E ⊆ 2Ω ein ∩–stabiles Mengensystem mit σ(E) = F. Sind µ, ν : F → [0, ∞] Maße mit µ|E = ν|E und ist µ|E σ–endlich, so gilt µ = ν und µ ist σ–endlich. Beweis. Da µ|E σ–endlich ist, gibt es eine Folge {En }n∈N ⊆ E mit [ En = Ω n∈N
und µ[En ] < ∞ f¨ ur alle n ∈ N. K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_5, © Springer-Verlag Berlin Heidelberg 2011
64
Kapitel 5. Fortsetzung von Maßen
(1) F¨ ur E ∈ E mit µ[E] = ν[E] < ∞ sei ¯ n o ¯ DE := A ∈ F ¯ µ[E ∩ A] = ν[E ∩ A] Dann ist das Mengensystem DE ein Dynkin–System: (i) Es gilt Ω ∈ DE . (ii) Sei A ∈ DE . Dann gilt µ[E ∩ A] = µ[E] − µ[E ∩ A] = ν[E] − ν[E ∩ A] = ν[E ∩ A] und damit A ∈ DE . (iii) Sei {An }n∈N ⊆ DE disjunkt. Dann gilt " # " # ∞ ∞ ∞ ∞ X X X X µ E∩ An = µ[E ∩ An ] = ν[E ∩ An ] = ν E ∩ An n=1
n=1
P
n=1
n=1
und damit n∈N An ∈ DE . Da E ∩–stabil ist, gilt E ⊆ DE und damit δ(E) ⊆ DE Da E ∩–stabil ist, gilt außerdem σ(E) = δ(E), und damit F = σ(E) = δ(E) ⊆ DE Damit ist gezeigt, dass f¨ ur alle E ∈ E mit µ[E] < ∞ und f¨ ur alle A ∈ F µ[E ∩ A] = ν[E ∩ A] gilt. (2) Wir betrachten nun die Folge {En }n∈N ⊆ E. F¨ ur alle n ∈ N0 sei Cn :=
n [
Ek
k=1
und f¨ ur alle n ∈ N sei Bn := Cn \ Cn−1 Dann ist {Bn }n∈N eine disjunkte Folge in F mit n ∈ N gilt Bn ⊆ En . (3) F¨ ur alle A ∈ F gilt wegen (2) A=
∞ X
Bn ∩ A =
n=1
∞ X
P∞ n=1
Bn = Ω, und f¨ ur alle
En ∩ (Bn ∩ A)
n=1
und aus (1) folgt nun wegen µ[En ] < ∞ und Bn ∩ A ∈ F ⊆ DEn µ[A] =
∞ X
µ[En ∩ (Bn ∩ A)] =
n=1
Damit ist gezeigt, dass µ = ν gilt.
∞ X
ν[En ∩ (Bn ∩ A)] = ν[A]
n=1
2
¨ 5.2 Außere Maße
65
Aufgabe 5.1.A
Sei F ⊆ 2Ω eine σ–Algebra und sei A ⊆ 2Ω eine Algebra mit σ(A) = F. Sind µ, ν : F → [0, ∞] endliche Maße mit µ[Ω] = ν[Ω] und µ[A] ≤ ν[A] f¨ ur alle A ∈ A, so gilt µ = ν.
¨ 5.2 Außere Maße Eine Mengenfunktion % : 2Ω → [0, ∞] heißt ¨ außeres Maß , wenn sie folgende Eigenschaften besitzt: (i) Es gilt %[∅] = 0. (ii) % ist monoton. (iii) % ist σ–subadditiv. Jedes Maß 2Ω → [0, ∞] ist ein a¨ußeres Maß, und jedes a ¨ußere Maß ist endlich subadditiv. F¨ ur ein ¨ außeres Maß % : 2Ω → [0, ∞] bestimmen wir nun eine σ–Algebra F(%) derart, dass die Restriktion von % auf F (%) ein Maß ist. Da % σ–subadditiv ist, gen¨ ugt es nach Lemma 4.2.12 zu zeigen, dass die Restriktion von % auf F(%) ein Inhalt ist, und wegen %[∅] = 0 gen¨ ugt es nach Lemma 4.1.2 zu zeigen, dass ¨ die Restriktion von % auf F (%) additiv ist. Diese Uberlegung legt die folgende Definition nahe: F¨ ur ein ¨ außeres Maß % : 2Ω → [0, ∞] sei ¯ n o ¯ F(%) := A ∈ 2Ω ¯ f¨ ur alle E ∈ 2Ω gilt %[E] = %[E ∩ A] + %[E \ A] Wir bezeichnen das Mengensystem F (%) als System der additiven Zerleger bez¨ uglich %. Da jedes ¨außere Maß subadditiv ist, gilt ¯ n o ¯ F(%) = A ∈ 2Ω ¯ f¨ ur alle E ∈ 2Ω gilt %[E] ≥ %[E ∩ A] + %[E \ A] Der folgende Satz zeigt, dass das Mengensystem F(%) eine σ–Algebra ist und dass die Restriktion %|F(%) : F (%) → [0, ∞] von % auf F (%) ein Maß ist: 5.2.1 Satz. Sei % : 2Ω → [0, ∞] ein ¨ außeres Maß. Dann ist F (%) eine σ– Algebra und %|F(%) ist ein Maß. Beweis. Wir untersuchen zun¨achst das Mengensystem F(%). Als erstes zeigen wir, dass F (%) ∩–stabil ist. Sei A, B ∈ F (%) und E ∈ 2Ω . Wegen E \ (A ∩ B) = (E ∩ A) \ B + (E \ A) ∩ B + (E \ A) \ B folgt aus der endlichen Subadditivit¨at von %
66
Kapitel 5. Fortsetzung von Maßen
%[E] ≤ %[E ∩ (A ∩ B)] + %[E \ (A ∩ B)] ≤ %[(E ∩ A) ∩ B] + %[(E ∩ A) \ B] + %[(E \ A) ∩ B] + %[(E \ A) \ B] = %[E ∩ A] + %[E \ A] = %[E] und damit %[E] = %[E ∩ (A ∩ B)] + %[E \ (A ∩ B)] Daher gilt A ∩ B ∈ F(%). Damit ist gezeigt, dass F (%) ∩–stabil ist. Als n¨ achstes zeigen wir, dass F (%) ein Dynkin–System ist: (i) Es gilt Ω ∈ F(%). (ii) F¨ ur alle A ∈ F (%) gilt A ∈ F (%). (iii) Sei {Ak }k∈N ⊆ F(%) disjunkt und E ∈ 2Ω . Wir betrachten zun¨ achst die Menge A1 +A2 . Da F(%) ∩–stabil ist, ergibt sich aus (ii) und den Gesetzen von DeMorgan A1 + A2 ∈ F(%) und es gilt %[E ∩ (A1 +A2 )] = %[E ∩ (A1 +A2 ) ∩ A1 ] + %[E ∩ (A1 +A2 ) \ A1 ] = %[E ∩ A1 ] + %[E ∩ A2 ] Durch vollst¨ andige Induktion ergibt sich sodann " % E∩
n X
# Ak =
k=1
n X
Pn k=1
Ak ∈ F(%) und
%[E ∩ Ak ]
k=1
und aus der Monotonie von % folgt nun " # " # " # n ∞ n ∞ X X X X %[E ∩ Ak ] + % E \ Ak = % E ∩ Ak + % E \ Ak k=1
k=1
" ≤% E∩
k=1 n X
#
"
Ak + % E \
k=1
k=1 n X
# Ak
k=1
= %[E] Daher gilt ∞ X
" %[E ∩ Ak ] + % E \
k=1
∞ X
# Ak ≤ %[E]
k=1
Aus der σ–Subadditivit¨at von % und der letzten Ungleichung folgt nun " # " # ∞ ∞ X X %[E] ≤ % E ∩ Ak + % E \ Ak k=1
k=1
5.3 Existenzsatz
67
" =% ≤
∞ X
#
"
E ∩ Ak + % E \
k=1 ∞ X
"
%[E ∩ Ak ] + % E \
k=1
∞ X
k=1 ∞ X
# Ak #
Ak
k=1
≤ %[E] und damit
" %[E] = % E ∩
∞ X
#
"
Ak + % E \
k=1
∞ X
# Ak
k=1
P∞ Daher gilt k=1 Ak ∈ F (%). Damit ist gezeigt, dass F (%) ein Dynkin–System ist. Da F(%) ein ∩–stabiles Dynkin–System ist, ist F (%) eine σ–Algebra. Wir zeigen nun, dass %|F(%) ein Inhalt ist: (i) Es gilt %|F(%) [∅] = %[∅] = 0. (ii) F¨ ur alle A, B ∈ F(%) mit A ∩ B = ∅ gilt A + B ∈ F(%) und damit %|F(%) [A + B] = %[A + B] = %[(A+B) ∩ A] + %[(A+B) \ A] = %[A] + %[B] = %|F(%) [A] + %|F(%) [B] Daher ist %|F(%) ein Inhalt. Da %|F (%) ein Inhalt ist und mit % auch %|F(%) σ–subadditiv ist, ist %|F (%) nach Lemma 4.2.12 ein Maß. 2 Aufgabe 5.2.A
F¨ ur jedes ¨ außere Maß % : 2Ω → [0, ∞] ist das Maß %|F (%) : F (%) → [0, ∞] vollst¨ andig.
5.3 Existenzsatz Sei E ⊆ 2Ω ein Mengensystem mit ∅ ∈ E und sei µ : E → [0, ∞] eine Mengenfunktion mit µ[∅] = 0. Dann ist die Abbildung µ∗ : 2Ω → [0, ∞] mit ∗
µ [A] :=
inf S {Ek }k∈N ⊆E, A⊆ k∈N Ek
∞ X
µ[Ek ]
k=1
eine Mengenfunktion. Der folgende Satz zeigt, dass µ∗ ein ¨ außeres Maß ist: 5.3.1 Lemma (Konstruktion eines ¨ außeren Maßes). Sei E ⊆ 2Ω ein Mengensystem mit ∅ ∈ E und sei µ : E → [0, ∞] eine Mengenfunktion mit µ[∅] = 0. Dann ist µ∗ ein ¨ außeres Maß.
68
Kapitel 5. Fortsetzung von Maßen
Beweis. Wir zeigen, dass µ∗ die Axiome eines ¨ außeren Maßes erf¨ ullt: (i) Es gilt µ∗ [∅] = 0. (ii) F¨ ur alle A, B ∈ 2Ω mit B ⊆ A gilt µ∗ [B] ≤ µ∗ [A]. (iii) Sei {An }n∈N ⊆ 2Ω . Wir nehmen zun¨achst an, dass f¨ ur alle n ∈ N µ∗ [An ] < ∞ gilt. Sei ε ∈ ur alle n ∈ N eine Folge {En,k }k∈N ⊆ E S(0, ∞). Dann gibt es f¨ mit An ⊆ k∈N En,k und ∞ X
µ[En,k ] ≤ µ∗ [An ] + ε/2n
k=1
Daher gilt " ∗
µ
[
#
" ∗
An ≤ µ
n∈N
≤ ≤ =
[ [
# En,k
n∈N k∈N ∞ X ∞ X
µ[En,k ]
n=1 k=1 ∞ ³ X ∗
µ [An ] + ε/2n
n=1 ∞ X
´
µ∗ [An ] + ε
n=1
Da ε ∈ (0, ∞) beliebig war, folgt daraus " # ∞ [ X ∗ µ An ≤ µ∗ [An ] n∈N
n=1
Diese Ungleichung gilt auch dann, wenn die Bedingung µ∗ [An ] < ∞ f¨ ur ein n ∈ N verletzt ist. Daher ist µ∗ σ–subadditiv. Damit ist gezeigt, dass µ∗ ein ¨außeres Maß ist. 2 Lemma 5.3.1 enth¨alt keine Aussage u ¨ber die Beziehung zwischen der Mengenfunktion µ : E → [0, ∞] und der Restriktion µ∗ |E : E → [0, ∞] des von ihr erzeugten ¨ außeren Maßes. Unter einer zus¨atzlichen Bedingung an das Mengen¨ system E erh¨ alt man jedoch die Ubereinstimmung von µ und µ∗ |E : 5.3.2 Satz (Existenzsatz). Sei E ⊆ 2Ω ein Halbring und sei µ : E → [0, ∞] ein Maß. Dann gilt E ⊆ F(µ∗ ) und µ∗ |E = µ. Insbesondere ist µ∗ |F (µ∗ ) ein Maß und eine Fortsetzung von µ. Beweis. Aufgrund von Satz 4.2.3 k¨onnen wir annehmen, dass E ein Ring ist.
5.3 Existenzsatz
69
(1) Wir zeigen zun¨achst, dass E ⊆ F(µ∗ ) gilt. Sei A ∈ E und E ∈ 2Ω . Da µ∗ ein ¨ außeres Maß ist, gilt µ∗ [E] ≤ µ∗ [E ∩ A] + µ∗ [E \ A] Im Fall µ∗ [E] = ∞ folgt daraus µ∗ [E] = µ∗ [E ∩ A] + µ∗ [E \ A] Wir nehmen nun an, dass µ∗ [E] <S∞ gilt. Dann gibt es zu jedem ε ∈ (0, ∞) eine Folge {Ek }k∈N ⊆ E mit E ⊆ k∈N Ek und ∞ X
µ[Ek ] ≤ µ∗ [E] + ε
n=1
Da E ein S Ring ist, sind {Ek ∩ A}k∈N S und {Ek \ A}k∈N Folgen in E, und wegen E ∩ A ⊆ k∈N Ek ∩ A und E \ A ⊆ k∈N Ek \ A erhalten wir µ∗ [E] ≤ µ∗ [E ∩ A] + µ∗ [E \ A] ≤ = =
∞ X
µ[Ek ∩ A] +
k=1 ∞ ³ X k=1 ∞ X
∞ X
µ[Ek \ A]
k=1
´ µ[Ek ∩ A] + µ[Ek \ A]
µ[Ek ]
k=1 ∗
≤ µ [E] + ε Da ε ∈ (0, ∞) beliebig war, ergibt sich daraus µ∗ [E] = µ∗ [E ∩ A] + µ∗ [E \ A] Daher gilt f¨ ur alle E ∈ 2Ω µ∗ [E] = µ∗ [E ∩ A] + µ∗ [E \ A] und damit A ∈ F(µ∗ ). Damit ist gezeigt, dass E ⊆ F (µ∗ ) gilt. (2) Wir zeigen nun, dass µ∗ |E = µ gilt. Sei A ∈ E. Dann gilt µ∗ [A] ≤ µ[A] S Sei nun {Ek }k∈N ⊆ E eine Folge mit A S ⊆ k∈N Ek . Da E ein Ring ist, ist {A ∩ Ek }k∈N eine Folge in E mit A = k∈N A ∩ Ek , und da µ σ–subadditiv und monoton ist, erhalten wir µ[A] ≤
∞ X k=1
µ[A ∩ Ek ] ≤
∞ X k=1
µ[Ek ]
70
Kapitel 5. Fortsetzung von Maßen
Daher gilt µ[A] ≤ µ∗ [A] und damit µ[A] = µ∗ [A] Damit ist gezeigt, dass µ∗ |E = µ gilt.
2
Aus dem Existenzsatz und dem Eindeutigkeitssatz ergibt sich nun der wichtige Existenz– und Eindeutigkeitssatz von Caratheodory: 5.3.3 Satz (Caratheodory). Sei E ⊆ 2Ω ein Halbring und sei µ : E → [0, ∞] ein σ–endliches Maß. Dann gibt es genau ein Maß µ e : σ(E) → [0, ∞] mit µ e|E = µ. Das Maß µ e ist σ–endlich und es gilt µ e = µ∗ |σ(E) . Beweis. Aus dem Existenzsatz folgt, dass E ⊆ F (µ∗ ) und damit auch σ(E) ⊆ F(µ∗ ) gilt und dass µ∗ |F(µ∗ ) ein Maß und eine Fortsetzung von µ auf F (µ∗ ) ist. Wegen σ(E) ⊆ F (µ∗ ) ist das Maß µ∗ |σ(E) eine Fortsetzung von µ auf σ(E). Da µ σ–endlich ist, folgt nun aus dem Eindeutigkeitssatz, dass µ∗ |σ(E) die einzige Fortsetzung von µ auf σ(E) ist und dass µ∗ |σ(E) σ–endlich ist. 2 Aufgaben 5.3.A
Caratheodory: Sei E ⊆ 2Ω ein Halbring und sei µ : E → [0, ∞] ein σ–endliches Maß. Dann gibt es genau ein Maß µ e : F (µ∗ ) → [0, ∞] mit µ e|E = µ. Das Maß µ e ist σ–endlich und es gilt µ e = µ∗ |F(µ∗ ) .
5.3.B
Sei E ⊆ 2Ω ein Halbring und sei µ : E → [0, ∞] ein Maß. Dann ist das Maß µ∗ |F (µ∗ ) : F (µ∗ ) → [0, ∞] vollst¨ andig.
5.3.C
Vervollst¨ andigung: Sei E ⊆ 2Ω ein Halbring und sei µ : E → [0, ∞] ein σ–endliches Maß. Sei ferner F0 ⊆ 2Ω eine σ–Algebra mit E ⊆ F0 und sei µ0 : F0 → [0, ∞] ein vollst¨ andiges Maß mit µ0 |E = µ. Dann gilt F (µ∗ ) ⊆ F0 ∗ ∗ ∗ und µ0 |F (µ ) = µ |F(µ ) .
5.4 Approximationssatz Aus dem Satz von Caratheodory erh¨alt man den folgenden Approximationssatz f¨ ur endliche Maße: 5.4.1 Satz (Approximationssatz). Sei F ⊆ 2Ω eine σ–Algebra und sei A ⊆ 2Ω eine Algebra mit σ(A) = F. Ist µ : F → [0, ∞] ein endliches Maß, so gibt es f¨ ur jede Menge A ∈ F eine Folge {Cn }n∈N ⊆ A mit lim µ[A4Cn ] = 0
n→∞
5.4 Approximationssatz
71
Beweis. Da A eine Algebra und µ endlich ist, ist insbesondere A ein Halbring und µ|A σ–endlich. Nach dem Satz von Caratheodory gilt daher µ = (µ|A )∗ |F Sei A ∈ F und ε ∈ (0, ∞). Nach Konstruktion des ¨ außeren Maßes (µ|A )∗ gibt S es eine Folge {Ek }k∈N ⊆ A mit A ⊆ k∈N Ek ∈ F und ∞ X
µ|A [Ek ] ≤ (µ|A )∗ [A] + ε/2
k=1
Daher gilt ∞ X
Sei nun E :=
µ[Ek ] ≤ µ[A] + ε/2
k=1
S k∈N
Ek . Da µ σ–subadditiv ist, ergibt sich nun
µ[A] + µ[E \ A] = µ[E] ≤
∞ X
µ[Ek ] ≤ µ[A] + ε/2
k=1
und aus der Endlichkeit von µ folgt dann µ[E \ A] ≤ ε/2 Sn
F¨ ur alle n ∈ N S sei Cn := k=1 Ek . Dann ist {Cn }n∈N eine monoton wachsende Folge in A mit Tn∈N Cn = E, und damit ist {E\Cn }n∈N eine monoton fallende Folge in F mit n∈N E \ Cn = ∅. Da µ endlich ist, gilt limn→∞ µ[E \ Cn ] = 0. F¨ ur alle hinreichen großen n ∈ N gilt daher µ[E \ Cn ] ≤ ε/2 Wegen A ∪ Cn ⊆ E gilt dann f¨ ur alle hinreichen großen n ∈ N µ[A4Cn ] = µ[A \ Cn ] + µ[Cn \ A] ≤ µ[E \ Cn ] + µ[E \ A] ≤ ε/2 + ε/2 = ε Daraus folgt die Behauptung.
2
5.4.2 Folgerung. Sei F ⊆ 2Ω eine σ–Algebra und sei A ⊆ 2Ω eine Algebra mit σ(A) = F. Ist µ : F → [0, ∞] ein endliches Maß, so gibt es f¨ ur jede Menge A ∈ F eine Folge {Cn }n∈N ⊆ A mit lim µ[Cn ] = µ[A]
n→∞
Beweis. F¨ ur alle A, C ∈ F gilt µ[A] − µ[C] = µ[A \ C] − µ[C \ A] ≤ µ[A \ C] + µ[C \ A] = µ[A4C] und damit |µ[A] − µ[C]| ≤ µ[A4C] Die Behauptung folgt nun aus dem Approximationssatz.
2
72
Kapitel 5. Fortsetzung von Maßen
Aufgabe 5.4.A
Sei F ⊆ 2Ω eine σ–Algebra und sei A ⊆ 2Ω eine Algebra mit σ(A) = F. Ist µ : F → [0, ∞] ein endliches Maß, so gibt es f¨ ur jede Menge A ∈ F eine Folge {Cn }n∈N ⊆ A mit lim dµ (A, Cn ) = 0
n→∞
5.5 Lebesgue–Maß Auf dem Halbring J (Rn ) der halboffenen Intervalle des Rn wird in nat¨ urlicher Weise durch n Y (bi − ai ) falls a < b λn [(a, b]] := i=1 0 sonst eine Mengenfunktion λn : J (Rn ) → [0, ∞] definiert. Ziel dieses Abschnitts ist es zu zeigen, dass diese Mengenfunktion ein Maß ist und eine eindeutige Fortsetzung zu einem Maß auf der Borelschen σ–Algebra B(Rn ) besitzt. Wir ben¨ otigen die folgende Definition: Eine Menge H ⊆ Rn heißt Halbraum, wenn es ein j ∈ {1, . . . , n} und ein z ∈ R gibt mit ¯ n o ¯ H = x ∈ Rn ¯ xj ≤ z Das folgende Lemma zeigt, dass je zwei disjunkte halboffene Intervalle durch einen Halbraum getrennt werden: 5.5.1 Lemma. F¨ ur alle J1 , J2 ∈ J (Rn ) mit J1 ∩ J2 = ∅ gibt es einen Halbn raum H ⊆ R derart, dass entweder J1 ∩ H = J1 und J2 ∩ H = ∅ oder J2 ∩ H = J2 und J1 ∩ H = ∅ gilt. Beweis. Im Fall J1 = ∅ oder J2 = ∅ ist nichts zu zeigen. Sei nun J1 6= ∅ und J2 6= ∅. Dann gibt es a, b, c, d ∈ Rn mit a < b und c < d sowie J1 = (a, b] J2 = (c, d] und wegen J1 ∩ J2 = ∅ gibt es ein j ∈ {1, . . . , n} mit bj ≤ cj oder dj ≤ aj . Wir k¨ onnen ohne Beschr¨ankung der Allgemeinheit annehmen, dass bj ≤ cj und damit [bj , cj ] = 6 ∅ gilt. Wir w¨ahlen nun ein z ∈ [bj , cj ] und setzen ¯ n o ¯ H := x ∈ Rn ¯ xj ≤ z Dann ist H ein Halbraum und es gilt J1 ∩ H = J1 und J2 ∩ H = ∅.
2
5.5 Lebesgue–Maß
73
5.5.2 Lemma. F¨ ur jedes Intervall J ∈ J (Rn ) und jeden Halbraum H ⊆ Rn n gilt J ∩ H ∈ J (R ) und J \ H ∈ J (Rn ) sowie λn [J] = λn [J ∩ H] + λn [J \ H] Beweis. Im Fall J ∩ H = ∅ oder J \ H = ∅ ist nichts zu zeigen. Sei nun J ∩ H 6= ∅ und J \ H 6= ∅. Dann gibt es a, d ∈ Rn mit a < d und J = (a, d] sowie ein j ∈ {1, . . . , n} und ein z ∈ R mit ¯ n o ¯ H = x ∈ Rn ¯ xj ≤ z Wegen J ∩H 6= ∅ und J \H 6= ∅ gilt aj durch ½ z bi := di ½ z ci := ai
< z < dj . Wir definieren nun b, c ∈ Rn falls i = j sonst falls i = j sonst
Dann gilt J ∩ H = (a, b] ∈ J (Rn ) und J \ H = (c, d] ∈ J (Rn ) und damit λn [J] = λn [(a, d]] =
n Y
(di −ai )
i=1
Y
= (dj −aj )
(di −ai )
i∈{1,...,n}\{j}
Y
= (z −aj )
i∈{1,...,n}\{j}
Y
= (bj −aj ) =
i=1
(bi −ai ) +
n Y
(di −ai )
i∈{1,...,n}\{j}
(bi −ai ) + (dj −cj )
i∈{1,...,n}\{j} n Y
Y
(di −ai ) + (dj −z)
Y
(di −ci )
i∈{1,...,n}\{j}
(di −ci )
i=1
= λn [(a, b]] + λn [(c, d]] = λn [J ∩ H] + λn [J \ H] Damit ist die Behauptung gezeigt. 5.5.3 Lemma. Die Mengenfunktion λn ist ein σ–endliches Maß.
2
74
Kapitel 5. Fortsetzung von Maßen
Beweis. Wir zeigen zun¨achst, dass λn ein Inhalt ist. (i) Es gilt λn [∅] = 0. (ii) F¨ ur P alle m ∈ N und f¨ ur jede disjunkte Familie {Jk }k∈{1,...,m} ⊆ J (Rn ) m n mit k=1 Jk ∈ J (R ) gilt "m # m X X n λ Jk = λn [Jk ] k=1
k=1
Wir f¨ uhren den Beweis dieser Behauptung durch vollst¨ andige Induktion: • m = 1: In diesem Fall ist nichts zu zeigen. • m → m + 1: Wir nehmen an, die Behauptung sei f¨ ur m bereits bewiesen, und betrachten eine disjunkte Familie {Jk }k∈{1,...,m+1} ⊆ Pm+1 n J (Rn ) mit k=1 Jk ∈ J (R ). Nach Lemma 5.5.1 gibt es einen n Halbraum H ⊆ R mit Jm ∩ H = Jm und Jm+1 ∩ H = ∅ oder Jm+1 ∩ H = Jm+1 und Jm ∩ H = ∅. Wir k¨ onnen ohne Beschr¨ ankung der Allgemeinheit annehmen, dass Jm ∩ H = Jm und Jm+1 ∩ H = ∅ gilt. Dann gilt m+1 X k=1 m+1 X
Jk ∩ H = Jk \ H =
k=1
m−1 X k=1 m−1 X
(Jk ∩ H) + Jm (Jk \ H) + Jm+1
k=1
Aus Lemma 5.5.2 und der Voraussetzung folgt nun "m+1 # X n λ Jk k=1
=λ
n
"m+1 X
# Jk ∩ H + λ
k=1
= λn
"m−1 X
n
"m+1 X
#
m−1 X
Jk ∩ H + Jm + λn
λn [Jk ∩ H] + λn [Jm ] +
k=1
=
"m−1 X
# Jk \ H + Jm+1
k=1 m−1 X
λn [Jk \ H] + λn [Jm+1 ]
k=1
m−1 X³
´ λn [Jk ∩ H] + λn [Jk \ H] + λn [Jm ] + λn [Jm+1 ]
k=1
=
Jk \ H
k=1
k=1
=
#
m+1 X
λn [Jk ]
k=1
Damit ist gezeigt, dass λn ein Inhalt ist.
5.5 Lebesgue–Maß
75
Wir zeigen nun, dass λn sogar ein Maß ist. Da J (Rn ) ein Halbring und λn ein Inhalt ist, gen¨ ugt es nach Lemma 4.2.12 zu zeigen, dass λn σ–subadditiv ist. Sei J ∈ J (Rn ) und sei {Jk }k∈N ⊆ J (Rn ) eine Folge mit [ J= Jk k∈N
Wegen λn [∅] = 0 gen¨ ugt es, den Fall zu betrachten, in dem J 6= ∅ und Jk 6= ∅ f¨ ur alle k ∈ N gilt. Dann gibt es a, b ∈ Rn mit a < b und J = (a, b] und f¨ ur alle k ∈ N gibt es ak , bk ∈ Rn mit ak < bk und Jk = (ak , bk ] Sei ε ∈ (0, ∞). Dann gibt es ein aε ∈ (a, b) mit λn [(a, b]] ≤ λn [(aε , b]] + ε und f¨ ur jedes k ∈ N gibt es ein bεk ∈ (bk , ∞) mit λn [(ak , bεk ]] ≤ λn [(ak , bk ]] + ε/2k Es gilt [
[aε , b] ⊆ (a, b] = J =
Jk =
k∈N
[
(ak , bk ] ⊆
k∈N
[
(ak , bεk )
k∈N
Da einerseits das Intervall [aε , b] abgeschlossen und beschr¨ ankt und damit nach dem Satz von Heine/Borel kompakt ist und andererseits jedes der Intervalle (ak , bεk ) offen ist, gibt es eine endliche Menge K ⊆ N mit [ [aε , b] ⊆ (ak , bεk ) k∈K
Daher gilt (aε , b] ⊆ [aε , b] ⊆
S
ε k∈K (ak , bk )
(aε , b] =
[
⊆
S
ε k∈K (ak , bk ]
und damit
(ak , bεk ] ∩ (aε , b]
k∈K n
Da λ ein Inhalt und damit endlich subadditiv und monoton ist, ergibt sich nun λn [J] − ε = λn [(a, b]] − ε ≤ λn [(aε , b]] " # [ n ε ε =λ (ak , bk ] ∩ (a , b] k∈K
76
Kapitel 5. Fortsetzung von Maßen
≤
h i λn (ak , bεk ] ∩ (aε , b]
X k∈K
≤
X
λn [(ak , bεk ]]
k∈K
≤ ≤ =
X³
λn [(ak , bk ]] + ε/2k
´
k∈K ∞ X
λn [(ak , bk ]] + ε
k=1 ∞ X
λn [Jk ] + ε
k=1
Da ε ∈ (0, ∞) beliebig war, folgt daraus n
λ [J] ≤
∞ X
λn [Jk ]
k=1 n
Damit ist gezeigt, dass der Inhalt λ σ–subadditiv und S damit ein Maß ist. Wir zeigen abschließend, dass λn σ–endlich ist. Es gilt k∈N (−k1, k1] = Rn und f¨ ur alle k ∈ N gilt (−k1, k1] ∈ J (Rn ) und λn [(−k1, k1]] = (2k)n < ∞. Damit ist gezeigt, dass λn σ–endlich ist. 2 5.5.4 Satz. Die Mengenfunktion λn besitzt eine eindeutige Fortsetzung zu einem Maß auf B(Rn ) und die Fortsetzung ist σ–endlich. Beweis. Nach Lemma 5.5.3 ist die Mengenfunktion λn : J (Rn ) → [0, ∞] ein σ–endliches Maß. Da das Mengensystem J (Rn ) ein Halbring ist, folgt die Behauptung aus dem Satz von Caratheodory. 2 Das nach dem letzten Satz eindeutig bestimmte Maß B(Rn ) → [0, ∞], das die Mengenfunktion λn : J (Rn ) → [0, ∞] fortsetzt, heißt (n–dimensionales) Lebesgue–Maß und wird wieder mit λn bezeichnet. Im Fall n = 1 schreiben wir λ anstelle von λ1 . Das Lebesgue–Maß ist σ–endlich, aber es ist nicht endlich, denn es gilt λn [Rn ] = ∞. 5.5.5 Folgerung. F¨ ur alle a, b ∈ Rn und f¨ ur jede Menge B ∈ B(Rn ) mit n n (a, b) ⊆ B ⊆ [a, b] gilt λ [B] = λ [(a, b]].
5.5 Lebesgue–Maß
77
Beweis. Im Fall (a, b) = ∅ gilt (a, b] = ∅ und damit λn [(a, b)] = 0 = λn [(a, b]] Im Fall (a, b) 6= ∅ gibt es eine monoton wachsende Folge {bk }k∈N ⊆ (a, b) mit b = supk∈N bk . S Dann ist {(a, bk ]}k∈N eine monoton wachsende Folge in B(Rn ) mit (a, b) = k∈N (a, bk ] und es gilt λn [(a, b)] = sup λn [(a, bk ]] = sup k∈N
n Y
k∈N i=1
(bki − ai ) =
n Y
(bi − ai ) = λn [(a, b]]
i=1
In beiden F¨ allen gibt es eine monoton wachsende Folge {ak }k∈N ⊆ R mit a = supk∈N aTk . Dann ist {(ak , b]}k∈N eine monoton fallende Folge in B(Rn ) mit [a, b] = k∈N (ak , b] und wegen λn [(a1 , b]] < ∞ gilt λn [[a, b]] = inf λn [(ak , b]] = inf k∈N
k∈N
n Y
(bi −aki ) =
i=1
n Y
(bi −ai ) = λn [(a, b]]
i=1
Daher gilt λn [(a, b)] = λn [(a, b]] = λn [[a, b]] und die Behauptung folgt aus der Monotonie von λn .
2
Die folgenden Ergebnisse sind nun evident: 5.5.6 Folgerung. F¨ ur alle x ∈ Rn gilt λn [{x}] = 0. 5.5.7 Folgerung. F¨ ur jede abz¨ ahlbare Menge B ⊆ Rn gilt λn [B] = 0. Wir geben abschließend ein Beispiel f¨ ur eine λ–Nullmenge, die nicht abz¨ ahlbar ist: 5.5.8 Beispiel (Cantor–Menge). Sei Z das System aller Teilmengen von [0, 1], die als Vereinigung von endlich vielen disjunkten abgeschlossenen (und nichtleeren) Intervallen dargestellt werden k¨ onnen, und sei Ψ : Z → Z gegeben durch Ãm ! ÷ ¸ · ¸! m X X 2ai + bi ai + 2bi Ψ [ai , bi ] := ai , + , bi 3 3 i=1 i=1 Dann gilt Z ⊆ B(R) und die Abbildung Ψ ist wohldefiniert. F¨ ur alle A ∈ Z gilt Ψ(A) ⊆ A und λ[Ψ(A)] =
2 λ[A] 3
F¨ ur alle n ∈ N sei Cn := Ψn ([0, 1])
78
Kapitel 5. Fortsetzung von Maßen
Dann ist {Cn }n∈N eine monoton fallende Folge in B(R) und es gilt µ ¶n 2 λ[Cn ] = 3 Sei C :=
\
Cn
n∈N
Dann gilt C ∈ B(R) sowie C 6= ∅ und λ[C] = 0 Die Menge C heißt Cantor–Menge. Wir zeigen in Beispiel 12.1.14, dass die Cantor– Menge nicht abz¨ ahlbar ist.
Aufgaben 5.5.A
Vervollst¨ andigung: Das n–dimensionale Lebesgue–Maß besitzt eine eindeutige Fortsetzung zu einem vollst¨ andigen Maß auf F ((λn )∗ ). Die Fortsetzung ist σ–endlich.
5.5.B
Cantor–Menge:. Die Cantor–Menge ist kompakt.
6 Transformation von Maßen
In diesem Kapitel behandeln wir die Transformation von Maßen unter messbaren Abbildungen und insbesondere die Transformation des Lebesgue–Maßes unter einer affinen Abbildung im Euklidischen Raum. Als erstes zeigen wir, dass eine messbare Abbildung jedem Maß auf ihrem Definitionsbereich ein Maß auf ihrem Bildbereich zuordnet; dies ist ein grundlegendes Ergebnis, das gleichzeitig die Bedeutung der Messbarkeit beleuchtet (Abschnitt 6.1). Als n¨achstes betrachten wir die Translationsinvarianz von Maßen auf der Borelschen σ–Algebra des Euklidischen Raumes und erhalten einerseits eine Charakterisierung des Lebesgue–Maßes unter den translationsinvarianten Maßen und andererseits die Aussage, dass das Lebesgue–Maß nicht zu einem translationsinvarianten Maß auf der Potenzmenge des Euklidischen Raumes fortgesetzt werden kann (Abschnitt 6.2). Abschließend bestimmen wir das Bild des Lebesgue–Maßes unter einer linearen oder affinen Abbildung des Euklidischen Raumes (Abschnitt 6.3).
6.1 Bildmaße Sind (Ω, F ) und (Ω0 , F 0 ) Messr¨aume und ist f : Ω → Ω0 messbar, so ist wegen f −1 (F 0 ) ⊆ F f¨ ur jede Mengenfunktion µ : F → [0, ∞] die Mengenfunktion µf : F 0 → [0, ∞] mit µf [A0 ] := µ[f −1 (A0 )] wohldefiniert. Ist µ ein Maß, so heißt µf das Bildmaß von µ unter f ; diese Bezeichnung wird durch das folgende Lemma gerechtfertigt: 6.1.1 Lemma. Seien (Ω, F) und (Ω0 , F 0 ) Messr¨ aume und sei f : Ω → Ω0 messbar. Dann ist f¨ ur jedes Maß µ : F → [0, ∞] auch µf ein Maß. K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_6, © Springer-Verlag Berlin Heidelberg 2011
80
Kapitel 6. Transformation von Maßen
Beweis. Es gilt µf [∅] = µ[f −1 (∅)] = µ[∅] = 0 und f¨ ur jede disjunkte Folge {A0k }k∈N ⊆ F 0 gilt "∞ # " Ã∞ !# X X 0 −1 0 µf Ak = µ f Ak k=1
" =µ
k=1 ∞ X
#
f −1 (A0k )
k=1
= =
∞ X k=1 ∞ X
µ[f −1 (A0k )] µf [A0k ]
k=1
Daher ist µf ein Maß.
2
Lemma 6.1.1 zeigt, dass die Messbarkeit einer Abbildung zwischen zwei Messr¨ aumen es der Abbildung erm¨oglicht, ein Maß von ihrem Definitionsbereich in ihren Bildbereich zu transportieren. Das folgende Lemma zeigt, dass das Bildmaß einer Komposition von messbaren Abbildungen iterativ bestimmt werden kann: 6.1.2 Lemma. Seien (Ω, F), (Ω0 , F 0 ) und (Ω00 , F 00 ) Messr¨aume und seien f : Ω → Ω0 und g : Ω0 → Ω00 messbar. Dann gilt f¨ ur jedes Maß µ : F → [0, ∞] µ(g◦f ) = (µf )g Beweis. Mit f und g ist auch g ◦ f messbar und f¨ ur alle A00 ∈ F 00 gilt µ(g◦f ) [A00 ] = µ[(g ◦ f )−1 (A00 )] = µ[f −1 (g −1 (A00 ))] = µf [g −1 (A00 )] = (µf )g [A00 ] Damit ist die Behauptung gezeigt.
2
6.2 Translationsinvariante Maße auf B(Rn ) F¨ ur c ∈ Rn heißt die Abbildung Tc : Rn → Rn mit Tc (x) := c + x Translation bez¨ uglich c. Jede Translation ist bijektiv mit Tc−1 = T−c und sie ist stetig und damit messbar.
6.2 Translationsinvariante Maße auf B(Rn )
81
Ein Maß µ : B(Rn ) → [0, ∞] heißt translationsinvariant, wenn f¨ ur alle c ∈ Rn µTc = µ gilt. 6.2.1 Lemma. F¨ ur ein Maß µ : B(Rn ) → [0, ∞] sind folgende Aussagen aquivalent: ¨ (a) µ ist translationsinvariant. (b) F¨ ur alle c ∈ Rn und B ∈ B(Rn ) gilt µ[c+B] = µ[B]. Beweis. Sei µ translationsinvariant. Dann gilt f¨ ur alle c ∈ Rn und B ∈ B(Rn ) −1 µ[c+B] = µ[Tc (B)] = µ[T−c (B)] = µT−c [B] = µ[B]
Gilt andererseits f¨ ur alle c ∈ Rn und B ∈ B(Rn ) die Gleichung µ[c+B] = µ[B], so erh¨ alt man µTc [B] = µ[Tc−1 (B)] = µ[T−c (B)] = µ[−c+B] = µ[B] und damit µTc = µ f¨ ur alle c ∈ Rn .
2
Wir wenden uns nun dem Lebesgue–Maß zu: 6.2.2 Satz. Das Lebesgue–Maß ist translationsinvariant. Beweis. Das Mengensystem J (Rn ) ist ein ∩–stabiler Erzeuger der Borelschen σ–Algebra B(Rn ) und die Restriktion λn |J (Rn ) des Lebesgue–Maßes auf J (Rn ) ist σ–endlich. Wir zeigen nun, dass f¨ ur alle c ∈ Rn λnTc |J (Rn ) = λn |J (Rn ) gilt. Aus dem Eindeutigkeitssatz folgt dann λnTc = λn . Sei also c ∈ Rn . Dann gilt λnTc [∅] = 0 = λn [∅], und f¨ ur alle a, b ∈ Rn mit a < b gilt λnTc [(a, b]] = λn [Tc−1 ((a, b])] = λn [(a−c, b−c]] n ³ ´ Y = (bi −ci ) − (ai −ci ) =
i=1 n Y
(bi −ai )
i=1
= λn [(a, b]] Damit ist die Behauptung gezeigt.
2
82
Kapitel 6. Transformation von Maßen
Wir zeigen nun, dass das Lebesgue–Maß unter allen translationsinvarianten Maßen auf B(Rn ) durch eine einfache Normierungsbedingung ausgezeichnet ist. 6.2.3 Lemma. Sei µ : B(Rn ) → [0, ∞] ein translationsinvariantes Maß mit µ[(0, 1]] < ∞. Dann gilt µ = µ[(0, 1]] · λn Beweis. F¨ ur m ∈ N betrachten wir die Familie ¯ (n µ ) Y ki − 1 ki ¸ ¯¯ Wm := , ¯ k1 , . . . , kn ∈ {1, . . . , m} m m ¯ i=1 Da µ translationsinvariant ist und jeder der mn W¨ urfel der Familie Wm durch Translation aus jedem anderen W¨ urfel der Familie Wm gewonnen werden kann, gibt es ein cm ∈ [0, ∞] derart, dass f¨ ur alle W ∈ Wm µ[W ] = cm gilt. Andererseits gilt f¨ ur alle W ∈ Wm λn [W ] =
1 mn
Da µ ein Maß ist und die disjunkte Vereinigung aller W¨ urfel aus Wm mit dem Intervall (0, 1] u ¨ bereinstimmt, erh¨alt man " # X X n m cm = µ[W ] = µ W = µ[(0, 1]] = c1 W ∈Wm
W ∈Wm
Daher gilt f¨ ur alle W ∈ Wm µ[W ] = cm = c1
1 = c1 λn [W ] mn
F¨ ur m ∈ N betrachten wir nun die Familie ¯ ½ ¾ ¯ 1 Vm := (a, b] ∈ J (Rn ) ¯¯ bi −ai = f¨ ur alle i ∈ {1, . . . , n} m Unter nochmaliger Verwendung der Translationsinvarianz von µ erhalten wir f¨ ur alle V ∈ Vm µ[V ] = c1 λn [V ] Da sich jede Menge aus J (Qn ) als Vereinigung einer endlichen disjunkten Familie von Mengen aus Vm mit hinreichend großem m ∈ N darstellen l¨ asst, gilt auch f¨ ur alle J ∈ J (Qn )
6.2 Translationsinvariante Maße auf B(Rn )
83
µ[J] = c1 λn [J] Es gilt also µ|J (Qn ) = c1 λn |J (Qn ) Außerdem ist λn |J (Qn ) σ–endlich und das Mengensystem J (Qn ) ist ein Halbring mit σ(J (Qn )) = B(Rn ); vgl. Aufgabe 1.5.D. Aus dem Eindeutigkeitssatz folgt nun µ|B(Rn ) = c1 λn |B(Rn ) Damit ist das Lemma bewiesen.
2
Ein analoges Ergebnis erh¨alt man, wenn man den halboffenen W¨ urfel (0, 1] durch den abgeschlossenen W¨ urfel [0, 1] ersetzt: 6.2.4 Folgerung. Sei µ : B(Rn ) → [0, ∞] ein translationsinvariantes Maß mit µ[[0, 1]] < ∞. Dann gilt µ = µ[[0, 1]] λn Beweis. Wegen µ[(0, 1]] ≤ µ[[0, 1]] < ∞ folgt aus Lemma 6.2.3 µ = µ[(0, 1]] λn Aus Folgerung 5.5.5 ergibt sich ferner λn [[0, 1]] = λn [(0, 1]] = 1. Dann gilt aber µ[[0, 1]] = µ[(0, 1]] · λn [[0, 1]] = µ[(0, 1]] und damit µ = µ[[0, 1]] λn Damit ist die Folgerung bewiesen.
2
Damit gelangen wir zu der angek¨ undigten Charakterisierung des Lebesgue– Maßes: 6.2.5 Satz. Das Lebesgue–Maß ist das einzige translationsinvariante Maß µ : B(Rn ) → [0, ∞] mit µ[[0, 1]] = 1. Wir zeigen abschließend, dass das Lebesgue–Maß keine translationsinvariante Fortsetzung auf der Potenzmenge des Rn besitzt: 6.2.6 Satz. Das Lebesgue–Maß besitzt keine Fortsetzung zu einem transn lationsinvarianten Maß auf 2R . ¨ Beweis. F¨ ur x, y ∈ Rn sei x ∼ y falls x−y ∈ Qn . Dann ist ∼ eine Aquivalenzn ¨ relation auf R und wir bezeichnen die Menge aller Aquivalenzklassen von Rn
84
Kapitel 6. Transformation von Maßen
¨ bez¨ uglich ∼ mit Rn /∼ . Da jede Aquivalenzklasse in Rn /∼ ein Element in (0, 1] ¨ enth¨ alt, bilden die Durchschnitte der Aquivalenzklassen in Rn /∼ mit (0, 1] eine disjunkte Familie von nichtleeren Teilmengen von (0, 1], deren Vereinigung gleich (0, 1] ist. Nach dem Auswahlaxiom gibt es eine Menge Z ⊆ (0, 1] derart, dass Z aus ¨ jeder Aquivalenzklasse von Rn /∼ (bzw. aus ihrem Durchschnitt mit (0, 1]) genau ein Element enth¨alt. Dann gilt X X X X X X Rn = (z + Qn ) = {z + q} = {q + z} = (q + Z) z∈Z q∈Qn
z∈Z
q∈Qn z∈Z
q∈Qn
und wegen Z ⊆ (0, 1] gilt X
(q+Z) ⊆ (0, 2]n
q∈Qn ∩ (0,1] n
Wir nehmen nun an, dass es ein translationsinvariantes Maß µ : 2R → [0, ∞] mit µ|B(Rn ) = λn gibt. Dann gilt f¨ ur alle q ∈ Qn µ[q+Z] = µ[Z] Aus
X
X
µ[Z] =
q∈Qn ∩ (0,1]
µ[q+Z] ≤ µ[(0, 2]n ] = λn [(0, 2]n ] < ∞
q∈Qn ∩ (0,1]
folgt µ[Z] = 0 und damit λn [Rn ] = µ[Rn ] =
X
µ[q+Z] =
q∈Qn
X
µ[Z] = 0
q∈Qn
Dies ist ein Widerspruch.
2
Da das Lebesgue–Maß nach Satz 6.2.2 ein translationsinvariantes Maß auf der Borelschen σ–Algebra B(Rn ) ist, ergibt sich aus dem letzten Satz die folgende offensichtliche Folgerung: n
6.2.7 Folgerung. Es gilt B(Rn ) 6= 2R . Die letzten Ergebnisse zeigen, dass es nicht immer m¨ oglich ist, ein Maß mit gewissen zus¨ atzlichen Eigenschaften auf der Potenzmenge der Grundmenge zu definieren. Dies ist einer der Gr¨ unde daf¨ ur, Maße zu betrachten, die auf einer σ–Algebra oder einem allgemeineren Mengensystem definiert sind. Aufgabe 6.2.A
Hyperebenen: Eine Menge H ⊆ Rn heißt Hyperebene des Rn , wenn es einen Unterraum E ⊆ Rn und einen Vektor d ∈ Rn gibt mit dim(E) ≤ n−1 und H = d + E. F¨ ur jede Hyperebene H ⊆ Rn gilt λn [H] = 0.
6.3 Lineare Abbildungen des Lebesgue–Maßes
85
6.3 Lineare Abbildungen des Lebesgue–Maßes Das folgende Ergebnis zeigt, dass das Bildmaß des Lebesgue–Maßes λn unter einer invertierbaren linearen Abbildung Rn → Rn sich nur um einen strikt positiven Faktor vom Lebesgue–Maß λn unterscheidet. 6.3.1 Satz. Sei T : Rn → Rn gegeben durch T (x) := Dx mit einer invertierbaren Matrix D ∈ Rn×n . Dann gilt λnT =
1 λn | det(D)|
Beweis. Wir zeigen, dass das Maß λnT translationsinvariant ist mit λnT [(0, 1]] =
1 | det(D)|
Aus Lemma 6.2.3 folgt dann die Behauptung des Satzes. (1) Das Maß λnT ist translationsinvariant: Da λn translationsinvariant ist, gilt nach Lemma 6.2.1 f¨ ur alle c ∈ Rn und n B ∈ B(R ) λnT [c+B] = λn [T −1 (c+B)] = λn [T −1 (c)+T −1 (B)] = λn [T −1 (B)] = λnT [B] und aus demselben Lemma folgt nun, dass λnT translationsinvariant ist. (2) Es gilt λnT [(0, 1]] = | det(D)|−1 : Sei n ≥ 3 und f¨ ur k ∈ N sei W k := (0, 1]k Wir zeigen, dass f¨ ur jede invertierbare Matrix D ∈ Rn×n λn [D−1 (W n )] =
1 | det(D)|
gilt. Wir betrachten zun¨achst drei Spezialf¨alle: – Sei D eine Permutationsmatrix. Dann gilt einerseits | det(D)| = 1 und andererseits D−1 (W n ) = W n und damit λn [D−1 (W n )] = λn [W n ] = 1. Daher gilt λn [D−1 (W n )] =
1 | det(D)|
86
–
Kapitel 6. Transformation von Maßen
Sei D eine Elementarmatrix der Form ¶ µ c 0 O D= 0 1 O I mit c ∈ R \ {0}. Dann gilt | det(D)| = |c| 6= 0 und wegen µ −1 ¶ c 0 O −1 0 1 D = O I gilt ( D
−1
n
(W ) =
(0, c−1 ] × W n−1 −1
[c
, 0) × W
n−1
falls c > 0 falls c < 0
und damit λn [D−1 (W n )] = |c−1 | = |c|−1 . Daher gilt λn [D−1 (W n )] = –
1 | det(D)|
Wir betrachten abschließend die Elementarmatrix ¶ µ 1 1 O D= 0 1 O I Dann gilt | det(D)| = 1 und µ D−1 =
1 −1 0 1 O
¶
O
I
Zur Bestimmung von D−1 (W n ) betrachten wir die Matrix µ ¶ 1 1 D2 := 0 1 und ihre Inverse µ D−1 2 =
1 −1 0 1
¶
Dann gilt 2 n−2 D−1 (W n ) = D−1 (W 2 × W n−2 ) = D−1 2 (W ) × W
6.3 Lineare Abbildungen des Lebesgue–Maßes
87
2 Zur Bestimmung von D−1 2 (W ) betrachten wir die Vektoren µ ¶ −1 a1 := 1 µ ¶ 0 a2 := 1 µ ¶ 1 a3 := 1 µ ¶ 0 a4 := 0 µ ¶ 1 a5 := 0
und die Mengen ³ ´ A1 := cx({a1 , a2 , a4 }) \ cx({a1 , a4 }) ³ ³ ´´ A2 := cx({a2 , a4 , a5 }) \ cx({a2 , a4 }) ∪ cx({a4 , a5 }) ³ ´ A3 := cx({a2 , a3 , a5 }) \ cx({a2 , a5 }) ³ ´ A4 := cx({a2 , a3 , a4 }) \ cx({a2 , a4 }) ³ ³ ´´ A5 := cx({a3 , a4 , a5 }) \ cx({a3 , a4 }) ∪ cx({a4 , a5 }) (wobei cx(A) die konvexe H¨ ulle einer Menge A bezeichnet). Dann gilt A1 , A2 , A3 , A4 , A5 ∈ B(R2 ) sowie A1 ∩ A2 = A2 ∩ A3 = A4 ∩ A5 = ∅ und A2 + A3 = W 2 = A4 + A5 Wegen D−1 2 a2 = a1 D−1 2 a3 = a2 D−1 2 a4 = a4 D−1 2 a5 = a5 gilt D−1 2 (A4 ) = A1 D−1 2 (A5 ) = A2 und damit −1 −1 2 D−1 2 (W ) = D2 (A4 ) + D2 (A5 ) = A1 + A2
88
Kapitel 6. Transformation von Maßen
Daher gilt 2 n−2 D−1 (W n ) = D−1 = A1 × W n−2 + A2 × W n−2 2 (W ) × W
Da A1 durch Translation aus A3 hervorgeht, geht auch A1 × W n−2 durch Translation aus A3 × W n−2 hervor. Aus der letzten Gleichung und der Translationsinvarianz des Lebesgue–Maßes ergibt sich nun λn [D−1 (W n )] = λn [A1 × W n−2 ] + λn [A2 × W n−2 ] = λn [A3 × W n−2 ] + λn [A2 × W n−2 ] = λn [W 2 × W n−2 ] = λn [W n ] =1 Daher gilt auch in diesem Fall λn [D−1 (W n )] =
1 | det(D)|
Nach Proposition C.1.1 ist jede invertierbare Matrix ein Produkt von Permutationsmatrizen und Elementarmatrizen der vorher betrachteten Art. Aus dem Gezeigten folgt daher, dass f¨ ur jede invertierbare Matrix D ∈ Rn×n λn [D−1 (W n )] =
1 | det(D)|
gilt. Damit ist (2) f¨ ur n ≥ 3 gezeigt. F¨ ur n = 2 verl¨ auft der Beweis von (2) analog, und f¨ ur n = 1 ist (2) trivial. 2 Die S¨ atze 6.2.2 und 6.3.1 lassen sich nun wie folgt zusammenfassen: 6.3.2 Folgerung. Sei T : Rn → Rn gegeben durch T (x) := c + Dx n
mit c ∈ R und einer invertierbaren Matrix D ∈ Rn×n . Dann gilt λnT =
1 λn | det(D)|
Ist D eine Orthogonalmatrix, so gilt λnT = λn . Beweis. Sei S : Rn → Rn gegeben durch S(x) := Dx und sei Tc die Translation bez¨ uglich c. Dann gilt T = Tc ◦ S. Aus Satz 6.3.1 und der Translationsinvarianz des Lebesgue–Maßes folgt nun µ ¶ ¡ ¢ 1 1 1 λnT = λnTc ◦S = λnS T = λn = λnTc = λn c | det(D)| | det(D)| | det(D)| Tc Damit ist die Folgerung bewiesen.
2
Die letzte Aussage der Folgerung wird als Bewegungsinvarianz des Lebesgue– Maßes bezeichnet.
Teil III
Integrationstheorie
7 Messbare Funktionen
Sei Ω eine nichtleere Menge. Eine Abbildung f : Ω → R heißt reelle Funk¯ heißt numerische Funktion. Jede reelle tion und eine Abbildung f : Ω → R Funktion ist eine numerische Funktion. Das eigentliche Interesse gilt reellen Funktionen. Da aber das Infimum und das Supremum einer Folge von reellen Funktionen im allgemeinen keine reelle Funktion sondern nur eine numerische Funktion ist, ist es erforderlich, auch numerische Funktionen zu betrachten. ¯ der erweiterten reellen Neben den u ¨blichen Rechenregeln auf der Menge R Zahlen verwenden wir die in der Integrationstheorie u ¨blichen Konventionen (±∞) · 0 := 0 und 0 · (±∞) := 0. F¨ ur numerische Funktionen betrachten wir im folgenden stets die punktweise definierte Addition, die punktweise definierte Multiplikation und die punktweise definierte Ordnungsrelation. F¨ ur numerische Funktionen f und g setzen wir f ∨ g := max{f, g} f ∧ g := min{f, g} und f + := f ∨ 0 f − := (−f ) ∨ 0 |f | := f ∨ (−f ) Dann gilt f = f + − f − und |f | = f + + f − . K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_7, © Springer-Verlag Berlin Heidelberg 2011
92
Kapitel 7. Messbare Funktionen
F¨ ur eine Folge {fn }n∈N von numerischen Funktionen heißt die Funktion lim inf fn := sup inf fk n→∞
n∈N k∈N(n)
der Limes inferior der Folge {fn }n∈N und die Funktion lim sup fn := inf sup fk n∈N k∈N(n)
n→∞
heißt der Limes superior der Folge {fn }n∈N , und wir nennen die Folge (punktweise) konvergent, wenn lim inf n→∞ fn = lim supn→∞ fn gilt. In diesem Kapitel betrachten wir zun¨achst verschiedene Klassen messbarer Funktionen auf einem Messraum und untersuchen ihre Struktureigenschaften (Abschnitt 7.1). Wir gehen dann zu einem Maßraum u ¨ ber, der durch die Festlegung eines Maßes auf dem Messraum entsteht, und betrachten fast u ¨ber¨ all bestehende Eigenschaften messbarer Funktionen und die Bildung von Aquivalenzklassen bez¨ uglich des Maßes (Abschnitt 7.2).
7.1 Messbare Funktionen auf einem Messraum Im gesamten Abschnitt sei (Ω, F) ein Messraum. Wir betrachten zun¨achst numerische Funktionen. Eine numerische Funktion ¯ heißt F–messbar oder kurz messbar , wenn sie F –B(R)–messbar ist. 7.1.1 Beispiele. ¯ ist die konstante Funktion f : Ω → R ¯ mit (1) Konstante Funktion: F¨ ur c ∈ R f (ω) := c messbar. ¯ gilt In der Tat: F¨ ur alle B ∈ B(R) f
−1
(B) =
½
Ω ∅
falls c ∈ B sonst
und damit f −1 (B) ∈ F . ¯ mit (2) Indikatorfunktion: F¨ ur A ∈ 2Ω heißt die Funktion χA : Ω → R ½ 1 falls ω ∈ A χA (ω) := 0 sonst Indikatorfunktion von A. Die Indikatorfunktion χA ist genau dann messbar, wenn A ∈ F gilt. ¯ gilt In der Tat: F¨ ur alle B ∈ B(R) Ω falls 0 ∈ B und 1 ∈ B A falls 0 ∈ / B und 1 ∈ B −1 χA (B) = Ω \ A falls 0 ∈ B und 1 ∈ /B ∅ falls 0 ∈ / B und 1 ∈ /B Daraus folgt die Behauptung.
7.1 Messbare Funktionen auf einem Messraum
93
¯ und a, b, c ∈ R ¯ setzen wir F¨ ur eine numerische Funktion f und f¨ ur B ∈ B(R) {f ∈ B} := {ω ∈ Ω | f (ω) ∈ B} {f ∈ / B} := {ω ∈ Ω | f (ω) ∈ / B} und {a < f < b} := {ω ∈ Ω | a < f (ω) < b} {a < f ≤ b} := {ω ∈ Ω | a < f (ω) ≤ b} {a ≤ f < b} := {ω ∈ Ω | a ≤ f (ω) < b} {a ≤ f ≤ b} := {ω ∈ Ω | a ≤ f (ω) ≤ b} sowie {f < c} := {ω ∈ Ω | f (ω) < c} {f ≤ c} := {ω ∈ Ω | f (ω) ≤ c} {f = c} := {ω ∈ Ω | f (ω) = c} {f = 6 c} := {ω ∈ Ω | f (ω) 6= c} {f ≥ c} := {ω ∈ Ω | f (ω) ≥ c} {f > c} := {ω ∈ Ω | f (ω) > c} Die Messbarkeit einer numerischen Funktion l¨asst sich wie folgt charakterisieren: 7.1.2 Satz. F¨ ur eine numerische Funktion f sind folgende Aussagen ¨ aquivalent: (a) f ist messbar. (b) F¨ ur alle c ∈ R gilt {f ≤ c} ∈ F. (c) F¨ ur alle c ∈ R gilt {f < c} ∈ F. (d) F¨ ur alle c ∈ R gilt {f ≥ c} ∈ F. (e) F¨ ur alle c ∈ R gilt {f > c} ∈ F. In diesem Fall gilt {f = c} ∈ F und {f 6= c} ∈ F f¨ ur alle c ∈ R. Beweis. Wir nehmen zun¨achst an, dass (a) gilt. F¨ ur alle c ∈ R gilt dann ¯ ⊆F {f ≤ c} = f −1 ([−∞, c]) ∈ f −1 (B(R)) Daher folgt (b) aus (a). Wir nehmen nun an, dass (b) gilt. F¨ ur das Mengensystem ¯ n o ¯ E¯ = [−∞, c] ¯ c ∈ R ¯ vgl. Aufgabe 1.5.N. F¨ ¯ = B(R); gilt σ(E) ur alle c ∈ R gilt nach Voraussetzung ¯ ⊆ F und sodann f −1 ([−∞, c]) = {f ≤ c} ∈ F. Daraus folgt zun¨ achst f −1 (E) ¯ = f −1 (σ(E)) ¯ = σ(f −1 (E)) ¯ ⊆F f −1 (B(R)) Daher folgt (a) aus (b).
94
Kapitel 7. Messbare Funktionen
¨ Die Aquivalenz von (b), (c), (d), (e) ergibt sich nun aus den Gleichungen {f < c} =
[½ n∈N
1 f ≤c− n
¾
{f ≥ c} = Ω \ {f < c} ¾ [½ 1 {f > c} = f ≥c+ n n∈N
{f ≤ c} = Ω \ {f > c} und die abschließende Behauptung ergibt sich aus den Gleichungen {f = c} = {f ≤ c} \ {f < c} {f 6= c} = Ω \ {f = c} Damit ist der Satz gezeigt.
2
Wir ziehen nun erste Folgerungen aus Satz 7.1.2: 7.1.3 Folgerung. Seien f und g messbare numerische Funktionen und sei ¯ Dann sind die Funktionen af sowie f ∨ g und f ∧ g messbar. Insbea ∈ R. sondere sind die Funktionen f + , f − , |f | messbar. Beweis. Im Fall a = 0 gilt af = 0 und die Messbarkeit von af ist klar; analog argumentiert man in den F¨allen a = ∞ und a = −∞. Im Fall a ∈ (0, ∞) erh¨ alt man f¨ ur alle c ∈ R aus der Messbarkeit von f und Satz 7.1.2 zun¨ achst {af ≤ c} = {f ≤ c/a} ∈ F und durch nochmalige Anwendung von Satz 7.1.2 die Messbarkeit von af ; analog argumentiert man im Fall a ∈ (−∞, 0). F¨ ur alle c ∈ R gilt ferner {f ∨ g ≤ c} = {f ≤ c} ∩ {g ≤ c} {f ∧ g ≥ c} = {f ≥ c} ∩ {g ≥ c} und wie vorher folgt aus Satz 7.1.2 die Messbarkeit von f ∨ g und f ∧ g. Aus dem bereits gezeigten folgt nun die Messbarkeit von f + , f − , |f |. 2 Die Summe von zwei numerischen Funktionen ist unter Umst¨ anden nicht auf der gesamten Grundmenge Ω definiert. Sind jedoch f, g, h numerische Funktionen mit h = f + g, so l¨asst sich zeigen, dass aus der Messbarkeit von f und g die Messbarkeit von h folgt; vgl. Folgerung 7.1.15. Wir betrachten nun Folgen von messbaren numerischen Funktionen:
7.1 Messbare Funktionen auf einem Messraum
95
7.1.4 Folgerung. Sei {fn }n∈N eine Folge von messbaren numerischen Funktionen. Dann gilt: (1) Die Funktionen supn∈N fn und inf n∈N fn sind messbar. (2) Die Funktionen lim inf n→∞ fn und lim supn→∞ fn sind messbar. (3) Ist f eine numerische Funktion und ist die Folge {fn }n∈N konvergent mit f = limn→∞ fn , so ist f messbar. Beweis. Die Messbarkeit von supn∈N fn und inf n∈N fn zeigt man genau wie im Beweis von Folgerung 7.1.3. Wegen lim inf fn = sup inf fk n→∞
n∈N k∈N(n)
lim sup fn = inf sup fk n→∞
n∈N k∈N(n)
sind auch lim inf n→∞ fn und lim supn→∞ fn messbar. Ist schließlich f eine numerische Funktion und die Folge {fn }n∈N konvergent mit f = limn→∞ fn , so gilt f = lim inf n→∞ fn = lim supn→∞ fn und damit ist f messbar. 2 F¨ ur numerische Funktionen f und g setzen wir {f < g} := {ω ∈ Ω | f (ω) < g(ω)} {f ≤ g} := {ω ∈ Ω | f (ω) ≤ g(ω)} {f = g} := {ω ∈ Ω | f (ω) = g(ω)} {f 6= g} := {ω ∈ Ω | f (ω) 6= g(ω)} {f ≥ g} := {ω ∈ Ω | f (ω) ≥ g(ω)} {f > g} := {ω ∈ Ω | f (ω) > g(ω)} Auch diese Mengen sind messbar, wenn f und g messbar sind: 7.1.5 Folgerung. Seien f und g messbare numerische Funktionen. Dann gilt {f < g}, {f ≤ g}, {f = g}, {f 6= g}, {f ≥ g}, {f > g} ∈ F. S Beweis. Nach Satz 7.1.2 gilt {f < g} = q∈Q {f < q} ∩ {q < g} ∈ F und damit {f ≥ g} = Ω \ {f < g} ∈ F, und aus Symmetriegr¨ unden gilt dann auch {f > g} ∈ F und {f ≤ g} ∈ F, und damit {f = g} = {f ≤ g} ∩ {f ≥ g} ∈ F und {f 6= g} = Ω \ {f = g} ∈ F. 2 Wir betrachten nun reelle Funktionen. Eine reelle Funktion heißt F–messbar oder kurz messbar , wenn sie F–B(R)–messbar ist. Aus der in Beispiel 1.2.6 ¯ angegebenen Beziehung zwischen den Borelschen σ–Algebren B(R) und B(R) erkennt man, dass eine reelle Funktion genau dann F –B(R)–messbar ist, wenn sie, aufgefasst als eine numerische Funktion, die die Werte +∞ und −∞ nicht ¯ annimmt, F –B(R)–messbar ist.
96
Kapitel 7. Messbare Funktionen
7.1.6 Lemma. Seien f und g messbare reelle Funktionen. Dann sind auch die Funktionen f + g und f g messbar. Beweis. Nach Beispiel 3.3.1 gilt B(R2 ) = B(R) ⊗ B(R). Daher folgt aus der Messbarkeit von f und g die Messbarkeit der Funktion H : Ω → R2 mit µ ¶ f (ω) H(ω) := g(ω) Da sowohl die Addition + : R2 → R als auch die Multiplikation · : R2 → R stetig und damit messbar ist und da nach Lemma 2.3.4 die Komposition von messbaren Abbildungen messbar ist, sind auch die Funktionen f + g und f g messbar. 2 Sei nun ¯ n o ¯ L0 (F) := f : Ω → R ¯ f ist F –messbar Dann lassen sich die wichtigsten Stabilit¨atseigenschaften der Familie der messbaren reellen Funktionen wie folgt zusammenfassen: 7.1.7 Satz. L0 (F) ist ein Vektorverband. Beweis. Aus Lemma 7.1.6 und Folgerung 7.1.3 ergibt sich zun¨ achst, dass die messbaren reellen Funktionen einen Vektorraum bilden. F¨ ur alle messbaren reellen Funktionen f, g, h mit f ≤ g und f¨ ur alle a ∈ R+ gilt f +h ≤ g +h und af ≤ ag. Daher bilden die messbaren reellen Funktionen einen geordneten Vektorraum. F¨ ur alle messbaren reellen Funktionen f, g sind nach Folgerung 7.1.3 auch f ∨ g und f ∧ g messbare reelle Funktionen. F¨ ur jede messbare reelle Funktion h mit f ≤ h und g ≤ h gilt offenbar f ∨ g ≤ h; damit ist f ∨ g das Supremum von f und g in der Familie aller messbaren reellen Funktionen, und analog zeigt man, dass f ∧ g das Infimum von f und g in der Familie aller messbaren reellen Funktionen ist. Daher bilden die messbaren reellen Funktionen einen Vektorverband. 2 Sei ferner ½ ∞
L (F ) :=
¯ ¾ ¯ ¯ f ∈ L (F) ¯ sup |f (ω)| ≤ c f¨ ur ein c ∈ R ω∈Ω 0
die Familie der beschr¨ankten messbaren reellen Funktionen. 7.1.8 Satz. L∞ (F ) ist ein Vektorverband und ein Ideal in L0 (F ). Wir kommen auf den Raum L∞ (F) erst im n¨ achsten Abschnitt zur¨ uck.
7.1 Messbare Funktionen auf einem Messraum
97
Wir betrachten abschließend eine Familie messbarer reeller Funktionen, die f¨ ur die Integrationstheorie von zentraler Bedeutung ist. Eine reelle Funktion heißt einfach, wenn sie messbar ist und nur endlich viele Werte annimmt. Die wichtigsten Stabilit¨atseigenschaften der Familie der einfachen Funktionen lassen sich wie folgt zusammenfassen: 7.1.9 Satz. Die einfachen Funktionen bilden einen Vektorverband. Beweis. Die Behauptung ergibt sich unmittelbar aus Satz 7.1.7, da sowohl Linearkombinationen als auch das Maximum und das Minimum von zwei einfachen Funktionen nur endlich viele Werte annehmen. 2 Sei f eine einfache Funktion. Dann ist das Bild f (Ω) von f eine endliche Menge und f besitzt die Darstellung X f = aχ{f =a} a∈f (Ω)
Diese Darstellung heißt Standarddarstellung von f . Da f messbar ist, gilt f¨ ur alle a ∈ f (Ω) nach Folgerung 7.1.5 {f = a} ∈ F. Daher ist jede einfache Funktion eine Linearkombination von Indikatorfunktionen von messbaren Mengen; andererseits ist nach Beispiel 7.1.1 und Satz 7.1.9 jede Linearkombination von Indikatorfunktionen von messbaren Mengen eine einfache Funktion. Damit erhalten wir das folgenden Lemma: 7.1.10 Lemma. F¨ ur eine reelle Funktion f sind folgende Aussagen ¨ aquivalent: (a) f ist einfach. (b) Es gibt ein n ∈ N sowie einePFamilie {Ci }i∈{1,...,n} ⊆ F und eine Familie n {ci }i∈{1,...,n} ⊆ R mit f = i=1 ci χCi . Dieses Lemma besitzt ein Analogon f¨ ur positive reelle Funktionen: 7.1.11 Lemma. F¨ ur eine positive reelle Funktion f sind folgende Aussagen aquivalent: ¨ (a) f ist einfach. (b) Es gibt ein n ∈ N sowie eine P Familie {Ci }i∈{1,...,n} ⊆ F und eine Familie n {ci }i∈{1,...,n} ⊆ R+ mit f = i=1 ci χCi . Die Darstellung einer einfachen Funktion durch eine Linearkombination von Indikatorfunktionen von messbaren Mengen ist im allgemeinen nicht eindeutig; dies gilt auch f¨ ur positive einfache Funktionen: 7.1.12 Beispiel. Seien A, B ∈ F und a, b ∈ R+ . Dann gilt f¨ ur alle ω ∈ Ω a χA (ω) + b χB (ω) = a χA\B (ω) + (a+b) χA∩B (ω) + b χB\A (ω) Damit liegen zwei Darstellungen derselben positiven einfachen Funktion vor.
98
Kapitel 7. Messbare Funktionen
Nach Folgerung 7.1.4 ist das Supremum einer monoton wachsenden Folge von positiven einfachen Funktionen eine positive messbare numerische Funktion. Der folgende Satz zeigt, dass andererseits jede positive messbare numerische Funktion als Supremum einer monoton wachsenden Folge von positiven einfachen Funktionen dargestellt werden kann: 7.1.13 Satz (Approximationssatz; positiver Fall). F¨ ur eine positive numerische Funktion f sind folgende Aussagen ¨ aquivalent: (a) f ist messbar. (b) Es gibt eine monoton wachsende Folge {fn }n∈N von positiven einfachen Funktionen mit f = supn∈N fn . Beweis. Es gen¨ ugt zu zeigen, dass (b) aus (a) folgt, denn die umgekehrte Implikation ist wegen Folgerung 7.1.4 klar. Sei also f messbar. F¨ ur n ∈ N und alle k ∈ {0, 1, . . . , 4n } setzen wir ( {k2−n ≤ f < (k+1)2−n } falls k ∈ {0, 1, . . . , 4n − 1} Cn,k := {2n ≤ f } falls k = 4n und f¨ ur n ∈ N definieren wir n
fn :=
4 X
k2−n χCn,k
k=0
Aus der Messbarkeit von f folgt zun¨achst {Cn,k }k∈{0,1,...,4n } ⊆ F und sodann die Messbarkeit von fn . Daher ist fn eine einfache Funktion mit 0 ≤ fn ≤ f , und aus der Gleichung ( Cn+1,2k + Cn+1,2k+1 falls k ∈ {0, 1, . . . , 4n −1} Cn,k = P4n+1 falls k = 4n j=22n+1 Cn+1,j ergibt sich ferner fn ≤ fn+1 . Daher ist {fn }n∈N eine monoton wachsende Folge von positiven einfachen Funktionen mit sup fn ≤ f
n∈N
Sei nun ω ∈ Ω. – Im Fall f (ω) < ∞ gilt f¨ ur alle n ∈ N, die hinreichend groß sind, f (ω) < 2n und damit f (ω) < fn (ω) + 2−n , also f (ω) ≤ supm∈N fm (ω) + 2−n , und damit f (ω) ≤ supm∈N fm (ω). – Im Fall f (ω) = ∞ gilt fn (ω) = 2n f¨ ur alle n ∈ N, und damit f (ω) = ∞ = supn∈N fn (ω). Daher gilt auch f ≤ sup fn n∈N
und damit f = supn∈N fn . Daher folgt (b) aus (a).
2
7.1 Messbare Funktionen auf einem Messraum
99
Aus dem letzten Satz erh¨alt man mit Hilfe der Zerlegung f = f + − f − ein Analogon f¨ ur beliebige numerische Funktionen: 7.1.14 Satz (Approximationssatz; allgemeiner Fall). F¨ ur eine numerische Funktion f sind folgende Aussagen ¨ aquivalent: (a) f ist messbar. (b) Es gibt eine Folge {fn }n∈N von einfachen Funktionen mit f = limn→∞ fn . (c) Es gibt eine Folge {fn }n∈N von einfachen Funktionen mit f = limn→∞ fn und |f | = supn∈N |fn |. Aus dem Approximationssatz folgt, dass die Familie der messbaren numerischen Funktionen unter der Bildung von Summen und Produkten stabil ist: 7.1.15 Folgerung. Seien f, g, h numerische Funktionen mit h = f + g oder h = f g. Sind f und g messbar , so ist auch h messbar. Als eine weitere Anwendung des Approximationssatzes ergibt sich der folgende Faktorisierungssatz, den wir in Kapitel 18 ben¨ otigen: 7.1.16 Satz (Faktorisierungssatz). Sei (Ω0 , F 0 ) ein Messraum und sei g : Ω → Ω0 eine Abbildung und G := σ(g). F¨ ur eine numerische Funktion f sind dann folgende Aussagen ¨ aquivalent: (a) f ist G–messbar. ¯ mit f = h ◦ g. (b) Es gibt eine messbare numerische Funktion h : Ω0 → R Ist f G–messbar und positiv bzw. reell , so kann auch h positiv bzw. reell gew¨ ahlt werden. Beweis. Wir nehmen zun¨achst an, dass f eine positive G–messbare einfache Funktion ist. Dann gibt es eine disjunkte Familie {Gi }i∈{1,...,m} ⊆ G und eine Familie {ai }i∈{1,...,m} ⊆ R+ mit f =
m X
ai χGi
i=1
Nach Definition von G gibt es f¨ ur alle i ∈ {1, . . . , m} eine Menge Hi ∈ F 0 mit −1 Gi = g (Hi ). Sei h :=
m X
ai χHi
i=1
Dann ist h eine positive F 0 –messbare einfache Funktion und f¨ ur alle ω ∈ Ω gilt f (ω) =
m X
ai χGi (ω) =
i=1
und damit f = h ◦ g.
m X i=1
ai χg−1 (Hi ) (ω) =
m X i=1
ai χHi (g(ω)) = h(g(ω))
100
Kapitel 7. Messbare Funktionen
Wir nehmen nun an, dass f eine positive G–messbare numerische Funktion ist. Nach dem Approximationssatz 7.1.13 gibt es eine monoton wachsende Folge von positiven G–messbaren einfachen Funktionen {fn }n∈N mit f = supn∈N fn und nach dem bereits gezeigten gibt es f¨ ur alle n ∈ N eine positive F 0 –messbare einfache Funktion hn mit fn = hn ◦ g. Sei h := supn∈N hn . Dann ist h eine positive F 0 –messbare numerische Funktion und es gilt µ ¶ f = sup fn = sup(hn ◦ g) = sup hn ◦ g = h ◦ g n∈N
n∈N
n∈N
Wir nehmen schließlich an, dass f eine beliebige G–messbare numerische Funktion ist. Dann besitzt f die Zerlegung f = f + − f − und es gibt positive F 0 – messbare numerische Funktionen h1 und h2 mit f + = h1 ◦ g und f − = h2 ◦ g. F¨ ur die Menge H := {h1 < ∞} ∪ {h2 < ∞} gilt g(Ω) ⊆ H und damit f + = (h1 χH ) ◦ g und f − = (h2 χH ) ◦ g. Wegen H ∈ F 0 sind die Funktionen h1 χH und h2 χH F 0 –messbar Damit ist auch die Funktion h := h1 χH − h2 χH F 0 –messbar und es gilt f = f + − f − = (h1 χH ) ◦ g − (h2 χH ) ◦ g = (h1 χH − h2 χH ) ◦ g = h ◦ g Ist f reell, so kann man in der Definition der Funktion h die Menge H durch die Menge H0 := {h1 < ∞} ∩ {h2 < ∞} ersetzen und erh¨ alt eine F 0 –messbare reelle Funktion h0 mit f = h0 ◦ g. 2 Aufgaben 7.1.A
Indikatorfunktion: (1) F¨ ur alle A, B ∈ 2Ω gilt χA∩B = χA χB χA∪B = χA + χB − χA χB χA\B = χA − χA χB χA4B = |χA −χB | Sind A, B disjunkt, so gilt χA+B = χA + χB . (2) F¨ ur alle A, B ∈ 2Ω sind folgende Aussagen ¨ aquivalent: (a) Es gilt B ⊆ A. (b) Es gilt χB ≤ χA . (c) Es gilt χA\B = χA − χB . (3) F¨ ur jede Familie {Ai }i∈I ⊆ 2Ω gilt χTi∈I Ai = inf χAi i∈I
χSi∈I Ai = sup χAi i∈I
Ist die Familie {Ai }i∈I disjunkt, so gilt χPi∈I Ai = (4) F¨ ur jede Folge {An }n∈N ⊆ 2Ω gilt χlim inf n→∞ An = lim inf χAn n→∞
χlim supn→∞ An = lim sup χAn n→∞
P i∈I
χAi .
7.2 Messbare Funktionen auf einem Maßraum
101
7.1.B
F¨ ur eine numerische Funktion f sind folgende Aussagen ¨ aquivalent: (a) f ist messbar. (b) f + und f − sind messbar. (c) Es gibt messbare numerische Funktionen g und h mit f = g − h. In diesem Fall ist auch |f | messbar. Folgt umgekehrt aus der Messbarkeit von |f | die Messbarkeit von f ?
7.1.C
Sei {An }n∈N ⊆ F disjunkt und sei {fn }n∈NPeine Folge von messbaren numerischen Funktionen. Dann ist auch f := ∞ n=1 fn χAn messbar.
7.1.D
Approximationssatz: Vergleichen Sie die Approximationss¨ atze 7.1.13 und 7.1.14 mit dem Approximationssatz 5.4.1.
7.1.E
Zu jeder σ–Algebra G auf Ω mit G ⊆ F gibt es einen Messraum (Ω0 , F 0 ) und eine G–messbare Abbildung g : Ω → Ω0 mit G = σ(g).
7.1.F
Komplexe Funktionen: F¨ ur eine komplexe Funktion f : Ω → C ist – der Realteil Ref : Ω → R mit (Ref )(ω) := Ref (ω), – der Imagin¨ arteil Imf : Ω → R mit (Imf )(ω) := Imf (ω), und – der Betrag |f | : Ω → R mit |f |(ω) := |f (ω)| eine reelle Funktion. Eine komplexe Funktion heißt messbar , wenn sie F – B(R2 )–messbar ist. (1) F¨ ur eine komplexe Funktion f sind folgende Aussagen ¨ aquivalent: (a) f ist messbar. (b) Ref und Imf sind messbar. (2) Die messbaren komplexen Funktionen bilden einen Vektorraum.
7.2 Messbare Funktionen auf einem Maßraum Ist (Ω, F ) ein Messraum und µ : F → [0, ∞] ein Maß, so heißt das Tripel (Ω, F, µ) Maßraum. Ein Maßraum (Ω, F, µ) heißt endlich, wenn µ endlich ist, und er heißt σ–endlich, wenn µ σ–endlich ist. Im gesamten Abschnitt sei (Ω, F, µ) ein Maßraum. Eine Menge N ∈ F heißt µ–Nullmenge oder kurz Nullmenge, wenn µ[N ] = 0 gilt. Das folgende Lemma fasst die wichtigsten Stabilit¨ atseigenschaften der Familie der Nullmengen zusammen; vgl. Aufgabe 4.1.F. 7.2.1 Lemma. (1) Sei N ∈ F eine µ–Nullmenge. Dann ist jede Menge M ∈ F mit M ⊆ N eine µ–Nullmenge. (2) Sei S I abz¨ ahlbar und sei {Ni }i∈I eine Familie von µ–Nullmengen. Dann ist i∈I Ni eine µ–Nullmenge. Beweis. Jedes Maß ist monoton und σ–subadditiv.
2
Nullmengen sind vor allem in der Integrationstheorie von Bedeutung, denn es wird sich zeigen, dass die Eigenschaften einer Funktion auf einer Nullmenge die Eigenschaften ihres Integrals nicht beeinflussen.
102
Kapitel 7. Messbare Funktionen
Von einer Eigenschaft, die f¨ ur jedes ω ∈ Ω entweder gilt oder nicht gilt, sagt man, sie gelte µ–fast ¨ uberall oder kurz fast ¨ uberall , wenn es eine µ–Nullmenge N gibt derart, dass die Eigenschaft f¨ ur alle ω ∈ Ω \ N gilt. Dies bedeutet im allgemeinen jedoch nicht, dass die Menge aller ω ∈ Ω, f¨ ur die die Eigenschaft nicht gilt, selbst eine µ–Nullmenge ist. Insbesondere ergeben sich f¨ ur Funktionen, die auf einer Teilmenge von Ω definiert sind, die folgenden Definitionen: ¯ heißt µ–fast ¨ – Eine Funktion h : Ωh → R uberall definiert , wenn es eine µ–Nullmenge N gibt mit Ω \ Ωh ⊆ N . ¯ heißt µ–fast u – Eine Funktion h : Ωh → R ¨berall konstant , wenn es eine ¯ gibt mit Ω \ Ωh ⊆ N und h(ω) = c f¨ µ–Nullmenge N und ein c ∈ R ur alle ω ∈ Ω \ N . ¯ heißt µ–fast u – Eine Funktion h : Ωh → R ¨berall reell oder µ–fast u ¨berall endlich, wenn es eine µ–Nullmenge N gibt mit Ω \ Ωh ⊆ N und h(ω) ∈ R f¨ ur alle ω ∈ Ω \ N . ¯ und h : Ωh → R ¯ heißen µ–fast u – Zwei Funktionen g : Ωg → R ¨berall gleich, wenn es eine µ–Nullmenge N gibt mit (Ω \ Ωg ) ∪ (Ω \ Ωh ) ⊆ N und g(ω) = h(ω) f¨ ur alle ω ∈ Ω \ N . ¯ heißt µ–fast u – Eine Folge {hn }n∈N von Funktionen hn : Ωhn → R ¨berall ¯ und eine µ–Nullmenge N konvergent, wenn esSeine Funktion h : Ωh → R gibt mit (Ω \ Ωh ) ∪ n∈N (Ω \ Ωhn ) ⊆ N und f¨ ur jedes ω ∈ Ω \ N die Folge ¯ gegen h(ω) konvergiert. {hn (ω)}n∈N in R ¯ – Eine Folge {hn }n∈N von Funktionen hn : Ωhn → uberall S R heißt µ–fast ¨ Cauchy, wenn es eine µ–Nullmenge N gibt mit n∈N (Ω \ Ωhn ) ⊆ N und f¨ ur jedes ω ∈ Ω \ N die Folge {hn (ω)}n∈N eine Cauchy–Folge in R ist. Die Konvergenz µ–fast u ¨berall wird im folgenden ein wichtige Rolle spielen. Das folgende Ergebnis ist offensichtlich und gilt auch dann, wenn alle Funktionen nur µ–fast u ¨berall definiert sind: 7.2.2 Lemma. Sei {fn }n∈N eine Folge von Funktionen. (1) Ist {fn }n∈N µ–fast u ¨berall konvergent und sind f und g Funktionen mit limn→∞ fn (ω) = f (ω) µ–fast ¨ uberall und limn→∞ fn (ω) = g(ω) µ–fast u uberall. ¨berall, so gilt f (ω) = g(ω) µ–fast ¨ (2) Sind alle fn µ–fast ¨ uberall reell , so ist die Folge {fn }n∈N genau dann µ–fast ¨ uberall konvergent gegen eine µ–fast ¨ uberall reelle Funktion, wenn sie µ–fast ¨ uberall Cauchy ist. Das folgende Beispiel zeigt, dass beim Umgang mit µ–fast u ¨berall bestehenden Eigenschaften Vorsicht geboten ist: 7.2.3 Beispiel (Fast u ¨ berall stetige Funktionen). Sei (Ω, F , µ) := (R, B(R), λ). Eine Funktion h : Ωh → R mit Ωh ⊆ Ω heißt µ–fast u ¨berall stetig, wenn es eine µ– Nullmenge N gibt mit Ω \ Ωh ⊆ N und h f¨ ur alle ω ∈ Ω \ N stetig in ω ist. (1) Die Funktion h : Ω → R mit h(ω) := χQ (ω) ist messbar und es gibt eine stetige Funktion f : Ω → R mit µ[{h 6= f }] = 0. Dennoch ist h nicht µ–fast u ¨ berall stetig.
7.2 Messbare Funktionen auf einem Maßraum
103
(2) Die Funktion h : Ω → R mit h(ω) := χR+ (ω) ist messbar und µ–fast u ¨ berall stetig. Dennoch gibt es keine stetige Funktion f : Ω → R mit µ[{h 6= f }] = 0.
¯ und h : Ωh → R ¯ mit Ωg , Ωh ⊆ Ω schreiben wir F¨ ur g : Ωg → R g =µ h wenn es eine Funktion f ∈ L0 (F) und eine µ–Nullmenge N gibt mit (Ω \ Ωg ) ∪ {ω ∈ Ωg | g(ω) 6= f (ω)} ⊆ N (Ω \ Ωh ) ∪ {ω ∈ Ωh | h(ω) 6= f (ω)} ⊆ N Dann gilt g =µ f und h =µ f . 7.2.4 Beispiele. Sei (Ω, F , µ) := (R, B(R), λ). (1) F¨ ur die Funktionen h : Ωh → R mit Ωh := Ω \ {0} und h(ω) := 1/ω und f : Ω → R mit ½ f (ω) :=
0 1/ω
falls ω = 0 sonst
gilt h =µ f . Die Funktion f ist reell und messbar. (2) Dirichlet–Funktion: F¨ ur die Dirichlet–Funktion h : Ω → R mit ½ ∞ falls ω ∈ Q h(ω) := 0 sonst und die Funktion f : Ω → R mit f (ω) := 0 gilt h =µ f . Die Funktion f ist reell und messbar.
Wir betrachten nun die Familie ¯ n o ¯ ¯¯ Ωh ⊆ Ω und es gibt ein f ∈ L0 (F) mit h =µ f L0 (F, µ) := h : Ωh → R Nach Lemma 7.2.1 ist die Vereinigung von zwei µ–Nullmengen eine µ–Null¨ menge. Daher ist =µ eine Aquivalenzrelation auf L0 (F , µ). ¨ F¨ ur h ∈ L0 (F , µ) bezeichnen wir die Aquivalenzklasse, die die Funktion h ent0 h¨ alt, mit [h]µ ; es gilt also [h]µ ⊆ L (F , µ). Nach Definition von =µ enth¨ alt jede ¨ Aquivalenzklasse [h]µ ⊆ L0 (F , µ) einen Repr¨asentanten f ∈ L0 (F), also eine messbare Funktion f : Ω → R mit [h]µ = [f ]µ . Da nach Lemma 7.2.1 sogar die Vereinigung einer abz¨ahlbaren Familie von µ–Nullmengen eine µ–Nullmenge ¯ ist, gibt es zu jeder abz¨ahlbaren Familie {hi }i∈I ⊆ L0 (F , µ) mit hi : Ωhi → R 0 eine gemeinsame µ–Nullmenge N ∈ F und eine Familie {fi }i∈I ⊆ L (F)
104
Kapitel 7. Messbare Funktionen
derart, dass f¨ ur alle i ∈ I sowohl Ω \ Ωhi ⊆ N als auch hi (ω) = fi (ω) f¨ ur alle ω ∈ Ω \ N gilt. Bei der Betrachtung einer abz¨ahlbaren Familie {[fi ]µ }i∈I von ¨ Aquivalenzklassen in L0 (F , µ) k¨onnen und werden wir daher annehmen, dass 0 {fi }i∈I ⊆ L (F) gilt. Sei nun L0 (F, µ) := L0 (F , µ)/=µ ¨ Dann ist L0 (F, µ) die Familie aller Aquivalenzklassen von L0 (F , µ) unter =µ . Die Addition, die Skalarmultiplikation und die Ordnungsrelation auf L0 (F) induzieren in kanonischer Weise eine Addition, eine Skalarmultiplikation und eine Ordnungsrelation auf L0 (F, µ). Mit Satz 7.1.7 erhalten wir daher das folgende Ergebnis: 7.2.5 Satz. L0 (F, µ) ist ein Vektorverband. Sofern keine Missverst¨andnisse zu bef¨ urchten sind, verzichten wir darauf, die ¨ Elemente von L0 (F, µ) als Aquivalenzklassen von L0 (F, µ) zu kennzeichnen. 0 Wir schreiben also f ∈ L (F , µ) anstelle von [f ] ∈ L0 (F, µ) und nehmen dabei ¨ an, dass der Repr¨ asentant f der Aquivalenzklasse [f ] auf ganz Ω definiert und reell ist. Da der Limes einer µ–fast u ¨berall konvergenten Folge reeller Funktionen µ– fast u berall eindeutig bestimmt ist, l¨asst sich diese Art der Konvergenz auch ¨ als Konvergenzbegriff in L0 (F , µ) verstehen. Wir betrachten nun eine weitere Art der Konvergenz: Eine Folge {fn }n∈N messbarer reeller Funktionen konvergiert im Maß µ gegen eine messbare reelle Funktion f , wenn f¨ ur alle ε ∈ (0, ∞) lim µ[{|fn −f | ≥ ε}] = 0
n→∞
gilt. Das folgende Ergebnis zeigt, dass auch der Limes einer im Maß µ konvergenten Folge µ–fast u ¨berall eindeutig bestimmt ist: 7.2.6 Lemma. Sei {fn }n∈N eine Folge messbarer reeller Funktionen, die im Maß µ gegen eine messbare reelle Funktion f und gegen eine messbare reelle Funktion g konvergiert. Dann gilt f (ω) = g(ω) µ–fast ¨ uberall. Beweis. Wegen |f −g| ≤ |f −fn | + |fn −g| gilt f¨ ur alle ε ∈ (0, ∞) {|f −g| ≥ ε} ⊆ {|f −fn | ≥ ε/2} ∪ {|fn −g| ≥ ε/2} und damit µ[{|f −g| ≥ ε}] ≤ µ[{|f −fn | ≥ ε/2}] + µ[{|fn −g| ≥ ε/2}]
7.2 Messbare Funktionen auf einem Maßraum
105
und aus der Voraussetzung folgt nun µ[{|f −g| ≥ ε}] = 0 S Wegen {f 6= g} = {|f −g| > 0} = k∈N {|f −g| ≥ 1/k} ergibt sich daraus " # ∞ [ X µ[{f 6= g}] = µ {|f −g| ≥ 1/k} ≤ µ[{|f −g| ≥ 1/k}] = 0 k∈N
k=1
und damit f (ω) = g(ω) fast u ¨berall.
2
Aufgrund des letzten Lemmas l¨asst sich auch die Konvergenz im Maß µ als Konvergenzbegriff in L0 (F , µ) verstehen. Das folgende Lemma zeigt, dass die Konvergenz im Maß µ mit der linearen Struktur von L0 (F, µ) vertr¨ aglich ist: 7.2.7 Lemma. Sei {fn }n∈N eine Folge von messbaren reellen Funktionen, die im Maß µ gegen eine messbare reelle Funktion f konvergiert, und sei {gn }n∈N eine Folge von messbaren reellen Funktionen, die im Maß µ gegen eine messbare reelle Funktion g konvergiert. Dann konvergiert f¨ ur jede Wahl von a, b ∈ R die Folge {afn +bgn }n∈N im Maß µ gegen af +bg. Beweis. Im Fall a = 0 oder b = 0 ist nichts zu zeigen. Sei nun a 6= 0 6= b. Wegen |(afn +bgn ) − (af +bg)| ≤ |a||fn −f | + |b||gn −g| gilt f¨ ur alle ε ∈ (0, ∞) {|(afn +bgn ) − (af +bg)| ≥ ε} ⊆ {|a||fn −f | ≥ ε/2} ∪ {|b||gn −g| ≥ ε/2} und damit µ[{|(afn +bgn ) − (af +bg)| ≥ ε}] ≤ µ[{|fn −f | ≥ ε/|2a|}] + µ[{|gn −g| ≥ ε/|2b|}] Daraus folgt die Behauptung.
2
Wir vergleichen nun die Konvergenz im Maß mit der Konvergenz fast u ¨berall: 7.2.8 Satz. Sei µ endlich. Dann konvergiert jede Folge von messbaren reellen Funktionen, die µ–fast u ¨berall gegen eine messbare reelle Funktion f konvergiert, auch im Maß µ gegen f . Beweis. Sei {fn }n∈N eine Folge von messbaren reellen Funktionen, die fast u ur ¨berall gegen eine messbare reelle Funktion f konvergiert. Sei ε ∈ (0, ∞). F¨ alle m ∈ N sei \ Am := {|fn −f | < ε} n∈N(m)
Dann ist {Am }m∈N eine monoton wachsende Folge S in F und nach S Voraussetzung gibt es eine Nullmenge N ∈ F mit Ω = N ∪ m∈N Am = m∈N (N ∪Am ). Daher gilt
106
Kapitel 7. Messbare Funktionen
sup µ[Am ] = sup µ[N ∪ Am ] = µ[Ω]
m∈N
m∈N
Da µ endlich ist, folgt daraus inf µ[Ω \ Am ] = 0
m∈N
Wegen {|fm −f | ≥ ε} ⊆ Ω \ Am erhalten wir nun lim µ[{|fm −f | ≥ ε}] = 0
m→∞
und damit die Behauptung.
2
Die folgenden Beispiele zeigen, dass man im letzten Satz auf die Forderung der Endlichkeit des Maßes nicht verzichten kann und dass auch im Fall eines endlichen Maßes aus der Konvergenz im Maß nicht die Konvergenz fast u ¨berall folgt: 7.2.9 Beispiele. (1) Sei (Ω, F , µ) := (R, B(R), λ). Dann ist µ σ–endlich, aber nicht endlich. F¨ ur n ∈ N sei fn : Ω → R gegeben durch fn (ω) :=
1 ω e n
Dann konvergiert die Folge {fn }n∈N fast u ur ¨ berall gegen 0. Andererseits gilt f¨ alle ε ∈ (0, ∞) µ[{fn ≥ ε}] = µ[ [log(nε), ∞) ] = ∞ Daher konvergiert die Folge {fn }n∈N nicht im Maß gegen 0. (2) Sei Ω := (0, 1], sei F die kleinste σ–Algebra auf (0, 1], die alle Intervalle der Form ((k − 1)2−m , k2−m ] mit m ∈ N0 und k ∈ {1, . . . , 2m } enth¨ alt, und sei µ : F → [0, ∞] gegeben durch µ[A] := λ[A]. Dann ist µ endlich. F¨ ur m ∈ N0 und k ∈ {1, . . . , 2m } sei f2m +k−1 gegeben durch f2m +k−1 (ω) := χ((k−1)2−m ,k2−m ] (ω) Dann gilt f¨ ur alle ε ∈ (0, ∞) µ[{f2m +k−1 ≥ ε}] ≤ µ[ ((k−1)2−m , k2−m ] ] = 2−m Daher konvergiert die Folge {fn }n∈N im Maß gegen 0, aber sie ist nicht fast u ¨berall konvergent.
Sei nun
¯ n o ¯ L∞ (F , µ) := [h]µ ∈ L0 (F, µ) ¯ es gibt ein f ∈ [h]µ ∩ L∞ (F)
Da L∞ (F) ein Vektorverband und ein Ideal in L0 (F ) ist, ist auch L∞ (F , µ) ein Vektorverband und ein Ideal in L0 (F , µ).
7.2 Messbare Funktionen auf einem Maßraum
107
Des weiteren gilt f¨ ur alle f, g ∈ L∞ (F) mit f =µ g inf{c ∈ R+ | |f | ≤µ c} = inf{c ∈ R+ | |g| ≤µ c} Daher ist die Abbildung k . k∞ : L∞ (F, µ) → R+ mit k[f ]µ k∞ := inf{c ∈ R+ | |f | ≤µ c} wohldefiniert; im folgenden schreiben wir kf k∞ anstelle von k[f ]µ k∞ . Es ist klar, dass k . k∞ eine Norm ist. Das folgende Lemma zeigt, dass der normierte Raum (L∞ (F, µ), k . k∞ ) vollst¨andig ist: 7.2.10 Lemma (Riesz/Fischer). (L∞ (F , µ), k . k∞ ) ist vollst¨ andig. Beweis. Sei {fn }n∈N eine Cauchy–Folge in (L∞ (F, µ), k . k∞ ). Wir k¨ onnen annehmen, dass {fn }n∈N ⊆ L∞ (F ) gilt. Da die Folge {fn }n∈N eine Cauchy–Folge in (L∞ (F , µ), k . k∞ ) ist, ist f¨ ur jedes ω ∈ Ω die Folge {fn (ω)}n∈N eine Cauchy–Folge und damit in R konvergent. Da die Funktion f : Ω → R mit f (ω) := lim fn (ω) n→∞
messbar ist, erhalten wir zun¨achst f ∈ L0 (F). Außerdem gilt f¨ ur alle ω ∈ Ω |f (ω)| ≤ |f (ω)−fn (ω)| + |fn (ω)−fm (ω)| + |fm (ω)| ≤ |f (ω)−fn (ω)| + kfn −fm k∞ + kfm k∞ F¨ ur m ∈ N hinreichend groß gilt kfn −fm k∞ ≤ 1 f¨ ur alle n ∈ N(m), und f¨ ur n ∈ N(m) hinreichend groß gilt |f (ω) − fn (ω)| ≤ 1. Daher gilt f ∈ L∞ (F ). Sei nun ε ∈ (0, ∞). Dann gibt es ein m ∈ N mit kfn − fm k∞ ≤ ε f¨ ur alle n ∈ N(m), und f¨ ur alle ω ∈ Ω gilt |f (ω) − fm (ω)| = lim |fn (ω)−fm (ω)| ≤ lim kfn −fm k∞ ≤ ε n→∞
n→∞
Daraus ergibt sich kf −fm k∞ ≤ sup |f (ω) − fm (ω)| ≤ ε ω∈Ω
Da ε ∈ (0, ∞) beliebig war, erhalten wir limm→∞ kf −fm k∞ = 0.
2
Nach Lemma 7.2.10 ist (L∞ (F , µ), k . k∞ ) ein Banach–Raum. Außerdem ist die Norm k . k∞ mit der Verbandsstruktur von L∞ (F, µ) in dem Sinne vertr¨ aglich, dass f¨ ur alle f, g ∈ L∞ (F , µ) mit |f | ≤µ |g| k |f | k∞ ≤ k |g| k∞ gilt. Daher ist (L∞ (F, µ), k . k∞ ) ein normierter Vektorverband und aufgrund der Vollst¨ andigkeit sogar ein Banach–Verband. Der folgende Satz fasst die Eigenschaften von (L∞ (F, µ), k . k∞ ) zusammen:
108
Kapitel 7. Messbare Funktionen
7.2.11 Satz. (L∞ (F , µ), k . k∞ ) ist ein Banach–Verband und ein Ideal in L0 (F, µ). Im folgenden werden wir bei den in diesem Abschnitt eingef¨ uhrten Begriffen und Bezeichnungen oft auf die Angabe der σ–Algebra F oder des Maßes µ verzichten. Aufgaben 7.2.A
F¨ ur A, B ∈ F sind ¨ aquivalent: (a) Es gilt A =µ B. (b) Es gilt χA =µ χB .
7.2.B
Sei µ endlich. (1) Die Abbildung dµ : L0 (F , µ) × L0 (F , µ) → R+ mit dµ (f, g) := µ[{f 6= g}] ist (wohldefiniert und) eine Metrik und diese Metrik ist translationsinvariant, aber nicht absolut homogen. (2) F¨ ur alle A, B ∈ F gilt dµ (χA , χB ) = µ[A4B].
7.2.C
Konvergenz im Maß: Sei {fn }n∈N eine Folge von messbaren reellen Funktionen, die im Maß µ gegen eine messbare reelle Funktion f konvergiert, und sei {gn }n∈N eine Folge von messbaren reellen Funktionen, die im Maß µ gegen eine messbare reelle Funktion g konvergiert. Dann konvergiert die Folge {fn ∨ gn }n∈N im Maß µ gegen f ∨ g.
7.2.D
Lokale Konvergenz im Maß: Eine Folge {fn }n∈N von messbaren reellen Funktionen konvergiert lokal im Maß µ gegen eine messbare reelle Funktion f , wenn f¨ ur jede Menge C ∈ F mit µ[C] < ∞ und f¨ ur alle ε ∈ (0, ∞) lim µ[C ∩ {|fn −f | ≥ ε}] = 0
n→∞
gilt. (1) Sei µ σ–endlich. Dann ist der Limes einer lokal im Maß µ konvergenten Folge von messbaren reellen Funktionen µ–fast u ¨ berall eindeutig bestimmt. Kann man auf die Forderung der σ–Endlichkeit von µ verzichten? (2) Jede Folge von messbaren reellen Funktionen, die µ–fast u ¨ berall gegen eine messbare reelle Funktion f konvergiert, konvergiert auch lokal im Maß µ gegen f . (3) Jede Folge von messbaren reellen Funktionen, die im Maß µ gegen eine messbare reelle Funktion f konvergiert, konvergiert auch lokal im Maß µ gegen f . Ist µ endlich, so gilt auch die Umkehrung dieser Implikation. 7.2.E
Sei {fn }n∈N ⊆ L∞ (F, µ) eine Folge, die in L∞ (F , µ) gegen eine Funktion f ∈ L∞ (F , µ) konvergiert. Dann konvergiert die Folge {fn }n∈N auch im Maß gegen f .
8 Lebesgue–Integral
In diesem Kapitel konstruieren wir ein Integral f¨ ur messbare (numerische) Funktionen, die auf einem Maßraum (Ω, F, µ) definiert sind. Dieses Integral wird als Lebesgue–Integral bezeichnet. Ausgangspunkt f¨ ur die Konstruktion des Integrals ist die Interpretation des Maßes µ[A] einer Menge A ∈ F als Integral ihrer Indikatorfunktion χA ; wegen A ∈ F ist χA messbar und wir setzen Z χA dµ := µ[A] Ω
Die Grundidee ist nun, dieses Integral zun¨achst auf Linearkombinationen von messbaren Indikatorfunktionen und sodann auf deren Limites unter der punktweisen Konvergenz fortzusetzen. Die Ausf¨ uhrung dieser Grundidee wird allerdings dadurch erschwert, dass das Maß µ im allgemeinen nicht endlich ist; man betrachte etwa den Maßraum (R, B(R), λ). Es zeigt sich jedoch, dass das Integral f¨ ur messbare Indikatorfunktionen in nat¨ urlicher Weise zun¨ achst zu einem Integral f¨ ur alle positiven einfachen Funktionen (Abschnitt 8.1) und sodann zu einem Integral f¨ ur alle positiven messbaren Funktionen (Abschnitt 8.2) fortgesetzt werden kann; da jede messbare Funktion als Differenz von zwei positiven messbaren Funktionen dargestellt werden kann, l¨ asst sich das Integral schließlich auch f¨ ur bestimmte messbare Funktionen definieren, die nicht positiv sein m¨ ussen (Abschnitt 8.3). Diese drei Schritte der Konstruktion des Integrals werden als algebraische Induktion bezeichnet; wir haben sie bereits im Beweis des Faktorisierungssatzes verwendet, und es wird sich zeigen, dass die algebraische Induktion auch eine grundlegende Technik zum Beweis von Aussagen u ¨ber Integrale ist. Abschließend betrachten wir R¨aume integrierbarer Funktionen (Abschnitt 8.4) und damit erste funktionalanalytische Aspekte der Integrationstheorie. Im gesamten Kapitel sei (Ω, F, µ) ein Maßraum. Im folgenden bezeichnen wir eine numerische Funktion kurz als Funktion. K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_8, © Springer-Verlag Berlin Heidelberg 2011
110
Kapitel 8. Lebesgue–Integral
8.1 Positive einfache Funktionen In diesem Abschnitt definieren wir das Lebesgue–Integral f¨ ur positive einfache Funktionen. Ausgangspunkt f¨ ur die Konstruktion des Integrals ist die Interpretation des Maßes µ[A] einer Menge A ∈ F als Integral ihrer Indikatorfunktion χA : F¨ ur eine messbare Menge A setzen wir Z χA dµ := µ[A] Ω
R
und nennen Ω χA dµ das Lebesgue–Integral bez¨ uglich µ oder das µ–Integral oder kurz das Integral von χA . Die Indikatorfunktion einer messbaren Menge ist eine positive einfache Funktion. Wir erweitern die Definition des Integrals nun auf beliebige positive einfache Funktionen: F¨ ur eine positive einfache Funktion f mit der Standarddarstellung X f = a χ{f =a} a∈f (Ω)
setzen wir
Z
X
f dµ := Ω
a µ[{f = a}]
a∈f (Ω)
R und nennen Ω f dµ das Lebesgue–Integral bez¨ uglich µ oder das µ–Integral oder kurz das Integral von f ; vgl. Aufgabe 8.1.B. Die Definition des µ–Integrals f¨ ur positive einfache Funktionen ist offensichtlich mit der Definition des µ–Integrals f¨ ur Indikatorfunktionen von messbaren Mengen vertr¨ aglich. Das folgende Lemma liefert eine allgemeine Darstellung des Integrals einer positiven einfachen Funktion, die sich bei der Herleitung der Eigenschaften des Integrals als n¨ utzlich erweist und auch seine Berechnung erleichtern kann: 8.1.1 Lemma. Sei f eine positive einfache Funktion und sei f=
n X
ci χCi
i=1
eine Darstellung von f mit {Ci }i∈{1,...,n} ⊆ F und {ci }i∈{1,...,n} ⊆ R+ . Dann gilt Z n X f dµ = ci µ[Ci ] Ω
i=1
8.1 Positive einfache Funktionen
111
Beweis. Wir betrachten die Standarddarstellung X f = a χ{f =a} a∈f (Ω)
von f . Dann gilt X
a χ{f =a} =
n X
ci χCi
i=1
a∈f (Ω)
und daraus ergibt sich f¨ ur alle a ∈ f (Ω) a χ{f =a} =
n X
ci χCi ∩{f =a}
i=1
Es gen¨ ugt zu zeigen, dass f¨ ur alle a ∈ f (Ω) die Gleichung a µ[{f = a}] =
n X
ci µ[Ci ∩ {f = a}]
(∗)
i=1
gilt, denn dann ergibt sich aus µ sofort X
P
a∈f (Ω) {f
a µ[{f = a}] =
= a} = Ω und der Additivit¨ at von
n X X
ci µ[Ci ∩ {f = a}]
a∈f (Ω) i=1
a∈f (Ω)
=
n X i=1
=
n X
X
ci
"
ci µ
i=1
=
n X
µ[Ci ∩ {f = a}]
a∈f (Ω)
X
# Ci ∩ {f = a}
a∈f (Ω)
ci µ[Ci ]
i=1
und damit die Behauptung des Lemmas. Zum Beweis der Gleichung (∗) zeigen wir, dass f¨ ur alle n ∈ N und f¨ ur jede Wahl von B, D1 , . . . , Dn ∈ F und b, d1 , . . . , dn ∈ R+ mit b χB =
n X
di χDi
i=1
die Gleichung b µ[B] =
n X
di µ[Di ]
i=1
gilt. Wir f¨ uhren den Beweis durch vollst¨andige Induktion:
112
•
Kapitel 8. Lebesgue–Integral
n = 1: Wir betrachten B, D1 ∈ F und b, d1 ∈ R+ mit b χB = d1 χD1 Im Fall d1 = 0 oder D1 = ∅ gilt b = 0 oder B = ∅, und damit b µ[B] = d1 µ[D1 ] Im Fall d1 6= 0 und D1 6= ∅ gilt b = d1 und B = D1 , und damit ebenfalls b µ[B] = d1 µ[D1 ]
•
Damit ist die Behauptung f¨ ur n = 1 gezeigt. n → n + 1: Wir nehmen an, die Behauptung sei f¨ ur n bereits bewiesen, und betrachten B, D1 , . . . , Dn , Dn+1 ∈ F und b, d1 , . . . , dn , dn+1 ∈ R+ mit b χB =
n+1 X
di χDi
i=1
Im Fall dn+1 = 0 oder Dn+1 = ∅ gilt b χB = b µ[B] =
n X
Pn i=1
di χDi , und damit
di µ[Di ]
i=1
=
n+1 X
di µ[Di ]
i=1
Im Fall dn+1 6= 0 und Dn+1 6= ∅ giltPDn+1 ⊆ B und 0 < dn+1 ≤ b. Aus n Dn+1 ⊆ B folgt zun¨achst bPχDn+1 = i=1 di χDi ∩Dn+1 + dn+1 χDn+1 und n damit (b − dn+1 ) χDn+1 = i=1 di χDi ∩Dn+1 , und aus b − dn+1 ∈ R+ folgt nun (b − dn+1 ) µ[Dn+1 ] =
n X
di µ[Di ∩ Dn+1 ]
i=1
Im Fall µ[Dn+1 ] < ∞ erhalten wir aus der letzten Gleichung b µ[Dn+1 ] =
n X
di µ[Di ∩ Dn+1 ] + dn+1 µ[Dn+1 ]
i=1
und wegen 0 < dn+1 ≤ b giltP diese Gleichung auch im Fall µ[Dn+1 ] = ∞. n Außerdem gilt b χB\Dn+1 = i=1 di χDi \Dn+1 , und daraus folgt b µ[B \ Dn+1 ] =
n X i=1
di µ[Di \ Dn+1 ]
8.1 Positive einfache Funktionen
113
Durch Summation ergibt sich nun b µ[B] = b µ[Dn+1 ] + b µ[B \ Dn+1 ] = =
n X i=1 n+1 X
di µ[Di ∩ Dn+1 ] + dn+1 µ[Dn+1 ] +
n X
di µ[Di \ Dn+1 ]
i=1
di µ[Di ]
i=1
Damit ist die Behauptung bewiesen.
2
Mit Hilfe des letzten Lemmas k¨onnen wir nun leicht die elementaren Eigenschaften des Integrals f¨ ur positive einfache Funktionen beweisen: 8.1.2 Lemma. Seien f und g positive einfache Funktionen und sei a ∈ R+ . Dann gilt Z Z Z (f + g) dµ = f dµ + g dµ Ω
und
Ω
Z
Ω
Z af dµ = a
Ω
Im Fall f ≤ g gilt
f dµ Ω
Z
Z f dµ ≤
Insbesondere gilt
R Ω
Ω
g dµ Ω
f dµ ≥ 0.
Beweis. Mit f und g sind auch f + g und af positiv und einfach. Ausgehend von den Standarddarstellungen von f und g gewinnen wir Darstellungen der Form f = g=
n X i=1 n X
ci χBi di χBi
i=1
mit einer disjunkten Familie {Bi }i∈{1,...,n} ⊆ F sowie {ci }i∈{1,...,n} ⊆ R+ und {di }i∈{1,...,n} ⊆ R+ . Dann besitzen f + g und af die Darstellungen f +g = af =
n X i=1 n X i=1
(ci +di ) χBi a ci χBi
114
Kapitel 8. Lebesgue–Integral
und aus Lemma 8.1.1 ergibt sich nun Z n X (f + g) dµ = (ci +di ) µ[Bi ] Ω
i=1
=
n X
ci µ[Bi ] +
i=1
Z =
Z
f dµ +
n X
di µ[Bi ]
i=1
g dµ
Ω
Ω
und Z af dµ = Ω
n X
a ci µ[Bi ]
i=1 n X
=a
ci µ[Bi ]
i=1
Z =a
f dµ Ω
Im Fall f ≤ g gilt ci ≤ di f¨ ur alle i ∈ {1, . . . , n} mit Bi 6= ∅, und daraus folgt Z n X f dµ = ci µ[Bi ] Ω
i=1
≤
n X
di µ[Bi ]
i=1
Z =
g dµ Ω
Die letzte Behauptung des Lemmas ist ohnehin klar.
2
Lemma 8.1.2 besagt, dass das Integral als Abbildung von der Familie der positiven einfachen Funktionen in die Menge der erweiterten reellen Zahlen positiv linear und monoton ist. Aufgaben 8.1.A
Sei f eine positive einfache Funktion. Dann gilt Z X Z f dµ = a χ{f =a} dµ Ω
a∈f (Ω)
Ω
8.1.B
Ist µ endlich, so l¨ asst sich die hier f¨ ur positive einfache Funktionen gegebene Definition des Integrals auf beliebige einfache Funktionen erweitern.
8.1.C
Was ergibt sich aus Lemma 8.1.2 f¨ ur f := χA und g := χB mit A, B ∈ F, wenn A ∩ B = ∅ bzw. A ⊆ B gilt?
8.2 Positive messbare Funktionen
115
8.2 Positive messbare Funktionen In diesem Abschnitt erweitern wir das Lebesgue–Integral auf beliebige positive messbare Funktionen. F¨ ur eine positive messbare Funktion f setzen wir ¯ ½Z ¾ Z ¯ f dµ := sup h dµ ¯¯ h ist einfach mit 0 ≤ h ≤ f Ω
Ω
R
und nennen Ω f dµ das Lebesgue–Integral bez¨ uglich µ oder das µ–Integral oder kurz das Integral von f . Die Definition des µ–Integrals f¨ ur positive messbare Funktionen ist offensichtlich mit der Definition des µ–Integrals f¨ ur positive einfache Funktionen vertr¨aglich. Der folgende Satz u ¨ ber die monotone Konvergenz ist das zentrale Ergebnis der Integrationstheorie: 8.2.1 Satz (Monotone Konvergenz; Levi). Sei {fn }n∈N eine monoton wachsende Folge von positiven messbaren Funktionen. Dann gilt Z Z sup fn dµ = sup fn dµ Ω n∈N
n∈N
Ω
Beweis. Wir bemerken zun¨achst, dass die Funktion supn∈N fn messbar ist. F¨ ur alle k ∈ N gilt fk ≤ supn∈N fn und aus der Definition des Integrals f¨ ur positive messbare Funktionen ergibt sich sofort Z Z fk dµ ≤ sup fn dµ Ω n∈N
Ω
Daher gilt Z
Z
sup k∈N
fk dµ ≤ Ω
sup fn dµ
Ω n∈N
Zum Beweis der umgekehrten Ungleichung betrachten wir eine einfache Funktion h mit 0 ≤ h ≤ supn∈N fn sowie ein α ∈ (0, 1). F¨ ur k ∈ N sei Dk := {αh ≤ fk } Dann gilt Dk ∈ F und mit h sind auch die Funktionen hχDk und αhχDk positiv und einfach. Insbesondere ergibt sich aus der Darstellung h=
m X i=1
ci χCi
116
Kapitel 8. Lebesgue–Integral
von h mit {Ci }i∈{1,...,n} ⊆ F und {ci }i∈{1,...,n} ⊆ R+ die Darstellung hχDk =
m X
ci χCi ∩Dk
i=1
von hχDk . Da die Folge {Dk }k∈N monoton wachsend ist mit und da jedes Maß stetig von unten ist, erhalten wir zun¨ achst Z h dµ = Ω
=
m X i=1 m X
k∈N
Dk = Ω
ci µ[Ci ] ci sup µ[Ci ∩ Dk ] k∈N
i=1
= sup
S
m X
k∈N i=1
ci µ[Ci ∩ Dk ]
Z
= sup k∈N
Ω
hχDk dµ
Wegen 0 ≤ αhχDk ≤ fk erhalten wir außerdem aufgrund der Definition des Integrals von fk Z Z αhχDk dµ ≤ fk dµ Ω
Ω
Unter Verwendung von Lemma 8.1.2 erhalten wir daher Z Z α h dµ = α sup hχDk dµ k∈N Ω Ω Z = sup αhχDk dµ k∈N Ω Z ≤ sup fk dµ k∈N
Ω
Durch Bildung des Supremums u ¨ber α ∈ (0, 1) ergibt sich nun Z Z h dµ ≤ sup fk dµ Ω
k∈N
Ω
und durch Bildung des Supremums u ¨ber alle einfachen Funktionen h mit 0 ≤ h ≤ supn∈N fn ergibt sich sodann aufgrund der Definition des Integrals von supn∈N fn Z Z sup fn dµ ≤ sup fk dµ Ω n∈N
Damit ist der Satz bewiesen.
k∈N
Ω
2
8.2 Positive messbare Funktionen
117
Nach dem Approximationssatz ist eine positive Funktion f genau dann messbar, wenn es eine monoton wachsende Folge {fn }n∈N von positiven einfachen Funktionen gibt mit f = supn∈N fn ; das folgende Ergebnis zeigt, dass f¨ ur jede Wahl der approximierenden Folge das Integral von f mit dem Supremum der Integrale der approximierenden Funktionen fn u ¨bereinstimmt. Dies ist eine unmittelbare Folgerung aus dem Satz u ¨ ber die monotone Konvergenz. 8.2.2 Folgerung. Sei f eine positive messbare Funktion und sei {fn }n∈N eine monoton wachsende Folge von positiven einfachen Funktionen mit f = supn∈N fn . Dann gilt Z Z f dµ = sup fn dµ n∈N
Ω
Ω
Das letzte Ergebnis erweist sich bei der Herleitung weiterer Eigenschaften des Integrals als n¨ utzlich und kann auch seine Berechnung erleichtern. Insbesondere k¨ onnen wir nun zeigen, dass das Integral einer positiven messbaren Funktion dieselben elementaren Eigenschaften besitzt wie das Integral einer positiven einfachen Funktion: 8.2.3 Lemma. Seien f und g positive messbare Funktionen und sei a ∈ R+ . Dann gilt Z Z Z (f + g) dµ = f dµ + g dµ Ω
und
Ω
Z
Ω
Z af dµ = a
Ω
Im Fall f ≤ g gilt
f dµ Ω
Z
Z f dµ ≤
Insbesondere gilt
R Ω
Ω
g dµ Ω
f dµ ≥ 0.
Beweis. Seien {fn }n∈N und {gn }n∈N monoton wachsende Folgen von positiven einfachen Funktionen mit f = sup fn n∈N
g = sup gn n∈N
Dann sind auch {fn + gn }n∈N und {afn }n∈N monoton wachsende Folgen von positiven einfachen Funktionen und es gilt f + g = sup(fn +gn ) n∈N
af = sup afn n∈N
118
Kapitel 8. Lebesgue–Integral
Aus Folgerung 8.2.2 und Lemma 8.1.2 folgt nun Z Z (f +g) dµ = sup (fn +gn ) dµ n∈N Ω Ω µZ ¶ Z = sup fn dµ + gn dµ n∈N Ω Z Ω Z = sup fn dµ + sup gn dµ n∈N Ω n∈N Ω Z Z = f dµ + g dµ Ω
Ω
und Z
Z af dµ = sup Ω
afn dµ Z = a sup fn dµ n∈N Ω Z =a f dµ n∈N
Ω
Ω
Die u ¨brigen Behauptungen sind klar.
2
Lemma 8.2.3 besagt, dass das Integral als Abbildung von der Familie der positiven messbaren Funktionen in die Menge der erweiterten reellen Zahlen positiv linear und monoton ist. Der Satz u ¨ber die monotone Konvergenz l¨asst sich nun auch als Aussage u ¨ber das Integral einer Reihe von positiven messbaren Funktionen formulieren: 8.2.4 Folgerung (Monotone Konvergenz; Levi). Sei {fn }n∈N eine Folge von positiven messbaren Funktionen. Dann gilt ! Z ÃX ∞ ∞ Z X fn dµ = fn dµ Ω
n=1
n=1
Ω
Pn Beweis. Die Folge der Partialsummen k=1 fk ist eine monoton wachsende Folge von positiven messbaren Funktionen. Aus dem Satz u ¨ber die monotone Konvergenz und der Additivit¨at des Integrals folgt nun ! ! Z ÃX Z Ã ∞ n X fk dµ = sup fk dµ Ω
k=1
Ω
= sup n∈N
n∈N
k=1
Z ÃX n Ω
k=1
! fk dµ
8.2 Positive messbare Funktionen
119
= sup n∈N
=
n Z X k=1
∞ Z X k=1
fk dµ
Ω
fk dµ
Ω
Damit ist die Folgerung bewiesen.
2
Wir beweisen nun einige weitere Ergebnisse u ¨ ber das Integral einer positiven messbaren Funktion. Ein gleichzeitig elementares und zentrales Ergebnis, das vielf¨ altige Anwendungen besitzt, ist die folgende Ungleichung von Markov, die wir im Hinblick auf ihre Anwendungen f¨ ur den Betrag einer beliebigen messbaren Funktion formulieren: 8.2.5 Lemma (Ungleichung von Markov). Sei f eine messbare Funktion. Dann gilt f¨ ur alle c ∈ (0, ∞) Z 1 µ[{|f | ≥ c}] ≤ |f | dµ c Ω Beweis. Unter Verwendung von Lemma 8.2.3 ergibt sich Z Z Z 1 1 µ[{|f | ≥ c}] = χ{|f |≥c} dµ ≤ |f | χ{|f |≥c} dµ ≤ |f | dµ c Ω Ω Ω c Damit ist das Lemma bewiesen.
2
Lemma 8.2.5 ist die Basisversion der Ungleichung von Markov. Aus ihr l¨ asst sich eine ganze Schar von Ungleichungen ableiten: 8.2.6 Folgerung (Ungleichung von Markov). Sei f eine messbare Funktion. Dann gilt f¨ ur jede monoton wachsende Funktion h : R+ → R+ und f¨ ur alle c ∈ R+ mit h(c) > 0 Z 1 µ[{|f | ≥ c}] ≤ h ◦ |f | dµ h(c) Ω Beweis. Aus Lemma 8.2.5 ergibt sich µ[{|f | ≥ c}] ≤ µ[{h ◦ |f | ≥ h(c)}] ≤ Damit ist die Folgerung bewiesen.
1 h(c)
Z h ◦ |f | dµ Ω
2
Aus der Ungleichung von Markov folgt zun¨achst, dass jede messbare Funktion, f¨ ur die das Integral ihres Betrages endlich ist, fast u ¨ berall endlich ist:
120
Kapitel 8. Lebesgue–Integral
8.2.7 Lemma. Sei f eine messbare Funktion mit Z |f | dµ < ∞ Ω
Dann ist f µ–fast u ¨berall endlich. Beweis. Aus der Ungleichung von Markov folgt f¨ ur alle n ∈ N Z 1 µ[{|f | = ∞}] ≤ µ[{|f | ≥ n}] ≤ |f | dµ n Ω R und aus der Voraussetzung Ω |f | dµ < ∞ folgt nun µ[{|f | = ∞}] = 0.
2
Aus der Ungleichung von Markov folgt ferner, dass eine messbare Funktion genau dann fast u ¨berall verschwindet, wenn das Integral ihres Betrages verschwindet; dieses Ergebnis ist gleichzeitig eine Anwendung des Satzes u ¨ber die monotone Konvergenz: 8.2.8 Lemma. Sei f eine messbare Funktion. Dann sind folgende Aussagen aquivalent: ¨ (a) Es gilt fR (ω) = 0 µ–fast ¨ uberall. (b) Es gilt Ω |f | dµ = 0. Beweis. Wir nehmen zun¨achst an, dass (a) gilt. F¨ ur n ∈ N sei gn : Ω → R gegeben durch gn (ω) := n χ{f 6=0} (ω) Dann ist {gn }n∈N eine monoton wachsende Folge von positiven messbaren Funktionen mit |f | ≤ supn∈N gn und f¨ ur alle n ∈ N gilt Z gn dµ = n µ[{f 6= 0}] = 0 Ω
Aus dem Satz u ¨ber die monotone Konvergenz folgt nun Z Z Z |f | dµ ≤ sup gn dµ = sup gn dµ = 0 R
Ω
Ω n∈N
n∈N
Ω
und damit Ω |f | dµ = 0. Daher folgt (b) aus (a). Wir nehmen nun an, dass (b) gilt. Aus der Ungleichung von Markov folgt f¨ ur alle n ∈ N Z µ[{|f | ≥ 1/n}] ≤ n |f | dµ = 0 Ω
Daraus ergibt sich µ[{|f | > 0}] = sup µ[{|f | ≥ 1/n}] = 0 n∈N
und damit µ[{|f | = 6 0}] = 0. Daher folgt (a) aus (b).
2
8.2 Positive messbare Funktionen
121
Die letzten beiden Ergebnisse sind typische Beispiele daf¨ ur, wie sich eine fast u ¨berall bestehende Eigenschaft einer positiven messbaren Funktion aus einer Eigenschaft ihres Integrals ergibt. Außerdem zeigt das folgende Beispiel, dass die Ausnahmemenge nicht leer sein muss. Dies ist letztlich der Grund daf¨ ur, u ¨berhaupt fast u ¨berall bestehende Eigenschaften zu betrachten. 8.2.9 Beispiel (Dirichlet–Funktion). ¯ mit Dirichlet–Funktion f : Ω → R ½ ∞ f (ω) := 0
Sei (Ω, F , µ) := (R, B(R), λ). F¨ ur die falls ω ∈ Q sonst
gilt µ[{f damit f (ω) = 0 µ–fast u ¨ berall. Aus Lemma 8.2.8 R 6= 0}] = µ[Q] = 0 und R folgt Ω f dµ = 0 und damit Ω f dµ < ∞, aber es gilt weder f = 0 noch f < ∞.
Andererseits zeigen die folgenden Ergebnisse, dass bei der Integration positiver messbaren Funktionen Nullmengen vernachl¨assigt werden k¨ onnen: 8.2.10 Lemma. Seien f und g positive messbare Funktionen mit f (ω) ≤ g(ω) µ–fast u ¨berall. Dann gilt Z Z f dµ ≤ g dµ Ω
Ω
Beweis. Nach Voraussetzung gilt (f χ{f >g} )(ω) = 0 fast u ¨berall und aus R Lemma 8.2.8 folgt Ω f χ{f >g} dµ = 0. Außerdem gilt f χ{f ≤g} ≤ g. Unter Verwendung von Lemma 8.2.3 erhalten wir Z Z Z Z Z f dµ = f χ{f ≤g} dµ + f χ{f >g} dµ = f χ{f ≤g} dµ ≤ g dµ Ω
Ω
Ω
Ω
Damit ist das Lemma bewiesen.
Ω
2
Insbesondere sind die Integrale von positiven messbaren Funktionen, die sich nur auf einer Nullmenge unterscheiden, identisch: 8.2.11 Folgerung. Seien f und g positive messbare Funktionen mit f (ω) = g(ω) µ–fast ¨ uberall. Dann gilt Z Z f dµ = g dµ Ω
Ω
Dieses Ergebnis legt es nahe, die Definition des Integrals wie folgt zu erweitern: F¨ ur eine Funktion h, die µ–fast u ¨ berall definiert ist und µ–fast u ¨berall mit einer positiven messbaren Funktion f u ¨bereinstimmt, setzen wir Z Z h dµ := f dµ Ω
Ω
122
Kapitel 8. Lebesgue–Integral
R und nennen Ω h dµ das Lebesgue–Integral bez¨ uglich µ oder das µ–Integral oder kurz das Integral von h. Nach Folgerung 8.2.11 ist das µ–Integral von h unabh¨ angig von der Wahl der positiven messbaren Funktion f mit h =µ f . Alle Ergebnisse dieses Abschnitts gelten auch f¨ ur diese Verallgemeinerung des µ–Integrals. Insbesondere bleibt der Satz u ¨ber die monotone Konvergenz auch dann g¨ ultig, wenn man annimmt, dass die Folge {fn }n∈N nur µ–fast u ¨berall monoton wachsend ist. Wir beschließen diesen Abschnitt mit einer Ungleichung, die auf dem Satz u ur einen weiteren ¨ber die monotone Konvergenz beruht und die Grundlage f¨ Konvergenzsatz bildet, den wir im n¨achsten Abschnitt beweisen: 8.2.12 Lemma (Fatou). Sei {fn }n∈N eine Folge von positiven messbaren Funktionen. Dann gilt Z Z lim inf fn dµ ≤ lim inf fn dµ Ω n→∞
n→∞
Ω
Beweis. F¨ ur n ∈ N sei gn := inf fk k∈N(n)
Dann ist {gn }n∈N eine monoton wachsende Folge von positiven messbaren Funktionen mit gn ≤ fn f¨ ur alle n ∈ N und aus dem Satz u ¨ber die monotone Konvergenz ergibt sich Z Z lim inf fn dµ = sup inf fk dµ n∈N k∈N(n) Ω n→∞ ZΩ = sup gn dµ Ω n∈N Z = sup gn dµ n∈N Ω Z = lim gn dµ n→∞ Ω Z = lim inf gn dµ n→∞ ZΩ ≤ lim inf fn dµ n→∞
Damit ist das Lemma bewiesen.
Ω
2
Das folgende Beispiel zeigt, dass man im Lemma von Fatou die Ungleichung im allgemeinen nicht durch eine Gleichung ersetzen kann:
8.2 Positive messbare Funktionen
123
8.2.13 Beispiel. Sei (Ω, F , µ) := (R, B(R), λ). F¨ ur alle n ∈ N sei fn gegeben durch fn (ω) := n χ(0,1/n] (ω) Dann gilt lim R n→∞ fn = 0 und damit lim inf n→∞ Ω fn dµ = 1.
R Ω
lim inf n→∞ fn dµ = 0. Andererseits gilt
Aufgaben 8.2.A
Sei (Ω, F ) ein Messraum und {µn }n∈N eine Folge von Maßen F → [0, ∞]. Sei ferner µ : F → [0, ∞] gegeben durch µ[A] :=
∞ X
µn [A]
n=1
Dann ist µ ein Maß und f¨ ur jede positive messbare Funktion f gilt Z f dµ = Ω
∞ Z X
f dµn
Ω
n=1
8.2.B
Monotone Konvergenz: Was ergibt sich aus Folgerung 8.2.4 im Fall fn := χAn mit einer disjunkten Folge {An }n∈N ⊆ F?
8.2.C
Ungleichung von Markov: Zu jedem c ∈ (0, ∞) gibt es eine messbare Funktion f mit µ[{|f | ≥ c}] =
8.2.D
Z |f | dµ Ω
Lemma von Fatou: Sei {fn }n∈N eine Folge von positiven messbaren R Funktionen mit Ω supn∈N fn dµ < ∞. Dann gilt Z lim sup n→∞
8.2.E
1 c
Z fn dµ ≤
Ω
lim sup fn dµ Ω
n→∞
Sei {An }n∈N ⊆ F. Dann gilt · ¸ µ lim inf An ≤ lim inf µ[An ] n→∞
n→∞
S Im Fall µ[ n∈N An ] < ∞ gilt auch · ¸ lim sup µ[An ] ≤ µ lim sup An n→∞
8.2.F
n→∞
Konstruieren Sie einen endlichen Maßraum (Ω, F, µ) und eine positive ¯ derart, dass f µ–fast u messbare Funktion f : Ω → R ¨ berall endlich ist R und Ω f dµ = ∞ gilt.
124
Kapitel 8. Lebesgue–Integral
8.3 Integrierbare Funktionen In diesem Abschnitt erweitern wir die Definition des Lebesgue–Integrals auf bestimmte messbare Funktionen, die nicht positiv sein m¨ ussen. Eine messbare Funktion f heißt µ–quasiintegrierbar oder kurz quasiintegrierbar , wenn ½Z ¾ Z min f + dµ, f − dµ < ∞ Ω
Ω
gilt; in diesem Fall setzen wir Z Z Z + f dµ := f dµ − f − dµ Ω
Ω
Ω
R
und nennen Ω f dµ das Lebesgue–Integral bez¨ uglich µ oder das µ–Integral oder kurz das Integral von f . Die Definition des µ–Integrals f¨ ur µ–quasiintegrierbare Funktionen ist mit der Definition des µ–Integrals f¨ ur positive messbare Funktionen vertr¨aglich, denn f¨ ur jede positive messbare Funktion f gilt f + = f und f − = 0. Ist f µ–quasiintegrierbar, so ist nach Lemma 8.2.7 f + oder f − µ–fast u ¨berall endlich. Eine messbare Funktion f heißt Lebesgue–integrierbar bez¨ uglich µ oder µ–integrierbar oder kurz integrierbar , wenn ½Z ¾ Z + − max f dµ, f dµ < ∞ Ω
Ω
gilt. Das folgende Lemma charakterisiert die µ–Integrierbarkeit einer messbaren Funktion: 8.3.1 Lemma. Sei f eine messbare Funktion. Dann sind folgende Aussagen aquivalent: ¨ (a) f ist µ–integrierbar. (b) Es gilt Z |f | dµ < ∞ Ω
(c) Es gibt positive messbare Funktionen g und h mit f = g − h und ½Z
¾
Z
max
g dµ, Ω
h dµ Ω
In diesem Fall ist f µ–fast ¨ uberall endlich.
<∞
8.3 Integrierbare Funktionen
125
Beweis. Es gilt |f | = f + + f − und aus Lemma 8.2.3 folgt Z Z Z |f | dµ = f + dµ + f − dµ Ω
Ω
Ω
Daher sind (a) und (b) ¨aquivalent, und es ist klar, dass (c) aus (a) folgt. Wir nehmen nun an, dass (c) gilt, und betrachten positive messbare Funktionen g und h mit f = g − h und ½Z ¾ Z max g dµ, h dµ < ∞ Ω
Ω
Wegen f = g − h ≤ g gilt f + ≤ g und wegen −f = h − g ≤ h gilt f − ≤ h. Aus Lemma 8.2.3 folgt nun Z Z f + dµ ≤ g dµ ZΩ ZΩ f − dµ ≤ h dµ Ω
und damit
Ω
½Z
¾
Z f + dµ,
max Ω
f − dµ
<∞
Ω
Damit ist gezeigt, dass (a) aus (c) folgt. Die letzte Aussage folgt aus Lemma 8.2.7. 2 Aus dem letzten Lemma folgt, dass eine positive messbare Funktion nicht notwendigerweise integrierbar ist; dies gilt sogar f¨ ur positive einfache Funktionen: 8.3.2 Beispiel. Sei f gegeben durch f (ω) := 1 Dann ist f messbar und positiv, und folgende Aussagen sind ¨ aquivalent: (a) µ ist endlich. (b) f ist µ–integrierbar.
Offenbar ist eine positive messbare Funktion genau dann integrierbar, wenn ihr Integral endlich ist. Daher l¨asst sich das letzte Lemma auch wie folgt formulieren: 8.3.3 Folgerung. Sei f eine messbare Funktion. Dann sind folgende Aussagen ¨ aquivalent: (a) f ist µ–integrierbar. (b) |f | ist µ–integrierbar. (c) f + und f − sind µ–integrierbar. (d) Es gibt positive µ–integrierbare Funktionen g und h mit f = g − h.
126
Kapitel 8. Lebesgue–Integral
Das folgende Lemma liefert eine allgemeine Darstellung des Integrals einer integrierbaren Funktion, die sich bei der Herleitung der Eigenschaften des Integrals als n¨ utzlich erweist und auch seine Berechnung erleichtern kann: 8.3.4 Lemma. Sei f eine µ–integrierbare Funktion. Dann gilt f¨ ur jede Wahl von positiven µ–integrierbaren Funktionen g und h mit f = g − h Z Z Z f dµ = g dµ − h dµ Ω
Ω
Ω
Beweis. Seien g und h positive integrierbare Funktionen mit f = g − h. Dann gilt f + − f − = f = g − h und damit f + + h = g + f − , und aus Lemma 8.2.3 folgt nun Z Z Z Z + f dµ + h dµ = g dµ + f − dµ Ω
Ω
Ω
Ω
Da alle Integrale endlich sind, folgt daraus Z Z Z Z f + dµ − f − dµ = g dµ − h dµ Ω
Ω
Ω
Damit ist das Lemma bewiesen.
Ω
2
Das n¨ achste Lemma liefert eine hinreichende Bedingung f¨ ur die Integrierbarkeit einer messbaren Funktion: 8.3.5 Lemma. Seien f und g messbare Funktionen mit |f (ω)| ≤ |g(ω)| µ–fast u ¨berall. Ist g µ–integrierbar , so ist auch f µ–integrierbar. R R Beweis. Nach Lemma 8.2.10 gilt Ω |f | dµ ≤ Ω |g| dµ. 2 Wie im Fall positiver messbarer Funktionen sind auch die Integrale integrierbarer Funktionen, die sich nur auf einer Nullmenge unterscheiden, identisch: 8.3.6 Lemma. Seien f und g messbare Funktionen mit f (ω) = g(ω) µ–fast u aquivalent : ¨berall. Dann sind folgende Aussagen ¨ (a) f ist µ–integrierbar. (b) g ist µ–integrierbar. In diesem Fall gilt Z Z f dµ = g dµ Ω
Ω
Beweis. Es gilt f + (ω) = g + (ω) fast u f − (ω) g − (ω) fast ¨berall ¨berall, R und R = R u + + − und aus Folgerung 8.2.11 ergibt sich nun f dµ = g dµ und f dµ = Ω Ω Ω R − g dµ. 2 Ω Wir beweisen nun ein Analogon zu Lemma 8.2.3:
8.3 Integrierbare Funktionen
127
8.3.7 Lemma. Seien f und g µ–integrierbare reelle Funktionen und sei a ∈ R. (1) Die Funktion f + g ist µ–integrierbar und es gilt Z Z Z (f +g) dµ = f dµ + g dµ Ω
Ω
Ω
(2) Die Funktion af ist µ–integrierbar und es gilt Z Z af dµ = a f dµ Ω
(3) Im Fall f ≤ g gilt
Ω
Z
Z f dµ ≤
Ω
g dµ Ω
(4) Die Funktionen f ∨ g und f ∧ g sind µ–integrierbar. Beweis. Wegen |f + g| ≤ |f | + |g| ist f + g nach Lemma 8.3.5 integrierbar und wegen f = f + − f − und g = g + − g − gilt f + g = (f + + g + ) − (f − + g − ). Aus Lemma 8.3.4 folgt nun Z Z Z + + (f +g) dµ = (f +g ) dµ − (f − +g − ) dµ Ω Ω Ω µZ ¶ µZ ¶ Z Z + + − − = f dµ + g dµ − f dµ + g dµ Ω Ω µZΩ ¶ µZΩ ¶ Z Z + − + − = f dµ − f dµ + g dµ − g dµ Ω Ω Z Ω Z Ω = f dµ + g dµ Ω
Ω
Damit ist (1) gezeigt. Nach Lemma 8.2.3 gilt Z Z |af | dµ = |a||f | dµ Ω Ω Z = |a| |f | dµ Ω +
Daher ist af integrierbar. Wegen f = f − f − gilt −f = f − − f + und damit Z Z Z (−f ) dµ = f − dµ − f + dµ Ω Ω Ω µZ ¶ Z + =− f dµ − f − dµ Ω Z Ω =− f dµ Ω
Im Fall a ∈ R+ gilt af = (af )+ − (af )− = af + − af − und aus Lemma 8.2.3 folgt nun
128
Kapitel 8. Lebesgue–Integral
Z
Z
Z +
af − dµ Ω Ω Z Z + =a f dµ − a f − dµ Ω Ω µZ ¶ Z =a f + dµ − f − dµ Ω Z Ω =a f dµ
af dµ = Ω
af dµ −
Ω
Im Fall a ∈ (−∞, 0) gilt a = −|a| und aus dem bisher gezeigten folgt Z Z af dµ = (−|a|)f dµ Ω Ω Z =− |a|f dµ Ω Z = −|a| f dµ Z Ω =a f dµ Ω
Damit ist (2) gezeigt. Im Fall f ≤ g gilt f + ≤ g + und g − ≤ f − , und damit Z Z + f dµ ≤ g + dµ Ω Ω Z Z g − dµ ≤ f − dµ Ω
Daraus folgt
Ω
Z
Z
Ω
Z f + dµ −
f dµ = ZΩ
f − dµ ZΩ
+
≤
g − dµ
g dµ − Ω
Ω
Z =
g dµ Ω
Damit ist (3) gezeigt. Wegen |f ∨ g| ≤ |f | + |g| und |f ∧ g| ≤ |f | + |g| sind |f ∨ g| und |f ∧ g| nach Lemma 8.3.5 integrierbar. Damit ist (4) gezeigt. 2 Aus Lemma 8.3.7 ergibt sich ein Spezialfall der Ungleichung von Jensen: 8.3.8 Folgerung (Ungleichung von Jensen). Sei f µ–integrierbar. Dann gilt ¯Z ¯ Z ¯ ¯ ¯ f dµ¯ ≤ |f | dµ ¯ ¯ Ω
Ω
R R R Beweis. Nach R R Lemma 8.3.7 gilt Ω f dµ ≤ Ω |f | dµ und − Ω f dµ = (−f ) dµ ≤ Ω |f | dµ. Daraus folgt die Behauptung. 2 Ω
8.3 Integrierbare Funktionen
129
Wir beweisen nun einen Konvergenzsatz f¨ ur integrierbare Funktionen: 8.3.9 Satz (Majorisierte Konvergenz; Lebesgue). Sei {fn }n∈N eine Folge von messbaren reellen Funktionen, die gegen eine reelle Funktion f konvergiert. Wenn supn∈N |fn | µ–integrierbar ist, dann ist auch f µ–integrierbar und es gilt Z lim |fn −f | dµ = 0 n→∞
Ω
Insbesondere ist jede der Funktionen fn µ–integrierbar und es gilt Z Z lim fn dµ = lim fn dµ Ω n→∞
n→∞
Ω
Beweis. Als Limes einer konvergenten Folge von messbaren Funktionen ist f messbar. Sei nun g := sup |fn | n∈N
Nach Voraussetzung ist g integrierbar. Damit ist auch jede der Funktionen fn integrierbar, und wegen |f | ≤ g ist auch f integrierbar. Aus der Dreiecksungleichung ergibt sich nun |fn −f | ≤ |fn | + |f | ≤ 2g und damit 2g − |fn −f | ≥ 0 Nach Voraussetzung gilt
³ ´ lim 2g − |fn −f | = 2g
n→∞
und aus dem Lemma von Fatou folgt nun Z Z ³ ´ 2g dµ = lim 2g − |fn −f | dµ n→∞ Ω ZΩ ³ ´ = lim inf 2g − |fn −f | dµ Ω n→∞ Z ³ ´ ≤ lim inf 2g − |fn −f | dµ n→∞ Ω Z Z ³ ´ = 2g dµ + lim inf −|fn −f | dµ n→∞ ZΩ ZΩ = 2g dµ − lim sup |fn −f | dµ n→∞
Ω
Ω
Da g integrierbar ist, erhalten wir daraus Z lim sup |fn −f | dµ ≤ 0 R
n→∞
Ω
und damit limn→∞ Ω |fn−f | dµ = 0. Die abschließende Behauptung folgt nun aus der Ungleichung von Jensen. 2
130
Kapitel 8. Lebesgue–Integral
Die Voraussetzungen des Satzes u ¨ber die majorisierte Konvergenz sind insbesondere dann erf¨ ullt, wenn eine monoton wachsende Folge von positiven messbaren reellen Funktionen vorliegt, deren Supremum integrierbar ist. Das folgende Beispiel zeigt, dass man im Satz u ¨ber die majorisierte Konvergenz auf die Forderung der Integrierbarkeit von supn∈N |fn | nicht verzichten kann: 8.3.10 Beispiel. Sei (Ω, F , µ) := (R, B(R), λ). F¨ ur n ∈ N sei fn gegeben durch fn (ω) := n χ(0,1/n] (ω) Dann gilt limn→∞ fn = 0. Andererseits gilt Z
Ω
fn dµ = 1 f¨ ur alle n ∈ N, und damit
Z
lim
n→∞
R
fn dµ 6=
lim fn dµ
Ω n→∞
Ω
Daraus folgt, dass supn∈N fn nicht µ–integrierbar ist.
Wie der Satz u ¨ ber die monotone Konvergenz liefert auch der Satz u ¨ ber die majorisierte Konvergenz einen Konvergenzsatz f¨ ur unendliche Reihen: 8.3.11 Folgerung (Majorisierte Konvergenz; Lebesgue). Sei P {fn }n∈N ∞ eine Folge von messbaren reellen Funktionen derart, dass die Reihe n=1 fn Pn gegen eine reelle Funktion konvergiert. Wenn sup | f | µ–integrierbar n∈N k=1 k P∞ ist, dann ist auch die Reihe n=1 fn sowie jede der Funktionen fn µ–integrierbar und es gilt Z ÃX ∞ Ω
! fn dµ =
n=1
∞ Z X n=1
fn dµ
Ω
Beweis. Aus dem Satz u achst die ¨ber P∞die majorisierte Konvergenz folgt zun¨ Integrierbarkeit der Reihe n=1 fn und Z ÃX ∞ Ω
!
Z Ã
fk dµ =
lim
Ω
k=1
n→∞
n X
!
Z ÃX n
fk dµ = lim
n→∞
k=1
Ω
! fk dµ
k=1
Pn Pn−1 Wegen fn = k=1 fk − k=1 fk sind auch alle fn integrierbar, und aus der Linearit¨ at des Integrals folgt nun Z ÃX ∞ Ω
k=1
! fk dµ = lim
n→∞
Z ÃX n Ω
! fk dµ = lim
k=1
Damit ist die Folgerung bewiesen.
n→∞
n Z X k=1
Ω
fk dµ =
∞ Z X k=1
fk dµ
Ω
2
8.3 Integrierbare Funktionen
131
Wir untersuchen die im Satz u ¨ber die majorisierte Konvergenz auftretende Art der Konvergenz etwas n¨aher. Eine Folge {fn }n∈N von µ–integrierbaren reellen Funktionen konvergiert im Mittel (bez¨ uglich µ) gegen eine messbare reelle Funktion f , wenn Z lim |fn −f | dµ = 0 n→∞
Ω
gilt; wegen Z
Z
Z
|f | dµ ≤ Ω
|f −fn | dµ + Ω
|fn | dµ Ω
ist dann auch f µ–integrierbar. Der Satz u ¨ ber die majorisierte Konvergenz liefert also eine hinreichende Bedingung daf¨ ur, dass eine Folge von integrierbaren reellen Funktionen, die gegen eine reelle Funktion f konvergiert, auch im Mittel gegen f konvergiert. Wir vergleichen nun die Konvergenz im Mittel mit der Konvergenz im Maß: 8.3.12 Satz. Jede Folge von µ–integrierbaren reellen Funktionen, die im Mittel gegen eine µ–integrierbare reelle Funktion f konvergiert, konvergiert auch im Maß µ gegen f . Beweis. Sei {fn }n∈N eine Folge von integrierbaren reellen Funktionen, die im Mittel gegen eine reelle Funktion f konvergiert. F¨ ur alle ε ∈ (0, ∞) folgt aus der Ungleichung von Markov Z 1 µ[{|fn −f | ≥ ε}] ≤ |fn −f | dµ ε Ω und daraus folgt die Behauptung.
2
Lemma 8.3.6 legt es nahe, den Begriff der µ–Integrierbarkeit und damit auch die Definition des µ–Integrals wie folgt zu erweitern: Eine Funktion h, die µ– fast u ¨berall definiert ist und µ–fast u ¨berall mit einer µ–integrierbaren Funktion f u bereinstimmt, heißt Lebesgue–integrierbar oder µ–integrierbar oder ¨ kurz integrierbar , und in diesem Fall setzen wir Z Z h dµ := f dµ Ω
R
Ω
und nennen Ω h dµ das Lebesgue–Integral oder das µ–Integral oder kurz das Integral von h. Nach Lemma 8.3.6 ist das µ–Integral von h unabh¨ angig von der Wahl der µ–integrierbaren Funktion f mit h =µ f , und nach Lemma 8.3.1 kann f reell gew¨ahlt werden. Mit dieser Erweiterung wird die ¨ µ–Integrierbarkeit zu einer Eigenschaft bestimmter Aquivalenzklassen von 0 ¨ L (F, µ) unter der Aquivalenzrelation =µ .
132
Kapitel 8. Lebesgue–Integral
Alle Ergebnisse dieses Abschnitts gelten auch f¨ ur diese Verallgemeinerung der µ–Integrierbarkeit und des µ–Integrals. Insbesondere kann die an einigen Stellen getroffene Annahme, dass bestimmte µ–integrierbare Funktionen reell sind, entfallen, und der Satz u ¨ber die majorisierte Konvergenz bleibt auch dann g¨ ultig, wenn nur die Konvergenz µ–fast u ¨berall vorausgesetzt wird. Wir k¨ onnen daher bei der Betrachtung einer abz¨ahlbaren Familie von µ–integrierbaren Funktionen stets annehmen, dass alle Funktionen reell sind. Im Hinblick auf die verschiedenen Arten der Konvergenz l¨ asst sich zusammenfassend sagen, dass – aus der Konvergenz fast u ¨berall unter Zusatzbedingungen die Konvergenz im Mittel und – aus der Konvergenz im Mittel ohne Zusatzbedingungen die Konvergenz im Maß folgt; andererseits zeigen die folgenden Beispiele, dass weder aus der Konvergenz im Maß die Konvergenz im Mittel noch aus der Konvergenz im Mittel die Konvergenz fast u ¨berall folgt: 8.3.13 Beispiele. Sei (Ω, F , µ) := (R, B(R), λ). (1) F¨ ur n ∈ N sei fn gegeben durch fn (ω) := n2 χ(0,1/n] (ω) Dann gilt f¨ ur alle ε ∈ (0, ∞) µ[{fn > ε}] ≤ 1/n Daher konvergiert die Folge {fn }n∈N im Maß gegen 0. Andererseits gilt Z fn dµ = n Ω
Daher konvergiert die Folge {fn }n∈N nicht im Mittel. (2) F¨ ur m ∈ N0 und k ∈ {1, . . . , 2m } sei f2m +k−1 gegeben durch f2m +k−1 (ω) := χ((k−1)2−m ,k2−m ] (ω) Dann gilt
Z
h i f2m +k−1 dµ = µ ((k−1)2−m , k2−m ] = 2−m Ω
Daher konvergiert die Folge {fn }n∈N im Mittel gegen 0, aber sie ist nicht fast u ¨berall konvergent.
F¨ ur eine µ–quasiintegrierbare Funktion f setzen wir Z Z f (ω) dµ(ω) := f dµ Ω
Ω
Die Angabe der Integrationsvariablen ist in vielen F¨ allen hilfreich. Dies gilt insbesondere f¨ ur die folgenden Anwendungen des Satzes u ¨ber die majorisierte Konvergenz:
8.3 Integrierbare Funktionen
133
8.3.14 Lemma (Stetigkeitslemma). Sei (a, b) ⊆ R ein nichtleeres Intervall , sei x0 ∈ (a, b) und sei f : (a, b)×Ω → R eine Funktion mit den folgenden Eigenschaften: – F¨ ur alle x ∈ (a, b) ist die Funktion ω 7→ f (x, ω) messbar. – F¨ ur alle ω ∈ Ω ist die Funktion x 7→ f (x, ω) stetig in x0 . – Es gibt eine µ–integrierbare Funktion h : Ω → R mit sup |f (x, ω)| ≤ h(ω) x∈(a,b)
f¨ ur alle ω ∈ Ω. Dann ist die Funktion F : (a, b) → R mit Z F (x) := f (x, ω) dµ(ω) Ω
stetig in x0 . Beweis. Sei {xn }n∈N ⊆ (a, b) eine Folge mit limn→∞ xn = x0 . Dann ist f¨ ur alle n ∈ N0 die Funktion ω → f (xn , ω) messbar und f¨ ur alle ω ∈ Ω gilt limn→∞ f (xn , ω) = f (x0 , ω) und supn∈N |f (xn , ω)| ≤ h(ω). Aus dem Satz u ¨ber die majorisierte Konvergenz folgt nun Z Z lim F (xn ) = lim f (xn , ω) dµ(ω) = f (x0 , ω) dµ(ω) = F (x0 ) n→∞
n→∞
Ω
Ω
Damit ist das Lemma bewiesen.
2
Ein vergleichbares Ergebnis erh¨alt man f¨ ur die Vertauschung von Differentiation und Integration: 8.3.15 Lemma (Differentiationslemma). Sei (a, b) ⊆ R ein nichtleeres Intervall und sei f : (a, b) × Ω → R eine Funktion mit den folgenden Eigenschaften: – F¨ ur alle x ∈ (a, b) ist die Funktion ω 7→ f (x, ω) µ–integrierbar. – F¨ ur alle ω ∈ Ω ist die Funktion x 7→ f (x, ω) differenzierbar. – Es gibt eine µ–integrierbare Funktion h : Ω → R mit ¯ ¯ ¯ df ¯ sup ¯¯ (x, ω)¯¯ ≤ h(ω) x∈(a,b) dx f¨ ur alle ω ∈ Ω. Dann ist die Funktion F : (a, b) → R mit Z F (x) := f (x, ω) dµ(ω) Ω
differenzierbar und es gilt dF (x) = dx
Z Ω
df (x, ω) dµ(ω) dx
134
Kapitel 8. Lebesgue–Integral
Beweis. Sei x0 ∈ (a, b) und sei {xn }n∈N ⊆ (a, b) eine Folge mit xn 6= x0 f¨ ur alle n ∈ N. Dann ist f¨ ur alle n ∈ N die Funktion gn : Ω → R mit gn (ω) :=
f (xn , ω) − f (x0 , ω) xn − x0
messbar und f¨ ur alle ω ∈ Ω gilt lim gn (ω) =
n→∞
df (x0 , ω) dx
Nach dem Mittelwertsatz gibt es f¨ ur alle n ∈ N und ω ∈ Ω ein zn (ω) ∈ (a, b) mit gn (ω) =
df (zn (ω), ω) dx
Daher gilt sup |gn (ω)| ≤ h(ω)
n∈N
Aus dem Satz u ¨ber die majorisierte Konvergenz folgt nun Z Z df (x0 , ω) dµ(ω) = lim gn (ω) dµ(ω) Ω dx Ω n→∞ Z = lim gn (ω) dµ(ω) n→∞ Ω Z f (xn , ω) − f (x0 , ω) = lim dµ(ω) n→∞ Ω xn − x0 F (xn ) − F (x0 ) = lim n→∞ xn − x0 dF = (x0 ) dx Damit ist das Lemma bewiesen.
2
Aufgaben 8.3.A
Quasiintegrierbare Funktionen: (1) Sei f eine messbare Funktion. Dann sind folgende Aussagen ¨ aquivalent: (a) f ist µ–quasiintegrierbar. (b) f + oder f − ist µ–integrierbar. (c) Es gibt positive messbare Funktionen g und h mit f = g − h derart, dass g oder h µ–integrierbar ist. (2) Sei f eine µ–quasiintegrierbare Funktion. Dann gilt f¨ ur jede Wahl von positiven messbaren Funktionen g und h mit f = g − h und R R min{ Ω g dµ, Ω h dµ} < ∞ Z Z Z f dµ = g dµ − h dµ Ω
Ω
Ω
8.4 Lp –R¨ aume
135
(3) Seien f und g µ–quasiintegrierbare Funktionen, von denen mindestens eine µ–integrierbar ist. Dann ist f +g µ–quasiintegrierbar und es gilt Z Z Z (f +g) dµ = f dµ + g dµ Ω
8.3.B
Ω
Ω
Satz von Pratt: Sei {fn }n∈N eine Folge von messbaren Funktionen, die µ–fast u ¨berall gegen eine Funktion f konvergiert, und seien {gn }n∈N und {hn }n∈N Folgen von µ–integrierbaren Funktionen mit gn ≤ fn ≤ hn f¨ ur alle n ∈ N, die µ–fast u Funktion g bzw. ¨berall Rgegen eine µ–integrierbare R R h R konvergieren. Gilt limn→∞ Ω gn dµ = Ω g dµ und limn→∞ Ω hn dµ = h dµ, so ist f µ–integrierbar und es gilt Ω Z Z lim fn dµ = f dµ n→∞
Ω
Ω
Gilt außerdem gn ≤ 0 ≤ hn f¨ ur alle n ∈ N, so gilt auch Z lim |fn −f | dµ = 0 n→∞
8.3.C
Ω
Integrierbare komplexe Funktionen: Eine Funktion f : Ω → C heißt Lebesgue–integrierbar oder µ–integrierbar oder kurz integrierbar , wenn die reellen Funktionen Ref und Imf µ–integrierbar sind; in diesem Fall setzen wir Z Z Z f dµ := Ref dµ + i Imf dµ Ω
Ω
Ω
R und nennen Ω f dµ das Lebesgue–Integral oder das µ–Integral oder kurz das Integral von f . Die Definition des µ–Integrals f¨ ur µ–integrierbare komplexe Funktionen ist mit der Definition des µ–Integrals f¨ ur µ–integrierbare reelle Funktionen vertr¨ aglich. (1) Jede µ–integrierbare komplexe Funktion ist messbar. (2) Sei f eine messbare komplexe Funktion. Dann sind folgende Aussagen aquivalent: ¨ (a) f ist µ–integrierbar. (b) |f | ist µ–integrierbar. (3) Die µ–integrierbaren komplexen Funktionen bilden einen Vektorraum. (4) Sei f eine µ–integrierbare komplexe Funktion. Dann gilt ¯Z ¯ Z ¯ ¯ ¯ f dµ¯ ≤ |f | dµ ¯ ¯ Ω
Ω
Hinweis: Beweisen Sie die Ungleichung zun¨ achst f¨ ur den Fall, dass der Realteil und der Imagin¨ arteil von f einfach ist, und sodann f¨ ur den allgemeinen Fall unter Verwendung des Approximationssatzes.
8.4 Lp –R¨ aume Im gesamten Abschnitt sei p ∈ [1, ∞). Eine messbare Funktion f heißt p–fach µ–integrierbar oder kurz p–fach integrierbar , wenn |f |p µ–integrierbar ist.
136
Kapitel 8. Lebesgue–Integral
Wir betrachten die Familie ½ Lpµ (F )
:=
¯Z ¾ ¯ p ¯ f ∈ L (F ) ¯ |f | dµ < ∞ 0
Ω
aller p–fach µ–integrierbaren reellen Funktionen und untersuchen zun¨ achst die Eigenschaften von Lpµ (F) als Teilmenge des Vektorverbandes L0 (F ). Wir ben¨ otigen das folgende Lemma: 8.4.1 Lemma. F¨ ur alle a, b ∈ R gilt |a + b| ≤ |a| + |b| und |a ∨ b| ≤ |a| + |b| sowie ³ ´p ³ ´ |a| + |b| ≤ 2p−1 |a|p + |b|p Beweis. Die ersten Ungleichungen sind klar. Da die Funktion ϕ : R+ → R+ mit ϕ(x) := xp konvex ist, gilt f¨ ur alle a, b ∈ R+ µ ¶p a+b ap + bp ≤ 2 2 und daraus folgt f¨ ur alle a, b ∈ R ³ ´p ³ ´ |a| + |b| ≤ 2p−1 |a|p + |b|p Damit ist auch die letzte Ungleichung gezeigt.
2
Aus Lemma 8.4.1 folgt zun¨achst, dass Lpµ (F) ein Vektorverband ist, und es ist dann klar, dass Lpµ (F) sogar ein Ideal in L0 (F ) ist. Sei nun
¯ n o ¯ Lp (F , µ) := [h]µ ∈ L0 (F , µ) ¯ es gibt ein f ∈ [h]µ ∩ Lpµ (F)
Da Lpµ (F ) ein Vektorverband und ein Ideal in L0 (F) ist, ist auch Lp (F , µ) ein Vektorverband und ein Ideal in L0 (F, µ). Nach Lemma 8.3.6 gilt f¨ ur alle f, g ∈ Lpµ (F) mit f =µ g Z Z |f |p dµ = |g|p dµ Ω
Ω
Daher ist die Abbildung k . kp : Lp (F , µ) → R+ mit µZ
¶1/p p
k[f ]µ kp :=
|f | dµ Ω
wohldefiniert; im folgenden schreiben wir kf kp anstelle von k[f ]µ kp .
8.4 Lp –R¨ aume
137
Unser erstes Ziel ist es zu zeigen, dass die Abbildung k . kp eine Norm ist. Offenbar gilt kf kp = 0 genau dann, wenn f = 0 gilt, und f¨ ur alle f ∈ Lp (F , µ) und c ∈ R gilt kcf kp = |c| kf kp ; zu zeigen bleibt also noch, dass f¨ ur alle f, g ∈ Lp (F, µ) die Dreiecksungleichung kf +gkp ≤ kf kp + kgkp gilt. Dies ist die Ungleichung von Minkowski, die wir in Lemma 8.4.3 beweisen. F¨ ur p = 1 ist die Ungleichung von Minkowski trivial, und f¨ ur p = 2 geben wir einen einfachen Beweis am Ende dieses Abschnitts. F¨ ur beliebige p ∈ (1, ∞) ergibt sich die Ungleichung von Minkowski aus der folgenden Ungleichung von H¨ older: 8.4.2 Lemma (Ungleichung von H¨ older). Sei p ∈ (1, ∞) und q ∈ (1, ∞) derart, dass 1/p + 1/q = 1. F¨ ur alle f ∈ Lp (F , µ) und g ∈ Lq (F, µ) gilt dann f g ∈ L1 (F, µ) und kf gk1 ≤ kf kp kgkq Beweis. Wir betrachten zun¨achst f¨ ur α ∈ (0, 1) die Funktion ϕα : (0, ∞) → R mit ϕα (x) := α x + (1−α) − xα F¨ ur alle x ∈ (0, ∞) gilt ϕα (x) ≥ ϕα (1) = 0. F¨ ur alle a, b ∈ (0, ∞) folgt daraus 0 ≤ ϕα (a/b) = α (a/b) + (1−α) − (a/b)α und damit aα b1−α ≤ α a + (1−α) b F¨ ur α := 1/p gilt 1 − α = 1/q. Daher gilt f¨ ur alle a, b ∈ (0, ∞) a1/p b1/q ≤
1 1 a+ b p q
und diese Ungleichung gilt sogar f¨ ur alle a, b ∈ R+ . Im Fall kf kp = 1 = kgkp folgt aus der letzten Ungleichung |f g| = (|f |p )1/p (|g|q )1/q ≤
1 p 1 q |f | + |g| p q
und damit Z Z Z 1 1 1 1 1 1 p |f g| dµ ≤ |f | dµ + |g|q dµ = kf kpp + kgkqq = + = 1 p q p q p q Ω Ω Ω Im Fall kf kp > 0 und kgkp > 0 gilt kf /kf kp kp = 1 = kg/kgkq kq , also ¯ Z ¯ ¯ f g ¯¯ ¯ ¯ kf kp kgkq ¯ dµ ≤ 1 Ω
138
Kapitel 8. Lebesgue–Integral
und damit kf gk1 ≤ kf kp kgkq Im Fall kf kp = 0 oder kgkp = 0 gilt f =µ 0 oder g =µ 0, also auch f g =µ 0, und damit kf gk1 = 0; daher gilt die Ungleichung auch in diesem Fall. 2 Wir k¨ onnen nun die Ungleichung von Minkowski beweisen: 8.4.3 Lemma (Ungleichung von Minkowski). F¨ ur alle f, g ∈ Lp (F , µ) gilt kf +gkp ≤ kf kp + kgkp Insbesondere ist die Abbildung k . kp eine Norm auf Lp (F, µ). Beweis. Im Fall p = 1 ist die Ungleichung klar. Sei nun p ∈ (1, ∞) und sei q ∈ (1, ∞) derart, dass 1/p + 1/q = 1. Im Fall kf +gkp = 0 ist nichts zu beweisen. Sei nun kf + gkp > 0. Wegen 1/p + 1/q = 1 gilt q + p = p q und damit p = (p−1) q. Daraus folgt zun¨achst Z Z k |f +g|p−1 kqq = (|f +g|p−1 )q dµ = |f +g|p = kf +gkpp Ω
Ω
und aus der Ungleichung von H¨older erhalten wir nun kf +gkpp = k |f +g|p k1 ≤ k (|f | + |g|) |f +g|p−1 k1 ≤ k |f | |f +g|p−1 k1 + k |g| |f +g|p−1 k1 ≤ kf kp k |f +g|p−1 kq + kgkp k |f +g|p−1 kq ³ ´ = kf kp + kgkp k |f +g|p−1 kq ³ ´ = kf kp + kgkp kf +gkp/q p ³ ´ = kf kp + kgkp kf +gkp−1 p und damit kf + gkp ≤ kf kp + kgkp Damit ist das Lemma bewiesen.
2
Nach Lemma 8.4.3 ist (Lp (F, µ), k . kp ) ein normierter Raum. Unser n¨ achstes Ziel ist es zu zeigen, dass der normierte Raum (Lp (F , µ), k . kp ) vollst¨ andig ist. Dazu ben¨ otigen wir eine Variante des Satzes u ¨ber die majorisierte Konvergenz und die folgende Eigenschaft der Norm k . kp :
8.4 Lp –R¨ aume
139
8.4.4 Folgerung. F¨ ur jede Folge {fn }n∈N ⊆ Lp (F, µ) gilt ÃZ Ã Ω
∞ X
!p |fn |
!1/p dµ
≤
n=1
∞ X
kfn kp
n=1
Beweis. Nach dem Satz u ¨ber die monotone Konvergenz gilt !p !p Z ÃX Z Ã ∞ n X |fk | dµ = sup |fk | dµ Ω
n∈N
Ω
k=1
Ã
Z =
sup Ω n∈N
k=1 n X
n∈N
|fk |
k=1
Z ÃX n
= sup
!p
Ω
dµ !p
|fk |
dµ
k=1
und aus der Ungleichung von Minkowski folgt nun ÃZ Ã Ω
∞ X
!p |fk |
!1/p dµ
ÃZ Ã = sup n∈N
k=1
Ω
n X
!p |fk |
k=1
≤ sup n∈N
=
∞ X
dµ
k=1
° ° n °X ° ° ° = sup ° |fk |° ° ° n∈N n X
!1/p
p
kfk kp
k=1
kfk kp
k=1
Damit ist die Behauptung bewiesen.
2
Wir beweisen nun eine Variante des Satzes u ¨ber die majorisierte Konvergenz: 8.4.5 Satz (Majorisierte Konvergenz; Lebesgue). Sei {fn }n∈N eine Folge von messbaren Funktionen, die µ–fast u ¨berall gegen eine Funktion f konvergiert. Gilt supn∈N |fn | ∈ Lp (F , µ), so gilt auch f ∈ Lp (F , µ) und lim kfn −f kp = 0
n→∞
Insbesondere gilt fn ∈ Lp (F, µ) f¨ ur alle n ∈ N und lim kfn kp = kf kp
n→∞
140
Kapitel 8. Lebesgue–Integral
Beweis. Nach Voraussetzung ist die Funktion g := sup |fn | n∈N
p–fach integrierbar. Damit ist auch jede der Funktionen fn p–fach integrierbar, und wegen |f | ≤ g ist auch f p–fach integrierbar. Aus Lemma 8.4.1 erhalten wir |fn −f |p ≤ (|fn |+|f |)p ≤ 2p−1 (|fn |p +|f |p ) ≤ 2p−1 (g p +g p ) = (2g)p und damit (2g)p − |fn −f |p ≥ 0 Nach Voraussetzung gilt ³ ´ lim (2g)p − |fn −f |p = (2g)p
n→∞
und aus dem Lemma von Fatou folgt nun Z Z ³ ´ (2g)p dµ = lim (2g)p − |fn −f |p dµ n→∞ Ω ZΩ ³ ´ = lim inf (2g)p − |fn −f |p dµ Ω n→∞ Z ³ ´ ≤ lim inf (2g)p − |fn −f |p dµ n→∞ Ω Z Z ³ ´ p = (2g) dµ + lim inf −|fn −f |p dµ n→∞ ZΩ ZΩ p = (2g) dµ − lim sup |fn −f |p dµ n→∞
Ω
Ω
Da g p–fach integrierbar ist, erhalten wir daraus Z lim sup |fn −f |p dµ ≤ 0 n→∞
Ω
R
und damit limn→∞ Ω |fn − f |p dµ = 0. Die abschließende Behauptung folgt nun aus der Dreiecksungleichung. 2 Wir k¨ onnen nun zeigen, dass der normierte Raum (Lp (F, µ), k . kp ) vollst¨ andig ist. 8.4.6 Lemma (Riesz/Fischer). (Lp (F, µ), k . kp ) ist vollst¨ andig. Beweis. Sei {fn }n∈N eine Cauchy–Folge in (Lp (F, µ), k . kp ). Dann gibt es eine streng monoton wachsende Folge {nk }k∈N ⊆ N mit kfnk+1 −fnk kp ≤ 2−k
8.4 Lp –R¨ aume
141
f¨ ur alle k ∈ N. Aus Folgerung 8.4.4 ergibt sich nun ÃZ Ã !p !1/p ∞ ∞ X X |fn1 | + |fnk+1 −fnk | dµ ≤ kfn1 kp + kfnk+1 − fnk kp Ω
k=1
k=1
≤ kfn1 kp + 1 Daher ist die Funktion g := |fn1 | +
∞ X
|fnk+1 −fnk |
k=1
p–fach integrierbar und wir k¨onnen annehmen, dass g reell ist. Daher gibt es eine messbare reelle Funktion f mit f = fn1 + lim
r→∞
r X ¡ ¢ fnk+1 −fnk k=1
Wir betrachten nun m ∈ N. Dann gilt f − fnm = lim
r→∞
r X ¡ ¢ fnk+1 −fnk k=m
und f¨ ur alle r ∈ N(m) gilt ¯ ¯ r r ∞ ¯X X X ¡ ¢¯¯ ¯ fnk+1 −fnk ¯ ≤ |fnk+1 −fnk | ≤ |fn1 | + |fnk+1 −fnk | = g ¯ ¯ ¯ k=m
k=m
k=1
Da g p–fach integrierbar ist, ergibt sich nun aus dem Satz u ¨ber die majorisierte Konvergenz f − fnm ∈ Lp (F, µ) und ° ° ° ° r r ° °X X ¡ ¢° ¡ ¢° ° ° ° ° kf − fnm kp = ° lim fnk+1 −fnk ° = lim ° fnk+1 −fnk ° r→∞° °r→∞ ° ° k=m
k=m
p
p
p
Wegen f = (f −fnm ) + fnm gilt dann f ∈ L (F, µ) und aus der Absch¨ atzung ° ° r r r °X X X ¡ ¢° ° ° fnk+1 −fnk ° ≤ kfnk+1 −fnk kp = 2−k ≤ 2−m+1 ° ° ° k=m
p
k=m
k=m
ergibt sich nun
° ° r °X ¡ ¢° ° ° kf −fnm kp = lim ° fnk+1 −fnk ° ≤ 2−m+1 r→∞° ° k=m
p
Daher gilt lim kf −fnm kp = 0
m→∞
Da {fn }n∈N eine Cauchy–Folge ist, folgt daraus limn→∞ kf −fn kp = 0.
2
142
Kapitel 8. Lebesgue–Integral
Nach Lemma 8.4.6 ist (Lp (F, µ), k . kp ) ein Banach–Raum. Der folgende Satz fasst die Eigenschaften von (Lp (F, µ), k . kp ) zusammen: 8.4.7 Satz. L0 (F, µ).
(Lp (F , µ), k . kp ) ist ein Banach–Verband und ein Ideal in
Eine Folge {fn }n∈N von p–fach µ–integrierbaren Funktionen konvergiert im p–ten Mittel (bez¨ uglich µ) gegen eine messbare Funktion f , wenn lim kfn −f kp = 0
n→∞
gilt; in diesem Fall ist auch f p–fach µ–integrierbar. Im Fall p = 1 ist die Konvergenz im p–ten Mittel gerade die Konvergenz im Mittel und im Fall p = 2 bezeichnet man die Konvergenz im p–ten Mittel auch als Konvergenz im quadratischen Mittel . Aus der Ungleichung von Markov ergibt sich der folgende Zusammenhang zwischen der Konvergenz im p–ten Mittel und der Konvergenz im Maß: 8.4.8 Satz. Jede Folge von p–fach µ–integrierbaren Funktionen, die im p–ten Mittel gegen eine Funktion f konvergiert, konvergiert auch im Maß µ gegen f . Beweis. Sei {fn }n∈N eine Folge von p–fach µ–integrierbaren Funktionen, die im p–ten Mittel gegen f konvergiert. Da die Funktion h : R+ → R+ mit h(x) := xp monoton wachsend ist, gilt nach der Ungleichung von Markov in der Form von Folgerung 8.2.6 f¨ ur alle ε ∈ (0, ∞) µ[{|fn −f | ≥ ε}] ≤
1 kfn −f kpp εp
Daraus folgt die Behauptung.
2
Wir beziehen nun den Banach–Verband L∞ (F, µ) in die Betrachtung mit ein. Unter zus¨ atzlichen Annahmen an das Maß µ lassen sich die R¨ aume Lp (F , µ) mit p ∈ [1, ∞] untereinander vergleichen: 8.4.9 Beispiele. (1) Folgenr¨ aume: Sei (Ω, F , µ) := (N0 , 2N0 , ζ) mit ζ[A] := |A|. Dann ist jede ¯ messbar und f¨ Funktion f : Ω → R ur alle p ∈ [1, ∞) gilt Z |f |p dµ = Ω
∞ X
|f (n)|p
n=0
¯ mit einer Folge {an }n∈N ⊆ R. ¯ F¨ Wir identifizieren nun jede Funktion Ω → R ur 0 p ∈ {0} ∪ [1, ∞] sei `p := Lp (F , µ)
8.4 Lp –R¨ aume
143
Dann ist `0 der Raum aller Folgen in R und `∞ ist der Raum aller beschr¨ ankten Folgen, und f¨ ur p ∈ [1, ∞) ist `p der Raum aller Folgen {an }n∈N0 mit ∞ X
|an |p < ∞
n=0
Insbesondere ist jede Folge in `p mit p ∈ [1, ∞) eine Nullfolge. Die Folgen in `p heißen p–fach summierbar . Sei p, r ∈ [1, ∞) mit p < r. Dann gilt r/p > 1. F¨ ur jede Folge {an }n∈N0 ∈ `p und alle hinreichend großen n ∈ N0 gilt daher |an |r = (|an |p )r/p ≤ |an |p und damit {an }n∈N0 ∈ `r . Daher gilt `p ⊆ `r . Da jede r–fach summierbare Folge eine Nullfolge und damit beschr¨ ankt ist, gilt außerdem `r ⊆ `∞ . Insgesamt erh¨ alt man f¨ ur alle p, r ∈ (1, ∞) mit p < r `1 ⊆ `p ⊆ `r ⊆ `∞ (2) Endliche Maßr¨ aume: Sei (Ω, F , µ) ein endlicher Maßraum. F¨ ur p, r ∈ [1, ∞) mit p < r gilt r/p > 1. Aufgrund der Ungleichung von H¨ older gilt f¨ ur jede Funktion f ∈ Lr (F , µ) Z |f |p dµ = k |f |p k1 Ω
≤ k |f |p kr/p k 1 kr/(r−p) µZ ³ ¶(r−p)/r ´r/p ¶p/r µZ = |f |p dµ 1r/(r−p) dµ Ω
Ω
= k f kpr (µ[Ω])(r−p)/r und aus der Endlichkeit des Maßes folgt nun f ∈ Lp (F , µ). Daher gilt Lr (F , µ) ⊆ Lp (F , µ). Aus der Endlichkeit des Maßes folgt außerdem L∞ (F , µ) ⊆ Lr (F , µ). Insgesamt erh¨ alt man f¨ ur alle p, r ∈ (1, ∞) mit p < r L∞ (F , µ) ⊆ Lr (F , µ) ⊆ Lp (F , µ) ⊆ L1 (F , µ)
Wir betrachten abschließend den Fall p = 2, der Besonderheiten aufweist und in dem der Beweis der Ungleichungen von H¨older und Minkowski vereinfacht 0 werden R 2 kann. Eine Funktion f ∈2L (F) heißt quadratisch µ–integrierbar , wenn f dµ < ∞ und damit f ∈ L (F ) gilt. µ Ω Sind f und g quadratisch µ–integrierbare Funktionen, so sind f 2 und g 2 µ– integrierbar und wegen |f g| ≤ f 2 χ{|g|≤|f |} + g 2 χ{|g|>|f |} ≤ f 2 + g 2 ist auch das Produkt f g µ–integrierbar. Daher ist die Abbildung h . , . i2 : L2 (F, µ)×L2 (F, µ) → R mit Z hf, gi2 := f g dµ Ω
wohldefiniert, und aus den Eigenschaften des Integrals erh¨ alt man sofort das folgende Ergebnis:
144
Kapitel 8. Lebesgue–Integral
8.4.10 Lemma. Die Abbildung h . , . i2 ist ein Skalarprodukt auf L2 (F , µ). F¨ ur jedes Skalarprodukt gilt die Ungleichung von Cauchy/Schwarz: 8.4.11 Lemma (Ungleichung von Cauchy/Schwarz). f, g ∈ L2 (F, µ) gilt hf, gi22 ≤ hf, f i2 hg, gi2
F¨ ur alle
Beweis. Im Fall g = 0 ist nichts zu zeigen. Im Fall g 6= 0 gilt f¨ ur alle c ∈ R 0 ≤ hf +cg, f +cgi2 = hf, f i2 + 2c hf, gi2 + c2 hg, gi2 und mit c := − hf, gi2 /hg, gi2 ergibt sich daraus die Behauptung.
2
F¨ ur alle f ∈ L2 (F , µ) gilt 1/2
kf k2 = hf, f i2
Aus dieser Gleichung und der Ungleichung von Cauchy/Schwarz erh¨ alt man das folgende Ergebnis, das aus Lemma 8.4.3 bereits bekannt ist: 8.4.12 Lemma. Die Abbildung k . k2 ist eine Norm auf L2 (F , µ). 1/2
Beweis. F¨ ur alle f ∈ L2 (F, µ) folgt wegen kf k2 = hf, f i2 aus den Eigenschaften des Skalarproduktes, dass kf k = 0 genau dann gilt, wenn f = 0 gilt, und dass f¨ ur alle c ∈ R die Gleichung kcf k = |c| kf k gilt. Aus der Ungleichung von Cauchy/Schwarz ergibt sich ferner f¨ ur alle f, g ∈ L2 (F , µ) kf +gk22 = hf +g, f +gi2 = hf, f i2 + 2 hf, gi2 + hg, gi2 1/2
1/2
≤ hf, f i2 + 2 hf, f i2 hg, gi2 ³ ´2 1/2 1/2 = hf, f i2 + hg, gi2 ³ ´2 = kf k2 + kgk2 und damit die Dreiecksungleichung.
+ hg, gi2
2
Unter Verwendung der Normen k . k2 und k . k1 l¨ asst sich die Ungleichung von Cauchy/Schwarz auch in der Form kf gk1 ≤ kf k2 kgk2 schreiben. Sie ist damit ein Spezialfall der Ungleichung von H¨ older, und es ist klar, dass die Dreiecksungleichung f¨ ur die Norm k . k2 ein Spezialfall der Ungleichung von Minkowski ist.
8.4 Lp –R¨ aume
145
Nach Lemma 8.4.6 ist der normierte Raum (L2 (F, µ), k . k2 ) vollst¨ andig. Daher ist (L2 (F , µ), h . , . i2 ) ein Hilbert–Raum. Der folgende Satz fasst die Eigenschaften von (L2 (F , µ), h . , . i2 ) zusammen: 8.4.13 Satz. L0 (F, µ).
(L2 (F , µ), h . , . i2 ) ist ein Hilbert–Verband und ein Ideal in
Aufgaben 8.4.A
Ungleichung von H¨ older: F¨ ur alle f ∈ L1 (F , µ) und g ∈ L∞ (F , µ) gilt 1 f g ∈ L (F , µ) und kf gk1 ≤ kf k1 kgk∞
8.4.B
F¨ ur alle p ∈ [1, ∞) besitzt jede Folge von p–fach µ–integrierbaren Funktionen, die im p–ten Mittel gegen eine p–fach µ–integrierbare Funktion f konvergiert, eine Teilfolge, die µ–fast u ¨berall gegen f konvergiert. Hinweis: Beweis von Lemma 8.4.6.
8.4.C
F¨ ur p ∈ (0, 1) heißt eine messbare Funktion f p–fach µ–integrierbar , wenn |f |p µ–integrierbar ist. Wir setzen ¯Z ½ ¾ ¯ Lpµ (F ) := f ∈ L0 (F ) ¯¯ |f |p dµ < ∞ Ω
und Lp (F , µ) :=
n
¯ o ¯ [h]µ ∈ L0 (F , µ) ¯ es gibt ein f ∈ [h]µ ∩ Lpµ (F )
(1) Lp (F , µ) ist ein Vektorraum. (2) Die Abbildung dp : Lp (F , µ) × Lp (F , µ) mit Z dp (f, g) := |f −g|p dµ Ω
ist (wohldefiniert und) eine Metrik und diese Metrik ist translationsinvariant, aber nicht absolut homogen. (3) Der metrische Raum (Lp (F , µ), dp ) ist vollst¨ andig.
9 Berechnung des Lebesgue–Integrals
Nachdem das Lebesgue–Integral auf der Grundlage eines Maßes konstruiert ist, betrachten wir nun auch Maße, die durch Integrale dargestellt werden k¨ onnen. Ausgangspunkt ist die Beobachtung, dass man zu jeder positiven messbaren Funktion durch Integration ein Maß erh¨ alt, das als unbestimmtes Integral bezeichnet wird (Abschnitt 9.1) und auf den Begriff eines Maßes mit Dichte f¨ uhrt. Maße mit Dichte spielen in der Wahrscheinlichkeitstheorie eine zentrale Rolle. Sie sind aber auch in der allgemeinen Integrationstheorie von Interesse, da die Berechnung eines Integrals nach einem Maß mit Dichte sich in vielen F¨ allen durch die Kettenregel vereinfachen l¨ asst (Abschnitt 9.2). Schließlich liefert der Satz von Radon/Nikodym eine Bedingung daf¨ ur, dass ein Maß eine Dichte bez¨ uglich einem anderen Maß besitzt (Abschnitt 9.3). Mit der Anwendung der Kettenregel wird das integrierende Maß gewechselt. Dies ist auch das Wesen der Substitutionsregel, bei der ein gegebenes Integral durch ein Integral nach dem Bildmaß des integrierenden Maßes unter einer messbaren Transformation dargestellt wird (Abschnitt 9.4). Um die Vorteile der Substitutionsregel nutzen zu k¨onnen, ist es gelegentlich erforderlich, die Integration nach einem eingeschr¨ankten Maß zu betrachten (Abschnitt 9.5). Das enge Wechselspiel zwischen Maßen und Integralen zeigt sich auch bei der Konstruktion von Produktmaßen (Abschnitt 9.6). Das Hauptergebnis u ¨ber die Integration nach einem Produktmaß ist der Satz von Fubini, der es erm¨ oglicht, Integrale von positiven oder integrierbaren Funktionen in mehreren Variablen durch die sukzessive Integration nach einer einzigen Variablen zu berechnen (Abschnitt 9.7). F¨ ur die Berechnung des Integrals einer Funktion in einer reellen Variablen ist schließlich der Zusammenhang zwischen dem Lebesgue–Integral und dem Riemann–Integral von Nutzen (Abschnitt 9.8). Im gesamten Kapitel sei (Ω, F, µ) ein Maßraum. K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_9, © Springer-Verlag Berlin Heidelberg 2011
148
Kapitel 9. Berechnung des Lebesgue–Integrals
9.1 Integralinduzierte Maße und signierte Maße Sei f eine messbare Funktion, die positiv oder µ–integrierbar ist. Ist f positiv, so ist f¨ ur alle A ∈ F auch f χA positiv, und ist f µ–integrierbar, so ist f¨ ur alle A ∈ F wegen |f χRA | ≤ |f | auch f χA µ–integrierbar. Daher ist in beiden ¯ mit F¨ allen die Abbildung f dµ : F → R µZ ¶ Z f dµ [A] := f χA dµ Ω
erkl¨ art; zur Vereinfachung der Notation setzen wir Z Z f dµ := f χA dµ A
Ω
R
Die Abbildung f dµ heißt das unbestimmte µ–Integral von f . Der folgende Satz kl¨ art die Eigenschaften des unbestimmten µ–Integrals: 9.1.1 Satz. Sei f messbar. (1) Ist f positiv , so ist das unbestimmte µ–Integral von f ein Maß. (2) Ist f µ–integrierbar , so ist das unbestimmte µ–Integral von f ein endliches signiertes Maß. Beweis. (1) Sei f positiv. Dann gilt Z Z f dµ = f χ∅ dµ = 0 ∅
Ω
Außerdem gilt f¨ ur jede disjunkte Folge {An }n∈N ⊆ F nach dem Satz u ¨ ber die monotone Konvergenz Z Z f dµ = f χP∞ dµ P n=1 An ∞ n=1
An
Ω
! Z Ã X ∞ = f χAn dµ Ω
=
Ω
= =
n=1
Z ÃX ∞
f χAn dµ
n=1
∞ Z X
n=1 Ω ∞ Z X n=1
!
f χAn dµ f dµ
An
Daher ist das unbestimmte µ–Integral von f ein Maß.
9.2 Integration nach einem Maß mit Dichte
149
(2) Sei f µ–integrierbar. Dann sind auch f + und f − µ–integrierbar und nach (1) sind die unbestimmten µ–Integrale von f + und f − Maße, die aufgrund der µ–Integrierbarkeit von f + und f − sogar endlich sind. F¨ ur alle A ∈ F gilt f χA = f + χA − f − χA und damit Z Z Z Z Z Z f dµ = f χA dµ = f + χA dµ − f − χA dµ = f + dµ − f − dµ A
Ω
Ω
Ω
A
A
Daher ist das unbestimmte µ–Integral von f ein endliches signiertes Maß. 2 Aufgaben R
9.1.A
Unbestimmtes Integral: Es gilt
9.1.B
Unbestimmtes Integral: Erweitern Sie den Begriff des unbestimmten Integrals auf µ–quasiintegrierbare Funktionen und zeigen Sie, dass das unbestimmte Integral einer µ–quasiintegrierbaren Funktion ein signiertes Maß ist.
1 dµ = µ.
9.2 Integration nach einem Maß mit Dichte Ein Maß ν : F → [0, ∞] heißt Maß mit µ–Dichte oder kurz Maß mit Dichte, wenn es eine positive messbare Funktion f gibt mit Z ν = f dµ Ist ν ein Maß mit µ–Dichte, so heißt jede positive messbare Funktion f mit Z ν = f dµ µ–Dichte von ν. Offenbar ist ein Maß genau dann ein Maß mit µ–Dichte, wenn es das unbestimmte µ–Integral einer positiven messbaren Funktion ist. 9.2.1 Lemma. Sei ν : F → [0, ∞] ein Maß mit µ–Dichte. Dann ist jede µ–Nullmenge eine ν–Nullmenge. Beweis. Sei f eine µ–Dichte von ν. F¨ ur jede Menge A ∈ F mit µ[A] = 0 gilt dann f χA = 0 µ–fast u ¨berall, und aus Lemma 8.2.8 folgt nun Z Z ν[A] = f dµ = f χA dµ = 0 A
Damit ist die Behauptung gezeigt.
Ω
2
Der folgende Satz zeigt, dass jedes Integral nach einem Maß mit µ–Dichte als Integral nach µ dargestellt werden kann:
150
Kapitel 9. Berechnung des Lebesgue–Integrals
9.2.2 Satz (Kettenregel). Sei ν : F → [0, ∞] ein Maß mit µ–Dichte und sei f eine µ–Dichte von ν. Sei ferner h eine messbare Funktion. (1) Ist h positiv , so gilt Z Z h dν =
hf dµ
(2) h ist genau dann ν–integrierbar, wenn hf µ–integrierbar ist, und in diesem Fall gilt Z Z h dν = hf dµ
Beweis. Sei A ∈ F beliebig. (1) F¨ ur alle C ∈ F gilt Z Z Z χC dν = χC∩A dν = ν[C ∩ A] = A
Ω
Z f dµ =
C∩A
χC f dµ A
Damit ist die Behauptung f¨ ur h = χC mit C ∈ F gezeigt. Aus der positiven Linearit¨ at des Integrals folgt dann die Behauptung f¨ ur den Fall, dass h eine positive einfache Funktion ist, und aus dem Satz u ¨ber die monotone Konvergenz folgt sodann die Behauptung f¨ ur den Fall, dass h eine beliebige positive messbare Funktion ist. (2) Wegen (1) gilt Z Z Z |h| dν = |h|f dµ = |hf | dµ Ω
Ω
Ω
Daraus folgt die Behauptung u ¨ber die Integrierbarkeit von h und hf . Sei nun h ν–integrierbar und damit hf µ–integrierbar. Wegen h = h+ − h− gilt hf = h+ f − h− f = (hf)+ − (hf )− und aus (1) folgt Z Z Z h dν = h+ dν − h− dν A A A Z Z + = h f dµ − h− f dµ A A Z Z = (hf )+ dµ − (hf )− dµ A ZA = hf dµ A
Damit ist die Behauptung bewiesen.
2
Es stellt sich die Frage, ob die µ–Dichte eines Maßes mit µ–Dichte eindeutig bestimmt ist. Das folgende Beispiel zeigt, dass dies im allgemeinen nicht der Fall ist:
9.2 Integration nach einem Maß mit Dichte
151
9.2.3 Beispiel. Sei F := {∅, Ω} und µ[Ω] = ∞. Sei ν := µ Dann ist f¨ ur alle n ∈ N die Funktion fn : Ω → R mit fn (ω) := n eine µ–Dichte von ν. Die Maße µ und ν sind weder endlich noch σ–endlich.
Unser Ziel ist es nun zu zeigen, dass die µ–Dichte eines Maßes ν mit µ–Dichte eindeutig bestimmt ist, wenn mindestens eines der Maße µ oder ν σ–endlich ist. Wir betrachten zun¨achst unbestimmte Integrale von µ–integrierbaren Funktionen: 9.2.4 Lemma. Seien f, g µ–integrierbare Funktionen mit Z Z f dµ ≤ g dµ Dann gilt f ≤ g µ–fast u ¨berall. Beweis. F¨ ur alle n ∈ N sei An := {f ≥ g + 1/n}. Dann ist die Folge {An }n∈N monoton wachsend mit [ {f > g} = An n∈N
F¨ ur alle n ∈ N gilt ¶ Z Z Z µ Z 1 1 1 f dµ + µ[An ] ≤ g dµ + µ[An ] = g+ dµ ≤ f dµ n n n An An An An und damit µ[An ] = 0, da f integrierbar ist. Da die Vereinigung einer Folge von Nullmengen wieder eine Nullmenge ist, ergibt sich µ[{f > g}] = 0. 2 9.2.5 Folgerung. Seien f, g µ–integrierbare Funktionen mit Z Z f dµ = g dµ Dann gilt f = g µ–fast u ¨berall. Der folgende Satz liefert eine Charakterisierung σ–endlicher Maße. Er zeigt insbesondere, dass jedes σ–endliche Maß als unbestimmtes Integral bez¨ uglich einem endlichen Maß dargestellt werden kann, und liefert damit in Verbindung mit der Kettenregel eine M¨oglichkeit, Eigenschaften von unbestimmten Integralen bez¨ uglich einem endlichen Maß auf unbestimmte Integrale bez¨ uglich einem σ–endlichen Maß zu u ¨bertragen:
152
Kapitel 9. Berechnung des Lebesgue–Integrals
9.2.6 Satz. Folgende Aussagen sind ¨aquivalent: (a) µ ist σ–endlich. (b) Es gibt eine µ–integrierbare Funktion h mit 0 < h(ω) < ∞ f¨ ur alle ω ∈ Ω. (c) Es gibt ein endliches Maß ϕ und eine messbare Funktion h mit 0 < h(ω) < ∞ f¨ ur alle ω ∈ Ω und Z ϕ = h dµ In diesem Fall gilt
Z
1 dϕ h und µ und ϕ besitzen dieselben Nullmengen. µ=
Beweis. Wir nehmen zun¨ S achst an, dass (a) gilt. Dann gibt es eine Folge {An }n∈N ⊆ F mit Ω = n∈N An und µ[An ] < ∞ f¨ ur alle n ∈ N. F¨ ur alle n ∈ N w¨ ahlen wir ein an ∈ (0, 2−n ] mit an µ[An ] ≤ 2−n . Sei h :=
∞ X
an χAn
n=1
Dann gilt 0 < h(ω) < ∞ f¨ ur alle ω ∈ Ω, und nach dem Satz u ¨ber die monotone Konvergenz ist h µ–integrierbar. Daher folgt (b) aus (a). Wir nehmen nun an, dass (b) gilt. F¨ ur alle n ∈ N sei An := {h ≥ 1/n}. Dann gilt [ Ω = {h > 0} = An n∈N
und f¨ ur alle n ∈ N gilt Z Z µ[An ] = 1 dµ ≤ An
An
Z nh dµ = n
h dµ = n ϕ[An ] An
und damit µ[An ] < ∞. Daher ist µ σ–endlich und (a) folgt aus (b). ¨ Die Aquivalenz von (b) und (c) ist klar. Wir nehmen schließlich an, dass (c) gilt, Aus der Kettenregel 9.2.2 ergibt sich dann Z Z Z 1 1 µ = 1 dµ = h dµ = dϕ h h Die letzte Behauptung ergibt sich aus Lemma 9.2.1.
2
9.2.7 Lemma. Sei µ σ–endlich und seien f, g positive messbare Funktionen mit Z Z f dµ ≤ g dµ Dann gilt f ≤ g µ–fast u ¨berall.
9.2 Integration nach einem Maß mit Dichte
153
Beweis. Wir nehmen zun¨ ur alle n ∈ N sei Sachst an, dass µ endlich ist. F¨ Bn := {g ≤ n}. Dann gilt n∈N Bn = {g < ∞}. F¨ ur alle A ∈ F gilt Z Z Z Z f χBn dµ = f dµ ≤ g dµ = gχBn dµ A
A∩Bn
Insbesondere gilt Z Ω
A∩Bn
Z f χBn dµ ≤
Ω
A
Z gχBn dµ ≤
n dµ = n µ[Ω] Ω
Da µ endlich ist, folgt hieraus die Integrierbarkeit von f χBn und gχBn , und aus Lemma 9.2.4 erhalten wir nun f χBn ≤ gχBn µ–fast u ¨berall. Da die Vereinigung einer Folge von Nullmengen wieder eine Nullmenge ist, ergibt sich daraus f χ{g<∞} ≤ gχ{g<∞} µ–fast u ¨berall, und damit f ≤ g µ–fast u ¨berall. Wir nehmen nun an, dass µ σ–endlich ist. Nach Satz 9.2.6 gibt es ein endliches Maß ϕ und eine messbare Funktion h mit 0 < h(ω) < ∞ f¨ ur alle ω ∈ Ω und Z 1 µ= dϕ h Aus der Kettenregel 9.2.2 ergibt sich dann Z Z Z Z 1 1 f dϕ = f dµ ≤ g dµ = g dϕ h h Da ϕ ein endliches Maß ist, erhalten wir aus dem ersten Teil des Beweises f /h ≤ g/h ϕ–fast u ¨berall und damit f ≤ g ϕ–fast u ¨berall. Da jede ϕ–Nullmenge auch eine µ–Nullmenge ist, erhalten wir f ≤ g µ–fast u 2 ¨berall. 9.2.8 Folgerung. Sei µ σ–endlich und seien f, g positive messbare Funktionen mit Z Z f dµ = g dµ Dann gilt f = g µ–fast u ¨berall. Wir kommen nun zu dem angek¨ undigten Eindeutigkeitssatz f¨ ur Maße mit Dichten: 9.2.9 Satz. Sei ν ein Maß mit µ–Dichte. Ist µ oder ν σ–endlich, so ist die µ–Dichte von ν µ–fast ¨ uberall eindeutig bestimmt. Beweis. Seien f, g µ–Dichten von ν. Dann gilt Z Z f dµ = ν = g dµ (1) Ist µ σ–endlich, so ergibt sich aus Folgerung 9.2.8 f = g µ–fast u ¨berall.
154
Kapitel 9. Berechnung des Lebesgue–Integrals
(2) Ist µ beliebig und ν endlich, so ergibt sich aus Folgerung 9.2.5 f = g µ–fast u ¨berall. (3) Sei nun µ beliebig und ν σ–endlich. Nach Satz 9.2.6 gibt es ein endliches Maß ϕ und eine messbare Funktion h mit 0 < h(ω) < ∞ f¨ ur alle ω ∈ Ω und Z ϕ = h dν Aus der Kettenregel 9.2.2 folgt nun Z Z Z Z hf dµ = h dν = ϕ = h dν = hg dµ Daher ist ϕ ein endliches Maß mit µ–Dichte und jede der Funktionen hf und hg ist eine µ–Dichte von ϕ. Aus (2) ergibt sich nun hf = hg µ–fast u ¨berall und damit f = g µ–fast u 2 ¨berall. Abschließend charakterisieren wir endliche und σ–endliche Maße mit µ–Dichte durch Eigenschaften ihrer µ–Dichten: 9.2.10 Satz. Sei µ σ–endlich und sei ν ein Maß mit µ–Dichte f . Dann gilt: (1) ν ist genau dann endlich, wenn f µ–integrierbar ist. (2) ν ist genau dann σ–endlich, wenn f µ–fast ¨ uberall endlich ist. Beweis. Aussage (1) ist klar. Wir nehmen nun an, dass ν σ–endlich ist. Nach Satz 9.2.6 gibt es ein endliches Maß ϕ und eine messbare Funktion h mit 0 < h(ω) < ∞ f¨ ur alle ω ∈ Ω und Z ϕ = h dν und aus der Kettenregel 9.2.2 folgt nun Z Z ϕ = h dν = hf dµ Nach (1) ist die Funktion hf µ–integrierbar und aus Lemma 8.2.7 folgt nun, dass hf µ–fast u ¨ berall endlich ist. Dann ist aber auch f µ–fast u ¨berall endlich. Wir nehmen abschließend an, dass f µ–fast u berall endlich ist. ¨ – Sei zun¨ achst µ endlich. F¨ uS r alle n ∈ N sei An := {f ≤ n} und Bn := An ∪ {f = ∞}. Dann gilt n∈N Bn = Ω und f¨ ur alle n ∈ N gilt wegen f χBn = f χAn µ–fast u ¨berall Z Z Z Z ν[Bn ] = f dµ = f χBn dµ = f χAn dµ ≤ n dµ = n µ[Ω] Bn
Ω
Ω
und damit ν[Bn ] < ∞. Daher ist ν σ–endlich.
Ω
9.3 Absolutstetige und singul¨ are Maße
–
155
Sei nun µ σ–endlich. Nach Satz 9.2.6 gibt es ein endliches Maß ϕ und eine messbare Funktion h mit 0 < h(ω) < ∞ f¨ ur alle ω ∈ Ω sowie Z ϕ = h dµ und
Z µ=
1 dϕ h
Aus der Kettenregel 9.2.2 folgt nun Z Z 1 ν = f dµ = f dϕ h Da f µ–fast u ¨ berall endlich ist, ist auch f /h µ–fast u ¨ berall endlich und damit ϕ–fast u ¨berall endlich. Da ϕ endlich ist, folgt aus dem bereits gezeigten, dass ν σ–endlich ist. Damit ist der Satz bewiesen. 2 Aufgaben 9.2.A
Lokales Z¨ ahlmaß: Sei C ∈ F abz¨ ahlbar. Dann besitzt das lokale Z¨ ahlmaß ζ C bez¨ uglich C die ζ–Dichte χC .
9.2.B
Kettenregel: Sei ν : F → [0, ∞] ein Maß mit µ–Dichte und sei f eine µ– Dichte von ν. Sei ferner h eine messbare Funktion. Dann gilt: h ist genau dann ν–quasiintegrierbar, wenn hf µ–quasiintegrierbar ist, und in diesem Fall gilt Z Z h dν = hf dµ Hinweis: Es gilt h+ = hχ{h≥0} und h− = −hχ{h≤0} .
9.2.C
Sei (Ω, F , µ) := (R, B(R), λ). Geben Sie eine messbare FunktionRh an mit 0 < h(ω) < ∞ f¨ ur alle ω ∈ Ω, f¨ ur die das unbestimmte Integral h dµ ein endliches Maß ist.
9.3 Absolutstetige und singul¨ are Maße Ein Maß ν : F → [0, ∞] heißt absolutstetig bez¨ uglich µ oder kurz µ–stetig, wenn f¨ ur alle A ∈ F mit µ[A] = 0 auch ν[A] = 0 gilt; in diesem Fall schreiben wir ν¿µ
156
Kapitel 9. Berechnung des Lebesgue–Integrals
Nach Lemma 9.2.1 ist jedes Maß mit µ–Dichte µ–stetig. Wir zeigen nun, dass unter der Voraussetzung, dass µ σ-endlich ist, auch die Umkehrung dieser Implikation gilt: 9.3.1 Satz (Radon/Nikodym). Sei µ σ–endlich und sei ν ein Maß mit ν ¿ µ. Dann gibt es eine positive messbare Funktion f mit Z ν = f dµ Die Funktion f ist µ–fast u ¨berall eindeutig bestimmt. Beweis. Die Aussage u ¨ ber die Eindeutigkeit der Funktion f ergibt sich aus Satz 9.2.9. Wir f¨ uhren den Beweis ihrer Existenz in drei Schritten: (1) Wir nehmen zun¨achst an, dass µ und ν endlich sind. Sei ¯Z ½ ¾ ¯ ¯ H := h : Ω → [0, ∞] messbar ¯ h dµ ≤ ν[A] f¨ ur alle A ∈ F A
Die Menge H ist nichtleer und sie enth¨alt mit je zwei Funktionen auch ihr Supremum, denn f¨ ur g, h ∈ H gilt f¨ ur alle A ∈ F Z Z Z (g ∨ h) dµ = g dµ + h dµ A
A∩{g≥h}
A∩{g
≤ ν[A ∩ {g ≥ h}] + ν[A ∩ {g < h}] = ν[A] und damit g ∨ h ∈ H. Des weiteren gibt es eine Folge {hn }n∈N ⊆ H mit Z Z sup hn dµ = sup h dµ n∈N
h∈H
Ω
Ω
Dann ist die Folge {fn }n∈N mit fn :=
sup k∈{1,...,n}
hk
positiv und monoton wachsend mit hn ≤ fn ∈ H und aus der Monotonie des Integrals folgt Z Z sup fn dµ = sup h dµ n∈N
Ω
h∈H
Ω
Wir setzen f := sup fn n∈N
Aus dem Satz u ur alle A ∈ F ¨ber die monotone Konvergenz ergibt sich f¨
9.3 Absolutstetige und singul¨ are Maße
Z
157
Z f dµ =
f χA dµ
A
ZΩ =
sup fn χA dµ Z = sup fn χA dµ n∈N Ω Z = sup fn dµ Ω n∈N
n∈N
A
≤ ν[A] und damit f ∈ H. Sei nun Z ϕ :=
f dµ
Wegen f ∈ H gilt dann ϕ≤ν Unser Ziel ist es nun zu zeigen, dass ϕ = ν gilt. Sei ε ∈ (0, ∞). Mit ν ist auch ϕ endlich, und da auch µ endlich ist, ist die Mengenfunktion τε := ν − ϕ − εµ ein endliches signiertes Maß. Aus der Hahn–Zerlegung ergibt sich nun die Existenz von disjunkten Mengen P, N ∈ F mit Ω = P + N und τε+ [A] = τε [A ∩ P ] τε− [A] = − τε [A ∩ N ] f¨ ur alle A ∈ F . F¨ ur alle A ∈ F gilt dann wegen ϕ ≤ ν Z ³ Z ´ f + εχP dµ = f dµ + ε µ[A ∩ P ] A
A
= ϕ[A] + ε µ[A ∩ P ] = ν[A] − (ν −ϕ)[A] + ε µ[A ∩ P ] ≤ ν[A] − (ν −ϕ)[A ∩ P ] + ε µ[A ∩ P ] = ν[A] − τε [A ∩ P ] = ν[A] − τε+ [A] ≤ ν[A] Daher gilt f + εχP ∈ H und damit Z Z ³ Z Z ´ f dµ + ε µ[P ] = f + εχP dµ ≤ sup h dµ = f dµ Ω
Ω
h∈H
Ω
Ω
158
Kapitel 9. Berechnung des Lebesgue–Integrals
R Da ϕ endlich ist, gilt Ω f dµ = ϕ[Ω] < ∞ und wir erhalten µ[P ] = 0. Wegen ϕ ≤ ν ¿ µ ergibt sich sodann τε+ [P ] = τε [P ] = ν[P ] − ϕ[P ] − ε µ[P ] = 0. Daher gilt f¨ ur alle A ∈ F ν[A] = ϕ[A] + ε µ[A] + τε [A] = ϕ[A] + ε µ[A] + τε+ [A] − τε− [A] = ϕ[A] + ε µ[A] − τε− [A] ≤ ϕ[A] + ε µ[A] Da µ endlich ist und ε ∈ (0, ∞) beliebig war, erhalten wir ν≤ϕ Zusammen mit der Ungleichung ϕ ≤ ν ergibt sich daher ν=ϕ und aus der Definition von ϕ folgt nun Z ν = f dµ (2) Wir nehmen nun an, dass µ endlich und ν beliebig ist. Sei ¯ n o ¯ C := C ∈ F ¯ ν[C] < ∞ Dann ist das Mengensystem C nichtleer und ∪–stabil und es gibt eine monoton wachsende Folge {Cn }n∈N0 ⊆ C mit C0 := ∅ und sup µ[Cn ] = sup µ[C] C∈C
n∈N
F¨ ur alle n ∈ N sei Bn := Cn \ Cn−1 . Dann ist die Folge {Bn }n∈N disjunkt mit Bn ∈ C f¨ ur alle n ∈ N und ∞ X
Bn =
n=1
[
Cn
n∈N
Sei ferner B0 := Ω \
∞ X
Bn
n=1
F¨ ur alle n ∈ N0 seien µn , νn : F → [0, ∞] gegeben durch µn [A] := µ[A ∩ Bn ] νn [A] := ν[A ∩ Bn ]
9.3 Absolutstetige und singul¨ are Maße
Dann ist µn ein endliches Maß mit
159
Z
µn =
χBn dµ
und νn ist ein Maß mit νn ¿ µn . F¨ ur alle n ∈ N ist auch νn endlich und nach (1) gibt es eine positive messbare Funktion fn mit Z νn = fn dµn Es bleibt zu zeigen, dass es eine positive messbare Funktion f0 gibt mit Z ν0 = f0 dµ0 denn dann ergibt sich f¨ ur alle A ∈ F aus der Kettenregel ν[A] = = = =
∞ X
νn [A] n=0 ∞ Z X
fn dµn
n=0 A ∞ Z X n=0
=
ν[A ∩ Bn ]
n=0 ∞ X
A
fn χBn dµ
Z ÃX ∞ A
! fn χBn dµ
n=0
und f¨ ur die positive messbare Funktion f := Z ν = f dµ
P∞ n=0
fn χBn erhalten wir
Wir zeigen nun, dass ν0 tats¨achlich eine µ0 –Dichte besitzt. Sei A ∈ F . – Im Fall ν0 [A] < ∞ gilt ν[A ∩ B0 ] < ∞ und damit A ∩ B0 ∈ C. F¨ ur alle n ∈ N gilt daher Cn + (A ∩ B0 ) ∈ C und daraus folgt sup µ[C] + µ0 [A] = sup µ[Cn ] + µ[A ∩ B0 ] n∈N ³ ´ = sup µ[Cn ] + µ[A ∩ B0 ] n∈N h i = sup µ Cn + (A ∩ B0 )
C∈C
n∈N
≤ sup µ[C] C∈C
Da µ endlich ist, erhalten wir µ0 [A] = 0 und aus ν ¿ µ folgt ν0 [A] = 0.
160
Kapitel 9. Berechnung des Lebesgue–Integrals
– Im Fall ν0 [A] = ∞ gilt, wiederum wegen ν ¿ µ, µ0 [A] > 0. Es gilt also entweder ν0 [A] = 0 = µ0 [A] oder ν0 [A] = ∞ und µ0 [A] > 0. Daher folgt in beiden F¨ allen aus dem Satz u ¨ber die monotone Konvergenz Z Z ³ ´ ν0 [A] = sup n µ0 [A] = sup n dµ0 = sup n dµ0 n∈N
n∈N
A
A n∈N
F¨ ur die positive messbare Funktion f0 mit f0 (ω) := ∞ erhalten wir daher Z ν0 = f0 dµ0 Daher ist f0 eine µ0 –Dichte von ν0 . (3) Wir nehmen schließlich an, dass µ σ–endlich und ν beliebig ist. Nach Satz 9.2.6 gibt es ein endliches Maß ϕ und eine messbare Funktion h mit 0 < h(ω) < ∞ f¨ ur alle ω ∈ Ω und Z ϕ = h dµ und µ und ϕ besitzen dieselben Nullmengen. Wegen ν ¿ µ gilt daher ν ¿ ϕ. Da ϕ endlich ist, ergibt sich aus (2) die Existenz einer positiven messbaren Funktion g mit Z ν = g dϕ und aus der Kettenregel 9.2.2 folgt nun Z Z ν = g dϕ = gh dµ Daher ist f := gh eine µ–Dichte von ν.
2
Ein Maß ν : F → [0, ∞] heißt singul¨ ar bez¨ uglich µ oder kurz µ–singul¨ ar , wenn es eine Menge N ∈ F gibt mit ν[Ω \ N ] + µ[N ] = 0 in diesem Fall schreiben wir ν⊥µ Die Singularit¨ at von Maßen ist eine symmetrische Relation, denn ν ist genau dann µ–singul¨ ar, wenn µ ν–singul¨ar ist. 9.3.2 Satz (Lebesgue–Zerlegung). Sei µ σ–endlich. Dann gibt es zu jedem σ–endlichen Maß ν zwei Maße ϕ, ψ mit ϕ ¿ µ und ψ ⊥ µ sowie ν =ϕ+ψ Die Zerlegung ist eindeutig und es gilt ϕ ⊥ ψ.
9.3 Absolutstetige und singul¨ are Maße
161
Beweis. Mit µ und ν ist auch das Maß τ := µ + ν σ–endlich. Wegen µ ≤ τ gilt µ ¿ τ , und aus dem Satz von Radon/Nikodym folgt nun die Existenz einer positiven messbaren Funktion g mit Z µ = g dτ Sei N := {g = 0}. Dann gilt g(ω)χN (ω) = 0 f¨ ur alle ω ∈ Ω und damit Z µ[N ] = g dτ = 0 N
Wir definieren nun zwei Maße ϕ, ψ : F → [0, ∞] durch ϕ[A] := ν[A \ N ] ψ[A] := ν[A ∩ N ] Dann gilt ν = ϕ+ψ und wegen µ[N ] = 0 = ϕ[N ] und ψ[Ω \ N ] = 0 gilt µ⊥ψ ϕ⊥ψ Wir zeigen nun, dass auch ϕ ¿ µ gilt. Wir betrachten dazu eine Menge A ∈ F mit µ[A] = 0. Dann gilt Z g dτ = µ[A \ N ] = 0 A\N
und damit g(ω)χA\N (ω) = 0 τ –fast u ¨berall. Wegen A \ N ⊆ Ω \ N = {g > 0} folgt daraus χA\N (ω) = 0 τ –fast u ¨berall, und wir erhalten ϕ[A] = ν[A \ N ] ≤ µ[A \ N ] + ν[A \ N ] = τ [A \ N ] = 0 und damit ϕ[A] = 0. Daher gilt ϕ¿µ Damit ist die Existenz der Zerlegung gezeigt. Wir betrachten nun f¨ ur i ∈ {1, 2} Maße ϕi und ψi mit ϕi ¿ µ und ψi ⊥ µ sowie ν = ϕi + ψi
162
Kapitel 9. Berechnung des Lebesgue–Integrals
Dann gibt es Mengen Ni ∈ F mit µ[Ni ] = 0 = ψi [Ω \ Ni ] sowie ϕi [Ni ] = 0. Daher gilt f¨ ur alle A ∈ F ϕi [A] = ϕi [A \ Ni ] ψi [A] = ψi [A ∩ Ni ] und damit ϕi [A] = ϕi [A \ Ni ] + ψi [A \ Ni ] = ν[A \ Ni ] und ψi [A] = ϕi [A ∩ Ni ] + ψi [A ∩ Ni ] = ν[A ∩ Ni ] Sei N := N1 ∪ N2 . Dann gilt µ[N ] = 0. F¨ ur alle A ∈ F erhalten wir wegen ϕi ¿ µ ϕi [A ∩ N ] = 0 und wegen Ni ⊆ N gilt ψi [A \ N ] = 0 Daraus ergibt sich f¨ ur alle A ∈ F ϕi [A] = ϕi [A \ N ] + ϕi [A ∩ N ] = ϕi [A \ N ] = ϕi [A \ N ] + ψi [A \ N ] = ν[A \ N ] und ψi [A] = ψi [A ∩ N ] + ψi [A \ N ] = ψi [A ∩ N ] = ψi [A ∩ N ] + ϕi [A ∩ N ] = ν[A ∩ N ] und damit ϕ1 = ϕ2 und ψ1 = ψ2 .
2
Aufgaben 9.3.A
¨ Aquivalente Maße: Zwei Maße ϕ, ψ : F → [0, ∞] heißen ¨ aquivalent, wenn ϕ ¿ ψ und ψ ¿ ϕ gilt; in diesem Fall schreiben wir ϕ≈ψ
9.3.B 9.3.C
¨ Dann ist ≈ eine Aquivalenzrelation. ¨ Aquivalente Maße: Zu jedem σ–endlichen Maß gibt es ein ¨ aquivalentes endliches Maß. ¯ ein signiertes Maß. Dann gilt ν + ⊥ ν − . Hahn–Zerlegung: Sei ν : F → R
9.4 Integration nach einem Bildmaß
163
9.4 Integration nach einem Bildmaß Wie f¨ ur das Riemann–Integral gibt es auch f¨ ur das Lebesgue–Integral eine Substitutionsregel, die die Berechnung eines Integrals in vielen F¨ allen vereinfacht. Bei der Formulierung der Substitutionsregel f¨ ur das Lebesgue–Integral ist es wiederum hilfreich, die jeweiligen Integrationsvariablen anzugeben. Die folgende Substitutionsregel wird auch als Transformationssatz bezeichnet: 9.4.1 Satz (Substitutionsregel). Sei (Ω0 , F 0 ) ein Messraum und sei T : ¯ eine messbare Funktion. Ω → Ω0 messbar. Sei ferner h : Ω0 → R 0 (1) Ist h positiv , so gilt f¨ ur alle A ∈ F 0 Z Z (h ◦ T )(ω) dµ(ω) = h(ω 0 ) dµT (ω 0 ) T −1 (A0 )
A0
(2) h ◦ T ist genau dann µ–integrierbar , wenn h µT –integrierbar ist, und in diesem Fall gilt f¨ ur alle A0 ∈ F 0 Z Z (h ◦ T )(ω) dµ(ω) = h(ω 0 ) dµT (ω 0 ) T −1 (A0 )
A0
Im Fall A0 = Ω0 gilt T −1 (A0 ) = Ω. Beweis. (1) F¨ ur alle C 0 ∈ F 0 gilt (χC 0 ◦ T )(ω) = χC 0 (T (ω)) = χT −1 (C 0 ) (ω) und damit Z Z (χC 0 ◦ T )(ω) dµ(ω) = χT −1 (A0 ) (ω) χT −1 (C 0 ) (ω) dµ(ω) T −1 (A0 ) Ω Z = χT −1 (A0 ∩C 0 ) (ω) dµ(ω) Ω
= µ[T −1 (A0 ∩ C 0 )] = µT [A0 ∩ C 0 ] Z = χA0 ∩C 0 (ω 0 ) dµT (ω 0 ) 0 ZΩ = χC 0 (ω 0 ) dµT (ω 0 ) A0
Damit ist die Behauptung f¨ ur h = χC 0 mit C 0 ∈ F 0 gezeigt. Aus der positiven Linearit¨ at des Integrals folgt dann die Behauptung f¨ ur den Fall, dass h eine positive einfache Funktion ist, und aus dem Satz u ¨ber die monotone Konvergenz folgt sodann die Behauptung f¨ ur den Fall, dass h eine beliebige positive messbare Funktion ist. (2) Wegen (1) gilt Z Z Z |h ◦ T |(ω) dµ(ω) = (|h| ◦ T )(ω) dµ(ω) = |h|(ω 0 ) dµT (ω 0 ) Ω
Ω
Ω0
164
Kapitel 9. Berechnung des Lebesgue–Integrals
Daraus folgt die Behauptung u ¨ber die Integrierbarkeit von h und h◦T . Im Fall der Integrierbarkeit von h und h ◦ T folgt die Gleichung f¨ ur die Integrale mit Hilfe der Zerlegung h = h+ −h− wegen (h◦T )+ = h+ ◦T und (h◦T )− = h− ◦T aus (1). 2 Im Fall h = χΩ0 gilt h◦T = χΩ , und in diesem Fall reduziert sich die Gleichung Z Z h(T (ω)) dµ(ω) = h(ω 0 ) dµT (ω 0 ) T −1 (A0 )
A0
aus Satz 9.4.1 auf die Gleichung µ[T −1 (A0 )] = µT [A0 ] Dies ist gerade die Definition des Bildmaßes µT von µ unter T . Die Substitutionsregel l¨asst sich unter anderem verwenden, um f¨ ur ein Maß mit Dichte und bestimmte Transformationen das Bildmaß zu bestimmen: 9.4.2 Folgerung. Sei (Ω0 , F 0 ) ein Messraum und sei T : Ω → Ω0 messbar. Sei ferner h : Ω → R+ messbar und Z ν := h(ω) dµ(ω) Ist T bijektiv und T −1 messbar , so gilt Z νT = (h ◦ T −1 )(ω 0 ) dµT (ω 0 ) Beweis. F¨ ur alle A0 ∈ F 0 gilt νT [A0 ] = ν[T −1 (A0 )] Z = h(ω) dµ(ω) T −1 (A0 ) Z = (h ◦ T −1 ◦ T )(ω)) dµ(ω) T −1 (A0 ) Z = (h ◦ T −1 )(ω 0 ) dµT (ω 0 ) A0
Damit ist die Folgerung bewiesen.
2
Aufgabe 9.4.A
Substitutionsregel: Sei (Ω0 , F 0 ) ein Messraum und sei T : Ω → Ω0 ¯ eine messbare Funktion. Dann ist h ◦ T messbar. Sei ferner h : Ω0 → R genau dann µ–quasiintegrierbar, wenn h µT –quasiintegrierbar ist, und in diesem Fall gilt f¨ ur alle A0 ∈ F 0 Z Z (h ◦ T )(ω) dµ(ω) = h(ω 0 ) dµT (ω 0 ) T −1 (A0 )
A0
9.5 Integration nach einem eingeschr¨ ankten Maß
165
9.5 Integration nach einem eingeschr¨ ankten Maß Das µ–Integral wurde bisher nur f¨ ur solche Funktionen definiert, die auf der gesamten Grundmenge Ω oder auf dem Komplement Ω\N einer µ–Nullmenge N definiert sind. Gelegentlich treten allerdings auch Funktionen auf, die nur auf einer messbaren Menge C ∈ F definiert sind, deren Komplement keine µ–Nullmenge ist. Im gesamten Abschnitt sei C ∈ F. Dann ist das Mengensystem ¯ n o ¯ F(C) := D ∈ F ¯ D = A ∩ C f¨ ur eine Menge A ∈ F eine σ–Algebra auf C und die Abbildung SC : C → Ω mit SC (c) := c −1 ist messbar, denn f¨ ur alle A ∈ F gilt SC (A) = A ∩ C ∈ F (C). – Ist ν : F → [0, ∞] ein Maß, so heißt das Maß ν|F(C) : F(C) → [0, ∞] mit
ν|F (C) [D] := ν[D] –
die Restriktion von ν auf F(C). Ist (Ω0 , F 0 ) ein Messraum und h : Ω → Ω0 eine messbare Abbildung, so heißt die Abbildung h|C : C → Ω0 mit (h|C )(c) := h(c)
die Restriktion von h auf C; wegen h|C = h ◦ SC ist h|C messbar. Wir ben¨ otigen die folgende Darstellung des Bildmaßes von µ|F (C) unter SC : 9.5.1 Lemma. Es gilt Z (µ|F(C) )SC =
χC dµ
Beweis. F¨ ur alle A ∈ F gilt −1 (µ|F (C) )SC [A] = (µ|F(C) )[SC (A)]
= (µ|F(C) )[A ∩ C] = µ[A ∩ C] Z = dµ A∩C Z = χC dµ A
Damit ist die Behauptung gezeigt.
2
166
Kapitel 9. Berechnung des Lebesgue–Integrals
Aus Lemma 9.5.1 ergibt sich eine Darstellung des Integrals der Restriktion einer messbaren Funktion bez¨ uglich der Restriktion des Maßes: 9.5.2 Lemma. Sei h eine messbare Funktion. (1) Ist h positiv , so gilt f¨ ur alle D ∈ F (C) Z Z (h|C )(c) dµ|F(C) (c) = h(ω) dµ(ω) D
D
(2) h|C ist genau dann µ|F (C) –integrierbar , wenn hχC µ–integrierbar ist, und in diesem Fall gilt f¨ ur alle D ∈ F (C) Z Z (h|C )(c) dµ|F(C) (c) = h(ω) dµ(ω) D
D
Beweis. Ist h positiv, so ist auch h|C positiv und aus der Substitutionsregel und der Kettenregel folgt f¨ ur alle A ∈ F Z Z (h|C )(c) d(µ|F(C) )(c) = (h ◦ SC )(c) d(µ|F(C) )(c) −1 SC (A)
A∩C
Z =
ZA =
h(ω) d(µ|F(C) )SC (ω) h(ω) χC (ω) dµ(ω)
ZA =
h(ω) dµ(ω) A∩C
Ist h beliebig, so folgt aus der Substitutionsregel und der Kettenregel, dass h|C genau dann µ|F(C) –integrierbar ist, wenn hχC µ–integrierbar ist, und auch in diesem Fall gilt f¨ ur alle A ∈ F Z Z (h|C )(c) d(µ|F(C) )(c) = h(ω) dµ(ω) A∩C
A∩C
Die Behauptung folgt nun aus der Definition von F(C).
2
¯ Das Lemma legt es nahe, f¨ ur eine F(C)–B(R)–messbare positive oder µ|F(C) – ¯ und D ∈ F (C) die Notation zu vereinfachen integrierbare Funktion g : C → R und Z Z g dµ := g d(µ|F(C) ) D
D
zu setzen und die Funktion g als Lebesgue–integrierbar oder als µ–integrierbar oder kurz als integrierbar zu bezeichnen, wenn sie µ|F(C) –integrierbar ist.
9.5 Integration nach einem eingeschr¨ ankten Maß
167
Mit Hilfe geeigneter Restriktion von Maßen und messbaren Funktionen ist es insbesondere m¨ oglich, Folgerung 9.4.2 auf Transformationen zu erweitern, die nur lokal injektiv sind: 9.5.3 Lemma. Sei h eine positive messbare Funktion und sei Z ν := h(ω) dµ(ω) Sei ferner (Ω0 , F 0 ) ein Messraum und T : Ω → Ω0 messbar. Ist die Restriktion T |C injektiv mit T (C) ∈ F 0 und ihre Umkehrfunktion (T |C )−1 : T (C) → C messbar , so gilt f¨ ur alle B 0 ∈ F 0 Z ³ ´ 0 (ν|F(C) )(T |C ) [B ] = h (T |C )−1 (ω 0 ) d(µ|F(C) )(T |C ) (ω 0 ) B0
Beweis. Nach Lemma 9.5.2 gilt f¨ ur alle D ∈ F (C) Z Z (ν|F(C) )[D] = ν[D] = h(ω) dµ(ω) = (h|C )(c) d(µ|F(C) )(c) D
D
Es gilt also Z ν|F (C) =
(h|C )(c) d(µ|F(C) )(c)
Die Behauptung ergibt sich nun aus Folgerung 9.4.2.
2
Wir gelangen damit zu dem folgenden allgemeinen Ergebnis: 9.5.4 Satz. Sei h eine positive messbare Funktion und sei Z ν := h(ω) dµ(ω) Sei ferner (Ω0 , F 0 ) ein Messraum und T : Ω → Ω0 messbar. Ist P {Ci }i∈I ⊆ F eine abz¨ ahlbare disjunkte Familie nichtleerer Mengen mit ν[Ω \ i∈I Ci ] = 0 derart, dass f¨ ur alle i ∈ I die Restriktion T |Ci injektiv mit T (Ci ) ∈ F 0 und ihre Umkehrfunktion (T |Ci )−1 : T (Ci ) → Ci messbar ist, so gilt f¨ ur alle B 0 ∈ F 0 ³ ´ XZ νT [B 0 ] = h (T |Ci )−1 (ω 0 ) d(µ|F(Ci ) )(T |Ci ) (ω 0 ) i∈I
B 0 ∩T (Ci )
Beweis. Sei B 0 ∈ F 0 . Dann gilt f¨ ur alle i ∈ I T −1 (B 0 ) ∩ Ci = (T |Ci )−1 (B 0 ∩ T (Ci ))
168
Kapitel 9. Berechnung des Lebesgue–Integrals
und aus Lemma 9.5.3 ergibt sich nun νT [B 0 ] = ν[T −1 (B 0 )] " =ν T =
X
−1
0
(B ) ∩
X
# Ci
i∈I
ν[T −1 (B 0 ) ∩ Ci ]
i∈I
=
X
(ν|F(Ci ) )[T −1 (B 0 ) ∩ Ci ]
i∈I
=
X
(ν|F(Ci ) )[(T |Ci )−1 (B 0 ∩ T (Ci ))]
i∈I
=
X
(ν|F(Ci ) )(T |Ci ) [B 0 ∩ T (Ci )]
i∈I
=
XZ i∈I
B 0 ∩T (Ci )
³ ´ h (T |Ci )−1 (ω 0 ) d(µ|F(Ci ) )(T |Ci ) (ω 0 )
Damit ist die Behauptung gezeigt.
2
9.6 Produktmaße In diesem Abschnitt betrachten wir zwei Maßr¨ aume (M, M, µ) und (N, N , ν) sowie das Produkt (M, M) ⊗ (N, N ) = (M × N, M ⊗ N ) der Messr¨ aume (M, M) und (N, N ). Nach Satz 3.3.4 gilt M ⊗ N = σ(M × N ), und nach Aufgabe 3.1.A ist M × N ein Halbring. Ein Maß % : M ⊗ N → [0, ∞] heißt Produktmaß von µ und ν, wenn f¨ ur alle A×B ∈M×N %[A × B] = µ[A] ν[B] gilt und es kein weiteres Maß mit dieser Eigenschaft gibt. Im Fall der Existenz bezeichnen wir das Produktmaß von µ und ν mit µ⊗ν und nennen den Maßraum (M, M, µ) ⊗ (N, N , ν) := (M × N, M ⊗ N , µ ⊗ ν) das Produkt der Maßr¨aume (M, M, µ) und (N, N , ν). Wir betrachten daher die Abbildung % : M × N → [0, ∞] mit %[A × B] := µ[A] ν[B] und zeigen zun¨ achst, dass % ein Maß ist. Dazu ben¨ otigen wir eine Darstellung der Werte von % durch Integrale.
9.6 Produktmaße
169
F¨ ur C ∈ 2M ×N und x ∈ M heißt die Menge ¯ n o ¯ Cx := y ∈ N ¯(x, y) ∈ C x–Schnitt von C. Das folgende Lemma liefert die angek¨ undigte Darstellung der Werte von % durch Integrale: 9.6.1 Lemma. Sei A × B ∈ M × N . F¨ ur alle x ∈ M gilt dann (A × B)x ∈ N und ν[(A × B)x ] = ν[B] χA (x) ¯ : x 7→ ν[(A×B)x ] messbar und positiv , Insbesondere ist die Abbildung M → R und es gilt Z %[A × B] = ν[(A × B)x ] dµ(x) M
Beweis. F¨ ur alle x ∈ M gilt ½ (A × B)x =
B ∅
falls x ∈ A sonst
und damit (A × B)x ∈ N und ν[(A × B)x ] = ν[B] χA (x) ¯ : x 7→ ν[(A × B)x ] messbar und positiv, und Daher ist die Abbildung M → R es gilt £ ¤ % A × B = µ[A] ν[B] Z = ν[B] dµ(x) ZA = ν[B] χA (x) dµ(x) M Z = ν[(A × B)x ] dµ(x) M
Damit ist das Lemma bewiesen.
2
Mit Hilfe von Lemma 9.6.1 k¨onnen wir nun zeigen, dass % ein Maß ist: 9.6.2 Lemma. Die Abbildung % : M × N → [0, ∞] ist ein Maß. Beweis. Sei ∅ = A × B eine Darstellung der leeren Menge ∅ ∈ 2M ×N . Dann gilt A = ∅ oder B = ∅, und damit µ[A] = 0 oder ν[B] = 0. Daher gilt %[∅] = %[A × B] = µ[A] ν[B] = 0
170
Kapitel 9. Berechnung des Lebesgue–Integrals
P∞ Sei nun {Ck }k∈N ⊆ M × eine disjunkte ur PN P∞ Folge mit k=1 Ck ∈ M × N . F¨ ∞ alle x ∈ M gilt dann ( k=1 Ck )x = k=1 (Ck )x , und aus Lemma 9.6.1 und dem Satz u ¨ ber die monotone Konvergenz folgt nun "∞ # Z "Ã ∞ ! # X X % Ck = ν Ck dµ(x) M
k=1
"
Z =
ν M
Z =
k=1 ̰ X
=
#x
(Ck )x dµ(x) !
ν[(Ck )x ] dµ(x)
M
=
k=1 ∞ X
∞ Z X k=1 ∞ X
k=1
ν[(Ck )x ] dµ(x)
M
%[Ck ]
k=1
Daher ist % σ–additiv. Damit ist gezeigt, dass % ein Maß ist.
2
Da das Mengensystem M×N ein Halbring ist, folgt aus Lemma 9.6.2 und dem Existenzsatz die Existenz einer Fortsetzung von % auf M⊗N . Da das Mengensystem M × N insbesondere ∩–stabil ist, erh¨ alt man unter der zus¨ atzlichen Voraussetzung, dass % σ–endlich ist, aus dem Eindeutigkeitssatz außerdem die Eindeutigkeit der Fortsetzung. Die σ–Endlichkeit von % ist gew¨ ahrleistet, wenn µ und ν σ–endlich sind. Aus dem Satz von Caratheodory erh¨ alt man daher das folgende Ergebnis: 9.6.3 Satz (Existenzsatz). Seien µ und ν σ–endlich. Dann besitzen µ und ν ein Produktmaß , und das Produktmaß ist σ–endlich. Unser n¨ achstes Ziel ist es, die in Lemma 9.6.1 angegebene Darstellung der Werte von % durch Integrale zu einer Darstellung der Werte des Produktmaßes µ ⊗ ν durch Integrale zu verallgemeinern. 9.6.4 Lemma. Sei C ∈ M ⊗ N . F¨ ur alle x ∈ M gilt dann Cx ∈ N . Beweis. Sei x ∈ M und
¯ n o ¯ Dx := D ∈ 2M ×N ¯ Dx ∈ N
Dann ist Dx ein Dynkin–System: (i) Es gilt (M × N )x = N ∈ N und damit M × N ∈ Dx . (ii) Sei D ∈ Dx . Dann gilt Dx ∈ N und Dx + ((M × N ) \ D)x = (M × N )x = N ∈ N , also ((M ×N )\D)x = N \Dx ∈ ¡N und damit )\D ∈ Dx . ¢ (M P, ∞ P×N ∞ (iii) Sei {Dk }k∈N ⊆ Dx disjunkt. Dann gilt Dk x = k=1 (Dk )x ∈ N k=1 P∞ und damit k=1 Dk ∈ Dx .
9.6 Produktmaße
171
Außerdem ist das Mengensystem M × N ∩–stabil und nach Lemma T 9.6.1 gilt M × N ⊆ Dx . Daraus folgt M ⊗ N = σ(M×N ) = δ(M×N ) ⊆ x∈M Dx . 2 9.6.5 Lemma. Sei ν σ–endlich. Dann ist f¨ ur alle C ∈ M ⊗ N die Abbildung ¯ : x 7→ ν[Cx ] messbar und positiv. M →R ¯ gegeben durch Beweis. F¨ ur C ∈ M ⊗ N sei die Funktion fC : M → R fC (x) := ν[Cx ] Dann ist fC positiv und es bleibt zu zeigen, dass fC messbar ist. (1) Wir nehmen zun¨achst an, dass ν endlich ist. Sei ¯ n o ¯ D := D ∈ 2M ×N ¯ fD ist messbar Dann ist D ein Dynkin–System: (i) F¨ ur alle x ∈ M gilt fM ×N (x) = ν[(M × N )x ] = ν[N ] Daher ist fM ×N messbar, und daraus folgt M × N ∈ D. (ii) Sei D ∈ D. F¨ ur alle x ∈ M gilt ((M × N ) \ D)x = N \ Dx und damit f(M ×N )\D (x) = ν[((M × N ) \ D)x ] = ν[N \ Dx ] = ν[N ] − ν[Dx ] = fM ×N (x) − fD (x) Daher ist f(M ×N)\D messbar, und daraus folgtP(M × N ) \ DP ∈ D. . ∞ ∞ (iii) Sei {Dk }k∈N ⊆ D disjunkt. F¨ ur alle x ∈ M gilt ( k=1 Dk )x = k=1 (Dk )x und damit "Ã ∞ !# X P f ∞ (x) = ν Dk k=1 Dk " =ν
k=1 ∞ X
#x
(Dk )x
k=1
= =
∞ X k=1 ∞ X k=1
ν[(Dk )x ] fDk (x)
P∞ Daher ist fP∞ (x) messbar, und daraus folgt k=1 Dk ∈ D. k=1 Dk Damit ist gezeigt, dass D ein Dynkin–System ist. Außerdem ist das Mengensystem M × N ∩–stabil und nach Lemma 9.6.1 gilt M × N ⊆ D. Daraus folgt M ⊗ N = σ(M × N ) = δ(M × N ) ⊆ D. Daher ist die Abbildung fC f¨ ur alle C ∈ M ⊗ N messbar.
172
Kapitel 9. Berechnung des Lebesgue–Integrals
(2) Wir nehmen nun an, dass ν σ–endlich ist. Dann gibt es eine monoton S wachsende Folge {Bn }n∈N ⊆ N mit n∈N Bn = N und ν[Bn ] < ∞ f¨ ur alle n ∈ N, und f¨ ur alle n ∈ N ist die Mengenfunktion νn : N → [0, ∞] mit νn [B] := ν[B ∩ Bn ] ein endliches Maß. F¨ ur C ∈ M ⊗ N ist daher nach (1) f¨ ur alle n ∈ N die ¯ mit Funktion fn,C : M → R fn,C (x) := νn [Cx ] messbar und positiv, und wegen fC (x) = ν[Cx ] = sup ν[Cx ∩ Bn ] = sup νn [Cx ] = sup fn,C (x) n∈N
n∈N
n∈N
ist auch fC messbar und positiv.
2
Mit diesen Vorbereitungen k¨onnen wir die angek¨ undigte Verallgemeinerung der Integraldarstellung von Lemma 9.6.1 beweisen: 9.6.6 Satz. Seien µ und ν σ–endlich. Dann gilt f¨ ur alle C ∈ M ⊗ N Z ¡ ¢ µ ⊗ ν [C] = ν[Cx ] dµ(x) M
¯ : x 7→ ν[Cx ] messbar Beweis. Nach Lemma 9.6.5 ist die Funktion M → R und positiv. Wir betrachten die Mengenfunktion %M : M ⊗ N → [0, ∞] mit Z %M [C] := ν[Cx ] dµ(x) M
Dann ur jede disjunkte Folge {Ck }k∈N ⊆ M × N mit P∞ gilt %M [∅] = 0 und f¨ C ∈ M × N gilt nach dem Satz u ¨ber die monotone Konvergenz k=1 k "∞ # Z "Ã ∞ ! # X X %M Ck = ν Ck dµ(x) M
k=1
"
Z =
ν M
Z =
=
#x
(Ck )x dµ(x)
k=1 ̰ X
!
ν[(Ck )x ] dµ(x)
M
=
k=1 ∞ X
∞ Z X k=1 ∞ X l=1
l=1
ν[(Ck )x ] dµ(x)
M
%M [Ck ]
9.6 Produktmaße
173
Daher ist %M ein Maß. Außerdem gilt f¨ ur alle A × B ∈ M × N Z %M [A × B] = ν[(A×B)x ] dµ(x) ZM = ν[B] χA (x) dµ(x) M
= µ[A] ν[B] = %[A × B] Daher gilt %M |M×N = %. Da µ und ν σ–endlich sind, ist auch % σ–endlich, und aus dem Eindeutigkeitssatz folgt nun %M = µ ⊗ ν. 2 Wir dehnen die Konstruktion des Produktmaßes nun auf endlich viele σ– endliche Maßr¨ aume aus: Sei N {(Ωi , Fi , µi )}i∈{1,...,n} eine endliche Familie von Maßr¨ aumen. Ein Maß n % : Qi=1 Fi → Q [0, ∞] heißt Produktmaß der Familie {µi }i∈{1,...,n} , wenn f¨ ur n n alle i=1 Ai ∈ i=1 Fi " n # n Y Y % Ai = µi [Ai ] i=1
i=1
gilt und es kein weiteres Maß mit dieser Eigenschaft gibt. Im Fall der Existenz bezeichnen wir das Produktmaß der Familie {µi }i∈{1,...,n} mit n O
µi
i=1
und nennen den Maßraum n O (Ωi , Fi , µi ) := i=1
Ã
n Y
Ωi ,
i=1
n O i=1
Fi ,
n O
! µi
i=1
das Produkt der Familie der Maßr¨aume {(Ωi , Fi , µi )}i∈{1,...,n} . 9.6.7 Satz. Sei {(Ωi , Fi , µi )}i∈{1,...,n} eine Nn Familie von σ–endlichen Maßr¨ aumen. Dann gibt es genau ein Maß % : i=1 Fi → [0, ∞] mit " n # n Y Y % Ai = µi [Ai ] i=1
f¨ ur alle
Qn i=1
Ai ∈
Qn i=1
i=1
Fi . Das Maß % ist σ–endlich.
Beweis. Die Behauptung ergibt sich unter Verwendung von Aufgabe 3.3.A und Aufgabe 9.6.A durch vollst¨andige Induktion aus Satz 9.6.3. 2
174
Kapitel 9. Berechnung des Lebesgue–Integrals
Aus dem letzten Satz erhalten wir eine Darstellung des n–dimensionalen Lebesgue–Maßes als Produktmaß: 9.6.8 Folgerung (Lebesgue–Maß). Es gilt λn =
n O
λ
i=1
Beweis. Da das Lebesgue–Maß λ σ–endlich ist, Nn Nnexistiert das Produktmaß n λ, und nach Beispiel 3.3.1 gilt B(R ) = i=1 i=1 B(R). Daher ist das n– dimensionale N Lebesgue–Maß λn auf der selben σ–Algebra definiert wie das n Produktmaß i=1 λ. F¨ ur alle (a, b] ∈ J (Rn ) mit a < b gilt n £ ¤ Y λn (a, b] = (bi − ai )
=
i=1 n Y
£ ¤ λ (ai , bi ]
i=1
à = =
n O
i=1 Ã n O
!" λ ! λ
n Y
# (ai , bi ]
i=1
£
(a, b]
¤
i=1
Nn
Daher stimmen die Maße λn und i=1 λ auf dem Halbring J (Rn ) u ¨berein. Da J (Rn ) als Halbring ∩–stabil ist und die Restriktion von λn aufN J (Rn ) n n σ–endlich ist, folgt aus dem Eindeutigkeitssatz, dass die Maße λ und i=1 λ n n sogar auf B(R ) = σ(J (R )) u 2 ¨ bereinstimmen. Im Fall (Ωi , Fi , µi ) = (Ω, F, µ) f¨ ur alle i ∈ {1, . . . , n} setzen wir, im Fall der Existenz des Produktmaßes, n
µ :=
n O
µ
i=1
Dies steht im Einklang mit dem letzten Ergebnis. Aufgabe 9.6.A
F¨ ur i ∈ {1, 2, 3} sei (Ωi , Fi , µi ) ein σ–endlicher Maßraum. Dann gilt (µ1 ⊗ µ2 ) ⊗ µ3 = µ1 ⊗ (µ2 ⊗ µ3 )
9.7 Integration nach einem Produktmaß
175
9.7 Integration nach einem Produktmaß Im gesamten Abschnitt seien (M, M, µ) und (N, N , ν) Maßr¨ aume. Sind µ und ν σ–endlich, so existiert nach Satz 9.6.3 das Produktmaß µ ⊗ ν, und wir zeigen nun, dass das Integral Z h(x, y) d(µ ⊗ ν)(x, y) M ×N
¯ die positiv oder µ ⊗ ν–integrierbar einer messbaren Funktion h : M × N → R, ist, iterativ berechnet werden kann. ¯ und x ∈ M heißt die Funktion hx : N → R ¯ F¨ ur eine Funktion h : M × N → R mit hx (y) := h(x, y) der x–Schnitt von h. ¯ eine Funktion und sei x ∈ M . 9.7.1 Lemma. Sei h : M × N → R ¯ (1) F¨ ur alle D ∈ B(R) gilt (hx )−1 (D) = (h−1 (D))x (2) Ist h messbar , so ist auch hx messbar. Beweis. Es gilt ¯ n o ¯ (hx )−1 (D) = y ∈ N ¯ hx (y) ∈ D ¯ n o ¯ = y ∈ N ¯ h(x, y) ∈ D ¯ n o ¯ = y ∈ N ¯ (x, y) ∈ h−1 (D) = (h−1 (D))x Ist h messbar, so folgt aus dieser Gleichung und Lemma 9.6.4, dass auch hx messbar ist. 2 ¯ Wir betrachten zun¨achst positive messbare Funktionen. Ist h : M × N → R eine positive messbare Funktion, so ist f¨ ur jedes x ∈ M auch die Funktion hx ¯ positiv und nach Lemma 9.7.1 messbar. Daher ist die Funktion fh : M → R mit Z fh (x) := hx (y) dν(y) N
wohldefiniert und positiv.
176
Kapitel 9. Berechnung des Lebesgue–Integrals
9.7.2 Satz (Fubini; positiver Fall). Seien µ und ν σ–endlich und sei ¯ messbar und positiv. Dann ist auch fh messbar und positiv , h : M ×N → R und es gilt Z Z h(x, y) d(µ ⊗ ν)(x, y) = M ×N
fh (x) dµ(x) M
Insbesondere ist h genau dann µ⊗ν–integrierbar , wenn fh µ–integrierbar ist. Beweis. Wir f¨ uhren den Beweis der Messbarkeit von fh und der Gleichheit der Integrale durch algebraische Induktion: (1) Sei C ∈ M ⊗ N . Da χC messbar und positiv ist, ist f¨ ur alle x ∈ M auch (χC )x = χCx messbar und positiv, und aus Lemma 9.7.1 folgt dann Z Z fχC (x) = (χC )x (y) dν(y) = χCx (y) dν(y) = ν[Cx ] N
N
Nach Lemma 9.6.5 ist fχC messbar und aus Satz 9.6.6 folgt nun Z Z fχC (x) dµ(x) = ν[Cx ] dµ(x) M
M
= (µ ⊗ ν)[C] Z = χC (x, y) d(µ ⊗ ν)(x, y) M ×N
Damit ist die Behauptung f¨ ur h = χC mit C ∈ M ⊗ N gezeigt. (2) Sei h eine positive einfache Funktion mit h=
n X
ci χCi
i=1
mit {CP ⊗ N und {ci }i∈{1,...,n} ⊆ R+ . F¨ ur alle x ∈ M gilt i }i∈{1,...,n} ⊆ MP n n hx = ( i=1 ci χCi )x = i=1 ci (χCi )x , und aus der positiven Linearit¨ at des Integrals folgt dann Z fh (x) = hx (y) dν(y) N Ã ! Z n X = ci (χCi )x (y) dν(y) N
= =
n X i=1 n X
i=1
Z
ci N
(χCi )x (y) dν(y)
ci fχCi (x)
i=1
Aus (1) ergibt sich nun zun¨achst die Messbarkeit von fh , und aus der positiven Linearit¨ at des Integrals und (1) ergibt sich des weiteren
9.7 Integration nach einem Produktmaß
Z fh (x) dµ(x) =
Z ÃX n
M
M
= =
n X i=1 n X
177
! ci fχCi (x) dµ(x)
i=1
Z
ci
fχCi (x) dµ(x)
M
Z ci M ×N
i=1
Ã
Z =
M ×N
!
ci χCi (x, y) d(µ ⊗ ν)(x, y)
i=1
Z =
n X
χCi (x, y) d(µ ⊗ ν)(x, y)
h(x, y) d(µ ⊗ ν)(x, y) M ×N
Damit ist die Behauptung f¨ ur positive einfache Funktionen gezeigt. (3) Sei h eine positive messbare Funktion. Dann gibt es eine monoton wachsende Folge {hn }n∈N von positiven einfachen Funktionen mit h = supn∈N hn . F¨ ur alle x ∈ M gilt hx = (supn∈N hn )x = supn∈N (hn )x , und aus dem Satz u ¨ber die monotone Konvergenz folgt dann Z fh (x) = hx (y) dν(y) ZN = sup(hn )x (y) dν(y) N n∈N Z = sup (hn )x (y) dν(y) n∈N
N
= sup fhn (x) n∈N
Aus (2) ergibt sich nun zun¨achst die Messbarkeit von fh , und aus dem Satz u ¨ber die monotone Konvergenz und (2) ergibt sich des weiteren Z Z fh (x) dµ(x) = sup fhn (x) dµ(x) M M n∈N Z = sup fhn (x) dµ(x) n∈N M Z = sup hn (x, y) d(µ ⊗ ν)(x, y) n∈N M ×N Z = sup hn (x, y) d(µ ⊗ ν)(x, y) n∈N ZM ×N = h(x, y) d(µ ⊗ ν)(x, y) M ×N
Damit ist der Satz bewiesen.
2
178
Kapitel 9. Berechnung des Lebesgue–Integrals
Wir betrachten nun integrierbare Funktionen. Hierf¨ ur ist eine Vor¨ uberlegung erforderlich: ¯ µ ⊗ ν–integrierbar. Dann Seien µ und ν σ–endlich und sei h : M × N → R sind auch die Funktionen h+ und h− µ ⊗ ν–integrierbar, und aus dem Satz von Fubini f¨ ur positive messbare Funktionen folgt nun die µ–Integrierbarkeit von fh+ und fh− . Dann sind aber fh+ und fh− µ–fast u ¨berall endlich, und damit gibt es eine µ–Nullmenge M0 ∈ M derart, dass f¨ ur alle x ∈ M \ M0 die Funktionen (h+ )x und (h− )x ν–integrierbar sind; wegen hx = (hx )+ − (hx )− sowie (hx )+ = (h+ )x und (hx )− = (h− )x ist dann f¨ ur alle x ∈ M \ M0 auch die Funktion hx ν–integrierbar und es gilt Z Z Z hx (y) dν(y) = (h+ )x (y) dν(y) − (h− )x (y) dν(y) N
N
N
= fh+ (x) − fh− (x) ¯ gegeben durch Sei nun fh : M → R Z hx (y) dν(y) N fh (x) := 0
falls x ∈ M \ M0 sonst
Dann gilt fh (x) = fh+ (x)χM \M0 (x) − fh− (x)χM \M0 (x) und damit ist auch fh µ–integrierbar. Der folgende Satz von Fubini f¨ ur integrierbare Funktionen ergibt sich nun unmittelbar aus dem Satz von Fubini f¨ ur positive messbare Funktionen: 9.7.3 Satz (Fubini; integrierbarer Fall). Seien µ und ν σ–endlich und ¯ µ ⊗ ν–integrierbar. Dann ist fh µ–integrierbar und es gilt sei h : M × N → R Z Z h(x, y) d(µ ⊗ ν)(x, y) = fh (x) dµ(x) M ×N
M
Im folgenden verzichten wir auf die Kennzeichnung der x–Schnitte und schreiben Z fh (x) = h(x, y) dν(y) N
Entsprechend schreiben wir die Gleichung des Satzes von Fubini in der Form ¶ Z Z µZ h(x, y) d(µ ⊗ ν)(x, y) = h(x, y) dν(y) dµ(x) M ×N
M
N
oder, unter Weglassung der Klammern, in der Form
9.7 Integration nach einem Produktmaß
179
Z
Z
Z
h(x, y) d(µ ⊗ ν)(x, y) =
h(x, y) dν(y) dµ(x)
M ×N
M
N
Vertauscht man schließlich die Rollen der Maße µ und ν, so erh¨ alt man unter den Voraussetzungen des Satzes von Fubini die zus¨ atzliche Gleichung Z Z Z h(x, y) d(µ ⊗ ν)(x, y) = h(x, y) dµ(x) dν(y) M ×N
N
M
Beide Gleichungen lassen sich zu der Gleichung Z Z Z h(x, y) dν(y) dµ(x) = h(x, y) d(µ ⊗ ν)(x, y) M N M ×N Z Z = h(x, y) dµ(x) dν(y) N
M
zusammenfassen. Unter der Voraussetzung des Satzes von Fubini kann das Integral von h also in beliebiger Reihenfolge iterativ ausgewertet werden. Neben der iterativen Berechnung des Integrals einer messbaren positiven oder integrierbaren Funktion auf dem Produkt zweier σ–endlicher Maßr¨ aume kann der Satz von Fubini auch f¨ ur die Berechnung des Integrals einer messbaren positiven oder integrierbaren Funktion f auf einem σ–endlichen Maßraum (M, M, µ) von Nutzen sein; zu diesem Zweck muss ein σ–endlicher Maßraum (N, N , ν) und eine messbare Rpositive oder integrierbare Funktion h auf (M, M, µ) ⊗ (N, N , ν) mit f (x) = N h(x, y) dν(y) gefunden werden, um den Satz von Fubini anwenden zu k¨onnen. 9.7.4 Beispiel. Sei (Ω, F , µ) ein σ–endlicher Maßraum und sei f messbar und positiv. Dann gilt Z Z f (ω) dµ(ω) = µ[{f ≥ x}] dλ(x) Ω
R+
In der Tat: Wir betrachten den σ–endlichen Maßraum (R, B(R), λ) und die Indikatorfunktion χC der Menge ¯ n o ¯ C := (ω, x) ∈ Ω × R ¯ 0 ≤ x ≤ f (ω) Die Indikatorfunktion χC ist positiv; außerdem ist sie genau dann messbar, wenn C ∈ F ⊗ B(R) gilt. Wir zeigen daher zun¨ achst, dass C ∈ F ⊗ B(R) gilt. Dazu betrachten wir die Menge ¯ ½µ ¶ ¾ ¯ x 2 ¯ D := ∈R ¯0≤x≤y y und die Funktion T : Ω × R → R2 mit µ T (ω, x) :=
x f (ω)
¶
180
Kapitel 9. Berechnung des Lebesgue–Integrals
Dann gilt C = T −1 (D). Da die Menge D abgeschlossen ist, gilt außerdem D ∈ B(R2 ). Die Koordinaten T1 , T2 : Ω × R → R von T mit T1 (ω, x) := x T2 (ω, x) := f (ω) sind wegen T1−1 (B) := Ω × B T2−1 (B) := f −1 (B) × R messbar; daher ist auch T messbar und es folgt C = T −1 (D) ∈ F ⊗ B(R). Aus dem Satz von Fubini ergibt sich nun einerseits Z Z Z χC (ω, x) d(µ ⊗ λ)(ω, x) = χC (ω, x) dλ(x) dµ(ω) Ω×R Ω R Z Z = χ[0,f (ω)] (x) dλ(x) dµ(ω) ZΩ R = λ[[0, f (ω]] dµ(ω) ZΩ = f (ω) dµ(ω) Ω
und andererseits Z Z Z χC (ω, x) d(µ ⊗ λ)(ω, x) = χC (ω, x) dµ(ω) dλ(x) Ω×R R Ω Z Z = χR+ (x) χ{f ≥x} (ω) dµ(ω) dλ(x) ZR Ω Z = χR+ (x) χ{f ≥x} (ω) dµ(ω) dλ(x) Ω ZR = µ[{f ≥ x}] dλ(x) R+
Damit ist die Behauptung gezeigt.
Aufgabe 9.7.A
Sei (Ω, F , µ) ein σ–endlicher Maßraum und sei f positiv und messbar. Dann gilt Z Z f (ω) dµ(ω) = µ[{f > x}] dλ(x) Ω
R+
9.8 Lebesgue–Integral und Riemann–Integral In diesem Abschnitt stellen wir Beziehungen zwischen dem Lebesgue–Integral nach dem Lebesgue–Maß und dem Riemann–Integral bzw. dem uneigentlichen Riemann–Integral her. Wir betrachten zun¨achst Funktionen auf einem abgeschlossenen Intervall [a, b] ⊆ R und bezeichnen mit B[a, b] die Spur–σ–Algebra von B(R) auf [a, b].
9.8 Lebesgue–Integral und Riemann–Integral
181
Eine Funktion f : [a, b] → R heißt Treppenfunktion, wenn es ein n ∈ N und eine streng monoton wachsende endliche Folge {xi }i∈{0,1,...,n} ⊆ R mit a = x0 und xn = b sowie eine Familie {ci }i∈{1,...,n} ⊆ R gibt mit f (x) = ci f¨ ur alle i ∈ {1, . . . , n} und x ∈ (xi−1 , xi ); in diesem Fall ist die reelle Zahl Z
b
f (x) dx := a
n X
ci (xi −xi−1 )
i=1
unabh¨ angig von der Darstellung von f und heißt das Riemann–Integral von f . 9.8.1 Lemma. Sei f : [a, b] → R eine Treppenfunktion. Dann ist f λ–integrierbar und es gilt Z b Z f (x) dx = f (x) dλ(x) a
[a,b]
Beweis. Da f eine Treppenfunktion ist, gibt es eine streng monoton wachsende endliche Folge {xi }i∈{0,1,...,n} ⊆ R mit a = x0 und xn = b sowie eine Familie {ci }i∈{1,...,n} ⊆ R mit f (x) = ci f¨ ur alle i ∈ {1, . . . , n} und x ∈ (xi−1 , xi ). Da jedes offene Intervall und jede einelementige Teilmenge des Intervalls [a, b] messbar ist, ist f B[a, b]–messbar. Es gilt n X
f =
ci χ(xi−1 ,xi )
i=1
λ–fast u ¨berall und damit n X
|f | =
|ci | χ(xi−1 ,xi )
i=1
λ–fast u ¨berall. Wegen Z
Ã
Z |f |(x) dλ(x) =
[a,b]
[a,b]
= =
n X i=1 n X i=1
n X
! |ci | χ(xi−1 ,xi ) (x) dλ(x)
i=1
|ci | λ[(xi−1 , xi )] |ci | (xi −xi−1 )
182
Kapitel 9. Berechnung des Lebesgue–Integrals
ist |f | und damit auch f λ–integrierbar und es gilt à n ! Z Z X f (x) dλ(x) = ci χ(xi−1 ,xi ) (x) dλ(x) [a,b]
[a,b]
= =
n X i=1 n X
i=1
ci λ[(xi−1 , xi )] ci (xi −xi−1 )
i=1 Z b
=
f (x) dx a
Damit ist das Lemma bewiesen.
2
Eine Funktion f : [a, b] → R heißt Riemann–integrierbar , wenn sie beschr¨ ankt ist und die reellen Zahlen ¯ ½Z b ¾ Z b ¯ ¯ U − f (x) dx := sup g(x) dx ¯ g ist Treppenfunktion mit g ≤ f ¯ a a und Z O−
½Z
b
b
f (x) dx := inf a
a
¯ ¾ ¯ ¯ h(x) dx ¯ h ist Treppenfunktion mit f ≤ h ¯
u ¨bereinstimmen; in diesem Fall heißt die reelle Zahl Z b Z b Z f (x) dx := U − f (x) dx = O− a
a
b
f (x) dx
a
das Riemann–Integral von f . Jede Treppenfunktion ist Riemann–integrierbar und die Definition des Riemann–Integrals f¨ ur Riemann–integrierbare Funktionen ist mit der f¨ ur Treppenfunktionen vertr¨ aglich. 9.8.2 Satz. Sei f : [a, b] → R Riemann–integrierbar. Dann gibt es eine λ–integrierbare Funktion g : [a, b] → R mit f = g λ–fast u ¨berall und Z b Z f (x) dx = g(x) dλ(x) a
[a,b]
Beweis. Da f Riemann–integrierbar ist, gibt es eine monoton wachsende Folge {gn }n∈N von Treppenfunktionen mit supn∈N gn ≤ f und Z sup n∈N
Z
b
b
gn (x) dx = a
f (x) dx a
9.8 Lebesgue–Integral und Riemann–Integral
183
sowie eine monoton fallende Folge {hn }n∈N von Treppenfunktionen mit f ≤ inf n∈N hn und Z b Z b f (x) dx = inf hn (x) dx n∈N
a
a
Aufgrund der Messbarkeit von Treppenfunktionen sind auch die Funktionen g := sup gn n∈N
h := inf hn n∈N
messbar, und aus der Monotonie der Folgen {gn }n∈N und {hn }n∈N ergibt sich g = lim gn ≤ f ≤ lim hn = h n→∞
und
Z n→∞
Z
b
lim
n→∞
a
Z
b
gn (x) dx =
b
f (x) dx = lim
n→∞
a
hn (x) dx a
Wir zeigen nun, dass h − g = 0 λ–fast u ¨ berall gilt. Wegen g ≤ f ≤ h gilt 0 ≤ h − g = lim hn − lim gn = lim (hn −gn ) n→∞
n→∞
n→∞
und f¨ ur alle n ∈ N ist hn − gn eine Treppenfunktion mit |hn −gn | = hn − gn ≤ h1 − g1 Aus dem Satz u ¨ber die majorisierte Konvergenz und Lemma 9.8.1 folgt nun Z 0≤ (h−g)(x) dλ(x) [a,b] Z = lim (hn −gn )(x) dλ(x) [a,b] n→∞ Z = lim (hn −gn )(x) dλ(x) n→∞
[a,b]
Z
b
= lim
n→∞
(hn −gn )(x) dx a
Z
= lim
n→∞
Z
Z
b
hn (x) dx − lim a
b
=
n→∞
Z
gn (x) dx a
b
f (x) dx − a
b
f (x) dx a
=0 Daher gilt h − g = 0 λ–fast u ¨berall, und wegen g ≤ f ≤ h folgt daraus f = g λ–fast u ¨berall.
184
Kapitel 9. Berechnung des Lebesgue–Integrals
F¨ ur alle n ∈ N gilt g1 ≤ gn ≤ g ≤ h ≤ h1 , und daraus folgt supn∈N |gn | ≤ (−g1 ) ∨ h1 und |g| ≤ (−g1 ) ∨ h1 . Nach Lemma 9.8.1 ist (−g1 ) ∨ h1 und damit auch supn∈N |gn | und g λ–integrierbar. Aus dem Satz u ¨ber die majorisierte Konvergenz folgt nun mit Lemma 9.8.1 Z b Z b f (x) dx = lim gn (x) dx n→∞ a a Z = lim gn (x) dλ(x) n→∞ [a,b] Z = lim gn (x) dλ(x) [a,b] n→∞ Z = g(x) dλ(x) [a,b]
Damit ist der Satz bewiesen.
2
F¨ ur messbare Riemann–integrierbare Funktionen erh¨ alt man eine st¨ arkere Aussage: 9.8.3 Folgerung. Sei f : [a, b] → R Riemann–integrierbar und messbar. Dann ist f λ–integrierbar und es gilt Z b Z f (x) dx = f (x) dλ(x) a
[a,b]
Beweis. Nach Satz 9.8.2 gibt es eine λ–integrierbare Funktion g : [a, b] → R mit f = g λ–fast u ¨berall und Z b Z f (x) dx = g(x) dλ(x) a
[a,b]
Da f messbar ist, ist nach Lemma 8.3.6 auch f λ–integrierbar und es gilt Z Z f (x) dλ(x) = g(x) dλ(x) [a,b]
[a,b]
Daraus folgt die Behauptung.
2
Das folgende Beispiel zeigt, dass eine beschr¨ankte λ–integrierbare Funktion nicht Riemann–integrierbar zu sein braucht: 9.8.4 Beispiel (Dirichlet–Funktion). Die Dirichlet–Funktion f : [a, b] → R mit ½ 1 falls x ∈ Q ∩ [a, b] f (x) := 0 sonst ist λ–integrierbar und beschr¨ ankt, aber sie ist nicht Riemann–integrierbar.
¯ Wir betrachten nun Funktionen auf einem offenen Intervall (a, b) ⊆ R.
9.8 Lebesgue–Integral und Riemann–Integral
185
Eine Funktion f : (a, b) → R heißt uneigentlich Riemann–integrierbar, wenn f¨ ur jedes Intervall [c, d] ⊆ (a, b) die Funktion f |[c,d] Riemann–integrierbar ist und f¨ ur ein t ∈ (a, b) die Grenzwerte Z t Z u lim f (x) dx und lim f (x) dx s↓a
u↑b
s
t
in R existieren. In diesem Fall ist die Summe dieser Grenzwerte unabh¨ angig von der Wahl von t und die reelle Zahl Z b Z t Z u f (x) dx := lim f (x) dx + lim f (x) dx s↓a
a
u↑b
s
t
heißt das uneigentliche Riemann–Integral von f . F¨ ur positive messbare Funktionen erhalten wir das folgende Ergebnis: 9.8.5 Satz. Sei f : (a, b) → R eine positive messbare Funktion derart, dass f¨ ur jedes Intervall [c, d] ⊆ (a, b) die Funktion f |[c,d] Riemann–integrierbar ist. Dann sind folgende Aussagen ¨ aquivalent : (a) f ist uneigentlich Riemann–integrierbar. (b) f ist λ–integrierbar. In diesem Fall gilt Z b Z f (x) dx = f (x) dλ(x) a
(a,b)
Beweis. Wir betrachten ein t ∈ (a, b) sowie eine monoton fallende Folge {an }n∈N ⊆ (a, t] mit limn→∞ an = a und eine monoton wachsende Folge {bn }n∈N ⊆ [t, b) mit limn→∞ bn = b. Aus dem Satz u ¨ber die monotone Konvergenz ergibt sich mit Folgerung 9.8.3 Z Z Z t f (x) dλ(x) = lim f (x) dλ(x) = lim f (x) dx n→∞
(a,t]
sowie
Z
n→∞
[an ,t]
Z
Z
f (x) dλ(x) = lim [t,b)
an
bn
f (x) dλ(x) = lim
n→∞
n→∞
[t,bn ]
f (x) dx t
Wegen λ[{t}] = 0 ergibt sich aus diesen Gleichungen Z Z Z f (x) dλ(x) = f (x) dλ(x) + f (x) dλ(x) (a,b)
(a,t]
Z
[t,b) t
= lim
n→∞
Z =
Z
f (x) dx + lim an
n→∞
bn
f (x) dx t
b
f (x) dx a
Daraus folgt die Behauptung.
2
186
Kapitel 9. Berechnung des Lebesgue–Integrals
Die folgenden Beispiele zeigen, dass die in der Definition der Gamma–Funktion und der Beta–Funktion auftretenden uneigentlichen Riemann–Integrale als Lebesgue–Integrale nach dem Lebesgue–Maß dargestellt werden k¨ onnen: 9.8.6 Beispiele. (1) Gamma–Funktion: F¨ ur alle γ ∈ (0, ∞) gilt Z ∞ Z Γ(γ) = e−z z γ−1 dz = 0
e−z z γ−1 dλ(z)
(0,∞)
(2) Beta–Funktion: F¨ ur alle α, β ∈ (0, ∞) gilt Z 1 Z B(α, β) = z α−1 (1−z)β−1 dz = 0
z α−1 (1−z)β−1 dλ(z)
(0,1)
Das folgende Beispiel zeigt, dass im letzten Satz die Forderung der Positivit¨ at der Funktion wesentlich ist: 9.8.7 Beispiel. Die Funktion f : (0, ∞) → R mit sin(x) x ist bekanntlich uneigentlich Riemann–integrierbar mit Z ∞ π f (x) dx = 2 0 f (x) :=
Wegen
Z
Z |f |(x) dλ(x) =
(0,∞)
(0,∞)
≥ = = =
| sin(x)| dλ(x) x
∞ Z X
n=1 [(n−1)π,nπ] Z ∞ X
1 π 1 π 2 π
n=1 ∞ X n=1 ∞ X n=1
1 n 1 n
| sin(x)| dλ(x) nπ | sin(x)| dλ(x)
[(n−1)π,nπ]
Z
nπ
| sin(x)| dx (n−1)π
1 n
ist f nicht λ–integrierbar.
Wir geben einige Beispiele, die in der Wahrscheinlichkeitstheorie von Interesse sind: 9.8.8 Beispiele. (1) F¨ ur alle a ∈ (0, ∞) gilt Z
−ax2
xe (0,∞)
Z dλ(x) = 0
∞
2
x e−ax dx =
1 2a
9.8 Lebesgue–Integral und Riemann–Integral
187
(2) Es gilt Z (0,∞)
Z
1 dλ(x) = 1 + x2
∞
0
1 π dx = 1 + x2 2
und Z R
1 dλ(x) = 1 + x2
Z
∞
−∞
1 dx = π 1 + x2
(3) Es gilt Z
2
e−x dλ(x) = (0,∞)
1√ π 2
und Z
2
e−x dλ(x) =
√
π
R
In der Tat: Die Funktion h : R2 → R mit h(x, y) := y e−(1+x
2
)y 2
χ(0,∞)2 (x, y)
ist messbar und positiv. Die erste Gleichung ergibt sich mit Hilfe des Satzes von Fubini durch die beiden iterativen Auswertungen des Integrals Z h(x, y) dλ2 (x, y) R2
Aus dem Satz von Fubini ergibt sich unter Verwendung von (1) und (2) Z Z Z h(x, y) dλ2 (x, y) = h(x, y) dλ(y) dλ(x) R2 ZR ZR 2 2 = y e−(1+x )y χ(0,∞)2 (x, y) dλ(y) dλ(x) ZR R Z 2 2 = y e−(1+x )y dλ(y) dλ(x) (0,∞)
Z =
(0,∞)
(0,∞)
1 1 dλ(x) 2 1 + x2
1 π = · 2 2 π = 4 Wir betrachten nun f¨ ur y ∈ (0, ∞) die lineare Abbildung Ty : R → R mit Ty (x) := xy. Dann ist Ty bijektiv mit Ty−1 (0, ∞) = (0, ∞) und | det(Ty )| = y, und aus Satz 6.3.1 ergibt sich λTy = y −1 λ. Aus dem Satz von Fubini und der Substitutionsregel ergibt sich Z Z Z h(x, y) dλ2 (x, y) = h(x, y) dλ(x) dλ(y) R2
R
R
188
Kapitel 9. Berechnung des Lebesgue–Integrals Z Z = ZR =
2
2
y e−(1+x )y χ(0,∞)2 (x, y) dλ(x) dλ(y) R Z 2 2 2 y e−x y dλ(x) e−y dλ(y)
(0,∞)
Z
(0,∞)
Z
2
2
y e−(Ty (x)) dλ(x) e−y dλ(y)
= (0,∞)
Z
(Ty
Z
)−1 (0,∞) 2
2
y e−z dλTy (z) e−y dλ(y)
= (0,∞)
Z
(0,∞)
Z
2
2
y e−z y−1 dλ(z) e−y dλ(y)
= (0,∞)
Z
(0,∞)
Z
2
2
e−z dλ(z) e−y dλ(y)
= (0,∞)
(0,∞)
Z
Z
2
2
e−z dλ(z)
= (0,∞)
e−y dλ(y) (0,∞)
µZ
2
e−z dλ(z)
=
¶2
(0,∞)
Daher gilt µZ
2
e−z dλ(z)
¶2
Z h(x, y) dλ2 (x, y) =
= R2
(0,∞)
π 4
und damit Z
2
e−x dλ(x) = (0,∞)
1√ π 2
Damit ist die erste Gleichung gezeigt. Des weiteren ist die Abbildung S : R → R mit S(x) := − x bijektiv mit S −1 (0, ∞) = (−∞, 0) und | det(S)| = 1, und aus Satz 6.3.1 ergibt sich λS = λ. Daher gilt Z Z 2 2 e−x dλ(x) = e−(S(x)) dλ(x) S −1 (0,∞)
(−∞,0)
Z
2
e−z dλS (z)
= (0,∞)
Z
2
e−z dλ(z)
= (0,∞)
1√ = π 2 und wegen λ[{0}] = 0 ergibt sich nun Z Z Z 2 2 e−x dλ(x) = e−x dλ(x) + R
(−∞,0)
(0,∞)
Damit ist auch die zweite Gleichung gezeigt.
2
e−x dλ(x) =
√ 1√ 1√ π+ π= π 2 2
9.8 Lebesgue–Integral und Riemann–Integral
189
Aus dem Zusammenhang zwischen dem Lebesgue–Integral und dem Riemann– Integral erhalten wir auch eine weitere Eigenschaft von Transformationen des Lebesgue–Maßes: 9.8.9 Lemma. Sei C ⊆ R ein nichtleeres offenes Intervall und sei T : C → R stetig differenzierbar mit T 0 (x) 6= 0 f¨ ur alle x ∈ C. Dann gilt Z ¯ −1 ¯ ¯ dT ¯ (λ|B(C) )T |B(T (C)) = ¯¯ (z)¯¯ dλ|B(T (C)) (z) dz Beweis. Nach Voraussetzung ist T stetig und entweder streng monoton wachsend oder streng monoton fallend. Daher ist T (C) ein offenes Intervall und T besitzt eine Umkehrfunktion T −1 : T (C) → C, die stetig differenzierbar ist und dieselben Monotonieeigenschaften besitzt wie T . Wir betrachten nun die Messr¨aume (C, B(C)) und (T (C), B(T (C))) und die Restriktionen λ|B(C) und λ|B(T (C)) des Lebesgue–Maßes λ. Da die Abbildung S := T −1 stetig differenzierbar ist, ist ihre Ableitung S 0 : T (C) → C messbar. Wir betrachten das Maß ν : B(T (C)) → [0, ∞] mit Z ν := |S 0 (z)| dλ|B(T (C)) (z) und berechnen das Bildmaß νS : B(C) → [0, ∞]: – Ist T streng monoton wachsend, so ist auch S streng monoton wachsend und f¨ ur alle [a, b] ⊆ C gilt νS [[a, b]] = ν[S −1 ([a, b])] = ν[[S −1 (a), S −1 (b)]] Z = |S 0 (z)| dλ|B(T (C)) (z) [S −1 (a),S −1 (b)] Z = S 0 (z) dλ|B(T (C)) (z) Z
[S −1 (a),S −1 (b)] S −1 (b)
=
S 0 (z) dz
S −1 (a)
= S(S −1 (b)) − S(S −1 (a)) = b−a = λ|B(C) [[a, b]] –
Ist T streng monoton fallend, so ist auch S streng monoton fallend und man erh¨ alt wiederum f¨ ur alle [a, b] ⊆ C νS [[a, b]] = λ|B(C) [[a, b]]
190
Kapitel 9. Berechnung des Lebesgue–Integrals
Daher gilt in jedem Fall f¨ ur alle [a, b] ⊆ C νS [[a, b]] = λ|B(C) [[a, b]] Da das Mengensystem E := {[a, b] | [a, b] ⊆ C} ein ∩–stabiler Erzeuger von B(C) ist und (λ|B(C) )|E σ–endlich ist, folgt aus dem Eindeutigkeitssatz νS = λ|B(C) und damit (λ|B(C) )T |B(T (C)) = (νS )T |B(T (C)) = νT ◦S |B(T (C)) = ν Die Behauptung des Lemmas folgt nun aus der Definition von ν.
2
Teil IV
Wahrscheinlichkeitstheorie
10 Wahrscheinlichkeitsr¨ aume
Ist (Ω, F ) ein Messraum und ist P : F → [0, 1] ein Maß mit P [Ω] = 1, so heißt das Maß P Wahrscheinlichkeitsmaß und der Maßraum (Ω, F, P ) heißt Wahrscheinlichkeitsraum. Diese Definitionen gehen auf Kolmogorov [1933] zur¨ uck, der so die Wahrscheinlichkeitstheorie in die Maß– und Integrationstheorie eingebettet und die Grundlage f¨ ur die moderne Wahrscheinlichkeitstheorie gelegt hat. Der Wahrscheinlichkeitstheorie stehen damit alle Begriffe und Ergebnisse der Maß– und Integrationstheorie zur Verf¨ ugung; dar¨ uber hinaus gewinnt sie aus der Konzentration auf Wahrscheinlichkeitsmaße eine eigene Kraft, die neue Begriffe hervorbringt, die in der allgemeinen Maß– und Integrationstheorie ohne Bedeutung sind und die zu einer reichen Theorie f¨ uhren, die unz¨ ahlige Anwendungen besitzt und die wir in diesem und den folgenden Kapiteln nur in ihren Grundz¨ ugen darstellen k¨onnen. In diesem Kapitel betrachten wir zun¨achst die elementaren Begriffe der Wahrscheinlichkeitstheorie (Abschnitt 10.1) und behandeln sodann die wesentlichen Prinzipien zur Konstruktion von Wahrscheinlichkeitsr¨ aumen. Die einfachsten Wahrscheinlichkeitsr¨aume sind die diskreten (Abschnitt 10.2) oder sogar symmetrischen Wahrscheinlichkeitsr¨aume (Abschnitt 10.3), deren Konstruktion ¨ durch elementare Uberlegungen erfolgen kann. Theoretisch anspruchsvoller ist hingegen die Konstruktion des Produktes einer Familie von Wahrscheinlichkeitsr¨ aumen, die sich im Fall einer endlichen Familie aus der Maß– und Integrationstheorie ergibt (Abschnitt 10.4), im Fall einer unendlichen Familie aber spezifisch f¨ ur die Wahrscheinlichkeitstheorie ist (Abschnitt 10.6) und auf dem Begriff einer projektiven Familie von Wahrscheinlichkeitsmaßen beruht (Abschnitt 10.5). Ein weiteres Prinzip zur Konstruktion von Wahrscheinlichkeitsr¨ aumen, das in der Theorie der stochastischen Prozesse von Bedeutung ist und ebenfalls auf dem Begriff einer projektiven Familie von Wahrscheinlichkeitsmaßen beruht, betrachten wir erst in Kapitel 20. K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_10, © Springer-Verlag Berlin Heidelberg 2011
194
Kapitel 10. Wahrscheinlichkeitsr¨ aume
10.1 Wahrscheinlichkeitsr¨ aume und Zufallsgr¨ oßen Sei Ω eine nichtleere Menge und sei C ⊆ 2Ω ein Mengensystem mit ∅, Ω ∈ C. Eine Mengenfunktion P : C → [0, 1] heißt – Wahrscheinlichkeitsinhalt, wenn P ein Inhalt mit P [Ω] = 1 ist. – Wahrscheinlichkeitsmaß , wenn P ein Maß mit P [Ω] = 1 ist. Jedes Wahrscheinlichkeitsmaß ist ein Wahrscheinlichkeitsinhalt und jeder Wahrscheinlichkeitsinhalt ist endlich. Das folgende Ergebnis ist elementar, wird aber h¨ aufig verwendet: 10.1.1 Lemma. Sei C eine Algebra und P : C → [0, 1] ein Wahrscheinlichkeitsinhalt. Dann gilt f¨ ur alle A ∈ C P [Ω \ A] = 1 − P [A] Da jeder Wahrscheinlichkeitsinhalt endlich ist, l¨ asst sich die Charakterisierung der σ–Additivit¨ at gegen¨ uber beliebigen Inhalten geringf¨ ugig vereinfachen. Das folgende Lemma ergibt sich unmittelbar aus Folgerung 4.2.10: 10.1.2 Lemma. Sei C eine Algebra und P : C → [0, 1] ein Wahrscheinlichkeitsinhalt. Dann sind ¨ aquivalent: (a) P ist ein Wahrscheinlichkeitsmaß. (b) P ist σ–additiv. (c) P ist stetig von unten. (d) P ist stetig von oben. (e) P ist ∅–stetig. Ist (Ω, F) ein Messraum und ist P : F → [0, 1] ein Wahrscheinlichkeitsmaß, so heißt (Ω, F , P ) Wahrscheinlichkeitsraum. Jeder Wahrscheinlichkeitsraum ist also ein endlicher Maßraum. Ist (Ω, F, P ) ein Wahrscheinlichkeitsraum und (Ω0 , F 0 ) ein Messraum, so heißt jede messbare Abbildung X : Ω → Ω0 Zufallsgr¨ oße und das Bildmaß PX von P unter X heißt Verteilung von X; insbesondere heißt X ¯ B(R)) ¯ gilt. – Zufallsvariable, wenn (Ω0 , F 0 ) = (R, 0 0 – reelle Zufallsvariable, wenn (Ω , F ) = (R, B(R)) gilt. – Zufallsvektor , wenn (Ω0 , F 0 ) = (Rn , B(Rn )) gilt. Das folgende Lemma ergibt sich unmittelbar aus der Definition des Bildmaßes: 10.1.3 Lemma. Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum und (Ω0 , F 0 ) ein Messraum und sei X : Ω → Ω0 eine Zufallsgr¨ oße. Dann ist PX ein Wahrscheinlichkeitsmaß. Ist (Ω, F, P ) ein Wahrscheinlichkeitsraum und (Ω0 , F 0 ) ein Messraum und ist X : Ω → Ω0 eine Zufallsgr¨oße, so ist insbesondere (Ω0 , F 0 , PX ) ein Wahrscheinlichkeitsraum.
10.1 Wahrscheinlichkeitsr¨ aume und Zufallsgr¨ oßen
195
Die vorher gegebenen Definitionen zeigen bereits, dass f¨ ur bestimmte mathematische Objekte in der Wahrscheinlichkeitstheorie andere Begriffe verwendet werden als in der allgemeinen Maß– und Integrationstheorie. Wir geben einige weitere Definitionen, die f¨ ur die Wahrscheinlichkeitstheorie typisch sind: Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum. Dann wird – jedes Element ω ∈ Ω als Ergebnis, – die Grundmenge Ω als Ergebnismenge, – jede Menge A ∈ F als Ereignis, – jede Menge A ∈ F mit A = {ω} f¨ ur ein ω ∈ Ω als Elementarereignis, und – jedes Mengensystem E ⊆ F als Ereignissystem bezeichnet. Neben dem Unterschied zwischen Ergebnissen und Elementarereignissen ist zu beachten, dass nicht jede Teilmenge der Ergebnismenge ein Ereignis ist und dass nicht jedes Mengensystem ein Ereignissystem ist. F¨ ur ein festes Ergebnis ω ∈ Ω sagt man auch, dass ein Ereignis A ∈ F eintritt, wenn ω ∈ A gilt; auf diese Sprechweise ist es zur¨ uckzuf¨ uhren, dass – die Grundmenge Ω als sicheres Ereignis, und – die leere Menge ∅ als unm¨ ogliches Ereignis bezeichnet wird. Diesen Bezeichnungen liegt die Vorstellung zugrunde, dass die Ergebnismenge die m¨ oglichen Ergebnisse eines Zufallsexperimentes beschreibt und dass die Ereignisse diejenigen Teilmengen der Ergebnismenge sind, deren Wahrscheinlichkeit gemessen werden soll. 10.1.4 Beispiel (Wurf eine W¨ urfels). Als Zufallsexperiment betrachten wir den Wurf eines W¨ urfels. Sieht man davon ab, dass der W¨ urfel m¨ oglicherweise vom Tisch f¨ allt oder gegen einen Gegenstand rollt und auf einer seiner Kanten stehenbleibt, so ist die Menge Ω := {1, 2, 3, 4, 5, 6} eine geeignete Wahl der Ergebnismenge. Interessiert man sich nur daf¨ ur, ob beim Wurf des W¨ urfels eine gerade oder eine ungerade Augenzahl auftritt, so gen¨ ugt es, die σ–Algebra n o F := ∅, {1, 3, 5}, {2, 4, 6}, Ω zu betrachten. Ist schließlich der W¨ urfel unverf¨ alscht, so liegt es nahe, mittels falls A = ∅ 0 P [A] := 1/2 falls A = {1, 3, 5} oder A = {2, 4, 6} 1 falls A = Ω ein Wahrscheinlichkeitsmaß P : F → [0, 1] zu definieren.
In den folgenden Abschnitten betrachten wir weitere Zufallsexperimente und ihre Modellierung durch einen Wahrscheinlichkeitsraum; auch diese Zufallsexperimente sind wieder extrem einfach gew¨ahlt, weil sie nur als Beispiele f¨ ur die Anwendung bestimmter Prinzipien zur Konstruktion von Wahrscheinlichkeitsr¨ aumen dienen sollen.
196
Kapitel 10. Wahrscheinlichkeitsr¨ aume
Aufgaben 10.1.A F¨ uhren Sie die fehlenden Beweise aus. 10.1.B Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum. Dann gilt f¨ ur alle A, B ∈ F |P [A] − P [B]| ≤ P [A4B] 10.1.C Sei (Ω, F ) ein Messraum und sei {Pn }n∈N eine Folge von WahrscheinlichP∞ keitsmaßen F → [0, 1] und {an }n∈N ⊆ R+ eine Folge mit n=1 an = 1. Dann ist die Mengenfunktion P : F → [0, ∞] mit P [A] :=
∞ X
an Pn [A]
n=1
ein Wahrscheinlichkeitsmaß.
10.2 Diskrete Wahrscheinlichkeitsr¨ aume Ein Wahrscheinlichkeitsraum (Ω, F , P ) heißt diskret, wenn er die folgenden Eigenschaften besitzt: (i) Ω ist abz¨ ahlbar. (ii) Es gilt F = 2Ω . Wir zeigen, dass diskrete Wahrscheinlichkeitsr¨ aume auf besonders einfache Weise konstruiert werden k¨onnen. Sei Ω eine abz¨ ahlbare Menge. Dann heißt jede Funktion p : Ω → [0, 1] mit X p(ω) = 1 ω∈Ω
Wahrscheinlichkeitsfunktion auf Ω. Jede Wahrscheinlichkeitsfunktion erzeugt ein eindeutig bestimmtes Wahrscheinlichkeitsmaß auf der Potenzmenge: 10.2.1 Lemma. Sei Ω abz¨ahlbar und p : Ω → [0, 1] eine Wahrscheinlichkeitsfunktion. Dann gibt es genau ein Wahrscheinlichkeitsmaß P : 2Ω → [0, 1] mit P [{ω}] = p(ω) f¨ ur alle ω ∈ Ω und es gilt P [A] =
X
p(ω)
ω∈A
f¨ ur alle A ∈ 2Ω . Beweis. Sei zun¨ achst P : 2Ω → [0, 1] gegeben durch X P [A] := p(ω) ω∈A
10.2 Diskrete Wahrscheinlichkeitsr¨ aume
Dann gilt P [∅] = 0 und P [Ω] = {An }n∈N ⊆ F gilt "∞ # X X P An = n=1
197
P ω∈Ω
P ω∈ ∞ n=1 An
p(ω) = 1, und f¨ ur jede disjunkte Folge
p(ω) =
∞ X X
p(ω) =
n=1 ω∈An
∞ X
P [An ]
n=1
Daher ist P ein Wahrscheinlichkeitsmaß mit P [{ω}] = p(ω) f¨ ur alle ω ∈ Ω. Sei nun Q : 2Ω → [0, 1] ein beliebiges Wahrscheinlichkeitsmaß mit Q[{ω}] = p(ω) f¨ ur alle ω ∈ Ω. Dann gilt f¨ ur alle A ∈ F X X Q[A] = Q[{ω}] = p(ω) = P [A] ω∈A
ω∈A
Daher gilt Q = P .
2
Von besonderem Interesse ist der Fall Ω = N0 : Eine Folge {pn }n∈N0 ⊆ R+ mit ∞ X
pn = 1
n=0
heißt stochastische Folge. Ist {pn }n∈N0 eine stochastische Folge, so ist die Funktion p : N0 → [0, 1] mit p(n) := pn eine Wahrscheinlichkeitsfunktion. 10.2.2 Folgerung. Sei {pn }n∈N0 eine stochastische Folge. Dann gibt es genau ein Wahrscheinlichkeitsmaß P : 2N0 → [0, 1] mit P [{n}] = pn f¨ ur alle n ∈ N0 . Dieses Ergebnis ist bemerkenswert: Obwohl die Potenzmenge von N0 u ¨berabz¨ ahlbar ist, ist jedes Wahrscheinlichkeitsmaß auf der Potenzmenge durch eine stochastische Folge und damit durch abz¨ahlbar viele Werte bestimmt. Aufgaben 10.2.A Jede Abbildung von einem diskreten Wahrscheinlichkeitsraum in einen Messraum ist eine Zufallsgr¨ oße. 10.2.B Beweisen Sie Lemma 10.2.1 mit Hilfe des Satzes von Caratheodory.
198
Kapitel 10. Wahrscheinlichkeitsr¨ aume
10.3 Symmetrische Wahrscheinlichkeitsr¨ aume Ein Wahrscheinlichkeitsraum (Ω, F , P ) heißt symmetrisch, wenn er die folgenden Eigenschaften besitzt: (i) Ω ist endlich. (ii) Es gilt F = 2Ω . (iii) Es gibt ein p ∈ [0, 1] mit P [{ω}] = p f¨ ur alle ω ∈ Ω. Jeder symmetrische Wahrscheinlichkeitsraum ist ein diskreter Wahrscheinlichkeitsraum. In einem symmetrischen Wahrscheinlichkeitsraum wird jedem Elementarereignis dieselbe Wahrscheinlichkeit zugeordnet. Die Wahl eines symmetrischen Wahrscheinlichkeitsraumes als Modell f¨ ur ein Zufallsexperiment kann mit dem Prinzip des unzureichenden Grundes begr¨ undet werden: Wenn ein Zufallsexperiment im wesentlichen nur endlich viele Ergebnisse hervorbringen kann und kein Grund daf¨ ur erkennbar ist, dass eines der Ergebnisse eine h¨ ohere Chance der Realisierung besitzt als die anderen Ergebnisse, dann ist der zugeh¨ orige symmetrische Wahrscheinlichkeitsraum ein geeignetes Modell. Symmetrische Wahrscheinlichkeitsr¨aume werden auch als Laplace–Experimente bezeichnet, obwohl sie nat¨ urlich nur Modelle f¨ ur Zufallsexperimente sind. Im Prinzip ist die Berechnung der Wahrscheinlichkeiten der Ereignisse eines symmetrischen Wahrscheinlichkeitsraumes einfach: 10.3.1 Lemma. Sei (Ω, F , P ) ein symmetrischer Wahrscheinlichkeitsraum. Dann gilt f¨ ur alle A ∈ F |A| P [A] = |Ω| Beweis. Nach Voraussetzung gibt es ein p ∈ [0, 1] mit P [{ω}] = p f¨ ur alle ω ∈ Ω. Wegen P [Ω] = 1 folgt aus der Additivit¨ at von P zun¨ achst P [{ω}] = 1/|Ω| f¨ ur alle ω ∈ Ω und sodann P [A] = |A|/|Ω| f¨ ur alle A ∈ F .
2
In einem symmetrischen Wahrscheinlichkeitsraum (Ω, F , P ) ist daher die Wahrscheinlichkeit P [A] eines Ereignisses A ∈ F gerade das Verh¨ altnis |A|/|Ω| zwischen der Anzahl |A| der Ergebnisse, f¨ ur die A eintritt, und der Anzahl |Ω| aller Ergebnisse. Dabei bezeichnet man – |A| als die Anzahl der (f¨ ur das Eintreten von A) g¨ unstigen F¨alle und – |Ω| als die Anzahl der m¨ oglichen F¨ alle.
10.3 Symmetrische Wahrscheinlichkeitsr¨ aume
199
Aufgrund des Lemmas ist es erstrebenswert, f¨ ur ein Zufallsexperiment, das im wesentlichen nur endlich viele Ergebnisse hervorbringen kann, die Ergebnismenge so zu w¨ ahlen, dass die Wahl des zugeh¨ origen symmetrischen Wahrscheinlichkeitsraumes als Modell plausibel ist. 10.3.2 Beispiel (n–maliger Wurf einer M¨ unze). Wir betrachten den n–maligen Wurf einer M¨ unze. Wir nehmen an, dass – zwischen den verschiedenen W¨ urfen der M¨ unze keine gegenseitige Beeinflussung besteht, – bei jedem Wurf nur Kopf oder Zahl auftreten kann und – die Chance f¨ ur das Auftreten von Kopf beim einmaligen Wurf gleich 1/2 ist. Wir interessieren uns f¨ ur die Anzahl der W¨ urfe, bei denen Kopf auftritt. Als Ergebnismenge f¨ ur dieses Zufallsexperiment bietet sich nat¨ urlich die Menge Ω := {0, 1, . . . , n} an; da aber diese Ergebnismenge offenbar nicht dem Prinzip des unzureichenden Grundes gen¨ ugt, ist die Wahl des zugeh¨ origen symmetrischen Wahrscheinlichkeitsraumes als Modell nicht plausibel. Aufgrund der Annahme, dass bei jedem einzelnen Wurf Kopf und Zahl dieselbe Chance haben und dass zwischen den verschiedenen W¨ urfen keine gegenseitige Beeinflussung besteht, ist es jedoch plausibel, anzunehmen, dass die 2n Folgen von Kopf und Zahl, die beim n–maligen Wurf auftreten k¨ onnen, ebenfalls alle dieselbe Chance haben. Wir setzen daher Ω := {K, Z}n und F := 2Ω , und f¨ ur alle A ∈ F setzen wir |A| P [A] := |Ω| Dann ist (Ω, F , P ) ein symmetrischer Wahrscheinlichkeitsraum mit |Ω| = 2n F¨ ur k ∈ {0, 1, . . . , n} bezeichne Ek ∈ F das Ereignis, dass beim n–maligen Wurf der M¨ unze genau k–mal Kopf auftritt. Dann erh¨ alt man à ! |Ek | n 1 P [Ek ] = = |Ω| k 2n Die Zufallsvariable X : Ω → R mit X(ω) := k f¨ ur alle k ∈ {0, 1, . . . , n} und ω ∈ Ek gibt die Anzahl der W¨ urfe an, bei denen Kopf auftritt, und f¨ ur alle k ∈ {0, 1, . . . , n} gilt à ! n 1 P [{X = k}] = k 2n ¡n¢ P n Plausibilit¨ atspr¨ ufung: Es gilt n k=0 k = 2 .
Das Beispiel zeigt: – W¨ ahlt man die Ergebnismenge nur so groß wie n¨ otig, so ist Symmetrie oft nicht plausibel und ein Wahrscheinlichkeitsmaß nur schwer zu bestimmen. – W¨ unscht man Symmetrie, so muss man oft eine gr¨ oßere Ergebnismenge w¨ ahlen mit der Konsequenz, dass Ereignisse sehr viele Ergebnisse enthalten k¨ onnen und ihre M¨achtigkeit nicht leicht zu bestimmen ist. Hier hilft die Kombinatorik:
200
Kapitel 10. Wahrscheinlichkeitsr¨ aume
10.3.3 Beispiele (Urnenmodelle). Wir betrachten eine Urne mit N ≥ 2 Kugeln, von denen K ∈ {1, . . . , N−1} Kugeln rot sind und N−K Kugeln eine beliebige andere Farbe besitzen. Wir nehmen an, dass alle Kugeln bis auf die Farbe gleichartig sind. Wir interessieren uns f¨ ur die Anzahl der roten Kugeln bei der zuf¨ alligen Auswahl von n Kugeln aus der Urne. Zu diesem Zweck nehmen wir zus¨ atzlich an, die Kugeln seien numeriert derart, dass die Kugeln 1, . . . , K rot sind und die Kugeln K + 1, . . . , N eine andere Farbe besitzen. (1) Ziehen ohne Zur¨ ucklegen: Sei n ≤ N . Wir setzen Ω := Menge aller n–Tupel ohne Wiederholung aus {1, ..., N } und F := 2Ω . Aufgrund der Annahme der Gleichartigkeit der Kugeln setzen wir f¨ ur alle A ∈ F |A| P [A] := |Ω| Dann ist (Ω, F , P ) ein symmetrischer Wahrscheinlichkeitsraum mit à ! N |Ω| = n! n F¨ ur k ∈ {0, 1, . . . , n} betrachten wir das Ereignis Ek := {ω ∈ Ω | genau k Kugeln sind rot} Dann ist die Anzahl der g¨ unstigen F¨ alle das Produkt – der Anzahl der M¨ oglichkeiten, aus den n Ziehungen k Ziehungen (mit einer roten Kugel als Ergebnis) auszuw¨ ahlen, – der Anzahl der M¨ oglichkeiten, aus den K numerierten roten Kugeln k Kugeln ohne Zur¨ ucklegen auszuw¨ ahlen, und – der Anzahl der M¨ oglichkeiten, aus den N−K numerierten Kugeln mit einer anderen Farbe n−k Kugeln ohne Zur¨ ucklegen auszuw¨ ahlen. Es gilt also à ! à ! à ! à !à ! n K N −K K N −K |Ek | = · k! · (n−k)! = n! k k n−k k n−k und damit
à !à ! à !à ! K N −K K N −K n! k n−k k n−k |Ek | à ! à ! P [Ek ] = = = |Ω| N N n! n n
Die Zufallsvariable X : Ω → R mit X(ω) := k f¨ ur alle k ∈ {0, 1, . . . , n} und ω ∈ Ek gibt die Anzahl der roten Kugeln bei der zuf¨ alligen Auswahl von n Kugeln an und f¨ ur alle k ∈ {0, 1, . . . , n} gilt à !à ! K N −K k n−k à ! P [{X = k}] = N n Pn ¡K ¢¡N−K ¢ ¡N ¢ Plausibilit¨ atspr¨ ufung: Es gilt k=0 k n−k = n .
10.3 Symmetrische Wahrscheinlichkeitsr¨ aume
201
(2) Ziehen mit Zur¨ ucklegen: Wir setzen Ω := Menge aller n–Tupel mit m¨ oglicher Wiederholung aus {1, ..., N } und F := 2Ω . Aufgrund der Annahme der Gleichartigkeit der Kugeln setzen wir f¨ ur alle A ∈ F P [A] :=
|A| |Ω|
Dann ist (Ω, F , P ) ein symmetrischer Wahrscheinlichkeitsraum mit |Ω| = N n F¨ ur k ∈ {0, 1, . . . , n} betrachten wir das Ereignis Ek := {ω ∈ Ω | genau k Kugeln sind rot} Dann ist die Anzahl der g¨ unstigen F¨ alle das Produkt – der Anzahl der M¨ oglichkeiten, aus den n Ziehungen k Ziehungen (mit einer roten Kugel als Ergebnis) auszuw¨ ahlen, – der Anzahl der M¨ oglichkeiten, aus den K numerierten roten Kugeln k Kugeln mit Zur¨ ucklegen auszuw¨ ahlen, und – der Anzahl der M¨ oglichkeiten, aus den N−K numerierten Kugeln mit einer anderen Farbe n−k Kugeln mit Zur¨ ucklegen auszuw¨ ahlen. Es gilt also à ! n |Ek | = · K k · (N −K)n−k k und damit
|Ek | P [Ek ] = = |Ω|
à ! n K k (N −K)n−k k Nn
à !µ ¶ µ ¶n−k k n K N −K = k N N
Mit ϑ := K/N gilt daher à ! n P [Ek ] = ϑk (1−ϑ)n−k k Die Zufallsvariable X : Ω → R mit X(ω) := k f¨ ur alle k ∈ {0, 1, . . . , n} und ω ∈ Ek gibt die Anzahl der roten Kugeln bei der zuf¨ alligen Auswahl von n Kugeln an und f¨ ur alle k ∈ {0, 1, . . . , n} gilt à ! n P [{X = k}] = ϑk (1−ϑ)n−k k Plausibilit¨ atspr¨ ufung: Es gilt
Pn k=0
¡n¢ k
ϑk (1−ϑ)n−k = 1.
Urnenmodelle besitzen vielf¨altige Anwendungen. Als Beispiel betrachten wir nochmals den n–maligen Wurf einer M¨ unze:
202
Kapitel 10. Wahrscheinlichkeitsr¨ aume
10.3.4 Beispiel (n–maliger Wurf einer M¨ unze). Wir betrachten den n–maligen Wurf einer M¨ unze. Wir nehmen an, dass – zwischen den verschiedenen W¨ urfen der M¨ unze keine gegenseitige Beeinflussung besteht, – bei jedem Wurf nur Kopf oder Zahl auftreten kann und – die Chance f¨ ur das Auftreten von Kopf beim einmaligen Wurf gleich einer rationalen Zahl ϑ ∈ Q ∩ (0, 1) ist. Aufgrund der Annahme ϑ ∈ Q ∩ (0, 1) gibt es N, K ∈ N mit K ∈ {1, . . . , N −1} und ϑ = K/N . Der n–malige Wurf einer M¨ unze entspricht daher dem n–maligen Ziehen mit Zur¨ ucklegen aus einer Urne mit N Kugeln, von denen K rot sind. Sei also (Ω, F, P ) der beim Ziehen mit Zur¨ ucklegen betrachtete Wahrscheinlichkeitsraum. F¨ ur k ∈ {0, 1, . . . , n} bezeichne Ek ∈ F das Ereignis, dass beim n–maligen Ziehen mit Zur¨ ucklegen, und damit beim n–maligen Wurf der M¨ unze, genau k–mal Kopf auftritt. Dann erh¨ alt man à ! n k P [Ek ] = ϑ (1−ϑ)n−k k Im Fall ϑ = 1/2 ist dies das bekannte Ergebnis.
Aufgaben 10.3.A Problem der Doppelsechs: Eine Spielbank bietet zwei Gl¨ ucksspiele an: – Beim ersten Spiel wirft der Spieler vier Mal einen W¨ urfel und gewinnt, wenn keine Sechs auftritt. – Beim zweiten Spiel wirft der Spieler 24 Mal zwei W¨ urfel und gewinnt, wenn keine Doppelsechs auftritt. Welches Spiel ist f¨ ur den Spieler g¨ unstiger? 10.3.B Probl` eme des parties: Spieler C und Spieler W werfen abwechselnd eine M¨ unze. Vor jedem Wurf zahlen beide Spieler einen Taler in die Kasse; Spieler C erh¨ alt einen Punkt, wenn Kopf auftritt, und Spieler W erh¨ alt einen Punkt, wenn Zahl auftritt. Das Spiel endet, sobald einer der Spieler sieben Punkte erreicht hat; dieser Spieler gewinnt das Spiel und erh¨ alt die gesamte Kasse. Wie ist die Kasse aufzuteilen, wenn das Spiel abgebrochen wird und Spieler C vier und Spieler W drei Punkte erreicht hat? 10.3.C Verallgemeinern Sie Beispiel 10.3.3 auf Urnenmodelle mit mehr als zwei Sorten Kugeln.
10.4 Endliche Produkte von Wahrscheinlichkeitsr¨ aumen In Abschnitt 9.6 haben wir gezeigt, dass ausgehend von einer endlichen Familie von Maßr¨ aumen ein neuer Maßraum konstruiert werden kann, der als Produkt der urspr¨ unglichen Maßr¨aume bezeichnet wird. Der folgende Satz ergibt sich unmittelbar aus der Definition des Produktmaßes: 10.4.1 Satz. Sei {(Ωi , Fi , Pi )}i∈{1,...,n} eine endliche Familie von WahrN scheinlichkeitsr¨ aumen. Dann ist i∈{1,...,n} (Ωi , Fi , Pi ) ein Wahrscheinlichkeitsraum.
10.4 Endliche Produkte von Wahrscheinlichkeitsr¨ aumen
203
F¨ ur das Produkt einer endlichen Familie von diskreten oder symmetrischen Wahrscheinlichkeitsr¨aumen ergibt sich das folgende Ergebnis: 10.4.2 Folgerung. Sei {(Ωi , Fi , Pi )}i∈{1,...,n} eine endliche Familie von Wahrscheinlichkeitsr¨ aumen. (1) Sind alle (Ωi , Fi , Pi ) diskret, so ist auch das Produkt diskret. (2) Sind alle (Ωi , Fi , Pi ) symmetrisch, so ist auch das Produkt symmetrisch. Als Beispiel betrachten wir wieder den n–maligen Wurf einer M¨ unze: 10.4.3 Beispiel (n–maliger Wurf einer M¨ unze). Wir betrachten den n–maligen Wurf einer M¨ unze. Wir nehmen an, dass – zwischen den verschiedenen W¨ urfen der M¨ unze keine gegenseitige Beeinflussung besteht, – bei jedem Wurf nur Kopf oder Zahl auftreten kann und – die Chance f¨ ur das Auftreten von Kopf beim einmaligen Wurf gleich einer reellen Zahl ϑ ∈ (0, 1) ist. Wir w¨ ahlen folgende Modelle: – Als Modell f¨ ur den i–ten Wurf w¨ ahlen wir den diskreten Wahrscheinlichkeitsraum (Ωi , Fi , Pi ) mit Ωi := {K, Z} sowie Fi = 2Ωi und dem durch Pi [{K}] := ϑ festgelegten Wahrscheinlichkeitsmaß. – Als Modell f¨ ur den n–fachen Wurf w¨ ahlen wir das Produkt O (Ω, F , P ) := (Ωi , Fi , Pi ) i∈{1,...,n}
Dann ist auch (Ω, F , P ) ein diskreter Wahrscheinlichkeitsraum. Es gilt Ω = {K, Z}n und F = 2Ω . Sei k ∈ {0, 1, . . . , n}. Bezeichnet ω = (ω1 , . . . , ωn ) das Ergebnis, dass bei den ersten k W¨ urfen Kopf und bei den letzten n − k W¨ urfen Zahl auftritt, so gilt aufgrund der Definition des Produktmaßes P [{ω}] =
n Y i=1
Pi [{ωi }] =
k Y i=1
Pi [{K}]
n Y
Pj [{Z}] = ϑk (1−ϑ)n−k
j=k+1
Allgemeiner gilt f¨ ur jedes Ergebnis ω ∈ Ω, bei dem genau k–mal Kopf (und n−k–mal Zahl ) auftritt, P [{ω}] = ϑk (1−ϑ)n−k Bezeichnet Ek ∈ F das Ereignis, dass genau k–mal Kopf auftritt, so ergibt sich aus der Additivit¨ at von P Ã ! n k P [Ek ] = ϑ (1−ϑ)n−k k Im Fall ϑ ∈ Q ∩ (0, 1) ist dies das bekannte Ergebnis. Im Fall ϑ = 1/2 ist außerdem jeder der Wahrscheinlichkeitsr¨ aume (Ωi , Fi , Pi ) und damit auch das Produkt (Ω, F, P ) symmetrisch.
204
Kapitel 10. Wahrscheinlichkeitsr¨ aume
10.5 Projektive Familien von Wahrscheinlichkeitsr¨ aumen In diesem Abschnitt bereiten wir zwei weitere Prinzipien zur Konstruktion von Wahrscheinlichkeitsr¨aumen vor. Sei I eine nichtleere Indexmenge und sei H(I) die Familie der endlichen nichtleeren Teilmengen von I. Wir betrachten eine Familie von Messr¨aumen {(Ωi , Fi )}i∈I und ihr Produkt O (Ω, F) := (Ωi , Fi ) i∈I
F¨ ur j ∈ I sei πj : Ω → Ωj mit πj ({ωi }i∈I ) := ωj die Projektion von Ω auf Ωj . F¨ ur J ∈ H(I) sei O (ΩJ , FJ ) := (Ωi , Fi ) i∈J
das Produkt der Familie {(Ωi , Fi )}i∈J und πJ : Ω → ΩJ mit πJ (ω) := {ωi }i∈J die Projektion von Ω auf ΩJ . F¨ ur J ∈ H(I) und j ∈ J sei πj,J : ΩJ → Ωj mit πj,J ({ωi }i∈J ) := ωj die Projektion von ΩJ auf Ωj . Es gilt πj = πj,J ◦ πJ . 10.5.1 Lemma. F¨ ur alle J ∈ H(I) ist die Projektion πJ messbar. Beweis. F¨ ur alle j ∈ J gilt πj,J ◦ πJ = πj und nach Definition von FJ und F sind πj,J und πj messbar. Die Messbarkeit von πJ folgt nun aus Satz 3.3.2. 2 F¨ ur K, J ∈ H(I) mit K ⊆ J sei πK,J : ΩJ → ΩK mit πK,J ({ωi }i∈J ) := {ωi }i∈K die Projektion von ΩJ auf ΩK . Es gilt πK = πK,J ◦ πJ . 10.5.2 Lemma. F¨ ur alle K, J ∈ H(I) mit K ⊆ J ist die Projektion πK,J messbar. Beweis. F¨ ur alle j ∈ K gilt πj,K ◦ πK,J = πj,J und nach Definition von FK und FJ sind πj,K und πj,J messbar. Die Messbarkeit von πK,J folgt nun aus Satz 3.3.2. 2
10.5 Projektive Familien von Wahrscheinlichkeitsr¨ aumen
205
Wir wenden uns nun der Frage zu, unter welchen Bedingungen es zu einer Familie {QJ }J∈H(I) von Wahrscheinlichkeitsmaßen mit QJ : FJ → [0, 1] f¨ ur alle J ∈ H(I) ein Wahrscheinlichkeitsmaß Q : F → [0, 1] gibt derart, dass f¨ ur alle J ∈ H(I) QπJ = QJ gilt. Das folgende Lemma liefert eine notwendige Bedingung: 10.5.3 Lemma. Sei Q : F → [0, 1] ein Wahrscheinlichkeitsmaß. Dann gilt f¨ ur alle K, J ∈ H(I) mit K ⊆ J QπK = (QπJ )πK,J Beweis. Es gilt QπK = QπK,J ◦πJ = (QπJ )πK,J .
2
Lemma 10.5.3 legt die folgende Definition nahe: Eine Familie {QJ }J∈H(I) von Wahrscheinlichkeitsmaßen mit QJ : FJ → [0, 1] f¨ ur alle J ∈ H(I) heißt projektiv , wenn f¨ ur alle K, J ∈ H(I) mit K ⊆ J QK = (QJ )πK,J gilt; in diesem Fall heißt auch die Familie {(ΩJ , FJ , QJ )}J∈H(I) projektiv . Nach Lemma 10.5.3 ist f¨ ur jedes Wahrscheinlichkeitsmaß Q : F → [0, 1] die Familie {QπJ }J∈H(I) projektiv. Daher kann es nur f¨ ur eine projektive Familie {QJ }J∈H(I) ein Wahrscheinlichkeitsmaß Q : F → [0, 1] geben derart, dass f¨ ur alle J ∈ H(I) QπJ = QJ gilt. Als erstes machen wir die σ–Algebren FJ , die auf unterschiedlichen Grundmengen definiert sind, miteinander vergleichbar, indem wir ihnen σ–Algebren auf Ω zuordnen: F¨ ur J ∈ H(I) sei ZJ := πJ−1 (FJ ) Nach Folgerung 2.1.2 ist ZJ eine σ–Algebra auf Ω. Die σ–Algebra ZJ heißt System der J–Zylinder auf Ω. 10.5.4 Lemma. Die Familie {ZJ }J∈H(I) ist unter Inklusion gerichtet. Beweis. F¨ ur K, L ∈ H(I) sei J := K ∪ L. Dann gilt J ∈ H(I). Wegen −1 −1 πK = πK,J ◦ πJ gilt πK = πJ−1 ◦ πK,J und damit
206
Kapitel 10. Wahrscheinlichkeitsr¨ aume −1 Z K = πK (FK ) −1 = (πJ−1 ◦ πK,J )(FK ) −1 = πJ−1 (πK,J (FK ))
⊆ πJ−1 (FJ ) = ZJ Analog erh¨ alt man ZL ⊆ ZJ Daher gilt ZK ∪ ZL ⊆ ZJ .
2
Sei nun Z :=
[
ZJ
J∈H(I)
Dann gilt Z ⊆ 2Ω . Jede Menge in Z heißt Zylindermenge auf Ω und das Mengensystem Z heißt System der Zylindermengen auf Ω. 10.5.5 Satz. Z ist eine Algebra und es gilt σ(Z) = F. Beweis. Wir zeigen zun¨achst, dass Z eine Algebra ist: (i) F¨ ur alle J ∈ H(I) gilt Ω ∈ ZJ und aus der Definition von Z ergibt sich nun Ω ∈ Z. (ii) Sei A ∈ Z. Dann gibt es ein J ∈ H(I) mit A ∈ ZJ . Daraus folgt zun¨ achst Ω \ A ∈ ZJ und sodann Ω \ A ∈ Z. (iii) Seien A, B ∈ Z. Dann gibt es ein K ∈ H(I) mit A ∈ ZK und ein L ∈ H(I) mit B ∈ ZL . Nach Lemma 10.5.4 gibt es ein J ∈ H(I) mit K, L ⊆ J und ZK ∪ ZL ⊆ ZJ . Dann gilt aber A, B ∈ ZJ . Daraus folgt zun¨ achst A ∪ B ∈ ZJ und sodann A ∪ B ∈ Z. Damit ist gezeigt, dass Z eine Algebra ist. F¨ ur alle i ∈ I gilt πi = πi,{i} ◦ π{i} und damit −1 −1 −1 πi−1 (Fi ) = π{i} (πi,{i} (Fi )) = π{i} (F{i} ) = Z{i} ⊆ Z ⊆ σ(Z)
Aus der Definition von F folgt nun F ⊆ σ(Z) Andererseits gilt f¨ ur alle J ∈ H(I) nach Lemma 10.5.1 ZJ = πJ−1 (FJ ) ⊆ F S Daraus folgt zun¨ achst Z = J∈H(I) ZJ ⊆ F und sodann σ(Z) ⊆ F Damit ist auch die Identit¨at σ(Z) = F gezeigt.
2
10.5 Projektive Familien von Wahrscheinlichkeitsr¨ aumen
207
Wir zeigen nun, dass es zu jeder projektiven Familie {QJ }J∈H(I) einen eindeutig bestimmten Wahrscheinlichkeitsinhalt Q : Z → [0, 1] gibt derart, dass f¨ ur alle J ∈ H(I) und alle C ∈ FJ Q[πJ−1 (C)] = QJ [C] gilt: 10.5.6 Satz. Sei {QJ }J∈H(I) eine projektive Familie von Wahrscheinlichkeitsmaßen mit QJ : FJ → [0, 1] f¨ ur alle J ∈ H(I). Dann gibt es genau einen Wahrscheinlichkeitsinhalt Q : Z → [0, 1] derart, dass f¨ ur alle J ∈ H(I) und alle C ∈ FJ Q[πJ−1 (C)] = QJ [C] gilt. Beweis. Die Definition von Q erfordert eine Vor¨ uberlegung: Sei A ∈ Z. F¨ ur K, L ∈ H(I) mit A ∈ ZK ∩ ZL sei M := K ∪ L. Dann gilt K, L ⊆ M und damit A ∈ ZM . Daher gibt es CK ∈ FK , CL ∈ FL und CM ∈ FM mit −1 A = πK (CK ) −1 A = πL (CL ) −1 A = πM (CM ) −1 −1 −1 −1 Wegen πM (πK,M (CK )) = (πK,M ◦ πM )−1 (CK ) = πK (CK ) = A = πM (CM ) gilt −1 πK,M (CK ) = CM
und aus der Projektivit¨at der Familie {QJ }J∈H(I) folgt nun QK [CK ] = (QM )πK,M [CK ] −1 = QM [πK,M (CK )]
= QM [CM ] Aus Symmetriegr¨ unden gilt auch QL [CL ] = QM [CM ] und damit QK [CK ] = QL [CL ] Aufgrund dieser Vor¨ uberlegung ist die Abbildung Q : Z → [0, 1] mit Q[A] := QJ [C] f¨ ur eine beliebige Menge J ∈ H(I) mit A ∈ ZJ und eine Menge C ∈ FJ mit A = πJ−1 (C) wohldefiniert.
208
Kapitel 10. Wahrscheinlichkeitsr¨ aume
Wir zeigen nun, dass Q ein Wahrscheinlichkeitsinhalt ist: (i) F¨ ur alle A, B ∈ Z mit A ∩ B = ∅ gibt es ein J ∈ H(I) mit A, B ∈ ZJ . Daher gibt es C, D ∈ FJ mit C ∩ D = ∅ und A = πJ−1 (C) B = πJ−1 (D) und es gilt Q[A+B] = Q[πJ−1 (C) + πJ−1 (D)] = Q[πJ−1 (C +D)] = QJ [C +D] = QJ [C] + QJ [D] = Q[πJ−1 (C)] + Q[πJ−1 (D)] = Q[A] + Q[B] (ii) F¨ ur alle J ∈ H(I) gilt Ω = πJ−1 (ΩJ ) und damit Q[Ω] = Q[πJ−1 (ΩJ )] = QJ [ΩJ ] = 1 (iii) Aus (i) und (ii) folgt Q[∅] = 0. Daher ist Q ein Wahrscheinlichkeitsinhalt. Die Aussage u ¨ber die Eindeutigkeit ist dann klar. 2 F¨ ur eine projektive Familie von Wahrscheinlichkeitsmaßen {QJ }J∈H(I) mit QJ : FJ → [0, 1] f¨ ur alle J ∈ H(I) stellt sich nun die Frage, unter welchen Bedingungen der nach Satz 10.5.6 eindeutig bestimmte Wahrscheinlichkeitsinhalt Q : Z → [0, 1] mit Q[πJ−1 (C)] = QJ [C] f¨ ur alle J ∈ H(I) und C ∈ FJ sogar ein Wahrscheinlichkeitsmaß ist; in diesem Fall besitzt Q nach dem Satz von Caratheodory eine eindeutige Fortsetzung zu einem Wahrscheinlichkeitsmaß Q : F → [0, 1], denn nach Satz 10.5.5 ist Z eine Algebra mit σ(Z) = F , und damit ein Halbring mit Ω ∈ Z und σ(Z) = F. F¨ ur das Wahrscheinlichkeitsmaß Q gilt dann f¨ ur alle J ∈ H(I) QπJ = QJ Es gibt zwei Bedingungen, die die σ–Additivit¨ at von Q gew¨ ahrleisten: – Die eine dieser Bedingungen betrifft die Wahrscheinlichkeitsmaße QJ und f¨ uhrt auf den Satz von Andersen/Jessen, den wir im n¨ achsten Abschnitt beweisen. – Die andere dieser Bedingungen betrifft die Messr¨ aume (Ωi , Fi ) und f¨ uhrt auf den Satz von Kolmogorov, den wir in Abschnitt 20.2 beweisen.
10.6 Satz von Andersen/Jessen
209
10.6 Satz von Andersen/Jessen Sei I eine nichtleere Indexmenge und sei H(I) die Familie der endlichen nichtleeren Teilmengen von I. Wir betrachten eine Familie von Wahrscheinlichkeitsr¨ aumen {(Ωi , Fi , Qi )}i∈I und das Produkt O (Ω, F) := (Ωi , Fi ) i∈I
der Familie {(Ωi , Fi )}i∈I von Messr¨aumen. Unser Ziel ist es zu zeigen, dass es genau ein Wahrscheinlichkeitsmaß Q : F → [0, 1] gibt derart, dass f¨ ur alle J ∈ H(I) O Qπ J = Qi i∈J
gilt. Nach Satz 10.4.1 ist f¨ ur alle J ∈ H(I) das endliche Produkt O (ΩJ , FJ , QJ ) := (Ωi , Fi , Qi ) i∈J
der Familie {(Ωi , Fi , Qi )}i∈J ein Wahrscheinlichkeitsraum mit O QJ = Qi i∈J
Wir untersuchen zun¨achst die Familie {QJ }J∈H(I) : 10.6.1 Lemma. Die Familie {QJ }J∈H(I) ist projektiv. Beweis. Sei K, J ∈ H(I) mit K ⊆ J. Wir betrachten eine Familie {Ai }i∈K mit Ai ∈ Fi f¨ ur alle i ∈ K. F¨ ur alle i ∈ J sei ½ Ai falls i ∈ K Bi := Ωi falls i ∈ J \ K Q −1 Q Dann gilt Bi ∈ Fi f¨ ur alle i ∈ J sowie i∈J Bi = πK,J ( i∈K Ai ). Daher gilt " # Y Y QK Ai = Qi [Ai ] i∈K
i∈K
=
Y i∈J
= QJ
Qi [Bi ] "
Y
i∈J
# Bi
210
Kapitel 10. Wahrscheinlichkeitsr¨ aume
" = QJ
Ã
−1 πK,J
" = (QJ )πK,J
!#
Y
Ai
i∈K
Y
#
Ai
i∈K
Da
Q i∈K
Fi ein ∩–stabiler Erzeuger von FK ist, folgt hieraus QK = (QJ )πK,J
Daher ist die Familie {QJ }J∈H(I) projektiv.
2
Wir k¨ onnen nun den angek¨ undigten Satz von Andersen/Jessen beweisen: 10.6.2 Satz (Andersen/Jessen). Es gibt genau ein Wahrscheinlichkeitsmaß Q : F → [0, 1] derart, dass f¨ ur alle J ∈ H(I) O QπJ = Qi i∈J
gilt. Beweis. Im Fall einer endlichen Indexmenge I ist nichts zu zeigen. Sei daher I unendlich. Sei ferner Z die Algebra der Zylindermengen auf RI und f¨ ur J ∈ H(I) sei ZJ = πJ−1 (B(RJ )) die σ–Algebra der J–Zylinder. Nach Lemma 10.6.1 und Satz 10.5.6 existiert genau ein Wahrscheinlichkeitsinhalt Q : Z → [0, 1] mit Q[πJ−1 (C)] = QJ [C] f¨ ur alle J ∈ H(I) und alle C ∈ FJ . Wir zeigen im folgenden, dass Q ∅–stetig ist. Dann ist Q nach Lemma 10.1.2 σ–additiv und besitzt nach dem Satz von Caratheodory eine eindeutige Fortsetzung zu einem Wahrscheinlichkeitsmaß F → [0, 1], das wir wieder mit Q bezeichnen; außerdem gilt f¨ ur alle J ∈ H(I) und alle C ∈ FJ Q[πJ−1 (C)] = QJ [C] und damit f¨ ur alle J ∈ H(I) QπJ = QJ (1) Wir betrachten zun¨achst K, J ∈ H(I) mit K ⊆ J und K 6= J. Aufgrund der Definition der Wahrscheinlichkeitsmaße QK , QJ\K , QJ ist der Wahrscheinlichkeitsraum (ΩJ , FJ , QJ ) das Produkt der Wahrscheinlichkeitsr¨ aume (ΩK , FK , QK ) und (ΩJ\K , FJ\K , QJ\K ); es gilt also (ΩJ , FJ , QJ ) = (ΩK , FK , QK ) ⊗ (ΩJ\K , FJ\K , QJ\K )
10.6 Satz von Andersen/Jessen
211
F¨ ur C ∈ FJ und ωK ∈ ΩK sei ¯ n o ¯ −1 −1 C(ωK ) := ω ∈ ΩJ\K ¯ πK,J ({ωK }) ∩ πJ\K,J ({ω}) ⊆ C Dann ist C(ωK ) der ωK –Schnitt von C in ΩJ\K . Aus Lemma 9.6.4 folgt nun C(ωK ) ∈ FJ\K , nach Lemma 9.6.5 ist die Abbildung ΩK → [0, 1] : ωK 7→ QJ\K [C(ωK )] messbar, und aus Satz 9.6.6 folgt QJ [C] = (QK ⊗ QJ\K )[C] Z = QJ\K [C(ωK )] dQK (ωK ) ΩK
(2) Wir betrachten nun eine Zylindermenge A ∈ Z sowie K ∈ H(I). Dann gibt es ein J ∈ H(I) mit A ∈ ZJ und K ⊆ J sowie J \ K 6= ∅, und es gibt eine Menge C ∈ FJ mit A = πJ−1 (C). F¨ ur ωK ∈ ΩK sei ¯ n o ¯ −1 −1 A(ωK ) := ω ∈ Ω ¯ πK ({ωK }) ∩ πI\K ({πI\K (ω)}) ⊆ A Wegen A ∈ ZJ und C ∈ FJ gilt dann ¯ n o ¯ −1 −1 A(ωK ) = ω ∈ Ω ¯ πK ({ωK }) ∩ πI\K ({πI\K (ω)}) ⊆ A ¯ n o ¯ −1 −1 = ω ∈ Ω ¯ πK ({ωK }) ∩ πJ\K ({πJ\K (ω)}) ⊆ A ¯ n o ¯ −1 −1 = ω ∈ Ω ¯ πJ−1 (πK,J ({ωK })) ∩ πJ−1 (πJ\K,J ({πJ\K (ω)})) ⊆ πJ−1 (C) ¯ n o ¯ −1 −1 = ω ∈ Ω ¯ πK,J ({ωK }) ∩ πJ\K,J ({πJ\K (ω)}) ⊆ C ¯ n o ¯ = ω ∈ Ω ¯ πJ\K (ω) ∈ C(ωK ) −1 = πJ\K (C(ωK )) −1 −1 Aus (1) ergibt sich nun A(ωK ) = πJ\K (C(ωK )) ∈ πJ\K (FJ\K ) = ZJ\K und wegen −1 Q[A(ωK )] = Q[πJ\K (C(ωK ))]
= QJ\K [C(ωK )] die Messbarkeit der Abbildung ΩK → [0, 1] : ωK 7→ Q[A(ωK )] sowie Q[A] = Q[πJ−1 (C)] = QJ [C] Z = QJ\K [C(ωK )] dQK (ωK ) ΩK Z = Q[A(ωK )] dQK (ωK ) ΩK
212
Kapitel 10. Wahrscheinlichkeitsr¨ aume
(3) Wir betrachten nun eine monoton fallende Folge {An }n∈N ⊆ Z mit inf Q[An ] > 0
n∈N
und zeigen, dass \
An 6= ∅
n∈N
gilt. Sei {Kn }n∈N ⊆ H(I) eine streng monoton wachsende Folge mit An ∈ ZKn f¨ ur alle n ∈ N und sei α := inf Q[An ] n∈N
Wir konstruieren weiter unten eine Folge {ωKm }m∈N mit ωKm −1 πKm ({ωKm })
∈ ΩKm
⊆ Am Q[An (ωKm )] ≥ α/2m
sowie πKm ,Km+1 (ωKm+1 ) = ωKm −1 f¨ ur alle m, n ∈ N. Dann gilt ωKm+1 ⊆ πK ({ωKm }) und damit m ,Km+1 −1 −1 −1 πK ({ωKm+1 }) ⊆ πK (πK ({ωKm })) m+1 m+1 m ,Km+1 −1 = πK ({ωKm }) m −1 Daher ist die Folge {πK ({ωKm })}m∈N monoton fallend mit m
\
−1 πK ({ωKm }) 6= ∅ m
m∈N
und f¨ ur alle n ∈ N gilt
T m∈N
\
−1 −1 πK ({ωKm }) ⊆ πK ({ωKn }) ⊆ An . Daher gilt m n −1 πK ({ωKm }) ⊆ m
m∈N
n∈N
und damit \ n∈N
(4) Nach (3) ist Q ∅–stetig.
\
An 6= ∅
An
10.6 Satz von Andersen/Jessen
213
(5) Wir tragen nun die Konstruktion der Folge {ωKm }m∈N nach: – m = 1: Mit der Folge {An }n∈N ist f¨ ur jedes ω 0 ∈ ΩK1 auch die Folge 0 {An (ω )}n∈N monoton fallend; damit ist auch die Folge {Bn }n∈N mit ¯ n o ¯ Bn := ω 0 ∈ ΩK1 ¯ Q[An (ω 0 )] ≥ α/2 monoton fallend. F¨ ur alle n ∈ N gilt nach (2) Bn ∈ FK1 und α ≤ Q[An ] Z = Q[An (ω 0 )] dQK1 (ω 0 ) Z
ΩK1
= Z
Bn
≤ Bn
Z
Q[An (ω 0 )] dQK1 (ω 0 ) + Z 1 dQK1 (ω 0 ) +
≤ QK1 [Bn ] + und damit
α 2
ΩK1 \Bn
ΩK1 \Bn
Q[An (ω 0 )] dQK1 (ω 0 )
α dQK1 (ω 0 ) 2
" # \ α ≤ inf QK1 [Bn ] = QK1 Bn n∈N 2 n∈N
T
Da QK1 einTWahrscheinlichkeitsmaß ist, gilt n∈N Bn 6= ∅. Daher gibt es ∞ ein ωK1 ∈ n=1 Bn . Aus der Definition der Folge {Bn }n∈N ergibt sich ωK1 ∈ ΩK1 sowie α ≤ Q[An (ωK1 )] 2 f¨ ur alle n ∈ N. Insbesondere ist die Menge ¯ n o ¯ −1 −1 A1 (ωK1 ) = ω ∈ Ω ¯ πK ({ω }) ∩ π ({π (ω)}) ⊆ A K1 1 I\K1 I\K1 1 nichtleer und wegen A1 ∈ ZK1 gilt −1 πK ({ωK1 }) ⊆ A1 1
–
m → m + 1: Sei ωKm ∈ ΩKm bereits konstruiert. Mit der Folge {An }n∈N ist auch die Folge {A(ωKm )}n∈N und damit f¨ ur jedes ω 0 ∈ ΩKm+1 \Km 0 auch die Folge {(An (ωKm ))(ω )}n∈N monoton fallend; damit ist auch die Folge {Bn }n∈N mit ¯ n o ¯ Bn := ω 0 ∈ ΩKm+1 \Km ¯ Q[(An (ωKm ))(ω 0 )] ≥ α/2m+1
214
Kapitel 10. Wahrscheinlichkeitsr¨ aume
monoton fallend. F¨ ur alle n ∈ N gilt nach (2) Bn ∈ FKm+1 \Km und α ≤ Q[(An (ωKm ))] 2m Z = Q[(An (ωKm ))(ω 0 )] dQKm+1 \Km (ω 0 ) ΩKm+1\Km
Z
Q[(An (ωKm ))(ω 0 )] dQKm+1 \Km (ω 0 ) Z + Q[(An (ωKm ))(ω 0 )] dQKm+1 \Km (ω 0 )
=
Bn
(ΩKm+1\Km )\Bn
Z ≤ Bn
Z
1 dQKm+1 \Km (ω 0 ) +
≤ QKm+1\Km [Bn ] +
α
α (ΩKm+1\Km )\Bn
2m+1
dQKm+1 \Km (ω 0 )
2m+1
und damit α 2m+1
" ≤ inf QKm+1\Km [Bn ] = QKm+1 \Km n∈N
\
# Bn
n∈N
T Da QKm+1 \Km ein Wahrscheinlichkeitsmaß ist, gilt n∈N Bn 6= ∅. Daher T gibt es ein ωKm+1 \Km ∈ n∈N Bn . Aus der Definition der Folge {Bn }n∈N ergibt sich ωKm+1 \Km ∈ ΩKm+1 \Km sowie α ≤ Q[(An (ωKm ))(ωKm+1\Km )] 2m+1 f¨ ur alle n ∈ N. Insbesondere ist die Menge (Am+1 (ωKm ))(ωKm+1 \Km ) nichtleer und wegen Am+1 (ωKm ) ∈ ZKm+1 \Km gilt −1 πK ({ωKm+1 \Km }) ⊆ Am+1 (ωKm ) m+1 \Km
Sei nun −1 −1 ωKm+1 := πKm+1 (πK ({ωKm }) ∩ πK ({ωKm+1 \Km })) m m+1 \Km
Dann gilt ωKm+1 ∈ ΩKm+1 und πKm ,Km+1 (ωKm+1 ) = ωKm
10.6 Satz von Andersen/Jessen
215
und −1 −1 −1 πK ({ωKm+1 }) = πK ({ωKm }) ∩ πK ({ωKm+1 \Km }) m+1 m m+1 \Km
Daher gilt f¨ ur alle ω ∈ Ω −1 −1 πK ({ωKm+1 }) ∩ πI\K ({πI\Km+1 (ω)}) m+1 m+1 −1 −1 −1 = πK ({ωKm }) ∩ πK ({ωKm+1 \Km }) ∩ πI\K ({πI\Km+1 (ω)}) m m+1 \Km m+1
Wegen −1 −1 πK ({ωKm+1 \Km }) ∩ πI\K ({πI\Km+1 (ω)}) m+1 \Km m+1 −1 −1 −1 = πI\K ({πI\Km (πK ({ωKm+1 \Km }) ∩ πI\K ({πI\Km+1 (ω)}))}) m m+1 \Km m+1
gilt daher ω ∈ An (ωKm+1 ) genau dann, wenn −1 −1 πK ({ωKm+1 \Km }) ∩ πI\K ({πI\Km+1 (ω)}) ∈ An (ωKm ) m+1 \Km m+1
gilt, und diese Bedingung ist genau dann erf¨ ullt, wenn ω ∈ (An (ωKm ))(ωKm+1 \Km ) gilt. Daher gilt f¨ ur alle n ∈ N An (ωKm+1 ) = (An (ωKm ))(ωKm+1 \Km ) und damit α ≤ Q[An (ωKm+1 )] 2m+1 Insbesondere gilt Am+1 (ωKm+1 ) 6= ∅. Daher gibt es ein ω ∈ Ω mit −1 −1 πK ({ωKm+1 }) ∩ πI\K ({πI\Km+1 )(ω)} ⊆ Am+1 m+1 m+1
Wegen Am+1 ∈ ZKm+1 gilt dann aber −1 πK ({ωKm+1 }) ⊆ Am+1 m+1
Damit ist die Folge {ωKm }m∈N konstruiert.
2
Der durch den Satz von Andersen/Jessen gegebene Wahrscheinlichkeitsraum (Ω, F, Q) heißt Produkt der Familie {(Ωi , Fi , Qi )}i∈I und das Wahrscheinlichkeitsmaß Q heißt Produkt der Familie {Qi }i∈I . Es gilt
216
Kapitel 10. Wahrscheinlichkeitsr¨ aume
Ω=
Y
Ωi
i∈I
F=
O
Fi
i∈I
und wir setzen O
Qi := Q
i∈I
und O
à (Ωi , Fi , Qi ) :=
i∈I
Y
Ωi ,
i∈I
O
Fi ,
i∈I
O
! Qi
i∈I
Die Notation ist damit analog zum Fall eines endlichen Produktes. Wir geben abschließend ein einfaches Beispiel f¨ ur die Anwendung des Satzes von Andersen/Jessen: 10.6.3 Beispiel (Wurf einer M¨ unze bis zum ersten Kopf ). Wir betrachten den wiederholten Wurf einer M¨ unze. Wir nehmen an, dass – zwischen den verschiedenen W¨ urfen der M¨ unze keine gegenseitige Beeinflussung besteht, – bei jedem Wurf nur Kopf oder Zahl auftreten kann, – die Chance f¨ ur das Auftreten von Kopf beim einmaligen Wurf gleich einer reellen Zahl ϑ ∈ (0, 1) ist, und – die M¨ unze solange geworfen wird, bis zum erstenmal Kopf auftritt. Wir interessieren uns f¨ ur die Anzahl der W¨ urfe, bis zum erstenmal Kopf auftritt. Wir w¨ ahlen folgende Modelle: – Als Modell f¨ ur den i–ten Wurf w¨ ahlen wir den diskreten Wahrscheinlichkeitsraum (Ωi , Fi , Pi ) mit Ωi := {K, Z} sowie Fi = 2Ωi und dem durch Pi [{K}] := ϑ festgelegten Wahrscheinlichkeitsmaß. – Als Modell f¨ ur den wiederholten Wurf w¨ ahlen wir den Wahrscheinlichkeitsraum O (Ω, F , P ) := (Ωi , Fi , Pi ) i∈N N
Dann gilt Ω = {K, Z} und damit ist Ω u ahlbar. Sei n ∈ N und sei ¨ berabz¨ An :=
n−1 Y
∞ Y
i=1
j=n+1
{Z} × {K} ×
Ωj
Dann gilt An ∈ Z ⊆ F und An ist gerade das Ereignis, dass Kopf zum erstenmal beim n–ten Wurf auftritt. Sei ferner O (Ω{1,...,n} , F{1,...,n} , P{1,...,n} ) := (Ωi , Fi , Pi ) i∈{1,...,n}
und
10.6 Satz von Andersen/Jessen
217
Cn :=
n−1 Y
{Z} × {K}
i=1 −1 Dann gilt Cn ∈ F{1,...,n} und An = π{1,...,n} (Cn ), und nach Konstruktion der Wahrscheinlichkeitsmaße P und P{1,...,n} gilt O Pπ{1,...,n} = P{1,...,n} = Pi i∈{1,...,n}
Wir erhalten daher −1 P [An ] = P [π{1,...,n} (Cn )]
= Pπ{1,...,n} [Cn ] Ã !"n−1 # O Y = Pi {Z} × {K} i∈{1,...,n}
=
Ãn−1 Y
!
i=1
Pi [{Z}] Pn [{K}]
i=1
Die Folge {An }n∈N mit
= (1−ϑ)n−1 ϑ P ¯ ist disjunkt mit P [ ∞ n=1 An ] = 1. Die Abbildung X : Ω → R ½ X(ω) :=
n ∞
falls ω ∈ An P falls ω ∈ Ω \ ∞ n=1 An
gibt die Anzahl der W¨ urfe bis zum ersten Auftreten von Kopf an. Dann ist X eine Zufallsvariable und f¨ ur alle n ∈ N gilt P [{X = n}] = (1−ϑ)n−1 ϑ Daher gilt P [{X ∈ N}] = 1 und die M¨ unze wird mit Wahrscheinlichkeit Eins nur endlich viele Male geworfen.
Die in diesem Beispiel und auch in den vorher betrachteten Beispielen zum wiederholten M¨ unzwurf getroffene Annahme, dass zwischen den verschiedenen W¨ urfen der M¨ unze keine gegenseitige Beeinflussung besteht, bildet den heuristischen Hintergrund f¨ ur einen zentralen wahrscheinlichkeitstheoretischen Begriff, den wir im n¨achsten Kapitel einf¨ uhren und untersuchen. Aufgabe 10.6.A Wurf einer M¨ unze bis zum ersten Kopf: Verwenden Sie die Modelle aus Beispiel 10.6.3. (1) Beschreiben Sie alle Ereignisse der Algebra Z. (2) Beschreiben Q Sie alle Ereignisse der σ–Algebra F . (3) Sei B := ∞ i=1 {Z}. Dann gilt B ∈ F \ Z und P [B] = 0.
11 Unabh¨ angigkeit
In diesem Kapitel und in den weiteren Kapiteln sei (Ω, F , P ) ein Wahrscheinlichkeitsraum, auf dem alle Zufallsgr¨oßen definiert sind. In diesem Kapitel betrachten wir den f¨ ur die Wahrscheinlichkeitstheorie grundlegenden Begriff der Unabh¨angigkeit, der in drei Formen auftreten kann: – Unabh¨ angigkeit einer Familie von Ereignissen (Abschnitt 11.1) – Unabh¨ angigkeit einer Familie von Ereignissystemen (Abschnitt 11.2) – Unabh¨ angigkeit einer Familie von Zufallsgr¨ oßen (Abschnitt 11.3) Diese drei Formen der Unabh¨angigkeit h¨angen eng miteinander zusammen und treten in nat¨ urlicher Weise in Produkten von Wahrscheinlichkeitsr¨ aumen auf (Abschnitt 11.4). Sei I eine nichtleere Indexmenge und sei H(I) die Familie der endlichen nichtleeren Teilmengen von I.
11.1 Unabh¨ angige Familien von Ereignissen Ziel dieses Abschnitts ist es, den Begriff der Unabh¨ angigkeit f¨ ur eine Familie von Ereignissen zu definieren und zu untersuchen. Wir beginnen mit einer Vorbetrachtung. Sei C ∈ F ein Ereignis mit P [C] ∈ (0, 1). Dann ist das unbestimmte Integral Z χC P [ . |C] := dP P [C] ein Wahrscheinlichkeitsmaß mit Z Z χC 1 P [A ∩ C] P [A|C] = dP = χA∩C dP = P [C] P [C] P [C] A Ω K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_11, © Springer-Verlag Berlin Heidelberg 2011
220
Kapitel 11. Unabh¨ angigkeit
Das Wahrscheinlichkeitsmaß P [ . |C] heißt bedingtes Wahrscheinlichkeitsmaß unter C, und f¨ ur A ∈ F heißt P [A|C] die bedingte Wahrscheinlichkeit von A unter C. Wegen P [C|C] = 1 und P [C|C] = 0 lebt das Wahrscheinlichkeitsmaß P [ . |C] auf dem Ereignis C und verschwindet auf seinem Komplement. Der Wahrscheinlichkeitsraum (Ω, F , P [ . |C]) kann als Modell f¨ ur das nach dem Eintritt des Ereignisses C verbleibende Zufallsgeschehen interpretiert werden. Ist C ∈ F ein Ereignis mit P [C] ∈ (0, 1), so ist auch C ∈ F ein Ereignis mit P [C] ∈ (0, 1), und in diesem Fall heißt ein Ereignis A ∈ F unabh¨ angig von C, wenn P [A|C] = P [A|C] gilt. 11.1.1 Lemma. Sei C ∈ F ein Ereignis mit P [C] ∈ (0, 1). Dann sind f¨ ur jedes Ereignis A ∈ F folgende Aussagen ¨ aquivalent : (a) A ist unabh¨ angig von C. (b) Es gilt P [A|C] = P [A]. (c) Es gilt P [A ∩ C] = P [A] P [C]. Beweis. Aus der Definition der bedingten Wahrscheinlichkeit ergibt sich P [A] = P [A ∩ C] + P [A ∩ C] = P [A|C] P [C] + P [A|C] P [C] ¨ und wegen P [C] + P [C] = 1 folgt daraus die Aquivalenz von (a) und (b). Die ¨ Aquivalenz von (b) und (c) ist klar. 2 ¨ Die Aquivalenz der Aussagen (a) und (c) von Lemma 11.1.1 deutet bereits eine gewisse Symmetrie zwischen den bei der Unabh¨ angigkeit betrachteten Ereignissen an; diese Symmetrie l¨asst sich wie folgt pr¨ azisieren: 11.1.2 Folgerung. Seien A, C ∈ F Ereignisse mit P [A], P [C] ∈ (0, 1). Dann sind ¨ aquivalent: (a) A ist unabh¨ angig von C. (b) C ist unabh¨ angig von A. Folgerung 11.1.2 legt es nahe, die Unabh¨angigkeit von zwei Ereignissen in symmetrischer Weise und ohne Einschr¨ankung an die Wahrscheinlichkeiten ¨ dieser Ereignisse wie folgt zu definieren. Aufgrund der Aquivalenz von (a) und (c) im Lemma 11.1.1 ist die folgende Definition der Unabh¨ angigkeit mit der vorher gegebenen Definition vertr¨aglich: Zwei Ereignisse A, B ∈ F heißen unabh¨ angig (voneinander), wenn P [A ∩ B] = P [A] P [B] gilt. In diesem Fall sagen wir auch:
11.1 Unabh¨ angige Familien von Ereignissen
221
– A und B sind unabh¨ angig. – A ist unabh¨ angig von B. – B ist unabh¨ angig von A. – {A, B} ist unabh¨ angig. Im folgenden verstehen wir die Unabh¨angigkeit von Ereignissen A, B ∈ F als eine Eigenschaft der Familie {A, B} dieser Ereignisse. Zwei Ereignisse heißen abh¨ angig (voneinander), wenn sie nicht unabh¨ angig sind. 11.1.3 Beispiele (Urnenmodelle). Wir betrachten eine Urne mit N ≥ 2 Kugeln, von denen K ∈ {1, . . . , N−1} Kugeln rot sind und N−K Kugeln eine beliebige andere Farbe besitzen. Wir nehmen an, dass alle Kugeln bis auf die Farbe gleichartig sind. Wir ziehen n = 2 Kugeln aus der Urne. (1) Ziehen ohne Zur¨ ucklegen: Wir w¨ ahlen den vorher eingef¨ uhrten symmetrischen Wahrscheinlichkeitsraum (Ω, F , P ) und betrachten die Ereignisse A= b bei der 1. Ziehung tritt eine rote Kugel auf B= b bei der 2. Ziehung tritt eine rote Kugel auf Dann gilt |Ω| = N (N −1) |A ∩ B| = K(K −1) |A ∩ B| = K(N −K) |A ∩ B| = (N −K)K und damit |A| = K(N −1) |B| = K(N −1) Es gilt also P [A ∩ B] = K(K −1)/(N (N −1)) P [A] = K/N P [B] = K/N und damit P [A ∩ B] 6= P [A] P [B]. Daher ist {A, B} nicht unabh¨ angig. (2) Ziehen mit Zur¨ ucklegen: Wir w¨ ahlen den vorher eingef¨ uhrten symmetrischen Wahrscheinlichkeitsraum (Ω, F , P ) und betrachten die Ereignisse A= b bei der 1. Ziehung tritt eine rote Kugel auf B= b bei der 2. Ziehung tritt eine rote Kugel auf Dann gilt |Ω| = N 2 |A ∩ B| = K 2 |A ∩ B| = K(N −K) |A ∩ B| = (N −K)K
222
Kapitel 11. Unabh¨ angigkeit und damit |A| = KN |B| = KN Es gilt also P [A ∩ B] = K 2 /N 2 P [A] = K/N P [B] = K/N und damit P [A ∩ B] = P [A] P [B]. Daher ist {A, B} unabh¨ angig.
Der Begriff der Unabh¨angigkeit von Ereignissen ist ein wahrscheinlichkeitstheoretischer Begriff, der in der allgemeinen Maßtheorie keinen Sinn macht: Sei µ : F → [0, ∞] ein Maß und seien A, B ∈ F Ereignisse mit µ[A ∩ B] = µ[A] µ[B] Dann gilt wegen µ[A ∩ B] ≤ µ[A] und µ[A ∩ B] ≤ µ[B] (µ[A ∩ B])2 ≤ µ[A] µ[B] = µ[A ∩ B] und damit entweder µ[A ∩ B] = ∞ oder µ[A ∩ B] ≤ 1. Im Fall µ[A ∩ B] = ∞ ist die Gleichung µ[A ∩ B] = µ[A] µ[B] aber trivial, und im Fall µ[A ∩ B] ≤ 1 folgt aus ihr min{µ[A], µ[B]} ≤ 1. Wir untersuchen zun¨achst die Frage, welche Ereignisse von einem gegebenen Ereignis unabh¨ angig sind. 11.1.4 Lemma. Sei A ∈ F ein Ereignis und sei B ∈ F ein Ereignis mit P [B] ∈ {0, 1}. Dann ist {A, B} unabh¨ angig. Beweis. Im Fall P [B] = 0 gilt P [A ∩B] = 0 und damit P [A∩B] = P [A] P [B]. Im Fall P [B] = 1 gilt P [A ∪ B] = 1 und aus der Gleichung P [A ∪ B] + P [A ∩ B] = P [A] + P [B] folgt P [A ∩ B] = P [A] = P [A] P [B].
2
Insbesondere ist das sichere Ereignis und das unm¨ ogliche Ereignis von jedem Ereignis unabh¨ angig. Andererseits sind ein Ereignis und sein Komplement im allgemeinen abh¨ angig; vgl. Aufgabe 11.1.F. 11.1.5 Lemma. Sei A ∈ F ein Ereignis und sei B ∈ F ein Ereignis derart, dass {A, B} unabh¨ angig ist. Dann ist {A, B} unabh¨ angig.
11.1 Unabh¨ angige Familien von Ereignissen
223
Beweis. Es gilt P [A ∩ B] + P [A ∩ B] = P [A] = P [A] (P [B] + P [B]) = P [A] P [B] + P [A] P [B] Daraus folgt die Behauptung.
2
11.1.6 Lemma. Sei A ∈ F ein Ereignis und sei {Bn }n∈N ⊆ F eine Folge von Ereignissen derart, dass {A, Bn } f¨ ur alle n ∈ N unabh¨ angig ist. Dann gilt: P ∞ (1) Ist {Bn }n∈N disjunkt, so ist {A, n=1 Bn } S unabh¨ angig. (2) Ist {Bn }n∈N monoton wachsend, so ist {A, angig. T n∈N Bn } unabh¨ (3) Ist {Bn }n∈N monoton fallend, so ist {A, n∈N Bn } unabh¨ angig. Beweis. Ist die Folge {Bn }n∈N disjunkt, so folgt aus der σ–Additivit¨ at " # " # ∞ ∞ X X P A∩ Bn = P A ∩ Bn n=1
n=1
= =
∞ X n=1 ∞ X
P [A ∩ Bn ] P [A] P [Bn ]
n=1
= P [A]
∞ X
P [Bn ]
n=1
"
= P [A] P
∞ X
# Bn
n=1
Daher gilt (1). Die Beweise von (2) und (3) verlaufen analog zu dem von (1) und verwenden anstelle der σ–Additivit¨at die Stetigkeit von unten bzw. die Stetigkeit von oben. 2 Das folgende Beispiel zeigt, dass die Voraussetzung der Monotonie in den Aussagen (2) und (3) von Lemma 11.1.6 wesentlich ist: 11.1.7 Beispiel. Sei (Ω, F , P ) der symmetrische Wahrscheinlichkeitsraum mit Ω := {1, 2, 3, 4}. Sei ferner A := {1, 2} B := {2, 3} C := {1, 3} Dann ist sowohl {A, B} als auch {A, C} unabh¨ angig, aber es ist weder {A, B ∪ C} noch {A, B ∩ C} unabh¨ angig.
224
Kapitel 11. Unabh¨ angigkeit
Der folgende Satz fasst die wichtigsten Aussagen der letzten drei Lemmata zusammen: 11.1.8 Satz. Sei A ∈ F ein Ereignis und sei ¯ n o ¯ DA := B ∈ F ¯ {A, B} ist unabh¨ angig Dann ist DA ein Dynkin–System. Beweis. Der Beweis ergibt sich aus den bereits bekannten Ergebnissen: (i) Wegen P [Ω] = 1 und Lemma 11.1.4 gilt Ω ∈ DA . (ii) Sei B ∈ DA . Nach Lemma 11.1.5 gilt dann B ∈ DA . P∞ (iii) Sei {Bn }n∈N ⊆ DA disjunkt. Nach Lemma 11.1.6 gilt dann n=1 Bn ∈ DA . Daher ist DA ein Dynkin–System. 2 Das Dynkin–System DA := {B ∈ F | {A, B} ist unabh¨ angig} der von A ∈ F unabh¨ angigen Ereignisse ist im allgemeinen nicht ∩–stabil und damit im allgemeinen keine σ–Algebra; vgl. Beispiel 11.1.7. Wir verallgemeinern die Definition der Unabh¨ angigkeit von Ereignissen nun auf beliebige Familien von Ereignissen: Eine Familie {Ai }i∈I von Ereignissen Ai ∈ F heißt unabh¨ angig, wenn f¨ ur alle J ∈ H(I) " # \ Y P Ai = P [Ai ] i∈J
i∈J
gilt. Wir veranschaulichen diese Definition an zwei Beispielen: 11.1.9 Beispiele. (1) Sei (Ω, F , P ) der symmetrische Wahrscheinlichkeitsraum mit Ω := {0, 1}3 . Sei ferner A := {000, 001, 010, 011} B := {000, 001, 010, 100} C := {000, 011, 100, 111} Dann gilt P [A ∩ B ∩ C] = P [A] P [B] P [C] und P [A ∩ B] 6= P [A] P [B] P [A ∩ C] = P [A] P [C] P [B ∩ C] = P [B] P [C] Daher ist die Familie {A, B, C} nicht unabh¨ angig.
11.1 Unabh¨ angige Familien von Ereignissen
225
(2) Sei (Ω, F , P ) der symmetrische Wahrscheinlichkeitsraum mit Ω := {0, 1}2 . Sei ferner A := {00, 01} B := {00, 10} C := {00, 11} Dann gilt P [A ∩ B] = P [A] P [B] P [A ∩ C] = P [A] P [C] P [B ∩ C] = P [B] P [C] und P [A ∩ B ∩ C] 6= P [A] P [B] P [C] Daher ist die Familie {A, B, C} nicht unabh¨ angig.
Der folgende Satz zeigt, dass jede Teilfamilie einer unabh¨ angigen Familie von Ereignissen wieder unabh¨angig ist und dass umgekehrt die Unabh¨ angigkeit jeder endlichen Teilfamilie einer Familie von Ereignissen die Unabh¨ angigkeit der gesamten Familie impliziert: 11.1.10 Satz. Sei {Ai }i∈I eine Familie von Ereignissen. Dann sind ¨ aquivalent: (a) Die Familie {Ai }i∈I ist unabh¨ angig. (b) F¨ ur jede nichtleere Menge K ⊆ I ist {Ai }i∈K unabh¨ angig. (c) F¨ ur jede endliche nichtleere Menge K ⊆ I ist {Ai }i∈K unabh¨ angig. Beweis. Wir nehmen zun¨achst an, dass (a) gilt. Sei K ⊆ I nichtleer. F¨ ur alle J ∈ H(K) gilt J ∈ H(I) und damit " # \ Y P Ai = P [Ai ] i∈J
i∈J
Daher folgt (b) aus (a). Offensichtlich folgt (c) aus (b). Wir nehmen nun an, dass (c) gilt. F¨ ur alle J ∈ H(I) gilt J ∈ H(J) und damit " # \ Y P Ai = P [Ai ] i∈J
Daher folgt (a) aus (c).
i∈J
2
Der folgende Satz verallgemeinert Lemma 11.1.5; er zeigt, dass f¨ ur eine Familie von Ereignissen die Unabh¨angigkeit erhalten bleibt, wenn man beliebig viele der Ereignisse durch ihr Komplement ersetzt:
226
Kapitel 11. Unabh¨ angigkeit
11.1.11 Satz. Sei {Ai }i∈I eine Familie von Ereignissen und sei {Bi }i∈I eine Familie von Ereignissen mit Bi ∈ {Ai , Ai } f¨ ur alle i ∈ I. Dann sind aquivalent: ¨ (a) Die Familie {Ai }i∈I ist unabh¨ angig. (b) Die Familie {Bi }i∈I ist unabh¨angig. Beweis. Offenbar gen¨ ugt es, eine der beiden Implikationen zu beweisen, und wegen Satz 11.1.10 gen¨ ugt es ferner, den Beweis f¨ ur den Fall I = {1, . . . , n} zu f¨ uhren. Sei also die Familie {Ai }i∈{1,...,n} unabh¨angig. Wir zeigen durch vollst¨ andige Induktion, dass f¨ ur alle k ∈ {0, 1, . . . , n} die Aussage (k)
F¨ ur alle J ⊆ {1, . . . , n} mit |{i ∈ J | Bi = Ai }| = k gilt " # \ Y P Bi = P [Bi ] i∈J
i∈J
gilt: • k = 0: In diesem Fall ist nichts zu zeigen. • k → k+1: Wir nehmen an, die Aussage sei f¨ ur ein k ∈ {0, 1, . . . , n−1} bereits bewiesen, und betrachten J ⊆ {1, . . . , n} mit |{i ∈ J | Bi = Ai }| = k + 1. F¨ ur alle j ∈ J mit Bj = Aj gilt aufgrund der Induktionsannahme " # \ Y P Bi = P [Bi ] i∈J\{j}
i∈J\{j}
und "
#
\
P Aj ∩
Y
Bi = P [Aj ]
i∈J\{j}
P [Bi ]
i∈J\{j}
und damit "
#
\
P Aj ∩
"
Bi = P [Aj ] P
i∈J\{j}
\
# Bi
i∈J\{j}
T Also ist {Aj , i∈J\{j} Bi } unabh¨angig. Nach Lemma 11.1.5 ist dann auch T {Aj , i∈J\{j} Bi } unabh¨angig. Wegen Bj = Aj gilt also " P
\
i∈J
#
"
Bi = P Bj ∩ " = P Aj ∩
\
# Bi
i∈J\{j}
\ i∈J\{j}
# Bi
11.1 Unabh¨ angige Familien von Ereignissen
227
"
\
= P [Aj ] P
# Bi
i∈J\{j}
" = P [Bj ] P
\
# Bi
i∈J\{j}
= P [Bj ] =
Y
Y
P [Bi ]
i∈J\{j}
P [Bi ]
i∈J
Daher gilt die Aussage (k) f¨ ur alle k ∈ {0, 1, . . . , n}, und damit ist die Familie {Bi }i∈{1,...,n} unabh¨angig. 2 Wir untersuchen abschließend f¨ ur eine Folge von Ereignissen die Bedeutung der Unabh¨ angigkeit der Folge f¨ ur die Wahrscheinlichkeit ihres Limes superior: 11.1.12 Lemma (1. Lemma P∞ von Borel/Cantelli). Sei {An }n∈N eine Folge von Ereignissen mit n=1 P [An ] < ∞. Dann gilt · ¸ P lim sup An = 0 n→∞
Beweis. Da P monoton und σ–subadditiv ist, gilt f¨ ur alle m ∈ N "∞ ∞ # " ∞ # · ¸ ∞ \ [ [ X P lim sup An = P Ak ≤ P Ak ≤ P [Ak ] n→∞
Aus der Voraussetzung
n=1 k=n
P∞ k=1
k=m
k=m
P [Ak ] < ∞ folgt nun die Behauptung.
2
P∞ F¨ ur eine Folge von Ereignissen {An }n∈N ⊆ F mit n=1 P [An ] = ∞ erh¨ alt man im Fall der Unabh¨angigkeit der Folge {An }n∈N ein ¨ ahnliches Ergebnis: 11.1.13 Lemma (2. Lemma von Borel/Cantelli). Sei {An }n∈N eine P∞ unabh¨ angige Folge von Ereignissen mit n=1 P [An ] = ∞. Dann gilt · ¸ P lim sup An = 1 n→∞
Beweis. Es gilt " # "∞ ∞ # "∞ # · ¸ ∞ [ ∞ ∞ \ [ \ X \ 1 − P lim sup An = P Ω \ Ak = P Ak ≤ P Ak n→∞
n=1 k=n
n=1 k=n
n=1
k=n
228
Kapitel 11. Unabh¨ angigkeit
F¨ ur alle n ∈ N und f¨ ur alle m ∈ N(n) gilt aufgrund der Unabh¨ angigkeit der Folge {An }n∈N und wegen Satz 11.1.11 "∞ # " m # \ \ P Ak ≤ P Ak k=n
k=n
= = ≤
m Y
P [Ak ]
k=n m ³ Y k=n m Y
´ 1 − P [Ak ]
³ ´ exp −P [Ak ]
k=n
Ã
= exp − Aus der Voraussetzung
P∞ k=1
m X
! P [Ak ]
k=n
P [Ak ] = ∞ folgt nun die Behauptung.
2
Aus dem 1. und 2. Lemma von Borel/Cantelli ergibt sich f¨ ur unabh¨ angige Folgen von Ereignissen das folgende Null–Eins–Gesetz von Borel : 11.1.14 Satz (Null–Eins–Gesetz; Borel). Sei {An }n∈N eine unabh¨ angige Folge von Ereignissen. Dann gilt P∞ · ¸ ( 0 falls n=1 P [An ] < ∞ P lim sup An = P∞ n→∞ 1 falls n=1 P [An ] = ∞ Allgemein ist ein Null–Eins–Gesetz ein Satz, der besagt, dass unter gewissen Voraussetzungen f¨ ur bestimmte Ereignisse A ∈ F entweder P [A] = 0 oder P [A] = 1 gilt. Aufgaben 11.1.A Urnenmodelle: Betrachten Sie die Urnenmodelle aus Beispiel 11.1.3. – Bestimmen Sie f¨ ur jedes der Urnenmodelle die Wahrscheinlichkeiten P [A|B] und P [A|B] und vergleichen Sie die Ergebnisse. – Bestimmen Sie f¨ ur jedes der Urnenmodelle die Wahrscheinlichkeiten P [B|A] und P [B|A] und vergleichen Sie die Ergebnisse. Warum ist die Wahrscheinlichkeit P [B] nicht davon abh¨ angig, ob mit oder ohne Zur¨ ucklegen gezogen wird? 11.1.B Formel von der totalen Wahrscheinlichkeit: Sei C ∈ F ein Ereignis mit P [C] ∈ (0, 1). Dann gilt f¨ ur alle A ∈ F P [A] = P [A|C] P [C] + P [A|C] P [C] Interpretieren Sie diese Gleichung.
11.2 Unabh¨ angige Familien von Ereignissystemen
229
11.1.C Formel von Bayes: Sei C ∈ F ein Ereignis mit P [C] ∈ (0, 1). Dann gilt f¨ ur alle A ∈ F mit P [A] > 0 P [C|A] =
P [A|C] P [C] P [A|C] P [C] + P [A|C] P [C]
11.1.D Sei C ∈ F ein Ereignis mit P [C] ∈ (0, 1). Dann sind die Wahrscheinlichkeitsmaße P [ . |C] und P [ . |C] P –stetig und singul¨ ar zueinander. 11.1.E Lebensversicherungsmathematik: Die Lebensdauer einer Person wird durch eine Zufallsvariable T mit P [{T ∈ R+ }] = 1 und P [{T > x}] > 0 f¨ ur alle x ∈ N0 beschrieben. F¨ ur x, k ∈ N0 sei k px
:= P [{T > x + k}|{T > x}]
Dann gilt f¨ ur alle x, k, l ∈ N0 k+l px
= l px+k k px
und k px
=
k Y
1 px+j−1
j=1
Interpretieren Sie die bedingten Wahrscheinlichkeiten k px und die beiden Gleichungen. 11.1.F Geben Sie eine hinreichende und notwendige Bedingung daf¨ ur an, dass zwei disjunkte Ereignisse unabh¨ angig sind. 11.1.G Seien A, B ∈ F Ereignisse mit P [A ∩ B] = 1. Dann ist {A, B} unabh¨ angig. 11.1.H Sei {A, B} ⊆ F unabh¨ angig und sei C ∈ F ein Ereignis mit C ⊆ B. Dann sind ¨ aquivalent: (a) {A, C} ist unabh¨ angig. (b) {A, B \C} ist unabh¨ angig. 11.1.I
F¨ uhren Sie die Beweise der Aussagen (2) und (3) von Lemma 11.1.6 aus.
11.1.J
Sei {An }n∈N eine unabh¨ angige Folge von Ereignissen mit P [An ] = c f¨ ur alle n ∈ N und ein c ∈ (0, 1]. Dann gilt P [lim supn→∞ An ] = 1.
11.1.K Konstruieren Sie einen Wahrscheinlichkeitsraum (Ω, F , P ) und eine Folge P von Ereignissen {An }n∈N mit ∞ P [A ] = ∞ und P [lim supn→∞ An ] < 1. n n=1 11.1.L Paarweise unabh¨ angige Familien von Ereignissen: Eine Familie von Ereignissen {Ai }i∈I heißt paarweise unabh¨ angig, wenn f¨ ur alle i, j ∈ I mit i 6= j die Familie {Ai , Aj } unabh¨ angig ist. Jede unabh¨ angige Familie von Ereignissen ist paarweise unabh¨ angig, aber eine paarweise unabh¨ angige Familie von Ereignissen ist nicht notwendigerweise unabh¨ angig.
11.2 Unabh¨ angige Familien von Ereignissystemen Wir u ¨bertragen nun den Begriff der Unabh¨angigkeit auf Familien von Ereignissystemen.
230
Kapitel 11. Unabh¨ angigkeit
Wir beginnen wieder mit einer Vorbetrachtung: Sind A, B ∈ F Ereignisse (die beide von ∅ und Ω verschieden sind), so ist nach Lemma 11.1.4 und Lemma 11.1.5 die Familie {A, B} genau dann unabh¨angig, wenn f¨ ur jede Wahl von C ∈ {∅, A, A, Ω} und D ∈ {∅, B, B, Ω} die Familie {C, D} unabh¨ angig ist. Offensichtlich sind die Ereignissysteme {∅, A, A, Ω} und {∅, B, B, Ω} gerade die von den Ereignissen A bzw. B erzeugten σ–Algebren σ(A) bzw. σ(B). Diese Beobachtung legt es nahe, den Begriff der Unabh¨ angigkeit auf Familien von Ereignissystemen zu u ¨bertragen. Eine Familie {Ei }i∈I von Ereignissystemen Ei ⊆ F heißt unabh¨ angig, wenn jede Familie von Ereignissen {Ai }i∈I mit Ai ∈ Ei f¨ ur alle i ∈ I unabh¨ angig ist. Der folgende Satz ergibt sich unmittelbar aus der Definition der Unabh¨ angigkeit einer Familie von Ereignissystemen und Satz 11.1.10: 11.2.1 Satz. Sei {Ei }i∈I eine Familie von Ereignissystemen. Dann sind aquivalent: ¨ (a) Die Familie {Ei }i∈I ist unabh¨ angig. (b) F¨ ur jede nichtleere Menge K ⊆ I ist {Ei }i∈K unabh¨ angig. (c) F¨ ur jede endliche nichtleere Menge K ⊆ I ist {Ei }i∈K unabh¨ angig. Auch das folgende Lemma ergibt sich unmittelbar aus der Definition der Unabh¨ angigkeit einer Familie von Ereignissystemen: 11.2.2 Lemma. Sei {Ei }i∈I eine Familie von Ereignissystemen und sei {Ci }i∈I eine Familie von Ereignissystemen mit Ci ⊆ Ei f¨ ur alle i ∈ I. Ist {Ei }i∈I unabh¨ angig, so ist auch {Ci }i∈I unabh¨ angig. Es stellt sich nun die Frage, unter welchen Umst¨ anden man umgekehrt von der Unabh¨ angigkeit einer Familie von Ereignissystemen auf die Unabh¨ angigkeit einer Familie von gr¨oßeren Ereignissystemen schließen kann; von besonderem Interesse ist nat¨ urlich die Familie der von den einzelnen Ereignissystemen erzeugten σ–Algebren. Wir ben¨otigen die folgenden Lemmata: 11.2.3 Lemma. Seien E1 und E2 Ereignissysteme derart, dass E1 ∩–stabil und {E1 , E2 } unabh¨ angig ist. Dann ist {σ(E1 ), E2 } unabh¨ angig. Beweis. F¨ ur jedes Ereignis A ∈ E2 ist nach Satz 11.1.8 das Mengensystem ¯ n o ¯ DA := B ∈ F ¯ {A, B} ist unabh¨ angig ein Dynkin–System mit E1 ⊆ DA . Dann ist auch \ D := DA A∈E2
ein Dynkin–System mit E1 ⊆ D. Da E1 ∩–stabil ist, gilt σ(E1 ) = δ(E1 ) ⊆ D. Nach Definition von D ist {D, E2 } unabh¨angig und aus Lemma 11.2.2 folgt nun, dass auch {σ(E1 ), E2 } unabh¨angig ist. 2
11.2 Unabh¨ angige Familien von Ereignissystemen
231
11.2.4 Lemma. Sei {Ci }i∈I eine endliche Familie von Ereignissystemen. Sei ferner k ∈ I und ¯ ( ) ¯ \ ¯ Dk := D ∈ F ¯ D = Ci mit J ∈ H(I \ {k}) und Ci ∈ Ci f¨ ur alle i ∈ J ¯ i∈J
Dann sind ¨ aquivalent: (a) {Ci }i∈I ist unabh¨ angig. (b) {Ci }i∈I\{k} ist unabh¨ angig und {Ck , Dk } ist unabh¨angig. Beweis. Wir nehmen zun¨achst an, dass (a) gilt. Mit {Ci }i∈I ist nach Satz 11.2.1 auch {Ci }i∈I\{k} unabh¨angig. F¨ ur Ck ∈ Ck und D ∈ Dk gibt es eine T Darstellung D = i∈J Ci mit J ∈ H(I \ {k}) und Ci ∈ Ci f¨ ur alle i ∈ J und es gilt " # \ P [Ck ∩ D] = P Ck ∩ Ci i∈J
"
\
=P
#
Ci
i∈J∪{k}
Y
=
P [Ci ]
i∈J∪{k}
= P [Ck ]
Y
P [Ci ]
i∈J
"
= P [Ck ] P
\
# Ci
i∈J
= P [Ck ] P [D] Damit ist auch {Ck , Dk } unabh¨angig. Daher folgt (b) aus (a). Wir nehmen nun an, dass (b) gilt. Sei {Ci }i∈I eine Familie von Ereignissen mit Ci ∈ Ci f¨ ur alle i ∈ I und sei J ∈ H(I). Im Fall k ∈ J gilt " # " # \ \ P Ci = P Ck ∩ Ci i∈J
i∈J\{k}
" = P [Ck ] P
\
# Ci
i∈J\{k}
= P [Ck ] =
Y i∈J
Y
i∈J\{k}
P [Ci ]
P [Ci ]
232
Kapitel 11. Unabh¨ angigkeit
und im Fall k ∈ / J gilt ebenfalls " # \ Y P Ci = P [Ci ] i∈J
Damit gilt f¨ ur alle J ∈ H(I) P
"
\
i∈J
i∈J
# Ci =
Y
P [Ci ]
i∈J
Daher folgt (a) aus (b).
2
Der folgende Satz kl¨art den Zusammenhang zwischen der Unabh¨ angigkeit von σ–Algebren und der Unabh¨angigkeit ihrer Erzeuger: 11.2.5 Satz. Sei {Ei }i∈I eine Familie von ∩–stabilen Ereignissystemen. Dann sind ¨ aquivalent: (a) Die Familie {Ei }i∈I ist unabh¨ angig. (b) Die Familie {σ(Ei )}i∈I ist unabh¨ angig. Beweis. Wegen Lemma 11.2.2 folgt (a) aus (b), und wegen Satz 11.2.1 gen¨ ugt es, den Beweis der umgekehrten Implikation f¨ ur I = {1, . . . , n} zu f¨ uhren. Sei also die Familie {Ei }i∈{1,...,n} unabh¨angig. F¨ ur k ∈ {1, . . . , n} sei ¯ ( ) ¯ \ Ci ∈ σ(Ei ) f¨ ur i ≤ k−1 ¯ Dk := D ∈ F ¯ D = Ci , J ∈ H({1, . . . , n}\{k}), Ci ∈ Ei f¨ ur i ≥ k+1 ¯ i∈J
Wir zeigen durch vollst¨andige Induktion, dass f¨ ur alle k ∈ {0, 1, . . . , n} die Aussage (k)
{σ(E1 ), . . . , σ(Ek ), Ek+1 , . . . , En } ist unabh¨ angig.
gilt: • k = 0: In diesem Fall ist nichts zu zeigen. • k → k + 1: Wir nehmen an, die Aussage sei f¨ ur ein k ∈ {0, 1, . . . , n−1} bereits bewiesen. Dann ist die Familie {σ(E1 ), . . . , σ(Ek ), Ek+1 , Ek+2 , . . . , En } unabh¨ angig. Nach Lemma 11.2.4 ist jede der Familien {σ(E1 ), . . . , σ(Ek ), Ek+2 , . . . , En } und
{Ek+1 , Dk+1}
unabh¨ angig, nach Lemma 11.2.3 ist jede der Familien {σ(E1 ), . . . , σ(Ek ), Ek+2 , . . . , En } und
{σ(Ek+1), Dk+1 }
unabh¨ angig, und nach Lemma 11.2.4 ist die Familie {σ(E1 ), . . . , σ(Ek ), σ(Ek+1 ), Ek+2 , . . . , En } unabh¨ angig. Daher gilt die Aussage (n), und damit ist die Familie {σ(Ei )}i∈I unabh¨ angig. 2
11.2 Unabh¨ angige Familien von Ereignissystemen
233
Insbesondere ist die Unabh¨angigkeit einer Familie von Ereignissen ¨ aquivalent mit der Unabh¨ angigkeit der Familie der von den einzelnen Ereignissen erzeugten σ–Algebren; dies ist im wesentlichen nur eine andere Formulierung von Satz 11.1.11 und schließt den Kreis zur Vorbetrachtung am Anfang dieses Abschnittes: 11.2.6 Folgerung. Sei {Ai }i∈I eine Familie von Ereignissen. Dann sind aquivalent: ¨ (a) Die Familie {Ai }i∈I ist unabh¨ angig. (b) Die Familie {σ(Ai )}i∈I ist unabh¨ angig. Wir betrachten nun eine weitere Stabilit¨atseigenschaft der Unabh¨ angigkeit einer Familie von ∩–stabilen Ereignissystemen. Das folgende Blocklemma wird sich als ¨ außerst n¨ utzlich erweisen und l¨asst sich auf eine beliebige disjunkte Familie von Teilmengen der Indexmenge verallgemeinern; vgl. Aufgabe 11.2.C. 11.2.7 Lemma (Blocklemma). Sei {Ei }i∈I eine unabh¨ angige Familie von ∩–stabilen Ereignissystemen. Sind M, N ⊆ I nichtleer und disjunkt , so ist auch die Familie ( Ã ! Ã !) [ [ σ Ei , σ Ei i∈M
i∈N
unabh¨ angig. Beweis. F¨ ur jede nichtleere Menge L ⊆ I sei ¯ ( ) ¯ \ ¯ EL := A ∈ F ¯ A = Ai mit J ∈ H(L) und Ai ∈ Ei f¨ ur alle i ∈ J ¯ i∈J
Da jedes der Mengensysteme Ei ∩–stabil ist, ist auch EL ∩–stabil. Außerdem gilt à ! [ σ(EL ) = σ Ei i∈L
Es gen¨ ugt daher zu zeigen, dass {EM , EN } unabh¨ angig ist, denn dann folgt aus Satz 11.2.5, dass auch {σ(EM ), σ(EN )} unabh¨ angig ist. Wir betrachten daher A ∈ EM und B ∈ EN sowie Darstellungen \ A= Ai i∈J
B=
\
Ai
i∈K
von A und B mit J ∈ H(M ) und K ∈ H(N ) sowie Ai ∈ Ei f¨ ur alle i ∈ M + N . Dann gilt J, K, J +K ∈ H(I) und damit
234
Kapitel 11. Unabh¨ angigkeit
"Ã P [A ∩ B] = P
\
! Ai
=P
Ai
i∈K
#
\
!#
\
∩
i∈J
"
Ã
Ai
i∈J+K
Y
=
P [Ai ]
i∈J+K
=
Y
i∈J
"
=P
Y
P [Ai ] ·
P [Ai ]
i∈K
\
# " Ai P
i∈J
\
# Ai
i∈K
= P [A] P [B] Daher ist {EM , EN } unabh¨angig.
2
Sei {En }n∈N eine Folge von Ereignissystemen. Dann heißt die σ–Algebra à ∞ ! ∞ \ [ E∞ := σ En n=m
m=1
die zu der Folge {En }n∈N geh¨orige terminale σ–Algebra und jedes Ereignis A ∈ E∞ heißt terminales Ereignis der Folge {En }n∈N . Es wird sich zeigen, dass die terminalen Ereignisse einer Folge von Ereignissystemen bei Konvergenzbetrachtungen von Interesse sind: 11.2.8 Beispiel. Sei {En }n∈N eine Folge von Ereignissystemen und sei E∞ die zugeh¨ orige terminale σ–Algebra. F¨ ur jede Folge {An }n∈N mit An ∈ En f¨ ur alle n ∈ N gilt dann lim supn→∞ An ∈ E∞ . S S∞ In der Tat: F¨ ur alle k ∈ N sei Bk := ∞ ur alle n=k An und Dk := σ( n=k En ). F¨ m ∈ N und k ∈ N(m) gilt dann Bk ∈ Dk ⊆ Dm . Da die Folge {Bk }k∈N monoton fallend ist, erhalten wir f¨ ur alle m ∈ N lim sup An = n→∞
∞ [ ∞ \
An =
k=1 n=k
∞ \ k=1
und damit lim sup An ∈ n→∞
∞ \ m=1
Dm =
∞ \ m=1
∞ \
Bk =
à σ
Bk ∈ Dm
k=m
∞ [
! En
= E∞
n=m
Damit ist die Behauptung gezeigt.
F¨ ur die terminalen Ereignisse einer unabh¨angigen Folge von ∩–stabilen Ereignissystemen gilt das Null–Eins–Gesetz von Kolmogorov :
11.2 Unabh¨ angige Familien von Ereignissystemen
235
11.2.9 Satz (Null–Eins–Gesetz; Kolmogorov). Sei {En }n∈N eine unabh¨ angige Folge von ∩–stabilen Ereignissystemen und sei E∞ die zugeh¨ orige terminale σ–Algebra. Dann gilt f¨ ur alle A, B ∈ E∞ P [A ∩ B] = P [A] P [B] Insbesondere gilt f¨ ur alle A ∈ E∞ entweder P [A] = 0 oder P [A] = 1. Beweis. F¨ ur m ∈ N betrachten wir die σ–Algebren à m ! [ Cm := σ En à Dm := σ
n=1 ∞ [
! En
n=m+1
Nach dem Blocklemma ist {Cm , Dm } unabh¨ angig, und wegen E∞ ⊆ Dm ist nach Lemma 11.2.2 auch {Cm , E∞ } unabh¨ angig. Daraus folgt zun¨ achst, dass sogar ( ∞ [
) C m , E∞
m=1
unabh¨ angig S∞ ist. Da die Folge {Cm }m∈N monoton wachsend ist, ist das Mengensystem m=1 Cm eine Algebra und insbesondere ∩–stabil, und nach Lemma 11.2.3 ist dann auch ( Ã ∞ ! ) [ σ Cm , E∞ m=1
S∞ unabh¨ angig. Wegen Em ⊆ Cm gilt E∞ ⊆ σ( m=1 Cm ), und nach Lemma 11.2.2 ist dann auch {E∞ , E∞ } unabh¨ angig. Daher gilt f¨ ur alle A, B ∈ E∞ P [A ∩ B] = P [A] P [B] und insbesondere P [A] ∈ {0, 1}.
2
Das Null–Eins–Gesetz von Kolmogorov ist allgemeiner als das Null–Eins– Gesetz von Borel, denn es stellt f¨ ur jedes terminale Ereignis A ∈ E∞ einer unabh¨ angigen Folge von ∩–stabilen Ereignissystemen {En }n∈N sicher, dass P [A] ∈ {0, 1} gilt; dagegen betrifft das Null–Eins–Gesetz von Borel nur das spezielle terminale Ereignis lim supn→∞ An ∈ E∞ einer unabh¨ angigen Folge von Ereignissen {An }n∈N , gibt aber zus¨atzlich hinreichende und notwendige Bedingungen f¨ ur P [lim supn→∞ An ] = 1 und P [lim supn→∞ An ] = 0 an.
236
Kapitel 11. Unabh¨ angigkeit
Aufgaben 11.2.A Sei {Ek }k∈N eine Folge von Ereignissystemen. Dann sind ¨ aquivalent: (a) Die Folge {Fk }k∈N ist unabh¨ angig. (b) F¨ ur alle n ∈ N ist die Familie {Fk }k∈{1,...,n} unabh¨ angig. 11.2.B Sei {Fk }k∈{1,...,n} eine endliche Familie von σ–Algebren mit Fk ⊆ F f¨ ur alle k ∈ {1, . . . , n}. Dann sind ¨ aquivalent: (a) Die Familie {Fk }k∈{1,...,n} ist unabh¨ angig. (b) F¨ ur jede Familie {Ak }k∈{1,...,n} mit Ak ∈ Fk f¨ ur alle k ∈ {1, . . . , n} gilt " n # n \ Y P Ak = P [Ak ] k=1
k=1
11.2.C Blocklemma: Verallgemeinern Sie das Blocklemma auf eine beliebige disjunkte Familie von Teilmengen der Indexmenge. 11.2.D Terminale σ–Algebra: Sei {En }n∈N eine Folge von Ereignissystemen und sei E∞ die zugeh¨ orige terminale σ–Algebra. Dann gilt à ∞ ! ∞ \ [ E∞ = σ σ(En ) m=1
n=m
11.2.E Sei {En }n∈N eine Folge von Ereignissystemen und sei E∞ die zugeh¨ orige terminale σ–Algebra. F¨ ur jede Folge {An }n∈N ⊆ F mit An ∈ En f¨ ur alle n ∈ N gilt dann lim inf n→∞ An ∈ E∞ . 11.2.F Null–Eins–Gesetz (Kolmogorov): Verallgemeinern Sie die Definition der terminalen σ–Algebra und das Null–Eins–Gesetz von Kolmogorov in geeigneter Weise auf beliebige unendliche Familien von Ereignissystemen. 11.2.G Seien D und E Ereignissysteme mit D ⊆ E . Dann sind ¨ aquivalent: (a) {D, E} ist unabh¨ angig. (b) F¨ ur alle D ∈ D gilt P [D] ∈ {0, 1}. 11.2.H Paarweise unabh¨ angige Familien von Ereignissystemen: Eine Familie von Ereignissystemen {Ei }i∈I heißt paarweise unabh¨ angig, wenn f¨ ur alle i, j ∈ I mit i 6= j die Familie {Ei , Ej } unabh¨ angig ist. Jede unabh¨ angige Familie von Ereignissystemen ist paarweise unabh¨ angig, aber eine paarweise unabh¨ angige Familie von Ereignissystemen ist nicht notwendigerweise unabh¨ angig.
11.3 Unabh¨ angige Familien von Zufallsgro ¨ßen Schließlich u angigkeit auf Familien von ¨bertragen wir den Begriff der Unabh¨ Zufallsgr¨ oßen. Auch hier beginnen wir mit einer Vorbetrachtung: Ist (Ω0 , F 0 ) ein Messraum und X : Ω → Ω0 eine Zufallsgr¨oße, so stimmt die von X erzeugte σ–Algebra σ(X) mit dem Mengensystem X −1 (F 0 ) u ¨berein und aufgrund der Messbarkeit
11.3 Unabh¨ angige Familien von Zufallsgr¨ oßen
237
von X gilt X −1 (F 0 ) ⊆ F . Insbesondere ist σ(X) ein Ereignissystem. Damit k¨ onnen die von Zufallsgr¨oßen erzeugten σ–Algebren verwendet werden, um den Begriff der Unabh¨angigkeit von Familien von Ereignissystemen auf Familien von Zufallsgr¨oßen zu u ¨bertragen. Wir betrachten eine Familie {(Ω0i , Fi0 )}i∈I von Messr¨ aumen und eine Familie {Xi }i∈I von Zufallsgr¨oßen Xi : Ω → Ω0i . Die Familie {Xi }i∈I heißt unabh¨ angig, wenn die Familie {σ(Xi )}i∈I unabh¨angig ist. 11.3.1 Satz. Sei {Ei0 }i∈I eine Familie von ∩–stabilen Mengensystemen mit σ(Ei0 ) = Fi0 f¨ ur alle i ∈ I. Dann sind ¨ aquivalent: (a) Die Familie {Xi }i∈I ist unabh¨angig. (b) Die Familie {Xi−1 (Fi0 )}i∈I ist unabh¨ angig. (c) Die Familie {Xi−1 (Ei0 )}i∈I ist unabh¨ angig. (d) F¨ ur jede Familie {Bi0 }i∈I mit Bi0 ∈ Ei0 f¨ ur alle i ∈ I ist die Familie {Xi−1 (Bi0 )}i∈I unabh¨ angig. ¨ Beweis. Die Aquivalenz von (a) und (b) ist klar. Mit Ei0 ist auch Xi−1 (Ei0 ) ∩–stabil und nach Lemma 2.3.2 gilt Xi−1 (Fi0 ) = Xi−1 (σ(Ei0 )) = σ(Xi−1 (Ei0 )). ¨ ¨ Die Aquivalenz von (b) und (c) ergibt sich nun aus Satz 11.2.5. Die Aquivalenz von (c) und (d) ist klar. 2 Der folgende Satz ergibt sich unmittelbar aus der Definition der Unabh¨ angigkeit einer Familie von Zufallsgr¨oßen und Satz 11.2.1: 11.3.2 Satz. Folgende Aussagen sind ¨ aquivalent: (a) Die Familie {Xi }i∈I ist unabh¨angig. (b) F¨ ur jede nichtleere Menge K ⊆ I ist {Xi }i∈K unabh¨ angig. (c) F¨ ur jede endliche nichtleere Menge K ⊆ I ist {Xi }i∈K unabh¨ angig. Der folgende wichtige Satz zeigt, dass f¨ ur eine Familie von Zufallsgr¨ oßen die Unabh¨ angigkeit unter messbaren Transformationen erhalten bleibt: 11.3.3 Satz. Sei {Xi }i∈I unabh¨ angig. Ist {(Ω00i , Fi00 )}i∈I eine Familie von Messr¨ aumen und ist {Ti }i∈I eine Familie von messbaren Abbildungen Ti : Ω0i → Ω00i , so ist auch die Familie {Ti ◦ Xi }i∈I unabh¨ angig. Beweis. F¨ ur alle i ∈ I gilt σ(Ti ◦ Xi ) = (Ti ◦ Xi )−1 (Fi00 ) = Xi−1 (Ti−1 (Fi00 )) ⊆ Xi−1 (Fi0 ) = σ(Xi ) Aus Lemma 11.2.2 folgt nun, dass mit der Familie {Xi }i∈I auch die Familie {Ti ◦ Xi }i∈I unabh¨angig ist. 2
238
Kapitel 11. Unabh¨ angigkeit
Wir betrachten nun das Produkt (Ω0 , F 0 ) :=
O
(Ω0i , Fi0 )
i∈I
der Familie {(Ω0i , Fi0 )}i∈I und die Abbildung X : Ω → Ω0 mit πi ◦ X = Xi f¨ ur alle i ∈ I. Wir bezeichnen Xi als i–te Koordinate von X. Nach Satz 3.3.2 ist aufgrund der Messbarkeit aller Koordinaten auch X messbar. Wir geben zun¨ achst eine Variante des Blocklemmas an, die sich nat¨ urlich ebenfalls auf eine beliebige disjunkte Familie von Teilmengen der Indexmenge verallgemeinern l¨ asst; vgl. Aufgabe 11.3.D. 11.3.4 Lemma (Blocklemma). Sei {Xi }i∈I unabh¨ angig. Sind M, N ⊆ I nichtleer und disjunkt, so ist auch die Familie {πM ◦ X, πN ◦ X} unabh¨ angig. Beweis. F¨ ur jede nichtleere Menge L ⊆ I gilt σ(πL ◦ X) = σ({πi ◦ X}i∈L ) = σ({Xi }i∈L ) = σ({σ(Xi )}i∈L ) Die Behauptung folgt nun aus Lemma 11.2.7.
2
Der folgende Satz liefert eine wichtige Charakterisierung der Unabh¨ angigkeit der Familie {Xi }i∈I im Bildbereich: 11.3.5 Satz. Folgende Aussagen sind ¨ aquivalent: (a) Die Familie {X } ist unabh¨ a ngig. Ni i∈I (b) Es gilt PX = i∈I PXi . Beweis. Sei zun¨ achst J ∈ H(I) und sei {Bi0 }i∈J eine Familie von Ereignissen 0 0 mit Bi ∈ Fi f¨ ur alle i ∈ J. Dann gilt einerseits " # " # \ \ P {Xi ∈ Bi0 } = P {πi ◦ X ∈ Bi0 } i∈J
i∈J
" =P
\
# X
i∈J
"
=P X
Ã
−1
\
Ã
PX πJ−1 "
= (PX )πJ
(πi−1 (Bi0 )) !# πi−1 (Bi0 )
i∈J
" =
−1
Y
!# Bi0
i∈J
Y
i∈J
Bi0
#
11.3 Unabh¨ angige Familien von Zufallsgr¨ oßen
239
und andererseits Y
P [{Xi ∈ Bi0 }] =
i∈J
Y
PXi [Bi0 ]
i∈J
à =
O
!Ã PX i
i∈J
Y
! Bi0
i∈J
Die Familie {Xi }i∈I ist genau dann unabh¨angig, wenn f¨ ur alle J ∈ H(I) und jede Familie {Bi0 }i∈J mit Bi0 ∈ Fi0 f¨ ur alle i ∈ J die Gleichung " # \ Y 0 P {Xi ∈ Bi } = P [{Xi ∈ Bi0 }] i∈J
i∈J
gilt. Nach dem vorher gezeigten ist diese Bedingung genau dann erf¨ ullt, wenn f¨ ur alle J ∈ H(I) und jede Familie {Bi0 }i∈J mit Bi0 ∈ Fi0 f¨ ur alle i ∈ J die Gleichung " # Ã !Ã ! Y O Y (PX )πJ Bi0 = PXi Bi0 i∈J
i∈J
i∈J
gilt. Nach dem Eindeutigkeitssatz ist diese letzte Bedingung genau dann erf¨ ullt, wenn f¨ ur alle J ∈ H(I) O (PX )πJ = PX i i∈J
gilt, und nach dem Satz von Andersen/Jessen ist dies genau dann der Fall, wenn O PX = PXi i∈I
gilt.
2
Wir illustrieren dieses Ergebnis an einem Beispiel: 11.3.6 Beispiele (Urnenmodelle). Wir betrachten eine Urne mit N ≥ 2 Kugeln, von denen K ∈ {1, . . . , N−1} Kugeln rot sind und N−K Kugeln eine beliebige andere Farbe besitzen. Wir nehmen an, dass alle Kugeln bis auf die Farbe gleichartig sind. Wir ziehen n = 2 Kugeln aus der Urne. (1) Ziehen ohne Zur¨ ucklegen: Wir bezeichnen f¨ ur i ∈ {1, 2} mit Xi die Anzahl der roten Kugeln bei der i–ten Ziehung und setzen µ ¶ X1 X := X2 Dann gilt
240
Kapitel 11. Unabh¨ angigkeit ·½
µ ¶¾¸ 0 0 ·½ µ ¶¾¸ 0 P X= 1 ·½ µ ¶¾¸ 1 P X= 0 ·½ µ ¶¾¸ 1 P X= 1 P
X=
=
(N −K) (N −K −1) N (N −1)
=
(N −K) K N (N −1)
=
K (N −K) N (N −1)
=
K (K −1) N (N −1)
F¨ ur die Koordinaten von X ergibt sich daraus P [{X1 = 0}] = (N −K)/N P [{X1 = 1}] = K/N und P [{X2 = 0}] = (N −K)/N P [{X2 = 1}] = K/N Insbesondere gilt PX 6= PX1 ⊗ PX2 . Daher sind X1 und X2 nicht unabh¨ angig. (2) Ziehen mit Zur¨ ucklegen: Wir bezeichnen f¨ ur i ∈ {1, 2} mit Yi die Anzahl der roten Kugeln bei der i–ten Ziehung und setzen µ ¶ Y1 Y := Y2 Dann gilt ·½ P
Y ·½
P
Y ·½
P
Y ·½
P
Y
µ ¶¾¸ 0 = 0 µ ¶¾¸ 0 = 1 µ ¶¾¸ 1 = 0 µ ¶¾¸ 1 = 1
=
(N −K)2 N2
=
(N −K) K N2
=
K (N −K) N2
=
K2 N2
F¨ ur die Koordinaten von Y folgt daraus P [{Y1 = 0}] = (N −K)/N P [{Y1 = 1}] = K/N und P [{Y2 = 0}] = (N −K)/N P [{Y2 = 1}] = K/N Insbesondere gilt PY = PY1 ⊗ PY2 . Daher sind Y1 und Y2 unabh¨ angig. Es gilt also PX1 = PY1 und PX2 = PY2 , aber PX 6= PY .
11.3 Unabh¨ angige Familien von Zufallsgr¨ oßen
241
Wir beschließen diesen Abschnitt mit einem Null–Eins–Gesetz u ¨ber die Konvergenz einer unendlichen Reihe von unabh¨angigen reellen Zufallsvariablen: 11.3.7 Satz (Null–Eins–Gesetz). Sei {Xk }k∈N eine unabh¨ angige Folge von reellen Zufallsvariablen und sei ( ) n n X X A := lim inf Xk = lim sup Xk n→∞
k=1
n→∞
k=1
Dann gilt P [A] ∈ {0, 1}. Beweis. Sei E∞ die terminale σ–Algebra der Folge {σ(Xk )}k∈N . F¨ ur alle m ∈ N gilt ( ) n n X X A = lim inf Xk = lim sup Xk n→∞
k=m
n→∞
k=m
S∞ T S∞ und damit A ∈ σ( k=m σ(Xk )). Daher gilt A ∈ m∈N σ( k=m σ(Xk )) = E∞ und aus dem Null–Eins–Gesetz von Kolmogorov folgt nun P [A] ∈ {0, 1}. 2 Aufgaben 11.3.A Sei {Xk }k∈N eine Folge von Zufallsgr¨ oßen. Dann sind ¨ aquivalent: (a) Die Folge {Xk }k∈N ist unabh¨ angig. (b) F¨ ur alle n ∈ N ist die Familie {Xk }k∈{1,...,n} unabh¨ angig. 11.3.B Sei {(Ω0k , Fk0 )}k∈{1,...,n} eine endliche Familie von Messr¨ aumen und sei {Xk }k∈{1,...,n} eine Familie von Zufallsgr¨ oßen Xk : Ω → Ω0k . Dann sind aquivalent: ¨ (a) Die Familie {Xk }k∈{1,...,n} ist unabh¨ angig. (b) F¨ ur jede Familie {Bk0 }k∈{1,...,n} mit Bk0 ∈ Fk0 f¨ ur alle k ∈ {1, . . . , n} gilt " # \ Y P {Xk ∈ Bk0 } = P [{Xk ∈ Bk0 }] k∈{1,...,n}
k∈{1,...,n}
11.3.C Sei {(Ω0i , Fi0 )}i∈I eine Familie von Messr¨ aumen und sei O 0 0 (Ω0 , F 0 ) := (Ωi , Fi ) i∈I
Sei ferner {Xi }i∈I eine Familie von Zufallsgr¨ oßen Xi : Ω → Ω0i und sei 0 X : Ω → Ω die Zufallsgr¨ oße mit πi ◦ X = Xi f¨ ur alle i ∈ I. Ist {Xi }i∈I unabh¨ angig (bez¨ uglich P ), so ist auch {πi }i∈I unabh¨ angig (bez¨ uglich PX ).
242
Kapitel 11. Unabh¨ angigkeit
11.3.D Blocklemma: Verallgemeinern Sie das Blocklemma auf eine beliebige disjunkte Familie von Teilmengen der Indexmenge. 11.3.E Paarweise unabh¨ angige Familien von Zufallsgr¨ oßen: Eine Familie von Zufallsgr¨ oßen {Xi }i∈I heißt paarweise unabh¨ angig, wenn f¨ ur alle i, j ∈ I mit i 6= j die Familie {Xi , Xj } unabh¨ angig ist. Jede unabh¨ angige Familie von Zufallsgr¨ oßen ist paarweise unabh¨ angig, aber eine paarweise unabh¨ angige Familie von Zufallsgr¨ oßen ist nicht notwendigerweise unabh¨ angig.
11.4 Produkte von Wahrscheinlichkeitsr¨ aumen Wir kl¨ aren abschließend das Problem der Existenz eines Wahrscheinlichkeitsraumes mit einer m¨oglicherweise u angigen ¨ berabz¨ahlbaren Familie von unabh¨ Zufallsgr¨ oßen. Zu diesem Zweck betrachten wir eine Familie von Wahrscheinlichkeitsr¨ aumen {(Ωi , Fi , Qi )}i∈I und ihr Produkt (Ω, F , Q) :=
O
(Ωi , Fi , Qi )
i∈I
Der folgende Satz zeigt, dass der Produktraum reich an unabh¨ angigen Familien von Ereignissen ist: 11.4.1 Satz. Die Familie {πi−1 (Fi )}i∈I ist unabh¨ angig in (Ω, F, Q). Beweis. Wir betrachten eine Familie {Ai }i∈I ⊆ F mit Ai ∈ πi−1 (Fi ) f¨ ur alle i ∈ I und zeigen, dass die Familie {Ai }i∈I unabh¨ angig ist. Dazu w¨ ahlen wir eine Familie {Bi }i∈I mit Bi ∈ Fi und Ai = πi−1 (Bi ) f¨ ur alle i ∈ I. F¨ ur alle J ⊆ H(I) gilt dann " # " # \ \ −1 Q Ai = Q πi (Bi ) i∈J
i∈J
" =Q
" = Qπ J " = QJ
Ã
πJ−1
Y
i∈J
Y
Bi
Bi
i∈J
=
Y i∈J
Bi
#
i∈J
Y
!#
Qi [Bi ]
#
11.4 Produkte von Wahrscheinlichkeitsr¨ aumen
=
Y
243
Qπi [Bi ]
i∈J
=
Y
Q[πi−1 (Bi )]
i∈J
=
Y
Q[Ai ]
i∈J
Daher ist die Familie {Ai }i∈I unabh¨angig.
2
Aus dem Satz ergibt sich nun sofort die Existenz eines Wahrscheinlichkeitsraumes mit einer unabh¨angigen Familie von reellen Zufallsvariablen, deren Verteilungen beliebig gew¨ahlt werden k¨onnen: 11.4.2 Folgerung. Sei {Qi }i∈I eine Familie von Wahrscheinlichkeitsmaßen auf B(R). Dann gibt es einen Wahrscheinlichkeitsraum (Ω, F, P ) und eine unabh¨ angige Familie {Xi }i∈I von Zufallsvariablen Ω → R mit PXi = Qi f¨ ur alle i ∈ I. Beweis. Sei (Ω, F, P ) :=
O (R, B(R), Qi ) i∈I
und f¨ ur alle i ∈ I sei Xi := πi Dann ist (Ω, F , P ) ein Wahrscheinlichkeitsraum und {Xi }i∈I ist eine Familie von Zufallsvariablen Ω → R mit σ(Xi ) = Xi−1 (B(R)) = πi−1 (B(R)) f¨ ur alle i ∈ I. Nach Satz 11.4.1 ist die Familie {Xi }i∈I unabh¨ angig, und aus der Definition von (Ω, F, P ) folgt PXi = Pπi = Qi f¨ ur alle i ∈ I. 2 Im letzten Ergebnis ist die Annahme, dass alle Wahrscheinlichkeitsmaße auf der Borelschen σ–Algebra B(R) definiert sind, unwesentlich; vgl. Aufgabe 11.4.B. Aufgaben 11.4.A Vereinfachen Sie den Beweis von Satz 11.4.1 f¨ ur den Fall von zwei Wahrscheinlichkeitsr¨ aumen. 11.4.B Sei {(Ωi , Fi , Qi )}i∈I eine Familie von Wahrscheinlichkeitsr¨ aumen. Dann gibt es einen Wahrscheinlichkeitsraum (Ω, F , P ) und eine unabh¨ angige Familie {Xi }i∈I von Zufallsgr¨ oßen Xi : Ω → Ωi mit PXi = Qi f¨ ur alle i ∈ I.
12 Univariate Verteilungen
Univariate Verteilungen sind Wahrscheinlichkeitsmaße auf B(R). Sie sind von Interesse, weil f¨ ur jede reelle Zufallsvariable X : Ω → R das Bildmaß PX von P unter X eine univariate Verteilung ist. In diesem Kapitel untersuchen wir univariate Verteilungen. Wir beginnen mit der Charakterisierung univariater Verteilungen durch Verteilungsfunktionen und einer Reihe von Beispielen f¨ ur diskrete, absolutstetige oder stetigsingul¨ are univariate Verteilungen (Abschnitt 12.1). Sodann untersuchen wir Transformationen univariater Verteilungen (Abschnitt 12.2) sowie die Eigenschaften ihres Erwartungswertes und ihrer h¨oheren Momente (Abschnitt 12.3) und die ihrer Varianz und ihrer h¨oheren zentralen Momente (Abschnitt 12.4). Dabei werden viele der im ersten Abschnitt eingef¨ uhrten univariaten Verteilungen auch im Hinblick auf die Berechnung von Transformationen oder Momenten oder zentralen Momenten diskutiert.
12.1 Verteilungen und Verteilungsfunktionen Ein Wahrscheinlichkeitsmaß Q : B(R) → [0, 1] heißt Verteilung auf B(R) oder univariate Verteilung. Wir haben bereits gesehen, dass univariate Verteilungen insbesondere als Bildmaße von reellen Zufallsvariablen auftreten: Ist X : Ω → R eine reelle Zufallsvariable, so ist das Bildmaß PX von P unter X eine univariate Verteilung. Andererseits kann jede univariate Verteilung als Verteilung einer reellen Zufallsvariablen auf einem geeigneten Wahrscheinlichkeitsraum dargestellt werden: Ist Q : B(R) → [0, 1] eine Verteilung, so ist (Ω, F , P ) := (R, B(R), Q) ein Wahrscheinlichkeitsraum und die Abbildung X : Ω → R mit X(ω) := ω ist eine reelle Zufallsvariable mit PX = P und damit Q = PX . In der Tat ist es sogar so, dass zahlreiche Eigenschaften von Zufallsvariablen, die in der Wahrscheinlichkeitstheorie studiert werden, in Wirklichkeit nicht K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_12, © Springer-Verlag Berlin Heidelberg 2011
246
Kapitel 12. Univariate Verteilungen
Eigenschaften der Zufallsvariablen, sondern Eigenschaften ihrer Verteilungen sind. Vor der Begr¨ undung der Wahrscheinlichkeitstheorie durch die Maß– und Integrationstheorie stand der Begriff der Verteilung naturgem¨ aß nicht zur Verf¨ ugung; statt dessen stand der von der Analysis gepr¨ agte Begriff der Verteilungsfunktion im Vordergrund des Interesses: Eine Funktion F : R → [0, 1] heißt Verteilungsfunktion auf R oder univariate Verteilungsfunktion, wenn sie die folgenden Eigenschaften besitzt: (i) F ist monoton wachsend. (ii) F ist rechtsseitig stetig. (iii) Es gilt limx→−∞ F (x) = 0 und limx→∞ F (x) = 1. (In Teilen der Literatur wird in der Definition einer Verteilungsfunktion anstelle der rechtsseitigen Stetigkeit die linksseitige Stetigkeit verlangt.) Der folgende Satz beschreibt den Zusammenhang zwischen Verteilungen und Verteilungsfunktionen: 12.1.1 Satz (Korrespondenzsatz). (1) Zu jeder Verteilung Q : B(R) → [0, 1] gibt es genau eine Verteilungsfunktion FQ : R → [0, 1] mit FQ (x) = Q[(−∞, x]] f¨ ur alle x ∈ R. (2) Zu jeder Verteilungsfunktion F : R → [0, 1] gibt es genau eine Verteilung QF : B(R) → [0, 1] mit QF [(−∞, x]] = F (x) f¨ ur alle x ∈ R. (3) Es gilt Q(FQ ) = Q und F(QF ) = F . Beweis. Wir betrachten zun¨achst eine Verteilung Q : B(R) → [0, 1] und zeigen, dass die Funktion FQ : R → R mit FQ (x) := Q[(−∞, x]] eine Verteilungsfunktion ist: (i) Da jede Verteilung monoton ist, gilt f¨ ur alle x, y ∈ R mit x ≤ y FQ (x) = Q[(−∞, x]] ≤ Q[(−∞, y]] = FQ (y) (ii) Da jede Verteilung stetig von oben ist, gilt f¨ ur alle x ∈ R inf FQ (x+ n1 ) = inf Q[(−∞, x+ n1 ]] n∈N " # \ 1 =Q (−∞, x+ n ]
n∈N
n∈N
= Q[(−∞, x]] = FQ (x) und aus (i) folgt nun, dass FQ rechtsseitig stetig ist.
12.1 Verteilungen und Verteilungsfunktionen
247
(iii) Da jede Verteilung stetig von oben und stetig von unten ist, gilt " # \ inf FQ (−n) = inf Q[(−∞, −n]] = Q (−∞, −n] = Q[∅] = 0 n∈N
n∈N
n∈N
und
" sup FQ (n) = sup Q[(−∞, n]] = Q
n∈N
n∈N
[
# (−∞, n] = Q[R] = 1
n∈N
und aus (i) folgt nun limx→−∞ FQ (x) = 0 und limx→∞ FQ (x) = 1. Daher ist FQ eine Verteilungsfunktion mit FQ (x) = Q[(−∞, x]] f¨ ur alle x ∈ R. Ist andererseits F eine Verteilungsfunktion mit F (x) = Q[(−∞, x]] f¨ ur alle x ∈ R, so gilt offenbar F = FQ . Damit ist (1) gezeigt. Wir betrachten nun eine Verteilungsfunktion F : R → [0, 1] und zeigen, dass die Mengenfunktion QF : J (R) → [0, 1] mit QF [(a, b]] := F (b) − F (a) ein σ–endliches Maß ist. Wir f¨ uhren den Beweis in mehreren Schritten: Wir zeigen zun¨ achst, dass QF ein Inhalt ist. (i) F¨ ur alle c ∈ R gilt (c, c] = ∅ und damit QF [∅] = QF [(c, c]] = F (c) − F (c) = 0 (ii) Sei (a, b] ∈ J (R) und sei {(ak , bk ]}k∈{1,...,n} ⊆ J (R) eine endliche Familie mit (a, b] =
n X
(ak , bk ]
k=1
Dabei k¨ onnen wir ohne Beschr¨ankung der Allgemeinheit annehmen, dass a = a1 ≤ b1 = a2 ≤ · · · ≤ bn = b gilt, und wir erhalten " n # X QF (ak , bk ] = QF [(a, b]] k=1
= F (b) − F (a) = F (bn ) − F (a1 ) n ³ ´ X = F (bk ) − F (ak ) =
k=1 n X k=1
Daher ist QF endlich additiv. Damit ist gezeigt, dass QF ein Inhalt ist.
QF [(ak , bk ]]
248
Kapitel 12. Univariate Verteilungen
Wir zeigen nun, dass QF sogar ein Maß ist. Da J (R) ein Halbring und QF ein Inhalt ist, gen¨ ugt es nach Lemma 4.2.12 zu zeigen, dass QF σ–subadditiv ist. Sei (a, b] ∈ J (R) und sei {(ak , bk ]}k∈N ⊆ J (R) eine Folge mit [ (a, b] = (ak , bk ] k∈N
(Hier k¨ onnen wir nicht annehmen, dass die Folgen {ak }k∈N und {bk }k∈N monoton wachsend sind.) Da F rechtsseitig stetig ist, gibt es zu jedem ε ∈ (0, ∞) ein δ ∈ (0, b−a) und eine Folge {δk }k∈N ⊆ (0, ∞) derart, dass F (a+δ) ≤ F (a) + ε und f¨ ur alle k ∈ N F (bk +δk ) ≤ F (bk ) + ε/2k gilt. Dann gilt aber [a+δ, b] ⊆ (a, b] =
[
(ak , bk ] ⊆
k∈N
[
(ak , bk +δk )
k∈N
Da einerseits das Intervall [a+δ, b] abgeschlossen und beschr¨ ankt und damit nach dem Satz von Heine/Borel kompakt ist und andererseits jedes der Intervalle (ak , bk +δk ) offen ist, gibt es eine endliche Menge K ⊆ N mit [ [a+δ, b] ⊆ (ak , bk +δk ) k∈K
S
S Daher gilt (a +δ, b] ⊆ [a+δ, b] ⊆ k∈K (ak , bk + δk ) ⊆ k∈K (ak , bk +δk ] und damit [ (a+δ, b] = (ak , bk +δk ] ∩ (a+δ, b] k∈K
Da QF ein Inhalt und damit endlich subadditiv und monoton ist, ergibt sich nun QF [(a, b]] − ε = F (b) − F (a) − ε ≤ F (b) − F (a+δ) = QF [(a+δ, b]] " # [ = QF (ak , bk +δk ] ∩ (a+δ, b] ≤
X k∈K
k∈K
h i QF (ak , bk +δk ] ∩ (a+δ, b]
12.1 Verteilungen und Verteilungsfunktionen
≤
X
249
QF [(ak , bk +δk ]]
k∈K
=
´ X³ F (bk +δk ) − F (ak )
k∈K
≤ ≤ =
´ X³ F (bk ) + ε/2k − F (ak )
k∈K ∞ ³ X k=1 ∞ X
´ F (bk ) − F (ak ) + ε
QF [(ak , bk ]] + ε
k=1
Da ε ∈ (0, ∞) beliebig war, erhalten wir QF [(a, b]] ≤
∞ X
QF [(ak , bk ]]
k=1
Daher ist derSInhalt QF σ–subadditiv und damit ein Maß. Wegen R = n∈N (−n, n] und QF [(−n, n]] = F (n) − F (−n) < ∞ ist das Maß QF σ–endlich. Das σ–endliche Maß QF besitzt nach dem Satz von Caratheodory eine eindeutige Fortsetzung zu einem Maß B(R) → [0, ∞], das wir wieder mit QF bezeichnen. Außerdem gilt f¨ ur alle x ∈ R QF [(−∞, x]] = lim QF [(−n, x]] n→∞³ ´ = lim F (x) − F (−n) n→∞
= F (x) − lim F (−n) n→∞
= F (x) und damit QF [R] = lim QF [(−∞, n]] = lim F (n) = 1 n→∞
n→∞
Daher ist QF eine Verteilung mit QF [(−∞, x]] = F (x) f¨ ur alle x ∈ R. Ist andererseits Q : B(R) → [0, 1] eine Verteilung mit Q[(−∞, x]] = F (x) f¨ ur alle x ∈ R, so erh¨ alt man f¨ ur alle (a, b] ∈ J (R) Q[(a, b]] = Q[(−∞, b]] − Q[(−∞, a]] = F (b) − F (a) = QF [(−∞, b]] − QF [(−∞, a]] = QF [(a, b]] Aus dem Eindeutigkeitssatz folgt nun Q = QF . Damit ist (2) gezeigt, und (3) ist dann klar.
2
250
Kapitel 12. Univariate Verteilungen
Wir stellen nun einige Eigenschaften von Verteilungsfunktionen zusammen: 12.1.2 Lemma. Sei Q : B(R) → [0, 1] eine Verteilung und sei F : R → [0, 1] die zugeh¨ orige Verteilungsfunktion. Dann gilt : (1) F besitzt h¨ ochstens abz¨ ahlbar viele Sprungstellen. (2) F¨ ur alle x ∈ R existiert der Grenzwert lim0<ε→0 F (x−ε) und es gilt lim F (x−ε) = Q[(−∞, x)]
0<ε→0
Beweis. Aus der Monotonie von F folgt (1). Da jede Verteilung stetig von unten ist, gilt " # [ 1 1 1 sup F (x− n ) = sup Q[(−∞, x− n ]] = Q (−∞, x− n ] = Q[(−∞, x)] n∈N
n∈N
n∈N
und aus der Monotonie von F folgt nun lim F (x−ε) = Q[(−∞, x)]
0<ε→0
Daher gilt (2).
2
Sei F : R → [0, 1] eine Verteilungsfunktion. Dann setzen wir f¨ ur alle x ∈ R F (x−) := lim F (x−ε) 0<ε→0
Wir erhalten das folgende Lemma: 12.1.3 Lemma. Sei Q : B(R) → [0, 1] eine Verteilung und sei F : R → [0, 1] die zugeh¨ orige Verteilungsfunktion. Dann gilt f¨ ur alle x ∈ R F (x) − F (x−) = Q[{x}] Insbesondere ist F genau dann stetig, wenn f¨ ur alle x ∈ R Q[{x}] = 0 gilt. Beweis. Nach Lemma 12.1.2 gilt f¨ ur alle x ∈ R F (x) − F (x−) = Q[(−∞, x]] − Q[(−∞, x)] = Q[{x}] Damit ist die erste Behauptung gezeigt. Da F rechtsseitig stetig ist, ist F genau dann stetig, wenn f¨ ur alle x ∈ R F (x−) = F (x) gilt. Damit ist auch die zweite Behauptung gezeigt.
2
12.1 Verteilungen und Verteilungsfunktionen
251
Da Verteilungen Mengenfunktionen und Verteilungsfunktionen Punktfunktionen sind, k¨ onnte der Eindruck entstehen, dass Verteilungsfunktionen leichter zu handhaben sind als Verteilungen. Dieser Eindruck tr¨ ugt aus zwei Gr¨ unden: – Verteilungsfunktionen lassen sich nur in seltenen F¨ allen explizit angeben. – Selbst dann, wenn eine Verteilungsfunktion explizit angegeben werden kann, ist es oft einfacher, sie durch Summen oder Integrale darzustellen. In diesem Fall l¨asst sich aber aufgrund des Korrespondenzsatzes auch die Verteilung selbst durch Summen oder Integrale darstellen. In der maßtheoretischen Wahrscheinlichkeitstheorie sind Verteilungsfunktionen von untergeordneter Bedeutung. Wir werden sie erst wieder gegen Ende dieses Abschnitts zur Konstruktion der Cantor–Verteilung und als Hilfsmittel zur Klassifikation von Verteilungen benutzen. Von besonderem Interesse sind Verteilungen Q : B(R) → [0, 1], die absolutstetig bez¨ uglich einem σ–endlichen Maß µ : B(R) → [0, ∞] sind, denn f¨ ur jede solche Verteilung gibt es nach dem Satz von Radon/Nikodym eine µ–fast u ¨berall eindeutig bestimmte positive messbare Funktion f mit Z Q = f dµ In diesem Fall ist die Berechnung von Q mit Hilfe von f und µ relativ einfach; dies gilt insbesondere dann, wenn µ ein lokales Z¨ ahlmaß oder das Lebesgue– Maß ist. Diskrete Verteilungen Eine Verteilung Q : B(R) → [0, 1] heißt diskret, wenn es eine abz¨ ahlbare Menge C ⊆ R gibt mit Q[C] = 1. 12.1.4 Lemma. Sei Q : B(R) → [0, 1] eine diskrete Verteilung. Dann gilt Q ⊥ λ. Beweis. F¨ ur jede abz¨ahlbare Menge C ⊆ R gilt λ[C] = 0.
2
Eine Funktion f : R → R+ heißt Z¨ahldichte, wenn es eine abz¨ ahlbare Menge C ⊆ R gibt mit f (x) = 0 f¨ ur alle x ∈ R \ C und X f (x) = 1 x∈C
Jede Z¨ ahldichte ist messbar, denn f¨ ur alle B ∈ B(R) gilt f −1 (B) = f −1 (B \ {0}) + f −1 (B ∩ {0}) und f −1 (B \ {0}) ist abz¨ahlbar, w¨ahrend f −1 (B ∩ {0}) entweder leer ist oder ein abz¨ ahlbares Komplement hat.
252
Kapitel 12. Univariate Verteilungen
Jede diskrete Verteilung l¨asst sich durch eine Z¨ ahldichte erzeugen, und jede Z¨ ahldichte erzeugt eine diskrete Verteilung: 12.1.5 Lemma. (1) Sei Q : B(R) → [0, 1] eine diskrete Verteilung. Dann ist die Funktion f : R → R+ mit f (x) := Q[{x}] eine Z¨ ahldichte und f¨ ur alle B ∈ B(R) gilt X Q[B] = f (x) x∈B
(2) Sei f : R → R+ eine Z¨ ahldichte. Dann ist die Mengenfunktion Q : B(R) → [0, 1] mit X Q[B] := f (x) x∈B
eine Verteilung und f¨ ur alle x ∈ R gilt Q[{x}] = f (x) Der Begriff der Z¨ahldichte weckt Assoziationen im Zusammenhang mit dem Satz von Radon/Nikodym, die es zu kl¨aren gilt. Sei C ⊆ R abz¨ ahlbar. – Das lokale Z¨ ahlmaß ζ C bez¨ uglich C ist σ–endlich und es gilt Z ζ C = χC dζ –
Ist Q eine diskrete Verteilung mit Q[C] = 1 und ist f eine Z¨ ahldichte mit X Q[B] = f (x) x∈B
so gilt
Z Q=
–
Z f dζ C =
f χC dζ
und damit ist f eine ζ C –Dichte von Q und f χC ist eine ζ–Dichte von Q. Ist Q eine diskrete Verteilung mit Q[C] = 1 und ist f : R → R+ eine messbare Funktion mit Z Q = f dζ C
so ist f eine ζ C –Dichte von Q aber nicht notwendigerweise eine Z¨ ahldichte. Der Grund liegt darin, dass die ζ C –Dichte von Q nur ζ C –fast u ¨berall eindeutig bestimmt ist und die Menge R \ C eine ζ C –Nullmenge ist, sodass f auf der Menge R \ C beliebige Werte annehmen kann. Die Darstellung einer diskreten Verteilung als Integral einer Z¨ ahldichte bez¨ uglich einem lokalen Z¨ahlmaß wird sich gelegentlich als n¨ utzlich erweisen.
12.1 Verteilungen und Verteilungsfunktionen
253
Das folgende Lemma liefert ein einfaches Prinzip f¨ ur die Konstruktion von Z¨ ahldichten: 12.1.6 Lemma. Sei g : R → R+ eine Funktion, f¨ ur die es eine abz¨ ahlbare Menge C ⊆ R gibt mit g(x) = 0 f¨ ur alle x ∈ R \ C und X 0< g(z) < ∞ z∈C
Dann ist die Funktion f : R → R+ mit g(x) z∈C g(z)
f (x) := P eine Z¨ ahldichte.
Die einfachste diskrete univariate Verteilung ist die Dirac–Verteilung: 12.1.7 Beispiel (Dirac–Verteilung). F¨ ur z ∈ R ist die Funktion f : R → R+ mit ½ 1 falls x = z f (x) := 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt Dirac–Verteilung und wird mit δ z bezeichnet. F¨ ur die Verteilung Q := δ z gilt ½ 0 falls z ∈ /B Q[B] = 1 falls z ∈ B und f¨ ur die zugeh¨ orige Verteilungsfunktion F gilt ½ 0 falls x < z F (x) = 1 falls x ≥ z Die Funktion F wird auch als Heaviside–Funktion bezeichnet.
Wir betrachten nun einige parametrische Klassen von diskreten univariaten Verteilungen Q mit Q[N0 ] = 1: 12.1.8 Beispiele (Diskrete Verteilungen). (1) Hypergeometrische Verteilung: F¨ ur n, N, K ∈ N mit max{n, K +1} ≤ N ist die Funktion f : R → R+ mit ! à !à K N −K x n−x à ! falls x ∈ {0, 1, . . . , n} f (x) := N n 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt hypergeometrische Verteilung und wird mit H(n, N, K) bezeichnet.
254
Kapitel 12. Univariate Verteilungen
Modell : Eine Urne enthalte N Kugeln unterschiedlicher Farben, von denen eine Farbe ausgezeichnet ist und die anderen Farben nicht ausgezeichnet sind. Es bezeichne K die Anzahl der Kugeln der ausgezeichneten Farbe in der Urne und X die zuf¨ allige Anzahl der Kugeln dieser Farbe in einer Stichprobe vom Umfang n beim Ziehen ohne Zur¨ ucklegen. Dann gilt PX = H(n, N, K). (2) Binomial–Verteilung: F¨ ur n ∈ N und ϑ ∈ (0, 1) ist die Funktion f : R → R+ mit à ! n x ϑ (1−ϑ)n−x falls x ∈ {0, 1, . . . , n} x f (x) := 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt Binomial–Verteilung und wird mit B(n, ϑ) bezeichnet. Modell : Eine Urne enthalte Kugeln unterschiedlicher Farben, von denen eine Farbe ausgezeichnet ist und die anderen Farben nicht ausgezeichnet sind. Es bezeichne ϑ den Anteil der Kugeln der ausgezeichneten Farbe in der Urne und X die zuf¨ allige Anzahl der Kugeln dieser Farbe in einer Stichprobe vom Umfang n beim Ziehen mit Zur¨ ucklegen. Dann gilt PX = B(n, ϑ). Spezialfall : Die Binomial–Verteilung B(1, ϑ) wird auch als Bernoulli–Verteilung oder als Boole–Verteilung und mit B(ϑ) bezeichnet. (3) Poisson–Verteilung: F¨ ur α ∈ (0, ∞) ist die Funktion f : R → R+ mit x e−α α falls x ∈ N0 x! f (x) := 0 sonst eine Z¨ ahldichte. In der Tat: Es gilt ∞ X αk = eα k! k=0
und damit ∞ X
f (k) = 1
k=0
Die zugeh¨ orige Verteilung heißt Poisson–Verteilung und wird mit P(α) bezeichnet. (4) Negativbinomial–Verteilung: F¨ ur α ∈ (0, ∞) und ϑ ∈ (0, 1) ist die Funktion f : R → R+ mit ! Ã α+x−1 (1−ϑ)α ϑx falls x ∈ N0 x f (x) := 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt Negativbinomial–Verteilung und wird mit NB(α, ϑ) bezeichnet. Spezialfall : Die Negativbinomial–Verteilung NB(n, ϑ) mit n ∈ N wird auch als Pascal–Verteilung bezeichnet.
12.1 Verteilungen und Verteilungsfunktionen
255
(5) Geometrische Verteilung: F¨ ur n ∈ N und ϑ ∈ (0, 1) ist die Funktion f : R → R+ mit ! Ã x − 1 (1−ϑ)x−n ϑn falls x ∈ N(n) n−1 f (x) := 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt geometrische Verteilung und wird mit Geo(n, ϑ) bezeichnet. Modell : Eine Urne enthalte Kugeln unterschiedlicher Farben, von denen eine Farbe ausgezeichnet ist und die anderen Farben nicht ausgezeichnet sind. Es bezeichne ϑ den Anteil der Kugeln der ausgezeichneten Farbe in der Urne und X die zuf¨ allige Anzahl der Ziehungen beim Ziehen mit Zur¨ ucklegen, bis genau n Kugeln der ausgezeichneten Farbe gezogen sind. Dann gilt PX = Geo(n, ϑ).
Absolutstetige Verteilungen Eine Verteilung Q : B(R) → [0, 1] heißt absolutstetig, wenn sie absolutstetig bez¨ uglich dem Lebesgue–Maß λ ist, also Q ¿ λ gilt. 12.1.9 Lemma. Sei Q : B(R) → [0, 1] eine absolutstetige Verteilung und sei F : R → [0, 1] die zugeh¨ orige Verteilungsfunktion. Dann gilt Q[{x}] = 0 f¨ ur alle x ∈ R und F ist stetig. Beweis. F¨ ur alle x ∈ R gilt λ[{x}] = 0 und aus Q ¿ λ folgt nun Q[{x}] = 0. Damit ist die erste Behauptung gezeigt, und die zweite Behauptung folgt aus Lemma 12.1.3. 2 Eine messbare Funktion f : R → R+ heißt Lebesgue–Dichte, wenn Z f (x) dλ(x) = 1 R
gilt. Jede absolutstetige Verteilung l¨asst sich durch eine Lebesgue–Dichte erzeugen, und jede Lebesgue-Dichte erzeugt eine absolutstetige Verteilung: 12.1.10 Lemma. (1) Sei Q : B(R) → [0, 1] eine absolutstetige Verteilung. Dann gibt es eine Lebesgue–Dichte f : R → R+ mit Z Q = f (x) dλ(x) und die Lebesgue–Dichte ist λ–fast ¨ uberall eindeutig bestimmt. (2) Sei f : R → R+ eine Lebesgue–Dichte. Dann ist die Mengenfunktion Q : B(R) → [0, 1] mit Z Q := eine absolutstetige Verteilung.
f (x) dλ(x)
256
Kapitel 12. Univariate Verteilungen
Beweis. Nach dem Satz von Radon/Nikodym gibt es zu jeder Verteilung Q mit Q ¿ λ eine positive messbare Funktion g mit Z Q = g dλ und g ist λ–fast u ¨ berall eindeutig bestimmt. Da Q eine Verteilung ist und damit ein endliches Maß ist, ist g auf dem Komplement einer λ–Nullmenge endlich. Daher gibt es eine Lebesgue–Dichte f mit f (x) = g(x) λ–fast u ¨berall R und Q = f dλ. Damit ist (1) gezeigt, und (2) ergibt sich aus Satz 9.1.1. 2 Das folgende Lemma liefert ein einfaches Prinzip f¨ ur die Konstruktion von Lebesgue–Dichten: 12.1.11 Lemma. Sei g : R → R+ eine messbare Funktion mit Z 0< g(z) dλ(z) < ∞ R
Dann ist die Funktion f : R → R+ mit g(x) g(z) dλ(z) R
f (x) := R eine Lebesgue–Dichte.
Im Gegensatz zu Z¨ahldichten gilt f¨ ur eine Lebesgue–Dichte f nicht notwendigerweise f (x) ≤ 1 f¨ ur alle x ∈ R: 12.1.12 Beispiel. Die Verteilung Q : B(R) → [0, 1] mit Q[B] := 2 λ[B ∩ (0, 1/2)] R ist absolutstetig und es gilt Q = f dλ mit f = 2χ(0,1/2) .
Das Beispiel zeigt, dass die Werte einer Lebesgue–Dichte einer absolutstetigen Verteilung nicht als Wahrscheinlichkeiten interpretiert werden k¨ onnen. Wir betrachten nun einige parametrische Klassen von absolutstetigen univariaten Verteilungen: 12.1.13 Beispiele (Absolutstetige Verteilungen). (1) Uniforme Verteilung: F¨ ur a, b ∈ R mit a < b ist die Funktion f : R → R+ mit f (x) :=
1 χ(a,b) (x) b−a
eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt uniforme Verteilung auf (a, b) und wird mit U(a, b) bezeichnet. F¨ ur die zugeh¨ orige Verteilungsfunktion gilt
12.1 Verteilungen und Verteilungsfunktionen 0 x−a F (x) = b−a 1
257 falls
x
falls a ≤ x < b falls b ≤ x
(2) Beta–Verteilung: F¨ ur α, β ∈ (0, ∞) ist die Funktion f : R → R+ mit f (x) :=
1 xα−1 (1−x)β−1 χ(0,1) (x) B(α, β)
eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt Beta–Verteilung und wird mit Be(α, β) bezeichnet. Spezialfall : Es gilt Be(1, 1) = U(0, 1). (3) Gamma–Verteilung: F¨ ur α, γ ∈ (0, ∞) ist die Funktion f : R → R+ mit f (x) :=
αγ −αx γ−1 e x χ(0,∞) (x) Γ(γ)
eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt Gamma–Verteilung und wird mit Ga(α, γ) bezeichnet. Spezialf¨ alle: – Die Gamma–Verteilung Ga(α, m) mit m ∈ N wird auch als Erlang–Verteilung bezeichnet. F¨ ur die zugeh¨ orige Verteilungsfunktion gilt falls x ≤ 0 0 m−1 k X (αx) F (x) = −αx falls x > 0 1 − e k! k=0
–
Die Gamma–Verteilung Ga(α, 1) wird auch als Exponential–Verteilung und mit Exp(α) bezeichnet. F¨ ur die zugeh¨ orige Verteilungsfunktion gilt ½ 0 falls x ≤ 0 F (x) = 1 − e−αx falls x > 0
Die Gamma–Verteilung Ga(1/2, n/2) mit n ∈ N wird auch als χ2 –Verteilung und mit χ2n bezeichnet. Der Parameter n heißt Anzahl der Freiheitsgrade. Zum Nachweis, dass f tats¨ achlich eine Lebesgue–Dichte ist, betrachten wir die lineare Abbildung T : R → R mit T (x) := αx. Nach Satz 6.3.1 gilt λT = α−1 λ und aus der Substitutionsregel und der Definition der Gamma–Funktion erhalten wir nun Z e−αx xγ−1 χ(0,∞) (x) dλ(x) R Z 1 = γ−1 e−αx (αx)γ−1 χ(0,∞) (αx) dλ(x) α R Z 1 = γ−1 e−T (x) (T (x))γ−1 χ(0,∞) (T (x)) dλ(x) α T −1 (R) Z 1 = γ−1 e−z z γ−1 χ(0,∞) (z) dλT (z) α R –
258
Kapitel 12. Univariate Verteilungen 1
Z
1 e−z z γ−1 χ(0,∞) (z) dλ(z) αγ−1 R α Z 1 = γ e−z z γ−1 dλ(z) α (0,∞) =
=
Γ(γ) αγ
(4) Normal–Verteilung: F¨ ur µ ∈ R und σ ∈ (0, ∞) ist die Funktion f : R → R+ mit f (x) := √
1 1 e− 2 2π σ
¡ x−µ ¢2 σ
eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt Normal–Verteilung oder Gauß–Verteilung und wird mit N(µ, σ 2 ) bezeichnet. (Man beachte, dass hier σ 2 und nicht σ als Parameter verwendet wird; vgl. Beispiel 13.1.7(3).) Spezialfall : Die Normal–Verteilung N(0, 1) wird als Standardnormal–Verteilung bezeichnet. Zum Nachweis, dass f tats¨ achlich eine Lebesgue–Dichte ist, betrachten wir die affine Abbildung T : R → R mit T (x) :=
x−µ √ σ 2
√ Nach Folgerung 6.3.2 gilt λT = (σ 2)λ und aus der Substitutionsregel erhalten wir nun Z
1
e− 2
¡ x−µ ¢2 σ
Z
2
e−(T (x)) dλ(x)
dλ(x) = T −1 (R)
R
Z
2
e−z dλT (z)
= ZR
2 √ e−z σ 2 dλ(z) R √ Z 2 = σ 2 e−z dλ(z)
=
R
√ √ =σ 2 π √ = 2π σ (5) t–Verteilung: F¨ ur n ∈ N ist die Funktion f : R → R+ mit f (x) :=
¡ ¢ µ ¶− n+1 2 Γ n+1 x2 ¡ n ¢2√ 1+ n Γ 2 πn
eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt t–Verteilung und wird mit tn bezeichnet. Der Parameter n heißt Anzahl der Freiheitsgrade. Dass f tats¨ achlich eine Lebesgue–Dichte ist, zeigen wir in Beispiel 12.2.5.
12.1 Verteilungen und Verteilungsfunktionen
259
Stetigsingul¨ are Verteilungen Eine Verteilung Q : B(R) → [0, 1] heißt stetigsingul¨ ar , wenn sie singul¨ ar bez¨ uglich dem Lebesgue–Maß λ ist, also Q ⊥ λ gilt, und außerdem Q[{x}] = 0 f¨ ur alle x ∈ R gilt, also die zugeh¨orige Verteilungsfunktion F stetig ist. Das folgende Beispiel zeigt, dass stetigsingul¨are univariate Verteilungen existieren: 12.1.14 Beispiel (Cantor–Verteilung). Sei Z das System aller Teilmengen von [0, 1], die als Vereinigung von endlich vielen disjunkten abgeschlossenen (und nichtleeren) Intervallen dargestellt werden k¨ onnen, und sei Ψ : Z → Z gegeben durch Ãm ! Ã · ¸ · ¸! m X X 2ai + bi ai + 2bi Ψ [ai , bi ] := ai , + , bi 3 3 i=1 i=1 Dann gilt Z ⊆ B(R) und die Abbildung Ψ ist wohldefiniert. F¨ ur alle A ∈ Z gilt Ψ(A) ⊆ A und λ[Ψ(A)] =
2 λ[A] 3
F¨ ur alle n ∈ N sei Cn := Ψn ([0, 1]) Dann ist {Cn }n∈N eine monoton fallende Folge in B(Rn ) und f¨ ur alle n ∈ N gilt µ ¶n 2 λ[Cn ] = 3 F¨ ur die Cantor–Menge C :=
\
Cn
n∈N
gilt daher λ[C] = 0 (vgl. Beispiel 5.5.8). Wir konstruieren nun eine Verteilung Q : B(R) → [0, 1] mit Q[C] = 1 und Q[{x}] = 0 f¨ ur alle x ∈ R. Dann gilt Q[R \ C] + λ[C] = 0 und damit Q ⊥ λ, sowie Q[{x}] = 0 f¨ ur alle x ∈ R; daher ist Q stetigsingul¨ ar. (1) F¨ ur n ∈ N sei fn : R → R+ gegeben durch µ ¶n 3 fn (x) := χCn (x) 2 Dann ist fn messbar. Sei ferner Qn : B(R) → [0, 1] gegeben durch Z Qn := fn (z) dλ(z) Dann ist Qn ein Maß mit Qn ¿ λ und f¨ ur alle B ∈ B(R) gilt
260
Kapitel 12. Univariate Verteilungen Z Qn [B] =
fn (z) dλ(z) B Z µ ¶n 3 = χCn (z)χB (z) dλ(z) R 2 µ ¶n 3 = λ[Cn ∩ B] 2
Wegen λ[Cn ] = (2/3)n folgt daraus Qn [R] = 1. Daher ist Qn eine absolutstetige Verteilung und die zugeh¨ orige Verteilungsfunktion Fn ist stetig. F¨ ur alle x ∈ R gilt µ ¶n µ ¶n 3 3 Fn (x) = Qn [(−∞, x]] = λ[Cn ∩ (−∞, x]] = λ[Cn ∩ [0, x]] 2 2 und damit Fn (0) = 0 und Fn (1) = 1. (2) Nach Konstruktion besteht Cn aus 2n abgeschlossenen Intervallen gleicher L¨ ange. Ist I ⊆ Cn ein solches Intervall, so gilt aufgrund der Translationsinvarianz des Lebesgue–Maßes µ ¶n 1 1 2 1 λ[I] = n λ[Cn ] = n = n 2 2 3 3 und f¨ ur alle m ∈ N0 gilt wegen Cn+m ∩ I = Ψm (Cn ) ∩ I = Ψm (Cn ∩ I) = Ψm (I) Z fn+m (z) dλ(z) = Qn+m [I] I
= = = = =
µ ¶n+m 3 λ[Cn+m ∩ I] 2 µ ¶n+m 3 λ[Ψm (I)] 2 µ ¶n+m µ ¶m 3 2 λ[I] 2 3 µ ¶n+m µ ¶m 3 2 1 2 3 3n 1 2n
(3) F¨ ur n ∈ N sei Fn∗ := Fn |[0,1] Dann ist Fn∗ monoton wachsend und stetig mit Fn∗ (0) = 0 und Fn∗ (1) = 1, und f¨ ur alle m ∈ N0 und x ∈ [0, 1] gilt ∗ Fn+m (x) = Fn+m (x)
= Qn+m [(−∞, x]] Z = fn+m (z) dλ(z) (−∞,x]
Z =
fn+m (z) dλ(z) [0,x]∩Cn
12.1 Verteilungen und Verteilungsfunktionen
261
–
F¨ ur x ∈ [0, 1] \ Cn folgt aus (2) f¨ ur alle m ∈ N ¯ ¯ ¯ ∗ ¯ ∗ ¯Fn+m (x) − Fn (x)¯ = 0
–
F¨ ur x ∈ Cn sei In,x das eindeutig bestimmte maximale abgeschlossene Intervall mit x ∈ In,x ⊆ Cn und sei an,x seine Untergrenze. Wegen (2) gilt f¨ ur alle m ∈ N ¯Z ¯ Z ¯ ¯ ¯ ¯ ¯ ∗ ¯ ¯ ¯ ∗ fn+m (z) dλ(z) − fn (z) dλ(z)¯ ¯Fn+m (x) − Fn (x)¯ = ¯ ¯ [0,x]∩Cn ¯ [0,x]∩Cn ¯Z ¯ Z ¯ ¯ ¯ ¯ =¯ fn+m (z) dλ(z) − fn (z) dλ(z)¯ ¯ [an,x ,x] ¯ [an,x ,x] Z Z ≤ fn+m (z) dλ(z) + fn (z) dλ(z) Z
[an,x ,x]
≤
Z
[an,x ,x]
fn+m (z) dλ(z) + In,x
=2
fn (z) dλ(z) In,x
1 2n
Daher gilt f¨ ur alle x ∈ [0, 1] und f¨ ur alle n, m ∈ N ∗ |Fn+m (x) − Fn∗ (x)| ≤
1 2n−1
Daher ist die Folge {Fn∗ }n∈N eine gleichm¨ aßige Cauchy–Folge und damit gleichm¨ aßig konvergent gegen die Funktion F ∗ : [0, 1] → [0, 1] mit F ∗ (x) := lim Fn∗ (x) n→∞
Fn∗
∗
Da alle stetig sind, ist auch F stetig. Außerdem gilt F ∗ (0) = 0 und F ∗ (1) = 1. Da die Folge {Fn∗ }n∈N gleichm¨ aßig gegen F ∗ konvergiert, gibt es zu jedem ε ∈ (0, ∞) ein n ∈ N mit |F ∗ (z) − Fn∗ (z)| ≤ ε f¨ ur alle z ∈ [0, 1], und f¨ ur x, y ∈ [0, 1] mit x ≤ y folgt daraus und aus der Monotonie von Fn∗ F ∗ (x) − ε ≤ Fn∗ (x) ≤ Fn∗ (y) ≤ F ∗ (y) + ε Da ε ∈ (0, ∞) beliebig war, erhalten wir f¨ ur alle x, y ∈ [0, 1] mit x ≤ y F ∗ (x) ≤ F ∗ (y) Daher ist F ∗ monoton wachsend. (4) Sei F : R → [0, 1] gegeben durch 0 F (x) := F ∗ (x) 1
falls x<0 falls 0 ≤ x < 1 falls 1 ≤ x
Dann ist F eine stetige Verteilungsfunktion. Die Funktion F heißt Cantor–Funktion und die zugeh¨ orige Verteilung Q heißt Cantor–Verteilung. Es gilt
262
Kapitel 12. Univariate Verteilungen Q[[0, 1]] = F (1) − F (0−) = F (1) − F (0) = 1
Ist (a, b) eines der maximalen offenen Intervalle aus [0, 1] \ Cn , so gilt Q[(a, b)] = F (b−) − F (a) = F (b) − F (a) = lim (Fn (b) − Fn (a)) n→∞
= lim (Fn (b−) − Fn (a)) n→∞
= lim Qn [(a, b)] n→∞
=0 Daraus folgt Q[[0, 1] \ Cn ] = 0 und damit Q[Cn ] = 1. Dann gilt aber " # \ Q[C] = Q Cn = lim Q[Cn ] = 1 n∈N
n→∞
und damit Q[R \ C] = 0. Wegen λ[C] = 0 folgt daraus Q ⊥ λ. Daher ist Q stetigsingul¨ ar. Da die Cantor–Verteilung stetigsingul¨ ar ist, ist die Cantor–Menge nicht abz¨ ahlbar.
Ein Darstellungssatz Die Klassen der diskreten, absolutstetigen und stetigsingul¨ aren Verteilungen sind offensichtlich disjunkt. Der folgende Satz zeigt, dass jede Verteilung als Konvexkombination einer diskreten, einer absolutstetigen und einer stetigsingul¨ aren Verteilung dargestellt werden kann: 12.1.15 Satz (Darstellungssatz). Zu jeder Verteilung Q : B(R) → [0, 1] gibt es α1 , α2 , α3 ∈ R+ mit α1 + α2 + α3 = 1 und Verteilungen Q1 , Q2 , Q3 mit Q = α1 Q1 + α2 Q2 + α3 Q3 derart, dass Q1 diskret, Q2 stetigsingul¨ ar, und Q3 absolutstetig ist. Beweis. Nach der Lebesgue–Zerlegung gibt es Maße µ0 , µ3 : B(R) → R+ mit µ0 ⊥ λ und µ3 ¿ λ sowie Q = µ0 + µ3 Die Maße µ0 und µ3 sind endlich und es gilt µ0 [R] + µ3 [R] = 1. Wir nehmen zun¨ achst an, dass µ0 [R] = 0 und damit Q = µ3 ¿ λ gilt. In diesem Fall sei α1 := 0 und Q1 eine beliebige diskrete Verteilung, α2 := 0 und Q2 eine beliebige stetigsingul¨are Verteilung, sowie α3 := 1 und Q3 := Q. Dann gilt Q = α1 Q1 + α2 Q2 + α3 Q3 Wir nehmen f¨ ur das weitere an, dass µ0 [R] > 0 gilt. In diesem Fall sind weitere Fallunterscheidungen erforderlich:
12.1 Verteilungen und Verteilungsfunktionen
–
263
Im Fall µ0 [R] ∈ (0, 1) gilt µ3 [R] ∈ (0, 1); in diesem Fall sei α0 := µ0 [R] −1 und Q0 := α−1 0 µ0 sowie α3 := µ3 [R] und Q3 := α3 µ3 . Dann sind Q0 und Q3 Verteilungen mit Q0 ⊥ λ und Q3 ¿ λ sowie Q = α0 Q0 + α3 Q3
–
Im Fall µ0 [R] = 1 gilt Q = µ0 ⊥ λ; in diesem Fall sei α0 := 1 und Q0 := Q sowie α3 := 0 und Q3 eine beliebige absolutstetige Verteilung. Dann gilt Q0 ⊥ λ und Q3 ¿ λ sowie Q = α0 Q0 + α3 Q3
Sei nun F0 die zu der Verteilung Q0 geh¨orige Verteilungsfunktion und sei ¯ n o ¯ S := x ∈ R ¯ Q0 [{x}] 6= 0 die Menge der Unstetigkeitsstellen von F0 . – Im Fall Q0 [S] = 0 ist F0 stetig, und wegen Q0 ⊥ λ ist Q0 stetigsingul¨ ar; in diesem Fall sei β1 := 0 und Q1 eine beliebige diskrete Verteilung sowie β2 := 1 und Q2 := Q0 . Dann gilt Q0 = β1 Q1 + β2 Q2 –
Im Fall Q0 [S] ∈ (0, 1) seien µ1 , µ2 : B(R) → R+ gegeben durch µ1 [B] := Q0 [B ∩ S] µ2 [B] := Q0 [B ∩ S] Dann gilt µ1 [R], µ2 [R] ∈ (0, 1) und Q0 = µ1 + µ2 . In diesem Fall sei β1 := µ1 [R] und Q1 := β1−1 µ1 sowie β2 := µ2 [R] und Q2 := β2−1 µ2 . Dann ist Q1 diskret und Q2 ist stetigsingul¨ar, und es gilt Q0 = β1 Q1 + β2 Q2
–
Im Fall Q0 [S] = 1 ist Q0 diskret; in diesem Fall sei β1 := 1 und Q1 := Q0 sowie β2 := 0 und Q2 eine beliebige stetigsingul¨ are Verteilung. Dann gilt Q0 = β1 Q1 + β2 Q2
Mit α1 := α0 β1 und α2 := α0 β2 erhalten wir daher auch im Fall µ0 [R] > 0 eine Darstellung Q = α1 Q1 + α2 Q2 + α3 Q3 mit einer diskreten Verteilung Q1 , einer stetigsingul¨ aren Verteilung Q2 und einer absolutstetigen Verteilung Q3 . Damit ist der Satz bewiesen. 2
264
Kapitel 12. Univariate Verteilungen
Aufgaben 12.1.A Symmetrische Verteilungen: Eine Verteilung Q : B(R) → [0, 1] heißt symmetrisch, wenn f¨ ur die Abbildung S : R → R mit S(x) := −x QS = Q gilt. F¨ ur eine Verteilung Q und die zugeh¨ orige Verteilungsfunktion F sind aquivalent: ¨ (a) Q ist symmetrisch. (b) F¨ ur alle x ∈ R gilt F (−x) + F (x−) = 1. ¨ ¨ 12.1.B Uberlebensfunktion: Eine Funktion G : R → [0, 1] heißt Uberlebensfunktion, wenn sie die folgenden Eigenschaften besitzt: (i) G ist monoton fallend. (ii) G ist rechtsseitig stetig. (iii) Es gilt limx→−∞ G(x) = 1 und limx→∞ G(x) = 0. F¨ ur Funktionen F, G : R → [0, 1] mit F (x) + G(x) = 1 f¨ ur alle x ∈ R sind folgenden Aussagen ¨ aquivalent: (a) F ist eine Verteilungsfunktion. ¨ (b) G ist eine Uberlebensfunktion. ¨ 12.1.C Bestimmen Sie die Verteilungsfunktion und die Uberlebensfunktion der Exponential–Verteilung. 12.1.D Stochastische Ordnung: Sei Q0 (R) die Familie aller Verteilungen Q : B(R) → [0, 1]. F¨ ur Q1 , Q2 ∈ Q0 (R) schreiben wir Q1 ≤0 Q2 wenn f¨ ur alle a ∈ R Q1 [(a, ∞)] ≤ Q2 [(a, ∞)] gilt. Die Relation ≤0 wird als stochastische Ordnung bezeichnet. (1) Die Relation ≤0 ist eine Ordnungsrelation auf Q0 (R). ¨ (2) F¨ ur Q1 , Q2 ∈ Q0 (R) und die zugeh¨ origen Uberlebensfunktionen G1 , G2 gilt Q1 ≤0 Q2 genau dann, wenn f¨ ur alle a ∈ R G1 (a) ≤ G2 (a) gilt. (3) Untersuchen Sie die Vergleichbarkeit der Verteilungen B(2, 12 ), B(3, 12 ), B(3, 13 ) bez¨ uglich der stochastischen Ordnung. 12.1.E Verteilungsfunktion auf einem abgeschlossenen Intervall: Sei ¯ ein Intervall. Eine Funktion F : [a, b] → [0, 1] heißt Verteilungs[a, b] ⊆ R funktion auf [a, b], wenn sie die folgenden Eigenschaften besitzt: (i) F ist monoton wachsend. (ii) F ist rechtsseitig stetig. (iii) Es gilt F (a) = 0 und limx→b F (x) = 1. Formulieren und beweisen Sie ein Analogon des Korrespondenzsatzes und zeigen Sie, dass eine Bijektion zwischen den Verteilungsfunktionen auf R und den Verteilungsfunktionen auf dem Intervall [−∞, ∞] besteht.
12.1 Verteilungen und Verteilungsfunktionen
265
12.1.F Stochastische Folgen: Sei Q : B(R) → [0, 1] eine Verteilung. Dann gilt Q[N0 ] = 1 genau dann, wenn es eine stochastische Folge {qk }k∈N0 gibt mit Q=
∞ X
qk δ k
k=0
12.1.G Geometrische Verteilung: Sei Q : B(R) → [0, 1] eine Verteilung. Dann sind ¨ aquivalent: (a) Es gilt Q[N] = 1 und f¨ ur alle m, n ∈ N gilt Q[(m+n, ∞)] = Q[(m, ∞)] Q[(n, ∞)] (b) Es gilt Q = δ 1 oder es gibt ein ϑ ∈ (0, 1) mit Q = Geo(1, ϑ). 12.1.H P´ olya–Verteilung: F¨ ur n ∈ N und α, β ∈ (0, ∞) ist die Funktion f : R → R+ mit !à ! à β+n−x−1 α+x−1 x n−x à ! falls x ∈ {0, 1, . . . , n} f (x) := α+β+n−1 n 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt P´ olya–Verteilung und wird mit P´ olya(n, α, β) bezeichnet. 12.1.I
Gemischte Binomial–Verteilung: F¨ ur n ∈ N und jede Verteilung Q : B(R) → [0, 1] mit Q[(0, 1)] = 1 ist die Funktion f : R → R+ mit Z Ã ! n x ϑ (1−ϑ)n−x dQ(ϑ) falls x ∈ {0, 1, . . . , n} x R f (x) := 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt gemischte Binomial–Verteilung bez¨ uglich Q und wird mit B(n, Q) bezeichnet. Es gilt B(n, Be(α, β)) = P´ olya(n, α, β) Andererseits kann jede P´ olya–Verteilung als gemischte Binomial–Verteilung bez¨ uglich einer Beta–Verteilung dargestellt werden.
12.1.J
Gemischte Poisson–Verteilung: F¨ ur jede Verteilung Q : B(R) → [0, 1] mit Q[(0, ∞)] = 1 ist die Funktion f : R → R+ mit Z αx e−α dQ(α) falls x ∈ N0 x! R f (x) := 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt gemischte Poisson–Verteilung bez¨ uglich Q und wird mit P(Q) bezeichnet. Es gilt
266
Kapitel 12. Univariate Verteilungen µ P(Ga(β, γ)) = NB γ,
1 β+1
¶
Andererseits kann jede Negativbinomial–Verteilung als gemischte Poisson– Verteilung bez¨ uglich einer Gamma–Verteilung dargestellt werden. 12.1.K Logarithmische Verteilung: F¨ ur ϑ ∈ (0, 1) ist die Funktion f : R → R+ mit 1 ϑx falls x ∈ N | log(1−ϑ)| x f (x) := 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt logarithmische Verteilung und wird mit Log(ϑ) bezeichnet. 12.1.L Exponential–Verteilung: Sei Q : B(R) → [0, 1] eine Verteilung. Dann sind ¨ aquivalent: (a) Es gilt Q[(0, ∞)] = 1 und f¨ ur alle x, y ∈ (0, ∞) gilt Q[(x+y, ∞)] = Q[(x, ∞)] Q[(y, ∞)] (b) Es gibt ein α ∈ (0, ∞) mit Q = Exp(α). 12.1.M Normal–Verteilung: Die Lebesgue–Dichte der Normal–Verteilung N(µ, σ 2 ) besitzt ein globales Maximum an der Stelle x = µ und Wendepunkte an den Stellen x = µ−σ und x = µ+σ. 12.1.N F –Verteilung: F¨ ur m, n ∈ N ist die Funktion f : R → R+ mit f (x) :=
µ ¶− m+n 2 (m )m/2 m −1 m n 2 x 1 + x χ(0,∞) (x) m n B( 2 , 2 ) n
eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt F –Verteilung. 12.1.O Cauchy–Verteilung: F¨ ur α ∈ R und β ∈ (0, ∞) ist die Funktion f : R → R+ mit f (x) :=
1 β π β 2 + (x−α)2
eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt Cauchy–Verteilung und wird mit Ca(α, β) bezeichnet. Spezialfall : Es gilt Ca(0, 1) = t1 . 12.1.P Pareto–Verteilung: F¨ ur α, β ∈ (0, ∞) ist die Funktion f : R → R+ mit f (x) :=
β α
µ ¶β+1 α χ(α,∞) (x) x
eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt Pareto–Verteilung europ¨ aischer Art und wird mit Pa(α, β) bezeichnet. Bestimmen Sie die ¨ Verteilungsfunktion und die Uberlebensfunktion.
12.2 Transformationen von Verteilungen
267
12.1.Q Pareto–Verteilung: F¨ ur α, β ∈ (0, ∞) ist die Funktion f : R → R+ mit µ ¶β+1 β α f (x) := χ(0,∞) (x) α α+x eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt Pareto–Verteilung amerikanischer Art und wird mit Pa∗ (α, β) bezeichnet. Bestimmen Sie die ¨ Verteilungsfunktion und die Uberlebensfunktion. 12.1.R Ausfallrate: Sei f : R → R+ eine Lebesgue–Dichte mit Z f (z) dλ(z) < 1 (−∞,x]
f¨ ur alle x ∈ R. Sei Q die zugeh¨ orige Verteilung und sei G die zugeh¨ orige ¨ Uberlebensfunktion. Dann heißt die Funktion r : R → R+ mit f (x) G(x)
r(x) :=
Ausfallrate von Q. (1) Ist f stetig, so ist G differenzierbar und es gilt r(x) = − und
d(log ◦ G) (x) dx
µ Z G(x) = exp −
¶ r(z) dλ(z)
(−∞,x]
(2) F¨ ur α ∈ (0, ∞) gilt r = αχ(0,∞) genau dann, wenn Q = Exp(α) gilt. 12.1.S
Weibull–Verteilung: F¨ ur α, β ∈ (0, ∞) ist die Funktion f : R → R+ mit f (x) := αβxβ−1 exp(−αxβ ) χ(0,∞) (x) eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt Weibull–Verteilung. ¨ (1) Bestimmen Sie die Uberlebensfunktion und die Ausfallrate. (2) Welche Verteilung ergibt sich im Fall β = 1?
12.1.T Gompertz–Verteilung: F¨ ur α ∈ (0, ∞) und β ∈ (1, ∞) ist die Funktion f : R → R+ mit µ ¶ α f (x) := αβ x exp (1 − β x ) χ(0,∞) (x) log(β) eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt Gompertz–Vertei¨ lung. Bestimmen Sie die Uberlebensfunktion und die Ausfallrate.
12.2 Transformationen von Verteilungen Ein grundlegendes Problem der Wahrscheinlichkeitstheorie besteht darin, f¨ ur eine reelle Zufallsvariable X und eine messbare Funktion T : R → R die Verteilung der reellen Zufallsvariablen T ◦ X und damit das Bildmaß PT ◦X = (PX )T von PX unter T zu bestimmen.
268
Kapitel 12. Univariate Verteilungen
12.2.1 Beispiel. Sei X eine reelle Zufallsvariable. Dann besitzt die reelle Zufallsvariable X 2 die Darstellung X 2 = T ◦ X mit der messbaren Abbildung T : R → R mit T (x) := x2 .
Allgemeiner stellt sich das Problem, f¨ ur eine Verteilung Q : B(R) → [0, 1] und eine messbare Funktion T : R → R das Bildmaß QT zu bestimmen. Dies ist ein Spezialfall des Problems, f¨ ur ein Maß ν : B(R) → [0, ∞] und eine messbare Funktion T : R → R das Bildmaß νT zu bestimmen. F¨ ur ein Maß ν : B(R) → [0, ∞] mit ν ¿ ζ C f¨ ur eine abz¨ ahlbare Menge C ⊆ R ist die Bestimmung des Bildmaßes von ν unter einer beliebigen messbaren Abbildung T : R → R elementar: 12.2.2 Satz. Sei h : R → R+ messbar und C ⊆ R abz¨ ahlbar und sei Z ν := h(x) dζ C (x) Sei ferner T : R → R messbar. Dann gilt f¨ ur alle B ∈ B(R) X X νT [B] = h(x) z∈B x∈C∩T −1 ({z})
Insbesondere gilt νT [R] = ν[R]. Beweis. F¨ ur alle B ∈ B(R) gilt νT [B] = ν[T −1 (B)] Z = h(x) dζ C (x) T −1 (B)
X
=
h(x)
x∈C∩T −1 (B)
=
X
X
h(x)
z∈B x∈C∩T −1 ({z})
Außerdem gilt νT [R] = ν[T −1 (R)] = ν[R].
2
F¨ ur ein Maß ν : B(R) → [0, ∞] mit ν ¿ λ bestimmen wir das Bildmaß von ν zun¨ achst f¨ ur invertierbare affine Abbildungen T : R → R: 12.2.3 Satz. Sei h : R → R+ messbar und Z ν := h(x) dλ(x) Sei ferner T : R → R gegeben durch T (x) := a + bx mit a, b ∈ R und b 6= 0. Dann gilt ¶ Z µ z−a 1 νT = h dλ(z) b |b| Insbesondere gilt νT [R] = ν[R].
12.2 Transformationen von Verteilungen
269
Beweis. Die Abbildung T ist invertierbar und T −1 ist messbar mit T −1 (z) =
z−a b
Nach Folgerung 9.4.2 gilt daher ¶ Z µ z−a νT = h dλT (z) b und nach Folgerung 6.3.2 gilt λT =
1 λ |b|
Die Behauptung folgt nun aus der Kettenregel.
2
Invertierbare affine Abbildungen sind injektiv. Es treten jedoch auch Abbildungen auf, die nur lokal injektiv sind; vgl. Beispiel 12.2.1. F¨ ur lokal injektive Abbildungen erhalten wir den folgenden Satz: 12.2.4 Satz. Sei h : R → R+ messbar und Z ν := h(x) dλ(x) Sei ferner T : R → R messbar. Ist {CiP }i∈I eine abz¨ ahlbare disjunkte Familie nichtleerer offener Intervalle mit ν[R \ i∈I Ci ] = 0 derart, dass f¨ ur alle i ∈ I die Restriktion T |Ci stetig differenzierbar ist mit (T |Ci )0 (x) 6= 0 f¨ ur alle x ∈ Ci , so gilt ! Z ÃX ³ ´¯¯ d(T | )−1 ¯¯ C i νT = h (T |Ci )−1 (z) ¯¯ (z)¯¯ χT (Ci ) (z) dλ(z) dz i∈I
Beweis. Aus Satz 9.5.4 und Lemma 9.8.9 erh¨ alt man unter Verwendung des Satzes u ur alle B 0 ∈ B(R) ¨ber die monotone Konvergenz f¨ ³ ´ XZ νT [B 0 ] = h (T |Ci )−1 (z) d(λ|B(Ci ) )(T |Ci ) (z) i∈I
B 0 ∩T (Ci )
³ ´¯¯ d(T | )−1 ¯¯ Ci −1 = h (T |Ci ) (z) ¯¯ (z)¯¯ dλ(z) dz 0 ∩T (C ) B i i∈I ! Z ÃX ³ ´¯¯ d(T | )−1 ¯¯ Ci −1 ¯ ¯ = h (T |Ci ) (z) ¯ (z)¯ χT (Ci ) (z) dλ(z) dz B0 XZ
i∈I
Damit ist der Satz bewiesen.
2
270
Kapitel 12. Univariate Verteilungen
Die Voraussetzungen von Satz 12.2.4 sind insbesondere f¨ ur jede Abbildung T : R → R mit T (x) = a + bx mit a, b ∈ R und b 6= 0 erf¨ ullt, denn in diesem Fall ist T stetig differenzierbar mit T −1 (z) =
z−a b
und ¯ −1 ¯ ¯ dT ¯ 1 ¯ ¯ ¯ dz (z)¯ = |b| Daher ist Satz 12.2.4 eine Verallgemeinerung von Satz 12.2.3. Als erste Anwendung von Satz 12.2.4 zeigen wir, dass die t–Verteilung wohldefiniert ist: 12.2.5 Beispiel (t–Verteilung). F¨ ur alle n ∈ N gilt Z R
µ ¶− n+1 2 Γ( n+1 ) x2 2 √ 1 + dλ(x) = 1 n Γ( n2 ) πn
In der Tat: Wegen Z
Γ( n+1 ) 2 √ Γ( n2 ) πn
µ ¶− n+1 Z 2 Γ( n+1 ) x2 nn/2 2 1+ dλ(x) = dλ(x) n 1 n (n+x2 )(n+1)/2 Γ( 2 )Γ( 2 )
betrachten wir das Maß Z ν :=
nn/2 dλ(x) (n+x2 )(n+1)/2
und die lineare Abbildung S : R → R mit S(x) := n−1/2 x. Aus Satz 12.2.3 ergibt sich Z nn/2 νS = n1/2 dλ(y) (n + ny 2 )(n+1)/2 Z 1 = dλ(y) (1 + y 2 )(n+1)/2 Wir betrachten nun die Abbildung T : R → R mit T (y) := arctan y ∈ (− π2 , π2 ). Dann ist T injektiv mit T −1 (z) = tan z, und aus Satz 12.2.4 ergibt sich nun mit 1 + (tan z)2 = (cos z)−2 Z ³ ´ 1 (νS )T = 1 + (tan z)2 χ(− π2 , π2 ) (z) dλ(z) 2 (n+1)/2 (1 + (tan z) ) Z = (cos z)n−1 χ(− π2 , π2 ) (z) dλ(z) Wegen R = S −1 (R) und R = T −1 ((− π2 , π2 )) erhalten wir daher
12.2 Transformationen von Verteilungen
271
ν[R] = νS [R] = (νS )T [(− π2 , π2 )] Z = (cos z)n−1 dλ(z) (−π/2,π/2)
Z
(cos z)n−1 dλ(z)
= [−π/2,π/2]
Z
π/2
=
(cos z)n−1 dz
−π/2
und mit Fallunterscheidung danach, ob n gerade oder ungerade ist, ergibt sich daraus ν[R] =
Γ( n2 ) Γ( 12 ) Γ( n+1 ) 2
Daraus folgt die Behauptung.
Des weiteren eignet sich Satz 12.2.4 zur Berechnung der Verteilung einer messbaren Transformation einer Zufallsvariablen. Wir geben zun¨ achst einen weiteren Spezialfall des Satzes an: 12.2.6 Folgerung. Sei h : R → R+ messbar und Z ν := h(x) dλ(x) Sei ferner T : R → R gegeben durch T (x) := x2 . Dann gilt √ √ Z h(− z) + h( z) √ νT = χ(0,∞) (z) dλ(z) 2 z Beweis. Die Abbildung T ist stetig differenzierbar mit T 0 (x) = 2x. Wegen T 0 (0) = 0 und T 0 (x) 6= 0 f¨ ur alle x 6= 0 betrachten wir die Mengen C1 := (−∞, 0) C2 := (0, ∞) Dann gilt λ[R \ (C1 +C2 )] = λ[{0}] = 0 und damit ν[R \ (C1 +C2 )] = 0, sowie T (C1 ) = (0, ∞) T (C2 ) = (0, ∞) Insbesondere sind die Restriktionen T |C1 und T |C2 injektiv und es gilt √ (T |C1 )−1 (z) = − z √ (T |C2 )−1 (z) = z
272
Kapitel 12. Univariate Verteilungen
und damit ¯ ¯ ¯ d(T |C1 )−1 ¯ ¯ ¯= (z) ¯ ¯ dz ¯ ¯ ¯ d(T |C2 )−1 ¯ ¯ ¯= (z) ¯ ¯ dz
1 √ 2 z 1 √ 2 z
Aus Satz 12.2.4 folgt nun ¶ Z µ √ √ 1 1 νT = h(− z) √ χ(0,∞) (z) + h( z) √ χ(0,∞) (z) dλ(z) 2 z 2 z √ √ Z h(− z) + h( z) √ = χ(0,∞) (z) dλ(z) 2 z Damit ist die Behauptung gezeigt.
2
Wir geben nun einige Beispiele f¨ ur Transformationen von Verteilungen von reellen Zufallsvariablen: 12.2.7 Beispiele (Absolutstetige Verteilungen). (1) Normal–Verteilung: Sei PX = N(µ, σ 2 ). Dann gilt f¨ ur alle a, b ∈ R mit b 6= 0 Pa+bX = N(a+bµ, (|b|σ)2 ) In der Tat: Es gilt Z PX =
√
µ µ ¶2 ¶ 1 1 x−µ exp − dλ(x) 2 σ 2π σ
Wir betrachten die affine Abbildung T : R → R mit T (x) := a + b x. Dann gilt Pa+bX = PT ◦X = (PX )T und aus Satz 12.2.3 ergibt sich Pa+bX = (PX )T µ µ ¶2 ¶ Z 1 1 (z −a)b−1 − µ 1 √ = exp − dλ(z) 2 σ |b| 2π σ µ µ ¶2 ¶ Z 1 1 z − (a + bµ) √ = exp − dλ(z) 2 |b|σ 2π |b|σ = N(a+bµ, (|b|σ)2 ) (2) χ2 –Verteilung: Sei PX = N(0, 1). Dann gilt PX 2 = χ21 In der Tat: Es gilt Z PX =
2
x 1 √ e− 2 dλ(x) 2π
12.2 Transformationen von Verteilungen
273
Wir betrachten die Abbildung T : R → R mit T (x) := x2 . Dann gilt PX 2 = PT ◦X = (PX )T und aus Folgerung 12.2.6 ergibt sich PX 2 = (PX )T Z √1 e− z2 + √1 e− z2 2π √ 2π = χ(0,∞) (z) dλ(z) 2 z Z 1 1 1 √ e− 2 z z − 2 χ(0,∞) (z) dλ(z) = 2π Z ¡ 1 ¢1/2 1
2
=
Γ( 12 ) ¡ ¢ = Ga 12 , 12
1
e− 2 z z 2 −1 χ(0,∞) (z) dλ(z)
und damit PX 2 = χ21 .
Da das Bildmaß einer Verteilung wieder eine Verteilung ist, kann man die Berechnung einer Verteilung oft vereinfachen: Ist Q : B(R) → [0, 1] eine Verteilung und ν : B(R) → [0, ∞] ein endliches Maß, so schreiben wir Q∼ν wenn es ein c ∈ (0, ∞) gibt derart, dass f¨ ur alle B ∈ B(R) Q[B] = c ν[B] gilt. Beispielsweise erh¨alt man in Beispiel 12.2.7(2) unter Vernachl¨ assigung der multiplikativen Konstanten mit Z (PX )T =
√1 2π
Z ∼
z
z
e− 2 + √12π e− 2 √ χ(0,∞) (z) dλ(z) 2 z
1
1
e− 2 z z 2 −1 χ(0,∞) (z) dλ(z)
∼ Ga
¡1
1 2, 2
¢
dasselbe Ergebnis, da es nur eine M¨oglichkeit gibt, den letzten Integranden zu einer Lebesgue–Dichte zu normieren. Aufgaben 12.2.A Geometrische Verteilung: Sei PX = Geo(n, ϑ). Dann gilt PX−n = NB(n, 1−ϑ). 12.2.B Uniforme Verteilung: Sei PX = U(0, 1) und sei n ∈ N. Dann gilt PX n = Be( n1 , 1). 12.2.C Uniforme Verteilung: Sei PX = U(− π2 , π2 ) und sei α ∈ R und β ∈ (0, ∞). Dann gilt Pα+β tan X = Ca(α, β).
274
Kapitel 12. Univariate Verteilungen
12.2.D Cauchy–Verteilung: Sei PX = Ca(α, β). Dann gilt P(X−α)/β = t1 sowie PX−α = Ca(0, β) und Pα−X = Ca(0, β). 12.2.E Pareto–Verteilung: Sei PX = Pa∗ (α, β). Dann gilt PX+α = Pa(α, β). 12.2.F Symmetrische Verteilungen: Zeigen Sie, dass – die Standardnormal–Verteilung, – jede t–Verteilung, und – f¨ ur alle β ∈ (0, ∞) die Cauchy–Verteilung Ca(0, β) symmetrisch ist. 12.2.G Sei h : R → R+ messbar und Z ν :=
h(x) dλ(x)
Sei ferner T : R → R gegeben durch T (x) := |x|. Dann gilt Z ³ ´ νT = h(−z) + h(z) χ(0,∞) (z) dλ(z)
12.3 Momente In diesem Abschnitt untersuchen wir die Existenz und die Endlichkeit des Erwartungswertes und der h¨oheren Momente einer Zufallsvariablen. Wir f¨ uhren zun¨ achst die in der Wahrscheinlichkeitstheorie u ¨ bliche Sprechweise ¯ eine Zufallsvariable. ein. Sei X : Ω → R – Man sagt, X besitzt einen Erwartungswert, wenn X P –quasiintegrierbar ist. Dies ist genau dann der Fall, wenn ½Z ¾ Z min X + (ω) dP (ω) , X − (ω) dP (ω) < ∞ Ω
Ω
gilt, und in diesem Fall heißt Z E[X] :=
X(ω) dP (ω) Ω
der Erwartungswert von X. Da jede positive Zufallsvariable einen (m¨ oglicherweise unendlichen) Erwartungswert besitzt, besitzt X genau dann einen Erwartungswert, wenn n o min E[X + ], E[X − ] < ∞ –
gilt. Man sagt, X besitzt einen endlichen Erwartungswert, wenn X P –integrierbar ist. Dies ist genau dann der Fall, wenn ½Z ¾ Z max X + (ω) dP (ω) , X − (ω) dP (ω) < ∞ Ω
Ω
12.3 Momente
275
gilt. Daher besitzt X genau dann einen endlichen Erwartungswert, wenn n o max E[X + ], E[X − ] < ∞ gilt, und dies ist genau dann der Fall, wenn E[|X|] < ∞ gilt. Das folgende Lemma liefert ein weiteres Kriterium f¨ ur die Existenz eines endlichen Erwartungswertes: 12.3.1 Lemma. F¨ ur jede Zufallsvariable X gilt Z E[|X|] = P [{|X| ≥ x}] dλ(x) R+
und
∞ X
P [{|X| ≥ n}] ≤ E[|X|] ≤ 1 +
n=1
∞ X
P [{|X| ≥ n}]
n=1
Insbesondere P∞ besitzt X genau dann einen endlichen Erwartungswert, wenn die Reihe n=1 P [{|X| ≥ n}] gegen eine reelle Zahl konvergiert. Beweis. Die Gleichung ergibt sich unmittelbar aus Beispiel 9.7.4. Des weiteren gilt f¨ ur alle n ∈ N Z P [{|X| ≥ n}] ≤ P [{|X| ≥ x}] dλ(x) [n−1,n)
≤ P [{|X| ≥ n−1}] und Summation ergibt ∞ X
Z P [{|X| ≥ n}] ≤
P [{|X| ≥ x}] dλ(x) R+
n=1
≤ =
∞ X n=1 ∞ X
P [{|X| ≥ n−1}] P [{|X| ≥ n}]
n=0
Die Behauptung folgt.
2
Die Eigenschaften des Erwartungswertes ergeben sich daher unmittelbar aus denen des Lebesgue–Integrals; gegen¨ uber der allgemeinen Integrationstheorie ergibt sich aber die Besonderheit, dass jede konstante Zufallsvariable integrierbar ist:
276
Kapitel 12. Univariate Verteilungen
12.3.2 Lemma. Sei X eine Zufallsvariable und sei a, b, c ∈ R. (1) Im Fall P [{X ≥ 0}] = 1 gilt E[X] ≥ 0. (2) Im Fall P [{X = c}] = 1 gilt E[X] = c. (3) Besitzt X einen Erwartungswert, so besitzt auch a + bX einen Erwartungswert und es gilt E[a+bX] = a + b E[X]. F¨ ur die Pr¨ ufung der Existenz des Erwartungswertes einer Zufallsvariablen, und dar¨ uber hinaus f¨ ur seine Berechnung im Falle der Existenz, ist die Substitutionsregel von gr¨oßter Bedeutung. Wir formulieren daher als Spezialfall der allgemeinen Substitutionsregel 9.4.1 die folgende Substitutionsregel f¨ ur Erwartungswerte: 12.3.3 Satz (Substitutionsregel f¨ ur Erwartungswerte). Sei X eine reelle Zufallsvariable und sei h : R → R eine messbare Funktion. (1) Ist h positiv , so gilt Z E[h ◦ X] = h(x) dPX (x) R
(2) h ◦ X ist genau dann P –integrierbar, wenn h PX –integrierbar ist, und in diesem Fall gilt Z E[h ◦ X] =
h(x) dPX (x) R
Aus der Substitutionsregel folgt, dass die Existenz des Erwartungswertes einer Zufallsvariablen und, im Falle der Existenz, auch der Erwartungswert selbst ausschließlich durch ihre Verteilung bestimmt ist: 12.3.4 Folgerung. Sei X eine Zufallsvariable. Dann gilt: (1) X besitzt genau dann einen Erwartungswert , wenn ½Z ¾ Z + − min x dPX (x) , x dPX (x) < ∞ R
R
gilt. (2) X besitzt genau dann einen endlichen Erwartungswert, wenn ½Z ¾ Z + − max x dPX (x) , x dPX (x) < ∞ R
R
gilt, und diese Bedingung ist genau dann erf¨ ullt, wenn Z |x| PX (x) < ∞ R
gilt. (3) Besitzt X einen endlichen Erwartungswert, so gilt Z E[X] = x dPX (x) R
12.3 Momente
277
Die Substitutionsregel f¨ ur Erwartungswerte ist vor allem deshalb von Interesse, weil von einer Zufallsvariablen meist nur ihre Verteilung bekannt ist, w¨ ahrend ihre Eigenschaften als Abbildung und oft sogar der Wahrscheinlichkeitsraum (Ω, F , P ) unbekannt sind. F¨ ur eine Zufallsvariable, die diskret oder absolutstetig ist und einen endlichen Erwartungswert besitzt, erfolgt die Berechnung des Erwartungswertes meist dadurch, dass man den Erwartungswert als Vielfaches des Integrals einer Z¨ ahldichte oder einer Lebesgue–Dichte darstellt; dagegen erfordert der Nachweis daf¨ ur, dass eine Zufallsvariable keinen Erwartungswert oder keinen endlichen Erwartungswert besitzt, im allgemeinen eine Absch¨ atzung der Erwartungswerte des Positiv– und/oder Negativteils der Zufallsvariablen. Der Erwartungswert einer reellen Zufallsvariablen mit einer diskreten Verteilung kann, im Fall seiner Existenz, durch Summation bestimmt werden: 12.3.5 Lemma. Sei X eine reelle Zufallsvariable mit einer diskreten Verteilung und sei f eine Z¨ ahldichte von PX und C ⊆ R abz¨ ahlbar mit PX [C] = 1. Besitzt X einen Erwartungswert, so gilt X E[X] = x f (x) x∈C
Beweis. Es gilt Z Z Z X E[X] = X(ω) dP (ω) = x dPX (x) = x f (x) dζ C (x) = x f (x) Ω
R
R
x∈C
Damit ist die Behauptung gezeigt.
2
12.3.6 Beispiele (Diskrete Verteilungen). (1) Hypergeometrische Verteilung: Im Fall PX = H(n, N, K) gilt E[X] = n
K N
(2) Binomial–Verteilung: Im Fall PX = B(n, ϑ) gilt E[X] = n ϑ (3) Poisson–Verteilung: Im Fall PX = P(α) gilt E[X] = α Damit ist die Bedeutung des Parameters der Poisson–Verteilung gekl¨ art. In der Tat: Es gilt E[X] =
∞ X k=0
k e−α
∞
∞
k=1
l=0
X −α αk−1 X −α αl αk =α e =α e =α k! (k−1)! l!
278
Kapitel 12. Univariate Verteilungen
(4) Negativbinomial–Verteilung: Im Fall PX = NB(α, ϑ) gilt E[X] = α
ϑ 1−ϑ
(5) Geometrische Verteilung: Im Fall PX = Geo(n, ϑ) gilt E[X] = n
1 ϑ
In den Beispielen 12.3.6 stellt die Existenz des Erwartungswertes kein Problem dar, da die reellen Zufallsvariablen positiv sind; vgl. aber Aufgabe 12.3.B. Der Erwartungswert einer reellen Zufallsvariablen mit einer absolutstetigen Verteilung kann, im Fall seiner Existenz, durch Integration bestimmt werden: 12.3.7 Lemma. Sei X eine reelle Zufallsvariable mit einer absolutstetigen Verteilung und sei f eine Lebesgue–Dichte von PX . Besitzt X einen Erwartungswert, so gilt Z E[X] =
x f (x) dλ(x) R
Beweis. Die Behauptung folgt unmittelbar aus der Kettenregel.
2
12.3.8 Beispiele (Absolutstetige Verteilungen). (1) Uniforme Verteilung: Im Fall PX = U(a, b) gilt E[X] =
a+b 2
(2) Beta–Verteilung: Im Fall PX = Be(α, β) gilt E[X] =
α α+β
(3) Gamma–Verteilung: Im Fall PX = Ga(α, γ) gilt E[X] =
γ α
Damit ist insbesondere die Bedeutung des Parameters der Exponential–Verteilung Exp(α) = Ga(α, 1) gekl¨ art. In der Tat: Es gilt Z E[X] = x dPX (x) ZR αγ −αx γ−1 = x e x χ(0,∞) (x) dλ(x) Γ(γ) R γ Z α = e−αx x(γ+1)−1 χ(0,∞) (x) dλ(x) Γ(γ) R
12.3 Momente
279 αγ Γ(γ +1) Γ(γ) αγ+1 αγ Γ(γ +1) = Γ(γ) αγ+1 γ = α
Z
αγ+1 −αx (γ+1)−1 e x χ(0,∞) (x) dλ(x) Γ(γ +1)
=
R
(4) Normal–Verteilung: Im Fall PX = N(µ, σ 2 ) gilt E[X] = µ Damit ist die Bedeutung des ersten Parameters der Normal–Verteilung gekl¨ art. In der Tat: Wir betrachten die Zufallsvariable Z := (X − µ)/σ. Nach Beispiel 12.2.7 gilt PZ = N(0, 1) und damit Z E[Z + ] =
z + dPZ (z) R
Z
1 2 1 z + √ e− 2 z dλ(z) 2π R Z 1 2 1 = √ z e− 2 z dλ(z) 2π (0,∞) Z ∞ 1 2 1 = √ z e− 2 z dz 2π 0 1 = √ 2π
=
Nach Aufgabe 12.2.F gilt P−Z = PZ und damit E[Z − ] = E[(−Z)+ ] = E[Z + ]. Daher besitzt Z einen endlichen Erwartungswert und es gilt E[Z] = 0. Die Behauptung folgt nun aus X = µ + σZ und der Linearit¨ at des Integrals. (5) t–Verteilung: Im Fall PX = t1 besitzt X keinen Erwartungswert. In der Tat: Es gilt Z E[X + ] =
x+ dPX (x) R
Z
1 1 dλ(x) π 1 + x2 ZR 1 1 ≥ x dλ(x) π x2 + x2 (1,∞) Z 1 1 = dλ(x) 2π (1,∞) x Z ∞ 1 1 = dx 2π 1 x =
x+
=∞ Nach Aufgabe 12.2.F gilt P−X = PX und damit E[X − ] = E[(−X)+ ] = E[X + ]. Daher besitzt X keinen Erwartungswert.
280
Kapitel 12. Univariate Verteilungen
F¨ ur jede Zufallsvariable X gilt E[X + ] ≤ E[|X|] und E[X − ] ≤ E[|X|]; besitzt X einen Erwartungswert, so folgt daraus |E[X]| ≤ E[|X|] Diese Ungleichung l¨asst sich wie folgt verallgemeinern: 12.3.9 Satz (Ungleichung von Jensen). Sei J ⊆ R ein Intervall und sei X eine Zufallsvariable mit P [{X ∈ J}] = 1 und einem endlichen Erwartungswert. Ist h : J → R konvex , so besitzt h ◦ X einen Erwartungswert und es gilt h(E[X]) ≤ E[h ◦ X] Beweis. Wir zeigen zun¨achst, dass E[X] ∈ J gilt. Nach Voraussetzung gibt ¯ derart, dass J mit einem der Intervalle (a, b), (a, b], [a, b), [a, b] es a, b ∈ R u achst ¨bereinstimmt, und aus der Monotonie des Erwartungswertes folgt zun¨ E[X] ∈ [a, b]. Im Fall E[X] = a gilt a ∈ R und E[X − a] = 0, und wegen P [{X − a ≥ 0}] = 1 folgt aus Lemma 8.2.8 P [{X −a = 0}] = 1 und damit P [{X = a}] = 1; dann gilt aber a ∈ J und P [{h ◦ X = h(a)}] = 1, und damit E[h ◦ X] = h(a), also h(E[X]) = E[h(X)] Diese Gleichung gilt auch im Fall E[X] = b. Wir nehmen nun an, dass E[X] ∈ (a, b) gilt. Da h konvex ist, gibt es eine affine Funktion g : R → R mit g(E[X]) = h(E[X]) und g(x) ≤ h(x) f¨ ur alle x ∈ (a, b). Da g affin ist, gibt es c, d ∈ R mit g(x) = c + dx Mit X besitzt auch g ◦ X = c + dX einen endlichen Erwartungswert, und wegen −h(x) ≤ −g(x) gilt E[(h ◦ X)− ] ≤ E[(g ◦ X)− ] ≤ E[|g ◦ X|] Daher besitzt h ◦ X einen Erwartungswert, und wegen g(x) ≤ h(x) gilt h(E[X]) = g(E[X]) = c + dE[X] = E[c+dX] = E[g(X)] ≤ E[h(X)] Damit ist der Satz bewiesen.
2
12.3 Momente
281
12.3.10 Folgerung (Ungleichung von Jensen). Sei J ⊆ R ein Intervall und sei X eine Zufallsvariable mit P [{X ∈ J}] = 1 und einem endlichen Erwartungswert. Ist h : J → R konkav , so besitzt h ◦ X einen Erwartungswert und es gilt E[h ◦ X] ≤ h(E[X]) Wir betrachten nun Momente h¨oherer Ordnung. F¨ ur eine Zufallsvariable X und n ∈ N heißt E[|X|n ] das n–te absolute Moment oder das absolute Moment der Ordnung n von X und im Fall der Existenz heißt E[X n ] das n–te Moment oder das Moment der Ordnung n von X. Diese Momente h¨ oherer Ordnung sind unter anderem f¨ ur die Absch¨atzung von Wahrscheinlichkeiten durch die aus der Integrationstheorie bekannte Ungleichung von Markov von Interesse: 12.3.11 Lemma (Ungleichung von Markov). Sei X eine Zufallsvariable. Dann gilt f¨ ur alle c ∈ (0, ∞) und n ∈ N P [{|X| ≥ c}] ≤
E[|X|n ] cn
Des weiteren l¨ asst sich auch der Erwartungswert einer Zufallsvariablen mit einem endlichen Erwartungswert durch h¨ohere Momente absch¨ atzen: 12.3.12 Lemma. Sei X eine Zufallsvariable mit einem endlichen Erwartungswert und sei n ∈ N. Dann gilt |E[X]|n ≤ E[|X|n ]. Beweis. Die Funktion h : R → R mit h(x) := |x|n ist konvex. Daher folgt die Behauptung aus der Ungleichung von Jensen. 2 Da jedes Wahrscheinlichkeitsmaß endlich ist, besitzt jede konstante Zufallsvariable einen endlichen Erwartungswert. Daraus ergibt sich ein allgemeines Ergebnis u ¨ber die Endlichkeit h¨oherer Momente einer Zufallsvariablen: 12.3.13 Lemma. Sei X eine Zufallsvariable und seien m, n ∈ N mit m ≤ n. Besitzt X ein endliches Moment der Ordnung n, so besitzt X auch ein endliches Moment der Ordnung m. Beweis. F¨ ur alle x ∈ R gilt |x|m ≤ 1 + |x|n . Daher gilt E[|X|m ] ≤ E[1+|X|n ] = 1 + E[|X|n ] und die Behauptung folgt.
2
Diese Ungleichungen bleiben g¨ ultig, wenn man m, n ∈ N durch p, q ∈ [1, ∞) mit p ≤ q ersetzt.
282
Kapitel 12. Univariate Verteilungen
12.3.14 Beispiele (Absolutstetige Verteilungen). (1) Uniforme Verteilung: Im Fall PX = U(a, b) gilt f¨ ur alle n ∈ N E[X n ] =
1 bn+1 − an+1 n+1 b−a
(2) Beta–Verteilung: Im Fall PX = Be(α, β) gilt f¨ ur alle n ∈ N E[X n ] =
n−1 Y k=0
α+k α+β+k
(3) Gamma–Verteilung: Im Fall PX = Ga(α, γ) gilt f¨ ur alle n ∈ N E[X n ] =
n−1 Y k=0
γ+k α
(4) t–Verteilung: Im Fall PX = t2 gilt E[X] = 0 und E[|X|n ] = ∞ f¨ ur alle n ≥ 2. In der Tat: Es gilt Z E[X + ] = x+ dPX (x) R Z 1 = x+ dλ(x) (2 + x2 )3/2 R Z x = χ(0,∞) (x) dλ(x) (2 + x2 )3/2 R Wir betrachten das Maß Z ν :=
x χ(0,∞) (x) dλ(x) (2 + x2 )3/2
und die Abbildung T : R → R mit T (x) := 2 + x2 . Dann gilt ν[R \ (0, ∞)] = 0, T ist messbar, und die Restriktion T |(0,∞) : (0, ∞) → R ist stetig differenzierbar mit (T |(0,∞) )0 (x) = 2x 6= 0 f¨ ur alle x ∈ (0, ∞). Aus Satz 12.2.4 erhalten wir nun Z (z −2)1/2 1 νT = χ(0,∞) ((z −2)1/2 ) (z −2)−1/2 χ(2,∞) (z) dλ(z) z 3/2 2 Z 1 −3/2 = z χ(2,∞) (z) dλ(z) 2 und damit E[X + ] = ν[R] = νT [R] Z 1 −3/2 = z χ(2,∞) (z) dλ(z) R 2 Z 1 −3/2 = z dλ(z) (2,∞) 2
12.3 Momente
283 Z
∞
= 2
1 −3/2 z dz 2
1 = √ 2 Nach Aufgabe 12.2.F gilt P−X = PX und damit E[X − ] = E[(−X)+ ] = E[X + ], Daher besitzt X einen endlichen Erwartungswert und es gilt E[X] = 0. Des weiteren gilt Z E[2+X 2 ] = (2+x2 ) dPX (x) ZR 1 = (2+x2 ) dλ(x) (2+x2 )3/2 R Z 1 = dλ(x) 2 1/2 R (2+x ) Z 1 ≥ dλ(x) 2 2 1/2 (1,∞) (3x +x ) Z 1 1 = dλ(x) 2 (1,∞) x =∞ und damit E[X 2 ] = ∞. Die Behauptung u ¨ber E[|X|n ] folgt nun aus Lemma 12.3.13.
Aufgaben 12.3.A Geben Sie einen elementaren Beweis f¨ ur die Doppelungleichung aus Lemma 12.3.1. L¨ asst sich die Verwendung des Satzes von Fubini vermeiden? 12.3.B Betrachten Sie den Wahrscheinlichkeitsraum (Ω, F , P ) mit Ω := N und F := 2Ω sowie P [{ω}] := 2−ω f¨ ur alle ω ∈ Ω. Konstruieren Sie eine Zufallsvariable X : Ω → R mit E[X + ] = ∞ = E[X − ]. 12.3.C Sei (Ω, F , P ) symmetrisch mit Ω := {1, 2, 3, 4, 5, 6}3 und sei X : Ω → R gegeben durch X((i, j, k)) := i + j + k. Dann besitzt X einen endlichen Erwartungswert, der sich gem¨ aß Z E[X] = X(ω) dP (ω) Ω
oder gem¨ aß Z E[X] =
x dPX (x) R
bestimmen l¨ asst. Vergleichen Sie beide Rechnungen. 12.3.D P´ olya–Verteilung: Sei PX = P´ olya(n, α, β). Dann gilt E[X] = n
α α+β
284
Kapitel 12. Univariate Verteilungen
12.3.E Logarithmische Verteilung: Sei PX = Log(ϑ). Dann gilt E[X] =
1 ϑ | log(1−ϑ)| 1 − ϑ
12.3.F Cauchy–Verteilung: Sei PX = Ca(α, β). Dann besitzt X keinen Erwartungswert. 12.3.G Pareto–Verteilung: Sei PX = Pa(α, β). Dann gilt f¨ ur alle n ∈ N mit n<β E[X n ] =
β αn β−n
und f¨ ur alle n ∈ N mit n ≥ β gilt E[X n ] = ∞. 12.3.H Pareto–Verteilung: Sei PX = Pa∗ (α, β). Dann gilt f¨ ur alle n ∈ N mit n<β E[X n ] = αn
à ! n X n β (−1)n−k k β−k k=0
und f¨ ur alle n ∈ N mit n ≥ β gilt E[X n ] = ∞. 12.3.I
Symmetrische Verteilungen: (1) Geben Sie ein Beispiel f¨ ur eine Zufallsvariable mit einer symmetrischen Verteilung, die keinen Erwartungswert besitzt. (2) Sei X eine Zufallsvariable mit einer symmetrischen Verteilung. Besitzt X ein endliches Moment der Ordnung 2k + 1 f¨ ur ein k ∈ N0 , so gilt E[X 2k+1 ] = 0.
12.3.J
¨ Integrierte Uberlebensfunktion: Sei Q : B(R) → [0, 1] eine Verteilung R ¨ mit R |x| dQ(x) < ∞ und sei G die zugeh¨ orige Uberlebensfunktion. Dann gilt f¨ ur alle a ∈ R Z
Z (x−a)+ dQ(x) =
R
Die Abbildung R → R : a 7→ funktion zu Q.
G(x) dλ(x) (a,∞)
R (a,∞)
¨ G(x) dλ(x) heißt integrierte Uberlebens-
12.3.K Stop–Loss Ordnung: Sei Q1 (R) die Familie aller Verteilungen Q : R B(R) → [0, 1] mit R |x| dQ(x) < ∞. F¨ ur Q1 , Q2 ∈ Q1 (R) schreiben wir Q1 ≤1 Q2 wenn f¨ ur alle a ∈ R Z
Z (x−a)+ dQ1 (x) ≤
R
(x−a)+ dQ2 (x) R
gilt. Die Relation ≤1 wird als stop–loss Ordnung bezeichnet.
12.4 Zentrale Momente
285
(1) Die Relation ≤1 ist eine Ordnungsrelation auf Q1 (R). ¨ (2) F¨ ur Q1 , Q2 ∈ Q1 (R) und die zugeh¨ origen Uberlebensfunktionen G1 , G2 gilt Q1 ≤1 Q2 genau dann, wenn f¨ ur alle a ∈ R Z Z G1 (x) dλ(x) ≤ G2 (x) dλ(x) (a,∞)
(a,∞)
gilt. (3) F¨ ur alle Q1 , Q2 ∈ Q1 (R) mit Q1 ≤0 Q2 gilt Q1 ≤1 Q2 . (4) Verteilungen Q1 , Q2 ∈ Q1 (R) mit Z Z x dQ1 (x) = x dQ2 (x) R
R
sind bez¨ uglich der stochastischen Ordnung nicht vergleichbar. (5) Untersuchen Sie die Vergleichbarkeit der Verteilungen B(2, 12 ) und B(3, 13 ) bez¨ uglich der stop–loss Ordnung. 12.3.L Bedingter Erwartungswert: Sei C ∈ F ein Ereignis mit P [C] ∈ (0, 1). F¨ ur eine Zufallsvariable X, die positiv oder P [ . |C]–integrierbar ist, setzen wir Z E[X|C] := X(ω) dP [ . |C](ω) Ω
und nennen E[X|C] den bedingten Erwartungswert von X unter C. Es gilt Z 1 E[X|C] = X(ω) dP (ω) P [C] C Ist X positiv oder P –integrierbar, so gilt E[X] = E[X|C] P [C] + E[X|C] P [C] Interpretieren Sie diese Gleichung. 12.3.M Jede Zufallsvariable in L∞ (F , P ) besitzt endliche Momente beliebiger Ordnung.
12.4 Zentrale Momente F¨ ur eine Zufallsvariable X mit einem endlichen Erwartungswert ist neben dem Erwartungswert vor allem die Abweichung X − E[X] der Zufallsvariablen von ihrem Erwartungswert von Interesse. Die Zufallsvariable X − E[X] heißt die zu X zentrierte Zufallsvariable und es gilt E[X −E[X]] = 0 Diese Gleichung wird auch als Schwerpunkteigenschaft des Erwartungswertes bezeichnet.
286
Kapitel 12. Univariate Verteilungen
F¨ ur eine Zufallsvariable X mit einem endlichen Erwartungswert setzen wir var [X] := E[(X −E[X])2 ] und nennen var [X] die Varianz von X. Die Varianz von X ist genau dann endlich, wenn X ein endliches zweites Moment besitzt. Sie dient als Maß der Abweichung der Zufallsvariablen von ihrem Erwartungswert und wird daher auch als ein Streuungsmaß bezeichnet. 12.4.1 Lemma. Sei X eine Zufallsvariable mit einem endlichen Erwartungswert. (1) Es gilt var [X] = E[X 2 ] − (E[X])2 . (2) Es gilt var [X] = 0 genau dann, wenn P [{X = E[X]}] = 1 gilt. (3) Es gilt var [X] = inf c∈R E[(X −c)2 ]. (4) F¨ ur alle a, b ∈ R gilt var [a+bX] = b2 var [X]. Beweis. Im Fall E[X 2 ] < ∞ folgt aus der Linearit¨ at des Integrals var [X] = E[(X −E[X])2 ] = E[X 2 − 2E[X] X + (E[X])2 ] = E[X 2 ] − 2E[X] E[X] + (E[X])2 = E[X 2 ] − (E[X])2 und diese Gleichung gilt auch im Fall E[X 2 ] = ∞. Damit ist (1) gezeigt. Wegen (X −E[X])2 ≥ 0 folgt (2) aus Lemma 8.2.8. Sei nun E[X 2 ] < ∞. F¨ ur die Funktion g : R → R mit g(c) := E[(X −c)2 ] gilt g(c) = E[X 2 ] − 2c E[X] + c2 g 0 (c) = − 2 E[X] + 2c g 00 (c) = 2 Daher ist c∗ := E[X] der eindeutig bestimmte Minimierer von g. Es gilt also E[(X −E[X])2 ] = inf E[(X −c)2 ] c∈R
und diese Gleichung gilt auch im Fall E[X 2 ] = ∞. Damit ist (3) gezeigt. Mit X besitzt auch a + bX einen endlichen Erwartungswert und es gilt h³ ´2 i (a+bX) − E[a+bX] h³ ´2 i = E (a+bX) − (a+b E[X])
var [a+bX] = E
12.4 Zentrale Momente
287
= E[b2 (X −E[X])2 ] = b2 E[(X −E[X])2 ] = b2 var [X] Damit ist (4) gezeigt.
2
F¨ ur eine Zufallsvariable X mit PX [N0 ] = 1 und einem endlichen Erwartungswert ist es oft vorteilhaft, die Varianz mit Hilfe der Gleichung var [X] = E[X(X −1)] + E[X] − (E[X])2 zu berechnen. 12.4.2 Beispiele (Diskrete Verteilungen). (1) Hypergeometrische Verteilung: Im Fall PX = H(n, N, K) gilt var [X] = n
µ ¶ K K N −n 1− N N N −1
Der Faktor (N−n)/(N−1) heißt Korrekturfaktor (im Vergleich zur Varianz der Binomial–Verteilung B(n, K/N )). (2) Binomial–Verteilung: Im Fall PX = B(n, ϑ) gilt var [X] = n ϑ(1−ϑ) (3) Poisson–Verteilung: Im Fall PX = P(α) gilt var [X] = α In der Tat: Es gilt E[X(X −1)] =
∞ X k=0
k(k−1) e−α
∞ ∞ X X αk αk−2 αl = α2 e−α = α2 e−α = α2 k! (k−2)! l! k=2 l=0
und damit var [X] = E[X(X −1)] + E[X] − (E[X])2 = α2 + α − α2 = α (4) Negativbinomial–Verteilung: Im Fall PX = NB(α, ϑ) gilt var [X] = α
ϑ (1−ϑ)2
(5) Geometrische Verteilung: Im Fall PX = Geo(n, ϑ) gilt var [X] = n
1−ϑ ϑ2
288
Kapitel 12. Univariate Verteilungen
12.4.3 Beispiele (Absolutstetige Verteilungen). (1) Uniforme Verteilung: Im Fall PX = U(a, b) gilt var [X] =
(b−a)2 12
(2) Beta–Verteilung: Im Fall PX = Be(α, β) gilt var [X] =
αβ (α+β)2 (α+β + 1)
(3) Gamma–Verteilung: Im Fall PX = Ga(α, γ) gilt var [X] =
γ α2
(4) Normal–Verteilung: Im Fall PX = N(µ, σ 2 ) gilt var [X] = σ2 Damit ist die Bedeutung des zweiten Parameters der Normal–Verteilung gekl¨ art. In der Tat: Wir betrachten die Zufallsvariable Z :=
X −µ σ
Nach Beispiel 12.2.7 gilt PZ = N(0, 1) und PZ 2 = χ21 = Ga( 12 , 12 ), und aus Beispiel 12.3.8 folgt nun E[Z] = 0 und E[Z 2 ] = 1, und damit var [Z] = 1. Die Behauptung folgt nun aus X = µ + σZ und den Eigenschaften der Varianz.
Mit Hilfe der Varianz lassen sich Wahrscheinlichkeiten f¨ ur Abweichungen einer Zufallsvariablen von ihrem Erwartungswert absch¨ atzen: 12.4.4 Lemma (Ungleichung von Tschebyschev). Sei X eine Zufallsvariable mit einem endlichen zweiten Moment. Dann gilt f¨ ur alle c ∈ (0, ∞) hn P und P
oi var [X] |X −E[X]| ≥ c ≤ c2
hn oi var [X] |X −E[X]| ≤ c ≥ 1 − c2
Beweis. Die erste Ungleichung ergibt sich unmittelbar aus der Ungleichung von Markov, angewendet auf die zentrierte Zufallsvariable X − E[X]. Wegen hn oi hn oi hn oi P |X −E[X]| ≤ c ≥ P |X −E[X]| < c = 1 − P |X −E[X]| ≥ c folgt die zweite Ungleichung aus der ersten.
2
12.4 Zentrale Momente
289
W¨ ahrend die Ungleichung von Tschebyschev eine zweiseitige Absch¨ atzung f¨ ur Abweichungen vom Erwartungswert gibt, liefert die folgende Ungleichung von Cantelli eine einseitige Absch¨atzung: 12.4.5 Lemma (Ungleichung von Cantelli). Sei X eine Zufallsvariable mit einem endlichen zweiten Moment. Dann gilt f¨ ur alle c ∈ (0, ∞) P
hn oi X ≥ E[X] + c ≤
c2
var [X] + var [X]
Beweis. Sei Z := X − E[X]. Dann gilt E[Z] = 0 und var [Z] = var [X]. F¨ ur alle t ∈ (−c, ∞) gilt c + t > 0 und aus der Ungleichung von Markov folgt nun hn oi hn oi P X − E[X] ≥ c = P Z ≥ c hn oi = P Z +t≥c+t hn oi ≤ P |Z + t| ≥ c + t E[(Z + t)2 ] (c + t)2 E[Z 2 ] + t2 = (c + t)2 var [Z] + t2 = (c + t)2 var [X] + t2 = (c + t)2 ≤
Wir betrachten nun die Funktion g : (−c, ∞) → R mit g(t) :=
var [X] + t2 (c + t)2
Dann gilt ct − var [X] (c + t)3 2 t − 2ct + 3var [X] g 00 (t) = 2 (c + t)4 g 0 (t) = 2
Daher ist t∗ := var [X]/c der eindeutig bestimmte Minimierer von g. Es gilt g(t∗ ) = Daraus folgt die Behauptung.
c2
var [X] + var [X] 2
290
Kapitel 12. Univariate Verteilungen
Der Beweis der Ungleichung von Cantelli ist ein Beispiel daf¨ ur, wie man f¨ ur bestimmte Wahrscheinlichkeiten zun¨achst aus der Ungleichung von Markov eine ganze Schar von oberen Schranken gewinnt und sodann das Infimum dieser oberen Schranken bestimmt. F¨ ur eine Zufallsvariable X mit einem endlichen zweiten Moment betrachtet man neben der Varianz auch die Standardabweichung p
³ ´1/2 var [X] = E[(X −E[X])2 ]
p p F¨ ur alle c ∈ (0, ∞) gilt var [cX] = c var [X]. Daher ist die Standardabweichung ein Streuungsmaß , das dieselbe Dimension wie die Zufallsvariable besitzt. Die Varianz einer Zufallsvariablen X mit einem endlichen Erwartungswert wird auch als zweites zentrales Moment von X bezeichnet. Daneben betrachtet man auch zentrale Momente h¨oherer Ordnung: F¨ ur eine Zufallsvariable X mit einem endlichen Erwartungswert und f¨ ur n ∈ N heißt das n–te Moment E[(X−E[X])n ] der zentrierten Zufallsvariablen X −E[X] im Fall der Existenz das n–te zentrale Moment oder das zentrale Moment der Ordnung n von X; vgl. Aufgaben 12.4.H und 12.4.I. Das n–te zentrale Moment von X existiert f¨ ur alle n ∈ 2N. Aufgaben 12.4.A Sei X eine Zufallsvariable mit einem endlichen Erwartungswert. Dann gilt f¨ ur alle c ∈ R E[(X −c)2 ] = (E[X]−c)2 + var [X] 12.4.B P´ olya–Verteilung: Sei PX = P´ olya(n, α, β). Dann gilt var [X] = n
αβ α+β+n (α+β)2 α + β + 1
12.4.C Logarithmische Verteilung: Sei PX = Log(ϑ). Dann gilt var [X] =
| log(1−ϑ)| − ϑ ϑ | log(1−ϑ)|2 (1−ϑ)2
12.4.D k–σ–Bereich: Sei X eine Zufallsvariable mit einem endlichen zweiten Moment und mit Erwartungswert µ und Standardabweichung σ. F¨ ur k ∈ N wird das Intervall [µ − kσ, µ + kσ] als k–σ–Bereich (der Verteilung) von X bezeichnet. Bestimmen Sie eine nur von k abh¨ angige universelle untere Schranke f¨ ur die Wahrscheinlichkeit hn oi P X ∈ [µ−kσ, µ+kσ] und berechnen Sie diese untere Schranke f¨ ur k ∈ {1, 2, 3}.
12.4 Zentrale Momente
291
12.4.E Standardabweichung: Sei X eine Zufallsvariable mit einem endlichen zweiten Moment und E[X] = 0. Dann gilt p var [X] = kXk2 12.4.F Variationskoeffizient: Sei X eine positive Zufallsvariable mit einem endlichen zweiten Moment und E[X] > 0. Dann heißt p var [X] v[X] := E[X] Variationskoeffizient (der Verteilung) von X. F¨ ur alle c ∈ (0, ∞) gilt v[cX] = v[X]. Daher ist der Variationskoeffizient ein dimensionsloses Maß f¨ ur die Streuung von X. 12.4.G Standardisierung: Sei X eine Zufallsvariable mit einem endlichen zweiten Moment und mit Erwartungswert µ und Standardabweichung σ > 0. Dann heißt die Zufallsvariable Z =
X −µ σ
die zu X standardisierte Zufallsvariable. Die Zufallsvariable Z ist dimensionslos und es gilt E[Z] = 0 und var [Z] = 1. 12.4.H Schiefe: Sei X eine Zufallsvariable mit einem endlichen dritten Moment und mit Erwartungswert µ und Standardabweichung σ > 0. Dann heißt "µ ¶3 # X −µ E σ Schiefe (der Verteilung) von X. Berechnen Sie die Schiefe f¨ ur den Fall PX = N(µ, σ 2 ). 12.4.I
Exzess: Sei X eine Zufallsvariable mit einem endlichen vierten Moment und mit Erwartungswert µ und Standardabweichung σ > 0. Dann heißt "µ ¶4 # X−µ E −3 σ Exzess (der Verteilung) von X. Berechnen Sie den Exzess f¨ ur den Fall PX = N(µ, σ 2 ).
12.4.J
Sei X eine Zufallsvariable mit einem endlichen Moment der Ordnung n. Dann gilt à ! n X n E[(X −E[X])n ] = E[X k ] (−E[X])n−k k k=1
und à ! n X n E[X ] = E[(X −E[X])k ] (E[X])n−k k n
k=1
292
Kapitel 12. Univariate Verteilungen
12.4.K Uniforme Verteilung: Im Fall PX = U(a, b) gilt µ ¶n b−a 1 falls n ∈ 2N n+1 2 E[(X −E[X])n ] = 0 sonst 12.4.L Normal–Verteilung: Im Fall PX = N(µ, σ 2 ) gilt n/2 Y σn (2j −1) falls n ∈ 2N n E[(X −E[X]) ] = j=1 0 sonst
13 Multivariate Verteilungen
Multivariate Verteilungen sind Wahrscheinlichkeitsmaße auf B(Rm ). Sie sind von Interesse, weil f¨ ur jeden Zufallsvektor X : Ω → Rm das Bildmaß PX von P unter X eine multivariate Verteilung ist. In diesem Kapitel untersuchen wir multivariate Verteilungen. Wir beginnen mit der Charakterisierung multivariater Verteilungen durch Verteilungsfunktionen und einer Reihe von Beispielen f¨ ur diskrete oder absolutstetige Verteilungen (Abschnitt 13.1) und untersuchen dann Transformationen multivariater Verteilungen (Abschnitt 13.2). F¨ ur multivariate Verteilungen ergeben sich nun Besonderheiten, f¨ ur die es im univariaten Fall kein Analogon gibt: Die Berechnung von Randverteilungen (Abschnitt 13.3), die besonderen Eigenschaften der Verteilung eines Zufallsvektors mit unabh¨ angigen Koordinaten (Abschnitt 13.4) und die Berechnung der Verteilung der Summe der Koordinaten eines Zufallsvektors (Abschnitt 13.5). Die letzten Abschnitte sind wieder analog zum univariaten Fall und behandeln die Eigenschaften der Momente (Abschnitt 13.6) und der zentralen Momente (Abschnitt 13.7) einer multivariaten Verteilung. Auch in diesem Kapitel werden viele der im ersten Abschnitt eingef¨ uhrten Verteilungen auch im Hinblick auf die Berechnung von Transformationen oder Momenten oder zentralen Momenten diskutiert.
13.1 Verteilungen und Verteilungsfunktionen Ein Wahrscheinlichkeitsmaß Q : B(Rm ) → [0, 1] heißt Verteilung auf B(Rm ) (oder kurz Verteilung auf Rm ). Eine Verteilung auf B(Rm ) mit m ≥ 2 wird auch als multivariate Verteilung bezeichnet. Wie im univariaten Fall l¨asst sich auch im multivariaten Fall jede Verteilung als Verteilung eines Zufallsvektors auf einem geeigneten Wahrscheinlichkeitsraum K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_13, © Springer-Verlag Berlin Heidelberg 2011
294
Kapitel 13. Multivariate Verteilungen
interpretieren, und wie im univariaten Fall l¨asst sich auch im multivariaten Fall jede Verteilung durch eine Verteilungsfunktion darstellen. F¨ ur die Definition einer multivariaten Verteilungsfunktion ben¨ otigen wir das folgende Hilfsmittel: Sei F : Rm → R eine Funktion und sei (a, b] ∈ J (Rm ) ein nichtleeres Intervall. F¨ ur jede Menge K ⊆ {1, . . . , m} definieren wir einen Vektor c(a,b],K ∈ Rm mit den Koordinaten ½ ai falls i ∈ K c(a,b],K,i := bi sonst und setzen 4F [a, b] :=
m X
(−1)j
j=0
X
F (c(a,b],K )
K⊆{1,...,m}, |K|=j
Offenbar ist {c(a,b],K }K⊆{1,...,m} gerade die Menge der 2m Eckpunkte des Intervalls (a, b]. Eine Funktion F : Rm → R heißt rechtecksmonoton, wenn f¨ ur jedes nichtleere Intervall (a, b] ∈ J (Rm ) 4F [a, b] ≥ 0 gilt, und sie heißt stetig von oben, wenn f¨ ur alle x ∈ Rm und jede monoton m fallende Folge {xn }n∈N ⊆ R mit limn→∞ xn = x lim F (xn ) = F (x)
n→∞
gilt. Eine Funktion F : Rm → [0, 1] heißt Verteilungsfunktion, wenn sie folgende Eigenschaften besitzt: (i) F ist rechtecksmonoton. (ii) F ist stetig von oben. (iii) Es gilt limx→+∞ F (x) = 1 und f¨ ur alle x ∈ Rm und i ∈ {1, . . . , m} gilt limt→−∞ F(x + tei ) = 0. F¨ ur m = 1 stimmt diese Definition mit der fr¨ uher gegebenen u ur ¨berein. F¨ m ≥ 2 ist sie gerade die richtige Verallgemeinerung, wie der folgende Satz zeigt; vgl. auch Aufgabe 13.1.B. 13.1.1 Satz (Korrespondenzsatz). (1) Zu jeder Verteilung Q : B(Rm ) → [0, 1] gibt es genau eine Verteilungsfunktion FQ : Rm → [0, 1] mit FQ (x) = Q[(−∞, x]] f¨ ur alle x ∈ Rm . m (2) Zu jeder Verteilungsfunktion F : R → [0, 1] gibt es genau eine Verteilung QF : B(Rm ) → [0, 1] mit QF [(−∞, x]] = F (x) f¨ ur alle x ∈ Rm . (3) Es gilt Q(FQ ) = Q und F(QF ) = F .
13.1 Verteilungen und Verteilungsfunktionen
295
Wir verzichten auf den Beweis des Korrespondenzsatzes; der Beweis von (1) ist einfach, der Beweis von (2) verl¨auft ¨ahnlich wie die Konstruktion des m– dimensionalen Lebesgue–Maßes, und (3) erh¨alt man wie im univariaten Fall. Diskrete Verteilungen Eine Verteilung Q : B(Rm ) → [0, 1] heißt diskret, wenn es eine abz¨ ahlbare Menge C ⊆ Rm gibt mit Q[C] = 1. 13.1.2 Lemma. Sei Q : B(Rm ) → [0, 1] eine diskrete Verteilung. Dann gilt Q ⊥ λm . Eine Funktion f : Rm → R+ heißt Z¨ ahldichte, wenn es eine abz¨ ahlbare Menge C ⊆ Rm gibt mit f (x) = 0 f¨ ur alle x ∈ Rm \ C und X f (x) = 1 x∈C
Jede Z¨ ahldichte ist messbar. Jede diskrete Verteilung l¨asst sich durch eine Z¨ ahldichte erzeugen, und jede Z¨ ahldichte erzeugt eine diskrete Verteilung: 13.1.3 Lemma. (1) Sei Q : B(Rm ) → [0, 1] eine diskrete Verteilung. Dann ist die Funktion f : Rm → R+ mit f (x) := Q[{x}] eine Z¨ ahldichte und f¨ ur alle B ∈ B(Rm ) gilt X Q[B] = f (x) x∈B m
(2) Sei f : R → R+ eine Z¨ ahldichte. Dann ist die Mengenfunktion Q : B(Rm ) → [0, 1] mit X Q[B] := f (x) x∈B
eine Verteilung und f¨ ur alle x ∈ Rm gilt Q[{x}] = f (x) Die in Abschnitt 12.1 f¨ ur den univariaten Fall gef¨ uhrte Diskussion u ahl¨ ber Z¨ dichten und die absolute Stetigkeit einer diskreten Verteilung bez¨ uglich einem lokalen Z¨ ahlmaß l¨asst sich unmittelbar auf den multivariaten Fall u ¨ bertragen. Die einfachste diskrete multivariate Verteilung ist die Dirac–Verteilung:
296
Kapitel 13. Multivariate Verteilungen
13.1.4 Beispiel (Dirac–Verteilung). F¨ ur z ∈ Rm ist die Funktion f : Rm → R+ mit ½ 1 falls x = z f (x) := 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt Dirac–Verteilung und wird mit δ z bezeichnet. F¨ ur die Verteilung Q := δ z gilt ½ 0 falls z ∈ /B Q[B] = 1 falls z ∈ B und f¨ ur die zugeh¨ orige Verteilungsfunktion F gilt ½ 0 falls x 6≥ z F (x) = 1 falls x ≥ z Die Funktion F wird als Heaviside–Funktion bezeichnet.
Wir betrachten nun einige parametrische Klassen von diskreten multivariaten Verteilungen Q : B(Rm ) → [0, 1] mit Q[Nm 0 ] = 1: 13.1.5 Beispiele (Diskrete Verteilungen). (1) Polyhypergeometrische Verteilung: F¨ ur n, N mit n ≤ N und 10 K ≤ N ist die Funktion f : Rm ! m à ! à 0 Y Ki N − 1 K 0 n − 1 x i=1 xi à ! f (x) := N n 0
∈ N und K ∈ {1, . . . , N−1}m → R+ mit
falls x ∈ Nm 0 und 10 x ≤ n
sonst
eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt polyhypergeometrische Verteilung und wird mit PH(n, N, K) bezeichnet. Modell : Eine Urne enthalte N Kugeln unterschiedlicher Farben, von denen m Farben ausgezeichnet sind und die anderen Farben nicht ausgezeichnet sind. F¨ ur i ∈ {1, . . . , m} bezeichne Ki die Anzahl der Kugeln der ausgezeichneten Farbe i in der Urne und Xi die zuf¨ allige Anzahl von Kugeln dieser Farbe in einer Stichprobe vom Umfang n beim Ziehen ohne Zur¨ ucklegen. F¨ ur den Zufallsvektor X gilt dann PX = PH(n, N, K). Spezialfall : Im Fall m = 1 gilt PH(n, N, K1 ) = H(n, N, K1 ). (2) Multinomial–Verteilung: F¨ ur n ∈ N und ϑ ∈ (0, 1) mit 10 ϑ ≤ 1 ist die Funktion f : Rm → R+ mit m 0 Y n! falls x ∈ Nm 0 Qm (1−10 ϑ)n−1 x ϑxi i 0 und 10 x ≤ n (n−1 x)! i=1 xi ! f (x) := i=1 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt Multinomial–Verteilung und wird mit M(n, ϑ) bezeichnet.
13.1 Verteilungen und Verteilungsfunktionen
297
Modell : Eine Urne enthalte Kugeln unterschiedlicher Farben, von denen m Farben ausgezeichnet sind und die anderen Farben nicht ausgezeichnet sind. F¨ ur i ∈ {1, . . . , m} bezeichne ϑi den Anteil der Kugeln der ausgezeichneten Farbe i in der Urne und Xi die zuf¨ allige Anzahl von Kugeln dieser Farbe i in einer Stichprobe vom Umfang n beim Ziehen mit Zur¨ ucklegen. F¨ ur den Zufallsvektor X gilt dann PX = M(n, ϑ). Spezialfall : Im Fall m = 1 gilt M(n, ϑ1 ) = B(n, ϑ1 ). (3) Poisson–Verteilung: F¨ ur α ∈ Rm mit 0 < α ist die Funktion f : Rm → R+ mit m Y −α αxi e i i falls x ∈ Nm 0 xi ! f (x) := i=1 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt multivariate Poisson–Verteilung und wird mit P(α) bezeichnet. (4) Negativmultinomial–Verteilung: F¨ ur α ∈ (0, ∞) und ϑ ∈ (0, 1) mit 10 ϑ ≤ 1 m ist die Funktion f : R → R+ mit m 0 Y x) Γ(α+1 Qm (1−10 ϑ)α ϑxi i falls x ∈ Nm 0 Γ(α) i=1 xi ! f (x) := i=1 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt Negativmultinomial–Verteilung und wird mit NM(α, ϑ) bezeichnet. Spezialfall : Im Fall m = 1 gilt NM(α, ϑ1 ) = NB(α, ϑ1 ).
Absolutstetige Verteilungen Eine Verteilung Q : B(Rm ) → [0, 1] heißt absolutstetig, wenn sie absolutstetig bez¨ uglich dem m–dimensionalen Lebesgue–Maß λm ist, also Q ¿ λm gilt. Eine messbare Funktion f : Rm → R+ heißt Lebesgue–Dichte, wenn Z f (x) dλm (x) = 1 Rm
gilt. Jede absolutstetige Verteilung l¨asst sich durch eine Lebesgue–Dichte erzeugen, und jede Lebesgue-Dichte erzeugt eine absolutstetige Verteilung: 13.1.6 Lemma. (1) Sei Q : B(Rm ) → [0, 1] eine absolutstetige Verteilung. Dann gibt es eine Lebesgue–Dichte f : Rm → R+ mit Z Q = f (x) dλm (x) und die Lebesgue–Dichte ist λm –fast ¨ uberall eindeutig bestimmt.
298
Kapitel 13. Multivariate Verteilungen
(2) Sei f : Rm → R+ eine Lebesgue–Dichte. Dann ist die Mengenfunktion Q : B(Rm ) → [0, 1] mit Z Q := f (x) dλm (x) eine absolutstetige Verteilung. Wir betrachten nun einige parametrische Klassen von absolutstetigen multivariaten Verteilungen: 13.1.7 Beispiele (Absolutstetige Verteilungen). (1) Uniforme Verteilung: F¨ ur jede Menge C ∈ B(Rm ) mit λm [C] ∈ (0, ∞) ist m die Funktion f : R → R+ mit f (x) :=
1 χC (x) λm [C]
eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt uniforme Verteilung und wird mit U(C) bezeichnet. (2) Dirichlet–Verteilung: F¨ ur η ∈ (0, ∞) und η ∈ Rm mit 0 < η und 10 η < η ist die Funktion f : Rm → R+ mit f (x) :=
m Y Γ(η) 0 η−10 η−1 Q (1−1 x) xηi i −1 χS m (x) m Γ(η−10 η) i=1 Γ(ηi ) i=1
und S m :=
¯ n o ¯ x ∈ (0, ∞)m ¯ 10 x < 1
eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt Dirichlet–Verteilung und wird mit Dir(η, η) bezeichnet. Spezialfall : Im Fall m = 1 gilt Dir(η, η1 ) = Be(η1 , η−η1 ). (3) Normal–Verteilung: F¨ ur jeden Vektor µ ∈ Rm und jede positiv definite symmetrische Matrix Σ ∈ Rm×m ist die Funktion f : Rm → R+ mit f (x) := p
³ 1 ´ exp − (x−µ)0 Σ−1 (x−µ) 2 (2π)m det(Σ) 1
eine Lebesgue–Dichte. Die zugeh¨ orige Verteilung heißt (multivariate) Normal– Verteilung und wird mit N(µ, Σ) bezeichnet. Spezialfall : Die Verteilung N(0, I) wird als (multivariate) Standardnormal–Verteilung bezeichnet. In der Tat: Nach Proposition C.1.3 gibt es eine invertierbare Matrix A ∈ Rm×m mit Σ = AA0 . Wir betrachten nun die affine Abbildung T : Rm → Rm mit T (x) := A−1 (x−µ) p Nach Folgerung 6.3.2 gilt λm det(Σ) λm , und aus der Substitutionsregel T = und dem Satz von Fubini erhalten wir nun
13.1 Verteilungen und Verteilungsfunktionen
299
Z
³ 1 ´ 1 p exp − (x−µ)0 Σ−1 (x−µ) dλm (x) m 2 (2π) det(Σ) Rm Z ³ 1 ´ 1 p = exp − (x−µ)0 (AA0 )−1 (x−µ) dλm (x) 2 (2π)m det(Σ) Rm Z ³ ´ 1 1 p = exp − (A−1 (x−µ))0 A−1 (x−µ) dλm (x) 2 (2π)m det(Σ) Rm Z ³ 1 ´ 1 p = exp − (T (x))0 T (x) dλm (x) m 2 (2π) det(Σ) T −1 (Rm ) Z ³ 1 ´ 1 p = exp − z0 z dλm T (z) 2 (2π)m det(Σ) Rm Z ³ 1 ´p 1 p = exp − z0 z det(Σ) dλm (z) m 2 (2π) det(Σ) Rm Z ³ 1 ´ 1 p = exp − z0 z dλm (z) 2 (2π)m Rm ! ¶ ÃO Z Y m µ m 1 2 1 − z √ e 2 i d = λ (z) 2π Rm i=1 i=1 ¶ Z Z Y m µ 1 2 1 √ e− 2 zi dλ(z1 ) . . . dλ(zm ) = ... 2π R R i=1 m Z Y 2 1 1 √ e− 2 zi dλ(zi ) = 2π i=1 R =1
Aufgaben 13.1.A Beweisen Sie den Korrespondenzsatz 13.1.1. 13.1.B Sei F : R2 → [0, 1] gegeben durch ½ F (x) :=
1 0
falls 10 x ≥ 1 sonst
Dann besitzt F die Eigenschaften (ii) und (iii) einer Verteilungsfunktion, aber F ist nicht rechtecksmonoton. Zeigen Sie ohne Verwendung des Korrespondenzsatzes, dass es keine Verteilung Q : B(R2 ) → [0, 1] gibt mit Q[(−∞, x]] = F (x) f¨ ur alle x ∈ R2 . 13.1.C Verteilungsfunktion auf einem abgeschlossenen Intervall: Eine Funktion F : [a, b] → [0, 1] heißt Verteilungsfunktion auf [a, b], wenn sie die folgenden Eigenschaften besitzt: (i) F ist rechtecksmonoton. (ii) F ist stetig von oben. (iii) F¨ ur alle x1 ∈ [a1 , b1 ] und x2 ∈ [a2 , b2 ] gilt F (a1 , x2 ) = 0 = F (x1 , a2 ) und es gilt limx→b F (x) = 1. Formulieren und beweisen Sie ein Analogon des Korrespondenzsatzes.
300
Kapitel 13. Multivariate Verteilungen
13.1.D Copulas: Eine Funktion C : [0, 1]2 → [0, 1] heißt Copula, wenn sie die folgenden Eigenschaften besitzt: (i) C ist rechtecksmonoton. (ii) F¨ ur alle u1 , u2 ∈ [0, 1] gilt C(u1 , 0) = 0 = C(0, u2 ) sowie C(u1 , 1) = u1 und C(1, u2 ) = u2 . Beweisen Sie die folgenden Aussagen: (1) Ist C : [0, 1]2 → [0, 1] eine Copula, so gilt f¨ ur alle u, v ∈ [0, 1]2 |C(v) − C(u)| ≤ |v1 −u1 | + |v2 −u2 | (2) Jede Copula ist eine Verteilungsfunktion. (3) Sind F1 , F2 : R → [0, 1] Verteilungsfunktionen und ist C : [0, 1]2 → [0, 1] eine Copula, so ist die Funktion F : R2 → [0, 1] mit F (x) := C(F1 (x1 ), F2 (x2 )) eine Verteilungsfunktion. (4) Fr´ echet–Schranken: Jede der Funktionen M, W : [0, 1]2 → [0, 1] mit W (u) := max{u1 +u2 −1, 0} M (u) := min{u1 , u2 } ist eine Copula und f¨ ur jede Copula C : [0, 1]2 → [0, 1] gilt W ≤ C ≤ M . Die Copulas W und M heißen Fr´echet–Schranken. (5) Die Funktion Π : [0, 1]2 → [0, 1] mit Π(u) := u1 u2 ist eine Copula. (6) Sei X : Ω → R2 ein Zufallsvektor, sei FX die Verteilungsfunktion zu PX und seien FX1 und FX2 die Verteilungsfunktionen zu PX1 und PX2 . Dann sind ¨ aquivalent: (a) X besitzt unabh¨ angige Koordinaten. (b) F¨ ur alle x ∈ R2 gilt FX (x) = Π(FX1 (x1 ), FX2 (x2 )). 13.1.E P´ olya/Eggenberger–Verteilung: F¨ ur n ∈ N sowie η ∈ (0, ∞) und η ∈ Rm mit 0 < η und 10 η ≤ η ist die Funktion f : Rm → R+ mit ! m à ! à 0 0 Y ηi + xi − 1 η − 1 η + n − 1 x − 1 n − 10 x xi falls x ∈ Nm i=1 0 à ! und 10 x ≤ n f (x) := η+n−1 n 0 sonst eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt P´ olya/Eggenberger–Verteilung und wird mit PE(n, η, η) bezeichnet. Spezialfall : Im Fall m = 1 gilt PE(n, η, η1 ) = P´ olya(n, η1 , η−η1 ). 13.1.F Gemischte Multinomial–Verteilung: F¨ ur n ∈ N und jede Verteilung Q : B(Rm ) → [0, 1] mit Q[{ϑ ∈ (0, 1)m | 10 ϑ ≤ 1}] = 1 ist die Funktion f : Rm → R+ mit
13.2 Transformationen von Verteilungen
301
Z f (x) :=
0
m Y n! falls x ∈ Nm 0 n−10 x 0 Q (1−1 ϑ) ϑxi i dQ(ϑ) m 0 x)! und 10 x ≤ n (n−1 x ! m R i=1 i i=1
sonst
eine Z¨ ahldichte. Die zugeh¨ orige Verteilung heißt gemischte Multinomial– Verteilung. Untersuchen Sie den Fall Q = Dir(η, η). 13.1.G Absolutstetige Verteilungen: Sei Q : B(Rm ) → [0, 1] eine absolutstetige Verteilung. Sind f, g : Rm → R+ stetige Funktionen mit Z Z f dλm = Q = g dλm so gilt f = g.
13.2 Transformationen von Verteilungen Wie im univariaten Fall sind auch im multivariaten Fall Transformationen von absolutstetigen Maßen B(Rm ) → [0, ∞] von gr¨ oßter Bedeutung, und zwar – f¨ ur den Nachweis, dass eine messbare Funktion f : Rm → R+ eine Lebesgue–Dichte einer Verteilung ist, – f¨ ur den Nachweis der Existenz und Endlichkeit von Momenten einer Verteilung, und – f¨ ur die Berechnung von Momenten einer Verteilung. Der Fall eines Maßes ν mit ν ¿ ζ C f¨ ur eine abz¨ ahlbare nichtleere Menge C ∈ B(R)m ist elementar zu behandeln; vgl. Satz 12.2.2. F¨ ur ein Maß ν : B(Rm ) → [0, ∞] mit ν ¿ λm erh¨ alt man die folgende Verallgemeinerung von Satz 12.2.3: 13.2.1 Satz. Sei f : Rm → R+ messbar und Z ν := f (x) dλm (x) Sei ferner T : Rm → Rm gegeben durch T (x) := c + Dx mit c ∈ Rm und D ∈ Rm×m invertierbar. Dann gilt Z 1 νT = f (D−1 (z−c)) dλm (z) | det(D)| Insbesondere gilt ν[Rm ] = νT [Rm ]. Wir geben nun ein Beispiel f¨ ur die Transformation der Verteilung eines Zufallsvektors:
302
Kapitel 13. Multivariate Verteilungen
13.2.2 Beispiel (Normal–Verteilung). Sei PX := N(µ, Σ). Dann gilt f¨ ur alle c ∈ Rm und jede invertierbare Matrix D ∈ Rm×m Pc+DX = N(c+Dµ, DΣD0 ) In der Tat: Es gilt Z ³ 1 ´ 1 p PX = exp − (x−µ)0 Σ−1 (x−µ) dλm (x) 2 (2π)m det(Σ) Wir betrachten die affine Abbildung T : Rm → Rm mit T (x) := c + Dx. Dann gilt Pc+DX = PT ◦X = (PX )T und aus Satz 13.2.1 ergibt sich nun Pc+DX = (PX )T Z 1 p = (2π)m det(Σ) ³ 1³ ´0 ³ ´´ 1 · exp − D−1 (z−c) − µ Σ−1 D−1 (z−c) − µ dλm (z) 2 | det(D)| Z 1 p = (2π)m det(DΣD0 ) ³ 1³ ´0 ³ ´´ · exp − z − (c+Dµ) (D−1 )0 Σ−1 D−1 z − (c+Dµ) dλm (z) 2 Z 1 p = (2π)m det(DΣD0 ) ³ 1³ ´0 ³ ´´ · exp − z − (c+Dµ) (DΣD0 )−1 z − (c+Dµ) dλm (z) 2 = N(c+Dµ, DΣD0 )
Aufgabe 13.2.A Ordnungsstatistiken: F¨ ur k ∈ N(2) und x ∈ Rk bezeichne xk−1 den um die letzte Koordinate verk¨ urzten Vektor x. (1) F¨ ur alle k ∈ N(2) und j ∈ {1, . . . , k −1} ist die Abbildung hk,j : Rk → Rk mit hk,j (x) := (x1 , . . . , xj−1 , xj ∧xj+1 , xj ∨xj+1 , xj+2 , . . . , xk )0 stetig. (2) F¨ ur alle k ∈ N ist die Abbildung Tk : Rk → Rk mit x 1 µ ¶ Tk (x) := Tk−1 (xk−1 ) hk,1 ◦ · · · ◦ hk,k−1 xk
falls k = 1 sonst
stetig und f¨ ur jedes x ∈ Rk ist die Folge der Koordinaten von Tk (x) monoton wachsend. (3) F¨ ur alle m ∈ N und f¨ ur jeden Zufallsvektor X : Ω → Rm ist Tm ◦ X messbar. F¨ ur einen Zufallsvektor X : Ω → Rm werden die Koordinaten von Tm ◦ X als Ordnungsstatistiken und mit Xm:1 , . . . , Xm:m bezeichnet.
13.3 Randverteilungen
303
13.3 Randverteilungen Im gesamten Abschnitt sei m ≥ 2 und J ⊆ {1, . . . , m} eine Menge mit 1 ≤ |J| ≤ m − 1. Wir identifizieren wieder den Messraum (Rm , B(Rm )) mit dem Produkt (RJ , B(RJ )) ⊗ (R{1,...,m}\J , B(R{1,...,m}\J )) und jede Funktion Rm → R mit einer Funktion RJ × R{1,...,m}\J → R. Sei zun¨ achst X : Ω → Rm ein Zufallsvektor. Dann ist neben der Verteilung PX : B(Rm ) → [0, 1] von X auch die Verteilung (PX )πJ : B(RJ ) → [0, 1] des reduzierten Zufallsvektors πJ ◦ X von Interesse; die Verteilung (PX )πJ heißt die Randverteilung von X bez¨ uglich J. F¨ ur i ∈ {1, . . . , m} ist die eindimensionale Randverteilung (PX )πi gerade die Verteilung PXi der i–ten Koordinate Xi = πi ◦X von X. Die eindimensionalen Randverteilungen von X sind von besonderem Interesse, denn nach angige Nm Satz 11.3.5 besitzt X genau dann unabh¨ Koordinaten, wenn PX = i=1 PXi gilt. Allgemein ist f¨ ur eine Verteilung Q : B(Rm ) → [0, 1] das Bildmaß QπJ von Q unter der Projektion πJ : Rm → RJ eine Verteilung B(RJ ) → [0, 1]; die Verteilung QπJ heißt die Randverteilung von Q bez¨ uglich J. Wir untersuchen die Berechnung von Randverteilungen und zeigen, dass gewisse parametrische ¨ Klassen von Verteilungen unter dem Ubergang zu beliebigen Randverteilungen stabil sind. F¨ ur eine Verteilung Q : B(Rm ) → [0, 1], die absolutstetig bez¨ uglich einem Produktmaß auf B(RJ ) ⊗ B(R{1,...,m}\J ) ist, l¨ asst sich die Randverteilung QπJ mit Hilfe des folgenden Satzes bestimmen: 13.3.1 Satz. Sei Q : B(Rm ) → [0, 1] eine Verteilung mit Q ¿ µ ⊗ ν f¨ ur σ–endliche Maße µ : B(RJ ) → [0, ∞] und ν : B(R{1,...,m}\J ) → [0, ∞] und sei f : RJ × R{1,...,m}\J → R+ eine messbare Funktion mit Z Q = f (y, z) d(µ ⊗ ν)(y, z) Dann gilt
Z µZ Qπ J =
¶ f (y, z) dν(z) dµ(y)
R{1,...,m}\J
J Insbesondere R ist QπJ µ–stetig und es gibt eineJ messbare Funktion g : R → R+ mit QπJ = g(y) dµ(y), und f¨ ur alle y ∈ R mit g(y) 6= 0 gibt es eine messbare Funktion hy : R{1,...,m}\J → R+ mit
f (y, z) = g(y) hy (z) und
R R{1,...,m}\J
hy (z) dν(z) = 1.
304
Kapitel 13. Multivariate Verteilungen
Beweis. F¨ ur alle B ∈ B(RJ ) gilt nach dem Satz von Fubini QπJ [B] = Q[πJ−1 (B)] = Q[B × R{1,...,m}\J ] Z = f (y, z) d(µ ⊗ ν)(y, z) B×R{1,...,m}\J µZ ¶ Z = f (y, z) dν(z) dµ(y) B
R{1,...,m}\J
Damit ist die erste Gleichung gezeigt und es ist dann klar, dass QπJ µ–stetig ist. Sei nun g : RJ → R+ gegeben durch Z g(y) := f (y, z) dν(z) R{1,...,m}\J
R Dann ist g messbar mit QπJ = g(y) dµ(y). F¨ ur y ∈ RJ mit g(y) 6= 0 sei {1,...,m}\J hy : R → R+ gegeben durch hy (z) := f (y, z)/g(y) Dann ist hy messbar und es gilt f (y, z) = g(y) hy (z) und
R R{1,...,m}\J
hy (z) dν(z) = 1.
2
Nach Konstruktion des Produktmaßes sind die Voraussetzungen des Satzes m insbesondere f¨ ur jede Verteilung Q mit Q ¿ ζ m erf¨ ullt, und N0 oder Q ¿ λ f¨ ur jede Verteilung, die den Voraussetzungen des Satzes gen¨ ugt, berechnet man eine Randverteilung am einfachsten dadurch, dass man durch Umformung die Faktorisierung f (y, z) = g(y) hy (z) der Dichte f von Q bestimmt. Eine weitere Vereinfachung bei der Berechnung von Randverteilungen ergibt sich f¨ ur alle Verteilungen, die einer permutationsinvarianten parametrischen Klasse von Verteilungen angeh¨oren: Ist π : {1, . . . , m} → {1, . . . , m} eine Permutation, so ist die Abbildung Tπ : Rm → Rm mit Tπ (ei ) := eπ(i) eine Bijektion und damit messbar. Eine parametrische Klasse Q von Verteilungen B(Rm ) → [0, 1] heißt permutationsinvariant, wenn sie f¨ ur jede Verteilung Q ∈ Q und jede Permutation π : {1, . . . , m} → {1, . . . , m} auch die Verteilung QTπ enth¨ alt. F¨ ur eine Verteilung Q : B(Rm ) → [0, 1] in einer permutationsinvarianten parametrischen Klasse von Verteilungen gen¨ ugt es daher, f¨ ur alle k ∈ {1, . . . , m−1} die Randverteilung Qπ{1,...,k} zu bestimmen.
13.3 Randverteilungen
305
13.3.2 Beispiele (Diskrete Verteilungen). (1) Polyhypergeometrische Verteilung: Die Klasse der m–dimensionalen polyhypergeometrischen Verteilungen ist permutationsinvariant. F¨ ur Q = PH(n, N, K) gilt f¨ ur alle J ∈ H({1, . . . , m}) QπJ = PH(n, N, πJ (K)) Insbesondere gilt f¨ ur alle i ∈ {1, . . . , m} Qπi = H(n, N, Ki ) (2) Multinomial–Verteilung: Die Klasse der m–dimensionalen Multinomial– Verteilungen ist permutationsinvariant. F¨ ur Q = M(n, ϑ) gilt f¨ ur alle J ∈ H({1, . . . , m}) QπJ = M(n, πJ (ϑ)) Insbesondere gilt f¨ ur alle i ∈ {1, . . . , m} Qπi = B(n, ϑi ) P In der Tat: F¨ ur alle x1 , . . . , xm−1 ∈ N0 mit m−1 i=1 xi ≤ n gilt Qπ{1,...,m−1} [{(x1 , . . . , xm−1 )}] n−
= n−
=
Pm−1 i=1 X
xm =0 Pm−1 i=1 X
xi
Q[{(x1 , . . . , xm−1 , xm )}] Ã
xi
n! P Qm (n− m x i=1 i )! i=1 xi !
xm =0
à =
(n−
Pm−1
i=1 P n− m−1 i=1 xi
·
X
xm =0
n! Q xi )! m−1 i=1 xi !
1−
m−1 X
1−
m X
!n−Pm i=1 xi ϑi
i=1
ϑi
i=1
m Y
ϑxi i
i=1
!n−Pm−1 xi m−1 i=1 Y
ϑxi i
i=1
à !xmà !n−Pm P P i=1 xi (n− m−1 xi )! 1− m ϑi ϑm i=1 i=1 Pm Pm−1 Pm−1 xm ! (n− i=1 xi )! 1 − i=1 ϑi 1 − i=1 ϑi Ã
n! = P Qm−1 (n− m−1 x i )! i=1 i=1 xi !
1−
m−1 X i=1
ϑi
!n−Pm−1 xi m−1 i=1 Y
ϑxi i
i=1
Dabei ergibt sich die letzte Gleichung daraus, dass die Summation u ¨ber die Einzelwahrscheinlichkeiten der Binomial–Verteilung à ! m−1 X ϑm B n− xi , P 1− m−1 i=1 ϑi i=1 den Wert 1 ergibt. Damit ist die Behauptung f¨ ur den Fall J = {1, . . . , m−1} bewiesen.
306
Kapitel 13. Multivariate Verteilungen
(3) Poisson–Verteilung: Die Klasse der m–dimensionalen Poisson–Verteilungen ist permutationsinvariant. F¨ ur Q = P(α) gilt f¨ ur alle J ∈ H({1, . . . , m}) QπJ = P(πJ (α)) Insbesondere gilt f¨ ur alle i ∈ {1, . . . , m} Qπi = P(αi ) (4) Negativmultinomial–Verteilung: Die Klasse der m–dimensionalen Negativmultinomial–Verteilungen ist permutationsinvariant. F¨ ur Q = NM(α, ϑ) gilt f¨ ur alle J ∈ H({1, . . . , m}) Ã QπJ
!
1 = NM α, P πJ (ϑ) 0 j∈J ϑj + 1 − 1 ϑ
Insbesondere gilt f¨ ur alle i ∈ {1, . . . , m} µ Qπi = NB α,
ϑi ϑi + 1 − 10 ϑ
¶
Im Fall der polyhypergeometrischen Verteilung und im Fall der Multinomial– Verteilung l¨ asst sich das Ergebnis mit Hilfe der Urnenmodelle veranschaulichen: In ¨ beiden F¨ allen sind urspr¨ unglich m Farben ausgezeichnet und der Ubergang zu einer k–dimensionalen Randverteilung entspricht einer Vergr¨ oberung der Betrachtungsweise, die darin besteht, dass von den urspr¨ unglichen m ausgezeichneten Farben nur noch k Farben als ausgezeichnet angesehen werden. 13.3.3 Beispiele (Absolutstetige Verteilungen). (1) Uniforme Verteilung: Die Klasse der m–dimensionalen uniformen Verteilungen ist permutationsinvariant. F¨ ur Q = U(C) mit C :=
¯¡ n o ¢2 ¡ ¢2 ¯ x ∈ R2 ¯ x1 − 12 + x2 − 12 < 14
gilt f¨ ur alle i ∈ {1, 2} Qπi = Be In der Tat: Es gilt
Z Q=
und aus Satz 13.3.1 folgt
Z µZ
Qπ1 = R
¡3 2
,
3 2
¢
4 χC (x) dλ2 (x) π
¶ 4 χC (x1 , x2 ) dλ(x2 ) dλ(x1 ) π
Um das innere Integral ausrechnen zu k¨ onnen, setzen wir f¨ ur alle x1 ∈ (0, 1)
13.3 Randverteilungen
307 ³
C(x1 ) :=
1 2
−
´ p p x1 (1−x1 ), 12 + x1 (1−x1 )
Dann gilt χC (x1 , x2 ) = χ(0,1) (x1 ) χC(x1 ) (x2 ) und man erh¨ alt ¶ Z µZ Qπ1 ∼ χC (x1 , x2 ) dλ(x2 ) dλ(x1 ) R ¶ Z µZ = χ(0,1) (x1 ) χC(x1 ) (x2 ) dλ(x2 ) dλ(x1 ) R ¶ Z µZ = χC(x1 ) (x2 ) dλ(x2 ) χ(0,1) (x1 ) dλ(x1 ) R Z = λ[C(x1 )] χ(0,1) (x1 ) dλ(x1 ) Z p = 2 x1 (1−x1 ) χ(0,1) (x1 ) dλ(x1 ) Z 3 3 −1 ∼ x12 (1−x1 ) 2 −1 χ(0,1) (x1 ) dλ(x1 ) und damit Qπ1 = Be( 32 , 32 ). (2) Dirichlet–Verteilung: Die Klasse der m–dimensionalen Dirichlet–Verteilungen ist permutationsinvariant. F¨ ur Q = Dir(η, η) gilt f¨ ur alle J ∈ H({1, . . . , m}) QπJ = Dir(η, πJ (η)) Insbesondere gilt f¨ ur alle i ∈ {1, . . . , m} Qπi = Be(ηi , η−ηi ) (3) Normal–Verteilung: Die Klasse der m–dimensionalen Normal–Verteilungen ist permutationsinvariant. F¨ ur Q = N(µ, Σ) gilt f¨ ur alle J ∈ H({1, . . . , m}) QπJ = N(µJ , ΣJ ) mit µJ := πJ (µ) und ΣJ := {σij }i,j∈J . Insbesondere gilt f¨ ur alle i ∈ {1, . . . , m} Qπi = N(µi , σii ) In der Tat: Es gilt Z ³ 1 ´ 1 p Q= exp − (x−µ)0 Σ−1 (x−µ) dλm (x) m 2 (2π) det(Σ) Z ³ 1 ´ ∼ exp − (x−µ)0 Σ−1 (x−µ) dλm (x) 2 Wir betrachten k ∈ {1, . . . , m−1} und schreiben µ als Blockvektor
308
Kapitel 13. Multivariate Verteilungen µ µ=
µ1 µ2
¶
mit µ1 := {µi }i∈{1,...,k} und Σ als Blockmatrix µ ¶ Σ11 Σ12 Σ= Σ21 Σ22 mit Σ11 := {σij }i,j∈{1,...,k} . Dann sind Σ11 und Σ22 symmetrisch und positiv definit, und damit ist auch die Matrix U := Σ22 − Σ21 Σ−1 11 Σ12 symmetrisch und positiv definit. Es gilt µ ¶0 µ −1 ¶µ ¶ I O I O Σ11 O Σ−1 = −Σ21 Σ−1 O U−1 −Σ21 Σ−1 11 I 11 I Wir schreiben nun auch jeden Vektor x ∈ Rm als Blockvektor µ ¶ x1 x= x2 mit x1 := {xi }i∈{1,...,k} und setzen ν(x1 ) := µ2 + Σ21 Σ−1 11 (x1 −µ1 ). Dann gilt (x − µ)0 Σ−1 (x − µ) µ ¶0µ ¶0µ ¶µ ¶µ ¶ I O Σ−1 I O x1 −µ1 x1 −µ1 O 11 = −1 −1 −1 x2 −µ2 −Σ21 Σ11 I O U −Σ21 Σ11 I x2 −µ2 µ ¶0µ −1 ¶µ ¶ x1 − µ1 Σ11 O x1 − µ1 = x2 − ν(x1 ) O U−1 x2 − ν(x1 ) 0 −1 = (x1 −µ1 )0 Σ−1 (x2 −ν(x1 )) 11 (x1 −µ1 ) + (x2 −ν(x1 )) U
und damit ³ 1 ´ exp − (x−µ)0 Σ−1 (x−µ) 2 ³ 1 ´ ³ 1 ´ 0 −1 = exp − (x1 −µ1 )0 Σ−1 (x2 −ν(x1 )) 11 (x1 −µ1 ) · exp − (x2 −ν(x1 )) U 2 2 Aufgrund der Translationsinvarianz des Lebesgue–Maßes ist das Integral Z ³ 1 ´ exp − (x2 −ν(x1 ))0 U−1 (x2 −ν(x1 )) dλm−k (x2 ) 2 Rm−k unabh¨ angig von ν(x1 ) und damit unabh¨ angig von x1 , und wegen Z ³ 1 ´ N(ν(x1 ), U) ∼ exp − (x2 −ν(x1 ))0 U−1 (x2 −ν(x1 )) dλm−k (x2 ) 2 Rm−k ergibt sich nun aus Satz 13.3.1 Z ³ 1 ´ k Qπ{1,...,k} ∼ exp − (x1 −µ1 )0 Σ−1 11 (x1 −µ1 ) dλ (x1 ) 2 und damit Qπ{1,...,k} = N(µ1 , Σ11 ).
13.4 Unabh¨ angigkeit
309
Aufgaben 13.3.A Sei Q : B(Rm ) → [0, 1] eine Verteilung und sei F die zugeh¨ orige Verteilungsfunktion. Dann gilt f¨ ur die Verteilungsfunktion FπJ zu QπJ ³ ´ −1 FπJ (y) = lim F πJ−1 (y) ∩ π{1,...,m}\J (n1{1,...,m}\J ) n→∞
13.3.B Multinomial–Verteilung: Sei n ∈ N und sei {ϑi }i∈N ⊆ (0, ∞) eine Folge P mit ∞ i=1 ϑi = 1. Dann ist die Familie {M(n, {ϑi }i∈K )}K∈H(N) projektiv. 13.3.C P´ olya/Eggenberger–Verteilung:P Sei n ∈ N und η ∈ (0, ∞) und sei ∞ {ηi }i∈N ⊆ (0, ∞) eine Folge mit i=1 ηi = η. Dann ist die Familie {PE(n, η, {ηi }i∈K )}K∈H(N) projektiv. 13.3.D Dirichlet–Verteilung: Sei η ∈ (0, ∞) und sei {ηi }i∈N ⊆ (0, ∞) eine Folge P mit ∞ i=1 ηi = η. Dann ist die Familie {Dir(η, {ηi }i∈K )}K∈H(N) projektiv.
13.4 Unabh¨ angigkeit Sei zun¨ achst X : Ω → Rm ein Zufallsvektor. Nach Satz 11.3.5 besitzt X genau dann unabh¨ angige Koordinaten X1 , . . . , Xm , wenn PX =
m O
PX i
i=1
gilt. Wegen Xi = πi ◦ X l¨asst sich diese Bedingung auch in der Form PX =
m O
(PX )πi
i=1
schreiben. Daher besitzt ein Zufallsvektor genau dann unabh¨ angige Koordinaten, wenn seine Verteilung gleich dem Produkt seiner eindimensionalen Randverteilungen ist. Wir untersuchen nun die Frage, unter welchen Bedingungen eine Verteilung Q : B(Rm ) → [0, 1] mit dem Produkt ihrer eindimensionalen Randverteilungen Qπi : B(R) → [0, 1] u ¨bereinstimmt. Als erstes charakterisieren wir die G¨ ultigkeit der Gleichung Q=
m O
Qπ i
i=1
durch eine analoge Gleichung f¨ ur die zugeh¨origen Verteilungsfunktionen: 13.4.1 Satz. Sei Q : B(Rm ) → [0, 1] eine Verteilung. Sei ferner F die Verteilungsfunktion zu Q und f¨ ur i ∈ {1, . . . , m} sei Fπi die Verteilungsfunktion zu Qπi . Dann sind a quivalent: ¨ Nm (a) Es gilt Q = i=1 Qπi . Qm (b) F¨ ur alle x ∈ Rm gilt F (x) = i=1 Fπi (xi ).
310
Kapitel 13. Multivariate Verteilungen
Beweis. F¨ ur alle x ∈ Rm gilt F (x) = Q[(−∞, x]] und m Y
Fπi (xi ) =
i=1
= =
m Y
Qπi [(−∞, xi ]] i=1 Ãm !" m O Y Qπi
i=1 Ãm O
#
(−∞, xi ]
!
i=1
Qπi [(−∞, x]]
i=1
Nm Qm Im Fall Q = i=1 Qπi gilt daher F (x) = i=1 Fπi (xi ) f¨ ur alle x ∈ Rm , und die umgekehrte Implikation folgt aus dem Eindeutigkeitssatz. 2 Da Verteilungsfunktionen nur in seltenen F¨allen explizit angegeben werden k¨ onnen, ist der letzte Satz nur von theoretischem Interesse. F¨ ur Anwendungen wichtig ist hingegen der folgende Satz u ¨ber Verteilungen, die absolutstetig bez¨ uglich einem Produktmaß sind; vgl. Aufgabe 13.4.A: 13.4.2 Satz. Sei Q : B(Rm ) → [0, 1] eine Verteilung mit Q ¿ µm f¨ ur ein σ–endliches Maß µ : B(R) → [0, ∞]. Sei ferner f eine µm –Dichte von Q und f¨ ur i ∈ {1, . . . , m}Nsei fπi eine µ–Dichte von Qπi . Dann sind ¨ aquivalent: m (a) Es gilt Q = i=1 Q . π i Qm (b) Es gilt f (x) = i=1 fπi (xi ) µm –fast u ¨berall. Beweis. F¨ ur alle B1 , . . . , Bm ∈ B(R) gilt "m # Z Y Q Bi = Q m i=1
i=1
f (x) dµm (x)
Bi
und nach dem Satz von Fubini gilt à m !" m # m O Y Y Qπi Bi = Qπi [Bi ] i=1
i=1
=
i=1 m Z Y Bi
i=1
fπi (xi ) dµ(xi )
Z =
Qm
i=1 Bi
Ã
m Y
! fπi (xi ) dµm (x)
i=1
Nach dem Eindeutigkeitssatz ist die Bedingung Q = mit
Nm i=1
Qπi gleichwertig
13.4 Unabh¨ angigkeit
311
Z m
f (x) dµ (x) =
Z ÃY m
! fπi (xi ) dµm (x)
i=1
und nach Satz von Radon/Nikodym ist diese Bedingung gleichwertig mit Qdem m f (x) = i=1 fπi (xi ) fast u 2 ¨berall. 13.4.3 Beispiele (Diskrete Verteilungen). (1) Polyhypergeometrische Verteilung: F¨ ur Q = PH(n, N, K) Nm
gilt Q 6= i=1 Qπi . (2) Multinomial–Verteilung: F¨ ur Q = M(n, ϑ) Nm
gilt Q 6= i=1 Qπi . (3) Poisson–Verteilung: F¨ ur Q = P(α) N gilt Q = m i=1 Qπi . (4) Negativmultinomial–Verteilung: F¨ ur Q = NM(α, ϑ) gilt Q 6=
Nm i=1
Qπi .
13.4.4 Beispiele (Absolutstetige Verteilungen). (1) Uniforme Verteilung: F¨ ur Q = U(C) gilt Q =
Nm i=1
Qπi genau dann, wenn es C1 , . . . , Cm ∈ B(R) gibt mit · ¸ m Y λm C4 Ci = 0 i=1
Nm In der Tat: Wir nehmen zun¨ achst an, dass ur i ∈ {1, . . . , m} R Q = i=1 Qπi gilt. F¨ sei fπi : R → R+ messbar mit Qπi = fπi dλ und Ci := {fπi > 0}. Dann gilt nach Satz 13.4.2 m Y 1 χ (x) = fπi (xi ) C λm [C] i=1
Qm λm –fast u ¨berall, und daraus folgt λm [C4 i=1 Ci ] = 0. Q Wir nehmen nun an, dass es C1 , . . . , Cm ∈ B(R) gibt mit λm [C4 m i=1 Ci ] = 0. Dann gilt m Y 1 1 χ (x) = χCi (xi ) C λm [C] λ[C i] i=1
312
Kapitel 13. Multivariate Verteilungen λm –fast u ur alle B1 , . . . , Bm ∈ B(R) ¨ berall, und aus dem Satz von Fubini folgt f¨ "m # Z Y 1 Q Bi = Q χC (x) dλm (x) m m B λ [C] i=1 i=1 i Ãm ! Z Y 1 = Q χCi (xi ) dλm (x) λ[Ci ] m B i=1 i=1 i Z m Y 1 = χCi (xi ) dλ(xi ) λ[C i] i=1 Bi Daraus ergibt sich zun¨ achst Z Qπi [Bi ] =
Bi
1 χCi (xi ) dλ(xi ) λ[Ci ]
f¨ ur alle i ∈ {1, . . . , m}, und sodann "m # m Z Y Y Q Bi = i=1
=
i=1 m Y
Bi
1 χCi (xi ) dλ(xi ) λ[Ci ]
Qπi [Bi ]
i=1
à =
m O
!" Qπ i
i=1
Aus dem Eindeutigkeitssatz folgt nun Q = (2) Dirichlet–Verteilung: F¨ ur
m Y
# Bi
i=1
Nm i=1
Qπi .
Q = Dir(η, η) N gilt Q 6= m i=1 Qπi . (3) Normal–Verteilung: F¨ ur Q = N(µ, Σ) N gilt Q = m ist. i=1 Qπi genau dann, wenn Σ eine Diagonalmatrix N In der Tat: Wir nehmen zun¨ achst an, dass Q = m Q gilt. Nach Satz 13.4.2 π i i=1 gilt dann µ ¶ Y µ ¶ m 1 1 1 1 (xi −µi )2 p √ exp − (x−µ)0 Σ−1 (x−µ) = exp − 2 2 σii 2πσii (2π)m det(Σ) i=1 λm –fast u ur ¨ berall, und da beide Seiten stetig sind, gilt die Gleichung sogar f¨ alle x ∈ Rm . Mit x = µ erhalten wir zun¨ achst m Y 1 1 p √ = m 2πσ (2π) det(Σ) ii i=1
und sodann f¨ ur alle x ∈ Rm
13.5 Verteilungen von Summen von Zufallsvariablen
313
µ ¶ Y µ ¶ m 1 1 (xi − µi )2 exp − (x − µ)0 Σ−1 (x − µ) = exp − 2 2 σii i=1 Ã ! m 1 X (xi − µi )2 = exp − 2 i=1 σii F¨ ur die Diagonalmatrix U mit ( uij :=
σii
falls i = j
0
sonst
gilt daher µ ¶ µ ¶ 1 1 exp − (x − µ)0 Σ−1 (x − µ) = exp − (x − µ)0 U−1 (x − µ) 2 2 und damit (x − µ)0 Σ−1 (x − µ) = (x − µ)0 U−1 (x − µ) Daraus folgt Σ−1 = U−1 und damit Σ = U. Die umgekehrte Implikation ist klar.
Aufgaben Nm 13.4.A Sei Q : B(Rm ) → [0, 1] eine Verteilung mit Q ¿ N ur σ–endliche i=1 µi f¨ Maße µ1 , . . . , µm : B(R) → [0, ∞]. Sei ferner f eine ( m µ i=1 i )–Dichte von Q und f¨ ur i ∈ {1, . . . , m} sei fπi eine µi –Dichte von Qπi . Dann sind ¨ aquivalent: N (a) Es gilt Q = m i=1 Q Qπi . Nm (b) Es gilt f (x) = m ¨ berall. i=1 fπi (xi ) ( i=1 µi )–fast u 13.4.B Sind X und Y unabh¨ angige Zufallsvariable, so gilt f¨ ur alle z ∈ R P [{X ∨ Y ≤ z}] = P [{X ≤ z}] P [{Y ≤ z}] P [{X ∧ Y > z}] = P [{X > z}] P [{Y > z}] 13.4.C Bestimmen Sie f¨ ur unabh¨ angige exponential–verteilte Zufallsvariable X, Y die Verteilung von X ∧ Y .
13.5 Verteilungen von Summen von Zufallsvariablen In diesem Abschnitt untersuchen wir f¨ ur reelle Zufallsvariable X1 , . . . , Xm die Pm Verteilung ihrer Summe i=1 Xi . Zu diesem Zweck fassen wir die reellen Zufallsvariablen X1 , . . . , Xm als Koordinaten eines Zufallsvektors X : Ω → Rm auf. Wegen m X i=1
Xi = 10 X
314
Kapitel 13. Multivariate Verteilungen
geht die Verteilung der Summe u ¨ber die lineare Abbildung T : Rm → R mit 0 T (x) := 1 x aus der Verteilung von X hervor, denn es gilt PP m = P10 X = PT ◦X = (PX )T i=1 Xi Wir untersuchen die Berechnung der Verteilung der Summe von m¨ oglicherweise abh¨ angigen reellen Zufallsvariablen und zeigen, dass gewisse Klassen von univariaten Verteilungen unter der Summation von unabh¨ angigen reellen Zufallsvariablen stabil sind. Wir betrachten zun¨achst den Fall, in dem X eine diskrete Verteilung besitzt. In diesem Fall erh¨alt man die Verteilung von 10 X sofort aus der multivariaten Version von Satz 12.2.2: 13.5.1 Satz. Sei X : Ω → Rm ein Zufallsvektor mit einer diskreten Verteilung und sei C ⊆ Rm abz¨ ahlbar mit PX [C] = 1. Dann gilt f¨ ur alle B ∈ B(R) Ã ! X X P10 X [B] = P [{X = x}] x∈B
x∈C, 10 x=x
Insbesondere ist P10 X diskret. Wir geben einige Beispiele f¨ ur die Anwendung des Satzes: 13.5.2 Beispiele (Diskrete Verteilungen). (1) Polyhypergeometrische Verteilung: Im Fall PX = PH(n, N, K) gilt P10 X = H(n, N, 10 K) (2) Multinomial–Verteilung: Im Fall PX = M(n, ϑ) gilt P10 X = B(n, 10 ϑ) (3) Poisson–Verteilung: Im Fall PX = P(α) gilt P10 X = P(10 α) (4) Negativmultinomial–Verteilung: Im Fall PX = NM(α, ϑ) gilt ¡ ¢ P10 X = NB α, 10 ϑ
Im Fall eines Zufallsvektors mit unabh¨angigen Koordinaten vereinfacht sich die Darstellung der Verteilung der Summe wie folgt: 13.5.3 Folgerung. Sei X : Ω → Rm ein Zufallsvektor mit einer diskreten Verteilung und sei C ⊆ Rm abz¨ ahlbar mit PX [C] = 1. Besitzt X unabh¨ angige Koordinaten, so gilt f¨ ur alle B ∈ B(R) Ã ! m X X Y P10 X [B] = P [{Xi = xi }] x∈B
x∈C, 10 x=x i=1
13.5 Verteilungen von Summen von Zufallsvariablen
315
Als wichtigen Spezialfall des letzten Ergebnisses notieren wir die folgende Faltungsformel: 13.5.4 Folgerung (Faltungsformel). Seien X und Y unabh¨angige reelle Zufallsvariable mit einer diskreten Verteilung. Dann gilt X P [{X +Y = z}] = P [{X = x}] P [{Y = z−x}] x∈R, P [{X=x}]>0
Die Faltungsformel bleibt nat¨ urlich richtig, wenn man auf der rechten Seite der Gleichung die Rollen von X und Y vertauscht. Wir geben einige Beispiele f¨ ur die Anwendung der Faltungsformel: 13.5.5 Beispiele (Diskrete Verteilungen). Seien X und Y unabh¨ angige reelle Zufallsvariable. (1) Binomial–Verteilung: Im Fall PX = B(m, ϑ) und PY = B(n, ϑ) gilt PX+Y = B(m+n, ϑ) (2) Poisson–Verteilung: Im Fall PX = P(α) und PY = P(β) gilt PX+Y = P(α+β) In der Tat: F¨ ur alle k ∈ N0 gilt P [{X +Y = k}] =
k X
P [{X = l}] P [{Y = k−l}]
l=0 k X
αl −β β k−l ·e l! (k−l)! l=0 Ã !µ ¶l µ ¶k−l k (α+β)k X k α β = e−(α+β) k! l α+β α+β =
e−α
l=0
(α+β)k = e−(α+β) k! (3) Negativbinomial–Verteilung: Im Fall PX = NB(α, ϑ) und PY = NB(β, ϑ) gilt PX+Y = NB(α+β, ϑ)
Wir betrachten nun den Fall, in dem X eine absolutstetige Verteilung besitzt. In diesem Fall l¨ asst sich die Verteilung der Summe 10 X zwar nicht direkt, aber mit einem kleinen Umweg aus dem entsprechenden Satz 13.2.1 u ¨ber lineare Abbildungen gewinnen. 13.5.6 Satz. Sei X : Ω → Rm ein Zufallsvektor mit PX ¿ λm . Sei ferner f eine λm –Dichte von PX . Dann gilt ¶ Z µZ m−1 0 P10 X = f (y−1 z, z) dλ (z) dλ(y) Rm−1
Insbesondere gilt P
10 X
¿ λ.
316
Kapitel 13. Multivariate Verteilungen
Beweis. Wir betrachten die lineare Abbildung T : Rm → Rm mit T (x) := Dx und der Matrix D mit den Koordinaten ½ 1 falls i = 1 oder i = j dij := 0 sonst Dann gilt 10 X = π1 ◦ T ◦ X und damit P10 X = Pπ1 ◦T ◦X = ((PX )T )π1 Wegen det(D) = 1 folgt aus Satz 13.2.1 Z (PX )T = f (D−1 u) dλm (u) F¨ ur die Koordinaten cij der Matrix D−1 gilt 1 falls i = j cij = −1 falls i = 1 6= j 0 sonst F¨ ur die Funktion f˜ : R × Rm−1 → R+ mit f˜(y, z) := f (y−10 z, z) gilt dann Z (PX )T = f (D−1 u) dλm (u) Z = f (y−10 z, z) d(λ ⊗ λm−1 )(y, z) Z = f˜(y, z) d(λ ⊗ λm−1 )(y, z) und aus Satz 13.3.1 folgt nun Z ÃZ ((PX )T )π1 = Z ÃZ
! m−1 ˜ f (y, z) dλ (z) dλ(y) Rm−1
! 0
=
f (y−1 z, z) dλ
m−1
(z) dλ(y)
Rm−1
Wegen P10 X = ((PX )T )π1 folgt daraus die Behauptung.
2
Satz 13.5.6 ist vor allem f¨ ur Zufallsvektoren mit unabh¨ angigen Koordinaten von Interesse; vgl. Folgerung 13.5.8. In anderen F¨ allen kann es g¨ unstiger sein, die im Beweis des Satzes verwendeten Argumente direkt auf die vorliegende Verteilung anzuwenden; dies gilt insbesondere dann, wenn die Eigenschaften von Verteilungen linearer Transformationen und von Randverteilungen bereits bekannt sind:
13.5 Verteilungen von Summen von Zufallsvariablen
317
13.5.7 Beispiel (Normal–Verteilung). Sei PX = N(µ, Σ). Dann gilt P10 X = N(10 µ, 10 Σ1) In der Tat: Wir betrachten die Matrix D ∈ Rm×m mit den Koordinaten ½ 1 falls i = 1 oder i = j dij := 0 sonst Nach Beispiel 13.2.2 gilt PDX = N(Dµ, DΣD0 ). Wegen e01 D = 10 gilt e01 Dµ = 10 µ und e01 DΣD0 e1 = 10 Σ1, und aus Beispiel 13.3.3 ergibt sich nun P10 X = Pe01 DX = (PDX )π1 = N(10 µ, 10 Σ1)
Wir betrachten nun wieder den Fall eines Zufallsvektors mit unabh¨ angigen Koordinaten: 13.5.8 Folgerung. Sei X : Ω → Rm ein Zufallsvektor mit PX ¿ λm und unabh¨ angigen Koordinaten. F¨ ur i ∈ {1, . . . , m} sei fπi : R → R+ eine λ–Dichte von PXi . Dann gilt µ ¶ ¶ Z µZ m Y P10 X = fπ1 (y−10 z) fπi (zi−1 ) dλm−1 (z) dλ(y) Rm−1
i=2
Als wichtigen Spezialfall des letzten Ergebnisses notieren wir die folgende Faltungsformel; vgl. Aufgabe 13.5.E: 13.5.9 Folgerung R(Faltungsformel). Seien R X und Y unabh¨angige Zufallsvariable mit PX = f (x) dλ(x) und PY = g(y) dλ(y). Dann gilt ¶ Z µZ PX+Y = f (u−t) g(t) dλ(t) dλ(u) R
Die Faltungsformel bleibt nat¨ urlich richtig, wenn man auf der rechten Seite der Gleichung die Rollen von f und g vertauscht. Wir geben einige Beispiele f¨ ur die Anwendung der Faltungsformel: 13.5.10 Beispiele (Absolutstetige Verteilungen). Seien X und Y unabh¨ angige reelle Zufallsvariable. (1) Gamma–Verteilung: Im Fall PX = Ga(α, γ) und PY = Ga(α, δ) gilt PX+Y = Ga(α, γ +δ) In der Tat: Es gilt PX+Y ! Z ÃZ −αt γ−1 −α(u−t) δ−1 ∼ e t χ(0,∞) (t) · e (u−t) χ(0,∞) (u−t) dλ(t) dλ(u) R
318
Kapitel 13. Multivariate Verteilungen ÃZ µ ¶ ! ¶δ−1 γ−1 µ t t 1 = e u χ(0,∞) (u) 1− χ(0,u) (t) dλ(t) dλ(u) u u R u ÃZ ! Z −αu γ+δ−1 γ−1 δ−1 = e u χ(0,∞) (u) v (1−v) χ(0,1) (v) dλ(v) dλ(u) Z
−αu γ+δ−1
R
Z ∼
e−αu uγ+δ−1 χ(0,∞) (u) dλ(u)
und damit PX+Y = Ga(α, γ +δ); dabei wurde beim letzten Gleichheitszeichen f¨ ur u ∈ (0, ∞) die lineare Abbildung Su : R → R mit Su (t) := t/u verwendet. (2) Normal–Verteilung: Im Fall PX = N(µ, σ 2 ) und PY = N(ν, τ 2 ) gilt PX+Y = N(µ+ν, σ 2 +τ 2 ) Dies ergibt sich unmittelbar aus Beispiel 13.5.7.
Aufgaben 13.5.A Normal–Verteilung: Sei PX = N(µ, Σ). Dann gilt f¨ ur alle c ∈ Rm \ {0} Pc0 X = N(c0 µ, c0 Σc) 13.5.B Binomial–Verteilung: Seien X1 , . . . , Xm unabh¨ angige reelle Zufallsvariable mit PXi = B(ϑ) f¨ ur alle i ∈ {1, . . . , m}. Dann gilt PPm = B(m, ϑ). i=1 Xi 13.5.C Erlang–Verteilung: Seien X1 , . . . , Xm unabh¨ angige reelle Zufallsvariable mit PXi = Exp(α) f¨ ur alle i ∈ {1, . . . , m}. Dann gilt PPm = Ga(α, m). i=1 Xi 13.5.D χ2 –Verteilung: Seien X1 , . . . , Xm unabh¨ angige standardnormal–verteilte reelle Zufallsvariable. Dann gilt PPm X 2 = χ2m . i=1
i
13.5.E Faltung: Sei Q(R) die Familie aller Verteilungen B(R) → [0, 1] und sei T : R2 → R gegeben durch T (x) := 10 x. Die Abbildung ∗ : Q(R) × Q(R) → Q(R) mit Q ∗ R := (Q ⊗ R)T heißt Faltung. (1) (Q(R), ∗) ist eine kommutative Halbgruppe mit dem neutralen Element δ 0 . (2) Sind Q, R ∈ Q(R) absolutstetig, so ist auch Q ∗ R absolutstetig. (3) Sind X und Y unabh¨ angige Zufallsvariable, so gilt PX+Y = PX ∗ PY .
13.6 Momente Sei X : Ω → Rm ein Zufallsvektor und sei h : Rm → R eine messbare Funktion. Ist h ◦ X positiv oder integrierbar, so gilt nach der Substitutionsregel Z Z E[h ◦ X] = (h ◦ X)(ω) dP (ω) = h(x) dPX (x) Ω
Insbesondere gilt:
Rm
13.6 Momente
–
319
Besitzt Xi einen endlichen Erwartungswert, so gilt Z E[Xi ] = xi dPX (x) Rm
–
Besitzt Xi Xj einen endlichen Erwartungswert, so gilt Z E[Xi Xj ] = xi xj dPX (x) Rm
Eine hinreichende Bedingung f¨ ur die Existenz eines endlichen Erwartungswertes des Produktes Xi Xj ist die Endlichkeit der zweiten Momente seiner Faktoren, denn nach der Ungleichung von Cauchy/Schwarz gilt E[|Xi Xj |] ≤ (E[Xi2 ])1/2 (E[Xj2 ])1/2 –
Diese Bedingung ist aber nicht notwendig; vgl. Lemma 13.6.8. Besitzen alle Koordinaten von X einen endlichen Erwartungswert, so besitzt f¨ ur alle a ∈ Rm die Zufallsvariable a0 X einen endlichen Erwartungswert und es gilt E[a0 X] =
m X
ai E[Xi ]
i=1
Dies folgt aus der Linearit¨at des Integrals. Besitzt X integrierbare Koordinaten X1 , . . . , Xm , so setzen wir E[X] := (E[Xi ])i∈{1,...,m} und nennen E[X] die Erwartung von X. 13.6.1 Lemma. Sei X : Ω → Rm ein Zufallsvektor mit integrierbaren Koordinaten. Dann gilt f¨ ur alle c ∈ Rk und f¨ ur jede Matrix D ∈ Rk×m E[c+DX] = c + D E[X] Das Lemma ergibt sich unmittelbar aus der Linearit¨ at des Integrals. 13.6.2 Beispiele (Diskrete Verteilungen). (1) Polyhypergeometrische Verteilung: Im Fall PX = PH(n, N, K) gilt E[X] =
n K N
(2) Multinomial–Verteilung: Im Fall PX = M(n, ϑ) gilt E[X] = n ϑ
320
Kapitel 13. Multivariate Verteilungen
(3) Poisson–Verteilung: Im Fall PX = P(α) gilt E[X] = α (4) Negativmultinomial–Verteilung: Im Fall PX = NM(α, ϑ) gilt E[X] = α
1 ϑ 1 − 10 ϑ
13.6.3 Beispiele (Absolutstetige Verteilungen). (1) Uniforme Verteilung: Im Fall PX = U(C) mit ¯¡ n o ¢2 ¡ ¢2 ¯ C := x ∈ R2 ¯ x1 − 12 + x2 − 12 < 14 gilt
µ E[X] =
¶ 1/2 1/2
(2) Dirichlet–Verteilung: Im Fall PX = Dir(η, η) gilt E[X] =
1 η η
(3) Normal–Verteilung: Im Fall PX = N(µ, Σ) gilt E[X] = µ Damit ist die Bedeutung des ersten Parameters der Normal–Verteilung gekl¨ art.
Ist {Uij }i∈{1,...,m}, j∈{1,...,n} eine Familie von reellen Zufallsvariablen, so heißt die messbare Abbildung U : Ω → Rm×n mit U := (Uij )i∈{1,...,m}, j∈{1,...,n} Zufallsmatrix mit den Koordinaten Uij . F¨ ur eine Zufallsmatrix U : Ω → Rm×n mit integrierbaren Koordinaten setzen wir E[U] := (E[Uij ])i∈{1,...,m}, j∈{1,...,n} und nennen E[U] die Erwartung von U. 13.6.4 Lemma. Sei U eine Zufallsmatrix mit integrierbaren Koordinaten. Dann gilt f¨ ur alle Matrizen A, B passender Dimension E[AUB] = A E[U] B F¨ ur einen Zufallsvektor X mit quadratisch integrierbaren Koordinaten nennen wir E[XX0 ] die Matrix der zweiten gemischten Momente von X. Offenbar ist die Zufallsmatrix XX0 und damit auch die Matrix E[XX0 ] symmetrisch. 13.6.5 Lemma. Sei X ein Zufallsvektor mit quadratisch integrierbaren Koordinaten. Dann gilt f¨ ur jede Matrix D passender Dimension E[(DX)(DX)0 ] = D E[XX0 ] D0
13.6 Momente
321
13.6.6 Beispiele (Diskrete Verteilungen). (1) Polyhypergeometrische Verteilung: Im Fall PX = PH(n, N, K) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j E[Xi Xj ] =
n(n−1) Ki Kj N (N −1)
und damit E[Xi Xj ] 6= E[Xi ] E[Xj ]. (2) Multinomial–Verteilung: Im Fall PX = M(n, ϑ) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j E[Xi Xj ] = n(n−1) ϑi ϑj und damit E[Xi Xj ] 6= E[Xi ] E[Xj ]. In der Tat: Es gilt PXi ,Xj = M(n, ϑi , ϑj ) und aufgrund der Permutationsinvarianz der Klasse der zweidimensionalen Multinomial–Verteilungen gen¨ ugt es, die Gleichung f¨ ur i = 1 und j = 2 zu beweisen. Es gilt E[X1 X2 ] =
n n−k X X
kl
n! (1−ϑ1 −ϑ2 )n−k−l ϑk1 ϑl2 (n−k−l)! k! l!
kl
n! (1−ϑ1 −ϑ2 )n−k−l ϑk1 ϑl2 (n−k−l)! k! l!
kl
n! (1−ϑ1 −ϑ2 )n−k−l ϑk1 ϑl2 (n−k−l)! k! l!
k=0 l=0
=
n n−k X X k=1 l=1
=
n−1 X n−k X k=1 l=1
= n(n−1) ϑ1 ϑ2 n−1 X n−k X k=1 l=1
(n−2)! (1−ϑ1 −ϑ2 )n−k−l ϑk−1 ϑl−1 1 2 (n−k−l)! (k−1)! (l−1)!
= n(n−1) ϑ1 ϑ2 n−2 X (n−2)−p X p=0
q=0
(n−2)! (1−ϑ1 −ϑ2 )(n−2)−p−q ϑp1 ϑq2 ((n−2)−p−q)!p! q!
= n(n−1) ϑ1 ϑ2 (3) Poisson–Verteilung: Im Fall PX = P(α) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j E[Xi Xj ] = αi αj und damit E[Xi Xj ] = E[Xi ] E[Xj ]. (4) Negativmultinomial–Verteilung: Im Fall PX = NM(α, ϑ) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j E[Xi Xj ] = α(α+1) und damit E[Xi Xj ] 6= E[Xi ] E[Xj ].
ϑi ϑj 1 − 10 ϑ 1 − 10 ϑ
322
Kapitel 13. Multivariate Verteilungen
13.6.7 Beispiele (Absolutstetige Verteilungen). (1) Uniforme Verteilung: Im Fall PX = U(C) mit ¯¡ n o ¢2 ¡ ¢2 ¯ C := x ∈ R2 ¯ x1 − 12 + x2 − 12 < 14 gilt E[X1 X2 ] = 1/4 und damit E[X1 X2 ] = E[X1 ] E[X2 ]. p p ¡ ¢ In der Tat: F¨ ur x1 ∈ (0, 1) sei C(x1 ) := 12 − x1 (1−x1 ), 12 + x1 (1−x1 ) . Dann gilt Z E[X1 X2 ] = x1 x2 dPX (x) 2 ZR 4 = x1 x2 χC (x) dλ2 (x) π R2 Z 4 = x1 x2 χ(0,1) (x1 ) χC(x1 ) (x2 ) dλ2 (x) π R2 µZ ¶ Z 4 = x1 χ(0,1) (x1 ) x2 χC(x1 ) (x2 ) dλ(x2 ) dλ(x1 ) π R R Z p 4 = x1 χ(0,1) (x1 ) x1 (1 − x1 ) dλ(x1 ) π R Z 5 −1 3 4 1 2 = B( 52 , 32 ) (1 − x1 ) 2 −1 χ(0,1) (x1 ) dλ(x1 ) 5 3 x1 π B( , ) R 2 2 4 5 3 = B( 2 , 2 ) π 1 = 4 (2) Dirichlet–Verteilung: Im Fall PX = Dir(η, η) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j E[Xi Xj ] =
ηi ηj η(η+1)
und damit E[Xi Xj ] 6= E[Xi ] E[Xj ].
Wir betrachten abschließend Zufallsvektoren mit unabh¨ angigen Koordinaten: 13.6.8 Lemma. Sei X : Ω → Rm ein Zufallsvektor mit unabh¨ angigen Koordinaten. Wenn alle Koordinaten positiv sind oder alle Koordinaten integrierbar sind, dann ist auch ihr Produkt positiv bzw. integrierbar und es gilt "m # m Y Y E Xi = E[Xi ] i=1
i=1
13.7 Zentrale Momente
323
Beweis. Aus der Unabh¨angigkeit der Koordinaten und dem Satz von Fubini erh¨ alt man zun¨ achst ¯# Z ¯ m ¯ "¯ m ¯Y ¯ ¯Y ¯ ¯ ¯ ¯ ¯ E ¯ Xi ¯ = ¯ xi ¯ dPX (x) ¯ ¯ ¯ m¯ R i=1 i=1 ! Ãm ! Z ÃY m O = |xi | d PXi (x) Rm
= =
i=1
m Z Y i=1 m Y
R
i=1
|xi | dPXi (xi )
E[|Xi |]
i=1
Im Fall positiver Koordinaten folgt daraus bereits die Behauptung; im Fall integrierbarer Koordinaten folgt die Integrierbarkeit ihres Produktes, und die Wiederholung des Arguments liefert dann "m # m Y Y E Xi = E[Xi ] i=1
i=1
Damit ist das Lemma bewiesen.
2
F¨ ur integrierbare Zufallsvariable X und Y ist daher die Unabh¨ angigkeit eine hinreichende Bedingung f¨ ur die G¨ ultigkeit der Gleichung E[XY ] = E[X] E[Y ]; andererseits zeigen die Beispiele 13.4.4(1) und 13.6.7(1), dass diese Bedingung nicht notwendig ist. Aufgabe 13.6.A t–Verteilung: Sei
Z
PX =
1 dλ2 (x) (2 + x21 )3/2 (2 + x22 )3/2
Dann besitzt X1 X2 einen endlichen Erwartungswert und es gilt E[X1 X2 ] = 0
13.7 Zentrale Momente F¨ ur integrierbare Zufallsvariable X und Y , deren Produkt ebenfalls integrierbar ist, setzen wir cov [X, Y ] := E[(X −E[X])(Y −E[Y ])] und nennen cov [X, Y ] die Kovarianz von X und Y . Die folgenden Lemmata fassen die Eigenschaften der Kovarianz zusammen:
324
Kapitel 13. Multivariate Verteilungen
13.7.1 Lemma. Seien X und Y integrierbare Zufallsvariable, deren Produkt ebenfalls integrierbar ist, und sei a, b, c, d ∈ R. Dann gilt: (1) cov [X, X] = var [X]. (2) cov [X, Y ] = cov [Y, X]. (3) cov [X, Y ] = E[XY ] − E[X] E[Y ]. (4) cov [a+bX, c+dY ] = bd cov [X, Y ]. Beweis. Die Aussagen (1) und (2) ergeben sich unmittelbar aus der Definition der Kovarianz und die Aussagen (3) und (4) folgen aus der Linearit¨ at des Erwartungswertes. 2 13.7.2 Lemma. Seien X und Y integrierbare Zufallsvariable. Sind X und Y unabh¨ angig, so ist auch XY integrierbar und es gilt cov [X, Y ] = 0. Beweis. Die Behauptung ergibt sich unmittelbar aus Lemma 13.6.8.
2
Die Kovarianz tritt in nat¨ urlicher Weise bei der Berechnung der Varianz einer Summe von zwei Zufallsvariablen auf: 13.7.3 Lemma. Seien X und Y quadratisch integrierbare Zufallsvariable. Dann gilt var [X +Y ] = var [X] + 2 cov [X, Y ] + var [Y ] Sind X und Y unabh¨ angig, so gilt var [X +Y ] = var [X] + var [Y ]. Beweis. Die erste Aussage folgt aus der Linearit¨ at des Erwartungswertes und die zweite Aussage folgt dann aus Lemma 13.7.2. 2 F¨ ur quadratisch integrierbare Zufallsvariable X und Y ist daher die Unabh¨ angigkeit eine hinreichende Bedingung f¨ ur die G¨ ultigkeit der Gleichungen cov [X, Y ] = 0 und var [X +Y ] = var [X] + var [Y ]; andererseits zeigt Beispiel 13.7.5(1), dass diese Bedingung nicht notwendig ist. 13.7.4 Beispiele (Diskrete Verteilungen). (1) Polyhypergeometrische Verteilung: Im Fall PX = PH(n, N, K) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j cov [Xi , Xj ] = − n
Ki Kj N − n N N N −1
(2) Multinomial–Verteilung: Im Fall PX = M(n, ϑ) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j cov [Xi , Xj ] = − n ϑi ϑj In der Tat: Es gilt E[Xi ] = n ϑi E[Xj ] = n ϑj E[Xi Xj ] = n(n−1) ϑi ϑj Daraus folgt die Behauptung.
13.7 Zentrale Momente
325
(3) Poisson–Verteilung: Im Fall PX = P(α) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j cov [Xi , Xj ] = 0 (4) Negativmultinomial–Verteilung: Im Fall PX = NM(α, ϑ) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j cov [Xi , Xj ] = α
ϑi ϑj 1 − 10 ϑ 1 − 10 ϑ
13.7.5 Beispiele (Absolutstetige Verteilungen). (1) Uniforme Verteilung: Im Fall PX = U(C) mit ¯¡ n o ¢2 ¡ ¢2 ¯ C := x ∈ R2 ¯ x1 − 12 + x2 − 12 < 14 gilt cov [X1 , X2 ] = 0 (obwohl X1 und X2 nicht unabh¨ angig sind). (2) Dirichlet–Verteilung: Im Fall PX = Dir(η, η) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j cov [Xi , Xj ] = −
η i ηj η 2 (η+1)
F¨ ur einen Zufallsvektor X : Ω → Rm mit quadratisch integrierbaren Koordinaten setzen wir var [X] := (cov [Xi , Xj ])i,j∈{1,...,m} und nennen var [X] die Varianz von X. 13.7.6 Lemma. Sei X : Ω → Rm ein Zufallsvektor mit quadratisch integrierbaren Koordinaten. (1) Es gilt var [X] = E[(X − E[X])(X − E[X])0 ] = E[XX0 ] − E[X] (E[X])0 . (2) F¨ ur jeden Vektor c ∈ Rk und jede Matrix D ∈ Rk×m gilt var [c+DX] = D var [X] D0 (3) Die Matrix var [X] ist symmetrisch und positiv semidefinit. (4) Die Matrix var [X] ist genau dann singul¨ ar, wenn es ein d ∈ Rm \ {0} 0 und ein c ∈ R gibt mit P [{d X = c}] = 1. (5) Besitzt X unabh¨ angige Koordinaten, so ist var [X] eine Diagonalmatrix. Beweis. Aus den Eigenschaften der Kovarianz erh¨ alt man zun¨ achst var [X] = E[XX0 ] − E[X](E[X])0 und sodann
326
Kapitel 13. Multivariate Verteilungen
var [c+DX] = var [DX] = E[(DX)(DX)0 ] − E[DX](E[DX])0 = DE[XX0 ]D0 − DE[X](E[X])0 D0 = D var [X] D0 Damit sind (1) und (2) gezeigt. Die Symmetrie von var [X] ist klar. Wegen (2) gilt f¨ ur alle d ∈ Rm d0 var [X] d = var [d0 X] ≥ 0 Daher ist var [X] positiv semidefinit. Damit ist (3) gezeigt. Außerdem sind folgende Aussagen ¨aquivalent: – var [X] ist singul¨ar. – Es gibt ein d ∈ Rm \{0} mit d0 var [X] d = 0. – Es gibt ein d ∈ Rm \{0} mit var [d0 X] = 0. – Es gibt ein d ∈ Rm \{0} und ein c ∈ R mit P [{d0 X = c}] = 1. Damit ist (4) gezeigt. Schließlich folgt (5) aus Lemma 13.7.2. 2 13.7.7 Beispiele (Diskrete Verteilungen). (1) Polyhypergeometrische Verteilung: Im Fall PX = PH(n, N, K) gilt µ ¶ N −n 1 1 var [X] = n diag(K) − 2 KK0 N −1 N N (2) Multinomial–Verteilung: Im Fall PX = M(n, ϑ) gilt ³ ´ var [X] = n diag(ϑ) − ϑϑ0 (3) Poisson–Verteilung: Im Fall PX = P(α) gilt var [X] = diag(α) (4) Negativmultinomial–Verteilung: Im Fall PX = NM(α, ϑ) gilt µ ¶ 1 1 0 var [X] = α diag(ϑ) + ϑϑ 1−10 ϑ (1−10 ϑ)2 13.7.8 Beispiele (Absolutstetige Verteilungen). (1) Uniforme Verteilung: Im Fall PX = U(C) mit ¯¡ n o ¢2 ¡ ¢2 ¯ C := x ∈ R2 ¯ x1 − 12 + x2 − 12 < 14 gilt µ var [X] =
¶ 1/16 0 0 1/16
(obwohl die Koordinaten von X nicht unabh¨ angig sind).
13.7 Zentrale Momente
327
(2) Dirichlet–Verteilung: Im Fall PX = Dir(η, η) gilt var [X] =
1 1 diag(η) − 2 ηη 0 η(η +1) η (η +1)
(3) Normal–Verteilung: Im Fall PX = N(µ, Σ) gilt var [X] = Σ Damit ist die Bedeutung des zweiten Parameters der Normal–Verteilung gekl¨ art. In der Tat: Nach Proposition C.1.3 gibt es eine invertierbare Matrix A ∈ Rm×m mit Σ = AA0 . Sei Z := A−1 (X−µ) Nach Beispiel 13.2.2 gilt PZ = N(0, I), und aus Beispiel 13.3.3(3) sowie Beispiel 13.4.4(3) und Lemma 13.7.2 folgt var [Z] = I Wegen X = µ + AZ folgt nun aus Lemma 13.7.6 var [X] = var [µ+AZ] = A var [Z] A0 = AIA0 = AA0 = Σ Insbesondere gilt: var [X] ist genau dann eine Diagonalmatrix, wenn die Koordinaten von X unabh¨ angig sind (vgl. Beispiel 13.4.4).
Aus den Eigenschaften der Varianz eines Zufallsvektors ergibt sich eine wahrscheinlichkeitstheoretische Version der aus der Integrationstheorie bekannten Ungleichung von Cauchy/Schwarz: 13.7.9 Folgerung (Cauchy/Schwarz). Seien X und Y quadratisch integrierbare Zufallsvariable. Dann gilt (cov [X, Y ])2 ≤ var [X] var [Y ] Außerdem gilt (cov [X, Y ])2 = var [X] var [Y ] genau dann, wenn es a, b, c ∈ R gibt mit a 6= 0 oder b 6= 0 und P [{aX +bY = c}] = 1. Beweis. F¨ ur den Zufallsvektor X : Ω → R2 mit X1 := X und X2 := Y gilt det(var [X]) = var [X] var [Y ] − (cov [X, Y ])2 Nach Lemma 13.7.6 ist var [X] positiv semidefinit. Daher gilt det(var [X]) ≥ 0, und die Ungleichung folgt. Des weiteren ist die Bedingung (cov [X, Y ])2 = var [X] var [Y ] gleichwertig mit det(var [X]) = 0, also der Singularit¨at von var [X]. Nach Lemma 13.7.6 ist aber var [X] genau dann singul¨ar, wenn es a, b, c ∈ R gibt mit a 6= 0 oder b 6= 0 und P [{aX +bY = c}] = 1. 2
328
Kapitel 13. Multivariate Verteilungen
Wir kommen nochmals auf die Kovarianz zur¨ uck: Zwei integrierbare Zufallsvariable X und Y , deren Produkt ebenfalls integrierbar ist, heißen – strikt positiv korreliert, wenn cov [X, Y ] > 0 gilt. – positiv korreliert, wenn cov [X, Y ] ≥ 0 gilt. – unkorreliert, wenn cov [X, Y ] = 0 gilt. – negativ korreliert, wenn cov [X, Y ] ≤ 0 gilt. – strikt negativ korreliert, wenn cov [X, Y ] < 0 gilt. Nach Lemma 13.7.2 sind unabh¨angige integrierbare Zufallsvariable unkorreliert; andererseits zeigt Beispiel 13.7.5(1), dass unkorrelierte Zufallsvariable nicht unabh¨ angig sein m¨ ussen. Der in diesen Definitionen verwendete Begriff der Korrelation erkl¨ art sich aus der folgenden Definition: F¨ ur quadratisch integrierbare Zufallsvariable X und Y mit var [X] 6= 0 und var [Y ] 6= 0 setzen wir cov [X, Y ] p %X,Y := p var [X] var [Y ] und nennen %X,Y den Korrelationskoeffizienten von X und Y . Im Gegensatz zur Kovarianz hat der Korrelationskoeffizient den Vorteil, dass sein Wert stets im Intervall [−1, 1] liegt und die beiden extremen Werte eine Interpretation besitzen: 13.7.10 Lemma. Seien X und Y quadratisch integrierbare Zufallsvariable mit var [X] 6= 0 6= var [Y ]. Dann gilt " # X − E[X] Y − E[Y ] %X,Y = cov p , p var [X] var [Y ] und |%X,Y | ≤ 1 Außerdem gilt |%X,Y | = 1 genau dann, wenn es a, b, c ∈ R gibt mit a 6= 0 oder b 6= 0 und P [{aX +bY = c}] = 1. Beweis. Die erste Gleichung ergibt sich aus Lemma 13.7.1 und der Rest folgt aus der Ungleichung von Cauchy/Schwarz. 2 13.7.11 Beispiele (Diskrete Verteilungen). (1) Polyhypergeometrische Verteilung: Im Fall PX = PH(n, N, K) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j s Ki Kj %Xi ,Xj = − N − Ki N − Kj
13.7 Zentrale Momente
329
(2) Multinomial–Verteilung: Im Fall PX = M(n, ϑ) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j s ϑi ϑj %Xi ,Xj = − 1 − ϑi 1 − ϑj (3) Poisson–Verteilung: Im Fall PX = P(α) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j %Xi ,Xj = 0 (4) Negativmultinomial–Verteilung: Im Fall PX = NM(α, ϑ) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j s ϑi ϑj %Xi ,Xj = ϑi + 1 − 10 ϑ ϑj + 1 − 10 ϑ
13.7.12 Beispiele (Absolutstetige Verteilungen). (1) Uniforme Verteilung: Im Fall PX = U(C) mit ¯¡ n o ¢2 ¡ ¢2 ¯ C := x ∈ R2 ¯ x1 − 12 + x2 − 12 < 14 gilt %X1 ,X2 = 0. (2) Dirichlet–Verteilung: Im Fall Q = Dir(η, η) gilt f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j r ηi ηj %Xi ,Xj = − η − ηi η − ηj
Der Korrelationskoeffizient ist ein Maß f¨ ur den Grad des affinen Zusammenhangs zwischen zwei Zufallsvariablen; andere funktionale Zusammenh¨ ange zwischen zwei Zufallsvariablen k¨onnen jedoch auch dann bestehen, wenn die Zufallsvariablen unkorreliert sind: 13.7.13 Beispiel. Sei X eine reelle Zufallsvariable mit PX = N(0, 1) und sei Y := X 2 . Dann gilt E[X] = 0 und E[XY ] = E[X 3 ] = 0, und damit cov [X, Y ] = 0 und damit %X,Y = 0 obwohl Y eine Funktion von X ist.
Aufgaben 13.7.A Kovarianz: Sei h : R → R eine monoton wachsende Funktion. Ist X eine reelle Zufallsvariable derart, dass X und h(X) ein endliches zweites Moment besitzen, so gilt cov [X, h(X)] ≥ 0.
330
Kapitel 13. Multivariate Verteilungen
13.7.B Kovarianz: F¨ ur Zufallsvektoren X : Ω → Rm und Y : Ω → Rn , deren Koordinaten alle ein endliches zweites Moment besitzen, heißt die Matrix cov [X, Y] := (cov [Xi , Yj ])i∈{1,...,m},j∈{1,...,n} die Kovarianz von X und Y. F¨ ur alle Vektoren a, c und Matrizen B, D passender Dimension gilt cov [a+BX, c+DY] = B cov [X, Y] D0 Im Fall X = Y gilt cov [X, Y] = var [X]. 13.7.C Korrelationskoeffizient: Seien X und Y quadratisch integrierbare Zufallsvariable mit var [X] 6= 0 6= var [Y ]. (1) F¨ ur alle a, b, c, d ∈ R gilt %a+bX,c+dY = %X,Y (2) Es gilt %X,Y = 1 genau dann, wenn "( )# X − E[X] Y − E[Y ] p P = p =1 var [X] var [Y ] (3) Es gilt %X,Y = −1 genau dann, wenn "( )# X − E[X] Y − E[Y ] p P =−p =1 var [X] var [Y ] 13.7.D Seien X und Y reelle Zufallsvariable mit PX,Y = M(n, ϑ, 1−ϑ). Dann gilt %X,Y = −1 Leiten Sie dieses Ergebnis ohne Verwendung von Beispiel 13.7.11 her. 13.7.E Zwei Bernoulli–verteilte reelle Zufallsvariable sind genau dann unkorreliert, wenn sie unabh¨ angig sind. 13.7.F Geben Sie ein Beispiel f¨ ur drei Bernoulli–verteilte reelle Zufallsvariable, die paarweise unkorreliert, aber in ihrer Gesamtheit nicht unabh¨ angig sind. 13.7.G Seien X und Y reelle Zufallsvariable mit PX = P(α) und PY = P(β). (1) Sind X und Y unabh¨ angig, so gilt PX+Y = P(α+β). (2) Gilt PX+Y = P(α+β), so sind X und Y unkorreliert. 13.7.H Normal–Verteilung: Sei X ein Zufallsvektor mit PX = N(µ, Σ). Dann sind ¨ aquivalent: (a) X besitzt unabh¨ angige Koordinaten. (b) X besitzt unkorrelierte Koordinaten.
14 Konvergenz von Folgen von Zufallsvariablen
Zur Vorbereitung auf die Gesetze der Großen Zahlen, die wir im n¨ achsten Kapitel behandeln, vergleichen wir in diesem Kapitel die aus der Maß– und Integrationstheorie bekannten drei Arten der Konvergenz f¨ ur eine Folge von Zufallsvariablen: – die Konvergenz P –fast u ¨berall, die hier als P –fast sichere Konvergenz bezeichnet wird (Abschnitt 14.1), – die Konvergenz im Maß P , die hier als stochastische Konvergenz bezeichnet wird (Abschnitt 14.2), und – die Konvergenz im p–ten Mittel bez¨ uglich P f¨ ur p ∈ [1, ∞) (Abschnitt 14.3). Gegen¨ uber der allgemeinen Theorie ergeben sich Besonderheiten daraus, dass P ein Wahrscheinlichkeitsmaß ist. Eine weitere Art der Konvergenz behandeln wir sp¨ ater in Kapitel 17.
14.1 Fast sichere Konvergenz Von einer Eigenschaft, die f¨ ur jedes ω ∈ Ω entweder gilt oder nicht gilt, sagt man, sie gelte P –fast sicher oder kurz fast sicher , wenn sie P –fast u ¨berall gilt. Diese Ausdrucksweise entspricht der Bezeichnung der Ergebnismenge Ω als sicheres Ereignis. Insbesondere heißt eine Folge {Xn }n∈N von Zufallsvariablen P –fast sicher konvergent oder kurz fast sicher konvergent, wenn sie P –fast u ¨berall konvergent ist. Da lim inf n→∞ Xn und lim supn→∞ Xn messbar sind, gilt ½
¾ lim inf Xn = lim sup Xn n→∞
n→∞
∈F
Daher ist die Folge {Xn }n∈N genau dann P –fast sicher konvergent, wenn K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_14, © Springer-Verlag Berlin Heidelberg 2011
332
Kapitel 14. Konvergenz von Folgen von Zufallsvariablen
·½ ¾¸ P lim inf Xn = lim sup Xn =1 n→∞
n→∞
gilt, und in diesem Fall sagt man auch, dass die Folge {Xn }n∈N mit Wahrscheinlichkeit Eins konvergent ist. F¨ ur eine Folge von reellen Zufallsvariablen l¨asst sich die fast sichere Konvergenz gegen eine ebenfalls reelle Zufallsvariable wie folgt charakterisieren: 14.1.1 Lemma. Sei {Xn }n∈N eine Folge von reellen Zufallsvariablen. Dann sind ¨ aquivalent: (a) Es gilt P [{−∞ < lim inf n→∞ Xn = lim supn→∞ Xn < ∞}] = 1. (b) Die Folge {Xn }n∈N konvergiert fast sicher gegen eine reelle Zufallsvariable. (c) F¨ ur alle ε ∈ (0, ∞) gilt limm→∞ P [{supn∈N(m) |Xn −Xm | ≥ ε}] = 0. ¨ Beweis. Die Aquivalenz von (a) und (b) ist klar. Wir zeigen nun die ¨ Aquivalenz von (b) und (c). F¨ ur ω ∈ Ω konvergiert die Folge {Xn (ω)}n∈N genau dann gegen eine reelle Zahl, wenn sie eine Cauchy–Folge ist, und dies ist genau dann der Fall, wenn es zu jedem k ∈ N ein m ∈ N gibt mit supn∈N(m) |Xn (ω)−Xm (ω)| ≤ 1/k. Daher konvergiert die Folge {Xn }n∈N genau dann fast sicher gegen eine reelle Zufallsvariable, wenn " ¾# \ [½ P sup |Xn −Xm | ≤ 1/k =1 k∈N m∈N
n∈N(m)
S gilt. Da die Folge {Ak }k∈N mit Ak := m∈N {supn∈N(m) |Xn − Xm | ≤ 1/k} monoton fallend ist, gilt die letzte Gleichung genau dann, wenn f¨ ur alle k ∈ N " # ¾ [½ P sup |Xn −Xm | ≤ 1/k =1 m∈N
n∈N(m)
gilt, und dies ist, da f¨ ur jedes k ∈ N die Folge {Ck,m }m∈N mit Ck,m := {supn∈N(m) |Xn−Xm | ≤ 1/k} monoton wachsend ist, gleichwertig damit, dass f¨ ur alle k ∈ N ·½ ¾¸ lim P sup |Xn −Xm | ≤ 1/k =1 m→∞
gilt.
n∈N(m)
2
In v¨ ollig analoger Weise l¨asst sich die fast sichere Konvergenz einer Folge von reellen Zufallsvariablen gegen eine gegebene reelle Zufallsvariable charakterisieren:
14.2 Stochastische Konvergenz
333
14.1.2 Lemma. Sei {Xn }n∈N eine Folge von reellen Zufallsvariablen und sei X eine reelle Zufallsvariable. Dann sind ¨ aquivalent : (a) Die Folge {Xn }n∈N konvergiert fast sicher gegen X. (b) F¨ ur alle ε ∈ (0, ∞) gilt limm→∞ P [{supn∈N(m) |Xn −X| ≥ ε}] = 0 . Aufgabe 14.1.A Sei {Xn }n∈N eine Folge von reellen Zufallsvariablen und sei X eine reelle Zufallsvariable. Dann sind ¨ aquivalent: (a) Die Folge {Xn }n∈N konvergiert fast sicher gegen X. (b) F¨ ur alle ε ∈ (0, ∞) gilt P [lim inf n→∞ {|Xn −X| ≤ ε}] = 1 .
14.2 Stochastische Konvergenz Eine Folge {Xn }n∈N von reellen Zufallsvariablen konvergiert stochastisch gegen eine reelle Zufallsvariable X, wenn sie im Maß P gegen X konvergiert. Nach Definition der Konvergenz im Maß bedeutet dies, dass f¨ ur alle ε ∈ (0, ∞) lim P [{|Xn −X| ≥ ε}] = 0
n→∞
gilt. Der Vergleich dieser Bedingung mit der in Lemma 14.1.2 angegebenen Charakterisierung der fast sicheren Konvergenz liefert erneut das folgende Ergebnis, das bereits aus Satz 7.2.8 bekannt ist: 14.2.1 Lemma. Sei {Xn }n∈N eine Folge von reellen Zufallsvariablen und sei X eine reelle Zufallsvariable. Wenn die Folge {Xn }n∈N fast sicher gegen X konvergiert, dann konvergiert sie auch stochastisch gegen X. Das folgende Beispiel zeigt, dass die stochastische Konvergenz schw¨ acher ist als die fast sichere Konvergenz: 14.2.2 Beispiel (Wandernde T¨ urme). Sei (Ω, F , P ) := ((0, 1], B(0, 1], λ|B(0,1] ). F¨ ur m ∈ N und k ∈ {1, . . . , 2m } sei Bm,k := ((k−1) 2−m , k 2−m ] und X2m +k−2 := χBm,k Dann gilt f¨ ur alle ε ∈ (0, ∞) lim P [{Xn ≥ ε}] = 0
n→∞
Daher konvergiert die Folge {Xn }n∈N stochastisch gegen 0. Andererseits gilt f¨ ur alle ω∈Ω lim inf Xn (ω) = 0 < 1 = lim sup Xn (ω) n→∞
n→∞
Daher konvergiert die Folge {Xn }n∈N nicht fast sicher gegen 0.
334
Kapitel 14. Konvergenz von Folgen von Zufallsvariablen
Andererseits besitzt jede Folge von reellen Zufallsvariablen, die stochastisch gegen eine reelle Zufallsvariable konvergiert, immerhin eine Teilfolge, die fast sicher gegen dieselbe reelle Zufallsvariable konvergiert; dies ergibt sich aus dem folgenden Satz, der die stochastische Konvergenz durch die fast sichere Konvergenz von Teilfolgen charakterisiert: 14.2.3 Satz (Teilfolgenprinzip). Sei {Xn }n∈N eine Folge von reellen Zufallsvariablen und sei X eine reelle Zufallsvariable. Dann sind ¨aquivalent: (a) Die Folge {Xn }n∈N konvergiert stochastisch gegen X. (b) Jede Teilfolge von {Xn }n∈N besitzt eine Teilfolge, die fast sicher gegen X konvergiert. Beweis. Wir k¨ onnen ohne Beschr¨ankung der Allgemeinheit annehmen, dass X = 0 gilt. Wir nehmen zun¨ achst an, dass (a) gilt. Da mit der Folge {Xn }n∈N auch jede Teilfolge stochastisch gegen 0 konvergiert, gen¨ ugt es zu zeigen, dass die Folge {Xn }n∈N eine Teilfolge besitzt, die fast sicher gegen 0 konvergiert. Dazu setzen wir n0 := 0 und w¨ahlen induktiv zu jedem k ∈ N ein nk ∈ N mit nk−1 < nk und P [{|Xnk | > 1/k}] ≤ 2−(k+1) Sei nun ε ∈ (0, ∞). Dann gilt f¨ ur alle m ∈ N mit m > 1/ε ·½ ¾¸ ·½ ¾¸ P sup |Xnk | ≥ ε ≤P sup |Xnk | > 1/m k∈N(m)
"
k∈N(m)
=P
[
#
{|Xnk | > 1/m}
k∈N(m)
≤
X
P [{|Xnk | > 1/m}]
k∈N(m)
≤
X
P [{|Xnk | > 1/k}]
k∈N(m)
≤
X
2−(k+1)
k∈N(m)
= 2−m und damit ·½ lim P
m→∞
¾¸ sup |Xnk | ≥ ε =0
k∈N(m)
Aus Lemma 14.1.2 folgt nun, dass die Teilfolge {Xnk }k∈N fast sicher gegen 0 konvergiert. Damit ist gezeigt, dass (b) aus (a) folgt.
14.3 Konvergenz im p–ten Mittel
335
Wir nehmen nun an, dass (b) gilt. Nach dem Teilfolgenprinzip der Analysis konvergiert eine Folge {an }n∈N ⊆ R genau dann gegen 0, wenn jede Teilfolge von {an }n∈N eine Teilfolge besitzt, die gegen 0 konvergiert. Sei nun ε ∈ (0, ∞). Nach Voraussetzung besitzt jede Teilfolge der Folge {Xn }n∈N eine Teilfolge, die fast sicher und nach Lemma 14.2.1 auch stochastisch gegen 0 konvergiert; daher besitzt jede Teilfolge der Folge {an }n∈N mit an := P [{|Xn | ≥ ε}] eine Teilfolge, die gegen 0 konvergiert, und daraus folgt die Konvergenz der Folge {an }n∈N gegen 0, also lim P [{|Xn | ≥ ε}] = lim an = 0
n→∞
n→∞
Da ε ∈ (0, ∞) beliebig war, ist damit gezeigt, dass (a) aus (b) folgt.
2
Aufgaben 14.2.A Eine Folge {Xn }n∈N von reellen Zufallsvariablen konvergiert genau dann stochastisch gegen eine reelle Zufallsvariable X, wenn f¨ ur alle ε ∈ (0, ∞) lim P [{|Xn −X| ≤ ε}] = 1
n→∞
gilt. 14.2.B Sei {Xn }n∈N eine unabh¨ angige Folge von reellen Zufallsvariablen mit PXn = B(1/n) f¨ ur alle n ∈ N. Dann konvergiert die Folge {Xn }n∈N stochastisch gegen 0, aber sie ist nicht fast sicher konvergent. 14.2.C Sei {Xn }n∈N eine Folge von Zufallsvektoren Ω → Rm und sei X : Ω → Rm ein Zufallsvektor. Wenn f¨ ur alle i ∈ {1, . . . , m} die Folge {πi ◦ Xn }n∈N stochastisch gegen πi ◦ X konvergiert, dann konvergiert f¨ ur jede stetige Funktion h : Rm → R die Folge {h ◦ Xn }n∈N stochastisch gegen h ◦ X.
14.3 Konvergenz im p–ten Mittel F¨ ur p ∈ [1, ∞] setzen wir Lp := Lp (F , P ) ¨ Jede Zufallsvariable in einer Aquivalenzklasse von Lp ist fast sicher reell. Wir erinnern daran, dass f¨ ur p ∈ [1, ∞) eine Folge von Zufallsvariablen {Xn }n∈N in Lp im p–ten Mittel gegen eine Zufallsvariable X ∈ Lp konvergiert, wenn µZ ¶1/p p lim |Xn −X| dP =0 n→∞
Ω
gilt; diese Bedingung ist offenbar gleichwertig mit lim E[|Xn −X|p ] = 0
n→∞
Das folgende Ergebnis ergibt sich unmittelbar aus Satz 8.4.8:
336
Kapitel 14. Konvergenz von Folgen von Zufallsvariablen
14.3.1 Satz. Sei p ∈ [1, ∞). Dann konvergiert jede Folge von reellen Zufallsvariablen in Lp , die im p–ten Mittel gegen eine reelle Zufallsvariable X ∈ Lp konvergiert, auch stochastisch gegen X. Das folgende Beispiel zeigt, dass die stochastische Konvergenz schw¨ acher ist als die Konvergenz im p–ten Mittel: 14.3.2 Beispiel. Sei (Ω, F , P ) := ((0, 1], B(0, 1], λ|B(0,1] ) und sei p ∈ [1, ∞). F¨ ur n ∈ N sei Xn := n1/p χ(0,1/n] Dann gilt f¨ ur alle ε ∈ (0, ∞) lim P [{Xn ≥ ε}] = 0
n→∞
Daher konvergiert die Folge {Xn }n∈N stochastisch gegen 0. Andererseits gilt lim E[Xnp ] = 1
n→∞
Daher konvergiert die Folge {Xn }n∈N nicht im p–ten Mittel gegen 0.
Die in Beispiel 14.3.2 betrachtete Folge konvergiert sogar fast sicher gegen 0. Sie ist daher gleichzeitig ein Beispiel daf¨ ur, dass eine fast sicher konvergente Folge nicht notwendigerweise auch im p–ten Mittel konvergent ist, und sie verletzt offenbar die Bedingungen des Satzes u ¨ber die monotone Konvergenz und des Satzes u ur ¨ ber die majorisierte Konvergenz, die beide hinreichend daf¨ sind, dass eine fast sicher konvergente Folge von reellen Zufallsvariablen auch im Mittel gegen denselben Limes konvergiert. Da P ein Wahrscheinlichkeitsmaß ist, gilt f¨ ur alle p, r ∈ [0, ∞) mit p ≤ r die Inklusion Lr ⊆ Lp ; vgl. Beispiel 8.4.9(2). Dar¨ uber hinaus gilt das folgende Ergebnis: 14.3.3 Satz. Sei p, r ∈ [1, ∞) mit p ≤ r. Dann konvergiert jede Folge von Zufallsvariablen in Lr , die im r–ten Mittel gegen eine Zufallsvariable X ∈ Lr konvergiert, auch im p–ten Mittel gegen X. Beweis. Sei {Xn }n∈N ⊆ Lr eine Folge von Zufallsvariablen, die im r–ten Mittel gegen eine Zufallsvariable X ∈ Lr konvergiert. Wir k¨ onnen ohne Beschr¨ ankung der Allgemeinheit annehmen, dass X = 0 gilt. Wegen p ≤ r ist die Funktion h : R+ → R mit h(x) := xp/r konkav, und aus der Ungleichung von Jensen folgt nun E[|Xn |p ] = E[(|Xn |r )p/r ] ≤ (E[|Xn |r ])p/r = ((E[|Xn |r ])1/r )p Daher gilt k |Xn | kp = (E[|Xn |p ])1/p ≤ (E[|Xn |r ])1/r = k |Xn | kr Die Behauptung folgt.
2
15 Gesetze der Großen Zahlen
F¨ ur eine Folge von Zufallsvariablen {Xk }k∈N in L1 mit E[Xk ] = µ f¨ ur alle k ∈ N gilt aufgrund der Linearit¨at des Erwartungswertes " n # 1X E Xk = µ n k=1
Wir untersuchen in diesem Kapitel die Frage, unter welchen Bedingungen und f¨ ur welchen Konvergenzbegriff f¨ ur eine derartige Folge n
1X Xk = µ n→∞ n lim
k=1
gilt. Wir geben zun¨ achst hinreichende Bedingungen daf¨ ur an, dass f¨ ur eine solche Pn Folge die Folge {n−1 k=1 Xk } stochastisch (Abschnitt 15.1) oder fast sicher (Abschnitt 15.2) gegen µ konvergiert; die entsprechenden Konvergenzs¨ atze werden als schwache bzw. starke Gesetze der Großen Zahlen bezeichnet. Die Gesetze der Großen Zahlen und der aus ihnen abgeleitete Satz von Glivenko/ Cantelli (Abschnitt 15.3) bilden eine wesentliche Grundlage der Statistik. Als eine weitere Anwendung des starken Gesetzes der Großen Zahlen behandeln wir Irrfahrten (Abschnitt 15.4).
15.1 Schwache Gesetze der Großen Zahlen Eine Folge von Zufallsvariablen {Xk }k∈N in L1 mit E[Xk ] = µ f¨ ur alle k ∈ N gen¨ ugt dem schwachen Gesetz der Großen Zahlen wenn n
1X Xk = µ n→∞ n lim
k=1
bez¨ uglich der stochastischen Konvergenz gilt. K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_15, © Springer-Verlag Berlin Heidelberg 2011
338
Kapitel 15. Gesetze der Großen Zahlen
Der folgende Satz enth¨alt eine allgemeine Version des schwachen Gesetzes der Großen Zahlen: 15.1.1 Satz (Schwaches Gesetz der Großen Zahlen). Sei {Xk }k∈N eine Folge in L2 mit E[Xk ] = µ f¨ ur alle k ∈ N und " n # 1X lim var Xk = 0 n→∞ n k=1
Dann gilt
n
1X Xk = µ n→∞ n lim
k=1
im quadratischen Mittel und stochastisch. Beweis. Wegen
"
# n 1X E Xk = µ n k=1
gilt ° n °2 "Ã n !2 # °1 X ° 1X ° ° Xk − µ° = E Xk − µ ° °n ° n k=1 k=1 2 " n # 1X = var Xk − µ n k=1 " n # 1X = var Xk n k=1
und aus der Voraussetzung folgt nun die Konvergenz im quadratischen Mittel. Aus Satz 14.3.1 ergibt sich dann die stochastische Konvergenz. 2 Eine Folge von Zufallsvariablen {Xk }k∈N in L2 heißt (paarweise) unkorreliert, wenn f¨ ur alle i, k ∈ N mit i 6= k cov [Xi , Xk ] = 0 gilt. F¨ ur unkorrelierte Folgen von Zufallsvariablen in L2 , die alle denselben Erwartungswert und außerdem dieselbe Varianz besitzen, ergibt sich eine besonders einpr¨ agsame Version des schwachen Gesetzes der Großen Zahlen: 15.1.2 Folgerung (Schwaches Gesetz der Großen Zahlen). Sei {Xk }k∈N eine unkorrelierte Folge in L2 mit E[Xk ] = µ und var [Xk ] = σ 2 f¨ ur alle k ∈ N. Dann gilt n 1X lim Xk = µ n→∞ n k=1
im quadratischen Mittel und stochastisch.
15.1 Schwache Gesetze der Großen Zahlen
339
Beweis. Nach Voraussetzung gilt "
# n n 1X 1 X 1 σ2 var Xk = 2 var [Xk ] = 2 nσ 2 = n n n n k=1
k=1
Die Behauptung folgt nun aus Satz 15.1.1.
2
Das folgende Beispiel zeigt, dass insbesondere die bei der wiederholten Durchf¨ uhrung eines Zufallsexperimentes auftretenden relativen H¨ aufigkeiten f¨ ur das Eintreten eines bestimmten Ereignisses gegen die Wahrscheinlichkeit des Ereignisses konvergieren; die spezielle Form des Zufallsexperimentes ist dabei unwesentlich. 15.1.3 Beispiel (Wurf einer M¨ unze). Wir betrachten den wiederholten Wurf einer M¨ unze. Wir nehmen an, dass – zwischen den verschiedenen W¨ urfen der M¨ unze keine gegenseitige Beeinflussung besteht, – bei jedem Wurf nur Kopf oder Zahl auftreten kann, und – die Chance f¨ ur das Auftreten von Kopf beim einmaligen Wurf gleich einer reellen Zahl ϑ ∈ (0, 1) ist. Wir interessieren uns f¨ ur die Konvergenz des Anteils derjenigen W¨ urfe, bei denen Kopf auftritt, wenn die Anzahl der W¨ urfe gegen Unendlich strebt. Wir w¨ ahlen folgende Modelle: – Als Modell f¨ ur den i–ten Wurf w¨ ahlen wir den diskreten Wahrscheinlichkeitsraum (Ωi , Fi , Pi ) mit Ωi := {K, Z} sowie Fi = 2Ωi und dem durch Pi [{K}] := ϑ festgelegten Wahrscheinlichkeitsmaß. – Als Modell f¨ ur den wiederholten Wurf w¨ ahlen wir den Wahrscheinlichkeitsraum (Ω, F , P ) :=
O (Ωi , Fi , Pi ) i∈N
F¨ ur alle i ∈ N sei Xi : Ω → R gegeben durch ½ Xi (ω) :=
1 0
falls ωi = K falls ωi = Z
1 0
falls ωi = K falls ωi = Z
und sei hi : Ωi → R gegeben durch ½ hi (ωi ) := Dann gilt Xi = h ◦ πi Nach Satz 11.4.1 ist die Folge {πi }i∈N unabh¨ angig und aus Satz 11.3.3 folgt nun, dass auch die Folge {Xi }i∈N unabh¨ angig ist. F¨ ur alle i ∈ N gilt außerdem PXi = B(ϑ).
340
Kapitel 15. Gesetze der Großen Zahlen
F¨ ur n ∈ N gibt die Zufallsvariable n 1X Xi n i=1
f¨ ur n W¨ urfe den Anteil derjenigen W¨ urfe an, bei denen Kopf auftritt; dieser Anteil wird auch als relative H¨ aufigkeit f¨ ur das Eintreten des Ereignisses {K} bei einem einzelnen Wurf bezeichnet. Dann gilt " # n 1X E Xi = ϑ n i=1 und
"
# n ϑ(1−ϑ) 1X var Xi = n i=1 n
Aus dem schwachen Gesetz der Großen Zahlen folgt nun lim
n→∞
n 1X Xi = ϑ n i=1
im quadratischen Mittel und stochastisch, und damit die Konvergenz der relativen H¨ aufigkeiten f¨ ur das Auftreten von Kopf gegen die Wahrscheinlichkeit daf¨ ur, dass bei einem einzelnen Wurf das Ereignis {K} eintritt.
Aufgaben 15.1.A Schwaches Gesetz der Großen Zahlen: Sei {Xk }k∈N eine Folge in L2 mit " # n 1X lim var Xk = 0 n→∞ n k=1
Dann gilt n ´ 1 X³ Xk −E[Xk ] = 0 n→∞ n
lim
k=1
im quadratischen Mittel und stochastisch. 15.1.B Schwaches Gesetz der Großen Zahlen: Sei {Xk }k∈N eine unkorrelierte Folge in L2 mit E[Xk ] = µ f¨ ur alle k ∈ N und sup var [Xk ] < ∞ k∈N
Dann gilt lim
n→∞
n 1X Xk = µ n k=1
im quadratischen Mittel und stochastisch. Geben Sie eine geometrische Interpretation der Konvergenz im quadratischen Mittel.
15.2 Starke Gesetze der Großen Zahlen
341
15.2 Starke Gesetze der Großen Zahlen Eine Folge von Zufallsvariablen {Xk }k∈N in L1 mit E[Xk ] = µ f¨ ur alle k ∈ N gen¨ ugt dem starken Gesetz der Großen Zahlen, wenn n
1X lim Xk = µ n→∞ n k=1
fast sicher gilt. Das im letzten Abschnitt bewiesene schwache Gesetz der Großen gibt PZahlen n f¨ ur eine solche Folge eine Bedingung an, unter der die Folge {n−1 k=1 Xk }n∈N stochastisch gegen µ konvergiert. Nach dem Teilfolgenprinzip konvergiert eine Teilfolge dieser Folge auch fast sicher gegen µ. Wir geben nun Bedingungen an, unter denen sogar die gesamte Folge fast sicher gegen µ konvergiert und damit dem starken Gesetz der Großen Zahlen gen¨ ugt. Als erstes zeigen wir, dass f¨ ur eine Pn unabh¨angige Folge von reellen Zufallsvariablen {Xk }k∈N die Folge {n−1 k=1 Xk }n∈N entweder fast sicher konvergent oder fast sicher divergent ist und dass dar¨ uber hinaus im Fall der fast sicheren Konvergenz der Limes eine konstante Zufallsvariable ist: 15.2.1 Satz (Null–Eins–Gesetz). Sei {Xk }k∈N eine unabh¨ angige Folge von reellen Zufallsvariablen und sei ( ) n n 1X 1X A := lim inf Xk = lim sup Xk n→∞ n n→∞ n k=1
k=1
Dann gilt P [A] ∈ {0, 1} und im Fall P [A] = 1 gibt es ein c ∈ [−∞, ∞] mit n
1X Xk = c n→∞ n lim
k=1
fast sicher. Beweis. Sei E∞ die terminale σ–Algebra der Folge {σ(Xk )}k∈N . F¨ ur alle m ∈ N und alle n ∈ N(m) gilt n m−1 n 1X 1 X 1 X Xk = Xk + Xk n n n k=1
und wegen limn→∞
1 n
Pm−1 k=1
k=1
k=m
Xk = 0 folgt daraus
( A=
n n 1 X 1 X lim inf Xk = lim sup Xk n→∞ n n→∞ n k=m
k=m
)
342
Kapitel 15. Gesetze der Großen Zahlen
S∞ T S∞ und damit A ∈ σ( k=m σ(Xk )). Daher gilt A ∈ m∈N σ( k=m σ(Xk )) = E∞ und aus dem Null–Eins–Gesetz von P Kolmogorov folgt nun P [A] ∈ {0, 1}. n Im Fall P [A] = 1 ist die Folge {n−1 k=1 Xk }n∈N fast sicher konvergent und f¨ ur alle m ∈ N gilt n n 1X 1 X Xk = lim Xk n→∞ n n→∞ n
lim
k=1
k=m
Pn fast sicher. Daher ist die Zufallsvariable limn→∞ n−1 k=1 Xk E∞ –messbar und damit fast sicher konstant; es gibt also eine Konstante c ∈ [−∞, ∞] mit n
1X Xk = c n→∞ n lim
k=1
fast sicher.
2
Es gilt nun, in der Situation des letzten Satzes zus¨ atzliche Bedingungen zu finden, unter denen der Fall der fast sicheren Konvergenz eintritt, und unter diesen Bedingungen auch den fast sicher konstanten Limes zu bestimmen. Wie im Fall des schwachen Gesetzes der Großen Zahlen in der Version von Folgerung 15.1.2 erweist sich auch hier eine Bedingung an die Varianzen als hinreichend. 15.2.2 Lemma (Ungleichung von Kolmogorov). Sei {Xk }k∈N eine unabh¨ angige Folge in L2 . Dann gilt f¨ ur alle ε ∈ (0, ∞) und m ∈ N ¯ ¯ "( )# n ³ ∞ ¯X ´¯ 1 X ¯ ¯ P sup ¯ Xk − E[Xk ] ¯ > ε ≤ 2 var [Xk ] ¯ ε n∈N(m)¯ k=m
k=m
Beweis. Es gen¨ ugt, die Ungleichung f¨ ur m = 1 zu beweisen. F¨ ur n ∈ N sei Sn :=
n ³ X
´ Xk − E[Xk ]
k=1
und An := {|Sn | > ε} ∩
n−1 \
{|Sk | ≤ ε}
k=1
Dann gilt {supn∈N |Sn | > ε} =
P∞ n=1
An und damit
·½ P
¾¸ sup |Sn | > ε
n∈N
=
∞ X n=1
P [An ]
15.2 Starke Gesetze der Großen Zahlen
343
Zur Absch¨ atzung der rechten Seite dieser Gleichung betrachten wir zun¨ achst r ∈ N und n ∈ {1, . . . , r}. Da die Familie {σ(Xk )}k∈N unabh¨ angig ist, ist nach dem Blocklemma auch {σ(X1 , . . . , Xn ), σ(Xn+1 , . . . , Xr )} unabh¨ angig. Daher ist {Sn χAn , Sr −Sn } unabh¨angig, und daraus folgt mit E[Sr ] = 0 = E[Sn ] E[(Sr −Sn ) Sn χAn ] = E[Sr −Sn ] E[Sn χAn ] = 0 und damit ε2 P [An ] = E[ε2 χAn ] ≤ E[Sn2 χAn ] ≤ E[(Sr −Sn )2 χAn ] + E[2(Sr −Sn )Sn χAn ] + E[Sn2 χAn ] = E[Sr2 χAn ] Durch Summation ergibt sich nun aus der Definition der Ereignisse An und mit E[Sr ] = 0 und der Unabh¨angigkeit der Folge {Xk }k∈N ε
2
r X
P [An ] ≤
n=1
r X
E[Sr2 χAn ]
n=1
≤ E[Sr2 ] = var [Sr ] " r # X = var Xn n=1
= ≤
r X n=1 ∞ X
var [Xn ] var [Xn ]
n=1
Daher gilt ∞ X
P [An ] ≤
n=1
∞ 1 X var [Xn ] ε2 n=1
und damit ·½ P
¾¸ sup |Sn | > ε
n∈N
Damit ist das Lemma bewiesen.
=
∞ X n=1
P [An ] ≤
∞ 1 X var [Xn ] ε2 n=1
2
Aus der Ungleichung von Kolmogorov ergibt sich eine erste Konvergenzaussage:
344
Kapitel 15. Gesetze der Großen Zahlen
15.2.3 Lemma. Sei {Xk }k∈N eine unabh¨ angige Folge von Zufallsvariablen in L2 mit ∞ X var [Xk ] < ∞ k=1
Dann konvergiert die Reihe ∞ ³ ´ X Xk − E[Xk ] k=1
fast sicher und in L2 gegen eine reelle Zufallsvariable. Beweis. F¨ ur n ∈ N sei wieder Sn :=
n ³ X
´ Xk − E[Xk ]
k=1
Nach der Ungleichung von Kolmogorov gilt f¨ ur alle ε ∈ (0, ∞) und m ∈ N ·½ ¾¸ ·½ ¾¸ P sup |Sn − Sm | > ε =P sup |Sn − Sm | > ε n∈N(m)
n∈N(m+1)
¯ ¯ )# n ¯ X ³ ´¯ ¯ ¯ sup ¯ Xk − E[Xk ] ¯ > ε ¯ n∈N(m+1)¯
"( =P
k=m+1
≤
1 ε2
∞ X
var [Xk ]
k=m+1
und aus der Voraussetzung folgt nun f¨ ur alle ε ∈ (0, ∞) ·½ ¾¸ lim P sup |Sn − Sm | > ε =0 m→∞
n∈N(m)
Daher folgt aus Lemma 14.1.1, dass die Folge {Sn }n∈N fast sicher gegen eine reelle Zufallsvariable konvergiert. Des weiteren gilt f¨ ur alle m ∈ N und n ∈ N(m) kSn −
Sm k22
° ° " n # n n ° X ³ ´°2 X X ° ° =° Xk − E[Xk ] ° = var Xk = var [Xk ] ° ° k=m+1
2
k=m+1
k=m+1
und aus der Voraussetzung folgt nun, dass die Folge {Sn }n∈N eine Cauchy– Folge in L2 und damit in L2 konvergent ist. Da jede im quadratischen Mittel konvergente Folge eine fast sicher konvergente Teilfolge besitzt, stimmen die Limites bez¨ uglich der fast sicheren Konvergenz und der Konvergenz im quadratischen Mittel u 2 ¨berein.
15.2 Starke Gesetze der Großen Zahlen
345
Wir ben¨ otigen nun noch eine Eigenschaft unendlicher Reihen: 15.2.4 Lemma (Kronecker). Sei {ak }k∈N eine Folge reeller Zahlen mit ∞ X ak
k
k=1
f¨ ur ein a ∈ R. Dann gilt
=a
n
1X ak = 0 n→∞ n lim
k=1
Beweis. F¨ ur n ∈ N sei bn :=
n X ak
k
k=1
(und damit b0 = 0). Dann gilt f¨ ur alle m ∈ N und n ∈ N(m) n
n
1X 1X ak = k (bk −bk−1 ) n n k=1 k=1 Ã n ! n n X X 1 X = kbk − (k−1)bk−1 − bk−1 n k=1
k=1
k=1
n 1X = (bn −bk−1 ) n
1 = n
k=1 m X k=1
1 (bm −bk−1 ) + n
Ã
m X
(bn −bm ) +
k=1
n X
! (bn −bk−1 )
k=m+1
Nach Voraussetzung ist die Folge {bn }n∈N konvergent mit limn→∞ bn = a und insbesondere eine Cauchy–Folge. Daraus folgt die Behauptung. 2 Wir k¨ onnen nun eine allgemeine Version des ersten starken Gesetzes der Großen Zahlen beweisen: 15.2.5 Satz (1. Gesetz der Großen Zahlen; Kolmogorov). Sei {Xk }k∈N eine unabh¨ angige Folge in L2 mit E[Xk ] = µ f¨ ur alle k ∈ N und ∞ X var [Xk ] k=1
Dann gilt
k2 n
1X Xk = µ n→∞ n lim
k=1
fast sicher.
<∞
346
Kapitel 15. Gesetze der Großen Zahlen
Beweis. Nach Voraussetzung gilt ∞ X
· var
k=1
Xk k
¸ <∞
und aus Lemma 15.2.3 folgt, dass die Reihe · ¸¶ ∞ ∞ µ ´ X X 1³ Xk Xk Xk − E[Xk ] = −E k k k k=1
k=1
fast sicher gegen eine reelle Zufallsvariable konvergiert. Aus Kroneckers Lemma folgt nun ´ 1 X³ Xk − E[Xk ] = 0 n→∞ n n
lim
k=1
fast sicher.
2
F¨ ur unabh¨ angige Folgen von Zufallsvariablen in L2 , die alle denselben Erwartungswert und außerdem dieselbe Varianz besitzen, ergibt sich eine besonders einpr¨ agsame Version des ersten starken Gesetzes der Großen Zahlen: 15.2.6 Folgerung (1. Gesetz der Großen Zahlen; Kolmogorov). Sei {Xk }k∈N eine unabh¨ angige Folge in L2 mit E[Xk ] = µ und var [Xk ] = σ 2 f¨ ur alle k ∈ N. Dann gilt n 1X lim Xk = µ n→∞ n k=1
2
fast sicher und in L . Beweis. Die fast sichere Konvergenz ergibt sich aus Satz 15.2.5 und die Konvergenz in L2 ergibt sich aus Folgerung 15.1.2, da jede unabh¨ angige Folge in L2 unkorreliert ist. 2 Der Vergleich von Folgerung 15.2.6 mit Folgerung 15.1.2 zeigt, dass eine Folge {Xk }k∈N in L2 mit E[Xk ] = µ und var [Xk ] = σ 2 f¨ ur alle k ∈ N – dem schwachen Gesetz der Großen Zahlen gen¨ ugt, wenn sie unkorreliert ist, und – dem starken Gesetz der Großen Zahlen gen¨ ugt, wenn sie unabh¨ angig ist. Dies entspricht genau der Tatsache, dass – jede unabh¨ angige Folge unkorreliert ist und – jede fast sicher konvergente Folge stochastisch konvergent ist, w¨ ahrend die umgekehrten Implikationen im allgemeinen falsch sind. Nach Folgerung 15.2.6 konvergiert insbesondere die in Beispiel 15.1.3 betrachtete Folge der relativen H¨aufigkeiten eines Ereignisses nicht nur stochastisch, sondern sogar fast sicher gegen die Wahrscheinlichkeit des Ereignisses.
15.2 Starke Gesetze der Großen Zahlen
347
Im 1. Gesetz der Großen Zahlen wird in der Voraussetzung die quadratische Integrierbarkeit der Zufallsvariablen gefordert, obwohl in der Formulierung der Konvergenzaussage nur die Integrierbarkeit ben¨ otigt wird. Damit stellt sich die Frage, ob sich ein starkes Gesetz der Großen Zahlen auch unter Verzicht auf die Varianzbedingung beweisen l¨asst. Eine Familie von Zufallsvariablen {Xi }i∈I heißt identisch verteilt, wenn alle Zufallsvariablen dieselbe Verteilung besitzen; in diesem Fall bezeichnen wir mit X eine beliebige Zufallsvariable mit PX = PXi f¨ ur alle i ∈ I und nennen X eine typische Zufallsvariable der Familie {Xi }i∈I . Wir zeigen nun, dass f¨ ur eine Folge von Zufallsvariablen, die nicht nur unabh¨ angig, sondern auch identisch verteilt sind, die im 1. Gesetz der Großen Zahlen auftretende Varianzbedingung entbehrlich ist; in diesem Fall stellt sich außerdem heraus, dass die Zufallsvariablen genau dann integrierbar sind, wenn die Folge dem starken Gesetz der Großen Zahlen gen¨ ugt. 15.2.7 Satz (2. Gesetz der Großen Zahlen; Kolmogorov). Sei {Xk }k∈N eine unabh¨ angig und identisch verteilte Folge in L1 mit E[X] = µ. Dann gilt n 1X lim Xk = µ n→∞ n k=1
fast sicher. Beweis. F¨ ur alle k ∈ N sei Zk : Ω → R gegeben durch Zk (ω) := Xk (ω) χ(−k,k) (Xk (ω)) und sei Jk := (−k, −k+1] ∪ [k−1, k) Dann ist {Zk }k∈N eine unabh¨angige Folge in L2 . Wir zeigen: (1) Es gilt n ´ 1 X³ lim Xk − Zk = 0 n→∞ n k=1
fast sicher. (2) Es gilt
´ 1 X³ Zk − E[Zk ] = 0 n→∞ n n
lim
k=1
fast sicher. (3) Es gilt
n ´ 1 X³ E[Zk ] − µ = 0 n→∞ n
lim
k=1
348
Kapitel 15. Gesetze der Großen Zahlen
Dann gilt offenbar n ´ 1 X³ Xk − µ = 0 n→∞ n
lim
k=1
fast sicher, und daraus folgt die Behauptung. Wir beweisen nun die genannten Teilergebnisse: (1) Nach Lemma 12.3.1 gilt ∞ X
P [{Xk 6= Zk }] =
k=1
=
∞ X k=1 ∞ X
P [{|Xk | ≥ k}] P [{|X| ≥ k}]
k=1
≤ E[|X|] Aus der Endlichkeit des Erwartungswertes von |X| und dem 1. Lemma von Borel/Cantelli folgt nun P [lim supn→∞ {Xk 6= Zk }] = 0 und damit h i P lim inf {Xk = Zk } = 1 n→∞
Daher gibt es eine Nullmenge N ∈ F derart, dass es zu jedem ω ∈ Ω \ N ein kω ∈ N gibt derart, dass Xk (ω) = Zk (ω) f¨ ur alle k ∈ N(kω ) gilt. Daraus folgt ´ 1 X³ Xk − Zk = 0 n→∞ n n
lim
k=1
fast sicher. Damit ist (1) gezeigt. (2) F¨ ur alle k ∈ N gilt var [Zk ] ≤ E[Zk2 ] = E[Xk2 χ(−k,k) (Xk )] Z = x2 dPX (x) (−k,k)
=
k Z X j=1
x2 dPX (x)
Jj
Z k X ≤ j j=1
|x| dPX (x)
Jj
Ferner gilt Z ∞ ∞ Z X X 1 1 1 1 1 1 1 2 ≤ + dλ(x) = + dλ(x) = 2 + ≤ 2 2 2 k2 j2 x j x j j j (k,k+1] (j,∞) k=j
k=j
15.2 Starke Gesetze der Großen Zahlen
349
und damit ∞ X j ≤2 k2 k=j
Daher gilt ∞ X var [Zk ] k=1
k2
Z ∞ k X 1 X j |x| dPX (x) k 2 j=1 Jj k=1 Z ∞ X ∞ X j = |x| dPX (x) k 2 Jj j=1 k=j ∞ Z X ≤2 |x| dPX (x) ≤
j=1
Z =2
Jj
|x| dPX (x) R
= 2 E[|X|] Aus der Endlichkeit des Erwartungswertes von |X| und dem 1. Gesetz der Großen Zahlen folgt nun n ´ 1 X³ lim Zk − E[Zk ] = 0 n→∞ n k=1
fast sicher. Damit ist (2) gezeigt. (3) F¨ ur alle k ∈ N gilt ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯E[Zk ] − µ¯ = ¯E[Zk ] − E[Xk ]¯ ≤ E[|Zk −Xk |] ∞ Z X = |x| dPXk (x) =
j=k+1 Jj ∞ Z X j=k+1
|x| dPX (x)
Jj
Aus der Endlichkeit des Erwartungswertes von |X| folgt nun ¯ ¯ ¯ ¯ lim ¯E[Zk ] − µ¯ = 0 n→∞
und damit n ´ 1 X³ E[Zk ] − µ = 0 n→∞ n
lim
k=1
Damit ist auch (3) gezeigt.
2
350
Kapitel 15. Gesetze der Großen Zahlen
F¨ ur eine unabh¨ angig und identisch verteilte Folge von Zufallsvariablen in L2 ist die Varianzbedingung aus dem 1. Gesetz der Großen Zahlen offenbar erf¨ ullt. Der Vorteil des 2. Gesetzes der Großen Zahlen besteht darin, dass es sogar f¨ ur jede unabh¨ angig und identisch verteilte Folge von Zufallsvariablen in L1 gilt. F¨ ur eine unabh¨ angig und identisch verteilte Folge {Xk }k∈N von Zufallsvariablen bezeichnen wir die Zufallsvariablen n 1X Xk n k=1
auch als Stichprobenmittel zum Stichprobenumfang n ∈ N. Als n¨ achstes wenden wir uns der Frage zu, ob sich f¨ ur eine unabh¨ angig und identisch verteilte Folge {Xk }k∈N von Zufallsvariablen die fast sichere Konvergenz der Folge der Stichprobenmittel gegen eine reelle Zahl auch dann einstellen kann, wenn E[|X|] = ∞ gilt: 15.2.8 Satz. Sei {Xk }k∈N eine unabh¨ angig und identisch verteilte Folge von Zufallsvariablen. Dann sind ¨ aquivalent: (a) Es gilt X ∈ L1 . (b) Die Folge der Stichprobenmittel konvergiert gegen eine reelle Zahl. (c) Die Folge der Stichprobenmittel konvergiert gegen eine reelle Zufallsvariable. Beweis. Nach dem 2. Gesetz der Großen Zahlen folgt (b) aus (a), und nach dem Null–Eins–Gesetz 15.2.1 sind (b) und (c) ¨ aquivalent. Wir nehmen nun an, dass (b) gilt. Wegen n n−1 1 1X n−1 1 X Xn = Xk − Xk n n n n−1 k=1
k=1
gilt dann 1 Xn = 0 n→∞ n lim
fast sicher, und damit ¯ · ¸ · ½¯ ¾¸ ¯1 ¯ ¯ ¯ P lim sup{|Xn | ≥ n} = P lim sup ¯ Xn ¯ ≥ 1 =0 n n→∞ n→∞ Da die Folge {Xn }n∈N unabh¨angig und identisch verteilt ist, folgt aus dem Null–Eins–Gesetz von Borel ∞ ∞ X X P [{|X| ≥ n}] = P [{|Xn | ≥ n}] < ∞ n=1
n=1
Aus Lemma 12.3.1 folgt nun E[|X|] < ∞. Damit ist gezeigt, dass (a) aus (b) folgt. 2
15.2 Starke Gesetze der Großen Zahlen
351
Wir untersuchen nun die Konvergenz der Folge der Stichprobenmittel einer unabh¨ angig und identisch verteilten Folge von quasiintegrierbaren Zufallsvariablen: 15.2.9 Satz. Sei {Xk }k∈N eine unabh¨ angig und identisch verteilte Folge von Zufallsvariablen. P (1) Im Fall E[X − ] < ∞ = E[X + ] gilt limn→∞ n−1 Pnk=1 Xk = +∞. n (2) Im Fall E[X + ] < ∞ = E[X − ] gilt limn→∞ n−1 k=1 Xk = −∞. Beweis. Sei E[X − ] < ∞ = E[X + ]. Mit {Xk }k∈N ist auch die Folge {Xk− }k∈N unabh¨ angig und identisch verteilt, und aus dem 2. Gesetz der Großen Zahlen folgt wegen E[X − ] < ∞ n
1X − Xk = E[X − ] n→∞ n lim
k=1
Des weiteren ist f¨ ur m ∈ N die Folge {(Xk+ ∧m)}k∈N unabh¨ angig und identisch verteilt, und aus dem 2. Gesetz der Großen Zahlen folgt n
1X + Xk ∧ m = E[X + ∧ m] n→∞ n lim
k=1
und damit n
n
n
k=1
k=1
k=1
1X + 1X + 1X + lim inf Xk ≥ lim inf Xk ∧ m = lim Xk ∧ m = E[X + ∧ m] n→∞ n n→∞ n n→∞ n Aus dem Satz u ¨ber die monotone Konvergenz folgt nun n
1X + lim inf Xk ≥ sup E[X + ∧ m] = E[X + ] n→∞ n m∈N k=1
+
und wegen E[X ] = ∞ ergibt sich daraus n
1X + Xk = E[X + ] n→∞ n lim
k=1
Wegen Xk = Xk+ − Xk− und E[X − ] < ∞ = E[X + ] ergibt sich nun n
1X Xk = ∞ n→∞ n lim
k=1
Damit ist (1) gezeigt, und (2) ist dann klar.
2
Unser letztes Ergebnis zeigt, dass f¨ ur eine unabh¨ angig und identisch verteilte Folge {Xk }k∈N von Zufallsvariablen mit E[|X|] = ∞ die Folge der Stichprobenmittel fast sicher nicht gegen eine reelle Zahl konvergiert:
352
Kapitel 15. Gesetze der Großen Zahlen
15.2.10 Satz. Sei {Xk }k∈N eine unabh¨angig und identisch verteilte Folge von Zufallsvariablen mit E[|X|] = ∞. Dann gilt ¯ X ¯ ·½ ¾¸ ¯1 n ¯ P lim sup¯¯ Xk ¯¯ = ∞ =1 n→∞ n k=1
Beweis. Wegen n n−1 Xn 1X n−1 1 X = Xk − Xk n n n n−1 k=1
k=1
gilt ¯ ¯ ¯ n ¯ ¯ Xn ¯ ¯1 X ¯ ¯ ¯ ¯ lim sup ¯ ≤ 2 lim sup ¯ Xk ¯¯ n ¯ n n→∞ n→∞ k=1
und damit ¯ ¯ ¯ n ¯ ·½ ¾¸ ·½ ¾¸ ¯ Xn ¯ ¯1 X ¯ ¯=∞ ¯ ¯=∞ P lim sup ¯¯ ≤ P lim sup X k ¯n ¯ n ¯ n→∞ n→∞ k=1
Wir zeigen nun, dass ·½ P
¯ ¯ ¾¸ ¯ Xn ¯ ¯=∞ lim sup ¯¯ =1 n ¯ n→∞
gilt. F¨ ur alle m ∈ N gilt nach Voraussetzung E[|X|/m] = ∞ und aus Lemma 12.3.1 folgt ¯ ·½¯ ¾¸ X ·½¯ ¯ ¾¸ X ·½¯ ¯ ¾¸ ∞ ∞ ∞ X ¯ Xn ¯ ¯X ¯ ¯X ¯ ¯≥m ¯ ¯≥m ¯ ¯≥n P ¯¯ = P = P =∞ ¯n¯ ¯m¯ n ¯ n=1 n=1 n=1 Da die Folge {Xn }n∈N unabh¨angig ist, folgt aus dem Null–Eins–Gesetz von Borel ¯ · ½¯ ¾¸ ¯ Xn ¯ ¯ ¯≥m P lim sup ¯ =1 n ¯ n→∞ und damit
·½ P
¯ ¯ ¾¸ ¯ Xn ¯ ¯ ¯ lim sup ¯ ≥m =1 n ¯ n→∞
Da diese Gleichung f¨ ur alle m ∈ N gilt, ergibt sich ¯ ¯ ·½ ¾¸ ¯ Xn ¯ ¯=∞ P lim sup ¯¯ =1 n ¯ n→∞ Damit ist der Satz bewiesen.
2
15.3 Satz von Glivenko/Cantelli
353
Aufgaben 15.2.A 1. Gesetz der Großen Zahlen: Sei {Xk }k∈N eine unabh¨ angige Folge in L2 mit E[Xk ] = µ f¨ ur alle k ∈ N und supk∈N var [Xk ] < ∞. Dann gilt lim
n→∞
n 1X Xk = µ n k=1
2
fast sicher und in L . 15.2.B Poisson–Verteilung: Sei {Xk }k∈N eine unabh¨ angige Folge P von reellen Zufallsvariablen mit PXk = P(αk ) f¨ ur alle k ∈ N und α := ∞ k=1 αk < ∞. Dann konvergiert die Reihe ∞ X Xk k=1 2
fast sicher und in L gegen eine reelle Zufallsvariable X mit E[X] = α.
15.3 Satz von Glivenko/Cantelli Im gesamten Abschnitt sei F : R → [0, 1] eine Verteilungsfunktion und sei {Xk }k∈N eine unabh¨angig und identisch verteilte Folge von reellen Zufallsvariablen mit Verteilungsfunktion F . F¨ ur n ∈ N heißt die Abbildung Fn : R × Ω → [0, 1] mit n
Fn (x, ω) :=
1X χ(−∞,x] (Xk (ω)) n k=1
die empirische Verteilungsfunktion zu F und zum Stichprobenumfang n. Diese Bezeichnung wird durch das folgende Lemma gerechtfertigt: 15.3.1 Lemma. F¨ ur alle n ∈ N und jedes ω ∈ Ω ist die Funktion Fn ( . , ω) : R → [0, 1] eine Verteilungsfunktion und f¨ ur alle x ∈ R gilt n
Fn (x−, ω) =
1X χ(−∞,x) (Xk (ω)) n k=1
Beweis. Wir zeigen zun¨achst, dass Fn ( . , ω) eine Verteilungsfunktion ist: (i) F¨ ur alle x, y ∈ R mit x ≤ y gilt Fn (x, ω) ≤ Fn (y, ω). (ii) Sei x ∈ R. F¨ ur alle ε ∈ (0, ∞) gilt n
Fn (x+ε, ω) =
1X χ(−∞,x+ε] (Xk (ω)) n k=1
und damit limε→0 Fn (x+ε, ω) = Fn (x, ω). (iii) Es gilt limx→−∞ Fn (x, ω) = 0 und limx→∞ Fn (x, ω) = 1.
354
Kapitel 15. Gesetze der Großen Zahlen
Daher ist Fn ( . , ω) eine Verteilungsfunktion. Außerdem gilt f¨ ur alle x ∈ R Fn (x−, ω) = lim Fn (x−ε, ω) ε→0
n
1X = lim χ(−∞,x−ε] (Xk (ω)) ε→0 n k=1
n
1X = χ(−∞,x) (Xk (ω)) n k=1
Damit ist das Lemma gezeigt.
2
Aus der Definition der empirischen Verteilungsfunktion ist unmittelbar klar, dass f¨ ur alle n ∈ N und x ∈ R die Abbildung Fn (x, . ) : Ω → [0, 1] messbar ist. Wir untersuchen nun die Konvergenz der Folge {Fn (x, . )}n∈N . 15.3.2 Lemma. F¨ ur jedes x ∈ R gilt limn→∞ Fn (x, ω) = F (x) fast sicher. Beweis. Mit {Xk }k∈N ist auch die Folge {χ(−∞,x] ◦ Xk }n∈N unabh¨ angig und identisch verteilt. Außerdem gilt E[(χ(−∞,x] ◦ Xk )] = E[χ{Xk ≤x} ] = P [{Xk ≤ x}] = F (x) Aus dem starken Gesetz der Großen Zahlen folgt nun n
lim Fn (x, ω) =
n→∞
1X (χ(−∞,x] ◦ Xk )(ω) = F (x) n k=1
Damit ist das Lemma bewiesen.
2
Nach Lemma 15.3.2 gibt es zu jedem x ∈ R eine Nullmenge N (x) ∈ F derart, dass f¨ ur alle ω ∈ Ω \ N (x) ¯ ¯ ¯ ¯ lim ¯Fn (x, ω) − F (x)¯ = 0 n→∞
gilt. Das Bemerkenswerte an der Aussage des folgenden Satzes ist, dass man die Nullmengen N (x) durch eine von x ∈ R unabh¨ angige Nullmenge N ∈ F ersetzen kann und dass die Konvergenz f¨ ur alle ω ∈ Ω \ N gleichm¨ aßig in x ∈ R ist: 15.3.3 Satz (Glivenko/Cantelli). Es gilt ¯ ¯ ¯ ¯ lim sup ¯Fn (x, ω) − F (x)¯ = 0 n→∞ x∈R
fast sicher.
15.3 Satz von Glivenko/Cantelli
355
Beweis. Sei ϕ : (0, 1) → R gegeben durch ¯ n o ¯ ϕ(z) := inf x ∈ R ¯ z ≤ F (x) Dann gilt f¨ ur alle z ∈ (0, 1) F (ϕ(z)−) ≤ z ≤ F (ϕ(z)) F¨ ur m ∈ N und k ∈ {1, . . . , m} sei
µ
xm,k := ϕ
k m+1
¶
Dann gilt f¨ ur alle k ∈ {1, . . . , m} F (xm,k −) ≤
k ≤ F (xm,k ) m+1
und damit f¨ ur alle k ∈ {1, . . . , m−1} 1 m+1 1 F (xm,k+1 −) − F (xm,k ) ≤ m+1 1 1 − F (xm,m ) ≤ m+1 F¨ ur m, n ∈ N und ω ∈ Ω sei F (xm,1 −) ≤
∆m,n (ω)
¯ ¯ ¯o n¯ ¯ ¯ ¯ ¯ := max max ¯Fn (xm,k , ω)−F (xm,k )¯, ¯Fn (xm,k −, ω)−F (xm,k −)¯ 1≤k≤m
Mit Hilfe dieser Gr¨oßen erhalten wir f¨ ur alle ω ∈ Ω eine von x ∈ R unabh¨ angige Absch¨ atzung der Differenz |Fn (x, ω) − F (x)|: – F¨ ur x ∈ (−∞, xm,1 ) gilt Fn (x, ω) ≤ Fn (xm,1 −, ω) ≤ F (xm,1 −) + ∆m,n (ω) 1 + ∆m,n (ω) m+1 1 ≤ F (x) + + ∆m,n (ω) m+1 ≤
und F (x) ≤ F (xm,1 −) ≤
1 m+1
≤ Fn (x, ω) +
1 + ∆m,n (ω) m+1
356
–
Kapitel 15. Gesetze der Großen Zahlen
F¨ ur x ∈ [xm,k , xm,k+1 ) mit k ∈ {1, . . . , m−1} gilt Fn (x, ω) ≤ Fn (xm,k+1 −, ω) ≤ F (xm,k+1 −) + ∆m,n (ω) 1 + ∆m,n (ω) m+1 1 ≤ F (x) + + ∆m,n (ω) m+1 ≤ F (xm,k ) +
und F (x) ≤ F (xm,k+1 −) ≤ F (xm,k ) +
1 m+1
≤ Fn (xm,k , ω) + ∆m,n (ω) + ≤ Fn (x, ω) + –
1 m+1
1 + ∆m,n (ω) m+1
F¨ ur x ∈ [xm,m , +∞) gilt Fn (x, ω) ≤ 1 ≤ F (xm,m ) +
1 m+1
1 m+1 1 ≤ F (x) + + ∆m,n (ω) m+1 ≤ F (x) +
und F (x) ≤ 1 ≤ F (xm,m ) +
1 m+1
≤ Fn (xm,m , ω) + ∆m,n (ω) + ≤ Fn (x, ω) +
1 + ∆m,n (ω) m+1
Daher gilt f¨ ur alle ω ∈ Ω ¯ ¯ ¯ ¯ sup ¯Fn (x, ω) − F (x)¯ ≤ x∈R
1 m+1
1 + ∆m,n (ω) m+1
F¨ ur festes m ∈ N gilt nach Lemma 15.3.2 limn→∞ ∆m,n (ω) = 0 fast sicher und damit
15.4 Irrfahrten
357
¯ ¯ ¯ ¯ lim sup sup ¯Fn (x, ω) − F (x)¯ ≤ n→∞ x∈R
1 m+1
fast sicher. Da m ∈ N beliebig war und die Vereinigung einer Folge von Nullmengen wieder eine Nullmenge ist, erhalten wir nun ¯ ¯ ¯ ¯ lim sup sup ¯Fn (x, ω) − F (x)¯ = 0 n→∞ x∈R
fast sicher, und damit
¯ ¯ ¯ ¯ lim sup ¯Fn (x, ω) − F (x)¯ = 0
n→∞ x∈R
fast sicher.
2
Aufgabe 15.3.A Empirische Verteilung: Sei Q : B(R) → [0, 1] eine Verteilung und sei {Xk }k∈N eine unabh¨ angig und identisch verteilte Folge von Zufallsvariablen mit PX = Q. F¨ ur n ∈ N heißt die Abbildung Qn : B(R) × Ω → [0, 1] mit Qn (B, ω) :=
n 1X χB (Xk (ω)) n k=1
die empirische Verteilung zu Q und zum Stichprobenumfang n. Dann ist f¨ ur alle ω ∈ Ω die Abbildung Qn ( . , ω) : B(R) → [0, 1] eine Verteilung und f¨ ur alle B ∈ B(R) ist die Abbildung Qn (B, . ) : Ω → [0, 1] messbar.
15.4 Irrfahrten Im gesamten Abschnitt sei {Xk }k∈N eine unabh¨ angig und identisch verteilte Folge von reellen Zufallsvariablen und sei X eine typische Zufallsvariable dieser Folge. Wir untersuchen die Konvergenz der Folge {Sn }n∈N0 mit Sn :=
n X
Xk
k=1
und damit die Konvergenz der Reihe Irrfahrt mit Spr¨ ungen Xk .
P∞ k=1
Xk . Die Folge {Sn }n∈N0 heißt
Es erweist sich als zweckm¨aßig, das unendliche Produkt (RN , B(R)N ) =
∞ O
(R, B(R))
k=1
zu betrachten und die Folge {Xk }k∈N mit der Zufallsgr¨ oße X : Ω → RN mit den Koordinaten πk ◦ X = Xk zu identifizieren.
358
Kapitel 15. Gesetze der Großen Zahlen
Eine bijektive Abbildung τ : N → N heißt endliche Permutation, wenn es ein m ∈ N gibt mit τ (n) = n f¨ ur alle n ∈ N(m). Jede endliche Permutation τ erzeugt eine messbare Bijektion RN → RN , die wir der Einfachheit halber wieder mit τ bezeichnen. Dann ist f¨ ur jede endliche Permutation τ auch die Abbildung τ ◦ X : Ω → RN eine Zufallsgr¨oße. Eine messbare Funktion h : RN → [−∞, ∞] heißt X–permutierbar , wenn f¨ ur jede endliche Permutation τ h◦τ ◦X = h◦X gilt, und eine Menge A ∈ B(R)N heißt X–permutierbar , wenn ihre Indikatorfunktion χA X–permutierbar ist. 15.4.1 Lemma. Sei CX das Mengensystem aller X–permutierbaren Mengen. Dann ist CX eine σ–Algebra und jede X–permutierbare Funktion ist CX –messbar. Beweis. Aus der Definition ist unmittelbar klar, dass CX eine σ–Algebra ist. Sei nun h : RN → [−∞, ∞] X–permutierbar. Dann gilt f¨ ur alle c ∈ [−∞, ∞] und f¨ ur jede endliche Permutation τ : N → N χ{h≤c} ◦ τ ◦ X = χ{h◦τ ◦X≤c} = χ{h◦X≤c} = χ{h≤c} ◦ X und damit {h ≤ c} ∈ CX . Da c ∈ [−∞, ∞] beliebig war, ist h CX –messbar. 2 Aus diesem Lemma ergibt sich das Null–Eins–Gesetz von Hewitt/Savage: 15.4.2 Satz (Null–Eins–Gesetz; Hewitt/Savage). F¨ ur jede X–permutierbare Menge A ∈ B(R)N gilt PX [A] ∈ {0, 1}. Beweis. F¨ ur alle k ∈ N sei
³ ´ Gk := σ {πi }i∈{1,...,k}
und damit Gk = σ(π{1,...,k} ) Dann ist das Mengensystem G :=
[
Gk
k∈N
eine Algebra mit σ(G) = B(R)N und nach dem Approximationssatz 5.4.1 gibt es eine Folge {Gk }k∈N ⊆ G mit lim PX [A4Gk ] = 0
k→∞
Da die Folge {Gk }k∈N monoton wachsend ist, k¨ onnen wir annehmen, dass Gk ∈ Gk f¨ ur alle k ∈ N gilt.
15.4 Irrfahrten
359
F¨ ur alle k ∈ N sei τk : N → N gegeben durch n + k falls n ∈ {1, . . . , k} τk (n) := n − k falls n ∈ {k+1, . . . , 2k} n sonst Nach Wahl von Gk gibt es eine Menge Bk ∈ B(Rk ) mit −1 Gk = π{1,...,k} (Bk )
und wir setzen −1 Hk := π{k+1,...,2k} (Bk )
Dann gilt π{1,...,k} ◦ τk ◦ X = π{k+1,...,2k} ◦ X und damit −1 (τk ◦ X)−1 (Gk ) = X−1 (τk−1 (π{1,...,k} (Bk ))) −1 = X−1 (π{k+1,...,2k} (Bk ))
= X−1 (Hk ) Da A X–permutierbar ist, gilt außerdem χA ◦ τk ◦ X = χA ◦ X und damit (τk ◦ X)−1 (A) = X−1 (A) Daraus folgt (τk ◦ X)−1 (A4Gk ) = X−1 (A4Hk ) Da die Folge {Xk }k∈N unabh¨angig und identisch verteilt ist, gilt PX = Pτk ◦X und damit PX [Gk ] = Pτk ◦X [Gk ] = P [(τk ◦ X)−1 (Gk )] = P [X−1 (Hk )] = PX [Hk ] sowie PX [A4Gk ] = PX [A4Hk ] Wegen A4(Gk ∩ Hk ) ⊆ (A4Gk ) ∪ (A4Hk ) folgt daraus PX [A4(Gk ∩ Hk )] ≤ PX [A4Gk ] + PX [A4Hk ] = 2 PX [A4Gk ] Nach Wahl der Folge {Gk }k∈N gilt limk→∞ PX [A4Gk ] = 0. Wir erhalten daher
360
Kapitel 15. Gesetze der Großen Zahlen
lim PX [A4(Gk ∩ Hk )] = 0
k→∞
lim PX [A4Gk ] = 0
k→∞
lim PX [A4Hk ] = 0
k→∞
und damit wegen |PX [A] − PX [C]| ≤ PX [A4C] lim PX [Gk ∩ Hk ] = PX [A]
k→∞
lim PX [Gk ] = PX [A]
k→∞
lim PX [Hk ] = PX [A]
k→∞
Aus der Unabh¨ angigkeit der Folge {Xk }k∈N bez¨ uglich P folgt die Unabh¨ angigkeit der Folge {πk }k∈N bez¨ uglich PX . Daher ist f¨ ur jedes k ∈ N das Paar {Gk , Hk } unabh¨ angig bez¨ uglich PX und wir erhalten PX [A] = lim PX [Gk ∩ Hk ] k→∞
= lim (PX [Gk ] PX [Hk ]) k→∞
= lim PX [Gk ] · lim PX [Hk ] k→∞
k→∞
= PX [A] PX [A] und damit PX [A] ∈ {0, 1}.
2
Als unmittelbare Folgerung aus dem Null–Eins–Gesetz von Hewitt/Savage ergibt sich ein analoges Ergebnis f¨ ur X–permutierbare Funktionen: 15.4.3 Folgerung. Sei h : RN → [−∞, ∞] X–permutierbar. Dann ist h PX –fast sicher konstant und h ◦ X ist P –fast sicher konstant. Aus dem Null–Eins–Gesetz von Hewitt/Savage ergibt sich des weiteren die folgende bemerkenswerte Alternative f¨ ur die Konvergenz einer unendlichen Reihe von unabh¨ angig und identisch verteilten Zufallsvariablen: 15.4.4 Satz. Sei PX 6= δ 0 . Dann gilt eine der folgenden Alternativen: (1) limn→∞ Sn = ∞ fast sicher. (2) lim inf n→∞ Sn = −∞ und lim supn→∞ Sn = ∞ fast sicher. (3) limn→∞ Sn = −∞ fast sicher. Beweis. Sei g : RN → [−∞, ∞] gegeben durch g(x) := lim sup n→∞
n X k=1
xk
15.4 Irrfahrten
361
F¨ ur jede endliche Permutation τ : N → N und alle n ∈ N hinreichend groß gilt n X
xk =
k=1
n X
xτ (k)
k=1
Daher ist g X–permutierbar und nach Folgerung 15.4.3 gibt es ein c ∈ [−∞, ∞] mit P [{g ◦ X = c}] = 1 fast sicher. Wir betrachten nun die Zufallsgr¨oße Y : Ω → RN mit Yn := Xn+1 f¨ ur alle n ∈ N. Dann gilt PY = PX und damit P [{g ◦ X = c}] = PX [{g = c}] = PY [{g = c}] = P [{g ◦ Y = c}] Daher gilt lim sup n→∞
fast sicher und wegen
Pn+1 k=1
n X
Xk = c = lim sup n→∞
k=1
Xk = X1 +
Pn k=1
n X
Yk
k=1
Yk folgt nun
c = X1 + c Wegen PX 6= δ 0 gilt daher c ∈ {−∞, ∞}. Es gilt also "( )# n X P lim sup Xk ∈ {−∞, ∞} =1 n→∞
k=1
und aus Symmetriegr¨ unden gilt auch "( )# n X P lim inf Xk ∈ {−∞, ∞} =1 n→∞
k=1
Daraus folgt die Behauptung des Satzes.
2
Es bleibt die Aufgabe, die in Satz 15.4.4 angegebenen Alternativen geeignet zu charakterisieren. Dies gelingt in der Tat unter der zus¨ atzlichen Bedingung, dass alle Zufallsvariablen der Folge einen endlichen Erwartungswert besitzen. Wir ben¨ otigen das folgende Lemma: 15.4.5 Lemma. F¨ ur alle m ∈ N gilt ∞ X n=0
P [{|Sn | < m}] ≤ 2 m
∞ X n=0
P [{|Sn | < 1}]
362
Kapitel 15. Gesetze der Großen Zahlen
Beweis. Sei J ∈ J (R) ein halboffenes Intervall der L¨ ange 1 und f¨ ur n ∈ N sei An := {Sn ∈ J} und Bn := An ∩
n−1 \
Ak
k=1
Dann gilt ∞ X
χAk =
k=1
∞ X
χAk
k X
χBn =
n=1
k=1
∞ X ∞ X
χBn χAk
n=1 k=n
und damit ∞ X
P [{Sk ∈ J}] =
k=1
∞ X
P [Ak ]
k=1
=
Z ÃX ∞ Ω
Z =
χAk dP
k=1 Ã∞ ∞ XX
Ω
=
! ! χBn χAk dP
n=1 k=n ∞ X ∞ X
P [Bn ∩ Ak ]
n=1 k=n
F¨ ur alle n ∈ N und k ∈ N(n) gilt Bn ∩ Ak ⊆ An ∩ Ak ⊆ {|Sk −Sn | < 1}, also Bn ∩ Ak ⊆ Bn ∩ {|Sk −Sn | < 1}, und damit P [Bn ∩ Ak ] ≤ P [Bn ∩ {|Sk −Sn | < 1}] = P [Bn ] P [{|Sk −Sn | < 1}] = P [Bn ] P [{|Sk−n | < 1}] Also gilt ∞ X
P [{Sk ∈ J}] =
k=1
≤ =
∞ X ∞ X n=1 k=n ∞ X ∞ X n=1 k=n ∞ X ∞ X
P [Bn ∩ Ak ] P [Bn ] P [{|Sk−n | < 1}] P [Bn ] P [{|Sj | < 1}]
n=1 j=0
≤
∞ X j=0
P [{|Sj | < 1}]
15.4 Irrfahrten
363
F¨ ur alle n ∈ {1, . . . , m} sei Jn := (−n, −n+1] ∪ [n−1, n). Dann gilt ∞ X
P [{Sk ∈ J1 }] =
k=0
∞ X
P [{|Sk | < 1}]
k=0
und f¨ ur n ∈ {2, . . . , m} gilt wegen P [{S0 ∈ Jn }] = 0 und der vorher gezeigten Ungleichung ∞ X
P [{Sk ∈ Jn }] =
k=0
∞ X
P [{Sk ∈ Jn }]
k=1 ∞ X
≤2
P [{|Sk | < 1}]
k=0
Also gilt ∞ X
P [{|Sk | < m}] =
k=0
= =
∞ X
"( P
k=0 ∞ X m X k=0 n=1 m X ∞ X n=1 k=0 ∞ X
≤ 2m
Sk ∈
m X
)# Jn
n=1
P [{Sk ∈ Jn }] P [{Sk ∈ Jn }] P [{|Sk | < 1}]
k=0
Damit ist das Lemma bewiesen.
2
Der folgende Satz charakterisiert die in Satz 15.4.4 angegebenen Alternativen: 15.4.6 Satz (Chung/Fuchs). Sei X ∈ L1 mit PX 6= δ 0 . Dann gilt (1) E[X] > 0 genau dann, wenn limn→∞ Sn = ∞ fast sicher gilt. (2) E[X] = 0 genau dann, wenn lim inf n→∞ Sn = −∞ und lim supn→∞ Sn = ∞ fast sicher gilt. (3) E[X] < 0 genau dann, wenn limn→∞ Sn = −∞ fast sicher gilt. Beweis. Wir nehmen zun¨achst an, dass E[X] > 0 gilt. Nach dem 2. Gesetz der Großen Zahlen gilt dann 1 lim Sn = E[X] n→∞ n fast sicher und damit E[X] lim inf Sn ≥ lim n n→∞ n→∞ 2 fast sicher. Daher gilt in diesem Fall limn→∞ Sn = ∞ fast sicher. Wir nehmen nun an, dass E[X] < 0 gilt. Dann gilt aus Symmetriegr¨ unden limn→∞ Sn = − ∞ fast sicher.
364
Kapitel 15. Gesetze der Großen Zahlen
Wir nehmen schließlich an, dass E[X] = 0 gilt. Nach dem 2. Gesetz der Großen Zahlen konvergiert die Folge { n1 Sn }n∈N fast sicher und damit auch stochastisch gegen 0. Sei ε ∈ (0, ∞). Dann gibt es ein n(ε) ∈ N mit 1 2
P [{|Sn | < n ε}] ≥
f¨ ur alle n ∈ N(n(ε)). F¨ ur alle m ∈ N sei m(ε) := max{n ∈ N | n ε ≤ m}. Dann gilt f¨ ur alle n ∈ {n(ε), . . . , m(ε)} P [{|Sn | < m}] ≥
1 2
F¨ ur hinreichend große m ∈ N gilt n(ε) ≤ m(ε) und aus Lemma 15.4.5 folgt 2m
∞ X
P [{|Sn | < 1}] ≥
n=0
∞ X
P [{|Sn | < m}]
n=0 m(ε)
X
≥
P [{|Sn | < m}]
n=n(ε)
´ 1³ m(ε) + 1 − n(ε) 2µ ¶ 1 m ≥ − n(ε) 2 ε µ ¶ m ε n(ε) = 1− 2ε m ≥
und damit ∞ X
P [{|Sn | < 1}] ≥
n=0
µ ¶ 1 ε n(ε) 1− 4ε m
Daher gilt f¨ ur alle ε ∈ (0, ∞) ∞ X
P [{|Sn | < 1}] ≥
n=0
1 4ε
und daraus folgt ∞ X
P [{|Sn | < 1}] = ∞
n=0
Sei nun k ∈ N. F¨ ur alle m ∈ N setzen wir Am := {|Sm | < 1} ∩
∞ \ n=m+k
{|Sn | ≥ 1}
15.4 Irrfahrten
365
Dann ist f¨ ur jedes i ∈ {1, . . . , k} die Folge {Ai+jk }j∈N0 disjunkt, und es gilt "∞ # ∞ k X ∞ k X X X X P [Am ] = P [Ai+jk ] = P Ai+jk ≤ k m=1
i=1 j=0
i=1
j=0
Ferner gilt f¨ ur alle m ∈ N "∞ # " ∞ # \ \ P [{|Sm | < 1}] P {|Sl | ≥ 2} = P [{|Sm | < 1}] P {|Sn −Sm | ≥ 2} l=k
n=m+k
"
∞ \
= P {|Sm | < 1} ∩
{|Sn −Sm | ≥ 2}
n=m+k
"
∞ \
≤ P {|Sm | < 1} ∩
# #
{|Sn | ≥ 1}
n=m+k
= P [Am ] und damit ∞ X
P [{|Sm | < 1}] P
m=1
Wegen
P∞
m=0
"∞ \
# {|Sl | ≥ 2} ≤
∞ X
P [Am ] ≤ k
m=1
l=k
P [{|Sm | < 1}] = ∞ gilt daher "∞ # \ P {|Sl | ≥ 2} = 0 l=k
Daher gilt
" P
∞ \ ∞ [
# {|Sl | ≥ 2} = 0
k=1 l=k
und damit
"∞ ∞ # · ¸ \ [ P lim sup{|Sn | < 2} = P {|Sl | < 2} = 1 n→∞
k=1 l=k
Dann aber gilt weder limn→∞ Sn = ∞ noch limn→∞ Sn = −∞, und aus Satz 15.4.4 folgt lim supn→∞ Sn = ∞ und lim inf n→∞ Sn = − ∞ fast sicher. Die Behauptung folgt nun aus Satz 15.4.4. 2 Wir beenden diesen Abschnitt mit dem denkbar einfachsten Beispiel einer Irrfahrt: 15.4.7 Beispiel (Bernoulli–Irrfahrt). Sei P(X+1)/2 = B(ϑ). Dann gilt (1) ϑ > 1/2 genau dann, wenn limn→∞ Sn = ∞ fast sicher. (2) ϑ = 1/2 genau dann, wenn lim inf n→∞ Sn = −∞ und lim supn→∞ Sn = ∞ fast sicher. (3) ϑ < 1/2 genau dann, wenn limn→∞ Sn = −∞ fast sicher.
Teil V
Vertiefung der Wahrscheinlichkeitstheorie
16 Erzeugende Funktionen
In diesem Kapitel untersuchen wir f¨ ur reelle Zufallsvariable Funktionen auf der Menge der reellen Zahlen, die durch die Erwartungswerte bestimmter Transformationen der Zufallsvariablen definiert sind und als erzeugende Funktionen bezeichnet werden. Offenbar sind die erzeugenden Funktionen einer reellen Zufallsvariablen durch deren Verteilung vollst¨ andig bestimmt. Daher k¨ onnte man erzeugende Funktionen auch durch die Integrale bestimmter reeller oder komplexer Funktionen bez¨ uglich einer univariaten Verteilung definieren; da aber jede univariate Verteilung als Verteilung einer reellen Zufallsvariablen auf einem geeigneten Wahrscheinlichkeitsraum dargestellt werden kann, f¨ uhrt dies zu keiner echten Verallgemeinerung. Das Interesse an erzeugenden Funktionen beruht darauf, dass sie in vielen F¨ allen die Bestimmung von Momenten einer Zufallsvariablen oder sogar die Bestimmung der Verteilung einer Zufallsvariablen erleichtern; diesen Eigenschaften verdanken die erzeugenden Funktionen ihren Namen. Wir betrachten – die wahrscheinlichkeitserzeugende Funktion einer Zufallsvariablen mit Werten in N0 (Abschnitt 16.1), – die momenterzeugende Funktion (Abschnitt 16.2), – die kumulantenerzeugende Funktion (Abschnitt 16.3), und – die charakteristische Funktion (Abschnitt 16.4). Dabei untersuchen wir vor allem die Eigenschaften der wahrscheinlichkeitserzeugenden Funktion und der charakteristischen Funktion. Grunds¨ atzlich k¨ onnen diese erzeugenden Funktionen auch f¨ ur Zufallsvektoren und damit f¨ ur multivariate Verteilungen definiert werden. Wir machen von dieser M¨ oglichkeit jedoch keinen Gebrauch und beschr¨ anken uns auf die Darstellung der grundlegenden Eigenschaften der erzeugenden Funktionen von Zufallsvariablen. K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_16, © Springer-Verlag Berlin Heidelberg 2011
370
Kapitel 16. Erzeugende Funktionen
16.1 Wahrscheinlichkeitserzeugende Funktion Sei X eine Zufallsvariable mit PX [N0 ] = 1. Dann besitzt f¨ ur alle t ∈ [0, 1] die Zufallsvariable tX einen endlichen Erwartungswert. Die Funktion mX : [0, 1] → [0, 1] mit mX (t) := E[tX ] heißt die wahrscheinlichkeitserzeugende Funktion von X. Wegen mX (t) =
∞ X
P [{X = n}] tn =
n=0
∞ X
PX [{n}] tn
n=0
ist die wahrscheinlichkeitserzeugende Funktion von X durch die Verteilung von X bestimmt. 16.1.1 Beispiele (Diskrete Verteilungen). (1) Binomial–Verteilung: Im Fall PX = B(n, ϑ) gilt mX (t) = (1−ϑ+ϑt)n (2) Poisson–Verteilung: Im Fall PX = P(α) gilt mX (t) = e−α(1−t) In der Tat: Es gilt mX (t) =
∞ X
∞
e−α
n=0
X (αt)n αn n t = e−α = e−α eαt = e−α(1−t) n! n! k=0
(3) Negativbinomial–Verteilung: Im Fall PX = NB(α, ϑ) gilt µ ¶−α 1 − ϑt mX (t) = 1−ϑ
Wir untersuchen nun die Eigenschaften der wahrscheinlichkeitserzeugenden Funktion. 16.1.2 Satz. Sei X eine Zufallsvariable mit PX [N0 ] = 1. Dann gilt: (1) mX ist monoton wachsend und stetig, und f¨ ur alle t ∈ [0, 1] gilt 0 ≤ mX (t) ≤ mX (1) = 1 (2) mX ist auf dem Intervall [0, 1) unendlich oft differenzierbar. (3) F¨ ur alle k ∈ N0 und f¨ ur alle t ∈ [0, 1) gilt Ãk−1 ! ∞ X Y (k) mX (t) = P [{X = n}] (n−i) tn−k i=0
n=k
(4) F¨ ur alle k ∈ N0 ist und es gilt
(k) mX (t)
sup t∈[0,1)
(k) mX (t)
auf dem Intervall [0, 1) monoton wachsend =
∞ X n=k
P [{X = n}]
k−1 Y i=0
(n−i)
16.1 Wahrscheinlichkeitserzeugende Funktion
371
P∞ Beweis. Da die Potenzreihe n=1 P [{X = n}] tn auf [−1, 1] konvergent ist, folgt aus den Eigenschaften von Potenzreihen, dass die wahrscheinlichkeitserzeugende Funktion auf [0, 1) unendlich oft stetig differenzierbar ist. Daraus folgt (2). Insbesondere ist die wahrscheinlichkeitserzeugende Funktion stetig auf [0, 1) und es ist klar, dass sie auch positiv und monoton wachsend ist mit mX (1) = 1. Am Ende des Beweises zeigen wir, dass die wahrscheinlichkeitserzeugende Funktion auch in t = 1 stetig ist. Damit ist dann (1) gezeigt. Der Nachweis von (3) ist elementar. Sei nun k ∈ N0 . Nach (3) ist die k–te Ableitung von mX auf [0, 1) monoton wachsend. Sei (k)
ck := sup mX (t) t∈[0,1)
Dann gilt f¨ ur alle t ∈ [0, 1) (k) mX (t)
=
∞ X
Ãk−1 ! Y P [{X = n}] (n−i) tn−k i=0
n=k
≤
∞ X
P [{X = n}]
k−1 Y
(n−i)
i=0
n=k
und damit ck ≤
∞ X
P [{X = n}]
k−1 Y
(n−i)
i=0
n=k
Andererseits gilt f¨ ur alle m ∈ N und f¨ ur alle t ∈ [0, 1) Ãk−1 ! Ãk−1 ! m ∞ X Y X Y n−k P [{X = n}] (n−i) t ≤ P [{X = n}] (n−i) tn−k n=k
i=0
n=k
=
(k) mX (t)
≤ ck und aus der Stetigkeit von Polynomen folgt nun m X
P [{X = n}]
k−1 Y
n=k
i=0
∞ X
k−1 Y
(n−i) ≤ ck
Daraus folgt
n=k
P [{X = n}]
i=0
(n−i) ≤ ck
i=0
372
Kapitel 16. Erzeugende Funktionen
Zusammen mit der vorher gezeigten Ungleichung erhalten wir ∞ X
P [{X = n}]
k−1 Y
(n−i) = ck
i=0
n=k
Damit ist auch (4) bewiesen. F¨ ur k = 0 lautet die Gleichung aus (4) sup mX (t) =
t∈[0,1)
∞ X
P [{X = n}] = 1 = mX (1)
n=0
Damit ist auch die Stetigkeit von mX an der Stelle t = 1 gezeigt.
2
Wir zeigen nun, dass die wahrscheinlichkeitserzeugende Funktion ihren Namen verdient. Dazu ben¨otigen wir das folgende Lemma, das sich unmittelbar aus Satz 16.1.2 ergibt: 16.1.3 Lemma. Sei X eine Zufallsvariable mit PX [N0 ] = 1. Dann gilt f¨ ur alle k ∈ N0 1 (k) P [{X = k}] = m (0) k! X Der folgende Satz zeigt, dass die Verteilung einer Zufallsvariablen X mit PX [N0 ] = 1 durch ihre wahrscheinlichkeitserzeugende Funktion bestimmt ist: 16.1.4 Satz (Eindeutigkeitssatz). Seien X und Y Zufallsvariable mit PX [N0 ] = 1 = PY [N0 ]. Dann sind ¨ aquivalent: (a) Es gilt PX = PY . (b) Es gilt mX = mY . Die Aussage des Satzes ergibt sich unmittelbar aus Lemma 16.1.3. F¨ ur eine Zufallsvariable X mit PX [N0 ] = 1 und f¨ ur k ∈ N0 heißt ·µ ¶¸ X E k das Binomial–Moment der Ordnung k von X. Es gilt E
·µ ¶¸ X ∞ µ ¶ X n = P [{X = n}] k k n=k
und aus Satz 16.1.2 ergibt sich ·µ ¶¸ X 1 (k) E = sup mX (t) k t∈[0,1) k!
16.1 Wahrscheinlichkeitserzeugende Funktion
373
Der folgende Satz gibt notwendige und hinreichende Bedingungen daf¨ ur an, dass das Binomial–Moment der Ordnung k endlich ist: 16.1.5 Satz. Sei X eine Zufallsvariable mit PX [N0 ] = 1. F¨ ur k ∈ N sind folgende Aussagen ¨ aquivalent: (a) Es gilt ·µ ¶¸ X E <∞ k (b) Es gilt
E[X k ] < ∞
(c) mX ist an der Stelle t = 1 k–mal stetig differenzierbar. In diesem Fall gilt ·µ ¶¸ X 1 (k) E = m (1) k k! X Beweis. Wir nehmen zun¨achst an, dass (a) gilt. F¨ ur alle l ∈ N gilt E
·µ ¶¸ X ∞ µ ¶ X n = P [{X = n}] l l n=l ¶ ∞ µ X n n−l+1 = P [{X = n}] l−1 l n=l µ ¶ ∞ X n ≥ P [{X = n}] l−1 n=2l−1
Da es f¨ ur die Konvergenz einer Reihe auf ihre ersten Glieder nicht ankommt, folgt f¨ ur alle l ∈ {1, . . . , k} mit ·µ ¶¸ X E <∞ l aus der vorigen Ungleichung ·µ E
X l−1
¶¸ <∞
Wegen Satz 16.1.2 und aufgrund der vorher gezeigten Implikation gilt f¨ ur alle l ∈ {0, 1, . . . , k} ·µ ¶¸ X (l) sup mX (t) = l! E <∞ l t∈[0,1) Aus den Eigenschaften von Potenzreihen folgt nun, dass mX an der Stelle t = 1 k–mal stetig differenzierbar ist. Daher folgt (c) aus (a).
374
Kapitel 16. Erzeugende Funktionen
Wir nehmen nun an, dass (c) gilt. Dann gilt ·µ ¶¸ X 1 (k) 1 (k) E = sup mX (t) = mX (1) k k! k! t∈[0,1) Daher folgt (a) aus (c). ¨ Wir nehmen nochmals an, dass (a) gilt. Aufgrund der bereits gezeigten Aquivalenz von (a) und (c) gilt f¨ ur alle l ∈ {0, 1, . . . , k} ·µ ¶¸ X E <∞ l Durch vollst¨ andige Induktion zeigt man, dass sich alle Momente der Ordnung l ∈ {0, 1, . . . , k} von X in der Form E[X l ] =
l X j=0
al,j E
·µ ¶¸ X j
mit al,0 , . . . , al,l ∈ R darstellen lassen und dass f¨ ur alle l ∈ {0, 1, . . . , k} E[X l ] < ∞ gilt. Daher folgt (b) aus (a). Wir nehmen abschließend an, dass (b) gilt. Wegen ·µ ¶¸ X 1 E ≤ E[X k ] k k! folgt aus E[X k ] < ∞ E
·µ ¶¸ X <∞ k
Daher folgt (a) aus (b).
2
F¨ ur eine Zufallsvariable X mit PX [N0 ] = 1 lassen sich der Erwartungswert und die Varianz besonders leicht mit Hilfe der wahrscheinlichkeitserzeugenden Funktion bestimmen: 16.1.6 Folgerung. Sei X eine Zufallsvariable mit PX [N0 ] = 1. (1) Besitzt X einen endlichen Erwartungswert, so gilt E[X] = m0X (1) (2) Besitzt X ein endliches zweites Moment, so gilt var [X] = m00X (1) + m0X (1) − (m0X (1))2
16.1 Wahrscheinlichkeitserzeugende Funktion
375
Beweis. Die Formel f¨ ur den Erwartungswert ist unmittelbar klar aus Satz 16.1.5. Die Formel f¨ ur die Varianz ergibt sich ebenfalls aus Satz 16.1.5, denn es gilt var [X] = E[X 2 ] − (E[X])2 = E[X(X −1)] + E[X] − (E[X])2 = m00X (1) + m0X (1) − (m0X (1))2 Damit ist die Folgerung gezeigt.
2
16.1.7 Beispiele (Diskrete Verteilungen). (1) Binomial–Verteilung: Im Fall PX = B(n, ϑ) gilt m0X (t) = nϑ(1−ϑ+ϑt)n−1 m00X (t) = n(n−1)ϑ2 (1−ϑ+ϑt)n−2 und damit E[X] = n ϑ und var [X] = n ϑ(1−ϑ). (2) Poisson–Verteilung: Im Fall PX = P(α) gilt m0X (t) = α e−α(1−t) m00X (t) = α2 e−α(1−t) und damit E[X] = α und var [X] = α. (3) Negativbinomial–Verteilung: Im Fall PX = NB(α, ϑ) gilt µ ¶−(α+1) ϑ 1 − ϑt m0X (t) = α 1−ϑ 1−ϑ µ ¶2 µ ¶−(α+2) ϑ 1 − ϑt m00X (t) = α(α+1) 1−ϑ 1−ϑ und damit E[X] = αϑ/(1−ϑ) und var [X] = αϑ/(1−ϑ)2 .
Mit Hilfe der wahrscheinlichkeitserzeugenden Funktion l¨ asst sich auch die Verteilung einer Summe von unabh¨angigen Zufallsvariablen bestimmen: 16.1.8 Satz. Sei X : Ω → Rd ein Zufallsvektor mit PX [Nd0 ] = 1 und unabh¨ angigen Koordinaten. Dann gilt m10 X (t) =
d Y
mXi (t)
i=1
Beweis. Aus der Unabh¨angigkeit der Familie {Xi }i∈{1,...,d} folgt die Unabh¨ angigkeit der Familie {tXi }i∈{1,...,d} . Daher gilt " d # d d h Pd i Y Y £ 10 X ¤ £X¤ Y Xi Xi i i=1 0 m1 X (t) = E t =E t =E t = E t = mXi (t) i=1
Damit ist der Satz gezeigt.
i=1
i=1
2
376
Kapitel 16. Erzeugende Funktionen
16.1.9 Beispiele (Diskrete Verteilungen). Seien X und Y unabh¨ angige reelle Zufallsvariable. (1) Binomial–Verteilung: Im Fall PX = B(m, ϑ) und PY = B(n, ϑ) gilt PX+Y = B(m+n, ϑ) (2) Poisson–Verteilung: Im Fall PX = P(α) und PY = P(β) gilt PX+Y = P(α+β) In der Tat: Es gilt mX+Y (t) = mX (t) mY (t) = e−α(1−t) e−β(1−t) = e−(α+β)(1−t) (3) Negativbinomial–Verteilung: Im Fall PX = NB(α, ϑ) und PY = NB(β, ϑ) gilt PX+Y = NB(α+β, ϑ)
Aus Satz 16.1.8 ergibt sich insbesondere ein Spezialfall der aus Folgerung 13.5.4 bekannten Faltungsformel: 16.1.10 Folgerung (Faltungsformel). Seien X und Y unabh¨ angige Zufallsvariable mit PX [N0 ] = 1 = PY [N0 ]. Dann gilt f¨ ur alle n ∈ N0 P [{X + Y = n}] =
n X
P [{X = k}] P [{Y = n−k}]
k=0
Beweis. Nach Satz 16.1.8 gilt mX+Y (t) = mX (t) mY (t). Aus der Produktregel der Differentialrechnung folgt n µ ¶ X n (n) (k) (n−k) mX+Y (t) = mX (t) mY (t) k k=0
und damit (n)
mX+Y (0) n! n (k) (n−k) X mX (0) mY (0) = k! (n−k)!
P [{X +Y = n}] =
=
k=0 n X
P [{X = k}] P [{Y = n−k}]
k=0
Damit ist die Folgerung bewiesen.
2
Die Verwendung der wahrscheinlichkeitserzeugenden Funktion ist vor allem dann von Vorteil, wenn sie in geschlossener Form darstellbar ist.
16.1 Wahrscheinlichkeitserzeugende Funktion
377
Aufgaben 16.1.A Jede wahrscheinlichkeitserzeugende Funktion ist konvex. 16.1.B F¨ ur eine Zufallsvariable X mit PX [N0 ] = 1 sind folgende Aussagen a ¨quivalent: (a) Es gilt PX = δ 0 . (b) Es gilt mX (0) = 1. (c) Es gibt ein t ∈ [0, 1) mit mX (t) = 1. (d) F¨ ur alle t ∈ [0, 1] gilt mX (t) = 1. (e) mX ist an der Stelle t = 1 differenzierbar und es gilt m0X (1) = 0. (f) mX ist an der Stelle t = 1 differenzierbar und f¨ ur alle t ∈ [0, 1] gilt m0X (t) = 0. 16.1.C Panjer–Verteilung: Eine reelle Zufallsvariable X mit PX [N0 ] = 1 besitzt eine Panjer–Verteilung, wenn es a, b ∈ R gibt mit a + b > 0 derart, dass f¨ ur alle n ∈ N µ ¶ b P [{X = n}] = a + P [{X = n−1}] n gilt. (1) F¨ ur eine Zufallsvariable X mit PX [N0 ] = 1 und f¨ ur a, b ∈ R mit a + b > 0 sind folgende Aussagen ¨ aquivalent: (a) F¨ ur alle n ∈ N gilt µ ¶ b P [{X = n}] = a + P [{X = n−1}] n (b) F¨ ur alle t ∈ [0, 1) gilt (1−at)m0X (t) = (a+b)mX (t) (c) F¨ ur alle n ∈ N und t ∈ [0, 1) gilt (n)
(n−1)
(1−at)mX (t) = (na+b)mX
(t)
In diesem Fall gilt a < 1. (2) Ist X eine reelle Zufallsvariable, die eine Panjer–Verteilung besitzt, so gilt a+b 1−a a+b var [X] = (1−a)2 E[X] =
(3) Eine reelle Zufallsvariable besitzt genau dann eine Panjer–Verteilung, wenn sie eine Binomial–, Poisson– oder Negativbinomial–Verteilung besitzt. (4) Charakterisieren Sie die Binomial–, Poisson– und Negativbinomial– Verteilungen nach der Lage des Parameters a und nach dem Verh¨ altnis zwischen der Varianz und dem Erwartungswert. 16.1.D Geometrische Verteilung: Sei PX = Geo(n, ϑ). Dann gilt µ ¶n ϑt mX (t) = 1 − (1−ϑ)t Bestimmen Sie den Erwartungswert und die Varianz von X.
378
Kapitel 16. Erzeugende Funktionen
16.1.E Logarithmische Verteilung: Sei PX = Log(ϑ). Dann gilt mX (t) =
log(1 − ϑt) log(1 − ϑ)
Bestimmen Sie den Erwartungswert und die Varianz von X. 16.1.F Wahrscheinlichkeitserzeugende Funktion eines Zufallsvektors: Sei X : Ω → Rd ein Zufallsvektor mit PX [Nd0 ] = 1. Dann heißt die Funktion mX : [0, 1] → [0, 1] mit " d # Y X mX (t) := E ti i i=1
die wahrscheinlichkeitserzeugende Funktion von X. Untersuchen Sie die Eigenschaften von mX .
16.2 Momenterzeugende Funktion Sei X eine Zufallsvariable. Dann besitzt f¨ ur alle t ∈ R die Zufallsvariable etX einen Erwartungswert. Die Funktion MX : R → [0, ∞] mit MX (t) := E[etX ] heißt die momenterzeugende Funktion von X. Wegen Z MX (t) = etx dPX (x) R
ist die momenterzeugende Funktion von X durch die Verteilung von X bestimmt. 16.2.1 Beispiele (Absolutstetige Verteilungen). (1) Gamma–Verteilung: Im Fall PX = Ga(α, γ) gilt ¶γ µ α falls t ∈ (−∞, α) α−t MX (t) = +∞ sonst In der Tat: F¨ ur alle t ∈ (−∞, α) gilt Z αγ −αx γ−1 MX (t) = etx · e x χ(0,∞) (x) dλ(x) Γ(γ) R Z αγ (α−t)γ −(α−t)x γ−1 = e x χ(0,∞) (x) dλ(x) γ (α−t) R Γ(γ) µ ¶γ α = α−t
16.2 Momenterzeugende Funktion
379
(2) Standardnormal–Verteilung: Im Fall PX = N(0, 1) gilt MX (t) = exp(t2 /2)
Das folgende Lemma ergibt sich unmittelbar aus der Definition der momenterzeugenden Funktion: 16.2.2 Lemma. Sei X eine Zufallsvariable. Dann gilt f¨ ur alle a, b ∈ R Ma+bX (t) = eat MX (bt) Auch die folgenden Eigenschaften der momenterzeugenden Funktion einer Zufallsvariablen sind offensichtlich: 16.2.3 Lemma. Sei X eine Zufallsvariable. Dann gilt MX (0) = 1 und f¨ ur alle t ∈ R gilt MX (t) ∈ (0, ∞]. Die momenterzeugende Funktion einer Zufallsvariablen ist vor allem dann von Interesse, wenn sie in einer Umgebung von 0 endlich ist: 16.2.4 Satz. Sei X eine Zufallsvariable. Wenn es ein a ∈ (0, ∞) gibt mit MX (t) < ∞ f¨ ur alle t ∈ (−a, a), dann gilt: (1) X besitzt endliche Momente beliebiger Ordnung. (2) F¨ ur alle t ∈ (−a, a) gilt MX (t) =
∞ k X t k=0
k!
E[X k ]
(3) MX ist auf dem Intervall (−a, a) unendlich oft differenzierbar und f¨ ur alle k ∈ N gilt (k) E[X k ] = MX (0) (4) Besitzt MX die Potenzreihendarstellung MX (t) =
∞ X
a k tk
k=0
so gilt f¨ ur alle k ∈ N E[X k ] = ak k! Beweis. Sei t ∈ (−a, a). Nach Voraussetzung sind etX und e−tX integrierbar, und wegen e|tX| ≤ etX + e−tX ist auch e|tX| integrierbar. Nach dem Satz u ¨ber die monotone Konvergenz gilt
380
Kapitel 16. Erzeugende Funktionen
"∞ # · ¸ ∞ X X |tX|k £ ¤ |tX|k E =E = E e|tX| k! k!
k=0
k=0
und aus der Integrierbarkeit von e|tX| folgt nun (mit t 6= 0), dass X endliche Momente beliebiger Ordnung besitzt. Des weiteren gilt ∞ k k X t X
etX =
k!
k=0
und
¯ ¯ n ∞ ¯X tk X k ¯¯ X |tX|k ¯ sup ¯ ≤ ¯ k! ¯ k! n∈N0 ¯ k=0
k=0
und aus Folgerung 8.3.11 ergibt sich nun E[etX ] =
∞ k X t k=0
k!
E[X k ]
Damit sind (1) und (2) bewiesen, und die u ¨ brigen Aussagen ergeben sich aus den Eigenschaften von Potenzreihen. 2 Wir geben abschließend ein Beispiel f¨ ur die Anwendung der letzten Aussage des Satzes: 16.2.5 Beispiel (Exponential–Verteilung). Sei PX = Exp(α). Dann gilt f¨ ur alle t ∈ (−α, α) ∞
MX (t) =
X 1 k α = t α−t αk k=0
k
k
F¨ ur alle k ∈ N gilt daher E[X ] = k!/α .
Aufgaben 16.2.A Jede momenterzeugende Funktion ist konvex. 16.2.B Sei X eine Zufallsvariable mit PX [R+ ] = 1. Dann ist MX auf dem Intervall (−∞, 0] endlich. 16.2.C Normal–Verteilung: Sei PX = N(µ, σ 2 ). Dann gilt µ ¶ σ2 2 MX (t) = exp µt + t 2 und n
E[(X −µ) ] =
n/2
σn
Y
(2j −1)
falls n ∈ 2N
j=1
0
sonst
16.3 Kumulantenerzeugende Funktion
381
16.2.D Sei X : Ω → Rd ein Zufallsvektor mit unabh¨ angigen Koordinaten. Dann gilt M10 X (t) =
d Y
MXi (t)
i=1
16.2.E Momenterzeugende Funktion eines Zufallsvektors: Sei X : Ω → Rd ein Zufallsvektor. Dann heißt die Funktion MX : Rd → [0, ∞] mit 0
MX (t) := E[et X ] die momenterzeugende Funktion von X. Untersuchen Sie die Eigenschaften von MX .
16.3 Kumulantenerzeugende Funktion ¯ mit Sei X eine Zufallsvariable. Die Funktion CX : R → R CX (t) := log(E[etX ]) (mit log(∞) := ∞) heißt die kumulantenerzeugende Funktion von X. Es gilt CX = log ◦ MX . Wegen µZ ¶ tx CX (t) = log e dPX (x) R
ist die kumulantenerzeugende Funktion von X durch die Verteilung von X bestimmt. 16.3.1 Beispiele (Absolutstetige Verteilungen). (1) Gamma–Verteilung: Im Fall PX = Ga(α, γ) gilt ³ ´ γ log(α) − log(α−t) falls t ∈ (−∞, α) CX (t) = +∞ sonst (2) Standardnormal–Verteilung: Im Fall PX = N(0, 1) gilt CX (t) = t2 /2
Das folgende Lemma ergibt sich unmittelbar aus der Definition der kumulantenerzeugenden Funktion: 16.3.2 Lemma. Sei X eine Zufallsvariable. Dann gilt f¨ ur alle a, b ∈ R Ca+bX (t) = at + CX (bt) Die kumulantenerzeugende Funktion einer Zufallsvariablen ist vor allem dann von Interesse, wenn ihre momenterzeugende Funktion in einer Umgebung von 0 endlich ist:
382
Kapitel 16. Erzeugende Funktionen
16.3.3 Satz. Sei X eine Zufallsvariable. Wenn es ein a ∈ (0, ∞) gibt mit MX (t) < ∞ f¨ ur alle t ∈ (−a, a), dann ist CX auf dem Intervall (−a, a) unendlich oft differenzierbar und es gilt C 0 (t) =
0 MX (t) MX (t)
und
00 0 MX (t)MX (t) − (MX (t))2 (MX (t))2 0 00 und damit C (0) = E[X] und C (0) = var [X].
C 00 (t) =
Beweis. Die Aussage ergibt sich unmittelbar aus Satz 16.2.4.
2
16.3.4 Beispiele (Absolutstetige Verteilungen). (1) Gamma–Verteilung: Im Fall PX = Ga(α, γ) gilt f¨ ur alle t ∈ (−∞, α) γ 0 CX (t) = α−t γ 00 CX (t) = (α−t)2 und damit E[X] = γ/α und var [X] = γ/α2 . (2) Standardnormal–Verteilung: Im Fall PX = N(0, 1) gilt 0 CX (t) = t 00 CX (t) = 1
und damit E[X] = 0 und var [X] = 1.
Aufgaben 16.3.A Sei X eine Zufallsvariable mit einem endlichen Erwartungswert. Dann gilt f¨ ur alle t ∈ (0, ∞) ³ ´ 1 E[X] ≤ log E[etX ] t 16.3.B Normal–Verteilung: Sei PX = N(µ, σ 2 ). Dann gilt CX (t) = µt +
σ2 2 t 2
und damit E[X] = µ und var [X] = σ 2 . 16.3.C Sei X : Ω → Rd ein Zufallsvektor mit unabh¨ angigen Koordinaten. Dann gilt C10 X (t) =
d X
CXi (t)
i=1
16.3.D Kumulantenerzeugende Funktion eines Zufallsvektors: Sei ¯ mit X : Ω → Rd ein Zufallsvektor. Dann heißt die Funktion CX : Rd → R 0
CX (t) := log(E[et X ]) die kumulantenerzeugende Funktion von X. Untersuchen Sie die Eigenschaften von CX .
16.4 Charakteristische Funktion
383
16.4 Charakteristische Funktion Sei X eine Zufallsvariable. Die Funktion ψX : R → C mit ψX (t) := E[eitX ] heißt die charakteristische Funktion von X. Wegen Z ψX (t) = eitx dPX (x) R
ist die charakteristische Funktion von X durch die Verteilung von X bestimmt. 16.4.1 Beispiele (Diskrete Verteilungen). (1) Binomial–Verteilung: Im Fall PX = B(n, ϑ) gilt ³ ´n ψX (t) = 1 − ϑ + ϑ eit (2) Poisson–Verteilung: Im Fall PX = P(α) gilt ψX (t) = exp(−α(1−eit )) (3) Negativbinomial–Verteilung: Im Fall PX = NB(α, ϑ) gilt µ ¶−α 1 − ϑeit ψX (t) = 1−ϑ 16.4.2 Beispiele (Absolutstetige Verteilungen). (1) Uniforme Verteilung: Im Fall PX = U(a, b) gilt ψX (t) =
eibt − eiat i(b−a)t
(2) Gamma–Verteilung: Im Fall PX = Ga(α, γ) gilt µ ¶γ α ψX (t) = α − it (3) Standardnormal–Verteilung: Im Fall PX = N(0, 1) gilt ψX (t) = exp(−t2 /2)
Das folgende Lemma ergibt sich unmittelbar aus der Definition der charakteristischen Funktion: 16.4.3 Lemma. Sei X eine Zufallsvariable. Dann gilt f¨ ur alle a, b ∈ R ψa+bX (t) = eiat ψX (bt) F¨ ur den Nachweis vieler Eigenschaften der charakteristischen Funktion einer Zufallsvariablen ist das folgende Lemma wesentlich:
384
Kapitel 16. Erzeugende Funktionen
16.4.4 Lemma. F¨ ur alle x ∈ R und n ∈ N0 gilt ¯ ¯ ( ) n ¯ ¯ |x|n+1 2|x|n ¯ ix X (ix)k ¯ , ¯e − ¯ ≤ min ¯ k! ¯ (n+1)! n! k=0
Insbesondere gilt f¨ ur jede Zufallsvariable X mit E[|X|n ] < ∞ und f¨ ur alle t∈R ¯ ¯ " ( )# n ¯ ¯ X (it)k |tX|n+1 2|tX|n ¯ k ¯ E[X ]¯ ≤ E min , ¯ψX (t) − ¯ ¯ k! (n+1)! n! k=0
Beweis. Wir nehmen zun¨achst an, dass x ≥ 0 gilt. Durch partielle Integration erh¨ alt man f¨ ur alle n ∈ N0 Z x Z x xn+1 i (x−s)n eis ds = + (x−s)n+1 eis ds n+1 n+1 0 0 und durch vollst¨ andige Induktion erh¨alt man nun die Gleichung Z n X (ix)k in+1 x eix = + (x−s)n eis ds k! n! 0 k=0
Wegen |
Rx 0
(x−s)n eis ds| ≤ |x|n+1 /(n+1) ergibt sich daraus ¯ ¯ ¯ ¯ Z x n ¯ ¯ ¯ ¯ |x|n+1 ¯ ix X (ix)k ¯ ¯ in+1 ¯ n is (x−s) e ds¯ ≤ ¯e − ¯=¯ ¯ ¯ (n+1)! k! ¯ ¯ n! 0 k=0
und damit die erste Absch¨atzung. F¨ ur n = 0 ist die zweite Absch¨ atzung trivial, und f¨ ur n ∈ N ergibt sich aus der Gleichung e
ix
=
n−1 X k=0
=
(ix)k in + k! (n−1)!
n X (ix)k k=0
k!
+
in (n−1)!
Z
x
(x−s)n−1 eis ds
0
Z 0
x
(x−s)n−1 eis ds −
(ix)n n!
und der vorher gezeigten Ungleichung ¯ ¯ ¯ ¯ Z x n ¯ ¯ ¯ ¯ |x|n |x|n ¯ ix X (ix)k ¯ ¯ in ¯ (x−s)n−1 eis ds¯ + ≤2 ¯e − ¯≤¯ ¯ ¯ k! ¯ ¯ (n−1)! 0 n! n! k=0
und damit die zweite Absch¨atzung. Im Fall x < 0 erh¨alt man zun¨achst Z 0 Z 0 (−x)n+1 i n is (s−x) e ds = − (s−x)n+1 eis ds n+1 n+1 x x
16.4 Charakteristische Funktion
385
und sodann eix =
n X (ix)k k=0
k!
+
(−i)n+1 n!
Z
0
(s−x)n eis ds
x
Der Beweis der Absch¨atzungen verl¨auft dann analog zum Fall x ≥ 0.
2
Aus dem Lemma ergibt sich insbesondere ein Zusammenhang zwischen der Endlichkeit bestimmter Momente einer Zufallsvariablen und dem Grad der Differenzierbarkeit ihrer charakteristischen Funktion: 16.4.5 Lemma. Sei X eine Zufallsvariable mit einem endlichen Moment der Ordnung n ∈ N0 . Dann ist ψX n–mal differenzierbar und f¨ ur alle k ∈ {0, 1, . . . , n} gilt (k) ψX (t) = E[(iX)k eitX ] und insbesondere
(k)
ψX (0) = ik E[X k ]
(k)
und ψX ist gleichm¨aßig stetig. Beweis. Wir beweisen zun¨achst die Aussage u ¨ber die Differenzierbarkeit und f¨ uhren den Beweis durch vollst¨andige Induktion. • k = 0: In diesem Fall ist nichts zu zeigen. • k → k + 1: Wir nehmen an, die Aussage u ¨ber die Differenzierbarkeit sei f¨ ur ein k ∈ {0, 1, . . . , n−1} bereits bewiesen. Dann gilt f¨ ur alle h ∈ R\{0} ¯ (k) ¯ (k) ¯ ψX (t+h) − ψX ¯ (t) k+1 itX ¯ ¯ − E[(iX) e ]¯ ¯ h ¯ ¯ ¯ E[(iX)k ei(t+h)X ] − E[(iX)k eitX ] − E[h(iX)k+1 eitX ] ¯ ¯ ¯ =¯ ¯ h ¯ · µ ihX ¶¸¯ ¯ e − 1 − ihX ¯¯ = ¯¯E (iX)k eitX ¯ h ¯ ihX ¯¸ · ¯e − 1 − ihX ¯¯ ≤ E |X|k ¯¯ ¯ h Nach Lemma 16.4.4 ist der letzte Integrand durch die integrierbare Zufallsvariable 2|X|k+1 beschr¨ankt und konvergiert f¨ ur h → 0 gegen 0. Aus (k) dem Satz u ¨ber die majorisierte Konvergenz folgt nun, dass ψX differenzierbar ist mit (k+1)
ψX
(t) = E[(iX)k+1 eitX ]
und damit (k+1)
ψX
(0) = ik+1 E[X k+1 ]
386
Kapitel 16. Erzeugende Funktionen
Wir beweisen nun die Aussage u aßige Stetigkeit. Es gilt ¨ber die gleichm¨ ¯ ¯ ¯ ¯ ¯ (k) ¯ ¯ ¯ (k) ¯ψX (t+h) − ψX (t)¯ = ¯E[(iX)k ei(t+h)X ] − E[(iX)k eitX ]¯ ¯ h i¯ ¯ ¯ = ¯E (iX)k eitX (eihX −1) ¯ h i ≤ E |X|k |eihX −1| Da der letzte Integrand durch die integrierbare Zufallsvariable 2|X|k beschr¨ ankt ist und f¨ ur h → 0 gegen 0 konvergiert, folgt die gleichm¨ aßige Stetig(k) keit von ψX nun aus dem Satz u 2 ¨ber die majorisierte Konvergenz. Wir zeigen nun, dass die charakteristische Funktion ihren Namen verdient. Dazu ben¨ otigen wir das folgende Lemma: 16.4.6 Lemma. Sei X eine Zufallsvariable und sei (a, b] ⊆ R ein nichtleeres Intervall mit PX [{a, b}] = 0. Dann ist die Funktion h : R → C mit −ias − e−ibs e is h(s) := b−a
falls s 6= 0 falls s = 0
stetig und beschr¨ ankt und es gilt PX [(a, b]] =
1 lim 2π n→∞
Z h(s) ψX (s) dλ(s) [−n,n]
Beweis. F¨ ur alle s 6= 0 gilt nach Lemma 16.4.4 ¯ −ias ¯ ¯e ¯ − e−ibs ¯ |h(s) − h(0)| = ¯ − (b−a)¯¯ is ¯ −ias ¯ ¯e − 1 + ias e−ibs − 1 + ibs ¯¯ ¯ =¯ − ¯ is is 2 2 a +b ≤ |s| 2 und ¯ −ias ¯ ¯ i(b−a)s ¯ ¯e ¯ − e−ibs ¯¯ − 1 ¯¯ −ibs ¯ e |h(s)| = ¯¯ = |e | ¯ ¯ ¯ ≤ b − a = h(0) is is Aus der ersten Absch¨atzung folgt, dass h an der Stelle s = 0 und damit auf R stetig ist, und aus der zweiten Absch¨atzung folgt, dass h beschr¨ ankt ist.
16.4 Charakteristische Funktion
387
Wir betrachten nun die Funktionen g : R → C und f : R2 → C mit g(s) := h(s) ψX (s) f (x, s) := h(s) eisx Dann sind g und f stetig und damit messbar, und es gilt g(s) = h(s) ψX (s) Z = h(s) eisx dPX (x) R Z = h(s) eisx dPX (x) R Z = f (x, s) dPX (x) R
F¨ ur die Funktionen gn : R → C und fn : R2 → C mit gn (s) := χ[−n,n] (s) h(s) ψX (s) fn (x, s) := χ[−n,n] (s) h(s) eisx gilt daher
Z gn (s) =
fn (x, s) dPX (x) R
Da f wegen |f (x, s)| = |h(s)| beschr¨ankt ist, ist fn PX ⊗ λ–integrierbar, und aus dem Satz von Fubini folgt nun, dass gn λ–integrierbar ist mit Z Z Z gn (s) dλ(s) = fn (x, s) dPX (x) dλ(s) R ZR ZR = fn (x, s) dλ(s) dPX (x) R
R
Wir untersuchen das innere Integral. F¨ ur alle x ∈ R gilt Z Z e−ias − e−ibs isx fn (x, s) dλ(s) = e dλ(s) is R [−n,n]\{0} Z eis(x−a) − eis(x−b) = dλ(s) is [−n,n]\{0} Mit Hilfe der Gleichungen eiz = cos(z) + i sin(z) sowie cos(−z) = cos(z) ¨ und sin(−z) = − sin(z) und durch Ubergang zum uneigentlichen Riemann– Integral u ¨ ber (0, n] ergibt sich aus der letzten Gleichung Z fn (x, s) dλ(s) R µZ n ¶ Z n sin(s(x−a)) sin(s(x−b)) =2 ds − ds s s 0 0 µ ¶ Z n|x−a| Z n|x−b| sin(t) sin(t) = 2 sign(x−a) dt − sign(x−b) dt t t 0 0
388
Es gilt limy→∞
Kapitel 16. Erzeugende Funktionen
Ry 0
sin(t)/t dt = π/2. Daher gibt es einerseits ein C ∈ R mit ¯Z ¯ ¯ ¯ ¯ sup¯ fn (x, s) dλ(s)¯¯ ≤ C n∈N
R
f¨ ur alle x ∈ R, und zusammen mit der Voraussetzung PX [{a, b}] = 0 ergibt sich andererseits Z lim fn (x, s) dλ(s) = 2πχ(a,b] (x) n→∞
R
PX –fast sicher. Aus dem Satz u ¨ber die majorisierte Konvergenz folgt nun Z Z lim h(s) ψX (s) dλ(s) = lim gn (s) dλ(s) n→∞ [−n,n] n→∞ R Z Z = lim fn (x, s) dλ(s) dPX (x) n→∞ R R Z Z = lim fn (x, s) dλ(s) dPX (x) R n→∞ R Z = 2πχ(a,b] (x) dPX (x) R
= 2π PX [(a, b]] Daraus folgt die Behauptung.
2
Der folgende Satz zeigt, dass die Verteilung einer Zufallsvariablen durch ihre charakteristische Funktion bestimmt ist: 16.4.7 Satz (Eindeutigkeitssatz). Seien X und Y Zufallsvariable. Dann sind ¨ aquivalent: (a) Es gilt PX = PY . (b) Es gilt ψX = ψY . Beweis. Offensichtlich gen¨ ugt es zu zeigen, dass (a) aus (b) folgt. Wir nehmen daher an, dass (b) gilt. Sei ¯ n o ¯ JX,Y := (a, b] ∈ 2R ¯ a ≤ b und PX [{a, b}] = 0 = PY [{a, b}] Dann ist JX,Y ein ∩–stabiles Mengensystem mit JX,Y ⊆ J (R) und nach Lemma 16.4.6 gilt f¨ ur alle J ∈ JX,Y PX [J] = PY [J] Da die Menge {z ∈ R | max{PX [{z}], PY [{z}]} > 0} abz¨ ahlbar ist, gibt es zu jedem Intervall (a, b] ⊆ R mit PX [{a}] = 0 = PY [{a}] eine monoton fallende Folge {bn }n∈N mit PX [{bn }] = 0 = PY [{bn }] f¨ ur alle n ∈ N und inf n∈N bn = b,
16.4 Charakteristische Funktion
389
T und damit (a, b] = n∈N (a, bn ] ∈ σ(JX,Y ), und zu jedem Intervall (a, b] ⊆ R gibt es eine monoton fallende Folge {an }n∈N mit PX [{a S n }] = 0 = PY [{an }] f¨ ur alle n ∈ N und inf n∈N an = a, und damit (a, b] = n∈N (an , b] ∈ σ(JX,Y ). Daher gilt J (R) ⊆ σ(JX,Y ) ⊆ B(R), und damit B(R) = σ(J (R)) = σ(JX,Y ). Aus dem Eindeutigkeitssatz f¨ ur Maße folgt nun, dass f¨ ur alle B ∈ B(R) PX [B] = PY [B] gilt. Daher folgt (a) aus (b).
2
Mit Hilfe der charakteristischen Funktion l¨asst sich auch die Verteilung einer Summe von unabh¨angigen Zufallsvariablen bestimmen: 16.4.8 Satz. Sei X : Ω → Rd ein Zufallsvektor mit unabh¨angigen Koordinaten. Dann gilt d Y ψ10 X (t) = ψXi (t) i=1
Der Beweis von Satz 16.4.8 verl¨auft analog zum Beweis von Satz 16.1.8. Aufgaben 16.4.A Symmetrische Verteilungen: Sei X eine reelle Zufallsvariable. Dann sind ¨ aquivalent: (a) PX ist symmetrisch. (b) Es gilt ψX = ψ−X (c) Es gilt ψX (t) = E[cos(tX)]. (d) ψX ist reell. Geben Sie Beispiele f¨ ur symmetrische Verteilungen. 16.4.B Normal–Verteilung: Sei PX = N(µ, σ 2 ). Dann gilt µ ¶ σ2 2 ψX (t) = exp iµt − t 2 16.4.C Sei X eine reelle Zufallsvariable mit M|X| (t) < ∞ f¨ ur alle t ∈ R. Dann besitzt X endliche Momente beliebiger Ordnung und es gilt ψX (t) =
∞ X (it)k E[X k ] k! k=0
16.4.D Charakteristische Funktion eines Zufallsvektors: Sei X : Ω → Rd ein Zufallsvektor. Dann heißt die Funktion ψX : Rd → C mit ψX (t) := E[eit die charakteristische Funktion von X.
0
X
]
390
Kapitel 16. Erzeugende Funktionen (1) Verallgemeinern Sie den Eindeutigkeitssatz auf charakteristische Funktionen von Zufallsvektoren. (2) Ein Zufallsvektor X : Ω → Rd besitzt genau dann unabh¨ angige Koordinaten, wenn f¨ ur alle t ∈ Rd ψX (t) =
d Y j=1
gilt.
ψXj (tj )
17 Schwache Konvergenz und Zentraler Grenzwertsatz
Gegenstand dieses Kapitels ist ein Konvergenzbegriff f¨ ur Verteilungen, der als schwache Konvergenz bezeichnet wird. Diese Begriffsbildung l¨ asst sich auf zweifache Weise erkl¨aren: Zum einen wird die schwache Konvergenz einer Folge von Verteilungen durch die Konvergenz einer Familie von Integralen und damit durch die Konvergenz einer Familie von Funktionalen definiert; zum anderen stellt sich heraus, dass die schwache Konvergenz der Verteilungen einer Folge von Zufallsvariablen in der Tat schw¨acher als die stochastische Konvergenz und damit schw¨ acher als jeder der bisher behandelten Konvergenzbegriffe ist. F¨ ur eine Folge von Zufallsvariablen wird die schwache Konvergenz ihrer Verteilungen auch als Verteilungskonvergenz oder als Konvergenz in Verteilung bezeichnet. Aussagen u ¨ ber die Konvergenz in Verteilung bilden die Grundlage f¨ ur die n¨ aherungsweise Berechnung von Verteilungen, die entweder nicht vollst¨ andig bestimmt oder nur mit hohem Aufwand berechnet werden k¨ onnen, durch Verteilungen, deren Eigenschaften wohlbekannt sind. Das bekannteste Ergebnis u ¨ ber die Konvergenz in Verteilung ist der Zentrale Grenzwertsatz, der besagt, dass bei hinreichend großem Stichprobenumfang das Stichprobenmittel einer unabh¨angig und identisch verteilten Folge von Zufallsvariablen n¨aherungsweise normal–verteilt ist. Dieses Ergebnis ist von zentraler Bedeutung in der Statistik. Wir untersuchen zun¨achst die schwache Konvergenz einer Folge univariater Verteilungen, ihre Charakterisierung durch eine geeignete Art der Konvergenz ihrer Verteilungsfunktionen und durch die Konvergenz ihrer charakteristischen Funktionen, sowie den Zusammenhang zwischen der stochastischen Konvergenz einer Folge von Zufallsvariablen und der schwachen Konvergenz ihrer Verteilungen (Abschnitt 17.1). Wir wenden uns dann dem Begriff der Straffheit einer Familie von Verteilungen zu (Abschnitt 17.2) und beweisen schließlich die einfachste Form des Zentralen Grenzwertsatzes (Abschnitt 17.3). K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_17, © Springer-Verlag Berlin Heidelberg 2011
392
Kapitel 17. Schwache Konvergenz und Zentraler Grenzwertsatz
17.1 Schwache Konvergenz Im gesamten Abschnitt sei (S, d) ein metrischer Raum und Td die von der Metrik d erzeugte Topologie. Wir bezeichnen mit B(S) die zugeh¨ orige Borelsche σ–Algebra, mit Q(S) die Familie aller Wahrscheinlichkeitsmaße B(S) → [0, 1] und mit Cb (S) die Familie aller beschr¨ankten stetigen Funktionen S → R. Dann ist jede Funktion f ∈ Cb (S) bez¨ uglich jedem Wahrscheinlichkeitsmaß Q ∈ Q(S) integrierbar. 17.1.1 Lemma. F¨ ur Q1 , Q2 ∈ Q(S) sind ¨ aquivalent: (a) Es gilt Q1 = Q2 . R R (b) F¨ ur alle f ∈ Cb (S) gilt S f dQ1 = S f dQ2 . Beweis. Wir nehmen an, dass (b) gilt. Da die Borelsche σ–Algebra B(S) von der Topologie Td erzeugt wird und jede Topologie ∩–stabil ist, gen¨ ugt es zu zeigen, dass die Gleichung Q1 [U ] = Q2 [U ] f¨ ur alle U ∈ Td gilt. Sei also U ∈ Td und G := S \ U . Sei ferner g : S → R gegeben durch ¯ n o ¯ g(x) := inf d(x, z) ¯ z ∈ G Aus der Dreiecksungleichung erh¨alt man |g(x)−g(y)| ≤ d(x, y) und damit die Stetigkeit von g, und aus der Abgeschlossenheit von G ergibt sich g −1 ({0}) = G F¨ ur alle m ∈ N sei fm : S → R gegeben durch fm (x) := min{1, m g(x)} Dann ist {fm }m∈N eine monoton wachsende Folge in Cb (S) und wegen g −1 ({0}) = G gilt sup fm = χU
m∈N
Aus dem Satz u ur i ∈ {1, 2} ¨ber die monotone Konvergenz folgt nun f¨ ¶ Z Z µ Z Qi [U ] = χU dQi = sup fm dQi = sup fm dQi S
S
m∈N
und damit Q1 [U ] = Q2 [U ]. Daher folgt (a) aus (b).
m∈N
S
2
17.1 Schwache Konvergenz
393
Eine Folge {Qn }n∈N ⊆ Q(S) heißt schwach konvergent, wenn es ein Q ∈ Q(S) gibt derart, dass f¨ ur alle f ∈ Cb (S) Z Z lim f dQn = f dQ n→∞
S
S
gilt. Nach Lemma 17.1.1 ist der Limes einer schwach konvergenten Folge von Wahrscheinlichkeitsmaßen eindeutig bestimmt. 17.1.2 Beispiel. Sei {xn }n∈N0 eine Folge reeller Zahlen. Dann sind ¨ aquivalent: (a) Die Folge {δ xn }n∈N konvergiert schwach gegen δ x0 . (b) Die Folge {xn }n∈N konvergiert gegen x0 . In der Tat: Wir nehmen zun¨ achst an, dass (a) gilt. F¨ ur ε ∈ (0, ∞) sei fε : R → R gegeben durch |x − x0 | 1− falls |x−x0 | ≤ ε fε (x) := ε 0 sonst Dann gilt fε ∈ Cb (R) und damit Z Z lim fε (xn ) = lim fε (x) dδ xn (x) = fε (x) dδ x0 (x) = fε (x0 ) = 1 n→∞
n→∞
R
R
Da ε ∈ (0, ∞) beliebig war, folgt daraus limn→∞ xn = x0 . Wir nehmen nun an, dass (b) gilt. Dann gilt f¨ ur alle f ∈ Cb (R) Z Z lim f (x) dδ xn (x) = lim f (xn ) = f (x0 ) = f (x) dδ x0 (x) n→∞
R
n→∞
R
Daher konvergiert die Folge {δ xn }n∈N schwach gegen δ x0 .
F¨ ur Q ∈ Q(S) heißt eine Menge B ∈ B(S) Q–Stetigkeitsmenge, wenn Q[B ◦ ] = Q[B • ] gilt, wobei B ◦ das Innere und B • den Abschluss von B bezeichnet. 17.1.3 Satz (Portemanteau–Theorem). F¨ ur {Qn }n∈N ⊆ Q(S) und Q ∈ Q(S) sind folgende Aussagen ¨ aquivalent: (a) Die Folge {Qn }n∈N konvergiert schwach gegen Q. (b) F¨ ur jede offene Menge U gilt lim inf n→∞ Qn [U ] ≥ Q[U ]. (c) F¨ ur jede abgeschlossene Menge G gilt lim supn→∞ Qn [G] ≤ Q[G]. (d) F¨ ur jede Q–Stetigkeitsmenge B gilt limn→∞ Qn [B] = Q[B]. Beweis. Wir nehmen zun¨achst an, dass (a) gilt. Sei U offen und G := S \ U . Sei ferner g : S → R gegeben durch ¯ n o ¯ g(x) := inf d(x, z) ¯ z ∈ G
394
Kapitel 17. Schwache Konvergenz und Zentraler Grenzwertsatz
und f¨ ur alle m ∈ N sei fm : S → R gegeben durch fm (x) := min{1, mg(x)} Dann ist {fm }m∈N eine monoton wachsende Folge in Cb (S) und es gilt sup fm = χU
m∈N
Nach Voraussetzung gilt f¨ ur alle m ∈ N Z Z Z lim inf Qn [U ] = lim inf χU dQn ≥ lim fm dQn = fm dQ n→∞
n→∞
n→∞
S
S
S
und aus dem Satz u ¨ber die monotone Konvergenz ergibt sich nun Z Z Z lim inf Qn [U ] ≥ sup fm dQ = sup fm dQ = χU dQ = Q[U ] n→∞
m∈N
S m∈N
S
S
Daher folgt (b) aus (a). Sei nun U offen und G abgeschlossen mit U + G = S. Dann gilt Q[U ] + Q[G] = 1 und wegen Qn [U ] + Qn [G] = 1 gilt lim inf Qn [U ] + lim sup Qn [G] = 1 n→∞
n→∞
¨ Aus diesen Gleichungen ergibt sich sofort die Aquivalenz von (b) und (c). Wir nehmen nun an, dass (b) und (c) gelten. Dann gilt f¨ ur alle B ∈ B(S) Q[B ◦ ] ≤ lim inf Qn [B ◦ ] n→∞
≤ lim inf Qn [B] n→∞
≤ lim sup Qn [B] n→∞
≤ lim sup Qn [B • ] n→∞
≤ Q[B • ] sowie Q[B ◦ ] ≤ Q[B] ≤ Q[B • ] F¨ ur jede Q–Stetigkeitsmenge B ∈ B(S) folgt daraus lim Qn [B] = Q[B]
n→∞
Daher folgt (d) aus (b) und (c).
17.1 Schwache Konvergenz
395
Wir nehmen schließlich an, dass (d) gilt. Sei f ∈ Cb (S). Da Q ein Wahrscheinlichkeitsmaß ist, ist die Menge {c ∈ R | Q[{f = c}] > 0} abz¨ ahlbar. Sei ε ∈ (0, ∞). F¨ ur alle k ∈ Z setzen wir Bε,k := {εk < f ≤ ε(k+1)} • ◦ Dann gilt Bε,k \ Bε,k ⊆ {f = εk} ∪ {f = ε(k +1)}. Daher ist f¨ ur alle außer abz¨ ahlbar viele ε ∈ (0, ∞) jede der Mengen Bε,k eine Q–Stetigkeitsmenge. Da f beschr¨ ankt ist, ist die Menge {k ∈ Z | Bε,k 6= ∅} endlich. Daher gilt f¨ ur alle außer abz¨ ahlbar viele ε ∈ (0, ∞) Z Z f dQ − ε = (f −ε) dQ S S ! Z ÃX ≤ εkχBε,k dQ S
X
=
k∈Z
εk Q[Bε,k ]
k∈Z
X
=
εk lim Qn [Bε,k ]
k∈Z
= lim
n→∞
= lim
n→∞
X
εk Qn [Bε,k ]
k∈Z
Z ÃX
n→∞
S
εkχBε,k dQn
k∈Z
Z
≤ lim inf n→∞
!
f Qn S
und analog erh¨ alt man Z
Z
lim sup
f Qn ≤
n→∞
Daher gilt Z
S
f dQ + ε S
Z
Z
f dQ − ε ≤ lim inf S
n→∞
Z
f Qn ≤ lim sup n→∞
S
f Qn ≤ S
f dQ + ε S
und daraus ergibt sich Z lim
n→∞
Daher folgt (a) aus (d).
Z f dQn =
S
f dQ S
2
Wir untersuchen nun die schwache Konvergenz einer Folge von Verteilungen auf B(R).
396
Kapitel 17. Schwache Konvergenz und Zentraler Grenzwertsatz
Eine Folge {Fn }n∈N von Verteilungsfunktionen R → [0, 1] heißt schwach konvergent, wenn es eine Verteilungsfunktion F : R → [0, 1] gibt derart, dass f¨ ur jede Stetigkeitsstelle x ∈ R von F lim Fn (x) = F (x)
n→∞
gilt. Der folgende Satz zeigt, dass die Definitionen der schwachen Konvergenz f¨ ur Verteilungen und Verteilungsfunktionen miteinander im Einklang stehen: 17.1.4 Satz (Helly/Bray). Sei {Qn }n∈N eine Folge von Verteilungen und {Fn }n∈N die Folge der zugeh¨ origen Verteilungsfunktionen und sei Q eine Verteilung und F die zugeh¨ orige Verteilungsfunktion. Dann sind ¨ aquivalent : (a) Die Folge {Qn }n∈N konvergiert schwach gegen Q. (b) Die Folge {Fn }n∈N konvergiert schwach gegen F . Beweis. Wir nehmen zun¨achst an, dass (a) gilt. Sei x ∈ R eine Stetigkeitsstelle von F . Dann gilt Q[{x}] = 0. Daher ist die Menge (−∞, x] eine Q–Stetigkeitsmenge und es gilt lim Fn (x) = lim Qn [(−∞, x]] = Q[(−∞, x]] = F (x)
n→∞
n→∞
Daher folgt (b) aus (a). Wir nehmen nun an, dass (b) gilt. Wir betrachten zun¨ achst das Mengensystem ¯ n o ¯ JQ := (a, b] ∈ J (R) ¯ Q[{a}] = 0 = Q[{b}] F¨ ur (a, b] ∈ JQ gilt nach Voraussetzung Q[(a, b]] = F (b) − F (a) = lim Fn (b) − lim Fn (a) n→∞ n→∞ ³ ´ = lim Fn (b) − Fn (a) n→∞
= lim Qn [(a, b]] n→∞
Da JQ ∩–stabil ist, ergibt sich f¨ ur jede endliche Familie {Ji }i∈H ⊆ JQ aus der Einschluss–Ausschluss–Formel und der letzten Gleichung " # " # [ [ Q Ji = lim Qn Ji i∈H
n→∞
i∈H
Sei U offen. Nach Beispiel 1.1.8 ist U die Vereinigung einer abz¨ ahlbaren Familie von offenen Intervallen, und jedes offene Intervall ist die Vereinigung einer abz¨ ahlbaren Familie von halboffenen Intervallen. Da F nur abz¨ ahlbar viele Sprungstellen besitzt, ist jedes offene Intervall sogar die Vereinigung einer
17.1 Schwache Konvergenz
397
abz¨ ahlbaren Familie von Intervallen in JQ , und damit ist auch U die Vereinigung einer abz¨ ahlbaren Familie von Intervallen in JQ . S Daher gibt es zu jedem ε ∈ (0, ∞) eine endliche Familie {Ji }i∈H(ε) ⊆ JQ mit i∈H(ε) Ji ⊆ U und " # [ Q[U ] ≤ Q Ji + ε i∈H(ε)
und wir erhalten
"
Q[U ] − ε ≤ Q
[
i∈H(ε)
#
"
Ji = lim Qn n→∞
[
# Ji ≤ lim inf Qn [U ]
i∈H(ε)
n→∞
Daher gilt Q[U ] ≤ lim inf Qn [U ] n→∞
Aus dem Portemanteau–Theorem folgt nun, dass die Folge {Qn }n∈N schwach gegen Q konvergiert. Daher folgt (a) aus (b). 2 Eine Folge {Xn }n∈N von reellen Zufallsvariablen heißt verteilungskonvergent oder konvergent in Verteilung, wenn es eine reelle Zufallsvariable X gibt derart, dass die Folge der Verteilungen {PXn }n∈N schwach gegen die Verteilung PX konvergiert; nach dem Satz von Helly/Bray ist diese Bedingung gleichwertig damit, dass die Folge der Verteilungsfunktionen {FXn }n∈N schwach gegen die Verteilungsfunktion FX konvergiert. 17.1.5 Beispiel (Poisson–Approximation). Sei X eine Zufallsvariable mit PX = P(α) und sei {Xn }n∈N eine Folge von Zufallsvariablen mit PXn = B(n, α/n). Dann konvergiert die Folge {Xn }n∈N in Verteilung gegen X. In der Tat: F¨ ur alle k ∈ N0 gilt à !µ ¶ µ ¶n−k k n α α αk lim P [{Xn = k}] = lim 1− = e−α n→∞ n→∞ k n n k! Durch Summation erh¨ alt man daraus f¨ ur alle x ∈ R lim P [{Xn ≤ x}] = P [{X ≤ x}]
n→∞
Daraus folgt die Behauptung.
F¨ ur eine Folge von reellen Zufallsvariablen vergleichen wir nun die Konvergenz in Verteilung mit der stochastischen Konvergenz. Wir ben¨ otigen das folgende Lemma: 17.1.6 Lemma. Seien Y und Z reelle Zufallsvariable. Dann gilt f¨ ur alle y, z ∈ R P [{Y ≤ y}] ≤ P [{Z ≤ z}] + P [{|Z −Y | > z −y}]
398
Kapitel 17. Schwache Konvergenz und Zentraler Grenzwertsatz
Beweis. Es gilt {Y ≤ y} = {Y ≤ y} ∩ {Z ≤ z} + {Y ≤ y} ∩ {Z > z} ⊆ {Z ≤ z} ∪ {Z −Y > z −y} ⊆ {Z ≤ z} ∪ {|Z −Y | > z −y} Daraus folgt die Behauptung.
2
17.1.7 Satz. Sei {Xn }n∈N eine Folge von reellen Zufallsvariablen und sei X eine reelle Zufallsvariable. Wenn die Folge {Xn }n∈N stochastisch gegen X konvergiert, dann konvergiert sie auch in Verteilung gegen X. Beweis. Nach Lemma 17.1.6 gilt f¨ ur alle x ∈ R und ε ∈ (0, ∞) FX (x−ε) ≤ FXn (x) + P [{|Xn −X| > ε}] und FXn (x) ≤ FX (x+ε) + P [{|X −Xn | > ε}] und aus der stochastischen Konvergenz der Folge {Xn }n∈N gegen X folgt nun FX (x−ε) ≤ lim inf FXn (x) ≤ lim sup FXn (x) ≤ FX (x+ε) n→∞
n→∞
F¨ ur jede Stetigkeitsstelle x von FX gilt daher lim FXn (x) = FX (x)
n→∞
Daher konvergiert die Folge {Xn }n∈N in Verteilung gegen X.
2
Das folgende Beispiel zeigt, dass die Umkehrung der Implikation von Satz 17.1.7 falsch ist: 17.1.8 Beispiel. Sei X eine reelle Zufallsvariable mit P(X+1)/2 = B( 12 ) und f¨ ur alle n ∈ N sei Xn := (−1)n X. Dann gilt f¨ ur alle n ∈ N PXn = PX Daher konvergiert die Folge {Xn }n∈N in Verteilung gegen X. Andererseits ist die Folge {Xn }n∈N nicht stochastisch konvergent.
Im Fall der Konvergenz gegen eine konstante und damit Dirac–verteilte Zufallsvariable hingegen ist die Konvergenz in Verteilung mit der stochastischen Konvergenz a ¨quivalent: 17.1.9 Satz. Sei {Xn }n∈N eine Folge von reellen Zufallsvariablen und sei c ∈ R. Dann sind ¨ aquivalent: (a) {Xn }n∈N konvergiert stochastisch gegen c. (b) {Xn }n∈N konvergiert in Verteilung gegen c.
17.1 Schwache Konvergenz
399
Beweis. Nach Satz 17.1.7 folgt (b) aus (a). Wir nehmen nun an, dass (b) gilt. Sei ε ∈ (0, ∞). Dann gilt P [{|Xn −c| ≤ ε}] = P [{c−ε ≤ Xn ≤ c+ε}] ≥ P [{c−ε < Xn ≤ c+ε}] = P [{Xn ≤ c+ε}] − P [{Xn ≤ c−ε}] Da c + ε und c − ε Stetigkeitsstellen der Verteilungsfunktion Fc sind, erhalten wir lim inf P [{|Xn −c| ≤ ε}] ≥ lim FXn (c+ε) − lim FXn (c−ε) n→∞
n→∞
n→∞
= Fc (c+ε) − Fc (c−ε) = 1−0 =1 und damit lim P [{|Xn −c| ≤ ε}] = 1
n→∞
Daher folgt (a) aus (b).
2
Das folgende Beispiel illustriert die Aussage des letzten Satzes: 17.1.10 Beispiel (Wandernde T¨ urme). Sei (Ω, F , P ) := ((0, 1], B(0, 1], λ|B(0,1] ). F¨ ur m ∈ N und k ∈ {1, . . . , 2m } sei Bm,k := ((k−1) 2−m , k 2−m ] und X2m +k−2 := χBm,k Daher konvergiert die Folge {Xn }n∈N stochastisch gegen 0; vgl. Beispiel 14.2.2. Außerdem gilt f¨ ur alle f ∈ Cb (R) Z Z f (x) dPX2m +k−2 (x) = f (X2m +k−2 (ω)) dP (ω) = f (0) (1−2−m ) + f (1) 2−m R
Ω
und damit
Z
Z
lim
n→∞
f (x) dPXn (x) = f (0) = R
f (x) dδ 0 (x) R
Daher konvergiert die Folge {Xn }n∈N in Verteilung gegen 0.
Aufgabe 17.1.A Sei (S, d) ein metrischer Raum und sei Q ∈ Q(S). Dann ist das System der Q–Stetigkeitsmengen eine Algebra.
400
Kapitel 17. Schwache Konvergenz und Zentraler Grenzwertsatz
17.2 Straffheit In diesem Abschnitt zeigen wir, dass die schwache Konvergenz einer Folge von Verteilungen durch die Konvergenz der Folge ihrer charakteristischen Funktionen charakterisiert werden kann; dabei ist die charakteristische Funktion ¨ ψ : R → C einer Verteilung Q : B(R) → [0, 1] in Ubereinstimmung mit der Darstellung der charakteristischen Funktion einer Zufallsvariablen durch Z ψ(t) := eitx dQ(x) R
definiert. Sei (S, d) ein metrischer Raum und B(S) die zugeh¨ orige Borelsche σ–Algebra. Eine Familie Q ⊆ Q(S) von Wahrscheinlichkeitsmaßen heißt straff , wenn es zu jedem ε ∈ (0, ∞) eine kompakte Menge K ∈ 2S gibt derart, dass f¨ ur alle Q∈Q Q[K] ≥ 1 − ε gilt. 17.2.1 Lemma. Sei Q eine Familie von Verteilungen. Dann sind ¨ aquivalent: (a) Q ist straff. (b) Zu jedem ε ∈ (0, ∞) gibt es ein Intervall [a, b] derart, dass f¨ ur alle Q ∈ Q Q[[a, b]] ≥ 1 − ε gilt. Beweis. Nach dem Satz von Heine/Borel ist jede kompakte Menge beschr¨ ankt und abgeschlossen, und damit eine Teilmenge eines abgeschlossenen Intervalls. Andererseits ist jedes abgeschlossene Intervall kompakt. 2 17.2.2 Beispiel. Sei {xn }n∈N eine Folge reeller Zahlen. Dann sind ¨ aquivalent: (a) Die Folge {δ xn }n∈N ist straff. (b) Die Folge {xn }n∈N ist beschr¨ ankt.
Im Hinblick auf die Beispiele 17.1.2 und 17.2.2 ist das folgende Ergebnis nicht u ¨berraschend: 17.2.3 Satz. Jede schwach konvergente Folge von Verteilungen ist straff. Beweis. Sei {Qn }n∈N eine Folge von Verteilungen, die schwach gegen eine Verteilung Q konvergiert. Sei ε ∈ (0, ∞). Dann gibt es ein c ∈ (0, ∞) mit Q[[−c, c]] ≥ 1 − ε
17.2 Straffheit
401
und die Funktion f : R → R mit 1 f (x) := 2 − |x/c| 0
falls |x| ≤ c falls c < |x| ≤ 2c falls 2c < |x|
ist stetig und beschr¨ankt. Es gilt χ[−c,c] ≤ f ≤ χ[−2c,2c] und damit Z Z Z Z lim inf χ[−2c,2c] dQn ≥ lim f dQn = f dQ ≥ χ[−c,c] dQ ≥ 1 − ε n→∞
R
n→∞
R
R
R
Daher gilt Qn [[−2c, 2c]] ≥ 1 − ε f¨ ur alle außer endlich viele n ∈ N, und durch Vergr¨ oßerung von c kann man erreichen, dass diese Ungleichung sogar f¨ ur alle n ∈ N gilt. Daher ist die Folge {Qn }n∈N straff. 2 Der folgende Satz charakterisiert die Straffheit einer Folge von Verteilungen durch die Existenz schwach konvergenter Teilfolgen (mit m¨ oglicherweise unterschiedlichen Limites): 17.2.4 Satz (Helly). Sei {Qn }n∈N ein Folge von Verteilungen. Dann sind aquivalent: ¨ (a) Die Folge {Qn }n∈N ist straff. (b) Jede Teilfolge der Folge {Qn }n∈N besitzt eine schwach konvergente Teilfolge. Beweis. Wir nehmen zun¨achst an, dass (a) gilt. Sei {Fn }n∈N die Folge der zugeh¨ origen Verteilungsfunktionen und sei {qi }i∈N eine Abz¨ ahlung der Menge Q der rationalen Zahlen. F¨ ur alle i ∈ N ist die Folge {Fn (qi )}n∈N beschr¨ ankt und enth¨ alt daher eine konvergente Teilfolge. Durch sukzessive Verd¨ unnung und Anwendung des Diagonalprinzips erh¨alt man eine streng monoton wachsende Folge {nk }k∈N derart, dass f¨ ur alle i ∈ N die Folge {Fnk (qi )}k∈N konvergent ist. Sei nun G : Q → R gegeben durch G(q) := lim Fnk (q) k→∞
und sei F : R → R gegeben durch ¯ n o ¯ F (x) := inf G(q) ¯ q ∈ Q ∩ (x, ∞) Dann ist F monoton wachsend und f¨ ur alle x ∈ R gilt F (x) ∈ [0, 1]. Sei x ∈ R und ε ∈ (0, ∞). Dann gibt es ein q ∈ Q∩(x, ∞) mit G(q) ≤ F (x)+ε und f¨ ur alle y ∈ (x, q) gilt F (x) ≤ F (y) ≤ G(q) ≤ F (x) + ε. Daher ist F rechtsseitig stetig.
402
Kapitel 17. Schwache Konvergenz und Zentraler Grenzwertsatz
Sei nun x eine Stetigkeitsstelle von F und ε ∈ (0, ∞). Dann gibt es p, q ∈ Q mit p < x < q sowie F (x) ≤ G(p) + ε und G(q) ≤ F (x) + ε, und man erh¨ alt F (x) − ε ≤ G(p) = lim Fnk (p) ≤ lim inf Fnk (x) k→∞
k→∞
und lim sup Fnk (x) ≤ lim Fnk (q) = G(q) ≤ F (x) + ε k→∞
k→∞
F¨ ur jede Stetigkeitsstelle x von F gilt daher lim Fnk (x) = F (x)
k→∞
Es bleibt zu zeigen, dass F eine Verteilungsfunktion ist. Sei ε ∈ (0, ∞). Da die Folge {Qn }n∈N straff ist, gibt es ein abgeschlossenes Intervall J derart, dass f¨ ur alle n ∈ N Qn [J] ≥ 1 − ε gilt. Dann gibt es aber auch ein halboffenes Intervall (a, b] mit Qn [(a, b]] ≥ 1−ε f¨ ur alle n ∈ N und man kann dieses Intervall so w¨ ahlen, dass seine Endpunkte Stetigkeitsstellen von F sind. Nach dem bisher Gezeigten gilt dann F (b) − F (a) = lim Fnk (b) − lim Fnk (a) k→∞ k→∞ ¡ ¢ = lim Fnk (b) − Fnk (a) k→∞
= lim Qnk [(a, b]] k→∞
≥ 1−ε und damit F (a) ≤ ε und F (b) ≥ 1 − ε. Daher gibt es zu jedem ε ∈ (0, ∞) ein a ∈ R mit F (a) ≤ ε und ein b ∈ R mit F (b) ≥ 1−ε, und aus der Monotonie von F folgt nun, dass limx→−∞ F (x) = 0 und limx→∞ F (x) = 1 gilt. Daher ist F eine Verteilungsfunktion. Da die Folge {Fnk }k∈N schwach gegen F konvergiert, konvergiert nach dem Satz von Helly/Bray die Folge {Qnk }k∈N schwach gegen die zu F geh¨ orige Verteilung Q. Daher folgt (b) aus (a). Wir nehmen nun an, dass (b) gilt. Wir nehmen des weiteren an, dass die Folge {Qn }n∈N nicht straff ist. Dann gibt es ein ε ∈ (0, ∞) derart, dass f¨ ur alle a, b ∈ R und ein n ∈ N Qn [[a, b]] < 1 − ε und damit Qn [(a, b]] < 1 − ε gilt. Daher gibt es f¨ ur alle k ∈ N ein nk ∈ N mit
17.2 Straffheit
403
Qnk [(−k, k]] < 1 − ε Da es kein n ∈ N gibt mit Qn [(−k, k]] < 1 − ε f¨ ur alle k ∈ N, k¨ onnen wir annehmen, dass die Folge {nk }k∈N streng monoton wachsend ist. Daher ist {Qnk }k∈N eine Teilfolge der Folge {Qn }n∈N und nach Voraussetzung gibt es eine Teilfolge {Qnkl }l∈N der Folge {Qnk }k∈N , die schwach gegen eine Verteilung Q konvergiert. Sei nun (a, b] ein Intervall mit Q[{a}] = 0 = Q[{b}] und Q[(a, b]] ≥ 1 − ε F¨ ur alle hinreichend großen l ∈ N gilt (a, b] ⊆ (−kl , kl ] und damit Q[(a, b]] = lim Qnkl [(a, b]] < 1 − ε l→∞
Dies ist ein Widerspruch. Daher folgt (a) aus (b).
2
F¨ ur die schwache Konvergenz gilt das Teilfolgenprinzip: 17.2.5 Lemma (Teilfolgenprinzip). Sei {Qn }n∈N eine Folge von Verteilungen und sei Q eine Verteilung. Dann sind ¨aquivalent: (a) Die Folge {Qn }n∈N konvergiert schwach gegen Q. (b) Jede Teilfolge der Folge {Qn }n∈N besitzt eine Teilfolge, die schwach gegen Q konvergiert. Beweis. Wir nehmen an, dass (b) gilt. Wir nehmen des weiteren an, dass die Folge {Qn }n∈N nicht schwach gegen Q konvergiert. DannR gibt es eine beschr¨ ankteRstetige Funktion f : R → R derart, dass die Folge { R f dQn }n∈N nicht gegen R f dQ konvergiert, und dass es ¯R daraus folgt, ¯ zu jedem ε ∈ (0, ∞) R eine Teilfolge {Qnk }k∈N gibt mit ¯ R f dQnk − R f dQ¯ > ε f¨ ur alle k ∈ N. Dies ist ein Widerspruch zur Voraussetzung. Damit ist gezeigt, dass die Folge {Qn }n∈N schwach gegen Q konvergiert. Daher folgt (a) aus (b). Die umgekehrte Implikation ist klar. 2 17.2.6 Lemma. Sei {Qn }n∈N eine Folge von Verteilungen und {ψn }n∈N die Folge der zugeh¨ origen charakteristischen Funktionen. Konvergiert die Folge {Qn }n∈N schwach gegen eine Verteilung Q mit charakteristischer Funktion ψ, so konvergiert die Folge {ψn }n∈N punktweise gegen ψ. Beweis. Sowohl der Realteil als auch der Imagin¨ arteil der Exponentialfunktion R → C : x 7→ eitx mit t ∈ R ist stetig und beschr¨ ankt. 2 17.2.7 Satz. Sei {Qn }n∈N eine Folge von Verteilungen und {ψn }n∈N die Folge der zugeh¨ origen charakteristischen Funktionen. Ist {Qn }n∈N straff und gibt es eine Funktion ψ : R → C derart, dass die Folge {ψn }n∈N punktweise gegen ψ konvergiert, so ist ψ die charakteristische Funktion einer Verteilung Q und die Folge {Qn }n∈N konvergiert schwach gegen Q.
404
Kapitel 17. Schwache Konvergenz und Zentraler Grenzwertsatz
Beweis. Nach dem Satz von Helly besitzt jede Teilfolge von {Qn }n∈N eine schwach konvergente Teilfolge. Wegen limn→∞ ψn (t) = ψ(t) folgt aus Lemma 17.2.6, dass ψ die charakteristische Funktion jeder der so entstehenden Grenzverteilungen ist, und aus dem Eindeutigkeitssatz 16.4.7 folgt nun, dass alle Grenzverteilungen identisch sind. Aus Lemma 17.2.5 folgt schließlich die schwache Konvergenz der Folge {Qn }n∈N gegen eine Verteilung mit der charakteristischen Funktion ψ. 2 Wir k¨ onnen nun die schwache Konvergenz einer Folge von Verteilungen durch die Konvergenz der Folge ihrer charakteristischen Funktionen charakterisieren: 17.2.8 Satz (Stetigkeitssatz). Sei {Qn }n∈N eine Folge von Verteilungen und {ψn }n∈N die Folge der zugeh¨origen charakteristischen Funktionen und sei Q eine Verteilung und ψ die zugeh¨ orige charakteristische Funktion. Dann sind aquivalent: ¨ (a) Die Folge {Qn }n∈N konvergiert schwach gegen Q. (b) Die Folge {ψn }n∈N konvergiert punktweise gegen ψ. Beweis. Nach Lemma 17.2.6 folgt (b) aus (a). Wir nehmen nun an, dass (b) gilt. Nach Satz 17.2.7 gen¨ ugt es zu zeigen, dass die Folge {Qn }n∈N straff ist. Sei ε ∈ (0, ∞). Da ψ stetig ist mit ψ(0) = 1 gibt es ein c ∈ (0, ∞) mit Z 1 |1 − ψ(t)| dλ(t) ≤ ε c [−c,c] Andererseits ergibt sich f¨ ur alle n ∈ N aus dem Satz von Fubini Z Z Z 1 1 (1 − ψn (t)) dλ(t) = (1 − eitx ) dQn (x) dλ(t) c [−c,c] c [−c,c] R Z Z 1 = (1 − eitx ) dλ(t) dQn (x) c R [−c,c] ¶ Z µ sin(cx) = 2 1− dQn (x) cx R µ ¶ Z 1 ≥ 2 1− dQn (x) |cx| R\[−2/c,2/c] ≥ Qn [R \ [−2/c, 2/c]] Aus der Voraussetzung und dem Satz u ¨ ber die majorisierte Konvergenz folgt nun lim sup Qn [R \ [−2/c, 2/c]] ≤ ε n→∞
und damit Qn [[−2/c, 2/c]] ≥ 1 − ε f¨ ur alle außer endlich viele n ∈ N. Daher ist die Folge {Qn }n∈N straff.
2
17.3 Zentraler Grenzwertsatz
405
Aufgabe 17.2.A Poisson–Verteilung: Sei {Xk }k∈N eine unabh¨ angige Folge P von reellen Zufallsvariablen mit PXk = P(αk ) f¨ ur alle k ∈ N sowie α := ∞ k=1 αk < ∞. Dann konvergiert die Reihe ∞ X Xk k=1
in Verteilung gegen eine reelle Zufallsvariable X mit PX = P(α).
17.3 Zentraler Grenzwertsatz Ist {Xk }k∈N eine unkorrelierte Folge in L2 mit E[Xk ] = µ und var [Xk ] = σ 2 f¨ ur alle k ∈ N, so konvergiert die Folge der Stichprobenmittel n
1X Xk n k=1
nach dem schwachen Gesetz der Großen Zahlen stochastisch gegen µ und nach Satz 17.1.7 konvergiert sie auch in Verteilung gegen µ. Die Verteilung von µ ist aber degeneriert und eignet sich daher im Fall σ 2 > 0 nicht zur Approximation der Verteilung der Stichprobenmittel. Unter der st¨ arkeren Voraussetzung, dass {Xk }k∈N eine unabh¨ angig und identisch verteilte Folge in L2 mit E[X] = µ ist, konvergiert die Folge der Stichprobenmittel nach dem starken Gesetz der Großen Zahlen sogar fast sicher gegen µ und in diesem Fall l¨asst sich unter der Annahme var [X] = σ 2 > 0 auch das Problem der Approximation der Stichprobenmittel l¨ osen, indem man nicht die Folge der Stichprobenmittel selbst, sondern die Folge der standardisierten Stichprobenmittel £ 1 Pn ¤ Pn 1 k=1 Xk − E n k=1 Xk n q £ Pn ¤ var n1 k=1 Xk betrachtet. Es gilt 1 n
£ 1 Pn ¤ Pn k=1 Xk − E n k=1 Xk q = £ Pn ¤ var n1 k=1 Xk
1 n
Pn n X Xk − µ k=1 Xk − µ q √ = 2 σ n σ n
k=1
Im folgenden sei Φ die Verteilungsfunktion der Standardnormal–Verteilung.
406
Kapitel 17. Schwache Konvergenz und Zentraler Grenzwertsatz
17.3.1 Satz (Zentraler Grenzwertsatz). Sei {Xn }n∈N eine unabh¨ angig und identisch verteilte Folge von quadratisch integrierbaren reellen Zufallsvariablen mit E[X] = µ und var [X] = σ 2 > 0. F¨ ur alle n ∈ N sei Sn :=
n X Xk − µ √ σ n
k=1
Dann gilt f¨ ur alle x ∈ R lim P [{Sn ≤ x}] = Φ(x)
n→∞
Beweis. Sei ψS die charakteristische Funktion der Standardnormal–Verteilung. Es gen¨ ugt zu zeigen, dass f¨ ur alle t ∈ R lim |ψSn (t) − ψS (t)| = 0
n→∞
gilt, denn dann folgt die Behauptung des Satzes aus dem Stetigkeitssatz f¨ ur charakteristische Funktionen. F¨ ur alle k ∈ N sei Zk =
Xk − µ σ
Dann ist Zk die zu Xk geh¨orige standardisierte Zufallsvariable und es gilt Sn =
n X Z √k n k=1
Mit {Xk }k∈N ist auch {Zk }k∈N eine unabh¨angig und identisch verteilte Folge in L2 . Nach Satz 16.4.8 und Lemma 16.4.3 gilt daher ³ ´n µ µ t ¶¶n √ ψSn (t) = ψZ/ n (t) = ψZ √ n und nach Beispiel 16.4.2(3) gilt 2
ψS (t) = e−t
/2
Wir erhalten daher die Ungleichung ¯ ¯ ¯ ¯¯µ µ t ¶¶n ¯ ¯ ¯ ¯ −t2 /2 ¯ −e ¯ψSn (t) − ψS (t)¯ = ¯ ψZ √ ¯ n ¯µ µ ¯ ¶¶n µ ¶n ¯ ¯µ ¶n ¯ ¯ ¯ ¯ t t2 t2 −t2 /2 ¯ ¯ ¯ ¯ ≤ ¯ ψZ √ − 1− +¯ 1− −e ¯ ¯ 2n 2n n Der zweite Summand konvergiert gegen 0, und es bleibt zu zeigen, dass auch der erste Summand gegen 0 konvergiert.
17.3 Zentraler Grenzwertsatz
407
F¨ ur alle v, w ∈ C mit |v|, |w| ≤ 1 gilt |v n − wn | ≤ n |v − w|. Daraus ergibt sich zun¨ achst f¨ ur hinreichend große n ∈ N die Ungleichung ¯µ µ ¯ µ ¶¶n µ ¶n ¯ ¶ µ ¶¯ ¯ ¯ ¯ t2 t2 ¯¯ ¯ ψZ √t ¯ ¯ψZ √t − 1 − ≤ n − 1 − ¯ ¯ 2n ¯ 2n ¯ n n und aus Lemma 16.4.4 ergibt sich f¨ ur alle s ∈ R und η ∈ (0, ∞) ¯ µ ¶¯ Z n o 2 ¯ ¯ 3 2 ¯ψZ (s) − 1 − s ¯ ≤ min |sZ| , |sZ| dP ¯ 2 ¯ ZΩ Z ≤ |sZ|3 dP + |sZ|2 dP {|Z|≤η} {|Z|>η} Z Z 3 2 2 ≤ η |s| Z dP + s Z 2 dP {|Z|≤η} {|Z|>η} Z ≤ η |s|3 + s2 Z 2 dP {|Z|>η}
√ F¨ ur alle √ ε ∈ (0, ∞) ergibt sich aus diesen Ungleichungen mit s := t/ n und η := ε n ¯µ µ ¯ µ ¶¶n µ ¶n ¯ ¶ µ ¶¯ ¯ ¯ ¯ t2 t2 ¯¯ ¯ ψZ √t ¯ ≤ n ¯ψZ √t − 1 − − 1 − ¯ ¯ 2n ¯ 2n ¯ n n µ ¶ Z |t|3 t2 2 ≤n ε + Z dP n n {|Z|>ε√n} Z ≤ ε |t|3 + t2 Z 2 dP √ {|Z|>ε n}
und damit ¯µ µ ¶¶n µ ¶n ¯ ¯ ¯ t t2 ¯ ≤ ε |t|3 lim sup¯¯ ψZ √ − 1− n 2n ¯ n→∞ Da ε ∈ (0, ∞) beliebig war, ergibt sich nun ¯µ µ ¶¶n µ ¶n ¯ ¯ ¯ t t2 ¯=0 lim ¯¯ ψZ √ − 1− n→∞ n 2n ¯ Damit ist gezeigt, dass auch der erste Summand gegen 0 konvergiert.
2
Der Zentrale Grenzwertsatz besagt, dass die standardisierten Stichprobenmittel einer unabh¨angig und identisch verteilten Folge von quadratisch integrierbaren reellen Zufallsvariablen in Verteilung gegen eine standardnormal– verteilte Zufallsvariable konvergieren.
408
Kapitel 17. Schwache Konvergenz und Zentraler Grenzwertsatz
Ist {Xk }k∈N eine unabh¨angig und identisch verteilte Folge in L2 mit E[X] = µ und var [X] = σ 2 > 0, so ergibt sich aus dem Zentralen Grenzwertsatz f¨ ur die Verteilung des Stichprobenmittels die Approximation "( n )# µ ¶ 1X x−µ√ P Xk ≤ x ≈Φ n n σ k=1
Diese Approximation ist in der Statistik von Interesse.
18 Bedingte Erwartung
Bei der Konstruktion wahrscheinlichkeitstheoretischer Modelle spielt neben dem Begriff der Unabh¨angigkeit auch das Konzept des Konditionierens eine zentrale Rolle. Dies l¨asst sich bereits am Beispiel der Urnenmodelle erkennen: – Beim Ziehen mit Zur¨ ucklegen wird die bei der ersten Ziehung gezogene Kugel zur¨ uckgelegt und damit die urspr¨ ungliche Zusammensetzung der Urne wiederhergestellt. Daher ist das Ergebnis der zweiten Ziehung unabh¨ angig vom Ergebnis der ersten Ziehung. – Beim Ziehen ohne Zur¨ ucklegen wird die bei der ersten Ziehung gezogene Kugel nicht zur¨ uckgelegt und damit die Anzahl der Kugeln reduziert und die Zusammensetzung der Urne ver¨andert. Daher ist das Ergebnis der zweiten Ziehung abh¨angig vom Ergebnis der ersten Ziehung. In diesem Fall ist es von Interesse, die bedingten Wahrscheinlichkeiten f¨ ur das Auftreten einer roten Kugel bei der zweiten Ziehung unter den Bedingungen, dass bei der ersten Ziehung eine rote Kugel bzw. eine andersfarbige Kugel auftritt, zu bestimmen; es liegt dann nahe, diese bedingten Wahrscheinlichkeiten zusammenfassend durch eine einzige bedingte Wahrscheinlichkeit darzustellen, die u ¨ber das zuf¨allige Ergebnis der ersten Ziehung vom Zufall abh¨ angt. Die allgemeine Konstruktion zuf¨alliger bedingter Wahrscheinlichkeiten beruht auf der bedingten Erwartung einer Zufallsvariablen bez¨ uglich einer σ–Algebra; hier ist daran zu erinnern, dass auch die Unabh¨ angigkeit von Zufallsvariablen durch eine Eigenschaft von σ–Algebren definiert ist. In diesem Kapitel f¨ uhren wir zun¨achst die bedingte Erwartung einer positiven Zufallsvariablen ein (Abschnitt 18.1) und definieren die bedingte Erwartung dann, analog zur Konstruktion des Integrals, auch f¨ ur eine Klasse von Zufallsvariablen, die nicht positiv sein m¨ ussen (Abschnitt 18.2). Von besonderem Interesse ist die bedingte Erwartung f¨ ur quadratisch integrierbare Zufallsvariable (Abschnitt 18.3). Als erste Anwendung bedingter Erwartungen untersuchen wir schließlich die Konvergenz trivialer Martingale (Abschnitt 18.4). K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_18, © Springer-Verlag Berlin Heidelberg 2011
410
Kapitel 18. Bedingte Erwartung
F¨ ur p ∈ {0} ∪ [1, ∞] setzen wir Lp (F) := Lp (F, P ) Eine σ–Algebra G auf Ω heißt Unter–σ–Algebra von F, wenn G ⊆ F gilt. F¨ ur eine Unter–σ–Algebra G von F sei ¯ n o ¯ L0 (F, G) := [X]P ∈ L0 (F) ¯ X =P Y f¨ ur ein Y ∈ L0 (G) ¨ Dann ist L0 (F , G) die Menge derjenigen Aquivalenzklassen von L0 (F), die 0 einen G–messbaren Repr¨asentanten besitzen. Offenbar ist L (F , G) ein Vektorverband. Im gesamten Kapitel sei G eine Unter–σ–Algebra von F.
18.1 Bedingte Erwartung einer positiven Zufallsvariablen In diesem Abschnitt definieren wir die G–bedingte Erwartung einer positiven Zufallsvariablen und untersuchen ihre Eigenschaften. 18.1.1 Satz. Sei X eine positive Zufallsvariable. Dann gibt es eine positive G–messbare Zufallsvariable U mit Z Z U dP = X dP G
G
f¨ ur alle G ∈ G. Sind U und V positive G–messbare Zufallsvariable mit Z Z Z U dP = X dP = V dP G
G
G
f¨ ur alle G ∈ G, so gibt es eine Nullmenge N ∈ G mit U (ω) = V (ω) f¨ ur alle ω ∈ Ω \ N. Beweis. Wir betrachten das Maß ν : F → [0, ∞] mit Z ν[A] := X dP A
und seine Restriktion ν|G : G → [0, ∞] auf G. Da ν P –stetig ist, ist ν|G P |G – stetig. Da P |G σ–endlich ist, folgt aus dem Satz von Radon/Nikodym die Existenz einer positiven G–messbaren Zufallsvariablen U mit Z ν|G [G] = U dP |G G
und damit
Z
Z
Z
U dP = G
U dP |G = ν|G [G] = ν[G] = G
X dP G
f¨ ur alle G ∈ G. Nach dem Satz von Radon/Nikodym ist U P |G –fast sicher eindeutig bestimmt. 2
18.1 Bedingte Erwartung einer positiven Zufallsvariablen
411
Ist X eine positive Zufallsvariable, so nennen wir jede positive G–messbare Zufallsvariable U mit Z Z U dP = X dP G
G
f¨ ur alle G ∈ G eine Version der G–bedingten Erwartung von X; wir bezeichnen mit E G (X) eine beliebige Version der G–bedingten Erwartung von X und nennen E G (X) die G–bedingte Erwartung von X. Da die σ–Algebra G außer der leeren Menge weitere Nullmengen enthalten kann, besitzt die G–bedingte Erwartung einer positiven Zufallsvariablen im allgemeinen mehrere Versionen, von denen aber je zwei auf dem Komplement einer Nullmenge in G u ur eine ¨bereinstimmen. F¨ beliebige Zufallsvariable Y gilt daher U (ω) = Y (ω)
fast sicher
entweder f¨ ur jede oder f¨ ur keine Version U der G–bedingten Erwartung von X; gilt sie f¨ ur jede Version der G–bedingten Erwartung von X, so schreiben wir kurz E G (X) = Y Diese Konvention wenden wir auch auf Ungleichungen an. Aus der Definition der G–bedingten Erwartung einer positiven Zufallsvariablen X ergibt sich unmittelbar die Gleichung E[E G (X)] = E[X] Außerdem ist klar, dass jede positive G–messbare Zufallsvariable mit ihrer G– bedingten Erwartung u ¨bereinstimmt. Aus diesen Bemerkungen ergeben sich sofort zwei Spezialf¨alle bez¨ uglich der σ–Algebra G: – Im Fall G = {∅, Ω} ist jede G–messbare Zufallsvariable konstant und f¨ ur jede positive Zufallsvariable X gilt E G (X) = E[X]. – Im Fall G = F ist jede positive Zufallsvariable X G–messbar und es gilt E G (X) = X. Das folgende Ergebnis zeigt, dass die Definition der G–bedingten Erwartung einer positiven Zufallsvariablen mit der Definition ihres bedingten Erwartungswertes bez¨ uglich einem Ereignis im Einklang steht: 18.1.2 Lemma (Fourier–Entwicklung). Sei {Gi }i∈{1,...,m} ⊆ F eine disPm junkte Familie von Ereignissen mit G ur alle i=1 i = Ω und P [Gi ] > 0 f¨ i ∈ {1, . . . , m} und sei G die von der Familie {Gi }i∈{1,...,m} erzeugte σ–Algebra. Dann gilt f¨ ur jede positive Zufallsvariable X E G (X) =
m X i=1
E[X|Gi ] χGi
412
Kapitel 18. Bedingte Erwartung
Beweis. Da die von der Familie {Gi }i∈{1,...,m} erzeugte σ–Algebra G außer der leeren Menge keine Nullmengen enth¨alt, ist die G–bedingte Erwartung einer positiven Zufallsvariablen X eindeutig bestimmt und es gibt eine Familie {ai }i∈{1,...,m} ⊆ [0, ∞] mit E G (X) =
m X
ai χGi
i=1
F¨ ur alle i ∈ {1, . . . , m} gilt daher Z
Z G
X dP = Gi
E (X) dP = Gi
Z ÃX m Gi
und damit ai =
1 P [Gi ]
! aj χGj
Z dP =
j=1
ai dP = ai P [Gi ] Gi
Z X dP = E[X|Gi ] Gi
Damit ist die Behauptung gezeigt.
2
¨ Das Lemma deutet darauf hin, dass der Ubergang von einer positiven Zufallsvariablen X zu ihrer G–bedingten Erwartung als ein lokales Mitteln verstanden werden kann: Wenn die σ–Algebra durch endlich viele Ereignisse erzeugt wird, dann nimmt die G–bedingte Erwartung E G (X) nur endlich viele Werte an, und im Extremfall G = {∅, Ω} ist die G–bedingte Erwartung von X sogar konstant. Ist Θ eine reelle Zufallsvariable mit PΘ [{ϑ1 , . . . , ϑm }] = 1 und P [{Θ = ϑi }] > 0 ur alle i ∈ {1, . . . , m}, so gilt nach Lemma 18.1.2 f¨ E σ(Θ) (X) =
m X
E[X|{Θ = ϑi }] χ{Θ=ϑi }
i=1
In diesem Fall gibt es also eine messbare Funktion h : R → R mit E σ(Θ) (X) = h ◦ Θ Dieses Ergebnis l¨ asst sich wie folgt verallgemeinern: 18.1.3 Satz (Faktorisierungssatz). Sei (Ω0 , F 0 ) ein Messraum und sei Θ : Ω → Ω0 eine Zufallsgr¨ oße. Dann gibt es zu jeder positiven Zufallsvariablen X eine messbare Funktion h : Ω0 → R mit E σ(Θ) (X) = h ◦ Θ Der Satz folgt unmittelbar aus dem Faktorisierungssatz 7.1.16. Wir untersuchen nun die Eigenschaften der bedingten Erwartung einer positiven Zufallsvariablen:
18.1 Bedingte Erwartung einer positiven Zufallsvariablen
413
18.1.4 Lemma. Sei X eine positive Zufallsvariable und sei Y eine positive G–messbare Zufallsvariable. Dann sind ¨ aquivalent: (a) Es gilt Y = E G (X). (b) F¨ ur jede positive G–messbare Zufallsvariable U gilt Z Z U Y dP = U X dP Ω
Ω
Beweis. Wir nehmen zun¨achst an, dass Y = E G (X) gilt, und f¨ uhren den Beweis durch algebraische Induktion. Nach dem Approximationssatz ist jede positive G–messbare Zufallsvariable das Supremum einer monoton wachsenden Folge von positiven einfachen G–messbaren Zufallsvariablen, und es ist klar, dass jede einfache G–messbare Zufallsvariable eine Linearkombination von G– messbaren Indikatorfunktionen ist. Aufgrund der Linearit¨ at des Integrals und des Satzes u ugt es also zu zeigen, dass die ¨ber die monotone Konvergenz gen¨ Gleichung Z Z U Y dP = U X dP Ω
Ω
f¨ ur jede G–messbare Indikatorfunktion U gilt. Nach Voraussetzung gilt f¨ ur alle G∈G Z Z Z Z χG Y dP = Y dP = X dP = χG X dP Ω
und damit in der Tat
G
G
Z
Ω
Z U Y dP =
Ω
U X dP Ω
f¨ ur jede G–messbare Indikatorfunktion U . Damit ist gezeigt, dass (b) aus (a) folgt, und die umgekehrte Implikation ist klar. 2 Das folgende Lemma enth¨alt die elementaren Eigenschaften der bedingten Erwartung einer positiven Zufallsvariablen: 18.1.5 Lemma. Seien X und Y positive Zufallsvariable. Dann gilt: (1) E G (E G (X)) = E G (X). (2) E G (X +Y ) = E G (X) + E G (Y ). (3) F¨ ur jede positive G–messbare Zufallsvariable U gilt E G (U X) = U E G (X). (4) Im Fall X ≤ Y gilt E G (X) ≤ E G (Y ). Beweis. Aussage (1) folgt aus der G–Messbarkeit von E G (X). Aus der Linearit¨ at des Integrals folgt f¨ ur alle G ∈ G Z Z Z (X +Y ) dP = X dP + Y dP G
G
G
414
Kapitel 18. Bedingte Erwartung
Z
Z G
=
E G (Y ) dP
E (X) dP + ZG ³
=
G
´ E (X) + E (Y ) dP G
G
G
Da E G (X)+E G (Y ) G–messbar ist, folgt daraus E G (X+Y ) = E G (X)+E G (Y ). Damit ist (2) gezeigt. Mit U ist f¨ ur alle G ∈ G auch χG U G–messbar. Nach Lemma 18.1.4 gilt daher f¨ ur alle G ∈ G Z Z Z Z U X dP = χG U X dP = χG U E G (X) dP = U E G (X) dP G
Ω
Ω
G
G G
Da mit U auch U E (X) G–messbar ist, folgt daraus E (U X) = U E G (X). Damit ist (3) gezeigt. Zum Beweis von (4) betrachten wir eine monoton wachsende Folge {Xn }n∈N von positiven einfachen Zufallsvariablen mit X = supn∈N Xn . F¨ ur alle n ∈ N ist Xn endlich und f¨ ur jede Zufallsvariable Z mit Xn ≤ Z gilt (Z −Xn ) + Xn = Z. Aus (2) folgt nun E G (Xn ) ≤ E G (Z −Xn ) + E G (Xn ) = E G (Z) Mit Z := Xn+1 erkennt man, dass die Folge {E G (Xn )}n∈N monoton wachsend ist und mit Z := Y ergibt sich sup E G (Xn ) ≤ E G (Y )
n∈N
Aus dem Satz u ur alle G ∈ G ¨ber die monotone Konvergenz folgt nun f¨ Z Z X dP = sup Xn dP G G n∈N Z = sup Xn dP n∈N G Z = sup E G (Xn ) dP n∈N G Z = sup E G (Xn ) dP G n∈N
und damit E G (X) = sup E G (Xn ) n∈N
Daher gilt E G (X) = supn∈N E G (Xn ) ≤ E G (Y ). Damit ist auch (4) gezeigt. 2 Bemerkenswert ist die Aussage (3) von Lemma 18.1.5, denn sie besagt, dass sich die positiven G–messbaren Zufallsvariablen bez¨ uglich der G–bedingten Erwartung wie Skalare verhalten.
18.1 Bedingte Erwartung einer positiven Zufallsvariablen
415
F¨ ur Folgen von positiven Zufallsvariablen gilt die folgende Verallgemeinerung des Satzes u ¨ber die monotone Konvergenz: 18.1.6 Satz (Monotone Konvergenz; Levi). Sei {Xn }n∈N eine monoton wachsende Folge von positiven Zufallsvariablen. Dann gilt µ ¶ E G sup Xn = sup E G (Xn ) n∈N
n∈N
Beweis. Nach Lemma 18.1.5 ist auch die Folge {E G (Xn )}n∈N monoton wachsend. Aus dem Satz u ur alle G ∈ G ¨ber die monotone Konvergenz folgt nun f¨ Z Z Z Z sup Xn dP = sup Xn dP = sup E G (Xn ) dP = sup E G (Xn ) dP G n∈N
n∈N
n∈N
G
G
Da supn∈N E G (Xn ) G–messbar ist, folgt die Behauptung.
G n∈N
2
Genau wie im unbedingten Fall erh¨alt man nun die folgende Variante des bedingten Satzes u ¨ber die monotone Konvergenz: 18.1.7 Folgerung (Monotone Konvergenz; Levi). Folge von positiven Zufallsvariablen. Dann gilt Ã∞ ! ∞ X X G E Xn = E G (Xn ) n=1
Sei {Xn }n∈N eine
n=1
Aus dem bedingten Satz u alt man außerdem, ¨ber die monotone Konvergenz erh¨ wieder genau wie im unbedingten Fall, das bedingte Lemma von Fatou: 18.1.8 Lemma (Fatou). Sei {Xn }n∈N eine Folge von positiven Zufallsvariablen. Dann gilt ³ ´ E G lim inf Xn ≤ lim inf E G (Xn ) n→∞
n→∞
Da die bedingte Erwartung einer positiven Zufallsvariablen nur fast sicher eindeutig bestimmt ist, liegt es nahe, den Begriff der bedingten Erwartung auf alle Funktionen zu erweitern, die nur fast sicher definiert sind und nur fast sicher mit einer positiven Zufallsvariablen u otigen ¨ bereinstimmen. Wir ben¨ dazu das folgende Lemma, das sich unmittelbar aus Folgerung 8.2.11 ergibt: 18.1.9 Lemma. Seien X und Y positive Zufallsvariable mit X = Y fast sicher und sei U eine positive G–messbare Zufallsvariable. Dann sind ¨ aquivalent: R R (a) F¨ ur alle G ∈ G gilt RG U dP = RG X dP . (b) F¨ ur alle G ∈ G gilt G U dP = G Y dP .
416
Kapitel 18. Bedingte Erwartung
Sei also Z eine Funktion, die fast sicher definiert ist und fast sicher mit einer positiven Zufallsvariablen X u ¨bereinstimmt, und sei W eine Funktion, die fast sicher definiert ist und fast sicher mit einer Version U der G–bedingten Erwartung von X u ¨bereinstimmt. Mit der erweiterten Definition des Integrals erh¨ alt man dann f¨ ur alle G ∈ G Z Z Z Z W dP = U dP = X dP = Z dP G
G
G
G
Daher nennen wir W eine Version der G–bedingten Erwartung von Z und wir bezeichnen mit E G (Z) eine beliebige Version der G–bedingten Erwartung von Z und nennen E G (Z) die G–bedingte Erwartung von Z. Nach Lemma 18.1.9 ist diese Definition unabh¨ angig von der Wahl von X, und sie ist offenbar auch unabh¨ angig von der Wahl von U .
18.2 Bedingte Erwartung und bedingte Integrierbarkeit In diesem Abschnitt erweitern wir den Begriff der bedingten Erwartung auf eine Klasse von Zufallsvariablen, die nicht notwendigerweise positiv sind. Eine reelle Zufallsvariable X besitzt eine G–bedingte Erwartung, wenn n o min E G (X + ), E G (X − ) < ∞ gilt. In diesem Fall gibt es eine Version U der G–bedingten Erwartung von X + und eine Version V der G–bedingten Erwartung von X − derart, dass f¨ ur alle ω ∈ Ω n o min U (ω), V (ω) < ∞ gilt und wir nennen eine G–messbare Zufallsvariable W eine Version der G– bedingten Erwartung von X, wenn es eine Version U der G–bedingten Erwartung von X + und eine Version V der G–bedingten Erwartung von X − gibt mit W = U −V Wir bezeichnen mit
E G (X)
eine beliebige Version der G–bedingten Erwartung von X und nennen E G (X) die G–bedingte Erwartung von X. Diese Definition ist mit der Definition der G– bedingten Erwartung einer positiven Zufallsvariablen vertr¨ aglich. Eine reelle Zufallsvariable, die eine bedingte Erwartung besitzt, heißt G–bedingt quasiintegrierbar .
18.2 Bedingte Erwartung und bedingte Integrierbarkeit
417
Eine reelle Zufallsvariable X besitzt eine endliche G–bedingte Erwartung, wenn n o max E G (X + ), E G (X − ) < ∞ gilt. In diesem Fall besitzen X + und X − und damit auch X eine endliche Version ihrer G–bedingten Erwartung. Eine reelle Zufallsvariable, die eine endliche bedingte Erwartung besitzt, heißt G–bedingt integrierbar . Das folgende Lemma 18.2.1 legt es nahe, den Begriff der bedingten Integrierbarkeit auf Funktionen auszudehnen, die nur fast sicher definiert sind: 18.2.1 Lemma. Seien X und Y reelle Zufallsvariable mit X(ω) = Y (ω) fast sicher. Dann sind ¨ aquivalent: (a) X ist G–bedingt integrierbar. (b) Y ist G–bedingt integrierbar. In diesem Fall gilt E G (X) = E G (Y ). Sei also Z eine Funktion, die fast sicher definiert ist und fast sicher mit einer G–bedingt integrierbaren Zufallsvariablen X u ¨bereinstimmt, und sei W eine Funktion, die fast sicher definiert ist und fast sicher mit einer Version der G–bedingten Erwartung von X u ¨bereinstimmt. Dann heißt auch Z G–bedingt integrierbar und W heißt Version der G–bedingten Erwartung von Z und wir bezeichnen mit E G (Z) eine beliebige Version der G–bedingten Erwartung von Z und nennen E G (Z) die bedingte Erwartung von Z. Im Sinne dieser erweiterten Definition ist die G–bedingte Integrierbarkeit eine Eigenschaft von Elementen des Vektorverbandes L0 (F ) und damit eine Eigen¨ schaft von Aquivalenzklassen der Menge L0 (F). F¨ ur X ∈ L0 (F) bildet auch ¨ die Menge aller Versionen der G–bedingten Erwartung von X eine Aquivalenz0 klasse in L (F). Dementsprechend sind im folgenden alle Gleichungen bzw. Ungleichungen f¨ ur G–bedingte Erwartungen als Gleichungen bzw. Ungleichun¨ gen f¨ ur Aquivalenzklassen und damit als Gleichungen bzw. Ungleichungen f¨ ur reelle Repr¨ asentanten zu lesen. Sei ¯ n o ¯ L1,G (F) := [X]P ∈ L0 (F ) ¯ X =P Y f¨ ur ein Y mit E G (|Y |) < ∞ ¨ Dann ist L1,G (F ) die Menge aller Aquivalenzklassen, die (im Sinne der urspr¨ unglichen Definition der G–bedingten Integrierbarkeit) einen G–bedingt integrierbaren Repr¨asentanten besitzen, und die G–bedingte Erwartung l¨ asst sich als Abbildung L1,G (F ) → L0 (F , G) : X 7→ E G (X) verstehen.
418
Kapitel 18. Bedingte Erwartung
Das folgende Lemma charakterisiert die bedingte Integrierbarkeit einer Zufallsvariablen: 18.2.2 Lemma. Sei X eine Zufallsvariable. Dann sind ¨ aquivalent : (a) X ist G–bedingt integrierbar. (b) Es gilt E G (|X|) < ∞. (c) Es gibt positive Zufallsvariable U und V mit X = U − V fast sicher und n o max E G (U ), E G (V ) < ∞ In diesem Fall gilt |E G (X)| < ∞. Offenbar ist eine positive Zufallsvariable genau dann G–bedingt integrierbar, wenn ihre G–bedingte Erwartung endlich ist. Daher l¨ asst sich das letzte Lemma auch wie folgt formulieren: 18.2.3 Folgerung. Sei X eine Zufallsvariable. Dann sind ¨aquivalent: (a) X ist G–bedingt integrierbar. (b) |X| ist G–bedingt integrierbar. (c) X + und X − sind G–bedingt integrierbar. (d) Es gibt positive G–bedingt integrierbare Zufallsvariable U und V mit X(ω) = U (ω) − V (ω) fast sicher. Eine weitere Charakterisierung der bedingten Integrierbarkeit einer Zufallsvariablen geben wir in Lemma 19.1.4. Das folgende Lemma liefert eine allgemeine Darstellung der G–bedingten Erwartung einer G–bedingt integrierbaren Zufallsvariablen, die sich bei der Herleitung der Eigenschaften der G–bedingten Erwartung als n¨ utzlich erweist und auch ihre Berechnung erleichtern kann: 18.2.4 Lemma. Sei X eine G–bedingt integrierbare Zufallsvariable. Dann gilt f¨ ur jede Wahl von positiven G–bedingt integrierbaren Zufallsvariablen U und V mit X(ω) = U (ω) − V (ω) fast sicher E G (X) = E G (U ) − E G (V ) Das folgende Lemma ist ein Analogon zu Lemma 18.1.5: 18.2.5 Lemma. Seien X und Y G–bedingt integrierbare Zufallsvariable. Dann gilt: (1) E G (X) ist G–bedingt integrierbar und es gilt E G (E G (X)) = E G (X). (2) Die Zufallsvariable X + Y ist G–bedingt integrierbar und es gilt E G (X +Y ) = E G (X) + E G (Y )
18.2 Bedingte Erwartung und bedingte Integrierbarkeit
419
(3) F¨ ur jede reelle G–messbare Zufallsvariable U ist U X G–bedingt integrierbar und es gilt E G (U X) = U E G (X) (4) Im Fall X ≤ Y gilt
E G (X) ≤ E G (Y )
(5) Die Zufallsvariablen X ∨ Y und X ∧ Y sind G–bedingt integrierbar. (6) Jede Zufallsvariable Z mit |Z| ≤ |X| ist G–bedingt integrierbar. Der folgende Satz fasst die Struktureigenschaften von L1,G (F ) und die Eigenschaften der G–bedingten Erwartung zusammen: 18.2.6 Satz. L1,G (F) ist ein Vektorverband und ein Ideal in L0 (F ) und die Abbildung L1,G (F ) → L0 (F , G) : X 7→ E G (X) ist linear , positiv und idempotent. Bemerkenswert ist wieder die Eigenschaft (3) aus Lemma 18.2.5, denn sie besagt, dass sich die reellen G–messbaren Zufallsvariablen bez¨ uglich der G– bedingten Erwartung wie Skalare verhalten. F¨ ur Folgen von bedingt integrierbaren Zufallsvariablen gilt die folgende Verallgemeinerung des Satzes u ¨ber die majorisierte Konvergenz: 18.2.7 Satz (Majorisierte Konvergenz; Lebesgue). Sei {Xn }n∈N eine Folge von Zufallsvariablen, die fast sicher gegen eine Zufallsvariable X konvergiert. Wenn supn∈N |Xn | G–bedingt integrierbar ist, dann ist auch X G–bedingt integrierbar und es gilt ³ ´ lim E G (Xn ) = E G lim Xn n→∞
n→∞
fast sicher. Wir betrachten nun bedingte Erwartungen bez¨ uglich geschachtelter Unter–σ– Algebren von F : 18.2.8 Satz (David schl¨ agt Goliath). Sei D eine Unter–σ–Algebra von F mit D ⊆ G. Dann gilt L1,D (F ) ⊆ L1,G (F) und f¨ ur jede positive oder D–bedingt integrierbare Zufallsvariable X gilt E G (E D (X)) = E D (X) = E D (E G (X)) Beweis. Wir betrachten zun¨achst eine positive Zufallsvariable X. Wegen D ⊆ G ist die Zufallsvariable E D (X) G–messbar, und daraus folgt
420
Kapitel 18. Bedingte Erwartung
E G (E D (X)) = E D (X) Wegen D ⊆ G gilt außerdem f¨ ur alle D ∈ D Z Z Z G X dP = E (X) dP = E D (E G (X)) dP D
D
D
und daraus folgt E D (X) = E D (E G (X)) Damit ist die Gleichung E G (E D (X)) = E D (X) = E D (E G (X)) f¨ ur positive Zufallsvariable gezeigt. Wir nehmen nun zus¨ atzlich an, dass die positive Zufallsvariable X auch D–bedingt integrierbar ist, und betrachten das Maß Z ν := X dP sowie seine Restriktionen ν|G und ν|D auf G bzw. D. Da X D–bedingt integrierbar ist, ist E D (X) endlich, und aus Satz 9.2.10 folgt nun, dass ν|D σ–endlich ist. Wegen D ⊆ G ist dann auch ν|G σ–endlich, und aus Satz 9.2.10 folgt nun, dass E G (X) endlich ist. Daher ist X G–bedingt integrierbar. F¨ ur eine beliebige D–bedingt integrierbare Zufallsvariable X folgt die Behauptung des Satzes nun aus der Zerlegung X = X + − X − und der Linearit¨ at des Erwartungswertes. 2 Mit D := {∅, Ω} ergibt sich aus dem letzten Satz, dass insbesondere jede integrierbare Zufallsvariable auch G–bedingt integrierbar ist: 18.2.9 Folgerung (David schl¨ agt Goliath). Es gilt L1 (F ) ⊆ L1,G (F ) und f¨ ur jede positive oder integrierbare Zufallsvariable X gilt E[X] = E[E G (X)] Da jede Zufallsvariable trivialerweise F–bedingt integrierbar ist, erkennt man andererseits am Beispiel G = F, dass eine G–bedingt integrierbare Zufallsvariable nicht notwendigerweise integrierbar ist. Wir untersuchen nun Eigenschaften der bedingten Erwartung unter Unabh¨ angigkeitsannahmen:
18.2 Bedingte Erwartung und bedingte Integrierbarkeit
421
18.2.10 Satz (Reduktionssatz). Sei H eine Unter–σ–Algebra von F und sei X eine positive oder G–bedingt integrierbare Zufallsvariable. Ist H unabh¨ angig von σ(G ∪ σ(X)), so gilt E σ(G∪H) (X) = E G (X) Beweis. Wir k¨ onnen ohne Beschr¨ankung der Allgemeinheit annehmen, dass X positiv und einfach ist. Dann ist das Mengensystem ¯Z ½ ¾ Z ¯ D := D ∈ F ¯¯ E G (X) dP = X dP D
D
ein Dynkin–System und das Mengensystem ¯ n o ¯ C := C ∈ F ¯ C = G ∩ H mit G ∈ G und H ∈ H ist ein ∩–stabiler Erzeuger von σ(G ∪ H). F¨ ur alle G ∈ G und H ∈ H gilt aufgrund der vorausgesetzten Unabh¨angigkeit Z Z E G (X) dP = χH χG E G (X) dP G∩H Ω Z = P [H] E G (X) dP G Z = P [H] X dP G Z = χH χG X dP Ω Z = X dP G∩H
Daher gilt C ⊆ D und damit σ(G ∪ H) = σ(C) = δ(C) ⊆ D. Damit ist gezeigt, dass die Gleichung Z Z E G (X) dP = X dP D
D
f¨ ur alle D ∈ σ(G ∪ H) gilt. Da E G (X) G–messbar und damit auch σ(G ∪ H)– messbar ist, folgt daraus E G (X) = E σ(G∪H) (X). 2 Mit G := {∅, Ω} erh¨alt man sofort einen wichtigen Spezialfall des Reduktionssatzes: 18.2.11 Folgerung. Sei H eine Unter–σ–Algebra von F und sei X eine positive oder integrierbare Zufallsvariable. Ist H unabh¨ angig von σ(X), so gilt E H (X) = E[X]
422
Kapitel 18. Bedingte Erwartung
Allgemein l¨ asst sich die Unabh¨angigkeit von Unter–σ–Algebren durch Eigenschaften ihrer bedingten Erwartungen charakterisieren: 18.2.12 Folgerung. Sei H eine Unter–σ–Algebra von F . Dann sind ¨ aquivalent: (a) G und H sind unabh¨ angig. (b) F¨ ur jede positive G–messbare Zufallsvariable X gilt E H (X) = E[X]. (c) F¨ ur jede positive H–messbare Zufallsvariable X gilt E G (X) = E[X]. (d) F¨ ur jede integrierbare G–messbare Zufallsvariable X gilt E H (X) = E[X]. (e) F¨ ur jede integrierbare H–messbare Zufallsvariable X gilt E G (X) = E[X]. ¨ Beweis. Offenbar gen¨ ugt es, die Aquivalenz von (a) und (b) zu beweisen. Wir nehmen zun¨ achst an, dass (a) gilt. F¨ ur jede positive G–messbare Zufallsvariable X ist dann H unabh¨angig von σ(X) und aus Folgerung 18.2.11 ergibt sich E H (X) = E[X]. Daher folgt (b) aus (a). Wir nehmen nun an, dass (b) gilt. F¨ ur alle G ∈ G und H ∈ H gilt Z P [G ∩ H] = χG dP ZH = E H (χG ) dP H Z = E[χG ] dP H Z = P [G] dP H
= P [G] P [H] Daher folgt (a) aus (b).
2
F¨ ur eine G–bedingt integrierbare Zufallsvariable X heißt ³ ´ varG (X) := E G (X −E G (X))2 die G–bedingte Varianz von X. 18.2.13 Lemma. Sei X eine G–bedingt integrierbare Zufallsvariable und sei U eine reelle G–messbare Zufallsvariable. Dann gilt E G ((X +U )2 ) = E G (X 2 ) + 2U E G (X) + U 2 Insbesondere gilt E G ((X −E G (X))2 ) = E G (X 2 ) − (E G (X))2
18.2 Bedingte Erwartung und bedingte Integrierbarkeit
423
Beweis. Sei G := {E G (X 2 ) < ∞}. Dann sind alle Summanden auf der rechten Seite der Gleichung χG (X +U )2 = χG X 2 + 2χG U E G (X) + χG U 2 G–bedingt integrierbar und es gilt χG E G ((X +U )2 ) = E G (χG (X +U )2 ) ³ ´ = E G χG X 2 + 2χG U X + χG U 2 = χG E G (X 2 ) + 2χG U E G (X) + χG U 2 ³ ´ = χG E G (X 2 ) + 2U E G (X) + U 2 Wegen (a±b)2 ≤ 2 (a2 +b2 ) gilt einerseits ³ ´ E G (X 2 ) = E G (((X +U ) − U )2 ) ≤ 2 E G ((X +U )2 ) + U 2 und andererseits
³ ´ E G ((X +U )2 ) ≤ 2 E G (X 2 ) + U 2
Da U endlich ist, folgt aus diesen Ungleichungen G = {E G ((X +U )2 ) < ∞}, und damit ³ ´ χΩ\G E G ((X +U )2 ) = χΩ\G E G (X 2 ) + 2U E G (X) + U 2 Die Behauptung des Lemmas ergibt sich nun durch Summation.
2
Das folgende Lemma zeigt, dass die Eigenschaften der G–bedingten Varianz denen der unbedingten Varianz entsprechen, wobei wieder die reellen G–messbaren Zufallsvariablen an die Stelle der Konstanten treten: 18.2.14 Lemma. Sei X eine G–bedingt integrierbare Zufallsvariable. (1) Es gilt varG (X) = E G (X 2 ) − (E G (X))2 . (2) Es gilt varG (X) = 0 genau dann, wenn P [{X = E G (X)}] = 1 gilt. (3) Es gilt varG (X) = inf{E G ((X −U )2 ) | U ist G–messbar}. (4) F¨ ur jede Wahl von reellen G–messbaren Zufallsvariablen U und V ist U + V X G–bedingt integrierbar und es gilt varG (U +V X) = V 2 varG (X). Beweis. Da E G (X) G–messbar ist, ergibt sich (1) unmittelbar aus Lemma 18.2.13. Im Fall varG (X) = 0 gilt Z Z Z (X −E G (X))2 dP = E G ((X −E G (X))2 ) dP = varG (X) dP = 0 Ω
Ω
Ω
und damit P [{X = E G (X)}] = 1, und die umgekehrte Implikation ist klar. Damit ist (2) gezeigt. F¨ ur jede G–messbare Zufallsvariable U folgt aus Lemma 18.2.13 wegen E G (X −E G (X)) = 0
424
Kapitel 18. Bedingte Erwartung
³¡ ¢2 ´ (X −E G (X)) − (U −E G (X)) ³ ´ = E G (X −E G (X))2 + (U −E G (X))2
E G ((X −U )2 ) = E G
≥ varG (X) Damit ist (3) gezeigt. Schließlich gilt f¨ ur reelle G–messbare Zufallsvariable U und V ³¡ ¢2 ´ varG (U + V X) = E G (U +V X) − E G (U +V X) ³ ´ = E G V 2 (X −E G (X))2 ³ ´ = V 2 E G (X − E G (X))2 = V 2 varG (X) Damit ist auch (4) gezeigt.
2
F¨ ur G–bedingt integrierbare Zufallsvariable X und Y , deren Produkt ebenfalls G–bedingt integrierbar ist, heißt ³ ´ covG (X, Y ) := E G (X −E G (X)) (Y −E G (Y )) die G–bedingte Kovarianz von X und Y , und die Zufallsvariablen heißen G– bedingt unkorreliert, wenn covG (X, Y ) = 0 gilt. 18.2.15 Lemma. Sei X und Y G–bedingt integrierbare Zufallsvariable, deren Produkt ebenfalls G–bedingt integrierbar ist. Dann gilt covG (X, Y ) = E G (XY ) − E G (X) E G (Y ) und varG (X +Y ) = varG (X) + 2 covG (X, Y ) + varG (Y )
Wir zeigen abschließend, dass die bedingte Erwartung einer integrierbaren Zufallsvariablen durch eine Familie von Gleichungen charakterisiert wird, die an die Definition der bedingten Erwartung einer positiven Zufallsvariablen erinnert: 18.2.16 Satz. Sei X ∈ L1 (F ) und sei Y G–messbar. Dann sind ¨ aquivalent: (a) Es gilt Y = E G (X).R R (b) F¨ ur alle G ∈ G gilt G Y dP = G X dP .
18.2 Bedingte Erwartung und bedingte Integrierbarkeit
425
Beweis. Wir nehmen zun¨achst an, dass (a) gilt. Nach Lemma 18.2.5 gilt dann f¨ ur alle G ∈ G Z Z Y dP = E G (X) dP G G Z Z = E G (X + ) dP − E G (X − ) dP G ZG Z + − = X dP − X dP G ZG = X dP G
Daher folgt (b) aus (a). Wir nehmen nun an, dass (b) gilt. Nach Lemma 18.2.5 gilt dann f¨ ur alle G ∈ G Z Z Z Z E G (X)χG dP = E G (XχG ) dP = XχG dP = Y χG dP Ω
und damit
Ω
Ω
Ω
Z (E G (X)−Y )χG dP = 0 Ω
Sei G+ := {E G (X) ≥ Y }. Da Y G–messbar ist, gilt G+ ∈ G und aus der letzten Gleichung folgt (E G (X) − Y )+ = 0 Analog erh¨ alt man mit G− := {E G (X) ≤ Y } (E G (X) − Y )− = 0 Aus diesen Gleichungen folgt E G (X) = Y . Daher folgt (a) aus (b).
2
Aufgaben 18.2.A F¨ uhren Sie die fehlenden Beweise aus. 18.2.B Bedingt quasiintegrierbare Zufallsvariable: Erweitern Sie den Begriff der G–bedingten Erwartung auf Funktionen, die fast sicher definiert sind und fast sicher mit einer G–bedingt quasiintegrierbaren Zufallsvariablen u ¨bereinstimmen. 18.2.C Fourier–Entwicklung: Sei {Gi }i∈{1,...,m} ⊆ F eine disjunkte Familie von Pm Ereignissen mit G = Ω und P [Gi ] > 0 f¨ ur alle i ∈ {1, . . . , m} und i i=1 sei G die von der Familie {Gi }i∈{1,...,m} erzeugte σ–Algebra. Dann gilt f¨ ur jede G–bedingt integrierbare Zufallsvariable X E G (X) =
m X i=1
E[X|Gi ] χGi
426
Kapitel 18. Bedingte Erwartung
18.2.D Faktorisierungssatz: Sei (Ω0 , F 0 ) ein Messraum und sei Θ : Ω → Ω0 eine Zufallsgr¨ oße. Dann gibt es zu jeder σ(Θ)–integrierbaren Zufallsvariablen X eine messbare Funktion h : Ω0 → R mit E σ(Θ) (X) = h ◦ Θ 18.2.E Ungleichung von Jensen: Sei X G–bedingt integrierbar. Dann gilt |E G (X)| ≤ E G (|X|) 18.2.F David schl¨ agt Goliath: Sei H eine Unter–σ–Algebra von F . Dann sind aquivalent: ¨ (a) L0 (F , H) ⊆ L0 (F , G). (b) F¨ ur alle H ∈ H gilt χH = E H (E G (χH )) (c) F¨ ur jede positive Zufallsvariable X gilt E H (X) = E H (E G (X)) (d) F¨ ur jede positive Zufallsvariable X gilt E G (E H (X)) = E H (X) = E H (E G (X)) 18.2.G Bedingte Kovarianz: Seien X und Y G–bedingt integrierbare Zufallsvariable, deren Produkt XY ebenfalls G–bedingt integrierbar ist. Dann sind ¨ aquivalent: (a) X und Y sind G–bedingt unkorreliert. (b) Es gilt E G (XY ) = E G (X) E G (Y ). (c) Es gilt varG (X +Y ) = varG (X) + varG (Y ). F¨ ur jede G–messbare Zufallsvariable U gilt covG (X, U ) = 0.
18.3 Bedingte Erwartung als Projektion Wegen L2 (F) ⊆ L1 (F ) ⊆ L1,G (F ) gelten alle Ergebnisse u ¨ber Zufallsvariable in L1,G (F) insbesondere f¨ ur Zufallsvariable in L2 (F ). Das folgende Lemma zeigt, dass f¨ ur eine quadratisch integrierbare Zufallsvariable auch ihre bedingte Erwartung quadratisch integrierbar ist: 18.3.1 Lemma. Sei X ∈ L2 (F ). Dann gilt E G (X) ∈ L2 (F). Beweis. Nach Lemma 18.2.13 gilt (E G (X))2 ≤ E G (X 2 ), und Integration ergibt E[(E G (X))2 ] ≤ E[E G (X 2 )] = E[X 2 ]. 2 Der folgende Satz enth¨alt eine fundamentale Eigenschaft der bedingten Erwartung einer quadratisch integrierbaren Zufallsvariablen:
18.3 Bedingte Erwartung als Projektion
427
18.3.2 Satz (Pythagoras). Sei X ∈ L2 (F ) und U ∈ L2 (F) ∩ L0 (F, G). Dann gilt E[(X −U )2 ] = E[(X −E G (X))2 ] + E[(E G (X)−U )2 ] Insbesondere gilt E[X 2 ] = E[(X −E G (X))2 ] + E[(E G (X))2 ] Beweis. Es gilt E[(X −E G (X))(E G (X)−U )] = E[E G ((X −E G (X))(E G (X)−U ))] = 0 Daraus folgt die behauptete Gleichung.
2
Der folgende Satz charakterisiert die bedingte Erwartung einer quadratisch integrierbaren Zufallsvariablen: 18.3.3 Satz. Sei X ∈ L2 (F ). Dann sind f¨ ur Y ∈ L2 (F ) ∩ L0 (F , G) folgende Aussagen ¨ aquivalent: (a) Es gilt Y = E G (X). (b) F¨ ur alle Z ∈ L2 (F) ∩ L0 (F, G) gilt E[(X −Y )2 ] ≤ E[(X −Z)2 ]. (c) F¨ ur alle Z ∈ L2 (F) ∩ L0 (F, G) gilt E[XZ] = E[Y Z]. Beweis. Wir nehmen zun¨achst an, dass (a) gilt. Wegen Y = E G (X) ergibt sich aus dem Satz von Pythagoras f¨ ur alle Z ∈ L2 (F) ∩ L0 (F , G) E[(X −Z)2 ] = E[(X −Y )2 ] + E[(Y −Z)2 ] Daher folgt (b) aus (a). Wir nehmen nun an, dass (b) gilt. F¨ ur Z ∈ L2 (F) ∩ L0 (F , G) und c ∈ (0, ∞) 2 0 gilt dann Y ± cZ ∈ L (F ) ∩ L (F , G) und damit E[(X −Y )2 ] ≤ E[(X − (Y ±cZ))2 ] = E[((X −Y ) ∓ cZ)2 ] = E[(X −Y )2 ] ∓ 2c E[(X −Y )Z] + c2 E[Z 2 ] Daraus folgt zun¨ achst |2 E[(X −Y )Z]| ≤ c E[Z 2 ] und da c ∈ (0, ∞) beliebig war ergibt sich sodann E[(X −Y )Z] = 0. Daher folgt (c) aus (b). Wir nehmen schließlich an, dass (c) gilt. F¨ ur G ∈ G gilt χG ∈ L2 (F )∩L0 (F , G) und damit E[XχG ] = E[Y χG ]. Aus Satz 18.2.16 folgt nun Y = E G (X). Daher folgt (a) aus (c). 2 Aufgrund der Eigenschaft (b) aus Satz 18.3.3 wird die G–bedingte Erwartung einer Zufallsvariablen X ∈ L2 (F) auch als ihre Projektion auf L2 (F)∩L0 (F , G) bezeichnet. Der Satz von Pythagoras besitzt eine weitere wichtige Anwendung, die unter anderem zeigt, dass die Varianz der bedingten Erwartung einer Zufallsvariablen nie gr¨ oßer ist als die Varianz der Zufallsvariablen:
428
Kapitel 18. Bedingte Erwartung
18.3.4 Lemma (Varianz–Zerlegung). Sei X ∈ L2 (F ). Dann gilt var [X] = E[varG (X)] + var [E G (X)] Beweis. Nach dem Satz von Pythagoras gilt var [X] = E[(X −E[X])2 ] = E[(X −E G (X))2 ] + E[(E G (X)−E[X])2 ] = E[E G ((X −E G (X))2 )] + E[(E G (X)−E[E G (X)])2 ] = E[varG (X)] + var [E G (X)] Damit ist die Gleichung gezeigt.
2
F¨ ur eine Zufallsvariable X ∈ L2 (F ) bezeichnet man E[varG (X)] als Varianz in den Klassen und var [E G (X)] als Varianz zwischen den Klassen. Aufgabe 18.3.A Kovarianz–Zerlegung: F¨ ur alle X, Y ∈ L2 (F) gilt cov [X, Y ] = E[covG (X, Y )] + cov [E G (X), E G (Y )] und f¨ ur jede Zufallsvariable U ∈ L2 (F ) ∩ L0 (F , G) gilt cov [X, U ] = cov [E G (X), U ]
18.4 Martingale Eine monoton wachsende Folge {Fn }n∈N von Unter–σ–Algebren von F heißt Filtration. Eine Filtration kann insbesondere durch eine Folge von Zufallsvariablen erzeugt werden: 18.4.1 Beispiel (Nat¨ urliche Filtration). Sei {Xk }k∈N eine Folge von Zufallsvariablen. Dann ist die Folge {Fn }n∈N mit Fn := σ({Xk }k∈{1,...,n} ) f¨ ur alle n ∈ N eine Filtration; diese Filtration wird als nat¨ urliche Filtration bez¨ uglich der Folge {Xk }k∈N bezeichnet.
S Ist {Fn }n∈N eine Filtration, so ist das Mengensystem n∈N Fn eine Algebra, aber im allgemeinen keine σ–Algebra; vgl. Aufgabe 18.4.C. Eine Folge von Zufallsvariablen {Xn }n∈N heißt – adaptiert bez¨ uglich einer Filtration {Fn }n∈N , wenn f¨ ur alle n ∈ N die Zufallsvariable Xn Fn –messbar ist, und sie heißt – Martingal bez¨ uglich einer Filtration {Fn }n∈N , wenn sie adaptiert ist und f¨ ur alle n ∈ N die Zufallsvariable Xn+1 Fn –bedingt integrierbar ist mit E Fn (Xn+1 ) = Xn . Jede Folge von Zufallsvariablen ist bez¨ uglich ihrer nat¨ urlichen Filtration adaptiert. Das folgende Beispiel zeigt, dass viele Martingale durch eine einzige Zufallsvariable erzeugt werden k¨onnen:
18.4 Martingale
429
18.4.2 Beispiel. Sei {Fn }n∈N eine Filtration und sei X eine positive oder integrierbare Zufallsvariable. Dann ist die Folge {E Fn (X)}n∈N ein Martingal.
Eine Folge von Zufallsvariablen {Xn }n∈N heißt – positiv , wenn jede der Zufallsvariablen Xn positiv ist, und sie heißt – integrierbar , wenn jede der Zufallsvariablen Xn integrierbar ist. Das folgende Lemma charakterisiert diejenigen positiven oder integrierbaren adaptierten Folgen von Zufallsvariablen, die ein Martingal sind: 18.4.3 Lemma. Sei {Fn }n∈N eine Filtration und sei {Xn }n∈N eine positive oder integrierbare adaptierte Folge von Zufallsvariablen. Dann sind folgende Aussagen ¨ aquivalent: (a) {Xn }n∈N ist ein Martingal. (b) F¨ ur alle n ∈ N und r ∈ N(n) gilt E Fn (Xr ) = Xn . Beweis. Wir nehmen an, dass (a) gilt. Wir betrachten n ∈ N und zeigen durch vollst¨ andige Induktion, dass f¨ ur alle r ∈ N(n) die Gleichung E Fn (Xr ) = Xn gilt. • r = n: In diesem Fall ist nichts zu zeigen. • r → r + 1: Wir nehmen an, die Gleichung sei f¨ ur ein r ∈ N(n) bereits bewiesen. Dann ergibt sich aus Satz 18.2.8 und der Martingal–Eigenschaft E Fn (Xr+1 ) = E Fn (E Fr (Xr+1 )) = E Fn (Xr ) = Xn Daher folgt (b) aus (a). Die umgekehrte Implikation ist klar.
2
Im weiteren Verlauf S dieses Abschnitts sei {Fn }n∈N eine Filtration und F∞ die von der Algebra n∈N Fn erzeugte σ–Algebra. Wir kl¨ aren zun¨ achst die Struktur der Familie aller integrierbaren F∞ –messbaren Zufallsvariablen: 18.4.4 Satz (Approximationssatz). Sei Y eine integrierbare Zufallsvariable mit Y ∈ L0 (F , F∞ ). Dann gibt es zu jedem η ∈ (0, ∞) eine integrierbare Zufallsvariable Z mit Z ∈ L0 (F, Fl ) f¨ ur ein l ∈ N und E[|Y −Z|] ≤ η. Beweis. Mit Y sind auch Y + und Y − integrierbar und F∞ –messbar. Wir k¨ onnen daher annehmen, dass Y positiv ist. Da Y F∞ –messbar und positiv ist, gibt es nach dem Approximationssatz 7.1.13 eine monoton wachsenden Folge {Yn }n∈N von einfachen F∞ –messbaren Zufallsvariablen mit Y = supn∈N Yn und damit E[Y ] = supn∈N E[Yn ]. Da Y integrierbar ist, gilt limn→∞ E[|Y − Yn |] = 0. Wir k¨ onnen daher annehmen, dass Y einfach ist. S Da Y F∞ –messbar und einfach ist und da F∞ die von der Algebra n∈N Fn erzeugte σ–Algebra ist, ergibt sich aus dem Approximationssatz 5.4.1 die Existenz einer einfachen Zufallsvariablen Z mit Z ∈ L0 (F , Fl ) f¨ ur ein l ∈ N und E[|Y −Z|] ≤ η. 2
430
Kapitel 18. Bedingte Erwartung
Martingale sind unter anderem im Hinblick auf Konvergenzs¨ atze von Interesse. Unser Ziel ist es nun, einen Konvergenzsatz f¨ ur Martingale zu beweisen, die von einer quadratisch integrierbaren Zufallsvariablen erzeugt werden. Dazu ben¨ otigen wir das folgende Lemma, das, unter den gegebenen Bedingungen, als eine Versch¨ arfung der Ungleichung von Markov verstanden werden kann: 18.4.5 Lemma (Maximale Ungleichung). Sei {Xn }n∈N ein positives Martingal. Dann gilt f¨ ur alle m ∈ N und ε ∈ (0, ∞) ·½ ¾¸ 1 P sup Xn > ε ≤ E[Xm ] ε n∈N(m) Beweis. Wir k¨ onnen ohne Beschr¨ankung der Allgemeinheit annehmen, dass m = 1 gilt. F¨ ur alle n ∈ N sei An := {Xn > ε} ∩
n−1 \
{Xk ≤ ε}
k=1
P∞ Dann ist die Folge {An }n∈N disjunkt mit {supn∈N Xn > ε} = n=1 An sowie An ∈ Fn f¨ ur alle n ∈ N. F¨ ur r ∈ N ergibt sich aus Lemma 18.4.3 r r Z X X ε P [An ] = ε dP n=1
≤ = =
n=1 An r Z X n=1 An r Z X n=1 An r Z X n=1
Z ≤
Xn dP E Fn (Xr ) dP Xr dP
An
Xr dP Ω
Z =
X1 dP Ω
Daraus ergibt sich "( P
)# sup Xn > ε
=
n∈N
P [An ]
n=1
≤ und damit die gew¨ unschte Ungleichung.
∞ X
1 ε
Z
X1 dP Ω
2
18.4 Martingale
431
Der folgende Satz von L´evy ist der einfachste Konvergenzsatz f¨ ur Martingale: 18.4.6 Satz (L´ evy). Sei X eine Zufallsvariable in L2 (F). Dann gilt lim E Fn (X) = E F∞ (X)
n→∞
fast sicher und in L2 (F ). Beweis. Sei ε ∈ (0, ∞). Dann ist die Folge ( ·½ P
sup |E
Fn
(X)−E
F∞
¾¸) (X)| > ε
n∈N(m)
m∈N
monoton fallend und damit konvergent. F¨ ur den Beweis der fast sicheren Konvergenz des Martingals {E Fn (X)}n∈N gegen E F∞ (X) gen¨ ugt es zu zeigen, dass die betrachtete Folge gegen 0 konvergiert. Sei Z ∈ L2 (F) eine Zufallsvariable mit Z ∈ L0 (F , Fl ) f¨ ur ein l ∈ N. Dann ist die Folge {E Fn (|X−Z|)}n∈N ein positives Martingal und f¨ ur alle n ∈ N(l) gilt |E Fn (X)−E F∞ (X)| ≤ |E Fn (X)−Z)| + |E F∞ (X)−Z| ≤ |E Fn (E F∞ (X)−Z)| + |E F∞ (X)−Z| ≤ E Fn |E F∞ (X)−Z| + |E F∞ (X)−Z| ¨ F¨ ur alle m ∈ N(l) ergibt sich durch Ubergang zum Supremum u ¨ber n ∈ N(m) und unter Verwendung der maximalen Ungleichung und der Ungleichung von Markov ·½ ¾¸ P sup |E Fn (X)−E F∞ (X)| > ε n∈N(m)
·½
≤P
¾¸
sup E
Fn
(|E
F∞
(X)−Z|) > ε/2
+P
hn oi |E F∞ (X)−Z| > ε/2
n∈N(m)
2 2 ≤ E[E Fn (|E F∞ (X)−Z|)] + E[|E F∞ (X)−Z|] ε ε 4 F∞ = E[|E (X)−Z|] ε Daher gilt ·½ lim P
m→∞
¾¸ sup |E
Fn
(X)−E
F∞
(X)| > ε
≤
n∈N(m)
4 E[|E F∞ (X)−Z|] ε
Nach dem Approximationssatz 18.4.4 gibt es f¨ ur alle η ∈ (0, ∞) eine integrierbare Zufallsvariable Z mit Z ∈ L0 (F, Fl ) f¨ ur ein l ∈ N und E[|E F∞ (X)−Z|] ≤
ηε 4
432
Kapitel 18. Bedingte Erwartung
Daher gilt ·½ lim P
m→∞
sup |E
Fn
(X)−E
F∞
¾¸ (X)| > ε ≤η
n∈N(m)
Da η ∈ (0, ∞) beliebig war, gilt ·½ ¾¸ lim P sup |E Fn (X)−E F∞ (X)| > ε =0 m→∞
n∈N(m)
Damit ist gezeigt, dass das Martingal {E Fn (X)}n∈N fast sicher gegen E F∞ (X) konvergiert. Sei m ∈ N. F¨ ur alle k ∈ N(m) erh¨alt man aus dem Satz von Pythagoras wegen E Fk (E Fk+1 (X)) = E Fk (X) E[(E Fk+1 (X)−E Fm (X))2 ] = E[(E Fk+1 (X)−E Fk (X))2 ] + E[(E Fk (X)−E Fm (X))2 ] F¨ ur alle n ∈ N(m) ergibt sich nun durch vollst¨ andige Induktion E[(E Fn+1 (X)−E Fm (X))2 ] =
n X
E[(E Fk+1 (X)−E Fk (X))2 ]
k=m
und aus Lemma 18.4.3 und dem Satz von Pythagoras folgt sodann n X
E[(E Fk+1 (X)−E Fk (X))2 ] = E[(E Fn+1 (X)−E Fm (X))2 ]
k=m
= E[(E Fn+1 (X)−E Fm (E Fn+1 (X)))2 ] ≤ E[(E Fn+1 (X))2 ] ≤ E[X 2 ]
Daher gilt ∞ X
E[(E Fk+1 (X)−E Fk (X))2 ] ≤ E[X 2 ]
k=m
Aus der quadratischen Integrierbarkeit von X folgt nun wegen E[(E Fn+1 (X)−E Fm (X))2 ] = ≤
n X k=m ∞ X
E[(E Fk+1 (X)−E Fk (X))2 ] E[(E Fk+1 (X)−E Fk (X))2 ]
k=m
dass die Folge {E Fn (X)}n∈N eine Cauchy–Folge in L2 (F ) ist. Da L2 (F) vollst¨ andig ist, konvergiert die Folge {E Fn (X)}n∈N in L2 (F ) gegen eine Zufallsvariable Y ∈ L2 (F ). Insbesondere besitzt die Folge {E Fn (X)}n∈N eine
18.4 Martingale
433
Teilfolge, die fast sicher gegen Y konvergiert. Da vorher bereits gezeigt wurde, dass die Folge {E Fn (X)}n∈N fast sicher gegen E F∞ (X) konvergiert, gilt Y = E F∞ (X). Daher konvergiert die Folge {E Fn (X)}n∈N auch in L2 (F) gegen E F∞ (X). 2 Der Satz von L´evy besitzt eine interessante Folgerung: 18.4.7 Folgerung. Sei {Xn }n∈N ein Martingal in L2 (F ). Wenn es eine Zufallsvariable X ∈ L2 (F ) gibt mit lim E[(Xn −X)2 ] = 0
n→∞
dann ist X F∞ –messbar, f¨ ur alle n ∈ N gilt Xn = E Fn (X), und es gilt lim Xn = X
n→∞
fast sicher. Beweis. Da {Xn }n∈N ein Martingal ist, gilt E[(Xn −E Fn (X))2 ] = E[(E Fn (Xn+1 )−E Fn (E Fn+1 (X)))2 ] ¡ = E[(E Fn Xn+1 −E Fn+1 (X)))2 ] ≤ E[E Fn (Xn+1 −E Fn+1 (X))2 ] = E[(Xn+1 −E Fn+1 (X))2 ] Daher ist die Folge {E[(Xn −E Fn (X))2 ]}n∈N monoton wachsend. Da die Folge {Xn }n∈N in L2 (F ) gegen X konvergiert, besitzt sie eine Teilfolge, die fast sicher gegen X konvergiert, und aus {Xn }n∈N ⊆ L0 (F , F∞ ) ergibt sich nun X ∈ L0 (F , F∞ ), also X = E F∞ (X), und damit E[(Xn −E Fn (X))2 ] ≤ E[(Xn −X)2 ] + E[(X −E Fn (X))2 ] = E[(Xn −X)2 ] + E[(E F∞ (X)−E Fn (X))2 ] Nach Voraussetzung konvergiert die Folge {Xn }n∈N in L2 (F) gegen X, und nach dem Satz von L´evy konvergiert die Folge {E Fn (X)}n∈N in L2 (F ) gegen E F∞ (X). Daher konvergiert die Folge {E[(Xn −E Fn (X))2 ]}n∈N gegen 0. Aus diesen Eigenschaften der Folge {E[(Xn−E Fn (X))2 ]}n∈N ergibt sich daher f¨ ur alle n ∈ N Xn = E Fn (X) und aus dem Satz von L´evy folgt nun, dass die Folge {Xn }n∈N auch fast sicher gegen X konvergiert. 2
434
Kapitel 18. Bedingte Erwartung
Aufgaben 18.4.A Nat¨ urliche Filtration: Jede Folge von Zufallsvariablen ist bez¨ uglich ihrer nat¨ urlichen Filtration adaptiert. 18.4.B Filtration: Sei {Fn }n∈N eine Filtration. Dann ist das Mengensystem S F eine Algebra. n n∈N 18.4.C Filtration: Konstruieren Sie eine Filtration {Fn }n∈N , f¨ ur die die Algebra S n∈N Fn keine σ–Algebra ist. Hinweis: Betrachten Sie die nat¨ urliche Filtration einer geeigneten Folge {Xn }n∈N von Zufallsvariablen.
19 Bedingte Wahrscheinlichkeit und bedingte Verteilung
Mit der Verf¨ ugbarkeit des Begriffs der bedingten Erwartung l¨ asst sich nun die bedingte Wahrscheinlichkeit eines Ereignisses durch die bedingte Erwartung seiner Indikatorfunktion definieren; man beschreitet damit den in der Integrationstheorie u ¨ blichen Weg vom Maß zum Integral in umgekehrter Richtung. Wir untersuchen zun¨achst die elementaren Eigenschaften bedingter Wahrscheinlichkeiten bez¨ uglich einer Unter–σ–Algebra und stellen insbesondere den Zusammenhang mit den bereits bekannten bedingten Wahrscheinlichkeiten bez¨ uglich einem Ereignis dar (Abschnitt 19.1). Aus dem Begriff der bedingten Wahrscheinlichkeit ergibt sich zun¨achst in nat¨ urlicher Weise der Begriff der bedingten Unabh¨angigkeit, der sich in der Konstruktion wahrscheinlichkeitstheoretischer Modelle als u utzlich erweist (Abschnitt 19.2); dies ¨ beraus n¨ gilt auch f¨ ur die bedingte Verteilung einer Zufallsvariablen (Abschnitt 19.3) und f¨ ur bedingte Dichten einer bedingten Verteilung (Abschnitt 19.4). Den Abschluss dieses Kapitels bilden bedingte Versionen der Gesetze der Großen Zahlen. Im gesamten Kapitel sei G eine Unter–σ–Algebra von F.
19.1 Bedingte Wahrscheinlichkeit F¨ ur ein Ereignis A ∈ F heißt die Zufallsvariable P G (A) := E G (χA ) die G–bedingte Wahrscheinlichkeit von A. Aus dieser Definition ergeben sich sofort zwei Spezialf¨alle bez¨ uglich der σ–Algebra G: – Im Fall G = {∅, Ω} gilt P G (A) = P [A]. – Im Fall G = F gilt P G (A) = χA . Das folgende Lemma fasst die elementaren Eigenschaften der bedingten Wahrscheinlichkeit zusammen: K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_19, © Springer-Verlag Berlin Heidelberg 2011
436
Kapitel 19. Bedingte Wahrscheinlichkeit und bedingte Verteilung
19.1.1 Lemma. (1) Es gilt P G (Ω) = 1 und P G (∅) = 0. (2) F¨ ur alle A ∈ F gilt 0 ≤ P G (A) ≤ 1. (3) F¨ ur jede disjunkte Folge {An }n∈N ⊆ F gilt Ã∞ ! ∞ X X G P An = P G (An ) n=1
n=1 G
(4) F¨ ur alle A ∈ F und G ∈ G gilt P (A ∩ G) = P G (A) χG . (5) F¨ ur alle G ∈ G gilt P G (G) = χG . Beweis. Wegen Ω ∈ G und ∅ ∈ G gilt E G (χΩ ) = χΩ = 1 und E G (χ∅ ) = χ∅ = 0. F¨ ur A ∈ F gilt χ∅ ≤ χA ≤ χΩ und aus Lemma 18.1.5 folgt 0 ≤ E G (χA ) ≤ 1. Ist {An }n∈N ⊆ F eine disjunkte Folge, so folgt aus dem bedingten Satz u ¨ber die monotone Konvergenz in der Form von Folgerung 18.1.7 Ã∞ ! ∞ X X G E G (χP∞ ) = E χ = E G (χAn ) A A n n n=1 n=1
n=1
G
G
F¨ ur alle A ∈ F und G ∈ G gilt E (χA∩G ) = E (χA χG ) = E G (χA ) χG und damit gilt insbesondere E G (χG ) = χG . 2 Da G–bedingte Wahrscheinlichkeiten G–bedingte Erwartungen von Indikatorfunktionen sind, gelten Gleichungen und Ungleichungen f¨ ur G–bedingte Wahrscheinlichkeiten im allgemeinen nur fast sicher. Insbesondere gilt die Gleichung Ã∞ ! ∞ X X G P An (ω) = P G (An )(ω) n=1
n=1
im allgemeinen nur auf dem Komplement einer Nullmenge, die von der disjunkten Folge {An }n∈N ⊆ F abh¨angt; vgl. Abschnitt 19.3. Das folgende Ergebnis ist eine unmittelbare Folgerung aus Lemma 18.1.2; es zeigt, dass die Definition der G–bedingten Wahrscheinlichkeit eines Ereignisses mit der Definition seiner bedingten Wahrscheinlichkeit bez¨ uglich einem Ereignis G ∈ G im Einklang steht: 19.1.2 Lemma (Fourier–Entwicklung). Sei {Gi }i∈{1,...,m} ⊆ F eine disPm junkte Familie von Ereignissen mit ur alle i=1 Gi = Ω und P [Gi ] > 0 f¨ i ∈ {1, . . . , m} und sei G die von der Familie {Gi }i∈{1,...,m} erzeugte σ–Algebra. Dann gilt f¨ ur jedes Ereignis A ∈ F P G (A) =
m X
P [A|Gi ] χGi
i=1
Wir untersuchen nun die Eigenschaften der bedingten Wahrscheinlichkeit. Genau wie im unbedingten Fall zeigt man, dass die bedingte Wahrscheinlichkeit monoton und σ–subadditiv ist:
19.1 Bedingte Wahrscheinlichkeit
437
19.1.3 Lemma. F¨ ur alle A, B ∈ F mit A ⊆ B gilt P G (A) ≤ P G (B) und f¨ ur jede Folge von Ereignissen {An }n∈N ⊆ F gilt Ã∞ ! ∞ [ X PG An ≤ P G (An ) n=1
n=1
Auch das folgende Lemma l¨asst sich genau wie im unbedingten Fall elementar beweisen; vgl. Aufgabe 12.3.A: 19.1.4 Lemma. Sei X eine Zufallsvariable. Dann gilt ∞ X
P G ({|X| ≥ n}) ≤ E G (|X|) ≤ 1 +
n=1
∞ X
P G ({|X| ≥ n})
n=1
Insbesondere ist X genau dann G–bedingt integrierbar , wenn die Reihe P∞ G n=1 P ({|X| ≥ n}) fast sicher gegen eine reelle Zufallsvariable konvergiert. Aus diesem Lemma erh¨alt man sofort die bedingte Ungleichung von Markov: 19.1.5 Folgerung (Ungleichung von Markov). Sei X eine Zufallsvariable. Dann gilt f¨ ur alle ε ∈ (0, ∞) P G ({|X| ≥ ε}) ≤
1 G E (|X|) ε
Schließlich l¨ asst sich auch das bedingte 1. Lemma von Borel/Cantelli genau wie im unbedingten Fall beweisen: 19.1.6 Lemma (1. Lemma von Borel/Cantelli). Sei {An }n∈N ⊆ F eine P∞ Folge von Ereignissen und sei G := { n=1 P G (An ) < ∞}. Dann gilt µ ¶ P G lim sup An χG = 0 n→∞
¨ Wir betrachten abschließend den Ubergang von bedingten zu unbedingten Wahrscheinlichkeiten: 19.1.7 Lemma. (1) F¨ ur jedes Ereignis A ∈ F gilt P [A] = E[P G (A)] (2) Sei {An }n∈N ⊆ F eine Folge von Ereignissen mit lim P G (An ) = 0
n→∞
fast sicher. Dann gilt lim P [An ] = 0
n→∞
438
Kapitel 19. Bedingte Wahrscheinlichkeit und bedingte Verteilung
Beweis. F¨ ur jedes Ereignis A ∈ F gilt P [A] = E[χA ] = E[E G (χA )] = E[P G (A)] Damit ist (1) gezeigt. Wegen supn∈N |P G (An )| ≤ 1 ∈ L1 (F) folgt nun (2) aus dem Satz u 2 ¨ ber die majorisierte Konvergenz.
19.2 Bedingte Unabh¨ angigkeit Sei I eine nichtleere Indexmenge und sei H(I) die Familie der endlichen nichtleeren Teilmengen von I. Eine Familie von Ereignissen {Ai }i∈I ⊆ F heißt G–bedingt unabh¨ angig, wenn f¨ ur alle J ∈ H(I) Ã ! \ Y G P Ai = P G (Ai ) i∈J
i∈J
gilt. Aus dieser Definition ergeben sich sofort zwei Spezialf¨ alle bez¨ uglich der σ–Algebra G: – Im Fall G = {∅, Ω} ist eine Familie von Ereignissen genau dann G–bedingt unabh¨ angig, wenn sie unabh¨angig ist. – Im Fall G = F ist jede Familie von Ereignissen G–bedingt unabh¨ angig. Obwohl die bedingte Unabh¨angigkeit analog zur Unabh¨ angigkeit definiert ist, impliziert im allgemeinen keine dieser Eigenschaften die andere: 19.2.1 Beispiele. Sei Θ eine reelle Zufallsvariable mit PΘ = B(1/2). (1) Sind A, B ∈ F Ereignisse mit P σ(Θ) (A ∩ B) = (1+3Θ)/9 P σ(Θ) (A ∩ B) = 2/9 P σ(Θ) (A ∩ B) = 2/9 P σ(Θ) (A ∩ B) = (4−3Θ)/9 so gilt P σ(Θ) (A) = (1+Θ)/3 = P σ(Θ) (B) und wegen Θ2 = Θ folgt daraus P σ(Θ) (A ∩ B) = (1+3Θ)/9 = P σ(Θ) (A) P σ(Θ) (B) Daher ist {A, B} σ(Θ)–bedingt unabh¨ angig. Andererseits gilt P [A ∩ B] = E[P σ(Θ) (A ∩ B)] = E[(1+3Θ)/9] = 5/18 sowie P [A] = 1/2 = P [B] und damit P [A ∩ B] = 5/18 6= 1/4 = P [A] P [B] Daher ist {A, B} nicht unabh¨ angig.
19.2 Bedingte Unabh¨ angigkeit
439
(2) Sind A, B ∈ F Ereignisse mit P σ(Θ) (A ∩ B) = (1−Θ)/2 P σ(Θ) (A ∩ B) = Θ/2 P σ(Θ) (A ∩ B) = Θ/2 P σ(Θ) (A ∩ B) = (1−Θ)/2 so gilt P σ(Θ) (A) = 1/2 = P σ(Θ) (B) und damit P σ(Θ) (A ∩ B) = (1−Θ)/2 6= 1/4 = P σ(Θ) (A) P σ(Θ) (B) Daher ist {A, B} nicht σ(Θ)–bedingt unabh¨ angig. Andererseits gilt P [A ∩ B] = E[P σ(Θ) (A ∩ B)] = E[(1−Θ)/2] = 1/4 sowie P [A] = 1/2 = P [B] und damit P [A ∩ B] = 1/4 = P [A] P [B] Daher ist {A, B} unabh¨ angig.
Dennoch lassen sich die in Abschnitt 11.1 bewiesenen Ergebnisse u ¨ber die Unabh¨ angigkeit einer Familie von Ereignissen im wesentlichen auf die bedingte Unabh¨ angigkeit u ¨bertragen. Als Beispiel geben wir hier nur das bedingte Null– Eins–Gesetz von Borel an: 19.2.2 Satz (Null–Eins–Gesetz; Borel). Sei P {An }n∈N eine G–bedingt un∞ abh¨ angige Folge von Ereignissen und sei G := { n=1 P G (An ) < ∞}. Dann gilt µ ¶ P G lim sup An n→∞
= χΩ\G
Das bedingte Null–Eins–Gesetz von Borel ist ein erstes Beispiel daf¨ ur, dass bei der Verallgemeinerung von Ergebnissen u angigkeit einer ¨ber die Unabh¨ Familie von Ereignissen auf die bedingte Unabh¨ angigkeit unter Umst¨ anden Anpassungen in der Formulierung und damit auch in der Beweisf¨ uhrung angebracht sind. Die wichtigsten Ergebnisse u angigkeit einer Familie ¨ber die bedingte Unabh¨ von Ereignissen sind in den Ergebnissen u angigkeit ¨ber die bedingte Unabh¨ einer Familie von Ereignissystemen enthalten. Eine Familie von Ereignissystemen {Ei }i∈I ⊆ F heißt G–bedingt unabh¨ angig, wenn jede Familie von Ereignissen {Ai }i∈I ⊆ F mit Ai ∈ Ei f¨ ur alle i ∈ I G–bedingt unabh¨ angig ist. Wir geben nun die wichtigsten Ergebnisse u ¨ber die G–bedingte Unabh¨angigkeit einer Familie von Ereignissystemen an, wobei wir auf die Angabe von Lemmata, deren Beweis wie im Fall der Unabh¨ angigkeit gef¨ uhrt werden kann, verzichten.
440
Kapitel 19. Bedingte Wahrscheinlichkeit und bedingte Verteilung
19.2.3 Satz. Sei {Ei }i∈I eine Familie von Ereignissystemen. Dann sind aquivalent: ¨ (a) Die Familie {Ei }i∈I ist G–bedingt unabh¨ angig. (b) F¨ ur jede nichtleere Menge K ⊆ I ist {Ei }i∈K G–bedingt unabh¨ angig. (c) F¨ ur jede endliche nichtleere Menge K ⊆ I ist {Ei }i∈K G–bedingt unabh¨ angig. Der Beweis des Satzes verl¨auft analog zum Beweis von Satz 11.2.1. 19.2.4 Lemma. Sei {Ei }i∈I eine Familie von Ereignissystemen und sei {Ci }i∈I eine Familie von Ereignissystemen mit Ci ⊆ Ei f¨ ur alle i ∈ I. Ist {Ei }i∈I G–bedingt unabh¨ angig, so ist auch {Ci }i∈I G–bedingt unabh¨ angig. Der folgende Satz kl¨art den Zusammenhang zwischen der bedingten Unabh¨ angigkeit von σ–Algebren und der bedingten Unabh¨ angigkeit ihrer Erzeuger; ¨ er enth¨ alt unter anderem eine ¨außerst n¨ utzliche Aquivalenz, die im Fall der Unabh¨ angigkeit trivial und daher nicht sichtbar ist: 19.2.5 Satz. Sei {Ei }i∈I eine Familie von ∩–stabilen Ereignissystemen. Dann sind ¨ aquivalent: (a) Die Familie {Ei }i∈I ist G–bedingt unabh¨ angig. (b) Die Familie {σ(Ei )}i∈I ist G–bedingt unabh¨ angig. (c) Die Familie {σ(Ei ∪ G)}i∈I ist G–bedingt unabh¨ angig. ¨ Beweis. Der Beweis der Aquivalenz von (a) und (b) verl¨ auft analog zum Beweis von Satz 11.2.5. Aufgrund von Lemma 19.2.4 ist außerdem klar, dass (b) aus (c) folgt. Wir nehmen nun an, dass (b) gilt. F¨ ur alle i ∈ I ist das Ereignissystem ¯ n o ¯ Hi := B ∈ F ¯ B = A ∩ G mit A ∈ σ(Ei ) und G ∈ G ∩–stabil mit σ(Hi ) = σ(Ei ∪ G). F¨ ur J ⊆ H(I) und jede Wahl von {Ai }i∈J und {Gi }i∈J mit Ai ∈ σ(Ei ) und Gi ∈ G f¨ ur alle i ∈ J gilt à ! Ãà ! à !! \ \ \ G G P (Ai ∩ Gi ) = P Ai ∩ Gi i∈J
à = PG =
Y i∈J
=
Y
i∈J
\
i∈J
!
Ai χTi∈J Gi
i∈J
P G (Ai ) ·
Y
χGi
i∈J
P G (Ai ∩ Gi )
i∈J
Daher ist die Familie {Hi }i∈I und damit auch die Familie {σ(Hi )}i∈I , also die Familie {σ(Ei ∪ G)}i∈I G–bedingt unabh¨angig. Daher folgt (c) aus (b). 2
19.2 Bedingte Unabh¨ angigkeit
441
Schließlich besitzt auch das Blocklemma eine bedingte Version: 19.2.6 Lemma (Blocklemma). Sei {Ei }i∈I eine G–bedingt unabh¨ angige Familie von ∩–stabilen Ereignissystemen. Sind M, N ⊆ I disjunkt, so ist auch die Familie ( Ã ! Ã !) [ [ σ Ei , σ Ei i∈M
i∈N
G–bedingt unabh¨ angig. Der Beweis des Blocklemmas verl¨auft analog zum Beweis von Lemma 11.2.7. Als letztes Ergebnis zur bedingten Unabh¨angigkeit von Ereignissystemen beweisen wir eine bedingte Version des Null–Eins–Gesetzes von Kolmogorov: 19.2.7 Satz (Null–Eins–Gesetz; Kolmogorov). Sei {En }n∈N eine G– bedingt unabh¨ angige Folge von ∩–stabilen Ereignissystemen und sei E∞ die zugeh¨ orige terminale σ–Algebra. Dann gilt: (1) F¨ ur alle A, B ∈ E∞ gilt P G (A ∩ B) = P G (A) P G (B). (2) F¨ ur alle A ∈ E∞ gilt P G (A) = χA und es gibt ein Ereignis G ∈ G mit χA = χG . (3) Zu jeder E∞ –messbaren numerischen Funktion X gibt es eine G–messbare numerische Funktion Z mit X = Z. Beweis. Der Beweis von (1) verl¨auft analog zum Beweis von Satz 11.2.9. Zum Beweis von (2) betrachten wir A ∈ E∞ . Nach (1) gilt P [{P G (A) ∈ {0, 1}}] = 1, und da P G (A) G–messbar ist folgt hieraus die Existenz eines Ereignisses G ∈ G mit P G (A) = χG Daher gilt P [A] = P [G] und wegen χG = χ2G = χG P G (A) = P G (G ∩ A) gilt auch P [G] = P [G ∩ A]. Aus diesen Gleichungen ergibt sich P [G4A] = 0 und damit χG = χA Damit ist (2) gezeigt, und (3) ergibt sich dann durch algebraische Induktion. 2 Schließlich u angigkeit auf Zu¨ bertragen wir den Begriff der bedingten Unabh¨ fallsgr¨ oßen: Sei {(Ω0i , Fi0 )}i∈I eine Familie von Messr¨aumen. Eine Familie {Xi }i∈I von Zufallsgr¨ oßen Xi : Ω → Ω0i heißt G–bedingt unabh¨angig, wenn die Familie {σ(Xi )}i∈I G–bedingt unabh¨angig ist.
442
Kapitel 19. Bedingte Wahrscheinlichkeit und bedingte Verteilung
Die in Abschnitt 11.3 bewiesenen Ergebnisse u angigkeit einer ¨ber die Unabh¨ Familie von Zufallsgr¨oßen lassen sich weitgehend auf die bedingte Unabh¨ angigkeit u ¨bertragen. Eine Ausnahme bildet vorerst die in Satz 11.3.5 angegebene Charakterisierung der Unabh¨angigkeit einer Familie von Zufallsgr¨ oßen durch eine Eigenschaft ihrer gemeinsamen Verteilung; vgl. Abschnitt 19.3. Das folgende Ergebnis ist eine bedingte Version von Lemma 13.6.8: 19.2.8 Lemma. Sei {X, Y } G–bedingt unabh¨ angig. Wenn X und Y G–bedingt integrierbar sind, dann ist auch XY G–bedingt integrierbar und es gilt covG (X, Y ) = 0. Beweis. F¨ ur G–bedingt unabh¨angige Ereignisse A, B ∈ F gilt ¡ ¢ ¡ ¢ E G χA χB = E G χA∩B ¡ ¢ = PG A ∩ B ¡ ¢ ¡ ¢ = PG A PG B ¡ ¢ ¡ ¢ = E G χA E G χB Aus der Linearit¨ at der bedingten Erwartung und dem bedingten Satz u ¨ber die monotone Konvergenz ergibt sich nun im Fall der Positivit¨ at von X und Y die Gleichung E G (XY ) = E G (X) E G (Y ) und damit XY ∈ L1,G (F) und covG (X, Y ) = 0. Im allgemeinen Fall folgt die Behauptung dann aus den Gleichungen (XY )+ = X + Y + + X − Y − und (XY )− = X + Y − + X − Y + . 2
19.3 Bedingte Verteilung Sei (Ω0 , F 0 ) ein Messraum. Eine Abbildung K : F 0 × Ω → [0, 1] heißt G– Markov–Kern, wenn (i) f¨ ur jedes ω ∈ Ω die Abbildung K( . , ω) : F 0 → [0, 1] ein Wahrscheinlichkeitsmaß ist und (ii) f¨ ur jedes A0 ∈ F 0 die Abbildung K(A0 , . ) : Ω → [0, 1] G–messbar ist. Im folgenden betrachten wir nur G–Markov–Kerne auf B(R) × Ω. Eine Abbildung F : R ×Ω → [0, 1] heißt G–bedingte Verteilungsfunktion, wenn (i) f¨ ur jedes ω ∈ Ω die Abbildung F ( . , ω) : R → [0, 1] eine Verteilungsfunktion ist und (ii) f¨ ur jedes x ∈ R die Abbildung F (x, . ) : Ω → [0, 1] G–messbar ist. F¨ ur G–Markov–Kerne auf B(R) × Ω und G–bedingte Verteilungsfunktionen gilt der folgende bedingte Korrespondenzsatz:
19.3 Bedingte Verteilung
443
19.3.1 Satz (Korrespondenzsatz). (1) Zu jedem G–Markov–Kern K : B(R) × Ω → [0, 1] gibt es genau eine G–bedingte Verteilungsfunktion FK : R × Ω → [0, 1] mit FK (x, ω) = K((−∞, x], ω) f¨ ur alle x ∈ R und ω ∈ Ω. (2) Zu jeder G–bedingten Verteilungsfunktion FK : R × Ω → [0, 1] gibt es genau einen G–Markov–Kern KF : B(R) × Ω → [0, 1] mit KF ((−∞, x], ω) = F (x, ω) f¨ ur alle x ∈ R und ω ∈ Ω. (3) Es gilt K(FK ) = K und F(KF ) = F . Beweis. Sei zun¨ achst K : B(R) × Ω → [0, 1] ein G–Markov–Kern und sei FK : R × Ω → [0, 1] gegeben durch FK (x, ω) := K((−∞, x], ω) Aus dem Korrespondenzsatz 12.1.1 folgt, dass f¨ ur jedes ω ∈ Ω die Abbildung F ( . , ω) eine Verteilungsfunktion ist, und aus der Definition ist unmittelbar klar, dass f¨ ur jedes x ∈ R die Abbildung F (x, . ) G–messbar ist. Daher ist FK eine G–bedingte Verteilungsfunktion. Sei nun FK : R × Ω → [0, 1] eine G–bedingte Verteilungsfunktion. Aus dem Korrespondenzsatz 12.1.1 folgt, dass es zu jedem ω ∈ Ω genau eine Verteilung Kω : B(R) → [0, 1] gibt mit Kω [(−∞, x]] = F (x, ω) f¨ ur alle x ∈ R. Sei nun K : B(R) × Ω → [0, 1] gegeben durch K(B, ω) := Kω [B] Dann ist f¨ ur jedes ω ∈ Ω die Abbildung K( . , ω) ein Wahrscheinlichkeitsmaß. Es bleibt zu zeigen, dass f¨ ur jedes B ∈ B(R) die Abbildung K(B, . ) G–messbar ist. Sei ¯ n o ¯ D := B ∈ B(R) ¯ K(B, . ) ist G–messbar und
¯ n o ¯ E := (−∞, x] ¯ x ∈ R
Dann ist D ein Dynkin–System und E ist ∩–stabil mit E ⊆ D und σ(E) = B(R). Daher gilt B(R) = σ(E) = δ(E) ⊆ D, und damit ist f¨ ur jedes B ∈ B(R) die Abbildung K(B, . ) G–messbar. Die u ¨brigen Aussagen des Satzes ergeben sich wieder aus dem Korrespondenzsatz 12.1.1. 2
444
Kapitel 19. Bedingte Wahrscheinlichkeit und bedingte Verteilung
Ist X eine reelle Zufallsvariable, so heißt eine Abbildung K : B(R)×Ω → [0, 1] G–bedingte Verteilung von X, wenn (i) K ein G–Markov–Kern ist und (ii) f¨ ur alle B ∈ B(R) K(B, ω) = P G (X −1 (B))(ω) fast sicher gilt. Der folgende Satz zeigt, dass jede reelle Zufallsvariable eine im wesentlichen eindeutig bestimmte G–bedingte Verteilung besitzt: 19.3.2 Satz. Sei X eine reelle Zufallsvariable. Dann gilt: (1) X besitzt eine G–bedingte Verteilung (2) Sind K1 und K2 G–bedingte Verteilungen von X, so gilt K1 ( . , ω) = K2 ( . , ω) fast sicher. Beweis. F¨ ur alle r ∈ Q sei Hr eine Version der G–bedingten Wahrscheinlichkeit P G ({X ≤ r}) und f¨ ur alle ω ∈ Ω sei Gω : Q → [0, 1] gegeben durch Gω (r) := Hr (ω) Da Q abz¨ ahlbar ist, gibt es eine Nullmenge N ∈ G derart, dass f¨ ur alle ω ∈ Ω\N die Funktion Gω die folgenden Eigenschaften besitzt: (i) F¨ ur alle r, s ∈ Q mit r ≤ s gilt Gω (r) ≤ Gω (s). (ii) F¨ ur alle r ∈ Q und jede monoton fallende Folge {rn }n∈N ⊆ Q mit r = inf n∈N rn gilt Gω (r) = limn→∞ Gω (rn ). (iii) Es gilt inf r∈Q Gω (r) = 0 und supr∈Q Gω (r) = 1. Sei FX : R → [0, 1] die Verteilungsfunktion von X und sei F : R × Ω → [0, 1] gegeben durch F (x, ω) :=
inf
r∈Q∩[x,∞)
Gω (r) χΩ\N (ω) + FX (x) χN (ω)
Dann ist f¨ ur alle ω ∈ Ω die Funktion F ( . , ω) eine Verteilungsfunktion, und an der Darstellung F (x, ω) =
inf
r∈Q∩[x,∞)
Hr (ω) χΩ\N (ω) + FX (x) χN (ω)
erkennt man, dass f¨ ur alle x ∈ R die Funktion F (x, . ) G–messbar ist. Daher ist F eine G–bedingte Verteilungsfunktion. Wir betrachten nun den zu F geh¨origen G–Markov–Kern K. F¨ ur G ∈ G seien µG , νG : B(R) → [0, 1] gegeben durch Z µG [B] := χ{X∈B} (ω) dP (ω) ZG νG [B] := K(B, ω) dP (ω) G
19.3 Bedingte Verteilung
445
F¨ ur alle x ∈ R erh¨alt man unter Verwendung des bedingten Satzes u ¨ber die monotone Konvergenz Z µG [(−∞, x]] = χ{X≤x} (ω) dP (ω) ZG = P G ({X ≤ x})(ω) dP (ω) ZG = inf P G ({X ≤ r})(ω) dP (ω) G r∈Q∩[x,∞) Z = inf Hr (ω) dP (ω) r∈Q∩[x,∞) ZG = F (x, ω) dP (ω) ZG = K((−∞, x], ω) dP (ω) G
= νG [(−∞, x]] Aus dem Eindeutigkeitssatz folgt nun µG = νG . F¨ ur alle B ∈ G gilt daher f¨ ur alle G ∈ G Z Z χ{X∈B} (ω) dP (ω) = K(B, ω) dP (ω) G
G
und aus der G–Messbarkeit von K(B, . ) folgt nun K(B, ω) = P G (X −1 (B))(ω) fast sicher. Seien schließlich K1 und K2 G–bedingte Verteilungen von X. Dann gibt es eine Nullmenge N derart, dass f¨ ur alle ω ∈ Ω \ N und f¨ ur alle r ∈ Q K1 ((−∞, r], ω) = K2 ((−∞, r], ω) gilt. Sei ¯ n o ¯ D := B ∈ B(R) ¯ K1 (B, ω) = K2 (B, ω) f¨ ur alle ω ∈ Ω \ N und
¯ n o ¯ E := (−∞, r] ¯ r ∈ Q
Dann ist D ein Dynkin–System und E ist ∩–stabil mit E ⊆ D und σ(E) = B(R). Daher gilt B(R) = σ(E) = δ(E) ⊆ D und damit K1 (B, ω) = K2 (B, ω) f¨ ur alle B ∈ B(R) und ω ∈ Ω \ N . 2 Im folgenden bezeichnen wir die (fast sicher eindeutig bestimmte) G–bedingte G Verteilung einer reellen Zufallsvariablen X mit PX .
446
Kapitel 19. Bedingte Wahrscheinlichkeit und bedingte Verteilung
Der folgende Satz vervollst¨andigt die Eigenschaften der bedingten Erwartung: 19.3.3 Satz. Sei X eine positive oder G–bedingt integrierbare reelle Zufallsvariable und sei h : R → R messbar. Dann gilt Z G E G (h ◦ X) = h(x) dPX (x, . ) R
Beweis. F¨ ur alle B ∈ B(R) gilt E G (χB ◦ X) = E G (χ{X∈B} ) = P G ({X ∈ B}) G = PX (B, . ) Z G = χB (x) dPX (x, . ) R
Die Behauptung folgt nun durch algebraische Induktion.
2
Wir notieren abschließend zwei Folgerungen aus Satz 19.3.3; vgl. Aufgabe 19.3.D: 19.3.4 Folgerung. Sei X eine reelle Zufallsvariable und sei h : R → R messbar. Dann gilt f¨ ur alle B ∈ B(R) Z G P G ({h ◦ X ∈ B}) = χB (h(x)) dPX (x, . ) R
19.3.5 Folgerung. Sei X eine reelle Zufallsvariable und sei h : R → R messbar. Dann gilt f¨ ur alle B ∈ B(R) G G Ph◦X (B, . ) = PX (h−1 (B), . )
Aufgaben 19.3.A Empirische Verteilung: Jede empirische Verteilung ist ein F –Markov– Kern. 19.3.B Empirische Verteilungsfunktion: Jede empirische Verteilungsfunktion ist eine F –bedingte Verteilungsfunktion. 19.3.C Bedingte Verteilung: Verallgemeinern Sie den Begriff der bedingten Verteilung auf den multivariaten Fall und verallgemeinern Sie Satz 19.3.2 auf Zufallsvektoren. Beweisen Sie außerdem eine bedingte Version von Satz 11.3.5. 19.3.D Beweisen Sie die Folgerungen 19.3.4 und 19.3.5.
19.4 Bedingte Dichte
447
19.4 Bedingte Dichte Ist K : B(R) × Ω → [0, 1] ein G–Markov–Kern und µ : B(R) → [0, ∞] ein σ– endliches Maß, so heißt eine Abbildung k : R × Ω → R+ G–bedingte µ–Dichte von K, wenn (i) f¨ ur jedes ω ∈ Ω die Abbildung k( . , ω) : R → R+ eine µ–Dichte von K( . , ω) ist und (ii) f¨ ur jedes x ∈ R die Abbildung k(x, . ) : Ω → R+ G–messbar ist. Wir zeigen die Existenz einer G–bedingten µ–Dichte eines G–Markov–Kerns B(R) × Ω → [0, 1] in einem Spezialfall: 19.4.1 Satz. Sei (Ω0 , F 0 ) ein Messraum und sei Θ : Ω → Ω0 eine Zufallsgr¨ oße. Sei X eine reelle Zufallsvariable. Wenn es σ–endliche Maße µ : B(R) → [0, ∞] und ν : F 0 → [0, ∞] sowie eine messbare Funktion h : R × Ω0 → R+ gibt mit Z PX,Θ = h(x, ϑ) d(µ ⊗ ν)(x, ϑ) dann besitzt die σ(Θ)–bedingte Verteilung von X eine σ(Θ)–bedingte µ–Dichte und f¨ ur alle B ∈ B(R) gilt Z h(x, Θ(ω)) σ(Θ) R PX (B, ω) = dµ(x) h(z, Θ(ω)) dµ(z) B R fast sicher. Beweis. Nach Voraussetzung ist die Funktion f : R → [0, ∞] mit Z f (x) := h(x, ϑ) dν(ϑ) Ω0
eine µ–Dichte von PX und die Funktion g : Ω0 → [0, ∞] mit Z g(ϑ) := h(x, ϑ) dµ(x) R
ist eine ν–Dichte von PΘ . Daher gilt g(ϑ) < ∞ ν–fast u ¨berall, und wir zeigen nun, dass wir ohne Beschr¨ankung der Allgemeinheit annehmen k¨ onnen, dass auch g(ϑ) > 0 ν–fast u ¨ berall gilt. Die Abbildung νe : F 0 → [0, ∞] mit Z νe[C] := χ{g>0} (ϑ) dν(ϑ) C
ist ein σ–endliches Maß mit νe[{g = 0}] = 0 und aus dem Satz von Fubini erh¨ alt man f¨ ur alle B ∈ B(R) und C ∈ F 0
448
Kapitel 19. Bedingte Wahrscheinlichkeit und bedingte Verteilung
Z P [{X ∈ B} ∩ {Θ ∈ C}] =
h(x, ϑ) d(µ ⊗ ν)(x, ϑ) ZB×C Z
=
h(x, ϑ) dµ(x) dν(ϑ) C
Z Z
B
= ZC ZB =
h(x, ϑ) dµ(x) χ{g>0} (ϑ) dν(ϑ) h(x, ϑ) dµ(x) de ν (ϑ)
ZC
B
=
h(x, ϑ) d(µ ⊗ νe)(x, ϑ) B×C
und insbesondere Z f (x) dµ(x) = P [{X ∈ B}] B
= P [{X ∈ B} ∩ {Θ ∈ Ω0 }] Z = h(x, ϑ) d(µ ⊗ νe)(x, ϑ) 0 ZB×Ω Z = h(x, ϑ) de ν (ϑ) dµ(x) B
und damit
Ω0
Z f (x) =
h(x, ϑ) de ν (ϑ) Ω0
µ–fast u ankung der Allgemeinheit an¨berall. Wir k¨onnen daher ohne Beschr¨ nehmen, dass 0 < g(ϑ) < ∞ ν–fast u ¨berall gilt. Damit ist die Menge N 0 := {g ∈ {0, ∞}} eine ν–Nullmenge und die Menge N := {g ◦ Θ ∈ {0, ∞}} ist wegen N = Θ−1 (N 0 ) und Z P [N ] = P [Θ−1 (N 0 )] = PΘ [N 0 ] = g(ϑ) dν(ϑ) = 0 N0
eine P –Nullmenge. Daher sind die Funktionen k 0 : R × Ω0 → R+ mit h(x, ϑ) χΩ0 \N 0 (ϑ) + f (x) χN 0 (ϑ) h(z, ϑ) dµ(z) R
k 0 (x, ϑ) := R und k : R × Ω → R+ mit
k(x, ω) := k 0 (x, Θ(ω)) wohldefiniert und messbar und es gilt h(x, Θ(ω)) χΩ\N (ω) + f (x) χN (ω) h(z, Θ(ω)) dµ(z) R
k(x, ω) = R
19.4 Bedingte Dichte
449
Sei nun K : B(R) × Ω → [0, 1] gegeben durch Z K(B, ω) = k(x, ω) dµ(x) B
Dann ist K ein σ(Θ)–Markov–Kern und k ist eine σ(Θ)–bedingte µ–Dichte von K. Sei B ∈ B(R). Dann gilt f¨ ur alle C ∈ F 0 Z Z Z K(B, ω) dP (ω) = k(x, ω) dµ(x) dP (ω) Θ−1 (C) Θ−1 (C) B Z Z = k 0 (x, Θ(ω)) dP (ω) dµ(x) B Θ−1 (C) Z Z = k 0 (x, ϑ) dPΘ (ϑ) dµ(x) B C µZ ¶ Z Z = k 0 (x, ϑ) h(z, ϑ) dµ(z) dν(ϑ) dµ(x) R ZB ZC = h(x, ϑ) dν(ϑ) dµ(x) ZB C = h(x, ϑ) d(µ ⊗ ν)(x, ϑ) B×C
= P [{X ∈ B} ∩ {Θ ∈ C}] Z = χX −1 (B) (ω) dP (ω) Θ−1 (C)
und damit gilt f¨ ur alle A ∈ σ(Θ) Z Z K(B, ω) dP (ω) = χX −1 (B) (ω) dP (ω) A
A
Da K(B, . ) σ(Θ)–messbar ist, folgt daraus σ(Θ)
K(B, ω) = P σ(Θ) (X −1 (B))(ω) = PX
(B, ω) σ(Θ)
fast sicher. Daher ist k eine σ(Θ)–bedingte µ–Dichte von PX
.
2
Der folgende Satz liefert eine Umkehrung der Aussage des letzten Satzes: 19.4.2 Satz. Sei (Ω0 , F 0 ) ein Messraum und sei Θ : Ω → Ω0 eine Zufallsgr¨ oße. Sei X eine reelle Zufallsvariable. Wenn es σ–endliche Maße µ : B(R) → [0, ∞] und ν : F 0 → [0, ∞] sowie messbare Funktionen k 0 : R+ × Ω0 → R+ und g : Ω0 → R+ gibt derart, dass f¨ ur alle B ∈ B(R) Z σ(Θ) PX (B, ω) = k 0 (x, Θ(ω)) dµ(x) B
450
Kapitel 19. Bedingte Wahrscheinlichkeit und bedingte Verteilung
fast sicher und
Z PΘ =
gilt, dann gilt
g(ϑ) dν(ϑ)
Z PX,Θ =
k 0 (x, ϑ) g(ϑ) d(µ ⊗ ν)(x, ϑ)
Beweis. F¨ ur alle B ∈ B(R) und C ∈ F 0 gilt P σ(Θ) ({X ∈ B} ∩ {Θ ∈ C}) = χ{Θ∈C} P σ(Θ) ({X ∈ B}) σ(Θ)
= χ{Θ∈C} PX (B, . ) Z = χ{Θ∈C} k 0 (x, Θ( . )) dµ(x) B
und damit P [{X ∈ B} ∩ {Θ ∈ C}] = E[P σ(Θ) ({X ∈ B} ∩ {Θ ∈ C})] Z Z = χ{Θ∈C} k 0 (x, Θ(ω)) dµ(x)dP (ω) ZΩ Z B = k 0 (x, Θ(ω)) dµ(x) dP (ω) Θ−1 (C) B Z Z = k 0 (x, Θ(ω)) dP (ω) dµ(x) −1 B Θ (C) Z Z = k 0 (x, ϑ) dPΘ (ϑ) dµ(x) ZB ZC = k 0 (x, ϑ) g(ϑ) dν(ϑ) dµ(x) B C Z = k 0 (x, ϑ) g(ϑ) d(µ ⊗ ν)(x, ϑ) B×C
Damit ist der Satz bewiesen.
2
Wir geben abschließend anhand eines Beispiels eine Anwendung der S¨ atze u ¨ber bedingte Dichten: 19.4.3 Beispiel. Sei Θ eine reelle Zufallsvariable mit PΘ = Ga(α, γ) und sei X σ(Θ) eine reelle Zufallsvariable mit PX = P(Θ). Dann gilt f¨ ur alle B, C ∈ B(R) X Z αγ P [{X ∈ B} ∩ {Θ ∈ C}] = e−(α+1)ϑ ϑγ+k−1 dλ(ϑ) Γ(γ) k! C∩(0,∞) k∈B∩N0
σ(X)
Insbesondere gilt PX = NB(γ, 1/(α+1)) und PΘ
= Ga(α+1, γ +X).
19.4 Bedingte Dichte
451
In der Tat: Wegen Z PΘ [C] = C
αγ −αϑ γ−1 e ϑ χ(0,∞) (ϑ) dλ(ϑ) Γ(γ)
und Z σ(Θ)
PX
e−Θ(ω)
(B, ω) = B
(Θ(ω))x χN0 (x) dζ(x) x!
gilt nach Satz 19.4.2 P [{X ∈ B} ∩ {Θ ∈ C}] Z ϑx αγ −αϑ γ−1 = e−ϑ χN0 (x) e ϑ χ(0,∞) (ϑ) d(ζ ⊗ λ)(x, ϑ) x! Γ(γ) B×C Z x γ ϑ α = e−ϑ e−αϑ ϑγ−1 χ(0,∞) (ϑ) d(ζ N0 ⊗ λ)(x, ϑ) x! Γ(γ) B×C Daraus folgt einerseits f¨ ur alle k ∈ N0 Z e−ϑ
P [{X = k}] =
{k}×R γ
Z
ϑx αγ −αϑ γ−1 e ϑ χ(0,∞) (ϑ) d(ζ N0 ⊗ λ)(x, ϑ) x! Γ(γ)
α e−(α+1)ϑ ϑγ+k−1 χ(0,∞) (ϑ) dλ(ϑ) Γ(γ) k! R Z αγ Γ(γ +k) (α+1)γ+k −(α+1)ϑ γ+k−1 = e ϑ χ(0,∞) (ϑ) dλ(ϑ) γ+k Γ(γ) k! (α+1) R Γ(γ +k) αγ Γ(γ +k) = Γ(γ) k! (α+1)γ+k à !µ ¶γ µ ¶k γ+k−1 α 1 = k α+1 α+1 =
und damit PX = NB(γ, 1/(α+1)), und andererseits ergibt sich aus Satz 19.4.1 f¨ ur alle C ∈ B(R) ϑX(ω) αγ −αϑ γ−1 e ϑ χ(0,∞) (ϑ) X(ω)! Γ(γ) σ(X) PΘ (C, ω) = dλ(ϑ) Z τ X(ω) αγ −ατ γ−1 C e−τ e τ χ(0,∞) (τ ) dλ(τ ) X(ω)! Γ(γ) R (α+1)γ Z e−(α+1)ϑ ϑγ+X(ω)−1 χ(0,∞) (ϑ) Γ(γ +X(ω)) Z = dλ(ϑ) (α+1)γ C e−(α+1)τ τ γ+X(ω)−1 χ(0,∞) (τ ) dλ(τ ) R Γ(γ +X(ω)) Z (α+1)γ = e−(α+1)ϑ ϑγ+X(ω)−1 χ(0,∞) (ϑ) dλ(ϑ) C Γ(γ +X(ω)) Z
σ(X)
und damit PΘ
e−ϑ
= Ga(α+1, γ +X).
452
Kapitel 19. Bedingte Wahrscheinlichkeit und bedingte Verteilung
19.5 Bedingte Gesetze der Großen Zahlen Der folgende Satz ist eine bedingte Version des Null–Eins–Gesetzes 15.2.1: 19.5.1 Satz (Null–Eins–Gesetz). Sei {Xn }n∈N eine G–bedingt unabh¨angige Folge von Zufallsvariablen und sei ( ) n n 1X 1X A := lim inf Xk = lim sup Xk n→∞ n n→∞ n k=1
k=1
Dann gibt es eine G–messbare Zufallsvariable U mit n
1X Xk χA = U n→∞ n lim
k=1
fast sicher. Beweis. Sei E∞ die terminale Pnσ–Algebra der Folge {σ(Xk )}k∈N . Dann gilt A ∈ E∞ und die Folge {n−1 k=1 Xk χA } konvergiert fast sicher gegen eine E∞ –messbare Zufallsvariable. Aus dem bedingten Null–Eins–Gesetz von Kolmogorov folgt nun die Existenz eines Ereignisses G ∈ G mit χA = χG und die Existenz einer G–messbaren Zufallsvariablen U mit n
1X Xk χ A = U n→∞ n lim
k=1
fast sicher. Sei
2
¯ n o ¯ L2,G (F ) := [X]P ∈ L0 (F) ¯ X =P Y f¨ ur ein Y mit E G (Y 2 ) < ∞
Dann gilt L2,G (F) ⊆ L1,G (F ) Wir beweisen nun eine bedingte Version des 1. Gesetzes der Großen Zahlen. 19.5.2 Lemma (Ungleichung von Kolmogorov). Sei {Xk }k∈N eine G– bedingt unabh¨ angige Folge in L2,G (F ). Dann gilt f¨ ur alle ε ∈ (0, ∞) und m ∈ N ¯ n ¯ Ã( )! ∞ ¯X³ ´¯ 1 X ¯ ¯ PG sup ¯ Xk − E G (Xk ) ¯ > ε ≤ 2 varG (Xk ) ¯ ¯ ε n∈N(m) k=m
k=m
Beweis. Der Beweis verl¨auft mit einer kleinen Anpassung wie der Beweis von Lemma 15.2.2: Da im vorliegenden Fall die Zufallsvariablen nicht an ihrem
19.5 Bedingte Gesetze der Großen Zahlen
453
Erwartungswert, sondern an ihrer G–bedingten Erwartung zentriert werden, ben¨ otigt man im Beweis die aus Satz 19.2.5 bekannte Tatsache, dass mit der Folge {Xk }k∈N auch die Folge {σ(σ(Xk )∪G)}k∈N G–bedingt unabh¨ angig ist. 2 Das im Beweis von Lemma 19.5.2 verwendete Argument wird auch zum Beweis der folgenden bedingten Version von Lemma 15.2.3 ben¨ otigt: 19.5.3 Lemma. angige Folge in L2,G (F) k }k∈N eine G–bedingt unabh¨ P∞Sei {X G und sei G := { k=1 var (Xk ) < ∞}. Dann konvergiert die Reihe ∞ ³ ´ X Xk − E G (Xk ) χG k=1
fast sicher gegen eine reelle Zufallsvariable. Aus dem Lemma ergibt sich sofort eine bedingte Version des ersten Gesetzes der Großen Zahlen: 19.5.4 Satz (1. Gesetz der Großen Zahlen; Kolmogorov). {Xk }k∈N eine G–bedingt unabh¨ angige Folge in L2,G (F ) und sei (∞ ) X 1 G G := var (Xk ) < ∞ k2
Sei
k=1
Dann gilt
´ 1 X³ Xk − E G (Xk ) χG = 0 n→∞ n n
lim
k=1
fast sicher. Unter etwas st¨ arkeren Voraussetzungen erh¨alt man neben der fast sicheren Konvergenz auch die Konvergenz in L2 (F ): 19.5.5 Folgerung (1. Gesetz der Großen Zahlen; Kolmogorov). Sei {Xk }k∈N eine G–bedingt unabh¨ angige Folge in L2 (F ) mit sup E[varG (Xk )] < ∞ k∈N
Dann gilt
´ 1 X³ Xk − E G (Xk ) = 0 n→∞ n n
lim
k=1
2
fast sicher und in L (F ). Eine Familie von Zufallsvariablen {Xi }i∈I heißt G–bedingt identisch verteilt, wenn alle Zufallsvariablen dieselbe G–bedingte Verteilung besitzen; in diesem
454
Kapitel 19. Bedingte Wahrscheinlichkeit und bedingte Verteilung
G G Fall bezeichnen wir mit X eine beliebige Zufallsvariable mit PX = PX f¨ ur i alle i ∈ I und nennen X eine typische Zufallsvariable der Familie {Xi }i∈I .
Mit geringf¨ ugigen Anpassungen des Beweises erh¨ alt man auch eine bedingte Version des zweiten Gesetzes der Großen Zahlen: 19.5.6 Satz (2. Gesetz der Großen Zahlen; Kolmogorov). Sei {Xk }k∈N eine G–bedingt unabh¨ angige und G–bedingt identisch verteilte Folge in L1,G (F ). Dann gilt ´ 1 X³ Xk − E G (Xk ) = 0 n→∞ n n
lim
k=1
fast sicher. Schließlich erh¨ alt man aus dem 2. bedingten Gesetz der Großen Zahlen eine bedingte Version des Satzes von Glivenko/Cantelli: 19.5.7 Satz (Glivenko/Cantelli). Sei {Xk }k∈N eine G–bedingt unabh¨ angige und G–bedingt identisch verteilte Folge von Zufallsvariablen und sei {Fn }n∈N die Folge der zugeh¨ origen empirischen Verteilungsfunktionen. Dann gilt ¯ ¯ ¯ ¯ G lim sup ¯Fn (x, ω) − FX (x, ω)¯ = 0 n→∞ x∈R
fast sicher. Aufgaben 19.5.A F¨ uhren Sie die fehlenden Beweise aus. 19.5.B Formulieren und beweisen Sie geeignete bedingte Versionen der u ¨ brigen Ergebnisse aus Abschnitt 15.2. 19.5.C Jede G–bedingt identisch verteilte Familie von Zufallsvariablen ist identisch verteilt. 19.5.D Je zwei G–bedingt unabh¨ angige und G–bedingt identisch verteilte Zufallsvariablen sind positiv korreliert. 19.5.E Austauschbare Familien von Zufallsvariablen: Eine Familie von Zufallsvariablen {Xi }i∈I heißt austauschbar , wenn f¨ ur alle n ∈ N jede Familie {Xi }i∈J mit |J| = n dieselbe Verteilung besitzt. (1) Jede G–bedingt unabh¨ angige und G–bedingt identisch verteilte Familie von Zufallsvariablen ist austauschbar. (2) Jede austauschbare Familie von Zufallsvariablen ist identisch verteilt.
20 Regularit¨ at und Satz von Kolmogorov
Sei I eine nichtleere Indexmenge und sei H(I) die Familie der endlichen nichtleeren Teilmengen von I. N Wir betrachten den Messraum i∈I (R, B(R)) und eine projektive Familie von Verteilungen {QJ }J∈H(I) mit QJ : B(RJ ) → [0, 1] f¨ ur alle J ∈ H(I) und untersuchen die Existenz und Eindeutigkeit eines Wahrscheinlichkeitsmaßes N Q : i∈I B(R) → [0, 1] mit QπJ = QJ f¨ ur alle J ∈ H(I). Ist insbesondere {Qi }i∈I eine Familie von Verteilungen auf B(R), so ist die Familie {QJ }J∈H(I) mit O QJ := Qi i∈J
projektiv, und in diesem Spezialfall N folgt die Existenz und Eindeutigkeit eines Wahrscheinlichkeitsmaßes Q : i∈I B(R) → [0, 1] mit QπJ = QJ f¨ ur alle J ∈ H(I) aus dem Satz von Andersen/Jessen. Der Satz von Andersen/ Jessen liefert daher insbesondere zu jeder Familie von Verteilungen {Qi }i∈I auf B(R) die Existenz eines Wahrscheinlichkeitsraumes (Ω, F , P ) und einer unabh¨ angigen Familie von Zufallsvariablen {Xi }i∈I mit Xi : Ω → R und PXi = Qi f¨ ur alle i ∈ I. Wir zeigen zun¨ achst, dass jede multivariate Verteilung regul¨ ar ist (Abschnitt 20.1), und beweisen dann den Satz von Kolmogorov (Abschnitt 20.2), der das eingangs genannte Problem f¨ ur jede projektive Familie {QJ }J∈H(I) von endlichdimensionalen Verteilungen QJ : B(RJ ) → [0, 1] l¨ ost. K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6_20, © Springer-Verlag Berlin Heidelberg 2011
456
Kapitel 20. Regularit¨ at und Satz von Kolmogorov
20.1 Regularit¨ at Sei (S, d) ein metrischer Raum und B(S) die zugeh¨ orige Borelsche σ–Algebra. Ein Maß µ : B(S) → [0, ∞] heißt regul¨ ar , wenn f¨ ur alle B ∈ B(S) ¯ n o ¯ µ[B] = inf µ[U ] ¯ U ∈ B(S) ist offen mit B ⊆ U und
¯ n o ¯ µ[B] = sup µ[K] ¯ K ∈ B(S) ist kompakt mit K ⊆ B
gilt. Das folgende Lemma liefert die Regularit¨at aller Verteilungen auf B(Rm ): 20.1.1 Lemma. Jede Verteilung auf B(Rm ) ist regul¨ ar. Beweis. Sei Q : B(Rm ) → [0, 1] eine Verteilung und sei ε ∈ (0, ∞). −1 Sei zun¨ achst (a, b] ∈ J (Rm ). Dann ist die Folge {(a, eine moT b+k 1)}k∈N noton fallende Folge offener Mengen mit (a, b] = k∈N (a, b + k −1 1) und es gilt ¯ n o ¯ Q[(a, b]] ≤ inf Q[U ] ¯ U ∈ 2Ω ist offen mit (a, b] ⊆ U ¯ n o ¯ ≤ inf Q[(a, b+k −1 1)] ¯ k ∈ N = Q[(a, b]] und damit
¯ n o ¯ Q[(a, b]] = inf Q[U ] ¯ U ∈ 2Ω ist offen mit (a, b] ⊆ U
Sei nun B ∈ B(Rm ). Nach dem Satz von Caratheodory stimmt Q mit der Restriktion des von der Restriktion von Q auf J (Rm ) erzeugten ¨ außeren Maßes (Q|J (Rm ) )∗ auf B(Rm ) u ¨berein; es gilt also Q[B] = (Q|J (Rm ) )∗ [B] m Sei S ε ∈ (0, ∞). Dann gibt es eine Folge {(an , bn ]}n∈N ⊆ J (R ) mit B ⊆ n∈N (an , bn ] und ∞ X
Q[(an , bn ]] ≤ Q[B] +
n=1
ε 2
und nach dem vorher Gezeigten gibt es f¨ ur alle n ∈ N eine offene Menge Un mit (an , bn ] ⊆ Un und Q[Un ] ≤ Q[(an , bn ]) +
ε 2n+1
20.1 Regularit¨ at
Sei U :=
S n∈N
457
Un . Dann ist U offen mit B ⊆ U und es gilt Q[U ] ≤ ≤ =
∞ X
Q[Un ]
n=1 ∞ µ X
Q[(an , bn ]) +
n=1 ∞ X
Q[(an , bn ]) +
n=1
≤ Q[B] +
ε
¶
2n+1
ε 2
ε ε + 2 2
= Q[B] + ε Daraus folgt ¯ n o ¯ Q[B] = inf Q[U ] ¯ U ∈ B(Rm ) ist offen mit B ⊆ U Sei nochmals ε ∈ (0, ∞). Nach dem bisher Gezeigten gibt es eine offene Menge V ∈ B(Rm ) mit B ⊆ V und Q[V ] ≤ Q[B] + ε/2 und damit Q[V ∩ B] + Q[B] = Q[V ∩ B] + Q[V \ B] = Q[V ] ≤ Q[B] +
ε 2
Da Q endlich ist, ergibt sich nun Q[B ∩ V ] ≤
ε 2
und wegen inf n∈N Q[B \ [−n, n]] = 0 gibt es eine kompakte Menge L ∈ B(Rm ) mit ε Q[B \ L] ≤ 2 Sei K := L\V . Dann ist K kompakt mit K ⊆ B und B \K ⊆ (B \L)∪(B ∩V ) und es gilt Q[B \ K] ≤ Q[B \ L] + Q[B ∩ V ] ≤
ε ε + =ε 2 2
und damit Q[B] = Q[B ∩ K] + Q[B \ K] ≤ Q[K] + ε Daraus folgt ¯ n o ¯ Q[B] = sup Q[K] ¯ K ∈ B(Rm ) ist kompakt mit K ⊆ B Daher ist Q regul¨ar.
2
458
Kapitel 20. Regularit¨ at und Satz von Kolmogorov
20.2 Satz von Kolmogorov Wir beweisen nun den angek¨ undigten Satz von Kolmogorov: 20.2.1 Satz (Kolmogorov). Sei {QJ }J∈H(I) eine projektive Familie von Wahrscheinlichkeitsmaßen mit QJ : B(RJ ) →N [0, 1] f¨ ur alle J ∈ H(I). Dann gibt es genau ein Wahrscheinlichkeitsmaß Q : i∈I B(R) → [0, 1] derart, dass f¨ ur alle J ∈ H(I) QπJ = QJ gilt. Beweis. Im Fall einer endlichen Indexmenge I ist nichts zu zeigen. Sei daher I unendlich. Sei ferner Z die Algebra der Zylindermengen auf RI und f¨ ur J ∈ H(I) sei ZJ = πJ−1 (B(RJ )) die σ–Algebra der J–Zylinder. Nach Satz 10.5.6 existiert genau ein Wahrscheinlichkeitsinhalt Q : Z → [0, 1] mit Q[πJ−1 (C)] = QJ [C] f¨ ur alle J ∈ H(I) und alle C ∈ FJ . Wir zeigen im folgenden, dass Q ∅–stetig ist. Dann ist Q nach Lemma 10.1.2 σ–additiv und besitzt nach dem Satz von Caratheodory eine eindeutige Fortsetzung zu einem Wahrscheinlichkeitsmaß F → [0, 1], das wir wieder mit Q bezeichnen. Der Wahrscheinlichkeitsinhalt Q ist nach Definition genau dann ∅–stetig, wenn T f¨ ur jede monoton fallende Folge {An }n∈N ⊆ Z mit n∈N An = ∅ inf Q[An ] = 0
n∈N
gilt. Diese Bedingung ist gleichwertig damit, dass f¨ ur jede monoton fallende Folge {An }n∈N ⊆ Z mit inf n∈N Q[An ] > 0 \ An 6= ∅ n∈N
gilt. Sei also {An }n∈N ⊆ Z eine monoton fallende Folge mit inf n∈N Q[An ] > 0 und sei α := inf Q[An ] n∈N
Dann gibt es eine streng monoton wachsende Folge {Jn }n∈N ⊆ H(I) mit An ∈ ZJn f¨ ur alle n ∈ N.
20.2 Satz von Kolmogorov
459
(1) F¨ ur alle n ∈ N gibt es ein Cn ∈ FJn mit An = πJ−1 (Cn ) n und nach Lemma 20.1.1 gibt es eine kompakte Menge Kn ∈ FJn mit Kn ⊆ Cn und QJn [Cn \ Kn ] < (2) F¨ ur alle k ∈ N sei Bk := Bk =
k \
Tk n=1
πJ−1 (Kn ). Dann gilt Bk ∈ ZJk sowie n
πJ−1 (Kn ) ⊆ n
n=1
α 2n
k \
k \
πJ−1 (Cn ) = n
n=1
An = Ak
n=1
und à Ak \ B k =
k \
! Ã πJ−1 (Cn ) n
\
n=1
k \
! πJ−1 (Kn ) n
⊆
n=1
k [
πJ−1 (Cn \ Kn ) n
n=1
und damit " Q[Ak \ Bk ] ≤ Q
k [
# πJ−1 (Cn n
\ Kn )
n=1
≤
k X
Q[πJ−1 (Cn \ Kn )] n
n=1
=
k X
QJn [Cn \ Kn ]
n=1
<
k X α n 2 n=1
=α ≤ Q[Ak ] Daher gilt Q[Bk ] = Q[Ak ] − Q[Ak \ Bk ] > 0 und damit Bk 6= ∅ (3) Es gibt daher eine Folge {xk }k∈N mit xk ∈ Bk = k ∈ N. Dann gilt f¨ ur alle n ∈ N und k ∈ N(n) xk ∈ πJ−1 (Kn ) n
Tk n=1
πJ−1 (Kn ) f¨ ur alle n
460
Kapitel 20. Regularit¨ at und Satz von Kolmogorov
und damit gilt f¨ ur alle n ∈ N, k ∈ N(n) und j ∈ Jn πj (xk ) = πj,Jn (πJn (xk )) ∈ πj,Jn (Kn ) (4) Sei nun [
J :=
Jn
n∈N
und sei {jh | h ∈ N} eine Abz¨ahlung von J. Dann gibt es zu jedem h ∈ N ein n ∈ N mit jh ∈ Jn und πjh (xk ) ∈ πjh ,Jn (Kn ) f¨ ur alle k ∈ N(n). Da Kn kompakt und die Projektion πjh ,Jn stetig ist, ist auch πjh ,Jn (Kn ) kompakt. Durch sukzessive Verd¨ unnung erh¨ alt man daher f¨ ur jedes h ∈ N eine Teilfolge {yh,k }k∈N von {xk }k∈N derart, dass die Folge {πjh (yh,k )}k∈N konvergiert. F¨ ur alle h ∈ N sei yh := yh,h . Dann ist f¨ ur alle j ∈ J die Folge {πj (yh )}h∈N konvergent und wir setzen zj := lim πj (yh ) h→∞
(5) F¨ ur alle n ∈ N sei \
zJn :=
−1 πj,J ({zj }) n
j∈Jn
F¨ ur alle k ∈ N(n) gilt xk ∈ πJ−1 (Kn ) und damit auch yk ∈ πJ−1 (Kn ). Wir n n erhalten daher \ −1 zJn = πj,J ({zj }) n j∈Jn
\
=
−1 πj,J n
j∈Jn
= lim
k→∞
\
³n
o´ lim πj (yk )
k→∞
−1 πj,J ({πj (yk )}) n
j∈Jn
= lim πJn (yk ) k→∞
∈ Kn Wegen à πJ−1 ({zJn }) n
=
πJ−1 n
\ j∈Jn
! −1 πj,J ({zj }) n
=
\ j∈Jn
πj−1 ({zj })
20.2 Satz von Kolmogorov
461
ist die Folge {πJ−1 ({zJn })}n∈N monoton fallend und es gilt n \ πJ−1 ({zJn }) 6= ∅ n n∈N
und damit ∅= 6
\
πJ−1 ({zJn }) ⊆ n
n∈N
\
πJ−1 (Kn ) ⊆ n
n∈N
\ n∈N
Daher ist Q ∅–stetig.
πJ−1 (Cn ) = n
\
An
n∈N
2
Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum. Eine Familie von Zufallsvariablen {Xi }i∈I heißt stochastischer Prozess auf (Ω, F , P ). Sei {Xi }i∈I ein stochastischer Prozess auf einem Wahrscheinlichkeitsraum (Ω, F, P ). Dann ist die Abbildung X : Ω → RI mit den Koordinaten πi ◦ X = Xi messbar und f¨ ur alle J ∈ H(I) ist die Abbildung XJ : Ω → RJ mit N den Koordinaten πi,J ◦ XJ = Xi ebenfalls messbar; das Bildmaß PX : ur i∈I B(R) → [0, 1] heißt Verteilung des stochastischen Prozesses und f¨ J ∈ H(I) heißt das Bildmaß PXJ : B(RJ ) → [0, 1] endlichdimensionale Randverteilung des stochastischen Prozesses bez¨ uglich J. F¨ ur alle J ∈ H(I) gilt XJ = πJ ◦ X und damit (PXJ ) = (PX )πJ . Daher ist die Familie {PXJ }J∈H(I) projektiv. Aus dem Satz von Kolmogorov ergibt sich die Existenz eines stochastischen Prozesses mit einer gegebenen projektiven Familie von endlichdimensionalen Randverteilungen: 20.2.2 Folgerung. Sei {QJ }J∈H(I) eine projektive Familie von Wahrscheinlichkeitsmaßen mit QJ : B(RJ ) → [0, 1] f¨ ur alle J ∈ H(I). Dann gibt es einen Wahrscheinlichkeitsraum (Ω, F , P ) und einen stochastischen Prozess {Xi }i∈I auf (Ω, F, P ) mit PXJ = QJ f¨ ur alle J ∈ H(I). Beweis. Aus der Projektivit¨at der Familie {QJ }J∈H(I) und dem Satz von Kolmogorov folgt N die Existenz eines eindeutig bestimmten Wahrscheinlichkeitsmaßes Q : i∈I B(R) → [0, 1] mit QπJ = QJ f¨ ur alle J ∈ H(I). Sei à ! O (Ω, F, P ) := RI , B(R), Q i∈I
und f¨ ur alle i ∈ I sei Xi := πi Dann ist (Ω, F, P ) ein Wahrscheinlichkeitsraum und {Xi }i∈I ist ein stochastischer Prozess auf (Ω, F , P ) mit PXJ = QJ f¨ ur alle J ∈ H(I). 2
462
Kapitel 20. Regularit¨ at und Satz von Kolmogorov
Aufgaben 20.2.A Eine Funktion σ : I × I → R heißt – symmetrisch, wenn f¨ ur alle i, j ∈ I σ(i, j) = σ(j, i) gilt. positiv definit, wenn f¨ ur alle J ∈ H(I) die Matrix {σ(i, j)}i,j∈J positiv definit ist. Ist σ : I × I → R eine positiv definite symmetrische Funktion, so gilt f¨ ur alle i, j ∈ I mit i 6= j –
(σ(i, j))2 < σ(i, i) σ(j, j) 20.2.B Gauß–Prozess: Ein stochastischer Prozess {Xi }i∈I auf einem Wahrscheinlichkeitsraum (Ω, F , P ) heißt Gauß–Prozess, wenn f¨ ur alle J ∈ H(I) der Zufallsvektor XJ = {Xi }i∈J eine Normal–Verteilung besitzt. (1) Ist {Xi }i∈I ein Gauß–Prozess, so ist die Funktion σ : I × I → R mit σ(i, j) := cov [Xi , Xj ] symmetrisch und positiv definit. (2) Sei µ : I → R eine Funktion und sei σ : I × I → R eine positiv definite symmetrische Funktion. F¨ ur alle J ∈ H(I) sei µJ := (µ(i))i∈J und ΣJ := (σ(i, j))i,j∈J . Dann gibt es einen Wahrscheinlichkeitsraum (Ω, F, P ) und einen Gauß–Prozess {Xi }i∈I auf (Ω, F , P ) mit PXJ = N(µJ , ΣJ ) f¨ ur alle J ∈ H(I). 20.2.C Poisson–Prozess: Sei α ∈ (0, ∞). Ein stochastischer Prozess {Xt }t∈R+ auf einem Wahrscheinlichkeitsraum (Ω, F , P ) heißt Poisson–Prozess zum Parameter α, wenn X0 = 0 und f¨ ur alle n ∈ N und f¨ ur alle t0 , t1 , . . . , tn ∈ R+ mit 0 = t0 < t1 < · · · < tn und alle k1 , . . . , kn ∈ N0 " n # n \ Y ((tj −tj−1 )α)kj P {Xtj −Xtj−1 = kj } = e−(tj −tj−1 )α kj ! j=1 j=1 gilt. Beweisen Sie die Existenz eines Poisson–Prozesses zum Parameter α.
Anhang
K.D. Schmidt, Maß und Wahrscheinlichkeit, 2. Aufl., Springer-Lehrbuch, DOI 10.1007/978-3-642-21026-6, © Springer-Verlag Berlin Heidelberg 2011
A Fakult¨ at und Gamma–Funktion
¨ Wir geben hier einen Uberblick u aten und der ¨ber die Eigenschaften von Fakult¨ Gamma–Funktion und die daraus resultierenden Eigenschaften von Binomial– Koeffizienten und der Beta–Funktion.
A.1 Fakult¨ at und Binomial–Koeffizient F¨ ur n ∈ N0 sei n! :=
n−1 Y
(n−j)
j=0
Die Zahl n! heißt n Fakult¨ at. Es gilt 0! = 1 und (n+1)! = (n+1) · n! Interpretation: n! ist die Anzahl der M¨oglichkeiten, n unterscheidbare Objekte anzuordnen. F¨ ur α ∈ R und k ∈ N0 sei µ ¶ k−1 Y α−j α := k k−j j=0 Die Zahl
¡α¢ k
heißt Binomial–Koeffizient α u ¨ber k. Es gilt
F¨ ur n ∈ N0 und k ∈ N0 gilt n! µ ¶ n = k! (n−k)! k 0
falls k ≤ n sonst
¡α¢ 0
= 1.
466
Anhang A. Fakult¨ at und Gamma–Funktion
und f¨ ur n ∈ N0 und k ∈ N0 mit k ≤ n gilt µ ¶ n =1 0 µ ¶ µ ¶ n n = k n−k µ ¶ µ ¶ µ ¶ n+1 n n = + k+1 k k+1 ¡n¢ Durch vollst¨ andige Induktion ergibt sich k ∈ N0 und aus dem Binomischen Satz folgt n µ ¶ X n = 2n k k=0 ¡n¢ Interpretation: k ist die Anzahl der M¨oglichkeiten, k von n unterscheidbaren Objekten ucksichtigung der Reihenfolge) auszuw¨ ahlen. Insbesondere ¡ ¢ (ohne Ber¨ ist nk die Anzahl der k–elementigen Teilmengen der Menge {1, . . . , n} und 2n ist die Anzahl aller Teilmengen der Menge {1, . . . , n}.
A.2 Gamma–Funktion und Beta–Funktion Die Funktion Γ : (0, ∞) → (0, ∞) mit Z ∞ Γ(γ) := e−z z γ−1 dz 0
heißt Gamma–Funktion. Es gilt Γ( 12 ) =
√
π
Γ(1) = 1 Γ(γ +1) = γ Γ(γ) Die letzte Gleichung heißt 5–Gamma–Formel. Insbesondere gilt f¨ ur n ∈ N0 Γ(n+1) = n! µ ¶ γ +n−1 Γ(γ +n) = n Γ(γ) n! Die Funktion B : (0, ∞) × (0, ∞) → (0, ∞) mit Z 1 B(α, β) := z α−1 (1−z)β−1 dz 0
heißt Beta–Funktion. Es gilt B(α, β) =
Γ(α) Γ(β) Γ(α + β)
B Vektorr¨ aume, Ordnung und Topologie
¨ Wir geben hier einen Uberblick u ¨ber die linearen, ordnungstheoretischen und topologischen Strukturen in einem Vektorraum. Alle Vektorr¨ aume seien reell.
B.1 Vektorr¨ aume Im gesamten Abschnitt sei E ein Vektorraum. Eine Menge C ⊆ E heißt – konvex , wenn ax + by ∈ C f¨ ur alle x, y ∈ C und f¨ ur alle a, b ∈ R+ mit a+b = 1 gilt. – Kegel, wenn ax + by ∈ C f¨ ur alle x, y ∈ C und f¨ ur alle a, b ∈ R+ gilt. – affin, wenn ax+by ∈ C f¨ ur alle x, y ∈ C und f¨ ur alle a, b ∈ R mit a+b = 1 gilt. – linear , wenn ax + by ∈ C f¨ ur alle x, y ∈ C und f¨ ur alle a, b ∈ R gilt. Jede nichtleere lineare Teilmenge von E ist selbst ein Vektorraum und wird als Unterraum von E bezeichnet. Sei C ⊆ E. Eine Funktion h : C → R heißt – konvex , wenn f¨ ur alle x, y ∈ C und a, b ∈ R+ mit a+b = 1 und ax+by ∈ C h(ax+by) ≤ ah(x) + bh(y) –
gilt. konkav , wenn f¨ ur alle x, y ∈ C und a, b ∈ R+ mit a+b = 1 und ax+by ∈ C h(ax+by) ≥ ah(x) + bh(y)
gilt. Offenbar ist h genau dann konvex, wenn die Funktion −h : C → R mit (−h)(x) := −h(x) konkav ist.
468
Anhang B. Vektorr¨ aume, Ordnung und Topologie
Sei C ⊆ E und sei F ein Vektorraum. Eine Abbildung T : C → F heißt – linear , wenn f¨ ur alle x, y ∈ C und a, b ∈ R mit ax + by ∈ C T (ax+by) = aT (x) + bT (y) –
gilt. positiv linear , wenn f¨ ur alle x, y ∈ C und a, b ∈ R+ mit ax + by ∈ C T (ax+by) = aT (x) + bT (y)
–
gilt. affin, wenn es ein c ∈ F und eine lineare Abbildung S : C → F gibt mit T (x) = c + S(x)
f¨ ur alle x ∈ C. Eine lineare Abbildung h : C → R wird auch als Funktional bezeichnet.
B.2 Ordnung Sei E eine Menge. Eine Relation ≤ auf E heißt Ordnungsrelation (oder kurz Ordnung) auf E, wenn sie die folgenden Eigenschaften besitzt: (i) F¨ ur alle x ∈ E gilt x ≤ x (Reflexivit¨ at ). (ii) F¨ ur alle x, y ∈ E mit x ≤ y und y ≤ x gilt x = x (Antisymmetrie). (iii) F¨ ur alle x, y, z ∈ E mit x ≤ y und y ≤ z gilt x ≤ z (Transitivit¨ at). In diesem Fall heißt (E, ≤) geordnete Menge. Sei (E, ≤) eine geordnete Menge. Die Ordnungsrelation ≤ heißt vollst¨ andig, wenn f¨ ur alle x, y ∈ E mindestens eine der Eigenschaften x ≤ y und y ≤ x erf¨ ullt ist. In diesem Fall heißt (E, ≤) vollst¨ andig geordnet . Sei (E, ≤) eine geordnete Menge. F¨ ur C ⊆ E heißt z ∈ E – Supremum von C, wenn einerseits x ≤ z f¨ ur alle x ∈ C gilt und andererseits z ≤ u f¨ ur jedes u ∈ E mit x ≤ u f¨ ur alle x ∈ C gilt; in diesem Fall schreiben wir z = sup C. – Infimum von C, wenn einerseits x ≥ z f¨ ur alle x ∈ C gilt und andererseits z ≥ u f¨ ur jedes u ∈ E mit x ≥ u f¨ ur alle x ∈ C gilt; in diesem Fall schreiben wir z = inf C. F¨ ur x, y ∈ E setzen wir im Fall der Existenz des Supremums bzw. des Infimums der Menge {x, y} x ∨ y := sup{x, y} x ∧ y := inf{x, y} Die geordnete Menge (E, ≤) heißt Verband , wenn f¨ ur alle x, y ∈ E das Supremum und das Infimum der Menge {x, y} existiert.
B.3 Topologie
469
Sei E ein Vektorraum und sei ≤ eine Ordnungsrelation auf E. Die geordnete Menge (E, ≤) heißt – geordneter Vektorraum, wenn f¨ ur alle x, y, z ∈ E und c ∈ R+ mit x ≤ y x+z ≤ y+z cx ≤ cy gilt. Vektorverband , wenn (E, ≤) ein geordneter Vektorraum und ein Verband ist. Ist (E, ≤) ein geordneter Vektorraum, so ist die Menge E+ := {x ∈ E | 0 ≤ x} ein Kegel, der als positiver Kegel von E (bez¨ uglich ≤) bezeichnet wird. Ist (E, ≤) ein Vektorverband, so existieren f¨ ur alle x ∈ E die Suprema –
x+ := x ∨ 0 x− := (−x) ∨ 0 |x| := x ∨ (−x) und man bezeichnet x+ als den Positivteil, x− als den Negativteil und |x| als den Betrag von x; es gilt x = x+ − x− und |x| = x+ + x− sowie x+ ∨ x− = |x| und x+ ∧ x− = 0. Ist (E, ≤) ein Vektorverband, so heißt ein Unterraum C ⊆ E – Untervektorverband, wenn f¨ ur alle x, y ∈ C auch (f¨ ur das in E gebildete Supremum) x ∨ y ∈ C gilt. – Ideal, wenn f¨ ur alle y ∈ C und x ∈ E mit |x| ≤ |y| auch x ∈ C gilt. Jedes Ideal ist ein Untervektorverband.
B.3 Topologie Sei E eine Menge. Eine Abbildung d : E × E → R+ heißt Metrik auf E, wenn sie die folgenden Eigenschaften besitzt: (i) F¨ ur alle x, y ∈ E gilt d(x, y) = 0 genau dann, wenn x = y gilt (Definitheit). (ii) F¨ ur alle x, y ∈ E gilt d(x, y) = d(y, x) (Symmetrie). (iii) F¨ ur alle x, y, z ∈ E gilt d(x, z) ≤ d(x, y) + d(y, z) (Dreiecksungleichung). In diesem Fall heißt (E, d) metrischer Raum. Sei (E, d) ein metrischer Raum. Eine Folge {xn }n∈N ⊆ E heißt Cauchy–Folge, wenn es zu jedem ε ∈ (0, ∞) ein p ∈ N gibt mit d(xm , xn ) ≤ ε f¨ ur alle m, n ∈ N(p). Die Metrik d und damit auch der metrische Raum (E, d) heißt vollst¨ andig, wenn es zu jeder Cauchy–Folge {xn }n∈N ⊆ E ein x ∈ E gibt mit limn→∞ d(xn , x) = 0. Sei E ein Vektorraum. Eine Abbildung k . k : E → R+ heißt Norm auf E, wenn sie die folgenden Eigenschaften besitzt:
470
Anhang B. Vektorr¨ aume, Ordnung und Topologie
(i) F¨ ur alle x ∈ E gilt kxk = 0 genau dann, wenn x = 0 gilt (Definitheit ). (ii) F¨ ur alle x ∈ E und c ∈ R gilt kcxk = |c| kxk (absolute Homogenit¨ at ). (iii) F¨ ur alle x, y ∈ E gilt kx+yk ≤ kxk + kyk (Dreiecksungleichung). In diesem Fall heißt (E, k . k) normierter Raum und eine Menge B ⊆ E heißt beschr¨ ankt, wenn es ein c ∈ (0, ∞) gibt mit B ⊆ {x ∈ E | kxk ≤ c}. Sei (E, k . k) ein normierter Raum. Dann ist die Abbildung d : E × E → R+ mit d(x, y) := kx−yk eine Metrik. Der normierte Raum (E, k . k) heißt vollst¨ andig, wenn der metrische Raum (E, d) vollst¨andig ist. Ein vollst¨ andiger normierter Raum heißt Banach–Raum. Sei E ein Vektorraum. Eine Abbildung h. , .i : E × E → R heißt Skalarprodukt auf E, wenn sie die folgenden Eigenschaften besitzt: (i) F¨ ur alle x ∈ E gilt hx, xi ≥ 0. (ii) F¨ ur alle x ∈ E gilt hx, xi = 0 genau dann, wenn x = 0 gilt (Definitheit). (iii) F¨ ur alle x, y ∈ E gilt hx, yi = hy, xi (Symmetrie). (iv) F¨ ur alle x, y ∈ E und c ∈ R gilt hcx, yi = c hx, yi (Homogenit¨ at). (v) F¨ ur alle x, y, z ∈ E gilt hx+y, zi = hx, zi + hy, zi (Additivit¨ at). In diesem Fall heißt (E, h. , .i) Raum mit Skalarprodukt. Sei (E, h. , .i) ein Raum mit Skalarprodukt. Dann gilt f¨ ur alle x, y ∈ E hx, yi2 ≤ hx, xihy, yi (Ungleichung von Cauchy/Schwarz ). Aus dieser Ungleichung folgt, dass die Abbildung k . k : E → R+ mit kxk := hx, xi1/2 eine Norm ist. Der Raum mit Skalarprodukt (E, h. , .i) heißt vollst¨ andig, wenn der normierte Raum (E, k . k) vollst¨andig ist. Ein vollst¨ andiger Raum mit Skalarprodukt heißt Hilbert–Raum.
B.4 Ordnung und Topologie Sei E ein Vektorraum und sei ≤ eine Ordnungsrelation und k . k eine Norm auf E derart, dass – (E, ≤) ein Vektorverband ist, – (E, k . k) ein Banach–Raum ist, und – kxk ≤ kyk f¨ ur alle x, y ∈ E mit |x| ≤ |y| gilt. Dann heißt (E, ≤, k . k) Banach–Verband. Ein Banach–Verband, dessen Norm durch ein Skalarprodukt induziert wird, heißt Hilbert–Verband .
C Der Euklidische Raum
¨ Wir geben hier einen Uberblick u ¨ber die linearen, ordnungstheoretischen und topologischen Strukturen des Euklidischen Raumes.
C.1 Vektoren und Matrizen Wir bezeichnen mit Rm den reellen Vektorraum aller (Spalten–)Vektoren x1 x = ... xm (mit der koordinatenweise definierten Addition und Skalarmultiplikation). Wir bezeichnen das neutrale Element der Addition mit 0 und nennen 0 den Nullvektor . Mit Hilfe der Einheitsvektoren e1 , . . . , em ∈ Rm l¨ asst sich jeder Vektor x ∈ Rm in der Form x=
m X
xi ei
i=1
darstellen. Wir setzen 1 :=
m X
ei
i=1
und nennen 1 den Einsvektor . Wir bezeichnen mit Rm×n den reellen Vektorraum aller Matrizen a11 · · · a1n .. A = ... . am1 · · · amn
472
Anhang C. Der Euklidische Raum
(mit der koordinatenweise definierten Addition und Skalarmultiplikation). Wir bezeichnen das neutrale Element der Addition mit O und nennen O die Nullmatrix . F¨ ur eine Matrix A ∈ Rm×n mit A = (aij )i=1,...,m, j=1,...,n heißt die Matrix A0 ∈ Rn×m mit A0 := (aji )j=1,...,n, i=1,...,m die zu A transponierte Matrix . Eine Abbildung T : Rn → Rm ist – genau dann linear, wenn es eine Matrix D ∈ Rm×n gibt mit T (x) = Dx. – genau dann affin, wenn es einen Vektor c ∈ Rm und eine Matrix D ∈ Rm×n gibt mit T (x) = c + Dx. Ist T : Rn → Rm eine lineare Abbildung und D ∈ Rm×n eine Matrix mit T (x) = Dx, so sind die Spaltenvektoren der Matrix D gerade die Bilder der Einheitsvektoren des Rn unter T . Wir betrachten nun den Fall m = n. Wir bezeichnen das neutrale Element der Matrizenmultiplikation in Rm×m mit I und nennen I die Einheitsmatrix . Eine Matrix A ∈ Rm×m heißt invertierbar , wenn es eine Matrix B ∈ Rm×m gibt mit AB = I oder BA = I; in diesem Fall gelten sogar beide Gleichungen und die Matrix B ist eindeutig bestimmt und wird als Inverse von A und mit A−1 bezeichnet. Eine Matrix A ∈ Rm×m heißt singul¨ ar , wenn sie nicht invertierbar ist. Eine Matrix A ∈ Rm×m heißt – Permutationsmatrix , wenn sie in jeder Zeile und in jeder Spalte genau eine Eins und ansonsten nur Nullen enth¨alt. – Orthogonalmatrix , wenn A0 A = I gilt. – Diagonalmatrix , wenn f¨ ur alle i, j ∈ {1, . . . , m} mit i 6= j aij = 0 gilt. Jede Permutationsmatrix ist eine Orthogonalmatrix, und jede Orthogonalmatrix ist invertierbar. F¨ ur einen Vektor x ∈ Rm bezeichnen wir mit diag(x) die Diagonalmatrix A mit aii = xi f¨ ur alle i ∈ {1, . . . , m}. Es gilt I = diag(1).
C.2 Ordnung
473
F¨ ur k, l ∈ {1, . . . , m} sei die Matrix F(kl) ∈ Rm×m definiert durch ½ 1 falls (i, j) = (k, l) (kl) fij := 0 sonst Eine Matrix A ∈ Rm×m heißt Elementarmatrix , wenn es – eine Matrix F(kl) gibt mit k 6= l und A = I + F(kl) oder – eine Matrix F(kk) und ein c ∈ R \ {0} gibt mit A = I + (c−1)F(kk) . Jede Elementarmatrix ist invertierbar. C.1.1 Proposition. F¨ ur eine Matrix A ∈ Rm×m sind ¨ aquivalent: (a) A ist invertierbar. (b) A ist ein Produkt von Elementarmatrizen. (c) A ist ein Produkt von Permutationsmatrizen und Elementarmatrizen der Form I + F(12) oder I + (c−1)F(11) mit c ∈ R \ {0}. ¨ F¨ ur einen Beweis der Aquivalenz von (a) und (b) in Proposition C.1.1 vgl. ¨ Koecher [1997; Kapitel 2, §6, Satz A]; die Aquivalenz von (b) und (c) ist dann klar. Eine Matrix A ∈ Rm×m heißt – symmetrisch, wenn A0 = A gilt. – positiv semidefinit, wenn x0 Ax ≥ 0 f¨ ur alle x ∈ Rm gilt. – positiv definit, wenn x0 Ax > 0 f¨ ur alle x ∈ Rm \{0} gilt. Eine symmetrische Matrix ist genau dann positiv definit, wenn sie positiv semidefinit und invertierbar ist. C.1.2 Proposition. F¨ ur eine Matrix A ∈ Rm×m sind ¨ aquivalent: (a) A ist symmetrisch und positiv semidefinit. (b) Es gibt eine Matrix B ∈ Rm×m mit A = BB0 . F¨ ur einen Beweis von Proposition C.1.2 vgl. Harville [1997; Corollary 14.3.10]. C.1.3 Proposition. F¨ ur eine Matrix A ∈ Rm×m sind ¨ aquivalent: (a) A ist symmetrisch und positiv definit. (b) Es gibt eine invertierbare Matrix B ∈ Rm×m mit A = BB0 . F¨ ur einen Beweis von Proposition C.1.3 vgl. Harville [1997; Corollary 14.3.13].
C.2 Ordnung F¨ ur x, y ∈ Rm schreiben wir x≤y wenn f¨ ur alle i ∈ {1, . . . , m} xi ≤ y i gilt. Dann ist ≤ eine Ordnungsrelation und (Rm , ≤) ist ein Vektorverband. Die
474
Anhang C. Der Euklidische Raum
Ordnungsrelation ≤ heißt koordinatenweise Ordnung auf Rm . F¨ ur x, y ∈ Rm schreiben wir x
C.3 Topologie Die Abbildung h. , .i : Rm ×Rm → R mit hx, yi := x0 y =
m X
xi y i
i=1
ist ein Skalarprodukt und heißt Euklidisches Skalarprodukt. Der Raum mit Skalarprodukt (Rm , h. , .i) heißt m–dimensionaler Euklidischer Raum. Die Abbildung k . k : Rm → R+ mit à kxk := hx, xi
1/2
=
m X
!1/2 x2i
i=1
ist eine Norm und heißt Euklidische Norm. Die Euklidische Norm ist zu jeder Norm auf Rm ¨ aquivalent. Die Abbildung d : Rm ×Rm → R+ mit d(x, y) := kx−yk ist eine Metrik und heißt Euklidische Metrik . Der metrische Raum (Rm , d) ist vollst¨andig. Daher ist (Rm , k . k) ein Banach– Raum und (Rm , h. , .i) ist ein Hilbert–Raum. C.3.1 Proposition (Heine/Borel). F¨ ur K ⊆ Rm sind folgende Aussagen aquivalent: ¨ (a) K ist beschr¨ ankt und bez¨ uglich der Normtopologie abgeschlossen. (b) K ist bez¨ uglich der Normtopologie kompakt.
C.4 Ordnung und Topologie Der Euklidische Raum (Rm , ≤, k . k) ist ein Banach–Verband (und sogar ein Hilbert–Verband).
Literaturverzeichnis
Aliprantis, C. D., and Burkinshaw, O. [1990]: Principles of Real Analysis. Boston: Academic Press. Bauer, H. [1990]: Maß– und Integrationstheorie. Berlin – New York: DeGruyter. Bauer, H. [1991]: Wahrscheinlichkeitstheorie. Berlin – New York: DeGruyter. Behrends, E. [1987]: Maß– und Integrationstheorie. Berlin – Heidelberg – New York: Springer. Billingsley, P. [1995]: Probability and Measure. Third Edition. New York – Chichester: Wiley. Dudley, R. M. [1989]: Real Analysis and Probability. Pacific Grove (California): Wadsworth & Brooks/Cole. Elstrodt, J. [1996]: Maß– und Integrationstheorie. Berlin – Heidelberg – New York: Springer. Forster, O. [1983]: Analysis 1. Braunschweig: Vieweg. Halmos, P. R. [1974]: Measure Theory. Berlin – Heidelberg – New York: Springer. Harville, D. A. [1997]: Matrix Algebra from a Statistician’s Perspective. Berlin – Heidelberg – New York: Springer. Johnson, N. L., Kotz, S., and Balakrishnan, N. [1994]: Continuous Univariate Distributions. Volume 1. New York: Wiley. Johnson, N. L., Kotz, S., and Balakrishnan, N. [1995]: Continuous Univariate Distributions. Volume 2. New York: Wiley. Johnson, N. L., Kotz, S., and Balakrishnan, N. [1997]: Discrete Multivariate Distributions. New York: Wiley. Johnson, N. L., Kotz, S., and Kemp, A.W. [1992]: Univariate Discrete Distributions. New York: Wiley. Koecher, M. [1997]: Lineare Algebra und Analytische Geometrie. Vierte Auflage. Berlin – Heidelberg – New York: Springer. Kolmogorov, A. N. [1933]: Grundbegriffe der Wahrscheinlichkeitsrechnung. Berlin – Heidelberg – New York: Springer. K¨ onig, H. [1997]: Measure and Integration. Berlin – Heidelberg – New York: Springer.
476
Literaturverzeichnis
Kotz, S., Balakrishnan, N., and Johnson, N. L. [2000]: Continuous Multivariate Distributions. Volume 1. New York: Wiley. Krengel, U. [2002]: Einf¨ uhrung in die Wahrscheinlichkeitstheorie und Statistik. Braunschweig – Wiesbaden: Vieweg. M¨ uller, P. H. (Hrsg.) [1991]: Wahrscheinlichkeitstheorie und Mathematische Statistik – Lexikon der Stochastik. Berlin: Akademie–Verlag. Neveu, J. [1972]: Martingales ` a Temps Discret. Paris: Masson. Schaefer, H. H. [1974]: Banach Lattices and Positive Operators. Berlin – Heidelberg – New York: Springer. Schmidt, K. D. [1996]: Lectures on Risk Theory. Stuttgart: Teubner. Schmidt, K. D. [2009]: Versicherungsmathematik. Berlin – Heidelberg – New York: Springer. Schmitz, N. [1996]: Vorlesungen ¨ uber Wahrscheinlichkeitstheorie. Stuttgart: Teubner. Schubert, H. [1971]: Topologie. Stuttgart: Teubner. Walter, W. [1990]: Analysis I. Berlin – Heidelberg – New York: Springer.
Symbolverzeichnis
Zahlenbereiche C N N0 N(n) Q R R+ ¯ R Z
die die die die die die die die die
Menge Menge Menge Menge Menge Menge Menge Menge Menge
der komplexen Zahlen {1, 2, . . . } {0, 1, 2, . . . } {n, n+1, n+2, . . . } der rationalen Zahlen der reellen Zahlen [0, ∞) der positiven reellen Zahlen [−∞, ∞] der erweiterten reellen Zahlen der ganzen Zahlen
Reelle Zahlen x∨y x∧y x+ x− |x|
:= max{x, y} (Maximum von x, y ∈ R) := min{x, y} (Minimum von x, y ∈ R) := x ∨ 0 (Positivteil von x ∈ R) := (−x) ∨ 0 (Negativteil von x ∈ R) := x ∨ (−x) (Betrag von x ∈ R)
Vektoren 0 1 ei x
Nullvektor des Euklidischen Raumes Einsvektor des Euklidischen Raumes Einheitsvektor des Euklidischen Raumes Vektor des Euklidischen Raumes
Matrizen O I A0 A−1 diag(x)
Nullmatrix Einheitsmatrix Transponierte der Matrix A Inverse einer invertierbaren Matrix A Diagonalmatrix zum Vektor x
478
Symbolverzeichnis
Mengen χA 2A A |A| {a Q i }i∈I ⊆ A Pi∈I Ai i∈I Ai Am AI A\B A4B
Indikatorfunktion der Menge A Potenzmenge der Menge A Komplement der Menge A (wenn die Grundmenge klar ist) Anzahl der Elemente der Menge A Familie von Elementen aus der Menge A Produkt der Familie {Ai }i∈I Vereinigung einer disjunkten Familie {Ai }i∈I Q := Qm A i=1 := i∈I A := A ∩ B (Differenz) := (A \ B) ∪ (B \ A) (symmetrische Differenz)
Mengensysteme δ(E) %(E) σ(E) τ (E) B(R) ¯ B(R) B(Rm ) H(I) J (R) ¯ J (R) J (Rm )
das von E erzeugte Dynkin–System der von E erzeugte Ring die von E erzeugte σ–Algebra die von E erzeugte Topologie Borelsche σ–Algebra auf R ¯ Borelsche σ–Algebra auf R Borelsche σ–Algebra auf Rm Familie der endlichen nichtleeren Teilmengen von I Halbring der halboffenen Intervalle auf R ¯ Halbring der halboffenen Intervalle auf R Halbring der halboffenen Intervalle auf Rm
Mengenfunktionen δω ζ ζC λ µ+ µ− µf µ¿ν µ≈ν µ⊥ν
Dirac–Maß Z¨ ahlmaß lokales Z¨ ahlmaß Lebesgue–Maß Positivteil von µ Negativteil von µ Bildmaß von µ unter f µ ist ν–stetig µ und ν sind ¨ aquivalent µ und ν sind singul¨ ar
Messbare Funktionen L0 (F) L0 (F, µ) Lpµ (F) L∞ (F) =µ
96 103 136 96 103
Symbolverzeichnis [f ]µ L0 (F, µ) Lp (F, µ) L∞ (F , µ)
479 103 104 136 106
Wahrscheinlichkeitstheorie P [A] E[X] var [X] cov [X, Y ] CX FX GX mX MX PX ψX
Wahrscheinlichkeit von A Erwartungswert von X Varianz von X Kovarianz von X und Y kumulantenerzeugende Funktion von X Verteilungsfunktion von X ¨ Uberlebensfunktion von X wahrscheinlichkeitserzeugende Funktion von X momenterzeugende Funktion von X Verteilung von X charakteristische Funktion von X
Bedingte Wahrscheinlichkeit nach einem Ereignis P [A|C] E[X|C]
bedingte Wahrscheinlichkeit von A unter C bedingter Erwartungswert von X unter C
Bedingte Wahrscheinlichkeit nach einer Unter–σ–Algebra P G (A) E G (X) varG (X) covG (X, Y ) G PX 0 L (F, G) L1,G (F) L2,G (F)
bedingte bedingte bedingte bedingte bedingte 410 417 452
Wahrscheinlichkeit von A unter G Erwartung von X unter G Varianz von X unter G Kovarianz von X und Y unter G Verteilung von X unter G
Verteilungen δz χ2n tn B(ϑ) B(n, ϑ) Be(α, β) Ca(α, β) Dir(η, η) Exp(α) Ga(α, γ)
Dirac–Verteilung χ2 –Verteilung t–Verteilung Bernoulli–Verteilung Binomial–Verteilung Beta–Verteilung Cauchy–Verteilung Dirichlet–Verteilung Exponential–Verteilung Gamma–Verteilung
480 Geo(n, ϑ) H(n, N, K) Log(ϑ) M(n, ϑ) N(µ, σ 2 ) N(µ, Σ) NB(α, ϑ) NM(α, ϑ) P(α) Pa(α, β) Pa∗ (α, β) PE(n, η, η) PH(n, N, K) P´ olya(n, α, β) U(a, b) U(C)
Symbolverzeichnis geometrische Verteilung hypergeometrische Verteilung logarithmische Verteilung Multinomial–Verteilung Normal–Verteilung Normal–Verteilung Negativbinomial–Verteilung Negativmultinomial–Verteilung Poisson–Verteilung Pareto–Verteilung europ¨ aischer Art Pareto–Verteilung amerikanischer Art P´ olya/Eggenberger–Verteilung polyhypergeometrische Verteilung P´ olya–Verteilung uniforme Verteilung uniforme Verteilung
Spezielle Funktionen B Γ Φ
Beta–Funktion Gamma–Funktion Verteilungsfunktion der Standardnormal–Verteilung
Sachverzeichnis
∩–stabiles Mengensystem, 17 ∪–stabiles Mengensystem, 19 ∅–stetig, 51 Abbildung affine, 468 lineare, 468 messbare, 29, 30, 40 positiv lineare, 468 stetige, 27–30, 37 abgeschlossene Menge, 8 abgeschlossenes Intervall, 20, 21 abh¨ angige Ereignisse, 221 Abschluss, 13 absolutes Moment, 281 absolutstetige Verteilung, 255, 297, 301 absolutstetige Verteilungen (Beispiele), 256, 272, 278, 282, 288, 298, 306, 311, 317, 320, 322, 325, 326, 329, 378, 381–383 absolutstetiges Maß, 155 abz¨ ahlbare Menge, 8 adaptierte Folge, 428 additive Mengenfunktion, 44 affine Abbildung, 468 affine Menge, 467 Algebra, 24 algebraische Induktion, 109 Anzahl der g¨ unstigen F¨ alle, 198 Anzahl der m¨ oglichen F¨ alle, 198 Approximationssatz Filtration, 429 messbare Funktionen, 98, 99, 101 messbare Mengen, 70, 101
aquivalente Maße, 162 ¨ aquivalente Mengen, 48 ¨ aquivalente Normen, 11 ¨ Ausfallrate, 267 außeres Maß, 65 ¨ austauschbar, 454 Banach–Raum, 470 Banach–Verband, 470 Basis, 12 Bayessche Formel, 229 bedingt identisch verteilt, 453 bedingt integrierbar, 417 bedingt quasiintegrierbar, 416, 425 bedingt unabh¨ angige Ereignisse, 438 Ereignissysteme, 439 Zufallsgr¨ oßen, 441 bedingt unkorreliert, 424 bedingte Dichte, 447 bedingte Erwartung, 411, 416, 417 endliche, 417 bedingte Kovarianz, 424, 426 bedingte Varianz, 422 bedingte Verteilung, 444, 446 bedingte Verteilungsfunktion, 442 bedingte Wahrscheinlichkeit, 220, 435 bedingter Erwartungswert, 285 bedingtes Gesetz der Großen Zahlen, 453, 454 bedingtes Wahrscheinlichkeitsmaß, 220 Bernoulli–Irrfahrt, 365 Bernoulli–Verteilung, 254
482 beschr¨ ankte Menge, 470 beschr¨ ankte Mengenfunktion, 61 Beta–Funktion, 186, 466 Beta–Verteilung, 257, 278, 282, 288 Betrag, 101, 469 Bewegungsinvarianz, 88 Bild, 25 Bild–σ–Algebra, 32 Bildmaß, 79 Bildtopologie, 29 Binomial–Koeffizient, 465 Binomial–Moment, 372 Binomial–Verteilung, 254, 277, 287, 315, 318, 370, 375, 376, 383 gemischte, 265 Blocklemma, 233, 236, 238, 242, 441 Boole–Verteilung, 254 Borel–Menge, 15 Borel/Cantelli Lemma, 227, 437 Borelsche σ–Algebra, 15 auf R, 24 ¯ 15, 21, 24 auf R, auf Rn , 15, 20, 23, 39 Borelsches Null–Eins–Gesetz, 228, 439 χ2 –Verteilung, 257, 272, 318 Cantor–Funktion, 261 Cantor–Menge, 77, 78 Cantor–Verteilung, 259, 261 Cauchy–Folge, 469 Cauchy–Verteilung, 266, 274, 284 charakteristische Funktion, 383, 389 Copula, 300 Darstellungssatz, 262 David schl¨ agt Goliath, 419, 420, 426 Diagonalmatrix, 472 Dichte, 149 bedingte, 447 Differentiationslemma, 133 Dirac–Maß, 49 Dirac–Verteilung, 253, 296 Dirichlet–Funktion, 31, 103, 121, 184 Dirichlet–Verteilung, 298, 307, 309, 312, 320, 322, 325, 327, 329 disjunkte Familie, 8 diskrete Verteilung, 251, 295 diskrete Verteilungen (Beispiele), 253, 277, 287, 296, 305, 311, 314, 315,
Sachverzeichnis 319, 321, 324, 326, 328, 370, 375, 376, 383 diskreter Wahrscheinlichkeitsraum, 196 Dynkin–System, 16 Eindeutigkeitssatz charakteristische Funktion, 388 Maßfortsetzung, 63 wahrscheinlichkeitserzeugende Funktion, 372 eindimensionale Randverteilung, 303 einfache Funktion, 97 Einheitsmatrix, 472 Einheitsvektor, 471 Einschluss–Ausschluss–Formel, 48 Einsvektor, 471 Elementarereignis, 195 Elementarmatrix, 473 empirische Verteilung, 357, 446 empirische Verteilungsfunktion, 353, 446 endlich additive Mengenfunktion, 44 endlich subadditive Mengenfunktion, 46 endliche bedingte Erwartung, 417 endliche Mengenfunktion, 47, 61 endlicher Erwartungswert, 274 endlicher Maßraum, 101, 143 Ereignis, 195 sicheres, 195 terminales, 234 unm¨ ogliches, 195 Ereignisse abh¨ angige, 221 bedingt unabh¨ angige, 438 paarweise unabh¨ angige, 229 unabh¨ angige, 220, 224 Ereignissystem, 195 Ereignissysteme bedingt unabh¨ angige, 439 paarweise unabh¨ angige, 236 unabh¨ angige, 230 Ergebnis, 195 Ergebnismenge, 195 Erlang–Verteilung, 257, 318 erstes Gesetz der Großen Zahlen, 345, 346, 353, 453 Erwartung bedingte, 411, 416, 417 einer Zufallsmatrix, 320
Sachverzeichnis eines Zufallsvektors, 319 Erwartungswert, 274 bedingter, 285 endlicher, 274 Erzeuger einer σ–Algebra, 15 einer Topologie, 10 eines Dynkin–Systems, 16 eines Ringes, 22 erzeugte σ–Algebra, 15, 30 erzeugte Topologie, 9, 10, 13, 27 erzeugter Ring, 22 erzeugtes Dynkin–System, 16 Euklidische Metrik, 474 Euklidische Norm, 474 Euklidischer Raum, 474 Euklidisches Skalarprodukt, 474 Existenzsatz Maß, 68 Produktmaß, 170 Exponential–Verteilung, 257, 266, 380 Exzess, 291 F –Verteilung, 266 Faktorisierungssatz, 99, 412, 426 Fakult¨ at, 465 Faltung, 318 Faltungsformel, 315, 317, 376 fast sicher, 331 fast u ¨berall, 102 fast u ¨berall Cauchy, 102 fast u ¨berall definiert, 102 fast u ¨berall endlich, 102 fast u ¨berall gleich, 102 fast u ¨berall konstant, 102 fast u ¨berall konvergent, 102 fast u ¨berall reell, 102 fast u ¨berall stetig, 102 Filtration, 428, 434 Folge adaptierte, 428 integrierbare, 429 p–fach summierbare, 143 positive, 429 stochastische, 197, 265 Folgenraum, 142 Formel von Bayes, 229 der totalen Wahrscheinlichkeit, 228
483 Poincar´e, 48 Fourier–Entwicklung, 411, 425, 436 Fr´echet–Schranken, 300 Freiheitsgrad, 257, 258 Funktion, 109 Beta–, 186, 466 Cantor–, 261 charakteristische, 383, 389 Dirichlet–, 31, 103, 121, 184 einfache, 97 fast u ¨ berall stetige, 102 Gamma–, 186, 466 Heaviside–, 253, 296 integrierbare, 124, 131, 166 integrierbare komplexe, 135 komplexe, 101 konkave, 467 konstante, 92 konvexe, 467 kumulantenerzeugende, 381, 382 messbare komplexe, 101 messbare numerische, 92 messbare reelle, 95 momenterzeugende, 378, 381 monotone, 31 numerische, 91 p–fach integrierbare, 135, 145 permutierbare, 358 positiv definite, 462 quadratisch integrierbare, 143 quasiintegrierbare, 124, 134 reelle, 91 Riemann–integrierbare, 182 symmetrische, 462 uneigentlich Riemann–integrierbare, 185 wahrscheinlichkeitserzeugende, 370, 378 Funktional, 468 Gamma–Funktion, 186, 466 Gamma–Verteilung, 257, 278, 282, 288, 317, 378, 381–383 Gauß–Prozess, 462 Gauß–Verteilung, 258 gemischte Binomial–Verteilung, 265 Multinomial–Verteilung, 300, 301 Poisson–Verteilung, 265
484 geometrische Verteilung, 255, 265, 273, 278, 287, 377 geordnete Menge, 468 geordneter Vektorraum, 469 Gesetz der Großen Zahlen bedingtes, 453, 454 erstes, 345, 346, 353, 453 schwaches, 337, 338, 340 starkes, 341, 345–347, 353, 453, 454 zweites, 347, 454 Gompertz–Verteilung, 267 Graph, 35, 38, 40 Hahn–Zerlegung, 60, 62, 162 halboffenes Intervall, 20, 21 Halbraum, 72 Halbring, 19, 35 ¯ 21 der halboffenen Intervalle auf R, der halboffenen Intervalle auf Rn , 20 H¨ aufigkeit, 340 Hausdorff–Raum, 13 Heaviside–Funktion, 253, 296 Hilbert–Raum, 470 Hilbert–Verband, 470 Hyperebene, 84 hypergeometrische Verteilung, 253, 277, 287 Ideal, 24, 469 identisch verteilt, 347 Imagin¨ arteil, 101 Indikatorfunktion, 92, 100 Infimum, 468 Inhalt, 44 Inneres, 13 Integral, 110, 115, 122, 124, 131, 135 Riemann–, 181, 182 unbestimmtes, 148, 149 uneigentliches Riemann–, 185 integrierbar, 124, 131, 135, 166 bedingt, 417 Riemann–, 182 uneigentlich Riemann–, 185 integrierbare Folge, 429 integrierbare komplexe Funktion, 135 ¨ integrierte Uberlebensfunktion, 284 Intervall, 20, 21 Inverse einer Matrix, 472 invertierbare Matrix, 472
Sachverzeichnis Irrfahrt, 357 Bernoulli–, 365 J–Zylinder, 205 Jensensche Ungleichung, 128, 280, 281, 426 Jordan–Zerlegung, 58, 62 k–σ–Bereich, 290 kartesisches Produkt, 34 Kegel, 467 positiver, 469 Kettenregel, 150, 155 Kolmogorovsche σ–Algebra, 39 Kolmogorovsches Null–Eins–Gesetz, 234–236, 441 kompakte Menge, 8 komplexe Funktion, 101 integrierbare, 135 Komposition, 28, 30 konkave Funktion, 467 konstante Funktion, 92 Konvergenz fast sichere, 331 fast u ¨ berall, 102 im Maß, 104, 108 im Mittel, 131 im p–ten Mittel, 142 im quadratischen Mittel, 142 in Verteilung, 397 lokal im Maß, 108 mit Wahrscheinlichkeit Eins, 332 punktweise, 92 schwache, 393, 396 stochastische, 333 konvexe Funktion, 467 konvexe Menge, 467 Koordinate, 33 einer Zufallsmatrix, 320 koordinatenweise Ordnung, 474 Korrekturfaktor, 287 Korrelationskoeffizient, 328, 330 Korrespondenzsatz bedingter, 443 multivariater, 294 univariater, 246 Kovarianz, 323, 329, 330 bedingte, 424, 426 Kovarianz–Zerlegung, 428
Sachverzeichnis Kroneckers Lemma, 345 Kugel offene, 9, 13 kumulantenerzeugende Funktion, 381, 382 Laplace–Experiment, 198 Lebensversicherungsmathematik, 229 Lebesgue–Dichte, 255, 297 Lebesgue–Integral, 109, 110, 115, 122, 124, 131, 135 Lebesgue–integrierbar, 124, 131, 135, 166 Lebesgue–Maß, 76, 174 Lebesgue–Zerlegung, 160 Lemma von Borel/Cantelli, 227, 437 Fatou, 122, 123, 415 Kronecker, 345 Riesz/Fischer, 107, 140 Limes inferior von Funktionen, 92 Limes inferior von Mengen, 8 Limes superior von Funktionen, 92 Limes superior von Mengen, 8 lineare Abbildung, 468 lineare Menge, 467 logarithmische Verteilung, 266, 284, 290, 378 lokale Konvergenz im Maß, 108 lokales Z¨ ahlmaß, 50, 155 µ–singul¨ ar, 160 µ–stetig, 155 majorisierte Konvergenz, 129, 130, 139, 419 Markov–Kern, 442 Martingal, 428 Maß, 49 absolutstetiges, 155 aquivalentes, 162 ¨ außeres, 65 ¨ Dirac–, 49 Lebesgue–, 76, 174 µ–singul¨ ares, 160 µ–stetiges, 155 mit Dichte, 149 signiertes, 57 singul¨ ares, 160 translationsinvariantes, 81
485 Maßraum, 101 endlicher, 101, 143 σ–endlicher, 101 Matrix der zweiten gemischten Momente, 320 invertierbare, 472 positiv definite, 473 positiv semidefinite, 473 singul¨ are, 472 symmetrische, 473 transponierte, 472 maximale Ungleichung, 430 Menge abgeschlossene, 8 abz¨ ahlbare, 8 affine, 467 aquivalente, 48 ¨ beschr¨ ankte, 470 geordnete, 468 kompakte, 8 konvexe, 467 lineare, 467 messbare, 14 offene, 8 permutierbare, 358 vollst¨ andig geordnete, 468 Mengenfunktion, 43 ∅–stetige, 51 additive, 44 beschr¨ ankte, 61 endlich additive, 44 endlich subadditive, 46 endliche, 47, 61 modulare, 47 monotone, 46 σ–additive, 49 σ–endliche, 55 σ–subadditive, 54 subadditive, 46 subtraktive, 47 vollst¨ andige, 48 von oben stetige, 51 von unten stetige, 51 Mengensystem, 8 ∩–stabiles, 17 ∪–stabiles, 19 messbare Abbildung, 29, 30, 40 messbare Funktion komplexe, 101
486 numerische, 92 reelle, 95 messbare Menge, 14 messbarer Raum, 29 messbares Produkt, 39 Messraum, 29 Metrik, 469 Euklidische, 474 metrischer Raum, 469 modulare Mengenfunktion, 47 Moment absolutes, 281 Binomial–, 372 der Ordnung n, 281 h¨ oherer Ordnung, 281 zentrales, 290 momenterzeugende Funktion, 378, 381 monotone Funktion, 31 monotone Konvergenz, 115, 118, 123, 415 monotone Mengenfunktion, 46 Multinomial–Verteilung, 296, 305, 309, 311, 314, 319, 321, 324, 326, 329 gemischte, 300, 301 multivariate Verteilung, 293 multivariate Verteilungsfunktion, 294, 299 nat¨ urliche Filtration, 428, 434 nat¨ urliche Topologie, 12 ¯ 13 auf R, auf Rn , 12, 36 negativ korreliert, 328 Negativbinomial–Verteilung, 254, 278, 287, 315, 370, 375, 376, 383 negative Variation, 58 Negativmultinomial–Verteilung, 297, 306, 311, 314, 320, 321, 325, 326, 329 Negativteil, 58, 469 Norm, 469 aquivalente, 11 ¨ auf Rn , 11 Euklidische, 474 Normal–Verteilung, 258, 266, 272, 279, 288, 292, 298, 302, 307, 312, 317, 318, 320, 327, 330, 380, 382, 389 normierter Raum, 470 Normtopologie, 9–11
Sachverzeichnis Null–Eins–Gesetz, 228 Borel, 228, 439 Hewitt/Savage, 358 Kolmogorov, 234–236, 441 Mittel, 341, 452 Reihe, 241 Nullmatrix, 472 Nullmenge, 48, 101 Nullvektor, 471 numerische Funktion, 91 messbare, 92 offene Kugel, 9, 13 offene Menge, 8 offenes Intervall, 20, 21 Ordnung, 468 koordinatenweise, 474 stochastische, 264 stop–loss, 284 Ordnungsrelation, 468 Ordnungsstatistik, 302 Orthogonalmatrix, 472 p–fach integrierbar, 135, 145 p–fach summierbar, 143 paarweise unabh¨ angige Ereignisse, 229 Ereignissysteme, 236 Zufallsgr¨ oßen, 242 Panjer–Verteilung, 377 Pareto–Verteilung, 266, 267, 274, 284 amerikanischer Art, 267 europ¨ aischer Art, 266 Pascal–Verteilung, 254 Permutation, 358 permutationsinvariant, 304 Permutationsmatrix, 472 permutierbar, 358 Poincar´e, 48 Poisson–Approximation, 397 Poisson–Prozess, 462 Poisson–Verteilung, 254, 277, 287, 297, 306, 311, 314, 315, 320, 321, 325, 326, 329, 353, 370, 375, 376, 383, 405 gemischte, 265 P´ olya–Verteilung, 265, 283, 290 P´ olya/Eggenberger–Verteilung, 300, 309
Sachverzeichnis polyhypergeometrische Verteilung, 296, 305, 311, 314, 319, 321, 324, 326, 328 Portemanteau–Theorem, 393 positiv, 3 positiv definite Funktion, 462 positiv definite Matrix, 473 positiv korreliert, 328 positiv lineare Abbildung, 468 positiv semidefinite Matrix, 473 positive Folge, 429 positive Variation, 58 positiver Kegel, 469 Positivteil, 58, 469 Prinzip des unzureichenden Grundes, 198 Problem der Doppelsechs, 202 probl`eme des parties, 202 Produkt kartesisches, 34 messbares, 39 topologisches, 36 Produkt von Maßr¨ aumen, 168, 173 Mengen, 33 Mengensystemen, 34 messbaren R¨ aumen, 39 Messr¨ aumen, 39 topologischen R¨ aumen, 36 Wahrscheinlichkeitsmaßen, 215 Wahrscheinlichkeitsr¨ aumen, 215 Produkt–σ–Algebra, 39 Produktmaß, 168, 173 Produkttopologie, 36 Projektion, 34, 427 projektiv, 205 punktweise konvergent, 92 quadratisch integrierbar, 143 quasiintegrierbar, 124, 134 bedingt, 416, 425 Rand, 13 Randverteilung, 303 eines stochastischen Prozesses, 461 Raum Euklidischer, 474 messbarer, 29 metrischer, 469
487 mit Skalarprodukt, 470 normierter, 470 topologischer, 27 vollst¨ andiger, 469, 470 Realteil, 101 rechtecksmonoton, 294 Reduktionssatz, 421 reelle Funktion, 91 messbare, 95 reelle Zufallsvariable, 194 regul¨ ar, 456 relative H¨ aufigkeit, 340 Restriktion einer Abbildung, 29, 32, 165 einer Mengenfunktion, 43, 165 Riemann–Integral, 181, 182 uneigentliches, 185 Riemann–integrierbar, 182 uneigentlich, 185 Ring, 22 σ–additive Mengenfunktion, 49 σ–Algebra, 14 Borelsche, 15, 23, 24 erzeugte, 15, 30 Kolmogorovsche, 39 terminale, 234, 236 σ–endliche Mengenfunktion, 55 σ–endlicher Maßraum, 101 σ–Ideal, 24 σ–Ring, 24 σ–subadditive Mengenfunktion, 54 Satz u ¨ber die majorisierte Konvergenz, 129, 130, 139, 419 monotone Konvergenz, 115, 118, 415 Satz von Andersen/Jessen, 210 Caratheodory, 70 Chung/Fuchs, 363 Fubini, 176, 178 Glivenko/Cantelli, 354, 454 Heine/Borel, 474 Helly, 401 Helly/Bray, 396 Kolmogorov, 458 Lebesgue, 129, 130, 139, 419 Levi, 115, 118, 415 L´evy, 431
488 Pratt, 135 Pythagoras, 427 Radon/Nikodym, 156 Schiefe, 291 Schnitt, 169, 175 schwache Konvergenz von Verteilungsfunktionen, 396 Wahrscheinlichkeitsmaßen, 393 schwaches Gesetz der Großen Zahlen, 337, 338, 340 Schwerpunkteigenschaft, 285 sicheres Ereignis, 195 signiertes Maß, 57 singul¨ are Matrix, 472 singul¨ ares Maß, 160 Skalarprodukt, 470 Euklidisches, 474 Spur–σ–Algebra, 32 Spurtopologie, 29 Standardabweichung, 290, 291 Standarddarstellung, 97 standardisierte Zufallsvariable, 291 Standardnormal–Verteilung, 258, 298, 379, 381–383 starkes Gesetz der Großen Zahlen, 341, 345–347, 353 stetig von oben, 51 Funktion, 294 stetig von unten, 51 stetige Abbildung, 27–30, 37 Stetigkeitslemma, 133 Stetigkeitsmenge, 393 Stetigkeitssatz, 404 stetigsingul¨ are Verteilung, 259 Stichprobenmittel, 350 Stichprobenumfang, 350 stochastische Folge, 197, 265 stochastische Konvergenz, 333 stochastische Ordnung, 264 stochastischer Prozess, 461 stop–loss Ordnung, 284 straff, 400 Streuungsmaß, 286, 290 strikt negativ korreliert, 328 strikt positiv korreliert, 328 subadditive Mengenfunktion, 46 Substitutionsregel, 163, 164, 276 subtraktive Mengenfunktion, 47 Supremum, 468
Sachverzeichnis symmetrische Funktion, 462 Matrix, 473 Verteilung, 264, 274, 284, 389 symmetrischer Wahrscheinlichkeitsraum, 198 System der additiven Zerleger, 65 System der J–Zylinder, 205 System der Zylindermengen, 206 t–Verteilung, 258, 270, 279, 282, 323 Teilfolgenprinzip, 334, 403 terminale σ–Algebra, 234, 236 terminales Ereignis, 234 Topologie, 8 eines metrischen Raumes, 13 eines normierten Raumes, 9, 10 erzeugte, 10, 27 nat¨ urliche, 12, 13, 36 Topologien ¨ aquivalenter Normen, 11 topologischer Raum, 27 topologisches Produkt, 36 totale Variation, 62 totale Wahrscheinlichkeit, 228 Transformationssatz, 163 Translation, 80 translationsinvariantes Maß, 81 transponierte Matrix, 472 Treppenfunktion, 181 typische Zufallsvariable, 347, 454 ¨ Uberlebensfunktion, 264 integrierte, 284 unabh¨ angige Ereignisse, 220, 224 Ereignissysteme, 230 Zufallsgr¨ oßen, 237 unbestimmtes Integral, 148, 149 uneigentlich Riemann–integrierbar, 185 uneigentliches Riemann–Integral, 185 Ungleichung maximale, 430 Ungleichung von Cantelli, 289 Cauchy/Schwarz, 144, 327, 470 Fatou, 122, 123, 415 H¨ older, 137, 145 Jensen, 128, 280, 281, 426 Kolmogorov, 342, 452
Sachverzeichnis Markov, 119, 123, 281, 437 Minkowski, 138 Tschebyschev, 288 uniforme Verteilung, 256, 273, 278, 282, 288, 292, 298, 306, 311, 320, 322, 325, 326, 329, 383 univariate Verteilung, 245 univariate Verteilungsfunktion, 246, 264 unkorreliert, 328, 338 bedingt, 424 unm¨ ogliches Ereignis, 195 Unter–σ–Algebra, 410 Unterraum, 467 Untervektorverband, 469 Urbild, 26 Urnenmodelle, 200, 221, 228, 239 mit Zur¨ ucklegen, 201, 221, 240 ohne Zur¨ ucklegen, 200, 221, 239 Varianz, 286, 325 bedingte, 422 in den Klassen, 428 zwischen den Klassen, 428 Varianz–Zerlegung, 428 Variation negative, 58 positive, 58 totale, 62 Variationskoeffizient, 291 Vektorraum geordneter, 469 Vektorverband, 469 Verband, 19, 468 Version der bedingten Erwartung, 411, 416, 417 Verteilung absolutstetige, 255, 297, 301 bedingte, 444 diskrete, 251, 295 einer Zufallsgr¨ oße, 194 eines stochastischen Prozesses, 461 empirische, 357, 446 multivariate, 293 stetigsingul¨ are, 259 symmetrische, 264, 274, 284, 389 univariate, 245 Verteilung Bernoulli–, 254 Beta–, 257, 278, 282, 288
489 Binomial–, 254, 277, 287, 315, 318, 370, 375, 376, 383 Boole–, 254 χ2 –, 257, 272, 318 Cantor–, 259, 261 Cauchy–, 266, 274, 284 Dirac–, 253, 296 Dirichlet–, 298, 307, 309, 312, 320, 322, 325, 327, 329 Erlang–, 257, 318 Exponential–, 257, 266, 380 F –, 266 Gamma–, 257, 278, 282, 288, 317, 378, 381–383 Gauß–, 258 gemischte Binomial–, 265 gemischte Multinomial–, 300, 301 gemischte Poisson–, 265 geometrische, 255, 265, 273, 278, 287, 377 Gompertz–, 267 hypergeometrische, 253, 277, 287 logarithmische, 266, 284, 290, 378 Multinomial–, 296, 305, 309, 311, 314, 319, 321, 324, 326, 329 Negativbinomial–, 254, 278, 287, 315, 370, 375, 376, 383 Negativmultinomial–, 297, 306, 311, 314, 320, 321, 325, 326, 329 Normal–, 258, 266, 272, 279, 288, 292, 298, 302, 307, 312, 317, 318, 320, 327, 330, 380, 382, 389 Panjer–, 377 Pareto–, 266, 267, 274, 284 Pascal–, 254 Poisson–, 254, 277, 287, 297, 306, 311, 314, 315, 320, 321, 325, 326, 329, 353, 370, 375, 376, 383, 405 P´ olya–, 265, 283, 290 P´ olya/Eggenberger–, 300, 309 polyhypergeometrische, 296, 305, 311, 314, 319, 321, 324, 326, 328 Standardnormal–, 258, 298, 379, 381–383 t–, 258, 270, 279, 282, 323 uniforme, 256, 273, 278, 282, 288, 292, 298, 306, 311, 320, 322, 325, 326, 329, 383 Weibull–, 267
490 Verteilungsfunktion bedingte, 442 empirische, 353, 446 multivariate, 294, 299 univariate, 246, 264 Verteilungskonvergenz, 397 Vervollst¨ andigung, 48, 56, 70, 78 vollst¨ andig geordnete Menge, 468 vollst¨ andige Mengenfunktion, 48 vollst¨ andige Metrik, 469 vollst¨ andige Ordnungsrelation, 468 vollst¨ andiger Raum, 469, 470 Wahrscheinlichkeit bedingte, 220, 435 totale, 228 wahrscheinlichkeitserzeugende Funktion, 370, 378 Wahrscheinlichkeitsfunktion, 196 Wahrscheinlichkeitsinhalt, 194 Wahrscheinlichkeitsmaß, 194 bedingtes, 220 Wahrscheinlichkeitsraum, 194 diskreter, 196 symmetrischer, 198 wandernde T¨ urme, 333, 399 Weibull–Verteilung, 267 Wurf einer M¨ unze, 199, 202, 203 bis zum ersten Kopf, 216, 217 relative H¨ aufigkeiten, 339 Wurf eines W¨ urfels, 195
Sachverzeichnis Z¨ ahldichte, 251, 295 Z¨ ahlmaß, 50 lokales, 50, 155 Zentraler Grenzwertsatz, 406 zentrales Moment, 290 zentrierte Zufallsvariable, 285 Zerlegung Hahn–, 60, 62, 162 Jordan–, 58, 62 Lebesgue–, 160 Ziehen mit Zur¨ ucklegen, 201, 221, 240 ohne Zur¨ ucklegen, 200, 221, 239 Zufallsexperiment, 195 Zufallsgr¨ oße, 194 Zufallsgr¨ oßen bedingt unabh¨ angige, 441 paarweise unabh¨ angige, 242 unabh¨ angige, 237 Zufallsmatrix, 320 Zufallsvariable, 194 reelle, 194 standardisierte, 291 typische, 347, 454 zentrierte, 285 Zufallsvektor, 194 zweites Gesetz der Großen Zahlen, 347, 454 zweites zentrales Moment, 290 Zylinder, 205 Zylindermenge, 206