Springer-Lehrbuch
Erhard Cramer · Udo Kamps
Grundlagen der Wahrscheinlichkeitsrechnung und Statistik Ein Skript für Studierende der Informatik, der Ingenieurund Wirtschaftswissenschaften
Zweite, überarbeitete Auflage
123
Professor Dr. Erhard Cramer Professor Dr. Udo Kamps RWTH Aachen Institut für Statistik und Wirtschaftsmathematik 52056 Aachen
[email protected] [email protected]
ISBN 978-3-540-77760-1
e-ISBN 978-3-540-77761-8
DOI 10.1007/978-3-540-77761-8 Springer-Lehrbuch ISSN 0937-7433 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © 2008, 2007 Springer-Verlag Berlin Heidelberg Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Herstellung: le-tex Jelonek, Schmidt & Vöckler GbR, Leipzig Einbandgestaltung: WMX Design GmbH, Heidelberg Gedruckt auf säurefreiem Papier 987654321 springer.de
Vorwort zur 1. Auflage
Grundkenntnisse der Statistik sind in unserer von Daten gepr¨agten Zeit von besonderer Bedeutung. In vielen Bereichen von Wirtschaft, Wissenschaft, Verwaltung, Gesellschaft und Politik werden Informationen aus Daten gewonnen, die empirischen Studien, Datenbasen, Erhebungen oder Experimenten entstammen. Informationen werden in quantitativer Weise verbreitet, Ergebnisse von Datenanalysen werden pr¨asentiert und illustriert. Zur Bewertung der statistischen Ergebnisse wie auch zum Verst¨andnis stochastischer Modelle ist ein Basiswissen der Wahrscheinlichkeitsrechnung erforderlich. In zahlreichen Studieng¨angen ist daher eine einf¨ uhrende Veranstaltung in die Denkweisen, Methoden und Verfahren der Statistik und Wahrscheinlichkeitsrechnung ein wichtiger Baustein der Ausbildung. Verfahren der Beschreibenden (oder Deskriptiven) Statistik dienen der Analyse und Beschreibung von Daten, dem Aufdecken von darin enthaltenen Strukturen und Informationen sowie der Darstellung von Daten derart, dass die wesentlichen Erkenntnisse deutlich werden. F¨ ur zufallsabh¨angige Vorg¨ange oder komplexe Situationen, in denen eine deterministische Beschreibung nicht m¨oglich ist, werden in den unterschiedlichsten Anwendungsbereichen stochastische Modelle ben¨otigt; die Wahrscheinlichkeitsrechnung liefert dazu, wie auch zur Schließenden Statistik, die theoretischen Grundlagen. In der Schließenden (oder Induktiven) Statistik wird das methodische Instrumentarium bereitgestellt, Schlussfolgerungen aufgrund von Daten zu begr¨ unden, interessierende Gr¨ oßen zu sch¨atzen, Hypothesen zu st¨ utzen beziehungsweise zu verwerfen sowie die resultierenden Aussagen zu bewerten. Das vorliegende Buch ist als begleitendes Skript zu einf¨ uhrenden Vorlesungen zur Wahrscheinlichkeitsrechnung und Statistik f¨ ur Studierende der Informatik und der Ingenieur- und Wirtschaftswissenschaften, jedoch nicht als ein eigenst¨andiges Lehrbuch zu den behandelten Gebieten Beschreibende Statistik, Wahrscheinlichkeitsrechnung und Grundlagen der stochastischen Modellierung sowie Schließende Statistik konzipiert. Eigenheiten des Textes sind in dessen Verwendung f¨ ur Studierende verschiedener Fachrichtungen mit unterschiedlichen mathematischen Voraussetzungen begr¨ undet. Die Zusammenstellung der Themen in diesem Skript
VI
Vorwort zur 1. Auflage
basiert auf inhaltlichen Abstimmungen mit den f¨ ur die verschiedenen BachelorStudieng¨ange zust¨andigen Fachbereichen an der RWTH Aachen und ist konsistent mit den Modulbeschreibungen der entsprechenden Veranstaltungen. Themen einzelner Abschnitte sind nicht f¨ ur alle Zielgruppen vorgesehen und werden daher in der jeweiligen Veranstaltung nicht behandelt. Ferner erfordert die Ausrichtung des Textes in der Darstellung gewisse Einschr¨ankungen in der mathematischen Exaktheit. Mit dem Ziel einer komprimierten Darstellung der wesentlichen Inhalte der Vorlesungen werden – bis auf das erste Kapitel zur Beschreibenden Statistik – nur knappe Erl¨auterungen gegeben; es sind nur wenige Beispiele enthalten, nur ausgew¨ahlte Aussagen werden nachgewiesen, und es werden keine Aufgaben angeboten. Zielgruppenorientierte Motivationen, Beispiele und Aufgaben sind Bestandteil der jeweiligen Veranstaltungen. F¨ ur eine vertiefte Besch¨aftigung mit den genannten Gebieten oder im Selbststudium sollten weitere B¨ ucher hinzu gezogen werden. Eine Auswahl ist im Literaturverzeichnis angegeben. Die Inhalte zur Beschreibenden Statistik sind dem ausf¨ uhrlichen Lehrbuch Burkschat, Cramer und Kamps (2004) auszugsweise entnommen. Dort k¨onnen diese zus¨atzlich anhand einer Vielzahl von detailliert ausgef¨ uhrten Beispielen nachvollzogen werden. Die Kapitel zur Wahrscheinlichkeitsrechnung, Modellierung und Schließenden Statistik basieren auf Vorlesungen der Autoren und auf der Formelsammlung Stati” stik griffbereit“. Einfl¨ usse aus den im Literaturverzeichnis genannten B¨ uchern und sonstigen Quellen sind nat¨ urlich vorhanden. Parallelen zu anderen einf¨ uhrenden Texten sind nicht beabsichtigt, oft jedoch unvermeidbar; wir bitten diese gegebenenfalls nachzusehen. An der Entstehung dieses Skripts haben auch andere mitgewirkt, denen wir f¨ ur ihre Unterst¨ utzung herzlich danken. Ein besonderer Dank gilt Frau Birgit Tegguer f¨ ur das sehr sorgf¨altige Schreiben und Korrigieren von Teilen des Manuskripts. Frau Lilith Braun danken wir f¨ ur die gute Zusammenarbeit mit dem Springer-Verlag. Liebe Leserin, lieber Leser, Ihre Meinung und Kritik, Ihre Anregungen zu Verbesserungen und Hinweise auf Unstimmigkeiten sind uns wichtig! Bitte teilen Sie unschen Ihnen ein uns diese unter
[email protected] mit. Wir w¨ erfolgreiches Arbeiten mit diesem Skript. Erhard Cramer, Udo Kamps Aachen, Januar 2007
Vorwort zur 2. Auflage In der zweiten Auflage haben wir lediglich einige Erg¨anzungen eingef¨ ugt und Korrekturen vorgenommen. Auswahl und Aufbau der Inhalte haben sich in Lehrveranstaltungen bew¨ahrt und wurden daher nicht ver¨andert. Wir danken allen, die uns Hinweise auf Unstimmigkeiten mitgeteilt haben. Erhard Cramer, Udo Kamps Aachen, Dezember 2007
Inhaltsverzeichnis
A
Beschreibende Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A 1 Einf¨ uhrung und Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A 1.1 Grundgesamtheit und Stichprobe . . . . . . . . . . . . . . . . . . . . . A 1.2 Merkmale und Merkmalsauspr¨agungen . . . . . . . . . . . . . . . . . A 1.3 Skalen und Merkmalstypen . . . . . . . . . . . . . . . . . . . . . . . . . . . A 1.4 Mehrdimensionale Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . A 2 Tabellarische und grafische Darstellungen . . . . . . . . . . . . . . . . . . . . . A 2.1 H¨aufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A 2.2 Empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . A 2.3 Diagrammtypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A 3 Lage- und Streuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A 3.1 Lagemaße f¨ ur nominale und ordinale Daten . . . . . . . . . . . . . A 3.2 Lagemaße f¨ ur metrische Daten . . . . . . . . . . . . . . . . . . . . . . . A 3.3 Streuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A 3.4 Lage- und Streuungsmaße bei linearer Transformation . . . . A 3.5 Box-Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A 4 Klassierte Daten und Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . A 4.1 Klassenbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A 4.2 Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A 5 Konzentrationsmessung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A 5.1 Lorenz-Kurve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A 5.2 Konzentrationsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A 6 Verh¨altnis- und Indexzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A 6.1 Gliederungs- und Beziehungszahlen . . . . . . . . . . . . . . . . . . . . A 6.2 Mess- und Indexzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 1 2 3 5 14 15 16 17 20 23 23 26 33 39 40 42 42 44 51 53 57 65 66 70
VIII
Inhaltsverzeichnis
A 6.3 Preis- und Mengenindizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 A 7 Zusammenhangsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 A 7.1 Nominale Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 A 7.2 Metrische Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 A 7.3 Ordinale Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 A 8 Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 A 8.1 Methode der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . . 119 A 8.2 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 A 8.3 Bewertung der Anpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 A 9 Zeitreihenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 A 9.1 Zeitreihenzerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 A 9.2 Zeitreihen ohne Saison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 A 9.3 Zeitreihen mit Saison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 B
Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 B 1 Grundlagen der Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . 154 B 2 Diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . 164 B 3 Wahrscheinlichkeitsmaße mit Riemann-Dichten . . . . . . . . . . . . . . . . 166 B 4 Eigenschaften von Wahrscheinlichkeitsmaßen . . . . . . . . . . . . . . . . . 172 B 5 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 B 6 Stochastische Unabh¨angigkeit von Ereignissen . . . . . . . . . . . . . . . . . 180
C
Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 C 1 Zufallsvariablen und Wahrscheinlichkeitsmaße . . . . . . . . . . . . . . . . . 185 C 2 Verteilungsfunktion und Quantilfunktion . . . . . . . . . . . . . . . . . . . . . 192 C 3 Mehrdimensionale Zufallsvariablen und Verteilungen . . . . . . . . . . . 196 C 4 Transformationen von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . 203 C 5 Erwartungswerte, Varianz, Kovarianz und Korrelation . . . . . . . . . . 206 C 6 Erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 C 7 Bedingte Verteilungen und bedingte Erwartungswerte . . . . . . . . . . 220 C 8 Grenzwerts¨atze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
D
Schließende Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 D 1 Problemstellungen der Schließenden Statistik . . . . . . . . . . . . . . . . . 231 D 2 Punktsch¨atzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 D 2.1 Parametersch¨atzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 D 2.2 Sch¨atzung der Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . 242
Inhaltsverzeichnis
IX
D 3 Maximum-Likelihood-Sch¨atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243 D 4 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 D 4.1 Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 D 4.2 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 D 5 Sch¨atzungen bei Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 D 5.1 Punktsch¨atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 D 5.2 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257 D 6 Statistische Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 D 6.1 Stichprobenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 D 6.2 Einf¨ uhrung in Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . 261 D 6.3 Tests bei Normalverteilungsannahme . . . . . . . . . . . . . . . . . . 268 D 6.4 Binomialtests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 D 6.5 Weitere Testverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 D 7 Lineares Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300 D 7.1 Punktsch¨atzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 D 7.2 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305 D 7.3 Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307 D 8 Elemente der Bayes-Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 E
Tabellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313 E 1 Ausgew¨ahlte Quantile der Standardnormalverteilung . . . . . . . . . . . 313 E 2 Quantile der t-Verteilung mit n Freiheitsgraden . . . . . . . . . . . . . . . 314 E 3 Quantile der χ2 -Verteilung mit n Freiheitsgraden . . . . . . . . . . . . . . 315
Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
A Beschreibende Statistik
Vorbemerkung Eine Darstellung der Beschreibenden Statistik erfordert Motivationen, Beispiele, Erl¨auterungen, Interpretationen, Nachweise und grafische Umsetzungen bzw. Illustrationen, f¨ ur die in diesem Manuskript nicht immer gen¨ ugend Raum ist. Eine ausf¨ uhrliche Darstellung findet sich im Lehrbuch zur Beschreibenden Statistik Burkschat et al. (2004); ein Paket interaktiver Grafiken und Visualisierungen zum Thema wird in Cramer et al. (2004) vorgestellt.
A 1 Einf¨ uhrung und Grundbegriffe Zu den Themen der angewandten Statistik geh¨ oren die Erhebung von Daten, deren Aufbereitung, Beschreibung und Analyse. Unter Nutzung der Werkzeuge der Beschreibenden (oder Deskriptiven) Statistik ist das Entdecken von Strukturen und Zusammenh¨angen in Datenmaterial ein wichtiger Aspekt der Statistik, die in diesem Verst¨andnis auch als explorative Datenanalyse bezeichnet wird. Um ein methodisches Instrumentarium zur Bearbeitung dieser Aufgaben entwickeln zu k¨onnen, ist es notwendig, von konkreten Einzelf¨allen zu abstrahieren und allgemeine Begriffe f¨ ur die Aspekte, die im Rahmen einer statistischen Untersuchung von Interesse sind, bereitzustellen. Zun¨achst ist zu spezifizieren, u uler¨ber welche Gruppe von Personen (z.B. Sch¨ Innen, Studierende oder Berufst¨atige) oder Untersuchungseinheiten (z.B. Ger¨ate oder Betriebe) welche Informationen gewonnen werden sollen. Besteht Klarheit u uhrt ¨ber diese grundlegenden Punkte, so ist festzulegen, wie die Studie durchgef¨ wird. H¨aufig werden nicht alle Elemente (statistische Einheiten) der spezifizierten Menge (Grundgesamtheit) betrachtet, sondern in der Regel wird lediglich eine Teilgruppe (Stichprobe) untersucht. An den Elementen dieser Stichprobe werden dann die f¨ ur die statistische Untersuchung relevanten Gr¨oßen (Merkmale) gemessen. Die resultierenden Messergebnisse (Daten) erm¨oglichen den Einsatz statistischer Methoden, um Antworten auf die zu untersuchenden Fragestellungen zu erhalten. Im Folgenden werden die genannten Begriffe n¨aher erl¨autert.
2
A Beschreibende Statistik
A 1.1 Grundgesamtheit und Stichprobe In jeder statistischen Untersuchung werden Daten u ¨ber eine bestimmte Menge einzelner Objekte ermittelt. Diese Menge von r¨aumlich und zeitlich eindeutig definierten Objekten, die hinsichtlich bestimmter – vom Ziel der Untersuchung abh¨angender – Kriterien u ¨bereinstimmen, wird als Grundgesamtheit bezeichnet. Eine andere, h¨aufig anzutreffende Bezeichnung ist Population. Beispiel A 1.1. Wird eine Untersuchung u ¨ber die Grundfinanzierung der Studierenden in einem bestimmten Sommersemester gew¨ unscht, so legt die Gesamtheit aller Studierenden, die in dem betreffenden Semester immatrikuliert sind, die Grundgesamtheit fest. Ehe die Untersuchung begonnen werden kann, sind nat¨ urlich noch eine Reihe von Detailfragen zu kl¨aren: welche Hochschulen werden in die Untersuchung einbezogen, welchen Status sollen die Studierenden haben (Einschr¨ankung auf spezielle Semester, Gasth¨ orerInnen, . . . ) etc. In der Praxis k¨ onnen Probleme bei der exakten Beschreibung einer f¨ ur das Untersuchungsziel relevanten Grundgesamtheit auftreten. Eine eindeutige Beschreibung und genaue Abgrenzung ist jedoch von besonderer Bedeutung, um korrekte statistische Aussagen ableiten und erhaltene Ergebnisse interpretieren zu k¨onnen. Beispiel A 1.2. In einer statistischen Untersuchung sollen Daten u ¨ber die Unternehmen eines Bundeslands erhoben werden. Hierzu muss gekl¨art werden, ob unterschiedliche Teile eines Unternehmens (wie z.B. Lager oder Produktionsst¨atten), die an verschiedenen Orten angesiedelt sind, jeweils als einzelne Betriebe gelten oder ob lediglich das gesamte Unternehmen betrachtet wird. Es ist klar, dass sich abh¨angig von der Vorgehensweise eventuell v¨ ollig unterschiedliche Daten ergeben. Die Elemente der Grundgesamtheit werden als statistische Einheiten bezeichnet. Statistische Einheiten sind also diejenigen Personen oder Objekte, deren Eigenschaften f¨ ur eine bestimmte Untersuchung von Interesse sind. Alternativ sind auch die Bezeichnungen Merkmalstr¨ager, Untersuchungseinheit oder Messobjekt gebr¨auchlich. Beispiel A 1.3. An einer Universit¨at wird eine Erhebung ¨uber die Ausgaben der Studierenden f¨ ur Miete, Kleidung und Freizeitgestaltung durchgef¨ uhrt. Die statistischen Einheiten in dieser Untersuchung sind die Studierenden der Universit¨at. Die genannten Ausgaben sind die f¨ ur die Analyse relevanten Eigenschaften. In einem Bundesland werden im Rahmen einer statistischen Untersuchung die Ums¨atze von Handwerksbetrieben analysiert. Die Handwerksbetriebe des Bundeslands sind in diesem Fall die statistischen Einheiten. Die in jedem Betriebs auszuwertende Gr¨ oße ist der Umsatz. Ziel jeder statistischen Untersuchung ist es, anhand von Daten Aussagen u ¨ber eine Grundgesamtheit zu treffen. Aus praktischen Erw¨agungen kann in der Regel
A 1 Einf¨ uhrung und Grundbegriffe
3
jedoch nicht jede statistische Einheit der Grundgesamtheit zur Ermittlung von Daten herangezogen werden. Ein solches Vorgehen w¨are h¨aufig zu zeit- und kostenintensiv. Im Extremfall ist es sogar m¨ oglich, dass durch den Messvorgang die zu untersuchenden Objekte unbrauchbar werden (z.B. bei Lebensdauertests von Ger¨aten oder der Zugfestigkeit eines Stahls). In diesem Fall ist es offenbar nicht sinnvoll, eine Messung an allen zur Verf¨ ugung stehenden Objekten durchzuf¨ uhren. Beispiel A 1.4. Bei einer Volksz¨ahlung werden Daten u ¨ber die gesamte Bev¨olkerung eines Landes durch Befragung jeder Einzelperson ermittelt. Da die Durchf¨ uhrung einer vollst¨andigen Volksz¨ahlung mit hohem zeitlichem und personellem Aufwand verbunden und daher sehr kostenintensiv ist, wird diese nur sehr selten realisiert. Um trotzdem eine Fortschreibung der gesellschaftlichen Ver¨anderungen zu erm¨ oglichen, werden regelm¨aßig Teilerhebungen vom Statistischen Bundesamt uhrt. Beim so genannten MikroDeutschland (siehe www.destatis.de) durchgef¨ zensus wird j¨ahrlich 1% der in Deutschland lebenden Bev¨olkerung hinsichtlich verschiedener Gr¨ oßen befragt (z.B. Erwerbsverhalten, Ausbildung, soziale und famili¨are Lage). Aus den genannten Gr¨ unden werden Daten oft nur f¨ ur eine Teilmenge der Objekte der Grundgesamtheit ermittelt. Eine solche Teilmenge wird als Stichprobe bezeichnet. Aufgrund des geringeren Umfangs ist die Erhebung einer Stichprobe im Allgemeinen kosteng¨ unstiger als eine vollst¨andige Untersuchung aller Objekte. Insbesondere ist die Auswertung des Datenmaterials mit geringerem Zeitaufwand verbunden. Um zu garantieren, dass die Verteilung der zu untersuchenden Eigenschaften (Merkmalsauspr¨agungen) der statistischen Einheiten in der Stichprobe mit deren Verteilung in der Grundgesamtheit ann¨ahernd u ¨bereinstimmt, werden die Elemente der Stichprobe h¨aufig durch zufallsgesteuerte Verfahren ausgew¨ahlt. Solche Verfahren stellen sicher, dass prinzipiell jeder Merkmalstr¨ager der Grundgesamtheit mit derselben Wahrscheinlichkeit in die Stichprobe aufgenommen werden kann (Zufallsstichprobe). Die Auswahl einer Stichprobe wird in diesem Buch nicht behandelt. Eine ausf¨ uhrliche Diskussion und Darstellung der Methodik ist z.B. in Hartung et al. (2005) und Pokropp (1996) zu finden. A 1.2 Merkmale und Merkmalsauspr¨ agungen Eine spezielle Eigenschaft statistischer Einheiten, die im Hinblick auf das Ziel einer konkreten statistischen Untersuchung von Interesse ist, wird als Merkmal bezeichnet. Hiermit erkl¨art sich auch der Begriff Merkmalstr¨ager, der alternativ als Bezeichnung f¨ ur statistische Einheiten verwendet wird. Um Merkmale abstrakt beschreiben und dabei unterscheiden zu k¨ onnen, werden sie h¨aufig mit lateinischen Großbuchstaben wie z.B. X oder Y bezeichnet. Zur Betonung der Tatsache, dass nur eine Eigenschaft gemessen wird, wird auch der Begriff univariates Merkmal verwendet. Durch die Kombination mehrerer einzelner Merkmale entstehen mehrdimensionale oder multivariate Merkmale.
4
A Beschreibende Statistik
Beispiel A 1.5. In einer Studie zur Agrarwirtschaft der Bundesrepublik Deutschland werden als statistische Einheiten alle inl¨andischen landwirtschaftlichen Betriebe gew¨ahlt. Merkmale, wie z.B. die landwirtschaftliche Nutzfl¨ache der einzelnen Betriebe, die Anzahl der Milchk¨ uhe pro Betrieb oder der Umsatz pro Jahr k¨onnten in der Untersuchung von Interesse sein. Ein Autohaus f¨ uhrt eine Untersuchung u ¨ber die im Unternehmen verkauften Fahrzeuge durch. F¨ ur eine Auswertung kommen Merkmale wie z.B. Typ, Farbe, Motorleistung oder Ausstattung der Fahrzeuge in Frage. Die m¨ oglichen Werte, die ein Merkmal annehmen kann, werden als Merkmalsauspr¨agungen bezeichnet. Insbesondere ist jeder an einer statistischen Einheit beobachtete Wert eine Merkmalsauspr¨agung. Die Menge aller m¨oglichen Merkmalsauspr¨agungen heißt Wertebereich des Merkmals. Beispiel A 1.6. In einem Versandunternehmen werden die Absatzzahlen einer in den Farben Blau und Gr¨ un angebotenen Tischlampe ausgewertet. Um zu ermitteln, ob die Kunden einer Farbe den Vorzug gegeben haben, werden die Verkaufszahlen je Farbe untersucht. In diesem Fall w¨are die Grundgesamtheit die Menge der verkauften Lampen. Das interessierende Merkmal ist Farbe einer verkauften Lampe mit den Auspr¨agungen Blau und Gr¨ un. Ein Unternehmen f¨ uhrt eine Studie u ¨ber die interne Altersstruktur durch; das interessierende Merkmal der Mitarbeiter ist also deren Alter. Wird das Alter in Jahren gemessen, so sind die m¨ oglichen Merkmalsauspr¨agungen nat¨ urliche Zahlen ur einen konkreten Mitarbeiter hat das Merkmal Alter dabei z.B. 1, 2, 3, . . . F¨ die Auspr¨agung 36 [Jahre]. In einem physikalischen Experiment wird die Farbe eines Objekts anhand der Wellenl¨ange des reflektierten Lichts bestimmt. Das zu untersuchende Merkmal Farbe des Objekts wird in Mikrometer gemessen. Der Wertebereich sind alle reellen Zahlen zwischen 0,40 und 0,75 [Mikrometer]. Dies ist ungef¨ahr der Wellenbereich, in dem Licht sichtbar ist. F¨ ur einen vorliegenden Gegenstand k¨onnte sich z.B. eine Merkmalsauspr¨agung von 0,475 [Mikrometer] ergeben (dies entspricht einem blauen Farbton). Wird anhand eines Merkmals eine Grundgesamtheit in nicht-¨ uberlappende Teile gegliedert, so heißen die entstehenden Gruppen statistischer Einheiten auch Teilgesamtheiten oder Teilpopulationen. Beispiel A 1.7. In einer Erhebung u ¨ber das Freizeitverhalten sind geschlechtsspezifische Unterschiede von Interesse. Das Merkmal Geschlecht teilt die Grundgesamtheit in zwei Teilgesamtheiten (Frauen, M¨anner). Eine Merkmalsauspr¨agung, die konkret an einer statistischen Einheit gemessen wurde, wird Datum (Messwert, Beobachtungswert) genannt.
A 1 Einf¨ uhrung und Grundbegriffe
5
Beispiel A 1.8. In einer Stadt wird eine Umfrage u ¨ber Haustierhaltung durchgef¨ uhrt. F¨ ur das Merkmal Anzahl der Haustiere pro Haushalt werden im Fragebogen die vier m¨ oglichen Merkmalsauspr¨agungen kein Haustier, ein Haustier, zwei Haustiere und mehr als zwei Haustiere vorgegeben. Antwortet eine Person auf diese Frage (z.B. mit ein Haustier), so entsteht ein Datum. Die Liste aller Daten, die bei einer Untersuchung an den statistischen Einheiten gemessen bzw. ermittelt wurden (also die Liste der beobachteten Merkmalsauspr¨agungen), wird als Urliste oder Datensatz bezeichnet. Beispiel A 1.9. In einem Oberstufenkurs nehmen 14 Sch¨ ulerInnen an einer Klausur teil. Das Merkmal Klausurnote kann die Auspr¨agungen 0, 1,. . . , 15 [Punkte] annehmen. Die Auswertung der Klausur ergibt folgende Noten (in Punkten): 12 11 4 8 10 10 13 8 7 10 9 6 13 9 Diese Werte stellen die zum Merkmal Klausurnote geh¨orige Urliste dar. A 1.3 Skalen und Merkmalstypen Die Daten der Urliste bilden die Grundlage f¨ ur statistische Untersuchungen. Das Methodenspektrum, das hierzu verwendet werden kann, h¨angt allerdings entscheidend davon ab, wie ein Merkmal erfasst werden kann bzw. wird. Die Messung einer konkreten Auspr¨agung eines Merkmals beruht auf einer Skala, die die m¨oglichen Merkmalsauspr¨agungen (z.B. Messergebnisse) vorgibt. Eine Skala repr¨asentiert eine Vorschrift, die jeder statistischen Einheit der Stichprobe einen Beobachtungswert zuordnet. Dieser Wert gibt die Auspr¨agung des jeweils interessierenden Merkmals an. Beispiel A 1.10 (Temperaturskala). Zur Messung der Temperatur k¨onnen unterschiedliche Skalen verwendet werden. Die in Europa verbreitetste Temperaturskala ist die Celsiusskala, die jeder Temperatur einen Zahlenwert mit der Einheit Grad Celsius (◦ C) zuordnet. Insbesondere wird dabei ein Nullpunkt, d.h. eine Temperatur 0◦ C, definiert. In den USA wird eine andere Skala, die so genannte Fahrenheitskala, verwendet, d.h. die Temperatur wird in Grad Fahrenheit (◦ F) gemessen. Fahrenheitskala und Celsiusskala sind nicht identisch. So entspricht z.B. der durch die Fahrenheitskala definierte Nullpunkt −17,78◦ C. Eine dritte Skala, die vornehmlich in der Physik zur Temperaturmessung verwendet wird, ist die Kelvinskala mit der Einheit Kelvin (K). Der Nullpunkt der Kelvinskala entspricht der Temperatur −273◦ C in der Celsiusskala und der Temperatur −459,4◦ F in der Fahrenheitskala (s. Abbildung A 1.1). Da diese unterschiedlichen Skalen durch einfache Transformationen ineinander u uhrt werden k¨onnen, macht es letzt¨berf¨ lich keinen Unterschied, welche Skala zur Messung der Temperatur verwendet wird.
6
A Beschreibende Statistik
−20
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
Celsiusskala (◦ C)
0◦ C
0
0
20
260
20
60
80
60
80
100
120
140
160
180
Kelvinskala (K)
273K 280
300
320
340
100◦ C
100
Fahrenheitskala ( F)
32 F 40
40 ◦
◦
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..
360
200
212◦ F 220 373K
Abb. A 1.1. Temperaturskalen.
Um univariate Merkmale hinsichtlich der Eigenschaften ihrer Auspr¨agungen voneinander abzugrenzen, werden so genannte Merkmalstypen eingef¨ uhrt. Diese Einteilung in Merkmalstypen basiert wesentlich auf den Eigenschaften der Skala, die zur Messung des Merkmals verwendet wird. Obwohl eine Skala im strengen Sinne numerische Werte liefert, ist es ¨ ublich auch Skalen zu verwenden, deren Werte Begriffe sind (z.B. wenn nur die Antworten gut, mittel oder schlecht auf eine Frage zul¨assig sind oder das Geschlecht einer Person angegeben werden soll). In Abbildung A 1.2 sind die Zusammenh¨ange zwischen ausgew¨ahlten Merkmalstypen veranschaulicht. Diese Einteilung ist nicht vollst¨andig und kann unter verschiedenen Aspekten weiter differenziert werden. Im Rahmen dieser Ausf¨ uhrungen wird auf eine detaillierte Darstellung jedoch verzichtet. Merkmalstyp
qualitativ
nominal
ordinal
quantitativ/metrisch
diskret
stetig
Abb. A 1.2. Merkmalstypen.
Ein Merkmal wird als qualitativ bezeichnet, wenn die zugeh¨origen Merkmalsauspr¨agungen nur eine Zugeh¨ origkeit oder eine Beurteilung wiedergeben. Das Merkmal dient in diesem Fall zur Unterscheidung verschiedener Arten von Eigenschaften. Die Zugeh¨ origkeiten werden dabei h¨aufig entweder durch Namen oder durch die Zuordnung von Ziffern beschrieben.
A 1 Einf¨ uhrung und Grundbegriffe
7
Beispiel A 1.11. In der Schule werden sechs Noten zur Bewertung verwendet: sehr gut, gut, befriedigend, ausreichend, mangelhaft, ungen¨ ugend. Schulnoten sind damit qualitative Merkmale. Meist werden statt der konkreten Bezeichnungen f¨ ur die Schulnoten jedoch nur die Zahlen zwischen Eins und Sechs angegeben. Aber selbst wenn den Noten die Zahlen 1–6 zugeordnet werden, bleibt das Merkmal Note qualitativer Natur, die Zahlen dienen lediglich der kurzen Notation. Wesentlich zur Unterscheidung zum quantitativen Merkmal ist, dass die Notendifferenzen keine Bedeutung im Sinne eines Messwerts haben (Ist der Abstand zwischen den Noten 1 und 2 genauso groß wie der zwischen den Noten 5 und 6?). Qualitative Merkmale, deren Auspr¨agungen lediglich durch Begriffe (Namen) beschrieben werden, heißen nominalskaliert oder auch nominale Merkmale. Auf einer Skala werden die Auspr¨agungen dabei im Allgemeinen mit Zahlen kodiert. Die Auspr¨agungen eines nominalen Merkmals k¨onnen lediglich hinsichtlich ihrer Gleichheit (Ungleichheit) verglichen werden. Eine Reihung (Ordnung) der Auspr¨agungen ist, auch wenn diese in Form von Zahlen angegeben werden, nicht m¨ oglich oder nicht sinnvoll. Ergebnisse von Rechnungen mit diesen Zahlenwerten sind i.a. nicht interpretierbar. Kann ein nominales Merkmal nur zwei m¨ogliche Auspr¨agungen (z.B. ja/nein, intakt/defekt, 0/1) annehmen, so wird speziell von einem dichotomen Merkmal gesprochen. Beispiel A 1.12. Das Merkmal Familienstand einer Person ist nominalskaliert. Die m¨ oglichen Merkmalsauspr¨agungen ledig, verheiratet, verwitwet und geschieden sind nur hinsichtlich ihrer Gleichheit/Verschiedenheit vergleichbar. Auch die Vergabe der Ziffern 1 bis 4 an die verschiedenen Merkmalsauspr¨agungen, wie z.B. in der Datenerfassung mit Frageb¨ ogen u urde daran nichts ¨andern. ¨blich, w¨ Weitere personenbezogene nominale Merkmale sind z.B. Geschlecht, Haarfarbe, Augenfarbe oder Religionszugeh¨ origkeit. In einem Großunternehmen wird bei einer Bewerbung die Teilnahme an einem schriftlichen Einstellungstest vorausgesetzt. Das darin erzielte Ergebnis entscheidet ¨ uber die Einladung zu einem pers¨ onlichen Gespr¨ach. Abh¨angig vom Grad der erfolgreichen Bearbeitung der gestellten Aufgaben gilt der Test als bestanden oder nicht bestanden. Das Ergebnis des Einstellungstests ist daher ein dichotomes Merkmal. Qualitative Merkmale, deren Auspr¨agungen einer Rangfolge gen¨ ugen, heißen ordinalskaliert oder ordinale Merkmale. Die Auspr¨agungen eines ordinalskalierten Merkmals sind hinsichtlich ihrer Gr¨ oße vergleichbar, d.h. es kann jeweils unterschieden werden, ob eine Auspr¨agung kleiner, gleich oder gr¨oßer (bzw. schlechter, gleich oder besser) einer anderen ist. Auf einer Skala werden (wie bei nominalen Merkmalen) meist ganze Zahlen zur Kodierung verwendet. Da den Abst¨anden zwischen unterschiedlichen Auspr¨agungen eines ordinalen Merkmals allerdings in der Regel keine Bedeutung zukommt, sind Rechnungen mit diesen Zahlen ebenfalls i.Allg. nicht sinnvoll.
8
A Beschreibende Statistik
Beispiel A 1.13. Eine Schulnote ist ein Merkmal mit den Auspr¨agungen: sehr gut, gut, befriedigend, ausreichend, mangelhaft, ungen¨ ugend. Schulnoten stellen ordinale Merkmale dar. Den Auspr¨agungen werden in Deutschland meist die Zahlenwerte 1 bis 6 zugeordnet. Ebenso k¨ onnten stattdessen aber auch die Zahlen 1, 11, 12, 13, 14, 24 verwendet werden, um zu verdeutlichen, dass die beste und die schlechteste Note eine besondere Rolle spielen. Damit wird klar, dass sich der Abstand zwischen einzelnen Noten nicht sinnvoll interpretieren l¨asst. Im amerikanischen Bewertungsschema wird dies dadurch deutlich, dass die G¨ ute einer Note durch die Stellung des zugeh¨ origen Buchstabens (A, B, C, D, E, F) im Alphabet wiedergegeben wird. Dies unterstreicht insbesondere, dass Abst¨ande zwischen Noten in der Regel nicht quantifizierbar sind. Beispiel A 1.14. Die Berechnung von Durchschnittsnoten ist eine u ¨bliche Vorgehensweise, wobei die Rechenoperation zur Bildung eines solchen Notenmittelwerts ein Ergebnis haben kann, das als Note selbst nicht vorkommt (z.B. 2,5). Da den Abst¨anden zwischen Noten keine Bedeutung zugeordnet werden kann, ist ein solches Ergebnis nicht ohne Weiteres interpretierbar. Trotzdem kommt diesem Vorgehen sehr wohl eine sinnvolle Bedeutung zu. Die Durchschnittsnote kann zum Vergleich der Gesamtleistungen herangezogen werden. Dieser Vergleich ist aber nat¨ urlich nur dann zul¨assig, wenn davon ausgegangen werden kann, dass die Einzelnoten unter vergleichbaren ¨außeren Umst¨anden (Bewertung von Leistungen in einer Klausur, Klasse, etc.) vergeben wurden – und die Abst¨ande zwischen aufeinander folgenden Noten als gleich angesehen werden. Ein Merkmal wird als quantitativ bezeichnet, wenn die m¨oglichen Merkmalsauspr¨agungen sich durch Zahlen erfassen lassen und die Abst¨ande (Differenzen) zwischen diesen Zahlen sinnvoll interpretierbar sind. Aus diesem Grund werden quantitative Merkmale auch metrisch (metrischskaliert) genannt. Beispiel A 1.15. In einer Firma zur Herstellung von Bekleidungsartikeln wird der Umsatz analysiert. Dabei werden u.a. auch die Anzahl der verkauften Pullover und der Wert aller verkauften Hemden ermittelt. Beide Merkmale sind metrisch, da Differenzen dieser Auspr¨agungen (in diesem Fall z.B. beim Vergleich der Verkaufszahlen mit denjenigen aus dem Vorjahr) interpretierbare Ergebnisse liefern (z.B. Umsatzzugewinn oder -r¨ uckgang). In einer Stadt wird einmal pro Tag an einer Messeinrichtung die Temperatur gemessen. Dieses Merkmal ist metrisch, denn Differenzen von Temperaturen lassen sich als Temperaturunterschiede sinnvoll interpretieren. Quantitative Merkmale k¨ onnen auf zweierlei Weise unterschieden werden. Eine Einteilung auf der Basis von Eigenschaften der Merkmalsauspr¨agungen f¨ uhrt zu intervallskalierten, verh¨altnisskalierten und absolutskalierten Merkmalen. Ein Vergleich der Anzahl von m¨ oglichen Merkmalsauspr¨agungen liefert eine Trennung in diskrete und stetige Merkmale.
A 1 Einf¨ uhrung und Grundbegriffe
9
Ein intervallskaliertes Merkmal muss lediglich die definierenden Eigenschaften eines quantitativen Merkmals erf¨ ullen. Insbesondere m¨ ussen die Abst¨ande der Auspr¨agungen eines intervallskalierten Merkmals sinnvoll interpretierbar sein. Definitionsgem¨aß ist daher jedes quantitative Merkmal intervallskaliert. Der Begriff dient lediglich zur Abgrenzung gegen¨ uber Merkmalen, deren Auspr¨agungen zus¨atzlich weitere Eigenschaften aufweisen. Es ist wichtig zu betonen, dass die Skalen, die zur Messung eines intervallskalierten Merkmals verwendet werden, keinen nat¨ urlichen Nullpunkt besitzen m¨ ussen. Beispiel A 1.16. Im Beispiel A 1.10 (Temperaturskala) wird deutlich, dass die verschiedenen Skalen unterschiedliche Nullpunkte besitzen. Die zugeh¨origen Werte sind in der folgenden Tabelle aufgef¨ uhrt (s. Abbildung A 1.1). Nullpunkt 0◦ C 0◦ F 0K
◦
C
◦
F
K
0 32 273 −17,78 0 255,22 −273 −459,4 0
Beispiel A 1.17 (Kalender). Mittels eines Kalenders kann die Zeit in Tage, Wochen, Monate und Jahre eingeteilt werden. Die Abst¨ande zwischen je zwei Zeitpunkten k¨ onnen damit sinnvoll als Zeitr¨aume interpretiert werden. Die Zeit ist also ein intervallskaliertes Merkmal. Der Beginn der Zeitrechnung, d.h. der Nullpunkt der Skala, kann jedoch unterschiedlich gew¨ahlt werden. So entspricht z.B. der Beginn der Jahresz¨ahlung im j¨ udischen Kalender dem Jahr 3761 v.Chr. unserer Zeitrechnung (dem gregorianischen Kalender). Ein quantitatives Merkmal heißt verh¨altnisskaliert, wenn die zur Messung verwendeten Skalen einen gemeinsamen nat¨ urlichen Nullpunkt aufweisen. Verh¨altnissen (Quotienten) von Merkmalsauspr¨agungen eines verh¨altnisskalierten Merkmals kann eine sinnvolle Bedeutung zugeordnet werden. Der nat¨ urliche Nullpunkt garantiert n¨amlich, dass Verh¨altnisse von einander entsprechenden Auspr¨agungen, die auf unterschiedlichen (linearen) Skalen (d.h. in anderen Maßeinheiten) gemessen wurden, immer gleich sind. Verh¨altnisskalierte Merkmale sind ein Spezialfall von intervallskalierten Merkmalen. Beispiel A 1.18. F¨ ur einen Bericht in einer Motorsportzeitschrift werden die H¨ochstgeschwindigkeiten von Sportwagen ermittelt. Das Merkmal H¨ ochstgeschwindigkeit eines Fahrzeugs ist verh¨altnisskaliert. Unabh¨angig davon, ob die m km 1 m Geschwindigkeit z.B. in km h oder s gemessen wird (1 h = 3,6 s ), bleibt der Nullpunkt der Skalen immer gleich. Er entspricht dem Zustand keine Bewegung“. ” F¨ ur eine Umsatzanalyse in einem Unternehmen wird j¨ahrlich der Gesamtwert aller verkauften Produkte bestimmt. Dieses Merkmal ist verh¨altnisskaliert, denn bei der Messung des Gesamtwerts gibt es nur einen sinnvollen Nullpunkt. Verh¨altnisse
10
A Beschreibende Statistik
von Auspr¨agungen aus unterschiedlichen Jahren k¨onnen als Maßzahlen (Wachstumsfaktoren) f¨ ur die prozentuale Zu- bzw. Abnahme des Umsatzes interpretiert werden. Im Folgenden wird das Beispiel A 1.10 (Temperaturskala) (siehe auch Beispiel A 1.17 (Kalender)) als wichtiges Beispiel f¨ ur ein intervallskaliertes, aber nicht verh¨altnisskaliertes Merkmal n¨aher untersucht. Beispiel A 1.19. Das Merkmal Temperatur ist intervallskaliert, da sich der Abstand zweier gemessener Temperaturen als Temperatur¨anderung interpretieren l¨asst. Allerdings kann das Verh¨altnis zweier Temperaturen nicht sinnvoll gebildet werden. Wird eine Temperatur auf zwei unterschiedlichen Skalen gemessen, wie z.B. der Celsiusskala und der Kelvinskala, so sind Verh¨altnisse von einander entsprechenden Temperaturen nicht gleich. Beispielsweise gilt 5◦ C= 278K,
20◦ C=293 K.
Die zugeh¨ origen Verh¨altnisse der Temperaturen in ◦ C bzw. K sind ungleich: 4=
20◦ C 293K = ≈ 1,054. 5◦ C 278K
Eine Aussage wie es ist viermal so heiß“ kann also ohne Angabe einer konkreten ” Skala nicht interpretiert werden. Der Grund hierf¨ ur ist das Fehlen eines durch das Merkmal eindeutig festgelegten Nullpunkts der Skalen. So entspricht z.B. der Nullpunkt 0◦ C der Celsiusskala nicht dem Nullpunkt 0 K der Kelvinskala, sondern es gilt 0◦ C = 273 K. Das Merkmal Temperatur ist also nicht verh¨ altnisskaliert. Es sei aber darauf hingewiesen, dass das Merkmal Temperaturunterschied als verh¨altnisskaliert betrachtet werden kann, da der Nullpunkt (unabh¨angig von der Skala) eindeutig festgelegt ist. Ein quantitatives Merkmal heißt absolutskaliert, wenn nur eine einzige sinnvolle Skala zu dessen Messung verwendet werden kann. Das ist gleichbedeutend mit der Tatsache, dass nur eine nat¨ urliche Einheit f¨ ur das Merkmal in Frage kommt. Absolutskalierte Merkmale sind ein Spezialfall verh¨altnisskalierter Merkmale. Beispiel A 1.20. In einer Großk¨ uche wird in regelm¨aßigen Abst¨anden die Anzahl aller vorhandenen Teller festgehalten. Hierbei handelt es sich um ein absolutskaliertes Merkmal. Zur Messung von Anzahlen existiert nur eine sinnvolle Skala und nur eine nat¨ urliche Maßeinheit. Ein quantitatives Merkmal heißt diskret, wenn die Menge aller Auspr¨agungen, die das Merkmal annehmen kann, abz¨ahlbar ist, d.h. die Auspr¨agungen k¨onnen mit den Zahlen 1, 2, 3,. . . nummeriert werden. Dabei wird zwischen endlich und unendlich vielen Auspr¨agungen unterschieden.
A 1 Einf¨ uhrung und Grundbegriffe
11
Beispiel A 1.21. Beim Werfen eines herk¨ ommlichen sechsseitigen W¨ urfels k¨onnen nur die Zahlen 1, 2,. . . , 6 auftreten. Das Merkmal Augenzahl beim W¨ urfelwurf ist daher ein Beispiel f¨ ur ein diskretes Merkmal mit endlich vielen Auspr¨agungen. In einem statistischen Experiment wird bei mehreren Versuchspersonen die Anzahl der Eingaben auf einer Tastatur bis zur Bet¨atigung einer bestimmten Taste ermittelt. Da theoretisch beliebig viele andere Tasten gedr¨ uckt werden k¨onnen, bis das Experiment schließlich endet, ist die Anzahl der gedr¨ uckten Tasten nicht nach oben beschr¨ankt. Das Merkmal Anzahl der gedr¨ uckten Tasten ist somit diskret, die Menge der Auspr¨agungen dieses Merkmals wird als unendlich angenommen. Ein quantitatives Merkmal wird als stetig oder kontinuierlich bezeichnet, wenn prinzipiell jeder Wert aus einem Intervall angenommen werden kann. H¨aufig werden auch Merkmale, deren Auspr¨agungen sich eigentlich aus Gr¨ unden der Messgenauigkeit (z.B. die Zeit in einem 100m-Lauf) oder wegen der Einheit, in der sie gemessen werden (z.B. Preise), nur diskret messen lassen, aufgrund der feinen Abstufungen zwischen den m¨ oglichen Auspr¨agungen als stetig angesehen. F¨ ur diese Situation wird manchmal auch der Begriff quasi-stetig verwendet. Beispiel A 1.22. In einer Schulklasse werden die Gr¨oßen aller Sch¨ ulerInnen gemessen (in m). Dieses Merkmal ist stetig, obwohl in der Praxis im Allgemeinen nur auf zwei Nachkommastellen genau gemessen wird. Im Prinzip k¨onnte jedoch bei beliebig hoher Messgenauigkeit jeder Wert in einem Intervall angenommen werden. Die ungenaue Messung“ entspricht daher einer Rundung des Messwerts ” auf zwei Nachkommastellen. Im Rahmen der Qualit¨atskontrolle wird der Durchmesser von Werkst¨ ucken gepr¨ uft. Betr¨agt der Solldurchmesser 10cm und ist die maximal m¨ogliche Abweichung 0,05cm, so kann das Merkmal Durchmesser prinzipiell jede beliebige Zahl zwischen 9,95cm und 10,05cm annehmen und ist somit stetig. Es ist wichtig zu betonen, dass der Merkmalstyp eines Merkmals definitionsgem¨aß entscheidend von dessen Auspr¨agungen und damit von der Skala, mit der das Merkmal gemessen wird, abh¨angt. Daher kann das gleiche Merkmal in unterschiedlichen Situationen einen anderen Merkmalstyp besitzen. Beispiel A 1.23. In Abh¨angigkeit von der weiteren Verwendung der Daten kann das Merkmal K¨ orpergr¨ oße auf unterschiedliche Weise gemessen“ werden. ” (i) Ist lediglich von Interesse, ob eine Eigenschaft der K¨orpergr¨oße erf¨ ullt ist (z.B. Gr¨ oße zwischen 170cm und 190cm), so sind die Auspr¨agungen zutreffend bzw. nicht zutreffend m¨ oglich. In diesem Fall ist das Merkmal K¨ orpergr¨ oße nominalskaliert. (ii) Sofern nur eine grobe Unterteilung ausreichend ist, k¨onnen die Personen in die drei Klassen klein, mittel und groß eingeteilt werden, die beispielsweise jeweils den Gr¨ oßen von kleiner oder gleich 150cm, gr¨oßer als 150cm und
12
A Beschreibende Statistik
kleiner oder gleich 175cm und gr¨ oßer als 175cm entsprechen. Das Merkmal K¨ orpergr¨ oße hat in diesem Fall die drei Auspr¨agungen klein, mittel und groß und ist damit ordinalskaliert. (iii) Wird angenommen, dass alle Personen eine K¨orpergr¨oße zwischen 140cm und 210cm haben, so w¨ urde eine feinere Unterteilung der Einstufungen – z.B. die Einf¨ uhrung von Intervallen der Form [140, 150], (150, 160], . . . , (200, 210] (Wer¨ te in cm) – bereits einen genaueren Uberblick u ¨ber die Verteilung der Daten liefern. Bei dieser Art der Messung werden dem Merkmal K¨ orpergr¨ oße die Auspr¨agungen [140, 150], (150, 160], . . . , (200, 210] zugeordnet, die angeben, in welchen Bereich die Gr¨ oße der betreffenden Person f¨allt. Dieses Merkmal ist ordinalskaliert. (iv) Ist die Gr¨ oße jeder Person auf zwei Nachkommastellen genau bestimmt worden, so kann das Merkmal K¨ orpergr¨ oße als metrisches, stetiges Merkmal angesehen werden. Jede ermittelte K¨ orpergr¨oße ist somit eine Auspr¨agung. Im Punkt (iii) des obigen Beispiels wird f¨ ur das Merkmal K¨ orpergr¨ oße eine Einstufung der Auspr¨agungen in (sich anschließende) Intervalle vorgenommen. F¨ ur diesen als Klassierung bezeichneten Vorgang sind verschiedene Aspekte von Bedeutung. Abh¨angig vom speziellen Untersuchungsziel kann es v¨ollig ausreichend sein, die Auspr¨agungen des Merkmals K¨ orpergr¨ oße, das prinzipiell als metrisch angesehen werden kann, nur (grob) in Intervalle einzuteilen. Ist dies der Fall, so ist es nat¨ urlich auch nicht erforderlich, die Originaldaten in metrischer Form zu erheben. Es gen¨ ugt, jeder Person als statistischer Einheit das entsprechende Intervall zuzuordnen. Die Auspr¨agungen des Merkmals K¨ orpergr¨ oße sind in dieser speziellen Situation daher Intervalle. Es wird also bewusst darauf verzichtet, die Mehrinformation“ von Originaldaten in Form exakter metrischer Messwerte zu ” nutzen. Die Klassierung eines metrischen Merkmals kann auch aus anderen Gr¨ unden angebracht sein. Zu Auswertungszwecken kann sie (nachtr¨aglich) sinnvoll sein, um mittels eines Histogramms einen ersten grafischen Eindruck vom Datenmaterial zu erhalten. Ein v¨ ollig anderer Aspekt wird relevant, wenn ein eigentlich metrisches Merkmal nicht in metrischer Form, sondern nur in Form von Intervallen, so genannten Klassen, erhoben werden kann. In Umfragen wird beispielsweise die Frage nach dem Einkommen oder den monatlichen Mietzahlungen mit Antwortalternativen als Klassen gestellt. Einerseits wird dadurch gew¨ahrleistet, dass die Frage von m¨ oglichst vielen Personen beantwortet wird, andererseits wird die Beantwortung der Frage vereinfacht. Beispiel A 1.24. Bei der Er¨ offnung eines Online-Depots sind die Banken verpflichtet, die Verm¨ ogenssituation der AntragstellerInnen festzustellen. Dies wird z.B. durch Angaben zum Jahresnettoeinkommen, zum Nettoverm¨ogen sowie zum frei verf¨ ugbaren Nettoverm¨ ogen der KundInnen umgesetzt und erfolgt in der Regel nach einem Schema der in Abbildung A 1.3 dargestellten Art. ur statistische Anwendungen ist es h¨aufig ausreichend, nur zwischen den MerkF¨ malstypen nominal, ordinal und metrisch zu unterscheiden, in denen sich die f¨ ur
A 1 Einf¨ uhrung und Grundbegriffe
13
..................................................................................................................................................................................................................................................................................................................................................................................................... ... ... ... ... ... .... ... ... ... ... 0-4 999e 5 000-9 999e 10 000-24 999e 25 000-49 999e ¨ uber 50 000e ... ... .. ... ... ... ... .... ... ... ... ... uber 100 000e 0-9 999e 10 000-24 999e 25 000-49 999e 50 000-99 999e ¨ ... ... ... ... ... ... ... ... ... ... uber 100 000e 0-9 999e 10 000-24 999e 25 000-49 999e 50 000-99 999e ¨ .. ... .....................................................................................................................................................................................................................................................................................................................................................................................................
Wie hoch ist Ihr durchschnittliches Jahresnettoeinkommen? Wie hoch ist Ihr Nettoverm¨ ogen?
Wie hoch ist Ihr frei verf¨ ugbares Nettoverm¨ ogen?
Abb. A 1.3. Fragebogen mit klassierten Daten.
statistische Analysen wesentlichen Unterschiede widerspiegeln. Diese Merkmalstypen bilden eine Hierarchie: Die Auspr¨agungen eines metrischen Merkmals haben alle Eigenschaften eines ordinalskalierten Merkmals, diejenigen eines ordinalen Merkmals erf¨ ullen die Eigenschaften eines nominalen Merkmals. In dieser Hierarchie werden unterschiedliche Anforderungen an die Daten gestellt, so dass auch von unterschiedlich hohen Messniveaus, auf denen die Auspr¨agungen gemessen werden, gesprochen wird. Metrische Daten haben z.B. ein h¨oheres Messniveau als ordinale Daten. Die Eigenschaften der Auspr¨agungen sind entscheidend bei der Anwendung statistischer Methoden zur Analyse der Daten. Je h¨oher das Messniveau ist, umso komplexere statistische Verfahren k¨onnen eingesetzt werden. Allerdings kann jede statistische Auswertungsmethode, die auf einem bestimmten Messniveau m¨ oglich ist, auch f¨ ur Daten eines h¨ oheren Niveaus verwendet werden (dies muss allerdings nicht unbedingt sinnvoll sein). Ist z.B. ein Verfahren f¨ ur ordinalskalierte Merkmale konstruiert worden, so kann es auch auf metrische Daten angewendet werden (da diese auch als ordinalskaliert aufgefasst werden k¨onnen). Im Einzelfall ist jedoch zu pr¨ ufen, ob die Anwendung sinnvoll ist. H¨aufig existieren n¨amlich f¨ ur Daten auf einem h¨ oheren Messniveau effektivere Methoden, die die Informationen in den Merkmalsauspr¨agungen besser nutzen. F¨ ur Daten auf nominalem Niveau k¨ onnen nur die H¨aufigkeiten einzelner Auspr¨agungen f¨ ur die Bestimmung der Lage der Daten und zur Beschreibung von Zusammenh¨angen in den Daten herangezogen werden. Da bei einem ordinalskalierten Merkmal eine Ordnung auf den Auspr¨agungen vorliegt, kann bereits der Begriff eines mittleren Werts (s. Median) eingef¨ uhrt werden. Außerdem k¨onnen monotone Zusammenh¨ange (s. Rangkorrelationskoeffizient) zwischen Merkmalen analysiert werden (z.B. ob die Merkmalsauspr¨agungen eines Merkmals tendenziell wachsen, wenn die Auspr¨agungen eines verbundenen Merkmals wachsen; z.B Schulnoten in unterschiedlichen, aber verwandten F¨achern wie Mathematik und Physik). F¨ ur Daten auf metrischem Niveau k¨ onnen zus¨atzlich Abst¨ande zwischen einzelnen Auspr¨agungen interpretiert werden. Streuungsbegriffe (z.B. absolute Ab¨ u weichung, empirische Varianz), die einen Uberblick ¨ber die Variabilit¨at in den Daten liefern, k¨ onnen daher f¨ ur metrische Daten eingef¨ uhrt werden und erg¨anzen Lagemaße wie Median und arithmetisches Mittel. F¨ ur Daten auf diesem Messniveau ist schließlich auch die Bestimmung funktionaler Zusammenh¨ange zwischen verschiedenen Merkmalen sinnvoll (s. lineare Regression in Abschnitt A 8).
14
A Beschreibende Statistik
A 1.4 Mehrdimensionale Merkmale Merkmale, deren Auspr¨agungen aus Merkmalsauspr¨agungen mehrerer einzelner Merkmale bestehen, werden als mehrdimensional oder multivariat bezeichnet. Hierbei gibt es keine Einschr¨ankungen an die Merkmalstypen der Einzelmerkmale, aus denen sich das mehrdimensionale Merkmal zusammensetzt. Mehrdimensionale Merkmale werden als Tupel (X1 , . . . , Xm ) angegeben, wobei X1 , . . . , Xm die einzelnen Merkmale bezeichnen und m Dimension des Merkmals (X1 , . . . , Xm ) heißt. Das Ergebnis einer Erhebung an n statistischen Einheiten ist dann ein multivariater Datensatz mit n Tupeln (xi1 , . . . , xim ) der Dimension m, i ∈ {1, . . . , n}. Das i-te Tupel enth¨ alt die an der i-ten statistischen Einheit gemessenen Daten der m univariaten Merkmale. Diese Daten werden oft in einer Tabelle oder Datenmatrix D zusammengefasst: j-tes Merkmal
Einheit
i-te statistische
1
2 ··· m
1 x11 x12 · · · x1m 2 x21 x22 · · · x2m
.. . .. .
.. . .. .
..
. ..
.
.. . .. .
⎛
⎞ x11 x12 · · · x1m ⎜ x21 x22 · · · x2m ⎟ ⎜ ⎟ ⎜ .. . . .. ⎟ ⎟ . . . D=⎜ ⎜ ⎟ ⎜ . . ⎟ .. ⎝ .. . .. ⎠ xn1 xn2 · · · xnm
n xn1 xn2 · · · xnm
Beispiel A 1.25. Der Verlauf des Aktienkurses eines Unternehmens wird u ¨ber mehrere Tage beobachtet. An jedem Tag werden Datum des Tages, Er¨offnungskurs, Schlusskurs, Tiefststand w¨ahrend des Tages sowie H¨ochststand festgehalten. Aus der Beobachtung k¨ onnte sich z.B. der folgende Datensatz ergeben haben: (11.2., 75,2, 76,3, 75,0, 77,9) (13.2., 77,0, 78,9, 76,3, 80,1) (15.2., 73,5, 81,3, 71,2, 87,5) (18.2., 81,3, 79,6, 75,3, 81,4) (20.2., 81,9, 82,0, 81,4, 84,2) (22.2., 79,2, 75,3, 71,3, 81,6) Die Eintr¨age in jedem der sechs Beobachtungswerte sind in der oben angegebenen Reihenfolge aufgelistet. Die Daten sind Auspr¨agungen eines f¨ unfdimensionalen Merkmals, wobei jede Merkmalsauspr¨agung zusammengesetzt ist aus den Auspr¨agungen eines ordinalen Merkmals (dem Datum des Tages) und vier stetigen Merkmalen (den Kurswerten). Zweidimensionale oder bivariate Merkmale sind Spezialf¨alle mehrdimensionaler Merkmale, die als Paare von Beobachtungen zweier eindimensionaler Merkmale gebildet werden. Zur Notation werden Tupel (X, Y) verwendet, deren Komponenten X und Y univariate Merkmale sind. Die zu einem zweidimensionalen Merkmal geh¨ origen Beobachtungen heißen gepaarte Daten. Ein bivariater Datensatz (x1 , y1 ), . . . , (xn , yn ) wird auch als gepaarte Messreihe bezeichnet.
A 2 Tabellarische und grafische Darstellungen
15
Beispiel A 1.26. In einer medizinischen Studie werden u.a. Alter und K¨orpergr¨ oße der Probanden erhoben. Die Messwerte (35,178) (41,180) (36,187) (50,176) (45,182) (33,179) (36,173) (48,185) (51,179) (55,184) sind ein Auszug aus dem Datensatz, in dem jeweils der erste Eintrag jeder Beobachtung das Alter X (in Jahren) und der zweite Eintrag die K¨orpergr¨oße Y (in cm) angibt. Das bivariate Merkmal (X, Y) ist also ein Paar aus zwei metrischen Merkmalen, n¨amlich dem diskreten Merkmal Alter und dem stetigen Merkmal K¨ orpergr¨ oße. In einer Studie u ¨ber das Rauchverhalten von M¨annern und Frauen wird in einer Testgruppe folgender zweidimensionaler Datensatz erhoben: (j,w) (n,m) (j,w) (j,m) (j,m) (n,w) (n,w) (j,m) Hierbei steht der erste Eintrag in jeder Beobachtung f¨ ur das Merkmal Rauchen (ja/nein (j/n)), der zweite steht f¨ ur das Merkmal Geschlecht (m¨annlich/weiblich (m/w)). Dieses bivariate Merkmal ist damit die Kombination zweier nominalskalierter (dichotomer) Merkmale.
A 2 Tabellarische und grafische Darstellungen Ehe erhobene Daten einer genaueren Analyse unterzogen werden, sollten sie zuerst in geeigneter Form aufbereitet werden. Ein wesentlicher Bereich der Datenaufbereitung ist die tabellarische und grafische Darstellung der Daten. Auf diese Weise ¨ kann zun¨achst ein Uberblick uber das Datenmaterial gewonnen werden, erste (op¨ tische) Auswertungen k¨ onnen bereits erfolgen. Zu diesem Zweck werden die Daten in komprimierter Form dargestellt, wobei zun¨achst meist angestrebt wird, den Informationsverlust so gering wie m¨ oglich zu halten. Eine sp¨atere Kurzpr¨asentation von Ergebnissen einer statistischen Analyse wird sich meist auf wenige zentrale Aspekte beschr¨anken m¨ ussen. Informationsverlust durch Datenreduktion ist also stets in Relation zu der gew¨ unschten Form der Ergebnisse zu sehen. Im Rahmen der tabellarischen Datenaufbereitung werden den verschiedenen Merkmalsauspr¨agungen ausgehend von der Urliste zun¨achst H¨aufigkeiten zugeordnet und diese in Tabellenform (z.B. in H¨aufigkeitstabellen) dargestellt. Auf der Basis der H¨aufigkeiten stehen dann vielf¨altige M¨ oglichkeiten der grafischen Datenaufbereitung (z.B. in Form von Balken-, S¨aulen- oder Kreisdiagrammen) zur Verf¨ ugung. Die Ausf¨ uhrungen in diesem Abschnitt beziehen sich auf qualitative und diskrete quantitative Merkmale. F¨ ur stetige Merkmale werden spezielle Methoden zur tabellarischen und grafischen Darstellung verwendet, auf die in sp¨ateren Abschnitten eingegangen wird. Die nachfolgend erl¨auterten Methoden lassen sich zwar auch f¨ ur stetige quantitative Merkmale anwenden, jedoch ist zu beachten, dass aufgrund der Besonderheiten stetiger Merkmale die vorgestellten Ans¨atze nur selten eine
16
A Beschreibende Statistik
geeignete Aufbereitung des Datenmaterials liefern (Eine beobachtete Auspr¨agung wird sich unter Aussch¨ opfung der Messgenauigkeit nur relativ selten wiederholen). In der Regel ist die Anwendung auf stetige Datens¨atze daher nicht sinnvoll, es sei denn, das betrachtete stetige Merkmal wird zun¨achst klassiert. A 2.1 H¨ aufigkeiten In diesem Abschnitt wird angenommen, dass eine Urliste vorliegt, die sich durch Beobachtung eines Merkmals X, das m verschiedene Auspr¨agungen u1 , . . . , um annehmen kann, ergeben hat. Die Anzahl aller Beobachtungswerte in der Urliste heißt Stichprobenumfang und wird mit n bezeichnet. Um die Information, die in den Beobachtungswerten des Datensatzes enthalten ist, aufzuarbeiten, werden den verschiedenen Merkmalsauspr¨agungen H¨aufigkeiten zugeordnet. H¨aufigkeiten beschreiben die Anzahl des Auftretens der Auspr¨agungen in der Urliste. Hierbei wird generell zwischen absoluten und relativen H¨aufigkeiten unterschieden. Absolute H¨aufigkeiten geben die Anzahl von Beobachtungswerten an, die mit einer bestimmten Merkmalsauspr¨agung identisch sind. Sie entsprechen dem H¨aufigkeitsbegriff im u ¨blichen Sprachgebrauch. Definition A 2.1 (Absolute H¨aufigkeit). F¨ ur ein Merkmal X mit den m¨oglichen Auspr¨agungen u1 , . . . , um liege die Urliste x1 , . . . , xn vor. Die Zahl nj gibt die Anzahl des Auftretens der Merkmalsauspr¨agung uj in der Urliste an und heißt absolute H¨aufigkeit der Beobachtung uj , j ∈ {1, . . . , m}. Bezeichnet |{· · · }| die Anzahl von Elementen der Menge {· · · }, so gilt also nj = {i ∈ {1, . . . , n}|xi = uj } . Mittels der Indikatorfunktion k¨ onnen Ausz¨ahlungen“ alternativ dargestellt wer” den. F¨ ur eine Menge A ⊆ R und eine Zahl x ∈ R wird definiert 1, x ∈ A, 1IA (x) = 0, x ∈ A. Die absolute H¨aufigkeit nj einer Auspr¨agung uj l¨asst sich mittels der Indikatorfunktion darstellen: n nj = 1I{uj } (xi ). i=1
Regel A 2.2 (Summe der absoluten H¨aufigkeiten). F¨ur die absoluten H¨aufigkeiten n1 , . . . , nm der verschiedenen Auspr¨agungen u1 , . . . , um gilt stets m i=1
ni = n1 + · · · + nm = n.
A 2 Tabellarische und grafische Darstellungen
17
Definition A 2.3 (Relative H¨aufigkeit). Die absolute H¨aufigkeit der Merkmalsauspr¨agung uj in der Urliste sei durch nj gegeben, j ∈ {1, . . . , m}. Der Quotient fj =
nj n
heißt relative H¨aufigkeit der Merkmalsauspr¨agung uj , j ∈ {1, . . . , m}. Oft werden relative H¨aufigkeiten auch als Prozentzahlen angegeben. Um Prozentangaben zu erhalten, sind die relativen H¨aufigkeiten mit Hundert zu multiplizieren: relative H¨aufigkeit in % =
absolute H¨aufigkeit · 100%. Anzahl aller Beobachtungen
Regel A 2.4 (Summe der relativen H¨aufigkeiten). F¨ur die relativen H¨aufigkeiten f1 , . . . , fm der verschiedenen Auspr¨ agungen u1 , . . . , um gilt stets m
fi = f1 + f2 + · · · + fm = 1.
i=1
Summen von H¨aufigkeiten einzelner Auspr¨agungen werden als kumulierte H¨aufigkeiten bezeichnet. Die Einzelh¨aufigkeiten k¨ onnen dabei entweder in relativer oder in absoluter Form vorliegen. Tabellarische Zusammenstellungen von absoluten bzw. relativen H¨aufigkeiten wie sie in den Beispielen dieses Abschnitts zu finden sind, werden als H¨aufigkeitstabellen bezeichnet. Die Auflistung der relativen H¨aufigkeiten (auch in Form einer Tabelle) aller verschiedenen Merkmalsauspr¨agungen in einem Datensatz wird ¨ H¨aufigkeitsverteilung genannt. Sie gibt einen Uberblick dar¨ uber, wie die einzelnen Auspr¨agungen im Datensatz verteilt sind. F¨ ur stetige Merkmale sind H¨aufigkeitstabellen meist wenig aussagekr¨aftig, da Merkmalsauspr¨agungen oft nur ein einziges Mal in der Urliste auftreten. Der Effekt einer Zusammenfassung von Daten durch die Betrachtung von H¨aufigkeiten geht daher verloren. Bei stetigen Merkmalen kann mit dem Ziel, einen ¨ahnlichen ¨ einfachen Uberblick uber die Daten zu erhalten, auf das Hilfsmittel der Klassierung ¨ zur¨ uckgegriffen werden. A 2.2 Empirische Verteilungsfunktion Die empirische Verteilungsfunktion Fn : R −→ [0, 1] ist ein Hilfsmittel, mit dem kumulierte H¨aufigkeiten eines Datensatzes durch eine Funktion beschrieben und durch deren Graf visualisiert werden k¨ onnen. Sie wird f¨ ur metrische Merkmale eingef¨ uhrt, wobei sowohl diskrete als auch stetige Merkmale betrachtet werden k¨ onnen. F¨ ur eine vorgegebene Zahl x beschreibt der Wert Fn (x) den Anteil der Beobachtungen, die h¨ ochstens den Wert x haben, d.h. die empirische Verteilungsfunktion gibt den Anteil von Beobachtungen an, die einen gewissen Wert nicht u ¨bersteigen.
18
A Beschreibende Statistik
Definition A 2.5 (Empirische Verteilungsfunktion). F¨ur x1 , . . . , xn ∈ R wird die empirische Verteilungsfunktion Fn : R −→ [0, 1] definiert durch 1 1I(−∞,x] (xi ), n n
Fn (x) =
x ∈ R.
i=1
Definition A 2.6 (Rangwertreihe, Rangwert, Minimum, Maximum). F¨ur Beobachtungswerte y1 , . . . , yr eines metrischskalierten Merkmals heißt die aufsteigend geordnete Auflistung der Beobachtungswerte y(1) y(2) · · · y(r)
Rangwertreihe. Der Wert y(j) an der j-ten Stelle der Rangwertreihe wird als j-ter Rangwert bezeichnet, j ∈ {1, . . . , r}. Der erste Rangwert y(1) heißt Minimum, der letzte Rangwert y(r) Maximum der Werte y1 , . . . , yr . Liegen im Datensatz x1 , . . . , xn insgesamt m verschiedene Merkmalsauspr¨agungen u(1) < · · · < u(m) mit zugeh¨ origen relativen H¨aufigkeiten f(1) , . . . , f(m) vor, so gilt: ⎧ ⎪ 0, x < u(1) , ⎪ ⎪ ⎨ k f(j) , u(k) x < u(k+1) , k ∈ {1, . . . , m − 1}, . Fn (x) = ⎪j=1 ⎪ ⎪ ⎩ 1, x u(m) , Beispiel A 2.7 (Empirische Verteilungsfunktion). Der Graf der empirischen Verteilungsfunktion eines Datensatzes mit den verschiedenen Merkmalsauspr¨agungen u(1) , u(2) , u(3) , u(4) und zugeh¨ origen relativen H¨aufigkeiten f(1) , f(2) , f(3) , f(4) ist in Abbildung A 2.1 dargestellt.
1
6
•... . . . . . . . . .
F4 (x) f(1) + f(2) + f(3)
•..
f(1) + f(2)
f(1)
. . . . .
•..
•.. . . .
f(1)
u(1)
. . . . . . . . . . . .
f(4)
f(3)
f(2)
u(2)
u(3)
u(4)
x
Abb. A 2.1. Treppenfunktion.
Ein Punkt am (linken) Ende einer Linie deutet an, dass der Funktionswert an dieser Stelle abgelesen wird. Da nur vier Auspr¨agungen vorliegen, ist die Summe der vier relativen H¨aufigkeiten gleich Eins, d.h. f(1) + f(2) + f(3) + f(4) = 1.
A 2 Tabellarische und grafische Darstellungen
19
Am Beispiel A 2.7 k¨ onnen die wichtigsten Eigenschaften der empirischen Verteilungsfunktion direkt abgelesen werden. Aus der Grafik wird deutlich, dass sie eine monoton wachsende Funktion ist, d.h. f¨ ur Werte x y gilt stets Fn (x) Fn (y). Dies folgt auch direkt aus ihrer Definition. Weiterhin ist Fn eine Treppenfunktion mit Spr¨ ungen an den beobachteten Merkmalsauspr¨agungen, d.h. Fn springt“ an ” diesen Stellen von einer Treppenstufe zur n¨achsten. Die H¨ohe der Treppenstufe ist die relative H¨aufigkeit der zugeh¨ origen Auspr¨agung im Datensatz. Liegen somit in einem Bereich viele Beobachtungen vor, so w¨achst die empirische Verteilungsfunktion dort stark, in Bereichen ohne Beobachtungen ist sie konstant. Aus der Definition ergibt sich sofort, dass die empirische Verteilungsfunktion f¨ ur Werte, die die gr¨ oßte beobachtete Merkmalsauspr¨agung ¨ubersteigen, konstant gleich 1 und f¨ ur Werte, die kleiner als der kleinste Beobachtungswert sind, konstant gleich 0 ist. Diese Eigenschaften der empirischen Verteilungsfunktion sind in der folgenden Regel zusammengefasst. Regel A 2.8 (Eigenschaften der empirischen Verteilungsfunktion). u(1) < · · · < agungen eines u(m) sei die Rangwertreihe der beobachteten verschiedenen Auspr¨ Datensatzes. Die empirische Verteilungsfunktion Fn hat folgende Eigenschaften: (i) Fn ist eine monoton wachsende und rechtsseitig stetige Treppenfunktion. (ii) Die Sprungstellen liegen an den Stellen u(1) , . . . , u(m) . Die H¨ohe des Sprungs bzw. der Treppenstufe an der Stelle u(j) ist gleich der relativen H¨aufigkeit f(j) von u(j) . (iii) Definitionsgem¨aß ist der Funktionswert von Fn Fn (x) = 0 f¨ ur x < u(1)
und
Fn (x) = 1 f¨ ur x u(m) .
Eine n¨ utzliche Eigenschaft der empirischen Verteilungsfunktion liegt in der einfachen Berechnungsm¨ oglichkeit von Anteilen, die bestimmte Merkmalsauspr¨agungen am gesamten Datensatz haben. So liefert die Auswertung der empirischen Verteilungsfunktion Fn an einer Stelle x ∈ R, d.h. der Wert Fn (x), den Anteil der Beobachtungen, die kleiner oder gleich x sind. Dabei werden die relativen H¨aufigkeiten der Merkmalsauspr¨agungen summiert, die kleiner oder gleich x sind. Da sich die relativen H¨aufigkeiten zu Eins summieren, gibt 1 − Fn (x) den Anteil aller Beobachtungen an, die strikt gr¨ oßer als x sind. Desweiteren k¨onnen mit der empirischen Verteilungsfunktion Anteile von zwischen zwei Merkmalsauspr¨agungen liegenden Beobachtungen bestimmt werden. Regel A 2.9 (Rechenregeln f¨ ur die empirische Verteilungsfunktion). F¨ur reelle Zahlen x, y mit x < y beschreiben Fn (x) den Anteil der Beobachtungswerte im Intervall (−∞, x], 1 − Fn (x) den Anteil der Beobachtungswerte im Intervall (x,∞), Fn (y) − Fn (x) den Anteil der Beobachtungswerte im Intervall (x, y].
20
A Beschreibende Statistik
A 2.3 Diagrammtypen Stab-, S¨ aulen- und Balkendiagramm Ein Stabdiagramm ist eine einfache grafische Methode, um die H¨aufigkeiten der Beobachtungswerte in einem Datensatz darzustellen. Die verschiedenen Merkmalsauspr¨agungen im Datensatz werden hierzu auf der horizontalen Achse (Abszisse) eines Koordinatensystems abgetragen. Auf der zugeh¨origen vertikalen Achse (Ordinate) werden die absoluten bzw. relativen H¨aufigkeiten angegeben. Die konkreten H¨aufigkeiten der verschiedenen Beobachtungswerte werden im Diagramm durch senkrechte Striche repr¨asentiert. H¨aufig wird deren oberes Ende zus¨atzlich durch einen Punkt markiert. Da sich die absoluten und relativen H¨aufigkeiten nur durch einen Faktor (n¨amlich die Anzahl aller Beobachtungswerte im Datensatz) unterscheiden, sehen beide Varianten des Stabdiagramms – abgesehen von einer unterschiedlichen Skalierung der Ordinate – gleich aus. Beispiel A 2.10 (Wettbewerb). In einem Wettbewerb sind f¨ ur die teilnehmenden f¨ unf Teams (I, II, III, IV, V) insgesamt 50 Punkte zu vergeben. Die H¨aufigkeitstabelle der erzielten Punkte und das zugeh¨ orige Stabdiagramm in der Variante mit relativen H¨aufigkeiten sind in Abbildung A 2.2 dargestellt.
0,4
I II III IV V
Team absolute H¨ aufigkeit relative H¨ aufigkeit
10 20 5 10 5 0,2 0,4 0,1 0,2 0,1
(a) H¨ aufigkeitstabelle
0,2 0
I
II III IV
V
(b) Stabdiagramm
Abb. A 2.2. H¨ aufigkeitstabelle und Stabdiagramm.
Stabdiagramme k¨ onnen auch zur Darstellung metrischer Daten verwendet werden. Dies gilt ebenso f¨ ur die anschließend erl¨auterten S¨aulen- und Balkendiagramme. Eine dem Stabdiagramm eng verwandte Form der grafischen Aufbereitung ist das S¨aulendiagramm. Hierbei werden ebenfalls auf der Abszisse die unterschiedlichen Auspr¨agungen des beobachteten Merkmals abgetragen und die zugeh¨origen absoluten oder relativen H¨aufigkeiten auf der Ordinate des Diagramms angege¨ ben. Uber jeder Merkmalsauspr¨agung werden die entsprechenden H¨aufigkeiten in Form von S¨aulen, d.h. ausgef¨ ullten Rechtecken, dargestellt. Die H¨ohe jeder S¨aule entspricht der jeweiligen absoluten oder relativen H¨aufigkeit. Da die Breite aller S¨aulen gleich gew¨ahlt wird, sind die einzelnen H¨aufigkeiten zus¨atzlich proportional zu den Fl¨achen der zugeh¨ origen S¨aulen.
A 2 Tabellarische und grafische Darstellungen
21
Beispiel A 2.11. Die im Beispiel A 2.10 (Wettbewerb) gegebenen relativen H¨aufigkeiten sind in Abbildung A 2.3 in einem S¨aulendiagramm dargestellt.
0,4 0,2 0
I
II III IV
V
Abb. A 2.3. S¨ aulendiagramm.
Lassen sich die Merkmalsauspr¨agungen, deren H¨aufigkeiten in einem S¨aulendiagramm dargestellt werden, noch durch ein weiteres Merkmal in einzelne Gruppen einteilen, so kann diese zus¨atzliche Information in das Diagramm aufgenommen werden. Hierzu stehen gestapelte und gruppierte Diagramme zur Verf¨ ugung (s. Burkschat et al., 2004). Durch eine Vertauschung beider Achsen im S¨aulendiagramm entsteht ein Balkendiagramm. In einem Balkendiagramm sind die unterschiedlichen Beobachtungswerte der Urliste auf der vertikalen Achse und die H¨aufigkeiten auf der horizontalen Achse abgetragen. Kreisdiagramm In einem Kreisdiagramm werden den einzelnen H¨aufigkeiten eines Datensatzes in einem Kreis Fl¨achen in Form von Kreissegmenten zugeordnet, wobei die Gr¨oße der Fl¨ache proportional zur relativen H¨aufigkeit gew¨ahlt wird. Der Winkel eines Kreissegmentes (und damit die Gr¨ oße des Segmentes) l¨asst sich als Produkt aus der entsprechenden relativen H¨aufigkeit und der Winkelsumme im Kreis, d.h. 360◦ , berechnen. Da die Summe der relativen H¨aufigkeiten Eins ergibt, wird auf diese Weise die gesamte Kreisfl¨ache abgedeckt. Neben oder in den Kreissegmenten (bzw. in einer Legende) wird vermerkt, auf welche Merkmalsauspr¨agungen sich diese beziehen. Liniendiagramm Eine weitere M¨ oglichkeit der grafischen Aufbereitung von Daten bietet das Liniendiagramm. Wird es zur Darstellung von H¨aufigkeiten verwendet, so ist auch die Bezeichnung H¨aufigkeitspolygon anzutreffen. Bei dieser Grafik werden die absolute oder die relative H¨aufigkeit auf der vertikalen Achse eines Koordinatensystems abgetragen, die verschiedenen Merkmalsauspr¨agungen auf der horizontalen Achse. Die konkret beobachteten H¨aufigkeiten werden als Punkte in das Diagramm eingetragen und dann – zur besseren Veranschaulichung – durch Linien miteinander verbunden.
22
A Beschreibende Statistik
II
I 0,4
V III
0,2 0
IV
(a) Kreisdiagramm.
I
II III IV
V
(b) Liniendiagramm.
Abb. A 2.4. Kreis-und Liniendiagramm zu Beispiel A 2.10 (Wettbewerb).
Gerade bei Liniendiagrammen sind Irref¨ uhrungen und Missinterpretationen leicht m¨ oglich. Ein Liniendiagramm sollte (f¨ ur einen einzelnen Datensatz) daher nur eingesetzt werden, wenn auf der Abszisse ein ordinales Merkmal abgetragen wird (z.B. die Zeit) und damit eine sinnvolle Anordnung der Auspr¨agungen vorgegeben ist. Liniendiagramme eignen sich beispielsweise zur Darstellung von Ums¨atzen u ¨ber die Zeit oder von Wertpapierkursen (Entwicklung des Kurses einer Aktie an einem Handelstag der B¨ orse). In dieser Situation wird das Liniendiagramm auch als Verlaufskurve (Kurvendiagramm) bezeichnet. Dieser Diagrammtyp bietet sich daher zur Darstellung von Daten an, die u ¨ber einen bestimmten Zeitraum beobachtet wurden (z.B. die Entwicklung der Anzahl von Angestellten in einem Unternehmen). Durch die Darstellung mehrerer Linien in einem Liniendiagramm ist auch ein Vergleich von gleichartigen Datens¨atzen m¨ oglich. Die vorgestellten Diagrammtypen (Stab-, S¨aulen-, Balken-, Kreis- und Liniendiagramm) k¨ onnen zur Darstellung von H¨aufigkeiten in einem beliebig skalierten Datensatz verwendet werden. Dabei ist jedoch folgendes zu beachten: Auch wenn prinzipiell beliebige auf nominalem Niveau erhobene Daten mittels dieser Diagramme grafisch aufbereitet werden k¨ onnen, so entstehen doch wenig aussagekr¨aftige Grafiken, wenn sehr viele verschiedene Beobachtungswerte vorliegen (z.B. bei Beobachtung eines stetigen Merkmals). H¨aufigkeiten und deren grafische Darstellung sind daher meist kein ad¨aquates Mittel zur Aufbereitung solcher Daten. Andere grafische Hilfsmittel wie z.B. das Histogramm sind f¨ ur stetige Merkmale besser geeignet.
A 3 Lage- und Streuungsmaße
23
A 3 Lage- und Streuungsmaße Grafische Darstellungen eines Datensatzes wie z.B. S¨aulendiagramme oder Kreisdiagramme nehmen nur eine geringe bzw. keine relevante Reduktion der in den Daten enthaltenen Information vor. H¨aufig soll jedoch ein Datensatz mit nur wenigen Kenngr¨ oßen beschrieben werden. Eine solche Komprimierung der Information erlaubt u.a. einen einfacheren Vergleich zweier Datens¨atze. Statistische Kenngr¨ oßen wie Lagemaße und Streuungsmaße sind f¨ ur diese Zwecke geeignete Hilfsmittel. Lagemaße dienen der Beschreibung des Zentrums oder allgemeiner einer Position der beobachteten Daten mittels eines aus den Daten berechneten Werts. Beispiele sind u.a. das arithmetische Mittel, der Median und der Modus. Ob ein bestimmtes Lagemaß auf einen konkreten Datensatz angewendet werden kann, h¨angt entscheidend von den Eigenschaften der Beobachtungen und damit vom Merkmalstyp des betrachteten Merkmals ab. Im Folgenden wird daher zwischen Lagemaßen f¨ ur qualitative (nominale und ordinale) Merkmale und quantitative (diskrete und stetige) Merkmale unterschieden. A 3.1 Lagemaße f¨ ur nominale und ordinale Daten Der Modus (Modalwert) ist ein Lagemaß zur Beschreibung nominaler Datens¨atze. Als Modus wird diejenige Merkmalsauspr¨agung eines Merkmals bezeichnet, die am h¨aufigsten im Datensatz vorkommt, also die gr¨oßte absolute (bzw. relative) H¨aufigkeit aufweist. In der folgenden Definition wird mit dem Symbol max{· · · } der gr¨ oßte Wert in der Menge {· · · } bezeichnet. Definition A 3.1 (Modus). In einem Datensatz seien die verschiedenen Merkmalsauspr¨agungen u1 , . . . , um aufgetreten, wobei die Merkmalsauspr¨agung uj die absolute H¨aufigkeit nj bzw. die relative H¨aufigkeit fj habe, j ∈ {1, . . . , m}. Jede Auspr¨agung uj∗ , deren absolute H¨aufigkeit die Eigenschaft nj∗ = max{n1 , . . . , nm }
bzw. deren relative H¨aufigkeit die Eigenschaft fj∗ = max{f1 , . . . , fm }
erf¨ ullt, wird als Modus bezeichnet. Der Modus ist das einzige Lagemaß, das die Informationen eines nominalen Datensatzes ad¨aquat wiedergibt. Zur Bestimmung des Modus wird lediglich die H¨aufigkeitsverteilung der Daten benutzt, der Datensatz selbst wird nicht ben¨otigt. Daher l¨asst sich der Modus direkt aus Diagrammen ablesen, in denen die entsprechenden H¨aufigkeiten grafisch visualisiert werden. In einem S¨aulendiagramm entspricht beispielsweise der Modus einem Beobachtungswert mit der h¨ochsten S¨aule. Wird
24
A Beschreibende Statistik
der Modus f¨ ur einen speziellen Datensatz ausgewertet, so heißt die resultierende Merkmalsauspr¨agung Modalwert. F¨ ur den Modus und den Modalwert wird die Schreibweise xmod verwendet. Es k¨ onnen F¨alle auftreten, in denen mehrere Beobachtungswerte die gr¨ oßte H¨aufigkeit besitzen, so dass der Modalwert eines Datensatzes i.A. nicht eindeutig bestimmt ist. Bei ordinalen Merkmalen liegt zus¨atzlich eine Ordnungsstruktur auf der Menge der Merkmalsauspr¨agungen vor, d.h. es ist m¨ oglich, eine Urliste von Beobachtungen des Merkmals von der kleinsten zur gr¨ oßten zu sortieren. In diesem Sinne kann der Begriff der Rangwertreihe aus Definition A 2.6 von metrischskalierten auf ordinalskalierte Merkmale erweitert werden. In der Rangwertreihe liegen die urspr¨ unglichen Beobachtungswerte in geordneter Weise vor. F¨ ur die Position eines Beobachtungswerts der Urliste in der Rangwertreihe wird der Begriff des Rangs eingef¨ uhrt. Definition A 3.2 (Rang). x(1) · · · x(n) bezeichne die Rangwertreihe eines ordinalskalierten Datensatzes x1 , . . . , xn . (i) Kommt ein Beobachtungswert xj genau einmal in der Urliste vor, so heißt dessen Position in der Rangwertreihe Rang von xj . Diese wird mit R(xj ) bezeichnet. (ii) Tritt ein Beobachtungswert xj mehrfach (s-mal) in der Urliste auf, d.h. f¨ur die Werte der Rangwertreihe gilt x(r−1) < x(r) = x(r+1) = · · · = x(r+s−1) < x(r+s) ,
=xj (s-mal)
so wird mit dem Begriff Rang von xj das arithmetische Mittel aller Positionen in der Rangwertreihe mit Wert xj bezeichnet, d.h. R(xj ) =
s−1 r + (r + 1) + · · · + (r + s − 1) =r+ . s 2
Das mehrfache Auftreten eines Wertes in der Urliste wird als Bindung bezeichnet. In diesem Zusammenhang wird auch von verbundenen“ R¨angen gesprochen. ” Lagemaße f¨ ur ordinale Merkmale werden auf der Basis der Rangwertreihe eines Datensatzes eingef¨ uhrt. Aufgrund der Ordnungseigenschaft ordinaler Daten kann insbesondere von einem Zentrum“ in der Urliste gesprochen werden, so dass es ” sinnvoll ist, Kenngr¨ oßen zu konstruieren, die dieses Zentrum beschreiben. Derartige Lagemaße (z.B. der Median) werden auch Maße der zentralen Tendenz“ ” x bezeichnet, wenn er die folgenannt. Ein Beobachtungswert wird als Median
gende Eigenschaft besitzt: x und Mindestens 50% aller Beobachtungswerte sind kleiner oder gleich
x. mindestens 50 % aller Beobachtungswerte sind gr¨oßer oder gleich
A 3 Lage- und Streuungsmaße
25
Aus dieser Vorschrift wird deutlich, dass der Median nur f¨ ur mindestens ordinalskalierte Daten sinnvoll ist. Er liegt immer in der Mitte“ (im Zentrum) der Daten ” und teilt den Datensatz in zwei H¨alften“, da einerseits die Beobachtungswerte in ” einer H¨alfte der Daten gr¨ oßer bzw. gleich und andererseits die Beobachtungswerte in einer H¨alfte der Daten kleiner bzw. gleich dem Median sind. Ist die Stichprobengr¨oße ungerade, so ist der Median immer eindeutig bestimmt, d.h. nur ein einziger Beobachtungswert kommt f¨ ur den Median in Frage. Ist die Anzahl der Beobachtungen jedoch gerade, k¨ onnen zwei (eventuell verschiedene) Beobachtungswerte die Bedingung an den Median erf¨ ullen. In diesem Fall kann einer dieser Werte als Median ausgew¨ahlt werden. Der Median l¨asst sich mit Hilfe der Rangwertreihe leicht bestimmen. Definition A 3.3 (Median f¨ ur ordinale Daten). x(1) · · · x(n) sei die Rangwertreihe eines ordinalskalierten Datensatzes x1 , . . . , xn . Ein Median
x ist ein Beobachtungswert mit der Eigenschaft
x = x( n+1 ) , 2
x ∈ x( n ) , x( n +1) , 2
2
falls n ungerade, falls n gerade.
Der Median ist ein Spezialfall so genannter Quantile. Teilt der Median eine Rangwertreihe in die 50% kleinsten bzw. 50% gr¨ oßten Werte, so beschreibt ein Quantil eine (unsymmetrische) Einteilung in die P% kleinsten bzw. (100 − P)% gr¨oßten Werte. Der Anteil P der kleinsten Beobachtungen bezeichnet dabei eine Zahl zwischen Null und Hundert. Es ist u ¨blich an Stelle von Prozentzahlen Anteile mit unschte Anteil der Werten aus dem offenen Intervall (0, 1) zu w¨ahlen. Der gew¨ kleinsten Werte sei daher im Folgenden mit p ∈ (0, 1) bezeichnet. Jeder Beobachtungswert einer ordinalskalierten Stichprobe, der die folgende Bedingung erf¨ ullt, wird als p-Quantil
xp bezeichnet: Mindestens p · 100% aller Beobachtungswerte sind kleiner oder gleich
xp und mindestens (1 − p) · 100% aller Beobachtungswerte sind gr¨oßer oder xp . gleich
Analog zum Median k¨ onnen F¨alle auftreten, in denen diese Bedingungen nicht nur von einem, sondern von zwei Werten erf¨ ullt werden. Das p-Quantil ist in dieser Situation nicht eindeutig bestimmt. In einem solchen Fall wird einer der m¨ oglichen Werte als p-Quantil ausgew¨ahlt. ur ordinale Daten). x(1) · · · x(n) sei die RangDefinition A 3.4 (p-Quantil f¨ wertreihe eines ordinalskalierten Datensatzes x1 , . . . , xn . F¨ ur p ∈ (0, 1) ist ein p-Quantil
xp ein Beobachtungswert mit der Eigenschaft
xp = x(k) ,
xp ∈ x(k) , x(k+1) ,
falls np < k < np + 1, np ∈ / N, falls k = np, np ∈ N.
26
A Beschreibende Statistik
Aus der Definition ist ersichtlich, dass die Festlegung des 0,5-Quantils mit dem Median u ¨bereinstimmt. Die Forderung n2 ∈ N (p = 12 ) ist n¨amlich ¨aquivalent dazu, dass n eine gerade Zahl ist. Aus diesem Grund wird f¨ ur den Median
x auch ur spezielle Werte von p sind eigene Bezeichnungen x0,5 verwendet. F¨ die Notation
des zugeh¨ origen Quantils gebr¨auchlich. Bezeichnung A 3.5 (Quartil, Dezentil, Perzentil). ⎧ p = 0,5 Median, ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ p = 0,25 unteres Quartil, ur p = 0,75 oberes Quartil, Ein p-Quantil heißt f¨ ⎪ ⎪ k ⎪ ⎪ ⎪ p = 10 k-tes Dezentil (k = 1, . . . , 9), ⎪ ⎩ k p = 100 k-tes Perzentil (k = 1, . . . , 99). A 3.2 Lagemaße f¨ ur metrische Daten Median und Quantil Der Median f¨ ur quantitative Daten wird – mit einer leichten Modifikation bei geradem Stichprobenumfang – analog zum ordinalen Fall definiert. F¨ ur eine Stichprobe metrischer Daten wird er nach folgendem Verfahren berechnet. Zun¨achst werden wie bei ordinalen Daten mittels der Rangwertreihe Kandidaten f¨ ur den Median ermittelt. Bei ungeradem Stichprobenumfang erf¨ ullt nur ein Wert diese Bedingung, der deshalb auch in dieser Situation als Median
x bezeichnet wird. Ist der Stichprobenumfang gerade, so besteht die Menge der in Frage kommenden Werte in der Regel aus zwei Beobachtungswerten. Der Median
x wird dann als arithmetisches Mittel dieser beiden Beobachtungswerte definiert, um einen eindeutig bestimmten Wert f¨ ur den Median zu erhalten. Wie bei ordinalen Daten liegt dieser Median in der Mitte“ der Daten, in dem Sinne, dass minde” stens die H¨alfte aller Daten gr¨ oßer oder gleich und dass mindestens die H¨alfte aller Daten kleiner oder gleich dem Median ist. Bei geradem Stichprobenumfang sind auch andere Festlegungen des Medians m¨ oglich. Alternativ kann jeder andere Wert aus dem Intervall [x( n2 ) , x( n2 +1) ] als Median definiert werden, da die oben genannte Bedingung jeweils erf¨ ullt ist. Definition A 3.6 (Median f¨ ur metrische Daten). x(1) · · · x(n) sei die Rangx ist defiwertreihe eines metrischskalierten Datensatzes x1 , . . . , xn . Der Median
niert durch ⎧ ⎨x n+1 , falls n ungerade, ) (
x= 1 2 ⎩ (x n + x n +1 ), falls n gerade. 2 (2) (2 ) Liegen die Daten nicht in Form einer Urliste vor, sondern nur als H¨aufigkeitsverteilung der verschiedenen Auspr¨agungen des betrachteten Merkmals, so kann der Median (wie allgemein auch das p-Quantil) mittels der empirischen Verteilungsfunktion bestimmt werden (s. Burkschat et al., 2004).
A 3 Lage- und Streuungsmaße
27
Beispiel A 3.7. Eine Firma gibt in n = 6 Jahren die folgenden, als Rangwertreihe vorliegenden Betr¨age f¨ ur Werbung aus (in e): 10 000 18 000 20 000 30 000 41 000 46 000 Da die Anzahl der Beobachtungen gerade ist, berechnet sich der zugeh¨orige Median als arithmetisches Mittel der beiden mittleren Werte der Rangwertreihe. Damit ist der Median durch
x = 12 (20 000 + 30 000) = 25 000 [e] gegeben. Einerseits wurde also in mindestens 50% aller F¨alle mindestens 25 000e f¨ ur Werbezwecke ausgegeben, andererseits traten aber auch in mindestens 50% aller F¨alle Kosten von h¨ ochstens 25 000e auf. Der Median besitzt eine Minimalit¨atseigenschaft: er minimiert die Summe der absoluten Abst¨ande zu allen beobachteten Werten. Regel A 3.8 (Minimalit¨atseigenschaft des Medians). F¨ur eine reelle Zahl t beschreibt n f(t) = |xi − t| i=1
die Summe der Abweichungen aller Beobachtungswerte x1 , . . . , xn von t. Der Median von x1 , . . . , xn liefert das Minimum von f, d.h. es gilt f(t) =
n i=1
|xi − t|
n
|xi −
x| = f(
x)
f¨ur alle t ∈ R.
i=1
F¨ur ungeraden Stichprobenumfang ist der Median
x das eindeutig bestimmte Minimum. Ist der Stichprobenumfang gerade, so ist jedes t ∈ [x( n2 ) , x( n2 +1) ] ein Minimum der Abbildung f. Die Minimalit¨ atseigenschaft gilt also f¨ ur die in Definition A 3.6 eingef¨ uhrten Mediane. Wie bei ordinalskalierten Daten werden p-Quantile (mit p ∈ (0, 1)) als Verallgemeinerung des Medians definiert. Sie berechnen sich analog zum Median bei metrischen Daten. Die Bezeichnungen f¨ ur spezielle Quantile (Quartil, Dezentil, Perzentil) aus Bezeichnung A 3.5 werden ebenfalls ¨ubernommen. ur metrische Daten). Sei x(1) · · · x(n) die Definition A 3.9 (p-Quantil f¨ Rangwertreihe des metrischen Datensatzes x1 , . . . , xn . F¨ur p ∈ (0, 1) ist das pxp gegeben durch Quantil
falls np < k < np + 1, np ∈ / N, x(k) ,
xp = 1 (x + x ), falls k = np, np ∈ N. (k+1) 2 (k) Quantile k¨ onnen Aufschluss ¨ uber die Form der den Daten zu Grunde liegenden H¨aufigkeitsverteilung geben. Bei einer symmetrischen“ Verteilung der Daten ist ” der jeweilige Abstand des unteren Quartils und des oberen Quartils zum Median
28
A Beschreibende Statistik
ann¨ahernd gleich. Ist jedoch z.B. der Abstand zwischen dem unteren Quartil und dem Median deutlich gr¨ oßer als der zwischen oberem Quartil und Median, so ist von einer linksschiefen H¨aufigkeitsverteilung auszugehen. Im umgekehrten Fall liegt ein Hinweis auf eine rechtsschiefe Verteilung vor. Auf diese Begriffe wird bei der Diskussion des Histogramms, einem Diagrammtyp zur Visualisierung stetigen Datenmaterials, n¨aher eingegangen. Arithmetisches Mittel Das bekannteste Lagemaß f¨ ur metrische Daten ist das arithmetische Mittel, f¨ ur das auch die Bezeichnungen Mittelwert, Mittel oder Durchschnitt verwendet werden. Definition A 3.10 (Arithmetisches Mittel). Sei x1 , . . . , xn ein Datensatz aus Beobachtungswerten eines metrischen Merkmals. Das arithmetische Mittel xn ist definiert durch n 1 1 xn = (x1 + x2 + · · · + xn ) = xi . n n i=1 Ist die Anzahl n der Beobachtungswerte aus dem Kontext klar, so wird auch auf die Angabe des Index verzichtet, d.h. es wird die Notation x verwendet. Regel A 3.11 (Berechnung des arithmetischen Mittels mittels einer H¨aufigkeitsverteilung). Bezeichnet f1 , . . . , fm die H¨aufigkeitsverteilung eines Datensatzes mit (verschiedenen) Merkmalsauspr¨agungen u1 , . . . , um , so kann das arithmetische Mittel berechnet werden gem¨aß x = f1 u1 + · · · + fm um =
m
fj uj .
j=1
Zur Bestimmung des gemeinsamen Mittelwerts zweier Datens¨atze ist es nicht notwendig, dass alle Ausgangsdaten bekannt sind. Die Kenntnis der Stichprobenumf¨ange beider Datens¨atze und der jeweiligen arithmetischen Mittel reicht aus. Aus der folgenden Rechenregel folgt insbesondere, dass das arithmetische Mittel zweier Datens¨atze, die den gleichen Umfang haben, gleich dem Mittelwert der zu den beiden Datens¨atzen geh¨ origen arithmetischen Mittel ist. Regel A 3.12 (Arithmetisches Mittel bei zusammengesetzten Datens¨atzen). x und y seien die arithmetischen Mittel der metrischen Datens¨atze x1 , . . . , xn1 ∈ R und y1 , . . . , yn2 ∈ R mit den Umf¨angen n1 bzw. n2 . Das arithmetische Mittel z aller n1 + n2 Beobachtungswerte (des so genannten zusammengesetzten oder gepoolten Datensatzes) z1 = x1 , . . . , zn1 = xn1 , zn1 +1 = y1 , . . . , zn1 +n2 = yn2
A 3 Lage- und Streuungsmaße
29
l¨asst sich bestimmen als (gewichtetes arithmetisches Mittel) z=
n1 n2 x+ y. n1 + n2 n1 + n2
Besteht der zweite Datensatz aus einer Beobachtung xn+1 (= y1 ), d.h. n2 = 1, und wird die Bezeichnung n = n1 verwendet, so ist das arithmetische Mittel xn+1 aller n + 1 Beobachtungswerte gegeben durch n 1 xn+1 . xn + n+1 n+1
xn+1 =
Regel A 3.13 (Minimalit¨atseigenschaft des arithmetischen Mittels). Das arithmetische Mittel des Datensatzes x1 , . . . , xn ∈ R ist das eindeutig bestimmte Minimum der Abbildung f : R → [0,∞) mit f(t) =
n (xi − t)2 ,
t ∈ R,
i=1
d.h. es gilt f(t) f(x) f¨ ur alle t ∈ R (vgl. Lemma C 5.12). Beweis. Zum Nachweis der Minimalit¨ atseigenschaft wird lediglich eine binomische Formel verwendet: f(t) =
n
[(xi − x) + (x − t)]2
i=1
=
n i=1
(xi − x)2 +2(x − t)
n i=1
(xi − x) + =0
=f(x)
n i=1
(x − t)2
=n(x−t)2
= f(x) + n(x − t)2 f(x),
0
wobei Gleichheit genau dann gilt, wenn n(x − t)2 = 0, d.h. wenn t = x ist.
Eine Verallgemeinerung des arithmetischen Mittels ist das gewichtete arithmetische Mittel. Definition A 3.14 (Gewichtetes arithmetisches Mittel). Seien x1 , . . . , xn ∈ R ein n gi = 1. metrischer Datensatz und g1 , . . . , gn 0 reelle Zahlen mit i=1
Das (bzgl. g1 , . . . , gn ) gewichtete arithmetische Mittel xg von x1 , . . . , xn berechnet sich mittels der Formel n xg = gi xi . i=1
Regel A 3.15 (Gewichtetes arithmetisches Mittel mit identischen Gewichten). Durch die spezielle Wahl der Gewichte g1 = g2 = · · · = gn = n1 ergibt sich aus dem gewichteten arithmetischen Mittel das gew¨ohnliche arithmetische Mittel.
30
A Beschreibende Statistik
Geometrisches Mittel In speziellen Situationen kann die Verwendung eines arithmetischen Mittels nicht angebracht sein und sogar zu verf¨alschten Ergebnissen f¨ uhren. Aus diesen Gr¨ unden werden zwei weitere Mittelwerte, n¨amlich das geometrische und das harmonische Mittel, ben¨ otigt. Als Motivation f¨ ur das geometrische Mittel wird zun¨achst das folgende Beispiel betrachtet. Beispiel A 3.16 (Preise). F¨ ur die Preise p0 , p1 , . . . , pn > 0 eines Produkts im Verlauf von n + 1 Zeitperioden beschreiben die Wachstumsfaktoren xi =
pi , pi−1
i ∈ {1, . . . , n},
die Preis¨anderungen von Periode i − 1 zu Periode i. Die Erh¨ohung eines Preises um 50% entspricht einem Wachstumsfaktor von 1,5, eine Preissenkung um 20% f¨ uhrt zu einem Wachstumsfaktor von 0,8. Die Multiplikation des Anfangspreises p0 mit allen Wachstumsfaktoren bis zum Zeitpunkt j ergibt genau den Preis pj , d.h. f¨ ur j ∈ {1, . . . , n} gilt: p0 · x1 · x2 · . . . · xj = p0
j i=1
xi = p0·
pj−1 pj p2 p1 · · ... · · = pj . p0 p1 pj−2 pj−1
Diese Situation wirft die Frage auf, um welchen, f¨ ur alle Jahre konstanten Prozentsatz der Preis des Produkts h¨atte steigen (bzw. fallen) m¨ ussen, um bei gegebenem Anfangspreis p0 nach n Jahren den Preis pn zu erreichen. Aufgrund der Relation Wachstumsfaktor = 1 + Prozentsatz l¨asst sich diese Fragestellung auch anders formulieren: Welcher Wachstumsfaktor w erf¨ ullt die Eigenschaft p0 · x1 · . . . · xn = pn = p0 · wn
oder anders ausgedr¨ uckt, wann gilt x1 · . . . · xn = wn ?
Der Wachstumsfaktor, der diese Gleichung l¨ ost, liefert auch den gesuchten Prozentsatz. Definition A 3.17 (Geometrisches Mittel). F¨ ur metrische, positive Beobachtungswerte x1 , . . . , xn > 0 ist das geometrische Mittel xgeo definiert durch xgeo =
√ n
x1 · x2 · . . . · xn =
n i=1
1/n xi
.
A 3 Lage- und Streuungsmaße
31
Das geometrische Mittel von n Wachstumsfaktoren entspricht also dem konstanten Wachstumsfaktor, dessen n-te Potenz multipliziert mit der Anfangsgr¨oße p0 die Endgr¨ oße pn zum Ergebnis hat. Das geometrische Mittel wird auch als mittlerer Wachstumsfaktor bezeichnet, da die Verwendung dieses (konstanten) Wachstumsfaktors an Stelle der eigentlichen Wachstumsfaktoren zum gleichen Ergebnis f¨ uhrt. Aus der obigen Definition ergibt sich, dass die Bildung eines Produkts von Merkmalsauspr¨agungen sinnvoll sein muss, wenn das geometrische Mittel berechnet werden soll. Es wird daher im Allgemeinen f¨ ur Beobachtungsdaten, die Wachs¨ tumsfaktoren darstellen, verwendet. Wachstumsfaktoren geben die relativen Anderungen von Gr¨ oßen wie z.B. Preisen oder Ums¨atzen bezogen auf einen Vergleichswert wieder. Andererseits ist z.B. bei Wachstumsfaktoren nur das geometrische Mittel sinnvoll, das arithmetische Mittel ist in dieser Situation nicht geeignet. ¨ Ahnlich wie beim arithmetischen Mittel kann auch eine gewichtete Variante des geometrischen Mittels eingef¨ uhrt werden. Definition A 3.18 (Gewichtetes geometrisches Mittel). Seien x1 , . . . , xn > 0 ein n metrischer Datensatz und g1 , . . . , gn 0 reelle Zahlen mit gi = 1. i=1
Das (bzgl. g1 , . . . , gn ) gewichtete geometrische Mittel xgeo,g von x1 , . . . , xn berechnet sich mittels der Formel xgeo,g =
n
xgi i .
i=1
Regel A 3.19 (Gewichtetes geometrisches Mittel mit identischen Gewichten). Die Gewichte g1 = · · · = gn = n1 in der Definition des gewichteten geometrischen Mittels liefern das gew¨ohnliche geometrische Mittel. Harmonisches Mittel Das harmonische Mittel ist ein Lagemaß, das sinnvoll eingesetzt werden kann, wenn die Beobachtungswerte Verh¨altniszahlen darstellen, also z.B. Verbr¨auche l ), Geschwindigkeiten (in ms ) oder Kosten f¨ ur Kraftstoff (in el ). (in km Definition A 3.20 (Harmonisches Mittel). F¨ ur metrische, positive Beobachtungswerte x1 , . . . , xn > 0 ist das harmonische Mittel xharm definiert durch xharm = 1 n
1 n i=1
. 1 xi
Die gewichtete Variante des harmonischen Mittels wird analog zu den anderen beiden Mittelwerten konstruiert.
32
A Beschreibende Statistik
Definition A 3.21 (Gewichtetes harmonisches Mittel). Gegeben seien Beobachtungswerte x1 , . . . , xn > 0 eines metrischen Merkmals. Das gewichtete harmonische Mittel xharm,g berechnet sich unter Verwendung der n gi = 1 mittels der Formel Gewichte g1 , . . . , gn 0 mit i=1
xharm,g =
1 . n gi i=1
xi
Regel A 3.22 (Gewichtetes harmonisches Mittel mit identischen Gewichten). Die Gewichte g1 = · · · = gn = n1 in der Definition des gewichteten harmonischen Mittels liefern das gew¨ohnliche harmonische Mittel. Beispiel A 3.23. Ein Fahrzeug f¨ahrt zun¨achst eine Strecke von s1 = 150km mit einer Geschwindigkeit von v1 = 100 km h und danach eine weitere Strecke von s2 = 50km mit einer Geschwindigkeit von v2 = 50 km h . Die Fahrzeiten ti , i ∈ {1, 2}, der einzelnen Strecken berechnen sich mittels ti = vsii , i ∈ {1, 2}. Die Gesamtfahrzeit betr¨agt t = t1 + t2 = 2,5h (Stunden), so dass die Durchschnittsgeschwindigkeit
km v f¨ ur die Gesamtstrecke von s = s1 + s2 = 200km durch v = st = 200 2,5 = 80 h gegeben ist. Dieses Ergebnis kann auch wie folgt ermittelt werden: v=
s s = = t t1 + t2
s1 v1
s +
s2 v2
=
s1 1 s v1
1 +
s2 1 s v2
.
Einsetzen der bekannten Werte f¨ ur die Geschwindigkeiten v1 , v2 und der Strecken s1 , s2 , s ergibt v=
150 1 200 v1
1 +
50 1 200 v2
=
3 1 4 100
1 +
1 1 4 50
= 80
km h
.
Die Durchschnittsgeschwindigkeit ist also ein ein gewichtetes harmonisches Mittel (mit den Gewichten 34 und 14 ) der Geschwindigkeiten v1 und v2 . Das gewichtete arithmetische Mittel der Geschwindigkeiten
50 150 · 100 + · 50 = 87,5 km h 200 200
w¨ urde einen zu hohen Wert ergeben, so dass die in 2,5 Stunden zur¨ uckgelegte Strecke 218,75km betragen w¨ urde. Ausreißerverhalten von Median und arithmetischem Mittel Das arithmetische Mittel und der Median zeigen ein unterschiedliches Verhalten beim Auftreten von Ausreißern in der Stichprobe. Im hier behandelten Kontext bezeichnen Ausreißer Beobachtungen, die in Relation zur Mehrzahl der Daten
A 3 Lage- und Streuungsmaße
33
verh¨altnism¨aßig groß oder klein sind. Ausreißer k¨onnen z.B. durch Mess- und ¨ ¨ Ubertragungsfehler (beispielsweise bei der versehentlichen Ubernahme von 170e statt 1,70e f¨ ur den Preis eines Produkts in einer Preistabelle), die bei der Erhebung der Daten aufgetreten sind, verursacht werden. Sie k¨onnen jedoch auch korrekte Messungen des Merkmals sein, die aber deutlich nach oben bzw. unten von den anderem Messwerten abweichen. Grunds¨atzlich werden also (unabh¨angig von der Interpretation) extrem große oder kleine Werte als Ausreißer bezeichnet. Deren unterschiedlicher Einfluss auf die bereitgestellten Lagemaße soll am Beispiel von Median und arithmetischem Mittel verdeutlicht werden. ¨ W¨ahrend das arithmetische Mittel durch Anderungen in den gr¨oßten oder den kleinsten Beobachtungswerten (stark) beeinflusst wird, ¨andert sich der Wert des Medians in diesen F¨allen im Allgemeinen nicht: der Median verh¨alt sich robust“ ” gegen¨ uber Ausreißern. x des Datensatzes Beispiel A 3.24. Das arithmetische Mittel x und der Median
1 3 3 4 4 5 8 x. Wird die letzte Beobachtung x7 durch den Wert 50 ersetzt, sind gleich: x = 4 =
so ¨andert sich der Wert des arithmetischen Mittels auf x = 10, der Median bleibt unver¨andert bei
x = 4.
A 3.3 Streuungsmaße Die Beschreibung eines Datensatzes durch die alleinige Angabe von Lagemaßen ist in der Regel unzureichend. Beobachtungen in Datens¨atzen mit dem selben arithmetischen Mittel k¨onnen von diesem also unterschiedlich stark abweichen. Diese Abweichung kann durch Streuungsmaße (empirische Varianz, empirische Standardabweichung) quantifiziert werden. Streuungsmaße dienen der Messung des Abweichungsverhaltens von Merkmalsauspr¨agungen in einem Datensatz. Die Streuung in den Daten resultiert daraus, dass bei Messungen eines Merkmals i.Allg. verschiedene Werte beobachtet werden (z.B. K¨ orpergr¨ oßen in einer Gruppe von Menschen oder erreichte Punktzahlen in einem Examen). Lagemaße erm¨ oglichen zwar die Beschreibung eines zentralen Wertes der Daten, jedoch k¨ onnen zwei Datens¨atze mit gleichem oder nahezu gleichem Lagemaß sehr unterschiedliche Streuungen um den Wert des betrachteten Lagemaßes aufweisen. Streuungsmaße erg¨anzen daher die im Lagemaß enthaltene Information und geben Aufschluss ¨ uber ein solches Abweichungsverhalten. Sie werden unterschieden in diejenigen, die auf • der Differenz zwischen zwei Lagemaßen beruhen (wie z.B. die Spannweite als Differenz von Maximum und Minimum der Daten), solchen, die
34
A Beschreibende Statistik
• die Abweichung zwischen den beobachteten Werten und einem Lagemaß nutzen (wie z.B. die empirische Varianz, die aus den quadrierten Abst¨anden zwischen den Beobachtungen und deren arithmetischem Mittel gebildet wird) und solchen, • die ein Streuungsmaß in Relation zu einem Lagemaß setzen. Zur Interpretation von Streuungsmaßen l¨asst sich festhalten: Je gr¨oßer der Wert eines Streuungsmaßes ist, desto mehr streuen die Beobachtungen. Ist der Wert klein, sind die Beobachtungen eher um einen Punkt konzentriert. Die konkreten Werte eines Streuungsmaßes sind allerdings schwierig zu interpretieren, da in Abh¨angigkeit vom betrachteten Maß und Datensatz v¨ollig unterschiedliche Gr¨oßenordnungen auftreten k¨ onnen. Streuungsmaße sollten daher eher als vergleichende Maßzahlen f¨ ur thematisch gleichartige Datens¨atze verwendet werden. Da alle Streuungsmaße grunds¨atzlich einen Abstandsbegriff voraussetzen, muss zu deren Verwendung ein quantitatives (metrisches) Merkmal vorliegen. Spannweite und Quartilsabstand Die Spannweite (englisch Range) R einer Stichprobe ist die Differenz zwischen dem gr¨ oßten und dem kleinsten Beobachtungswert. Definition A 3.25 (Spannweite). F¨ ur einen metrischen Datensatz x1 , . . . , xn ist die Spannweite R definiert als Differenz von Maximum x(n) und Minimum x(1) : R = x(n) − x(1) .
Regel A 3.26 (Spannweite bei H¨aufigkeitsverteilung). Liegen die Daten in Form einer H¨aufigkeitsverteilung f1 , . . . , fm mit verschiedenen Merkmalsauspr¨agungen u1 , . . . , um des betrachteten Merkmals vor, so kann die Spannweite mittels R = max{uj |j ∈ J} − min{uj |j ∈ J}
berechnet werden, wobei J = {i ∈ {1, . . . , m}|fi > 0} die Menge aller Indizes ist, deren zugeh¨orige relative H¨aufigkeit positiv ist. Definitionsgem¨aß basiert die Spannweite auf beiden extremen Werten, also dem gr¨ oßten und dem kleinsten Wert, in der Stichprobe. Daher reagiert sie empfindlich ¨ auf Anderungen in diesen Werten. Insbesondere haben Ausreißer einen direkten Einfluss auf dieses Streuungsmaß und k¨ onnen m¨oglicherweise zu einem erheblich verf¨alschten Eindruck von der Streuung in den Daten f¨ uhren. Andere Streuungsmaße wie z.B. der im Folgenden vorgestellte Quartilsabstand, der ¨ahnlich wie die Spannweite auf der Differenz zweier Lagemaße basiert, sind weniger empfindlich gegen¨ uber Ausreißern an den R¨andern“ eines Datensatzes. ” Der Quartilsabstand Q berechnet sich als Differenz von oberem Quartil (0,75Quantil) und unterem Quartil (0,25-Quantil) der Daten. Aus der Definition der
A 3 Lage- und Streuungsmaße
35
Quartile folgt, dass im Bereich [
x0,25 ,
x0,75 ], dessen L¨ ange durch den Quartilsabstand beschrieben wird, mindestens 50% aller Beobachtungswerte liegen. Damit ist der Quartilsabstand offenbar ein Maß f¨ ur die Streuung der Daten. Definition A 3.27 (Quartilsabstand). F¨ ur einen metrischen Datensatz x1 , . . . , xn ist der Quartilsabstand Q definiert als Differenz Q=
x0,75 −
x0,25 ,
wobei
x0,75 das obere und
x0,25 das untere Quartil der Daten bezeichnen. ¨ Der Quartilsabstand ver¨andert sich bei einer Anderung der gr¨oßten oder kleinsten Werte (im Gegensatz zur Spannweite) des Datensatzes in der Regel nicht, da diese Werte zur Berechnung nicht herangezogen werden. Dies ist aus der Definition des Quartilsabstands, in die die Daten nur in Form der beiden Quartile eingehen, unmittelbar ersichtlich. Aufgrund dieser Eigenschaft wird der Quartilsabstand auch als robust gegen¨ uber extremen Werten in der Stichprobe bezeichnet. Erwartungsgem¨aß ist der Quartilsabstand h¨ ochstens so groß wie die Spannweite. Regel A 3.28 (Ungleichung zwischen Quartilsabstand und Spannweite). F¨ur den Quartilsabstand Q und die Spannweite R eines Datensatzes gilt Q R. Nun werden Maße betrachtet, die die Streuung im Datensatz auf der Basis der Abst¨ande der beobachteten Werte zu einem Lagemaß beschreiben. Eine wesentliche Voraussetzung zur Definition derartiger Streuungsmaße ist ein geeigneter Abstandsbegriff. Verbreitet sind der Absolutbetrag der Residuen und das Quadrat der Residuen (Abweichungsquadrate) |xi − x|
bzw.
(xi − x)2 .
Daraus ergeben sich durch Summation die (Gesamt-) Streuungsmaße n
|xi − x|
bzw.
i=1
n
(xi − x)2 .
i=1
Meist wird die Variante mit quadratischen Abst¨anden verwendet, da sie in vielen Situationen einfacher zu Hand haben ist und in der Wahrscheinlichkeitsrechnung ein gebr¨auchliches Pendant besitzt, die Varianz. Der Absolutbetrag als Abweichungsmaß wird im Folgenden nicht mit dem arithmetischen Mittel, sondern dem Median als Bezugsgr¨ oße genutzt. Die zugeh¨ orige Gr¨oße n
|xi −
x|
i=1
heißt Summe der absoluten Abweichungen vom Median.
36
A Beschreibende Statistik
Empirische Varianz und empirische Standardabweichung Zun¨achst wird die Summe der Abweichungsquadrate betrachtet. Das Quadrieren der Abweichungen hat zur Folge, dass sehr kleine Abweichungen vom arithmetischen Mittel kaum, große Abweichungen jedoch sehr stark ins Gewicht fallen. Definition A 3.29 (Empirische Varianz). F¨ ur einen metrischen Datensatz x1 , . . . , xn mit zugeh¨ origem arithmetischem Mittel xn heißt 1 1 (xi − xn )2 (x1 − xn )2 + · · · + (xn − xn )2 = n n n
s2n =
i=1
empirische Varianz s2n von x1 , . . . , xn . Ist die Anzahl n der Beobachtungswerte aus dem Kontext klar, so wird auf die Angabe des Index verzichtet, d.h. es wird die Notation s2 verwendet. Die empirische Varianz wird gelegentlich auch als 1 (xi − x)2 n−1 n
s2 =
i=1
eingef¨ uhrt. In der entsprechenden Literatur muss in Formeln unter Verwendung der empirischen Varianz jeweils auf den ver¨anderten Faktor geachtet werden! Regel A 3.30 (Berechnung der empirischen Varianz mittels einer H¨aufigkeitsverteilung). Liegen die Daten in Form einer H¨aufigkeitsverteilung f1 , . . . , fm mit verschiedenen Merkmalsauspr¨agungen u1 , . . . , um des betrachteten Merkmals vor, so kann die empirische Varianz berechnet werden durch s2 = f1 (u1 − x)2 + f2 (u2 − x)2 + · · · + fm (um − x)2 =
m
fj (uj − x)2 .
j=1
F¨ ur die empirische Varianz gilt der so genannte Verschiebungssatz (auch bekannt als Steiner-Regel), mit dessen Hilfe sich u.a. auch eine alternative Berechnungsm¨ oglichkeit herleiten l¨asst. Regel A 3.31 (Steiner-Regel). F¨ ur ein beliebiges a ∈ R erf¨ullt die empirische Varianz s2 der Beobachtungswerte x1 , . . . , xn die Gleichung n 1 2 2 − (x − a)2 . s = (xi − a) n i=1 Durch die spezielle Wahl a = 0 im Verschiebungssatz l¨asst sich die empirische Varianz in einer Form darstellen, die deren Berechnung in vielen Situationen erleichtert.
A 3 Lage- und Streuungsmaße
37
Regel A 3.32 (Alternative Berechnungsformel f¨ ur die empirische Varianz). Die empirische Varianz von Beobachtungswerten x1 , . . . , xn l¨asst sich mittels der Formel n 1 2 2 s = xi − x2 = x2 − x2 n i=1 berechnen. Dabei bezeichnet x2 das arithmetische Mittel der quadrierten Daten x21 , . . . , x2n . Die gemeinsame empirische Varianz zweier Datens¨atze kann ¨ahnlich wie beim arithmetischen Mittel unter Verwendung der empirischen Varianzen der einzelnen Datens¨atze ohne R¨ uckgriff auf die Ausgangsdaten bestimmt werden. Hierbei m¨ ussen aber zus¨atzlich noch die arithmetischen Mittel in beiden Urlisten bekannt sein. Regel A 3.33 (Empirische Varianz bei gepoolten Daten). Seien x bzw. y die arithmetischen Mittel und s2x bzw. s2y die empirischen Varianzen der Datens¨atze x1 , . . . , xn1 und y1 , . . . , yn2 . Die empirische Varianz s2z aller n1 + n2 Beobachtungswerte z1 = x1 , . . . , zn1 = xn1 , zn1 +1 = y1 , . . . , zn1 +n2 = yn2
l¨asst sich bestimmen mittels n1 n2 n1 n2 s2z = s2x + s2y + (x − z)2 + (y − z)2 , n1 + n2 n1 + n2 n1 + n2 n1 + n2 wobei z das arithmetische Mittel des (gepoolten) Datensatzes z1 , . . . , zn1 +n2 ist. Von der empirischen Varianz ausgehend wird ein weiteres Streuungsmaß gebildet, die empirische Standardabweichung. Da die empirische Varianz sich als Summe von quadrierten, also nicht-negativen Werten berechnet und daher selbst eine nicht-negative Gr¨ oße ist, kann die empirische Standardabweichung als (nichtnegative) Wurzel aus der empirischen Varianz definiert werden. Definition A 3.34 (Empirische Standardabweichung). F¨ur Beobachtungswerte x1 , . . . , xn mit zugeh¨ origer empirischer Varianz s2n wird die empirische Standardabweichung sn definiert durch sn = s2n .
Ist der Stichprobenumfang n aus dem Kontext klar, so wird auch die Notation s verwendet. Die empirische Standardabweichung besitzt dieselbe Maßeinheit wie die Beobachtungswerte und eignet sich daher besser zum direkten Vergleich mit den Daten der Stichprobe als die empirische Varianz.
38
A Beschreibende Statistik
Mittlere absolute Abweichung Die bisher vorgestellten Streuungsmaße messen die Streuung in Relation zum arithmetischen Mittel der zu Grunde liegenden Daten. Die mittlere absolute Abweichung ist eine Kenngr¨ oße, die die Abweichungen der Beobachtungsdaten von deren Median zur Messung der Streuung innerhalb eines Datensatzes verwendet. Hierzu werden zun¨achst die Differenzen zwischen jedem Beobachtungswert und dem Median berechnet. Danach werden die Betr¨age dieser Differenzen, die absoluten Abweichungen, gebildet. Definition A 3.35 (Mittlere absolute Abweichung). F¨ur einen metrischen Datenx heißt satz x1 , . . . , xn mit zugeh¨origem Median
1 |xi −
x|. n n
d=
i=1
mittlere absolute Abweichung d vom Median (der Daten x1 , . . . , xn ). Regel A 3.36 (Berechnung der mittleren absoluten Abweichung mittels einer H¨aufigkeitsverteilung). Liegen die Daten in Form einer H¨aufigkeitsverteilung f1 , . . . , fm mit verschiedenen Merkmalsauspr¨ agungen u1 , . . . , um des betrachteten Merkmals vor, so kann die mittlere absolute Abweichung berechnet werden als m d= fj |uj −
x|. j=1
Werden die mittlere absolute Abweichung und die empirische Standardabweichung f¨ ur den selben Datensatz ausgewertet, so liefern beide Streuungsmaße Werte in der selben Einheit. Die Streuungsmaße k¨ onnen daher direkt miteinander verglichen werden. In diesem Zusammenhang ist die folgende Ordnungsbeziehung g¨ ultig. Regel A 3.37 (Ungleichung zwischen empirischer Standardabweichung und mittlerer absoluter Abweichung). F¨ ur die mittlere absolute Abweichung d und die empirische Standardabweichung s eines Datensatzes gilt d s. Variationskoeffizient Das letzte, hier vorgestellte Streuungsmaß wird nur f¨ ur positive Beobachtungsdaten verwendet. Im Gegensatz zu den bisher betrachteten Streuungsmaßen wird beim Variationskoeffizienten die Streuung der Daten in Beziehung zu den absolut gemessenen Werten (in Form von deren Mittelwert) gesetzt. Dies erm¨oglicht eine Messung der Streuung in Relation zur Lage der Daten. Der Variationskoeffizient V berechnet sich als der Quotient aus empirischer Standardabweichung und arithmetischem Mittel.
A 3 Lage- und Streuungsmaße
39
Definition A 3.38 (Variationskoeffizient). Seien x arithmetisches Mittel und s empirische Standardabweichung eines metrischen Datensatzes x1 , . . . , xn > 0. Der Variationskoeffizient V ist definiert durch den Quotienten s V= . x Der Variationskoeffizient eignet sich besonders zum Vergleich der Streuung von Datens¨atzen, deren Merkmalsauspr¨agungen sich hinsichtlich der Gr¨oßenordnung stark unterscheiden. Er ist auch das einzige hier eingef¨ uhrte Streuungsmaß, mit dem Datens¨atze, die in unterschiedlichen Einheiten gemessen wurden, ohne Umrechnungen verglichen werden k¨ onnen. Die Division bei der Berechnung des Variationskoeffizienten bewirkt, dass sich die jeweiligen Einheiten k¨ urzen“, d.h. der ” Variationskoeffizient ist eine Zahl ohne Einheit“. Daher wird er auch als dimen” sionslos bezeichnet. A 3.4 Lage- und Streuungsmaße bei linearer Transformation Eine wichtige Transformation von Daten ist die lineare Transformation. Definition A 3.39 (Lineare Transformation, linear transformierter Datensatz). F¨ur Zahlen a, b ∈ R heißt die Vorschrift y = a + bx,
x ∈ R,
lineare Transformation. Die Anwendung einer linearen Transformation y = a + bx auf den metrischskalierten Datensatz x1 , . . . , xn liefert den linear transformierten Datensatz y1 , . . . , yn mit yi = a + bxi ,
i ∈ {1, . . . , n}.
Einige der in den vorhergehenden Abschnitten vorgestellten Lage- und Streuungsmaße zeigen bzgl. linearer Transformation ein n¨ utzliches Verhalten, das in der folgenden Regel zusammengefasst wird. Regel A 3.40 (Regeln bei linearer Transformation der Daten). Seien a, b ∈ R und y1 , . . . , yn ein linear transformierter Datensatz von x1 , . . . , xn : yi = a + bxi ,
i ∈ {1, . . . , n}.
Dann gilt:
= a + b
(i) y x, (ii) y = a + bx,
(iii) s2y = b2 s2x , (iv) sy = |b| · sx ,
(v) dy = |b|dx ,
wobei s2x , s2y , sx , sy , dx , dy die zum jeweiligen Datensatz geh¨origen Streuungsmaße bezeichnen.
40
A Beschreibende Statistik
Eine einfache Methode, Abweichungen der Beobachtungswerte zu beschreiben, ist die Zentrierung der Daten am arithmetischen Mittel. Definition A 3.41 (Zentrierung, Residuum). F¨ ur Beobachtungswerte x1 , . . . , xn eines metrischen Merkmals heißt die lineare Transformation yi = xi − x,
i ∈ {1, . . . , n},
Zentrierung. Die transformierten Daten y1 , . . . , yn werden als zentriert (oder als Residuen) bezeichnet. Aus Regel A 3.40 ergibt sich die folgende Eigenschaft zentrierter Daten. Regel A 3.42 (Arithmetisches Mittel zentrierter Daten). Ist y1 , . . . , yn der zum Datensatz x1 , . . . , xn geh¨orende zentrierte Datensatz, so gilt f¨ur das zugeh¨orige arithmetische Mittel y = 0. Sollen Beobachtungswerte aus verschiedenen Messreihen direkt miteinander verglichen werden, so ist es sinnvoll, zus¨atzliche Informationen ¨uber Lage und Streuung der jeweiligen Daten zu ber¨ ucksichtigen. Die Verwendung standardisierter Daten bietet sich an. Definition A 3.43 (Standardisierung). Seien x1 , . . . , xn Beobachtungswerte mit positiver empirischer Standardabweichung sx > 0 und arithmetischem Mittel x. Die lineare Transformation zi =
xi − x , sx
i ∈ {1, . . . , n},
der Daten heißt Standardisierung. Die transformierten Daten z1 , . . . , zn werden als standardisiert bezeichnet. Durch eine Standardisierung k¨ onnen unterschiedliche Datens¨atze so transformiert werden, dass die arithmetischen Mittelwerte und die Standardabweichungen in allen Datens¨atzen gleich sind. Regel A 3.44 (Eigenschaften standardisierter Daten). F¨ur standardisierte Beobachtungswerte z1 , . . . , zn gilt z = 0 und sz = 1. A 3.5 Box-Plots Ein Box-Plot ist eine einfache grafische Methode zur Visualisierung der Lage und Streuung eines Datensatzes und eignet sich daher besonders zum optischen Vergleich mehrerer Datens¨atze. Die Lage- und Streuungsmaße, die im Box-Plot Verwendung finden, k¨ onnen unterschiedlich gew¨ahlt werden, so dass das vorgestellte Beispiel nur als Eines unter Vielen zu betrachten ist.
A 3 Lage- und Streuungsmaße
41
Ein Box-Plot besteht aus einem Kasten ( box“) und zwei Linien ( whiskers“), ” ” die links und rechts von diesem Kasten wegf¨ uhren. Eine Achse gibt an, welche Skalierung der Daten vorliegt. Bei der Basisvariante des Box-Plots werden der linke Rand des Kastens durch das untere Quartil
x0,25 , der rechte Rand durch das obere Quartil
x0,75 festgelegt. Der Abstand zwischen dem linken und rechten Rand des Kastens ist somit gleich dem Quartilsabstand Q. Im Innern des Kastens wird der Median
x der Beobachtungswerte markiert. Der linke Whisker endet beim Minimum x(1) des Datensatzes, der rechte beim Maximum x(n) . Der Abstand zwischen den beiden ¨außeren Enden der Linien ist daher durch die Spannweite gegeben. .......................................................................................................................... ... .. .. ... ... ... .. .. ... ................................................................................................................................. ................................................................... ... ... ... .. .. ... ... ... . . . ....................................................................................................................
x0,25
x(1)
x0,75
x
Minimum Median unteres Quartil
x(n)
Maximum oberes Quartil Skala
Beispiel A 3.45 (K¨ orpergr¨ oße). Bei einer Messung der K¨orpergr¨oßen von Frauen und M¨annern wurde der folgende zweidimensionale Datensatz ermittelt, in dem in jeder Beobachtung jeweils die erste Komponente die Gr¨oße (in cm) und die zweite Komponente das Geschlecht (m¨annlich/weiblich (m/w)) angibt: (154,w) (166,w) (187,m) (172,w)
(181,m) (158,w) (191,m) (168,m)
(182,m) (169,w) (192,m) (180,w)
(174,m) (175,m) (171,w) (183,w)
(166,w) (165,m) (172,w) (183,m)
F¨ ur den Datensatz werden – getrennt nach Geschlechtern – die zur Konstruktion des Box-Plots ben¨ otigten Lagemaße berechnet. Minimum unteres Quartil Median oberes Quartil Maximum Frauen M¨anner
154 165
166 174
170 181,5
172 187
183 192
Aus einer Darstellung dieser Parameter mittels Box-Plots kann in einfacher Weise ¨ ein Uberblick u ¨ber Unterschiede zwischen beiden Gruppen gewonnen werden.
42
A Beschreibende Statistik M¨ anner
................................................................................................. ... ... ... .. ... .. .. . .......................................... ...................................................................... ... . . .. ... ... .... ... ... .............................................................................................
Frauen
................................................. ... ... .. .. . ... ............................................................................................ ..................................................................................... ... ... .. .. . .. .. ... ....................................................
160
170
180
190
200
K¨ orpergr¨ oße [in cm]
A 4 Klassierte Daten und Histogramm Zentraler Aspekt dieses Abschnitts sind Methoden zur (grafischen) Aufbereitung quantitativer Daten, die auf einer Klassierung der Urliste beruhen. Dies bedeutet, dass die Beobachtungswerte in Klassen zusammengefasst und die resultierenden ¨ Daten dann weiterverarbeitet werden. Ziel ist es, aussagekr¨aftige Ubersichten u ¨ber die Verteilung“ der Daten zu erhalten. ” A 4.1 Klassenbildung Durch die Zusammenfassung von Daten x1 , . . . , xn in Klassen K1 , . . . , KM entsteht ein Datenmaterial, das als klassiert oder kategorisiert bezeichnet wird. Der zugeh¨ orige Datensatz heißt klassierter Datensatz. Die resultierenden Daten selbst werden als klassiert bezeichnet. Wesentlich ist, dass jedes Datum xi eindeutig einer Klasse Kj zugeordnet werden kann. Dies bedeutet insbesondere, dass der Schnitt zweier Klassen leer sein muss (d.h. sie sind disjunkt) und dass die Vereinigung aller Klassen den Wertebereich des betrachteten Merkmals ¨uberdeckt. Im Hinblick auf die hier vorgestellten grafischen Methoden werden nur Intervalle als Klassen betrachtet, obwohl der Vorgang der Klassierung nat¨ urlich allgemeinere Mengen zul¨asst. Eine Klassierung kann sinnvoll bei der Darstellung von Daten eines quantitativen Merkmals eingesetzt werden. Aufgrund der Struktur stetiger Datens¨atze eignet sie sich besonders zur deren Aufbereitung. Eine Strukturierung der Daten erlaubt deren leichtere Analyse und erm¨ oglicht eine aussagekr¨aftige grafische Aufbereitung. Zur Umsetzung der Klassierung wird der Bereich, in dem alle Auspr¨agungen des betrachteten Merkmals zu finden sind, in eine vorgegebene Anzahl M von Intervallen (Klassen) eingeteilt. Die L¨angen dieser Intervalle werden als Klassenbreiten bezeichnet. Jedem Datum wird dann diejenige Klasse zugeordnet, in der es enthalten ist. Die auf diese Weise neu konstruierten Daten k¨onnen als Auspr¨agungen oglichen Merkmalsauspr¨agungen (den eines ordinalskalierten Merkmals mit M m¨
A 4 Klassierte Daten und Histogramm
43
Klassen) interpretiert werden. In vielen Erhebungen sind nur klassierte Daten f¨ ur gewisse Merkmale verf¨ ugbar (z.B. Einkommen). Im Allgemeinen werden die Beobachtungswerte als in einem abgeschlossenen Intervall [a, b] liegend angesehen. Die Intervalle der einzelnen Klassen werden nach links offen und nach rechts abgeschlossen (also mit Intervallgrenze) gew¨ahlt, um das gesamte Intervall abzudecken, d.h. es wird eine Zerlegung des Intervalls [a, b] in M Teilintervalle K1 = [v0 , v1 ], K2 = (v1 , v2 ], . . . , KM = (vM−1 , vM ]
mit a = v0 und b = vM vorgenommen.
a = v0 v1 v2
v3
...
...
vM−1
vM = b
Die erste Klasse nimmt eine besondere Rolle ein, das entsprechende Intervall ist n¨amlich sowohl nach rechts als auch nach links abgeschlossen. Die Differenzen bj = vj − vj−1 , j ∈ {1, . . . , M}, sind die jeweiligen Klassenbreiten. Definition A 4.1 (Zerlegung). Eine Einteilung des Wertebereichs [a, b] in Intervalle K1 = [v0 , v1 ], K2 = (v1 , v2 ], . . . , KM = (vM−1 , vM ] mit a = v0 < v1 < · · · < vM−1 < vM = b heißt Zerlegung von [a, b]. Manchmal ist es zweckm¨aßig, unbeschr¨ankte Intervalle zu betrachten. Kann z.B. ein Merkmal (theoretisch) unbeschr¨ankt große Werte (Jahresumsatz, monatliches Einkommen, etc.) annehmen, so ist es sinnvoll, das Intervall der letzten Klasse als nach oben unbeschr¨ankt, d.h. als ein Intervall der Form KM = (vM−1 , ∞), zu definieren. Analog sind auch F¨alle denkbar, in denen die erste Klasse nicht nach unten beschr¨ankt ist und dementsprechend K1 = (−∞, v1 ] gew¨ahlt wird. Klassen, die zu solchen nicht beschr¨ankten Intervallen geh¨oren, werden als offene Klassen bezeichnet. F¨ ur klassierte Daten werden absolute H¨aufigkeiten der einzelnen Klassen durch Summierung der absoluten H¨aufigkeiten aller verschiedenen Merkmalsauspr¨agungen, die in der jeweiligen Klasse enthalten sind, gebildet. Die relativen H¨aufigkeiten der Klassen ergeben sich analog als Summe der entsprechenden relativen Einzelh¨aufigkeiten. Definition A 4.2 (Klassenh¨aufigkeiten). Der Datensatz x1 , . . . , xn ∈ [a, b] habe die verschiedenen Merkmalsauspr¨agungen u1 , . . . , um mit absoluten H¨aufigkeiten n1 , . . . , nm und relativen H¨ aufigkeiten f1 , . . . , fm . Die absoluten H¨aufigkeiten der Zerlegung K1 , . . . , KM von [a, b] in Klassen sind definiert als n(Kj ) = nk , j ∈ {1, . . . , M}. k∈{1,...,m}:uk ∈Kj
44
A Beschreibende Statistik
Die relativen H¨aufigkeiten der Klassen K1 , . . . , KM sind definiert als f(Kj ) =
n(Kj ) = n
fk ,
j ∈ {1, . . . , M}.
k∈{1,...,m}:uk ∈Kj
Wie bei gew¨ ohnlichen absoluten und relativen H¨aufigkeiten addieren sich auch bei klassierten Daten die absoluten H¨aufigkeiten zur Anzahl n aller Beobachtungen; die Summe der relativen H¨aufigkeiten ergibt Eins: M
M
n(Kj ) = n,
j=1
f(Kj ) = 1.
j=1
F¨ ur j = 1 gilt unter Verwendung der Indikatorfunktion n(K1 ) =
n
1I[v0 ,v1 ] (xi )
i=1
und f¨ ur jedes j ∈ {2, . . . , M} n(Kj ) =
n
1I(vj−1 ,vj ] (xi ).
i=1
Eine H¨aufigkeitsverteilung f¨ ur klassierte Daten wird analog zum entsprechenden Begriff f¨ ur die Beobachtungen der Urliste eingef¨ uhrt, d.h. die H¨aufigkeitsverteilung eines klassierten Datensatzes ist die Auflistung der relativen H¨aufigkeiten der aufgetretenen Klassen. Die H¨aufigkeitsverteilung gibt dar¨ uber Aufschluss, wie die Merkmalsauspr¨agungen bezogen auf die gew¨ahlte Klasseneinteilung im Datensatz verteilt sind. A 4.2 Histogramm In Datens¨atzen ist es m¨ oglich, dass sehr viele verschiedene Beobachtungswerte vorliegen. Bei der Messung eines stetigen Merkmals ist es beispielsweise nicht ungew¨ ohnlich, dass alle Beobachtungswerte verschieden sind. F¨ ur eine grafische Darstellung solcher Daten sind Diagramme, die auf der H¨aufigkeitsverteilung der Beobachtungswerte x1 , . . . , xn basieren (wie z.B. Stab- oder S¨aulendiagramme), in der Regel ungeeignet. Die H¨aufigkeitstabelle f¨ uhrt in diesem Fall nicht zu einer komprimierten und damit ¨ ubersichtlicheren Darstellung der Daten. Einen Ausweg aus dieser Problematik bildet die Klassierung solcher Daten. Hierbei werden (unter Inkaufnahme eines gewissen Informationsverlusts) die Merkmalsauspr¨agungen in Klassen zusammengefasst. Die H¨aufigkeiten der einzelnen Klassen k¨ onnen dann f¨ ur eine grafische Darstellung herangezogen werden. F¨ ur Klassierungen des Wertebereichs in Intervalle steht das Histogramm als grafisches Hilfsmittel zur Verf¨ ugung.
A 4 Klassierte Daten und Histogramm
45
Im Folgenden wird eine Zerlegung des Wertebereichs in Intervalle vorgenommen, wobei die erste und letzte Klasse keine offenen Klassen sein d¨ urfen. Die Klassen seien durch die Intervalle K1 = [v0 , v1 ], K2 = (v1 , v2 ], . . . , KM = (vM−1 , vM ],
deren Klassenbreiten durch b1 = v1 − v0 , . . . , bM = vM − vM−1 und deren relative Klassenh¨aufigkeiten durch f(K1 ), . . . , f(KM ) gegeben. Bezeichnung A 4.3 (Histogramm). Ein Diagramm wird als Histogramm bezeichnet, wenn es auf folgende Weise konstruiert wird: Auf einer horizontalen Achse ¨ jedem Inwerden die Klassengrenzen v0 , . . . , vM der Intervalle abgetragen. Uber tervall Kj wird ein Rechteck gezeichnet, dessen Breite gleich der L¨ange des Intervalls, also der Klassenbreite bj , ist. Die H¨ohe hj des Rechtecks berechnet sich gem¨aß der Formel hj =
relative H¨aufigkeit der zum Intervall geh¨origen Klasse f(Kj ) = . L¨ange des Intervalls bj
Grafisch kann das Konstruktionsprinzip der Histogramms¨aulen folgendermaßen dargestellt werden: hj
bj
Fl¨ache f(Kj )
vj−1
Kj
⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭
hj
vj
In dem oben konstruierten Histogramm ist der Fl¨acheninhalt eines Rechtecks gleich der relativen H¨aufigkeit der zugeh¨ origen Klasse: Fl¨acheninhalt des Rechtecks der Klasse Kj = bj hj = f(Kj ). Aus Gr¨ unden der Darstellung kann ein Proportionalit¨atsfaktor c > 0 eingef¨ uhrt werden, der etwa eine Skalierung der Achsen erm¨oglicht. Unter Verwendung eines Proportionalit¨atsfaktors sind die Fl¨acheninhalte der Rechtecke proportional zu den relativen H¨aufigkeiten der Klassen, d.h. Fl¨acheninhalt des Rechtecks der Klasse Kj = cbj hj = cf(Kj ). Dies ist beispielsweise dann der Fall, wenn an Stelle der relativen Klassenh¨aufigkeiten f(Kj ) in der Definition der H¨ ohen der Rechtecke die absoluten Klassenh¨aufigkeiten n(Kj ) verwendet werden (Proportionalit¨atsfaktor c = n).
46
A Beschreibende Statistik
Das Histogramm ist ein Fl¨achendiagramm, d.h. die zu visualisierenden Gr¨oßen (in diesem Fall die H¨aufigkeiten) werden im Diagramm proportional zu einer Fl¨ache dargestellt. Hierdurch unterscheidet sich das Histogramm von Diagrammformen wie dem Stab- oder S¨aulendiagramm, in denen die relevanten Informationen durch H¨ ohen beschrieben werden. Da in S¨aulendiagrammen alle S¨aulen die selbe Breite haben, sind sowohl die H¨ ohen als auch die Fl¨achen der S¨aulen proportional zur relativen H¨aufigkeit. Regel A 4.4 (Gesamtfl¨ache des Histogramms). In einem Histogramm, das unter Verwendung eines Proportionalit¨atsfaktors c > 0 konstruiert wurde, hat die Gesamtfl¨ache aller Rechtecke im Diagramm den Fl¨acheninhalt c. Ohne Verwendung eines Proportionalit¨atsfaktors (d.h. f¨ ur c = 1) ist die Gesamtfl¨ache der S¨aulen des Histogramms gleich Eins. Werden in einem Histogramm an Stelle der relativen die absoluten H¨aufigkeiten zur Darstellung verwendet, so addieren sich die Fl¨acheninhalte der Rechtecke zur Gesamtzahl aller Beobachtungen. Bei ¨aquidistanten Klassengrenzen (d.h. die Klassenbreiten aller Klassen sind gleich) sind auch die H¨ ohen der Rechtecke proportional zu den H¨aufigkeiten der Klassen. Mittels Einsetzen der Klassenbreiten b1 = b2 = · · · = bM = b liefert die obige Formel Fl¨acheninhalt des Rechtecks der Klasse Kj = bhj = f(Kj ), so dass die H¨ ohen der Rechtecke hj = b1 f(Kj ) betragen, j ∈ {1, . . . , M}. In diesem Fall ist das Histogramm also auch ein H¨ ohendiagramm. Es unterscheidet sich von einem S¨aulendiagramm lediglich dadurch, dass die S¨aulen ohne Zwischenr¨aume gezeichnet werden. F¨ ur klassierte Daten (die Klassen zerlegen den Wertebereich und grenzen daher aneinander) ist das Histogramm einem S¨aulendiagramm vorzuziehen, das sich prim¨ar f¨ ur nominale und ordinale Merkmale eignet. Beispiel A 4.5. Die Gesch¨aftsf¨ uhrung eines Unternehmens ist zur Planung des Personalbedarfs an den Fehltagen ihrer 50 MitarbeiterInnen im vergangenen Jahr interessiert (z.B. durch Krankheit oder Fortbildung) und erstellt die folgende Urliste des Merkmals Anzahl Fehltage: 6 0 11 20 4 10 15 10 13 5 19 14 2 10 8 12 10 9 18 24 16 22 8 13 1 4 12 15 10 18 8 14 10 6 16 9 7 12 4 14 6 10 0 17 9
3 6 5 12 11
¨ Um einen Uberblick u ¨ber die Daten zu bekommen wird ein Histogramm erstellt. Zu diesem Zweck werden die Daten zun¨achst den sechs Klassen K1 = [0, 4], K2 = (4, 8], . . . , K6 = (20, 24]
A 4 Klassierte Daten und Histogramm
47
mit den Klassenbreiten b1 = · · · = b6 = 4 zugeordnet. Die absoluten bzw. relativen Klassenh¨aufigkeiten n(Kj ) bzw. f(Kj ) sind in der folgenden H¨aufigkeitstabelle zusammengefasst. In der letzten Spalte sind die H¨ohen hj der Rechtecke angej) geben, die sich als Quotient f(K aus relativer H¨aufigkeit f(Kj ) und zugeh¨origer bj Klassenbreite bj berechnen. Nr. Klasse j Kj 1 2 3 4 5 6
H¨aufigkeiten Klassenbreite Klassenh¨ohe bj hj
n(Kj ) f(Kj )
[0, 4] (4, 8] (8, 12] (12, 16] (16, 20] (20, 24]
8 10 16 9 5 2
0,16 0,20 0,32 0,18 0,10 0,04
4 4 4 4 4 4
0,040 0,050 0,080 0,045 0,025 0,010
Mit Hilfe dieser Daten wird das Histogramm in Abbildung A 4.1 erstellt.
0,08 0,06 0,04 0,02
Fehltage
0 0
4
8
12
16
20
24
Abb. A 4.1. Histogramm.
Liegt die Urliste vor, so k¨ onnen die Beobachtungswerte eines metrischen Merkmals in unterschiedlicher Weise klassiert werden, d.h. die Anzahl der Klassen und die L¨angen der Intervalle k¨ onnen prinzipiell beliebig gew¨ahlt werden (unter Ber¨ ucksichtigung der Bedingung, dass die Klasseneinteilung das gesamte Datenmaterial u ¨berdecken muss). Um eine geeignete Darstellung der Daten zu erhalten, sollten jedoch einige Punkte beachtet werden. Ist die Anzahl der Klassen zu groß gew¨ahlt, so ist es m¨oglich, dass das Diagramm zergliedert wirkt, da viele Klassen keine oder nur wenige Beobachtungen enthalten. Werden jedoch zu wenige Klassen verwendet, tritt eventuell ein großer Informationsverlust auf – die Darstellung ist zu grob. Unterschiedliche H¨aufungen von
48
A Beschreibende Statistik
Beobachtungswerten in einem Bereich k¨ onnen dann in einer Klasse verschluckt“ ” werden. Beispiel A 4.6 (Autobahnbaustelle). Im Bereich einer Autobahnbaustelle mit einer erlaubten H¨ ochstgeschwindigkeit von 60km/h wurden auf beiden Fahrspuren Geschwindigkeitsmessungen an insgesamt 100 Fahrzeugen vorgenommen. In der ¨ folgenden Urliste geh¨ oren die ersten 60 Daten zu Messungen auf der Uberholspur, die restlichen 40 Werte wurden auf der rechten Spur gemessen. 85 80 77 81 81 90
72 83 86 82 85 77
82 80 74 88 83 71
78 78 73 82 76 76
78 88 97 70 83 70
98 96 74 94 80 80
87 88 72 74 82 71
85 82 79 90 84 85
78 87 81 73 77 90
80 74 77 93 68 77
62 48 59 58
52 60 65 45
60 63 47 44
55 56 58 62
59 48 48 59
75 49 56 56
59 53 52 69
41 53 52 50
58 53 55 55
61 50 69 54
Zur Visualisierung aller Daten im Histogramm wird zun¨achst eine relativ grobe Einteilung der Daten in die Klassen [40, 55], (55,70], (70,85] und (85,100] (jeweils mit der selben Klassenbreite 15) vorgenommen. Auf der Basis der folgenden Klassenh¨aufigkeiten Klasse
[40, 55] (55, 70] (70, 85] (85, 100]
absolute Klassenh¨aufigkeit
20
22
44
14
ergibt sich das Histogramm in Abbildung A 4.2.
0,04 0,03 0,02 0,01
km/h
0 0
10
20
30
40
50
60
70
80
90 100
Abb. A 4.2. Histogramm mit Klassenbreite 15.
Wird die feinere Klasseneinteilung [40, 44], (44, 48], . . . , (96, 100] (jeweils mit gleicher Klassenbreite Vier) gew¨ahlt, so resultiert zun¨achst die H¨aufigkeitstabelle:
A 4 Klassierte Daten und Histogramm
Klasse
[40, 44] (44, 48] (48, 52] (52, 56] (56, 60]
n(Kj )
Klasse
2
5
6
10
9
(60, 64] (64, 68] (68, 72] (72, 76] (76, 80]
n(Kj )
Klasse
49
4
2
8
9
15
(80, 84] (84, 88] (88, 92] (92, 96] (96, 100]
n(Kj )
12
10
3
3
2
Das zugeh¨ orige Histogramm ist in Abbildung A 4.3 dargestellt.
0,04 0,03 0,02 0,01
km/h
0 0
10
20
30
40
50
60
70
80
90 100
Abb. A 4.3. Histogramm mit Klassenbreite 4.
Im Gegensatz zum Histogramm in Abbildung A 4.2 sind deutlich zwei Maxima der H¨aufigkeitsverteilung zu erkennen, die vorher aufgrund der zu groben Aufteilung verborgen waren. Diese Gestalt des Histogramms kann in diesem Fall damit begr¨ undet werden, dass die Geschwindigkeit auf der rechten Spur deutlich geringer ¨ ist als auf der Uberholspur. Die H¨aufigkeitsverteilung der Geschwindigkeiten er¨ gibt sich also durch eine Uberlagerung zweier H¨aufigkeitsverteilungen (die jeweils nur ein ausgepr¨agtes Maximum aufweisen; s. Abbildung A 4.4). ¨ Bei der Wahl der Klassenzahl ist also ein Kompromiss zwischen Ubersichtlichkeit und Informationsverwertung zu treffen. Hierf¨ ur werden unterschiedliche Faustregeln vorgeschlagen. Eine dieser Regeln besagt, dass die Anzahl der Klassen nicht die Wurzel aus der Anzahl aller Beobachtungswerte ¨ubersteigen sollte, d.h. bei √ n Beobachtungen sollten h¨ ochstens n Klassen betrachtet werden. Eine andere Faustregel basiert auf dem dekadischen Logarithmus log10 . Nach dieser Regel sollte als obere Schranke f¨ ur die Anzahl der Klassen 10 · log10 (n) verwendet werden. Zu entsprechenden Aussagen siehe Fahrmeir et al. (2007). Die L¨angen der Intervalle, d.h. die Klassenbreiten, sollten zu Beginn einer Analyse gleich gew¨ahlt werden, da in diesem Fall die H¨ ohen der Rechtecke proportional zu den Klassenh¨aufigkeiten sind und das Histogramm daher als H¨ohendiagramm interpretiert werden kann. Wenn die in den Daten enthaltene Information jedoch besser ausgewertet werden soll, k¨ onnen in Bereichen, in denen wenige Beobachtungen liegen (z.B. an den R¨andern“ des Datensatzes), große Klassenbreiten ”
50
A Beschreibende Statistik
0,07 0,06 0,05 0,04 0,03 0,02 0,01 0
0,07 0,06 0,05 0,04 0,03 0,02 0,01 0 0 10 20 30 40 50 60 70 80 90
(a) Daten rechte Spur
km/h 0 10 20 30 40 50 60 70 80 90
¨ (b) Daten Uberholspur
Abb. A 4.4. Histogramme mit Klassenbreite 5.
verwendet werden, w¨ahrend in Bereichen mit vielen Beobachtungen kleine Intervalle gew¨ahlt werden. Unabh¨angig von diesen Empfehlungen sollte im Wesentlichen der unmittelbare optische Eindruck eines Histogramms (aufgrund mehrerer Darstellungen mit unterschiedlichen Klassen und Klassenzahlen) dar¨ uber entscheiden, ob die in den Daten enthaltene Information ad¨aquat wiedergegeben wird oder nicht. Aus der Darstellung eines (klassierten) Datensatzes in einem Histogramm k¨onnen bestimmte Eigenschaften der H¨aufigkeitsverteilung abgelesen werden. Abh¨angig von der Gestalt des Diagramms werden H¨aufigkeitsverteilungen der Klassen daher bestimmte Bezeichnungen zugeordnet. Existiert im Histogramm nur ein lokales (und daher auch globales) Maximum (der Modus des zu Grunde liegenden ordinalskalierten Datensatzes ist eindeutig), d.h. es gibt nur einen Gipfel und sowohl links als auch rechts davon f¨allt die H¨aufigkeitsverteilung monoton, so wird von einer unimodalen H¨aufigkeitsverteilung (auch eingipfligen) gesprochen. Ist dies nicht der Fall, d.h. liegen mehrere lokale Maxima im Histogramm vor, so wird die H¨aufigkeitsverteilung der Klassen als multimodal (auch mehrgipflig) bezeichnet. Treten genau zwei Gipfel auf, wird speziell auch die Bezeichnung bimodal verwendet.
unimodale H¨ aufigkeitsverteilung
bimodale H¨ aufigkeitsverteilung
Bei einer multimodalen Verteilung ist Vorsicht bei der Interpretation von Lagemaßen geboten, da Lagemaße meist der Beschreibung eines Zentrums der Daten dienen. Bei einer bimodalen Verteilung ist es m¨ oglich, dass der gr¨oßte Teil der Beobachtungen um zwei Gipfel konzentriert ist, die sich links und rechts neben
A 5 Konzentrationsmessung
51
dem Wert befinden, der z.B. vom arithmetischen Mittel oder vom Median geliefert wird. Wird also bei der Beschreibung eines Datensatzes auf eine grafische Darstellung verzichtet, so kann eventuell ein falscher Eindruck vom Zentrum der Daten entstehen. Beispiel A 4.7. Im Beispiel Autobahnbaustelle wurde eine bimodale H¨aufigkeitsverteilung festgestellt, die durch Zusammenfassung zweier Datens¨atze mit (nahezu) unimodalen H¨aufigkeitsverteilungen entstand. F¨ ur das arithmetische Mittel x = 74. Der grafischen und den Median dieser Daten ergibt sich x = 70,9 und
Darstellung im Histogramm ist aber zu entnehmen, dass sich die Beobachtungen eher in den Bereichen der Geschwindigkeiten 55 und 80 konzentrieren. Zur Veranschaulichung des Effekts k¨ onnen die Histogramme f¨ ur die Teilpopulationen ¨ (rechte Spur, Uberholspur) herangezogen werden. Unimodale Verteilungen k¨ onnen noch detaillierter unterschieden werden. Ist die Darstellung der H¨aufigkeitsverteilung ann¨ahernd spiegelsymmetrisch zu einer senkrechten Achse, so heißt die Verteilung symmetrisch. Ist hingegen ein großer Anteil der Daten eher auf der linken oder rechten H¨alfte des Histogramms konzentriert, so wird von einer schiefen Verteilung gesprochen. Sie heißt rechtsschief, falls sich der Gipfel auf der linken Seite des Histogramms befindet und die H¨aufigkeiten nach rechts abfallen. Im umgekehrten Fall heißt eine Verteilung linksschief.
A 5 Konzentrationsmessung In der Wirtschaft wird von einer zunehmenden Konzentration in einem Markt oder Marktsegment gesprochen, wenn ein zunehmend gr¨oßerer Marktanteil auf immer weniger Unternehmen entf¨allt: einige wenige Anbieter beherrschen den Markt. Im Extremfall gibt es nur einen Anbieter, der den gesamten Markt bedient; es liegt ein Monopol vor. In einer Marktwirtschaft ist es besonders wichtig, Konzentrationstendenzen zu erkennen und starke Konzentrationen in gewissen M¨arkten mit dem Ziel der Aufrechterhaltung eines Wettbewerbs zu verhindern. Daher ist es f¨ ur einen Markt oder ein Marktsegment von Bedeutung, wie viel Prozent der Anbieter welchen (einen vorgegebenen) Marktanteil haben, und ob m¨oglicherweise ein großer Teil des Umsatzes auf nur wenige Anbieter entf¨allt. Andere Anwendungsfelder sind beispielsweise die Verteilung von Umsatz innerhalb einer Unternehmung bzw. eines Konzerns, die Verteilung von Wertpapierbesitz, die Verteilung der Gr¨ oße landwirtschaftlicher Betriebe, die Verteilung von Einkommen auf eine (Teil-) Bev¨ olkerung, etc. Als ein statistisches Werkzeug zur grafischen Darstellung einer solchen Situation und zur Visualisierung von Konzentrationstendenzen wird die Lorenz-Kurve verwendet. Zudem ist, z.B. in der Wirtschaftspolitik, die Beschreibung der Konzentration durch eine Maßzahl erw¨ unscht. Allgemeiner l¨asst sich sagen, dass die Lorenz-Kurve und zugeh¨orige Konzentrationsmaße dann sinnvoll zur Veranschaulichung der beobachteten Auspr¨agungen
52
A Beschreibende Statistik
eines Merkmals herangezogen werden k¨ onnen, wenn dieses nicht-negative Daten liefert und extensiv ist. Als extensiv wird ein quantitatives Merkmal bezeichnet, wenn zus¨atzlich die Summe von erhobenen Daten dieses Merkmals eine eigenst¨andige Bedeutung hat. Beispielsweise hat die Summe aller Ums¨atze von Unternehmen in einem Marktsegment eine eigene Bedeutung. Die Konzentrationsmaße dienen dann der Messung des Grades der Gleichheit bzw. Ungleichheit der Merkmalswerte. In diesem Abschnitt sei daher stets ein extensives Merkmal X mit beobachteten n xi > 0 sein, um den Auspr¨agungen x1 , . . . , xn 0 gegeben. Zus¨atzlich soll i=1
Trivialfall x1 = . . . = xn = 0 auszuschließen.
Beispiel A 5.1 (Marktentwicklung). In den Jahren 1970, 1980, 1990 und 2000 wurde jeweils der Umsatz von vier Anbietern A, B, C und D in einem Marktsegment erhoben: Ums¨atze (in Mio. e) A B C D Summe
1970 1980 1990 2000 25 25 25 25
20 10 40 30
10 10 50 30
0 0 100 0
100 100 100 100
In diesem Beispiel bleibt zwar der Gesamtumsatz (hier zur besseren Vergleichbarkeit und zur Vereinfachung) konstant, offensichtlich liegen aber unterschiedliche Marktsituationen in den verschiedenen Jahren vor. Die Situation im Jahr 1970 w¨ urde mit Gleichverteilung“ beschrieben, w¨ahrend die Aufteilung im Jahr 1990 ” einer starken Konzentration gleich k¨ame; denn 50% der umsatzst¨arksten Anbieter (n¨amlich C und D) haben einen Anteil von 80% des Umsatzes im betrachteten Marktsegment. Im Jahr 2000 liegt schließlich die Monopolsituation vor. Das Beispiel zeigt somit eine mit der Zeit zunehmende Konzentration. An diesem Beispiel und seiner Interpretation wird bereits deutlich, dass die Konzentrationsmessung und die grafische Veranschaulichung (in Form der LorenzKurve) dann gewinnbringend eingesetzt werden k¨onnen, wenn eine relativ große, un¨ ubersichtliche Anzahl von Beobachtungswerten eines Merkmals vorliegt. In diesem Abschnitt sind bewusst kleine Beispiele gew¨ahlt, um die Effekte besser zu verdeutlichen. Zun¨achst wird die grafische Darstellung zur Beschreibung der Konzentration eingef¨ uhrt. Daraus wird eine geeignete Kenngr¨ oße, der Gini-Koeffizient, geometrisch abgeleitet und zum Vergleich von Datens¨atzen mit m¨oglicherweise unterschiedlichen Anzahlen von Beobachtungen modifiziert. Da es Situationen gibt, die auf unterschiedliche Lorenz-Kurven, aber auf denselben Wert des Gini-Koeffizienten f¨ uhren, ist die Einf¨ uhrung weiterer Kenngr¨ oßen sinnvoll (z.B. Herfindahl-Index).
A 5 Konzentrationsmessung
53
A 5.1 Lorenz-Kurve F¨ ur Beobachtungen x1 , . . . , xn 0 eines extensiven Merkmals X (z.B. Umsatz) wird die Lorenz-Kurve folgendermaßen konstruiert. Bezeichnung A 5.2 (Lorenz-Kurve und ihre Konstruktion). (i) Bestimmung der Rangwertreihe x(1) x(2) . . . x(n) . (ii) F¨ ur i ∈ {1, . . . , n} bezeichne si = ni den Anteil der Merkmalstr¨ager (Untersuchungseinheiten) mit Werten kleiner oder gleich x(i) . Berechnung der Summe der i kleinsten Merkmalsauspr¨agungen Si = x(1) + . . . + x(i) ,
i ∈ {1, . . . , n},
und des Anteils der Summe der i kleinsten Werte an der Gesamtsumme (z.B. Anteil der i umsatzschw¨achsten Unternehmen am Gesamtumsatz der n Anbieter) x(1) + . . . + x(i) Si ti = = , i ∈ {1, . . . , n}. Sn x(1) + . . . + x(n) (iii) Zeichnen der Lorenz-Kurve (M. O. Lorenz, 1904) durch lineares Verbinden der n + 1 Punkte (0, 0), (s1 , t1 ), . . . , (sn , tn ). Die Berechnung der notwendigen Punktepaare zur Konstruktion der Lorenz-Kurve kann ¨ ubersichtlich in einer Arbeitstabelle vorgenommen werden. Beispiel A 5.3. F¨ ur die Daten aus Beispiel A 5.1 (Marktentwicklung) werden die Lorenz-Kurven der Jahre 1970, 1980, 1990 und 2000 ermittelt. Dazu werden zun¨achst die zugeh¨ origen Arbeitstabellen erzeugt. 1980
1970 i
x(i)
1 2 3 4
25 25 25 25
Summe
100
si
Si
0,25 25 0,50 50 0,75 75 1,00 100
ti
i
x(i)
0,25 0,50 0,75 1,00
1 2 3 4
10 20 30 40
Summe
100
1990 i
x(i)
1 2 3 4
10 10 30 50
Summe
100
si
si
Si
0,25 10 0,50 30 0,75 60 1,00 100
ti
0,1 0,3 0,6 1,0
2000 Si
0,25 10 0,50 20 0,75 50 1,00 100
ti
i
x(i)
0,1 0,2 0,5 1,0
1 2 3 4
0 0 0 100
Summe
100
si
Si
ti
0,25 0 0 0,50 0 0 0,75 0 0 1,00 100 1,0
54
A Beschreibende Statistik
Daraus ergibt sich die Grafik in Abbildung A 5.1, in der vier Lorenz-Kurven (gemeinsam) eingezeichnet sind.
1,0 0,8 0,6 0,4 0,2 0 0,0
0,2
0,4
0,6
0,8
1,0
Abb. A 5.1. Lorenz-Kurve.
Die Lorenz-Kurve f¨ ur das Jahr 1970 ist identisch mit der Diagonalen im Einheitsquadrat, da alle Daten f¨ ur 1970 identisch sind. Weiterhin ist zu erkennen, dass sich die zunehmende Konzentration durch angeordnete Lorenz-Kurven ¨außert. Im Beispiel wird deutlich, dass Lorenz-Kurven bei zunehmender Konzentration weiter entfernt von der Diagonalen im Einheitsquadrat sind. Aus dieser Beobachtung wird eine Kenngr¨ oße f¨ ur die Konzentration entwickelt. Eine Lorenz-Kurve hat die typische Gestalt: t
1
6
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ......... ..... ... .. . ... . .. .... ... . ... ... . . . . . . .... ... ... ... .. ... ... ... .... . ... .. . . . . ... ... ... .... .. . . . . .. ... . . . .. ... .... . . . . .. . . . . . .. .. ... ... ... . .... . . . . . . .. . . . . . . ... ... ... ... .... . .... .... .... .... ... ... ... . . . . .. . . . .... ... . . . . . . ... . ... . ... . . . . . .. .... . . . . . . . . . ...... ... .... ....... . ... . . . . .. . . . .. ..... . . . . . . . . . .. ..... . . . ... . . . . . . . ...................... . . . . .......
Diagonale
•
•
•
•
Lorenz-Kurve
-
1 s
Beim Ablesen von Werten wird – je nach Aufgabenstellung – ein Wert auf der s-Achse oder auf der t-Achse als Ausgangspunkt gew¨ ahlt. Dabei sind folgende Situationen zu unterscheiden: orige Wert wird auf der t-Achse • Der Wert s ist vorgegeben und der zugeh¨ abgelesen: Der Funktionswert der Lorenz-Kurve an der Stelle s gibt an, welchen Anteil die 100 s% kleinsten Merkmalstr¨ager (besser: die 100 s% Merkmalstr¨ager mit den kleinsten Auspr¨agungen) an der Gesamtsumme haben.
A 5 Konzentrationsmessung
55
• Der Wert t ist vorgegeben und der zugeh¨ orige Wert wird auf der s-Achse abgelesen: Die 100 s% der kleinsten Merkmalstr¨ager haben den vorgegebenen Anteil von 100 t% an der Gesamtsumme. Beim Ablesen ist zu beachten: Regel A 5.4 (Werte der Lorenz-Kurve). Das Ablesen von Werten bei einer Lorenz-Kurve ist nur an den berechneten Punkten der Lorenz-Kurve exakt; an allen anderen Stellen k¨onnen lediglich Werte abgelesen werden, die als N¨aherungen (durch lineare Interpolation) interpretiert werden. Wie bereits zu Beginn erw¨ahnt, ist die Lorenz-Kurve gerade bei einer hohen Anzahl von Beobachtungen eines extensiven Merkmals ein wertvolles Werkzeug. Mit wachsender Anzahl von Beobachtungen ist – wenn die berechneten Punkte nicht markiert werden – kaum zu erkennen, dass die Lorenz-Kurve ein Streckenzug ist. Außerdem wird klar, dass nun ein Ablesen von Werten an jeder Stelle der LorenzKurve zu interpretierbaren Ergebnissen f¨ uhrt, da die N¨aherungsl¨osung (zwischen berechneten Punkten) relativ genau ist. Die folgende Abbildung basiert auf 1000 Daten x1 , . . . , x1000 . Aufgrund der großen Zahl von Auspr¨agungen sind die Geradenst¨ ucke nicht erkennbar. t
1−x
⎧ ⎪ ⎪ ⎪ ⎪ ⎨
1
⎪ ⎪ ⎪ ⎪ ⎩ x
6
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ........ .... ..... .... .. .. ... .. .. .... .... . . . .... ... ... ... . .... .... ... .. .. .... .. . .. . ... ... . . . . . ... .... ... . .... ... ... ... ... .... ......................................................................................................................................................... .. . . . . . . . .. ... ... .... . . . . . ... ... . . . . . ... ... .... .... ... .. . .... . . . . . .. ... .... ... .... . . . . ..... . . . . .. ... . . . . . . . . . ... .... .... .... .. ... . .... . . . . . ... .... .... ... .... . . . . ..... . . . . . ... ... . . . . . . . .... ... ..... .... ... .... . . . . . . . . . .... ..... .... ... ..... . . . . . . ..... . . . . . .... ... . . . . . . . . . . .... ....... .... .... ....... .... . . . . . . . . . . . . ..... .... ..... ........... ... ............. .... .. ...............................
L
80%
-
1 s
Aus der obigen Grafik l¨asst sich folgende Frage leicht beantworten: • Frage: Welchen Anteil am Gesamtumsatz haben die 20% umsatzst¨ arksten Anbieter? • Antwort: Da 80% der umsatzschw¨achsten Unternehmen einen Anteil von x am gesamten Markt besitzen, haben die 20% umsatzst¨arksten Unternehmen einen Anteil von 1 − x am Gesamtmarkt.
56
A Beschreibende Statistik
Regel A 5.5 (Eigenschaften der Lorenz-Kurve). (i) Aufgrund der Berechnungsvorschrift f¨ ur die Punkte (si , ti ) der Lorenz-Kurve gilt: 0 si 1, 0 ti 1, i ∈ {1, . . . , n}. (ii) Sind die n beobachteten Merkmalsauspr¨agungen alle identisch, d.h. gilt x1 = · · · = xn , dann stimmt die Lorenz-Kurve mit der Diagonalen im Einheitsquadrat (i.e., die Strecke, die die Punkte (0, 0) und (1, 1) verbindet) ¨uberein. (iii) Der Wert tk gibt an, welcher Anteil an der Gesamtsumme aller Werte auf 100sk % der kleinsten“ Merkmalstr¨ ager entf¨allt. ” (iv) Lorenz-Kurven sind immer monoton wachsend, st¨uckweise linear und konvex, und sie verlaufen unterhalb der Winkelhalbierenden (Diagonalen). (v) Wenn sich Lorenz-Kurven zu vergleichbaren Datens¨atzen nicht schneiden, gibt die Ordnung der Lorenz-Kurven auch die auf- bzw. absteigende Konzentration in den Datens¨atzen wieder. Bei der Interpretation der Lorenz-Kurve ist folgende Vorstellung hilfreich. Wird die Lorenz-Kurve als elastische Schnur betrachtet, die an den Punkten (0, 0) und (1, 1) befestigt ist und an einigen Stellen (den berechneten Punkten) nach unten weg” gezogen“ wird, so ist diese Auslenkung umso gr¨oßer, je gr¨oßer die Konzentration ist. Beim Vergleich von Lorenz-Kurven liegt dann ein grafisch gut interpretierbarer Fall vor, wenn die Lorenz-Kurven untereinander liegen“ und sich nicht schnei” den. Dies wird als Ordnung der Lorenz-Kurven verstanden, und die Situationen k¨onnen somit direkt verglichen werden. Wenn sich die Lorenz-Kurven schneiden, ist die grafisch basierte Einsch¨atzung des Konzentrationsunterschieds erschwert und eine oder mehrere Kenngr¨ oßen sollten erg¨anzend herangezogen werden. nx Die Steigung der Lorenz-Kurve im Intervall (si−1 , si ] ist durch Sn(i) gegeben. Also ¨andert sich die Steigung nicht, wenn mehrere Beobachtungen gleich groß sind und mit x(i) u ¨bereinstimmen. Ist beispielsweise x(i) = x(i+1) = x(i+2) , so hat die Lorenz-Kurve im Intervall (si−1 , si+2 ] = (si−1 , si ] ∪ (si , si+1 ] ∪ (si+1 , si+2 ]
eine konstante Steigung. Dies hat, wie das folgende Beispiel zeigt, eine wesentliche Konsequenz. Beispiel A 5.6 (Identische Lorenz-Kurven). Die Lorenz-Kurven zu den Datens¨atzen x1 = 2, x2 = 3, x3 = 1 und x1 = 2, x2 = 2, x3 = 3, x4 = 3, x5 = 1, x6 = 1 stimmen u ¨berein. Allgemein gilt, dass die Vervielf¨altigung“ eines Datensatzes (Kopien) die Lorenz” Kurve nicht ¨andert. Der Unterschied kann nat¨ urlich durch das Einzeichnen der einzelnen Konstruktionspunkte der Lorenz-Kurven kenntlich gemacht werden. H¨aufig werden die zur Konstruktion ben¨ otigten Punkte (si , ti ), i ∈ {1, . . . , n}, jedoch nicht in die Lorenz-Kurve eingetragen.
A 5 Konzentrationsmessung
57
Regel A 5.7 (Anzahl Beobachtungen bei der Konstruktion der Lorenz-Kurve). Aus der Lorenz-Kurve selbst kann die Anzahl n der Daten, die dieser zu Grunde liegt, nicht ermittelt werden. Deshalb sollte die Anzahl n zus¨atzlich zur grafischen Darstellung der Lorenz-Kurve angegeben werden. Folgender Aspekt unterstreicht diese Aussage: Die Diagonale ist sowohl bei n = 2 umsatzgleichen Unternehmen als auch bei n = 20 umsatzgleichen Unternehmen gleich der Lorenz-Kurve. Beide M¨arkte werden daher gleichermaßen als nicht konzentriert betrachtet. Mit der Lorenz-Kurve wird also nur die relative Konzentration dargestellt und bewertet! A 5.2 Konzentrationsmaße Eine geometrisch motivierte Maßzahl f¨ ur die Konzentration (siehe Beispiel Marktentwicklung) ergibt sich aus der Beobachtung: hoch Die Konzentration ist , falls die Fl¨ache zwischen Lorenz-Kurve gering groß ist. und Diagonale klein Dabei hat der kleinstm¨ ogliche Fl¨acheninhalt den Wert Null (Lorenz-Kurve und Diagonale stimmen u ¨berein). Der Fl¨acheninhalt ist kleiner als 12 , da die LorenzKurve stets innerhalb des Dreiecks (0, 0), (1, 0), (1, 1) verl¨auft. Definition A 5.8 (Gini-Koeffizient (C. Gini, 1910)). Sei L eine Lorenz-Kurve. Der Gini-Koeffizient ist definiert durch G= =
Fl¨acheninhalt zwischen L und Diagonale D Fl¨acheninhalt zwischen Diagonale und s-Achse Fl¨acheninhalt zwischen L und Diagonale D 1/2
Die Division des Gini-Koeffizienten durch den Wert 12 liegt darin begr¨ undet, dass auf diese Weise eine Maßzahl erzeugt wird, deren Werte nach nach oben durch Eins beschr¨ankt sind. Die Beschr¨ankung nach unten durch Null ist klar. Diese Vorgehensweise hat somit eine gewisse Normierung der Maßzahl zur Folge. Beispiel A 5.9. In Beispiel A 5.1 (Marktentwicklung) sind Arbeitstabelle und zugeh¨ orige Lorenz-Kurve f¨ ur das Jahr 1990 gegeben durch:
58
A Beschreibende Statistik t
1
i
x(i)
si
Si
ti
1 2 3 4
10 10 30 50
0,25 0,50 0,75 1,00
10 20 50 100
0,1 0,2 0,5 1,0
6
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ........ .. ...... ...... . ... . .. .... ... . ... ... .. . . ... .... .. ... .... .... .. ... ... .. . . .... . . . . ... ... ... .... .... ... .. .... .. ... . ... . . . . ... . . . . . .. .... ... ..... ... .. . . . ... .. . . . .. ... .... .... .... . . . . . ... .... ... ... ... .... . . . .. . . . .. .... . . . . . .. ... . ... . . . . . . . .. . . . . . . . . . ... ... ... .. ... .... . . . .. . . . . ... . . . . . . .. . .... . .... . . . . . . . . . ... . . . . . ......... ... ... .. ......... .... . .... . . . . . . .. . . . . . ...... ... . . . . . . . . . . . . ...... ... . . . . . . . . . . . . . . . ... .. .. .... ................ .. . . .. ..... ... .. .. .. .... ........ . .. .. .. ...........
D
0,5
L
0,2 0,1
•
•
•
6
6
F1
F2
6
F3
6
-
1 s
F4
Aus der Grafik resultieren die Fl¨acheninhalte F1 , . . . ,F4 : Breite
H¨ ohe
0,25 · 0,1 = 0,0125 = 2
F1 = F2 =
= + 0,25 · 0,1 = 0,0375 = 0,25 · 0,1 + 2
0,25 · 0,3 = 0,0875 2 0,25 · 0,5 = 0,1875 F4 = 0,25 · 0,5 + 2 F3 = 0,25 · 0,2 +
Also hat die markierte Fl¨ache zwischen L und s-Achse den Inhalt F1 +F2 +F3 +F4 = 0,325. Daraus ergibt sich
Fl¨acheninhalt zwischen Lorenz-Kurve L und Diagonale D acheninhalt zwischen Diagonale D und s-Achse = Fl¨ − Fl¨ acheninhalt zwischen Lorenz-Kurve L und s-Achse = 0,5 − 0,325 = 0,175.
Der Gini-Koeffizient hat somit den Wert G =
0,175 1/2
= 0,35.
Mit derselben Vorgehensweise wie im obigen Beispiel kann eine allgemeine Formel f¨ ur den Gini-Koeffizienten hergeleitet werden.
A 5 Konzentrationsmessung
59
Regel A 5.10 (Berechnung des Gini-Koeffizienten). Der Gini-Koeffizient ist gegeben durch G=
2T − 1 n + 1 − 2T =1− , n n
wobei T =
n
ti .
i=1
Beweis. Ein Fl¨ achenst¨ uck unterhalb von L hat die Gestalt (i ∈ {1, . . . , n}): ⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎬
⎧ ⎨ ti−1
⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎭
⎩
↑ si−1 =
i−1 n
↑ si =
ti
i n
(s0 = 0, t0 = 0)
Der Fl¨ acheninhalt berechnet sich daher als +
= ti−1 (si − si−1 ) +
(si − si−1 )(ti − ti−1 ) 2
=1/n
1 1 (ti − ti−1 ) = ti−1 · + n 2n 1 1 = (2ti−1 + ti − ti−1 ) = (ti−1 + ti ) 2n 2n
Damit ist der Fl¨ acheninhalt der Fl¨ ache zwischen L und s-Achse (Summe der Fl¨ achenst¨ ucke): 1 1 1 (t0 + t1 ) + (t1 + t2 ) + · · · + (tn−1 + tn ) 2n 2n 2n ↑ ↑ ↑ i=1
i=2
i=n
1 = (t0 + t1 + t1 + t2 + t2 · · · + tn−1 + tn−1 +tn )
2n 0
=2t1
=2t2
=2tn−1
1
1 (2(t1 + t2 + · · · + tn−1 + tn ) − 1) 2n 2T − 1 = mit T = t1 + · · · + tn . 2n =
Also betr¨ agt der Fl¨ acheninhalt der Fl¨ ache zwischen L und D: 1 n + 1 − 2T s.o. 1 2T − 1 acheninhalt zwischen L und s-Achse = − Fl¨ − = . 2 2 2n 2n
Per Definition entsteht der Gini-Koeffizient mittels Division des Fl¨ acheninhalts durch 12 , d.h. durch Multiplikation mit 2, so dass G=
n + 1 − 2T , wobei T = t1 + · · · + tn . n
60
A Beschreibende Statistik
F¨ ur den Gini-Koeffizienten kann eine alternative Formel hergeleitet werden. Regel A 5.11 (Alternative Formel des Gini-Koeffizienten). Der Gini-Koeffizient ist gegeben durch G=
2W − (n + 1)Sn 2W n+1 , = − nSn nSn n
wobei W = 1 · x(1) + 2 · x(2) + · · · + n · x(n) =
n i=1
ix(i) .
Beweis. Zun¨ achst gilt Si = Sn · ti , i ∈ {1, . . . , n}. Mit der Setzung S0 = 0 ist x(i) = Si − Si−1 , i ∈ {1, . . . , n}, so dass W=
n
n
ix(i) =
i=1
=
n
i(Si − Si−1 ) =
i=1
iSi −
i=1
n−1
n−1
iSi −
n−1
n−1
(i + 1)Si
i=0
Si
i=1
Si = (n + 1)Sn −
i=1
Daraus folgt
iSi −
i=1
i=1
= nSn −
n
n
Si = (n + 1)Sn − Sn T.
i=1
2W − (n + 1)Sn (n + 1)Sn − 2Sn T n + 1 − 2T = = . nSn nSn n
Beispiel A 5.12. In Beispiel A 5.1 (Marktentwicklung) wurde der Gini-Koeffizient G = 0,35 f¨ ur das Jahr 1990 auf direktem Weg bestimmt. Mittels der allgemeinen Formel unter Verwendung der Arbeitstabelle zur Lorenz-Kurve i
x(i)
Si
ti
ix(i)
1 2 3 n=4
10 10 30 50
10 20 50 100
0,1 0,2 0,5 1,0
10 20 90 200
Summe
100
1,8=T
320 =W
resultiert folgende Berechnung des Gini-Koeffizienten: G=
5 − 2 · 1,8 n + 1 − 2T = = 0,35. n 4
Unter Verwendung der alternativen Formel lautet die Rechnung: G=
2W − (n + 1)Sn 2 · 320 − 5 · 100 = 0,35. = nSn 4 · 100
Die Gini-Koeffizienten f¨ ur alle betrachteten Jahre sind in folgender Tabelle zusammengefasst.
A 5 Konzentrationsmessung
Jahr
61
1970 1980 1990 2000
Gini-Koeffizient
0
0,25
0,35
0,75
Der Gini-Koeffizient f¨ ur das Jahr 1970 ist Null. Wie schon aus der Interpretation der Lorenz-Kurve hervorgeht (Gleichheit mit der Diagonalen) liegt keine Konzentration vor. Ansonsten legt auch der Gini-Koeffizient eine wachsende Konzentration u ¨ber die Jahre nahe. Allerdings stellt sich die Frage, warum die maximale Konzentration im Jahr 2000 (Monopol) nicht mit der Maßzahl G = 1 beschrieben wird. Die maximale Konzentration liegt in einem Datensatz x1 , . . . , xn genau dann vor, wenn genau ein Wert xi von 0 verschieden ist (siehe Beispiel A 5.1 (Marktentwicklung)). In einem solchen Fall ist t1 = · · · = tn−1 = 0 und tn = 1. Die zugeh¨orige Lorenz-Kurve hat folgende Gestalt. t
1
6
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ...... ... . ... ... ... .... . ... . . .... .... ... . . . . . .... ... ... . . . ... . . ... .... ... .. .... ... .... ... . . . ... . . ... .... . . .. . . . . .... ... ... . . . . ... . . ... .... . . . ... . . .... ... ... . . . . .. . . . ... .... . . . ... . . .... ... ... . . . . .. . . . .. . .... . . . ... . . . . .... .. ... . . . .. . . . . .. . . . . .. ..
D
L
•
sn−1 =
-
1 s n−1 n
Der Fl¨acheninhalt der gr¨ oßtm¨ oglichen Fl¨ache, die von einer Lorenz-Kurve und der Diagonalen eingeschlossen werden kann, ergibt sich daher als Differenz der Fl¨acheninhalte der Dreiecke (0, 0), (1, 0), (1, 1) und ( n−1 n , 0), (1, 0), (1, 1). Damit ist der maximal m¨ ogliche Gini-Koeffizient Gmax gegeben durch Gmax =
− 1/2
1
·1
1/2 − n2 = 1/2
=1−
1 n−1 = n n (< 1 f¨ ur jedes n)
Regel A 5.13 (Eigenschaften des Gini-Koeffizienten). Aus der Konstruktion des Gini-Koeffizienten folgt n−1 . 0G n
62
A Beschreibende Statistik
Der Wert G = 0 wird angenommen, falls x1 = · · · = xn gilt ( Gleichverteilung“). ” Der Wert G = n−1 n wird angenommen, falls genau eines der xi von Null verschieden ist. Ein Vergleich von Gini-Koeffizienten f¨ ur Situationen mit unterschiedlichen Anzahlen von Beobachtungen ist kritisch zu sehen, da Gmax von der Anzahl n abh¨angig ist. Zur Anwendung der Maßzahl auf derartige Daten ist daher eine Modifikation des Gini-Koeffizienten sinnvoll. Da aus Gr¨ unden der Interpretation eine Maßzahl mit Werten zwischen 0 und 1 angestrebt wird, wird der Gini-Koeffizient (zur Normierung) durch den maximal m¨ oglichen Fl¨acheninhalt zwischen Diagonale und Lorenz-Kurve dividiert. Definition A 5.14 (Normierter Gini-Koeffizient). Die Kenngr¨oße G =
n + 1 − 2T 2(T − 1) G n G= =1− = Gmax n−1 n−1 n−1
heißt normierter Gini-Koeffizient. War der Gini-Koeffizient beschrieben durch den Quotienten G=
Fl¨acheninhalt zwischen L und Diagonale Fl¨acheninhalt zwischen Diagonale und s-Achse
so gilt f¨ ur den normierten Gini-Koeffizienten Fl¨acheninhalt zwischen L und Diagonale maximal m¨ oglicher Fl¨acheninhalt zwischen L und Diagonale n+1−2T n+1−2T n + 1 − 2T 2n = 1 2n 1 = n−1 = n−1 − 2 2n 2n
G =
Regel A 5.15 (Wertebereich des normierten Gini-Koeffizienten). F¨ur den normierten Gini-Koeffizienten gilt 0 G 1, wobei die Grenzen angenommen werden. Beispiel A 5.16. Zum Beispiel A 5.1 (Marktentwicklung) gibt die Tabelle jeweils den Gini-Koeffizienten und den normierten Gini-Koeffizienten f¨ ur die Jahre 1970, 1980, 1990 und 2000 an (n = 4). Jahr G G =
1970 1980 1990 2000 4 3
·G
0 0
0,25 0,33
0,35 0,47
0,75 1,00
Wenn sich die zu vergleichenden Lorenz-Kurven nicht schneiden, ist ein Vergleich der Konzentration direkt oder mittels der (normierten) Gini-Koeffizienten m¨oglich. Schneiden sich die Lorenz-Kurven jedoch, so k¨ onnen sich trotz unterschiedlicher Konzentrationssituationen ¨ahnliche oder sogar identische Gini-Koeffizienten ergeben.
A 5 Konzentrationsmessung
63
Beispiel A 5.17 (Identische Gini-Koeffizienten). Die Zahlenwerte im folgenden Beispiel mit drei Anbietern A, B, C und deren Ums¨atzen (in Mio. e) in den Jahren 1980, 1990 und 2000 sind so konstruiert, dass sich in den verschiedenen Marktsituationen jeweils derselbe Gini-Koeffizient ergibt. 1990
1980 i
x(i)
si
Si
ti
i
x(i)
si
Si
ti
1 2 3
20 20 50
1 3 2 3
20 40 90
2 9 4 9
1 2 3
10 40 40
1 3 2 3
10 50 90
1 9 5 9
Summe
90
Summe
90
1
1 5 3
=T
F¨ ur die Gini-Koeffizienten gilt: G1980 = t
1 8 9 7 9 6 9 5 9 4 9 3 9 2 9 1 9
n+1−2T n
=
1
1 5 3
4−2· 5 3 3
=
2 9
=T
= G1990 .
6
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ......... . ......... .. ............. .. . . . .... .... ... ... ....... . .... .. .. ... .... ... ... .... .... ..... . . . . ... .... ... . . .... ... ... ... ... .. .. . .... ..... .... . .. ... .... ..... .... ..... . . .. .... ... . . . . . ... ... .. .... ... ..... . . .... . . . ... ... ... ... ... .... .... . . .. . . .. .... ... . . . . .. ..... ... . ... . . . .. .. .......... . . . . . . ... ....... .... ... ... ............. . . . .. . . .... . . ... . . . . . ....... . ... . ... . . . . . ........ . ... . . . . . . . . ...... ... .... ... ... ...... ..... . . . . . . .. . . . .. .... . . . . . . . . . . . .. ... ........... . .... . . . .. ... ........ . . . . . .... ..... .... .. .............. ................... . . . . . . ........... ............... . . . . . ... ... ...................... . ............
D
• •
1980
• •
1 9
2 9
1990
3 9
4 9
5 9
6 9
7 9
-
1 s
8 9
Auch der dritte Datensatz f¨ uhrt zum selben Gini-Koeffizienten: 2000 i
1 2 3 Summe
x(i)
si
15 30 45
1 3 2 3
90
1
Si
15 45 90
ti 15 90
=
1 6
1 2
1 5 3
=T
Daher gilt auch G2000 = 29 , obwohl die Zahlenwerte unterschiedliche Konzentrationen andeuten.
64
A Beschreibende Statistik
1980 1990 2000 20 20 50
x(1) x(2) x(3)
10 40 40
15 30 45
Der direkte Vergleich zeigt, dass die Situationen m¨oglicherweise unterschiedlich bewertet werden. Die Konzentration im Jahr 1980 m¨ usste eventuell h¨oher eingesch¨atzt werden, obwohl die jeweiligen Gini-Koeffizienten identisch sind. Beispiel A 5.17 (Identische Gini-Koeffizienten) zeigt zum Einen, dass eine einzelne Kennziffer oder Maßzahl einen Datensatz nat¨ urlich nicht ausreichend beschreibt (vgl. Abschnitt A 3). Die grafische Darstellung sollte stets zur Beurteilung hinzugezogen werden. Zum Anderen motiviert das Beispiel dazu, alternative Kenngr¨oßen zur Beschreibung der Konzentration zu entwickeln. In der Literatur zur Wirtschaftsstatistik gibt es eine Vielzahl von Vorschl¨agen zur Konzentrationsmessung (vgl. z.B. Bamberg et al., 2008; Mosler und Schmid, 2006). Als alternatives Konzentrationsmaß wird hier nur der Herfindahl-Index (O.C. Herfindahl 1950) eingef¨ uhrt. Definition A 5.18 (Herfindahl-Index). Der Herfindahl-Index ist definiert durch H=
x21 + · · · + x2n . S2n
In den Extremf¨allen einer Gleichverteilung“ x1 = · · · = xn bzw. eines einzelnen, ” von Null verschiedenen Wertes (etwa xi = 0) gilt H=
nx21 1 = (nx1 )2 n
bzw. H =
0 + · · · + 0 + x2i + 0 + · · · + 0 = 1. (0 + · · · + 0 + xi + 0 + · · · + 0)2
Regel A 5.19 (Eigenschaften des Herfindahl-Index). F¨ur den Herfindahl-Index gilt 1 H 1, n wobei die Grenzen angenommen werden. Der Herfindahl-Index kann mittels des Variationskoeffizienten dargestellt werden: H=
1 2 (V + 1). n
Beispiel A 5.20. Im Beispiel A 5.1 (Marktentwicklung) ergibt der Vergleich der jeweiligen Gini-Koeffizienten, normierten Gini-Koeffizienten und HerfindahlIndizes
A 6 Verh¨ altnis- und Indexzahlen
Jahr
65
1970 1980 1990 2000
G G H
0 0 0,25
0,25 0,33 0,30
0,35 0,47 0,36
0,75 1,00 1,00
Der Herfindahl-Index zeigt daher auch eine mit den Jahren wachsende Konzentration an. Beispiel A 5.21. Im Beispiel A 5.17 (Identische Gini-Koeffizienten) resultieren folgende Werte von Gini-Koeffizienten, normierten Gini-Koeffizienten und Herfindahl-Indizes. Jahr G G H
1980 1990 2000 0,22 0,33 0,41
0,22 0,33 0,41
0,22 0,33 0,39
F¨ ur die Jahre 1980 und 1990 f¨ uhrt auch der Herfindahl-Index zu demselben Wert.
A 6 Verh¨ altnis- und Indexzahlen Maßzahlen dienen der kompakten Darstellung von Informationen. Dabei kann es sich sowohl um allgemeine Gr¨ oßenangaben, die als Realisationen eines quantitativen Merkmals angesehen werden k¨ onnen (z.B. Umsatz eines Unternehmens, Bev¨ olkerungszahl eines Landes, Wert eines Warenkorbs von G¨ utern), als auch um statistische Kenngr¨ oßen (z.B. absolute H¨aufigkeit, arithmetisches Mittel, empirische Varianz) handeln. Der Begriff Gr¨ oße“ wird in diesem Abschnitt f¨ ur numeri” sche Werte (z.B. Merkmalswert, Maßzahl) verwendet. Bezeichnung A 6.1 (Verh¨altniszahl). Der Quotient zweier Maßzahlen wird als Verh¨altniszahl bezeichnet. Mit Verh¨altniszahlen werden unterschiedliche Gr¨oßen in Beziehung gesetzt. Spezielle Verh¨altniszahlen sind schon in den vorhergehenden Abschnitten aufgetreten. Beispiel A 6.2. Relative H¨aufigkeiten k¨ onnen als Verh¨altniszahlen angesehen werden, da sie als Quotienten Anzahl der Beobachtungen einer festen Auspr¨agung Anzahl aller Beobachtungen in einem Datensatz definiert sind. Der Variationskoeffizient wird nach der Vorschrift
66
A Beschreibende Statistik
empirische Standardabweichung arithmetisches Mittel als Quotient aus einem Lage- und einem Streuungsmaß bestimmt und ist daher ebenfalls eine Verh¨altniszahl. Verh¨altniszahlen k¨ onnen dem nachstehenden Schema folgend in unterschiedliche Gruppen aufgeteilt werden (vgl. auch die Einteilungen in Hartung et al. (2005) und Rinne (2003)). Verh¨altniszahlen
Gliederungszahlen
Beziehungszahlen
Mess- und Indexzahlen
Elementarindizes
Wachstumsfaktoren
zusammengesetzte Indizes
A 6.1 Gliederungs- und Beziehungszahlen Gliederungszahlen Gliederungszahlen setzen eine Teilgr¨ oße in Beziehung zu einer Gesamtgr¨oße, d.h. sie setzen eine (fest definierte) Teilmenge von Objekten in Relation zur Grundgesamtheit aller Objekte. Bezeichnung A 6.3 (Gliederungszahl). Die Grundgesamtheit aller Objekte werde in mehrere Teilmengen zerlegt. Alle Mengen seien durch (Gesamt-,Teil-)Gr¨oßen beschrieben. Eine Gliederungszahl ist definiert als Quotient einer Teilgr¨oße und der Gesamtgr¨oße: Teilgr¨oße . Gliederungszahl = Gesamtgr¨oße Relative H¨aufigkeiten k¨ onnen als Gliederungszahlen interpretiert werden. In diesem Fall sind die Anzahl aller Beobachtungen die Gesamtgr¨oße und die absolute H¨aufigkeit der jeweiligen betrachteten Merkmalsauspr¨agung die entsprechende Teilgr¨ oße.
A 6 Verh¨ altnis- und Indexzahlen
67
Beispiel A 6.4. Die Sch¨ ulerInnen eines Schulzentrums werden hinsichtlich der einzelnen Schultypen in Hauptsch¨ ulerInnen, Realsch¨ ulerInnen und GymnasiastInnen differenziert. Die Grundgesamtheit bilden somit alle Sch¨ ulerInnen des Schulzentrums. Die relevanten Gr¨ oßen sind die Anzahl aller Sch¨ ulerInnen im Schulzentrum sowie die jeweiligen Anzahlen der Sch¨ ulerInnen in der Hauptschule, der Realschule bzw. dem Gymnasium. Dann ist z.B. der Quotient Anzahl der Sch¨ ulerInnen der Realschule Anzahl der Sch¨ ulerInnen des Schulzentrums eine Gliederungszahl. Die Kostenrechnungsabteilung eines Unternehmens ordnet die w¨ahrend eines Jahres angefallenen Personalkosten den Abteilungen zu. Die Gesamtgr¨oße entspricht daher der Summe aller Personalkosten, die relevanten Teilgr¨oßen sind die in jeder Abteilung entstandenen Personalkosten. Diese werden in Beziehung zu den gesamten Personalausgaben gesetzt und liefern somit die anteiligen Personalausgaben einer Abteilung. Entsprechend ihrer Definition beschreiben Gliederungszahlen Anteile einer Teilgr¨ oße an der Gesamtgr¨ oße und haben daher Werte im Intervall [0, 1] bzw. zwischen 0% und 100%. Sie werden h¨aufig in Prozent oder Promille angegeben. Beispiel A 6.5. Der Umsatz eines Bekleidungsherstellers wird hinsichtlich der drei Unternehmenssparten Damen-, Herren- und Kinderbekleidung analysiert. In der folgenden Tabelle sind die entsprechenden Zahlen f¨ ur das Jahr 1999 aufgelistet. Der Gesamtumsatz ergibt sich als Summe der einzelnen Werte. Bekleidungssparte
Damen Herren Kinder
Umsatz (in e)
600 000 800 000 200 000
Die drei Quotienten 600 000 Umsatz Damenbekleidung = 0,375 = Gesamtumsatz 1 600 000 800 000 Umsatz Herrenbekleidung = 0,5 = Gesamtumsatz 1 600 000 200 000 Umsatz Kinderbekleidung = 0,125 = Gesamtumsatz 1 600 000 sind Gliederungszahlen, die die Anteile der Ums¨atze in den einzelnen Sparten angeben.
Beziehungszahlen Mittels einer Beziehungszahl werden zwei prinzipiell unterschiedliche Gr¨oßen (d.h. es liegt keine Teilgr¨ oße-Gesamtgr¨ oße-Relation vor), zwischen denen aber ein sachlicher Bezug besteht, in Beziehung zueinander gesetzt.
68
A Beschreibende Statistik
Bezeichnung A 6.6 (Beziehungszahl). Der Quotient zweier sachlich zusammenh¨angender Gr¨oßen, von denen keine eine Teilgr¨oße der jeweils anderen ist, wird als Beziehungszahl bezeichnet. Beispiel A 6.7. In einer Aktiengesellschaft wird der innerhalb eines Jahres erwirtschaftete Gewinn ermittelt. Der Gewinn pro Aktie ist eine Beziehungszahl: Gewinn pro Aktie =
Gewinn innerhalb eines Jahres . Anzahl der Aktien des Unternehmens
Weitere Beispiele f¨ ur Beziehungszahlen sind Geschwindigkeitsangaben (z.B. in m l e auche (z.B. in 100km ), Einkommen (z.B. in Monat ) oder Gr¨oßen wie s ), Verbr¨ produzierte Menge Arbeit Leistung= Zeit , Produktivit¨at= geleistete Arbeitsstunden . Auch eine statistische Kenngr¨ oße wie der Variationskoeffizient kann als Beziehungszahl angesehen werden. Beziehungszahlen k¨ onnen durch Wahl einer passenden Bezugsgr¨oße den Vergleich von Daten erm¨ oglichen. Beispiel A 6.8. Die Anzahl der Geburten in den L¨andern A und B innerhalb eines Jahres soll verglichen werden. Da sich die Bev¨ olkerungszahlen in beiden L¨andern in der Regel unterscheiden werden, ist dies nur in sinnvoller Weise m¨oglich, wenn die Geburtenzahl in Relation zur jeweiligen Gesamtbev¨olkerung gesetzt wird. Zum Vergleich werden daher die Beziehungszahlen Zahl der Geburten im Land Bev¨ olkerungszahl des Landes verwendet (s. Statistisches Jahrbuch). Beziehungszahlen lassen sich in zwei Untergruppen aufteilen: Verursachungszahlen und Entsprechungszahlen. Um diese Einteilung erl¨autern zu k¨onnen, werden zun¨achst zwei weitere Begriffe eingef¨ uhrt. Bezeichnung A 6.9 (Bestandsmasse, Bewegungsmasse). Bestandsmassen sind Gr¨oßen, die zu einem bestimmten Zeitpunkt erfasst werden. Hierzu wird der Verlauf der Merkmalsauspr¨agungen eines Merkmals beobachtet und zum interessierenden Zeitpunkt festgehalten. Bewegungsmassen sind Gr¨oßen, die innerhalb eines Zeitraums erfasst werden. Hierzu wird eine bestimmte Zeitperiode festgelegt, in der die f¨ur die Gr¨oße relevanten Daten erhoben werden. Beispiel A 6.10. Die Wareneingangsabteilung eines Einrichtungshauses f¨ uhrt Buch u obellager eingehenden M¨obelst¨ ucke. ¨ber die w¨ahrend einer Woche im M¨ Die Anzahl eingetroffener M¨ obelst¨ ucke ist eine Bewegungsmasse, da sie die Zug¨ange in einem Zeitraum (einer Woche) repr¨asentiert. Der aktuelle Bestand aller M¨ obelst¨ ucke wird am Ende der Woche ermittelt. Diese Gr¨oße ist eine Bestandsmasse, da die Anzahl der M¨ obelst¨ ucke zu einem bestimmten Zeitpunkt
A 6 Verh¨ altnis- und Indexzahlen
69
erfasst wird. Hierbei ist zu beachten, dass die beiden Massen nicht unbedingt gleich sein m¨ ussen. Es k¨ onnen n¨amlich bereits vorher M¨obelst¨ ucke im Lager gewesen sein. Außerdem ist es m¨ oglich, dass im Verlauf der Woche einige der neu eingetroffenen M¨ obelst¨ ucke das Lager wieder verlassen haben. In einem Experiment wird die Entwicklung von Bakterien in einer N¨ahrl¨osung beobachtet. Die Anzahl der Bakterien in der L¨ osung wird am Versuchsende festgestellt. Diese Anzahl ist eine Bestandsmasse. In der Bundesrepublik Deutschland wird die Anzahl aller Geburten pro Jahr erhoben. Diese Gr¨ oße ist eine Bewegungsmasse, denn es wird die Anzahl aller Geburten in einem festgelegten Zeitraum erfasst. F¨ ur Bestandsmassen ist also die Angabe eines Zeitpunkts notwendig, w¨ahrend bei Bewegungsmassen ein Zeitraum spezifiziert werden muss. Vereinfacht ausgedr¨ uckt kann folgendes festgehalten werden: Bestandsmassen spiegeln einen Status zu einem bestimmten Zeitpunkt wider, Bewegungsmassen beschreiben eine kumulative Entwicklung u ¨ber einen bestimmten Zeitraum. Jeder Bestandsmasse k¨ onnen zwei Bewegungsmassen zugeordnet werden: die Bewegungsmasse, die die Zug¨ange bzw. Zuw¨achse beschreibt und diejenige, die die Abg¨ange bzw. Abnahmen erfasst. Beispiel A 6.11. Die am Ende eines Jahres bestimmte Anzahl aller Einwohner eines Landes ist eine Bestandsmasse. Die Anzahl aller innerhalb des Jahres neu hinzu gekommenen Einwohner (z.B. durch Einwanderung oder Geburt) sowie die Anzahl der Menschen, die im Verlauf des Jahres nicht mehr den Einwohnern zugeordnet werden (z.B. aufgrund von Auswanderung oder Tod), sind Bewegungsmassen. Verursachungszahlen Beziehungszahlen, die Bewegungsmassen in Beziehung setzen zu entsprechenden Bestandsmassen, werden als Verursachungszahlen bezeichnet. Bezeichnung A 6.12 (Verursachungszahl). Der Quotient einer Bewegungs- und einer Bestandsmasse, die einen sachlichen Bezug zueinander haben, wird Verursachungszahl genannt: Verursachungszahl =
Bewegungsmasse . Bestandsmasse
Beispiel A 6.13. Die Anzahl gemeldeter PKW in der BRD am Ende eines Jahres ist eine Bestandsmasse. Die Anzahl der gemeldeten Versicherungsf¨alle (in der Kfz-Versicherung) innerhalb eines Jahres ist eine Bewegungsmasse. Also ist der Quotient Anzahl der gemeldeten Versicherungsf¨alle innerhalb eines Jahres Anzahl gemeldeter PKW
70
A Beschreibende Statistik
eine Verursachungszahl. Die Anzahl der Studierenden einer Universit¨at zu einem Stichtag ist eine Bestandsmasse. Die Anzahl der Studierenden, die ihr Studium innerhalb eines Jahres abbrechen, ist eine Bewegungsmasse. Damit handelt es sich bei dem Quotienten Anzahl der Studienabbr¨ uche innerhalb eines Jahres Anzahl der Studierenden der Universit¨at um eine Verursachungszahl. Entsprechungszahlen Entsprechungszahlen sind Quotienten aus zwei Gr¨oßen, die zwar einen Bezug zueinander haben, aber nicht als eine Bewegungsmasse und eine Bestandsmasse angesehen werden k¨ onnen. Bezeichnung A 6.14 (Entsprechungszahl). Beziehungszahlen, die nicht als Verursachungszahlen aufgefasst werden k¨onnen, heißen Entsprechungszahlen. Beispiel A 6.15. Die Bev¨ olkerungsdichte ist der Quotient aus der Gesamtbev¨olkerung eines Landes (in Personen) und dessen fl¨achenm¨aßiger Gr¨oße: Bev¨ olkerung eines Landes . Gr¨ oße des Landes Da sowohl Nenner als auch Z¨ahler Bestandsmassen repr¨asentieren, ist die Bev¨olkerungsdichte eine Entsprechungszahl. Die monatlichen Kosten eines Telefonanschlusses sowie die Anzahl der Gespr¨achsminuten innerhalb eines Monats sind Bewegungsmassen, so dass der Quotient Gespr¨ achskosten pro Minute eine Entsprechungszahl ist: monatliche Kosten . Anzahl der Gespr¨achsminuten im Monat Auch der Variationskoeffizient ist eine Entsprechungszahl. Die verwendeten Maßzahlen k¨ onnen weder als Bestands- noch als Bewegungsmassen sinnvoll interpretiert werden. A 6.2 Mess- und Indexzahlen Wird ein Quotient aus zwei Maßzahlen gebildet, die prinzipiell den gleichen Sachverhalt beschreiben, sich aber in einer zeitlichen, r¨aumlichen oder sonstigen Komponente unterscheiden, so wird die resultierende Gr¨oße als Messzahl bezeichnet. Die auftretenden Maßzahlen k¨ onnen dabei beispielsweise zu zwei unterschiedlichen Zeitpunkten erhoben worden sein oder sich auf zwei unterschiedliche geographische Orte (L¨ander) beziehen.
A 6 Verh¨ altnis- und Indexzahlen
71
Beispiel A 6.16. In einem Unternehmen werden fortlaufend die Jahresums¨atze auf eine Basisperiode bezogen; es entstehen Messzahlen f¨ ur das Merkmal Umsatz. Die Besucherzahlen in einem Erlebniszoo werden jeweils auf die des Vorjahres bezogen; es entstehen Messzahlen f¨ ur den relativen Besucheranstieg bzw. -r¨ uckgang. Das Spendenaufkommen je 100 000 Einwohner wird in unterschiedlichen Regionen (bei festem Zeitraum) verglichen; es entstehen regionalbezogene Messzahlen f¨ ur das relative Spendenaufkommen. Im Folgenden werden nur Messzahlen weiterverfolgt, deren Maßzahlen sich durch eine zeitliche Komponente unterscheiden. Dabei werden einfache Indexzahlen (Elementarindizes), Wachstumsfaktoren und zusammengesetzte Indexzahlen als Sonderf¨alle von Messzahlen unterschieden. F¨ ur eine ausf¨ uhrliche Darstellung der Beziehungen sei auf Rinne (2003) verwiesen. Einfache Indexzahlen (Elementarindizes) Einfache Indexzahlen sind Quotienten aus Maßzahlen und beschreiben den zeitlichen Verlauf einer Gr¨ oße. Hierbei werden im Allgemeinen Folgen (siehe auch Zeitreihe) betrachtet, die die Entwicklung der betrachteten Gr¨oße relativ zu einem festen Bezugspunkt darstellen. Definition A 6.17 (Einfache Indexzahl, Basiswert, Berichtswert). F¨ur positive Beobachtungswerte x0 , . . . , xs eines verh¨altnisskalierten Merkmals, die den Zeitpunkten 0, . . . , s zugeordnet sind, wird die Aufz¨ahlung Ik,t =
xt , xk
t ∈ {0, . . . , s},
als Zeitreihe einfacher Indexzahlen bezeichnet, wobei k ∈ {0, . . . , s} ein fest gew¨ahlter Zeitpunkt ist. Der Wert xk wird als Basis oder Basiswert, der jeweilige Wert xt , t ∈ {0, . . . , s}, als Berichtswert bezeichnet. Das zugeh¨ orige Zeitintervall (der Zeitpunkt) des Basiswerts wird auch Basisperiode (Basiszeit), das Zeitintervall (der Zeitpunkt) des jeweiligen Berichtswerts Berichtsperiode (Berichtszeit) genannt. Im j¨ahrlich erscheinenden Statistischen Jahrbuch f¨ ur die Bundesrepublik Deutschland findet sich eine Vielzahl von Beispielen f¨ ur einfache Indexzahlen. Beispiel A 6.18. Eine Stadt hatte im Jahr 2000 eine Einwohnerzahl von 40 000 Personen. 1950 betrug die Einwohnerzahl nur 10 000. Werden diese Einwohnerzahlen in Relation gesetzt, so gibt die Messzahl Einwohnerzahl im Jahr 2000 40 000 = =4 Einwohnerzahl im Jahr 1950 10 000 an, dass sich die Bev¨ olkerung der Stadt innerhalb von 50 Jahren vervierfacht hat.
72
A Beschreibende Statistik
Eine einfache Indexzahl liefert den Anteil des Berichtswerts am Basiswert und kann daher als ein einfaches Hilfsmittel zur Beschreibung einer Entwicklung zwischen zwei Zeitpunkten verwendet werden. Einfache Indexzahlen werden h¨aufig in Prozent oder auch mit Hundert multipliziert als Zahl zwischen 0 und 100 angegeben. Handelt es sich bei den Beobachtungswerten, die f¨ ur die Konstruktion der einfachen Indexzahlen verwendet werden, um Preise, Mengen oder Ums¨atze, so wird alternativ auch die Bezeichnung Elementarindizes verwendet. Beispiel A 6.19 (Unternehmensumsatz). Der Umsatz eines Unternehmens wird j¨ahrlich bestimmt: Jahr
Umsatz (in e) xt
1998 1999 2000 2001 2002
750 000 1 200 000 1 500 000 900 000 1 800 000
t
0 1 2 3 4
Werden als Basiszeitpunkt das Jahr 1998 (d.h. Basisperiode k = 0) und damit als Basis x0 = 750 000 [e] gew¨ahlt, dann haben die Elementarindizes folgende Werte: Jahr
Elementarindex I0,t
1998 1999 2000 2001 2002
1,0 1,6 2,0 1,2 2,4
t
0 1 2 3 4
Hieraus kann unter anderem abgelesen werden, dass im Jahr 1999 der Umsatz des Unternehmens um 60% gegen¨ uber dem Vorjahr gestiegen ist. Außerdem hat im Jahr 2000 eine Verdoppelung des Umsatzes im Vergleich zum Jahr 1998 stattgefunden. Um die Aussagekraft einfacher Indexzahlen nicht zu verzerren, sollten extreme Beobachtungen nicht als Basiswerte verwendet werden. Da Basiswerte aus der weit zur¨ uckliegenden Vergangenheit im Allgemeinen ebenfalls keinen repr¨asentativen Eindruck einer bestimmten Entwicklung vermitteln, ist es manchmal notwendig, f¨ ur eine Zeitreihe einfacher Indexzahlen in bestimmten Zeitabst¨anden einen neuen, aktuelleren Basiswert zu w¨ahlen. In diesem Kontext ist die folgende Verkettungseigenschaft einfacher Indexzahlen von Bedeutung.
A 6 Verh¨ altnis- und Indexzahlen
73
Regel A 6.20 (Verkettung einfacher Indexzahlen). Seien x0 , x1 , . . . , xs positive, zu den Zeitpunkten 0, . . . , s geh¨orige Beobachtungswerte eines verh¨altnisskalierten Merkmals. F¨ ur drei Zeitpunkte k, l, t ∈ {0, . . . , s} gilt Ik,t = Ik,l · Il,t .
Eine Umbasierung kann daher in folgender Weise durchgef¨ uhrt werden: Soll bei einer vorliegenden Reihe einfacher Indexzahlen Ik,0 , . . . , Ik,s statt des Basiswerts xk der neue Basiswert xl verwendet werden, so kann die Reihe der neuen Indexzahlen mittels der Vorschrift Ik,t Il,t = , t ∈ {0, . . . , s} , Ik,l bestimmt werden. Die Indexzahlen zur neuen Basis berechnen sich als Quotienten der Indexzahlen zur alten Basis und der Indexzahl, die die neue Basis in Relation zur alten Basis setzt. Die urspr¨ unglichen Beobachtungswerte m¨ ussen bei diesem Vorgehen nicht herangezogen werden. Beispiel A 6.21. Im Beispiel A 6.19 (Unternehmensumsatz) wurde als Basisperiode der einfachen Indexzahlen das Jahr 1998 (k = 0) verwendet. Wird ein Basiswechsel mit neuer Basisperiode 2000 (l = 2) durchgef¨ uhrt, so ergeben sich die neuen Indexzahlen, indem die alten Werte durch den Faktor Ik,l =
x2 1 500 000 =2 = x0 750 000
dividiert werden. Jahr
Elementarindex I2,t
1998 1999 2000 2001 2002
0,5 0,8 1,0 0,6 1,2
t
0 1 2 3 4
Soll hingegen eine Zeitreihe einfacher Indexzahlen mittels eines neuen Beobachtungswerts xs+1 fortgeschrieben werden, so kann direkt auf die Verkettungsregel zur¨ uckgegriffen werden. Hierf¨ ur muss lediglich der letzte Beobachtungswert xs bekannt sein, ein R¨ uckgriff auf den eigentlichen Basiswert der Zeitreihe ist nicht erforderlich: xs+1 Ik,s+1 = Ik,s · Is,s+1 = Ik,s · . xs Beispiel A 6.22. Im Beispiel A 6.19 (Unternehmensumsatz) habe sich zus¨atzlich f¨ ur das Jahr 2003 ein Umsatz von x5 = 2 200 000 [e] ergeben. Der zugeh¨orige
74
A Beschreibende Statistik
Elementarindex (mit dem Jahr 1998 als Basisperiode) kann dann folgendermaßen berechnet werden: I0,5 = I0,4 · I4,5 = I0,4 ·
x5 2 200 000 ≈ 2,933. = 2,4 · x4 1 800 000
Aus der Regel f¨ ur einfache Indexzahlen ergibt sich durch die spezielle Wahl k = t auch die Eigenschaft It,l · Il,t = It,t = 1
bzw.
Il,t =
1 It,l
f¨ ur zwei Zeitpunkte l, t ∈ {0, . . . , s}. Das bedeutet, dass der Wert einer Indexzahl, die ein Merkmal zum Zeitpunkt t (Berichtsperiode) bezogen auf den Zeitpunkt k (Basisperiode) beschreibt, gleich dem reziproken Wert derjenigen Indexzahl ist, bei der Basis- und Berichtszeitpunkt vertauscht sind. Dieses Verhalten, das auch als Zeitumkehrbarkeit bezeichnet wird, entspricht der Anschauung wie das folgende Beispiel illustriert. Beispiel A 6.23. Ein Angestellter vergleicht sein Gehalt von x1 = 2400 [e] im Jahr 2000 mit dem Gehalt von x0 = 1800 [e], das er vier Jahre vorher, also im Jahr 1996, erhalten hat: I0,1 =
4 x1 2400 = ≈ 1,333. = x0 1800 3
Sein Gehalt im Jahr 2000 betr¨agt also vier Drittel des Gehalts aus dem Jahr 1996. Die reziproke Messzahl I1,0 =
3 x0 1800 = = 0,75 = x1 2400 4
besagt gerade, dass sein Gehalt im Jahre 1996 nur drei Viertel des Gehalts aus dem Jahr 2000 betrug. Die Verkettung und Umbasierung von Elementarindizes lassen sich allgemein gem¨aß des Schemas in Tabelle A 6.1 darstellen. Es gilt also: Is,t =
xt xt /x0 I0,t = = , xs xs /x0 I0,s
d.h. der Index mit Bezugszeit s ist eine Messzahl zweier Indizes zur Bezugszeit 0. Liegt nur eine Tabelle vor, in der zu einem gewissen Zeitpunkt s eine Umbasierung stattgefunden hat, so l¨asst sich mit der Formel zur Verkettung einfacher Indexzahlen eine durchgehende Reihe von Indexzahlen (zu einer Basis) erzeugen. ˆ 100%“ bzw. kurz s=100“ kommentiert. In Tabellen wird dies h¨aufig durch s= ” ” Dabei gilt I0,s+i = I0,s · Is,s+i , i ∈ N, und speziell I0,s · Is,s+1 = I0,s+1 .
A 6 Verh¨ altnis- und Indexzahlen neue Bezugszeit
erste Bezugszeit Zeitpunkt
0
1 ···
↓ s
s +1 ···
Merkmalswert
x0
x1 · · ·
xs
xs+1 · · · xt · · ·
I0,1 · · ·
I0,s
I0,s+1 · · · I0,t · · ·
↓
Index mit Bezugszeit 0 Indexwert
1
x1 x0
75
···
xs x0
xs+1 x0
···
t ···
xt x0
···
Is,s+1 · · · Is,t · · ·
Index mit Bezugszeit s Indexwert
1
xs+1 xs
···
xt xs
···
Tabelle A 6.1. Schema zur Verkettung und Umbasierung von Elementarindizes.
Wachstumskennziffern Ist bei einer Zeitreihe einfacher Indexzahlen der Basiswert immer der selbe Beobachtungswert, so wird bei einer Zeitreihe von Wachstumsfaktoren immer der unmittelbar vor dem jeweiligen Berichtswert liegende Beobachtungswert als Basiswert verwendet. Ein Wachstumsfaktor liefert grunds¨atzlich den Anteil des aktuellen Werts (des Berichtswerts) am vorhergehenden Wert (dem Basiswert). Beispiel A 6.24. Die Anzahl der am Jahresende als arbeitslos gemeldeten Personen in einer Stadt lag im Jahr 2000 bei 25 000 und im n¨achsten Jahr bei 20 000 Personen. Daraus errechnet sich ein Wachstumsfaktor von Anzahl der Arbeitslosen im Jahr 2001 20 000 = 0,8. = Anzahl der Arbeitslosen im Jahr 2000 25 000 Die Zahl der Arbeitslosen ist also im betrachteten Zeitraum auf 45 des Ausgangswerts gesunken. Sie lag somit am 31.12.2001 um 20% niedriger als im Vorjahr. Da sich die Basis des obigen Quotienten (Nenner) ¨andert, wenn sich der Wachstumsfaktor auf einen anderen Zeitpunkt bezieht, handelt es sich bei Wachstumsfaktoren um Messzahlen mit einer variablen Basis. Definition A 6.25 (Wachstumsfaktor).
F¨ ur
positive
Beobachtungswerte
x0 , x1 , . . . , xs eines verh¨ altnisskalierten Merkmals, die zu aufeinander folgenden Zeitpunkten 0, . . . , s geh¨oren, heißt die Aufz¨ahlung wt =
xt , xt−1
Zeitreihe der Wachstumsfaktoren.
t ∈ {1, . . . , s},
76
A Beschreibende Statistik
Beispiel A 6.26 (Quartalsumsatz). Ein Unternehmen setzt in den vier Quartalen eines Jahres jeweils eine Menge von x0 = 30 000, x1 = 40 000, x2 = 45 000, x3 = 30 000
Produkten ab. Die zugeh¨ origen Wachstumsfaktoren der abgesetzten Mengen sind 4 x1 40 000 = ≈ 1,333, = x0 30 000 3 9 x2 45 000 w2 = = = 1,125, = x1 40 000 8 2 x3 30 000 w3 = = ≈ 0,667. = x2 45 000 3
w1 =
Hieran kann unter anderem abgelesen werden, dass der Absatz des Unternehmens im zweiten Quartal auf vier Drittel des Absatzes im vorherigen Quartal gesteigert werden konnte. Im letzten Quartal ist der Absatz auf ca. 67% des Ergebnisses aus dem dritten Quartal gesunken. Auch das Produkt aus zeitlich aufeinander folgenden Wachstumsfaktoren kann interpretiert werden, wie die folgende Regel zeigt. Regel A 6.27 (Produkte von Wachstumsfaktoren). Seien x0 , x1 , . . . , xs positive Beobachtungswerte eines verh¨altnisskalierten Merkmals, die zu aufeinander folgenden Zeitpunkten 0, . . . , s geh¨oren, und wt , t ∈ {1, . . . , s}, die zugeh¨orige Zeitreihe der Wachstumsfaktoren. F¨ ur zwei Zeitpunkte k < l gilt wk+1 · wk+2 · . . . · wl =
xl . xk
Aus dieser Regel wird deutlich, dass das Produkt von Wachstumsfaktoren wk+1 , . . . , wl als ein Wachstumsfaktor mit Berichtswert xl und Basiswert xk angesehen werden kann. Sollen also Wert¨anderungen bez¨ uglich l¨anger zur¨ uckliegender Zeitpunkte durch einen Wachstumsfaktor beschrieben werden, so k¨onnen diese durch die Bildung geeigneter Produkte berechnet werden. Beispiel A 6.28. Im Beispiel A 6.26 (Quartalsumsatz) soll der Umsatz des dritten Quartals auf den des ersten Quartals bezogen werden. Der entsprechende Wachstumsfaktor w0,2 berechnet sich gem¨aß w0,2 = w1 · w2 =
4 9 · = 1,5. 3 8
Der Umsatz im dritten Quartal betrug also 150% des Umsatzes im ersten Quartal. Eine aus dem Wachstumsfaktor abgeleitete Gr¨oße ist die Wachstumsrate. Sie berechnet sich, indem vom Wachstumsfaktor der Wert 1 abgezogen wird:
A 6 Verh¨ altnis- und Indexzahlen
77
Wachstumsrate = Wachstumsfaktor − 1. Auf diese Weise entsteht ein Quotient, bei dem die Differenz zweier zeitlich aufeinander folgender Beobachtungswerte auf den zuerst beobachteten Wert bezogen wird. Beispiel A 6.29. Der Preis einer K¨asesorte lag im Jahr 1999 bei 25e/kg und im Jahr 2000 bei 30e/kg. Damit betr¨agt die Wachstumsrate (Teuerungsrate) des K¨asepreises 5 1 Preis im Jahr 2000 30 − 25 = = = 0,2. −1= Preis im Jahr 1999 25 25 5
Also hat sich der K¨ase um 20% gegen¨ uber dem Vorjahr verteuert. ¨ Eine Wachstumsrate beschreibt die Anderung eines Merkmals innerhalb einer Zeitperiode bezogen auf den beobachteten Wert dieses Merkmals zu Beginn dieser Zeitperiode. Einfach ausgedr¨ uckt bedeutet dies, dass eine Wachstumsrate die ¨ prozentuale Anderung bez¨ uglich des Basiswerts liefert. Wachstumsraten k¨onnen daher (im Gegensatz zu Wachstumsfaktoren) auch negative Werte annehmen. Definition A 6.30 (Wachstumsrate). F¨ ur positive Beobachtungswerte x0 , x1 , . . . , xs eines verh¨ altnisskalierten Merkmals, die zu aufeinander folgenden Zeitpunkten 0, . . . , s gemessen wurden, ist die Wachstumsrate rt definiert durch rt =
xt xt − xt−1 −1= , xt−1 xt−1
t ∈ {1, . . . , s}.
Beispiel A 6.31. F¨ ur die Daten aus Beispiel A 6.19 (Unternehmensumsatz) haben die zugeh¨ origen Wachstumsfaktoren und -raten folgende Werte. Jahr
Umsatz in e xt
1998 1999 2000 2001 2002
750 000 1 200 000 1 500 000 900 000 1 800 000
t
0 1 2 3 4
Wachstumsfaktor Wachstumsrate wt rt — 1,60 1,25 0,60 2,00
— 0,60 0,25 −0,40 1,00
Der Tabelle kann entnommen werden, dass der Umsatz im Jahr 2002 auf das Doppelte des Vorjahresniveaus (w4 = 2) gestiegen ist bzw. sich um 100% gesteigert hat (r4 = 1). Außerdem ist den Zahlen zu entnehmen, dass er im Jahr 2001 auf drei F¨ unftel des Vorjahreswerts gesunken ist (w3 = 0,6) bzw. sich um 40% des Vorjahreswerts verringert hat (r3 = −0,4).
78
A Beschreibende Statistik
A 6.3 Preis- und Mengenindizes In diesem Abschnitt werden Preis-, Mengen- und Umsatzindizes (jeweils nach Laspeyres, Paasche und Fisher) vorgestellt. Eigenschaften werden erl¨autert und Bez¨ uge zwischen ihnen aufgezeigt. Eine Zusammenstellung der Indizes findet sich am Ende dieses Abschnitts. Bisher wurden Messzahlen zur Beschreibung der Entwicklung einer Gr¨oße u ¨ber einen bestimmten Zeitraum eingef¨ uhrt. H¨aufig ist aber von Interesse, die Entwicklung mehrerer Gr¨ oßen u ¨ber die Zeit gemeinsam ad¨aquat darzustellen. Im Folgenden werden speziell zur Beschreibung der Entwicklung der Preise und zugeh¨origen (abgesetzten) Mengen von mehreren Produkten zusammengesetzte Indexzahlen (die auch kurz Indexzahlen oder Indizes genannt werden) definiert. Mit Hilfe dieser Indizes kann die Entwicklung mehrerer gleichartiger Gr¨oßen (Mengen, Preise) durch eine einzige Zahl ausgedr¨ uckt werden, die dann Anhaltspunkte f¨ ur den gemeinsamen Verlauf dieser Gr¨ oßen gibt und einen einfachen Vergleich unterschiedlicher Entwicklungen z.B. in verschiedenen L¨andern erm¨oglicht. Preisindizes k¨ onnen z.B. zur Untersuchung der Kursentwicklung von Aktien eines bestimmten Marktsegments oder des Verlaufs der allgemeinen Lebenshaltungskosten dienen. Mengenindizes finden bei der Analyse des Konsumverhaltens einer Bev¨ olkerung Anwendung. Aufschluss ¨ uber die Entwicklung von Ums¨atzen und ¨ Ausgaben gibt der Umsatzindex, in den sowohl Anderungen von Preisen und (abgesetzten) Mengen einfließen. Bei der Bestimmung eines Index wird zun¨achst ein Warenkorb festgelegt, d.h. es wird bestimmt, welche Produkte in welchem Umfang bei der Berechnung des Index Ber¨ ucksichtigung finden. Mittels einer repr¨asentativen Auswahl der G¨ uter im Warenkorb kann dabei durch den Index die Entwicklung eines entsprechenden Marktsegments beschrieben werden. Definition A 6.32 (Warenkorb). Seien qk1 , . . . , qkn , k ∈ {0, t}, die Mengen von n Produkten zu den beiden Zeitpunkten 0 und t. Die Tupel (q01 , . . . , q0n ) bzw. (qt1 , . . . , qtn ) heißen Warenkorb zum Zeitpunkt 0 bzw. t. Der Begriff Warenkorb“ wird in der Literatur unterschiedlich definiert. Daher ist ” im jeweiligen Kontext zu pr¨ ufen, welche Definition zu Grunde liegt. Beispiel A 6.33 (Konsum). Um einen Einblick in die Preissteigerung von Nahrungsmitteln zu erhalten, werden zwei Warenk¨ orbe basierend auf den Mengen aus den Jahren 1995 (Zeitpunkt 0) und 2000 (Zeitpunkt t) zusammengestellt. In der dritten Spalte der folgenden Tabelle kann der Warenkorb zum Zeitpunkt 0, in der vierten Spalte derjenige zum Zeitpunkt t abgelesen werden.
A 6 Verh¨ altnis- und Indexzahlen
j
79
Produkt Menge q0j in kg Menge qtj in kg
1 2 3 4
A B C D
200 180 50 400
300 240 60 300
Sind die Preise der G¨ uter im Warenkorb zu den betrachteten Zeitpunkten bekannt, so kann deren Gesamtwert bestimmt werden. F¨ ur den Rest dieses Abschnitts orbe f¨ ur die Zeitpunkte 0 und t. In seien (qk1 , . . . , qkn ), k ∈ {0, t}, zwei Warenk¨ Analogie zu den vorhergehenden Abschnitten wird von einer Basisperiode 0 und einer Berichtsperiode t gesprochen. Weiterhin seien pk1 , . . . , pkn , k ∈ {0, t}, die Preise der n Produkte zur Basis- bzw. Berichtsperiode, d.h. pki und qli geben Preis bzw. Menge von Gut i zum Zeitpunkt k bzw. l an, k, l ∈ {0, t}. Dann sind die Werte der Warenk¨ orbe jeweils gewichtete Summen: [Wert des Warenkorbs zur Basisperiode 0] =
n
p0j q0j ,
j=1
[Wert des Warenkorbs zur Berichtsperiode t] =
n
ptj qtj .
j=1
Beispiel A 6.34. Im Beispiel A 6.33 (Konsum) seien zus¨atzlich zu den Mengen der Produkte (in kg) auch die folgenden Preise (in e/kg) zur Basisperiode und zur Berichtsperiode bekannt. Produkt j
1 2 3 4
A B C D
Preise (in e/kg) ptj
Menge (in kg) q0j qtj
p0j
200 180 50 400
2 1 15 10
300 240 60 300
4 3 25 8
Die Werte des Warenkorbs zur Basisperiode bzw. Berichtsperiode sind dann 4 j=1
p0j q0j = 5330
bzw.
4
ptj qtj = 5820.
j=1
Preisindizes Zun¨achst werden Indizes (Preisindizes) betrachtet, die einen Eindruck von der Preisentwicklung der Produkte im Marktsegment vermitteln sollen. Bei der Berechnung dieser Indizes werden die Mengen der (verkauften) Produkte auch in
80
A Beschreibende Statistik
Form von Anzahlen und Anteilen im Warenkorb ber¨ ucksichtigt, um z.B. Massenkonsumg¨ utern ein st¨arkeres Gewicht zu verleihen bzw. selten gekaufte G¨ uter anteilig einzubinden. Der erste betrachtete Preisindex greift nur auf die abgesetzten Waren der BasisL periode zur¨ uck. Der Preisindex P0t nach Laspeyres berechnet sich via L P0t =
(fiktiver) Wert des Warenkorbs der Basisperiode zu Berichtspreisen Wert des Warenkorbs der Basisperiode zu Basispreisen
und ist demnach interpretierbar als der Anteil des Umsatzes (Wert des Warenkorbs) mit heutigen Preisen (Berichtszeit t) und alten Mengen (Bezugszeit 0) am Umsatz der Bezugszeit. Definition A 6.35 (Preisindex nach Laspeyres). Der Preisindex nach Laspeyres L P0t ist definiert als Quotient n L P0t =
j=1 n j=1
ptj q0j . p0j q0j
Der Preisindex nach Laspeyres setzt den fiktiven Wert der Waren zum Zeitpunkt t (aktueller Zeitpunkt), der sich aus der mit den verkauften Mengen zum Zeitpunkt 0 gewichteten Summe der aktuellen Preise berechnet, in Beziehung zu dem Gesamtwert der verkauften Waren zum Zeitpunkt 0. Der Preisindex nach Laspeyres gibt also an wie sich die Preise ge¨andert haben, wenn nur der Warenkorb der Basisperiode betrachtet wird. Beispiel A 6.36. Basierend auf den Daten aus Beispiel A 6.34 (Konsum) ergibt sich f¨ ur den Preisindex nach Laspeyres n L P0t =
j=1 n j=1
ptj q0j = p0j q0j
5790 4 · 200 + 3 · 180 + 25 · 50 + 8 · 400 = ≈ 1,086. 2 · 200 + 1 · 180 + 15 · 50 + 10 · 400 5330
Eine Beschreibung der Preisentwicklung mittels des Preisindex nach Laspeyres liefert also eine Preis¨anderung von 8,6% im Zeitraum von 1995 bis 2000. Diese Preis¨anderung bezieht sich lediglich auf die Mengenangaben des Jahres 1995. ¨ Anderungen der verkauften Mengen im Verlauf des Zeitraums 1995-2000 werden nicht ber¨ ucksichtigt. Da beim Preisindex nach Laspeyres ein Vergleich auf Basis der abgesetzten Waren zum Zeitpunkt 0 durchgef¨ uhrt wird, sind diese Preisindizes auch f¨ ur unterschiedliche Zeitpunkte t direkt miteinander vergleichbar. Allerdings wird der Warenabsatz
A 6 Verh¨ altnis- und Indexzahlen
81
der Basisperiode im Lauf der Zeit immer weniger den realen Verkaufszahlen entsprechen, so dass der Warenkorb in regelm¨aßigen Abst¨anden aktualisiert werden muss. Hiermit wird garantiert, dass der Index ein der wirklichen Mengen- und Artikelnachfrage sowie der Preis¨anderung nahe kommendes Ergebnis liefert. Bei Indizes, die z.B. die Lebenshaltungskosten messen, k¨onnen dabei auch Produkte aus dem Warenkorb durch andere ersetzt werden, um neueren technischen Entwicklungen o.¨a. Rechnung zu tragen und eine f¨ ur das entsprechende Marktsegment aktuelle und repr¨asentative Struktur aufrechtzuerhalten. Soll der Warenkorb immer die aktuellen Mengen oder Verkaufszahlen widerspiegeln, so ist ein anderer Index, der Preisindex nach Paasche, zu verwenden. Dieser berechnet sich mittels der Vorschrift P P0t =
Wert des Warenkorbs der Berichtsperiode zu Berichtspreisen . (fiktiver) Wert des Warenkorbs der Berichtsperiode zu Basispreisen
P Definition A 6.37 (Preisindex nach Paasche). Der Preisindex nach Paasche P0t ist definiert durch n ptj qtj j=1 P P0t = n . 0 t p j qj j=1
Der Preisindex nach Paasche setzt also den Gesamtwert der verkauften Waren zum Zeitpunkt t in Relation zu einem fiktiven Wert der Waren, der sich aus der mit den verkauften Mengen zum Zeitpunkt t gewichteten Summe der zum Zeitpunkt 0 gegebenen Preise berechnet. Der Preisindex nach Paasche gibt also an wie sich die Preise ge¨andert haben, wenn nur der Warenkorb der Berichtsperiode betrachtet wird. Beispiel A 6.38. F¨ ur die Daten aus Beispiel A 6.34 (Konsum) liefert der Preisindex nach Paasche den Wert n P P0t =
j=1 n j=1
ptj qtj = p0j qtj
5820 4 · 300 + 3 · 240 + 25 · 60 + 8 · 300 = ≈ 1,228. 2 · 300 + 1 · 240 + 15 · 60 + 10 · 300 4740
Eine Beschreibung der Preisentwicklung mittels des Preisindex nach Paasche lie¨ fert also eine Ver¨anderung von 22,8% im Zeitraum von 1995–2000. Diese Anderung bezieht sich beim Preisindex nach Paasche auf die Mengenangaben des Jahres 2000 und erm¨ oglicht somit einen Preisvergleich auf der Basis der aktuellen Mengenangaben ohne Ber¨ ucksichtigung der verkauften Mengen zum Basiszeitpunkt. Die große Abweichung vom Laspeyres-Index liegt hier darin begr¨ undet, dass sich gerade die Lebensmittel mit steigendem Konsum (A, B, C) stark verteuert haben, w¨ahrend der r¨ uckl¨aufige Konsum von D mit einem Preisr¨ uckgang einherging.
82
A Beschreibende Statistik
Beim Preisindex nach Paasche werden die Verkaufszahlen der Produkte zur aktuellen Zeitperiode t verwendet. Der Warenkorb ist also immer auf dem aktuellen Stand (im Gegensatz zum Preisindex nach Laspeyres). Allerdings sind zwei Paasche-Indizes, die f¨ ur unterschiedliche Zeitpunkte berechnet wurden, deshalb auch nicht mehr direkt vergleichbar. Bei der Betrachtung zweier unterschiedlicher Zeitpunkte fließen n¨amlich im Allgemeinen auch unterschiedliche Warenk¨orbe in ¨ den Index ein. Dies spiegelt sich auch in der Tatsache wider, dass eine Ande¨ des Bezugswerts, also rung des Zeitpunkts t in der Regel auch eine Anderung des Divisors des Index, nach sich zieht. Ein weiterer Nachteil des Preisindex nach Paasche liegt in der Tatsache begr¨ undet, dass die Bestimmung der aktuellen Gewichte h¨aufig einen hohen organisatorischen Aufwand erfordert. Hierf¨ ur m¨ ussen die Konsumgewohnheiten der Verbraucher regelm¨aßig analysiert werden. In der Praxis wird daher aufgrund der einfacheren Handhabung oft der Preisindex nach Laspeyres verwendet. In gewissen Zeitabst¨anden kann durch eine Erhebung des Paasche-Index u uft werden, ob der Warenkorb der Basisperiode das Markt¨berpr¨ segment noch ausreichend gut repr¨asentiert. Treten große Differenzen auf, so muss eine Aktualisierung des Warenkorbs durchgef¨ uhrt werden. Die bis jetzt eingef¨ uhrten Indizes erf¨ ullen nicht die von einfachen Indexzahlen bekannte Eigenschaft der Zeitumkehrbarkeit. Eine Vertauschung von Basis- und die Berichtsperiode liefert jedoch folgende Beziehungen. Regel A 6.39 (Zusammenhang zwischen den Indizes von Laspeyres und PaaL P und nach Paasche P0t und die sche). F¨ ur die Preisindizes nach Laspeyres P0t L P durch Vertauschung der Zeitpunkte entstehenden Preisindizes Pt0 und Pt0 gilt: L P P0t · Pt0 =1
und
P L P0t · Pt0 = 1.
Aus dieser Regel wird ersichtlich, dass sorgf¨altig zwischen Basis- und Berichtsperiode zu differenzieren ist. Liefert eine Messung der Preisentwicklung mittels des Preisindex nach Laspeyres eine Verdoppelung des Preisniveaus im Zeitraum von 0 L = 2), so darf daraus nicht geschlossen werden, dass am Laspeyresbis t (d.h. P0t Index f¨ ur die umgekehrte zeitliche Reihenfolge eine Halbierung des Preisniveaus L = 12 !). Der Preisindex nach Paasche abgelesen werden kann (es gilt also nicht Pt0 P liefert hingegen diese Interpretation (d.h. Pt0 = 12 ). Dieses Verhalten der Preisindizes kann darauf zur¨ uckgef¨ uhrt werden, dass bei einer Vertauschung von Basisund Berichtsperiode auch die Warenk¨ orbe, die zur Berechnung der Indizes verwendet werden, vertauscht werden. Auf diesen Sachverhalt wird am Ende dieses Abschnitts nochmals eingegangen. Beispiel A 6.40. F¨ ur die Daten aus Beispiel A 6.34 (Konsum) gilt n L P0t =
j=1 n j=1
ptj q0j = p0j q0j
5790 4 · 200 + 3 · 180 + 25 · 50 + 8 · 400 = , 2 · 200 + 1 · 180 + 15 · 50 + 10 · 400 5330
A 6 Verh¨ altnis- und Indexzahlen n P P0t =
j=1 n j=1
ptj qtj = p0j qtj
83
5820 4 · 300 + 3 · 240 + 25 · 60 + 8 · 300 = . 2 · 300 + 1 · 240 + 15 · 60 + 10 · 300 4740
Bei einer Vertauschung der Zeitpunkte 0 und t werden zur Berechnung des Laspeyres-Index der aktuelle Warenkorb und zur Berechnung des Paasche-Index der Warenkorb der Basisperiode verwendet: n L Pt0 =
j=1 n j=1
p0j qtj ptj qtj
n
4740 , = 5820
P Pt0 =
j=1 n j=1
p0j q0j = ptj q0j
5330 . 5790
Das bedeutet 5790 5330 5820 = 4740
L L P0t · Pt0 = P P P0t · Pt0
4740 274 446 = = 1, 5820 310 206 5330 310 206 · = 1. = 5790 274 446 ·
Die Preisindizes nach Laspeyres und nach Paasche beschreiben eine Preisentwicklung, indem (reale oder fiktive) Werte von bestimmten Warenk¨orben zueinander in Beziehung gesetzt werden. Die Indizes k¨ onnen jedoch auch anders motiviert werden. Bei der Bestimmung eines Preisindex liegt es nahe, die Elementarindizes von Preisen pti , i ∈ {1, . . . , n}, p0i zur Beschreibung einer zeitlichen Entwicklung heranzuziehen. Um die gemeinsame Preisentwicklung mehrerer Produkte zu verfolgen, w¨aren diese Messzahlen in geeigneter Weise zu verkn¨ upfen. Die folgende Regel zeigt, dass beide Indizes als gewichtete arithmetische und gewichtete harmonische Mittel solcher Elementarindizes interpretiert werden k¨ onnen. Regel A 6.41 (Preisindizes als Mittelwerte). (i) F¨ ur den Preisindex nach Laspeyres gilt L P0t =
n
PiL
i=1
1 pti = n 0 p0i
L pit P i p i=1
i
mit den Gewichten PiL =
p0i q0i
n
j=1
p0j q0j
,
L = P i
pti q0i
n
j=1
ptj q0j
,
i ∈ {1, . . . , n}.
84
A Beschreibende Statistik
(ii) F¨ ur den Preisindex nach Paasche gilt P P0t =
n
PiP
i=1
1 pti = n P p0i p0i Pi pt i
i=1
mit den Gewichten PiP =
p0i qti , n p0j qtj
P = P i
j=1
pti qti , n ptj qtj
i ∈ {1, . . . , n}.
j=1
Aus dieser Regel ergeben sich weitere Interpretationsm¨oglichkeiten der Indizes. So kann der Preisindex nach Laspeyres beispielsweise als ein mit den jeweiligen n 0 p0 i qi der einzelnen Produkte am Gesamtwert p0j q0j des WarenAnteilen n j=1
0 p0 j qj
j=1
korbs zur Basisperiode gewichtetes arithmetisches Mittel angesehen werden. Der qti pti der einzelnen Preisindex nach Paasche ist ein mit den jeweiligen Anteilen n Produkte am Gesamtwert
n j=1
j=1
qtj ptj
ptj qtj des Warenkorbs zur Berichtsperiode gewich-
tetes harmonisches Mittel. Diese beiden alternativen Darstellungen liefern noch einen weiteren wichtigen Zusammenhang zwischen beiden Indizes. Regel A 6.42 (Ordnung der Preisindizes von Laspeyres und Paasche). Es gelte p0i q0i
n
j=1
p0j q0j
=
pti qti
n
j=1
,
i ∈ {1, . . . , n}.
ptj qtj
Dann gilt f¨ ur Preisindizes nach Laspeyres und Paasche P L P0t P0t .
Diese Regel kann folgendermaßen interpretiert werden. Sind die jeweiligen Anteile der einzelnen Produkte am Gesamtwert in Basis- und Berichtsperiode (ungef¨ahr) gleich, so wird der Index nach Paasche i.Allg. kleinere Werte liefern als der Index nach Laspeyres. Diese Voraussetzung ist z.B. n¨aherungsweise erf¨ ullt, wenn eine der beiden folgenden Bedingungen gilt: • Die Preise aller Produkte steigen um etwa die selben Prozents¨atze und das Konsumverhalten, also der Warenkorb, ¨andert sich im zeitlichen Verlauf nicht. • Durch das Kaufverhalten der Konsumenten werden Preis¨anderungen ausgeglichen, d.h. bei steigenden Preisen eines Produkts tritt eine Verringerung des zugeh¨ origen Absatzes ein und umgekehrt.
A 6 Verh¨ altnis- und Indexzahlen
85
Bei realen Daten ist daher h¨aufig zu beobachten, dass der Index nach Laspeyres gr¨ oßere Werte liefert als der entsprechende Index nach Paasche. Abschließend wird noch ein weiterer Index eingef¨ uhrt, der Preisindex nach Fisher. Er berechnet sich als geometrisches Mittel der beiden bereits definierten Indizes. Definition A 6.43 (Preisindex nach Fisher). Der Preisindex nach Fisher ist definiert durch F L · PP . P0t = P0t 0t Damit stellt der Preisindex nach Fisher durch die Ber¨ ucksichtigung der abgesetzten Mengen zum Basiszeitpunkt 0 und zum Berichtszeitpunkt t einen Kompromiss zwischen den beiden anderen Indizes dar. Beispiel A 6.44. Im Beispiel A 6.34 (Konsum) ergaben sich f¨ ur den LaspeyresL P Index P0t und f¨ ur den Paasche-Index P0t die Werte n L P0t =
j=1 n j=1
n
ptj q0j ≈ 1,086
und
p0j q0j
P P0t =
j=1 n j=1
ptj qtj ≈ 1,228, p0j qtj
so dass der Preisindex nach Fisher den Wert √ F L P P0t = P0t · P0t ≈ 1,086 · 1,228 ≈ 1,155 annimmt. Bei einer Ber¨ ucksichtigung der abgesetzten Mengen des Jahres 1995 und des Jahres 2000 durch eine Mittelung beider Preisindizes ergibt sich also eine durchschnittliche Preissteigerung von 15,5%. F sich als geometrisches Mittel des LaspeyresDa der Preisindex nach Fisher P0t L P Index P0t und des Paasche-Index P0t berechnet, liegt er zwischen diesen beiden Indizes.
Regel A 6.45 (Ordnung der Preisindizes). F¨ ur die Preisindizes nach Laspeyres, Paasche und Fisher gilt entweder L F P P0t P0t P0t
oder
L F P P0t P0t P0t .
Der Fisher-Index erf¨ ullt die Eigenschaft der Zeitumkehrbarkeit. Trotzdem wird auch er in der Praxis nur selten verwendet, da er vom Preisindex nach Paasche abh¨angt und daher zu seiner Bestimmung ebenfalls aktuelle Gewichte ben¨otigt werden, also aktuelle Warenk¨ orbe erhoben werden m¨ ussen. Regel A 6.46 (Zeitumkehrbarkeit des Preisindex nach Fisher). F¨ur den PreisinF und den nach Vertauschung der Zeitpunkte resultierenden dex nach Fisher P0t F Preisindex Pt0 gilt: F F P0t · Pt0 = 1.
86
A Beschreibende Statistik
Mengenindizes Ein Mengenindex ist eine Maßzahl f¨ ur die mengenm¨aßige Ver¨anderung mehrerer Produkte in einem Zeitraum. In Analogie zur Konstruktion von Preisindizes wird eine Gewichtung mit Preisen vorgenommen, um Unterschieden in der Bedeutung einzelner Produkte Rechnung zu tragen. Dabei werden f¨ ur Basis- und Berichtszeit jeweils die selben Preise zu Grunde gelegt. ¨ Der Mengenindex nach Laspeyres gibt die mengenm¨aßige Anderung eines Produktionsabsatzes zwischen den Zeitpunkten 0 und t unter Verwendung der Preise der Basisperiode an. Er berechnet sich nach der Vorschrift QL0t =
(fiktiver) Wert des Warenkorbs der Berichtsperiode zu Basispreisen . Wert des Warenkorbs der Basisperiode zu Basispreisen
In die folgende Definition wurden auch alternative Darstellungen als gewichtete Mittelwerte von elementaren Mengenindizes aufgenommen, die sich in ¨ahnlicher Weise wie die entsprechenden Darstellungen f¨ ur Preisindizes zeigen lassen. Definition A 6.47 (Mengenindex nach Laspeyres). Der Mengenindex nach Laspeyres ist definiert durch n
QL0t =
j=1 n j=1
p0j qtj = p0j q0j
n
QLi
i=1
1 qti = n L q0i q0i Qi qt i=1
i
mit den Gewichten QLi =
p0i q0i , n p0j q0j
j=1
L = Q i
p0i qti , n p0j qtj
i ∈ {1, . . . , n}.
j=1
Der Mengenindex nach Laspeyres setzt also den fiktiven Wert der Waren, der sich als Summe der mit den Produktpreisen der Basisperiode gewichteten Absatzzahlen zum Zeitpunkt t ergibt, in Relation zum Gesamtwert der Waren zum Zeitpunkt 0, d.h. es wird eine Bewertung der Absatzmengen basierend auf den alten Preisen vorgenommen. Der Mengenindex nach Laspeyres ergibt sich aus dem LaspeyresPreisindex durch eine Vertauschung der zeitlichen Rollen von Preis und Menge. Daher entspricht die Interpretation des Mengenindex von Laspeyres derjenigen des Preisindex von Laspeyres. Beispiel A 6.48 (Warenkorb). Die folgenden Warenk¨orbe wurden zusammenge¨ stellt, um Anderungen im Konsumverhalten der Einwohner einer Kleinstadt zwischen den Jahren 1995 (Zeitpunkt 0) und 2000 (Zeitpunkt t) zu ermitteln.
A 6 Verh¨ altnis- und Indexzahlen
Produkt
Preise (in e) p0j ptj
Menge qtj
q0j
j
1 B¨ ucher 2 Magazine 3 Kraftfahrzeuge 4 Motorr¨ader
87
2 000 1 800 8 4 000 4 500 2 150 110 20 000 20 30 5 000
10 3 25 000 6 000
Aus diesen Daten wird der Mengenindex nach Laspeyres ermittelt: n
QL0t
=
j=1 n j=1
=
p0j qtj = p0j q0j
8 · 1 800 + 2 · 4 500 + 20 000 · 110 + 5 000 · 30 8 · 2 000 + 2 · 4 000 + 20 000 · 150 + 5 000 · 20
2 373 400 ≈ 0,760. 3 124 000
Der Mengenindex nach Laspeyres besagt also, dass eine (wertm¨aßige) Verringerung des Produktabsatzes um ca. 24% im Zeitraum von 1995 bis 2000 stattgefunden hat. Diese Wert¨anderung bezieht sich auf die Preise des Jahres 1995 und ¨ ist somit frei von Anderungen der Preisentwicklung u ¨ber den Zeitraum von 1995 bis 2000. Der starke R¨ uckgang ist hierbei auf einen Einbruch der Verkaufszahlen der Kraftfahrzeuge zur¨ uckzuf¨ uhren, die wegen des hohen Verkaufspreises einen großen Einfluss auf den Index haben. Der Mengenindex QP0t nach Paasche ist das Pendant zum Preisindex nach Paasche. Er berechnet sich mittels der Vorschrift QP0t =
Wert des Warenkorbs der Berichtsperiode zu Berichtspreisen . (fiktiver) Wert des Warenkorbs der Basisperiode zu Berichtspreisen
Definition A 6.49 (Mengenindex nach Paasche). Der Mengenindex nach Paasche ist definiert durch n
QP0t =
j=1 n j=1
ptj qtj = ptj q0j
n
QPi
i=1
1 qti = n P q0i q0i Qi qt i=1
i
mit den Gewichten QPi =
pti q0i
n
j=1
ptj q0j
,
P = Q i
pti qti
n
j=1
,
i ∈ {1, . . . , n}.
ptj qtj
Der Mengenindex nach Paasche setzt also den Wert der Waren zum Zeitpunkt t in Beziehung zu der Summe der mit den Preisen zum Zeitpunkt t gewichteten
88
A Beschreibende Statistik
Absatzzahlen der Basisperiode, d.h. die Bewertung der Absatzzahlen basiert auf den aktuellen Preisen zum Zeitpunkt t. Der Mengenindex nach Paasche ergibt sich aus dem Paasche-Preisindex durch eine Vertauschung der zeitlichen Rollen von Preis und Menge. Beispiel A 6.50. F¨ ur die Daten aus Beispiel A 6.48 (Warenkorb) ist der Mengenindex nach Paasche gegeben durch n
QP0t
=
j=1 n j=1
=
ptj qtj = ptj q0j
10 · 1 800 + 3 · 4 500 + 25 000 · 110 + 6 000 · 30 10 · 2 000 + 3 · 4 000 + 25 000 · 150 + 6 000 · 20
2 961 500 ≈ 0,759. 3 902 000
Der Mengenindex nach Paasche liefert eine Verringerung des Absatzes um ungef¨ahr 24,1% im Zeitraum von 1995 bis 2000. Diese Wert¨anderung bezieht sich ausschließlich auf die Preise des Jahres 2000. Der Mengenindex nach Fisher ergibt sich analog zum entsprechenden Preisindex als geometrisches Mittel aus den beiden anderen Mengenindizes. Definition A 6.51 (Mengenindex nach Fisher). Der Mengenindex nach Fisher ist definiert durch QF0t = QL0t · QP0t . Der Mengenindex nach Fisher erm¨ oglicht also bei der Berechnung der mengenm¨aßigen Ver¨anderung sowohl eine Ber¨ ucksichtigung der Preise zum Zeitpunkt 0 als auch zum Zeitpunkt t. Er liegt immer zwischen den beiden anderen Mengenindizes. Regel A 6.52 (Ordnung der Mengenindizes). F¨ ur die Mengenindizes von Laspeyres, Paasche und Fisher gilt entweder QL0t QF0t QP0t
oder
QL0t QF0t QP0t .
Beispiel A 6.53. Im Beispiel Warenkorb ergaben sich folgende Werte f¨ ur die Mengenindizes nach Laspeyres und Paasche: QL0t =
2 373 400 ≈ 0,760 3 124 000
und
QP0t =
2 961 500 ≈ 0,759. 3 902 000
Der Mengenindex nach Fisher liefert daher das Ergebnis √ QF0t = QL0t · QP0t ≈ 0,760 · 0,759 ≈ 0,759 (Die Mengenindizes nach Laspeyres und Paasche stimmen in diesem Zahlenbei¨ spiel nahezu ¨ uberein). Wird die Anderung des Absatzes mittels des Fisher-Index gemessen, so ergibt sich im betrachteten Zeitraum eine Verringerung um 24,1%.
A 6 Verh¨ altnis- und Indexzahlen
89
Die Mengenindizes nach Laspeyres und Paasche haben im Gegensatz zum Mengenindex nach Fisher nicht die Eigenschaft der Zeitumkehrbarkeit. Es gelten jedoch die folgenden Beziehungen. Regel A 6.54 (Beziehungen f¨ ur Mengenindizes). F¨ur die Mengenindizes QL0t , P F Q0t , Q0t und die durch Vertauschung der Zeitpunkte entstehenden Mengenindizes QLt0 , QPt0 , QFt0 gilt: QL0t · QPt0 = QP0t · QLt0 = QF0t · QFt0 = 1.
Wertindex Der Umsatz- oder Wertindex ist eine Maßzahl f¨ ur die allgemeine Entwicklung des Werts von Warenk¨ orben zwischen den Zeitpunkten 0 und t. Der Wertindex U0t ist definiert durch Wert des Warenkorbs der Berichtsperiode zu Berichtspreisen U0t = . Wert des Warenkorbs der Basisperiode zu Basispreisen Handelt es sich bei den Elementen der betrachteten Warenk¨orbe um verkaufte Waren, so k¨ onnen Z¨ahler und Nenner als Ums¨atze interpretiert werden: U0t =
Umsatz in der Berichtsperiode . Umsatz in der Basisperiode
Aus der Konstruktion dieses Index ist zu ersehen, dass er auch (im Gegensatz zu den Preis- und Mengenindizes) als Elementarindex aufgefasst werden kann. Definition A 6.55 (Wertindex, Umsatzindex). Der Wertindex (Umsatzindex) U0t ist definiert durch n ptj qtj j=1 U0t = . n p0j q0j j=1
Der Umsatzindex kann auch als gewichtetes arithmetisches Mittel U0t =
n j=1
der Messzahlen
ptj qtj 0, p0 j qj
Uj
ptj qtj p0j q0j
j ∈ {1, . . . , n}, mit den Gewichten Uj =
0 p0 j qj n 0 p0 i qi
i=1
geschrieben
werden. Der Wertindex kann beispielsweise ausgewertet werden, wenn Aufschluss u ¨ber die tats¨achlichen Ausgaben von Haushalten gewonnen werden soll. Da sowohl ¨ ¨ die Anderungen der Mengen als auch die Anderungen der Preise in den Index eingehen, kann bei einer Wertver¨anderung des Index ohne Kenntnis der einzelnen Daten keine Aussage dar¨ uber getroffen werden, welche von beiden Entwicklungen hierf¨ ur verantwortlich war.
90
A Beschreibende Statistik
Beispiel A 6.56. Mit den Warenk¨ orben aus Beispiel A 6.34 (Konsum) kann ermittelt werden, wie sich die tats¨achlichen Ausgaben f¨ ur Nahrungsmittel im Zeitraum von 1995–2000 entwickelt haben. Der Wertindex liefert den Wert U0t =
5820 ≈ 1,092, 5330
d.h. auf Basis der Warenk¨ orbe liegt eine Ausgabensteigerung von ca. 9,2% vor. Beispiel A 6.57 (Bekleidung). Ein Hersteller von Bekleidungsartikeln m¨ochte Aufschluss ¨ uber die Umsatz¨anderung in der Sparte Herrenoberbekleidung im Zeitraum von 1999 (Basisperiode 0) bis 2000 (Berichtsperiode t) erhalten. Hierzu werden f¨ ur die einzelnen Produkte (Hemden, T-Shirts, Pullover), die die Firma vertreibt, die verkauften Mengen und die zugeh¨origen (mittleren) Verkaufspreise bestimmt. Produkt j
Menge in St¨ uck q0j qtj
1 Hemden 15 000 2 T-Shirts 20 000 3 Pullover 8 000
13 000 24 000 9 000
Preise (in e) ptj
p0j
22 10 25
23 10 27
Aus dem Umsatzindex U0t =
782 000 23 · 13 000 + 10 · 24 000 + 27 · 9 000 = ≈ 1,071 22 · 15 000 + 10 · 20 000 + 25 · 8 000 730 000
kann abgelesen werden, dass der Umsatz im Zeitraum 1999–2000 um ca. 7,1% gestiegen ist. Der Umsatz U eines Produkts berechnet sich als Produkt aus abgesetzter Menge Q und zugeh¨ origem Preis P, d.h. es gilt U = P · Q. Dies legt nahe, dass ein solcher Zusammenhang auch f¨ ur den Umsatzindex und die vorgestellten Preis- und Mengenindizes gilt. Der folgenden Regel ist aber zu entnehmen, dass nur FisherIndizes diese Eigenschaft erf¨ ullen. In den anderen F¨allen wird einem LaspeyresPreisindex ein Paasche-Mengenindex zugeordnet und umgekehrt. Regel A 6.58 (Zusammenhang zwischen Umsatz-, Preis- und Mengenindizes). L P F (P0t , P0t ) der Preisindex nach Laspeyres (PaaSeien U0t der Umsatzindex, P0t L P F sche, Fisher) und Q0t (Q0t , Q0t ) der zugeh¨orige Mengenindex. Dann gilt: L P F U0t = P0t · QP0t = P0t · QL0t = P0t · QF0t .
Diese Regel wird zur so genannten Preisbereinigung oder Deflationierung verwendet, d.h. aus einem Umsatzindex soll ein Mengenindex berechnet werden. Aufgrund der obigen Beziehung kann beispielsweise der Mengenindex nach Laspeyres mittels der Formel
A 6 Verh¨ altnis- und Indexzahlen
QL0t =
91
U0t P P0t
berechnet werden, wenn sowohl der Umsatzindex als auch der entsprechende Preisindex nach Paasche bekannt sind. Beispiel A 6.59. Der Bekleidungsartikelhersteller aus Beispiel A 6.57 (Bekleidung) ist daran interessiert, einen Eindruck von der mengenm¨aßigen Absatzentwicklung seiner Produkte zu erhalten, wobei die Preise aus dem Jahr 1999 (Basisperiode) zu Grunde gelegt werden sollen. Vorher wurde bereits der PaaschePreisindex der Daten P P0t =
782 23 · 13000 + 10 · 24000 + 27 · 9000 = ≈ 1,041 22 · 13000 + 10 · 24000 + 25 · 9000 751
zum Vergleich mit der allgemeinen Preisentwicklung berechnet. Der Mengenindex nach Laspeyres berechnet sich daher gem¨aß QL0t =
751 U0t 782 751 · = ≈ 1,029. = P 730 782 730 P0t
Die Maßzahl liefert also eine Steigerung der abgesetzten Mengen (unter Ber¨ ucksichtigung der unterschiedlichen Bedeutung der Produkte) um 2,9%. Die vorgestellten Indexzahlen sind in Tabelle A 6.2 zusammengefasst.
Preisindex n
Laspeyres
L P0t
=
j=1 n j=1 n
Paasche
P P0t
=
j=1 n j=1
Fisher
F P0t
=
Mengenindex n
ptj q0j QL0t
=
p0j q0j
j=1 n
ptj qtj QP0t
=
p0j qtj
L P P0t P0t
j=1 n
j=1 n j=1
QF0t
=
Umsatzindex n
p0j qtj UL0t
= U0t =
p0j q0j
j=1 n
ptj qtj UP0t
= U0t =
ptj q0j
QL0t QP0t
Tabelle A 6.2. Indexzahlen.
j=1 n
j=1 n j=1 n
UF0t
= U0t =
j=1 n
=
j=1 F P0t
ptj qtj p0j q0j ptj qtj p0j q0j ptj qtj p0j q0j · QF0t
92
A Beschreibende Statistik
A 7 Zusammenhangsmaße In Anwendungen wird in der Regel nicht nur ein Merkmal einer statistischen Einheit gemessen, sondern mehrere (z.B. Geschlecht, K¨orpergr¨oße, K¨orpergewicht, Blutdruck von Personen etc.). Die gemeinsame Erhebung der Merkmale hat den Vorteil, dass im Datenmaterial auch Informationen ¨uber Zusammenh¨ange der Merkmale enthalten sind. Eine statistische Analyse der Daten kann daher (gerade) auch Aufschluss u ¨ber Zusammenh¨ange zwischen Gr¨oßen geben. In der deskriptiven Statistik erm¨ oglichen Zusammenhangsmaße eine Quantifizierung solcher Zusammenh¨ange, wobei deren Anwendbarkeit – wie bei Lage- und Streuungsmaßen – vom Merkmalstyp der betrachteten Gr¨ oßen abh¨angig ist. Im Folgenden wird daher angenommen, dass die untersuchten Gr¨ oßen das selbe Skalenniveau haben. Die Gr¨ oßen an sich k¨ onnen dabei durchaus unterschiedlich skaliert sein; die Beobachtungsgr¨ oße mit dem geringsten Messniveau bestimmt dann die anzuwendende Methode. In den bisherigen Abschnitten wurden die statistischen Konzepte stets nach ansteigendem Messniveau (nominal, ordinal, metrisch) eingef¨ uhrt. Bei der Vorstellung der Zusammenhangsmaße wird von dieser Vorgehensweise abgewichen: nach nominalen Merkmalen werden zun¨achst metrische Merkmale betrachtet. Dies ist dadurch bedingt, dass das hier eingef¨ uhrte Zusammenhangsmaß f¨ ur ordinale Daten aus dem f¨ ur metrische abgeleitet werden kann und die Eigenschaften ¨ubertragen werden. A 7.1 Nominale Merkmale Liegen nominale Merkmale vor, so gibt es wegen der fehlenden Ordnung der Daten weder monotone noch konkrete funktionale Zusammenh¨ange zwischen beiden Merkmalen (im Gegensatz zur Zusammenhangsmessung f¨ ur Daten auf einem oheren Messniveau). Daher k¨ onnen zur Quantifizierung des Zusammenhangs h¨ nur die absoluten bzw. relativen H¨aufigkeiten herangezogen werden, d.h. entsprechende Maße k¨ onnen nur die in der (gemeinsamen) H¨aufigkeitsverteilung zweier Merkmale enthaltene Information nutzen. Um Zusammenhangsmaße f¨ ur nominale Merkmale von Merkmalen eines h¨ oheren Messniveaus abzugrenzen, wird daher im Folgenden die Bezeichnung Assoziationsmaße verwendet. Die hier vorgestellten Assoziationsmaße basieren auf der mittels absoluter H¨aufigkeiten definierten χ2 Gr¨ oße (Chi-Quadrat-Gr¨ oße). Ehe auf diese Maße n¨aher eingegangen wird, werden zun¨achst Darstellungsm¨ oglichkeiten von relativen H¨aufigkeiten f¨ ur mehrdimensionale Daten vorgestellt und einige zugeh¨ orige Begriffe eingef¨ uhrt. Kontingenztafel Eine Kontingenztafel ist eine tabellarische Darstellung der H¨aufigkeiten eines Datensatzes, der aus Beobachtungen eines mehrdimensionalen Merkmals mit nominalem Skalenniveau besteht. Da im Folgenden nur Zusammenhangsmaße f¨ ur zwei
A 7 Zusammenhangsmaße
93
Merkmale X und Y betrachtet werden, wird auch die Betrachtung der Darstellungsm¨ oglichkeiten weitgehend auf den bivariaten Fall eingeschr¨ankt. In dieser Situation werden die (verschiedenen) Merkmalsauspr¨agungen von (X, Y) als Paaorige absolute H¨aufigkeit im Datensatz mit nij re (xi , yj ) notiert und die zugeh¨ bezeichnet, i ∈ {1, . . . , r}, j ∈ {1, . . . , s}. Diese H¨aufigkeiten werden dann in einer Kontingenztafel oder Kontingenztabelle zusammengefasst (eine Kontingenztafel mit relativen H¨aufigkeiten wird sp¨ater vorgestellt).
x1 x2
.. . xr Summe
y1 y2 · · · ys Summe n11 n12 · · · n1s n1• n21 n22 · · · n2s n2•
.. . nr1 n•1
.. . . .. . . . nr2 · · · nrs n•2 · · · n•s
.. . nr• n
Gelegentlich wird die Dimension der Kontingenztafel in die Notation aufgenommen und die Bezeichnung r × s-Kontingenztafel verwendet. Dies betont, dass die Kontingenztabelle r Zeilen und s Spalten besitzt und die zugeh¨origen Merkmale somit r bzw. s Merkmalsauspr¨agungen haben. Die Bestandteile der Kontingenztafel werden nun detaillierter erl¨autert: Die verschiedenen Auspr¨agungen der Merkmale werden in der Vorspalte (X) bzw. der Kopfzeile (Y ) aufgelistet. Die absolute H¨aufigkeit nij der Beobachtung (xi , yj ) ist in der i-ten Zeile der j-ten Spalte zu finden. y1 y2 · · · ys x1 x2
.. . xr
· · · yj · · · · · ·
.. . .. .
.. . .. .
xi · · · nij · · · · · ·
.. .
.. .
In einer weiteren Spalte bzw. weiteren Zeile werden die absoluten Randh¨aufigkeiten angegeben. Die Randh¨aufigkeit ni• = ni1 + · · · + nis in der i-ten Zeile ist die Summe der zu den Merkmalsauspr¨agungen (xi , y1 ), . . . , (xi , ys ) geh¨origen H¨aufigkeiten (mit festem xi ). Die Randh¨aufigkeit n•j = n1j +· · ·+nrj der j-ten Spalte ist die Summe der H¨aufigkeiten der Merkmalsauspr¨agungen (x1 , yj ), . . . , (xr , yj ) (mit festem yj ). Der Punkt im Index der H¨aufigkeiten deutet also an, ¨uber welchen Index summiert wurde.
94
A Beschreibende Statistik
· · · yj
y1 y2 · · · ys
.. . xi ni1 ni2 · · · nis ni• .. .
x1 x2
n1j n2j
.. . xr
.. . nrj n•j
··· ···
Die Randh¨aufigkeiten geben an, wie oft die jeweilige Auspr¨agung (des univariaten Merkmals), die in der zugeh¨ origen Zeile bzw. Spalte steht, in der gesamten Stichprobe vorkommt. Demzufolge ist in der rechten Spalte die H¨aufigkeitsverteilung des ersten Merkmals zu finden (hier X). In der untersten Zeile steht die H¨aufigkeitsverteilung des zweiten Merkmals (hier Y ). x1 x2
n1• n2•
.. . xr
.. . nr•
y1 y2 · · · ys
n•1 n•2 · · · n•s
Die Anzahl n aller Beobachtungen wird in die untere rechte Ecke der Kontingenztafel eingetragen. Da sie die Summe ¨ uber die absoluten H¨aufigkeiten aller Auspr¨agungen des ersten bzw. des zweiten Merkmals ist, wird gelegentlich auch die Schreibweise n•• verwendet: n1• + n2• + · · · + nr• = n•1 + n•2 + · · · + n•s = n•• = n.
Die Darstellung der H¨aufigkeiten in einer Kontingenztabelle ist im Allgemeinen nur dann sinnvoll, wenn die Merkmale wenige Auspr¨agungen haben. Bei stetigen Merkmalen sind die absoluten H¨aufigkeiten nij in der Regel klein (oft Null), so dass Kontingenztafeln in dieser Situation kein sinnvolles Mittel zur Datenkomprimierung sind. Durch eine Klassierung des Datensatzes werden sie jedoch auch f¨ ur quantitative Daten interessant. Kontingenztafeln k¨ onnen ebenso zur Darstellung relativer H¨aufigkeiten verwendet ur die relative H¨aufigkeit der Merkmalswerden. Mit der Bezeichnung fij = nnij f¨ auspr¨agung (xi , yj ) werden entsprechende Notationen eingef¨ uhrt: fi• = fi1 + fi2 + · · · + fis , f•j = f1j + f2j + · · · + frj ,
i ∈ {1, . . . , r}, j ∈ {1, . . . , s}.
Die Gesamtsummen ergeben f1• + f2• + · · · + fr• = f•1 + f•2 + · · · + f•s = f•• = 1,
so dass die auf relativen H¨aufigkeiten basierende Kontingenztafel gegeben ist durch
A 7 Zusammenhangsmaße
95
y1 y2 · · · ys x1 f11 f12 · · · f1s f1• x2 f21 f22 · · · f2s f2•
.. . xr
.. .
fr1 f•1
.. . . . . fr2 · · · f•2 · · ·
.. .
.. .
frs fr• f•s 1
Beispiel A 7.1 (Partnervermittlung). Im Aufnahmeantrag einer Partnervermittlung wird neben dem Geschlecht einer Person zus¨atzlich deren Augenfarbe vermerkt. Die Auswertung von 14 Antr¨agen ergibt folgenden Datensatz, wobei der erste Eintrag das Geschlecht (m¨annlich/weiblich (m/w)) und der zweite die Augenfarbe (Blau (1), Gr¨ un (2), Braun (3)) angeben: (m,1) (m,2) (w,1) (m,2) (w,1) (w,3) (m,2) (m,1) (w,1) (m,3) (m,2) (w,2) (w,3) (m,1) Die Kontingenztabellen dieser Daten mit absoluten bzw. relativen H¨aufigkeiten sind gegeben durch: 12 m34 w31 65
3 1 8 2 6 3 14
1 2 3 3 2 1 14 7 14 3 1 1 14 14 7 3 5 3 7 14 14
m w
4 7 3 7
1
Eine tabellarische Darstellung mehrerer nominaler Merkmale ist in ¨ahnlicher Weise m¨oglich. Exemplarisch werden drei Merkmale X, Y, Z mit Auspr¨agungen x1 , . . . , xr , y1 , . . . , ys und z1 , . . . , zt betrachtet. Die absolute bzw. relative H¨ aufigkeit der Auspr¨agung (xi , yj , zk ) wird mit nijk bzw. fijk bezeichnet. Entsprechend werden Randh¨aufigkeiten gebildet: n•jk =
r
ni•k =
nijk ,
i=1
s
nijk ,
nij• =
j=1
t
nijk .
k=1
Analog sind z.B. die Notationen ni•• , n•j• , n••k zu verstehen. In einer Kontingenztabelle k¨ onnen die H¨aufigkeiten folgendermaßen dargestellt werden (ohne Randh¨aufigkeiten). Z z1
···
zt
Y
···
Y
y1 · · · ys y1 · · · ys y1 · · · ys x1 n111 · · · n1s1 · · · · · · · · · n11t · · · n1st
. X ..
.. .
.. .
.. .
.. .
.. .
xr nr11 · · · nrs1 · · · · · · · · · nr1t · · · nrst
96
A Beschreibende Statistik
Bedingte H¨ aufigkeiten Ein zentraler H¨aufigkeitsbegriff ist die bedingte H¨aufigkeitsverteilung. Zu deren Definition werden z.B. die H¨aufigkeiten des Merkmals X unter der Voraussetzung betrachtet, dass Y eine bestimmte Auspr¨agung yj hat. Im Beispiel A 7.1 (Partnervermittlung) bedeutet dies etwa, dass die H¨aufigkeitsverteilung des Merkmals Augenfarbe innerhalb der Gruppe der Frauen betrachtet wird. Die bedingte H¨aufigkeitsverteilung ergibt sich, indem die absoluten H¨aufigkeiten n1j , . . . , nrj der Tupel (x1 , yj ), . . . , (xr , yj ) auf die Gesamth¨ aufigkeit n1j + · · · + aufigkeit aller nrj = n•j der Beobachtung yj in den Daten – also der absoluten H¨ Tupel, die die Auspr¨agung yj enthalten – bezogen werden: H¨aufigkeit der Beobachtung (xi , yj ) nij = , H¨aufigkeit der Beobachtung yj n•j
i ∈ {1, . . . , r}.
Da sich die relativen H¨aufigkeiten einer Kontingenztafel nur durch einen konstanten Faktor (der Stichprobengr¨ oße n) von den entsprechenden absoluten H¨aufigkeiten unterscheiden, k¨ onnen die obigen Ausdr¨ ucke auch als Quotienten von relativen H¨aufigkeiten berechnet werden. Definition A 7.2 (Bedingte H¨aufigkeit ). (i) Sei n•j > 0. Der Quotient fX=xi |Y=yj =
nij fij = , n•j f•j
i ∈ {1, . . . , r},
heißt bedingte H¨aufigkeit (von X = xi unter der Bedingung Y = yj ). Die zugeh¨orige H¨aufigkeitsverteilung fX=x1 |Y=yj , . . . , fX=xr |Y=yj
wird als bedingte H¨aufigkeitsverteilung (von X unter der Bedingung Y = yj ) bezeichnet. (ii) Sei ni• > 0. Der Quotient fY=yj |X=xi =
nij fij = , ni• fi•
j ∈ {1, . . . , s},
heißt bedingte H¨aufigkeit (von Y = yj unter der Bedingung X = xi ). Die zugeh¨orige H¨aufigkeitsverteilung fY=y1 |X=xi , . . . , fY=ys |X=xi
wird als bedingte H¨aufigkeitsverteilung (von Y unter der Bedingung X = xi ) bezeichnet.
A 7 Zusammenhangsmaße
97
Die Bedingungen ni• > 0, n•j > 0 in der Definition der bedingten H¨aufigkeiten k¨ onnen so interpretiert werden, dass eine bedingte H¨aufigkeit bzgl. einer gegebenen Auspr¨agung nur dann sinnvoll ist, wenn diese auch tats¨achlich beobachtet wurde. Beispiel A 7.3 (Sch¨adlingsbefall). In einem Experiment wird die Sch¨adlingsanf¨alligkeit von Erbsensorten untersucht. Hierzu werden die Erbsensorten A, B und C auf 15 Testfeldern angebaut und nach einer vorgegebenen Zeit auf Sch¨adlingsbefall untersucht (Kodierung ja/nein (j/n)). Resultat des Versuchs ist der zweidimensionale Datensatz (A,j) (B,j) (A,j) (C,j) (C,n) (A,n) (B,n) (A,n) (C,j) (A,j) (A,n) (C,n) (A,n) (B,j) (A,n) wobei der erste Eintrag die Erbsensorte (Merkmal X) und der zweite die Existenz von Sch¨adlingen (Merkmal Y ) bezeichnen. Die zu diesem Datensatz geh¨orige Kontingenztafel der absoluten H¨aufigkeiten ist somit Sorte A Sorte B Sorte C
j 3 2 2 7
n 5 1 2 8
8 3 4 15
Die bedingte H¨aufigkeitsverteilung fX=A|Y=j =
n11 3 n21 2 n31 2 = , fX=B|Y=j = = , fX=C|Y=j = = , n•1 7 n•1 7 n•1 7
beschreibt die H¨aufigkeiten der einzelnen Erbsensorten unter der Bedingung, dass ein Sch¨adlingsbefall aufgetreten ist. Dies bedeutet allerdings nicht, dass Sorte A im Vergleich zu den anderen Sorten anf¨alliger f¨ ur Sch¨adlinge ist. Es bedeutet nur, dass unter allen Feldern mit Sch¨adlingsbefall diejenigen mit Sorte A am st¨arksten vertreten waren. Hierbei ist zu ber¨ ucksichtigen, dass Sorte A im Vergleich zu den anderen Erbsensorten am h¨aufigsten ausges¨at wurde. Auf Basis des Datenmaterials kann sogar davon ausgegangen werden, dass Sorte A weniger anf¨allig gegen¨ uber Sch¨adlingen ist als die anderen Sorten. Wird n¨amlich f¨ ur jede Sorte separat untersucht, wie hoch der jeweilige Anteil an befallenen Feldern ist, so ergibt sich: fY=j|X=A =
n11 3 n21 2 n31 1 = , fY=j|X=B = = , fY=j|X=C = = . n1• 8 n2• 3 n3• 2
Es waren also nur 38 = 37,5% aller Felder mit Sorte A von Sch¨adlingen befallen, w¨ahrend bei Sorte B bzw. Sorte C zwei Drittel bzw. die H¨alfte aller Felder einen Befall aufwiesen.
98
A Beschreibende Statistik
Regel A 7.4 (Bedingte H¨aufigkeitsverteilung). F¨ur die bedingten H¨aufigkeitsverteilungen eines Datensatzes (xi , yj ), i ∈ {1, . . . , r}, j ∈ {1, . . . , s}, gilt r
fX=xi |Y=yj = 1,
i=1
s
fY=yj |X=xi = 1.
j=1
χ2 -Gr¨ oße
Ziel dieses Abschnitts ist es, einfache Assoziationsmaße zur Zusammenhangsmessung bereitzustellen. Die hier vorgestellten Gr¨ oßen basieren auf der χ2 -Gr¨oße. Bei der Definition wird zun¨achst angenommen, dass alle Randh¨aufigkeiten ni• , n•j positiv sind. oße). Bei positiven Randh¨aufigkeiten ni• , n•j wird die Definition A 7.5 (χ2 -Gr¨ χ2 -Gr¨ oße definiert durch χ2 =
s r (nij − vij )2 i=1 j=1
vij
mit vij =
ni• n•j , i ∈ {1, . . . , r}, j ∈ {1, . . . , s}. n
Gem¨aß der obigen Definition ist die χ2 -Gr¨ oße nicht definiert, falls die Kontingenztafel eine Nullzeile bzw. -spalte enth¨alt, eine Randh¨aufigkeit also den Wert Null hat. Eine entsprechende Erweiterung der Definition wird sp¨ater vorgenommen. Außerdem ist es wichtig zu betonen, dass zur Bestimmung der χ2 -Gr¨oße die Anzahl n aller Beobachtungen bekannt sein muss; mittels einer auf relativen H¨aufigkeiten basierenden Kontingenztafel kann sie nicht ermittelt werden. Zun¨achst werden einige Eigenschaften der χ2 -Gr¨oße vorgestellt, die insbesondere dazu dienen, die Verwendung als Assoziationsmaß zu rechtfertigen. Aus der Definition der χ2 -Gr¨ oße ist die Nicht-Negativit¨at dieser Maßzahl unmittelbar einsichtig. oße). F¨ur die χ2 -Gr¨oße gilt χ2 0. Regel A 7.6 (Nicht-Negativit¨at der χ2 -Gr¨ Der Begriff der empirischen Unabh¨angigkeit ist zentral f¨ ur das Verst¨andnis der χ2 -Gr¨ oße.
Definition A 7.7 (Empirische Unabh¨angigkeit). Die Merkmale X und Y heißen empirisch unabh¨angig, wenn f¨ ur die absoluten H¨aufigkeiten gilt: ni• n•j nij = n n n
f¨ ur alle i ∈ {1, . . . , r} und f¨ur alle j ∈ {1, . . . , s}.
Aus der Definition ist sofort die folgende Formulierung mittels relativer H¨aufigkeiten klar.
A 7 Zusammenhangsmaße
99
Regel A 7.8 (Empirische Unabh¨angigkeit). Die empirische Unabh¨angigkeit von X und Y ist ¨ aquivalent zu fij = fi• f•j
f¨ ur alle i ∈ {1, . . . , r} und j ∈ {1, . . . , s}.
Sind zwei Merkmale empirisch unabh¨angig, so sind also die H¨aufigkeiten der Merkmalsauspr¨agungen des zweidimensionalen Datensatzes durch die Randh¨aufigkeiten vollst¨andig bestimmt. Der Begriff der empirischen Unabh¨angigkeit l¨asst sich folgendermaßen motivieren: Angenommen, es g¨abe keinen Zusammenhang zwischen beiden Merkmalen. Dann m¨ ussten die bedingten H¨aufigkeitsverteilungen des Merkmals X bei jeweils gegebenem Y = yj mit der (unbedingten) H¨aufigkeitsverteilung von X u ur beliebige i ∈ {1, . . . , r}, j ∈ {1, . . . , s} ¨bereinstimmen, d.h. f¨ m¨ usste die bedingte H¨aufigkeit von xi unter yj gleich der relativen H¨aufigkeit von xi im Datensatz sein. In diesem Fall h¨atte das zu den Auspr¨agungen yj , j ∈ {1, . . . , s}, geh¨ orige Merkmal Y offenbar keinerlei Einfluss auf das Merkmal X. Dies bedeutet, dass f¨ ur jedes j ∈ {1, . . . , s} der Zusammenhang fX=xi |Y=yj =
nij ni• = fi• = n•j n
f¨ ur alle i ∈ {1, . . . , r}
gilt bzw. ¨ aquivalent dazu fij =
ni• n•j nij = = fi• f•j n n2
f¨ ur alle i ∈ {1, . . . , r} und j ∈ {1, . . . , s}.
Diese Forderung entspricht aber gerade der definierenden Eigenschaft der empirischen Unabh¨angigkeit. Die empirische Unabh¨angigkeit ist somit ein notwendiges Kriterium, damit zwischen zwei Merkmalen kein Zusammenhang besteht. Die obige Motivation gilt aus Symmetriegr¨ unden auch f¨ ur den umgekehrten Fall eines Einflusses des Merkmals X auf das Merkmal Y . Durch die Kl¨arung des Begriffs der empirischen Unabh¨angigkeit wird auch verst¨andlich, wie die χ2 -Gr¨ oße eine Beziehung zwischen zwei Merkmalen misst. Die χ2 Gr¨ oße vergleicht die tats¨achlich beobachteten H¨aufigkeiten nij mit den (absoluten) H¨aufigkeiten bei Vorliegen der empirischen Unabh¨angigkeit vij = nfi• f•j =
ni• n•j , n
d.h. die tats¨achliche und die Kontingenztafel bei Unabh¨angigkeit“ werden ver” glichen: y1 y2 · · · ys y1 y2 · · · ys x1 n11 n12 · · · n1s x1 v11 v12 · · · v1s .. .. .. .. .. .. . . . . . . nij vij .. .. .. .. .. .. . . . . . . xr nr1 nr2 · · · nrs xr vr1 vr2 · · · vrs
100
A Beschreibende Statistik
Die Randverteilungen stimmen in beiden F¨allen ¨uberein, denn es gilt f¨ ur i ∈
{1, . . . , r} bzw. j ∈ {1, . . . , s}:
vi• = v•j =
s
vij =
s ni•
j=1
j=1
r
r
vij =
i=1
n ni•
i=1
n•j =
ni• n•• = ni• bzw. n
n•j n•j = n•• = n•j . n n
An dieser Stelle ist zu beachten, dass die theoretischen H¨aufigkeiten“ vij = ” ni• n•j keine nat¨ urlichen Zahlen sein m¨ ussen. n In Analogie zur Definition von Streuungsmaßen werden die beiden H¨aufigkeitsverteilungen mittels eines quadratischen Abstands verglichen, d.h. die quadrierten Abst¨ande der Ausdr¨ ucke nij und vij = ni•nn•j werden zur Untersuchung eines Zusammenhangs der Merkmale betrachtet. Das resultierende Maß ist die χ2 -Gr¨oße χ2 =
s r (nij − vij )2 i=1 j=1
vij
,
bei deren Definition zun¨achst angenommen wird, dass die im Nenner auftretenden Werte vij positiv sind. Letzteres ist ¨aquivalent zu ni• > 0 und n•j > 0 f¨ ur alle i und j, d.h. die zu Grunde liegende Kontingenztabelle hat weder eine Nullzeile noch eine Nullspalte. Gilt hingegen ni• = 0 f¨ ur ein i oder n•j = 0 f¨ ur ein j, so haben beide oben abgebildeten Tafeln die selbe Nullzeile oder -spalte, so dass dort beide Verteilungen ¨ ubereinstimmen. Die entsprechenden Indizes werden in oße daher nicht ber¨ ucksichtigt, d.h. der Berechnung der χ2 -Gr¨ χ2 =
i,j:vij >0
(nij − vij )2 . vij
Da die zugeh¨ origen Merkmalsauspr¨agungen im vorliegenden Datenmaterial nicht aufgetreten sind, kann die jeweilige Merkmalsauspr¨agung von X bzw. Y vernachl¨assigt werden. Im Folgenden kann daher angenommen werden, dass die Kontingenztafel weder Nullzeilen noch -spalten enth¨alt. oße nimmt die untere Schranke des Wertebereichs, d.h. den Wert Null, Die χ2 -Gr¨ genau dann an, wenn beide Merkmale empirisch unabh¨angig sind. oße und empirische Unabh¨angigkeit). F¨ur die χ2 -Gr¨oße gilt: Regel A 7.9 (χ2 -Gr¨ χ2 = 0
⇐⇒
X und Y sind empirisch unabh¨ angig.
Dieses Resultat kann folgendermaßen angewendet werden: Nimmt χ2 kleine Werte an, so besteht vermutlich kein Zusammenhang zwischen den Merkmalen X und Y . Der Fall χ2 = 0 selbst wird in Anwendungen allerdings nur selten auftreten.
A 7 Zusammenhangsmaße
101
Es ist sogar m¨ oglich, dass bei gegebenen Randh¨aufigkeiten die Quotienten ni•nn•j keine nat¨ urlichen Zahlen sind, d.h. es gibt keine Kontingenztafel mit absoluten H¨aufigkeiten, die zur empirischen Unabh¨angigkeit der Merkmale f¨ uhrt (s. z.B. Beispiel A 7.3 ( Sch¨adlingsbefall))! oße wird eine alternative Formel angegeben, die h¨aufig Zur Berechnung der χ2 -Gr¨ einfacher handhabbar ist. Regel A 7.10 (Alternative Formel f¨ ur die χ2 -Gr¨ oße). F¨ur die χ2 -Gr¨oße gilt: ⎛ ⎞ r s 2 n ij ⎠ − n. χ2 = n ⎝ ni• n•j i=1 j=1 Im Spezialfall r = s = 2 l¨asst sich die Berechnungsvorschrift vereinfachen. oße f¨ ur 2 × 2-Kontingenztafeln). Gilt r = s = 2, so folgt Regel A 7.11 (χ2 -Gr¨ χ2 = n
(n11 n22 − n12 n21 )2 . n1• n2• n•1 n•2
Eigenschaften der χ2 -Gr¨ oße Bisher wurde nur eine untere Schranke f¨ ur den Wertebereich der χ2 -Gr¨oße angegeben. Deren Wertebereich ist auch nach oben beschr¨ankt, wobei die Schranke allerdings von der Stichprobengr¨ oße n abh¨angt. oße). F¨ur die χ2 -Gr¨oße gilt Regel A 7.12 (Obere Schranke f¨ ur die χ2 -Gr¨ χ2 n · min{r − 1, s − 1}.
Enth¨alt die Kontingenztafel Nullzeilen oder Nullspalten, so spielen diese bei der Berechnung der χ2 -Gr¨ oße keine Rolle (sie werden ignoriert). In diesem Fall reduziert sich der maximale Wert, so dass die obere Schranke lautet n · (min{r − Anzahl Nullzeilen, s − Anzahl Nullspalten} − 1) .
F¨ ur kleine Werte der χ2 -Gr¨ oße kann davon ausgegangen werden, dass nur ein schwacher Zusammenhang zwischen den betrachteten Merkmalen besteht. Im Folgenden wird sich zeigen, dass f¨ ur Werte nahe der oberen Schranke der χ2 Gr¨ oße hingegen von einem starken Zusammenhang zwischen beiden Merkmalen auszugehen ist. Die obere Schranke wird n¨amlich nur angenommen, wenn die Kontingenztafel eine Gestalt aufweist, die als vollst¨andige Abh¨angigkeit interpretiert werden kann. Gilt r s, d.h. gibt es mindestens so viele Auspr¨agungen von X wie von Y , so legt bei vollst¨ andiger Abh¨angigkeit die Auspr¨agung xi von X die ur r s legt eine Beobachtung von Y den Auspr¨agung von Y eindeutig fest. F¨ Wert von X fest. Diese v¨ ollige Abh¨angigkeit“ kann somit als Gegenst¨ uck zur ” empirischen Unabh¨angigkeit interpretiert werden.
102
A Beschreibende Statistik
Regel A 7.13 (V¨ ollige Abh¨angigkeit in einer r × s-Kontingenztafel). F¨ur die χ2 2 Gr¨oße gilt χ = n · min{r − 1, s − 1} genau dann, wenn eine der folgenden Bedingungen f¨ ur die zugeh¨orige Kontingenztafel erf¨ ullt ist: (i) Es gilt r < s und in jeder Spalte sind die H¨aufigkeiten in genau einem Feld konzentriert. (ii) Es gilt r = s und in jeder Zeile und in jeder Spalte sind die H¨aufigkeiten in genau einem Feld konzentriert. (iii) Es gilt r > s und in jeder Zeile sind die H¨aufigkeiten in genau einem Feld konzentriert. Beispiel A 7.14. F¨ ur r = s = 5 und n1 , . . . , n5 > 0 mit n1 + · · · + n5 = n ist eine Kontingenztafel, die den maximalen Wert 4n der χ2 -Gr¨oße annimmt, gegeben durch y1 y2 y3 y4 y5 x1 0 n1 0 0 0 n1 x2 0 0 0 n2 0 n2 x3 n3 0 0 0 0 n3 x4 0 0 0 0 n4 n4 x5 0 0 n5 0 0 n5 n3 n1 n5 n2 n4 n In den F¨allen r < s bzw. r > s ergeben sich ¨ ahnliche Kontingenztafeln, wobei zus¨atzlich noch s − r weitere Spalten bzw. r − s weitere Zeilen auftreten, die ebenfalls jeweils genau eine positiv besetzte Zelle enthalten. Die folgende Tabelle ist ein Beispiel einer 4 × 5-Kontingenztafel mit maximaler χ2 -Gr¨oße (= 3n). y1 x1 0 x2 0 x3 n3 x4 0 n3
y2 n1 0 0 0 n1
y3 0 0 n5 0 n5
y4 0 n2 0 0 n2
y5 0 n1 0 n2 0 n3 + n5 n4 n4 n4 n
Bei Werten der χ2 -Gr¨ oße nahe an der oberen Grenze des Wertebereichs ist von einem ausgepr¨agten Zusammenhang der Merkmale auszugehen. Dies l¨asst sich folgendermaßen motivieren (s r): Wird die obere Schranke durch die χ2 -Gr¨oße angenommen, so bedeutet dies, dass in der zugeh¨origen Kontingenztafel in jeder Zeile alle Beobachtungen in einem einzigen Feld konzentriert sind, d.h. bei Beobachtung des Merkmals X kann sofort auf die Auspr¨agung des Merkmals Y geschlossen werden. Beide Merkmale h¨angen also direkt voneinander ab. Weicht oße nur geringf¨ ugig von der oberen Schranke ab, so wird eine solche die χ2 -Gr¨ Beziehung zumindest noch n¨aherungsweise gegeben sein. Mittels der χ2 -Gr¨ oße kann daher ein Spektrum von Unabh¨angigkeit bis zur v¨olligen Abh¨angigkeit quantifiziert werden. Die χ2 -Gr¨oße hat jedoch einige Nachteile
A 7 Zusammenhangsmaße
103
bzgl. ihres Wertebereichs, die die Interpretation ihrer Werte erschweren: Die obere Schranke variiert mit der Anzahl der Beobachtungen und ist unbeschr¨ankt in dem Sinne, dass sie bei wachsendem Stichprobenumfang n beliebig groß werden kann. oße). Die Unbeschr¨anktheit der χ2 Beispiel A 7.15 (Unbeschr¨anktheit der χ2 -Gr¨ Gr¨ oße l¨asst sich bereits an einer 2 × 2-Kontingenztafel einsehen: y1 y2 x1 1 0 1 x2 0 N N 1 N N+1
F¨ ur diese Kontingenztafel ergibt sich mittels der vereinfachten Formel f¨ ur 2 × 2Kontingenztafeln χ2 = n
(n11 n22 − n12 n21 )2 N2 = N + 1. = (N + 1) n1• n2• n•1 n•2 N·N
Da N ∈ N beliebig groß gew¨ahlt werden kann und diese Kontingenztabelle als Teil einer mit Nullen aufzuf¨ ullenden r × s-Kontingenztafel interpretiert werden kann, folgt die Behauptung der Unbeschr¨anktheit. Diese Unbeschr¨anktheit ist problematisch, wenn eine Aussage ¨uber die St¨arke des Zusammenhangs getroffen werden soll. F¨ ur eine konkrete Kontingenztafel muss oße berechnet werden, ehe deren Wert inimmer die obere Schranke der χ2 -Gr¨ terpretiert werden kann. Daher wird die χ2 -Gr¨ oße im Allgemeinen nicht direkt zur Untersuchung des Zusammenhangs zweier Merkmale verwendet. Mittels der Gr¨ oße k¨ onnen jedoch Maßzahlen konstruiert werden, deren Wertebereich nicht mehr vom Stichprobenumfang n abh¨angt. Zun¨achst wird der Kontingenzkoeffizient nach Pearson eingef¨ uhrt. Kontingenzkoeffizienten Definition A 7.16 (Kontingenzkoeffizient nach Pearson). Der Kontingenzkoeffizient C nach Pearson ist definiert durch χ2 C= . n + χ2 Im Gegensatz zur χ2 -Gr¨ oße h¨angt der Kontingenzkoeffizient nach Pearson nicht vom Stichprobenumfang n ab und kann daher auch aus den relativen H¨aufigkeiten ermittelt werden.
104
A Beschreibende Statistik
Regel A 7.17 (Kontingenzkoeffizient nach Pearson bei relativen H¨aufigkeiten). Liegt eine Kontingenztafel mit relativen H¨aufigkeiten vor, so berechnet sich der Kontingenzkoeffizient C mittels r s (fij − fi• f•j )2 χ2 φ2 2 = C= mit φ = . 2 1+φ n fi• f•j i=1 j=1 Die in der Definition auftretende Gr¨ oße φ2 wird als mittlere quadratische Kontingenz bezeichnet. Sie ist unabh¨angig von der Stichprobengr¨oße n. Wie bereits erw¨ahnt h¨angt der Wertebereich des Kontingenzkoeffizienten C nicht von der Stichprobengr¨ oße ab. Allerdings treten in der folgenden oberen Schranke origen Kontingenztafel auf. noch die Dimensionen r und s der zugeh¨ Regel A 7.18 (Obere Schranke f¨ ur den Kontingenzkoeffizienten). F¨ur den Kontingenzkoeffizienten C nach Pearson gilt min{r − 1, s − 1} < 1. 0C min{r, s} Der Kontingenzkoeffizient nach Pearson erbt die Eigenschaften der χ2 -Gr¨oße bez¨ uglich der Zusammenhangsmessung, d.h. f¨ ur Werte nahe bei Null gibt es Anhaltspunkte f¨ ur die empirische Unabh¨angigkeit der Merkmale, f¨ ur Werte nahe der oberen Schranke ist ein ausgepr¨agter Zusammenhang der untersuchten Merkmale plausibel. Da der Wertebereich des Kontingenzkoeffizienten jedoch von den Dimensionen der betrachteten Kontingenztabelle abh¨angt, ist der Vergleich zweier Datens¨atze mit Kontingenztafeln unterschiedlicher Dimension mit Hilfe dieses Assoziationsmaßes problematisch. Eine normierte Variante des Kontingenzkoeffizienten, der korrigierte Kontingenzkoeffizient nach Pearson, schafft Abhilfe. Die selbe Idee f¨ uhrt in v¨ ollig anderem Kontext zur Definition des normierten GiniKoeffizienten. Definition A 7.19 (Korrigierter Kontingenzkoeffizient). Der korrigierte Kontingenzkoeffizient C∗ nach Pearson ist definiert durch min{r, s} . C∗ = C · min{r, s} − 1 Aus den Eigenschaften des Kontingenzkoeffizienten C und der χ2 -Gr¨oße ergeben sich sofort diejenigen des korrigierten Kontingenzkoeffizienten C∗ . Regel A 7.20 (Eigenschaften des korrigierten Kontingenzkoeffizienten). F¨ur den korrigierten Kontingenzkoeffizienten C∗ gilt 0 C∗ 1.
Das Verhalten des korrigierten Kontingenzkoeffizienten an den Grenzen des Wertebereichs l¨asst sich folgendermaßen charakterisieren:
A 7 Zusammenhangsmaße
105
• Es gilt C∗ = 0 genau dann, wenn die betrachteten Merkmale X und Y empirisch unabh¨angig sind. • Es gilt C∗ = 1 genau dann, wenn eine der folgenden Bedingungen f¨ur die zugeh¨orige Kontingenztafel erf¨ ullt ist: (i) Es gilt r < s und in jeder Spalte sind die H¨aufigkeiten in genau einem Feld konzentriert. (ii) Es gilt r = s und in jeder Zeile und in jeder Spalte sind die H¨aufigkeiten in genau einem Feld konzentriert. (iii) Es gilt r > s und in jeder Zeile sind die H¨aufigkeiten in genau einem Feld konzentriert. Da der Wertebereich von C∗ nicht von den Dimensionen der betrachteten Kontingenztafel abh¨angt, ist auch ein Vergleich unterschiedlich dimensionierter Tafeln oglich. mittels C∗ m¨ Abschließend sei betont, dass die vorgestellten Assoziationsmaße lediglich Anhaltspunkte f¨ ur die St¨arke eines Zusammenhangs liefern. Aussagen u ¨ber ein ex¨ plizites Anderungsverhalten der Merkmale untereinander sind nicht m¨oglich. Dies erfordert Daten eines h¨ oheren Messniveaus, die die Verwendung von Zusammenhangsmaßen wie z.B. dem Rangkorrelationskoeffizienten nach Spearman oder dem Korrelationskoeffizienten nach Bravais-Pearson erm¨oglichen. Entgegen der bisher u ¨blichen Vorgehensweise werden zun¨achst Zusammenhangsmaße f¨ ur metrische Daten betrachtet, ehe auf entsprechende Maße f¨ ur ordinale Daten eingegangen wird. Dies erleichtert sowohl das Verst¨andnis der Zusammenhangsmessung als auch die Herleitung einiger Aussagen. A 7.2 Metrische Merkmale Ziel dieses Abschnitts ist die Einf¨ uhrung des Korrelationskoeffizienten nach BravaisPearson, einem Zusammenhangsmaß f¨ ur Daten eines bivariaten Merkmals (X, Y), dessen Komponenten X und Y auf metrischem Niveau gemessen werden. Anders als der Kontingenzkoeffizient basiert er nicht auf den H¨aufigkeiten der Merkmalsauspr¨agungen von (X, Y), sondern direkt auf den Beobachtungswerten. In diesem Abschnitt sei daher (x1 , y1 ), . . . , (xn , yn ) eine gepaarte Messreihe der Merkmale X und Y . Ehe die Zusammenhangsmessung von metrischen Merkmalen thematisiert wird, werden zun¨achst Streudiagramme zur grafischen Darstellung von metrischen Datens¨atzen vorgestellt. Streudiagramme Ein Streudiagramm (gebr¨auchlich ist auch die englische Bezeichnung Scatterplot) ist eine grafische Darstellung der Beobachtungswerte eines zweidimensionalen Merkmals (X, Y), das aus zwei metrisch skalierten Merkmalen X und Y
106
A Beschreibende Statistik
besteht. Die Beobachtungspaare werden dabei in einem zweidimensionalen Koordinatensystem als Punkte markiert. Hierzu werden auf der horizontalen Achse im Diagramm die Auspr¨agungen des ersten Merkmals und auf der vertikalen die des zweiten Merkmals abgetragen. Die Visualisierung von Daten mittels eines Streudiagramms kann bereits Hinweise auf m¨ ogliche Zusammenh¨ange zwischen beiden Merkmalen geben. Beispiel A 7.21 (Gewicht und K¨ orpergr¨ oße). Im Rahmen einer Untersuchung wurden Gewicht (in kg) und K¨ orpergr¨ oße (in cm) von 32 Personen gemessen: (50,160) (68,182) (73,182) (66,180)
(65,170) (73,170) (88,185) (76,170) (50,168) (71,183) (87,190) (60,171) (52,160) (65,187) (88,176) (75,164) (59,170) (67,189) (89,192) (68,181) (60,153) (71,183) (65,165) (71,189) (65,184) (79,191) (70,175) (61,181)
(56,159) (78,178) (53,167) (73,167)
Das zu diesen Daten geh¨ orige Streudiagramm ist in Abbildung A 7.1 dargestellt.
190 180 170 160 150 40
60
80
Abb. A 7.1. Streudiagramm.
Empirische Kovarianz Wie im vorherigen Abschnitt wird zun¨achst eine Hilfsgr¨oße, die empirische Kovarianz, definiert, die bereits erste Schl¨ usse u ¨ber den Zusammenhang zweier Merkmale erlaubt. Zu deren Definition werden die arithmetischen Mittel x und y der Messreihen x1 , . . . , xn und y1 , . . . , yn verwendet. Definition A 7.22 (Empirische Kovarianz).
Basierend auf Beobachtungen
(x1 , y1 ), . . . , (xn , yn ) eines bivariaten Merkmals (X, Y) ist die empirische Kovarianz der Merkmale X und Y definiert durch 1 (xi − x)(yi − y). n n
sxy =
i=1
A 7 Zusammenhangsmaße
107
Ehe der Korrelationskoeffizient vorgestellt wird, werden einige Eigenschaften der empirischen Kovarianz hergeleitet, die einerseits die Berechnung erleichtern und andererseits den Nachweis von Eigenschaften des Korrelationskoeffizienten erlauben. Die empirische Varianz kann als Spezialfall der empirischen Kovarianz aufgefasst werden: Wird zweimal die selbe Messreihe verwendet (wird also das bivariate“ ” Merkmal (X, X) betrachtet), so liefert die empirische Kovarianz die Varianz der Messreihe; d.h. mit der Setzung yi = xi , i ∈ {1, . . . , n}, ergibt sich die empirische Varianz s2x der Daten x1 , . . . , xn . Regel A 7.23 (Zusammenhang von Kovarianz und Varianz). Die Kovarianz der Beobachtungswerte (x1 , x1 ), . . . , (xn , xn ) ist gleich der Varianz der Daten x1 , . . . , xn : sxx = s2x . Die Kovarianz verh¨alt sich ¨ahnlich wie die Varianz bei linearer Transformation der Daten. Regel A 7.24 (Kovarianz bei linear transformierten Daten). Seien (x1 , y1 ), . . . , (xn , yn ) Beobachtungswerte eines zweidimensionalen Merkmals (X, Y) mit zugeh¨origer Kovarianz sxy . Mittels linearer Transformationen werden die Daten x∗i = a + bxi ,
a, b ∈ R,
und
y∗i = c + dyi ,
c, d ∈ R,
f¨ur i ∈ {1, . . . , n} erzeugt. Die Kovarianz sx∗ y∗ der Daten (x∗1 , y∗1 ), . . . , (x∗n , y∗n ) berechnet sich gem¨aß sx∗ y∗ = bdsxy .
Die empirische Kovarianz kann mittels relativer H¨aufigkeiten bestimmt werden, wobei die Kontingenztafel der verschiedenen Beobachtungswerte (wi , zj ), i ∈ {1, . . . , r}, j ∈ {1, . . . , s}, zu Grunde gelegt wird. Bezeichnen fij die relativen H¨aufigkeiten (vergleiche Abschnitt A 7.1), so gilt sxy =
s r
fij (wi − w)(zj − z),
i=1 j=1
wobei w =
r
fi• wi und z =
i=1
s
f•j zj die arithmetischen Mittel bezeichnen.
j=1
Analog zur empirischen Varianz l¨asst sich auch f¨ ur die empirische Kovarianz eine im Allgemeinen leichter zu berechnende Darstellung angeben. Regel A 7.25 (Alternative Berechnungsformel f¨ ur die empirische Kovarianz). F¨ur die empirische Kovarianz sxy gilt 1 xi yi − x · y = xy − x · y, n n
sxy =
i=1
wobei xy das arithmetische Mittel der Produkte x1 y1 , . . . , xn yn bezeichnet.
108
A Beschreibende Statistik
Beweis. Die Umformungen beinhalten den Nachweis der entsprechenden Formel f¨ ur die empirische Varianz: n n 1 1 (xi yi − xi y − xyi + x · y) (xi − x)(yi − y) = n i=1 n i=1 n n n 1 1 1 xi yi − xi y − x yi + x · y = n i=1 n i=1 n i=1
sxy =
= xy − x · y − x · y + x · y = xy − x · y.
Beispiel A 7.26. Der folgende Datensatz wurde im Rahmen einer Untersuchung des Zusammenhangs von Alter (Merkmal X) und K¨orpergr¨oße (Merkmal Y ) bei m¨annlichen Jugendlichen erhoben. Alter (in Jahren) Gr¨ oße (in m)
14
16
16
12
15
17
1,60 1,75 1,80 1,50 1,55 1,80
Das arithmetische Mittel der ersten Messreihe ist x = 15, das der zweiten betr¨agt y = 10 ur den Mittelwert der Produkte der Beobachtungswerte ergibt 6 ≈ 1,667. F¨ sich 1 xy = (14 · 1,6 + 16 · 1,75 + 16 · 1,8 6 + 12 · 1,5 + 15 · 1,55 + 17 · 1,8) = 25,175. Also gilt f¨ ur die empirische Kovarianz des obigen Datensatzes sxy = xy − x · y ≈ 25,175 − 15 · 1,667 = 0,17.
Die empirische Kovarianz wird zur Beschreibung eines linearen Zusammenhangs zwischen zwei Merkmalen herangezogen. Die folgende Grafik verdeutlicht, warum sie dazu geeignet ist. 6 2. Quadrant
1. Quadrant
q ←−−q−−−−
q ↑|←− y32 −y>0
q
↑ | |
↓|
q
qq
y12 −y<0
| | ↓ q −−−−− q ← q
3. Quadrant
q q −→ q q q
x32 −x<0
(x, y)
x12 −x<0
q
q q q q q ←−−
−−−−−−→↑q | | q
q
y10 −y>0
r q
q
q
x10
q −x>0
q
x17 −x>0
↑ |
| | ↓ q
y17 −y<0
| −−→↓q
−−−−−→
4. Quadrant
-
A 7 Zusammenhangsmaße
109
Dargestellt sind die Messwerte (x1 , y1 ), . . . , (x32 , y32 ) des Merkmalpaars (X, Y) aus Beispiel A 7.21 (Gewicht und K¨ orpergr¨oße) in einem Koordinatensystem (Scatterplot) mit Zentrum (x, y). F¨ ur Datenpunkte, die sich im ersten und dritten Quadranten dieses Koordinatensystems befinden, ist der Beitrag zur Kovarianz positiv. In diesem Fall finden sich bei großen Merkmalsauspr¨agungen des Merkmals X auch große Auspr¨agungen des Merkmals Y bzw. bei kleinen Auspr¨agungen des Merkmals X auch kleine Auspr¨agungen des Merkmals Y . F¨ ur Daten im zweiten und vierten Quadranten ist der Beitrag negativ. Also deutet ein positiver Wert der Kovarianz ein gleichsinniges Ordnungsverhalten der Merkmale an, d.h. nehmen die Merkmalsauspr¨agungen des Merkmals X zu, so gilt dies auch f¨ ur die Merkmalsauspr¨agungen von Y . Bei negativer Kovarianz kann von einem gegensinnigen Ordnungsverhalten ausgegangen werden, d.h. abnehmende Merkmalsauspr¨agungen des Merkmals X gehen mit wachsenden Auspr¨agungen des Merkmals Y einher. Hat die empirische Kovarianz jedoch einen Wert nahe Null, so liegen keine Anhaltspunkte f¨ ur einen der oben erw¨ahnten Zusammenh¨ange vor. Die Beobachtungswerte verteilen sich dann etwa gleichm¨aßig auf alle vier Quadranten. Ein Nachteil der empirischen Kovarianz ist, dass ihre Werte von der Gr¨oße der betrachteten Beobachtungswerte abh¨angen. Diese Maßzahl gibt daher lediglich (anhand des Vorzeichens) einen Hinweis auf das gemeinsame Wachstumsverhalten beider Merkmale, sie erlaubt aber keine Aussage u ¨ber die St¨arke des Zusammenhangs. Aus diesem Grund wird (¨ahnlich wie bei der χ2 -Gr¨oße) eine Normierung durchgef¨ uhrt. Das resultierende Maß ist der Bravais-PearsonKorrelationskoeffizient (oder kurz Korrelationskoeffizient, Korrelation). Zu seiner Berechnung werden zus¨atzlich die empirischen Standardabweichungen sx und sy der Messreihen x1 , . . . , xn und y1 , . . . , yn verwendet. Korrelationskoeffizient von Bravais-Pearson Definition A 7.27 (Bravais-Pearson-Korrelationskoeffizient). Seien (x1 , y1 ), . . . , (xn , yn ) ein gepaarter Datensatz zum bivariaten Merkmal (X, Y) und sx > 0 bzw. sy > 0 die Standardabweichungen von x1 , . . . , xn bzw. y1 , . . . , yn . Der BravaisPearson-Korrelationskoeffizient rxy ist definiert durch n
rxy =
(xi − x)(yi − y) sxy i=1 = . sx sy n n (xi − x)2 (yi − y)2 i=1
i=1
Ist eine der beiden Standardabweichungen sx und sy gleich Null, so ist der obige Quotient nicht definiert. Aus der Definition der empirischen Varianz folgt sofort, dass sx = 0 die Gleichheit x1 = · · · = xn aller zugeh¨origen Beobachtungswerte impliziert. Dies bedeutet xi = x f¨ ur alle i ∈ {1, . . . , n}, so dass auch sxy = 0 gilt. Entsprechendes gilt nat¨ urlich f¨ ur die Messreihe y1 , . . . , yn . Da diese Situationen
110
A Beschreibende Statistik
in Anwendungen in der Regel nicht auftreten, wird im Folgenden stets sx > 0 und sy > 0 angenommen. Der Korrelationskoeffizient kann auch f¨ ur Beobachtungsdaten, die in Form einer Kontingenztafel relativer H¨aufigkeiten vorliegen, berechnet werden. In diesem Fall sind die entsprechenden Varianten der empirischen Kovarianz sxy und der empirischen Standardabweichungen sx und sy in die Formel einzusetzen, wobei zur Bestimmung der Standardabweichungen die relativen Randh¨aufigkeiten fi• und f•j heranzuziehen sind. Mit der oben eingef¨ uhrten Notation liefert dies die Darstellung: s r fij (wi − w)(zj − z) i=1 j=1 rxy = . r s fi• (wi − w)2 f•j (zj − z)2 i=1
j=1
Desweiteren k¨ onnen nat¨ urlich die alternativen Darstellungen der empirischen Kovarianz und Varianz bei der Berechnung des Bravais-Pearson-Korrelationskoeffizienten verwendet werden. Das Verhalten von empirischer Varianz und Kovarianz bei linearen Transformationen der Beobachtungswerte wirkt sich unmittelbar auf den Bravais-PearsonKorrelationskoeffizienten aus. Regel A 7.28 (Korrelation bei linear transformierten Daten). Seien (x1 , y1 ), . . . , (xn , yn ) Beobachtungswerte eines bivariaten Merkmals (X, Y) mit zugeh¨ origem Bravais-Pearson-Korrelationskoeffizienten rxy . Mittels linearer Transformationen werden die Daten x∗i = a + bxi ,
a ∈ R, b = 0,
und
y∗i = c + dyi ,
c ∈ R, d = 0,
f¨ ur i ∈ {1, . . . , n} erzeugt. Der Korrelationskoeffizient rx∗ y∗ der Daten (x∗1 , y∗1 ), . . . , (x∗n , y∗n ) berechnet sich gem¨aß rxy , falls bd > 0 bd rxy = . rx∗ y∗ = |bd| −rxy , falls bd < 0 ¨ Eine lineare Transformation der Daten kann somit lediglich eine Anderung des Vorzeichens von rxy bewirken. In der Definition des Korrelationskoeffizienten wird die empirische Kovarianz auf das Produkt der jeweiligen Standardabweichungen der einzelnen Messreihen beider Merkmale bezogen. Dies hat zur Folge, dass der Wertebereich nicht mehr von der Gr¨ oßenordnung der Beobachtungswerte abh¨angt und beschr¨ankt ist. Die folgende Regel zeigt, dass das Intervall [−1, 1] Wertebereich des Korrelationskoeffizienten ist. Wie im Fall des korrigierten Kontingenzkoeffizienten sind auch hier die Bedingungen, unter denen die Randwerte des Intervalls angenommen werden, der Schl¨ ussel zum Verst¨andnis der Art der Zusammenhangsmessung.
A 7 Zusammenhangsmaße
111
Regel A 7.29 (Wertebereich des Bravais-Pearson-Korrelationskoeffizienten). F¨ur den Bravais-Pearson-Korrelationskoeffizienten gilt −1 rxy 1.
Das Verhalten des Bravais-Pearson-Korrelationskoeffizienten an den Grenzen des Wertebereichs l¨asst sich folgendermaßen charakterisieren: • Der Bravais-Pearson-Korrelationskoeffizient nimmt genau dann den Wert 1 an, wenn die Beobachtungswerte auf einer Geraden mit positiver Steigung liegen: rxy = 1 ⇐⇒ Es gibt ein b > 0 und ein a ∈ R mit yi = a + bxi , i ∈ {1, . . . , n}.
• Der Wert −1 wird genau dann angenommen, wenn die Beobachtungswerte auf einer Geraden mit negativer Steigung liegen: rxy = −1 ⇐⇒ Es gibt ein b < 0 und ein a ∈ R mit yi = a + bxi , i ∈ {1, . . . , n}.
Die Extremwerte des Korrelationskoeffizienten werden also genau dann angenommen, wenn die Beobachtungswerte im Streudiagramm auf einer Geraden y = a + bx mit einer von Null verschiedenen Steigung b liegen. F¨ ur b > 0 bedeutet dies, dass das zu den Auspr¨agungen y1 , . . . , yn geh¨orige Merkmal Y um b Einheiten steigt, wenn das zu den Merkmalsauspr¨ agungen x1 , . . . , xn geh¨orige Merkmal X um eine Einheit w¨achst. Ist b < 0, so f¨allt das Merkmal Y um b Einheiten, wenn das Merkmal X um eine Einheit w¨achst. Der Korrelationskoeffizient nach Bravais-Pearson misst somit lineare Zusammenh¨ange. Diese Art des Zusammenhangs wird als Korrelation bezeichnet. Hiermit erkl¨aren sich die folgenden Bezeichnungen (und auch der Name der Maßzahl). Definition A 7.30 (Korrelation). Die Merkmale X und Y heißen positiv korreliert, falls rxy > 0, unkorreliert, falls rxy = 0, negativ korreliert, falls rxy < 0. In der Praxis werden die Beobachtungswerte zweier Merkmale aufgrund von nat¨ urlicher Streuung oder (Mess-)Fehlern bei der Erfassung nur selten in einem exakten linearen Zusammenhang stehen. Allerdings kann mit Hilfe des BravaisPearson-Korrelationskoeffizienten untersucht werden, ob zumindest n¨aherungsweise ein linearer Zusammenhang besteht. Nimmt der Korrelationskoeffizient Werur einen linearen Zusammente nahe 1 oder −1 an, so gibt es einen Anhaltspunkt f¨ hang zwischen beiden Merkmalen. Auch wenn der Korrelationskoeffizient nicht Werte in der N¨ahe der R¨ander des Wertebereichs annimmt, so vermittelt er doch aufgrund der Eigenschaften der empirischen Kovarianz einen Eindruck vom Verhalten der Punktwolke der Daten im Streudiagramm. F¨ ur unterschiedliche Gr¨oßenordnungen der Kenngr¨ oße werden daher folgende Sprechweisen eingef¨ uhrt.
112
A Beschreibende Statistik
Bezeichnung A 7.31 (St¨arke der Korrelation). Die Merkmale X und Y heißen schwach korreliert, falls 0 |rxy | < 0,5, stark korreliert, falls 0,8 |rxy | 1. In Abbildung A 8.1 sind verschiedene zweidimensionale Datens¨atze in Form von Punktwolken dargestellt. Darunter ist jeweils der Wert des Bravais-PearsonKorrelationskoeffizienten angegeben. Anhand der Grafiken wird deutlich, dass der Betrag des Korrelationskoeffizienten sich umso mehr dem Wert Eins n¨ahert, je st¨arker die Punktwolke um eine Gerade konzentriert ist. Außerdem ist ersichtlich, dass das Vorzeichen des Korrelationskoeffizienten von der Steigung dieser Geraden abh¨angt. Beispiel A 7.32. Die arithmetischen Mittel des Datensatzes j xj yj
1
2
3
4
5
6
3 4 5 6 7 8 9,5 13 16 20 20,5 23
sind gegeben durch x = 5,5 und y = 17. Die zugeh¨origen empirischen Varianzen sind s2x ≈ 2,917 und s2y = 21,75, die empirischen Standardabweichungen sx = s2x ≈ 1,708 und sy = s2y ≈ 4,664. Wegen sxy ≈ 7,833 ist der Korrelationskoeffizient gegeben durch sxy rxy = ≈ 0,983. sx sy Es gibt also Anhaltspunkte f¨ ur einen ausgepr¨agten linearen Zusammenhang der Daten, die Merkmale sind stark positiv korreliert. Abschließend sei noch auf einen wichtigen Punkt bei der Messung eines Zusammenhangs mittels des Korrelationskoeffizienten hingewiesen. Diese Kenngr¨oße liefert lediglich Aufschluss ¨ uber lineare Zusammenh¨ange. Anders geartete Zusammenh¨ange k¨ onnen damit nicht gemessen werden. Falls der Korrelationskoeffizient gleich Null ist, bedeutet dies insbesondere nicht zwingend, dass u ¨berhaupt kein Zusammenhang zwischen beiden Merkmalen existiert. Es bedeutet lediglich, dass anhand des Datenmaterials kein linearer Zusammenhang nachgewiesen werden kann. Abbildung A 8.1 verdeutlicht, dass von einem Wert des Korrelationskoeffizienten nahe Null nicht auf eine diffuse Punktwolke“ geschlossen werden kann. ” Beispiel A 7.33 (Quadratischer Zusammenhang). Mittels des folgenden Zahlenbeispiels soll illustriert werden, dass zwischen zwei Merkmalen auch dann ein Zusammenhang bestehen kann, wenn der Bravais-Pearson-Korrelationskoeffizient nicht darauf schließen l¨asst: j xj yj xj yj
1
2 3
4 5
Summe
−1 0 4 1 0 −8 −1 0
1 2 1 4 1 8
0 10 0
−2
A 7 Zusammenhangsmaße
113
Die zugeh¨ orige empirische Kovarianz betr¨agt wegen x = 0 und xy = 0 sxy = xy − x · y = 0,
so dass auch der Korrelationskoeffizient rxy der Daten gleich Null ist. Die Daten stehen aber offensichtlich in einem quadratischen Zusammenhang, d.h. es gilt yj = x2j , j ∈ {1, . . . , 5}. Selbst wenn der Korrelationskoeffizient auf einen Zusammenhang zwischen zwei Merkmalen hindeutet, ist es grunds¨atzlich nicht m¨oglich, nur anhand der Daten eine Aussage dar¨ uber zu treffen, welches Merkmal das jeweils andere beeinflusst. Dies wird bereits aus der Tatsache ersichtlich, dass diese Kenngr¨oße symmetrisch in den Daten der Merkmale X und Y ist. Eine Vertauschung beider Merkmale l¨asst dessen Wert unver¨andert. Eine Entscheidung u ¨ber die Richtung des Zusammenhangs kann nur auf Basis des sachlichen Kontexts, in dem die Merkmale zueinander stehen, getroffen werden. Weitere Aspekte, die in diesem Kontext diskutiert werden m¨ ussen, sind die so genannte Scheinkorrelation und Korrelationen, die aufgrund einer parallelen Entwicklung von nicht in Zusammenhang stehenden Merkmalen entstehen. Eine Scheinkorrelation zwischen Merkmalen X und Y entsteht, wenn der Zusammenhang von X und Y durch eine dritte Variable Z induziert wird, mit der X und Y jeweils sinnvoll korreliert werden k¨onnen. Im Rahmen einer Korrelationsanalyse ist somit darauf zu achten, dass ein sachlogischer Zusammenhang zwischen den betrachteten Merkmalen besteht. F¨ ur weitere Details sei auf Bamberg et al. (2008) und Hartung et al. (2005) verwiesen. Beispiel A 7.34. Es ist unmittelbar einsichtig, dass K¨orpergr¨oße X und K¨orpergewicht Y einer Person voneinander abh¨angen, da mit einer wachsenden K¨orpergr¨oße eine gr¨ oßere Masse einhergeht und somit ein h¨ oheres Gewicht verursacht wird. Andererseits ist die Schuhgr¨ oße Z einer Person (d.h. letztlich die Fußl¨ange) ein Merkmal, das mit wachsendem Gewicht zunehmen wird. Dies ist jedoch weniger durch das Gewicht als durch die K¨ orpergr¨ oße bedingt. Somit h¨angen Y und Z nur scheinbar voneinander ab, d.h. der Zusammenhang von Y und Z wird durch deren Abh¨angigkeit von X erzeugt. Eine unsinnige Korrelation entsteht z.B., wenn die Anzahl br¨ utender Storchenpaare und die Anzahl der Geburten in einer Region in Beziehung gesetzt werden. A 7.3 Ordinale Merkmale In diesem Abschnitt wird der Rangkorrelationskoeffizient nach Spearman definiert, der durch den Bravais-Pearson-Korrelationskoeffizienten motiviert ist und auch aus ihm abgeleitet werden kann. Er ist ein Zusammenhangsmaß f¨ ur bivariate Merkmale (X, Y), wobei X und Y mindestens ordinales Messniveau haben. Zur Berechnung des Rangkorrelationskoeffizienten wird nur auf die R¨ange der Beobachtungsdaten der einzelnen Merkmale zur¨ uckgegriffen, d.h. es werden ausschließlich die Reihenfolgen der Beobachtungswerte verwendet, die tats¨achlichen Werte sind
114
A Beschreibende Statistik
irrelevant. F¨ ur Beobachtungswerte (xj , yj ), j ∈ {1, . . . , n}, des Merkmals (X,Y ) bezeichne R(xj ) den Rang der Beobachtung xj in der Messreihe x1 , . . . , xn , R(yj ) den Rang der Beobachtung yj in der Messreihe y1 , . . . , yn . Um Trivialf¨alle auszuschließen wird angenommen, dass jeweils in beiden Messreihen nicht alle Beobachtungswerte gleich sind. Dies impliziert insbesondere, dass auch deren jeweilige R¨ange nicht alle u ¨bereinstimmen. Damit ist der Nenner des Quotienten in der folgenden Definition immer positiv und der Quotient definiert. Definition A 7.35 (Rangkorrelationskoeffizient nach Spearman). Der Rangkorrelationskoeffizient nach Spearman rSp ist definiert durch n
rSp =
(R(xi ) − R(x))(R(yi ) − R(y)) , n n (R(xi ) − R(x))2 (R(yi ) − R(y))2 i=1
i=1
wobei R(x) =
1 n
n i=1
R(xi ) bzw. R(y) =
i=1 1 n
n
R(yi ) die arithmetischen Mittel der
i=1
R¨ange R(x1 ), . . . , R(xn ) bzw. R(y1 ), . . . , R(yn ) bezeichnen. Der Rangkorrelationskoeffizient stimmt mit dem Bravais-Pearson-Korrelationskoeffizienten u ¨berein, wenn an Stelle der Originaldaten (xj , yj ) die Rangpaare (R(xj ), R(yj )) verwendet werden. Regel A 7.36 (Zusammenhang zwischen Rangkorrelationskoeffizient und Bravais-Pearson-Korrelationskoeffizient). Der Rangkorrelationskoeffizient nach Spearman der Beobachtungswerte (x1 , y1 ), . . . , (xn , yn ) ist identisch mit dem BravaisPearson-Korrelationskoeffizienten der zugeh¨origen Rangdaten (R(x1 ), R(y1 )), . . . , (R(xn ), R(yn )): rSp = rR(x)R(y) . Der Rangkorrelationskoeffizient kann also tats¨achlich als eine Maßzahl f¨ ur die Korrelation der R¨ange der Beobachtungsdaten beider Merkmale angesehen werden. Dabei ist zu ber¨ ucksichtigen, dass sich mittels des Rangkorrelationskoeffizienten sicherlich keine genau spezifizierten funktionalen Zusammenh¨ange (wie lineare Zusammenh¨ange beim Bravais-Pearson-Korrelationskoeffizient) zwischen den Merkmalen aufdecken lassen. Es wird sich zeigen, dass aufgrund des niedrigeren Messniveaus mittels des Rangkorrelationskoeffizienten nur allgemeine Monotoniebeziehungen zwischen den Merkmalen beschrieben werden k¨onnen. Ehe n¨aher auf die Eigenschaften des Rangkorrelationskoeffizienten eingegangen wird, wird zun¨achst eine alternative Berechnungsm¨oglichkeit bei Datens¨atzen ohne Bindungen vorgestellt. Regel A 7.37 (Rangkorrelationskoeffizient bei verschiedenen R¨angen). Sind die Beobachtungswerte in den jeweiligen Datenreihen x1 , . . . , xn und y1 , . . . , yn jeweils paarweise verschieden, d.h. gilt
A 7 Zusammenhangsmaße
xi = xj ,
yi = yj
115
f¨ ur alle i = j, i, j ∈ {1, . . . , n},
so kann der Rangkorrelationskoeffizient nach Spearman berechnet werden mittels rSp = 1 −
6
n
n(n2 − 1)
i=1
(R(xi ) − R(yi ))2 .
¨ Aufgrund der Ubereinstimmung mit dem Bravais-Pearson-Korrelationskoeffizienten ist das Intervall [−1, 1] Wertebereich des Rangkorrelationskoeffizienten. Wie im Fall des Bravais-Pearson-Korrelationskoeffizienten k¨onnen die Bedingungen angegeben werden, unter denen die Randwerte des Intervalls angenommen werden. Hierbei zeigt sich, dass die R¨ange in beiden Messreihen entweder identisch sind oder in umgekehrter Reihenfolge auftreten. Regel A 7.38 (Wertebereich des Rangkorrelationskoeffizienten). F¨ur den Rangkorrelationskoeffizienten nach Spearman gilt −1 rSp 1.
Das Verhalten des Rangkorrelationskoeffizienten nach Spearman an den Grenzen des Wertebereichs l¨asst sich folgendermaßen charakterisieren: • Der Rangkorrelationskoeffizient nach Spearman nimmt genau dann den Wert 1 an, wenn die R¨ange in beiden Datenreihen ¨ubereinstimmen: rSp = 1 ⇐⇒ R(xi ) = R(yi ) f¨ ur alle i ∈ {1, . . . , n}.
• Der Rangkorrelationskoeffizient nach Spearman nimmt genau dann den Wert −1 an, wenn die R¨ ange der einzelnen Datenreihen untereinander ein gegenl¨aufiges Verhalten aufweisen: rSp = −1 ⇐⇒ R(xi ) = n + 1 − R(yi ) f¨ ur alle i ∈ {1, . . . , n}.
Aus dieser Eigenschaft wird deutlich, welche Art von Zusammenh¨angen durch den Rangkorrelationskoeffizienten erfasst werden. rSp = 1 gilt genau dann, wenn die R¨ange der Beobachtungswerte die Bedingung R(xi ) = R(yi ), i ∈ {1, . . . , n}, erf¨ ullen. Das bedeutet, dass aus xi < xj f¨ ur die zugeh¨origen y-Werte yi < yj und ur die y-Werte yi = yj folgt. Nimmt der Rangkorrelationskodass aus xi = xj f¨ effizient eines Datensatzes also Werte nahe Eins an, so kann davon ausgegangen werden, dass ein synchrones“ Wachstum beider Merkmale vorliegt. ” rSp = −1 gilt genau dann, wenn die R¨ ange die Gleichungen R(xi ) = n + 1 − R(yi ), i ∈ {1, . . . , n}, erf¨ ullen. Also ergibt sich aus xi < xj f¨ ur die zugeh¨origen y-Werte yi > yj , und aus xi = xj folgt f¨ ur die y-Werte yi = yj , wobei i, j ∈ {1, . . . , n} und i = j. Werte in der N¨ ahe von −1 legen daher ein gegenl¨aufiges Verhalten beider Merkmale nahe. Zusammenfassend kann festgestellt werden, dass der Rangkorrelationskoeffizient ¨ ein Maß f¨ ur das monotone Anderungsverhalten zweier Merkmale ist.
116
A Beschreibende Statistik
Beispiel A 7.39. Der Zusammenhang zwischen erreichten Punktzahlen bei der ¨ Bearbeitung von Ubungsaufgaben (Merkmal Y ) und in einer Examensklausur (Merkmal X) soll untersucht werden. Dazu liegen folgende Daten vor. Studierende
1
2
3
4
5
6
7
8
Klausurpunkte 34 24 87 45 72 69 91 38 ¨ Punkte in den Ubungsaufgaben 13 8 60 34 58 61 64 50 ¨ F¨ ur die R¨ange der Klausurpunkte xi , i ∈ {1, . . . , n}, und der Punkte in den Ubungsaufgaben yi , i ∈ {1, . . . , n}, ergibt sich somit: Studierende
1 2
3 4
5
6 7
8
Rang der Klausur 2 1 ¨ Rang der Ubungsaufgaben 2 1
7 4 6 3
6 5
5 8 7 8
3 4
Differenz der R¨ange
1 1
1 −2 0
−1
0 0
¨ Da alle Punkte in der Klausur bzw. in den Ubungsaufgaben verschieden sind, kann die vereinfachte Formel zur Berechnung des Rangkorrelationskoeffizienten benutzt werden. Es gilt
rSp = 1 −
6
n
n(n2 − 1)
i=1
(R(xi ) − R(yi ))2
6 (0 + 0 + 1 + 1 + 1 + 4 + 0 + 1) ≈ 0,905. =1− 8(82 − 1)
Dieses Ergebnis spiegelt die Einsch¨atzung wider, dass die Leistung in Klausur ¨ ¨ und Ubung ist ein ¨ahnlich ist, d.h. bei einer guten Leistung im Ubungsbetrieb gutes Resultat in der Pr¨ ufungsklausur anzunehmen und umgekehrt. Es beweist ¨ jedoch nicht, dass eine gute Bearbeitung der Ubungen eine gute Klausur impliziert. Weiterhin kann auch die Behauptung, dass es nicht m¨oglich ist, eine gute Klausur ¨ ohne eine entsprechende Bearbeitung der Ubungsaufgaben zu schreiben, nicht mit Hilfe des Rangkorrelationskoeffizienten belegt werden. Der Bravais-Pearson-Korrelationskoeffizient konnte bei linearer Transformation der Daten aus dem urspr¨ unglichen Koeffizienten leicht berechnet werden. Da der Rangkorrelationskoeffizient nur ¨ uber die R¨ange von den Messwerten abh¨angt, kann er sogar bei beliebigen streng monotonen Transformationen der Messreihen ohne R¨ uckgriff auf die Originaldaten ermittelt werden. Regel A 7.40 (Rangkorrelationskoeffizient bei monotoner Transformation der Daten). Seien x1 , . . . , xn und y1 , . . . , yn Beobachtungen zweier ordinalskalierter Merkmale mit Rangkorrelationskoeffizient rSp .
A 8 Regressionsanalyse
117
Sind f und g streng monotone Funktionen, dann gelten die folgenden Zusammenh¨ange f¨ ur den Rangkorrelationskoeffizienten rf,g Sp der transformierten Daten f(x1 ), . . . , f(xn ) und g(y1 ), . . . , g(yn ): • Sind beide Funktionen f und g entweder wachsend oder fallend, dann gilt rf,g Sp = rSp .
• Sind f fallend und g wachsend bzw. liegt die umgekehrte Situation vor, so gilt rf,g Sp = −rSp .
A 8 Regressionsanalyse In Abschnitt A 7 wurden Zusammenhangsmaße (z.B. der Bravais-Pearson-Korrelationskoeffizient) dazu verwendet, die St¨arke des Zusammenhangs mittels einer Maßzahl zu quantifizieren. In Erweiterung dieses Zugangs behandelt die deskriptive Regressionsanalyse die Beschreibung einer (funktionalen) Abh¨angigur eine keitsbeziehung zweier metrischer Merkmale X und Y . Anhaltspunkte f¨ bestimmte Abh¨angigkeitsstruktur von X und Y ergeben sich oft aus theoreti¨ schen Uberlegungen oder empirisch durch Auswertung eines Zusammenhangsmaßes oder Zeichnen eines Streudiagramms. Ein hoher Wert (nahe Eins) des Bravais-Pearson-Korrelationskoeffizienten beispielsweise legt einen positiven, linearen Zusammenhang zwischen den Merkmalen nahe. In dieser Situation wird daher (zun¨achst) oft angenommen, dass X und Y in linearer Form voneinander abh¨angen: Y = f(X) = a + bX, wobei mindestens einer der Parameter a und b nicht bekannt ist. Die einzige verf¨ ugbare Information zur Bestimmung von Sch¨atzwerten f¨ ur a und b ist die beobachtete gepaarte Messreihe (x1 , y1 ), . . . , (xn , yn ). Beispiel A 8.1 (Werbeaktion). In der Marketingabteilung eines Unternehmens ur ein Produkt den jeweils folgenwerden die Kosten der letzten n Werbeaktionen f¨ den Monatsums¨atzen gegen¨ ubergestellt. Zur Analyse der Daten wird angenommen, dass die Ums¨atze (linear) vom Werbeaufwand abh¨angen. Der funktionale Zusammenhang zwischen dem Merkmal X (Werbeaufwand) und dem (abh¨angigen) Merkmal Y (Monatsumsatz) soll durch eine Gerade (Umsatzfunktion) Y = a + bX
beschrieben werden. Der (unbekannte) Parameter b gibt die Steigung der Geraden an und beschreibt den direkten Einfluss des Werbeaufwands. Der (ebenfalls unbekannte) Parameter a gibt den Ordinatenabschnitt der Geraden an und damit den vom Werbeaufwand unabh¨angigen Bestandteil des Umsatzes. Mittels der Daten (x1 , y1 ), . . . , (xn , yn ) k¨ onnen Informationen ¨uber die Parameter a und b gewonnen werden.
118
A Beschreibende Statistik
Ziel der Regressionsanalyse ist es, einen funktionalen Zusammenhang zwischen einem abh¨angigen Merkmal Y und einem erkl¨arenden Merkmal X basierend auf einer gepaarten Messreihe zu beschreiben. Hierzu wird (z.B. auf der Basis theoretischer ¨ Uberlegungen aus der Fachwissenschaft oder Praxiserfahrungen) unterstellt, dass sich das Merkmal Y als Funktion Y = f(X)
des Merkmals X schreiben l¨asst, wobei die Funktion f zumindest teilweise unbekannt ist. In den nachfolgenden Ausf¨ uhrungen wird stets davon ausgegangen, dass f nur von einem oder mehreren unbekannten Parametern abh¨ angt, die die Funktion f eindeutig festlegen (im obigen Beispiel sind dies a und b). Das Problem der Regressionsrechnung besteht darin, diese Unbekannten m¨oglichst gut zu bestimmen. Mittels eines Datensatzes (x1 , y1 ), . . . , (xn , yn ) des bivariaten Merkmals (X, Y) werden Informationen u ¨ber die Funktion f, die die Abh¨angigkeitsstruktur der Merkmale beschreibt, gewonnen. Bezeichnung A 8.2 (Regressor, Regressand, Regressionsfunktion, Regressionswert). In der obigen Situation wird das Merkmal X als Regressor oder erkl¨arende Variable (auch exogene Variable, Einflussfaktor) bezeichnet. Das Merkmal Y heißt Regressand oder abh¨angige Variable (auch endogene Variable, Zielvariable). Die i = f(xi ), Funktion f wird Regressionsfunktion genannt. Die Funktionswerte y i ∈ {1, . . . , n}, heißen Regressionswerte. In der Realit¨at wird die G¨ ultigkeit der Gleichung Y = f(X) oft nicht gegeben sein. Die Funktion f ist zwar nur teilweise spezifiziert, d.h. es liegen unbekannte Parameter vor, die von der betrachteten Situation abh¨angen, aber trotzdem i = yi gelten, d.h. die Funktionswird f¨ ur die Regressionswerte in der Regel y n von f werden im Allgemeinen an den Stellen x1 , . . . , xn von 1 , . . . , y werte y den tats¨achlich gemessenen Werten abweichen. Ursache sind z.B. Messfehler und urliche SchwanMessungenauigkeiten bei der Beobachtung von X und Y oder nat¨ kungen in den Eigenschaften der statistischen Einheiten. Das dem funktionalen Zusammenhang zu Grunde liegende Modell ist außerdem oft nur eine Idealisierung der tats¨achlich vorliegenden Situation, so dass die Funktion f (bzw. die Menge von Funktionen f) nur eine Approximation des wirklichen Zusammenhangs darstellt. Um dieser Tatsache Rechnung zu tragen, wird in der Regel die G¨ ultigkeit einer Beziehung Y = f(X) + ε unterstellt, wobei der additive Fehlerterm ε alle m¨oglichen Fehlerarten repr¨asentiert. Dieses Modell wird als Regressionsmodell bezeichnet. Aus diesem Ansatz ur jedes Daergibt sich bei Beobachtung der Paare (x1 , y1 ), . . . , (xn , yn ) dann f¨ tenpaar die Beziehung yi = f(xi ) + εi ,
i ∈ {1, . . . , n},
mit dem Fehlerterm εi , der die Abweichung von f(xi ) zum Messwert yi beschreibt. Um einen konkreten funktionalen Zusammenhang zwischen den Merkmalen zu
A 8 Regressionsanalyse
119
ermitteln und dabei gleichzeitig diese Abweichungen zu ber¨ ucksichtigen, wird im Regressionsmodell versucht, die Regressionsfunktion f in der gew¨ahlten Klasse von Funktionen m¨ oglichst gut anzupassen. Im Folgenden wird die zur Erzeugung einer N¨aherung f verwendete Methode der kleinsten Quadrate erl¨autert. Aus der so ermittelten Sch¨atzung f f¨ ur die Regressionsfunktion f kann dann mit ein Sch¨atzwert – eine Prognose“ – f¨ ur den zu einem nicht beobachteten f(x) ” x-Wert geh¨ origen y-Wert bestimmt werden. F¨ ur x ∈ I = [x(1) , x(n) ] ist dies sicher eine sinnvolle Vorgehensweise, da dort Informationen ¨uber den Verlauf von f vorliegen. Das Verfahren ist aber insbesondere auch f¨ ur außerhalb von I liegende x-Werte interessant und wird in diesem Sinne oft zur Absch¨ atzung zuk¨ unftiger Entwicklungen verwendet. F¨ ur eine gute Prognose sollten die Datenqualit¨at und die Anpassung durch die Regressionsfunktion hinreichend gut sein, sowie die zur Prognose verwendeten Werte des Merkmals X nicht zu weit außerhalb“ des In” tervalls I liegen. A 8.1 Methode der kleinsten Quadrate Vor Anwendung der Methode der kleinsten Quadrate ist zun¨achst eine Klasse H von Funktionen zu w¨ ahlen, von der angenommen wird, dass zumindest einige der enthaltenen Funktionen den Einfluss des Merkmals X auf das Merkmal Y
gut beschreiben. Wie zu Beginn erw¨ahnt, werden hier nur parametrische Klassen betrachtet. Beispiele hierf¨ ur sind die Menge der linearen Funktionen fa,b (x) = a + bx mit den Parametern a und b (lineare Regression) H = {fa,b (x) = a + bx, x ∈ R | a, b ∈ R}
oder die Menge der quadratischen Polynome fa,b,c (x) = a + bx + cx2 mit den Parametern a, b und c (quadratische Regression) H = fa,b,c (x) = a + bx + cx2 , x ∈ R | a, b, c ∈ R . Allgemeiner kann auch die Menge der Polynome p-ten Grades betrachtet werden, die bei geeigneter Wahl von p ∈ N0 die genannten Klassen umfasst: H = fa0 ,a1 ,...,ap (x) = a0 + a1 x + a2 x2 + · · · + ap xp , x ∈ R | a0 , . . . , ap ∈ R . Die Methode der kleinsten Quadrate liefert ein Kriterium, um aus der jeweiligen Klasse H diejenigen Funktionen auszuw¨ahlen, die den Zusammenhang zwischen X und Y auf Basis des vorliegenden Datenmaterials in einem gewissen Sinn am besten beschreiben. Basierend auf der quadratischen Abweichung von yi und f(xi ) Q(f) =
n i=1
(yi − f(xi ))2 =
n
ε2i
i=1
wird eine Funktion f ∈ H gesucht, die die geringste Abweichung zu den Daten y1 , . . . , yn hat:
120
A Beschreibende Statistik
Q(f) Q(f)
f¨ ur alle f ∈ H.
Eine L¨ osung f dieses Optimierungsproblems minimiert also die Summe der quadrierten Abweichungen εi und besitzt unter allen Funktionen f ∈ H die kleinste auf diese Weise gemessene Gesamtabweichung zu den beobachteten Daten y1 , . . . , yn an den Stellen x1 , . . . , xn . F¨ ur parametrische Funktionen fb1 ,...,bj aus einer Klasse, die durch j Parameter b1 , . . . , bj ∈ R (j ∈ N) beschrieben wird, reduziert sich die obige Minimierungsaufgabe auf die Bestimmung eines Minimums der Funktion mehrerer Variablen Q(b1 , . . . , bj ) =
n
(yi − fb1 ,...,bj (xi ))2 .
i=1
1 , . . . , b j ) ∈ Rj mit Gesucht wird in dieser Situation ein Tupel (b 1 , . . . , b j ) Q(b1 , . . . , bj ) Q(b
f¨ ur alle (b1 , . . . , bj ) ∈ Rj .
Hierbei kann die Wahl der Parameter bereits aufgrund der zu beschreibenden Situation auf bestimmte (echte) Teilmengen von Rj eingeschr¨ankt werden (z.B. bei der Regression durch einen vorgegebenen Punkt). Falls die konkrete parametrische Form der jeweiligen Funktionen dies zul¨asst, k¨ onnen die Parameter, die das Minimierungsproblem l¨osen, direkt angegeben und berechnet werden (siehe z.B. lineare Regression). Kann eine L¨osung nicht explizit bestimmt werden oder ist deren Berechnung sehr aufw¨andig, so ist die Verwendung numerischer Hilfsmittel notwendig. In einigen F¨allen kann ein Regressionsproblem durch eine geeignete Transformation der Beobachtungswerte in ein einfacher zu handhabendes Regressionsmodell u uhrt werden. ¨berf¨ A 8.2 Lineare Regression Im linearen Regressionsmodell wird angenommen, dass ein metrisches Merkmal X in linearer Weise auf ein metrisches Merkmal Y einwirkt. Ausgehend vom Regressionsmodell Y = f(X) + ε bedeutet dies, dass f eine lineare Funktion ist, d.h. es gibt Zahlen a, b ∈ R mit f(x) = a + bx,
x ∈ R.
Die Einschr¨ankung auf lineare Funktionen ist eine verbreitete Annahme, da oft (zumindest nach einer geeigneten Transformation) ein linearer Zusammenhang zwischen beiden Merkmalen aus praktischer Erfahrung plausibel ist. Zudem wird der lineare Zusammenhang oft nur lokal unterstellt, d.h. die lineare Beziehung wird nur in einem eingeschr¨ankten Bereich (bzgl. des Merkmals X bzw. der Variablen x) angenommen, wo die lineare Funktion jedoch eine gute Approximation an die tats¨achliche (evtl. komplizierte) Funktion ist. Wird dieser Bereich verlassen, so kann die Annahme der Linearit¨at oft nicht aufrecht erhalten werden und das Regressionsmodell muss modifiziert werden. Ein weiterer wichtiger Aspekt des linearen Ansatzes ist, dass sich die Regressionsgerade leicht berechnen l¨asst.
A 8 Regressionsanalyse
121
Beispiel A 8.3 (Fortsetzung Beispiel A 8.1 (Werbeaktion)). In der Marketingabteilung des Unternehmens soll das Budget f¨ ur eine bevorstehende Werbeaktion bestimmt werden. Um einen Anhaltspunkt u ¨ber den zu erwartenden Nutzen der Aktion bei Aufw¨andung eines bestimmten Geldbetrages zu erhalten, werden die Kosten von bereits durchgef¨ uhrten Werbeaktionen und die zugeh¨origen Ums¨atze der beworbenen Produkte untersucht. In der folgenden Tabelle sind die Kosten (in 1 000e) der letzten sechs Aktionen den Ums¨atzen (in Mio. e) der jeweils folgenden Monate gegen¨ ubergestellt. Werbeaktion 1 Kosten Umsatz
2
3
4
5
6
23 15 43 45 30 51 2,3 1,1 2,7 2,9 2,1 3,3
Aus Erfahrung kann angenommen werden, dass der Zusammenhang zwischen Kosten und Ums¨atzen durch eine lineare Funktion Umsatz = a + b · Kosten,
a, b ∈ R,
gut beschrieben wird. Die Methode der kleinsten Quadrate erm¨oglicht die Bestimmung von sinnvollen Sch¨atzwerten f¨ ur die Koeffizienten a und b. Der gesch¨atzte funktionale Zusammenhang zwischen beiden Merkmalen eignet sich dann zur Absch¨atzung der Wirkung – und damit des zu veranschlagenden Budgets – der geplanten Werbeaktion. Im Folgenden wird die lineare Funktion bestimmt, die gegebene Daten unter Annahme eines linearen Regressionsmodells im Sinne der Methode der kleinsten der Regressi und b Quadrate am besten n¨ahert. Die gesuchten Koeffizienten a onsgerade ergeben sich als Minimum der Funktion Q zweier Ver¨anderlicher Q(a, b) =
n n (yi − f(xi ))2 = (yi − (a + bxi ))2 . i=1
i=1
i = f(xi ) sind Die Abst¨ande der Beobachtungswerte yi und der Funktionswerte y im folgenden Streudiagramm als Strecken markiert. Mittels der Methode der kleinsten Quadrate wird eine Gerade y = a + bx so angepasst, dass die Summe aller quadrierten Abst¨ande zwischen Beobachtungswerten (xi , yi ) und Regressionswerten (xi , f(xi )), i ∈ {1, . . . , n}, minimal ist.
122
A Beschreibende Statistik
6 yi i f(xi ) = y
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... .......
r(xi ,yi )
↑|
r
yi −f(xi ) .... ............. ... ............ ... ............ ............ . .. . . . . . . . . . . . . ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ......... ....... ......... ....... ....... ....... ....... ....... ......................... .. ... ... ........... . (xi , yi ) ... ... ............ .... ............. .. .. .. ... ............. .... . . . . . ... . . . . . . . . .. . .................. . . ... . . . . . . . ... .. ................... .... ... . ............ . ... ... .. ............ ............ .... .. ............ . . . . . . . . . . . .. . ........ . . . . . . . . . . . ....... ... . . . . . . . . . . ... . .......... . .... .. ... .. ... .
r
r
↓|r
r
f(x) = a + bx
r
r r
r
r
-
xi
Ist die empirische Varianz s2x der Messwerte x1 , . . . , xn positiv (d.h. s2x > 0), so hat , das a, b) die Minimierungsaufgabe genau eine L¨ osung, d.h. es gibt nur ein Paar ( das Minimum der Funktion Q annimmt. Die Forderung an die empirische Varianz ist gleichbedeutend damit, dass mindestens zwei x-Werte verschieden sind. Regel A 8.4 (Koeffizienten der Regressionsgerade). Seien x1 , . . . , xn Beobachtungswerte mit positiver empirischer Varianz s2x . Dann sind die mit der Methode der kleinsten Quadrate bestimmten Koeffizienten der Regressionsgerade =a , x ∈ R, gegeben durch + bx f(x) x =y−b a
und
= sxy = b s2x
1 n
n
xi yi i=1 n 1 x2i n i=1
−x·y . − x2
x und y sind die arithmetischen Mittel der Beobachtungswerte x1 , . . . , xn und y1 , . . . , yn , sxy ist die empirische Kovarianz der gepaarten Messreihe.
Das Minimum von Q(a, b) ist gegeben durch = ns2 (1 − r2 ). Q( a, b) y xy kann durch Bildung partieller Ab und b Der Nachweis der Darstellungen von a leitungen von Q(a, b) nach a und b und Bestimmung eines station¨aren Punkts gef¨ uhrt werden. Ehe Eigenschaften der Regressionsgerade diskutiert werden, wird zun¨achst die Bedingung s2x > 0 an die empirische Varianz der Beobachtungswerte der erkl¨arenden Variable erl¨autert. Wie bereits erw¨ahnt, ist s2x = 0 ¨aquivalent zur Gleichheit aller x-Werte: x1 = · · · = xn = x. Diese Situation wird in realen Datens¨atzen in der Regel nicht eintreten, d.h. die Voraussetzung stellt keine bedeutsame Einschr¨ankung dar. Andererseits macht es auch keinen Sinn, eine Regression auf der uhren. Gilt n¨amlich Basis eines Datensatzes mit der Eigenschaft s2x = 0 durchzuf¨ s2x = 0, so steht entweder der Datensatz (x, y), . . . , (x, y) zur Verf¨ ugung (falls
A 8 Regressionsanalyse
123
s2y = 0), oder es gibt mehrere verschiedene Daten, deren erste Komponente aber stets gleich x ist (falls s2y > 0). Da zur eindeutigen Festlegung einer Geraden
mindestens zwei verschiedene Punkte notwendig sind, ist das Datenmaterial im ersten Fall offensichtlich nicht ausreichend. Dies ist allerdings auch nicht notwendig, da offensichtlich stets der gleiche Wert von (X, Y) gemessen wurde und somit ein einfacher (deterministischer) Zusammenhang vorliegt: Nimmt X den Wert x an, so hat Y den Wert y und umgekehrt. Im zweiten Fall liegen alle Beobachtungen im Streudiagramm auf einer zur y-Achse parallelen Geraden durch den Punkt (x, 0). Diese Senkrechte kann aber nicht durch eine Funktion beschrieben werden (insbesondere auch nicht durch eine lineare Funktion f(x) = a + bx), da einem x-Wert mehrere y-Werte zugeordnet werden m¨ ussten. Die Methode der kleinsten Quadrate liefert in beiden F¨allen keine eindeutige L¨osung und bewertet alle L¨ osungen gleich gut (oder schlecht): F¨ ur c ∈ R sind alle Geraden gc (x) = y + c(x − x),
x ∈ R,
= c und durch den Punkt (x, y) L¨ osungen des Minimierungsproblems mit b 2 = y − cx sowie Minimalwert Q(y − cx, c) = nsy . Somit m¨ ussen zur eindeua tigen Festlegung der Regressionsgerade mindestens zwei Beobachtungen mit unterschiedlichen Auspr¨agungen des Merkmals X aufgetreten sein. Im weiteren Verlauf wird angenommen, dass die Regressionsgerade eindeutig bestimmt werden kann, d.h. es wird s2x > 0 vorausgesetzt. Die folgende Regel fasst einige Eigenschaften der Regressionsgerade zusammen. =a , x ∈ R, + bx Regel A 8.5 (Eigenschaften der Regressionsgerade). Sei f(x) die mittels der Methode der kleinsten Quadrate bestimmte Regressionsgerade. i ), i ∈ {1, . . . , n}, die Regressionswerte sowie s2 und s2 die i = f(x Bezeichnen y x y empirischen Varianzen der Beobachtungswerte x1 , . . . , xn bzw. y1 , . . . , yn , so hat die Regressionsgerade folgende Eigenschaften: der Regressionsgerade sind so gew¨ und b ahlt, dass der (i) Die Koeffizienten a mittlere quadratische Abstand zwischen den Beobachtungswerten y1 , . . . , yn und den Werten der Gerade an den Stellen x1 , . . . , xn minimal wird, d.h. 1 i ))2 1 (yi − (a + bxi ))2 (yi − f(x n n n
n
i=1
i=1
f¨ur alle a, b ∈ R.
. F¨ ur s2x > 0 gilt Gleichheit nur f¨ ur (a, b) = ( a, b) 2 (ii) Gilt sy > 0, so ist die Regressionsgerade genau dann eine wachsende (fallende, konstante) Funktion, wenn der Bravais-Pearson-Korrelationskoeffizient rxy der Beobachtungswerte (x1 , y1 ), . . . , (xn , yn ) positiv (negativ, Null) ist, d.h. > > < 0 ⇐⇒ rxy < 0. b = = = y , x ∈ R. Gilt s2y = 0, so ist die Regressionsgerade konstant: f(x)
124
A Beschreibende Statistik
(iii) Die Regressionsgerade verl¨auft immer durch den Punkt (x, y): = y. =a + bx f(x) n und der Beobach1 , . . . , y (iv) Das arithmetische Mittel der Regressionswerte y tungswerte y1 , . . . , yn ist gleich: 1 i = y. y n n
= y
i=1
i , i ∈ {1, . . . , n}, ist gleich Null, d.h. (v) Die Summe der Differenzen yi − y n
i ) = 0. (yi − y
i=1
Unter den obigen Aussagen ist besonders der Zusammenhang zwischen dem Bravais-Pearson-Korrelationskoeffizienten und der Steigung der Regressionsgeraden hervorzuheben. Diese Beziehung entspricht der Interpretation, dass ein positiver bzw. negativer Korrelationskoeffizient auf eine lineare Tendenz in den Daten mit positiver bzw. negativer Steigung hindeutet. Beispielhaft l¨asst sich der Zusammenhang von Regressionsgerade und Korrelationskoeffizient auch mittels Abbildung A 8.1 illustrieren, in die die zugeh¨ origen Regressionsgeraden eingezeichnet sowie die Korrelationskoeffizienten angegeben sind. Eine spezielle Interpretation i (die so genannten Residuen). Sie repr¨ asentieren die haben die Differenzen yi − y Abweichungen der Regressionsgerade von den Beobachtungswerten y1 , . . . , yn an den Stellen x1 , . . . , xn . Eigenschaft (v) der Regressionsgerade besagt, dass sich positive und negative Abweichungen stets ausgleichen. Beispiel A 8.6. Auf der Basis der Daten aus Beispiel A 8.3 (Werbeaktion) wird eine lineare Regression durchgef¨ uhrt, wobei die Kosten als erkl¨arende Variable X und der Umsatz als abh¨angige Variable Y angesehen werden. In der folgenden Tabelle sind die Kosten x1 , . . . , x6 pro Werbeaktion (in 1 000e) und die Ums¨atze y1 , . . . , y6 der beworbenen Produkte (in Mio. e) aufgelistet. i
xi
yi
xi · yi
x2i
1 2 3 4 5 6
23,0 15,0 43,0 45,0 30,0 51,0
2,3 1,1 2,7 2,9 2,1 3,3
52,9 16,5 116,1 130,5 63,0 168,3
529,0 225,0 1849,0 2025,0 900,0 2601,0
arithmetisches Mittel 34,5 2,4 91,217 1354,833
A 8 Regressionsanalyse
(a) rxy = 1
(b) rxy = −1
(c) rxy ≈ 0,02
(d) rxy ≈ −0,74
(e) rxy ≈ 0,96
(f) rxy ≈ 0,05
125
Abb. A 8.1. Korrelation und Regression.
Anhand dieser Daten ergeben sich f¨ ur die empirische Kovarianz sxy und die empirische Varianz s2x die Werte 1 xi yi − x · y ≈ 8,417, n n
sxy =
i=1
1 2 xi − x2 ≈ 164,583. n n
s2x =
i=1
=a sind daher + bx Die Koeffizienten der zugeh¨ origen Regressionsgerade f(x) = sxy ≈ 0,051, b s2x
≈ 0,636. = y − bx a
Abbildung A 8.2 zeigt die Regressionsgerade im Streudiagramm. Mit Hilfe der Regressionsgerade ist es auch m¨ oglich, u ¨ber nicht beobachtete Werte Aussagen zu machen. Dies ist zun¨achst innerhalb des Intervalls I = [x(1) , x(n) ] = [15, 51] sinnvoll. Beispielsweise kann f¨ ur einen Werbeaufwand von 20 000e ein Umsatz von etwa · 20 ≈ 0,636 + 0,051 · 20 = 1,656 [Mio. e] +b f(20) =a
prognostiziert werden. Außerhalb des Intervalls I liegen keine Beobachtungswerte vor, so dass eine Aussage dar¨ uber, wie der Zusammenhang zwischen beiden
126
A Beschreibende Statistik
Merkmalen dort geartet ist, kritisch zu sehen ist. In der N¨ahe“ des Intervalls I ” k¨ onnen noch gute N¨aherungen erwartet werden. Beispielsweise w¨ urde bei einer Werbeaktion mit einem Budget von 55 000e wegen · 55 ≈ 0,636 + 0,051 · 55 = 3,441 [Mio. e] +b f(55) =a
ein resultierender Umsatz von ca. 3,4 Mio. e prognostiziert.
Umsatz in Mio. e
3 2 1 0 0 10 20 30 40 50 Aufwand in 1 000 e Abb. A 8.2. Streudiagramm und Regressionsgerade.
Im Folgenden wird untersucht, wie sich die Regressionsgerade ¨andert, wenn die Beobachtungswerte der Merkmale X und Y linear transformiert werden. Auch hier k¨ onnen die Koeffizienten der resultierenden Gerade direkt aus den Koeffizienten der urspr¨ unglichen Regressionsgerade bestimmt werden. Regel A 8.7 (Lineare Regression bei linearer Transformation der Daten). Seien
=a , x ∈ R, die zu den Daten (x1 , y1 ), . . . , (xn , yn ) geh¨ + bx s2x > 0 und f(x) orige Regressionsgerade. Werden die Beobachtungswerte mit β = 0, δ = 0, α, γ ∈ R,
(linear) transformiert gem¨aß ui = βxi + α,
vi = δyi + γ,
i ∈ {1, . . . , n},
so gilt f¨ ur die Koeffizienten der zu den Daten (u1 , v1 ), . . . , (un , vn ) geh¨origen , u ∈ R: (u) = Regressionsgerade g c + du c = δ a+γ−
αδ b, β
= δ b. d β
=b , d.h. die und d + γ − αb Insbesondere im Fall β = 1 und δ = 1 ist c=a stimmen ¨ uberein, und es gilt Steigungen der Regressionsgeraden f und g + bu. (u) = a + γ − αb g
Dies sollte aufgrund der Anschauung und Motivation auch so sein, denn die Gesamtheit der Daten wird lediglich in der Lage verschoben, die relative Lage der
A 8 Regressionsanalyse
127
Punkte zueinander bleibt jedoch unver¨andert. Weiterhin gilt in dieser Situation f¨ ur x ∈ R =a = + dx = + α) − γ = g + bx (x + α) − γ. f(x) c − γ + αd c + d(x
Beispiel A 8.8 (Bruttowochenverdienst). Von 1983 bis 1988 hat sich der durchschnittliche Bruttowochenverdienst von Arbeitern in der Industrie wie folgt entwickelt (Quelle: Statistische Jahrb¨ ucher 1986 und 1989 f¨ ur die Bundesrepublik Deutschland): Jahr xi
1983 1984 1985 1986 1987 1988
Verdienst yi (in DM) 627 647 667 689 712 742 Die H¨ ohe des Verdienstes soll in Abh¨angigkeit von der Zeit durch eine lineare Funktion beschrieben werden. Dazu wird ein lineares Regressionsmodell mit erkl¨arenohe des Verdienstes) der Variable X (Zeit) und abh¨angiger Variable Y (H¨ der Regressionsgerade und b betrachtet. Die Berechnung der Koeffizienten a + bx, x ∈ R, liefert f(x) = a = −44 248,36191, a
= 22,62857. b
Eine Prognose f¨ ur den Bruttowochenverdienst der Arbeiter im Jahr 1989 auf der Basis dieser Daten ergibt · 1989 ≈ 759,87. +b f(1989) =a
An diesem Beispiel wird der Nutzen von linearen Transformationen der Beobachtungswerte bei konkreten Berechnungen deutlich. Mit ui = xi − 1982 und vi = yi − 600, i ∈ {1, . . . , 6}, entsteht folgende Arbeitstabelle i
xi
yi
ui
vi
u2i
v2i
ui vi
1 2 3 4 5 6
1983 1984 1985 1986 1987 1988
627 647 667 689 712 742
1 2 3 4 5 6
27 47 67 89 112 142
1 4 9 16 25 36
729 2209 4489 7921 12544 20164
27 94 201 356 560 852
Summe Mittelwert
21 484 91 48056 2090 3,5 80,6667 15,1667 8009,3333 348,3333
und daraus s2u ≈ 2,91667, s2v ≈ 1502,22222, suv = 66. Also ist in der Darstellung (u) = der zugeh¨ origen Regressionsgeraden g c + du = suv ≈ 22,62857 d s2u
und
≈ 1,46765. c = v − du
128
A Beschreibende Statistik
Die Regressionsgerade f¨ ur die urspr¨ unglichen, nicht-transformierten Werte kann direkt mit der Regel zur linearen Transformation der Beobachtungswerte bestimmt werden. Die Variablen der Transformationen sind β = 1, α = −1982, δ = 1 und γ = −600. Demnach l¨asst sich die oben berechnete Regressionsgerade f¨ ur die transformierten =b = 22,62857 und mit d (u) = c + du Daten auch direkt bestimmen: g = −44 248,36191 − 600 + 1982 · 22,62857 = 1,46383. + γ − αb c=a
Die Unterschiede im Wert von c sind durch Rundungsfehler bedingt. Werden hier weniger als f¨ unf Nachkommastellen in den Berechnungen verwendet, so f¨ uhrt dies zu deutlich gr¨ oßeren Abweichungen. Andererseits liegt bei Berechnungen der Vorteil gerade in der umgekehrten Anwendung der Transformationsregel. Die Regressionsgerade f¨ ur die transformierten Werte l¨asst sich (s.o.) mit geringem Aufwand bestimmen: (u) = 1,46765 + 22,62857u. g
Daraus entsteht die Regressionsgerade zu den Originaldaten durch die Bestim gem¨ =d und und b mung von a aß b = 1,46765 + 600 − 1982 · 22,62857 = −44 248,35809. = a c − γ + αb
Die Prognose f¨ ur das Jahr 1989 ist daher (1989 − 1982) + 600 = g (7) + 600 ≈ 759,87. f(1989) =g
Verdienst in DM
800 700 600
19 82 19 84 19 86 19 88
500
Jahr
Abb. A 8.3. Streudiagramm und Regressionsgerade.
A 8.3 Bewertung der Anpassung In diesem Abschnitt werden zwei Werkzeuge vorgestellt, die eine Bewertung der Anpassungsg¨ ute der ermittelten Regressionsgerade an die vorliegenden Daten erlauben.
A 8 Regressionsanalyse
129
Residuen Da bei der Methode der kleinsten Quadrate der Ausdruck Q(f) =
n
(yi − f(xi ))2
i=1
minimiert wird, der auf den Abweichungen εi = yi − f(xi ), i ∈ {1, . . . , n}, basiert, liegt es nahe, bei der Bewertung der optimalen Funktion f ebenfalls diese Differenzen zu ber¨ ucksichtigen. Definition A 8.9 (Residuen). Die Differenzen i , ei = yi − y
i ∈ {1, . . . , n},
n werden 1 , . . . , y der Beobachtungswerte y1 , . . . , yn und der Regressionswerte y i ), i ∈ {1, . . . , n}. i = f(x als Residuen bezeichnet, wobei y
Der Wertebereich der Residuen h¨angt von den Beobachtungswerten des Merkmals Y ab. Zur Beseitigung dieses Effekts werden in der Literatur unterschiedliche
Normierungen der Residuen vorgeschlagen. Exemplarisch wird eine nahe liegende Modifikation vorgestellt, die den Wertebereich [−1, 1] liefert. Definition A 8.10 (Normierte Residuen). F¨ ur
n i=1
ei i = d n i=1
normierte Residuen. Die Division mit
n i=1
n i=1
= e2i
i yi − y n
i (yi − y
,
e2i > 0 heißen die Quotienten i ∈ {1, . . . , n},
)2
i=1
asst sich nat¨ urlich nur f¨ ur e2i l¨
n i=1
uhren. Da e2i > 0 ausf¨
e2i = 0 eine exakte Anpassung der Regressionsgeraden an die Daten impliziert
und somit eine Bewertung mittels Residuen u ussig ist, ist dies jedoch keine ¨berfl¨ bedeutsame Einschr¨ankung. Regel A 8.11 (Eigenschaften der normierten Residuen). (i) F¨ ur die normierten Residuen gilt i 1, −1 d n n i = 0 und d 2 = 1. d i
i=1
i=1
i ∈ {1, . . . , n},
130
A Beschreibende Statistik
(ii) Die Summe der quadrierten Residuen ist genau dann Null, wenn alle Beobachtungswerte (x1 , y1 ), . . . , (xn , yn ) auf dem Grafen der Regressionsfunktion f liegen, d.h. n i , i ∈ {1, . . . , n}. e2i = 0 ⇐⇒ yi = y i=1
Die Residuen treten in einem wichtigen Zusammenhang auf, der als Streuungsoder Varianzzerlegung bekannt ist (vgl. auch Varianzzerlegung bei gepoolten Daten). Regel A 8.12 (Streuungszerlegung bei linearer Regression). Im Spezialfall der linearen Regression gilt die Streuungszerlegung n
(yi − y)2 =
i=1
n
( yi − y)2 +
i=1
n
i )2 . (yi − y
i=1
Bezeichnen s2y die empirische Varianz der Beobachtungswerte y1 , . . . , yn , s2y die n und s2e die empirische Varianz 1 , . . . , y empirische Varianz der Regressionswerte y der Residuen en , so kann die Gesamtvarianz s2y zerlegt werden gem¨ aß e1 , . . . , s2y = s2y + s2e .
Die jeweiligen Terme in der Gleichung f¨ ur die Streuungszerlegung unterscheiden sich nur durch einen konstanten Faktor von denen in der Varianzzerlegung, d.h. ns2y =
n
(yi − y)2 ,
i=1
ns2y =
n i=1
( yi − y)2 ,
ns2e =
n
i )2 . (yi − y
i=1
Aus der Varianzzerlegung folgt, dass sich die empirische Varianz der Beobachtungswerte y1 , . . . , yn als Summe der Varianzen der Regressionswerte und der Residuen darstellen l¨asst. Die Varianz s2y misst die Streuung in den Regressionsn , also die Streuung, die sich aus dem im Rahmen der linearen 1 , . . . , y werten y Regression bestimmten linearen Zusammenhang und der Variation der beobachn ( yi − y)2 in der teten x-Werte erkl¨aren l¨asst. Der entsprechende Summand i=1
Streuungszerlegung wird daher auch durch die Regression erkl¨arte Streuung“ ge” nannt. Der verbleibende Teil der Varianz der Beobachtungswerte y1 , . . . , yn des 2 Merkmals Y ist die Varianz se der Residuen. Die Residuen berechnen sich als Difn . 1 , . . . , y ferenzen der Beobachtungswerte y1 , . . . , yn und der Regressionswerte y Da die Residuen das arithmetische Mittel Null haben, ist deren Varianz ein Maß f¨ ur die Abweichung der beobachteten y-Werte von den durch die lineare Regresn . Dieser Anteil an der Gesamtstreuung l¨ 1 , . . . , y sion bestimmten Werten y asst sich nicht u ¨ber den gesch¨atzten funktionalen Zusammenhang erkl¨aren. Der entn i )2 in der Streuungszerlegung wird Residual- oder (yi − y sprechende Summand i=1
A 8 Regressionsanalyse
131
Reststreuung genannt. Liegen im Extremfall alle Beobachtungswerte y1 , . . . , yn auf der Regressionsgerade, so ist diese Reststreuung gleich Null. Die gesamte -Werten und damit durch den Streuung kann dann durch die Streuung in den y Regressionsansatz erkl¨art werden. Zusammenfassend gilt also: Die Streuungszerlegungsformel beschreibt die Zerlegung der Gesamtstreuung der Beobachtungswerte des Merkmals Y in einen durch das Regressionsmodell erkl¨arten Anteil und einen Rest, der die verbliebene Streuung in den Daten widerspiegelt. Auf der Basis der Residuen werden nun zwei Methoden vorgestellt, mit denen die Anpassung der Regressionsgerade an die Daten untersucht werden kann. W¨ahrend beim Bestimmtheitsmaß die Qualit¨at der Anpassung in Form einer Maßzahl ausgedr¨ uckt wird, erm¨ oglicht ein Streudiagramm der Residuen, der Residualplot, eine optische Einsch¨atzung der Anpassung. Bestimmtheitsmaß Das betrachtete Bestimmtheitsmaß bewertet die Anpassungsg¨ ute einer mittels der Methode der kleinsten Quadrate ermittelten Regressionsgerade an einen gegebenen Datensatz. Definition A 8.13 (Bestimmtheitsmaß). Sei (x1 , y1 ), . . . , (xn , yn ) eine gepaarte Messreihe mit s2x > 0 und s2y > 0. Das Bestimmtheitsmaß Bxy der linearen Regression ist definiert durch n
Bxy = 1 −
i )2 (yi − y
i=1 n
(yi − y)2
=1−
s2e . s2y
i=1
Aufgrund der Streuungszerlegung kann das Bestimmtheitsmaß in besonderer Weise interpretiert werden. Hierzu werden zun¨achst zwei alternative Darstellungen angegeben, wobei eine auf dem Bravais-Pearson-Korrelationskoeffizienten beruht. Regel A 8.14 (Eigenschaften des Bestimmtheitsmaßes). (i) F¨ ur das Bestimmtheitsmaß gilt n
Bxy =
i=1 n
( yi − y)2 (yi − y)2
=
s2y s2y
.
i=1
(ii) Das Bestimmtheitsmaß ist gleich dem Quadrat des Bravais-Pearson-Korrelationskoeffizienten rxy der Daten (x1 , y1 ), . . . , (xn , yn ): Bxy = r2xy .
132
A Beschreibende Statistik
= ns2 (1 − Bxy ). (iii) Q( a, b) y
(iv) Werden (x1 , y1 ), . . . , (xn , yn ) linear transformiert, so stimmen die Bestimmt¨ uberein (Bezeichnungen s. A 8.7): heitsmaße der Regressionsfunktionen f und g Bxy = Buv ,
d.h. das Bestimmtheitsmaß der Regression ¨andert sich nicht bei linearen Transformationen der Daten. Das Bestimmtheitsmaß n
Bxy =
i=1 n
( yi − y)2 (yi − y)2
=
s2y s2y
i=1
ist also im Fall der linearen Regression gerade der Quotient aus der Streuung n ( yi − y)2 , die sich u ¨ber das Regressionsmodell erkl¨aren l¨asst, und der Gesamti=1
streuung
n
(yi − y)2 der Beobachtungsdaten y1 , . . . , yn .
i=1
Das Bestimmtheitsmaß nimmt genau dann den Wert Eins an, wenn sich die gesamte Streuung in den Daten durch das Regressionsmodell erkl¨aren l¨asst. F¨ ur Werte nahe Eins wird ein hoher Anteil der Gesamtstreuung durch die Regressionsgerade beschrieben, so dass von einer guten Anpassung an die Daten ausgegangen werden kann. Außerdem nimmt das Bestimmtheitsmaß genau dann den Wert Null an, wenn sich die Streuung in den Daten u ¨berhaupt nicht durch die Regressionsgerade erkl¨aren n ( yi − y)2 = 0 und die Residualstreuung ist gleich der l¨asst. In diesem Fall gilt i=1
Gesamtstreuung. F¨ ur Werte des Bestimmtheitsmaßes, die in der N¨ahe von Null liegen, wird dementsprechend davon ausgegangen, dass die Regressionsfunktion einen Zusammenhang zwischen beiden Merkmalen nicht beschreibt. Dies deckt sich mit der Interpretation des Bestimmtheitsmaßes in der Darstellung mittels des Bravais-Pearson-Korrelationskoeffizienten. Ist das Bestimmtheitsmaß Null, so gilt dies auch f¨ ur den Korrelationskoeffizienten. In diesem Fall kann aber davon ausgegangen werden, dass kein linearer Zusammenhang zwischen beiden Merkmalen vorliegt, die Merkmale X und Y sind unkorreliert. Diese Situation wurde bereits bei den Eigenschaften der Regressionsgerade diskutiert. Hierbei ur alle x) ebenfalls = y f¨ ist zu beachten, dass f¨ ur den Fall s2y = 0 (also f(x) kein Zusammenhang besteht, da eine Ver¨anderung in x keine Ver¨anderung in y nach sich zieht (f ist konstant!). Im anderen Extremfall, d.h. f¨ ur Bxy = 1, gilt rxy ∈ {−1, 1}, so dass die Daten auf der Regressionsgerade liegen. Die wichtigsten Eigenschaften des Bestimmtheitsmaßes werden in Regel A 8.15 nochmals zusammengestellt.
A 8 Regressionsanalyse
133
Regel A 8.15 (Eigenschaften des Bestimmtheitsmaßes). (i) F¨ ur das Bestimmtheitsmaß gilt 0 Bxy 1.
(ii) Das Bestimmtheitsmaß nimmt genau dann den Wert Eins an, wenn alle Beobachtungswerte auf dem Grafen der Regressionsfunktion liegen, d.h. i = yi , Bxy = 1 ⇐⇒ y
i ∈ {1, . . . , n}.
(iii) Das Bestimmtheitsmaß nimmt genau dann den Wert Null an, wenn die Regressionsgerade konstant ist, d.h. i = y, Bxy = 0 ⇐⇒ y
i ∈ {1, . . . , n}.
Beispiel A 8.16 (Fortsetzung Beispiel A 8.8 (Bruttowochenverdienst)). Das Bestimmtheitsmaß der linearen Regression ist gegeben durch Bxy ≈ 0,994. Aufgrund des Verhaltens des Bestimmtheitsmaßes bei linearer Transformation der Daten gilt auch Buv ≈ 0,994. Dieser Wert l¨asst eine sehr gute Anpassung der Regressionsgerade an die Daten vermuten. Residualanalyse (Residualplot) Eine Untersuchung der Anpassung der Regressionsgerade mit Hilfe des Residualplots wird als Residualanalyse bezeichnet. Die Residualanalyse bietet sich be¨ sonders zur Uberpr¨ ufung der verwendeten Modellannahme, also des vermuteten funktionalen Zusammenhangs zwischen den betrachteten Merkmalen, an. Ein Residualplot ist ein spezielles Streudiagramm, in dem die Regressionswerte n auf der Abszisse und die jeweils zugeh¨ 1 , . . . , y origen Residuen auf der Ordiy nate eines kartesischen Koordinatensystems abgetragen werden. Im Residualplot k¨ onnen dabei entweder die Residuen i , ei = yi − y
i ∈ {1, . . . , n},
oder die normierten Residuen i i = yi − y , d n 2 i ) (yi − y
i ∈ {1, . . . , n},
i=1
n basierende Residualplot hat den Vorzug, 1, . . . , d verwendet werden. Der auf d dass der Wertebereich stets auf das Intervall [−1, 1] beschr¨ankt ist. Anhand der Anordnung der Punkte in einem Residualplot k¨onnen Aussagen dar¨ uber getroffen werden, ob der lineare Regressionsansatz durch das vorliegende Datenmaterial best¨atigt wird. Hierbei macht es prinzipiell keinen Unterschied,
134
A Beschreibende Statistik
welche Variante des Residualplots verwendet wird. Werden jedoch die Residualplots mehrerer Datens¨atze miteinander verglichen, so sollte der Variante mit normierten Residuen der Vorzug gegeben werden, da dann der Wertebereich der Residuen nicht von der Gr¨ oßenordnung der Daten abh¨angt. Zur Interpretation von Residualplots werden nun einige Standardf¨alle skizziert. Liegt zwischen zwei Merkmalen tats¨achlich ein Zusammenhang vor, der dem Ansatz im Regressionsmodell entspricht, so werden die Abweichungen zwischen n und den beobachteten Werten y1 , . . . , yn nur 1 , . . . , y den Regressionswerten y auf zuf¨allige Messfehler oder -ungenauigkeiten bzw. nat¨ urliche Streuung zur¨ uckzuf¨ uhren sein. Diese Vermutung sollte sich im Residualplot widerspiegeln, d.h. die Abweichungen sollten keine regelm¨aßigen Strukturen aufweisen. 0.5 6 q
0.0
q q
qq
q
q
q q
q
q q
q
q q
q q q q q
q q q
q
−0.5
Die Punkte liegen in ungeordneter Weise zu etwa gleichen Teilen sowohl oberhalb als auch unterhalb der Abszisse. Die Abweichungen verteilen sich unregelm¨aßig u ¨ber den Verlauf der gesch¨atzten Funktion, wie dies bei zuf¨allig bedingten Fehlern auch zu erwarten w¨are. Hat der Residualplot hingegen das folgende Aussehen, so liegen systematische Unterschiede zwischen den Werten der Regressionsfunktion und den Beobachtungswerten des abh¨angigen Merkmals vor. 6 0.5 q 0
q
q qq
q
qq q
q
q
q q qq
q q
q
q
-
-0.5 In diesem Fall ist m¨ oglicherweise die Klasse der linearen Funktionen zur Beschreibung des Zusammenhangs der Merkmale nicht ausreichend. Abhilfe k¨onnte eine Erweiterung der Klasse von Regressionsfunktionen schaffen, z.B. durch die Verwendung quadratischer Polynome. Weist der Residualplot einzelne große Abweichungen wie in der folgenden Grafik auf, so ist der Datensatz im Streudiagramm auf Ausreißer zu untersuchen.
A 8 Regressionsanalyse
135
qq
1.0 6 0.5 q
q
q qq
q
q q q q
q q
q
qq
q qq q q
q q
q q
-
Stellt sich heraus, dass die zugeh¨ origen Daten (z.B. aufgrund von Messfehlern) ignoriert und daher aus dem Datensatz entfernt werden k¨onnen, so l¨asst sich die Anpassungsg¨ ute der Regressionsgerade m¨ oglicherweise verbessern. Dabei ist zu beachten, dass auch Ausreißer relevante Information enthalten k¨onnen. Eine entsprechende Bereinigung des Datensatzes ist daher sorgf¨altig zu rechtfertigen. Beispiel A 8.17 (Abf¨ ullanlage). Die Leistungsf¨ahigkeit einer Abf¨ ullanlage f¨ ur Dosen wird untersucht. Ergebnis der Datenerhebung ist der folgende Datensatz von 32 Messungen, in dem die jeweils erste Komponente die Laufzeit der Anlage (in min) und die zweite die Abf¨ ullmenge (in 1 000 Dosen) angibt: (189,82) (200,89) (157,53) (175,61) (151,50)
(189,79) (162,53) (188,73) (156,44) (177,66)
(180,67) (195,85) (168,58) (190,79) (156,50) (178,68)
(199,80) (197,85) (167,54) (160,49) (167,56) (167,58)
(197,83) (158,51) (175,64) (190,83) (171,64)
(186,81) (194,86) (151,45) (170,61) (161,54)
Abf¨ ullmenge (in 1000)
Das zugeh¨ orige Streudiagramm (s. Abbildung A 8.4) legt bereits den Schluss nahe, dass ein (ausgepr¨agter) linearer Zusammenhang zwischen Laufzeit der Anlage und Abf¨ ullmenge besteht. Es wird daher eine lineare Funktion an die Daten angepasst, ullmenge als wobei die Laufzeit als erkl¨arende Variable (Merkmal X) und die Abf¨ abh¨angige Variable (Merkmal Y ) angenommen werden. Die durch die Koeffizien ≈ 0,887 gegebene und in Abbildung A 8.4 dargestellte ≈ −89,903 und b ten a =a unterstreicht den bereits gewonnenen Eindruck. + bx Regressionsgerade f(x) In der Tat ist die mit Hilfe des Bestimmtheitsmaßes gemessene G¨ ute der Anpas-
80 60 40 140
160 180 200 Laufzeit (in min) Abb. A 8.4. Streudiagramm und Regressionsgerade.
sung der Gerade an die Daten sehr hoch: es gilt Bxy ≈ 0,952. Im Residualplot (s.
136
A Beschreibende Statistik
Abbildung A 8.5) scheinen die Abweichungen der Regressionswerte von den Beobachtungswerten auch keinerlei Regelm¨aßigkeiten aufzuweisen. Insgesamt kann
0,4 0,2 j d
0
−0,2
60
Abf¨ ullmenge (in 1 000)
80
−0,4
Abb. A 8.5. Residualplot.
daher festgestellt werden, dass die Wahl eines linearen Regressionsmodells durch den Residualplot und den Wert des Bestimmtheitsmaßes best¨atigt wird. Zum Ende dieses Abschnitts ist es wichtig anzumerken, dass h¨aufig andere als lineare Regressionsfunktionen betrachtet werden sollten oder sogar m¨ ussen. Bemerkung A 8.18. In manchen Situationen ist eine lineare Regressionsfunktion, d.h. die Anpassung einer optimalen Geraden an eine Punktwolke nicht geeignet bzw. nicht sinnvoll. Dies kann der Fall sein, weil sich das Datenmaterial im Streudiagramm augenscheinlich anders darstellt, oder weil (beispielsweise physikalische oder ¨ okonomische) Modelle einen nichtlinearen Zusammenhang von Merkmalen postulieren. In diesen F¨allen sind dann andere Regressionsfunktionen (quadratische, exponentielle,. . . ) anzuwenden. Im Detail wird auf diese Fragestellung nicht eingegangen. Hier sei auf die umfangreiche Literatur zur Regressionsanalyse verwiesen (s. z.B. Hartung et al., 2005). Beispiel A 8.19. In Abschnitt A 7 wurden folgende Datenpaare betrachtet (−2, 4)
(−1, 1)
(0, 0)
(1, 1)
(2, 4).
Das Streudiagramm zeigt, dass eine lineare Regression nicht sinnvoll ist (es gilt sogar der exakte Zusammenhang yi = x2i , i ∈ {1, . . . , 5}). Zudem ist die empirische Korrelation rxy der Merkmale X und Y gleich Null, d.h. die Merkmale X und Y sind unkorreliert. Eine lineare Regression ist also nicht anzuwenden. Das allgemeine quadratische Regressionsmodell Y = f(X) + ε ist beispielsweise durch die quadratische Regressionsfunktion f mit f(x) = a + bx + cx2 ,
x ∈ R,
und (unbekannten) Parametern a, b, c ∈ R gegeben.
A 9 Zeitreihenanalyse
137
A 9 Zeitreihenanalyse In vielen Bereichen werden Merkmalsauspr¨agungen eines Merkmals in bestimmten zeitlichen Abst¨anden gemessen, d.h. es entsteht ein Datensatz (die Zeitreihe), der den Verlauf der Merkmalsauspr¨agungen im Beobachtungszeitraum wiedergibt. Beispiel A 9.1. In einem Unternehmen werden die Umsatzzahlen der Produkte in jedem Quartal erhoben. Anhand der Daten kann Aufschluss u ¨ber die Nachfrageentwicklung gewonnen werden und somit z.B. ¨uber das Verbleiben von Artikeln in der Produktpalette entschieden werden. Der Kurs einer Aktie wird an jedem Handelstag aktualisiert. Aus dem Verlauf des Aktienkurses kann die Wertentwicklung eines Unternehmens an der B¨orse abgelesen werden. Die Zahl aller in Deutschland als arbeitssuchend gemeldeten Personen wird im monatlichen Rhythmus neu bestimmt. Die Beobachtung dieser Gr¨oße im zeitlichen Verlauf vermittelt einen Eindruck von der Entwicklung des Arbeitsmarkts in Deutschland. Ein Energieversorger speichert Informationen u ¨ber den im Tagesverlauf anfallenden Energiebedarf. Diese Information ist von zentraler Bedeutung f¨ ur die zuk¨ unftige Bereitstellung von Energie. Im Rahmen der deskriptiven Zeitreihenanalyse wird angestrebt, Schwankungen in den Beobachtungswerten einer Zeitreihe auszugleichen und Trends in den Daten zu beschreiben. Hierf¨ ur werden Gl¨attungsmethoden und Regressionsans¨atze verwendet. Weist die Zeitreihe ein saisonales Muster auf, so kann eine Bereinigung durchgef¨ uhrt werden, um m¨ ogliche Trends in den Daten leichter erkennen und analysieren zu k¨ onnen. In diesem Abschnitt wird eine Einf¨ uhrung in die grundlegenden Methoden der deskriptiven Zeitreihenanalyse gegeben. Das Methodenspektrum ist jedoch weitaus umfangreicher als die folgende Darstellung, die sich auf wenige Aspekte beschr¨ankt. F¨ ur weiter f¨ uhrende Betrachtungen sei z.B. auf Schlittgen und Streitberg (2001) oder Rinne und Specht (2002) verwiesen. Bezeichnung A 9.2 (Zeitreihe). Eine gepaarte Messreihe (t1 , y1 ), . . . , (tn , yn ) zweier metrischer Merkmale T und Y mit der Eigenschaft t1 < · · · < tn heißt Zeitreihe. Ist die Folge der Zeitpunkte t1 , . . . , tn aus dem Kontext ersichtlich, so wird auch y1 , . . . , yn als Zeitreihe bezeichnet. Sind die Abst¨ande zwischen den Beobachtungszeitpunkten des Merkmals Zeit gleich groß, so werden die Zeitpunkte ¨aquidistant genannt. In diesem Fall wird die vereinfachte Notation ti = i, i ∈ {1, . . . , n}, verwendet und mit yi die zum orige Beobachtung bezeichnet. Diese Situation wird hier prim¨ar Zeitpunkt i geh¨ behandelt. Einige Methoden der Zeitreihenanalyse lassen sich nur sinnvoll auf Daten anwenden, bei denen die Beobachtungen zu ¨aquidistanten Zeitpunkten vorgenommen wurden. Durch das Auftreten von L¨ ucken in der Erhebung k¨onnten sonst
138
A Beschreibende Statistik
Ph¨anomene verschleiert werden (wie z.B. saisonale Schwankungen). Hierbei sind Zeitr¨aume, in denen eine Messung des Merkmals prinzipiell nicht m¨oglich ist, geeignet zu ber¨ ucksichtigen. Beispiel A 9.3. Der Aktienkurs (in e) eines Unternehmens wird an sechs Tagen bestimmt. Es ergibt sich der folgende zweidimensionale Datensatz: (06.11.2002, 156,41) (07.11.2002, 158,13) (08.11.2002, 157,93) (11.11.2002, 158,58) (12.11.2002, 159,71) (13.11.2002, 158,94) Die Beobachtungswerte der zugeh¨ orige Zeitreihe wurden also formal betrachtet nicht in gleichen Zeitabst¨anden erhoben. Der Zeitraum zwischen der Beobachtung des dritten und vierten Aktienkurses betr¨agt drei Tage, w¨ahrend derjenige zwischen den u ¨brigen Werten nur bei einem Tag liegt. Allerdings war der Zeitraum vom 09.11.2002 bis zum 10.11.2002 ein Wochenende. Da an einem Wochenende keine Aktien gehandelt werden, f¨ uhrt eine Interpretation der Daten zu dem Schluss, dass die Abst¨ande zwischen den Beobachtungen als gleich angenommen werden k¨ onnen (jeweils ein Handelstag). Die Zeitpunkte der Zeitreihe werden daher als ¨aquidistant angesehen. Die ad¨aquate grafische Darstellung einer Zeitreihe ist die Verlaufskurve. Beispiel A 9.4. Der Stand eines Aktienindex wird u ¨ber einen Zeitraum von einer Stunde alle f¨ unf Minuten notiert. Hieraus ergibt sich der folgende bivariate Datensatz, in dem in der ersten Komponente die vergangene Zeit im Format [Stunde:Minute] und in der zweiten Komponente der jeweilige Indexwert angegeben sind: (0:00, (0:20, (0:40, (1:00,
5030,22) (0:05, 5033,57) (0:10, 5036,74) (0:15, 5038,11) 5038,59) (0:25, 5037,39) (0:30, 5032,23) (0:35, 5025,98) 5020,15) (0:45, 5017,31) (0:50, 5015,71) (0:55, 5017,92) 5019,33)
Die zugeh¨ orige Verlaufskurve ist in Abbildung A 9.1 dargestellt. A 9.1 Zeitreihenzerlegung Um unterschiedliche Einfl¨ usse auf das zu einer Zeitreihe geh¨orige Merkmal zu modellieren, wird h¨aufig davon ausgegangen, dass sich die Beobachtungswerte y1 , . . . , yn einer Zeitreihe in unterschiedliche Komponenten zerlegen lassen. In der deskriptiven Zeitreihenanalyse wird dabei im Allgemeinen eine Zerlegung yi = H(gi , si , εi ),
i ∈ {1, . . . , n},
in eine glatte Komponente gi , eine saisonale Komponente si und eine irregul¨are upft sind. Komponente εi betrachtet, die mittels der Funktion H verkn¨
A 9 Zeitreihenanalyse
139
5040
5020
Minuten
5000 0
10
20
30
40
50
60
Abb. A 9.1. Verlaufskurve.
Die glatte Komponente gi spiegelt l¨angerfristige Entwicklungen in den Daten wider. Sie kann eventuell noch in eine Trendkomponente di und eine zyklische Komponente zi zerlegt werden. Die Trendkomponente gibt einen Trend in den Daten wieder und wird darum h¨aufig als monotone Funktion der Zeit gew¨ahlt. Die zyklische Komponente beschreibt Einfl¨ usse, die in großen Zeitr¨aumen einem periodischen Wechsel unterliegen. Bei der Modellierung von Ph¨anomenen im Bereich der Wirtschaftswissenschaften sind dies z.B. Konjunkturzyklen. Die zyklische Komponente entspricht daher einer wellenf¨ ormigen Funktion, wobei die einzelnen Perioden nicht zwingend gleich groß sein m¨ ussen. Die Zusammenfassung beider Komponenten zur glatten Komponente ist u ¨blich, da sich die getrennte Untersuchung der beiden Komponenten z.B. bei relativ kurzen Zeitreihen als problematisch erweist. Liegen nicht gen¨ ugend Werte in einer Zeitreihe vor, so kann beispielsweise ein konjunktureller Einfluss nicht empirisch belegt werden. Durch die saisonale Komponente si werden saisonale Einwirkungen (z.B. durch Jahreszeiten) auf die Daten beschrieben. Sie weist daher ein Wellenmuster mit konstanter Periodenl¨ange (z.B. einem 12-Monats-Rhythmus) auf. Verbleibende Schwankungen in der Zeitreihe, die nicht durch eine der erw¨ahnten Komponenten erkl¨art werden k¨ onnen, werden in der irregul¨aren Komponente εi zusammengefasst. Die eingef¨ uhrten Komponenten m¨ ussen nicht in jedem Fall in vollem Umfang zur Beschreibung und Erkl¨arung einer Zeitreihe herangezogen werden. Ist z.B. der Verlaufskurve zu entnehmen, dass kein saisonaler Einfluss auf die Zeitreihe vorliegt, so kann auf die Komponente si verzichtet werden. Die irregul¨are Komponente ist aber in aller Regel bei der Beschreibung realer Zeitreihen unabdingbar. In ihr werden zuf¨allige Schwankungen oder Messfehler in den Daten aufgefangen. Das in der deskriptiven Statistik am h¨aufigsten betrachtete Modell der Zeitreihenzerlegung ist eine additive Zerlegung in die Komponenten gi , si und εi : yi = gi + si + εi ,
i ∈ {1, . . . , n}.
Die glatte Komponente wird gelegentlich weiter zerlegt und als Summe gi = di +zi aus der Trendkomponente di und der zyklischen Komponente zi aufgefasst. Wie oben bereits erw¨ahnt, k¨ onnen bestimmte Komponenten in dieser Zerlegung
140
A Beschreibende Statistik
weggelassen werden, wenn bereits aus dem Verlauf der Zeitreihe erkennbar oder durch Zusatzinformationen klar ist, dass sie zur Beschreibung nicht erforderlich sind. Im Modell der additiven Zerlegung wird angenommen, dass die irregul¨are Komponente vergleichsweise kleine Werte, die zuf¨allig um Null schwanken, annimmt. Die Zeitreihe sollte sich im Wesentlichen durch die anderen Komponenten erkl¨aren lassen. A 9.2 Zeitreihen ohne Saison Durch Beobachtung eines Merkmals Y habe sich eine Zeitreihe y1 , . . . , yn ergeben, f¨ ur die eine additive Zerlegung yi = gi + εi ,
i ∈ {1, . . . , n},
mit einer glatten Komponente gi und einer irregul¨aren Komponente εi angenommen wird. Zwei M¨ oglichkeiten zur Sch¨atzung der glatten Komponente werden nun n¨aher betrachtet: Regressionsans¨atze und die Methode der gleitenden Durchschnitte. Regressionsans¨ atze Zur Sch¨atzung wird hierbei auf die Methoden der Regressionsanalyse (z.B. lineare Regression, quadratische Regression etc.) zur¨ uckgegriffen. Die zu den Beobachtungswerten geh¨ origen Zeitpunkte t1 < · · · < tn werden dabei als Auspr¨agungen eines Merkmals T angesehen. Ausgehend von einem Regressionsmodell Y = f(T ) + ε,
f ∈ H,
beschreibt die Funktion f aus einer geeigneten (parametrischen) Klasse H den Einfluss der glatten Komponente auf die Zeitreihe. F¨ ur die Merkmalsauspr¨agungen (t1 , y1 ), . . . , (tn , yn ) des Merkmals (T, Y) ergeben sich im Regressionsmodell die Beziehungen yi = f(ti ) + εi , i ∈ {1, . . . , n}. Wie in Abschnitt A 8 erl¨autert wurde, kann (mit Hilfe der Methode der kleinsten Quadrate) diejenige Funktion aus der Klasse H bestimmt werden, die die Daten am besten beschreibt. Die resultierende Funktion f wird dann als Sch¨atzung i ) f¨ i , i = f(t ur die glatte Komponente verwendet. Die Abweichungen yi − g g i ∈ {1, . . . , n}, der Beobachtungswerte y1 , . . . , yn von den gesch¨ atzten Werten der glatten Komponente entsprechen sowohl der irregul¨aren Komponente im Zerlegungsmodell der Zeitreihe als auch den Residuen in der Regressionsrechnung. Die glatte Komponente wird also durch eine parametrische Funktion gesch¨atzt, so dass die Werte der irregul¨aren Komponente in einem gewissen Sinn minimiert werden. Aufgrund der Bedeutung der irregul¨aren Komponente in der Zeitreihenzerlegung erscheint dieser Ansatz plausibel. Das Verhalten der Zeitreihe sollte haupts¨achlich durch die glatte Komponente bestimmt werden.
A 9 Zeitreihenanalyse
141
Als Beispiel wird eine additive Zerlegung der Form yi = a + bti + εi ,
i ∈ {1, . . . , n},
betrachtet, d.h. es wird angenommen, dass die glatte Komponente eine lineare Funktion g(t) = a + bt der Zeit mit unbekannten Parametern a, b ∈ R bildet. In diesem Fall k¨ onnen die Ergebnisse der linearen Regression direkt angewendet werden. Im zugeh¨ origen linearen Regressionsmodell Y = a + bT + ε ergeben sich mittels der Methode der kleinsten Quadrate f¨ ur die Koeffizienten a, b die Sch¨atzwerte n (ti − t)(yi − y) sty i=1 = y − bt, b = 2 = . a n st (ti − t)2 i=1
i f¨ Die Sch¨atzung g ur die glatte Komponente in der obigen Zerlegung ist somit i, + bt i = a g
i ∈ {1, . . . , n}.
Werden ¨ aquidistante Zeitpunkte verwendet, so lassen sich die Koeffizienten noch vereinfachen. Regel A 9.5 (Sch¨atzung der glatten Komponente bei ¨aquidistanten Zeitpunkten). Wird f¨ ur eine Zeitreihe, deren Beobachtungswerte zu ¨aquidistanten Zeitpunkten ti = i, i ∈ {1, . . . , n}, gemessen wurden, ein Zerlegungsmodell yi = gi + εi = a + b · i + εi ,
i ∈ {1, . . . , n},
angenommen, so ergibt sich mittels einer linearen Regression f¨ur die glatte Komponente der Zeitreihe die Sch¨atzung · i, +b i = a g
i ∈ {1, . . . , n},
mit den Koeffizienten · n + 1, =y−b a 2
= b
6 n−1
n 2 i · yi − y . n(n + 1) i=1
Beispiel A 9.6. Die Bev¨ olkerungszahl eines Landes wurde im Zeitraum von 1950 bis 2002 jedes zweite Jahr erhoben (in Mio.): Jahr
1950 1952 1954 1956 1958 1960 1962 1964 1966 52,123 52,748 53,965 53,798 54,354 54,913 55,824 56,350 56,285
Jahr
1968 1970 1972 1974 1976 1978 1980 1982 1984 56,039 56,485 57,058 57,200 57,309 57,095 57,010 57,603 58,522
Jahr
1986 1988 1990 1992 1994 1996 1998 2000 2002 59,095 59,541 59,974 60,496 60,723 60,621 61,222 61,694 62,216
142
A Beschreibende Statistik
Die Zeitreihe y1 , . . . , y27 wurde somit zu ¨aquidistanten Zeitpunkten gemessen. Zur Analyse der Bev¨ olkerungsentwicklung wird ein Zerlegungsmodell der Form yi = a + b · i + εi betrachtet, in dem den Jahresangaben zur Vereinfachung ur die die Zeitpunkte ti = i, i ∈ {1, . . . , 27}, zugeordnet werden. Sch¨atzungen f¨ Parameter a, b ∈ R der glatten Komponente gi = a + bi werden in einem linearen Regressionsmodell Y = a + bT + ε, a, b ∈ R, bestimmt, wobei die Zeit (Merkmal T ) erkl¨arende Variable und die Bev¨ olkerungsgr¨ oße (Merkmal Y ) abh¨angige Variable ist. Aufgrund der Wahl der Messzeitpunkte k¨ onnen die Formeln f¨ ur ¨aquidistante Beobachtungszeitpunkte verwendet werden. Aus den obigen Daten ergibt sich 1 i · yi ≈ 824,727 27 27
i=1
1 yi ≈ 57,417. 27 27
und
y=
i=1
i f¨ Die Koeffizienten der Regressionsgerade (und der Sch¨atzung g ur die glatte Komponente) sind daher 27 6 2 · 28 ≈ 52,597. = = y−b i · yi − y ≈ 0,344, a b 26 27 · 28 2 i=1
Im in Abbildung A 9.2 dargestellten Kurvendiagramm ist nicht nur die Zeitreihe selbst, sondern auch die Regressionsgerade, die in diesem Fall eine Trendsch¨atzung darstellt, abgebildet.
Bev¨ olkerung
60
55
50 1948 1952 1956 1960 1964 1968 1972 1976 1980 1984 1988 1992 1996 2000 Jahr
Abb. A 9.2. Kurvendiagramm
Aufgrund des bisherigen Kurvenverlaufs kann vermutet werden, dass sich das Bev¨ olkerungswachstum in der nahen Zukunft nicht allzu sehr von der Trendsch¨at-
A 9 Zeitreihenanalyse
143
zung unterscheiden wird. Ein Prognosewert f¨ ur die Bev¨olkerungszahl im Jahre 2004 w¨are daher durch die Auswertung der Regressionsgerade an der Stelle t = 28 gegeben: · 28 ≈ 62,237. +b 28 = a g Hierbei ist jedoch ausdr¨ ucklich zu betonen, dass solche Prognosen nur f¨ ur einen sehr kurzen Zeithorizont sinnvoll sind, da sich der Trend im zuk¨ unftigen Verlauf der Zeitreihe eventuell stark ¨andern und keine lineare Form mehr besitzen k¨onnte. ¨ Zur Uberpr¨ ufung der Anpassungsg¨ ute der gesch¨atzten glatten Komponente k¨onnen die Standardwerkzeuge der linearen Regression, das Bestimmtheitsmaß und der Residualplot, verwendet werden. Methode der gleitenden Durchschnitte Bei der Methode der gleitenden Durchschnitte wird der Wert der glatten Komponente zu einem bestimmten Zeitpunkt jeweils durch das arithmetische Mittel aus Beobachtungswerten in einem Zeitfenster um diesen Zeitpunkt gen¨ahert. Zun¨achst werden gleitende Durchschnitte eingef¨ uhrt, wobei nur Zeitreihen betrachtet werden, deren Beobachtungen zu ¨aquidistanten Zeitpunkten gemessen wurden. Definition A 9.7 (Gleitende Durchschnitte). y1 , . . . , yn sei ein Zeitreihe mit ¨aquidistanten Zeitpunkten ti = i, i ∈ {1, . . . , n}. • F¨ ur k ∈ N0 wird die Folge der Werte y∗i =
k 1 yi+j , 2k + 1
i ∈ {k + 1, . . . , n − k},
j=−k
als Folge der gleitenden Durchschnitte der Ordnung 2k + 1 bezeichnet. • F¨ ur k ∈ N wird die Folge der Werte ⎤ ⎡ k−1 1 1 1 ⎣ yi−k + y∗i = yi+j + yi+k ⎦ , i ∈ {k + 1, . . . , n − k}, 2k 2 2 j=−k+1 als Folge der gleitenden Durchschnitte der Ordnung 2k bezeichnet. F¨ ur eine Zeitreihe y1 , . . . , yn ist der Wert y∗i eines gleitenden Durchschnitts der Ordnung 2k + 1 definiert als ein arithmetisches Mittel aus den k vorherigen Beobachtungswerten yi−k , yi−k+1 , . . . , yi−1 der Zeitreihe, dem aktuellen Wert yi und ur einen gleitenden den k nachfolgenden Zeitreihenwerten yi+1 , yi+2 , . . . , yi+k . F¨ Durchschnitt der Ordnung 2k berechnet sich der Wert y∗i als ein gewichtetes Mittel dieser Zeitreihenwerte. Der erste und der letzte betrachtete Wert, d.h. yi−k und yi+k , gehen nur mit dem halben Gewicht der u ¨brigen Werte ein. Insgesamt entsteht durch die Bildung gleitender Durchschnitte die neue Zeitreihe y∗k+1 , . . . , y∗n−k aus n − 2k Werten.
144
A Beschreibende Statistik
Beispiel A 9.8. Die Berechnung der gleitenden Durchschnitte wird an folgendem Zahlenbeispiel illustriert. i •
Ordnung 3 Ordnung 4
6 12 10 8 6 4
2
3
4
5
6
7
8 9 10
yi 10 7
10
13
13
10
10
7 4
y∗i y∗i
1
4
− 9 10 12 12 11 9 7 5 − − − 10,375 11,125 11,5 10,75 8,875 7 − −
r
r
....................................... ... ... .... .... . .... .. ......... ... .......... ....... ..... . . .... ... . ... . . ... . . . . . . . . . . .......... ................................. ............................ ....... . . ............. .... ........... ... .. ... .................. . ... ............... . . . . . . .... ......... .... .... ........................................... .... . . . ......... . . . ... . . . . ......... ...... .... ..... ... ........ ... .... . .. ...... . . . . .. . . .......... ..... .... ... ........ .... ... . ...... ... .... ... ...... .... .... ... . ...... ... . .... . . .......... . . ... .. ......... ....... ...... .. ...... .... ........... ... . .... ..... ... . .... ..... .. ... .... ... .... ....................................
r
r
r
r
r
r
r
r
9
10
2 1
2
3
4
5
6
7
8
Durch die Mittelwertbildung u ¨ber die Zeitreihenwerte in der Umgebung der aktuellen Position wird die Folge der gleitenden Durchschnitte y∗k+1 , . . . , y∗n−k im Zeitraum k + 1, . . . , n − k weniger starke Schwankungen aufweisen als die Originalzeitreihe. Die Bildung der gleitenden Durchschnitte bewirkt also je nach Wahl der Ordnung eine mehr oder weniger starke Gl¨attung der Zeitreihe. W1 sind identisch mit der urspr¨ unglichen Zeitreihe.ird die Ordnung der gleitenden Durchschnitte klein gew¨ahlt, so wirken sich Schwankungen in der Originalzeitreihe stark auf die Folge der gleitenden Durchschnitte aus, da die Werte der gleitenden Durchschnitte nur wenig von der jeweiligen Vergangenheit und Zukunft in der Zeitreihe abh¨angen. Die entstehende Zeitreihe ist daher auch weniger stark gegl¨attet, d.h. auch bei y∗k+1 , . . . , y∗n−k kann sich eventuell ein unruhiger“ Ver” lauf zeigen. Gleitende Durchschnitte der Ordnung F¨ ur große Ordnungen ergibt sich hingegen eine starke Gl¨attung, da bei der Mittelwertbildung viele Werte aus der Vergangenheit und Zukunft ber¨ ucksichtigt werden. Ein starke Gl¨attung verwischt starke Ausschl¨age“ der urspr¨ unglichen Zeitrei” he. Dort auftretende Trend¨anderungen wirken sich erst sp¨at auf die gegl¨attete Zeitreihe aus. Außerdem hat die Folge der gleitenden Durchschnitte mit zunehmender Ordnung immer weniger Folgenglieder. Besteht eine Zeitreihe aus einer ungeraden Anzahl von Beobachtungen und wird im Extremfall f¨ ur die Ordnung
A 9 Zeitreihenanalyse
145
eines gleitenden Durchschnitts gerade diese Anzahl gew¨ahlt, so besteht die Folge der gleitenden Durchschnitte sogar nur aus einem einzigen Wert: dem arithmetischen Mittel aller Zeitreihenwerte. Die Folge der gleitenden Durchschnitte l¨asst sich mit dem folgenden Verfahren in einfacher Weise berechnen. Regel A 9.9 (Berechnung der gleitenden Durchschnitte). • Verfahren f¨ ur eine ungerade Ordnung 2k + 1 mit k ∈ N0 : 2k+1 (i) Berechnung von Mk+1 = yj . j=1
(ii) Rekursive Ermittlung der Werte Mk+2 = Mk+1 − y1 + y2k+2 ,
.. . Mn−k = Mn−k−1 − yn−2k−1 + yn . (iii) Die Folge der gleitenden Durchschnitte der Ordnung 2k + 1 ist gegeben durch 1 · Mi , i ∈ {k + 1, . . . , n − k}. y∗i = 2k + 1 • Verfahren f¨ ur eine gerade Ordnung 2k mit k ∈ N: 2k (i) Berechnung von Mk = yj . j=1
(ii) Rekursive Ermittlung der Werte Mk+1 = Mk − y1 + y2k+1 ,
.. . Mn−k = Mn−k−1 − yn−2k + yn . (iii) Die Folge der gleitenden Durchschnitte der Ordnung 2k ist gegeben durch y∗i =
1 · [Mi−1 + Mi ] , 4k
i ∈ {k + 1, . . . , n − k}.
Nun wird die Methode der gleitenden Durchschnitte zur Sch¨atzung der glatten Komponente gi in einer additiven Zeitreihenzerlegung ohne Saisonkomponente vorgestellt. Regel A 9.10 (Sch¨atzung der glatten Komponente). Seien folgende Voraussetzungen erf¨ ullt: (i) Die glatte Komponente der Zeitreihe y1 , . . . , yn l¨asst sich lokal in einem Zeitur aufeinander folgende Werte yi−k , . . . , yi+k ) fenster der L¨ange 2k + 1 (d.h. f¨ durch eine Gerade approximieren, ohne dass dabei gr¨oßere Abweichungen auftreten.
146
A Beschreibende Statistik
(ii) Mittel ¨ uber Werte der irregul¨aren Komponente in der Zeitreihenzerlegung ergeben n¨aherungsweise Null. Dann kann die glatte Komponente im Zeitraum k + 1, . . . , n − k durch i = y∗i , g
i ∈ {k + 1, . . . , n − k},
gesch¨atzt werden, wobei y∗k+1 , . . . , y∗n−k die zur Zeitreihe y1 , . . . , yn geh¨orige Folge der gleitenden Durchschnitte der Ordnung 2k + 1 (oder 2k) ist. Die Voraussetzungen an die Methode der gleitenden Durchschnitte lassen sich wie folgt interpretieren: Die erste Bedingung ist eine Forderung an die Variabilit¨at der glatten Komponente. Je gr¨ oßer die Ordnung gew¨ahlt wird, desto weniger stark darf sich die glatte Komponente ¨ uber die Zeit ¨andern. Die zweite Bedingung reflektiert die Bedeutung der irregul¨aren Komponente im additiven Zerlegungsmodell. Das Verhalten der Zeitreihe sollte sich haupts¨achlich durch die glatte Komponente erkl¨aren lassen. Dementsprechend sollte die irregul¨are Komponente vergleichsweise kleine Werte annehmen, die regellos um Null schwanken. Daher ist es sinnvoll zu fordern, dass allgemein Mittel u ¨ber Werte der irregul¨aren Komponente zumindest ungef¨ahr Null ergeben. Bei Anwendung der Methode der gleitenden Durchschnitte zur Sch¨atzung der glatten Komponente einer Zeitreihe ist die zugeh¨orige Ordnung zu w¨ahlen. Hierbei ist die Bedingung der linearen Approximierbarkeit der glatten Komponente im entsprechenden Zeitfenster zu beachten. Unter der Annahme, dass die irregul¨are Komponente keine zu starken Verzerrungen der Daten hervorruft, kann daher als grobe Faustregel festgehalten werden: Weist die Zeitreihe starke Schwankungen auf, so sind kleine Werte f¨ ur die Ordnung der gleitenden Durchschnitte zu w¨ahlen. Treten nur schw¨achere Bewegungen in der Zeitreihe auf, so k¨onnen gr¨oßere Werte f¨ ur k verwendet werden. Bei Wahl der Ordnung muss allerdings beachtet werden, dass durch den Gl¨attungsprozess Entwicklungen in der urspr¨ unglichen Zeitreihe verdeckt oder in Extremf¨allen verzerrt werden k¨ onnen. Dies ist ebenfalls bei einer Interpretation der gegl¨atteten Zeitreihe zu ber¨ ucksichtigen. Falls die Originalzeitreihe jedoch Muster in Form einer saisonalen Schwankung aufweist, so sollte generell die Variante der gleitenden Durchschnitte f¨ ur Zeitreihen mit Saisonkomponente verwendet werden. Die gleitenden Durchschnitte einer Zeitreihe y1 , . . . , yn k¨onnen gem¨aß ihrer Definition nur f¨ ur den Zeitraum k + 1, . . . , n − k berechnet werden. F¨ ur die Zeitpunkte 1, . . . , k und n − k + 1, . . . , n sind sie nicht definiert. Dort k¨ onnen mit geeigneten Fortsetzungsverfahren auch Werte erzeugt werden (s. Burkschat et al., 2004). A 9.3 Zeitreihen mit Saison Durch eine Erweiterung der obigen Vorgehensweise kann mittels der Methode der gleitenden Durchschnitte nicht nur die glatte Komponente einer Zeitreihe (mit ¨aquidistanten Beobachtungszeitpunkten) gesch¨atzt werden. Sie erm¨oglicht
A 9 Zeitreihenanalyse
147
auch die Bestimmung von Sch¨atzwerten f¨ ur die saisonale Komponente, wenn eine additive Zerlegung der Form yi = gi + si + εi ,
i ∈ {1, . . . , n},
in die glatte Komponente gi , die Saisonkomponente si und die irregul¨are Komponente εi vorausgesetzt wird. Saisonbereinigung mittels der Methode der gleitenden Durchschnitte Regel A 9.11 (Sch¨atzwerte f¨ ur die glatte und die saisonale Komponente). Seien folgende Voraussetzungen erf¨ ullt: (i) Die saisonale Komponente der Zeitreihe y1 , . . . , yn wiederholt sich in Perioden der L¨ange p, d.h. es gilt: si = si+p ,
i ∈ {1, . . . , n − p}.
Zus¨atzlich summieren sich die p Saisonwerte der Periode zu Null: s1 + s2 + · · · + sp = 0.
(ii) Die glatte Komponente l¨asst sich lokal in einem Zeitfenster der L¨ange p (falls p ungerade) bzw. p + 1 (falls p gerade) durch eine Gerade approximieren, ohne dass dabei gr¨oßere Abweichungen auftreten. (iii) Mittel ¨ uber Werte der irregul¨aren Komponente ergeben n¨aherungsweise Null. p Sei k = p−1 2 (falls p ungerade) bzw. k = 2 (falls p gerade). Dann kann die glatte Komponente im Zeitraum k + 1, . . . , n − k durch
i = y∗i , g
i ∈ {k + 1, . . . , n − k},
gesch¨atzt werden, wobei y∗k+1 , . . . , y∗n−k die zur Zeitreihe y1 , . . . , yn geh¨orige Folge der gleitenden Durchschnitte der Ordnung p ist. Die Saisonkomponenten s1 , . . . , sp k¨onnen durch 1
sj , p p
si − si =
i ∈ {1, . . . , p},
j=1
gesch¨atzt werden, wobei die Gr¨oßen
sp definiert werden mittels s1 , . . . ,
si =
mi 1 (yi+jp − y∗i+jp ), mi − li + 1
i ∈ {1, . . . , p}.
j=li
Die Anzahlen mi − li + 1, i ∈ {1, . . . , p}, entsprechen den jeweils beobachteten Zyklen der Saisonkomponente si , wobei mi = max{m ∈ N0 | i + mp n − k},
li = min{l ∈ N0 | i + lp k + 1}.
148
A Beschreibende Statistik
In der ersten Bedingung werden zwei Forderungen an die saisonale Komponente gestellt. Da diese Komponente saisonale Schwankungen in den Daten beschreiben soll, liegt ein periodisches Verhalten nahe. Durch die erste Forderung wird eine konstante Saisonfigur, also eine konstante Periodenl¨ange p mit jeweils gleichen (zeitunabh¨angigen) Einfl¨ ussen innerhalb einer Saison, vorausgesetzt. 6 r
r r r
. .. . ... . ... . ... . ... . ... . ... . ... .
r r r
r
r
r r
r r r
s2
. .. . ... . ... . ... . ... . ... . ... . ... .
r r r
r
r
r r
r r r
s2+p
. .. . ... . ... . ... . ... . ... . ... . ... .
r r
r r
r r r
-
s2+2p
Die zweite Forderung repr¨asentiert eine Normierung und bewirkt eine eindeutige Trennung der glatten und der saisonalen Komponente in der Zeitreihenzerlegung. Die Interpretation beider Komponenten w¨ urde auch eine Zerlegung in gi = gi + a und si = si − a mit einem beliebigen a ∈ R erlauben, so dass eine eindeutige Sch¨atzung beider Komponenten ohne zus¨atzliche Bedingungen nicht m¨oglich w¨are. Durch die Forderung, dass die Summe der si gleich Null ist, ist eine Verschiebung der Komponenten durch Addition einer Konstanten ausgeschlossen. Die letzten beiden Voraussetzungen k¨ onnen ¨ahnlich wie im Fall der Methode der gleitenden Durchschnitte f¨ ur Zeitreihen ohne Saisonkomponente interpretiert werden. Liegt eine Saisonfigur der L¨ange p vor (z.B. Quartalsdaten eines Jahres (p = 4), Monatsdaten (p = 12)), so ist ein gleitender Durchschnitt der Ordnung p zu w¨ ahlen, um diese Saisoneffekte nicht zu verf¨alschen. Dies stellt jedoch keine besondere Einschr¨ankung dar, weil die glatte Komponente eher l¨angerfristige Entwicklungen beschreiben und daher innerhalb der Periodenl¨ange der Saison keinen zu großen Schwankungen unterliegen sollte. Dass das obige Verfahren sinnvolle Sch¨atzwerte f¨ ur die glatte und die saisonale Komponente liefert, kann folgendermaßen begr¨ undet werden, wobei wiederum nur der Fall p = 2k + 1 betrachtet wird: Sei y∗k+1 , . . . , y∗n−k die gegl¨attete Zeitreihe. Die Werte k¨ onnen additiv in die jeweiligen gegl¨atteten Werte g∗i der glatten Komponente, der saisonalen Komponente s∗i und der irregul¨aren Komponente ε∗i zerlegt werden: y∗i = g∗i + s∗i + ε∗i ,
i ∈ {k + 1, . . . , n − k}.
Aus der ersten Bedingung folgt s∗i =
k 1 si+j = 0, 2k + 1 j=−k
i ∈ {k + 1, . . . , n − k},
A 9 Zeitreihenanalyse
149
die dritte Bedingung liefert ε∗i =
k 1 εi+j ≈ 0, 2k + 1
i ∈ {k + 1, . . . , n − k}.
j=−k
Analog zur Sch¨atzung der glatten Komponente in Zeitreihen ohne Saisonkomponente kann aufgrund der zweiten Bedingung gefolgert werden: g∗i ≈ gi ,
i ∈ {k + 1, . . . , n − k}.
Aufgrund der Zerlegung der gegl¨atteten Zeitreihe gilt dann wiederum y∗i = g∗i + s∗i + ε∗i ≈ gi ,
i ∈ {k + 1, . . . , n − k}.
Insbesondere ergibt sich yi − y∗i = (gi + si + εi ) − y∗i ≈ si + εi ,
i ∈ {k + 1, . . . , n − k},
d.h. die Differenzen beschreiben den wahren“ Saisonverlauf. ” F¨ ur die Gr¨ oßen
si =
mi 1 (yi+jp − y∗i+jp ), mi − li + 1
i ∈ {1, . . . , p},
j=li
folgt mit der ersten und dritten Bedingung dann:
si ≈
mi mi 1 1 si+jp + εi+jp mi − li + 1 mi − li + 1 j=li
=
1 mi − li + 1
= si +
mi
j=li
si +
j=li
1 mi − li + 1
mi 1 εi+jp ≈ si , mi − li + 1
mi
εi+jp
j=li
i ∈ {1, . . . , p}.
j=li
Die Sch¨atzungen
ullen allerdings nicht zwangsl¨aufig die zweite Forderung si erf¨ sp kann von Null verschieden s1 + · · · +
der ersten Bedingung, d.h. die Summe
sein. Aus diesem Grund werden als Sch¨atzwerte die korrigierten Gr¨oßen 1
si −
sj =
s, p p
si − si =
i ∈ {1, . . . , p},
j=1
verwendet, deren Summe gleich Null ist (Zentrierung). Wegen 1 1
sj = 0, sj ≈ p p p
p
j=1
j=1
150
A Beschreibende Statistik
repr¨asentieren auch die Werte sp sinnvolle Sch¨ atzungen f¨ ur s1 , . . . , sp . s1 , . . . , = yi − y∗i , i ∈ {k + 1, . . . , n − k}, auf deren Basis die SaisonkomDie Zeitreihe y(t) i ponente gesch¨atzt wird, heißt trendbereinigte Zeitreihe. Da y∗i eine Sch¨atzung f¨ ur die glatte Komponente gi ist, die h¨aufig einen Trend in den Daten beschreibt, si wird dementist diese Bezeichnung gerechtfertigt. Die Zeitreihe yi(s) = yi − sprechend saisonbereinigte Zeitreihe genannt, wobei si f¨ ur i ∈ {1, . . . , p} si+jp = und j ∈ N gesetzt wird. Bei einer Saisonbereinigung wird also von der Originalzeitreihe die jeweils zum betrachteten Zeitpunkt geh¨orige Sch¨atzung f¨ ur die Saisonkomponente abgezogen. Um die bei einer Saisonbereinigung ben¨ otigten Werte u ¨bersichtlich darzustellen und Berechnungen leichter durchf¨ uhren zu k¨ onnen, kann ein tabellarisches Hilfsmittel, das Periodendiagramm, verwendet werden. Ein Periodendiagramm ist eine Tabelle, in deren erster Spalte die Zahlen von 1, . . . , p eingetragen werden. In den folgenden Spalten sind die Beobachtungswerte der trendbereinigten Zeitreihe aus den einzelnen Zeitperioden aufgelistet, wobei angenommen wird, dass Beobachtungswerte aus l Perioden vorliegen. In jeder dieser Spalten sind alle beobachteten Werte aus einem Zeitraum der L¨ange p aufgelistet, wobei die Werte bez¨ uglich der Zeilen chronologisch geordnet sind. In der ersten und der letzten dieser Spalten (und auch dar¨ uberhinaus) k¨ onnen Eintr¨age fehlen, wenn keine vollst¨andigen Perioden beobachtet wurden oder Randwerte in der Folge der gleitenden Durchschnitte fehlen. In der letzten Spalte des Periodendiagramms werden die arithmetischen sp der trendbereinigten Zeitreihenwerte aus der zugeh¨ origen Zeile s1 , . . . ,
Mittel
gebildet. In dem Tabellenfeld unter dieser Spalte ist schließlich das arithmetische Mittel aus den dar¨ uber stehenden Mittelwerten zu finden. Die Werte in der letzten Spalte stellen dann die Basis f¨ ur eine Saisonbereinigung mittels der Methode der gleitenden Durchschnitte dar.
Nr. 1 2 .. .
1. Periode − y2 − y∗2
.. .
2. Periode y1+p − y2+p −
y∗1+p y∗2+p
.. .
p − 1 yp−1 − y∗p−1 y2p−1 − y∗2p−1 p yp − y∗p y2p − y∗2p
...
l-te Periode
Mittelwerte
y∗1+(l−1)p y∗2+(l−1)p
. . . y1+(l−1)p − . . . y2+(l−1)p − .. .. . . ... ylp−1 − y∗lp−1 ... −
s1
s2
.. .
sp−1
sp
s=
1 p
p j=1
sj
A 9 Zeitreihenanalyse
151
Zusammenfassung Unter den Voraussetzungen zur Sch¨atzung der Saisonkomponente lassen sich die Schritte einer elementaren Zeitreihenanalyse im Modell yi = gi + si + εi ,
i ∈ {1, . . . , n},
wie folgt darstellen. (i) Mittels gleitender Durchschnitte der Ordnung p ∈ {2k, 2k + 1} wird eine Trendsch¨atzung vorgenommen. Es resultiert die gegl¨attete Zeitreihe y∗k+1 , . . . , y∗n−k .
(ii) Die Trendsch¨atzung wird zur Konstruktion der trendbereinigten Zeitreihe verwendet: (t) yi = yi − y∗i , i ∈ {k + 1, . . . , n − k}. (iii) Die Saisonkomponenten s1 , . . . , sp werden zun¨achst im Periodendiagramm sp (vor-)gesch¨ atzt. s1 , . . . ,
durch die Gr¨ oßen
(iv) Durch eine Zentrierung der
sp mittels des zugeh¨ origen arithmetischen s1 , . . . ,
ur i ∈ {1, . . . , p} die Sch¨atzwerte s werden f¨ Mittels
1
si −
sj =
s p p
si − si =
j=1
f¨ ur die Saisonkomponenten si bestimmt. (v) Durch die Definition si , si+jp =
i ∈ {1, . . . , p}, j ∈ N,
wird jeder Beobachtung yi die passende“ Sch¨atzung origen si der zugeh¨ ” Saisonkomponente zugeordnet. (vi) Mit diesen Hilfsgr¨ oßen wird die saisonbereinigte Zeitreihe berechnet: (s)
yi
= yi − si ,
i ∈ {1, . . . , n}.
B Wahrscheinlichkeitsrechnung
Modelle f¨ ur reale, zufallsabh¨angige Vorg¨ange werden in vielen Bereichen von Wissenschaft, Technik und Wirtschaft eingesetzt. Diese dienen der (vereinfachten) Beschreibung der Wirklichkeit und dem Zweck, Aussagen im Modell zu gewinnen. Diese Ergebnisse k¨ onnen, falls das Modell gut genug“ ist, durch R¨ uck¨ uber” ” ¨ setzung“ in die Realit¨at Entscheidungshilfen sein. Ist eine hinreichende Ubereinstimmung des Modells mit der Wirklichkeit ¨ uberpr¨ uft (das Modell also validiert), so k¨ onnen dann auch vorliegende oder zu erhebende Daten zur weiteren Spezifizierung des Modells analysiert werden. Die Wahrscheinlichkeitsrechnung ist die mathematische Grundlage der stochastischen Modellierung. Im Gegensatz zu deterministischen Vorg¨angen mit einem direkten Ursache-/ Wirkungzusammenhang ist bei zufallsabh¨angigen Vorg¨angen ein Ergebnis prinzipiell nicht (exakt) vorhersagbar. Beispiele f¨ ur derartige Situationen sind B¨orsenkurse, Betriebsdauern technischer Ger¨ate oder Gl¨ ucksspiele, die h¨aufig der Veranschaulichung in der Wahrscheinlichkeitsrechnung dienen. Stochastische Modelle und Verfahren werden aber auch dort eingesetzt, wo eine Vorhersage von Ergebnissen oder Ausg¨angen zwar prinzipiell m¨ oglich, aber zu komplex ist, da die Anzahl der Einflussgr¨ oßen zu hoch ist oder Probleme bei deren Quantifizierung bestehen. In der Wahrscheinlichkeitsrechnung werden zuf¨allige Ereignisse in einem mathematischen Kalk¨ ul abgebildet und die definierten Begriffe untersucht. Sie bildet das theoretische Fundament der Schließenden Statistik, in der Schl¨ usse aus Daten gezogen und Aussagen abgeleitet werden. In beiden Bereichen sind solche Aussagen von zentraler Bedeutung, in denen es darum geht, trotz der zuf¨alligen Einfl¨ usse zu belastbaren“ Aussagen im folgenden Sinn zu kommen: Einzelversuche sind zwar ” nicht vorhersagbar, aber stochastische Aussagen bei Versuchswiederholungen sind m¨oglich. Die mathematische Pr¨azisierung eines Zufallsexperiments wird einf¨ uhrend am Werfen eines W¨ urfels (als ein Experiment) verdeutlicht. Die m¨oglichen Ergebnisse werden kodiert durch die Zahlen 1, 2, . . . , 6, die zur als Grundraum bezeichneten Menge Ω = {1, 2, 3, 4, 5, 6} zusammengefasst werden. Das Ergebnis ω ∈ Ω eines W¨ urfelwurfs wird als Elementarereignis bezeichnet. Die Vorstellung, dass jede
154
B Wahrscheinlichkeitsrechnung
Zahl bei Verwendung eines fairen W¨ urfels dieselbe Chance hat, wird durch die Wahrscheinlichkeiten 1 P({ω}) = f¨ ur alle ω ∈ Ω 6 ausgedr¨ uckt. Jedes Ergebnis hat also dieselbe Wahrscheinlichkeit (Probability). Das Ereignis Es f¨allt eine gerade Zahl“ ist dann beschreibbar durch die Teilmen” ge A = {2, 4, 6} von Ω. Da diese Menge die H¨alfte aller m¨oglichen Ergebnisse enth¨alt, sollte aus Symmetriegr¨ unden P(A) = 12 gelten. Dies ist im folgenden stochastischen Modell erf¨ ullt. Zus¨atzlich zum Grundraum Ω betrachtet man die oglichen Ereignisse und eine AbbilPotenzmenge Pot(Ω) von Ω als Menge der m¨ dung P, die jeder Menge A ⊆ Ω bzw. A ∈ Pot(Ω) durch die Vorschrift P(A) = |A| 6 eine Wahrscheinlichkeit zuordnet. Dieses Beispiel zeigt, dass der Begriff Wahrscheinlichkeit dadurch mathematisch gefasst wird, dass jedem m¨ oglichen Ereignis A ∈ Pot(Ω) eine Zahl P(A) (die Wahrscheinlichkeit“ von A) zugeordnet wird. Ist der Grundraum z.B. eine nicht” abz¨ahlbare Teilmenge der reellen Zahlen (etwa das Intervall [0, 1]), dann kann aus mathematischen Gr¨ unden die Potenzmenge nicht mehr als Menge aller m¨oglichen Ereignisse dienen. Diese Problematik wird weiter unten thematisiert. Es gibt eine Vielzahl von B¨ uchern zur Einf¨ uhrung in die Wahrscheinlichkeitsrechnung oder Wahrscheinlichkeitstheorie mit unterschiedlichen Zielsetzungen, Adressaten und Anforderungen. Exemplarisch seien die Lehrb¨ ucher Bauer (2002), Behnen und Neuhaus (2003), Dehling und Haupt (2004), D¨ umbgen (2003), Henze (2006), H¨ ubner (2003), Irle (2005), Krengel (2005), Mathar und Pfeifer (1990) und Pfanzagl (1991) genannt.
B 1 Grundlagen der Wahrscheinlichkeitsrechnung In diesem Abschnitt werden grundlegende Begriffe und Bezeichnungen eingef¨ uhrt. Bezeichnung B 1.1 (Grundraum, Ergebnis, Ereignis, Elementarereignis). Die Menge aller m¨oglichen Ergebnisse eines Zufallsvorgangs (Zufallsexperiments) wird Grundraum (Grundmenge, Ergebnisraum) genannt und meistens mit dem griechischen Buchstaben Ω bezeichnet: Ω = {ω|ω ist m¨ ogliches Ergebnis eines zufallsabh¨angigen Vorgangs}.
Ein Element ω von Ω heißt Ergebnis. Eine Menge von Ergebnissen heißt Ereignis. Ereignisse werden meist mit großen lateinischen Buchstaben A, B, C, . . . bezeichnet. Ein Ereignis, das genau ein Element besitzt, heißt Elementarereignis. Beispiel B 1.2 (Einfacher W¨ urfelwurf). Das Zufallsexperiment eines einfachen W¨ urfelwurfs wird betrachtet. Die m¨ oglichen Ergebnisse sind die Ziffern 1, 2, 3, 4, 5 und 6, d.h. der Grundraum ist Ω = {1, 2, 3, 4, 5, 6}. Die Elementarereignisse sind {1}, {2}, {3}, {4}, {5}, {6}. Andere Ereignisse sind etwa:
B 1 Grundlagen der Wahrscheinlichkeitsrechnung
155
• Es f¨allt eine gerade Ziffer“: A = {2,4,6} ” • Es f¨allt eine Ziffer kleiner als 3“: B = {1,2} ” Kombinationen von Ereignissen sind von besonderem Interesse. Dazu werden folgende Bezeichnungen vereinbart. Bezeichnung B 1.3 (Spezielle Ereignisse). Seien I eine Indexmenge sowie A, B und Ai , i ∈ I, Ereignisse in einem Grundraum Ω. • A ∩ B = {ω ∈ Ω|ω ∈ A und ω ∈ B} heißt Schnittereignis der Ereignisse A und B. Ai = {ω ∈ Ω|ω ∈ Ai f¨ ur jedes i ∈ I} heißt Schnittereignis der Ereignisse • i∈I
Ai , i ∈ I.
• Die Ereignisse A und B heißen disjunkt, falls A ∩ B = ∅. • Die Ereignisse Ai , i ∈ I, heißen paarweise disjunkt, falls f¨ur jede Auswahl zweier verschiedener Indizes i, j ∈ I gilt: Ai ∩ Aj = ∅. • A ∪ B = {ω ∈ Ω|ω ∈ A oder ω ∈ B} heißt Vereinigungsereignis der Ereignisse A und B. • Ai = {ω ∈ Ω| es gibt ein i ∈ I mit ω ∈ Ai } heißt Vereinigungsereignis der i∈I
Ereignisse Ai ,i ∈ I.
• Gilt A ⊆ B, d.h. f¨ ur jedes ω ∈ A gilt ω ∈ B, so heißt A Teilereignis von B. • Die Menge Ac = Ω \ A = {ω ∈ Ω|ω ∈ / A} ist das Komplement¨ arereignis von A; Ac heißt Komplement von A (in Ω). • Die Menge B \ A = {ω ∈ Ω|ω ∈ B und ω ∈ / A} = B ∩ Ac ist das Differenzereignis von B und A; B \ A heißt Komplement von A in B. Definition B 1.4 (Wahrscheinlichkeitsmaß, Wahrscheinlichkeitsverteilung, Z¨ahldichte). Seien Ω = {ω1 , ω2 , ω3 , . . . } ein endlicher oder abz¨ahlbar unendlicher Grundraum und A = Pot(Ω) die Potenzmenge von Ω (also die Menge aller Erp(ω) = 1. Die eignisse ¨ uber Ω). Ferner sei p : Ω → [0, 1] eine Abbildung mit ω∈Ω
durch P(A) =
p(ω),
A ∈ A,
ω∈A
definierte Abbildung P : A → [0, 1], A → P(A), die jedem Ereignis A eine Wahrscheinlichkeit P(A) zuordnet, heißt diskretes Wahrscheinlichkeitsmaß oder diskrete uber Ω). Die Abbildung p heißt Z¨ahlWahrscheinlichkeitsverteilung auf A (oder ¨ dichte. F¨ ur ω ∈ Ω heißt p(ω) = P({ω}) Elementarwahrscheinlichkeit des Elementarereignisses {ω}; als Kurzschreibweise wird P(ω) = P({ω}) verwendet.
156
B Wahrscheinlichkeitsrechnung
Eigenschaft B 1.5. Eine diskrete Wahrscheinlichkeitsverteilung P gem¨aß Definition B 1.4 besitzt folgende Eigenschaften: ur jedes Ereignis A ∈ A, (i) 0 P(A) 1 f¨ (ii) P(Ω) = 1, ur alle paarweise disjunkten Ereignisse Ai , i ∈ N, gilt (iii) P ist σ-additiv, d.h. f¨ ∞ ∞ P Ai = P(Ai ). i=1
Insbesondere ist P
n
Ai
=
i=1
n
i=1
P(Ai ) f¨ ur alle n ∈ N.
i=1
Die Eigenschaften (i)-(iii) in Eigenschaft B 1.5 heißen auch Kolmogorov-Axiome (s. auch Definition B 3.2). Bezeichnung B 1.6 (Diskreter Wahrscheinlichkeitsraum). Seien Ω = {ω1 , ω2 , . . . } ein endlicher oder abz¨ ahlbar unendlicher Grundraum, A = Pot(Ω) und P ein diskretes Wahrscheinlichkeitsmaß auf A. Das Paar (Ω,P) wird diskreter Wahrscheinlichkeitsraum genannt. Ist der Grundraum endlich, d.h. Ω = {ω1 , . . . , ωn }, so wird (Ω,P) als endlicher diskreter Wahrscheinlichkeitsraum bezeichnet. Beispiel B 1.7 (Laplace-Raum). Ist Ω = {ω1 , . . . ,ωn }, n ∈ N, eine endliche Menge bestehend aus n Elementen, dann wird durch die Vorschrift P(A) =
|A| |A| = , |Ω| n
A ⊆ Ω,
ein Wahrscheinlichkeitsmaß ¨ uber Pot(Ω) definiert. Dabei bezeichnet |A| die Anzahl der Elemente des Ereignisses A. Das auf diese Weise definierte Wahrscheinlichkeitsmaß P wird als Laplace-Verteilung oder auch als diskrete Gleichverteilung auf Ω bezeichnet. (Ω,P) heißt Laplace-Raum u ¨ber Ω. Beispiel B 1.8 (Einfacher W¨ urfelwurf). Der einfache W¨ urfelwurf wird modelliert durch die Grundmenge Ω = {1, . . . , 6} und die Laplace-Verteilung auf Ω. Die Wahrscheinlichkeit eines beliebigen Ereignisses A ∈ Pot(Ω) wird berechnet gem¨aß P(A) = |A| . 6 Beispielsweise wird das Ereignis A Augenzahl ungerade“ beschrieben durch ” A = {1, 3, 5}, so dass seine Wahrscheinlichkeit im Laplace-Modell durch P(A) = P({1, 3, 5}) = |{1,3,5}| = 36 = 12 gegeben ist. 6 In einem Laplace-Raum (Ω,P) ¨ uber einer Menge Ω = {ω1 , . . . , ωn }, n ∈ N, ist die Berechnung von Wahrscheinlichkeiten besonders einfach. F¨ ur jedes Elementarereignis gilt:
B 1 Grundlagen der Wahrscheinlichkeitsrechnung
P({ωi }) =
1 1 = , |Ω| n
157
ωi ∈ Ω,
d.h. die Wahrscheinlichkeit eines jeden Elementarereignisses ist gleich n1 . Damit ist die Z¨ahldichte gegeben durch p(ω) = n1 , ω ∈ Ω. Die Wahrscheinlichkeit eines beliebigen Ereignisses berechnet sich aus der Anzahl der Elemente des Ereignisses. Bezeichnet man diese Ergebnisse als g¨ unstige F¨alle, so erh¨alt man die Merkregel: P(A) =
|A| Anzahl g¨ unstiger F¨alle . = |Ω| Anzahl m¨ oglicher F¨alle
Beispiel B 1.9. Ein Problem des Chevalier de M´er´e aus dem 17. Jahrhundert lautet: Was ist bei drei W¨ urfelw¨ urfen wahrscheinlicher: Augensumme gleich 11 oder Augensumme gleich 12? Die Situation wird modelliert durch den Grundraum aller Tripel mit einer der Ziffern 1, . . . , 6 in den Komponenten: Ω = {ω = (ω1 ,ω2 ,ω3 ); ωi ∈ {1, . . . , 6}, 1 i ∈ {1, 2, 3}} sowie der Z¨ ahldichte p(ω) = |Ω| = 613 f¨ ur alle ω ∈ Ω (aus Symmetriegr¨ unden). Von Interesse sind die Ereignisse A = {ω ∈ Ω; ω1 + ω2 + ω3 = 11} und B = {ω ∈ Ω; ω1 + ω2 + ω3 = 12} im Laplace-Raum (Ω, P). Informell lassen sich diese Mengen tabellarisch darstellen: A B 6 6 5 5 5 4
4 3 5 4 3 4
Σ 11
1 2 1 2 3 3
(6) (6) (3) (6) (3) (3)
6 6 6 5 5 4
5 4 3 5 4 4
(27)
Σ 12
1 2 3 2 3 4
(6) (6) (3) (3) (6) (1) (25)
Es gibt zwar jeweils sechs F¨alle von Zahlenkombinationen“, aber Ω ist eine Men” ge von Tripeln, d.h. die W¨ urfel werden als unterscheidbar modelliert. Beispielsweise gilt (6, 4, 1) = (6, 1, 4) = (1, 6, 4), usw. Abz¨ahlen der F¨alle liefert |A| = 27 und |B| = 25, und somit ergibt sich P(A) =
25 27 > = P(B). 216 216
Liegt ein Laplace-Raum vor, so reduziert sich die Berechnung von Wahrscheinlichkeiten also auf das Abz¨ahlen von Elementen eines Ereignisses. Mit solchen Fragestellungen besch¨aftigt sich die Kombinatorik. Ehe die Grundmodelle der Kombinatorik eingef¨ uhrt werden, wird noch der relevante Bereich einer Wahrscheinlichkeitsverteilung, der Tr¨ager, eingef¨ uhrt. Bezeichnung B 1.10 (Tr¨ager). Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum. Die Menge T (= supp(P)) = {ω ∈ Ω; P(ω) > 0} heißt Tr¨ager von P.
158
B Wahrscheinlichkeitsrechnung
Urnenmodelle Zur Veranschaulichung einfacher Stichprobenverfahren und damit der Bestimmung der M¨achtigkeit endlicher Mengen werden Urnenmodelle verwendet. Eine Urne enthalte dazu n nummerierte Kugeln (mit den Nummern 1, . . . ,n), die die Grundgesamtheit oder den Grundraum bilden. Das Ziehen einer Kugel aus der Urne entspricht der (zuf¨alligen) Auswahl eines Objektes aus der Grundgesamtheit. Die Erhebung einer Stichprobe vom Umfang k aus einer Grundgesamtheit von n Objekten entspricht daher dem Ziehen von k Kugeln aus einer Urne mit n Kugeln. Die Urne wird im Folgenden als die Menge der Zahlen 1, . . . ,n verstanden: Un = {1, . . . ,n}, wobei die Zahl i der i-ten Kugel entspricht. Resultat einer Ziehung von k Kugeln ist ein geordnetes Tupel (ω1 , . . . ,ωk ), wobei ωi die im i-ten Zug entnommene Kugel repr¨ asentiert (z.B. durch deren Nummer). Jede Kugel werde jeweils mit derselben Wahrscheinlichkeit gezogen, d.h. als Ausgangspunkt wird ein Laplace-Modell gew¨ahlt. Im Folgenden werden insgesamt vier Urnenmodelle nach dem Ziehungsablauf und der Notation der Ziehung unterschieden: (i) Ziehungsablauf (a) Die gezogene Kugel wird nach Feststellung ihrer Nummer in die Urne zur¨ uckgelegt. (b) Die gezogene Kugel wird nach Feststellung ihrer Nummer nicht in die Urne zur¨ uckgelegt. (ii) Notation der Ziehung (a) Die Reihenfolge der Ziehungen wird ber¨ ucksichtigt. (b) Die Reihenfolge der Ziehungen wird nicht ber¨ ucksichtigt. F¨ ur die Urnenmodelle werden folgende Bezeichnungen verwendet. Ziehen von k Kugeln aus n Kugeln mit Ber¨ ucksichtigung der Reihenfolge ohne Ber¨ ucksichtigung der Reihenfolge
mit Zur¨ ucklegen
ohne Zur¨ ucklegen
(n,k)-Permutationen
(n,k)-Permutationen mit Wiederholung ohne Wiederholung (n,k)-Kombinationen (n,k)-Kombinationen mit Wiederholung ohne Wiederholung
Bezeichnung B 1.11 ((n,k)-Permutationen mit Wiederholung). Die Menge aller (n,k)-Permutationen mit Wiederholung ist die Menge aller Ergebnisse, die im Urnenmodell mit Zur¨ ucklegen und mit Ber¨ ucksichtigung der Reihenfolge auftreten k¨onnen (n Kugeln in der Urne, k Ziehungen). Ist Un = {1, . . . , n} die Menge der in der Urne enthaltenen Kugeln, so beschreibt ΩPmW = {(ω1 , . . . , ωk )|ωi ∈ Un , 1 i k}
die Menge aller (n,k)-Permutationen mit Wiederholung ¨uber Un . Ein Element (ω1 , . . . , ωk ) von ΩPmW heißt (n,k)-Permutation mit Wiederholung ¨ uber Un .
B 1 Grundlagen der Wahrscheinlichkeitsrechnung
159
Durch (ΩPmW , P) mit P(A) =
|A| |A| = k, |ΩPmW | n
A ⊆ ΩPmW ,
wird ein Laplace-Raum auf ΩPmW definiert. Die M¨achtigkeit von ΩPmW ist durch die Zahl · . . . · n = nk PermW (n,k) = |ΩPmW | = n
· n k−mal k
gegeben, d.h. es gibt n M¨oglichkeiten, k Kugeln aus einer Urne mit n Kugeln mit Zur¨ ucklegen und mit Beachtung der Zugreihenfolge zu entnehmen. Beispiel B 1.12. Eine Urne enth¨alt vier Kugeln, die mit 1, 2, 3 und 4 nummeriert sind. Drei Mal hintereinander wird aus dieser Urne eine Kugel entnommen, ihre Zahl notiert und danach wieder zur¨ uckgelegt. Gesucht ist die Anzahl der (4, 3)Permutationen mit Wiederholung. Dazu wird zun¨achst die Menge ΩPmW aller (4, 3)-Permutationen mit Wiederholung explizit angegeben: ΩPmW = {(1, 1, 1), (1, 1, 2), (1, 1, 3), (1, 1, 4), (1, 2, 1), (1, 2, 2), (1, 2, 3), (1, 2, 4), (1, 3, 1), (1, 3, 2), (1, 3, 3), (1, 3, 4), (1, 4, 1), (1, 4, 2), (1, 4, 3), (1, 4, 4), (2, 1, 1), (2, 1, 2), (2, 1, 3), (2, 1, 4), (2, 2, 1), (2, 2, 2), (2, 2, 3), (2, 2, 4), (2, 3, 1), (2, 3, 2), (2, 3, 3), (2, 3, 4), (2, 4, 1), (2, 4, 2), (2, 4, 3), (2, 4, 4), (3, 1, 1), (3, 1, 2), (3, 1, 3), (3, 1, 4), (3, 2, 1), (3, 2, 2), (3, 2, 3), (3, 2, 4), (3, 3, 1), (3, 3, 2), (3, 3, 3), (3, 3, 4), (3, 4, 1), (3, 4, 2), (3, 4, 3), (3, 4, 4), (4, 1, 1), (4, 1, 2), (4, 1, 3), (4, 1, 4), (4, 2, 1), (4, 2, 2), (4, 2, 3), (4, 2, 4), (4, 3, 1), (4, 3, 2), (4, 3, 3), (4, 3, 4), (4, 4, 1), (4, 4, 2), (4, 4, 3), (4, 4, 4)}.
Abz¨ahlen ergibt 64 verschiedene (4, 3)-Permutationen mit Wiederholung. Mit Anwendung der allgemeinen Formel berechnet sich die Anzahl der (4, 3)-Permutationen mit Wiederholung gem¨aß |ΩPmW | = 43 = 64.
Bezeichnung B 1.13 ((n,k)-Permutationen ohne Wiederholung). Die Menge aller (n,k)-Permutationen ohne Wiederholung ist die Menge aller Ergebnisse, die im Urnenmodell ohne Zur¨ ucklegen und mit Ber¨ ucksichtigung der Reihenfolge auftreten k¨onnen (n Kugeln in der Urne, k Ziehungen). Ist Un = {1, . . . ,n} die Menge der in der Urne enthaltenen Kugeln, so beschreibt ΩPoW = {(ω1 , . . . ,ωk )|ωi ∈ Un ,1 i k; ωi = ωj f¨ ur 1 i = j k}
die Menge aller (n,k)-Permutationen ohne Wiederholung ¨uber Un . Bei diesem Urnenmodell ist die Anzahl der Ziehungen k notwendig kleiner oder gleich der
160
B Wahrscheinlichkeitsrechnung
Anzahl n von Kugeln in der Urne, d.h. 1 k n. Ein Element von ΩPoW heißt (n,k)-Permutation ohne Wiederholung ¨ uber Un . Durch (ΩPoW , P) mit P(A) =
|A| = |ΩPoW |
|A| n! (n−k)!
=
(n − k)! |A|, n!
A ⊆ ΩPoW ,
wird ein Laplace-Raum auf ΩPoW definiert. Die M¨achtigkeit von ΩPoW ist durch die Zahl PeroW (n,k) = |ΩPoW | = n · (n − 1) · . . . · (n − k + 1) =
n! (n − k)!
n! gegeben, d.h. es gibt (n−k) oglichkeiten, k Kugeln aus einer Urne mit n Kugeln ! M¨ ohne Zur¨ ucklegen und mit Beachtung der Zugreihenfolge zu ziehen. Speziell f¨ur n = k gilt |ΩPoW | = n! und ΩPoW ist die Menge aller Permutationen der Zahlen von 1 bis n.
Beispiel B 1.14. Eine Urne enth¨alt vier Kugeln, die mit 1, 2, 3 und 4 nummeriert sind. Drei Mal hintereinander wird aus dieser Urne eine Kugel entnommen, ihre Zahl notiert und danach zur Seite gelegt. Es werden also 3-Tupel mit den Zahlen 1, 2, 3 und 4 notiert, wobei jede Zahl h¨ ochstens ein Mal vorkommen darf und die Zugreihenfolge ber¨ ucksichtigt wird. Gesucht ist die Anzahl der (4, 3)-Permutationen ohne Wiederholung. Dazu wird zun¨achst die Menge ΩPoW aller (4,3)-Permutationen ohne Wiederholung explizit angegeben: ΩPoW = {(1, 2, 3), (1, 2, 4), (1, 3, 2), (1, 3, 4), (1, 4, 2), (1, 4, 3), (2, 1, 3), (2, 1, 4), (2, 3, 1), (2, 3, 4), (2, 4, 1), (2, 4, 3), (3, 1, 2), (3, 1, 4), (3, 2, 1), (3, 2, 4), (3, 4, 1), (3, 4, 2), (4, 1, 2), (4, 1, 3), (4, 2, 1), (4, 2, 3), (4, 3, 1), (4, 3, 2)}.
Durch Abz¨ahlen erh¨alt man, dass es 24 verschiedene (4, 3)-Permutationen ohne Wiederholung gibt. Mit Anwendung der allgemeinen Formel berechnet sich die Anzahl der (4, 3)-Permutationen ohne Wiederholung gem¨aß |ΩPoW | =
4! = 24. (4 − 3)!
Bezeichnung B 1.15 ((n,k)-Kombinationen ohne Wiederholung). Die Menge aller (n,k)-Kombinationen ohne Wiederholung ist die Menge aller Ergebnisse, die im Urnenmodell ohne Zur¨ ucklegen und ohne Ber¨ucksichtigung der Reihenfolge auftreten k¨onnen (n Kugeln in der Urne, k Ziehungen). Ist die Menge der in der Urne enthaltenen Kugeln gegeben durch Un = {1, . . . ,n}, so beschreiben ΩKoW = {(ω1 , . . . ,ωk )|ωi ∈ Un , ω1 < · · · < ωk }
B 1 Grundlagen der Wahrscheinlichkeitsrechnung
161
oder alternativ ΩKoW = {A ⊆ Un ; |A| = k}
die Menge aller (n,k)-Kombinationen ohne Wiederholung ¨uber Un . Ein Element von ΩKoW heißt (n,k)-Kombination ohne Wiederholung ¨uber Un = {1, . . . ,n}. Da die Reihenfolge bei (n,k)-Kombinationen ohne Bedeutung ist, werden die Eintr¨age ωi des k-Tupels aufsteigend geordnet. Durch (ΩKoW , P) mit P(A) =
|A| |A| = n , |ΩKoW | k
A ⊆ ΩKoW ,
wird ein Laplace-Raum auf ΩKoW definiert. Die M¨achtigkeit von ΩKoW ist durch die Zahl n! n KomoW (n,k) = |ΩKoW | = = (n − k)! · k! k n gegeben, d.h. es gibt k M¨oglichkeiten, k Kugeln aus einer Urne mit n Kugeln ohne Zur¨ ucklegen und ohne Beachtung der Zugreihenfolge zu ziehen. Beispiel B 1.16. Eine Urne enth¨alt vier Kugeln, die mit 1, 2, 3 und 4 nummeriert sind. Drei Kugeln werden nacheinander der Urne entnommen, ohne dass eine zur¨ uckgelegt wird. Anschließend werden die Kugeln gem¨aß ihrer Nummer aufsteigend sortiert. Alternativ kann die Ziehung auch so durchgef¨ uhrt werden, dass die drei Kugeln auf einmal aus dieser Urne entnommen werden und die Zahlen aufsteigend notiert werden. Es werden also 3-Tupel mit den Zahlen 1, 2, 3 und 4 notiert, wobei jede Zahl h¨ ochstens ein Mal vorkommen darf und die Zugreihenfolge nicht ber¨ ucksichtigt wird. Gesucht ist die Anzahl der (4, 3)-Kombinationen ohne Wiederholung. Dazu wird zun¨achst die Menge ΩKoW aller (4, 3)-Kombinationen ohne Wiederholung explizit angegeben: ΩKoW = {(1, 2, 3), (1, 2, 4), (1, 3, 4), (2, 3, 4)}.
Es gibt also vier verschiedene (4, 3)-Kombinationen ohne Wiederholung. Mit Anwendung der allgemeinen Formel berechnet sich die Anzahl der (4, 3)-Kombinationen ohne Wiederholung gem¨aß 4 24 4! = 4. |ΩKoW | = = = 3 3! · (4 − 3)! 6 Das folgende, vierte Grundmodell der Kombinatorik f¨ uhrt nicht auf einen LaplaceRaum.
162
B Wahrscheinlichkeitsrechnung
Bezeichnung B 1.17 ((n,k)-Kombinationen mit Wiederholung). Die Menge aller (n,k)-Kombinationen mit Wiederholung ist die Menge aller Ergebnisse, die im Urnenmodell mit Zur¨ ucklegen und ohne Ber¨ ucksichtigung der Reihenfolge auftreten k¨onnen (n Kugeln in der Urne, k Ziehungen). Ist die Menge der in der Urne enthaltenen Kugeln gegeben durch Un = {1, . . . , n}, so beschreibt ΩKmW = {(ω1 , . . . ,ωk )|ωi ∈ Un , ω1 · · · ωk }
die Menge aller (n,k)-Kombinationen mit Wiederholung ¨uber Un . Ein Element von ΩKmW heißt (n,k)-Kombination mit Wiederholung ¨uber Un = {1, . . . , n}. Da die Reihenfolge bei (n,k)-Kombinationen ohne Bedeutung ist, werden die Eintr¨age ωi des n-Tupels aufsteigend geordnet. Hierbei ist zu beachten, dass Eintr¨age mehrfach auftreten k¨onnen. Die M¨achtigkeit von ΩKmW ist durch die Zahl n+k−1 KommW (n,k) = = k M¨oglichkeiten, k gegeben, d.h. es gibt n+k−1 k Kugeln mit Zur¨ ucklegen und ohne Beachtung der
(n + k − 1)! (n − 1)! · k!
Kugeln aus einer Urne mit n Zugreihenfolge zu ziehen.
Dieses Urnenmodell kann nicht zur Definition eines Laplace-Raums verwendet werden. Dies wird mittels eines Gegenbeispiels nachgewiesen. Beispiel B 1.18. Aus einer Urne mit n = 4 Kugeln wird k = 4 mal gezogen. Dem Ereignis A = {(1, 1, 1, 1)} in der Menge der (4, 4)-Kombinationen mit Wiederholung entspricht in der Menge der (4, 4)-Permutationen mit Wiederholung nur das Tupel (1, 1, 1, 1). Dem Ereignis B = {(1, 2, 3, 4)} entsprechen jedoch 4! = 24 (4, 4)Permutationen mit Wiederholung, z.B. (1, 2, 3, 4), (2, 1, 3, 4), (4, 2, 3, 1), etc. Also ur die Ereignisse A und B ergibt sich im Laplace-Raum (ΩPmW , P) f¨ PPmW (A) =
1 4! = 4 = PPmW (B). 4 4 4
Eine Laplace-Annahme auf der Grundmenge ΩKmW w¨ urde den Ereignissen A und B jedoch dieselbe Wahrscheinlichkeit zuordnen, so dass diese Festlegung dem Modell (ΩPmW ,P) widersprechen w¨ urde. Daher eignet sich der Raum ΩKmW nicht zur Definition eines Laplace-Raums. Beispiel B 1.19. Eine Urne enth¨alt vier Kugeln, die mit 1, 2, 3 und 4 nummeriert sind. Drei Mal wird aus dieser Urne eine Kugel entnommen, ihre Zahl notiert und danach wieder zur¨ uckgelegt. Da die Reihenfolge der gezogenen Zahlen keine Rolle spielen soll, werden sie aufsteigend geordnet. Es werden also aufsteigend geordnete 3-Tupel mit den Zahlen 1, 2, 3 und 4 notiert, wobei jede Zahl auch mehrmals auftreten kann. Gesucht ist die Anzahl der (4, 3)-Kombinationen mit Wiederholung.
B 1 Grundlagen der Wahrscheinlichkeitsrechnung
163
Dazu wird zun¨achst die Menge ΩKmW aller (4, 3)-Kombinationen mit Wiederholung explizit angegeben: ΩKmW = {(1, 1, 1), (1, 1, 2), (1, 1, 3), (1, 1, 4), (1, 2, 2), (1, 2, 3), (1, 2, 4), (1, 3, 3), (1, 3, 4), (1, 4, 4), (2, 2, 2), (2, 2, 3), (2, 2, 4), (2, 3, 3), (2, 3, 4), (2, 4, 4), (3, 3, 3), (3, 3, 4), (3, 4, 4), (4, 4, 4)}.
Durch Abz¨ahlen erh¨alt man, dass es 20 verschiedene (4, 3)-Kombinationen mit Wiederholung gibt. Durch Anwendung der allgemeinen Formel berechnet sich die Anzahl der (4, 3)-Kombinationen mit Wiederholung gem¨aß 720 4+3−1 6 6! = 20. |ΩKmW | = = = = 3! · (6 − 3)! 36 3 3 Bemerkung B 1.20 (Murmelmodelle). Alternativ zu den Urnenmodellen k¨onnen zur Veranschaulichung der Grundmodelle der Kombinatorik auch Murmelmodel” le“ verwendet werden. Anstelle von n Urnen und k Ziehungen werden dabei n Zellen betrachtet, auf die k Murmeln verteilt werden. Wie in den Urnenmodellen werden vier Situationen unterschieden: (i) Belegungsmodus (a) Es ist m¨ oglich, eine Zelle mit mehreren Murmeln zu belegen. (b) Jede Zelle darf nur mit einer Murmel belegt werden. (ii) Notation der Murmeln (a) Die Murmeln sind nummeriert und unterscheidbar. (b) Die Murmeln sind nicht unterscheidbar. Man erh¨alt dann das folgende Diagramm der Entsprechungen (vgl. Krengel, 2005): k-mal Ziehen aus n Kugeln
Permutation mit Reihenfolge Kombination ohne Reihenfolge
mit Zur¨ ucklegen
ohne Zur¨ ucklegen
|ΩPmW | = nk
|ΩPoW | =
s. Bez. B 1.11
s. Bez. B 1.13
|ΩKmW | =
|ΩKoW | =
n+k−1 k
n! (n−k)!
n k
s. Bez. B 1.17
s. Bez. B 1.15
mit Mehrfachbelegung
ohne Mehrfachbelegung
unterscheidbare Murmeln nicht unterscheidbare Murmeln k Murmeln auf n Zellen verteilen
164
B Wahrscheinlichkeitsrechnung
B 2 Diskrete Wahrscheinlichkeitsverteilungen Eine Vielzahl diskreter Wahrscheinlichkeitsverteilungen wird in Anwendungen eingesetzt. Zur Festlegung der Verteilung wird jedem Element einer Menge von Tr¨agerpunkten T = {x1 , x2 , . . . } eine Wahrscheinlichkeit pk = P({xk }) ∈ (0, 1], k = 1, 2, . . . zugeordnet, wobei die Zahlen pk die Summationsbedingung pk = 1 k
erf¨ ullen m¨ ussen. F¨ ur x ∈ Ω \ T gilt stets p(x) = 0. In diesem Abschnitt sind einige wichtige diskrete Wahrscheinlichkeitsverteilungen zusammengestellt. Die einfachste diskrete Wahrscheinlichkeitsverteilung konzentriert die Wahrscheinlichkeitsmasse in einem Punkt. Bezeichnung B 2.1 (Einpunktverteilung). Die Einpunktverteilung δx in einem Punkt x ∈ R ist definiert durch die Z¨ahldichte p(x) = 1,
d.h. die Einpunktverteilung (oder Dirac-Verteilung oder Punktmaß) hat den Tr¨ager T = {x}. Bezeichnung B 2.2 (Diskrete Gleichverteilung). Die diskrete Gleichverteilung auf den Punkten x1 < · · · < xn ist definiert durch die Z¨ahldichte p(xk ) = pk =
1 , n
k ∈ {1, . . . ,n}, f¨ ur ein n ∈ N,
d.h. jedem der n Tr¨agerpunkte wird dieselbe Wahrscheinlichkeit zugeordnet. Bezeichnung B 2.3 (Hypergeometrische Verteilung). Die hypergeometrische Verteilung hyp(n,r,s) ist definiert durch die Z¨ahldichte r s n−k pk = kr+s , n − s k min(r, n), k ∈ N0 , n
f¨ ur n, r, s ∈ N mit s n r + s. In einem Urnenmodell wird pk erzeugt als die Wahrscheinlichkeit, beim n-maligen Ziehen ohne Zur¨ ucklegen aus einer Urne mit insgesamt r roten und s schwarzen Kugeln genau k rote und n − k schwarze Kugeln zu erhalten. Anwendung findet die hypergeometrische Verteilung z.B. bei der sogenannten Gut-Schlecht-Pr¨ ufung im Rahmen der Qualit¨atskontrolle durch eine Warenstichprobe. Einer Lieferung von r + s Teilen, die r defekte und s intakte Teile enth¨alt, ucklegen) entnommen; pk ist dann wird eine Stichprobe vom Umfang n (ohne Zur¨ die Wahrscheinlichkeit, dass genau k defekte Teile in der Stichprobe enthalten sind. Mit einer analogen Argumentation ist die Wahrscheinlichkeit f¨ ur 4 Richti” (64)(43 2) ge“ beim Zahlenlotto 6 aus 49“ durch p4 = 49 gegeben. (6) ”
B 2 Diskrete Wahrscheinlichkeitsverteilungen
165
Bezeichnung B 2.4 (Binomialverteilung). Die Binomialverteilung bin(n, p) ist definiert durch die Z¨ahldichte n k pk = p (1 − p)n−k , 0 k n, k ∈ N0 , k f¨ur n ∈ N und den Parameter p ∈ (0, 1). Eine zur hypergeometrische Verteilung analoge Interpretation der obigen Wahrscheinlichkeiten ist ¨ uber ein Urnenmodell m¨ oglich, wenn die Stichprobe mit r Zur¨ ucklegen (statt ohne Zur¨ ucklegen) gewonnen wird und p = r+s den Anteil defekter Teile in der Lieferung bezeichnet. Enth¨alt also eine Produktion den Anur genau k defekte Teile in teil p defekter Teile, so ist pk die Wahrscheinlichkeit f¨ einer Stichprobe vom Umfang n. Bezeichnung B 2.5 (Poisson-Verteilung). Die Poisson-Verteilung po(λ) ist definiert durch die Z¨ahldichte λk −λ e , k ∈ N0 , pk = k! f¨ur einen Parameter λ > 0. Sie wird auch als Gesetz der seltenen Ereignisse bezeichnet, da bereits f¨ ur relativ kleine k die Wahrscheinlichkeit pk sehr klein ” ist“. Die Wahrscheinlichkeitsmasse ist nahezu konzentriert auf den ersten Werten von N0 . Bezeichnung B 2.6 (Geometrische Verteilung). Die geometrische Verteilung geo(p) ist definiert durch die Z¨ahldichte pk = p(1 − p)k ,
k ∈ N0 ,
f¨ur einen Parameter p ∈ (0, 1). Die bisher eingef¨ uhrten Wahrscheinlichkeitsverteilungen waren eindimensional, d.h. das Argument in pk = p(k) oder pk = p(xk ) ist ein Element der reellen Zahlen R. Die Polynomialverteilung ist ein Beispiel f¨ ur eine multivariate diskrete Wahrscheinlichkeitsverteilung. Bezeichnung B 2.7 (Polynomialverteilung). Die Polynomialverteilung (oder Multinomialverteilung) pol(n, p1 , . . . , pm ) ist definiert durch die Z¨ahldichte m n k p(k1 , k2 , . . . , km ) = pj j , k1 ,k2 , . . . ,km j=1 ⎧ ⎫ m ⎨ ⎬ m (k1 , k2 , . . . , km ) ∈ (i1 , . . . ,im ) ∈ N0 ij = n , ⎩ ⎭ j=1
m f¨ur ein n ∈ N und die Parameter pj ∈ (0,1), 1 j m, mit pj = 1. Dabei j=1 ! ist k1 ,k2n,...,km = k1 !k2 n !·...·km ! der sogenannte Polynomialkoeffizient.
F¨ ur m = 2 und mit den Setzungen p1 = p, p2 = 1 − p, k1 = k und k2 = n − k f¨ uhrt die Polynomialverteilung auf die Binomialverteilung.
166
B Wahrscheinlichkeitsrechnung
B 3 Wahrscheinlichkeitsmaße mit Riemann-Dichten Diskrete Wahrscheinlichkeitsmaße werden ¨ uber Z¨ahldichten eingef¨ uhrt, die Punkten einer (h¨ ochstens) abz¨ahlbaren Menge Wahrscheinlichkeiten zuweisen. In der Praxis ben¨ otigt man insbesondere Modelle, in denen reelle Zahlen zur Beschreibung eines Versuchsergebnisses verwendet werden (etwa die reellen Zahlen im Intervall [0, 1] zur Beschreibung einer prozentualen Steigerung). Aus mathematischer Sicht besteht der qualitative Unterschied darin, dass statt abz¨ahlbarer Grundr¨aume nun Mengen mit ¨ uberabz¨ahlbar vielen Elementen betrachtet werden. Hier muss eine andere Vorgehensweise zur Definition einer Wahrscheinlichkeitsverteilung gew¨ahlt werden. Nicht mehr jedem Punkt, sondern jedem Intervall wird eine Wahrscheinlichkeit zugewiesen. uberabz¨ahlbare Teilmenge der reellen Zahlen, dann muss Ist der Grundraum Ω eine ¨ aus mathematischen Gr¨ unden auch die Potenzmenge als Vorrat“ von Ereignissen ” durch ein anderes Mengensystem ersetzt werden; die geeignete Struktur ist die sogenannte σ-Algebra. Definition B 3.1 (σ-Algebra). Seien Ω = ∅ und A ⊆ Pot(Ω) ein System von Teilmengen von Ω. A heißt σ-Algebra von Ereignissen u ¨ber Ω, falls gilt: (i) Ω ∈ A, ur jedes A ∈ A, (ii) A ∈ A =⇒ Ac ∈ A f¨ (iii) f¨ ur jede Folge A1 , A2 , . . . von Mengen aus A gilt:
∞
An ∈ A .
n=1
Eine σ-Algebra ist ein System von Teilmengen von Ω, das abgeschlossen ist gegen¨ uber der Bildung von Komplementen und abz¨ahlbaren Vereinigungen. Als Elementarereignis bezeichnet man in diesem Zusammenhang eine Menge aus A, die keine echte Vereinigung anderer Ereignisse (Mengen aus A) ist. Aus der Definition ur jede Folge A1 , A2 , . . . von Meneiner σ-Algebra folgt sofort, dass ∅ ∈ A und f¨ ∞ gen aus A gilt: An ∈ A. Die Potenzmenge Pot(Ω) einer nicht-leeren Menge n=1
Ω ist stets eine σ-Algebra. Basierend auf einer σ-Algebra wird der Begriff eines
allgemeinen Wahrscheinlichkeitsraums eingef¨ uhrt. Definition B 3.2 (Kolmogorov-Axiome, Wahrscheinlichkeitsraum). Sei A eine σAlgebra ¨ uber Ω = ∅. Eine Abbildung P : A → [0, 1] mit (i) P(A) 0 ∀ A ∈ A, (ii) P(Ω) = 1 und ∞ ∞ (iii) P An = P(An ) f¨ ur jede Wahl paarweise disjunkter Mengen aus A n=1
n=1
(σ-Additivit¨at) heißt Wahrscheinlichkeitsverteilung oder Wahrscheinlichkeitsmaß auf Ω bzw. (Ω, A). (Ω, A, P) heißt Wahrscheinlichkeitsraum, (Ω, A) heißt messbarer Raum oder Messraum.
B 3 Wahrscheinlichkeitsmaße mit Riemann-Dichten
167
Diese Definition ist konsistent mit der Definition B 1.4 eines diskreten Wahrscheinlichkeitsraums wie Eigenschaft B 1.5 zeigt. Bezeichnung B 3.3 (Borelsche σ-Algebra). Werden Intervalle [a, b] oder (a, b) (auch [0, ∞), R) als Grundraum Ω ⊆ R in einem Modell angesetzt, so w¨ahlt man jeweils die kleinstm¨ogliche σ-Algebra, die alle Teilmengen (c, d] ⊆ [a, b] enth¨alt. Diese σ-Algebra bezeichnet man als Borelsche σ-Algebra B1 ¨uber [a, b] bzw. (a, b); sie ist eine echte Teilmenge der Potenzmenge von [a, b] bzw. (a, b). Analog geht man in h¨oheren Dimensionen vor. F¨ ur Ω = Rn w¨ahlt man als Menge von Ereignissen die Borelsche σ-Algebra Bn , die als kleinstm¨ ogliche σ-Algebra definiert ist mit der Eigenschaft, alle ndimensionalen Intervalle (a, b] = {x = (x1 , . . . , xn ) ∈ Rn |ai < xi bi , 1 i n}
f¨ ur a = (a1 , . . . , an ) ∈ R und b = (b1 , . . . , bn ) ∈ Rn zu enthalten.
⊆ Rn , so ist die geeignete Borelsche σBetrachtet man einen Grundraum Ω
n = {B ∩ Ω|B
∈ Bn } (die sogenannte Spur-σ-Algebra). Algebra gegeben durch B Zun¨achst wird nur der Fall n = 1 betrachtet, d.h. es wird ein Grundraum Ω ⊆ R1 zugrunde gelegt. Insbesondere sei angenommen, dass Ω ein Intervall ist. Bezeichnung B 3.4 (Riemann-Dichte, Verteilungsfunktion). Eine integrierbare ∞ Funktion f : R → R mit f(x) 0, x ∈ R, und f(x) dx = 1 heißt Riemann−∞
Dichte oder Riemann-Dichtefunktion (kurz: Dichte oder Dichtefunktion). ¨ Uber die Festlegung von Wahrscheinlichkeiten mittels x F(x) = P((−∞, x]) =
f(y) dy,
x ∈ R,
−∞
wird stets eindeutig ein Wahrscheinlichkeitsmaß definiert; die Funktion F : R →
[0, 1] wird als Verteilungsfunktion bezeichnet.
Die Wahrscheinlichkeit f¨ ur ein Intervall (a, b] ⊆ Ω ist dann gegeben durch b P((a, b]) = f(x) dx. a
Mit dieser Setzung ist klar, dass einem einzelnen Punkt (im Gegensatz zu diskreten Wahrscheinlichkeitsmaßen) stets die Wahrscheinlichkeit 0 zugewiesen wird: P({x}) = 0 f¨ ur alle x ∈ Ω. Das hat auch zur Konsequenz, dass alle Intervalle mit Grenzen a, b ∈ Ω, a < b, dieselbe Wahrscheinlichkeit haben:
168
B Wahrscheinlichkeitsrechnung
P((a, b)) = P([a, b]) = P((a, b]) = P([a, b)).
In diesem Skript werden nur diskrete Wahrscheinlichkeitsverteilungen und solche mit Riemann-Dichten behandelt. F¨ ur allgemeinere Modelle werden weitere mathematische Grundlagen ben¨ otigt. Hier sei auf weiterf¨ uhrende Literatur zur Stochastik verwiesen (s. z.B. Bauer, 2002). Im Folgenden werden wichtige Wahrscheinlichkeitsverteilungen mit RiemannDichten vorgestellt, die abk¨ urzend auch als stetige Wahrscheinlichkeitsverteilungen bezeichnet werden. Bemerkung B 3.5. Im weiteren Verlauf kann stets davon ausgegangen werden, dass Ω = R gilt. Ist Ω R, so kann das Modell auf R erweitert werden, indem die Riemann-Dichte f¨ ur x ∈ R \ Ω zu Null definiert wird. Bezeichnung B 3.6 (Rechteckverteilung). Die Rechteckverteilung (oder stetige Gleichverteilung) R(a, b) ist definiert durch die Dichtefunktion 1 , x ∈ [a, b] 1 f(x) = 1I[a,b] (x) = b−a b−a 0, x∈ / [a, b] f¨ ur Parameter a, b ∈ R mit a < b. Die Verteilungsfunktion ist gegeben durch ⎧ x
b Die Rechteckverteilung R(a, b) besitzt die Eigenschaft, dass die Wahrscheinlichkeit eines in [a, b] enthaltenen Intervalls nur von der L¨ange des Intervalls, nicht aber von dessen Lage abh¨angt. Bezeichnung B 3.7 (Exponentialverteilung). Die Exponentialverteilung Exp(λ) ist definiert durch die Dichtefunktion λe−λx , x > 0 −λx f(x) = λe 1I(0,∞) (x) = 0, x0 f¨ ur einen Parameter λ > 0. Die Verteilungsfunktion ist gegeben durch 1 − e−λx , F(x) = 0,
x>0 x0
.
B 3 Wahrscheinlichkeitsmaße mit Riemann-Dichten
169
Die Exponentialverteilung wird vielf¨altig und sehr h¨aufig in stochastischen Modellen verwendet (etwa in der Beschreibung von Wartezeiten oder Lebensdauern). Gelegentlich wird eine Parametrisierung Exp(θ−1 ) mit θ > 0 gew¨ahlt, so dass z.B. 1 − e−x/θ , x > 0 F(x) = 0, x0 gilt. Die beiden n¨achsten Verteilungen sind Verallgemeinerungen der Exponentialverteilung und k¨ onnen aufgrund ihrer gr¨ oßeren Parameterzahl reale Gegebenheiten oft besser modellieren. Sie werden h¨aufig in technischen Anwendungen verwendet. Bezeichnung B 3.8 (Weibull-Verteilung). Die Weibull-Verteilung Wei(α, β) ist definiert durch die Dichtefunktion β αβxβ−1 e−αx , x > 0 f(x) = 0, x0 f¨ur Parameter α > 0 und β > 0. Die Verteilungsfunktion ist gegeben durch β 1 − e−αx , F(x) = 0,
x>0 x0
.
Bezeichnung B 3.9 (Gammaverteilung). Die Gammaverteilung Γ (α, β) ist definiert durch die Dichtefunktion β α xβ−1 e−αx , x > 0 f(x) = Γ (β) 0, x0 f¨ur Parameter α > 0 und β > 0. Dabei bezeichnet Γ (·) die durch Γ (z) = ∞ z−1 −t t e dt, z > 0, definierte Gammafunktion. 0
Eine geschlossene Darstellung der Verteilungsfunktion existiert nur f¨ur β ∈ N; die Verteilung wird dann auch als Erlang-Verteilung Erl(β) bezeichnet. F¨ur β ∈ N ist die Verteilungsfunktion gegeben durch ⎧ β−1 ⎪ ⎨1 − e−αx (αx)j , x > 0 j! F(x) = . j=0 ⎪ ⎩ 0, x0 F¨ur α = λ und β = 1 ergibt sich die Exponentialverteilung. Die n¨achste Verteilung hat als eine spezielle Gammaverteilung eine besondere Bedeutung in der Schließenden Statistik.
170
B Wahrscheinlichkeitsrechnung
Bezeichnung B 3.10 (χ2 -Verteilung). Die χ2 -Verteilung χ2 (n) mit n Freiheitsgraden ist definiert durch die Dichtefunktion 1 xn/2−1 e−x/2 , x > 0 n/2 f(x) = 2 Γ (n/2) 0, x0 mit n ∈ N. Sie stimmt mit der Γ ( 21 , n2 )-Verteilung ¨uberein. Neben der Rechteckverteilung ist eine zweite Verteilung u ¨ber einem endlichen Intervall von Bedeutung. Bezeichnung B 3.11 (Betaverteilung). Die Betaverteilung beta(α, β) ist definiert durch die Dichtefunktion Γ (α+β) xα−1 (1 − x)β−1 , x ∈ (0,1) f(x) = Γ (α) Γ (β) 0, x∈ / (0,1) f¨ ur Parameter α > 0 und β > 0. Die Verteilungsfunktion ist im Allgemeinen nicht geschlossen darstellbar. Die speziellen Betaverteilungen beta(α, 1) heißen auch Potenzverteilungen und besitzen die Verteilungsfunktion ⎧ x<0 ⎪ ⎨0, α F(x) = x , 0 x < 1 . ⎪ ⎩ 1, x1 Die Rechteckverteilung R(0, 1) ist ein Spezialfall mit α = 1. In ¨ okonomischen Anwendungen finden Pareto-Verteilungen Verwendung. Bezeichnung B 3.12 (Pareto-Verteilung). Die Pareto-Verteilung Par(α) ist definiert durch die Dichtefunktion α x1 α+1 , f(x) = x 0, x<1 f¨ ur einen Parameter α > 0. Die Verteilungsfunktion ist gegeben durch 1 − x−α , F(x) = 0,
x1 x<1
.
Die in der Stochastik wichtigste Verteilung ist die Normalverteilung, die auch in Kapitel D eine zentrale Rolle spielt.
B 3 Wahrscheinlichkeitsmaße mit Riemann-Dichten
171
Bezeichnung B 3.13 (Normalverteilung). Die Normalverteilung N(μ, σ2 ) ist definiert durch die Dichtefunktion (x − μ)2 1 , x ∈ R, f(x) = √ exp − 2σ2 2π σ mit den Parametern μ ∈ R und σ > 0. Die Verteilungsfunktion ist nicht geschlossen darstellbar. Speziell f¨ ur μ = 0 und σ2 = 1 heißt N(0, 1) Standardnormalverteilung; die zugeh¨orige Verteilungsfunktion wird mit Φ bezeichnet. Die Verteilungsfunktion Φμ,σ2 von N(μ, σ2 ) l¨ asst sich durch die Identit¨at x−μ , x∈R Φμ,σ2 (x) = Φ σ darstellen. Die Dichtefunktion einer N(0, 1)-Verteilung wird meist mit ϕ bezeichnet. Da ϕ achsensymmetrisch ist, d.h. ϕ(x) = ϕ(−x), x ∈ R, gilt die Identit¨at: Φ(x) = 1 − Φ(−x),
x ∈ R.
(B.1)
Schließlich werden noch zwei weitere Verteilungen mit Riemann-Dichten eingef¨ uhrt, die in der Schließenden Statistik verwendet werden. Bezeichnung B 3.14 (t-Verteilung). Die t-Verteilung t(n) mit n Freiheitsgraden ist definiert durch die Dichtefunktion −(n+1)/2 Γ n+1 x2 2 1+ f(x) = √ , x ∈ R, n nπ Γ ( n 2) mit n ∈ N. Die Verteilungsfunktion ist nicht geschlossen darstellbar. Bezeichnung B 3.15 (F-Verteilung). Die F-Verteilung F(n, m) mit n und m Freiheitsgraden ist definiert durch die Dichtefunktion ⎧ Γ ( n+m ) n/2 n xn/2−1 ⎨ Γ ( n ) Γ2( m ) m x>0 n+m , n 2 2 2 1+ ( f(x) = m x) ⎩ 0, x0 mit n ∈ N und m ∈ N. Die Verteilungsfunktion ist nicht geschlossen darstellbar. Bezeichnung B 3.16 (Tr¨ager). Sei f eine Riemann-Dichtefunktion. Das gr¨oßtur alle x ∈ I gilt, heißt Tr¨ager der zum¨ogliche Intervall I, auf dem f(x) > 0 f¨ geh¨origen Verteilung (oder von f bzw. der zugeh¨origen Verteilungsfunktion). Grunds¨atzlich k¨ onnen Verteilungen durch eine Lage-/Skalentransformation modifiziert und m¨ oglicherweise um neue Parameter erg¨anzt werden, um bessere Modellanpassungen zu erreichen. Dazu betrachtet man zu einer Verteilungsfunktion F die neue Verteilungsfunktion
F(x) = F(bx−a) mit Parametern b > 0 und a ∈ R. a
das Tr¨ wird als Lageparameter, b als Skalenparameter bezeichnet. Ist (
α, ω) ager
!+a α+a ω
das Tr¨agerintervall von F. intervall von F, so ist b , b
172
B Wahrscheinlichkeitsrechnung
Beispiel B 3.17. Die obige Transformation f¨ uhrt bei einer (i) Betaverteilung zum neuen Tr¨agerintervall ab , a+1 , so dass beliebige endlib che Intervalle als Tr¨ager gew¨ahlt werden k¨ onnen. Die neue Dichtefunktion f
entsteht mit f aus Bezeichnung B 3.11 durch
= b f(bx − a), x ∈ R. f(x) (ii) Exponentialverteilung zum neuen Tr¨agerintervall ab , ∞ und der neuen Dichtefunktion f gegeben durch λbe−λbx+λa , x > a b
, f(x) = bf(bx − a) = 0, x a b
= λb und a
= a Mit den Setzungen b gilt b
a)
−b(x−
, x>a
= be , f(x)
0, xa
und es resultiert eine zweiparametrige Exponentialverteilung mit dem Lage . Der Skalenparameter λ ist mit dem neu eingef¨ parameter a uhrten Skalenpa
verschmolzen“. Als Bezeichnung wird die Notation Exp(
a, b) rameter b zu b ” verwendet.
B 4 Eigenschaften von Wahrscheinlichkeitsmaßen Aus der Definition eines Wahrscheinlichkeitsmaßes folgen wichtige Eigenschaften f¨ ur das Rechnen mit Wahrscheinlichkeiten. Diese Regeln basieren nur auf den Kolmogorov-Axiomen und gelten damit in allgemeinen Wahrscheinlichkeitsr¨aumen, insbesondere also f¨ ur diskrete und stetige Wahrscheinlichkeitsverteilungen, die u uhrt werden. In diesem Abschnitt ¨ber Z¨ahldichten bzw. Riemann-Dichten eingef¨ sei (Ω, A, P) ein allgemeiner Wahrscheinlichkeitsraum (s. Definition B 3.2). Lemma B 4.1. Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. F¨ur A, B ∈ A gilt: (i) P(A ∪ B) = P(A) + P(B), falls A ∩ B = ∅, (ii) P(B \ A) = P(B) − P(A), falls A ⊆ B (Subtraktivit¨at von P), (iii) P(Ac ) = 1 − P(A), (iv) A ⊆ B =⇒ P(A) P(B) (Monotonie von P), (v) P(A ∪ B) = P(A) + P(B) − P(A ∩ B), n n P(Ai ), A1 , . . . , An ∈ A (Subadditivit¨ at), (vi) P( Ai ) (vii) P(
i=1 ∞ i=1
Ai )
i=1 ∞ i=1
P(Ai ),
A1 , A2 , . . . ∈ A (Sub-σ-Additivit¨ at).
B 4 Eigenschaften von Wahrscheinlichkeitsmaßen
173
at mit der Setzung A1 = A, A2 = B und Aj = ∅, Beweis. (i) Folgt aus der σ-Additivit¨ j 3. (ii) F¨ ur A ⊆ B ist A ∩ B = A. Weiter ist B \ A = B ∩ Ac . Aus der Disjunktheit von A = A ∩ B und B ∩ Ac folgt: P(B) = P(B ∩ Ω) = P(B ∩ (A ∪ Ac )) = P((B ∩ A) ∪(B ∩ Ac ))
=A
= P(A) + P(B ∩ Ac ) = P(A) + P(B \ A).
(iii) Ergibt sich aus (ii) mit B = Ω. (iv) Mit A ⊆ B gilt wegen (ii): P(A) = P(B) − P(B \ A) P(B). (v) Wegen (i) gilt (vgl. auch Beweis von (ii)): P(Ac ∩ B) + P(A ∩ B) = P(B) und P(Bc ∩ A) + P(A ∩ B) = P(A).
Da A ∪ B = (A ∩ Bc ) ∪ (A ∩ B) ∪ (Ac ∩ B) Vereinigung paarweise disjunkter Mengen ist, folgt P(A ∪ B) = P(A ∩ Bc ) + P(A ∩ B) + P(Ac ∩ B) = P(A) − P(A ∩ B) + P(A ∩ B) + P(B) − P(A ∩ B) = P(A) + P(B) − P(A ∩ B).
(vi) Zum Nachweis der Eigenschaft spaltet man das Vereinigungsereignis disjunkt auf und nutzt die Additivit¨ at von P. Es ist n
Ai = A1 ∪
(Ac1
i=1
= A1 ∪
∩ A2 ) ∪
n
i−1 "
i=2
j=1
(Ac1
∩
n−1 "
Acj
∩ An
j=1
∩ Ai
Acj
∩ A3 ) ∪ · · · ∪
Ac2
,
so dass P
n
Ai
= P(A1 ) +
i=1
n
P
i=2
i−1 "
j=1
∩ Ai
Acj
P(Ai ) (iv)
P(A1 ) +
n i=2
P(Ai ) =
n
P(Ai ).
i=1
In stochastischen Modellen ben¨ otigt man h¨aufig Folgen von Ereignissen und deren Eigenschaften. Definition B 4.2 (Ereignisfolgen, limes superior, limes inferior). Seien A eine σAlgebra ¨ uber Ω = ∅ und (An )n∈N ⊆ A. isoton (monoton wachsend), falls An ⊆ An+1 ∀n ∈ N . (An )n heißt antiton (monoton fallend), falls An ⊇ An+1 ∀n ∈ N
174
B Wahrscheinlichkeitsrechnung
F¨ ur isotone bzw. antitone Ereignisfolgen heißt jeweils ∞
lim An =
n→∞
An bzw. lim An = n→∞
n=1
∞ "
An
n=1
der Grenzwert (Limes) von (An )n∈N . F¨ ur eine beliebige Ereignisfolge (An )n heißen ∞ ∞ ∞ " lim sup An = lim Ak = Ak n→∞
n→∞
k=n
n=1 k=n
der limes superior und
lim inf An = lim n→∞
n→∞
∞ "
Ak
k=n
=
∞ ∞ "
Ak
n=1 k=n
der limes inferior der Folge (An )n∈N . Bemerkung B 4.3. Mit (An )n ⊆ A sind der limes superior und der limes inferior selbst wieder Ereignisse aus A, d.h. lim sup An ∈ A, lim inf An ∈ A, n→∞
n→∞
und es gilt lim sup An = {ω ∈ Ω|ω liegt in unendlich vielen der Ai }, n→∞
lim inf An = {ω ∈ Ω|ω liegt in allen Ai bis auf endlich viele}. n→∞
Der limes superior beschreibt also das Ereignis, dass unendlich viele der Ai ’s eintreten, der limes inferior das Ereignis, dass alle bis auf endlich viele der Ai ’s eintreten. F¨ ur Ereignisfolgen erh¨alt man folgende Eigenschaften. Lemma B 4.4. Seien (Ω,A,P) ein Wahrscheinlichkeitsraum und (An )n ⊆ A. Dann gilt: ∞ (i) P An = P( lim An ) = lim P(An ), falls die Ereignisfolge (An )n ison=1
n→∞
n→∞
ton ist (Stetigkeit von P von unten), ∞ An = P( lim An ) = lim P(An ), falls (An )n antiton ist (Stetigkeit (ii) P n=1
n→∞
n→∞
von P von oben), ∞ (iii) P lim sup An = lim P Ak , n→∞ n→∞ k=n ∞ P lim inf An = lim P Ak . n→∞
n→∞
k=n
B 4 Eigenschaften von Wahrscheinlichkeitsmaßen
A1
A2
175
A3
Abb. B 4.1. Darstellung einer isotonen Mengenfolge A1 , A2 , . . .. Beweis. (i) Seien B1 = A1 , Bn+1 = An+1 ∩ Acn und An ⊆ An+1 , n ∈ N (s. Abbildung B 4.1). Damit sind die Mengen B1 , B2 , . . . paarweise disjunkt, und es gilt ∞
Bn = B1 ∪
n=1
∞
∞ (An ∩ Acn−1 ) ⊆ An .
n=1 n=2
⊆An
Weiterhin: ω∈
∞
An =⇒ ∃i : ω ∈ Ai ∧ ω ∈ / Aj
∀j < i
=⇒ ω ∈ Bi
=⇒ ω ∈
n=1
∞
Bn ,
n=1
d.h. jedes ω ∈
∞ n= 1
∞
An ist auch Element von
∞
Bn . Also folgt
n=1
∞
Bn =
n=1
An .
n=1
Damit gilt unter Anwendung der σ-Additivit¨ at von P: P
∞
=P
An
n=1
∞
∞
σ-Add.
=
Bn
n=1 A1 =B1
=
P(Bn )
n=1
P(A1 ) +
= P(A1 ) + lim
∞
P(Bn )
n=2 m
m→∞
n=1
P(Bn+1 )
=P(An+1 )−P(An )
= P(A1 ) + lim (P(Am+1 − P(A1 )) = lim P(Am ). m→∞
m→∞
∞
(ii) Mit der de Morganschen Regel folgt aus (i):
An =
n=1
∞
c Acn
, wobei (Acn )n
n=1
eine isotone Mengenfolge ist. Damit gilt: P
∞ "
An
=1−P
n=1
∞
Acn
= 1 − lim
P(Acm ) = lim P(Am ) m→∞
m→∞
n=1
=1−P(Am )
(iii) Die Anwendung von (i) und (ii) liefert: P(lim sup An ) = P
lim
n→∞
n→∞
n→∞
P(lim inf An ) = P
lim
n→∞
Ak
k=n
= lim P
n→∞
∞
∞
Ak
k=n ∞ " k=n
, denn
Ak
∞
k=n
ist eine antitone Folge,
Ak n
176
B Wahrscheinlichkeitsrechnung = lim P n→∞
∞ "
Ak
, denn
k=n
∞ "
ist eine isotone Folge.
Ak
k=n
n
Die Wahrscheinlichkeit f¨ ur ein Vereinigungsereignis ist die Summe der Einzelwahrscheinlichkeiten, falls die Ereignisse paarweise disjunkt sind. Ist dies nicht der Fall, l¨asst sich die Wahrscheinlichkeit auf die Wahrscheinlichkeiten aller Schnittereignisse zur¨ uckf¨ uhren. Lemma B 4.5 (Siebformel von Sylvester-Poincar´e). F¨ur Ereignisse (An )n∈N in einem Wahrscheinlichkeitsraum (Ω, A, P) gilt: n n P Ak = P(Ak ) − P(Ai1 ∩ Ai2 ) k=1
k=1
+
1i1
P(Ai1 ∩ Ai2 ∩ Ai3 )
1i1
∓ · · · + (−1)
n+1
P
n "
Ak
k=1
In den F¨allen n = 2 und n = 3 gelten somit speziell: n=2:
P(A1 ∪ A2 )
= P(A1 ) + P(A2 ) − P(A1 ∩ A2 ) (s. Lemma B 4.1)
n=3:
P(A1 ∪ A2 ∪ A3 )
= P(A1 ) + P(A2 ) + P(A3 ) − P(A1 ∩ A2 ) − P(A1 ∩ A3 ) − P(A2 ∩ A3 ) + P(A1 ∩ A2 ∩ A3 ).
Bemerkung B 4.6. Aus der Sylvester-Poincar´e-Siebformel werden sogenannte Bonferroni-Ungleichungen gewonnen. Seien A1 , . . . , An Ereignisse aus A im Wahrscheinlichkeitsraum (Ω,A,P). Dann gilt: n n n P(Ak ) − P(Ai1 ∩ Ai2 ) P Ak P(Ak ). k=1
1i1
k=1
k=1
Weitere Ungleichungen entstehen durch Abbruch der Siebformel nach Termen gerader bzw. ungerader Ordnung. Tabelle B 4.1 enth¨alt eine Zusammenstellung von Bezeichnungen und Sprechweisen.
B 5 Bedingte Wahrscheinlichkeiten Das Konzept der bedingten Wahrscheinlichkeit dient der Beschreibung des Einflusses von Vor- oder Zusatzinformationen bzw. deren Einbeziehung in ein stochastisches Modell.
B 5 Bedingte Wahrscheinlichkeiten
Mathematisches Objekt
A∩B=∅ ω∈ Ai i∈I ω∈ Ai
alle Ereignisse Ai ,i ∈ I, treten ein
i∈I
ω ∈ lim sup Ai ω ∈ lim inf Ai i∈I
Interpretation Grundraum, Ergebnisraum (m¨ ogliches) Ereignis Ereignis Menge der (m¨ oglichen) Ereignisse sicheres Ereignis unm¨ ogliches Ereignis Ereignis A tritt ein Ereignis A tritt nicht ein Ereignis A oder Ereignis B tritt ein Ereignis A und Ereignis B treten ein Eintreten von Ereignis A impliziert das Eintreten von Ereignis B Ereignisse A und B schließen einander aus mindestens ein Ereignis Ai ,i ∈ I, tritt ein
Ω ω A∈A A Ω ∅ ω∈A ω ∈ Ac ω∈A∪B ω∈A∩B A⊆B
i∈I
177
unendlich viele Ereignisse Ai ,i ∈ I, treten ein alle bis auf endlich viele Ereignisse Ai ,i ∈ I, treten ein
Tabelle B 4.1. Bezeichnungen und Sprechweisen.
F¨ ur A ∈ A ist P(A) die Wahrscheinlichkeit des Eintretens von Ereignis A. Nun sei bekannt oder gefordert, dass Ereignis B ∈ A eintritt. Welchen Einfluss hat diese Information auf die Wahrscheinlichkeit des Eintretens von A? Beispiel B 5.1. (i) W¨ urfelwurf Wie groß ist die Wahrscheinlichkeit f¨ ur das Auftreten der Zwei unter der Bedingung, dass eine gerade Zahl auftritt? Die intuitive Antwort ist 1/3. In Gedanken schr¨ankt man den Grundraum auf die Menge {2, 4, 6} ein. (ii) Urnenmodell Aus einer Urne mit zwei weißen und drei schwarzen Kugeln werden zwei Kugeln ohne Zur¨ ucklegen gezogen. Dann erscheint klar: 3 Die zweite Kugel ist schwarz bedingt unter der Kenntnis, = . P dass die erste Kugel weiß ist 4 Die Ziehung der Kugeln wird als Laplace-Experiment mit dem Grundraum Ω = {(i, j)|i,j ∈ {1, . . . , 5}, i = j} mit |Ω| = 5 · 4 modelliert. Die Interpretation von Ω ist gegeben durch: Die weißen Kugeln haben die Nummern 1 und 2, die schwarzen Kugeln die Nummern 3, 4 und 5. Mit der Definition Ereignis A: Zweite Kugel ist schwarz“ und ” Ereignis B: Erste Kugel ist weiß“ ”
178
B Wahrscheinlichkeitsrechnung
gilt dann A ∩ B = {(1, 3), (1, 4), (1, 5), (2, 3), (2, 4), (2, 5)}, |A ∩ B| = 6, B = {(1, 2), (1, 3), (1, 4), (1, 5), (2, 1), (2, 3), (2, 4), (2, 5)}, |B| = 8, 8 6 P(B) = , P(A ∩ B) = . 20 20
Damit ist
P(A ∩ B) = P(B)
6 20 8 20
=
3 . 4
Dieser Quotient wird allgemein als bedingte Wahrscheinlichkeit definiert. Definition B 5.2 (Bedingte Wahrscheinlichkeit). Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. F¨ ur jedes B ∈ A mit P(B) > 0 wird durch P(A|B) =
P(A ∩ B) , P(B)
A ∈ A,
eine Wahrscheinlichkeitsverteilung P(·|B) auf A definiert, die sogenannte bedingte Verteilung unter (der Hypothese) B. P(A|B) heißt elementar bedingte Wahrscheinlichkeit von A unter B. Als Funktion von A bildet P(A|B) wiederum eine Wahrscheinlichkeitsverteilung und (Ω, A, P(·|B)) ist ein Wahrscheinlichkeitsraum. Wegen P(A|B) = P(A ∩ B|B) ist auch (B, {A ∩ B| A ∈ A}, P(·|B)) ein Wahrscheinlichkeitsraum u ¨ber dem (eingeschr¨ankten) Grundraum B ⊆ Ω. Die Menge {A ∩ B| A ∈ A} ist eine σ-Algebra u ¨ber B. F¨ ur das Arbeiten mit bedingten Wahrscheinlichkeiten sind die nachfolgenden Eigenschaften und Begriffe wesentlich. Lemma B 5.3. Seien (Ω, A, P) ein Wahrscheinlichkeitsraum n−1 und A, B ∈ A mit P(A) > 0, P(B) > 0 sowie A1 , A2 , . . . , An ∈ A mit P Ai > 0. Dann gilt: i=1
(i) P(A|B) = P(B|A) · P(A) P(B) , n n−1 (ii) P Ai = P(A1 ) · P(A2 |A1 ) · P(A3 |A1 ∩ A2 ) · . . . · P An Ai . i=1
i=1
Beweis. (i) P(B|A) P(A) = P(B)
P(B∩A) P(A)
P(A) P(B)
= P(A|B). n−1 Ai ) (ii) P(A1 ) · P(A2 |A1 ) · P(A3 |A2 ∩ A1 ) · . . . · P(An = P(A1 ) ·
P(A1 ∩A2 ) P(A1 )
·
·
P(A1 ∩A2 ∩A3 ) P(A1 ∩A2 )
· ...·
P( P(
n
i=1
i=1 n−1 i=1
Ai ) Ai )
= P(
n i=1
Ai ) .
B 5 Bedingte Wahrscheinlichkeiten
179
Lemma B 5.4 (Formel von der totalen Wahrscheinlichkeit). Seien (Ω, A, P) ein Wahrscheinlichkeitsraum und A ∈ A, (Bn )n ⊆ A, Bn paarweise disjunkt mit A ⊆ ∞ Bn . Dann gilt: n=1
P(A) =
∞
P(A ∩ Bn ) =
n=1
∞
P(A|Bn ) · P(Bn ).
n=1
Ist P(Bn ) = 0, so ist P(A|Bn ) nicht definiert. Man setzt in diesem Fall P(Bn ) · P(A|Bn ) = 0 mit P(A|Bn ) ∈ [0, 1] beliebig. ∞
Beweis. Wegen A ⊆
Bn ist A =
n=1
P(A) = P
∞
∞
(A ∩ Bn ).
n=1
(A ∩ Bn )
Damit folgt
paarweise disjunkt σ-add.
=
n=1
∞ n=1
P(A ∩ Bn ) =
∞
P(A|Bn ) · P(Bn ).
n=1
Eigenschaft B 5.5 (Bayessche Formel). Seien (Ω, A, P) ein Wahrscheinlichkeits∞ Bn mit raum und A ∈ A, (Bn )n ⊆ A, B1 , B2 , . . . paarweise disjunkt, A ⊆ P(A) > 0. Dann gilt f¨ ur jedes k ∈ N
n=1
P(Bk ) · P(A|Bk ) P(Bk |A) = . ∞ P(A|Bn ) · P(Bn ) n=1 )·P(A|Bk ) Beweis. Wegen P(Bk |A) = P(BkP(A) folgt nach der Formel von der totalen Wahrscheinlichkeit B 5.4 die Behauptung.
Bei der Bayesschen Formel wird von der Wirkung“ A auf eine Ursache“ Bk ” ” geschlossen. In einem medizinischen Kontext kann obige Formel wie folgt interpretiert werden: Ein Arzt stellt ein Symptom A fest, das von verschiedenen Krankheiten B1 , . . . , Bn herr¨ uhren kann. (i) Die relative H¨aufigkeit einer jeden Krankheit sei bekannt. Diese ist eine Sch¨atzung“ f¨ ur P(Bk ), k = 1, 2, . . .. ” (ii) Wenn die Krankheit Bk vorliegt, dann seien die relativen H¨aufigkeiten f¨ ur das Auftreten von Symptom A bekannt. Diese liefern Werte f¨ ur P(A|Bk ), k = 1, 2, . . . . Gesucht ist die Wahrscheinlichkeit f¨ ur die Krankheit Bk , wenn Symptom A auftritt. P(Bk ) heißt auch a priori Wahrscheinlichkeit, P(Bk |A) a posteriori Wahrscheinlichkeit.
180
B Wahrscheinlichkeitsrechnung
B 6 Stochastische Unabh¨ angigkeit von Ereignissen Die stochastische Unabh¨angigkeit ist ein zentraler Begriff in der Stochastik. Zun¨achst wird die stochastische Unabh¨angigkeit von zwei oder mehr Ereignissen behandelt. Intuitiv w¨ urden Ereignisse A und B als unabh¨angig betrachtet werden, wenn die Wahrscheinlichkeit von A nicht davon abh¨angt, ob B eingetreten ist oder nicht, d.h. die bedingte Wahrscheinlichkeit P(A|B) ist unabh¨angig von B: P(A|B) = P(A). Dabei wird jedoch P(B) > 0 vorausgesetzt, da sonst die bedingte Wahrscheinlichkeit nicht definiert ist. Unter Ber¨ ucksichtigung der Definition von P(A|B) folgt ¨ aquivalent die Gleichung P(A|B) = P(A) ⇐⇒
P(A ∩ B) = P(A) ⇐⇒ P(A ∩ B) = P(A) · P(B). P(B)
Diese intuitive Vorgehensweise impliziert also, dass die Wahrscheinlichkeit des Schnittereignisses A ∩ B als Produkt der Wahrscheinlichkeiten der Ereignisse A und B bestimmt werden kann. Da diese Beziehung auch f¨ ur den Fall P(B) = 0 verwendet werden kann, wird die stochastische Unabh¨angigkeit in dieser Weise definiert. Definition B 6.1 (Stochastische Unabh¨angigkeit von Ereignissen). Seien (Ω, A, P) ein Wahrscheinlichkeitsraum und A, B ∈ A. Die Ereignisse A und B heißen stochastisch unabh¨angig, falls gilt: P(A ∩ B) = P(A) · P(B).
Beispiel B 6.2. Seien Ω = {1, 2, 3, 4} und P die Laplace-Verteilung auf Ω. Die Ereignisse A = {1, 2} und B = {1,3} sind stochastisch unabh¨angig, da P(A) = P(B) = 12 und P(A ∩ B) = P({1}) =
1 1 1 = · = P(A) · P(B). 4 2 2
Lemma B 6.3 (Eigenschaften stochastisch unabh¨angiger Ereignisse). F¨ur Ereignisse A und B in einem Wahrscheinlichkeitsraum (Ω, A, P) gelten folgende Eigenschaften: (i) Sind A und B stochastisch unabh¨angig, dann sind auch die Ereignisse A und Bc ,
Ac und B
sowie Ac und Bc
jeweils stochastisch unabh¨angig. (ii) Ist P(B) > 0, so gilt: A und B sind stochastisch unabh¨ angig ⇐⇒ P(A|B) = P(A).
(iii) Ist P(A) ∈ {0, 1}, so gilt f¨ ur alle Ereignisse B ∈ A : A und B sind stochastisch unabh¨angig.
B 6 Stochastische Unabh¨ angigkeit von Ereignissen
181
Als Erweiterung des obigen Unabh¨angigkeitsbegriffs wird die stochastische Unabh¨angigkeit einer Familie von Ereignissen definiert. Definition B 6.4 (Stochastische Unabh¨angigkeit). Seien I eine beliebige Indexmenge und Ai , i ∈ I, Ereignisse in einem Wahrscheinlichkeitsraum (Ω, A, P). Dann heißen diese Ereignisse (i) paarweise stochastisch unabh¨angig, falls P(Ai ∩ Aj ) = P(Ai ) · P(Aj ),
∀ i, j ∈ I, i = j.
(ii) (gemeinsam) stochastisch unabh¨angig, falls f¨ur jede endliche Auswahl von Indizes {i1 , . . . , is } ⊆ I gilt: P(Ai1 ∩ · · · ∩ Ais ) = P(Ai1 ) · . . . · P(Ais ).
F¨ ur n = 3 lassen sich die Forderungen der paarweisen bzw. gemeinsamen stochastischen Unabh¨angigkeit folgendermaßen formulieren: (i) Die Ereignisse A1 , A2 , A3 sind paarweise stochastisch unabh¨angig, wenn gilt: P(A1 ∩ A2 ) = P(A1 )P(A2 ),
P(A1 ∩ A3 ) = P(A1 )P(A3 ) und
P(A2 ∩ A3 ) = P(A2 )P(A3 ).
(ii) A1 ,A2 ,A3 sind gemeinsam stochastisch unabh¨angig, wenn gilt: P(A1 ∩ A2 ) = P(A1 )P(A2 ),
P(A1 ∩ A3 ) = P(A1 )P(A3 ),
P(A2 ∩ A3 ) = P(A2 )P(A3 ) und P(A1 ∩ A2 ∩ A3 ) = P(A1 )P(A2 )P(A3 ).
Im Vergleich zur paarweise stochastischen Unabh¨angigkeit kommt bei der gemeinsamen stochastischen Unabh¨angigkeit im zweiten Fall (n = 3) eine zus¨atzliche Forderung hinzu. Aus der gemeinsamen stochastischen Unabh¨angigkeit von Ereignissen folgt deren paarweise stochastische Unabh¨angigkeit. Die Umkehrung ist aber im Allgemeinen nicht richtig. Beispiel B 6.5. Seien Ω = {1, 2, 3, 4} und P die Laplace-Verteilung auf Ω. Die Ereignisse A = {1, 2}, B = {1, 3}, C = {2, 3} sind wegen P(A) = P(B) = P(C) =
1 , 2
P(A ∩ B) = P(A ∩ C) = P(B ∩ C) =
paarweise stochastisch unabh¨angig. Wegen A ∩ B ∩ C = ∅ gilt jedoch P(A ∩ B ∩ C) = 0 =
1 = P(A) · P(B) · P(C), 8
d.h. A,B,C sind nicht gemeinsam stochastisch unabh¨angig.
1 4
182
B Wahrscheinlichkeitsrechnung
Eigenschaft B 6.6. Seien (Ω, A, P) ein Wahrscheinlichkeitsraum, I eine Indexmenge und Ai ∈ A, i ∈ I. (i) Jede Teilmenge stochastisch unabh¨angiger Ereignisse ist eine Menge stochastisch unabh¨angiger Ereignisse. (ii) Sind die Ereignisse Ai , i ∈ I, stochastisch unabh¨angig und Bi ∈ {Ai , Aci , ∅, Ω}, i ∈ I, so sind auch die Ereignisse Bi , i ∈ I, stochastisch unabh¨ angig. (iii) Sind die Ereignisse A1 , . . . , An stochastisch unabh¨angig, dann gilt: n n n " c P Ai = 1 − P Ai = 1 − (1 − P(Ai )). i=1
i=1
i=1
Die Modellierung der unabh¨angigen Versuchswiederholung“ wird am folgenden ” Beispiel verdeutlicht. Beispiel B 6.7 (Bernoulli-Modell). Ein Experiment liefere mit Wahrscheinlichkeit p ∈ [0,1] das Ergebnis 1 und mit Wahrscheinlichkeit 1 − p das Ergebnis 0 (z.B. ein M¨ unzwurf). Dieses Experiment werde n-mal unabh¨angig“ ausgef¨ uhrt. Das
” geeignete stochastische Modell ist durch den Grundraum
Ω = {ω = (ω1 , . . . , ωn )|ωi ∈ {0, 1}, 1 i n}
und die Z¨ahldichte f : Ω −→ [0, 1] definiert durch f((ω1 , . . . , ωn )) =
n
pωj (1 − p)1−ωj = p
ωj
(1 − p)n−
wj
= pk (1 − p)n−k ,
j=1
falls ω = (ω1 , . . . , ωn ) genau k Komponenten mit Wert 1 hat, spezifiziert (es n n k n−k gilt f(ω) = = 1). Dieses Modell heißt Bernoulli-Modell. k p (1 − p) ω∈Ω
k=0
Der Zusammenhang zur stochastischen Unabh¨angigkeit ist wie folgt gegeben. Sei Ai das Ereignis f¨ ur das Ergebnis 1 im i-ten Versuch, d.h. Ai = {ω ∈ Ω|ωi = 1}.
Dann kann gezeigt werden: P(Ai ) = p, P(Ai ∩ Aj ) = p2 , i = j, P(Ai ∩ Aj ∩ Ak ) = p3 , i, j, k alle verschieden, usw. Lemma B 6.8 (Borel-Cantelli). Sei (An )n∈N eine Folge von Ereignissen in einem Wahrscheinlichkeitsraum (Ω, A, P). Dann gilt: ∞ (i) P(An ) < ∞ =⇒ P lim sup An = 0. n→∞
n=1
(ii) F¨ ur stochastisch unabh¨angige Ereignisse An , n ∈ N, gilt: ∞ P(An ) = ∞ =⇒ P lim sup An = 1. n=1
n→∞
B 6 Stochastische Unabh¨ angigkeit von Ereignissen
183
Bemerkung B 6.9. (i) Analog zu den Aussagen des Lemmas von Borel-Cantelli gilt: ∞ P(Acn ) < ∞ =⇒ P lim inf An = 1. (a) n→∞
n=1
(b) F¨ ur stochastisch unabh¨angige Ereignisse An , n ∈ N, gilt: ∞
P(Acn ) = ∞ =⇒ P lim inf An = 0. n→∞
n=1
(ii) F¨ ur eine Folge stochastisch unabh¨angiger Ereignisse gilt stets: P lim sup An ∈ {0, 1} und P lim inf An ∈ {0, 1}. n→∞
n→∞
Nun wird in Erweiterung von Beispiel B 6.7 allgemein beschrieben, wie man die Hintereinanderausf¨ uhrung unabh¨angiger“ Versuche in einem stochastischen Mo” dell beschreibt. Gegeben seien die Modelle (Ωi ,Ai ,Pi ), 1 i n, z.B. Ziehen mit Zur¨ ucklegen aus Urnen, W¨ urfelexperimente,. . . Ziel ist die Spezifizierung eines Modells f¨ ur ein Experiment, das aus der unabh¨angigen Hintereinanderausf¨ uhrung der Teilexpeurfelwurf, Kombinationen rimente besteht (z.B. n-maliges Ziehen, n-maliger W¨ davon,. . . ). Dann wird ein Wahrscheinlichkeitsraum (Ω, A, P) eingef¨ uhrt mit dem Grundraum Ω = {(ω1 , . . . , ωn )|ωi ∈ Ωi , 1 i n}
×Ω n
=
i
(n-faches Kreuzprodukt).
i=1
Die Mengen Ωi m¨ ussen dabei nicht identisch sein. Definition B 6.10 (Produktraum).
F¨ ur
diskrete
Wahrscheinlichkeitsr¨aume
(Ωi , Ai , Pi ), 1 i n, heißt (Ω, A, P) mit
×Ω n
Ω=
i
= {(ω1 , . . . , ωn )|ωi ∈ Ωi , 1 i n},
i=1
ahldichte A Potenzmenge von Ω und P definiert durch die Z¨ P({ω}) =
n
Pi ({ωi }),
ω = (ω1 , . . . , ωn ) ∈ Ω,
i=1
Produkt der Wahrscheinlichkeitsr¨aume (Ωi , Ai , Pi ), 1 i n. Der mit (Ω, A, P) =
n # (Ωi , Ai , Pi ) i=1
bezeichnete Wahrscheinlichkeitsraum heißt Produktraum.
184
B Wahrscheinlichkeitsrechnung
Damit steht alternativ zur ersten Beschreibung eines 3-fachen W¨ urfelwurfs“ ” durch den Grundraum Ω = {(ω1 , ω2 , ω3 )|ωi ∈ {1, . . . , 6}, i ∈ {1, 2, 3}} und die Z¨ahldichte p(ω1 , ω2 , ω3 ) = 613 f¨ ur jedes (ω1 , ω2 , ω3 ) ∈ Ω (Laplace-Raum) nun 3 $ (Ωi , Ai , Pi ) zur Verf¨ ugung mit Ω1 = Ω2 = Ω3 = das elegantere“ Modell ” i=1 {1, . . . , 6} und P1 = P2 = P3 als Laplace-Verteilungen auf {1, . . . , 6}. Beispiel B 6.11. Bezeichnet im Beispiel B 6.7 Ek = {ω ∈ Ω|
n
ωi = k}, k ∈
i=1
{0, . . . , n}, das Ereignis, in n Versuchen genau k-mal Ergebnis 1 zu erhalten, so ist n k P(Ek ) = p (1 − p)n−k . k
Die Ereignisse E0 , . . . ,En sind disjunkt und die durch P(E0 ), . . . , P(En ) definierte Wahrscheinlichkeitsverteilung auf {0, 1, . . . , n} ist die in Bezeichnung B 2.4 eingef¨ uhrte Binomialverteilung.
C Zufallsvariablen
In stochastischen Modellen werden interessierende Merkmale (vgl. auch hierzu den Begriff Merkmal“ in Abschnitt A 1.2) in der Regel mit Zufallsvariablen be” schrieben. Dies sind Abbildungen von einem zugrundeliegenden Wahrscheinlichkeitsraum in einen neuen Wahrscheinlichkeitsraum, der einerseits eine einfachere Struktur hat und andererseits eine gute“ Beschreibung der Zielgr¨oße erlaubt. ”
C 1 Zufallsvariablen und Wahrscheinlichkeitsmaße Zufallsvorg¨ange werden beschrieben durch einen Wahrscheinlichkeitsraum (Ω, A, P), wobei der Ausgang des Vorgangs ein Element ω von Ω ist. Dabei ist h¨aufig nicht ω ∈ Ω selbst als Ergebnis von Interesse, sondern ein Funktionswert X(ω), wobei X eine Funktion auf Ω ist. Beispiel C 1.1. Beschreibt Ω den n-fachen M¨ unzwurf mit ω = (ω1 , . . . , ωn ), n ωi ∈ {0, 1}, 1 i n, so gibt die Funktion X mit X(ω) = ωi die Anzahl der i=1
Einsen (Anzahl der Treffer“) des Vektors ω an. ” Bei der Beschreibung von Telefongespr¨achen ist oft nicht das Zustandekommen eines Gespr¨achs und die damit verbundenen Ereignisse (z.B. Uhrzeit, Gespr¨achspartner usw.) wichtig, sondern nur dessen Dauer. Diese wird modelliert als eine ur ein ω sogenannte Realisation einer Zufallsvariable Y , d.h. ein Wert Y(ω) f¨ aus einer zugrundeliegenden Grundmenge Ω, deren Struktur nicht von Interesse oder Bedeutung ist. Eine derartige Modellvorstellung liegt auch in naturwissenschaftlichen Experimenten oder f¨ ur beobachtete ¨okonomische Gr¨oßen vor. Die gemessenen Ergebnisse, die beobachteten Werte und deren Verteilung sind von Bedeutung, nicht die (exakte) Beschreibung des Zustandekommens. In diesem Sinne stellt eine Zufallsvariable eine Fokussierung auf den Untersuchungsgegenstand dar.
186
C Zufallsvariablen
Beispiel C 1.2. (i) Im n-fachen unabh¨angigen M¨ unzwurfexperiment ist mit der Grundmenge Ω = {0, 1}n die Wahrscheinlichkeitsverteilung bestimmt durch die Z¨ahldichte P(ω) = pk (1 − p)n−k , wobei k = Anzahl der Einsen im Vektor ω.
Dabei ist p ∈ [0,1] die Wahrscheinlichkeit f¨ ur eine Eins bei einem einzelnen Wurf. Ist als Zielgr¨ oße des Experiments nur die jeweilige Anzahl von Einsen von Interesse (z.B. die Anzahl Treffer“), so beschreibt man dies durch die ” Funktion (Abbildung) X gegeben durch ⎧ ⎨Ω → {0, 1, . . . , n} = Ω n X: . ⎩ω → ωi i=1
F¨ ur ein k ∈ {0, . . . , n} ist damit die Wahrscheinlichkeit, dass die Zufallsvariable X den Wert k hat, gegeben durch n k P(X = k) = P({ω ∈ Ω|X(ω) = k}) = p (1 − p)n−k (= pk ). k Dabei ist P(X = k) eine vereinfachende Schreibweise f¨ ur die Wahrscheinlich keit der Menge aller ω ∈ Ω, die genau k Einsen enthalten. Es gibt n k solcher ω, die jeweils dieselbe Wahrscheinlichkeit pk (1 − p)n−k besitzen. n Wegen pk = 1 und 0 pk 1 f¨ ur alle k ∈ {0, . . . , n} bilden diese eine k=0
diskrete Wahrscheinlichkeitsverteilung auf der Menge Ω , die schon bekannte Binomialverteilung (s. Bezeichnung B 2.4). (ii) Im Beispiel B 1.9 bilden die Zahlen qr = P({ω ∈ Ω|ω1 + ω2 + ω3 = r}), 3 r 18,
wegen
18
qr = 1 eine diskrete Wahrscheinlichkeitsverteilung auf der Menge
r=3
Ω = {3, . . . , 18}. Die Zufallsvariable X definiert durch X((ω1 , ω2 , ω3 )) = uber P(X = k) = P({ω ∈ Ω|X(ω) = k}) = qk dieses ω1 + ω2 + ω3 erzeugt ¨ neue Wahrscheinlichkeitsmaß auf Ω .
Definition C 1.3 (Zufallsvariable, Zufallsvektor). Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Eine Abbildung X : Ω → Rn heißt Zufallsvariable (falls n = 1) oder Zufallsvektor (falls n 2). In diesem einf¨ uhrenden Buch werden meist Zufallsvariablen (bzw. eindimensionale Zufallsvektoren) behandelt. Eine Zufallsvariable erzeugt im Wertebereich der Funktion eine neue Wahrscheinlichkeitsverteilung (s. Beispiel C 1.2).
C 1 Zufallsvariablen und Wahrscheinlichkeitsmaße
187
Lemma C 1.4. Seien (Ω, A, P) ein Wahrscheinlichkeitsraum, X : Ω → R und B die Borelsche σ-Algebra ¨ uber R. Dann definiert PX : B → [0,1] mit PX (A) = P({ω ∈ Ω|X(ω) ∈ A}),
A ∈ B,
eine Wahrscheinlichkeitsverteilung ¨ uber R bzw. ¨ uber X(Ω) = {X(ω)|ω ∈ Ω}. Statt PX (A) schreibt man auch P(X ∈ A) oder P(X = x), falls A = {x}, x ∈ R. Ist (Ω, A, P) ein diskreter Wahrscheinlichkeitsraum, so ist PX eine diskrete Wahrscheinlichkeitsverteilung ¨ uber X(Ω) bzw. ¨ uber R (s. Abschnitt B 2). Wird also ein interessierendes Merkmal in einem stochastischen Modell durch eine Zufallsvariable oder einen Zufallsvektor X beschrieben, so betrachtet man nur uckgriff auf die explizite Gestalt des zugrundelienoch die Verteilung PX ohne R¨ genden Wahrscheinlichkeitsraums (Ω, A, P). Definition C 1.5 (Verteilung von X unter P). Seien (Ω, A, P) ein Wahrscheinlichkeitsraum und X : Ω → R eine Zufallsvariable. Die Wahrscheinlichkeitsverteilung PX definiert durch PX (A) = P({ω ∈ Ω|X(ω) ∈ A}),
A ∈ B,
heißt Verteilung von X unter P. Andere Bezeichnungen und Notationen sind: X hat Verteilung PX , X ist verteilt wie PX , X ∼ PX oder auch kurz X ∼ P. Bemerkung C 1.6. F¨ ur diskrete Wahrscheinlichkeitsverteilungen reicht die Anur alle einelementigen Mengen des Tr¨agers aus. F¨ ur Wahrscheingabe von PX (A) f¨ lichkeitsverteilungen mit Riemann-Dichten werden Borelmengen A ∈ B bzw. Einschr¨ankungen von A ∈ B auf ein Intervall betrachtet. Es kann gezeigt werden, dass es sogar ausreicht, f¨ ur A nur Intervalle des Typs (−∞, x], x ∈ R, zu betrachten, da die zugeh¨ origen Wahrscheinlichkeiten PX ((−∞, x]) das Wahrscheinlichkeitsmaß auf B eindeutig festlegen. Beispiel C 1.7. (i) Die Zufallsvariable X ist Poisson-verteilt mit Parameter λ > 0 (s. Bezeichnung B 2.5), falls PX (k) = P(X = k) =
λk −λ e , k!
k ∈ N0 .
(ii) X ist exponentialverteilt mit Parameter λ > 0 (s. Bezeichnung B 3.7), falls ⎧ x ⎪ ⎨ λe−λy dy = 1 − e−λx , x > 0 . P(X ∈ (−∞, x]) = P(X x) = 0 ⎪ ⎩0, x0
188
C Zufallsvariablen
Bezeichnung C 1.8 (Indikatorfunktion). Seien Ω = ∅, (Ω, A, P) ein Wahrscheinlichkeitsraum und A ∈ A. Die Funktion IA : Ω → R definiert durch 1, ω ∈ A IA (ω) = 0, sonst heißt Indikatorfunktion von A. F¨ ur jedes feste A ∈ A ist IA eine Zufallsvariable, und es gilt IA ∼ bin(1, p) mit p = P(A), denn P(IA = 0) = P({ω ∈ Ω|IA (ω) = 0}) = P(Ac ) = 1 − p und P(IA = 1) = P({ω ∈ Ω|IA (ω) = 1}) = P(A) = p.
Weiterhin gilt: • • • •
IA∪B = max(IA , IB ), IA∪B = IA + IB , falls A ∩ B = ∅, IA∩B = min(IA , IB ) = IA · IB , IAc = 1 − IA .
Stochastische Unabh¨ angigkeit von Zufallsvariablen Eine Zufallsvariable ist eine Abbildung von einem Wahrscheinlichkeitsraum (Ω, A, P) in einen (anderen) Wahrscheinlichkeitsraum (Ω , A , PX ). In Erweiterung des Begriffs der Unabh¨angigkeit von Ereignissen wird die Unabh¨angigkeit von Zufallsvariablen definiert. Definition C 1.9 (Stochastische Unabh¨angigkeit von Zufallsvariablen). Seien I eine Indexmenge und Xi : (Ω, A, P) → (Ωi , Ai , PXi ), i ∈ I, Zufallsvariablen. Die Zufallsvariablen Xi , i ∈ I, heißen stochastisch unabh¨angig, falls " P {Xi ∈ Ai } = P(Xi ∈ Ai ), ∀J ⊆ I, |J| < ∞ und ∀Ai ∈ Ai , i ∈ J. i∈J
i∈J
Die Bedingung in Definition C 1.9 entspricht der stochastischen Unabh¨angigkeit der Ereignisse ({Xi ∈ Ai })i∈I f¨ ur jede Wahl der Ereignisse Ai ∈ Ai , i ∈ I, und f¨ uhrt damit auf Definition B 6.1. Aus dieser eher unhandlichen Definition k¨onnen vergleichsweise einfache Kriterien f¨ ur die stochastische Unabh¨angigkeit von Zufallsvariablen abgeleitet werden (s. Lemma C 1.10, Satz C 3.6 und Satz C 3.14). Lemma C 1.10. Sei (Ω, A, P) ein diskreter Wahrscheinlichkeitsraum. Dann gilt: Xi , i ∈ I, sind stochastisch unabh¨ angig genau dann, wenn P(Xj = xj , j ∈ J) = P(Xj = xj ) ∀xj ∈ Xj (Ω) ∀j ∈ J ∀J ⊆ I, |J| < ∞. j∈J
C 1 Zufallsvariablen und Wahrscheinlichkeitsmaße
189
Satz C 1.11. Sind die Zufallsvariablen Xi : Ω → Ωi , i ∈ I, stochastisch unabh¨angig und sind Abbildungen fi : Ωi → Ωi gegeben, dann sind die Zufallsvariablen fi ◦ Xi , i ∈ I, stochastisch unabh¨angig. Weiterhin gilt f¨ ur disjunkte Indexmengen Ij ⊆ I, j ∈ J, und Abbildungen gj : Ωi → Ωj , j ∈ J :
×
i∈Ij
gj ◦ (Xi , i ∈ Ij ), j ∈ J, sind stochastisch unabh¨ angige Funktionen von Zufallsvariablen mit disjunkten Indexmengen.
Beispiel C 1.12. Sind X1 , X2 , X3 stochastisch unabh¨angig, dann sind z.B. auch die Zufallsvariablen X2 , X1 + X3 sowie X22 , |X1 − X3 | stochastisch unabh¨angig. Summen unabh¨ angiger Zufallsvariablen Summen unabh¨angiger Zufallsvariablen spielen in vielen Bereichen der Stochastik eine wichtige Rolle und treten etwa beim arithmetischen Mittel von Zufallsvariablen auf. Dabei stellt sich die Frage, welche Wahrscheinlichkeitsverteilung eine solche Summe besitzt. Zun¨achst wird der Fall diskret verteilter Zufallsvariablen behandelt. Satz C 1.13 (Faltung). Seien X und Y stochastisch unabh¨angige Zufallsvariablen auf Z = {. . . , −2, −1, 0, 1, 2, . . . } mit den Z¨ahldichten f bzw. g (d.h. P(X = n) = f(n), P(Y = m) = g(m), n, m ∈ Z). Dann hat X + Y die Z¨ ahldichte h gegeben durch: h(k) = f(j) · g(k − j) = f(k − j) · g(j) j∈Z
j∈Z
= P(X + Y = k) = P({ω|X(ω) + Y(ω) = k}),
k ∈ Z.
h wird Faltung der Dichten f und g genannt und mit h = f ∗ g bezeichnet. Beweis. Es ist
P(X = j) =
j∈Z
P(Y = j) = 1. Mit der Formel von der totalen Wahr-
j∈Z
scheinlichkeit erh¨ alt man P(X + Y = k) =
j∈Z
=
j∈Z
P(X + Y = k, Y = j) =
P(X + j = k, Y = j)
j∈Z
P(X = k − j)P(Y = j) =
f(k − j)g(j).
j∈Z
Die zweite Darstellung folgt durch Vertauschung der Rollen von X und Y .
190
C Zufallsvariablen
Beispiel C 1.14. (i) Seien X und Y stochastisch unabh¨angige, bin(1, p)-verteilte Zufallsvariablen (d.h. P(X = 0) = 1 − p, P(X = 1) = p). Dann ist ⎧ ⎪ ⎨P(X = 0) · P(Y = 0), P(X + Y = k) = P(X = 0) · P(Y = 1) + P(X = 1) · P(Y = 0), ⎪ ⎩ P(X = 1) · P(Y = 1), ⎧ 2 k=0 ⎪ ⎨(1 − p) , 2 k p (1 − p)2−k , = 2p(1 − p), k = 1 = ⎪ k ⎩ 2 k=2 p ,
k=0 k=1 k=2 k ∈ {0, 1, 2},
d.h. X + Y ∼ bin(2, p). Mit vollst¨andiger Induktion folgt die Aussage: Seien X1 , . . . , Xn stochastisch unabh¨angige, bin(1, p)-verteilte Zun Xi eine bin(n, p)-Verteilung. fallsvariablen. Dann besitzt i=1
(ii) Seien X und Y stochastisch unabh¨angige Zufallsvariablen mit X ∼ po(λ), Y ∼ po(μ), λ, μ > 0. Dann gilt f¨ u r k ∈ N0 : P(X + Y = k) = P(X = k − j) · P(Y = j) j∈N0
=
k k λk−j −λ μj −μ e−(λ+μ) k k−j j e · e = λ μ (k − j)! j! k! j j=0
=
e
−(λ+μ)
k!
j=0
(λ + μ)k ,
d.h. X + Y ∼ po(λ + μ). Die Summe von X und Y ist also wiederum Poissonverteilt. Auch f¨ ur die Verteilung der Summe zweier unabh¨angiger Zufallsvariablen mit Riemann-Dichten existieren zum diskreten Fall analoge Darstellungen, sogenannte Faltungsformeln. Satz C 1.15 (Faltung). Seien X und Y stochastisch unabh¨angige Zufallsvariablen auf R mit den Riemann-Dichten f bzw. g. Dann hat X + Y die Riemann-Dichte h gegeben durch die Faltungsformeln ∞
h(z) =
∞
f(z − y) g(y)dy = −∞
f(x) g(z − x)dx, −∞
b d.h. P(X + Y ∈ (a, b)) = h(z)dz, a < b. a
z ∈ R,
C 1 Zufallsvariablen und Wahrscheinlichkeitsmaße
191
Beispiel C 1.16. (i) Seien X und Y stochastisch unabh¨angige Exp(λ)-verteilte Zufallsvariablen. Dann ist die Dichte h von X + Y gegeben durch ⎧ z ⎪ ⎨ λe−λ(z−y) λe−λy dy = λ2 ze−λz , z > 0 h(z) = 0 ⎪ ⎩ 0, z0 d.h. X + Y ∼ Γ (λ, 2). Durch vollst¨andige Induktion folgt: Seien X1 , . . . , Xn stochastisch unabh¨angige, Exp(λ)-verteilte Zufallsn variablen. Dann besitzt Xi eine Γ (λ, n)-Verteilung. i=1
Allgemeiner gilt: Seien X und Y stochastisch unabh¨angige Zufallsvariablen mit X ∼ Γ (λ, β) und Y ∼ Γ (λ, γ). Dann ist X + Y wiederum gammaverteilt: X+Y ∼ Γ (λ, β+γ). Eine entsprechende Aussage gilt f¨ ur n > 2 gammaverteilte Zufallsvariablen. (ii) F¨ ur stochastisch unabh¨angige normalverteilte Zufallsvariablen X ∼ N(μ, σ2 ) und Y ∼ N(ν, τ2 ) ist die Summe X + Y wiederum normalverteilt: X + Y ∼ N(μ + ν, σ2 + τ2 ). Eine entsprechende Aussage gilt f¨ ur n > 2 normalverteilte Zufallsvariablen. Insbesondere erh¨alt man f¨ ur stochastisch unabh¨angige N(μ, σ2 )-verteilte Zufallsvariablen X1 , . . . , Xn : n
Xi ∼ N(nμ, nσ2 ).
i=1
Die Zufallsvariable aX hat f¨ ur a > 0 eine N(aμ, a2 σ2 )-Verteilung, denn f¨ ur x ∈ R gilt: x P(aX x) = P X = a
1 = √ 2πaσ 1 = √ 2πaσ
x
x/a
−∞
1 f(z)dz = a
z
exp − −∞ x
−∞
a
−μ 2σ2
2
(z − aμ)2 exp − 2a2 σ2
x f −∞
z a
dz
dz dz = P(Z x),
wobei Z ∼ N(aμ, a2 σ2 ) und f die Dichtefunktion von N(μ, σ2 ) ist. Daraus n folgt, dass das arithmetische Mittel Xn = n1 Xi ebenfalls normalverteilt 2
i=1
ist: Xn ∼ N(μ, σn ). Dies ist in der Schließenden Statistik von Bedeutung.
192
C Zufallsvariablen
C 2 Verteilungsfunktion und Quantilfunktion In diesem Skript werden nur zwei Formen von Wahrscheinlichkeitsverteilungen thematisiert. Diskrete Wahrscheinlichkeitsverteilungen werden u ¨ber eine Z¨ahldichte beschrieben, die u ¨brigen Wahrscheinlichkeitsmaße werden u ¨ber RiemannDichten eingef¨ uhrt. Neben dieser Beschreibung durch Dichten gibt es auch andere M¨ oglichkeiten zur Festlegung von Wahrscheinlichkeitsverteilungen. In Bezeichnung B 3.4 wurde bereits eine weitere Gr¨ oße vorgestellt, die sogenannte Verteilungsfunktion, die nun ausf¨ uhrlicher behandelt wird. Definition C 2.1 (Verteilungsfunktion). Seien (Ω, A, P) ein Wahrscheinlichkeitsraum und X eine Zufallsvariable auf (Ω, A, P) mit Wahrscheinlichkeitsverteilung PX . Die Funktion R→R FX : x → PX ((−∞, x]) = P(X x) heißt die zu PX geh¨orige Verteilungsfunktion. Ist aus dem Kontext die Zugeh¨orig¨ keit von FX zu X klar, so wird auch kurz F geschrieben. Ubliche Bezeichnungen und Sprechweisen sind: F ist die Verteilungsfunktion von X, X ist nach F verteilt, X ∼ F. FX (x) ist also die Wahrscheinlichkeit, dass die Zufallsvariable X Werte kleiner oder gleich x ∈ R annimmt.
Bemerkung C 2.2. (i) Sei pX die Z¨ahldichte von PX . Dann ist FX (x) = PX ((−∞, x]) = pX (y) = pX (y), y∈(−∞,x]
x ∈ R.
yx y∈supp(PX )
(ii) Ist fX die Riemann-Dichte von PX , so ist f¨ ur x ∈ R x FX (x) = PX ((−∞, x]) = P(X x) = P({ω ∈ Ω | X(ω) x}) =
fX (y)dy. −∞
Lemma C 2.3. (i) Sei FX die zu PX geh¨orige Verteilungsfunktion. Dann gilt: (a) FX ist monoton wachsend, (b) FX ist rechtsseitig stetig, (c) lim FX (x) = 0, lim FX (x) = 1. x→−∞
x→+∞
PX ist durch FX eindeutig bestimmt.
(ii) Jede Funktion mit den Eigenschaften (a)-(c) ist eine Verteilungsfunktion und bestimmt eindeutig ein Wahrscheinlichkeitsmaß auf R.
C 2 Verteilungsfunktion und Quantilfunktion
193
Bemerkung C 2.4. (i) F¨ ur Verteilungsfunktionen k¨onnen folgende Rechenregeln abgeleitet werden: P(a < X b) = FX (b) − FX (a),
a < b.
P(t < X) = 1 − F (t),
t ∈ R.
X
(ii) Es gilt: P(X = x) = FX (x) − FX (x−), wobei FX (x−) =
lim
t→x,t<x
FX (t), d.h. FX
ist stetig in x genau dann, wenn P(X = x) = 0 ist. Ansonsten liegt bei x eine Sprungstelle von FX vor. Aus P(X = x) = 0 folgt zun¨achst die linksseitige Stetigkeit von FX an der Stelle x. Da FX als Verteilungsfunktion ohnehin rechtsseitig stetig ist, folgt dann auch die Stetigkeit von FX an der Stelle x. Gilt daher P(X = x) = 0, so folgt insbesondere die f¨ ur stetige Verteilungsfunktionen stets erf¨ ullte Beziehung P(x X) = 1 − FX (x).
Weiterhin gilt, dass es h¨ ochstens abz¨ahlbar viele Punkte x ∈ R mit P(X = ochstens abz¨ahlbar viele Unstetigkeitsstellen der x) > 0 gibt, d.h es gibt h¨ Verteilungsfunktion. (iii) Seien PX ein diskretes Wahrscheinlichkeitsmaß und {x1 , x2 , . . . }, xi < xi+1 , i ∈ N, eine Abz¨ ahlung des Tr¨agers von PX . Dann gilt: PX ( (−∞, xi+1 ) ) = PX ((−∞, xi ]) + PX ((xi , xi+1 )).
offenes Intervall
=FX (xi )
=0
Somit ist FX eine Treppenfunktion, die Spr¨ unge an den Tr¨agerpunkten xi besitzt und zwischen je zwei Tr¨agerpunkten konstant ist. (iv) Ist ein Wahrscheinlichkeitsmaß P u ¨ber die Verteilungsfunktion F gegeben, so dass F auf {y : 0 < F(y) < 1} = (a, b) stetig differenzierbar ist, so wird durch ⎧ xa ⎪ ⎨0, f(x) = F (x), a < x < b ⎪ ⎩ 0, xb die zu P geh¨ orige Riemann-Dichtefunktion erkl¨art. Beispiel C 2.5. (i) Die Z¨ahldichte der bin(5, 12 )-Verteilung ist bestimmt durch x 5 5−x 5 1 1 − 12 = x5 12 , x ∈ {0, . . . , 5} X x 2 p (x) = sonst 0, mit supp(PX ) = {0, . . . , 5}. Daher ist die Verteilungsfunktion gegeben durch ⎧ ⎪ 0, x<0 ⎪ ⎪ ⎨ x X 5 F (x) = 215 0x5, i , ⎪ ⎪ i=0 ⎪ ⎩ 1, x>5
194
C Zufallsvariablen
wobei x = max{z ∈ Z|z x} die sogenannte untere Gauß-Klammer von x ∈ R bezeichnet.
1,0 0,8 0,6 F(x) 0,4 0,2 −1
0
1
2
3
4
5
6
x
Abb. C 2.1. Verteilungsfunktion einer bin(5, 12 )-Verteilung.
(ii) Die Verteilungsfunktion der Exponentialverteilung mit Parameter λ > 0 ist gegeben durch (s. Bezeichnung B 3.7) 0, x0 F(x) = 1 − e−λx , x > 0 und damit stetig auf R.
1 F(x)
x
Abb. C 2.2. Verteilungsfunktion einer Exp(λ)-Verteilung.
Ist die Verteilungsfunktion streng monoton wachsend, so kann die Umkehrfunktion gebildet werden. In einer allgemeineren Definition werden auch Verteilungsfunktionen zugelassen, die st¨ uckweise konstant sind. Definition C 2.6 (Quantilfunktion). Sei F eine Verteilungsfunktion. Dann heißt die durch F−1 (y) = inf {x ∈ R | F(x) y}, y ∈ (0, 1), definierte Funktion F−1 : (0, 1) → R Quantilfunktion oder Pseudoinverse von F. Eigenschaften der Quantilfunktion sind in Lemma C 2.7 zusammengestellt.
C 2 Verteilungsfunktion und Quantilfunktion
195
Lemma C 2.7. Sei F−1 die Quantilfunktion der Verteilungsfunktion F. Dann gilt: (i) F−1 ist monoton wachsend und linksseitig stetig. (ii) F¨ ur alle x ∈ R und y ∈ (0, 1) gilt: (a) F(x) y ⇐⇒ x F−1 (y), (b) F(x−) y ⇐⇒ x F−1 (y+), (c) F(F−1 (y)−) y F(F−1 (y)), (d) F−1 (F(x)) x F−1 (F(x)+). Dabei bezeichnen g(t+) und g(t−) den rechtsseitigen bzw. linksseitigen Grenzwert der Funktion g an der Stelle t ∈ R. (iii) Sei X eine Zufallsvariable mit stetiger Verteilungsfunktion F. Dann ist F(X) ∼ R(0, 1). (iv) Sei Y ∼ R(0, 1). Dann ist F−1 (Y) ∼ F. In Lemma C 2.7 (ii) (c) und (d) gilt offenbar Gleichheit, wenn F im Punkt F−1 (y) bzw. wenn F−1 im Punkt F(x) stetig ist. Die Aussage in Lemma C 2.7 (iv) findet u.a. in der Simulation Verwendung und zeigt auf, wie eine rechteckverteilte Zufallsvariable transformiert wird, um eine Zufallsvariable mit Verteilungsfunktion F zu erhalten. ur die F(x) p oder kleinste Werte x ∈ R, f¨ ur die F(x) > Gr¨ oßte Werte x ∈ R, f¨ 1 − q gilt, spielen in der Schließenden Statistik (bei statistischen Tests) eine wichtige Rolle und werden Quantile genannt. Quantile werden im Rahmen der Beschreibenden Statistik bereits in den Abschnitten A 3.1 und A 3.2 behandelt. Definition C 2.8 (Quantil). F¨ ur p ∈ (0, 1) heißt Qp = F−1 (p) das p-Quantil von F bzw. der zu F geh¨ origen Wahrscheinlichkeitsverteilung P. Ist F streng monoton wachsend und stetig, so ist Qp die eindeutige L¨osung der Gleichung F(x) = p in x ∈ R. Beispiel C 2.9. Seien Φ die Verteilungsfunktion und uα , α ∈ (0,1), das α-Quantil der Standardnormalverteilung. Nach Definition C 2.8 ist uα die eindeutige L¨osung von Φ(uα ) = α. Wegen Φ(x) = 1 − Φ(−x), x ∈ R, (s. (B.1)) ist dies ¨aquivalent zu Φ(−uα ) = 1 − α. Andererseits ist u1−α die eindeutige L¨osung der Gleichung Φ(u1−α ) = 1 − α. Somit folgt also f¨ ur α ∈ (0,1) −uα = u1−α .
Eine entsprechende Gleichung gilt f¨ ur alle stetigen Verteilungen mit achsensymmetrischer Riemann-Dichte. Ein weiteres Beispiel ist die t-Verteilung t(n) mit n Freiheitsgraden. Auch hier gilt f¨ ur die zugeh¨ origen Quantile tα (n) die Beziehung −tα (n) = t1−α (n),
α ∈ (0,1).
196
C Zufallsvariablen
Bemerkung C 2.10. Quantile werden in der Beschreibenden Statistik f¨ ur einen Datensatz x1 , . . . , xn definiert (s. Definition A 3.9). Dies entspricht im Wesentlichen dem hier eingef¨ uhrten Begriff, wenn die empirische Verteilungsfunktion Fn zum Datensatz x1 , . . . , xn an Stelle der Verteilungsfunktion F eingesetzt wird. Entsprechend werden die Bezeichnungen aus Bezeichnung A 3.5 f¨ ur Quantile mit ur das 0,25-Quantil etc.). speziellen Werten von p verwendet (z.B. Quartil f¨
C 3 Mehrdimensionale Zufallsvariablen und Verteilungen Zufallsvektoren, die auch als mehrdimensionale Zufallsvariablen bezeichnet werden, werden in Definition C 1.3 als Funktionen von Ω nach Rn eingef¨ uhrt. Analog zu Definition C 1.5 spricht man von der Verteilung PX von X = (X1 , . . . , Xn ). Hierbei sind die Mengen A, die in PX eingesetzt werden k¨onnen, aus einer geeigneten σ-Algebra zu w¨ahlen. In diesem Skript werden zur Vereinfachung nur Zufallsvektoren betrachtet, die entweder in allen Komponenten diskret sind oder Riemann-Dichten besitzen (s. Definition C 3.7). Die gemeinsame Verteilung der Zufallsvariablen X1 , . . . , Xn ist durch die Angabe aller Wahrscheinlichkeiten P(X1 ∈ A1 , . . . , Xn ∈ An ), f¨ ur alle Ai ∈ Ai , i ∈ {1, . . . , n}, bestimmt. Im diskreten Fall kann man sich dabei auf einelementige Mengen beschr¨anken; im Fall von Riemann-Dichten gen¨ ugt es, f¨ ur Ai alle halboffenen Intervalle im Rn zu betrachten. Wie im eindimensionalen Fall wird die Verteilungsfunktion zur Beschreibung der uhrt. Wahrscheinlichkeitsverteilung PX eingef¨ Definition C 3.1 (Multivariate Verteilungsfunktion). Sei X = (X1 , . . . , Xn ) ein Zufallsvektor mit Wahrscheinlichkeitsverteilung PX . Die durch FX (x) = PX ((−∞, x1 ] × · · · × (−∞, xn ]) = P(X1 ∈ (−∞, x1 ], . . . , Xn ∈ (−∞, xn ]) = P(X1 x1 , . . . , Xn xn ),
(x1 , . . . , xn ) ∈ Rn ,
definierte Funktion heißt multivariate (oder mehrdimensionale) Verteilungsfunktion. F¨ uhrt man f¨ ur einen diskreten n-dimensionalen Zufallsvektor X = (X1 , . . . , Xn ) mit Verteilung PX analog zum eindimensionalen Fall den Tr¨ager T = supp(PX1 ,...,Xn ) = {(x1 , . . . , xn ) ∈ Rn | P(X1 = x1 , . . . , Xn = xn ) > 0}
ein, so heißt die Funktion pX : Rn → [0, 1] mit PX ({x}) = P(X = x) = P(X1 = x1 , . . . , Xn = xn ), x ∈ T X p (x) = 0, x∈ /T
C 3 Mehrdimensionale Zufallsvariablen und Verteilungen
197
Z¨ahldichte von PX (bzw. von X) mit Tr¨ager T . Die Verteilungsfunktion FX l¨asst sich schreiben als FX (x1 , . . . , xn ) = pX (t1 , . . . , tn ), (x1 , . . . , xn ) ∈ Rn . (t1 ,...,tn )∈T, ti xi , 1in
In vielen Anwendungen sind die gemeinsame Verteilung einer Auswahl von Komponenten des Vektors X und die Verteilungen der Komponenten Xi des Vektors von Interesse. Diese heißen Rand- oder Marginalverteilungen. Bezeichnung C 3.2 (Randverteilung, Marginalverteilung). Sei X = (X1 , . . . , Xn ) ein Zufallsvektor mit Verteilung PX . Die Verteilung von (Xi1 , . . . , Xim ) f¨ur m (< n) Indizes mit 1 i1 < · · · < im n heißt m-dimensionale Rand- oder Marginalverteilung zu (i1 , . . . , im ). Die Verteilung von Xi heißt i-te Rand- oder Marginalverteilung. Sei X = (X1 , . . . , Xn ) ein Zufallsvektor mit Verteilung PX . Die Randverteilung von (Xi1 , . . . , Xim ) wird bestimmt, indem in den nicht ben¨ otigten Komponenten“ R als Menge eingesetzt wird:
”
m
Sei B =
× [aj , bj ] das kartesische Produkt von Intervallen [aj , bj ], j ∈ {1, . . . , m}. j=1
Dann ist P(Xi1 ,...,Xim ) (B) = P(Xi1 ∈ [a1 , b1 ], . . . , Xim ∈ [am , bm ]) = P(Xij ∈ [aj , bj ], j ∈ {1, . . . , m}, und Xj ∈ R, j ∈ {1, . . . , n} \ {i1 , . . . , im }).
Insbesondere ist die Verteilungsfunktion FXi der i-ten Randverteilung bestimmt durch FXi (x) = PX (R × · · · × R × (−∞, x] ×R × · · · × R).
i-te Komponente
Die eindimensionalen Randverteilungen legen die gemeinsame Verteilung nicht eindeutig fest, wie das folgende Beispiel zeigt. Beispiel C 3.3. Seien X = (X1 , X2 ), Y = (Y1 , Y2 ) Zufallsvektoren auf dem Wahrscheinlichkeitsraum (Ω, A, P) mit X(Ω) = Y(Ω) = {0, 1}2 = {(0, 0), (1, 0), (0, 1), (1, 1)}, 1 PX ((0, 1)) = PX ((1, 0)) = , PX ((0, 0)) = PX ((1,1)) = 0, 2 1 PY ((0, 0)) = PY ((1, 1)) = . PY ((0, 1)) = PY ((1, 0)) = 0, 2
Damit ist offensichtlich PX = PY . F¨ ur die Randverteilungen gilt jedoch: PX1 (j) = PX ({j} × R) = P(X1 = j, X2 ∈ {0, 1})
198
C Zufallsvariablen
= P(X1 = j, X2 = 0) + P(X1 = j, X2 = 1) 1 = PX ((j, 0)) + PX ((j, 1)) = , j ∈ {0,1}, 2
und analog PY1 (j) = PY ((j, 0)) + PY ((j, 1)) =
1 , 2
j ∈ {0, 1}.
Also ist PX1 = PY1 . Ebenso zeigt man PX2 = PY2 . Beispiel C 3.4. Diskrete endliche mehrdimensionale Verteilungen werden oft in Form einer sogenannten Wahrscheinlichkeitstafel oder Kontingenztafel notiert. Die Wahrscheinlichkeitsverteilungen P(X1 ,X2 ) und P(Y1 ,Y2 ) aus Beispiel C 3.3 wer(X1 ,X2 ) den dann geschrieben als (pij = P(X1 = i, X2 = j) etc.) X2 (X ,X ) pij 1 2
X1
Y2
0
1
P(X1 = i)
0
0
1 2
1
1 2 1 2
0
1 2 1 2
P(X2 = j)
1 2
1
(Y ,Y ) pij 1 2
0
1
P(Y1 = i)
0
1 2
0
1
0
P(Y2 = j)
1 2
1 2 1 2
1 2 1 2
Y1
1
(vgl. dazu auch die Darstellung von H¨aufigkeiten in Abschnitt A 7.1). Die Zeilenund Spaltensummen f¨ uhren zu den Randverteilungen. Die Aussage aus Beispiel C 3.3 ist anhand der beiden Tafeln offensichtlich. Ein Beispiel f¨ ur eine multivariate diskrete Wahrscheinlichkeitsverteilung wurde in Bezeichnung B 2.7 mit der Polynomialverteilung bereits gegeben. Diese wird hier in der Notation mit Zufallsvariablen wiederholt und interpretiert. Beispiel C 3.5 (Verallgemeinertes Bernoulli-Experiment ). Ein Zufallsexperiment oglichen Ergebnissen Ai , 1 i m, die als Mengen beliefere eines von m 2 m¨ schrieben seien. Seien A1 , . . . , Am paarweise disjunkt mit P(Aj ) = pj , 1 j m, m pj = 1. Nun betrachtet man die n-malige unabh¨ angige Versuchswiederund j=1
holung und beschreibt dieses Experiment u ¨ber dem Grundraum Ω = {1, . . . , m}n . Interessiert man sich f¨ ur die Verteilung der Ergebnisse und beschreibt mit der Zufallsvariablen Xj die Anzahl des Auftretens von Ereignis Aj bei n Versuchen, m 1 j m, so kann man f¨ ur kj ∈ N0 , 1 j m, mit kj = n zeigen: j=1
P(X1 = k1 , . . . , Xm = km ) = P({ω ∈ Ω | X1 (ω) = k1 , . . . , Xm (ω) = km }) = P(X1 ,...,Xm ) ({(k1 , . . . , km )}) n! pki i . k1 ! · . . . · km ! m
=
i=1
C 3 Mehrdimensionale Zufallsvariablen und Verteilungen
199
Die Randverteilung von X1 ist gegeben durch die Z¨ahldichte (k ∈ {0, . . . , n}) n k X1 (X1 ,...,Xm ) P ({k}) = P ({k} × R × · · · × R) = · · · = p (1 − p1 )n−k , k 1 und damit eine bin(n, p1 )-Verteilung. Dies gilt entsprechend f¨ ur die anderen eindimensionalen Randverteilungen mit pj an Stelle von p1 . Bei stochastisch unabh¨angigen Zufallsvariablen ist die gemeinsame Verteilungsfunktion eindeutig durch die Verteilungsfunktionen der eindimensionalen Randverteilungen bestimmt. Satz C 3.6. X1 , . . . , Xn sind stochastisch unabh¨angige Zufallsvariablen mit Verteilungsfunktionen FX1 , . . . , FXn genau dann, wenn F(X1 ,...,Xn ) (x1 , . . . , xn ) = FX1 (x1 ) · . . . · FXn (xn )
∀(x1 , . . . , xn ) ∈ Rn .
Der Begriff der Riemann-Dichte zur Beschreibung einer Wahrscheinlichkeitsverteilung wird auf den n-dimensionalen Fall u ¨bertragen. Definition C 3.7 (Riemann-Dichtefunktion). Eine Riemann-integrierbare Funktion f : Rn → R heißt Riemann-Dichtefunktion (oder Riemann-Dichte oder kurz Dichte) u ¨ber Rn , falls f(x) 0, x ∈ Rn , und ∞
∞
f(x1 , . . . , xn )dx1 . . . dxn = 1
... −∞
−∞
gilt. Eine Riemann-Dichte legt eindeutig ein Wahrscheinlichkeitsmaß u ¨ber Rn fest. Bemerkung C 3.8. Ist f eine Dichte u ¨ber Rn , so ist die zugeh¨orige Verteilungsfunktion F stetig und gegeben durch xn
F(x1 , . . . , xn ) =
x1
··· −∞
f(y1 , . . . , yn )dy1 · · · dyn ,
(x1 , . . . , xn ) ∈ Rn .
−∞
Wahrscheinlichkeiten f¨ ur das zugeh¨ orige Wahrscheinlichkeitsmaß P bestimmt man u ¨ber die Integraldarstellung P
× n
[ai , bi ]
bn
=
i=1
b 1
··· an
f(y1 , . . . , yn )dy1 . . . dyn a1
f¨ ur alle a = (a1 , . . . , an ) ∈ R und b = (b1 , . . . , bn ) ∈ Rn mit ai bi , 1 i n. Die eindimensionalen Intervalle [ai , bi ], 1 i n, k¨ onnen dabei auch ¨ (ohne Anderung des Wertes der Wahrscheinlichkeit) durch halboffene oder offene Intervalle ersetzt werden. n
200
C Zufallsvariablen
Beispiel C 3.9. Eine zweidimensionale Dichtefunktion ist gegeben durch 2e−(2x+y) , x,y 0 f(x,y) = . sonst 0, Die zugeh¨ orige Verteilungsfunktion berechnet sich zu x,y 0 (1 − e−2x )(1 − e−y ), F(x,y) = . 0, sonst Bezeichnung C 3.10 (Multivariate Normalverteilung). Ein n-dimensionaler Zufallsvektor X = (X1 , . . . , Xn ) besitzt eine multivariate Normalverteilung mit den Parametern μ ∈ Rn und Σ, wobei Σ eine positiv definite (n × n)-Matrix ist, falls X die Dichte 1 1 −1 f(x) = exp − (x − μ)Σ (x − μ) , x = (x1 , . . . , xn ) ∈ Rn , 2 (2π)n det(Σ) hat. (Eine symmetrische (n × n)-Matrix A heißt positiv definit, falls xAx > 0 f¨ur alle Zeilenvektoren x ∈ Rn mit x = 0.) Als Notation wird X ∼ Nn (μ, Σ) verwendet. F¨ ur μ = (0, . . . ,0) und Σ = In (ndimensionale Einheitsmatrix) heißt Nn (0, In ) multivariate Standardnormalverteilung. Beispiel C 3.11 (Bivariate Normalverteilung). Die bivariate Normalverteilung eiur x1 , x2 ∈ R) nes Zufallsvektors (X1 , X2 ) ist definiert durch die Dichtefunktion (f¨ % 1 1 (x1 − μ1 )2 fX1 ,X2 (x1 , x2 ) = exp − 2(1 − ρ2 ) σ21 2πσ1 σ2 1 − ρ2 & (x1 − μ1 )(x2 − μ2 ) (x2 − μ2 )2 − 2ρ + (C.1) σ1 σ2 σ22 mit den f¨ unf Parametern μ1 , μ2 ∈ R, σ21 , σ22 > 0 und ρ ∈ (−1, 1). Sie wird bezeichnet mit (X1 , X2 ) ∼ N2 (μ1 , μ2 , σ21 , σ22 , ρ). Die Dichtefunktion wird direkt aus der in Bezeichnung C 3.10 gegebenen Dichte der multivariaten Normalverteilung hergeleitet. Als Matrix Σ wird 2 σ1 ρσ1 σ2 Σ= ∈ R2×2 ρσ1 σ2 σ22 gew¨ahlt, deren Determinante det Σ = σ21 σ22 (1−ρ2 ) ist. Dies impliziert insbesondere nach dem Minorantenkriterium (vgl. Kamps et al., 2003), dass Σ nur f¨ ur ρ ∈ (−1, 1) positiv definit ist. Der Vektor μ ist gegeben durch μ = (μ1 , μ2 ) ∈ R2 . Ausmultiplizieren des Arguments der Exponentialfunktion in Beispiel C 3.10 mit 1 −ρ/(σ1 σ2 ) 1/σ21 Σ−1 = 1/σ22 1 − ρ2 −ρ/(σ1 σ2 ) liefert die Darstellung in (C.1). Grafen verschiedener Dichtefunktion sind in den Abbildungen C 3.1 und C 3.2 dargestellt.
C 3 Mehrdimensionale Zufallsvariablen und Verteilungen
201
Abb. C 3.1. Dichtefunktion einer bivariaten Standardnormalverteilung N2 (0, 0, 1, 1, 0).
Abb. C 3.2. Dichtefunktion einer bivariaten Normalverteilung N2 (0, 0, 1, 4, 12 ).
Die i-te Randdichte einer multivariaten Verteilung, die durch ihre n-dimensionale Dichte bestimmt ist, erh¨alt man durch Integration. Bemerkung C 3.12. Sei X = (X1 , . . . , Xn ) ein Zufallsvektor mit Dichte fX . Dann gilt f¨ ur die i-te Randdichte (i.e. die Dichtefunktion der i-ten Randverteilung) mit t ∈ R: ∞
f (t) = Xi
∞
fX (x1 , . . . , xi−1 , t, xi+1 , . . . , xn )dx1 . . . dxi−1 dxi+1 . . . dxn .
... −∞
−∞
Die multivariate Normalverteilung hat die besondere Eigenschaft, dass die Randverteilungen wiederum Normalverteilungen sind. F¨ ur die bivariate Normalverteilung ist diese Aussage im folgenden Satz enthalten.
202
C Zufallsvariablen
Satz C 3.13. Sei (X1 , X2 ) ∼ N2 (μ1 , μ2 , σ21 , σ22 , ρ). Dann gilt: X1 ∼ N(μ1 , σ21 ),
X2 ∼ N(μ2 , σ22 ).
Beweis. (X1 , X2 ) hat die in (C.1) gegebene Dichte. Das Argument der Exponentialfunktion kann durch eine geeignete quadratische Erg¨ anzung als Summe zweier Quadrate geschrieben werden: (x1 − μ1 )2 (x1 − μ1 )(x2 − μ2 ) (x2 − μ2 )2 − 2ρ + σ21 σ1 σ2 σ22 (x1 − μ1 )2 (x1 − μ1 )(x2 − μ2 ) ρ2 (x2 − μ2 )2 (1 − ρ2 )(x2 − μ2 )2 − 2ρ + + 2 2 σ1 σ1 σ2 σ2 σ22 2 x1 − μ1 ρ(x2 − μ2 ) (1 − ρ2 )(x2 − μ2 )2 = − + σ1 σ2 σ22 =
=
(x1 − μ1 −
σ1 ρ(x2 −μ2 ) 2 ) σ2 σ21
+
(1 − ρ2 )(x2 − μ2 )2 . σ22
Daraus ergibt sich f¨ ur die Dichte in (C.1) die Faktorisierung fX1 ,X2 (x1 , x2 ) = g(x1 , x2 ) · h(x2 ),
(C.2)
wobei % &2 1 σ1 ρ(x2 − μ2 ) 1 g(x1 , x2 ) = √ exp − (C.3) x1 − μ1 − 2 2 2(1 − ρ )σ1 σ2 2πσ1 1 − ρ2 1 (x − μ2 )2 exp − . und h(x2 ) = √ 2σ22 2πσ2 Dabei ist g(·,x2 ) f¨ ur jedes feste x2 ∈ R die Dichte einer N μ1 + σ1 ρ(xσ22−μ2 ) , (1 − ρ2 )σ21 Verteilung, h ist Dichte einer N(μ2 , σ22 )-Verteilung. Die Integration bzgl. x1 liefert nun ∞ ∞ fX2 (x2 ) = fX1 ,X2 (x1 , x2 )dx1 = h(x2 ) g(x1 , x2 )dx1 = h(x2 ), −∞ −∞
=1
da das Integral u ¨ber eine Dichtefunktion stets gleich Eins ist. Damit ist fX2 die Dichte 2 einer N(μ2 , σ2 )-Verteilung. Eine analoge Argumentation liefert die Randverteilung von X1 .
F¨ ur Dichten multivariater Verteilungen gilt ferner allgemein der folgende Zusammenhang zur stochastischen Unabh¨angigkeit. Satz C 3.14. X1 , . . . , Xn sind stochastisch unabh¨angige Zufallsvariablen mit Dichten fX1 , . . . , fXn genau dann, wenn f(X1 ,...,Xn ) (x1 , . . . , xn ) =
n i=1
fXi (xi )
∀(x1 , . . . , xn ) ∈ Rn .
C 4 Transformationen von Zufallsvariablen
203
Im Fall der stochastischen Unabh¨angigkeit ist also die gemeinsame Dichte gerade durch das Produkt der Randdichten gegeben. F¨ ur die bivariate Normalverteilung liefert Satz C 3.14 eine einfache Charakterisierung der stochastischen Unabh¨angigkeit. Satz C 3.15. Sei (X1 , X2 ) ∼ N2 (μ1 , μ2 , σ21 , σ22 , ρ). Dann gilt: X1 , X2 stochastisch unabh¨ angig ⇐⇒ ρ = 0. Beweis. Ist ρ = 0, so resultiert direkt die geforderte Produktdarstellung aus (C.1) mit den Eigenschaften der Exponentialfunktion. Sei umgekehrt die Gleichung fX1 ,X2 (x1 , x2 ) = ur alle x1 , x2 ∈ R gegeben. Dann gilt speziell f¨ ur x1 = μ1 und x2 = μ2 fX1 (x1 ) · fX2 (x2 ) f¨ fX1 ,X2 (μ1 , μ2 ) = fX1 (μ1 ) · fX2 (μ2 ) ⇐⇒
Die letzte Gleichung ist ¨ aquivalent zu
2πσ1 σ2
1
1 − ρ2
1 1 = √ ·√ . 2πσ1 2πσ2
1 − ρ2 = 1 bzw. ρ2 = 0.
C 4 Transformationen von Zufallsvariablen Ausgehend von einer Wahrscheinlichkeitsverteilung wird in der Analyse stochastischer Modelle h¨aufig die Verteilung transformierter Zufallsvariablen oder Zufallsvektoren ben¨ otigt. Als Hilfsmittel zur Berechnung der Verteilungen derartiger Transformationen werden nachfolgend f¨ ur Zufallsvariablen und Zufallsvektoren mit Riemann-Dichten sogenannte Transformationsformeln betrachtet. Im Eindimensionalen wird meist ¨ uber die Verteilungsfunktion argumentiert. Beispiel C 4.1. (i) Die Normalverteilung wurde in Bezeichnung B 3.13 eingef¨ uhrt. Dort wurde bereits die folgende Eigenschaft erw¨ahnt: Ist X standardnormalverteilt und sind μ ∈ R, σ > 0 Parameter, so gilt Y = σX + μ ∼ N(μ, σ2 ),
d.h. die lineare Transformation Y einer normalverteilten Zufallsvariablen X ist wiederum normalverteilt. F¨ ur y ∈ R gilt n¨amlich: 2 y−μ σ x y−μ 1 √ exp − = dx FY (y) = P(Y y) = P X σ 2 2π −∞ y 1 (x − μ)2 =√ exp − dx = Φμ,σ2 (y), 2σ2 2πσ −∞ 2 1 da f(x) = √2πσ exp − (x−μ) , x ∈ R, die Dichte der N(μ, σ2 )-Verteilung 2σ2 ist. Andererseits folgt mit derselben Argumentation: Ist Y ∼ N(μ, σ2 ), so gilt X = Y−μ σ ∼ N(0, 1). Da also jede Normalverteilung (durch eine lineare Transformation) auf eine Standardnormalverteilung transformiert werden kann,
204
C Zufallsvariablen
m¨ ussen nur f¨ ur diese numerische Werte vorliegen; diese findet man in Tabellen zusammengefasst in vielen B¨ uchern zur Statistik (s. z.B. Hartung et al., 2005). Der Zusammenhang wird in der Schließenden Statistik bei zugrundegelegten Normalverteilungen oft verwendet. (ii) Seien X ∼ N(0, 1) und Y = X2 . F¨ ur die Verteilung des Quadrats einer standardnormalverteilten Zufallsvariablen gilt aufgrund der Beziehung Φ(x) = 1 − Φ(−x): FY (y) = P(X2 y) = 0, falls y 0, √ √ √ FY (y) = P(X2 y) = P(− y X y) = Φ( y) − Φ(− y) √ = 2Φ( y) − 1, falls y > 0.
Damit gilt f¨ ur die Dichte von Y f¨ ur y > 0: fY (y) =
√ 1 d Y 1 F (y) = 2ϕ( y) · √ = √ y−1/2 e−y/2 . dy 2 y 2π
√ Wegen Γ ( 12 ) = π ist Y ∼ χ2 (1) bzw. Y ∼ Γ ( 21 , 12 ). Damit ist auch die Verteilung einer Summe X21 + · · · + X2n stochastisch unabh¨angiger N(0, 1)n X21 ∼ χ2 (n) verteilter Zufallsvariablen X1 , . . . , Xn wiederum χ2 -verteilt: i=1
(bzw. ∼ Γ ( 12 , n2 )) (vgl. Beispiel C 1.16(i)). (iii) Analog zu (i) resultiert f¨ ur X ∼ Γ (α, β) und a > 0 die Eigenschaft α aX ∼ Γ ( , β). a
F¨ ur Rechnungen dieser Art kann eine Transformationsformel f¨ ur Dichten angegeben werden, aus der auch das Ergebnis in Beispiel C 4.1 (i) direkt folgt. Satz C 4.2 (Transformationsformel f¨ ur Dichtefunktionen). Die Zufallsvariable X habe die Riemann-Dichte fX mit > 0, x ∈ (a, b) X f (x) . = 0, sonst. Weiterhin sei die Funktion g : (a, b) → (c, d) bijektiv und stetig differenzierbar mit stetig differenzierbarer Umkehrfunktion g−1 . Dann besitzt die transformierte Zufallsvariable Y = g(X) die Dichte |(g−1 ) (y)|fX (g−1 (y)), y ∈ (c, d) Y f (y) = . sonst 0,
C 4 Transformationen von Zufallsvariablen
205
Bemerkung C 4.3. Die obige Formel enth¨alt die Ableitung der Umkehrfunktion. Unter den Voraussetzungen des Satzes gilt mit einer Formel f¨ ur die Ableitung 1 der Umkehrfunktion (s. z.B. Kamps et al., 2003) (g−1 ) (y) = g (g−1 (y)) die Darstellung fX (g−1 (y)) , y ∈ (c, d). fY (y) = −1 |g (g (y))| Auf die linearen Transformationen in Beispiel C 4.1 (i) und (iii) ist der Satz direkt anwendbar mit g(x) = σx + μ und g(x) = ax, x ∈ R. Die Funktion g(x) = x2 ist auf R nicht bijektiv, so dass Satz C 4.2 in Beispiel C 4.1 (ii) nicht von Nutzen ist. F¨ ur mehrdimensionale Verteilungen sind Anwendungen f¨ ur Transformationen vielf¨altiger, der entsprechende Satz aber auch komplizierter. Eine Anwendung eines allgemeinen Transformationssatzes f¨ ur mehrdimensionale Dichten ist auch die Bestimmung der Verteilung einer Summe von Zufallsvariablen. Im Fall der stochastischen Unabh¨angigkeit wurde die Faltungsformel bereits in Satz C 1.15 angegeben. Zur Herleitung dieser Formel wird folgendermaßen vorgegangen: F¨ ur den Zufallsvektor (X1 , . . . , Xn ) bestimmt man mit Hilfe von Satz C 4.4 die gen Xi ) und berechnet dann die n-te Marmeinsame Dichte von (X1 , X1 + X2, . . . , i=1
ginalverteilung des transformierten Vektors. Satz C 4.4 (Transformationssatz f¨ ur Dichten). Sei X = (X1 , . . . , Xn ) ein Zufallsvektor auf (Ω, A, P) mit n-dimensionaler Dichte fX . Es existiere eine offene Menge M ⊆ Rn mit fX (x1 , . . . , xn ) = 0 ∀(x1 , . . . , xn ) ∈ Mc . Weiterhin sei T : (Rn , Bn ) → (Rn , Bn ) eine stetig differenzierbare Abbildung mit (i) T = T |M ist injektiv (T ist die Einschr¨ankung oder Restriktion von T auf M), (ii) alle partiellen Ableitungen von T sind stetig auf M und (iii) die Funktionaldeterminante erf¨ ullt ∂T i (x1 , . . . , xn ) Δ(x1 , . . . , xn ) = det = 0 ∀(x1 , . . . ,xn ) ∈ M. ∂xj 1i,jn
Dann gilt: Der Zufallsvektor Y = T (X) besitzt die Dichte fY (y1 , . . . , yn ) =
fX (T −1 (y1 , . . . , yn )) 1IT (M) (y1 , . . . , yn ). |Δ(T −1 (y1 , . . . , yn ))|
Die Anwendung des Transformationssatzes C 4.4 auf eine Abbildung T mit T (x) = xA + b,
x ∈ Rn ,
mit einer invertierbaren Matrix A ∈ Rn×n und b ∈ Rn ist oft von Bedeutung. Sind X und Y n-dimensionale Zufallsvektoren mit Y = T (X) = XA + b, so ist
206
C Zufallsvariablen
die Funktionaldeterminante Δ(x) = det(A ) konstant und gem¨aß Voraussetzung ungleich Null. Die Umkehrabbildung zu T ist gegeben durch T −1 (y) = (y−b)A−1 , y ∈ Rn . Der Transformationssatz liefert dann wegen det(A) = det(A ) fY (y1 , . . . , yn ) =
fX ((y − b)A−1 ) , | det(A)|
y = (y1 , . . . , yn ) ∈ Rn .
(C.4)
Beispiel C 4.5. F¨ ur den zweidimensionalen Fall wird die Faltungsformel ¨uber den oben beschriebenen Weg hergeleitet. Der Zufallsvektor X = (X1 , X2 ) habe die Dichte fX . Die Transformation T mit T (x1 , x2 ) = (x1 , x1 + x2 ) = (x1 , x2 )A mit A = 10 11 hat die Umkehrabbildung T −1 mit T −1 (y1 , y2 ) = (y1 , y2 − y1 ) = ∂Ti (y1 , y2 )A−1 = (y1 , y2 ) 10 −1 = det(A ) = det 11 01 = 1 . Wegen det ∂xj 1i,j2
1 ist die Dichte von T (X) = (X1 , X1 + X2 ) gegeben durch fT (X) (y1 , y2 ) = fX (y1 , y2 − y1 ).
Die Dichte von Z = X1 + X2 ist die zweite Randdichte von T (X): ∞ Z f (z) = fX (y1 , z − y1 ) dy1 , z ∈ R. −∞
Im speziellen Fall der Unabh¨angigkeit von X1 und X2 gilt (s. Satz C 1.15) ∞ X1 +X2 f (z) = fX1 (y1 )fX2 (z − y1 ) dy1 , z ∈ R. −∞
C 5 Erwartungswerte, Varianz, Kovarianz und Korrelation ¨ Der Oberbegriff der in der Uberschrift genannten Gr¨oßen ist Momente“. Diese ” sind Kenngr¨ oßen von Wahrscheinlichkeitsverteilungen, beschreiben deren Eigenschaften und dienen dem Vergleich von Wahrscheinlichkeitsverteilungen. Im einfachen W¨ urfelwurf mit den m¨ oglichen Ergebnissen 1, . . . , 6 ist das mittlere“ ” Ergebnis intuitiv 16 · 1 + · · · + 16 · 6 = 3,5. Diese Zahl ist selbst offenbar kein m¨ ogliches Ergebnis des W¨ urfelwurfs. Versteht man das Zufallsexperiment jedoch als Gl¨ ucksspiel mit der Auszahlung i e, wenn Zahl i erscheint, so ist 3,5 e die mittlere Auszahlung und direkt interpretierbar. F¨ ur stetige Wahrscheinlichkeitsverteilungen kann folgende Motivation gegeben werden: F¨ ur eine Zufallsvariable X mit Dichte f entspricht die markierte Fl¨ache in Abbildung C 5.1 der Wahrscheinlichkeit P(X ∈ (x,x + Δx)), die durch Δx · f(x) angen¨ahert wird. Da der Beitrag“ zum durchschnittlichen Wert etwa x · Δx · f(x) ” ∞ ist, erscheint xf(x)dx als sinnvolle Definition des Erwartungswerts. Die Defini−∞
tion des Erwartungswerts ist formal aufw¨andig, weil ber¨ ucksichtigt werden muss, dass die mathematischen Operationen (Summation bzw. Integration) wohldefiniert sind. Zun¨achst wird der eindimensionale Fall, d.h. Momente von Zufallsvariablen, behandelt.
C 5 Erwartungswerte, Varianz, Kovarianz und Korrelation
207
Fl¨ ache
f(t)
≈ Δx · f(x)
x x + Δx
t
Abb. C 5.1. Approximation von P(X ∈ (x,x + Δx)) durch Δx · f(x).
Erwartungswert und Momente Definition C 5.1 (Erwartungswert). Seien (Ω, A, P) ein Wahrscheinlichkeitsraum und X eine Zufallsvariable mit (a) Z¨ahldichte p oder (b) Riemann-Dichte f. (i) Sei X(Ω) ⊆ [0, ∞) oder X(Ω) ⊆ (−∞, 0]. (a) EX ≡ E(X) = xp(x) bzw. x∈X(Ω)
(b) EX ≡ E(X) =
∞
xf(x)dx
−∞
heißt Erwartungswert von X (unter P). (ii) Ist E(max(X,0)) < ∞ oder E(min(X,0)) > −∞, dann heißt EX wie in (i) Erwartungswert von X (unter P). F¨ ur nicht negative oder nicht positive Zufallsvariablen ist der Erwartungswert immer definiert, wobei er m¨ oglicherweise den Wert ∞ oder −∞ hat. Sind positive und negative Werte m¨ oglich, dann sichern die Bedingungen in (ii) die Wohldefiniertheit. H¨aufig wird (in anderen Texten) in der Definition des Erwartungswerts nicht zugelassen, dass ein unendlicher Wert auftritt. Dann wird z.B. im diskreten Fall die absolute Konvergenz der Reihe gefordert. Im weiteren Text wird stets die Wohldefiniertheit der auftretenden Erwartungswerte vorausgesetzt. Beispiel C 5.2. (i) Sei X ∼ bin(n, p): n pk (1 − p)n−k EX = k · P (k) = k k k=0 k=1 =n(n−1 k−1 ) n
X
n
208
C Zufallsvariablen
n n − 1 k−1 p = np (1 − p)n−k k−1 k=1 n−1 n − 1 = np pk (1 − p)(n−1)−k = np, k k=0
=1
da die Summanden die Z¨ahldichte einer bin(n − 1,p)-Verteilung bilden. (ii) Sei X ∼ po(λ): ∞
EX =
kPX (k) =
k=0
∞ ∞ λk λk−1 k e−λ = λ e−λ = λ. k! (k − 1)! k=1 k=1
=1
(iii) Sei X ∼ R(a, b): b EX = x a
1 b2 − a2 b+a 1 dx = = . b−a b−a 2 2
(iv) Sei X ∼ Γ (α, β): ∞
EX =
x 0
αβ β−1 −αx β x e dx = Γ (β) α
∞
0
β αβ+1 (β+1)−1 −αx x e dx = . Γ (β + 1) α
Das letzte Integral hat den Wert 1, weil der Integrand die Dichte der Γ (α, β + aufig von Nutzen. 1)-Verteilung ist. Dieser Trick“ bei der Integration ist h¨ ” Ferner wurde verwendet, dass Γ (β + 1) = βΓ (β), β > 0, gilt. Speziell gilt f¨ ur X ∼ Exp(λ): EX = λ1 . (v) Sei X ∼ N(μ, σ2 ): ∞
EX = −∞
1 xf(x)dx = √ 2π
y= x−μ σ
=
σ = √ 2π
1 √ 2π ∞
∞
∞
−∞
2 x − (x−μ) e 2σ2 dx σ
2
(σy + μ)e−y
−∞ 2
ye−y
−∞
/2
∞ /2
dy + μ −∞
dy 1 2 √ e−y /2 2π
dy
Dichte ϕ von N(0,1) ∞ σ −y2 /2 ∞ + μ = μ, denn −e ϕ(y)dy = 1. = √ 2π
−∞ =0
−∞
C 5 Erwartungswerte, Varianz, Kovarianz und Korrelation
209
(vi) F¨ ur die Indikatorfunktion IA (s. Bezeichnung C 1.8) gilt: EIA = 0 · P(IA = 0) + 1 · P(IA = 1) = P(A).
Dies ist ein Spezialfall von (i), da IA ∼ bin(1, p) mit p = P(A). Bemerkung C 5.3. F¨ ur Zufallsvariablen X mit Werten in N0 , d.h. der Tr¨ager der diskreten Wahrscheinlichkeitsverteilung PX ist enthalten in N0 , gibt es eine alternative Berechnungsm¨ oglichkeit f¨ ur den Erwartungswert: EX =
∞
P(X n).
n=1
Beispiel C 5.4. Die Zufallsvariable X beschreibe die Wartezeit bis zum ersten Auftreten des Symbols beim unabh¨angigen Wiederholen eines M¨ unzwurfs (einschließlich des zugeh¨ origen Wurfs), bei dem die Seite des Symbols mit Wahrurfe bis zum ersten scheinlichkeit p ∈ (0, 1) f¨allt. X ist somit gleich der Anzahl W¨ Mal das Symbol erscheint. Die Z¨ahldichte von X ist gegeben durch pX (k) = P(X = k) = p(1 − p)k−1 , k ∈ N. Auch diese Verteilung bezeichnet man als geometrische Verteilung (vgl. Bezeichnung B 2.6). Hier liegt allerdings ein anderer Tr¨ager vor (N statt N0 )! Der Erwartungswert ist unter Anwendung der geometrischen Reihe gegeben durch EX =
∞
n=1 ∞
=p
∞ ∞
P(X n) = (1 − p)n−1
n=1
pX (k) =
n=1 k=n ∞
=1/p
p(1 − p)k−1
n=1 k=n
(1 − p)k−1 =
k=1
∞ ∞
1 . p
Bezeichnung C 5.5 (Moment). Als (allgemeines) Moment einer Zufallsvariablen X wird der Erwartungswert einer Funktion g(X) bezeichnet. Funktionen g mit besonderer Bedeutung werden weiter unten genannt. Zun¨achst geht es um die Bestimmung von Momenten. Dies wird f¨ ur einen Zufallsvektor und eine Funktion g von mehreren Ver¨anderlichen notiert, wobei das Ergebnis der Hintereinanderausf¨ uhrung g(X) reell ist. Satz C 5.6. Seien k ∈ N, X : Ω → Rk ein Zufallsvektor und g : Rk → R eine stetige Funktion, so dass der Erwartungswert von g(X) existiert (d.h. wohldefiniert ist). Dann gilt, falls PX diskret ist, (i) E(g(X)) = (t1 ,...,tk
)∈supp(PX )
g(t1 , . . . , tk )PX ((t1 , . . . , tk ))
210
C Zufallsvariablen
bzw. falls PX stetig ist ∞ ∞ (ii) E(g(X)) = ... g(t1 , . . . , tk )fX (t1 , . . . , tk )dt1 . . . dtk . −∞
−∞
In Satz C 5.6 wird die Erwartungswertbildung auf die Verteilung von X zur¨ uckgef¨ uhrt. Die nachstehenden Eigenschaften des Erwartungswert-Operators gelten im diskreten wie auch im stetigen Fall (d.h. bei Vorliegen einer Dichte) und sind aufgrund der Definition des Erwartungswerts unmittelbar klar. Lemma C 5.7. Seien X und Y Zufallsvariablen mit endlichem Erwartungswert und a, b ∈ R. Dann gilt: (i) Ea = a. (ii) E(aX) = aEX. (iii) E(X+Y) = EX+EY (Additivit¨at) und damit E(aX+b) = aEX+b (Linearit¨at). (iv) E(|X + Y|) E(|X|) + E(|Y|) (Dreiecksungleichung). (v) X Y (punktweise Ordnung der Funktionen, d.h. X(ω) Y(ω) f¨ur alle ω ∈ Ω) =⇒ EX EY ; insbesondere gelten EY 0, falls Y 0, und EX E(|X|). (vi) E(|X|) = 0 ⇐⇒ P(X = 0) = 0. Lemma C 5.8. Seien I eine Indexmenge und Xi , i ∈ I, Zufallsvariablen mit endlichem Erwartungswert. Dann gilt: (i) E(sup Xi ) sup EXi , i∈I
i∈I
(ii) E(inf Xi ) inf EXi . i∈I
i∈I
Im Fall der stochastischen Unabh¨angigkeit von Zufallsvariablen ist der Erwartungswert auch multiplikativ. Satz C 5.9 (Multiplikationssatz). Seien X1 , . . . , Xn stochastisch unabh¨angige Zufallsvariablen mit endlichen Erwartungswerten. Dann gilt: n n E Xi = E(Xi ) i=1
i=1
Spezielle Momente sind von besonderer Bedeutung in der Stochastik. Durch Anwendung von Satz C 5.6 mit speziellen Funktionen g, i.e., (i) g(x) = (x − c)k und Zufallsvariable X, (ii) g(x) = (x − EX)2 und Zufallsvariable X bzw. c = EX und k = 2 in (i), (iii) g(x, y) = (x − EX)(y − EY) und Zufallsvektor (X, Y) resultieren folgende Begriffe f¨ ur spezielle Momente.
C 5 Erwartungswerte, Varianz, Kovarianz und Korrelation
211
Bezeichnung C 5.10 (k-tes Moment, Varianz, Kovarianz). Seien X und Y Zufallsvariablen und c ∈ R, k ∈ N. (i) mk (c) = E((X−c)k ) heißt k-tes Moment von X um c (unter P) (nicht-zentrales Moment). F¨ ur c = 0 heißt mk = EXk k-tes (zentrales) Moment. (ii) Var X = E((X − EX)2) heißt Varianz (Streuung von X) (alternative Notation Var(X)). (iii) Kov(X, Y) = E((X − EX)(Y − EY)) heißt Kovarianz von X und Y . Die Varianz einer Wahrscheinlichkeitsverteilung ist ein Maß f¨ ur die Konzentriertheit, d.h. sie bewertet die Verteilung der Wahrscheinlichkeitsmasse um den Erwartungswert. Ist der Großteil der Masse nahe beim Erwartungswert, so ist die Varianz eher klein. Im diskreten Fall dient die Varianz anschaulich zur Bewertung der N¨ahe“ der Tr¨agerpunkte zum Erwartungswert bzw. der Verteilung der Ge” ” wichte (Wahrscheinlichkeiten)“. Im stetigen Fall wird bewertet, wie viel Masse“ ” der Verteilung auf gewisse Intervalle verteilt ist. Auch dies ist nur eine grobe Vorstellung. Die Varianz dient mit dieser Interpretation insbesondere dem Vergleich von Wahrscheinlichkeitsverteilungen. Die folgende Anmerkung gibt Anhaltspunkte f¨ ur die (endliche) Existenz von Momenten. Bemerkung C 5.11. F¨ ur Zufallsvariablen X und Y gilt: (i) 0 |X| |Y|, E(|Y|) < ∞ =⇒ EX < ∞, E(|X|) < ∞. ur ein k ∈ N, X 0 =⇒ EXl < ∞ ∀l k. (ii) EXk < ∞ f¨ (iii) EX2 < ∞ =⇒ E((X + a)2 ) < ∞ ∀a ∈ R, insbesondere gilt Var(X) < ∞. Varianz und Kovarianz Nun werden Eigenschaften von k-ten Momenten, Varianz und Kovarianz zusammengestellt. Lemma C 5.12 (Eigenschaften der Varianz). Sei X eine Zufallsvariable mit Var X < ∞. Dann gilt:
(i) Var(a + bX) = b2 Var X ∀a, b ∈ R. (ii) Var X = EX2 − E2 X. (iii) Var X = 0 ⇐⇒ P(X = EX) = 0. (iv) Var X = min E((X − a)2 ), a∈R
d.h. EX minimiert die mittlere quadratische Abweichung von X zu a. Beweis. (i) Var(a + bX) = E[(a + bX − E(a + bX))2 ] = E[(a + bX − a − bEX)2 ] = b2 E(X − EX)2 = b2 Var X.
212
C Zufallsvariablen
(ii) Aus der Linearit¨ at des Erwartungswerts folgt mit einer binomischen Formel: Var X = E[(X − EX)2 ] = E(X2 − 2X · EX + (EX)2 ) = EX2 − 2EX · EX + (EX)2 = EX2 − (EX)2 = EX2 − E2 X,
wobei die Notation E2 X = (EX)2 verwendet wird. (iv) Sei μ = EX. Wie in (ii) folgt: E((X − a)2 ) = E((X − μ + μ − a)2 ) = E(X − μ)2 + 2(μ − a) E(X − μ) +(μ − a)2
=0
= Var X + (μ − a)2 Var X
mit Gleichheit genau dann, wenn μ = a.
Die im Beweis von Lemma C 5.12 (iv) hergeleitete Identit¨at (vgl. Regel A 3.31) E((X − a)2 ) = Var X + (EX − a)2 ,
a ∈ R,
wird auch als Verschiebungssatz oder Satz von Steiner bezeichnet. Lemma C 5.12 (i) zeigt die Bedeutung der Varianz als sogenanntes Skalenmaß. Einer lediglich um einen additiven Parameter verschobenen Verteilung wird dieselbe Varianz zugeordnet. Demgegen¨ uber wird der Erwartungswert EX als Lagemaß bezeichnet. Beispiel C 5.13. (i) X ∼ bin(n, p): Var X = np(1 − p). (ii) X ∼ po(λ): Var X = λ(= EX). (iii) X ∼ R(a, b): Var X =
(a−b)2 . 12 β α2 , insbesondere 2
(iv) X ∼ Γ (α, β): Var X = (v) X ∼ N(μ, σ2 ): Var(X) = σ .
gilt f¨ ur X ∼ Exp(λ): Var X =
1 λ2 .
Bemerkung C 5.14 (Standardisierung). Eine Zufallsvariable X mit EX = 0 und Var X = 1 heißt standardisiert. Ist eine Zufallsvariable Y gegeben mit EY = μ und Y−EY 0 < Var Y = σ2 < ∞, dann gilt f¨ ur die Zufallsvariable X = √ = Y−μ σ : EX = 0 Var Y und Var X = 1. Dieser Vorgang heißt Standardisierung (s. Beispiel C 4.1; vgl. auch Bezeichnung A 3.43). Lemma C 5.15. Seien X und Y Zufallsvariablen mit Var X < ∞, Var Y < ∞. Dann gilt: Var(X + Y) = Var X + Var Y + 2 Kov(X, Y). Allgemeiner gilt f¨ ur Zufallsvariablen X1 , . . . , Xn mit EX2i < ∞, 1 i n: n n Var Xi = Var Xi + 2 Kov(Xi , Xj ). i=1
i=1
1i<jn
C 5 Erwartungswerte, Varianz, Kovarianz und Korrelation
213
uhrt: Beweis. Der Beweis wird nur f¨ ur zwei Zufallsvariablen X und Y ausgef¨ Var(X + Y) = E(X + Y − E(X + Y))2 = E((X − EX) + (Y − EY))2 = E (X − EX)2 + 2(X − EX)(Y − EX) + (Y − EY)2 = Var X + Var Y + 2 Kov (X, Y).
Lemma C 5.16 (Eigenschaften der Kovarianz). Seien X und Y Zufallsvariablen mit endlichen zweiten Momenten. Dann gilt: (i) Kov(X, Y) = E(XY) − EX · EY . (ii) Kov(X, X) = Var X. (iii) Kov(X, Y) = Kov(Y, X). (iv) Kov(a + bX, c + dY) = bd Kov(X,Y), a, b, c, d ∈ R. (v) X, Y stochastisch unabh¨angig =⇒ Kov(X, Y) = 0. Allgemeiner gilt f¨ ur Zufallsvariablen X1 , . . . , Xm mit EX2i < ∞, 1 i m, 2 Y1 , . . . , Yn mit EYi < ∞, 1 i n, sowie a1 , . . . , am , b1 , . . . , bn ∈ R: ⎛ ⎞ n m n m Kov ⎝ ai Xi , bj Yj ⎠ = ai bj Kov(Xi , Yj ). i=1
j=1
i=1 j=1
Beweis. (i) Wie im Beweis von Lemma C 5.12 (ii) folgt: Kov(X, Y) = E((X − EX)(Y − EY)) = E(XY − XEY − YEX + EXEY) = E(XY) − EX · EY. C 5.9
(v) X, Y stochastisch unabh¨ angig =⇒ E(XY) = EX · EY =⇒ Kov(X, Y) = 0.
Im Fall der stochastischen Unabh¨angigkeit der Zufallsvariablen X und Y gilt also Var(X + Y) = Var X + Var Y . In dieser Situation ist also (neben dem Erwartungswert) auch die Varianz additiv. Diese Eigenschaft gilt auch f¨ ur Zufallsvariablen X1 , . . . , Xn , sofern diese (paarweise) stochastisch unabh¨ angig sind. Diese Voraussetzung kann durch die schw¨achere Bedingung der Unkorreliertheit ersetzt werden. Bezeichnung C 5.17 (Unkorreliertheit, Korrelationskoeffizient). (i) Die Zufallsvariablen X und Y heißen unkorreliert, falls Kov(X, Y) = 0. Kov(X,Y) √ ∈ [−1, 1] heißt Korrelationskoeffizient. (ii) Die Gr¨oße Korr(X, Y) = √Var X Var Y Sie wird mit ρ = ρXY bezeichnet.
Der Korrelationskoeffizient ist ein Maß f¨ ur den linearen Zusammenhang der Zuollige Abh¨angigkeit) sind mit X = a+bY , fallsvariablen X und Y . Die Extremf¨alle (v¨ a, b ∈ R, f¨ ur b < 0 bzw. b > 0 gegeben. Der Zusammenhang zum Korrelationskoeffizienten von Bravais-Pearson (s. Definition A 7.27) in der Beschreibenden Statistik kann hergestellt werden u ¨ber den Grundraum Ω = {1, . . . , n} mit einer Laplace-Verteilung auf Ω und der Interpretation von (X(ω), Y(ω)) als Punkte der Ebene. Der Beweis der folgenden Aussage folgt sofort aus Lemma C 5.15.
214
C Zufallsvariablen
Satz C 5.18. Seien X1 , . . . , Xn unkorrelierte Zufallsvariablen, d.h. Kov(Xi , Xj ) =
0 ∀i = j. Dann gilt:
Var
n
Xi
=
i=1
n
Var (Xi ) .
i=1
Insbesondere gilt diese Summenformel, falls die Zufallsvariablen stochastisch unabh¨angig sind. Bemerkung C 5.19. In der Schließenden Statistik basieren Entscheidungen h¨aun fig auf dem arithmetischen Mittel n1 Xi von stochastisch unabh¨ angigen und i=1
identisch verteilten Zufallsvariablen X1 , . . . , Xn . Die Intuition sagt, dass eine einzelne Beobachtung eine unsicherere“ Information tr¨agt als das arithmetische ” Mittel mehrerer Beobachtungen. Die Varianz als Streuungsmaß spiegelt diese Vorstellung wider: n n 1 1 1 Xi = 2 Var Xi = Var X1 . Var n n n i=1 i=1 Die Varianz nimmt also mit wachsendem Stichprobenumfang n ab und damit die Genauigkeit“ zu. ” Bemerkung C 5.20. Aus der Unkorreliertheit von Zufallsvariablen folgt i.Allg. nicht deren stochastische Unabh¨angigkeit! Seien Ω = {1, 2, 3}, P({ω}) = 13 , ω ∈ Ω, X, Y Zufallsvariablen mit X(1) = 1, X(2) = 0, X(3) = −1 und Y(1) = Y(3) = 1, Y(2) = 0. Die gemeinsame Wahrscheinlichkeitsverteilung ist dann gegeben durch den Tr¨ager T = {(1, 1), (0, 0), (−1, 1)} sowie die Wahrscheinlichkeiten 1 , 3 1 P(X,Y) ({(0, 0)}) = P({2}) = und 3 1 (X,Y) P ({(−1, 1)}) = P({3}) = . 3 P(X,Y) ({(1, 1)}) = P({1}) =
Sie hat die Randverteilungen P(X = −1) = P(X = 0) = P(X = 1) = P(Y = 0) = 13 , P(Y = 1) = 23 . Weiterhin ist durch PX·Y ({−1}) = P(X,Y) ({(−1, 1)}) = P({3}) =
1 3
1 , 3
1 und 3 1 PX·Y ({1}) = P({1}) = 3
PX·Y ({0}) = P({2}) =
die Verteilung von XY festgelegt. Damit folgt EX = 13 (−1 + 0 + 1) = 0 sowie
und
C 5 Erwartungswerte, Varianz, Kovarianz und Korrelation
EY = 0 ·
2 2 1 +1· = , 3 3 3
E(XY) =
215
1 (−1 + 0 + 1) = 0, 3
d.h. E(XY) = EX · EY , also sind X und Y unkorreliert. Aber X und Y sind nicht stochastisch unabh¨angig, denn z.B. gilt P(X = 1, Y = 1) =
2 1 = = P(X = 1)P(Y = 1). 3 9
F¨ ur bivariate Normalverteilungen sind Unkorreliertheit und stochastische Unabh¨angigkeit ¨aquivalent. Satz C 5.21. Sei (X1 , X2 ) ∼ N2 (μ1 , μ2 , σ21 , σ22 , ρ). Dann gilt: X1 , X2 stochastisch unabh¨ angig ⇐⇒ X1 , X2 unkorreliert . Beweis. Nach Satz C 3.15 gen¨ ugt es ρ = Korr(X1 , X2 ) zu zeigen. Unter Ausnutzung der Identit¨ at (C.2) gilt Kov (X1 , X2 ) = E(X1 − μ1 )(X2 − μ2 ) = =
∞ ∞
−∞ ∞ −∞
(x1 − μ1 )(x2 − μ2 )fX1 ,X2 (x1 , x2 )dx1 dx2 ∞ (x2 − μ2 )fX2 (x2 ) (x1 − μ1 )g(x1 , x2 )dx1 dx2 . −∞
−∞
Da g(·,x2 ) f¨ ur festes x2 ∈ R die Dichte einer N μ1 +
σ1 ρ(x2 −μ2 ) , (1 σ2
− ρ2 )σ21 -Verteilung
ist, ist das Integral gleich deren Erwartungswert minus μ1 , d.h. gleich ergibt sich
σ1 ρ(x2 −μ2 ) . σ2
Damit
∞
σ1 ρ(x2 − μ2 ) X2 (x2 − μ2 ) · f (x2 )dx2 σ2 ∞ σ1 ρ σ1 ρ = (x2 − μ2 )2 fX2 (x2 )dx2 = Var(X2 ) = ρσ1 σ2 . σ2 −∞ σ2
Kov(X1 , X2 ) =
−∞
=σ2 2
Damit folgt Korr(X1 , X2 ) = √ Kov(X1 ,X2 )
Var(X1 ) Var(X2 )
=
ρσ1 σ2 σ1 σ2
= ρ.
Ungleichungen Im Zusammenhang mit Momenten sind auch Ungleichungen wichtig. Satz C 5.22. (i) (Ungleichung von Jensen) Seien X eine Zufallsvariable und h : R → R eine konvexe (konkave) Funktion, so dass E(h(X)) und EX endlich existieren. Dann gilt: ()
E(h(X)) h(EX).
216
C Zufallsvariablen
(ii) (Ungleichung von Markov) Seien X eine Zufallsvariable und g : [0, ∞) → [0, ∞) monoton wachsend. Dann gilt 1 E(g(|X|)) ∀ > 0 mit g() > 0. P(|X| > ) P(|X| ) g() (iii) (Ungleichung von Tschebyscheff) Seien X eine Zufallsvariable mit EX2 < ∞. Dann gilt: P(|X − EX| ) Beweis. (ii) Im diskreten Fall gilt: E(g(|X|)) =
g(|x|)PX (x) =
x∈R
g()
Var X 2
∀ > 0.
g(|x|)PX (x) +
|x|
g(|x|)PX (x)
|x|<
PX (x) = g()P(|X| ).
|x|
(iii) Mit g(t) = t2 resultiert aus der Anwendung von (ii) auf die Zufallsvariable Y = X−EX die Ungleichung von Tschebyscheff.
Erwartungswerte von Zufallsvektoren Im multivariaten Fall, d.h. f¨ ur Zufallsvektoren, wird der Begriff des Erwartungswertvektors auf die Erwartungswerte der Komponenten zur¨ uckgef¨ uhrt. Definition C 5.23 (Erwartungswertvektor, Kovarianzmatrix). Seien X = (X1 , . . . , Xn ) ein Zufallsvektor und alle auftretenden Erwartungswerte wohldefiniert. Dann heißen (i) E(X) = (EX1 , . . . , EXn ) Erwartungswertvektor von X, (ii) die Matrix Kov(X) = (Kov(Xi , Xj ))1i,jn Kovarianzmatrix von X. Die Diagonaleintr¨age in der Kovarianzmatrix sind gerade die Varianzen der Komponenten von X. Per Definition ist die Matrix symmetrisch und sie ist positiv semidefinit, d.h. f¨ ur alle z ∈ Rn gilt z · Kov(X) · z 0 (s. Lemma C 5.24). Das Rechnen mit mehrdimensionalen Momenten leitet sich direkt aus der Definition und der Vektor- und Matrixalgebra ab. Die entsprechenden Rechenregeln sind f¨ ur Zeilenvektoren des Rn formuliert. Lemma C 5.24. Sei X = (X1 , . . . , Xn ) ein n-dimensionaler Zufallsvektor mit μ = EX und Σ = Kov(X). Dann gilt: (i) E(αX + a) = αEX + a, α ∈ R, a ∈ Rn , (ii) E(Xa ) = EX · a , a ∈ Rn , (iii) Σ = E((X − μ) (X − μ)) = E(X X) − μ μ, (iv) Kov(αX) = α2 Σ, α ∈ R, (v) Var(Xa ) = aΣa , a ∈ Rn .
C 6 Erzeugende Funktionen
217
C 6 Erzeugende Funktionen Zur Bestimmung von Momenten, Faltungen u.a. k¨onnen erzeugende Funktionen n¨ utzlich sein. Definition C 6.1 (Wahrscheinlichkeitserzeugende Funktion). Sei X eine Zufallsvariable mit diskreter oder stetiger Wahrscheinlichkeitsverteilung PX . Die Funktion g mit g(t) = EtX f¨ ur alle t, f¨ ur die EtX endlich existiert, heißt wahrscheinlichkeitserzeugende Funktion oder kurz erzeugende Funktion von X (bzw. von PX ).
F¨ ur diese Funktion wird nachfolgend nur der Fall einer diskreten Wahrscheinlichkeitsverteilung betrachtet. Bemerkung C 6.2. Hat die Zufallsvariable X eine diskrete Wahrscheinlichkeitsverteilung auf N0 mit Z¨ahldichte pX bzw. pk = P(X = k), k ∈ N0 , so ist die erzeugende Funktion gegeben durch EtX =
∞
tk p k .
k=0
Diese Reihe ist definiert f¨ ur alle t aus dem Konvergenzbereich K dieser Potenzreihe. Es gilt stets [−1, 1] ⊆ K, denn wegen ∞
|tk pk |
k=0
∞
pk = 1,
t ∈ [−1, 1],
k=0
konvergiert die Reihe in [−1, 1] absolut. Diese erzeugende Funktion ist beliebig oft differenzierbar im Nullpunkt und es gilt: pk = P(X = k) =
1 (k) g (0), k!
k ∈ N,
wobei g(k) die k-te Ableitung von g bezeichnet. Beispiel C 6.3. (i) Sei X ∼ bin(n, p). Nach dem Binomischen Lehrsatz gilt: n n (pt)k (1 − p)n−k = (1 − p + pt)n , t ∈ R. EtX = k k=0 (ii) Sei X ∼ po(λ): g(t) = EtX =
∞ k=0
e−λ
(λt)k = eλ(t−1) , k!
Weiterhin ist g(k) (t) = λk eλ(t−1) und damit
1 (k) g (0) k!
t ∈ R. = P(X = k), k ∈ N.
218
C Zufallsvariablen
Bemerkung C 6.4. (i) Die erzeugende Funktion einer diskreten Wahrscheinlichkeitsverteilung auf N0 bestimmt diese eindeutig. ur ein ε > 0, so existieren alle Momente EXk , k ∈ N, (ii) Ist (0, 1 + ε) ⊆ K f¨ endlich, und es gilt k−1 (k) g (1) = E (X − i) , k ∈ N. i=0
Insbesondere ist g (1) = EX. (iii) Sind X und Y stochastisch unabh¨angige Zufallsvariablen mit diskreten Wahrur alle t ∈ K: scheinlichkeitsverteilungen auf N0 , so gilt f¨ EtX+Y = EtX · EtY ,
d.h. die erzeugende Funktion der Summe ist das Produkt der erzeugenden Funktionen der Summanden. Per vollst¨andiger Induktion gilt diese Darstellung f¨ ur jede endliche Summe stochastisch unabh¨angiger Zufallsvariablen. Aus Bemerkung C 6.4 (i) und (iii) folgt, dass die Faltung stochastisch unabh¨angiger binomialverteilter (Poisson-verteilter) Zufallsvariablen wiederum binomialverteilt (Poisson-verteilt) ist. F¨ ur X ∼ bin(n, p) und Y ∼ bin(m, p) (bzw. X ∼ po(λ) und Y ∼ po(μ)) gilt: EtX+Y = EtX · EtY = (1 − p + pt)n+m
(bzw. = e(λ+μ)(t−1) ).
Dies ist jedoch die erzeugende Funktion einer bin(n+m, p)-Verteilung (bzw. einer po(λ + μ)-Verteilung), die gem¨aß Bemerkung C 6.4 (i) durch ihre erzeugende Funktion eindeutig festgelegt ist. Eine weitere Transformierte mit engem Bezug zu Momenten ist die momenterzeugende Funktion. Definition C 6.5 (Momenterzeugende Funktion). Sei X eine Zufallsvariable mit diskreter oder stetiger Wahrscheinlichkeitsverteilung PX . Die Funktion h mit h(t) = EetX ,
t ∈ D = {z ∈ R|EezX < ∞}
heißt momenterzeugende Funktion von X (bzw. von PX ). Bei der Bestimmung der momenterzeugenden Funktion muss auf den Definitionsbereich geachtet werden, der m¨ oglicherweise nur aus der Null besteht. Dieses Problem kann vermieden werden, wenn anstelle von EetX die Gr¨oße EeitX betrach√ tet wird, wobei i = −1 die imagin¨are Einheit ist. Diese Fourier-Transformierte des Maßes PX heißt charakteristische Funktion und ist f¨ ur jedes t ∈ R definiert. Eine Alternative zur momenterzeugenden Funktion aus Definition C 6.5 liefert die
heißt auch Laplace-Transformierte von = Ee−tX . Die Funktion h Festlegung h(t) X P . Alle nachfolgenden Aussagen ¨ ubertragen sich auf die Laplace-Transformierte ¨ t → −t. unter Ber¨ ucksichtigung des Ubergangs
C 6 Erzeugende Funktionen
219
Bemerkung C 6.6. Die momenterzeugende Funktion der linear transformierten Zufallsvariablen a + bX, a, b ∈ R, l¨asst sich aus der momenterzeugenden Funktion h von X bestimmen: Eet(a+bX) = eat EebtX = eat h(bt),
bt ∈ D.
Satz C 6.7. Sei X eine Zufallsvariable mit momenterzeugender Funktion h. D enthalte ein Intervall der Form (−ε, ε) f¨ ur ein ε > 0. Dann gilt: (i) h bestimmt die zugrundeliegende Wahrscheinlichkeitsverteilung eindeutig. (ii) Es existieren alle absoluten Momente E(|X|k), k ∈ N, endlich. (iii) h ist im Nullpunkt beliebig oft differenzierbar, und es gilt h(k) (0) = EXk ,
k ∈ N.
Wie bei der wahrscheinlichkeitserzeugenden Funktion ist im Fall der stochastischen Unabh¨angigkeit die momenterzeugende Funktion der Summe gegeben durch das Produkt der momenterzeugenden Funktionen der Summanden. Satz C 6.8. Seien X und Y stochastisch unabh¨angige Zufallsvariablen, deren momenterzeugende Funktionen auf D endlich existieren. Dann gilt: Eet(X+Y) = EetX · EetY ,
t ∈ D.
Mit vollst¨andiger Induktion gilt diese Eigenschaft wiederum f¨ur jede endliche Summe unabh¨angiger Zufallsvariablen X1 , X2 , . . .. Beispiel C 6.9. (i) Sei X ∼ po(λ): h(t) = EetX =
∞ k=0
e−λ
(λet )k = exp(λ(et − 1)), k!
t ∈ R.
d Dann ist EX = h (0) = dt exp(λ(et − 1))|t=0 = λet exp(λ(et − 1))|t=0 = λ (s. Beispiel C 5.2). Mit stochastisch unabh¨angigen, Poisson-verteilten Zufallsvariablen Xi ∼ po(λi ), n 1 i n, ist die momenterzeugende Funktion der Summe Sn = Xi gei=1
geben durch tSn
Ee
=
n i=1
Ee
tXi
=
n
exp(λi (e − 1)) = exp (e − 1) t
t
i=1
n
λi
,
t ∈ R.
i=1
Dies ist die momenterzeugende Funktion einer po(
n
λi )-Verteilung. Weil die
i=1
Wahrscheinlichkeitsverteilung eindeutig durch die momenterzeugende Funkn tion bestimmt ist, folgt Sn ∼ po( λi ) (s. Beispiel C 1.14). i=1
220
C Zufallsvariablen
(ii) Seien X ∼ Γ (λ, β) und Y ∼ Γ (λ, γ) stochastisch unabh¨angige Zufallsvariablen. λ β Es gilt: EetX = ( λ−t ) , t ∈ (−∞, λ). Also ist die momenterzeugende Funktion von X+Y gegeben durch Eet(X+Y) = λ β+γ ) , t < λ. Da diese die Wahrscheinlichkeitsverteilung eindeutig fest( λ−t legt, ist gezeigt (s. Beispiel C 1.16(i)): X + Y ∼ Γ (λ, β + γ).
(iii) F¨ ur X ∼ N(0, 1) ist tX
Ee
1 =√ 2π 2
= et
∞
tx −x2 /2
e e −∞ ∞
/2 −∞
1 dx = √ 2π
∞
2
e−(x−t)
/2 t2 /2
e
dx
−∞
1 2 2 √ e−(x−t) /2 dx = et /2 , 2π
t ∈ R,
da der Integrand die Dichtefunktion einer N(t, 1)-Verteilung ist. Die linear transformierte Zufallsvariable Y = σX + μ ∼ N(μ, σ2 ) (f¨ ur μ ∈ R, σ > 0) besitzt damit nach Bemerkung C 6.6 die momenterzeugende Funktion 1 2 2 tY μt σtX Ee = e Ee = exp μt + σ t , t ∈ R. 2 Weiterhin ist f¨ ur stochastisch unabh¨angige Zufallsvariablen X ∼ N(μ, σ2 ) und Y ∼ N(ν, τ2 ) wegen 1 Eet(X+Y) = exp (μ + ν)t + (σ2 + τ2 )t2 , t ∈ R, 2 die Summe wiederum normalverteilt, i.e. X + Y ∼ N(μ + ν, σ2 + τ2 ) (s. Beispiel C 1.16 (ii)).
C 7 Bedingte Verteilungen und bedingte Erwartungswerte Das Konzept bedingter Verteilungen und bedingter Erwartungswerte dient dazu, Vorinformation oder Annahmen ¨ uber das Eintreten gewisser Ereignisse in einem stochastischen Modell zu verarbeiten. In Definition B 5.2 wurde bereits die (elementar) bedingte Wahrscheinlichkeitsverteilung in der Formulierung f¨ ur Ereignisse in einem Wahrscheinlichkeitsraum (Ω, A, P) eingef¨ uhrt. In diesem Abschnitt werden diskrete oder stetige Wahrscheinlichkeitsverteilungen zugrundegelegt und die Beschreibung u ¨ber Zufallsvariablen gew¨ahlt.
C 7 Bedingte Verteilungen und bedingte Erwartungswerte
221
Definition C 7.1 (Bedingte Wahrscheinlichkeitsverteilung, bedingte Z¨ahldichte, bedingte Dichte). (i) Seien (X, Y) ein diskret verteilter Zufallsvektor mit gemeinsamer Z¨ahldichte p(X,Y) und pX , pY die Randdichte von X bzw. Y . Die f¨ ur ein gegebenes x ∈ ahldichte X(Ω) durch die Z¨ (X,Y) p (x,y) , pX (x) > 0 Y|X Y|X=x pX (x) p (y|x) ≡ p (y) ≡ P(Y = y|X = x) = , y ∈ R, Y p (y), pX (x) = 0 bestimmte Wahrscheinlichkeitsverteilung heißt bedingte Wahrscheinlichkeitsverteilung von Y unter (der Hypothese) X = x. pY|X heißt bedingte Z¨ahldichte von Y unter X. (ii) Seien (X, Y) ein stetig verteilter Zufallsvektor mit gemeinsamer Dichte f(X,Y) und fX , fY die Randdichte von X bzw. Y . Die f¨ur ein gegebenes x ∈ R durch die Dichtefunktion (X,Y) f (x,y) , fX (x) > 0 Y|X Y|X=x fX (x) , y ∈ R, f (y|x) ≡ f (y) = fX (x) = 0 fY (y), bestimmte Wahrscheinlichkeitsverteilung heißt bedingte Wahrscheinlichkeitsverteilung von Y unter (der Hypothese) X = x. fY|X heißt bedingte Dichte von Y unter X. Bemerkung C 7.2. (i) Die in Definition C 7.1 eingef¨ uhrten Gr¨oßen sind stets Z¨ahldichten bzw. Dichten, denn f¨ ur alle x ∈ supp(PX ) gilt: pY|X=x (y) = pX1(x) p(X,Y) (x, y) = 1, (a) pY|X=x 0 und y∈supp(PY )
(b) fY|X=x 0 und
∞ −∞
fY|X=x (y) dy =
y∈supp(PY )
1 fX (x)
∞ −∞
f(X,Y) (x, y) dy = 1.
(ii) Die in Definition C 7.1 genannten Begriffe werden in derselben Weise f¨ ur Zufallsvektoren X und Y eingef¨ uhrt, deren Dimension verschieden sein kann. ur alle x ∈ supp(PX ) (iii) Wenn X und Y stochastisch unabh¨angig sind, so gilt f¨ pY|X (y|x) = pY (y) bzw. fY|X (y|x) = fY (y),
y ∈ R.
Im stetigen Fall kann die bedingte Verteilung nicht analog zum diskreten Fall u ¨ber uhrt eine Wahrscheinlichkeit P(Y = y|X = x) oder auch P(Y y|X = x) eingef¨ werden, da die Wahrscheinlichkeit des bedingenden Ereignisses stets Null ist. Aus theoretischer Sicht ist der stetige Fall aufw¨andiger und auch die Interpretation ist schwieriger. Man kann jedoch zeigen, dass eine bedingte Verteilungsfunktion FY|X (y|x) ≡ FY|X=x (y) ≡ P(Y y|X = x)
sinnvoll definiert werden kann u ¨ber den Grenzwert
222
C Zufallsvariablen
FY|X=x (y) = lim P(Y y|x X x + h) h→0
= lim
h→0
P(x X x + h, Y y) . P(x X x + h)
Falls dieser Ausdruck nach y differenzierbar ist, gilt f¨ ur festes x: d Y|X=x = fY|X=x . F dy
Umgekehrt gilt
y Y|X=x
F
(y) =
−∞
fY|X=x (t)dt,
y ∈ R.
Entsprechend gelten die Rechenregeln aus Bemerkung C 2.4, d.h. z.B. gilt f¨ ur a
d.h. die bedingten Verteilungen einer bivariaten Normalverteilung sind ebenfalls Normalverteilungen mit konstanter Varianz. Beweis. Nach (C.3) gilt f¨ ur den Quotienten f(X1 ,X2 ) (x1 , x2 ) = g(x1 , x2 ), x1 , x2 ∈ R, fX2 (x2 ) wobei g(·,x2 ) f¨ ur festes x2 ∈ R die Dichte einer N μ1 + σ1 ρ(xσ2 −μ2 ) , (1−ρ2 )σ21 -Verteilung fX1 |X2 =x2 (x1 ) =
2
ist. Daraus folgt sofort die erste Behauptung. Die Zweite ergibt sich mit einer entsprechenden Argumentation.
Bezeichnung C 7.4 (Bedingter Erwartungswert, bedingte Varianz). Die Momente einer bedingten Verteilung werden als bedingte Momente bezeichnet. Der bedingte Erwartungswert von Y unter X = x wird berechnet gem¨aß E(Y|X = x) = ypY|X=x (y) y∈supp(PY )
im diskreten Fall bzw. gem¨aß ∞
E(Y|X = x) =
yfY|X=x (y)dy −∞
im stetigen Fall (sofern die Ausdr¨ ucke wohldefiniert sind). Die bedingte Varianz ist im Fall der Existenz bestimmt durch Var(Y|X = x) = E[(Y − E(Y|X = x))2 |X = x].
C 7 Bedingte Verteilungen und bedingte Erwartungswerte
223
Der bedingte Erwartungswert h(x) = E(Y|X = x) definiert eine Funktion h von x. Existiert der bedingte Erwartungswert f¨ ur alle x ∈ X(Ω) endlich, so wird dar¨ uber eine neue Zufallsvariable definiert, die sogenannte bedingte Erwartung. Bezeichnung C 7.5 (Bedingte Erwartung). Seien (Ω, A, P) ein Wahrscheinlichkeitsraum und X, Y : (Ω, A) −→ (R, B) Zufallsvariablen. Die Zufallsvariable Z : (Ω, A) −→ (R, B) definiert durch Z(ω) = h(X(ω)), ω ∈ Ω, mit h(x) = E(Y|X = x) heißt bedingte Erwartung von Y unter X und wird mit E(Y|X) bezeichnet. Lemma C 7.6 (Eigenschaften der bedingten Erwartung). Die endliche Existenz der auftretenden Gr¨oßen wird vorausgesetzt. Seien a ∈ R und g eine Funktion auf X(Ω). Dann gilt: (i) E(a|X) = a, (ii) E(g(X) · Y|X) = g(X) · E(Y|X), insbesondere gilt f¨ur g(X) = a: E(aY|X) = aE(Y|X), (iii) E[E(Y|X)|X] = E(Y|X), (iv) E(E(Y|X)) = EY, (v) E(Y|X) = EY , falls X und Y stochastisch unabh¨angig sind. Die Aussagen (ii) und (iii) in Lemma C 7.6 betreffen die Gleichheit von Zufallsvariablen und gelten mit Wahrscheinlichkeit Eins“. Das bedeutet, es kann eine ” ur Elemente ω ∈ N Ausnahmemenge“ N ∈ A geben mit P(N) = 0, so dass f¨ ” die Beziehung nicht richtig ist. Eine solche Nullmenge“ ist jedoch stochastisch ” irrelevant. Aussage (iv) l¨asst sich leicht beweisen. Im stetigen Fall ist E(E(Y|X)) = E(h(X)) = h(x)fX (x)dx R
= E(Y|X = x)f (x)dx =
yfY|X=x (y)dyfX (x)dx
X
R
RR
= y f
Y|X=x
R
R
(y)f (x) dx dy = yfY (y)dy = EY.
X
f(X,Y) (x,y)
R
Abschließend werden n¨ utzliche Integrationsformeln zusammengestellt. Lemma C 7.7. Sei (X, Y) ein Zufallsvektor mit stetiger gemeinsamer Verteilung. Dann gilt: (i) E(g(X, Y)) = E(g(X, Y)|X = x)fX (x)dx. R
224
C Zufallsvariablen
(ii) E(g(X, Y)|X = x) = E(g(x, Y)|X = x) = g(x, y)fY|X=x (y) dy. R
Insbesondere ist E(g(X, Y)|X = x) = Eg(x,Y), falls X und Y stochastisch unabh¨angig sind. (iii) P(g(X, Y) ∈ A|X = x) = P(g(x,Y) ∈ A|X = x), A ∈ B. Insbesondere ist P(g(X,Y) ∈ A|X = x) = P(g(x,Y) ∈ A), A ∈ B, falls X und Y stochastisch unabh¨angig sind. (iv) P(X ∈ A, Y ∈ B) = P(Y ∈ B|X = x)fX (x) dx. A
C 8 Grenzwerts¨ atze Explizite Ausdr¨ ucke f¨ ur die Wahrscheinlichkeitsverteilung einer Summe Sn stochastisch unabh¨angiger Zufallsvariablen sind nur f¨ ur wenige Verteilungstypen verf¨ ugbar. Daher ist man an der Beschreibung des asymptotischen Verhaltens ur die Schließende Stavon Sn und von PSn interessiert. Die Resultate sind auch f¨ tistik von besonderer Bedeutung. In diesem Abschnitt werden das Schwache und das Starke Gesetz großer Zahlen sowie der Zentrale Grenzwertsatz vorgestellt. Es gibt in der Literatur unterschiedliche Versionen, die sich in der Wahl der Voraussetzungen und damit auch in der Allgemeinheit der Aussagen unterscheiden. Satz C 8.1 (Eine Version des Schwachen Gesetzes großer Zahlen). Seien X1 , X2 , . . . paarweise unkorrelierte Zufallsvariablen (d.h. Kov(Xi , Xj ) = 0 ∀i = j) mit EXi = μ ur eine Konstante M > 0. Dann gilt: ∀i ∈ N und Var Xi M < ∞ ∀i ∈ N f¨ n 1 M n→∞ P X i − μ ε −−−→ 0 ∀ε > 0. n nε2 i=1 Beweis. Mit E( n1
n i=1
Xi ) =
1 n
n i=1
μ = μ und Var( n1
n
Xi ) =
i=1
1 n2
n
Var Xi
i=1
M n
erh¨ alt
man mit der Ungleichung von Tschebyscheff C 5.22 (iii) f¨ ur beliebiges ε > 0: n 1 P Xi − μ ε n i=1
1 n2
n
Var Xi
i=1
ε2
M . nε2
Der Satz sagt also (unter den gegebenen Voraussetzungen) aus: Die Wahrscheinlichkeit, dass das arithmetische Mittel der Zufallsvariablen vom Erwartungswert der Verteilung um mindestens ε abweicht, geht mit wachsendem Stichprobenumfang gegen Null. Die Aussage des Satzes wird auch in der Form n 1 P − lim n Xi = μ notiert. Diese Art der Konvergenz wird als stochastische n→∞ ” i=1 Konvergenz“ bezeichnet. Das arithmetische Mittel kann in diesem Sinne als ein Sch¨atzer“ f¨ ur den Erwartungswert der Verteilung gesehen werden. ”
C 8 Grenzwerts¨ atze
225
Bemerkung C 8.2. Das Schwache Gesetz großer Zahlen er¨offnet auch die M¨oglichkeit, relative H¨aufigkeiten bei unabh¨angigen Versuchswiederholungen (z.B. H¨aufigkeit des Auftretens der Ziffer 6 beim wiederholten W¨ urfelwurf) in Zusammenhang mit den entsprechenden Wahrscheinlichkeiten im zugeh¨origen stochastischen Modell zu bringen. Allgemein seien ein diskreter Wahrscheinlichkeitsraum (Ω, P) und ein Ereignis A ⊆ Ω mit P(A) = p ∈ (0, 1) gegeben. Betrachtet wird die n-fache unabh¨ angige Wiederholung des Zufallsexperiments beschrieben durch den Produktraum (s. Definition B 6.10). Mit Ai sei das Ereignis beschrieben, dass der i-te Versuch das Ergebnis A zeigt urfelexperiment). Dann sind die Indikator(etwa das Auftreten der Ziffer 6 im W¨ Zufallsvariablen Xi = IAi , 1 i n, stochastisch unabh¨angig, und es gilt: Xi ∼ bin(1, p), EXi = P(Ai ) = p, Var Xi = p(1 − p),
1 i n.
Damit ist die Aussage des Schwachen Gesetzes großer Zahlen g¨ ultig: 1 Xi = p. n→∞ n n
P − lim
i=1
Die relative H¨aufigkeit
1 n
n
Xi von A bei n Versuchen (z.B. der Ziffer 6 bei n
i=1
Versuchen) konvergiert also stochastisch gegen den Erwartungswert p (= 1/6 im W¨ urfelbeispiel). Versionen des Starken Gesetzes großer Zahlen machen ebenfalls eine Aussage u ¨ber die Konvergenz des arithmetischen Mittels gegen den Erwartungswert der zugrundeliegenden Verteilung, allerdings mit einer anderen (st¨arkeren) Konvergenz. Satz C 8.3 (1. Version des Starken Gesetzes großer Zahlen). Sei X1 , X2 , . . . eine Folge stochastisch unabh¨angiger Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P), die alle endliche Varianzen besitzen. Ferner gelte f¨ur die Varianzen ∞ Var Xn < ∞. Dann gilt: n2
n=1
P
n n 1 1 n→∞ ω ∈ Ω Xi − EXi −−−→ 0 = 1. n n i=1
i=1
Die Aussage ist zun¨achst etwas allgemeiner als im Schwachen Gesetz großer Zahlen, weil hier die Konvergenz des arithmetischen Mittels der Zufallsvariablen gegen das arithmetische Mittel ihrer Erwartungswerte betrachtet wird. Der Spezialfall n 1 EXi = μ, i ∈ N, mit n EXi = μ ist enthalten. i=1
Die Aussage des Satzes schreibt man in der Form
226
C Zufallsvariablen
1 1 n→∞ Xi − EXi −−−→ 0 n n n
n
i=1
i=1
P-f.s.
und beschreibt diese Konvergenzart als fast sichere Konvergenz“. Man betrachtet ” dabei die punktweise Konvergenz (bzgl. ω) auf einer Menge A ∈ A mit P(A) = asst zu, dass die punktweise Konvergenz auf stochastisch irrelevanten 1. Man l¨ ” Mengen“, i.e. solchen mit Wahrscheinlichkeit Null, nicht gilt. Die Voraussetzung an die Reihe der gewichteten Varianzen ist insbesondere f¨ ur Zufallsvariablen erf¨ ullt, f¨ ur die Var Xi M < ∞, i ∈ N, gilt (s. Satz C 8.1). Sind die Zufallsvariablen des Satzes identisch verteilt, so ist die Voraussetzung bei ∞ ∞ 2 Var Xn 1 existierender Varianz erf¨ ullt, denn = Var X1 = Var X1 · π6 < ∞. n2 n2 n=1
n=1
Auf die Existenz der Varianz kann aber sogar verzichtet werden. Satz C 8.4 (2. Version des Starken Gesetzes großer Zahlen). Sei X1 , X2 , . . . eine Folge stochastisch unabh¨angiger, identisch verteilter Zufallsvariablen mit EX1 = μ. Dann gilt: n 1 n→∞ Xi −−−→ μ P-f.s. n i=1 Die Aussage der fast-sicheren Konvergenz kann auch wie folgt geschrieben werden: 1 Xi (ω) = μ n→∞ n n
∃N ∈ A mit P(N) = 0 und lim
∀ ω ∈ Ω \ N.
i=1
Es gibt also eine Ausnahmemenge“, deren Wahrscheinlichkeit Null ist, außerhalb ” derer die punktweise Konvergenz stets gilt. Beispiel C 8.5. In der Situation aus Bemerkung C 8.2 sind die Voraussetzungen von Satz C 8.4 offenbar erf¨ ullt. Damit konvergiert die Folge der relativen H¨aufign keiten (fn )n , definiert durch fn = n1 IAi , des Eintretens von A fast sicher i=1
gegen p = P(A). Im W¨ urfelexperiment mit einem fairen W¨ urfel bezeichne A das Ereignis eine Sechs zu w¨ urfeln, so dass p = P(A) = 16 . In Abbildung C 8.1 sind die relativen H¨aufigkeiten fn , n = 1, . . . , 1000, einer 1000-fachen Simulation des (unabh¨angigen) W¨ urfelwurfs dargestellt. Der Stabilisierungseffekt (d.h. die punktweise Konvergenz von (fn )n ) ist erkennbar. Aus dieser Beobachtung leitet sich die Aussage ab, dass der Ausgang eines einzelnen Zufallsexperiments zwar nicht vorhersagbar ist, das Mittel“ des Ausgangs von vielen (unabh¨angigen) identischen Zufallsex” perimenten aber sehr wohl prognostiziert werden kann. Schwaches und Starkes Gesetz großer Zahlen machen Aussagen u ¨ber die Konvergenz des arithmetischen Mittels von Zufallsvariablen gegen eine Konstante (einen Erwartungswert). Da es nur f¨ ur wenige Verteilungstypen explizite Darstellungen f¨ ur die Faltungsverteilungen gibt, ist man an der asymptotischen Verteilung einer Summe (eines arithmetischen Mittels) von Zufallsvariablen interessiert.
C 8 Grenzwerts¨ atze
227
fn
1 6
0
100
200
300
400
500
600
700
800
900
1000 n
Abb. C 8.1. Relative H¨ aufigkeiten f¨ ur eine Sechs beim 1000-fachen W¨ urfelwurf.
Satz C 8.6 (Eine Version des Zentralen Grenzwertsatzes). Sei X1 , X2 , . . . eine Folge stochastisch unabh¨angiger, identisch verteilter Zufallsvariablen mit EX1 = μ und 0 < Var X1 = σ2 < ∞. Dann gilt f¨ ur ⎛ ⎞ n n 1 Xi − nμ X − μ i ⎜ n i=1 ⎟ ⎜= ⎟: √ S∗n = i=1 √ ⎝ ⎠ σ n σ/ n
lim P(S∗n n→∞
t t) = −∞
1 2 √ e−x /2 dx = Φ(t), 2π
t ∈ R.
Die Summe S∗n im Satz ist die standardisierte Summe der Xi s, denn ES∗n = 0 und Var S∗n = 1. Der bedeutende Satz sagt also aus, dass die Verteilungsfunktion der standardisierten Partialsummen der Zufallsvariablen mit wachsendem n gegen die Verteilungsfunktion der Standardnormalverteilung konvergiert, und dies unabh¨angig von der Wahl der Verteilung der zugrundeliegenden Zufallsvariablen! ur t ∈ R F¨ ur große n gilt somit f¨ P(S∗n t) ≈ Φ(t)
bzw. (s. Bezeichnung B 3.13) n t − nμ t − nμ ≈Φ √ = Φnμ,nσ2 (t). P Xi t = P S∗n √ nσ nσ i=1 Dieser Sachverhalt wird auch mit der Notation n i=1
as
Xi ∼ N(nμ, nσ2 )
228
C Zufallsvariablen
bezeichnet. Der obige Zusammenhang ist u ur alle t ∈ R exakt, falls die ¨brigens f¨ zugrundeliegende Verteilung eine Normalverteilung N(μ, σ2 ) ist. ur große n n¨aherungsweise stanUnter geeigneten Voraussetzungen ist daher S∗n f¨ dardnormalverteilt. Dies bedeutet, dass das arithmetische Mittel der Zufallsvariablen ebenfalls approximativ normalverteilt ist: σ2 1 as ). Xi ∼ N(μ, n n n
i=1
Satz C 8.6 kann auch unter schw¨acheren Voraussetzungen formuliert werden. Beispielsweise kann die Voraussetzung der identischen Verteilung abgeschw¨acht werden. In der Praxis wird h¨aufig angenommen (aber leider selten begr¨ undet), dass eine gute Approximation durch eine Normalverteilung vorliegt, damit statistische Verfahren verwendet werden k¨ onnen, die f¨ ur Normalverteilungsannahmen entwickelt wurden. F¨ ur die Verkn¨ upfung konvergenter reeller Zahlenfolgen existieren Rechenregeln zur Bestimmung der resultierenden Grenzwerte (vgl. Kamps et al., 2003, S. 62ff.). Derartige Regeln gelten auch f¨ ur konvergente“ Folgen von Zufallsvariablen. ” Satz C 8.7. Seien (Xn )n∈N eine Folge von Zufallsvariablen und h eine stetige Funktion. Dann gilt: (i) Aus P − lim Xn = c ∈ R folgt P − lim h(Xn ) = h(c). n→∞ n→∞
n→∞ n→∞
(ii) Aus Xn −−−→ c ∈ R P-f.s. folgt h(Xn ) −−−→ h(c) P-f.s. Eine bedeutende Aussage ergibt sich in der Verkn¨ upfung der obigen Konvergenzarten mit der sogenannten Verteilungskonvergenz. Sind (FXn )n∈N Verteilungsfunktionen und FX eine stetige Verteilungsfunktion, so heißt (Xn )n∈N konvergent gegen X in Verteilung, falls lim FXn (t) = FX (t)
n→∞
f¨ ur alle t ∈ R.
d
Zur Bezeichnung wird Xn − → X verwendet. Im Zentralen Grenzwertsatz C 8.6 liegt d daher Verteilungskonvergenz vor: S∗n − → Z mit Z ∼ N(0,1). F¨ ur das Rechnen mit m¨ oglicherweise verschiedenen Konvergenzarten kann das Lemma von Slutsky genutzt werden. Lemma C 8.8. Seien (Xn )n∈N und (Yn )n∈N Folgen von Zufallsvariablen und X d eine Zufallsvariable mit Xn − → X. Weiterhin gelte P − lim Yn = c ∈ R oder n→∞
n→∞
Yn −−−→ c ∈ R P-f.s. Dann gilt f¨ u r t ∈ R:
(i) lim P(Xn + Yn t) = P(X + c t), n→∞
C 8 Grenzwerts¨ atze
229
(ii) lim P(Xn Yn t) = P(cX t), n→∞ n (iii) lim P X t = P Xc t (falls c = 0). Yn n→∞
Anwendung findet dieser Satz z.B. bei der Konstruktion approximativer Konfidenzintervalle im Binomialmodell D 4.4 (s. S. 252).
D Schließende Statistik
D 1 Problemstellungen der Schließenden Statistik Mit den Mitteln der Deskriptiven Statistik werden f¨ ur eine Gruppe von Objekten Eigenschaften eines Merkmals dieser Objekte anhand von Beobachtungswerten beschrieben. Alle Aussagen beziehen sich ausschließlich auf die zugrundeliegenden Objekte und die f¨ ur diese beobachteten Werte. In vielen F¨allen ist man jedoch nicht an den untersuchten Objekten selbst interessiert, sondern m¨ ochte vielmehr Aussagen u ¨ber eine gr¨oßere Gruppe machen, die sogenannte Gesamtpopulation (Grundgesamtheit). Beispielsweise soll anhand eines Fragebogens die Lebenssituation von Studierenden untersucht werden. Da es aber i.Allg. zu zeit- und kostenaufw¨andig ist, alle Studierenden (einer Hochschule) zu befragen, wird eine Einschr¨ankung auf eine Teilgruppe von Studierenden vorgenommen. Dabei wird unterstellt, dass die in der Teilgruppe erhaltenen Aussagen f¨ ur die Gesamtgruppe repr¨asentativ sind, d.h. das Ergebnis bei Befragung der Gesamtpopulation entspr¨ache weitgehend dem in der befragten, kleineren Gruppe. Eine ¨ahnliche Fragestellung besteht etwa bei Wahlprognosen. Es wird versucht, mittels einer kleinen Gruppe von befragten W¨ahlern das Wahlergebnis m¨oglichst gut vorherzusagen. Dabei ist aber aus Erfahrungen der Vergangenheit klar, dass die so getroffenen Prognosen meist mehr oder weniger fehlerbehaftet sind. Dies ist dadurch bedingt, dass die befragte Gruppe i.Allg. nat¨ urlich kein Spiegel der Gesamtpopulation ist. Diese Fehler sind durch die Vorgehensweise bedingt und daher auch in Interpretationen zu ber¨ ucksichtigen. Verfahren zur Verringerung derartiger Fehler sowie die Festlegung von repr¨asentativen“ Stichproben werden ” in der Stichprobentheorie behandelt, die hier nicht weiter betrachtet wird (s. z.B. Pokropp, 1996). Grundfragestellungen der Schließenden Statistik k¨onnen aus dem folgenden Beispiel abgeleitet werden und treten in vielen Anwendungsbereichen auf (z.B. Marktund Meinungsforschung, Medizin, etc.).
232
D Schließende Statistik
Beispiel D 1.1. Zu Zwecken der Qualit¨atssicherung werden z.B. einer laufenden Produktion Proben entnommen und Merkmalsauspr¨agungen notiert. In einem zugrundeliegenden stochastischen Modell werden die Auspr¨agungen als Realisationen von Zufallsvariablen aufgefasst, f¨ ur die eine Verteilung angenommen wird. Diese ist entweder vollst¨andig unbekannt oder nur bis auf gewisse Parameter bekannt. In diesem Zusammenhang sind Themen von Interesse (i) wie ein unbekannter Parameter aufgrund der Daten bestm¨oglich festgelegt ( gesch¨atzt“) werden kann (s. Sch¨atzen, Abschnitt D 2), ” (ii) wie ein Intervall beschaffen sein soll, in dem der wahre“ Wert des Parameters ” mit hoher Wahrscheinlichkeit liegt (s. Konfidenzintervall, Abschnitt D 4), (iii) wie man die Frage beantwortet, dass der wahre“ Parameter einen Schwel” lenwert u ¨berschreitet (s. Testen, Abschnitt D 6). Die Schließende Statistik stellt die zur Umsetzung solcher Vorhaben ben¨otigten Verfahren und Methoden bereit. Der Begriff wie auch die alternative Bezeichnung Induktive Statistik verdeutlichen die Vorgehensweise, eine Aussage von einer Teilpopulation auf die Gesamtpopulation zu ¨ ubertragen. Die Schließende Statistik bedient sich dabei zur Modellierung der Wahrscheinlichkeitstheorie. Ein wesentlicher Punkt in der Anwendung der Verfahren der Inferenzstatistik ist (wie auch in der Deskriptiven Statistik), dass die verwendeten Verfahren den Merkmalstypen ad¨aquat sein m¨ ussen. Es macht z.B. keinen Sinn, das arithmetische Mittel von Beobachtungswerten eines nominalen Merkmals wie Haarfarbe zu berechnen. Dies impliziert, dass vor der Anwendung statistischer Verfahren grunds¨atzlich die Frage des Merkmalstyps beantwortet werden muss. Anschließend ist ein f¨ ur diesen Typ geeignetes Verfahren zu w¨ahlen. Die Verfahren der Inferenzstatistik beruhen auf den Messungen eines Merkmals X in einer Teilgruppe der Grundgesamtheit, der sogenannten Stichprobe. Diese wird mit X 1 , . . . , Xn bezeichnet, wobei n die Anzahl der Objekte der Teilgruppe ist und Stichprobenumfang heißt. Die Zufallsvariable Xi , die die i-te Messung beschreibt, heißt Stichprobenvariable. Von den Objekten, die zur Messung herangezogen werden, wird im Folgenden angenommen, dass sie aus der Gesamtpopulation zuf¨allig ausgew¨ahlt werden. Dies soll die Repr¨asentativit¨at der Stichprobe sicherstellen. Es kann dabei nat¨ urlich zu Verzerrungen kommen. Dies kann i.Allg. aber durch einen hinreichend großen Stichprobenumfang zumindest gemildert werden. F¨ ur eine Stichprobenvariable Xi wird im stochastischen Modell eine Wahrscheinlichkeitsverteilung unterstellt, die etwa durch die Verteilungsfunktion festgelegt wird: Fi (t) = P(Xi t),
t ∈ R.
Im Folgenden wird – sofern nichts anderes angegeben ist – angenommen, dass die Zufallsvariablen X1 , . . . , Xn stochastisch unabh¨angig sind und jeweils dieselbe Wahrscheinlichkeitsverteilung P besitzen. Dies ist ein spezielles, in der Pra-
D 1 Problemstellungen der Schließenden Statistik
233
xis h¨aufig genutztes Modell. Entsprechend der englischen Bezeichnung indepen” dent and identically distributed“ wird diese Eigenschaft nachfolgend mit iid“ ” abgek¨ urzt. Als Schreibweise wird iid
X 1 , . . . , Xn ∼ P
verwendet. Statt P schreibt man auch F oder f, falls P durch die Verteilungsfunktion F oder die Dichtefunktion f gegeben ist. In der Wahrscheinlichkeitsrechnung wird unterstellt, dass die dem Modell zugrundeliegende Wahrscheinlichkeitsverteilung vollst¨andig bekannt ist. Dies ist in der Inferenzstatistik nicht oder nur teilweise der Fall. Daher geht man zun¨achst von einer Klasse P von Wahrscheinlichkeitsverteilungen mit speziellen Eigenschaften aus: P = {P | P hat spezielle Eigenschaften}. Bezeichnung D 1.2 (Stichprobe, Beobachtung, Realisation, Stichprobenumfang, Verteilungsannahme, Sch¨atzer, Teststatistik). Seien n ∈ N, X1 , . . . , Xn stochastisch unabh¨angige und identisch verteilte Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, A, P) mit Werten in (R, B), X = (X1 , . . . , Xn ) und P eine Menge von Wahrscheinlichkeitsmaßen auf R. Dann heißen (i) (X1 , . . . , Xn ) Stichprobe. Abk¨ urzend wird auch X1 , . . . , Xn als Stichprobe bezeichnet. (ii) Xi Stichprobenvariablen, 1 i n. (iii) n Stichprobenumfang. (iv) (x1 , . . . , xn ) = X(ω) = (X1 (ω), . . . , Xn (ω)) ∈ Rn f¨ur ω ∈ Ω Realisation (der Stichprobe (X1 , . . . , Xn )), Stichprobenergebnis oder Beobachtung. Die Menge aller m¨oglichen Stichprobenergebnisse heißt Stichprobenraum. (v) X1 (ω), . . . , Xn (ω) Beobachtungen oder Realisationen von X1 , . . . , Xn . iid
(vi) die Forderung X1 , . . . , Xn ∼ P ∈ P Verteilungsannahme oder Verteilungsmoiid
dell. Sofern die Menge P im Kontext klar ist, wird die Notation X1 , . . . , Xn ∼ P verwendet. Ist T : Rn −→ R eine Funktion der Stichprobe (X1 , . . . , Xn ), so wird T (X1 , . . . , Xn ) als Statistik bezeichnet. Im Sch¨atzkontext wird sie auch Sch¨atzer oder Sch¨atzfunktion, bei der Verwendung im Rahmen von Hypothesentests Teststatistik genannt. F¨ ur eine Beobachtung (x1 , . . . , xn ) heißt T (x1 , . . . , xn ) Sch¨atzwert bzw. Realisation der Teststatistik. Zur Festlegung des Verteilungsmodells werden unterschiedliche Konzepte verwendet.
234
D Schließende Statistik
Bezeichnung D 1.3 (Parametrisches Verteilungsmodell, nichtparametrisches Verteilungsmodell, Parameterraum). Sei P ein Verteilungsmodell. Kann jedes Element P ∈ P eindeutig durch die Angabe eines Parameter(-vektors) ϑ ∈ Θ ⊆ Rk identifiziert werden, so heißt das Verteilungsmodell parametrische Verteilungsannahme. Dies wird notiert als P = {Pϑ | ϑ ∈ Θ}
bzw. als
Pϑ , ϑ ∈ Θ.
Die Menge Θ der m¨oglichen Parameter heißt Parameterraum. Ist keine derartige Parametrisierung gegeben, wird das Modell als nichtparametrisches Verteilungsmodell bezeichnet. Die meisten im Folgenden diskutierten Modelle sind parametrisch. Im Prinzip liefert jede der in den Abschnitten B 2 und B 3 genannten (diskreten oder stetigen) Verteilungen ein derartiges Verteilungsmodell. Beispiel D 1.4. (i) Ein zentrales Beispiel einer einparametrischen Familie diskreter Verteilungen sind Binomialverteilungen mit Parameterraum Θ = (0, 1): P = {bin(n, p) | p ∈ (0, 1)} f¨ ur ein festes n ∈ N.
(ii) Unter den stetigen Verteilungen spielt die Normalverteilung eine zentrale Rolle. Da diese zwei Parameter besitzt, bestehen verschiedene M¨oglichkeiten zur Festlegung von Modellen. Zur Spezifikation eines parametrischen Verteilungsmodells muss grunds¨atzlich festgelegt werden, welcher Parameter als bekannt bzw. unbekannt betrachtet wird. Die Menge P wird dann entsprechend durch eine andere Parametermenge Θ parametrisiert. Die Beschreibung P = {N(μ, σ2 ) | μ ∈ R, σ2 > 0}
entspricht der Voraussetzung, dass beide Parameter unbekannt sind, d.h. Θ =
uhren zu anderen Modellen: R × (0, ∞). Andere Festlegungen von Θ f¨
(a) μ unbekannt: P = {N(μ, σ20 )|μ ∈ R} mit festem (bekanntem) σ20 > 0, so dass Θ = R oder Θ = R × {σ20 }, (b) σ2 unbekannt: P = {N(μ0 , σ2 )|σ2 > 0} mit festem (bekanntem) μ0 ∈ R, so dass Θ = (0, ∞) oder Θ = {μ0 } × (0, ∞). (iii) Ein nichtparametrisches Model wird z.B. spezifiziert durch P = {P | P hat eine stetige Verteilungsfunktion auf R}.
Ein Ziel der Inferenzstatistik ist es, Aussagen ¨ uber die zugrundeliegende Verteilung P (bzw. den zugeh¨ origen Parameter(vektor) ϑ) mittels der Stichprobe X1 , . . . , Xn zu gewinnen.
D 1 Problemstellungen der Schließenden Statistik
235
Beispiel D 1.5. Die Wahrscheinlichkeit, dass eine zuf¨allig ausgew¨ahlte Person eine bestimmte Eigenschaft besitzt, werde mit p ∈ (0, 1) angenommen, wobei p unbekannt sei. Zur Gewinnung von Aussagen u ¨ber den Wert von p werden 10 Personen zuf¨allig ausgew¨ahlt und jede Person hinsichtlich der interessierenden Eigenschaft untersucht. Es wird daher eine Stichprobe X1 , . . . , X10 vom Umfang n = 10 entnommen (aus der Gesamtpopulation aller Personen). Jede Zufallsvariable Xi besitzt eine Binomialverteilung bin(1, p) mit dem unbekannten Parameter ¨ p. Uber diesen sollen nun Aussagen getroffen werden. Ein Datensatz x1 , . . . , xn heißt dann Beobachtung und wird etwa zur Sch¨atzung von p verwendet. Beispiel D 1.6. Von einer Zufallsvariablen X, die ein Merkmal beschreibt, wird im Modell angenommen, dass sie eine Normalverteilung N(μ, σ2 ) besitzt. Die Parameter μ und σ2 werden als unbekannt vorausgesetzt. Mittels der Inferenzstatistik sollen basierend auf einer Stichprobe X1 , . . . , Xn Aussagen u ¨ber diese Gr¨ oßen hergeleitet werden. In der Inferenzstatistik lassen sich drei wichtige Grundtypen von Verfahren angegeben, die f¨ ur unterschiedliche Arten von Aussagen verwendet werden k¨onnen (vgl. Beispiel D 1.1): • Punktsch¨atzungen: Hierbei soll ein spezieller Wert, der f¨ ur das betrachtete Merkmal charakteristisch ist, gesch¨atzt werden (etwa eine mittlere F¨ ullmenge oder die Toleranz bei der Fertigung eines Produkts). In Beispiel D 1.5 bedeutet = dies, eine konkrete Vorschrift zur Sch¨atzung von p anzugeben: z.B. p 10 1 Xi . 10 i=1
• Intervallsch¨atzungen: Da Punktsch¨atzungen i.Allg. nur sehr ungenaue Prognosen liefern, werden oft Konfidenzintervalle angegeben. Diese Bereiche werden so konstruiert, dass mit hoher Wahrscheinlichkeit der untersuchte (unbekannte) Parameter in dem angegebenen Bereich liegt. In obigem Beispiel ] anzugeben mit P(p ∈ [ ]) 0,95. u, o u, o bedeutet dies etwa, ein Intervall [ • Hypothesentests: In vielen F¨allen sollen konkrete Hypothesen bzgl. des untersuchten Parameters untersucht werden. Kennzeichnend f¨ ur ihr Konstruktionsprinzip ist, dass richtige Hypothesen nur mit einer kleinen Wahrscheinlichkeit abgelehnt werden sollen. In Beispiel D 1.5 kann etwa die Hypothese Die ” Wahrscheinlichkeit p, die interessierende Eigenschaft zu haben, ist kleiner als 5%“ untersucht werden. Die obigen Fragestellungen werden im Folgenden f¨ ur verschiedene Modellannahmen untersucht. Dabei wird immer wieder auf Hilfsmittel aus der Wahrscheinlichkeitstheorie zur¨ uckgegriffen. In diesem Skript werden die grundlegenden Ideen der Schließenden Statistik sowie einige wichtige und h¨aufig verwendete Verfahren vorgestellt. Der Text bietet somit eine Einf¨ uhrung in die wichtigsten (elementaren) statistischen Konzepte und ausgew¨ahlte Standardverfahren. In vielen praktischen Anwendungen werden jedoch
236
D Schließende Statistik
fortgeschrittene Methoden ben¨ otigt bzw. sollten dort sinnvoll eingesetzt werden, um bessere Grundlagen f¨ ur Entscheidungen bereitzustellen. F¨ ur einen Einstieg in weiterf¨ uhrende Methoden und Verfahren der Statistik sei zum Beispiel auf Bortz (2004), Fahrmeir et al. (1996), Hartung et al. (2005), Rinne (2003) und Sachs und Hedderich (2006) verwiesen.
D 2 Punktsch¨ atzungen In diesem Abschnitt werden statistische Verfahren vorgestellt, die den wahren“ ” Wert eines Parameters bzw. die den Wert der (unbekannten) Verteilungsfunktion F an einer gegebenen Stelle x ∈ R sch¨ atzen (vgl. Bezeichnung D 1.2). D 2.1 Parametersch¨ atzungen Nachfolgend werden verschiedene parametrische Verteilungsmodelle zugrundegelegt und Punktsch¨atzungen f¨ ur die zugeh¨ origen Parameter betrachtet. Sofern nichts anderes angegeben ist, wird von folgendem Modell ausgegangen. Modell D 2.1 (Einstichproben-Modell). iid
X1 , . . . , Xn ∼ Pϑ , ϑ ∈ Θ.
Gem¨aß Bezeichnung D 1.2 ist eine beliebige Funktion T (X1, . . . , Xn ) der Stichprobenvariablen X1 , . . . , Xn in diesem Kontext eine Sch¨atzung oder Sch¨atzfunktion. In der Statistik spielen die folgenden Gr¨ oßen eine zentrale Rolle. Bezeichnung D 2.2 (Stichprobenmittel, Stichprobenvarianz, mittlere quadratische Abweichung (von μ)). Sei X1 , . . . , Xn eine Stichprobe. Dann heißen (i) X =
1 n
2 = (ii) σ 2μ = (iii) σ
(iv) S2 =
n
Xi Stichprobenmittel,
i=1
1 n−1 1 n 1 n
n
(Xi − X)2 Stichprobenvarianz,
i=1 n
(Xi − μ)2 die mittlere quadratische Abweichung von μ,
i=1 n
(Xi − X)2 die mittlere quadratische Abweichung.
i=1
Es ist zu bemerken, dass Statistiken als Funktionen von Zufallsvariablen wiederum ¨ Zufallsvariablen sind. Diese besitzen nach den Uberlegungen aus der Wahrscheinlichkeitstheorie eine Verteilung, die Grundlage zur Bewertung der Sch¨atzungen ist.
D 2 Punktsch¨ atzungen
237
iid
Beispiel D 2.3. Im Modell X1 , . . . , Xn ∼ N(μ, σ2 ) mit μ ∈ R und σ2 > 0 gilt nach Beispiel C 1.16 und Beispiel C 4.1: 2
(i) das Stichprobenmittel ist normalverteilt: X ∼ N(μ, σn ). Weiterhin folgt (s. z.B. Krengel, 2005): (ii) die normierte Stichprobenvarianz hat eine χ2 -Verteilung mit n − 1 Freiheitsgraden: n−1 2 ∼ χ2 (n − 1). σ σ2 iid
Im Modell X1 , . . . , Xn ∼ bin(1, p), p ∈ (0, 1), besitzt das n-fache des Stichprobenmittels eine Binomialverteilung (s. Beispiel C 1.14): nX = Sn =
n
Xj ∼ bin(n, p).
j=1
iid
Bezeichnung D 2.4 (Punktsch¨atzung). Seien X1 , . . . , Xn ∼ Pϑ , ϑ ∈ Θ, und γ : Θ −→ R. Jede Funktion T (X1 , . . . , Xn ) heißt Sch¨atzfunktion oder Punktsch¨atzung (je nach Interpretation f¨ur ϑ oder den transformierten Parameter γ(ϑ)). Ist x1 , . . . , xn ein Stichprobenergebnis, so heißt T (x1 , . . . ,xn ) Sch¨ atzwert f¨ ur ϑ (bzw. γ(ϑ)). Sch¨atzfunktionen oder auch (Punkt-) Sch¨atzer f¨ur einen Parameter ϑ werden meist durch ein Dach , eine Tilde o.¨a. gekennzeichnet: ϑ,
ϑ. iid
Beispiel D 2.5. Seien X1 , . . . , Xn ∼ bin(1, p) mit p ∈ (0, 1). Dann sind nach Definition D 2.4 folgende Funktionen (nicht unbedingt gute oder sinnvolle) Punktsch¨atzungen f¨ ur die (unbekannte) Wahrscheinlichkeit p: 1 = 12 (es kann auch jede andere feste Zahl gew¨ (i) p ahlt werden!), 2 = X1 , (ii) p 3 = X1 · Xn , (iii) p n 1 4 = n (iv) p Xi . i=1
F¨ ur eine Stichprobe vom Umfang n = 5 wurden folgende Werte beobachtet: 1,
0,
0 ,
1,
0.
Die obigen Sch¨atzer liefern f¨ ur diese Stichprobe folgende, sehr“ verschiedene ” Sch¨atzwerte: 1 2 3 = 0, p 4 = . 1 = , p 2 = 1, p p 2 5 Es besteht also offenbar Bedarf, Sch¨atzfunktionen zu bewerten, d.h. deren G¨ ute zu untersuchen.
238
D Schließende Statistik
G¨ utekriterien 4 in Beispiel D 2.5 nach Definition D 2.4 Sch¨ 1 , . . . , p atzfunktionen f¨ ur Obwohl p p sind, scheint nicht jeder dieser Sch¨ atzer auch sinnvoll zu sein. Zur Beurteilung der Qualit¨at m¨ ussen daher G¨ utekriterien definiert werden. Als Kenngr¨oßen zur Bewertung von Sch¨atzern werden der Erwartungswert als Lagemaß und die Varianz bzw. der mittlere quadratische Fehler als Streuungsmaß verwendet.
Erwartungstreue ϑ. Ein wichtiges Kriterium ist die Erwartungstreue eines Sch¨atzers iid
Definition D 2.6 (Erwartungstreue). Sei X1 , . . . , Xn ∼ Pϑ , ϑ ∈ Θ, ein parametrisches Verteilungsmodell. ur den Parameter ϑ, falls Ein Sch¨atzer ϑ heißt erwartungstreu (oder unverzerrt) f¨ ϑ=ϑ Eϑ
f¨ ur alle ϑ ∈ Θ.
Der Index am Erwartungswertsymbol Eϑ zeigt an, dass der Erwartungswert jeweils bzgl. der Verteilung Pϑ gebildet wird. Entsprechende Notationen Varϑ etc. werden nachfolgend verwendet. unftiger“ Sch¨atzer Da der untersuchte Parameter ϑ nicht bekannt ist, soll ein vern¨ ” f¨ ur ϑ zumindest im Mittel den richtigen Wert liefern. Damit der Sch¨atzer ϑ bereurlich nicht vom unbekannten Parameter ϑ abh¨angen! ϑ nat¨ chenbar ist, darf Beispiel D 2.7. F¨ ur die Sch¨atzer aus Beispiel D 2.5 ergibt sich mit p ∈ (0, 1): 1 = 0,5, Ep p
2 = p, Ep p
3 = p2 , Ep p
4 = p. Ep p
2 und p 4 erwartungstreu. Die Sch¨ 1 und p 3 Damit sind die Sch¨atzer p atzer p erweisen sich als nicht erwartungstreu, da sie nicht f¨ ur einen beliebigen Wert 3 ist allerdings erwartungstreu f¨ p ∈ (0, 1) im Mittel diesen Wert liefern. p ur p 2 .
Der Begriff der Erwartungstreue wird nun an den in Bezeichnung D 2.2 eingef¨ uhrten Statistiken erl¨autert. iid
Beispiel D 2.8. Seien X1 , . . . , Xn ∼ P, wobei μ = EX1 und σ2 = Var X1 endlich existieren. (i) Das Stichprobenmittel ist eine erwartungstreue Sch¨atzung f¨ ur μ, denn: n n n 1 1 1 Eμ (X) = Eμ Xi = Eμ X i = μ = μ. n n n i=1 i=1 i=1
D 2 Punktsch¨ atzungen
2μ = (ii) Die mittlere quadratische Abweichung von μ , i.e. σ
1 n
n
239
(Xi − μ)2 , ist
i=1
erwartungstreu f¨ ur σ2 . Unter den getroffenen Annahmen gilt: n n n 1 1 1 2 2 μ = Eσ = Eσ σ (Xi − μ) Eσ (Xi − μ)2 = Varσ Xi = σ2 . n n n i=1 i=1 i=1 2μ vom Parameter μ abh¨ Da der Sch¨atzer σ angt, ist dieser im Modell als bekannt anzunehmen. n (Xi − X)2 ist hin(iii) Sei n 2. Die mittlere quadratische Abweichung S2 = n1 i=1
gegen nicht erwartungstreu. Zun¨achst werde angenommen, dass μ = EXi = 0 gilt. Dies impliziert insbesondere EX = 0. Der Verschiebungssatz liefert n
(Xi − X)2 =
i=1
n
X2i − n(X)2 ,
i=1
so dass n n n 2 = E (Xi − X) EX2i − nE(X)2 = Var Xi − n Var X = (n − 1)σ2 . i=1
i=1
i=1
Im letzten Schritt wurde benutzt, dass wegen der Unabh¨angigkeit der Stichprobenvariablen die Varianzformel C 5.18 anwendbar ist und damit nach Bemerkung C 5.19 folgt: n n 1 σ2 1 . Xi = 2 Var Xi = Var X = Var n n n i=1 i=1 Daher ergibt sich ES2 =
n−1 2 σ , n
so dass S2 nicht erwartungstreu ist (der Faktor n−1 ist stets kleiner als 1). n Da der Faktor f¨ ur n → ∞ gegen 1 konvergiert, gilt lim ES2 = lim
n→∞
n→∞
n−1 2 ur alle σ2 > 0. σ = σ2 f¨ n
Diese Eigenschaft wird als asymptotische Erwartungstreue bezeichnet. Gilt allgemein Eμ Xi = μ ∈ R, so resultiert das Ergebnis durch die Betrachtung der Zufallsvariablen Yi = Xi − μ mit EYi = 0, 1 i n. Es gilt: n i=1
(Xi − X)2 =
n i=1
(Xi − μ − (X − μ))2 =
n
(Yi − Y)2 ,
i=1
d.h. die quadratische Abweichung ist invariant gegen Verschiebungen (vgl. Regel A 3.40).
240
D Schließende Statistik
(iv) In (iii) wurde gezeigt, dass die mittlere quadratische Abweichung keine erwartungstreue Sch¨atzung f¨ ur σ2 ist. Dies kann jedoch durch eine leichte Modifikation des Sch¨atzers erreicht werden. Die Stichprobenvarianz kann geschrieben werden als n 2 = S2 , σ n−1 n so dass E σ2 = n−1 ES2 = σ2 f¨ ur alle σ2 > 0. Die Stichprobenvarianz ist damit also erwartungstreu. Dies ist der Grund, warum sie in vielen statistischen Anwendungen der mittleren quadratischen Abweichung vorgezogen wird.
Aus Beispiel D 2.8 (iv) kann folgende Regel abgeleitet werden. iid
=
atzer ϑ(X1 , . . . , Xn ) ein Sch¨ Regel D 2.9. Seien X1 , . . . , Xn ∼ Pϑ , ϑ ∈ Θ, und ϑ f¨ ur ϑ mit Eϑ
ur alle ϑ ∈ Θ, ϑ = an + bn ϑ f¨
wobei an , bn ∈ R, bn = 0, bekannte, von ϑ unabh¨angige Werte sind. Dann ist durch
ϑ − an ϑ= bn eine erwartungstreue Sch¨atzung f¨ ur ϑ gegeben. Mittlerer quadratischer Fehler Die Erwartungstreue eines Sch¨atzers ist ein Kriterium zur Bewertung der G¨ ute einer Sch¨atzfunktion. Als alleiniges Kriterium reicht es i.Allg. nicht aus, da es die Abweichung eines Sch¨atzers vom interessierenden Parameter nicht in Betracht zieht. Aus diesem Grund wird als weiteres Kriterium die quadratische Abweichung uhrt. bzgl. des zu sch¨atzenden Parameters ϑ eingef¨ Definition D 2.10 (Mittlerer quadratischer Fehler). Der mittlere quadratische ϑ bzgl. des Parameters ϑ ist Fehler (MSE, mean squared error“) eines Sch¨atzers ” definiert durch MSEϑ ( ϑ) = Eϑ ( ϑ − ϑ)2 , ϑ ∈ Θ. Ist der Sch¨atzer erwartungstreu, so ist der mittlere quadratische Fehler gleich der Varianz des Sch¨atzers. Regel D 2.11. Sei atzung f¨ ur ϑ. Dann gilt: ϑ eine Sch¨ 2 MSEϑ ( ϑ) = Varϑ ( ϑ) + Eϑ ϑ−ϑ .
Der Term Eϑ atzers. ϑ − ϑ heißt Verzerrung oder Bias des Sch¨ Ist ϑ erwartungstreu, so gilt MSEϑ (ϑ) = Varϑ (ϑ).
D 2 Punktsch¨ atzungen
241
Beweis. Die Darstellung als Summe von Varianz und quadratischer Abweichung des Erwartungswerts vom Parameter folgt sofort aus dem Verschiebungssatz. F¨ ur erwarur beliebiges ϑ ∈ Θ, so dass in diesem Fall ϑ = ϑ f¨ tungstreue Sch¨ atzfunktionen gilt Eϑ die Verzerrung Null ist.
Bemerkung D 2.12. Schr¨ankt man sich in einem konkreten Modell auf erwartungstreue Sch¨atzfunktionen ein, so sind insbesondere Sch¨atzfunktionen mit minimaler Varianz von Interesse. Die Varianz dient dann als G¨ utemaß, das die Streuung der Sch¨atzung beschreibt. 2 und p 4 erwartungstreu. Beispiel D 2.13. In Beispiel D 2.7 sind die Sch¨atzer p 2 nur die Werte 0 oder 1 liefern kann, ist seine Qualit¨ Da p at zu bezweifeln. Der Vergleich der Varianzen unterstreicht dies: 2 = p(1 − p), Var p
4 = Var p
p(1 − p) . n
4 f¨ 2 . Daher ist die Varianz von p ur n 2 immer kleiner als die Varianz von p 4 mit wachsendem StichprobenumAußerdem wird die Streuung des Sch¨atzers p 4 zu bevorzugen ist. Es kann sogar gezeigt werden, dass fang kleiner, so dass p iid 4 f¨ die Sch¨atzfunktion p ur eine Stichprobe X1 , . . . , Xn ∼ bin(1, p) unter allen erwartungstreuen Sch¨atzern diejenige mit kleinster Varianz ist.
Beispiel D 2.14. F¨ ur das Stichprobenmittel X ergibt sich unter den Voraussetzung von Beispiel D 2.8 die Varianz Varμ (X) =
σ2 , n
d.h. mit wachsendem Stichprobenumfang sinkt die Varianz. Dies zeigt, dass gr¨oßere Stichprobenumf¨ange eine h¨ ohere Pr¨azision“ der Sch¨atzfunktion ergeben. ” Die Varianz eignet sich daher zum direkten Vergleich erwartungstreuer Sch¨atz2 in Beispiel D 2.8 k¨ onnen mit dem funktionen. Die Varianzsch¨atzungen S2 und σ mittleren quadratischen Fehler verglichen werden. 2 ist gegeben Beispiel D 2.15. Die Varianz des erwartungstreuen Sch¨atzers σ 2 2 4 durch Var( σ ) = n−1 σ . F¨ ur α > 0 sei eine Familie von Sch¨atzern definiert 2α = α σ2 . Dann gilt E σ2α = ασ2 , so dass durch σ 2 2 MSEσ2 ( σ2α ) = Var( σ2α ) + E σα − σ2 2 = α2 Var( σ2 ) + ασ2 − σ2 =
2α2 4 σ4 σ + (α − 1)2 σ4 = (2α2 + (n − 1)(α − 1)2 ) . n−1 n−1
2α mit minimalem Wert von 2α2 + (n − 1)(α − 1)2 hat also den Der Sch¨atzer σ kleinsten mittleren quadratischen Fehler. Ein einfache Rechnung zeigt, dass das optimale α durch
242
D Schließende Statistik
α∗ =
n−1 n+1
gegeben ist. Der (nicht erwartungstreue) Sch¨atzer mit dem kleinsten mittleren quadratischen Fehler ist daher n n−1 2 1 2∗ = = (Xi − X)2 . σ σ n+1 n+1 i=1 Der mittlere quadratische Fehler ist MSEσ2 ( σ2∗ ) =
2 σ4 . n+1
Konsistenz 4 aus Beispiel D 2.5 hat die Eigenschaft, dass die Varianz f¨ Der Sch¨atzer p ur gr¨oßer ugt werdenden Stichprobenumfang n gegen Null konvergiert. Nach Satz C 8.4 gen¨ die Folge der Sch¨atzer ( p4,n )n∈N dem Starken Gesetz großer Zahlen, d.h. es gilt n→∞
4,n −−−→ p fast sicher, p 4,n auch punktweise den Parameter p approximiert. Diese Eigenschaft so dass p heißt starke Konsistenz (zur Begriffsbildung siehe Anmerkungen nach Satz C 8.4). Allgemein ist dies eine weitere wichtige Eigenschaft eines sinnvollen Sch¨atzers. Da der Stichprobenumfang hierbei variiert, muss zus¨atzlich der Stichprobenumfang n als Index aufgenommen werden, d.h. es wird ϑn an Stelle von ϑ geschrieben. ϑn )n heißt stark konDefinition D 2.16 (Konsistenz). Eine Folge von Sch¨atzern ( sistent f¨ ur den Parameter ϑ, falls gilt: n→∞ ur ϑ ∈ Θ. ϑn −−−→ ϑ P-f.s. f¨
Ist die Konvergenz gegen ϑ nur stochastisch, so wird von schwacher Konsistenz gesprochen (zur Begriffsbildung siehe Anmerkungen nach Satz C 8.1). Wegen p = EX1 ist ( p4,n)n eine konsistente Folge erwartungstreuer Sch¨ atzer f¨ ur den Erwartungswert EX1 . Diese Aussage ist ein Spezialfall eines allgemeinen Sachverhalts. iid
Satz D 2.17. Sei X1 , X2 , . . . ∼ Pμ , μ ∈ R, mit EX1 = μ. Die Stichprobenn Xi , n ∈ N, bilden eine konsistente Folge erwartungstreuer mittel Xn = n1 i=1
Punktsch¨atzer f¨ ur den Erwartungswert μ. D 2.2 Sch¨ atzung der Verteilungsfunktion In diesem Abschnitt wird ein nichtparametrisches Verteilungsmodell unterstellt. Modell D 2.18. iid
X1 , . . . , Xn ∼ F mit unbekannter Verteilungsfunktion F
D 3 Maximum-Likelihood-Sch¨ atzung
243
Da keinerlei Einschr¨ankungen an die Verteilungsfunktion F der Stichprobenvariablen vorausgesetzt werden, kann jedes Wahrscheinlichkeitsmaß P in Betracht gezogen werden. Ziel ist es, die zu P geh¨ orige (unbekannte) Verteilungsfunktion F basierend auf der Stichprobe X1 , . . . , Xn zu sch¨ atzen. Dazu wird punktweise“ ” vorgegangen, d.h. f¨ ur festes t ∈ R wird eine Punktsch¨atzung f¨ ur die Wahrscheinlichkeit F(t) = P(X1 t) bestimmt. Es ist naheliegend, die bereits in der Beschreibenden Statistik verwendete empirische Verteilungsfunktion Fn zu nutzen: 1 1I(−∞,t] (Xi ), Fn (t) = n n
t ∈ R.
i=1
Der Summand Ii (t) = 1I(−∞,t] (Xi ) ist eine Zufallsvariable, die angibt, ob die Zufallsvariable Xi kleiner oder gleich t ist, und die gem¨aß Bezeichnung C 1.8 binomialverteilt ist. Wegen EIi (t) = F(t) gilt Ii (t) ∼ bin(1, F(t)). Da die Zufallsvariablen X1 , . . . , Xn nach Voraussetzung stochastisch unabh¨angig sind, gilt dies auch f¨ ur I1 (t), . . . , In (t) mit festem t ∈ R, so dass nach Beispiel C 1.14 n Fn (t) =
n i=1
1I(−∞,t] (Xi ) =
n
Ii (t) ∼ bin(n, F(t)),
t ∈ R.
i=1
¨ Aus diesen Uberlegungen resultieren mit den Ergebnissen aus Abschnitt D 2 folgende Eigenschaften. ur Fn die empirische Verteilungsfunktion. Dann gilt f¨ Eigenschaft D 2.19. Sei festes t ∈ R: F(t)(1 − F(t)) , E Fn (t) = F(t), Var Fn (t) = n d.h. atzung f¨ur F(t). ( Fn (t))n definiert eine Fn (t) ist eine erwartungstreue Sch¨ stark konsistente Folge von Sch¨atzfunktionen (punktweise in t). Eine sinnvolle Fn . Sch¨atzung f¨ ur die Funktion F ist damit die empirische Verteilungsfunktion
D 3 Maximum-Likelihood-Sch¨ atzung Die bisher vorgestellten Sch¨atzfunktionen beruhen mehr oder weniger auf Intuition und Plausibilit¨at, d.h. f¨ ur eine konkrete Situation mag es offensichtliche“ ” Sch¨atzer wie etwa das Stichprobenmittel geben (s. Beispiel D 2.5). Eine derartige Vorgehensweise ist jedoch nicht in allen Situationen angemessen oder m¨oglich, um geeignete Sch¨atzer zu erhalten. Um methodisch Punktsch¨atzungen zu erzeugen, wurden verschiedene Konstruktionsprinzipien entwickelt, die – theoretisch nachweisbar – oft zu guten“ Sch¨atzfunktionen f¨ uhren. Im Folgenden wird die ”
244
D Schließende Statistik
Maximum-Likelihood-Methode vorgestellt. Unter geeigneten Voraussetzungen haben die nach diesem Prinzip konstruierten Sch¨atzer generell gute“ Eigenschaften, ” wie z.B. die asymptotische Erwartungstreue. Weitere Prinzipien sind die Momentenmethode (s. z.B. Genschel und Becker 2004), die Kleinste-Quadrate-Methode (s. Abschnitt D 7) oder die Bayes-Methode (s. Abschnitt D 8). Zur Motivation der Maximum-Likelihood-Methode wird das folgende Beispiel betrachtet. Beispiel D 3.1 (Capture-Recapture-Methode). Die hypergeometrische Verteilung (s. Beispiel B 2.3) tritt bei der Beschreibung eines einfachen capture-recapture” Verfahrens“ auf. Untersucht wird die Fragestellung, wie viele Tiere einer Spezies in einem abgegrenzten Gebiet leben. Eine Vollerhebung sei aus gewissen Gr¨ unden nicht m¨ oglich. Um eine Aussage u oße zu erhalten, werden in diesem Gebiet r ¨ber die Populationsgr¨ Tiere dieser Spezies (zuf¨allig) eingefangen, markiert und wieder freigelassen. Nach einer gewissen Zeit, bei der man von einer Durchmischung“ der Tiere ausgehen ” kann, werden erneut (zuf¨allig) n Tiere eingefangen. Es sei nun angenommen, dass sich unter diesen k ∈ {1, . . . , n} bereits markierte Tiere befinden. Die Wahrscheinlichkeit f¨ ur das Fangen k markierter Tiere ist (die hypergeometrische Wahrscheinlichkeit) pk =
r k
s
n−k r+s . n
Die Gesamtpopulation ist durch N = r + s Tiere gegeben, wobei s unbekannt ist. Intuitiv erwartet man die ann¨ahernde Gleichheit der Verh¨altnisse in der Population r k r atzer“ N und in der Stichprobe n . Gleichsetzen der Terme liefert n · k als ”Sch¨ f¨ ur die unbekannte Populationsgr¨ oße N. Fasst man die Wahrscheinlichkeit pk bei (festem) Versuchsergebnis k als Funktion = nr von s auf, so hat diese ein Maximum bei s∗ = (n−k)r k k − r. Begr¨ undung: r s r+s−1 pk (s) n−k n r s−1 = kr+s pk (s − 1) n k n−k s!(r + s − 1)! n!(r + s − n)!(n − k)!(s − n + k − 1)! (n − k)!(s − n + k)! n!(r + s − n − 1)!(r + s)!(s − 1)! s(r + s − n) . = (r + s)(s − n + k) =
Damit gilt pk (s) pk (s − 1) ⇐⇒
pk (s) 1 pk (s − 1)
⇐⇒ s(r + s) − sn (r + s)s − (n − k)(r + s)
D 3 Maximum-Likelihood-Sch¨ atzung
⇐⇒ (n − k)r ks ⇐⇒ s
245
(n − k)r . k
Bei festem k liegt daher bei s∗ = (n−k)r (genauer beim ganzzahligen Anteil von k s∗ ) das Maximum, denn zun¨ achst w¨achst pk (s) in s und f¨allt ab s∗ . Damit ist N∗ = r + s∗ = k1 (rk + nr − kr) =
nr k .
Der intuitive Sch¨atzer f¨ ur N = r + s l¨asst sich also erkl¨aren als Ergebnis einer Maximierung der Z¨ahldichte bez¨ uglich s bei festem k. Dies ist ein Beispiel f¨ ur ein allgemeines Prinzip zur Herleitung von Sch¨atzfunktionen, dem sogenannten Maximum-Likelihood-Prinzip: W¨ahle den Sch¨atzer derart, dass die gegebene Beobachtung mit der theoretisch gr¨ oßtm¨ oglichen Wahrscheinlichkeit erscheint (bzw. erscheinen w¨ urde). Die Z¨ahldichte wird also bei fester Beobachtung in dem freien Parameter (hier s) maximiert. Nimmt die Funktion bei s∗ ihr Maximum an, so liefert hyp(n, r, s∗ ) unter allen hypergeometrischen Verteilungen mit festgehaltenen Gr¨oßen k, r und n die gr¨oßte ur das Auftreten der Beobachtung k. Wahrscheinlichkeit pk f¨ Die Situation in Beispiel D 3.1 zeigt, dass es sinnvoll ist, einen Sch¨atzer so zu bestimmen, dass die Wahrscheinlichkeit, die gegebene Beobachtung zu realisieren, maximal ist. Im Folgenden wird wiederum Modell D 2.1 unterstellt. Allgemein wird zur Herleitung eines Maximum-Likelihood-Sch¨atzers f¨ ur ϑ die gemeinsame (Z¨ahl-) Dichte der Zufallsvariablen X1 , . . . , Xn bzgl. des Parameters ϑ maximiert (bei vorliegender Beobachtung x1 , . . . , xn ). Bezeichnung D 3.2 (Likelihoodfunktion, Maximum-Likelihood-Sch¨atzung). Seiiid
en X1 , . . . , Xn ∼ Pϑ , ϑ ∈ Θ, sowie x1 , . . . , xn eine Realisation von X1 , . . . , Xn . Dann heißt die durch ⎧ n ⎪ ⎪ Pϑ (Xi = xi ), Pϑ ist eine diskrete Verteilung ⎨ L(ϑ|x1 , . . . , xn ) = i=1 n ⎪ ⎪ fϑ (xi ), Pϑ ist eine stetige Verteilung mit Dichte fϑ ⎩ i=1
definierte Funktion L(·|x1 , . . . , xn ) : Θ −→ R Likelihoodfunktion. Im Folgenden wird die Abh¨angigkeit von den Beobachtungen meist unterdr¨uckt und kurz L(ϑ) bzw. L geschrieben. Der Logarithmus der Likelihoodfunktion wird logLikelihoodfunktion genannt und mit l = ln L bezeichnet. Eine L¨osung ϑ= ϑ(x1 , . . . , xn ) des Maximierungsproblems L(ϑ) −→ max, d.h. es ϑ∈Θ
gilt
L( ϑ) L(ϑ)
∀ϑ ∈ Θ,
erzeugt den Maximum-Likelihood-Sch¨atzer ϑ= ϑ(X1 , . . . , Xn ).
246
D Schließende Statistik
Zur Illustration der Methode wird das folgende, einfache Beispiel betrachtet. iid
Beispiel D 3.3. Seien X1 , X2 ∼ bin(1, p) mit p ∈ [0, 1]. Dann besitzt Xi die Z¨ahldichte P(Xi = 0) = 1 − p, P(Xi = 1) = p, i = 1, 2. Da X1 , X2 stochastisch unabh¨angig sind, gilt f¨ ur die gemeinsame Z¨ahldichte: P(X1 = x1 , X2 = x2 ) = px1 (1 − p)1−x1 px2 (1 − p)1−x2 = px1 +x2 (1 − p)2−x1 −x2 = L(p).
Die Maximum-Likelihood-Methode w¨ahlt denjenigen Wert f¨ ur p, der die gr¨oßte Wahrscheinlichkeit zur Realisierung der Werte x1 , x2 besitzt. Dieser ist gegeben = 12 (x1 + x2 ). Zur Illustration werden die drei F¨ durch p alle x1 = x2 = 0, [x1 = 0, x2 = 1 oder x1 = 1, x2 = 0] und x1 = x2 = 1 betrachtet. Die Funktion L besitzt dann die folgenden Grafen: x1 = x2 = 0, L(p) = (1 − p)2 1
L(p)
x1 = x2 = 1, L(p) = p2
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .... .... .... .... .... ..... ..... ..... ...... ...... ...... ....... ........ ........... .................
1 2
0
1
L(p)
1
... ... ... .. . ... ... ... .. . . .. ... ... ... ... . . .. ... ... ... ... . . .. ... .... ... .... . . ... ... .... ..... ..... . . . . ...... ...... ...... ....... ........ . . . . . . . . . . ...................
1 2
0
p
p
x1 = 0,x2 = 1 oder x1 = 1,x2 = 0, L(p) = (1 − p) · p 0.25
L(p)
........................... ...... ...... ..... .... .... .... ... . ... . ... .. . . ... ... ... . . . ... . ... ... . ... .. . ... .. ... . .. ... . ... .. . ... .. . ... .. . ... .. ... . .. ... . ... .. . ... .... ... . . ... .. ... . ... .... ... ... ... . . . .
1 2
0 p
1
1
D 3 Maximum-Likelihood-Sch¨ atzung
247
Das Maximum der Funktion L liegt im ersten Fall an der Stelle p = 0, im zweiten an der Stelle p = 1. Im dritten Fall erh¨alt man p = 12 als L¨osung. Zusammenfas = 12 (x1 + x2 ). Damit ist in der betrachteten send l¨asst sich dies schreiben als p 1 = 2 (X1 + X2 ) der Maximum-Likelihood-Sch¨ atzer f¨ ur p . Situation p Wird von einer Stichprobe X1 , . . . , Xn vom Umfang n ausgegangen, so erh¨alt man den Maximum-Likelihood-Sch¨atzer (s. Beispiel D 3.4) 1 Xi . n n
= p
i=1
4 ist also der Maximum-LikelihoodDer in Beispiel D 2.5 vorgeschlagene Sch¨atzer p Sch¨atzer f¨ ur p .
Die Bedeutung der log-Likelihoodfunktion besteht darin, dass sie (im Fall der Wohldefiniertheit) dieselben Maximalstellen wie die Likelihoodfunktion besitzt. Die Maximierung ist aber aus technischen Gr¨ unden oft einfacher. Bei Existenz der Riemann-Dichte ergibt sich z.B. f¨ ur x1 , . . . , xn mit fϑ (xi ) > 0, i = 1, . . . , n: l(ϑ) = ln L(ϑ) =
n
ln fϑ (xi ).
i=1
Im Folgenden werden Maximum-Likelihood-Sch¨atzer bei verschiedenen Modellannahmen vorgestellt. iid
Beispiel D 3.4 (Binomialverteilung). Seien X1 , . . . , Xn ∼ bin(1, p) mit p ∈ [0, 1] und x1 , . . . , xn ∈ {0, 1} ein Stichprobenergebnis. Wegen P(X1 = x) = px (1 − p)1−x ,
x ∈ {0, 1},
ist die Likelihoodfunktion L gegeben durch L(p|x1 , . . . , xn ) =
n
pxi (1 − p)1−xi = pnx (1 − p)n(1−x) ,
p ∈ [0, 1].
i=1
x =
1 n
n
xi bezeichnet das arithmetische Mittel der Beobachtungen, also den
i=1
Anteil von Treffern“. ” Sei zun¨achst 0 < x < 1, d.h. es wurden sowohl Treffer als auch Misserfolge beobachtet. Die log-Likelihoodfunktion l ist dann gegeben durch l(p|x1 , . . . , xn ) = nx · ln(p) + n(1 − x) ln(1 − p),
Ableiten nach p ergibt die notwendige Bedingung nx n(1 − x) − = 0. p 1−p
p ∈ (0, 1).
248
D Schließende Statistik
Aufl¨ osen nach p liefert als Kandidat f¨ ur eine lokale Maximalstelle p = x. Eine Untersuchung des Monotonieverhaltens von l zeigt, dass diese auch tats¨achlich ein globales Maximum (auf [0, 1]) liefert. In den F¨allen x = 0 bzw. x = 1 ist die Likelihoodfunktion streng monoton auf [0, 1] und liefert ebenfalls die globale Maximalstelle x. = X. Der Maximum-Likelihood-Sch¨atzer ist somit p iid
Beispiel D 3.5 (Poisson-Verteilung). Seien X1 , . . . , Xn ∼ po(λ) mit λ 0 und x1 , . . . , xn ∈ N0 ein Stichprobenergebnis. Wegen P(X1 = x) = e−λ
λx , x!
x ∈ N0 ,
sind die Likelihoodfunktion L und die log-Likelihoodfunktion l gegeben durch n λxi λnx = e−λn n L(λ|x1 , . . . , xn ) = e−λ , λ 0, xi ! i=1 xi ! i=1
l(λ|x1 , . . . , xn ) = −nλ + nx ln(λ) −
n
ln(xi !).
i=1
Ist x = 0, so ist l streng monoton fallend und λ = 0 = x Maximalstelle der logLikelihoodfunktion. F¨ ur x > 0 ergibt Ableiten nach λ die notwendige Bedingung −n +
nx = 0. λ
Aufl¨ osen nach λ liefert als Kandidat f¨ ur eine lokale Maximalstelle λ = x. Eine Untersuchung des Monotonieverhaltens von l zeigt, dass diese auch tats¨achlich ein globales Maximum (auf (0, ∞)) liefert. Der Maximum-Likelihood-Sch¨atzer ist somit λ = X. Beispiel D 3.6. In der Monographie von L. von Bortkewitsch (1898) Das Gesetz der kleinen Zahlen, Teubner, Leipzig, werden die H¨aufigkeiten von Todesf¨allen in Folge eines Huftritts in 10 preußischen Armeecorps w¨ahrend eines Zeitraumes von 20 Jahren aufgef¨ uhrt. Dabei wurden folgende H¨aufigkeiten beobachtet: Anzahl j von Todesf¨allen (pro Jahr und Armeecorps) Anzahl der Armeecorps mit j Todesf¨allen im Jahr
0
1 2 345
109 65 22 3 1 0
Der Stichprobenumfang betr¨agt daher n = 200, wobei 109mal kein Todesfall ur λ erh¨alt man daraus beobachtet wurde, 65mal ein Todesfall etc. Als Sch¨atzung f¨ den Wert λ = 109 · 0 + 65 · 1 + 22 · 2 + 3 · 3 + 1 · 4 = 122 = 0,61. 200 200
D 3 Maximum-Likelihood-Sch¨ atzung
249
Vergleicht man die beobachteten relativen H¨aufigkeiten mit den gesch¨atzten Wahrscheinlichkeiten (bei Einsetzen von λ = 0,61 in die Z¨ahldichte der PoissonVerteilung), so erh¨alt man eine sehr gute Anpassung: beobachtete relative H¨aufigkeiten
0,545 0,325 0,110 0,015 0,005 0,000
gesch¨atzte Wahrscheinlichkeiten
0,544 0,331 0,101 0,021 0,003 0,000
Da λ auch der Erwartungswert der Poisson-Verteilung ist, erh¨alt man mittels λ einen Sch¨atzwert f¨ ur die erwartete Anzahl von Todesf¨allen in einem Armeecorps und Jahr: λ = 0,61. iid
Beispiel D 3.7 (Exponentialverteilung). Seien X1 , . . . , Xn ∼ Exp(λ) mit λ > 0 und x1 , . . . , xn > 0 ein Stichprobenergebnis. Wegen fX1 (x) = λe−λx ,
x > 0,
sind die Likelihoodfunktion L und die log-Likelihoodfunktion l gegeben durch L(λ|x1 , . . . , xn ) =
n −λx i λe = λn e−nλx ,
λ > 0,
i=1
l(λ|x1 , . . . , xn ) = n ln(λ) − nλx.
Ableiten nach λ ergibt die notwendige Bedingung n − nx = 0. λ
Aufl¨ osen nach λ liefert als Kandidat f¨ ur eine lokale Maximalstelle λ = x1 . Eine Untersuchung des Monotonieverhaltens von l zeigt, dass diese auch tats¨achlich ein globales Maximum (auf (0, ∞)) liefert. Der Maximum-Likelihood-Sch¨atzer ist somit λ = 1 . X
Beispiel D 3.8. Die Wartezeit von Auftr¨agen bis zu ihrer Bearbeitung seien als ur die exponentialverteilt mit Parameter λ angenommen. Um einen Sch¨atzwert f¨ mittlere Wartezeit zu erhalten, werden die Wartezeiten von 6 Auftr¨agen [in min] notiert: 10, 13, 6, 25, 19, 17. 1 Dies ergibt den Sch¨atzwert λ = 15 . Da der Erwartungswert einer exponentialver1 teilten Zufallsvariablen durch λ gegeben ist, ist 1/λ = 15 [min] eine Sch¨atzung der mittleren Wartezeit f¨ ur einen Auftrag.
250
D Schließende Statistik iid
Beispiel D 3.9 (Potenzverteilung). Seien X1 , . . . , Xn ∼ beta(α, 1) mit α > 0 und x1 , . . . , xn ∈ (0, 1) ein Stichprobenergebnis. Wegen fX1 (x) = αxα−1 ,
und mit der Notation z =
n
x ∈ (0, 1),
xi ist die Likelihoodfunktion L gegeben durch
i=1 n α−1 L(α|x1 , . . . , xn ) = αxi = αn i=1
n
α−1 xi
= αn zα−1 ,
α > 0.
i=1
Die log-Likelihoodfunktion l ist dann bestimmt durch l(α|x1 , . . . , xn ) = n ln(α) + (α − 1) ln(z). Ableiten nach α > 0 ergibt die notwendige Bedingung n + ln(z) = 0. α Aufl¨ osen nach α liefert als Kandidat f¨ ur eine lokale Maximalstelle α = − lnn (z) = −1 n 1 ln(xi ) . Eine Untersuchung des Monotonieverhaltens von l zeigt, dass − n i=1
diese auch tats¨achlich zum globalen Maximum (auf (0, ∞)) f¨ uhrt. −1 n 1 =− n Der Maximum-Likelihood-Sch¨atzer ist somit α ln(Xi ) . i=1
D 4 Konfidenzintervalle W¨ahrend eine Punktsch¨atzung einen einzigen Wert f¨ ur einen (unbekannten) Parameter ϑ liefert, wird durch eine Intervallsch¨atzung oder einen Konfidenzbereich (auch: Vertrauensbereich) eine Menge von Werten angegeben. Diese Vorgehensweise beruht auf der Idee, dass das Ergebnis einer Punktsch¨atzung ohnehin nicht den wahren Wert des Parameters liefert, sondern aufgrund des Zufalls immer vom tats¨achlichen Wert abweicht. Eine Intervallsch¨atzung liefert hingegen einen Bereich, in dem der unbekannte Parameter (mindestens) mit einer vorgegebenen Wahrscheinlichkeit liegt. Definition D 4.1 (Intervallsch¨atzung, Konfidenzintervall, Konfidenzniveau). Seiiid
en α ∈ (0, 1) eine feste, vorgegebene Wahrscheinlichkeit sowie X1 , . . . , Xn ∼ Pϑ , ϑ ∈ Θ ⊆ R. ] heißt Intervallsch¨ Eine (zuf¨alliges) Intervall [ u, o atzung oder Konfidenzintervall zum Niveau 1 − α f¨ ur den Parameter ϑ, falls gilt: ]) 1 − α Pϑ (ϑ ∈ [ u, o
∀ ϑ ∈ Θ.
=u (X1 , . . . , Xn ) und o =o (X1 , . . . , Xn ) Statistiken, die von der Hierbei sind u ur jede Realisation x1 , . . . , xn die UngleiStichprobe X1 , . . . , Xn abh¨angen und f¨ (x1 , . . . , xn ) erf¨ (x1 , . . . , xn ) o chung u ullen. 1 − α heißt Konfidenzniveau oder Vertrauenswahrscheinlichkeit.
D 4 Konfidenzintervalle
251
Als Wert f¨ ur die Wahrscheinlichkeit α wird meist α ∈ {0,01, 0,05, 0,1} gew¨ahlt, so dass der wahre Parameterwert nur mit kleiner Wahrscheinlichkeit außerhalb von ] liegt. Alternativ wird ein Konfidenzintervall zum Niveau 1 − α auch kurz als [ u, o (1 − α)-Konfidenzintervall bezeichnet. Die Wahl eines Konfidenzbereichs h¨angt von den Verteilungen der Statistiken u und o und damit von den Verteilungsannahmen ab. Im Folgenden werden gebr¨auchliche Konfidenzbereiche in verschiedenen Modellen vorgestellt. Diese Wahl ist jedoch keineswegs eindeutig. Grunds¨atzlich wird unterschieden in einseitige und zweiseitige Konfidenzintervalle. Bei einseitigen Intervallen ist eine Grenze deterministisch, w¨ahrend die andere von der Stichprobe abh¨angt. Typische Beispiele u, ∞). Bei zweiseitigen Konfidenzintervallen h¨ angen beide Intersind [0, o) und [ vallgrenzen von der Stichprobe ab. Die bedeutsamen Konfidenzintervalle bei Normalverteilungsannahme sind in Abschnitt D 5 angegeben. D 4.1 Exponentialverteilung iid
Modell D 4.2. X1 , . . . , Xn ∼ Exp(λ), λ > 0. Der Maximum-Likelihood-Sch¨atzer f¨ ur λ ist gegeben durch λ = X1 . Nach Bein spiel C 1.16 gilt Xi ∼ Γ (λ, n), so dass mit Beispiel C 4.1 (iii) folgt i=1
2nλ = 2λ Xi ∼ Γ λ n
i=1
1 2n , 2 2
= χ2 (2n).
(D.1)
Mit diesem Resultat k¨ onnen ein- und zweiseitige (1 − α)-Konfidenzintervalle erzeugt werden. Verfahren D 4.3 (Konfidenzintervalle bei Exponentialverteilung). Seien α ∈ (0, 1) und χ2β (2n) das β-Quantil der χ2 -Verteilung mit 2n Freiheitsgraden, β ∈ ur den Parameter λ im Modell D 4.2 (0, 1). Dann sind (1− α)-Konfidenzintervalle f¨ gegeben durch χ21−α (2n) λ, 2n χ2 (2n) = α u, ∞) mit u (ii) [ λ, 2n χ2α/2 (2n) χ21−α/2 (2n) λ und o λ. ] mit u = = (iii) [ u, o 2n 2n
(i) [0, o] mit o =
] betrachtet. Die Nachweise f¨ Beweis. Es wird nur das einseitige Intervall [0, o ur die verbleibenden Konfidenzintervalle verlaufen analog. F¨ ur λ > 0 gilt unter Verwendung von (D.1): n χ21−α (2n) 2 ]) = Pλ λ Pλ (λ ∈ [0, o Xi χ1−α (2n) = 1 − α. λ = Pλ 2λ 2n i=1
252
D Schließende Statistik
D 4.2 Binomialverteilung Zun¨achst wird das folgende Binomialmodell oder Bernoulli-Modell unterstellt ( M¨ unzwurfexperiment“). ” Modell D 4.4 (Binomialmodell). iid
X1 , . . . , Xn ∼ bin(1, p),
p ∈ (0, 1).
= Als Sch¨atzung f¨ ur p wird der Maximum-Likelihood-Sch¨atzer p
1 n
n
Xi verwen-
i=1
det. Nachfolgend werden zwei M¨ oglichkeiten zur Konstruktion von Konfidenzur große intervallen f¨ ur den Parameter p vorgestellt, wobei die erste Methode f¨ Stichprobenumf¨ange geeignet ist. Das zweite Verfahren wird hingegen meist f¨ ur kleine Stichprobenumf¨ange genutzt. Approximative Konfidenzintervalle Eine M¨ oglichkeit zur Ermittlung eines Konfidenzintervalls benutzt den Zentralen Grenzwertsatz und das Starke Gesetz der großen Zahlen sowie Lemma C 8.8 , wobei angenommen wird, dass der Stichprobenumfang n f¨ ur die Sch¨atzung p hinreichend groß ist. Es l¨asst sich n¨amlich zeigen, dass √ −p p Pp a n b ≈ Φ(b) − Φ(a) (1 − p ) p gilt. W¨ahlt man a = uα/2 und b = u1−α/2 , wobei uβ das β-Quantil der Standardnormalverteilung bezeichne, so erh¨alt man √ −p p Pp uα/2 n u1−α/2 ≈ 1 − α. (1 − p ) p Mit −u1−α/2 = uα/2 (s. Beispiel C 2.9) resultieren daraus f¨ ur das (1 − α)Konfidenzintervall die Intervallgrenzen: =p − u
u1−α/2 √ (1 − p ), p n
=p + o
u1−α/2 √ (1 − p ). p n
Das Intervall h¨alt das Niveau i.Allg. nat¨ urlich nicht exakt, f¨ ur große Stichprobenumf¨ange aber zumindest ungef¨ahr ein. Konfidenzintervalle dieser Art werden als approximative Konfidenzintervalle bezeichnet. Entsprechend k¨onnen einseitige (approximative) Konfidenzintervalle angegeben werden.
D 4 Konfidenzintervalle
253
Verfahren D 4.5. Sei α ∈ (0, 1). Dann sind approximative ein- und zweiseitige (1 − α)-Konfidenzintervalle f¨ ur den Parameter p der Binomialverteilung gegeben durch % & u1−α (1 − p ), 1 − √ (i) p p n % & u1−α + √ (1 − p ) (ii) 0, p p n % & u1−α/2 u1−α/2 (1 − p ), p + √ (1 − p ) − √ (iii) p p p n n Exaktes Konfidenzintervall Ist der Stichprobenumfang n klein, so kann die obige N¨aherung der Verteilung nicht angewendet werden. Daher bietet die bereits vorgestellte Methode keinen brauchbaren Ansatz zur Ermittlung eines Konfidenzintervalls. Abhilfe schafft die bzw. o die Quantile folgende Vorgehensweise, die zur Berechnung der Grenzen u der F-Verteilung verwendet. Definiere dazu zun¨achst die Anzahl der beobachteten Einsen e: n Xi . e = n p= i=1
Sei Fβ (f1 ,f2 ) das β-Quantil der F-Verteilung mit Freiheitsgraden f1 und f2 , d.h. ist Y ∼ F(f1 ,f2 ) F-verteilt, so gilt f¨ ur das β-Quantil Fβ (f1 ,f2 ): P(Y Fβ (f1 ,f2 )) = β,
β ∈ (0, 1).
Verfahren D 4.6 (Exaktes zweiseitiges Konfidenzintervall). Sei α ∈ (0, 1). Ein exaktes zweiseitiges (1 − α)-Konfidenzintervall f¨ ur den Parameter p im Bino] mit den Clopper-Pearson-Werte genannten mialmodell ist gegeben durch [ u, o Intervallgrenzen e, 2(n − e + 1)) e Fα/2 (2 , n− e+1+ e Fα/2 (2 e, 2(n − e + 1)) )) ( e + 1)F1−α/2 (2( e + 1), 2(n − e = o . n− e + ( e + 1)F1−α/2 (2( e + 1), 2(n − e))
= u
Beispiel D 4.7. Bei einer Befragung von 16 Vorstandsvorsitzenden gaben genau vier an, im n¨achsten Jahr mit sinkenden Gewinnen in ihrem Unternehmen zu rechnen. Zw¨ olf gingen von zumindest gleichbleibenden Gewinnen aus. Zur Ermittlung eines 90%-Konfidenzintervalls f¨ ur den Anteil von Unternehmen mit erwarteten sinkenden Gewinnen in der Gesamtpopulation werden daher folgende Gr¨ oßen ben¨ otigt: e = 4, n = 16,
F0,05 (8,14) ≈ 0,322,
F0,95 (10,12) ≈ 2,254.
= 0,090 und o = 0,484. Das Daraus ergeben sich die Clopper-Pearson-Werte u gesuchte 90%-Konfidenzintervall f¨ ur p ist daher [0,090; 0,484].
254
D Schließende Statistik
Nachfolgend wird das Verhalten des exakten zweiseitigen Konfidenzintervalls f¨ ur die Stichprobenumf¨ange n = 6 und n = 16 n¨aher betrachtet. Beispiel D 4.8. F¨ ur n = 6 ergeben sich in Abh¨angigkeit vom Sch¨atzwert e ∈ {0, . . . , 6} die (1 − α)-Konfidenzintervalle in Tabelle D 4.1. Diese sind in Abbildung D 4.1 grafisch dargestellt.
e
0
1
2
3
4
5
6
α = 0,1
u o
0 0,01 0,06 0,15 0,27 0,42 0,62 0,39 0,58 0,73 0,85 0,94 0,99 1
α = 0,05
u o
0 0,00 0,04 0,12 0,22 0,36 0,54 0,45 0,64 0,78 0,88 0,96 1,00 1
Tabelle D 4.1. Obere und untere Grenzen der Konfidenzintervalle f¨ ur n = 6.
1,0
1,0
0,5
0,5
0
1
2
3 4 α = 0,1
5
6
0
1
2 3 4 α = 0,05
5
6
Abb. D 4.1. Obere und untere Grenzen der Konfidenzintervalle f¨ ur n = 6.
F¨ ur festes n werden die Konfidenzintervalle mit sinkendem α gr¨oßer. Die L¨ange der Konfidenzintervalle nimmt ab, wenn der Stichprobenumfang steigt. F¨ ur n = 16 ergeben sich in Abh¨ angigkeit vom Sch¨atzwert e ∈ {0, . . . , 16} die (1 − α)Konfidenzintervalle in Abbildung D 4.2.
D 5 Sch¨ atzungen bei Normalverteilung In diesem Abschnitt werden nur Normalverteilungsmodelle betrachtet, die in der Praxis breite Verwendung finden. Dabei werden folgende Situationen unterschieden:
D 5 Sch¨ atzungen bei Normalverteilung
255
1,0
0,5
0
1
2
3
4
5
6
7
α = 0,1 (Klammern ’[]’)
8
9
10
11
12 13
14
15
16
α = 0,05 (Klammern ’()’)
Abb. D 4.2. Obere und untere Grenzen der Konfidenzintervalle f¨ ur n = 16.
Modell D 5.1 (μ unbekannt, σ2 bekannt). iid
X1 , . . . , Xn ∼ N(μ, σ2 ) mit μ ∈ R unbekannt und σ2 > 0 bekannt.
Modell D 5.2 (μ bekannt, σ2 unbekannt). iid
X1 , . . . , Xn ∼ N(μ, σ2 ) mit μ ∈ R bekannt und σ2 > 0 unbekannt.
Modell D 5.3 (μ unbekannt, σ2 unbekannt). iid
X1 , . . . , Xn ∼ N(μ, σ2 ) mit μ ∈ R unbekannt und σ2 > 0 unbekannt.
D 5.1 Punktsch¨ atzung Der folgende Satz enth¨alt die Maximum-Likelihood-Sch¨atzer f¨ ur die obigen Normalverteilungsmodelle. Satz D 5.4. (i) Der Maximum-Likelihood-Sch¨atzer f¨ur μ im Modell D 5.1 ist = X. gegeben durch μ (ii) Der Maximum-Likelihood-Sch¨atzer f¨ ur σ2 im Modell D 5.2 ist gegeben durch n 1 2μ = n (Xi − μ)2 . σ i=1
(iii) Der Maximum-Likelihood-Sch¨atzer f¨ ur (μ, σ2 ) im Modell D 5.3 ist gegeben 2
) mit durch ( μ, σ 1 (Xi − X)2 . n n
= X, μ
2 = S2 = σ
i=1
Beweis. Im Folgenden werden nur (i) und (iii) bewiesen. x1 , . . . , xn ∈ R sei ein Stichprobenergebnis.
256
D Schließende Statistik iid
Sei X1 , . . . , Xn ∼ N(μ, σ20 ), μ ∈ R mit σ20 > 0 bekannt. Dann ist die Likelihoodfunktion gegeben durch n
1 1 L(μ) = √ exp − 2 (xi − μ)2 . 2σ ( 2π)n σn 0 i=1 0 n √ Aus der log-Likelihoodfunktion l(μ) = −n ln( 2πσ0 ) − 2σ12 (xi − μ)2 resultiert nach 0
i=1
dem Verschiebungssatz die Darstellung n √ 1 n n l(μ) = −n ln( 2πσ0 ) − 2 (xi − x)2 − 2 (μ − x)2 = l(x) − 2 (μ − x)2 . 2σ0 i=1 2σ0 2σ0
= X Maximum-Likelihood-Sch¨ F¨ ur μ ∈ R ist l(μ) maximal f¨ ur μ = x, so dass μ atzer f¨ ur μ ist. iid
Sei X1 , . . . , Xn ∼ N(μ, σ2 ), μ ∈ R, σ2 > 0. Dann ist die Likelihoodfunktion gegeben durch n 1 1 2 L(μ, σ) = √ exp − 2 (xi − μ) . 2σ i=1 ( 2π)n σn √
Aus der log-Likelihoodfunktion l(μ, σ) = −n ln( 2π) − n ln σ − 2σ12
n
(xi − μ)2 resultiert
i=1
nach dem Verschiebungssatz die Darstellung √ n n l(μ, σ) = −n ln( 2π) − n ln(σ) − 2 s2 − 2 (μ − x)2 . 2σ 2σ
Dieser√Wert kann f¨ ur jedes σ > 0 nach oben abgesch¨ atzt werden durch h(σ) = −n ln( 2π) − n ln(σ) − 2σn2 s2 , d.h. l(μ, σ) h(σ)
mit Gleichheit genau dann, wenn μ = x.
Ableiten von h bzgl. σ ergibt h (σ) = −
n ns2 + 3 , σ σ
so dass σ2 = s2 der einzige Kandidat f¨ ur eine lokale Maximalstelle ist. Die Untersuchung des Monotonieverhaltens von h liefert, dass σ2 = s2 das eindeutige Maximum von h und wegen l(μ, σ) h(σ) h(s)
auch das eindeutige (globale) Maximum von l liefert. Somit sind die genannten Sch¨ atzer die Maximum-Likelihood-Sch¨ atzer.
Die in Satz D 5.4 hergeleiteten Maximum-Likelihood-Sch¨atzer haben sch¨one Ei 2 = S2 ) erwartungstreu f¨ genschaften. Beispielsweise sind sie (bis auf σ ur μ bzw. 2 σ (s. Beispiel D 2.8). Das Beispiel zeigt auch, dass die Stichprobenvarianz eine
2 daher meist vorerwartungstreue Sch¨atzung f¨ ur σ2 ist. Dieser Sch¨atzer wird σ 2 und σ ist ihre stochastische gezogen. Eine weitere wichtige Eigenschaft von μ Unabh¨angigkeit. iid
Satz D 5.5. Sei X1 , . . . , Xn ∼ N(μ, σ2 ), μ ∈ R, σ2 > 0. , σ
2 bzw. das Stichprobenmittel μ = X und Die Maximum-Likelihood-Sch¨atzer μ n 1 2 2 = n−1 (Xi − X) sind stochastisch unabh¨ angig. die Stichprobenvarianz σ i=1
D 5 Sch¨ atzungen bei Normalverteilung
257
D 5.2 Konfidenzintervalle iid
Basierend auf einer Stichprobe X1 , . . . , Xn ∼ N(μ, σ2 ) werden (1−α)-Konfidenzintervalle f¨ ur die Parameter μ und σ2 angegeben. Als Punktsch¨atzer werden n 2 = Xi und die Stichprobenvarianz σ hierbei das Stichprobenmittel X = n1 1 n−1
n
i=1
(Xi − X) verwendet. Bei der Konstruktion der Konfidenzintervalle wird 2
i=1
jeweils ber¨ ucksichtigt, welche der Parameter als bekannt bzw. unbekannt angenommen werden. Verfahren D 5.6 (Konfidenzintervalle f¨ ur μ bei bekanntem σ20 ). Seien α ∈ (0, 1), iid
uβ das β-Quantil der Standardnormalverteilung und X1 , . . . , Xn ∼ N(μ, σ20 ), μ ∈ R mit σ20 > 0 wie in Modell D 5.1.
ur μ gegeben durch: Dann sind (1 − α)-Konfidenzintervalle f¨ & % σ0 σ0 (i) Zweiseitiges Konfidenzintervall: X − u1−α/2 √ , X + u1−α/2 √ , n n & σ (ii) Einseitiges, unteres Konfidenzintervall: −∞, X + u1−α √0 , n % σ0 (iii) Einseitiges, oberes Konfidenzintervall: X − u1−α √ ,∞ . n 2
Zum Nachweis wird die Eigenschaft X ∼ N(μ, σn0 ) benutzt. Das in Verfahren D 5.6 aufgef¨ uhrte zweiseitige Konfidenzintervall kann zur Versuchsplanung im folgenden Sinn genutzt werden. Liegt die Vertrauenswahrscheinlichkeit 1 − α fest, so kann vor einer Erhebung der Daten ein Stichprobenumfang n so festgelegt werden, dass das zweiseitige Konfidenzintervall eine vorgegebene L¨ange L0 nicht u ¨berschreitet. Regel D 5.7 (Versuchsplanung). Seien α ∈ (0, 1) und L0 > 0. Dann hat das zweiseitige Konfidenzintervall D 5.6 h¨ochstens die L¨ange L0 , falls der Stichproullt: benumfang n die folgende Ungleichung erf¨ n
4u21−α/2 σ20 L20
.
Der erforderliche Mindeststichprobenumfang ist daher durch die kleinste nat¨urliche Zahl gegeben, die gr¨oßer oder gleich der rechten Seite der Ungleichung ist. Beweis. Die L¨ ange des zweiseitigen Intervalls ist gegeben durch
σ σ σ −u = X + u1−α/2 √0 − X − u1−α/2 √0 = 2u1−α/2 √0 , o n n n
so dass die resultierende Bedingung lautet: √ σ0 σ0 σ2 2u1−α/2 √ L0 ⇐⇒ 2u1−α/2 n ⇐⇒ 4u21−α/2 02 n. n L0 L0
258
D Schließende Statistik
Durch eine geeignete Versuchsplanung“ kann also die G¨ ute des Ergebnisses be” einflusst werden. Verfahren D 5.8 (Konfidenzintervalle f¨ ur μ bei unbekanntem σ). Seien α ∈ iid
(0, 1), tβ (n− 1) das β-Quantil der t(n− 1)-Verteilung und X1 , . . . , Xn ∼ N(μ, σ2 ), μ ∈ R, σ2 > 0, wie in Modell D 5.3.
ur μ gegeben durch: Dann sind (1 − α)-Konfidenzintervalle f¨ & % σ σ (i) Zweiseitiges Konfidenzintervall: X − t1− α2 (n − 1) √ , X + t1− α2 (n − 1) √ , n n & σ (ii) Einseitiges, unteres Konfidenzintervall: −∞, X + t1−α (n − 1) √ , n % σ (iii) Einseitiges, oberes Konfidenzintervall: X − t1−α (n − 1) √ , ∞ . n Die obigen Konfidenzintervalle werden analog zu den Konfidenzintervallen D 5.6 anstelle von σ konstruiert. Die Quantile der Standardnormalverteilung wermit σ den durch die entsprechenden Quantile der t(n − 1)-Verteilung ersetzt. Die Aussagen beruhen auf der Verteilungseigenschaft T=
√
n
X−μ ∼ t(n − 1). σ
F¨ ur den Parameter σ2 lassen sich ebenfalls ein- bzw. zweiseitige Konfidenzintervalle bestimmen. In v¨ olliger Analogie zur obigen Vorgehensweise erh¨alt man folgende Intervallsch¨atzungen. Nach Beispiel D 2.3 werden die Quantile der χ2 -Verteilung mit n − 1 Freiheitsgraden verwendet. Verfahren D 5.9 (Konfidenzintervalle f¨ ur σ2 bei unbekanntem μ). Seien α ∈ iid
(0, 1), χ2β (n − 1) das β-Quantil der χ2 (n − 1)-Verteilung und X1 , . . . , Xn ∼ N(μ, σ2 ), μ ∈ R, σ2 > 0, wie in Modell D 5.3.
ur σ2 gegeben durch: Dann sind (1 − α)-Konfidenzintervalle f¨ ' ( n−1 n−1 2 2 , 2 , (i) Zweiseitiges Konfidenzintervall: σ σ χ21−α/2 (n − 1) χα/2 (n − 1) % & n−1 2 , (ii) Einseitiges, unteres Konfidenzintervall: 0, 2 σ χα (n − 1) % n−1 2 ,∞ . (iii) Einseitiges, oberes Konfidenzintervall: 2 σ χ1−α (n − 1) Konfidenzintervalle f¨ ur σ2 im Modell D 5.2 erh¨alt man, indem in den Intervaln len D 5.9 die Sch¨atzung (n−1) σ2 durch die Statistik n σ2μ0 = (Xi −μ0 )2 ersetzt i=1
wird und bei den Quantilen die Anzahl der Freiheitsgrade um 1 erh¨oht wird, also χ2β (n − 1) jeweils durch χ2β (n) ersetzt wird.
D 5 Sch¨ atzungen bei Normalverteilung
259
Verfahren D 5.10 (Konfidenzintervalle f¨ ur σ2 bei bekanntem μ0 ). Seien α ∈ iid
(0, 1), χ2β (n) das β-Quantil der χ2 (n)-Verteilung und X1 , . . . , Xn ∼ N(μ0 , σ2 ), σ2 > 0 mit μ0 ∈ R bekannt wie in Modell D 5.2.
Dann sind (1 − α)-Konfidenzintervalle f¨ ur σ2 gegeben durch: ' ( n n 2 2 , (i) Zweiseitiges Konfidenzintervall: , σ σ χ21−α/2 (n) μ0 χ2α/2 (n) μ0 % & n 2 , (ii) Einseitiges, unteres Konfidenzintervall: 0, 2 σ χα (n) μ0 % n 2μ0 , ∞ . (iii) Einseitiges, oberes Konfidenzintervall: 2 σ χ1−α (n) Verfahren D 5.11 (Konfidenzintervalle f¨ ur σ). F¨ ur σ gewinnt man geeignete Konfidenzintervalle durch Ziehen der Quadratwurzel aus den entsprechenden In bzw. o . tervallgrenzen u Konfidenzintervall f¨ ur die Differenz δ = μ1 − μ2 der Erwartungswerte zweier Normalverteilungen bei unbekannter (gleicher) Varianz σ2 In diesem Abschnitt wird eine Statistik vorgestellt, mit der zwei normalverteilte, stochastisch unabh¨angige Stichproben miteinander hinsichtlich ihrer Mittelwerte verglichen werden k¨ onnen. Eine derartige Vorgehensweise ist dann von Interesse, wenn man sich f¨ ur Unterschiede in den Erwartungswerten zweier Teilgruppen (z.B. M¨anner – Frauen, Produkte zweier (unabh¨angiger) Anlagen, etc.) interessiert. iid
iid
Modell D 5.12. X1 , . . . , Xn1 ∼ N(μ1 , σ2 ) und Y1 , . . . , Yn2 ∼ N(μ2 , σ2 ) seien stochastisch unabh¨angige Stichproben mit n1 , n2 2. Die Parameter μ1 , μ2 ∈ R und σ2 > 0 seien unbekannt. Verfahren D 5.13 (Konfidenzintervall f¨ ur die Differenz δ = μ1 − μ2 ). Sei α ∈ ] im Modell D 5.12 f¨ (0, 1). Ein zweiseitiges (1 − α)-Konfidenzintervall [ u, o ur die Differenz der Erwartungswerte δ = μ1 − μ2 ist gegeben durch: * ) 1 1 + , Δ − t1−α/2 (n1 + n2 − 2) σpool · n1 n2 + t1−α/2 (n1 + n2 − 2) σ pool · Δ
*
1 + 1 , + n1 n2
= X − Y eine Punktsch¨ wobei Δ atzung f¨ ur die Differenz der Erwartungswerte δ, ⎞ ⎛ n1 n2 1 2 2 2 ⎝ (Xi − X) + pool = (Yj − Y) ⎠ σ n1 + n2 − 2 i=1 j=1
260
D Schließende Statistik
=
n1 − 1 n2 − 1 21 + 2 σ σ n1 + n2 − 2 n1 + n2 − 2 2
21 und σ 22 der eine kombinierte Varianzsch¨atzung mit den Stichprobenvarianzen σ Stichproben X1 , . . . , Xn1 und Y1 , . . . , Yn2 sowie tβ (n1 + n2 − 2) das β-Quantil der t(n1 + n2 − 2)-Verteilung sind.
Die obige Aussage beruht auf der Eigenschaft: * −1 − (μ1 − μ2 ) 1 1 Δ + ∼ t(n1 + n2 − 2). pool n1 n2 σ Einseitige Konfidenzintervalle lassen sich analog konstruieren. Zu beachten ist, dass das vorgestellte Konfidenzintervall auf der Annahme beruht, dass die Varianzen in den Stichproben identisch sind.
D 6 Statistische Testverfahren D 6.1 Stichprobenmodelle In den folgenden Ausf¨ uhrungen werden drei allgemeine Modelle mit unterschiedlicher Datensituation zugrundegelegt. (i) Einstichprobenmodell Diese Situation wurde bereits in Modell D 2.1 eingef¨ uhrt und stellt in gewissem Sinne die Standardsituation dar, an der die nachfolgende Konzepte zun¨achst erl¨autert werden. Das Modell lautet iid
X1 , . . . , Xn ∼ Pϑ , ϑ ∈ Θ.
(ii) Zweistichprobenmodelle Diese Modelle dienen der Modellierung von Situationen, in denen Vergleiche zweier Merkmale oder Vergleiche eines Merkmals (beispielsweise) zu zwei Zeitpunkten bzw. in zwei Teilpopulationen durchgef¨ uhrt werden (s. z.B. Modell D 5.12). Nachfolgend werden zwei Modelle unterschieden: (a) Verbundene Stichproben: Die Stichprobe besteht aus Paaren (Xi , Yi ), i = 1, . . . , n. In der Regel stammt das zugeh¨ orige bivariate Merkmal von einer Versuchseinheit, an der zwei Merkmale gemessen werden. Im Folgenden werden (X1, Y1 ), . . . , (Xn , Yn ) als stochastisch unabh¨angig angenommen, so dass die Stichprobenvariablen der Teilstichproben X1 , . . . , Xn bzw. Y1 , . . . , Yn auch jeweils stochastisch unabh¨angig sind. Die Zufallsvariablen Xi und Yi sind aber i.Allg. stochastisch abh¨angig. Anwendungen dieses Modells sind Vorher-Nachher-Vergleiche“ oder Vergleiche von Fi” lialen eines Unternehmens, etc.
D 6 Statistische Testverfahren
261 iid
Modell D 6.1 (Verbundene Stichproben). Seien (X1 , Y1 ), . . . , (Xn , Yn ) ∼ P ∈ P, wobei P eine Familie bivariater Verteilungen ist.
(b) Unabh¨angige Stichproben: Die Stichprobe besteht aus zwei Teilstichproben X1 , . . . , Xn1 und Y1 , . . . , Yn2 mit Stichprobenumf¨angen n1 und n2 . Alle Stichprobenvariablen werden nachfolgend als gemeinsam stochastisch unabh¨angig betrachtet. Eine wichtige Anwendung dieses Modells sind Messungen eines Merkmals in zwei (unabh¨angigen) Populationen, z.B. Vergleiche von weiblichen und m¨annlichen Probanden, von zwei Maschinen A und B, etc. iid
Modell D 6.2 (Unabh¨angige Stichproben). Seien X1 , . . . , Xn1 ∼ P und iid
Y1 , . . . , Yn2 ∼ Q stochastisch unabh¨ angige Stichproben.
D 6.2 Einf¨ uhrung in Hypothesentests Die Methoden der Punkt- und Intervallsch¨atzung dienen zur Quantifizierung unbekannter Parameter in einem vorgegebenen Modell. In vielen Situationen ist aber der konkrete Wert eines Parameters von untergeordnetem Interesse. Vielmehr wird f¨ ur eine Grundgesamtheit die G¨ ultigkeit einer Aussage behauptet, die dann mittels einer Stichprobe u uft wird. Es soll also eine Entscheidung getroffen werden, ¨berpr¨ ob ein untersuchtes Merkmal eine bestimmte Eigenschaft besitzt oder nicht. Eine derartige Fragestellung wird als Hypothese bezeichnet. Beispiel D 6.3. Aufgrund gesetzlicher Vorschriften d¨ urfen Verpackungen (z.B. Kartons, Flaschen, Dosen etc.) die jeweils angegebene F¨ ullmenge nicht unterschreiten. Daher muss die F¨ ullmenge durch eine Vollkontrolle bzw. durch regelm¨aßige Stichprobenziehung ¨ uberpr¨ uft werden. Die stichprobenbasierte Vorgehensweise wird statistische F¨ ullmengenkontrolle genannt. Vom Merkmal F¨ ullmenge einer Flasche werde angenommen, dass die Verteilung in der Grundgesamtheit durch eine N(μ, σ2 )-Verteilung beschreibbar sei. Mit Hilfe eines statistischen Verfahrens (basierend auf einer Stichprobe X1 , . . . , Xn ) soll u uft werden, ob die mittlere F¨ ullmenge μ einen vorgegebenen Wert ¨berpr¨ μ0 = 1 [l] nicht unterschreitet, d.h. die unbekannte mittlere F¨ ullmenge μ erf¨ ullt die Ungleichung μ > μ0 = 1. Die Hypothese lautet daher Die mittlere F¨ ullmenge ist gr¨oßer als 1l“. Als Ergeb” nis werden entweder die Entscheidung • μ > μ0 , d.h. die Vermutung wird als richtig akzeptiert, oder ultigkeit der Annahme kann nicht best¨atigt werden, • μ μ0 , d.h. die G¨ getroffen.
262
D Schließende Statistik
Beispiel D 6.4. Zur Behandlung einer Erkrankung wird eine neue Therapie vorgeschlagen. Die Entwickler der Methode behaupten, dass sie die Heilungschancen im Vergleich zu einer Standardtherapie verbessert. Die Hypothese lautet daher Die neue Therapie ist besser als die Standardthe” rapie“. Diese verbale Aussage muss quantifiziert werden und durch ein Merk¨ mal beschrieben werden. Zur Uberpr¨ ufung k¨ onnen zwei Stichproben herangezogen werden, wobei in der ersten Stichprobe X1 , . . . , Xn1 der Heilungserfolg von Personen, die mit der neuen Therapie behandelt werden, gemessen wird (in den Auspr¨agungen ja/nein oder u ¨ber ein quantitatives Merkmal). Die zweite Stichprobe Y1 , . . . , Yn2 enth¨alt die Ergebnisse einer Gruppe, die mit der Standardtherapie behandelt wurde. Sie wird auch als Kontrollgruppe bezeichnet. Um eine verbale Hypothese mit Methoden der Inferenzstatistik behandeln zu k¨ onnen, muss die Fragestellung in ein statistisches Modell u uhrt werden. Aus ¨berf¨ der Hypothese wird auf diese Weise eine statistische Hypothese, die bzgl. der vorliegenden Wahrscheinlichkeitsverteilung bzw. ihrer Parameter formuliert wird (s. Beispiel D 6.3). Die Hypothese, die auf ihre G¨ ultigkeit u uft werden soll, wird im Folgen¨berpr¨ den Alternativhypothese oder Alternative genannt. Ihr gegen¨ ubergestellt wird die sogenannte Nullhypothese, die i.Allg. die gegenteilige Aussage formuliert. Wesentlich ist jedoch, dass die als Alternative und Nullhypothese formulierten Aussagen einander ausschließen. Die Nullhypothese wird in der Regel zuerst notiert und mit H0 bezeichnet. Zur Bezeichnung der Alternativhypothese werden die Notationen A bzw. H1 o.¨a. verwendet. Ein wesentlicher Punkt bei der Formulierung des Problems ist, dass aus mathematischen Gr¨ unden die nachzuweisende Eigenschaft immer als Alternative zu formulieren ist, wohingegen die G¨ ultigkeit einer Nullhypothese statistisch nicht nachgewiesen werden kann“. ” Beispiel D 6.5. In den Beispielen D 6.3 und D 6.4 lauten die Festlegungen von Nullhypothese und Alternative: Nullhypothese
Alternative
Standardtherapie besser mittlere F¨ ullmenge kleiner oder gleich μ0
neue Therapie besser mittlere F¨ ullmenge gr¨oßer als μ0
Das Problem, zwischen Alternative und Nullhypothese zu entscheiden, wird statistisches Testproblem oder kurz Testproblem genannt. In der Modellierung des Testproblems repr¨asentieren die Hypothesen Teilmengen der Verteilungsannahme, d.h. die zugrundeliegende Familie P von Wahrscheinlichkeitsverteilungen wird aufgeteilt in solche, die zur Nullhypothese geh¨ oren, und solche, die die Alternative erf¨ ullen.
D 6 Statistische Testverfahren
263
iid
Bezeichnung D 6.6 (Nullhypothese, Alternative). Seien X1 , . . . , Xn ∼ P ∈ P und P = P0 ∪P1 eine disjunkte Zerlegung von P (d.h. P0 ∩P1 = ∅) mit Pj = ∅, j = 1, 2. Dann heißen H0 = P0 Nullhypothese und H1 = P1 Alternative. H1 repr¨asentiert die nachzuweisende Eigenschaft. Liegen parametrische Verteilungsmodelle zugrunde, so werden H0 und H1 mit den entsprechenden Parametermengen identifiziert, d.h. H0 und H1 stellen eine Zerlegung des Parameterraums Θ dar: Θ = H0 ∪ H1, H0 ∩ H1 = ∅ mit H0 , H1 = ∅. Ist Hj einelementig, so heißt die Hypothese einfach. Ansonsten spricht man von einer zusammengesetzten Hypothese. Beispiel D 6.7. In der Situation von Beispiel D 6.3 wird z.B. das Verteilungsiid
modell X1 , . . . , Xn ∼ N(μ, σ20 ) mit μ ∈ Θ = R und bekanntem σ20 > 0 unterstellt. Damit ergibt sich f¨ ur das gegebene μ0 und die untersuchte Fragestellung H0 = {μ ∈ Θ | μ μ0 } = (−∞, μ0 ] und H1 = {μ ∈ Θ | μ > μ0 } = (μ0 , ∞). Als Schreibweise f¨ ur diese Situation wird verwendet: H0 : μ μ0
←→
H1 : μ > μ0 .
(D.2)
iid
Im Modell X1 , . . . , Xn ∼ N(μ, σ2 ) mit μ ∈ R und σ2 > 0 ist der Parameterraum gegeben durch Θ = R × (0, ∞). Damit resultieren die Hypothesen H0 = {(μ, σ2 ) ∈ Θ | μ μ0 , σ2 > 0} = (−∞, μ0 ] × (0, ∞) und H1 = {(μ, σ2 ) ∈ Θ | μ > μ0 , σ2 > 0} = (μ0 , ∞)×(0, ∞). Formal sehen die Hypothesen also anders aus, in der Darstellung des Testproblems wird aber ebenso die Notation aus (D.2) benutzt. Bezeichnung D 6.8 (Statistischer Test, Annahmebereich, Ablehnbereich). Ein statistischer Test oder Hypothesentest ist ein Verfahren der Inferenzstatistik, das basierend auf einer Stichprobe X1 , . . . , Xn entscheidet, ob die formulierte Alternativhypothese f¨ ur die Grundgesamtheit anzunehmen ist oder (mit den gegebenen Daten) nicht belegt werden kann. Der Annahmebereich A ist die Teilmenge des Stichprobenraums, f¨ur die der Test die Nullhypothese akzeptiert. Die Teilmenge des Stichprobenraums, f¨ur die die Nullhypothese verworfen wird, heißt Ablehnbereich. Basiert der Test auf einer Teststatistik T (X1, . . . , Xn ), die Werte in R hat, so werden die obigen Begriffe auch auf die Werte von T bezogen, die zur Annahme bzw. Ablehnung der Nullhypothese f¨ uhren. In der mathematischen Statistik ist eine formalere Beschreibung von Tests u ¨blich. Basierend auf einer Stichprobe X1 , . . . , Xn wird ein Test durch eine Zufallsvariable ϕ(X1 , . . . , Xn ) mit einer Funktion ϕ : Rn −→ {0, 1}, der sogenannten Testfunktion, gegeben durch 0, H0 wird akzeptiert ϕ(x1 , . . . , xn ) = , 1, H1 wird akzeptiert definiert. H0 wird also genau dann verworfen, wenn ϕ(x1 , . . . , xn ) = 1.
264
D Schließende Statistik
Im Folgenden wird ein statistischer Test meist wie in Verfahren D 6.9 formuliert. Zur Vereinfachung der Darstellung gehen einige Definitionen und Erl¨auterungen ¨ von dieser speziellen Situation aus. Eine Ubertragung auf Testprobleme mit anderen Entscheidungsregeln ist i.Allg. problemlos m¨oglich. Verfahren D 6.9 (Formulierung eines Tests mittels einer Teststatistik T ). Basierend auf einer Stichprobe X1 , . . . , Xn wird eine Teststatistik T = T (X1 , . . . , Xn ) berechnet. Der Wert dieser Statistik wird verglichen mit einer kritischen Schranke c und aus diesem Vergleich resultiert die Entscheidung. Sind daher H0 die Nullhypothese und H1 die Alternativhypothese, so lautet die Entscheidungsvorschrift des Testverfahrens etwa: Verwerfe H0 , falls T > c. Damit wird eine Entscheidung f¨ ur die Alternative H1 getroffen, wenn der Wert der Statistik T den Wert der kritischen Schranke c u ¨bersteigt. Andernfalls kann H0 nicht zur¨ uckgewiesen werden. Die geeignete Festlegung der kritischen Schranke c wird nachfolgend erl¨ autert. Der Annahmebereich dieses Tests ist das Intervall (−∞, c], der Ablehnbereich ist (c, ∞). Eine Entscheidung in einem statistischen Modell ist i.Allg. fehlerbehaftet und f¨ uhrt nicht immer zur richtigen Entscheidung. Im Rahmen eines statistischen Testproblems werden folgende Konstellationen unterschieden:
In der Grundgesamtheit ist richtig:
Das Testverfahren liefert auf- H0 grund der Stichprobe die EntH1 scheidung f¨ ur
Nullhypothese H0
Alternative H1
korrekte Entscheidung
Fehler 2. Art (β-Fehler)
Fehler 1. Art (α-Fehler)
korrekte Entscheidung
Eine Fehlentscheidung liegt also dann vor, wenn f¨ ur die Alternative H1 entschieden wird, tats¨achlich aber die Nullhypothese H0 richtig ist (Fehler 1. Art) bzw. wenn f¨ ur die Nullhypothese H0 entschieden wird, obwohl die Alternative H1 richtig ist (Fehler 2. Art). Es ist i.Allg. nicht m¨ oglich, beide Fehler simultan zu minimieren. Daraus resultiert die Entscheidung f¨ ur ein unsymmetrisches Vorgehen (s.u.), bei dem der Fehler 1. Art nach oben begrenzt wird und dann der Fehler 2. Art m¨ oglichst klein sein soll.
D 6 Statistische Testverfahren
265
Beispiel D 6.10. Zur Erl¨auterung des obigen Sachverhalts wird das Modell X ∼ N(μ, 1) mit μ ∈ {μ0 , μ1 } und μ0 < μ1 betrachtet, d.h. es liegt eine normalverteilte Stichprobenvariable X mit den m¨ oglichen Erwartungswerten μ0 und μ1 vor. Ein statistischer Test f¨ ur das Testproblem H0 : μ = μ0
←→
H1 : μ = μ1
auf der Basis dieser einen Zufallsvariablen ist dann gegeben durch die Vorschrift Verwerfe H0 , falls X > c mit einer geeigneten kritischen Schranke c. Wird angenommen, dass μ0 korrekt ist, so ist die Wahrscheinlichkeit f¨ ur eine Ablehnung von H0 (die Fehlerwahrscheinlichkeit 1. Art) gegeben durch Pμ0 (X > c) = 1 − Pμ0 (X c) = 1 − Φ(c − μ0 ),
wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist. Analog ergibt sich die Wahrscheinlichkeit f¨ ur eine Akzeptanz von H0 , obwohl μ1 der korrekte Verteilungsparameter ist (die Fehlerwahrscheinlichkeit 2. Art), gem¨aß Pμ1 (X c) = Φ(c − μ1 ).
Die Fehlerwahrscheinlichkeiten werden daher u ¨ber die Verteilungsfunktionen dargestellt. Da diesen Werten Fl¨achen unterhalb der Kurven der zugeh¨origen Dichten entsprechen, ergibt sich das Bild in Abbildung D 6.1.
Fehlerwahrscheinlichkeit 2. Art
μ0
Fehlerwahrscheinlichkeit 1. Art
c
μ1
Abb. D 6.1. Fehlerwahrscheinlichkeiten 1. und 2. Art.
Wird die zugeh¨ orige Schranke c variiert, so sieht man, dass sich die Fehlerwahrscheinlichkeiten gegenl¨aufig verhalten: W¨achst c, so wird zwar die Fehlerwahrscheinlichkeit 1. Art (dunkle Fl¨ache) kleiner, aber die Fehlerwahrscheinlichkeit 2. Art (helle Fl¨ache) wird gr¨ oßer. Entsprechendes zeigt sich, wenn die Schranke c nach unten verschoben wird. Die oben bereits eingef¨ uhrten Begriffe werden nun allgemein f¨ ur zusammengesetzte Hypothesen formuliert.
266
D Schließende Statistik
Bezeichnung D 6.11 (Fehlerwahrscheinlichkeiten 1. und 2. Art, G¨ utefunktion). iid
Sei X1 , . . . , Xn ∼ Pϑ , ϑ ∈ Θ. Ein Test f¨ ur das Testproblem H0 ←→ H1 sei gegeben durch Verwerfe H0 , falls T > c mit Teststatistik T = T (X1 , . . . , Xn ) und kritischer Schranke c. (i) α(ϑ) = Pϑ ( H1 entscheiden, obwohl ϑ ∈ H0 richtig“ ) = Pϑ (T > c) heißt Feh” lerwahrscheinlichkeit 1. Art bei gegebenem ϑ ∈ H0 . Das Supremum sup α(ϑ) = sup Pϑ (T > c)
ϑ∈H0
ϑ∈H0
heißt Fehlerwahrscheinlichkeit 1. Art des Tests. (ii) β(ϑ) = Pϑ ( H0 entscheiden, obwohl ϑ ∈ H1 richtig“ ) = Pϑ (T c) heißt Feh” lerwahrscheinlichkeit 2. Art bei gegebenem ϑ ∈ H1 . Das Supremum β = sup β(ϑ) = sup Pϑ (T c) ϑ∈H1
ϑ∈H1
heißt Fehlerwahrscheinlichkeit 2. Art des Tests. 1−β heißt Sch¨arfe oder Power des Tests. (iii) Die durch G(ϑ) = Pϑ ( H1 entscheiden“ ) = Pϑ (T > c), ϑ ∈ Θ, definierte ” utefunktion des Tests. G(ϑ) heißt G¨ute des Funktion G : Θ −→ [0, 1] heißt G¨ Tests an der Stelle ϑ. Aus den obigen Definitionen ergibt sich f¨ ur die G¨ utefunktion folgender Zusammenhang α(ϑ), ϑ ∈ H0 G(ϑ) = . 1 − β(ϑ), ϑ ∈ H1 Beispiel D 6.10 zeigt, dass die simultane Minimierung der Fehlerwahrscheinlichkeiten i.Allg. nicht m¨ oglich ist. Dies f¨ uhrt zu einer unsymmetrischen Behandlung der ¨ Fehlerarten. Zur L¨ osung dieses Problems werden die nachfolgenden Uberlegungen mit einbezogen. Zun¨achst sieht es so aus, als ob beide Fehlentscheidungen gleich zu werten sind. Es gibt aber Gr¨ unde dies nicht zu tun, wie das folgende Beispiel zeigt. Beispiel D 6.12. Mittels eines statistischen Tests soll eine neue Therapie mit einer wohlbekannten Standardtherapie verglichen und hinsichtlich ihrer G¨ ute bewertet werden. Die Alternativhypothese H1 lautet: Die neue Therapie ist besser ” als die Standardtherapie“. Die Nullhypothese beinhaltet die gegenteilige Aussage: Die Standardtherapie ist nicht schlechter als die neue Therapie“. Im Lichte ” der m¨ oglichen Fehlentscheidungen bedeutet der Fehler 1. Art, die Nullhypothese H0 zu verwerfen, obwohl sie tats¨achlich richtig ist. Die neue Therapie wird also aufgrund der Datenlage besser beurteilt als die Standardtherapie, so dass
D 6 Statistische Testverfahren
267
diese (falsche) Entscheidung die Abl¨ osung der Standardtherapie nach sich ziehen m¨ usste. Diese Umstellung des Therapieverfahrens ist nachteilig f¨ ur die Patienten. Diese Folgeerscheinungen der falschen Entscheidung sind nicht zu rechtfertigen und sollen daher m¨ oglichst vermieden werden. Der Fehler 2. Art bedeutet in Konsequenz, dass die Standardtherapie beibehalten wird, obwohl die neue Behandlungsmethode einen Therapiefortschritt br¨achte. Es wird also auf den Nutzen der neuen Methode verzichtet. Fasst man diese Argumente zusammen, so ist klar, dass der Fehler 1. Art klein sein sollte. Diese Risikoabw¨agung f¨ uhrt jedoch zu vermehrten Entscheidungen zugunsten der Standardtherapie. Da also eine solche Vorgehensweise Fehler 2. Art beg¨ unstigt, m¨ ussen gr¨ oßere Anzahlen von Fehlentscheidungen 2. Art notwendig in Kauf genommen werden. Der Fehler 1. Art sollte als nicht zu klein“ eingefordert ” werden, um den Fehler 2. Art nicht zu groß“ werden zu lassen. Ansonsten hat das ” Testverfahren fast keine Chance“ (bzw. nur bei unrealistisch hohen Fallzahlen) ” sich f¨ ur die Alternative zu entscheiden. Aus der obigen Argumentation resultiert die Ungleichbehandlung von Fehlern 1. und 2. Art. In der Konstruktion von Testverfahren bedeutet dies, dass f¨ ur den Fehler 1. Art eine Fehlerwahrscheinlichkeit α ∈ (0, 1) vorgegeben wird, die als ¨ Wahrscheinlichkeit einer solchen Fehlentscheidung akzeptabel erscheint. Ublich sind wie bei Konfidenzintervallen die Werte α ∈ {0,1, 0,05, 0,01}. Der Fehler 1. Art wird auf diese Weise kontrolliert. Die Fehlerwahrscheinlichkeit 2. Art ist ein Maß f¨ ur den durch ein Testverfahren bedingten Fehler 2. Art (sie ist noch durch die Festlegung des Stichprobenumfangs beeinflussbar). Aus diesem Grund sind Anwender an Verfahren interessiert, deren Fehlerwahrscheinlichkeit 2. Art bei vorgegebener Fehlerwahrscheinlichkeit 1. Art m¨ oglichst klein ist. Diese Fragestellung ist Gegenstand der mathematischen Statistik und wird hier nicht weiter diskutiert. Im Folgenden werden in Analogie zum Vorgehen bei Punkt- und Intervallsch¨atzungen Verfahren f¨ ur verschiedene Modelle bereitgestellt. Bezeichnung D 6.13 (Signifikanzniveau, α-Niveau-Test). F¨ur ein α ∈ (0, 1) wird ein Test der Form Verwerfe H0 , falls T > c im obigen Sinn durch eine geeignete Festlegung der kritischen Schranke c definiert. Die Bedingung an diesen Wert lautet: sup α(ϑ) = sup Pϑ (T > c) α. ϑ∈H0
ϑ∈H0
alt, wird α heißt Signifikanzniveau. Ein statistischer Test, der dieses Niveau einh¨ als Signifikanztest zum Niveau α bzw. α-Niveau-Test bezeichnet. Lehnt ein Test die Nullhypothese ab, so wird der Inhalt der Alternative als signifikant zum Niveau α bezeichnet.
268
D Schließende Statistik
D 6.3 Tests bei Normalverteilungsannahme ¨ Zur leichteren Orientierung ist in Abbildung D 6.2 eine Ubersicht ¨uber die behandelten Situationen angegeben. Die Verweise beziehen sich auf die Tabellen, in denen jeweils Hypothesen und Entscheidungsregeln zusammengestellt sind. σ2 bekannt
Gauß-Tests D 6.1
eine Stichprobe
σ2 unbekannt t-Tests
D 6.2
Varianztests D 6.3, D 6.4 D 6.3 verbundene Stichproben Gauß-Tests D 6.5 t-Tests D 6.5 Unabh¨ angigkeitstest D 6.6 zwei Stichproben unabh¨ angige Stichproben Streuungsvergleiche D 6.7 Homogenit¨ atstest Mittelwertvergleiche D 6.8 ¨ Abb. D 6.2. Ubersicht der Testverfahren bei Normalverteilungsannahme.
Die nachfolgend vorgestellten Testverfahren basieren auf dem Stichprobenmittel n n 1 1 2 = n−1 X= n Xi und/oder der Stichprobenvarianz σ (Xi − X)2 . Zur Festi=1
i=1
legung der kritischen Schranke werden Quantile der Verteilung der Teststatistik unter der Nullhypothese ben¨ otigt. Daher werden die Wahrscheinlichkeitsvertei2 sowie verwandten Gr¨ oßen ohne Beweis kurz zusammengefasst. lungen von X, σ Dabei wird zun¨achst jeweils ein allgemeines Resultat pr¨asentiert und dann die Anwendung auf die obigen Statistiken dargestellt.
D 6 Statistische Testverfahren
269
Teststatistiken in Normalverteilungsmodellen und deren Verteilungen iid
Eigenschaft D 6.14. Sei X1 , . . . , Xn ∼ N(μ, σ2 ) mit μ ∈ R und 0 < σ2 < ∞. Dann gilt √ X−μ ∗ ∼ N(0, 1). X = n σ Eigenschaft D 6.15. Sind U ∼ N(0, 1) und V ∼ χ2 (m) stochastisch unabh¨angige Zufallsvariablen, so gilt U ∼ t(m). 1 mV Aus den Eigenschaften D 6.14 und D 6.15 sowie aus Satz D 5.5 ergibt sich folgende Aussage f¨ ur die sogenannte t-Statistik, die aus der in Eigenschaft D 6.14 betrach√ ∗ teten Statistik X = n X−μ entsteht, indem die Standardabweichung σ durch σ n 1 = den Sch¨atzer σ (Xi − X)2 ersetzt wird. Diese Vorgehensweise wird n−1 i=1
als Studentisieren bezeichnet. Die t-Verteilung wird auch als Student-Verteilung bezeichnet. iid
Eigenschaft D 6.16. Seien n 2 und X1 , . . . , Xn ∼ N(μ, σ2 ) mit μ ∈ R und 0 < σ2 < ∞. Die t-Statistik √ X−μ T= n σ ist t-verteilt mit n − 1 Freiheitsgraden, d.h. T ∼ t(n − 1). Aus Beispiel C 4.1 (ii) folgt direkt das folgende Resultat. iid
Eigenschaft D 6.17. Sei X1 , . . . , Xn ∼ N(μ, σ2 ) mit μ ∈ R und 0 < σ2 < ∞. Dann gilt
n n σ2μ 1 = (Xi − μ)2 ∼ χ2 (n). σ2 σ2 i=1
Ein ¨ ahnliches Resultat, das jedoch deutlich aufw¨andiger nachzuweisen ist, gilt f¨ ur die Stichprobenvarianz. iid
Eigenschaft D 6.18. Seien n 2 und X1 , . . . , Xn ∼ N(μ, σ2 ) mit μ ∈ R und 0 < σ 2 < ∞. Dann gilt n 1 (n − 1) σ2 = (Xi − X)2 ∼ χ2 (n − 1). σ2 σ2 i=1
270
D Schließende Statistik
Zum Vergleich von Varianzsch¨atzungen werden Quotienten von Stichprobenvarianzen verwendet. Dabei wird von folgendem Resultat Gebrauch gemacht, das einen Zusammenhang zwischen χ2 - und F-Verteilung herstellt. Eigenschaft D 6.19. Seien V ∼ χ2 (n) und W ∼ χ2 (m) stochastisch unabh¨angige V Zufallsvariablen. Dann hat der Quotient W eine F-Verteilung mit Freiheitsgraden n und m. F¨ ur die Summe V + W gilt V + W ∼ χ2 (n + m). Eine direkte Anwendung der Aussagen aus Eigenschaft D 6.19 auf die Stichprobenvarianzen im Modell D 6.2 liefert folgende Ergebnisse. iid
iid
Eigenschaft D 6.20. Seien X1 , . . . , Xn1 ∼ N(μ1 , σ21 ), Y1 , . . . , Yn2 ∼ N(μ2 , σ22 ) stochastisch unabh¨angige Stichproben mit n1 , n2 2 sowie n1 n2 1 1 21 = 22 = (Xj − X)2 und σ (Yj − Y)2 σ n1 − 1 n2 − 1 j=1 j=1 die jeweiligen Stichprobenvarianzen. Dann gilt f¨ ur den Quotienten 21 /σ21 σ ∼ F(n1 − 1, n2 − 1). 22 /σ22 σ 21 σ F-verteilt mit n1 − 1 und n2 − 1 Freiheits22 σ graden. Weiterhin gilt unter der Bedingung σ1 = σ2
F¨ ur σ1 = σ2 ist die F-Statistik F =
(n1 − 1) σ21 + (n2 − 1) σ22 ∼ χ2 (n1 + n2 − 2). 2 σ
Einstichproben-Tests Beispiel D 6.21. Im Rahmen einer F¨ ullmengenkontrolle (s. Beispiel D 6.3) von 5l Gebinden werden 20 Gebinde zuf¨ allig aus der Produktion ausgew¨ahlt und auf die tats¨achlich enthaltene F¨ ullmenge kontrolliert. Die Auswertung ergab folgende Messwerte: 5,14 4,90 5,25 4,99 4,93 5,16 5,21 5,14 4,98 5,13 5,15 4,85 5,20 5,19 5,14 4,95 4,94 4,91 5,15 5,09 Der Produzent muss nachweisen, dass die vorgegebene F¨ ullmenge von μ0 = 5 [l] auch tats¨achlich (im Mittel) eingehalten wird, d.h. es liegt keine Unterschreitung der vorgeschriebenen F¨ ullmenge vor. Mittels eines geeigneten statistischen Tests soll daher das Testproblem H0 : μ 5
bearbeitet werden.
←→
H1 : μ > 5
D 6 Statistische Testverfahren
271
Zur Durchf¨ uhrung der Analyse nimmt der Produzent Modell D 5.1 an, d.h. die zugrundeliegenden Stichprobenvariablen X1 , . . . , Xn sind stochastisch unabh¨angig und identisch N(μ, σ2 )-verteilt mit unbekanntem Erwartungswert μ ∈ R und einer gegebenen Standardabweichung σ = 0,1 [l]. Den Wert der Standardabweichung hat er den Unterlagen des Herstellers der Abf¨ ullanlage entnommen (Toleranz der F¨ ullmenge). Im Folgenden werden drei Typen von Hypothesen bzgl. des Erwartungswerts betrachtet. Hypothesen D 6.22 (Hypothesen bzgl. des Erwartungswerts). H0 : μ μ0
←→
H1 : μ > μ0
H0 : μ μ0
←→
H1 : μ < μ0
H0 : μ = μ0
←→
H1 : μ = μ0
Gauß-Tests iid
Ausgehend vom Modell D 5.1, d.h. X1 , . . . , Xn ∼ N(μ, σ2 ) mit μ ∈ R unbekannt und σ2 > 0 bekannt, wird zun¨achst eine geeignete Teststatistik f¨ ur das in Beispiel D 6.21 gegebene Entscheidungsproblem gesucht. Ein wesentlicher Aspekt bei der Konstruktion des Tests ist, dass die Verteilung der Statistik (zumindest f¨ ur den Schwellenwert μ0 ) bekannt ist. Da der (unbekannte) Erwartungswert μ untersucht werden soll, ist es naheliegend den Test auf einer geeigneten Sch¨atzung, n 1 =X= n Xi , aufzubauen. Insbesondere gilt im Modem Stichprobenmittel μ i=1
dell D 5.1
σ2 X ∼ N μ, . n
Im einseitigen Testproblem H0 : μ μ0 ←→ H1 : μ > μ0 soll die Alternativhypothese H1 statistisch belegt werden. Um der Unsicherheit Rechnung zu tragen, ist es daher angebracht, eine Entscheidungsregel gem¨aß Verwerfe H0 , falls X > μ0 + δ zu formulieren. δ ist dabei ein Maß f¨ ur das subjektive Sicherheitsbed¨ urfnis“ und ” dient dazu, die gegebene maximale Fehlerwahrscheinlichkeit 1. Art einzuhalten. ur den vorgeschlagenen Test Ist μ0 der wahre Parameter, so gilt f¨ √ X − μ0 √ δ √ δ > n =1−Φ . Pμ0 (X > μ0 + δ) = Pμ0 n n σ σ σ Die Fehlerwahrscheinlichkeit 1. Art bei gegebenem μ0 ist damit h¨ochstens α, falls √ δ σ α ⇐⇒ δ √ u1−α . 1−Φ n σ n
272
D Schließende Statistik
σ Die minimale Wahl f¨ ur δ ist daher δ∗ = √ u1−α . Eine analoge Betrachtung zeigt, n dass die Fehlerwahrscheinlichkeit 1. Art auch bei gegebenem (festem) μ μ0 durch α begrenzt ist, d.h. Pμ (X > μ0 + δ∗ ) α
(es gilt sogar die strikte Ungleichung). F¨ ur μ0 resultiert daher die maximale Fehlerwahrscheinlichkeit 1. Art f¨ ur einen gegebenen Parameter μ μ0 . Die Entscheidungsregel lautet daher: σ Verwerfe H0 , falls X > μ0 + √ u1−α . n Wegen
√ X − μ0 σ ∗ > u1−α X > μ0 + √ u1−α ⇐⇒ X = n σ n ∗
wird der Test meist mit der standardisierten Teststatistik X formuliert. Verfahren D 6.23 (Einseitiger Gauß-Test). Sei α ∈ (0, 1). Der einseitige GaußTest zum Signifikanzniveau α im Modell D 5.1 f¨ ur das einseitige Testproblem H0 : μ μ0
←→
H1 : μ > μ0 ,
ist gegeben durch die Entscheidungsregel: ∗
Verwerfe H0 , wenn X > u1−α . Der Ablehnbereich dieses Gauß-Tests ist das Intervall (u1−α , ∞). Beispiel D 6.24. Der Gauß-Test wird angewendet auf die Situation in Beispiel D 6.21. Mit α = 0,01, μ0 = 5, σ = 0,1, n = 20 und x = 5,07 resultiert die Realisation der Teststatistik √ x − μ0 √ 5,07 − 5 = 20 ≈ 3,130. x∗ = n σ 0,1 Wegen u0,99 = 2,326 folgt x∗ > u0,99. Der Gauß-Test zum Niveau 1% verwirft daher die Nullhypothese, so dass der Produzent die Einhaltung der F¨ ullmenge (unter den getroffenen Annahmen) statistisch belegen kann. Durch eine analoge Vorgehensweise wie im obigen Fall resultiert die folgende Testvorschrift. Verfahren D 6.25 (Einseitiger Gauß-Test). Sei α ∈ (0, 1). Der einseitige GaußTest zum Signifikanzniveau α im Modell D 5.1 f¨ ur das Testproblem H0 : μ μ0
←→
H1 : μ < μ0 ,
ist gegeben durch die Entscheidungsregel: ∗
Verwerfe H0 , wenn X < uα . Die Entscheidungsvorschrift wird gelegentlich auch mit −u1−α = uα formuliert.
D 6 Statistische Testverfahren
273
Beispiel D 6.26. Einige Monate nachdem der Produzent seine Einhaltung der F¨ ullmenge statistisch nachgewiesen hat (vgl. Beispiel D 6.24) entstehen bei einem Kunden Zweifel an der Aussage des Produzenten. Er m¨ochte dem Produzenten einen Verstoß gegen die gesetzlichen Bestimmungen (statistisch) nachweisen und formuliert daher das Testproblem H0 : μ 5
←→
H1 : μ < 5.
Bei der Durchf¨ uhrung der Analyse kann er auf 20 aktuell erhobene Daten 5,04 4,98 4,99 5,07 5,03 5,01 5,02 4,94 4,91 5,01 5,10 5,19 4,90 5,05 5,08 5,09 5,01 4,95 4,91 5,00 und die vom Produzenten zur Verf¨ ugung gestellte Standardabweichung σ = 0,1 zur¨ uckgreifen. Da wiederum Modell D 5.1 unterstellt wird, wird ein Gauß-Test (diesmal zum Niveau 5%) durchgef¨ uhrt. F¨ ur die obigen Daten ergibt sich mit α = 0,05, μ0 = 5, σ = 0,1, n = 20 und x = 5,014 der Wert x∗ = 0,626. Wegen u0,05 = −u0,95 = −1,645 folgt daher x∗ u0,05. Die Nullhypothese kann daher nicht abgelehnt werden. Der Kunde kann seine Vermutung also nicht statistisch untermauern. Er stellt allerdings fest, dass auch der Produzent mit den aktuellen Daten seine Behauptung μ > 5 nicht belegen kann. Es gilt n¨amlich x∗ u0,95 = 1,645. Zum Abschluss wird noch die zweiseitige Hypothese betrachtet. In Analogie zur Konstruktion der einseitigen Testverfahren wird angenommen, dass die Daten f¨ ur die Alternativhypothese sprechen, wenn eine ausreichend große Abweichung von μ0 nach oben oder nach unten beobachtet werden kann. Da Abweichungen nach oben und unten gleichermaßen bewertet werden, wird eine symmetrische Konstruktion vorgenommen. Die Testvorschrift lautet daher Verwerfe H0 : μ = μ0 , falls X > μ0 + δ oder X < μ0 − δ. F¨ ur die Fehlerwahrscheinlichkeit 1. Art bei gegebenem μ0 gilt dann Pμ0 (X > μ0 + δ oder X < μ0 − δ) = 1 − Pμ0 (μ0 − δ X μ0 + δ) √ δ √ δ ∗ = 1 − Pμ0 − n X n σ σ & % √ δ √ δ −Φ − n n = 1− Φ σ σ % & √ δ n =2 1−Φ . σ
Da die Nullhypothese nur den Wert μ0 enth¨alt, ist die (maximale) Fehlerwahrscheinlichkeit 1. Art bestimmt durch % & √ δ Pμ0 (X > μ0 + δ oder X < μ0 − δ) = α ⇐⇒ 2 1 − Φ n = α. σ σ Dies liefert die Festlegung δ = √ u1−α/2 . n
274
D Schließende Statistik
Verfahren D 6.27 (Zweiseitiger Gauß-Test). Sei α ∈ (0, 1). Der zweiseitige Gauß-Test zum Signifikanzniveau α im Modell D 5.1 f¨ ur das Testproblem H0 : μ = μ0
←→
H1 : μ = μ0
ist gegeben durch die Entscheidungsregel: ∗
Verwerfe H0 , wenn |X | > u1−α/2 .
H0 wird abgelehnt, falls
H0
H1
μ μ0 (μ = μ0 )
μ > μ0
X > u1−α bzw. ¨ aquivalent X > μ0 + u1−α √σn
μ μ0 (μ = μ0 )
μ < μ0
X < −u1−α = uα bzw. ¨ aquivalent X < μ0 − u1−α √σn
μ = μ0
μ = μ0
|X | > u1−α/2 bzw. ¨ aquivalent ⎧ ⎪ √σ ⎪ ⎨X > μ0 + u1−α/2 n
∗
∗
∗
oder
⎪ ⎪ σ ⎩X < μ − u 0 1−α/2 √n
Tabelle D 6.1. Gauß-Tests.
G¨ utefunktion Zur Bewertung eines statistischen Tests wurde in Bezeichnung D 6.11 die G¨ utefunktion definiert. Diese wird nun exemplarisch f¨ ur den Gauß-Test bestimmt. Satz D 6.28. Die G¨ utefunktion G des einseitigen Gauß-Tests D 6.23 zum Niveau α ∈ (0, 1) ist gegeben durch √ μ − μ0 G(μ) = Φ uα + n , σ
μ ∈ R.
Weiterhin gilt: (i) Fehlerwahrscheinlichkeit 1. Art: sup α(μ) = sup G(μ) = α, μμ0
μμ0
(ii) Fehlerwahrscheinlichkeit 2. Art: sup β(μ) = 1 − inf G(μ) = 1 − α. μ>μ0
μ>μ0
∗
Beweis. Die Teststatistik des Gauß-Tests ist gegeben durch X = ∗
G(μ) = Pμ (X > u1−α ),
μ ∈ R.
√ X−μ0 n σ , so dass
D 6 Statistische Testverfahren
275
∗
Zun¨ achst wird die Verteilung von X unter Pμ ermittelt. Ist μ der wahre Erwartungswert der Stichprobenvariablen, so folgt aus der Darstellung ∗
X =
X − μ0 X−μ μ − μ0
+ v(μ) √ = √ + √ =X σ/ n σ/ n σ/ n
mit v(μ) =
μ − μ0 √ , σ/ n
unter Pμ eine N(0, 1)-Verteilung besitzt. Der zweite Term v(μ) in der Summe ist dass X ∗ ur μ ∈ R eine Zahl, so dass X ∼ N(v(μ), 1) gilt. Insgesamt gilt nun f¨ ∗
+ v(μ) > u1−α = Pμ X
> u1−α − v(μ) G(μ) = Pμ X > u1−α = Pμ X μ − μ0 √ . = 1 − Φ (u1−α − v(μ)) = Φ −u1−α + σ/ n
Beispiel D 6.29. Der Produzent aus Beispiel D 6.21 hat seine Anlage auf einen Sollwert von μ∗ = 5,04 eingestellt. Er m¨ ochte nun wissen, wie groß die Fehlerwahrscheinlichkeit 2. Art f¨ ur diesen Wert ist, falls dies der wahre“ Wert des ” Parameters μ ist (α = 0,01). Es gilt: 5,04 − 5 √ β(μ∗ ) = 1 − G(μ∗ ) = 1 − Φ −u0,99 + 0,1/ 20 = 1 − Φ(−0,537) = 1 − 0,295 = 0,705. Die Fehlerwahrscheinlichkeit 2. Art betr¨agt daher f¨ ur diesen Wert etwa 70,5%. ¨ Analoge Uberlegungen liefern die G¨ utefunktionen der ¨ubrigen Gauß-Tests. Satz D 6.30 (G¨ utefunktionen der Gauß-Tests). (i) Die G¨ utefunktion G des einseitigen Gauß-Tests D 6.25 ist gegeben durch √ μ − μ0 , μ ∈ R. G(μ) = Φ uα − n σ (ii) Die G¨ utefunktion G des zweiseitigen Gauß-Tests D 6.27 ist gegeben durch √ μ − μ0 √ μ − μ0 G(μ) = Φ uα/2 + n + Φ uα/2 − n , μ ∈ R. σ σ Beweis. Die Darstellung f¨ ur den einseitigen Test ergibt sich analog zu Satz D 6.28 mit √ ∗
uα − v(μ)) = Φ uα − n μ − μ0 . G(μ) = Pμ (X < uα ) = Pμ (X σ
Im zweiseitigen Fall folgt das Ergebnis aus den Darstellungen der G¨ utefunktion im einseitigen Fall, uα/2 < u1−α/2 und ∗
∗
∗
∗
G(μ) = Pμ (X < uα/2 oder X > u1−α/2 ) = Pμ (X < uα/2 ) + Pμ (X > u1−α/2 ).
276
D Schließende Statistik
Versuchsplanung In Regel D 5.7 wurde eine Methode zur Festlegung eines Mindeststichprobenumfangs vorgestellt, damit ein zweiseitiges Konfidenzintervall eine vorgegebene L¨ange L0 > 0 nicht u ¨berschreitet. Eine entsprechende M¨oglichkeit der Versuchsplanung besteht auch bei der Durchf¨ uhrung von Gauß-Tests. Wie Satz D 6.28 zeigt, ist die Fehlerwahrscheinlichkeit 2. Art der Gauß-Tests stets durch 1 − α gegeben. Dies liegt darin begr¨ undet, dass bei Ann¨aherung an den Schwellenwert die Fehler 2. Art stets zunehmen. Es besteht jedoch die M¨oglichkeit, die Fehlerwahrscheinlichkeit 2. Art f¨ ur Werte außerhalb eines Toleranzbereichs unter einen vorgegebenen Wert zu zwingen, indem der Stichprobenumfang hinreichend groß gew¨ahlt wird. F¨ ur die einseitige Fragestellung H0 : μ μ0
←→
H1 : μ > μ0
bedeutet dies, den Stichprobenumfang wie folgt zu w¨ahlen: Problem D 6.31. Bestimme f¨ ur eine gegebene Wahrscheinlichkeit β∗ > 0 und einen Mindestabstand δ0 > 0 einen Mindeststichprobenumfang n, so dass β(μ) β∗
∀ μ > μ0 + δ 0 .
Regel D 6.32 (Versuchsplanung). Sei δ0 > 0 ein geforderter Mindestabstand. Beim einseitigen Gauß-Test D 6.23 f¨ uhrt die obige Vorgehensweise zur Festlegung n
σ2 (u1−α + u1−β∗ )2 . δ20
Beweis. Gem¨ aß Satz D 6.28 f¨ uhrt der obige Ansatz zur Bedingung μ − μ0 √ β∗ β(μ) = 1 − G(μ) = 1 − Φ −u1−α + σ/ n
∀μ > μ0 + δ0 .
Mit u1−β∗ = Φ−1 (1 − β∗ ) ist diese Ungleichung ¨ aquivalent zu u1−α + u1−β∗
√ μ − μ0 n σ
∀ μ > μ0 + δ 0 .
Da die Terme auf beiden Seiten positiv sind, liefert eine einfache Umformung die behauptete Beziehung.
Beispiel D 6.33. Der Produzent aus Beispiel D 6.21 hat bisher stets Stichproben vom Umfang n = 20 erhoben. In Beispiel D 6.29 wurde gezeigt, dass z.B. f¨ ur μ = 5,04 eine sehr hohe Fehlerwahrscheinlichkeit 2. Art von etwa 70% vorliegt. Da dem Produzenten dieser Wert zu hoch ist, m¨ochte er wissen, wie groß er den Stichprobenumfang w¨ahlen muss, damit f¨ ur Werte μ 5,04 eine Fehlerwahrscheinlichkeit 2. Art von h¨ ochstens 20% garantiert ist.
D 6 Statistische Testverfahren
277
Mit der Formel aus Regel D 6.32 ergibt sich mit δ0 = 0,04, α = 0,1, β∗ = 0,2 und σ = 0,01 die untere Schranke 0,12 0,01 σ2 2 ∗) (2,326 + 0,842)2 ≈ 62,726. (u + u = (u0,99 + u0,8 )2 = 1−α 1−β 0,042 0,0016 δ20
Der Produzent muss also eine Stichprobe vom Umfang mindestens n = 63 erheben, um die gew¨ unschte Fehlerwahrscheinlichkeit 2. Art f¨ ur μ 5,04 einzuhalten. Entsprechende Formeln zu Regel D 6.32 ergeben sich f¨ ur die u ¨brigen Gauß-Tests (s. z.B. Graf et al., 1998). Regel D 6.34 (Versuchsplanung). Seien δ0 > 0 ein geforderter Mindestabstand und β∗ > 0. (i) F¨ ur beide einseitigen Gauß-Tests gilt die Bedingung aus Regel D 6.32, wobei entweder μ > μ0 + δ0 oder μ < μ0 − δ0 vorausgesetzt werden. (ii) F¨ ur den zweiseitigen Gauß-Test gilt (approximativ) die Bedingung n
σ2 (u1−α/2 + u1−β∗ )2 δ20
∀ |μ − μ0 | > δ0 .
t-Tests iid
Im Modell D 5.3, d.h. X1 , . . . , Xn ∼ N(μ, σ2 ) mit unbekannten Parametern μ ∈ R und σ2 > 0, werden nun Testverfahren f¨ ur die Hypothesen D 6.22 bereitgestellt. ∗ Da die Teststatistik X des Gauß-Tests die (nun unbekannte) Varianz enth¨alt, kann diese Teststatistik nicht verwendet werden. Wie bereits an anderer Stelle auch, wird der unbekannte Parameter durch einen Sch¨atzer ersetzt, d.h. es wird die √ X − μ0 t-Statistik T = n verwendet. Da diese f¨ ur μ = μ0 eine t(n−1)-Verteilung σ hat, werden die Quantile der t(n − 1)-Verteilung anstelle der Quantile der Standardnormalverteilung verwendet. Der Nachweis, dass die t-Tests die maximale Fehlerwahrscheinlichkeit einhalten, ist m¨ oglich, aber mathematisch aufw¨andiger als f¨ ur die Gauß-Tests. Verfahren D 6.35 (t-Tests). Sei α ∈ (0, 1). Der t-Test zum Signifikanzniveau α im Modell D 5.3 f¨ ur das einseitige Testproblem H0 : μ μ0
←→
H1 : μ > μ0 ,
ist gegeben durch die Entscheidungsregel: Verwerfe H0 , wenn T > t1−α (n − 1). Die u ¨brigen t-Tests sind in Tabelle D 6.2 enthalten.
278
D Schließende Statistik
Beispiel D 6.36. In der Auseinandersetzung zwischen dem Produzenten von 5l Gebinden und einem Kunden (vgl. Beispiel D 6.26) zweifelt der Kunde nun das Modell D 5.1 an. Er behauptet, dass die vom Hersteller der Abf¨ ullanlage mitgeteilte Abweichung bei der F¨ ullung aufgrund des Alters der Anlage bereits bei der ersten Stichprobenerhebung nicht mehr korrekt war und somit Modell D 5.1 nicht h¨atte angenommen werden d¨ urfen. Der Produzent m¨ochte diese Darstellung entkr¨aften und wendet daher im Modell D 5.3 den entsprechenden t-Test an. = 0,124 den Wert t = 2,529. Wegen Dies ergibt zum Niveau 1% wegen x = 5,07, σ t0,99(19) = 2,539 gilt t < t0,99 (19). Der Produzent kann unter diesen Annahmen seine Behauptung nicht belegen. Ist allerdings nur eine Irrtumswahrscheinlichkeit von 5% gefordert, so gilt t0,95(19) = 1,729. In diesem Fall k¨onnte die Aussage aus statistischer Sicht aufrecht erhalten werden.
H0 wird abgelehnt, falls
H0
H1
μ μ0
μ > μ0
T > t1−α (n − 1) bzw. ¨ aquivalent X > μ0 + t1−α (n − 1) √σn
μ μ0
μ < μ0
T < −t1−α (n − 1) = tα (n − 1) bzw. ¨ aquivalent X < μ0 − t1−α (n − 1) √σn
μ = μ0
μ = μ0
|T | > t1−α/2 (n − 1) bzw. a ¨quivalent ⎧ ⎪ √σ ⎪ ⎨X > μ0 + t1−α/2 (n − 1) n
(μ = μ0 ) (μ = μ0 )
oder
⎪ ⎪ σ ⎩X < μ − t 0 1−α/2 (n − 1) √n
Tabelle D 6.2. t-Tests.
χ2 -Varianztests
Bisher wurden nur Hypothesen bzgl. der Erwartungswerte betrachtet. In einigen Anwendungen sind aber auch Streuungen (z.B. in Form von Fertigungstoleranzen o.¨a.) von Bedeutung. Dazu werden folgende Hypothesen betrachtet. Hypothesen D 6.37 (Hypothesen bzgl. der Varianz/Standardabweichung). Sei σ0 > 0. H0 : σ σ0
←→
H1 : σ > σ 0
H0 : σ σ0
←→
H1 : σ < σ 0
H0 : σ = σ0
←→
H1 : σ = σ0
D 6 Statistische Testverfahren
279
Zun¨achst wird der Fall eines bekannten Erwartungswerts betrachtet (s. Modell D 5.1). Verfahren D 6.38 (χ2 -Varianztest bei bekanntem Erwartungswert). Seien α ∈ ur das Testproblem (0, 1) und σ0 > 0. Ein α-Niveau-Test f¨ H0 : σ σ0
←→
H1 : σ > σ 0
2
ist der χ -Test. Er ist gegeben durch die Entscheidungsvorschrift 2μ > Verwerfe H0 , falls σ 2μ = wobei σ
1 n
n
σ20 2 χ (n), n 1−α
(Xi − μ)2 der Maximum-Likelihood-Sch¨ atzer aus Satz D 5.4 ist.
i=1
Die Tests f¨ ur die ¨ ubrigen Hypothesen sind in Tabelle D 6.3 gegeben.
H0
H1
σ σ0
σ > σ0
σ σ0
σ < σ0
σ = σ0
σ = σ0
H0 wird abgelehnt, falls σ20 2 (n) χ n 1−α 2 σ 2μ < 0 χ2α (n) σ n σ20 2 2 μ > (n) oder χ σ n 1−α/2 2 σ 2μ < 0 χ2α/2 (n) σ n 2μ > σ
Tabelle D 6.3. χ2 -Varianztests bei bekanntem Erwartungswert.
Bei unbekanntem Erwartungswert liegt das Modell D 5.3 vor. In diesem Fall k¨onnen ebenso Varianzvergleiche durchgef¨ uhrt werden. Die Teststatistik wird ern 1 2 = n−1 (Xi − X)2 , die Freiheitsgrade der setzt durch die Stichprobenvarianz σ i=1
Quantile m¨ ussen um Eins verringert werden. Die zugeh¨origen Verfahren sind in Tabelle D 6.4 enthalten. Beispiel D 6.39. In Beispiel D 6.26 wurde behauptet, dass die vorgegebene Toleranz der Abf¨ ullanlage nicht eingehalten wird. Der Produzent m¨ochte nun pr¨ ufen, ob die Annahme σ = 0,1 zu verwerfen war. Er betrachtet dazu das zweiseitige Testproblem H0 : σ = 0,1 ←→ H1 : σ = 0,1. Die Stichprobenvarianz der ersten Stichprobe aus Beispiel D 6.21 hat den Wert 2 = 0,0153. F¨ ur α = 0,05 werden die Quantile χ20,025(19) = 8,91 und χ20,975 (19) = σ otigt. Damit w¨ urde die Nullhypothese abgelehnt, falls 32,85 ben¨ 2 > σ
σ20 2 σ2 2 < 0 χ20,025 (19) = 0,005. χ0,975(19) = 0,0173 oder σ 19 19
280
D Schließende Statistik
H0
H1
σ σ0
σ > σ0
σ σ0
σ < σ0
σ = σ0
σ = σ0
H0 wird abgelehnt, falls σ20 2 (n − 1) χ n − 1 1−α 2 σ 0 2 < χ2 (n − 1) σ n−1 α σ20 2 2 > χ (n − 1) oder σ n − 1 1−α/2 2 σ 0 2 < χ2 (n − 1) σ n − 1 α/2 2 > σ
Tabelle D 6.4. χ2 -Varianztests bei unbekanntem Erwartungswert.
Da keine der Ungleichungen erf¨ ullt ist, ergibt sich zum Niveau 5% kein Widerspruch zur Behauptung σ = 0,1. F¨ ur die Daten aus Beispiel D 6.26 ergibt sich 2 = 0,005 ebenfalls kein Widerspruch. wegen σ F¨ ur das einseitige Testproblem H0 : σ 0,1
←→
H1 : σ > 0,1
2 < wird das Quantil χ20,95 (19) = 30,14 ben¨ otigt. F¨ ur die gegebenen Daten gilt σ σ20 2 χ (19) = 0,0159, so dass auch diese Nullhypothese nicht verworfen werden 19 0,95 kann. Es kann daher nicht belegt werden, dass die Abweichung gr¨oßer als die vom Hersteller angegebene Toleranz ist.
Zweistichproben-Tests f¨ ur verbundene Stichproben In diesem Abschnitt wird folgendes Modell einer verbundenen Stichprobe unterstellt (vgl. Modell D 6.1). iid
Modell D 6.40. Seien (X1 , Y1 ), . . . , (Xn , Yn ) ∼ N2 (μ1 ,μ2 , σ21 ,σ22 , ρ) mit Parametern μ1 , μ2 ∈ R, σ21 , σ22 > 0 sowie ρ ∈ (−1, 1). Zur Durchf¨ uhrung der sogenannten Zweistichproben-Gauß- und -t-Tests f¨ ur verbundene Stichproben werden folgende Statistiken verwendet: 1 Δi , n n
Δi = Xi − Yi , 1 i n,
Δ=
i=1
1 (Δi − Δ)2 . n−1 n
2Δ = σ
i=1
Hypothesen D 6.41. Seien μ1 , μ2 , δ0 ∈ R. H0 : μ1 − μ2 δ 0
←→
H1 : μ1 − μ2 > δ 0
H0 : μ1 − μ2 δ 0
←→
H1 : μ1 − μ2 < δ 0
H0 : μ1 − μ2 = δ 0
←→
H1 : μ1 − μ2 = δ0
D 6 Statistische Testverfahren
281
Insbesondere ist die Wahl δ0 = 0 von Bedeutung, bei der die Erwartungswerte der Stichproben direkt verglichen werden. Unter den Voraussetzungen von Modell D 6.40 ist (i)
√ Δ − (μ1 − μ2 ) n mit σ2Δ = Var(Δ1 ) = Var(X1 − Y1 ) = σ21 + σ22 − 2ρσ1 σ2 σΔ standardnormalverteilt (σΔ bekannt) bzw.
(ii)
√ Δ − (μ1 − μ2 ) n t-verteilt mit n − 1 Freiheitsgraden (σΔ unbekannt). Δ σ
√ Δ − δ0 = √n Δ − δ0 sind die Entscheidungsn bzw. Δ Δ σΔ σ regeln der Tabelle D 6.5 zu entnehmen, wobei δ0 ∈ R ein vorgegebener Wert ist.
= Mit den Pr¨ ufgr¨ oßen Δ
H0
H1
μ1 − μ2 δ 0 μ1 − μ2 δ 0 μ1 − μ2 = δ 0
μ1 − μ2 > δ 0 μ1 − μ2 < δ 0 μ1 − μ2 = δ0
σ2Δ bekannt σ2Δ unbekannt H0 wird abgelehnt, falls
> u1−α Δ
< −u1−α Δ
> u1−α/2 |Δ|
> t1−α (n − 1) Δ < −t1−α (n − 1) Δ > t1−α/2 (n − 1) |Δ|
Tabelle D 6.5. Entscheidungsregeln f¨ ur Gauß- und t-Tests bei verbundenen Stichproben.
Beispiel D 6.42. Die Ums¨atze zweier Filialen eines Unternehmens werden in f¨ unf aufeinander folgenden Monaten notiert [jeweils in Mill. e]: (14, 9), (11, 10), (10, 12), (15, 10), (13, 9). Aus diesen Werten erh¨alt man die Sch¨atzwerte (δ0 = 0): Δ = 2,6,
2Δ = 7,44, σ
= Δ
√
2,6 ≈ 2,131. 5√ 7,44
F¨ ur α = 0,05 resultieren die Quantile t0,95 (4) = 2,132 und t0,975(4) = 2,776, so dass im Fall δ0 = 0 keine der Nullhypothesen aus Tabelle D 6.5 verworfen werden kann. Wie oben erw¨ahnt, sind die Komponentenstichproben i.Allg. nicht stochastisch unabh¨angig. Im Modell D 6.40 verbundener Stichproben kann die Abh¨angigkeitshypothese mittels statistischer Tests untersucht werden, die Aussagen u ¨ber die ufen. Korrelation ρ u ¨berpr¨
282
D Schließende Statistik
Hypothesen D 6.43 (Hypothesen bzgl. der Korrelation). H0 : ρ 0
←→
H1 : ρ > 0
H0 : ρ 0
←→
H1 : ρ < 0
H0 : ρ = 0
←→
H1 : ρ = 0
Die beiden ersten Testprobleme beziehen sich auf positive bzw. negative Korrelation, w¨ahrend das letzte die Korreliertheit untersucht. Weil im Fall der Normalverteilung die Begriffe Unkorreliertheit und stochastische Unabh¨angigkeit gleichbedeutend sind, wird diese Fragestellung auch als Unabh¨angigkeitshypothese bezeichnet. Wird die Nullhypothese im dritten Testproblem abgelehnt, so m¨ ussen die Merkmale als korreliert bzw. abh¨angig angesehen werden. Andernfalls liefern die Daten zumindest keinen Widerspruch zur Nullhypothese der Unkorreliertheit bzw. Unabh¨angigkeit. Hinsichtlich der Formulierung von Alternative und Nullhypothese l¨asst sich mittels der verwendeten Verfahren lediglich die Abh¨angigkeit statistisch nachweisen. In der Praxis wird das Nichtablehnen der Nullhypothese jedoch oft als Begr¨ undung f¨ ur die Unabh¨angigkeit der Merkmale herangezogen, obwohl die Formulierung des Testproblems dazu nicht geeignet ist. ur Verfahren D 6.44 (Unabh¨angigkeitstest). Sei α ∈ (0, 1). Ein α-Niveau-Test f¨ das Testproblem H0 : ρ = 0 ←→ H1 : ρ = 0 ist gegeben durch die Entscheidungsregel Verwerfe H0 , falls |V| > t1−α/2 (n − 2), √ rXY n − 2 wobei die Teststatistik V = f¨ ur ρ = 0 eine t-Verteilung mit n − 2 1 − r2XY Freiheitsgraden besitzt. n
rXY =
i=1 n
i=1
(Xi −X)(Yi −Y)
(Xi −X)2
n
ist der Korrelationskoeffizient von Bravais-Pearson.
(Yi −Y)2
i=1
Die Entscheidungsregeln f¨ ur die einseitige Hypothesen sind in Tabelle D 6.6 angegeben.
H0
H1
H0 wird abgelehnt, falls
ρ0 ρ0 ρ=0
ρ>0 ρ<0 ρ = 0
V > t1−α (n − 2) V < −t1−α (n − 2) |V| > t1−α/2 (n − 2)
Tabelle D 6.6. Korrelationstests.
D 6 Statistische Testverfahren
283
Zweistichproben-Tests f¨ ur unabh¨ angige Stichproben Im Modell D 5.12 wurde unterstellt, dass die Varianzen in den Stichproben iid
iid
X1 , . . . , Xn1 ∼ N(μ1 , σ2 ) und Y1 , . . . , Yn2 ∼ N(μ2 , σ2 ) dieselben sind. Eine derar-
tige Annahme kann durch Testverfahren u uft werden. Dazu wird folgendes ¨berpr¨ Modell betrachtet. iid
iid
Modell D 6.45. Seien X1 , . . . , Xn1 ∼ N(μ1 , σ21 ) und Y1 , . . . , Yn2 ∼ N(μ2 , σ22 ) stochastisch unabh¨angige Stichproben mit n1 , n2 2. Die Parameter μ1 , μ2 ∈ R und σ21 ,σ22 > 0 seien unbekannt. Sind die Varianzen in den Stichproben von besonderem Interesse, so kann etwa die Nullhypothese H0 : σ21 = σ22 identischer Varianzen in beiden Stichproben (Homogenit¨at) gegen die Alternative H1 : σ21 = σ22 unterschiedlicher Streuung (Heteroskedastizit¨at) getestet werden. Entsprechend sind einseitige Fragestellungen m¨ oglich. Hypothesen D 6.46 (Streuungsvergleiche). H0 : σ1 σ2
←→
H1 : σ1 > σ2
H0 : σ1 σ2
←→
H1 : σ1 < σ2
H0 : σ1 = σ2
←→
H1 : σ1 = σ2
Gem¨aß Eigenschaft D 6.20 hat der Quotient 21 /σ21 2 σ2 σ σ2 σ = 22 · 12 = 22 · F 2 2 2 /σ2 2 σ1 σ σ1 σ 21 / mit der sogenannten F-Statistik F = σ σ22 unter den Voraussetzungen in Modell D 6.45 eine F(n1 − 1, n2 − 1)-Verteilung, wobei 1 1 (Xj − X)2 n1 − 1
n
21 = σ
2 1 (Yj − Y)2 n2 − 1
n
22 = und σ
j=1
j=1
die Stichprobenvarianzen sind. Damit wird der F-Test formuliert. Verfahren D 6.47 (Homogenit¨atstest, F-Test). Seien α ∈ (0, 1) und n1 , n2 2. Ein α-Niveau-Test f¨ ur das Testproblem H0 : σ1 = σ2
←→
H1 : σ1 = σ2
ist gegeben durch die Entscheidungsregel ⎧ ⎪> F1−α/2 (n1 − 1,n2 − 1) 2 1 ⎨ σ Verwerfe H0 , falls F = 2 oder 2 ⎪ σ ⎩ < Fα/2 (n1 − 1,n2 − 1)
.
Die Entscheidungsregeln f¨ ur die einseitige Hypothesen sind in Tabelle D 6.7 angegeben.
284
D Schließende Statistik H0 wird abgelehnt, falls
H0
H1
σ1 σ2
σ1 > σ 2
21 / σ22 > F1−α (n1 − 1,n2 − 1) σ
σ1 σ2
σ1 < σ 2
21 / σ22 < Fα (n1 − 1,n2 − 1) σ
σ1 = σ2
σ1 = σ2
21 / σ22 > F1−α/2 (n1 − 1,n2 − 1) σ 21 / σ22 σ
oder
< Fα/2 (n1 − 1,n2 − 1)
Tabelle D 6.7. F-Test zum Vergleich der Varianzen zweier unabh¨ angiger Stichproben.
Beispiel D 6.48. Der Produzent von 5l Gebinden aus Beispiel D 6.21 und Beispiel D 6.26 hat zwischen den Erhebungszeitpunkten der Stichproben die alte Abf¨ ullanlage durch eine neue ersetzt. Er m¨ ochte nun wissen, ob die Streuung σ2 der neuen Anlage geringer ist als die der alten (σ1 ). Er pr¨ uft daher die Hypothese H0 : σ1 σ2
←→
H1 : σ1 > σ2 .
21 / F¨ ur die F-Statistik erh¨alt er den Wert F = σ σ22 = 0,0153 0,005 = 2,910. Das erforderliche 95%-Quantil der F-Verteilung ist gegeben durch F0,95 (19, 19) = 2,168, so dass die Nullhypothese verworfen werden kann. Es kann daher zum Niveau 5% statistisch gesichert werden, dass die Streuung der neuen Anlage geringer ist. F¨ ur die zweiseitige Fragestellung H0 : σ1 = σ2
←→
H1 : σ1 = σ2
wird wegen F0,975(19, 19) = 2,526 und F0,025 (19, 19) = 0,396 auch in dieser Situation die Nullhypothese verworfen. Wird das Signifikanzniveau auf 1% verringert, so kann die Nullhypothese wegen F0,995 (19, 19) = 3,432 und F0,005(19, 19) = 0,291 nicht verworfen werden. Dies gilt ¨ ubrigens auch f¨ ur die einseitige Fragestellung. Dies zeigt nochmals, welchen Einfluss die Wahl des Signifikanzniveaus auf das Ergebnis des Tests hat. I.Allg. verwirft der zweiseitige Test die Nullhypothese bei gleicher Datenlage seltener als die einseitigen Tests. Dies liegt u.a. darin begr¨ undet, dass f¨ ur die einseitigen Hypothesen mehr Vorinformation (durch die Vorgabe einer Richtung) in das Modell einfließt. Der zweiseitige Test muss hingegen Abweichungen in beide Richtungen in Betracht ziehen. Ist die Annahme gleicher Varianzen gerechtfertigt, so k¨onnen die Erwartungswerte mittels eines t-Tests verglichen werden. Daher geht man vom Modell D 5.12 aus: iid
iid
X1 , . . . , Xn1 ∼ N(μ1 , σ2 ) und Y1 , . . . , Yn2 ∼ N(μ2 , σ2 ) seien stochastisch unabh¨angige Stichproben mit n1 , n2 2. Die Parameter μ1 , μ2 und σ2 seien unbe-
kannt.
D 6 Statistische Testverfahren
285
Relevante Hypothesen sind in Hypothesen D 6.49 zusammengestellt. Hypothesen D 6.49 (Mittelwertvergleiche). H0 : μ1 μ2
←→
H1 : μ1 > μ2
H0 : μ1 μ2
←→
H1 : μ1 < μ2
H0 : μ1 = μ2
←→
H1 : μ1 = μ2
In Analogie zur Konstruktion eines Konfidenzintervalls D 5.13 f¨ ur die Differenz μ1 −μ2 wird die Teststatistik des Zweistichproben t-Tests definiert. Als Sch¨ atzung f¨ ur die Differenz μ1 − μ2 wird die Differenz der Stichprobenmittel Δ = X − Y genutzt. Aufgrund der Unabh¨angigkeit der Stichproben sind auch X und Y stochastisch unabh¨angig, so dass nach Beispiel C 1.16 (ii) gilt Δ = X − Y ∼ N μ1 − μ2 , σ2Δ . Die Varianz σ2Δ ergibt sich aus Lemma C 5.15: σ2Δ = Var(X − Y) =
σ2 σ2 + = n1 n2
1 1 + n1 n2
σ2 .
Bemerkung D 6.50. Im Modell D 5.12 wird angenommen, dass die Varianzen unbekannt sind. Unter der Annahme, dass beide Varianzen gegeben sind, kann das nachfolgend beschriebene Verfahren mit der normalverteilten Test = X−Y durchgef¨ uhrt werden. Die resultierenden Verfahren heißen statistik D σΔ Zweistichproben-Gauß-Tests f¨ ur unabh¨angige Stichproben. Die Entscheidungsregeln f¨ ur die Hypothesen D 6.49 sind in Tabelle D 6.8 angegeben. In dieser Situation k¨ onnen die (bekannten) Varianzen in den Stichproben verschieden sein. Wie bei den Einstichproben-t-Tests wird die Varianz σ2 aus den vorliegenden Stichproben gesch¨atzt. Da der Varianzparameter f¨ ur beide Stichproben als gleich angenommen wird, werden beide Stichproben in die Sch¨atzung einbezogen. Wie beim Konfidenzintervall D 5.13 wird die Sch¨atzung 2pool = σ
n1 − 1 n2 − 1 21 + 2 σ σ n1 + n2 − 2 n1 + n2 − 2 2
21 und σ 22 erwartungstreue Sch¨ 2pool genutzt. Da σ atzungen f¨ ur σ2 sind, ist auch σ 2 erwartungstreu, d.h. es gilt f¨ ur alle σ > 0 E σ2pool =
n1 − 1 n2 − 1 E σ21 + E σ2 = σ2 . n1 + n2 − 2 n1 + n2 − 2 2
Weiterhin folgt aus Eigenschaft D 6.20: (n1 + n2 − 2) σ2pool ∼ χ2 (n1 + n2 − 2). σ2
286
D Schließende Statistik
Wie bei den t-Tests resultiert die Teststatistik Δ =* . D 1 1 2 + σ pool n1 n2 2pool stochastisch unabh¨ Da Δ und σ angig sind, gilt f¨ ur μ1 = μ2 gem¨aß Eigen ∼ t(n1 + n2 − 2). schaft D 6.16: D
Verfahren D 6.51 (Zweiseitiger Zweistichproben-t-Test). Sei α ∈ (0, 1). Im Mour das Testproblem dell D 5.12 ist ein α-Niveau-Test f¨ H0 : μ1 = μ2
←→
H1 : μ1 = μ2
gegeben durch die Entscheidungsregel: > t1− α (n1 + n2 − 2). Verwerfe H0 , falls |D| 2
Die Entscheidungsregeln f¨ ur die einseitige Hypothesen sind in Tabelle D 6.8 angegeben.
σ2 bekannt σ2 unbekannt H0 wird abgelehnt, falls
H0
H1
μ1 μ2 μ1 μ2 μ1 = μ2
μ1 > μ2 μ1 < μ2 μ1 = μ2
> u1−α D
< −u1−α D
> u1− α |D| 2
> t1−α (n1 + n2 − 2) D < −t1−α (n1 + n2 − 2) D > t1− α (n1 + n2 − 2) |D| 2
Tabelle D 6.8. Tests f¨ ur Mittelwertvergleiche.
Beispiel D 6.52. Obwohl in Beispiel D 6.48 Zweifel an der Gleichheit der Streuungen f¨ ur die beiden Anlagen entstanden sind, nimmt der Produzent (in Ermangelung) eines anderen Verfahrens an, dass die Varianzen gleich sind. Er f¨ uhrt einen Vergleich der Mittelwerte aus und erh¨alt f¨ ur das Testproblem H0 : μ1 = μ2 Δ = 0,056,
2pool σ
=
1 2 2 σ1
=* |D|
+
1 2 2 σ2
+
H1 : μ1 = μ2
= 0,0103, so dass die Teststatistik den Wert
|Δ| 1 n1
←→
1 n2
= 2pool σ
0,056 = 1,745 2/20 · 0,0103
hat. Wegen t0,975(38) = 2,024 kann die Nullhypothese nicht verworfen werden. uhrt, obwohl es geBemerkung D 6.53. Im Beispiel D 6.52 wird der t-Test ausgef¨ wisse Zweifel an der Voraussetzung identischer Varianzen gibt. Statistische Tests f¨ ur das Modell unterschiedlicher Varianzen k¨ onnen z.B. in Graf et al. (1998) nachgelesen werden.
D 6 Statistische Testverfahren
287
D 6.4 Binomialtests In diesem Abschnitt wird unterstellt, dass die Stichprobenvariablen einer Binomialverteilung folgen. Wie bei den Normalverteilungsmodellen werden die Einund Zweistichprobensituation unterschieden. Zur leichteren Orientierung ist in ¨ Abbildung D 6.3 eine Ubersicht u ¨ber die behandelten Situationen angegeben. Die Verweise beziehen sich auf die Tabellen, in denen jeweils Hypothesen und Entscheidungsregeln zusammengestellt sind.
exakte Binomialtests D 6.9 eine Stichprobe approximative Binomialtests D 6.10 D 6.4
zwei Stichproben
Anteilsvergleiche approximative Binomialtests D 6.11
¨ Abb. D 6.3. Ubersicht der Testverfahren bei Binomialverteilungsannahme.
Einstichproben-Tests Beispiel D 6.54. In Beispiel D 4.7 rechneten von 16 befragten Vorstandsvorsitzenden vier mit sinkenden Gewinnen. Mittels eines statistischen Tests soll ¨uberpr¨ uft werden, ob mit diesen Daten belegt werden kann, dass der Anteil der Unternehmen mit sinkender Gewinnerwartung kleiner als 50% ist. Im Folgenden wird vom Binomialmodell D 4.4 ausgegangen, d.h. iid
X1 , . . . , Xn ∼ bin(1, p),
p ∈ (0, 1).
Der wahre“ Wert von p wird mit einer vorgegebenen Wahrscheinlichkeit p0 ver” glichen. Dies f¨ uhrt zu folgenden Hypothesen. Hypothesen D 6.55. H0 : p p 0
←→
H1 : p > p 0
H0 : p p 0
←→
H1 : p < p 0
H0 : p = p 0
←→
H1 : p = p0
288
D Schließende Statistik
Es werden zwei Varianten von Testverfahren vorgestellt: ein exaktes Verfahren und eine approximative Methode f¨ ur große Stichprobenumf¨ange. n Xi ∼ Der exakte Binomialtest beruht auf der binomialverteilten Pr¨ ufgr¨oße e= i=1
bin(n, p). Zur Bestimmung der kritischen Schranken wird die Verteilungsfunktion der bin(n, p0 )-Verteilung herangezogen. Regel D 6.56 (Kritische Werte beim exakten Binomialtest). Sei α ∈ (0, 1). Die kritischen Schranken cu;α = cu;α (p0) und co;1−α = co;1−α (p0 ) werden bestimmt gem¨aß (i)
cu ;α −1 n k k=0
pk0 (1 − p0 )n−k α <
c u;α k=0
n k
pk0 (1 − p0 )n−k ;
cu;α ist also die Auspr¨ agung, so dass das vorgegebene Signifikanzniveau α
erstmals u ¨berschritten wird; co;1−α co ;1−α −1 n k n n−k k n−k (ii) <1−α ; k p0 (1 − p0 ) k p0 (1 − p0 ) k=0
k=0
co;1−α − 1 ist also die Auspr¨ agung, so dass die Wahrscheinlichkeit 1 − α
erstmals unterschritten wird. Verfahren D 6.57 (Exakter Binomialtest). Sei α ∈ (0, 1). Der exakte Binomialtest f¨ ur das Testproblem H0 : p p 0
←→
H1 : p < p 0
ist gegeben durch die Entscheidungsregel Verwerfe H0 , falls e < cu;α . Die Entscheidungsregeln f¨ ur die u ¨brigen Hypothesen sind in Tabelle D 6.9 angegeben.
H0
H1
p p0 p p0
p > p0 p < p0
p = p0
p = p0
H0 wird abgelehnt, falls e > co;1−α e < cu;α ⎧ e > co;1−α/2 ⎪ ⎨
oder
⎪ ⎩ e < cu;α/2
Tabelle D 6.9. Entscheidungsregeln f¨ ur exakte Binomialtests.
Die G¨ utefunktionen k¨ onnen direkt aus den Entscheidungsregeln in Tabelle D 6.9 e ∼ bin(n, p), p ∈ (0, 1), bestimmt werden. und der Eigenschaft
D 6 Statistische Testverfahren
289
Satz D 6.58 (G¨ utefunktionen der exakten Binomialtests). Sei α ∈ (0, 1). Die G¨ utefunktion G f¨ur das einseitige Testproblem H0 : p p0 ←→ H1 : p < p0 ist gegeben durch cu;α −1
G(p) = Pp ( e < cu;α ) =
k=0
n k p (1 − p)n−k , k
p ∈ (0, 1).
Die G¨ utefunktion f¨ ur das Problem H0 : p p0 ←→ H1 : p > p0 ist bestimmt durch n n k G(p) = Pp ( e > co;1−α ) = p (1 − p)n−k , p ∈ (0, 1). k k=c +1 o;1−α
F¨ur das zweiseitige Testproblem H0 : p = p0 ←→ H1 : p = p0 erh¨alt man G(p) = Pp e < cu;α/2 e > co;1−α/2 oder cu;α/2 −1 n n k n k n−k + = p (1 − p) p (1 − p)n−k . k k k=c +1 k=0 o;1−α/2
F¨ur gegebenes α ∈ (0, 1) und n ∈ N sind die G¨ utefunktionen daher jeweils Polynome (in p) vom Grad n. F¨ ur n = 16 und α = 0,05 sind G¨ utefunktionen in Abbildung D 6.4 dargestellt.
1.0
1.0 p0 =
0.8
1 2
0.6
0.6
0.4
0.4
0.2
0.2
α 0
α 0 0
0.2
0.4
0.6
p0 =
0.8
0.8
1.0
0
0.2
0.4
0.6
1 2
0.8
1.0
Abb. D 6.4. G¨ utefunktionen zum Binomialtest f¨ ur H0 : p 0,5 und f¨ ur H0 : p = 0,5 jeweils f¨ ur α = 0,05.
290
D Schließende Statistik
Beispiel D 6.59. Das Testproblem in Beispiel D 6.54 lautet: H0 : p 0,5
←→
H1 : p < 0,5.
Zur Bestimmung des Quantils cu;α wird die Verteilungsfunktion Fbin(16,0,5) der Binomialverteilung bin(16, 0,5) berechnet. x Fbin(16,0,5)(x)
0 1 2 3 4 5 6 7 8 0,00 0,00 0,00 0,01 0,04 0,11 0,23 0,40 0,60
x Fbin(16,0,5)(x)
9 10 11 12 13 14 15 16 0,77 0,89 0,96 0,99 1,00 1,00 1,00 1
Der Wert α = 0,05 wird daher erstmals f¨ ur x = 5 u ¨berschritten, d.h. cu;0,05 = 5, e = 4 < 5 verworfen wird. Es kann daher zum so dass die Nullhypothese wegen Niveau 5% als gesichert angenommen werden, dass der Anteil von Unternehmen mit sinkender Gewinnerwartung kleiner als 50% ist. Ist p = 0,2 der wahre“ Anteil, ” so ist die Fehlerwahrscheinlichkeit 2. Art an dieser Stelle gegeben durch β(0,2) = 1 − G(0,2) = 0,202.
Die Fehlerwahrscheinlichkeit 1. Art ist 0,015 f¨ ur einen wahren Wert von p = 0,55. F¨ ur das Signifikanzniveau α = 0,01 ist cu;0,01 = 4, weshalb in diesem Fall die Nullhypothese nicht verworfen werden kann. Bei großen Stichproben ist das obige Verfahren zwar durchf¨ uhrbar, aber sehr rechenintensiv. Deshalb nutzt man in diesem Fall wiederum die Approximation durch die Normalverteilung (falls p = p0 ), d.h. V=
√ − p0 as p n ∼ N(0, 1). (1 − p ) p
Verfahren D 6.60 (Approximative Binomialtests). Sei α ∈ (0, 1). Der approximative Binomialtest f¨ ur das Testproblem H0 : p p 0
←→
H1 : p < p 0
ist gegeben durch die Entscheidungsregel Verwerfe H0 , falls V < uα . Die Entscheidungsregeln f¨ ur die u ¨brigen Hypothesen sind in Tabelle D 6.10 angegeben. Beispiel D 6.61. In einer Stichprobe vom Umfang 100 wurden drei defekte Bauteile entdeckt. Der Lieferant m¨ ochte mit einem statistischen Test belegen, dass die
D 6 Statistische Testverfahren H0
H1
H0 wird abgelehnt, falls
p p0 p p0 p = p0
p > p0 p < p0 p = p0
V > u1−α V < −u1−α |V| > u1−α/2
291
Tabelle D 6.10. Entscheidungsregeln f¨ ur approximative Binomialtests.
Anforderung von h¨ ochstens 5% Ausschuss erf¨ ullt ist. Das zugeh¨orige Testproblem ist H0 : p 0,05 ←→ H1 : p < 0,05. Die Durchf¨ √uhrung des approximativen Binomialtests ergibt mit p0 = 0,05 den Wert V = 100 √0,03−0,05 ≈ −1,172 der Pr¨ ufstatistik. Zum Signifikanzniveau 1% 0,03·0,97 kann mit u0,99 = 2,326 kein Widerspruch zur Nullhypothese gefunden werden, d.h. die Alternative p < 0,05 kann daher nicht als zum Niveau 1% statistisch gesichert betrachtet werden. Der Lieferant kann die geforderte Qualit¨at nicht belegen. W¨ urde derselbe Anteil von 3% defekten Teilen in einer Stichprobe vom Umfang 1 000 beobachtet, so h¨atte V den Wert −3,708. In diesem Fall w¨ urde die Nullhypothese verworfen und die Behauptung p < 0,05 w¨are statistisch signifikant. Der Lieferant k¨ onnte in diesem Fall die Qualit¨at seiner Lieferung mittels der vorhandenen Daten belegen. Zweistichproben-Binomialtests In diesem Abschnitt werden approximative Verfahren zum Vergleich zweier Wahrscheinlichkeiten vorgestellt. Hypothesen D 6.62 (Anteilsvergleiche). H0 : p 1 p 2
←→
H1 : p 1 > p 2
H0 : p 1 p 2
←→
H1 : p 1 < p 2
H0 : p 1 = p 2
←→
H1 : p1 = p2
iid
iid
Modell D 6.63. Seien X1 , . . . , Xn1 ∼ bin(1, p1 ) und Y1 , . . . , Yn2 ∼ bin(1, p2 ) mit p1 , p2 ∈ (0, 1). Alle Stichprobenvariablen seien stochastisch unabh¨ angig. Das Verfahren beruht – wie die Zweistichproben-Gauß- und -t-Tests – auf dem Vergleich der Stichprobenmittel. Verfahren D 6.64 (Approximative Zweistichproben-Binomialtests). Sei α ∈ (0, 1). Der approximative Binomialtest f¨ ur das Testproblem H0 : p 1 = p 2
←→
H1 : p1 = p2
292
D Schließende Statistik
ist gegeben durch die Entscheidungsregel Verwerfe H0 , falls |V| > u1−α/2 , wobei (i) V =
Δ ( n11 +
1 p12 (1 n2 )
12 ) −p
die Teststatistik ist,
=p 2 eine Differenzsch¨ 1 − p atzung ist, (ii) Δ n1 n2 1 = n11 2 = n12 Xi , p Xi Sch¨ atzungen f¨ ur p1 bzw. p2 sind, (iii) p 12 = (iv) p
i=1 n1 n1 +n2 p1
+
i=1 n2 n1 +n2 p2 eine
(kombinierte) Sch¨atzung ist.
Die Entscheidungsregeln f¨ ur die u ¨brigen Hypothesen sind in Tabelle D 6.11 angegeben.
H0
H1
H0 wird abgelehnt, falls
p1 p2 p1 p2 p1 = p2
p1 > p2 p1 < p2 p1 = p2
V > u1−α V < −u1−α |V| > u1−α/2
Tabelle D 6.11. Entscheidungsregeln zum Vergleich zweier Wahrscheinlichkeiten.
Beispiel D 6.65. Zwei Therapien zur Behandlung einer Erkrankung wurden hinsichtlich ihres Heilerfolgs verglichen. Dabei ergaben sich folgende Daten: Heilerfolg nein ja Standardtherapie neue Therapie
53 78
197 422
Es soll ¨ uberpr¨ uft werden, ob die neue Therapie besser ist, d.h. es wird das Testproblem H0 : p1 p2 ←→ H1 : p1 < p2 1 ) die (gesch¨ untersucht, wobei p1 (p atzte) Erfolgsquote der Standardtherapie 2 ) die der neuen Therapie. Als Sch¨ bezeichne und p2 (p atzwerte erh¨alt man damit 1 = 0,788, p
2 = 0,844, p
= −0,056, Δ
12 = 0,825, p
V = −1,904.
Wegen u0,95 = 1,645 gilt daher V < −u0,95, so dass die Nullhypothese abgelehnt werden kann. Es kann daher zum Signifikanzniveau 5% als gesichert betrachtet werden, dass die neue Therapie besser ist als die Standardtherapie.
D 6 Statistische Testverfahren
293
D 6.5 Weitere Testverfahren Die in Abschnitt D 6.3 vorgestellten Testverfahren beruhen auf einer Normalverteilungsannahme. In der Praxis ist eine Normalverteilung der Stichprobenvariablen jedoch oft nicht zutreffend oder nicht zu rechtfertigen. Daher werden im Folgenden jeweils ein Verfahren f¨ ur den Ein- und Zweistichprobenfall vorgestellt, die weitgehend auf eine Spezifikation der Verteilung verzichten. Abschließend wird noch ein Unabh¨angigkeitstest f¨ ur bivariate diskrete Verteilungen vorgestellt. Zur ¨ leichteren Orientierung ist in Abbildung D 6.5 eine Ubersicht u ¨ber die behandelten Situationen angegeben. Die Verweise beziehen sich auf die Tabellen, in denen jeweils Hypothesen und Entscheidungsregeln zusammengestellt sind.
eine Stichprobe
D 6.5
Vorzeichentests D 6.12
zwei Stichproben
Wilcoxon-Test U-Test D 6.13
Kontingenztafeln
Unabh¨ angigkeitstest Verfahren D 6.77
¨ Abb. D 6.5. Ubersicht der nichtparametrischen Testverfahren.
Vorzeichen-Test In Abschnitt D 6.3 wurden Gauß- und t-Tests als Verfahren zur Untersuchung des Zentrums einer Verteilung eingef¨ uhrt. Das Zentrum wurde durch den Erwartungswert der Normalverteilung repr¨asentiert. Soll keinerlei Verteilungsannahme getroffen werden, so kann z.B. die Existenz des Erwartungswerts nicht gesichert werden. Daher ist er unter diesen Voraussetzungen kein geeignetes Maß zur Beschreibung der Lage der Verteilung. Ein Lagemaß, das stets existiert, ist der Median ξ = Q0,5 , also das 0,5-Quantil, der Verteilung. Der Vorzeichentest ist ein geeignetes Verfahren zur Untersuchung des Medians im folgenden Modell. iid
Modell D 6.66. Seien X1 , . . . , Xn ∼ Pξ , ξ ∈ R, Pξ eine stetige Wahrscheinlichkeitsverteilung und ξ der Median von Pξ .
294
D Schließende Statistik
F¨ ur ein ξ0 ∈ R werden die folgenden Hypothesen formuliert. Es zeigt sich, dass geeignete Tests mit den bereits vorgestellten Einstichproben-Binomialtests formuliert werden k¨ onnen. Hypothesen D 6.67. H0 : ξ ξ 0
←→
H1 : ξ > ξ 0
H0 : ξ ξ 0
←→
H1 : ξ < ξ 0
H0 : ξ = ξ 0
←→
H1 : ξ = ξ0
Zur Illustration der Konstruktion des Vorzeichentests wird das einseitige Testproblem H0 : ξ ξ0 ←→ H1 : ξ > ξ0 betrachtet. Ziel ist die Erzeugung von neuen“ ” Stichprobenvariablen mit Werten 0 und 1. Dazu werden die Indikatorvariablen 1, Xi − ξ0 > 0 Zi = , i = 1, . . . , n, 0, sonst iid
definiert, so dass eine Stichprobe Z1 , . . . , Zn ∼ bin(1, p) resultiert. Dabei gilt p = angt vom (unbekannten) p(ξ) = Pξ (X1 > ξ0 ), d.h. die Trefferwahrscheinlichkeit h¨ Median der zugrundeliegenden Verteilung ab. Dieses Modell entspricht somit dem Binomialmodell D 4.4. Es ist daher naheliegend, exakte Binomialtests f¨ ur die Stichprobe Z1 , . . . , Zn n zu verwenden. Teststatistik ist die Anzahl e = Zi der Stichprobenvariai=1
oßer als ξ0 sind. Die Bezeichnung Vorzeichentest“ beblen X1 , . . . , Xn , die gr¨ ” ruht auf der Konstruktion von e, da e die positiven Vorzeichen in der Folge X1 − ξ0 , . . . , Xn − ξ0 z¨ ahlt. Als Summe unabh¨angiger 0-1-Zufallsvariablen ist e binomialverteilt mit Erfolgswahrscheinlichkeit p = Pξ (X1 > ξ0 ).
Ist ξ = ξ0 , so ist p = 12 , da ξ0 der Median von Pξ0 ist. F¨ ur ξ ∈ H0 , ist p 12 1 bzw. f¨ ur p ∈ H1 gilt p > 2 . Die urspr¨ ungliche Testprobleme k¨onnen daher mittels der Binomialtests behandelt werden. Verfahren D 6.68 (Vorzeichentest). Sei α ∈ (0, 1). Der Vorzeichentest f¨ ur das Testproblem H0 : ξ ξ 0 ←→ H1 : ξ > ξ 0 ist gegeben durch die Entscheidungsregel: Verwerfe H0 , falls e > co;1−α , wobei e=
n i=1
1I(ξ0 ,∞) (Xi ). Die Entscheidungsregeln f¨ ur die u ¨brigen Hypothesen
sind in Tabelle D 6.12 angegeben.
D 6 Statistische Testverfahren n
Bemerkung D 6.69. Die Darstellung e =
i=1
295
1I(ξ0 ,∞) (Xi ) der Teststatistik des
Vorzeichentests kann unter Verwendung der empirischen Verteilungsfunktion Fn (zu X1 , . . . , Xn ) geschrieben werden als e = n(1 − Fn (ξ0 )).
H0
H1
ξ ξ0 ξ ξ0
ξ > ξ0 ξ < ξ0
ξ = ξ0
ξ = ξ0
H0 wird abgelehnt, falls e > co;1−α e < cu;α ⎧ e > co;1−α/2 ⎪ ⎨
oder
⎪ ⎩ e < cu;α/2
Tabelle D 6.12. Entscheidungsregeln der Vorzeichentests.
Beispiel D 6.70. Bei Geschwindigkeitsmessungen in einer geschlossenen Ortschaft mit zul¨assiger H¨ ochstgeschwindigkeit von 50km/h wurden folgende Werte gemessen: 55, 69, 50, 35, 47, 82, 45, 75, 45, 52. Da nicht von einer Normalverteilung ausgegangen werden kann, wird der Vorzeichentest eingesetzt. Als vermuteter Wert f¨ ur den Median wird ξ0 = 50 [km/h] angenommen. Damit erh¨alt man folgende Vorzeichen xi
55 69 50 35 47 82 45 75 45 52
Vorzeichen von xi − ξ0
+ + − − − + − + − +
Dies ergibt e = 5. Die Verteilungsfunktion einer bin(10, 1/2)-Verteilung ist bestimmt durch die Werte x Fbin(10,0,5) (x)
0
1
2
3
4
5
6
7
8
9
10
0,001 0,011 0,055 0,172 0,377 0,623 0,828 0,945 0,989 0,999 1
Zum Niveau α = 5% erh¨alt man die kritischen Werte cu;0,05 = cu;0,025 = 2 und co;0,95 = co;0,975 = 8. Daher kann keine der Nullhypothesen abgelehnt werden. Ist der Stichprobenumfang n hinreichend groß, so k¨onnen entsprechende Testverfahren mittels der approximativen Binomialtests D 6.57 formuliert werden.
296
D Schließende Statistik
Wilcoxon-Test Basierend auf Modell D 5.12 wurden die Zweistichproben-t-Tests vorgeschlagen, um die Erwartungswerte μ1 und μ2 zu vergleichen. Die resultierenden Verfahren beruhen nat¨ urlich auf der Normalverteilungsannahme. Auf diese Annahme wird im folgenden Modell verzichtet. iid
iid
Modell D 6.71. Seien X1 , . . . , Xn1 ∼ F1 und Y1 , . . . , Yn2 ∼ F2 stochastisch unabh¨angige Stichproben mit n1 , n2 2 und stetigen Verteilungsfunktionen F1 bzw. F2 . Ferner gebe es ein δ ∈ R, so dass F2 (x + δ) = F1 (x),
x ∈ R.
(D.3)
F2 hat also dieselbe Gestalt wie F1 , ist aber um den Wert δ verschoben.
Im Normalverteilungsfall bedeutet diese Annahme, dass beide Stichproben normalverteilt sind mit derselben Varianz, die Erwartungswerte aber (um den Wert δ) verschieden sind: μ1 = μ2 − δ. Der Vergleich der Verteilungen reduziert sich in diesem Spezialfall also auf den Vergleich der Erwartungswerte. Im Modell D 6.71 kann dies auch als Lageunterschied zwischen den Populationen interpretiert werden. Aus der Annahme (D.3) folgt, dass nach Subtraktion des Lageunterschiedes δ die Stichprobenvariablen der zweiten Stichprobe genau so verteilt sind wie die Stichprobenvariablen der ersten Stichprobe, d.h. Yj − δ ∼ F1 . Die Situation δ = 0 ist daher gleichbedeutend mit der Gleichheit der Verteilungsfunktionen: F1 = F2 . Als Testproblem formuliert man daher im zweiseitigen Fall H0 : δ = 0
←→
H1 : δ = 0 .
Zusammenfassend resultieren damit die im Normalverteilungsfall den Hypothesen D 6.49 ¨aquivalenten Fragestellungen. Hypothesen D 6.72. H0 : δ 0
←→
H1 : δ > 0
H0 : δ 0
←→
H1 : δ < 0
H0 : δ = 0
←→
H1 : δ = 0
Der Wilcoxon-Rangsummentest beruht auf der Berechnung von R¨angen in der zusammengefassten Stichprobe X1 , . . . , Xn1 , Y1 , . . . , Yn2
−→
Z1 , . . . ,Zn1 +n2 .
Die n1 + n2 Beobachtungen werden beginnend mit der Kleinsten der Gr¨oße nach geordnet. Anschließend wird jeder Beobachtung Zi ihr Rangplatz R(Zi ) zugewiesen. Danach wird f¨ ur jede Stichprobe getrennt die Summe aller R¨ange berechnet:
D 6 Statistische Testverfahren
W1 =
n1
R(Xi ) =
i=1
n1
R1i ,
W2 =
i=1
n2
R(Yj ) =
j=1
n2
297
R2j .
j=1
Liegen in der zusammengefassten Stichprobe Bindungen vor, so werden mittlere R¨ange gem¨aß Definition A 3.2 bestimmt (vgl. Hartung et al., 2005, S. 515/516). Beispiel D 6.73. Gegeben seien zwei Beobachtungsreihen A und B. Zur Unterscheidung tragen die Beobachtungswerte die Indizes A bzw. B. 5,2A , 10,1A , 13,1A , 8,9A , 15,4A ,
1,0B , 9,6B , 7,7B , 4,9B .
Die gemeinsame, geordnete Datenreihe mit entsprechenden R¨angen ist daher 1,0B 4,9B 5,2A 7,7B 8,9A 9,6B 10,1A 13,1A 15,4A A B
3 1
2
5 4
7
8
6
9
Σ 32 13
Als R¨ange erh¨alt man z.B.: R(1,0B ) = 1, R(10,1A ) = 7 etc. Als Rangsummen ergibt dies W1 = 3 + 5 + 7 + 8 + 9 = 32, W2 = 1 + 2 + 4 + 6 = 13. Die Idee des Verfahrens beruht darauf, dass in der Gruppe mit der h¨oheren mittleren Rangsumme tendenziell gr¨ oßere Werte zu erwarten sind. Da die Rangsumme aller Beobachtungen konstant (n1 + n2 ) · (n1 + n2 + 1) 2
ist, reicht es die Statistik W1 zu verwenden. Alternativ kann W2 eingesetzt werden. Mittels der Gr¨ oße W1 kann nun ein exakter Test definiert werden. Zur Berechnung der kritischen Schranken sei auf das Buch von Hartung et al. (2005), S. 517/8, verwiesen. Dort ist auch eine Quantiltabelle angegeben. Im Folgenden wird eine approximative Variante vorgestellt. Verfahren D 6.74 (U-Test von Mann-Whitney). Sei α ∈ (0, 1). Der U-Test von Mann-Whitney f¨ ur das Testproblem H0 : δ 0
←→
H1 : δ < 0
ist gegeben durch die Entscheidungsregel Verwerfe H0 , falls U∗ < −u1−α , wobei
n1 · n2 2 U∗ = * n1 · n2 · (n1 + n2 + 1) 12 U+
mit der Mann-Whitney-Statistik U = W1 −n1 ·n2 − n1 (n21 +1) . Die Entscheidungsregeln f¨ ur die ¨ ubrigen Hypothesen sind in Tabelle D 6.13 angegeben.
298
D Schließende Statistik H0
H1
H0 wird abgelehnt, falls
δ0 δ0 δ=0
δ<0 δ>0 δ = 0
U∗ < −u1−α U∗ > u1−α |U∗ | > u1−α/2
Tabelle D 6.13. Entscheidungsregeln f¨ ur den (approximativen) U-Test von MannWhitney.
In Analogie zur Normalverteilungssituation k¨ onnen auch Messreihen mit verbundenen Daten mittels eines verteilungsfreien Verfahrens analysiert werden. Eine Darstellung dieses Verfahrens ist etwa in Bortz (2004), S. 149ff., beschrieben. Unabh¨ angigkeitstest bei Kontingenztafeln Basierend auf den Ergebnissen von Abschnitt A 7.1 wird die Frage der (stochastischen) Abh¨angigkeit zweier nominal skalierter Merkmale X und Y untersucht. Im Rahmen des stochastischen Modells werden die Verteilungen als diskret mit endlichem Tr¨ager angenommen. iid
Modell D 6.75. Sei (X1 , Y1 ), . . . , (Xn , Yn ) ∼ P eine verbundene Stichprobe (vgl. Modell D 6.1), wobei P = {pij | i ∈ {1, . . . , r}, j ∈ {1, . . . , s}}
f¨ ur gegebene r, s ∈ N. Die Tr¨ager der Verteilungen werden mit {x(1), . . . , x(r)} bzw. {y(1), . . . , y(s)} bezeichnet. Auf Grundlage des Modells wird die Kontingenztafel der absoluten H¨aufigkeiten gebildet (vgl. A 7.1), wobei die Eintr¨age nat¨ urlich Zufallsvariablen sind: x(1) x(2)
y(1) y(2) · · · y(s) Summe N11 N12 · · · N1s N1• N21 N22 · · · N2s N2•
.. .. .. . . . x(r) Nr1 Nr2 Summe N•1 N•2
. . .. · · · Nrs · · · N•s ..
.. . Nr• n
Mittels des χ2 -Unabh¨angigkeitstests wird folgende Unabh¨angigkeitshypothese“ ” untersucht. Hypothese D 6.76. H0 : pij = pi• p•j
∀i,j
←→
H1 : ∃i,j mit pij = pi• p•j
D 6 Statistische Testverfahren
299
Als Teststatistik wird die in Bezeichnung A 7.5 eingef¨ uhrte χ2 -Gr¨oße verwendet. Verfahren D 6.77 (χ2 -Unabh¨angigkeitstest). Sei α ∈ (0, 1). Der χ2 -Unabh¨angigkeitstest ist definiert durch die Entscheidungsregel Verwerfe H0 , falls χ2 > χ21−α ((r − 1)(s − 1)), wobei χ2 =
s r (Nij − Vij )2 i=1 j=1
Vij
mit Vij =
Ni• N•j , i ∈ {1, . . . , r}, j ∈ {1, . . . , s}. n
Bemerkung D 6.78. (i) Aufgrund der Formulierung der Hypothese kann mit dem χ2 -Unabh¨angigkeitstest lediglich die Abh¨angigkeit der Merkmale statistisch gesichert werden. In der Praxis wird ein Nichtablehnen der Nullhypothese jedoch oft als Unabh¨angigkeit interpretiert, obwohl das Verfahren dies nicht als Ergebnis liefert. ij = Nnij (ii) Die Formulierung ist ebenfalls mit den relativen H¨aufigkeiten p m¨ oglich, die Sch¨atzungen f¨ ur die unbekannten Wahrscheinlichkeiten pij sind, 1 i r, 1 j s (vgl. Regel A 7.17). (iii) Unter Annahme der stochastischen Unabh¨angigkeit gilt pij = pi• · p•j f¨ ur alle i• = Nni• bzw. p •j = Nn•j die zugeh¨ i, j, so dass in dieser Situation p origen i• p •j die Sch¨ atzungen f¨ ur eij = p Sch¨atzungen der Randverteilungen und pij darstellen. Die χ2 -Statistik vergleicht daher die tats¨ achlich vorliegenden ij mit den bei stochastischer Unabh¨ Sch¨atzungen p angigkeit resultierenden angigkeit eij (vgl. dazu auch den Begriff der empirischen Unabh¨ Sch¨atzungen in Definition A 7.7 und die anschließenden Ausf¨ uhrungen). Bemerkung D 6.79. Im Fall von dichotomen Zufallsvariablen, d.h. r = s = 2, vereinfacht sich die Hypothese zu H0 : p11 = p1• p•1
←→
H1 : p11 = p1• p•1 .
Basierend auf der 2×2-Kontingenztafel hat die χ2 -Gr¨oße ebenfalls eine einfachere Darstellung (vgl. Regel A 7.11): χ2 = n
(N11 N22 − N12 N21 )2 . N1• N2• N•1 N•2
Beispiel D 6.80. Zur Untersuchung des Zusammenhangs zwischen Kaufverhalten und Geschlecht wurden 200 zuf¨allig ausgew¨ahlte Personen hinsichtlich dieser Fragestellung bzgl. eines bestimmten Produkts befragt. Die Ergebnisse sind in folgender Vierfeldertafel festgehalten:
weiblich m¨annlich
Kauf ja nein 25 85 33 57
300
D Schließende Statistik
Die χ2 -Teststatistik liefert den Wert χ2 = 200
(25 · 57 − 33 · 85)2 = 4,67. 110 · 90 · 58 · 142
Da das χ20,95 (1)-Quantil den Wert 3,84 besitzt, wird die Nullhypothese H0 abgelehnt. Es kann daher zum Signifikanzniveau 5% angenommen werden, dass es einen Zusammenhang zwischen Geschlecht und Kaufverhalten gibt. Zum Vergleich werden noch die beobachteten und erwarteten relativen H¨aufigkeiten angegeben. Beobachtete rel. H¨aufigkeiten weiblich m¨annlich
Kauf ja nein 0,125 0,425 0,165 0,285
Erwartete rel. H¨aufigkeiten weiblich m¨annlich
Kauf ja nein 0,160 0,390 0,130 0,320
D 7 Lineares Regressionsmodell Im Rahmen der Beschreibenden Statistik werden Regressionsmodelle der Form yi = f(xi ) + εi ,
i ∈ {1, . . . , n}
in Abschnitt A 8 betrachtet. In diesem Abschnitt werden die Fehler εi als zuf¨allig aufgefasst. Alle in Bezeichnung A 8.2 eingef¨ uhrten Begriffe sowie die in Abschnitt A 8 verwendeten Notationen werden nachfolgend ebenfalls verwendet. iid
Modell D 7.1. Seien x1 , . . . , xn ∈ R mit s2x > 0, ε1 , . . . , εn ∼ N(0, σ2 ) mit unbekanntem σ2 > 0 und f eine lineare Funktion definiert durch f(x) = a + bx, x ∈ R, mit unbekannten Koeffizienten a und b. Die durch Yi = a + bxi + εi ,
i ∈ {1, . . . , n}
definierten Zufallsvariablen Y1 , . . . , Yn bilden das (stochastische) Modell der linearen Einfachregression. Bemerkung D 7.2. Aus Modell D 7.1 ergibt sich die Stichprobe (x1 , Y1 ), (x2 , Y2 ), . . . , (xn , Yn ).
Im Unterschied zu Modellen mit verbundenen Stichproben ist die erste Komponente keine Zufallsvariable, sondern eine Zahl, d.h. x1 , . . . , xn sind vorgegebene, feste Werte. Die St¨ orungen“ ε1 , . . . , εn , die z.B. Messfehler beschreiben, werden ” im Modell als nicht beobachtbar angenommen. Sie sind unabh¨angig und identisch normalverteilte Zufallsvariablen mit Eεi = 0,
Var εi = σ2 > 0,
i = 1, . . . , n.
D 7 Lineares Regressionsmodell
301
Die Messfehler haben daher den Erwartungswert 0, d.h. es gibt keinen systematischen Fehler. Die Varianz σ2 > 0 wird als unbekannt angenommen. Weiterhin sind die Koeffizienten der Regressionsfunktion unbekannt, so dass das Modell ur diese werden Punkt- und die drei unbekannten Parameter a, b, σ2 enth¨alt. F¨ Intervallsch¨atzungen sowie Hypothesentests bereitgestellt. Aus den obigen Modellannahmen ergeben sich nachfolgende statistische Eigenschaften. Insbesondere haben die Stichprobenvariablen Y1 , . . . , Yn i.Allg. verschiedene Verteilungen. Eigenschaft D 7.3. Y1 , . . . , Yn sind stochastisch unabh¨angig und normalverteilt mit Yj ∼ N(a + bxj , σ2 ), j = 1, . . . , n. iid
Beweis. Nach Voraussetzung sind ε1 , . . . , εn ∼ N(0, σ2 ). Wegen Yj = a + bxj + εj gilt damit insbesondere Yj ∼ N(a + bxj , σ2 ). Da die Unabh¨ angigkeit u ¨bertragen wird (vgl. Satz C 1.11), folgt das gew¨ unschte Resultat.
D 7.1 Punktsch¨ atzungen In diesem Abschnitt werden Punktsch¨atzungen f¨ ur die Regressionskoeffzienten a und b sowie f¨ ur den Funktionswert f(x), x ∈ R, und die Varianz σ2 angegeben. werden nach der in Abschnitt A 8 eingef¨ , b Die Sch¨atzer a uhrten Methode der kleinsten Quadrate ermittelt. Bezeichnung D 7.4 (Kleinste-Quadrate-Sch¨atzer). Seien s2x = 0 und sxY =
1 n
n
1 n
n
(xi − x)2 >
i=1
(xi − x)(Yi − Y).
i=1
Die mittels der Kleinsten Quadrate-Methode hergeleiteten Sch¨atzfunktionen = sxY b s2x
· x, =Y−b und a
heißen Kleinste-Quadrate-Sch¨atzer f¨ ur b bzw. a. Die durch , =a ·x +b f(x)
f¨ ur x ∈ R
definierte Sch¨atzung f : R −→ R heißt (gesch¨atzte) Regressionsgerade. sind erwartungstreu f¨ , b ur a bzw. b. Insbesondere Satz D 7.5. Die Sch¨atzer a gilt: ∼ N(a, σ2a ) mit σ2a = (i) a
x2 · σ2 , x2 = ns2x
1 n
n i=1
x2i .
302
D Schließende Statistik
∼ N(b, σ2 ) mit σ2 = (ii) b b b
σ2 . ns2x
= − x · σ2 . (iii) Kov( a, b) ns2x sind genau dann unkorreliert (und daher wegen der Normalvertei und b (iv) a lungsannahme auch stochastisch unabh¨angig), falls x = 0. die Darstellung Beweis. Aus Satz D 7.4 folgt f¨ ur b n n n 1 = sxY = 1 = (x − x)Y − Y (x − x) (xi − x)Yi , b i i i s2x ns2x i=1 ns2x i=1 i=1
(D.4)
=0
wobei Y1 , . . . , Yn gem¨ aß Eigenschaft D 7.3 stochastisch unabh¨ angige und normalverteilte Zufallsvariablen sind. Nach Eigenschaft D 7.3 gilt ferner Yi ∼ N(a + bxi , σ2 ), so dass Beispiel C 1.16 (ii) (xi − x)Yi ∼ N (xi − x)(a + bxi ), (xi − x)2 σ2 ,
i = 1, . . . , n,
liefert. Da auch diese Zufallsvariablen stochastisch unabh¨ angig sind, gilt wie in Beispiel C 1.16 (ii) n n n (xi − x)Yi ∼ N (xi − x)(a + bxi ), (xi − x)2 σ2 . i=1
i=1
i=1
=bns2 x
2 =ns2 xσ
Die Darstellung des Erwartungswerts resultiert wegen EYi = a + bxi + Eεi = a + bxi und n n n (xi − x)(a + bxi ) = a (xi − x) +b xi (xi − x) = bns2x . i=1
i=1
=0
i=1
=
n
i=1
x2 i −x
n i=1
xi
Zusammenfassend ergibt dies n σ2 = 1 (x − x)Y ∼ N b, , b i i ns2x i=1 ns2x insbesondere eine erwartungstreue Sch¨ so dass b atzung f¨ ur b ist. kann mit (D.4) als a ·x= =Y−b a
n 1 i=1
n
−
(xi − x)x ns2x
Yi
(D.5)
dargestellt werden und ist mit einer analogen Argumentation ebenfalls normalverteilt. Es zu ermitteln. F¨ ur den Erwartungswert gen¨ ugt daher Erwartungswert und Varianz von a gilt wegen EY = a + bx +
1 n
n
Eεi = a + bx und der Erwartungstreue von b
i=1
= a + bx − bx = a, E a = E(Y − bx)
D 7 Lineares Regressionsmodell
303
eine erwartungstreue Sch¨ atzung f¨ ur a ist. Die Varianz berechnet sich mit (D.5) so dass a zu σ2a
=σ = Var a
2
n 1
(xi − x)x − n s2x
i=1
2 =σ
2
1 (xi − x)2 x2 − n i=1 n2 s4x n
=
x2 2 σ . n · s2x
F¨ ur die Kovarianz der Sch¨ atzer gilt: = Kov (Y − b · x, b) = Kov (Y, · x, b) = Kov (Y, a, b) b) − Kov(b b) − x Var b. Kov(
Weiterhin gilt wegen Kov(Yi , Yj ) = 0 f¨ ur i = j und Kov(Yi , Yi ) = Var Yi = σ2 = Kov(Y, b)
n n n 1 (xj − x) σ2 Kov (Y , Y ) = (xj − x) = 0. i j n n · s2x n2 s2x j=1 i=1 j=1
Zusammenfassend ist =− a, b) = −x Var b Kov (
x 2 σ . ns2x
, =a eine erwartungstreue Sch¨ + bx Satz D 7.6. F¨ ur x ∈ R ist f(x) atzung f¨ur f(x). 2 , ∼ N(f(x), σ2 ) mit σ2 = 1 + (x − x σ2 Ferner gilt f(x) f(x) f(x) n n · s2x , = E( = E = a + bx gem¨ Beweis. Die Erwartungstreue folgt aus Ef(x) a + bx) a + x · Eb aß , eine gewichtete Summe von Y1 , . . . , Yn Satz D 7.5. Aus (D.4) und (D.5) folgt, dass f(x) und damit normalverteilt ist. Die Varianz ist gegeben durch , = Var( = σ2 + x2 σ2 + 2x Kov ( a + bx) a, b) Var f(x) a b
=
x2 x x2 + − 2x · 2 2 n · sx n · s2x nsx
σ2
x s2x + x2 x2 + − 2x · σ2 n · s2x n · s2x ns2x x2 + x2 − 2x · x 1 1 (x − x)2 2 = = + + σ σ2 . n ns2x n ns2x =
Die Sch¨atzer f¨ ur a, b und f(x) benutzen den Wert von σ nicht und sind daher sowohl f¨ ur bekanntes als auch f¨ ur unbekanntes σ nutzbar. Wird σ als unbekannt angenommen, so kann aus dem Minimum = Q( a, b)
n
· xi )2 −b (Yi − a
i=1
(vgl. Regel A 8.4) eine Sch¨atzung f¨ ur σ2 konstruiert werden. Bezeichnung D 7.7 (Standardsch¨atzfehler). Sei n 3. Mittels 1 = 1 · xi )2 −b Q( a, b) (Yi − a n−2 n−2 n
2 = σ
i=1
304
D Schließende Statistik
wird eine Sch¨atzung f¨ u r σ2 definiert. Der Standardsch¨atzfehler im Modell D 7.1 n 1 i )2 . − bx = n−2 ist definiert durch σ (Yi − a i=1
Aus Regel A 8.4 folgt z.B. die alternative Darstellung 2 = σ
n 2 s (1 − r2xY ). n−2 Y
2 hat folgende Eigenschaften. Die Varianzsch¨atzung σ 2 ist eine erwartungstreue Sch¨ atzung f¨ur σ2 mit Satz D 7.8. σ (n − 2) σ2 ∼ χ2 (n − 2). 2 σ und σ 2 stochastisch unabh¨ Zudem sind ( a, b) angig. 2 2 Erwartungstreue Sch¨atzungen f¨ ur σa , σb sind 2a = σ
x2 2 ·σ n · s2x
2b = bzw. σ
2 σ . n · s2x
Bezeichnung D 7.9 (Standardsch¨atzfehler). Der Standardsch¨atzfehler von ist durch σ b = σ 2b gegeben. (i) b ist durch σ a = σ 2a gegeben. (ii) a Die obigen Aussagen k¨ onnen genutzt werden um z.B. Aussagen u ¨ber die Verteilung von Quotienten der Art −a a Qa = a σ zu machen. Gem¨aß Eigenschaft D 6.15 ist Qa t(n − 2)-verteilt. Allgemein gilt die folgende Regel. Regel D 7.10. Die Quotienten −a a , a σ
−b b b σ
und
sind t-verteilt mit n − 2 Freiheitsgraden.
, − f(x) f(x) , x ∈ R, f(x) σ
D 7 Lineares Regressionsmodell
305
D 7.2 Konfidenzintervalle Die Aussagen in Regel D 7.10 k¨ onnen direkt ausgenutzt werden um ein- und zweiseitige Konfidenzintervalle f¨ ur die Parameter a und b sowie den Funktionswert f(x) von f an einer festen Stelle x zu konstruieren. Verfahren D 7.11 (Konfidenzintervalle f¨ ur a). Sei α ∈ (0, 1). (1−α)-Konfidenzintervalle f¨ ur a sind gegeben durch: ⎛ ⎤ 2 x ⎦, + t1−α (n − 2) (i) ⎝−∞, a σ ns2x ⎡ ⎞ 2 x − t1−α (n − 2) (ii) ⎣a σ , ∞⎠, ns2x ⎡ ⎤ 2 2 x x ⎦. + t1−α/2 (n − 2) − t1−α/2 (n − 2) σ ,a σ (iii) ⎣a ns2x ns2x Verfahren D 7.12 (Konfidenzintervalle f¨ ur b). Sei α ∈ (0, 1). (1−α)-Konfidenzintervalle f¨ ur b sind gegeben durch: ( σ + t1−α (n − 2) (i) −∞, b , ns2x ' σ − t1−α (n − 2) ,∞ , (ii) b ns2x ' ( σ σ + t1−α/2 (n − 2) − t1−α/2 (n − 2) (iii) b ,b . ns2x ns2x Aus Satz D 7.8 resultieren direkt Konfidenzintervalle f¨ ur σ 2 . Verfahren D 7.13 (Konfidenzintervalle f¨ ur σ2 ). Sei α ∈ (0, 1). (1−α)-Konfidenzin2 tervalle f¨ ur σ sind gegeben durch: % & (n − 2) σ2 (i) 0, 2 , χα (n − 2) % (n − 2) σ2 (ii) 2 ,∞ , χ1−α (n − 2) ( ' (n − 2) σ2 (n − 2) σ2 . , (iii) χ21−α/2 (n − 2) χ2α/2 (n − 2)
306
D Schließende Statistik
Beispiel D 7.14. In Beispiel A 8.17 (Abf¨ ullanlage) wurde eine lineare Regression der Merkmale Laufzeit einer Abf¨ ullanlage (X) und Abf¨ ullmenge (Y ) durchgef¨ uhrt (s. auch Streudiagramm in Abbildung A 8.4). Bei Verwendung des vorhandenen Datenmaterials ergeben sich die Sch¨atzwerte = −89,903 a
= 0,887. und b
Aus s2y ≈ 192,530 und r2xy ≈ 0,952 ergibt sich als Sch¨atzwert f¨ ur die Varianz 2 = 9,948. Der Standardsch¨ = 3,154. Insgesamt resultieren folgende atzfehler ist σ σ Sch¨atzwerte und zweiseitige Konfidenzintervalle zum Niveau 1 − α = 0,99. Sch¨atzwert Standardsch¨atzfehler Konfidenzintervall a b f(150)
−89,903 0,887 43,202
3,629 0,037 1,091
[−100,898; −78,908] [0,777; 0,998] [39,897; 46,508]
Ein 0,95-Konfidenzintervall f¨ ur σ2 bzw. σ ist gegeben durch [6,352; 17,773] bzw. [2,520; 4,216]. Verfahren D 7.15 (Konfidenzbereich f¨ ur die gesamte Regressionsgerade). Ein (1 − α)-Konfidenzbereich f¨ ur die gesamte Regressionsfunktion ist definiert durch , o : R −→ R die Funktionen u 1 (x − t)2 ·t−σ (t) = a +b 2 · F1−α (2,n − 2) · , t ∈ R, + u n n · s2x 1 (x − t)2 ·t+σ (t) = a +b 2 · F1−α (2,n − 2) · , t ∈ R. + o n n · s2x
Beispiel D 7.16. Mit den Daten aus Beispiel D 7.14 wird ein 0,95-Konfidenzbereich f¨ ur die gesamte Regressionsgerade berechnet. Einsetzen der Werte liefert (175,656 − t)2 1 (t) = −89,903 + 0,887t − 3,154 2 · 5,039 + , u 32 32 · 232,663 (175,656 − t)2 1 (t) = −89,903 + 0,887t + 3,154 2 · 5,039 + . o 32 32 · 232,663 Das Streudiagramm mit diesen Kurven ist in Abbildung D 7.1 dargestellt.
Abf¨ ullmenge (in 1000)
D 7 Lineares Regressionsmodell
307
80
60
40 140
160
180
200
Laufzeit (in min) Abb. D 7.1. Konfidenzbereich f¨ ur die Regressionsgerade.
D 7.3 Hypothesentests Wie f¨ ur die Modellparameter in Abschnitt D 6 k¨onnen Hypothesen bzgl. der Parameter a, b und σ2 im Modell D 7.1 formuliert werden. Da die Vorgehensweise und die zugeh¨ origen Interpretationen leicht ¨ ubertragen werden k¨onnen, werden ausgew¨ahlte Entscheidungsprobleme und Verfahren nur in Tabelle D 7.1 zusammengestellt. Die vorgestellten Tests werden basierend auf Regel D 7.10 als t-Tests bzw. basierend auf Satz D 7.8 als χ2 -Tests formuliert. Bei bekannter Varianz σ2 resultieren Gauß-Tests gem¨aß Abschnitt D 6.3.
H0 wird abgelehnt, falls
H0
H1
a a0 a a0 a = a0
a > a0 a < a0 a = a0
( a − a0 )/ σa > t1−α (n − 2) ( a − a0 )/ σa < −t1−α (n − 2) |( a − a0 )|/ σa > t1−α/2 (n − 2)
b b0 b b0 b = b0
b > b0 b < b0 b = b0
− b0 )/ (b σb > t1−α (n − 2) − b0 )/ (b σb < −t1−α (n − 2) − b0 )|/ |(b σb > t1−α/2 (n − 2)
σ2 σ20 σ2 σ20 σ2 = σ20
σ2 > σ20 σ2 < σ20 σ2 = σ20
(n − 2) σ2 /σ20 (n − 2) σ2 /σ20 (n − 2) σ2 /σ20 (n − 2) σ2 /σ20
> χ21−α (n − 2) < χ2α (n − 2) < χ2α/2 (n − 2) oder > χ21−α/2 (n − 2)
Tabelle D 7.1. Entscheidungsregeln f¨ ur Hypothesentests bei linearer Regression.
308
D Schließende Statistik
D 8 Elemente der Bayes-Statistik Die in den Abschnitten D 2, D 3 und D 5 vorgestellten Sch¨atzfunktionen f¨ ur einen unbekannten Parameter ϑ basieren ausschließlich auf der Stichprobe X1 , . . . , Xn . In der sogenannten Bayes-Statistik wird zus¨atzlich Information in Form von Exper” ¨ tenwissen“ in die Uberlegungen mit einbezogen. Dies geschieht durch die Festlegung einer Wahrscheinlichkeitsverteilung f¨ ur den Parameter ϑ, d.h. der Parameter ϑ wird als Realisation einer Zufallsvariablen Δ mit Werten im Parameterraum Θ interpretiert. Die folgende Darstellung der Bayes-Statistik beruht auf bedingten Dichten (s. Bezeichnung C 7.1). Bezeichnung D 8.1 (a-priori Dichte, a-posteriori Dichte). Seien ϑ ∈ Θ ein Parameter und X1 , . . . , Xn Zufallsvariablen. In der Bayesschen Sch¨atztheorie wird der Parameter ϑ als Realisation einer Zufallsvariablen Δ interpretiert. Die gemeinsame Dichtefunktion von zuf¨alligem Parameter Δ und X1 , . . . , Xn wird mit fX1 ,...,Xn ,Δ bezeichnet. Grundlage der Theorie ist die Bayes-Formel f¨ur Dichten fΔ|X1 ,...,Xn (ϑ|x1 , . . . , xn ) =
fX1 ,...,Xn |Δ (x1 , . . . , xn |ϑ) · fΔ (ϑ) . fX1 ,...,Xn (x1 , . . . , xn )
(D.6)
Da fX1 ,...,Xn nicht von Δ abh¨angt, ist auf der rechten Seite der Gleichung die gesamte Information ¨ uber den Parameter Δ im Produkt fX1 ,...,Xn |Δ · fΔ enthalten. Folgende Bezeichnungen werden verwendet: (i) fΔ : a-priori Dichte. Diese wird nachfolgend mit π bezeichnet. (ii) fΔ|X1 ,...,Xn : a-posteriori Dichte (iii) fX1 ,...,Xn |Δ=ϑ ist die Likelihoodfunktion, die die Verteilungsannahme an die Zufallsvariablen X1 , . . . , Xn bei gegebenem Parameter Δ = ϑ repr¨asentiert. Die a-priori Dichte π beschreibt die ¨ uber den zuf¨alligen Parameter Δ gegebene Vorinformation in Form einer Wahrscheinlichkeitsverteilung. Diese wird als bekannt angenommen und kann wiederum von (bekannten) Parametern abh¨angen. Die a-posteriori Dichte fΔ|X1 ,...,Xn repr¨asentiert die Information u ¨ber den Parameter, nachdem die Stichprobe erhoben wurde. Daraus ergibt sich der folgende Bayes-Ansatz. Verfahren D 8.2 (Bayesscher Modellierungsansatz). (i) Festlegung der a-priori Dichte π (Vorinformation) (ii) Festlegung der Likelihood-Funktion fX1 ,...,Xn |Δ (Verteilungsannahme bei gegebenem Δ = ϑ) (iii) Ermittlung der a-posteriori Dichte fΔ|X1 ,...,Xn
D 8 Elemente der Bayes-Statistik
309
Die a-posteriori Dichte fΔ|X1 ,...,Xn repr¨asentiert in diesem Ansatz die relevante Information u ¨ber den Parameter ϑ. Da der Nenner in der Bayesschen Formel (D.6) nicht vom Parameter abh¨angt, kann er als Proportionalit¨atsfaktor aufgefasst werden. Dies erkl¨art die in der Bayes-Statistik verbreitete Schreibweise fΔ|X1 ,...,Xn ∝ fX1 ,...,Xn |Δ · π.
Das Bayes-Prinzip beruht auf dem erwarteten Verlust bei Vorliegen der a-priori Verteilung π. Dazu wird zun¨achst eine Bewertungsfunktion f¨ ur Abweichungen vom wahren“ Wert des Parameters eingef¨ uhrt. ” Bezeichnung D 8.3 (Verlustfunktion). Seien X1 , . . . , Xn ∼ Pϑ , ϑ ∈ Θ, ϑ eine ϑ. Sch¨atzfunktion f¨ ur ϑ und d eine Realisation von Eine Funktion L : Θ × Θ → [0, ∞) heißt Verlustfunktion. L(ϑ, d) misst“ den ” Verlust bei Vorliegen des wahren“ Parameters ϑ und der Wahl des Sch¨atzwerts d. ” L(ϑ, ϑ) heißt Verlust der Sch¨ atzfunktion ϑ = ϑ(X1 , . . . , Xn ) f¨ur gegebenes ϑ ∈ Θ. iid
Bezeichnung D 8.4 (Quadratische Verlustfunktion). Sei Θ ⊆ R. Die durch L(ϑ, d) = (ϑ − d)2
definierte Funktion L : Θ × Θ → [0, ∞) heißt quadratische Verlustfunktion. Der Verlust L(ϑ, ϑ) ist eine Zufallsvariable, deren Erwartungswert im Folgenden n¨aher untersucht wird. Bezeichnung D 8.5 (Risikofunktion). Seien D die Menge aller Sch¨atzfunktionen und ϑ ∈ D. Die durch ϑ) R(ϑ, ϑ) = Eϑ L(ϑ, definierte Funktion R : Θ × D −→ [0, ∞) heißt Risikofunktion. R(ϑ, ϑ) heißt Risiko ϑ in ϑ ∈ Θ. oder erwarteter Verlust der Sch¨atzfunktion Beispiel D 8.6. F¨ ur die quadratische Verlustfunktion gilt speziell ϑ) = Eϑ (ϑ − R(ϑ, ϑ) = Eϑ L(ϑ, ϑ)2 = MSEϑ ( ϑ). Ist atzer f¨ ur ϑ, so ist das Risiko gerade die Varianz von ϑ erwartungstreuer Sch¨ ϑ (unter Pϑ ): R(ϑ, ϑ) = Varϑ ( ϑ). Bezeichnung D 8.7 (Bayes-Risiko). Seien L : Θ × Θ −→ [0, ∞) eine Verlustfunktion und atzfunktion. ϑ eine Sch¨ ϑ) als bedingter Unter den Annahmen von Bezeichnung D 8.1 wird das Risiko R(ϑ, erwarteter Verlust interpretiert R(ϑ, ϑ) = E(L(ϑ, ϑ)|Δ = ϑ)
310
D Schließende Statistik
(i.e. Erwartungswert der bedingten Verteilung von L(ϑ, ϑ) unter der Bedingung Δ = ϑ). Bezeichnet π die a-priori Verteilung von Δ, so heißt Rπ ( ϑ) = Eπ (R(Δ, ϑ))
Bayes-Risiko von ϑ. Bemerkung D 8.8. Mit X = (X1 , . . . , Xn ) und Verlustfunktion L kann das BayesRisiko auch geschrieben werden als Rπ ( ϑ) = E(L(Δ, ϑ(X))),
wobei der Erwartungswert bzgl. der gemeinsamen Verteilung PΔ,X von Δ und X gebildet wird. Diese Darstellung ist bei der Suche nach Sch¨ atzfunktionen mit minimalem Bayes-Risiko n¨ utzlich. Bei der Berechnung des Bayes-Risikos sind Erwartungswerte bzgl. der bedingten Verteilung PX1 ,...,Xn |Δ=ϑ bzw. bzgl. der a-priori Verteilung zu ermitteln. Diese werden gem¨aß Abschnitt C 5 als Summen bzw. als Riemann-Integrale berechnet. Gesucht sind nun Sch¨atzfunktionen, die das Bayes-Risiko minimieren. ϑB aus der Menge Bezeichnung D 8.9 (Bayes-Sch¨atzer). Eine Sch¨atzfunktion der Sch¨atzfunktionen D heißt Bayes-Sch¨atzer, wenn sie das Bayes-Risiko minimiert, d.h. es gilt Rπ ( ϑB ) = min Rπ ( ϑ). ϑ∈D
Der Bayes-Sch¨atzer h¨angt direkt von der Wahl der Verlustfunktion ab, so dass eine allgemeine L¨ osung des Problems nicht m¨ oglich ist. Verwendet man jedoch die quadratische Verlustfunktion, so kann der Bayes-Sch¨atzer direkt berechnet werden. Satz D 8.10 (Bayes-Sch¨atzer bei quadratischer Verlustfunktion). Bei quadratischer Verlustfunktion ist die bedingte Erwartung ϑB = E(Δ|X1 , . . . , Xn ) = E(Δ|X)
Bayes-Sch¨atzer, d.h. atzung f¨ ur den Parameter ϑ mit minimaϑB ist die Punktsch¨ lem Bayes-Risiko. Beweis. Der Nachweis dieser Eigenschaft wird exemplarisch im Fall von RiemannDichten gef¨ uhrt, d.h. alle vorkommenden Dichten werden als Riemann-Dichten angenommen. Nach Bemerkung D 8.8 kann das Bayes-Risiko bei einer zugrundeliegenden Verlustfunktion L geschrieben werden als
D 8 Elemente der Bayes-Statistik
311
Rπ ( ϑ) = E(L(Δ, ϑ)) = E(Δ − ϑ)2 .
Unter Ausnutzung der Regeln f¨ ur bedingte Erwartungen (s. Lemma C 7.7) gilt dann Rπ ( ϑ) = E(( ϑ(x) − Δ)2 |X = x)fX (x) dx.
Das Bayes-Risiko wird also minimal, wenn E(( ϑ(x) − Δ)2 |X = x) f¨ ur jedes x minimiert wird. Eine Anwendung des Verschiebungssatzes f¨ ur Erwartungswerte ergibt E(( ϑ(x) − Δ)2 |X = x) = Var(Δ|X = x) + E(( ϑ(x) − E(Δ|X = x))2 |X = x),
0
so dass
Rπ ( ϑ) Var(Δ|X = x)fX (x) dx.
Die rechte Seite der Ungleichung ist unabh¨ angig von ur alle Sch¨ atzϑ und gilt daher f¨ ϑB = E(Δ|X). funktionen. Gleichheit gilt (z.B.) f¨ ur den Sch¨ atzer
Satz D 8.10 zeigt also, dass der a-posteriori Erwartungswert einen Bayes-Sch¨atzer definiert. Um explizite Darstellungen f¨ ur einen Bayes-Sch¨atzer zu erhalten, muss daher der Erwartungswert bzgl. der a-posteriori Verteilungen explizit berechenbar sein. iid
Beispiel D 8.11. Seien X1 , . . . , Xn ∼ Exp(λ) bei gegebenem Δ = λ ∈ Θ = (0, ∞), d.h. n λn e−nλx , x1 , . . . , xn > 0 X1 ,...,Xn |Δ=λ Xi |Δ=λ f (x1 , . . . , xn ) = f (xi ) = . sonst 0, i=1 Die a-priori Verteilung sei eine Γ (α, β)-Verteilung (α, β > 0), d.h. π(λ) =
βα α−1 −βλ λ e , Γ (α)
λ > 0.
Die gemeinsame Dichte von X1 , . . . , Xn und Δ ist somit f¨ ur x1 , . . . , xn > 0 und λ > 0 gegeben durch fX1 ,...,Xn ,Δ (x1 , . . . , xn , λ) = fX1 ,...,Xn |Δ=λ (x1 , . . . , xn )π(λ) βα α−1 −βλ λ = λn e−nλx e Γ (α) βα α+n−1 −(β+nx)λ = e . λ Γ (α)
Durch Integration bzgl. λ entsteht die Randverteilung von X1 , . . . , Xn : βα ∞ α+n−1 −(β+nx)λ Γ (n + α)βα fX1 ,...,Xn (x1 , . . . , xn ) = λ e dλ = Γ (α) 0 Γ (α)(nx + β)n+α
312
D Schließende Statistik
f¨ ur x1 , . . . , xn > 0, da
∞
Γ (n+α) λα+n−1 e−(β+nx)λ dλ = (nx+β) at n+α . Diese Identit¨ 0 (nx+β)n+α α+n−1 −(β+nx)λ e 1I(0,∞) (λ) die Dichte einer Γ (n+α) λ
resultiert, weil h(λ) = Γ (n + α, nx + β)-Verteilung ist. Die a-posteriori Verteilung ist daher gegeben durch fΔ|X1 ,...,Xn (λ|x1 , . . . , xn ) = =
βα α+n−1 −(β+nx)λ λ e Γ (α) Γ (n+α)βα Γ (α)(nx+β)n+α (β + nx)n+α n+α−1 −(β+nx)λ
Γ (n + α)
e
λ
und somit eine Γ (n + α, nx + β)-Verteilung. Ein Bayes-Sch¨atzer ist bestimmt durch den a-posteriori Erwartungswert E(Δ|X1 = x1 , . . . , Xn = xn ), so dass nach Beispiel C 5.2 gilt: n+α . ϑB = nX + β In der Regel l¨asst sich die a-posteriori Verteilung nicht explizit berechnen. Dies ist aber m¨ oglich, wenn a-priori Verteilung π und Likelihoodfunktion fX1 ,...,Xn |Δ passend zueinander“ gew¨ahlt werden. ” Bezeichnung D 8.12 (Konjugierte Verteilungen). Seien X1 , . . . , Xn bei gegeben nem Δ = ϑ stochastisch unabh¨angig, d.h. fX1 ,...,Xn |Δ = fXi |Δ , sowie identisch i=1
ur i ∈ {1, . . . , n}. verteilt, d.h. fXi |Δ = fX1 |Δ f¨ Eine a-priori Dichte π und eine Likelihoodfunktion fX1 ,...,Xn |Δ heißen konjugiert, falls die a-priori Verteilung π und die a-posteriori Dichte fΔ|X1 ,...,Xn denselben Verteilungstyp haben. Ausgew¨ahlte Paare von konjugierten Verteilungen sind in Tabelle D 8.1 angegeben. Dabei hat eine Zufallsvariable X mit Tr¨ager (0, ∞) eine inverse Gammaverteilung IG(α, β) mit Parametern α > 0 und β > 0, falls X1 eine Γ (α, β)-Verteilung besitzt. fX1 ,...,Xn |Δ
ϑ
fΔ
fΔ|X1 ,...,Xn
bin(1, p) po(λ) Exp(λ)
p λ λ
beta(α, β)
beta(α + nx, β + n(1 − x))
N(μ, σ2 )
μ
N(μ0 , σ20 )
N(μ, σ2 )
σ2
IG(α, β)
Γ (α, β) Γ (α, β)
Γ (α + nx, β + n) Γ (α + n, β + nx)
2 σ2 μ0 +nσ2 σ2 0x 0σ , σ2 +nσ 2 σ2 +nσ2 0 0 IG(α + n2 , β + n2 σ2μ ) n mit σ2μ = n1 (Xi − μ)2 i=1
N
Tabelle D 8.1. Paare konjugierter Verteilungen.
E Tabellen
E 1 Ausgew¨ ahlte Quantile der Standardnormalverteilung α 0,001 0,005 0,01 0,02 0,025 0,05 0,1 uα -3,090 -2,576 -2,326 -2,054 -1,960 -1,645 -1,282 α uα
0,9 1,282
0,95 1,645
0,975 1,960
0,98 2,054
0,99 2,326
0,995 2,576
0,999 3,090
314
E Tabellen
E 2 Quantile der t-Verteilung mit n Freiheitsgraden .... .... .... .... .... ...
β
n
60% 70% 80% 90% 95% 97,5%
99% 99,5%
99,9% 99,95%
1 2 3 4 5
0.325 0.289 0.277 0.271 0.267
0.727 0.617 0.584 0.569 0.559
1.376 1.061 0.978 0.941 0.920
3.078 1.886 1.638 1.533 1.476
6.314 2.920 2.353 2.132 2.015
12.706 4.303 3.182 2.776 2.571
31.821 6.965 4.541 3.747 3.365
6 7 8 9 10
0.265 0.263 0.262 0.261 0.260
0.553 0.549 0.546 0.543 0.542
0.906 0.896 0.889 0.883 0.879
1.440 1.415 1.397 1.383 1.372
1.943 1.895 1.860 1.833 1.812
2.447 2.365 2.306 2.262 2.228
3.143 2.998 2.896 2.821 2.764
3.707 3.499 3.355 3.250 3.169
5.208 4.785 4.501 4.297 4.144
5.959 5.408 5.041 4.781 4.587
11 12 13 14 15
0.260 0.259 0.259 0.258 0.258
0.540 0.539 0.538 0.537 0.536
0.876 0.873 0.870 0.868 0.866
1.363 1.356 1.350 1.345 1.341
1.796 1.782 1.771 1.761 1.753
2.201 2.179 2.160 2.145 2.131
2.718 2.681 2.650 2.624 2.602
3.106 3.055 3.012 2.977 2.947
4.025 3.930 3.852 3.787 3.733
4.437 4.318 4.221 4.140 4.073
16 17 18 19 20
0.258 0.257 0.257 0.257 0.257
0.535 0.534 0.534 0.533 0.533
0.865 0.863 0.862 0.861 0.860
1.337 1.333 1.330 1.328 1.325
1.746 1.740 1.734 1.729 1.725
2.120 2.110 2.101 2.093 2.086
2.583 2.567 2.552 2.539 2.528
2.921 2.898 2.878 2.861 2.845
3.686 3.646 3.610 3.579 3.552
4.015 3.965 3.922 3.883 3.850
21 22 23 24 25
0.257 0.256 0.256 0.256 0.256
0.532 0.532 0.532 0.531 0.531
0.859 0.858 0.858 0.857 0.856
1.323 1.321 1.319 1.318 1.316
1.721 1.717 1.714 1.711 1.708
2.080 2.074 2.069 2.064 2.060
2.518 2.508 2.500 2.492 2.485
2.831 2.819 2.807 2.797 2.787
3.527 3.505 3.485 3.467 3.450
3.819 3.792 3.768 3.745 3.725
26 27 28 29 30
0.256 0.256 0.256 0.256 0.256
0.531 0.531 0.530 0.530 0.530
0.856 0.855 0.855 0.854 0.854
1.315 1.314 1.313 1.311 1.310
1.706 1.703 1.701 1.699 1.697
2.056 2.052 2.048 2.045 2.042
2.479 2.473 2.467 2.462 2.457
2.779 2.771 2.763 2.756 2.750
3.435 3.421 3.408 3.396 3.385
3.707 3.690 3.674 3.659 3.646
80% 60% 40% 20% 10%
5%
2%
1%
0,2%
0,1%
2(1 − β)
63.657 318.309 636.619 9.925 22.327 31.599 5.841 10.215 12.924 4.604 7.173 8.610 4.032 5.893 6.869
E 3 Quantile der χ2 -Verteilung mit n Freiheitsgraden
315
E 3 Quantile der χ2 -Verteilung mit n Freiheitsgraden .... .... .... .... .... ..
β
0,5%
1%
1 2 3 4 5
0,00 0,01 0,07 0,21 0,41
0,00 0,02 0,11 0,30 0,55
0,00 0,04 0,18 0,43 0,75
0,00 0,05 0,22 0,48 0,83
0,00 0,10 0,35 0,71 1,15
0,02 0,21 0,58 1,06 1,61
2,71 4,61 6,25 7,78 9,24
6 7 8 9 10
0,68 0,99 1,34 1,73 2,16
0,87 1,24 1,65 2,09 2,56
1,13 1,56 2,03 2,53 3,06
1,24 1,69 2,18 2,70 3,25
1,64 2,17 2,73 3,33 3,94
2,20 2,83 3,49 4,17 4,87
11 12 13 14 15
2,60 3,07 3,57 4,07 4,60
3,05 3,57 4,11 4,66 5,23
3,61 4,18 4,77 5,37 5,98
3,82 4,40 5,01 5,63 6,26
4,57 5,23 5,89 6,57 7,26
16 17 18 19 20
5,14 5,70 6,26 6,84 7,43
5,81 6,41 7,01 7,63 8,26
6,61 7,26 7,91 8,57 9,24
6,91 7,56 8,23 8,91 9,59
21 22 23 24 25
8,03 8,64 9,26 9,89 10,52
8,90 9,54 10,20 10,86 11,52
9,91 10,60 11,29 11,99 12,70
26 27 28 29 30
11,16 11,81 12,46 13,12 13,79
12,20 12,88 13,56 14,26 14,95
13,41 14,13 14,85 15,57 16,31
n
2% 2,5%
5% 10% 90% 95% 97,5% 98% 99% 99,5% 3,84 5,02 5,41 5,99 7,38 7,82 7,81 9,35 9,84 9,49 11,14 11,67 11,07 12,83 13,39
6,63 9,21 11,34 13,28 15,09
7,88 10,60 12,84 14,86 16,75
10,64 12,02 13,36 14,68 15,99
12,59 14,07 15,51 16,92 18,31
14,45 16,01 17,53 19,02 20,48
15,03 16,62 18,17 19,68 21,16
16,81 18,48 20,09 21,67 23,21
18,55 20,28 21,95 23,59 25,19
5,58 6,30 7,04 7,79 8,55
17,28 18,55 19,81 21,06 22,31
19,68 21,03 22,36 23,68 25,00
21,92 23,34 24,74 26,12 27,49
22,62 24,05 25,47 26,87 28,26
24,72 26,22 27,69 29,14 30,58
26,76 28,30 29,82 31,32 32,80
7,96 8,67 9,39 10,12 10,85
9,31 10,09 10,86 11,65 12,44
23,54 24,77 25,99 27,20 28,41
26,30 27,59 28,87 30,14 31,41
28,85 30,19 31,53 32,85 34,17
29,63 31,00 32,35 33,69 35,02
32,00 33,41 34,81 36,19 37,57
34,27 35,72 37,16 38,58 40,00
10,28 10,98 11,69 12,40 13,12
11,59 12,34 13,09 13,85 14,61
13,24 14,04 14,85 15,66 16,47
29,62 30,81 32,01 33,20 34,38
32,67 33,92 35,17 36,42 37,65
35,48 36,78 38,08 39,36 40,65
36,34 37,66 38,97 40,27 41,57
38,93 40,29 41,64 42,98 44,31
41,40 42,80 44,18 45,56 46,93
13,84 14,57 15,31 16,05 16,79
15,38 16,15 16,93 17,71 18,49
17,29 18,11 18,94 19,77 20,60
35,56 36,74 37,92 39,09 40,26
38,89 40,11 41,34 42,56 43,77
41,92 43,19 44,46 45,72 46,98
42,86 44,14 45,42 46,69 47,96
45,64 46,96 48,28 49,59 50,89
48,29 49,64 50,99 52,34 53,67
F¨ ur n > 30 gilt in guter N¨ aherung χ2β (n) ≈
1 √ ( 2n − 1 + uβ )2 , 2
wobei uβ das β-Quantil der N(0, 1)-Verteilung ist.
Literaturverzeichnis
Bamberg, G., Baur, F. und Krapp, M. (2008). Statistik. Oldenbourg, M¨ unchen, 14. Aufl. Bauer, H. (2002). Wahrscheinlichkeitstheorie. de Gruyter, Berlin, 5. Aufl. Behnen, K. und Neuhaus, G. (2003). Grundkurs Stochastik. pd-Verlag, Heidenau, 4. Aufl. Bortz, J. (2004). Statistik f¨ ur Sozialwissenschafler. Springer, Berlin, 6. Aufl. Burkschat, M., Cramer, E. und Kamps, U. (2004). Beschreibende Statistik Grundlegende Verfahren. Springer, Berlin. Cramer, E., Cramer, K., Kamps, U. und Zuckschwerdt, C. (2004). Beschreibende Statistik – Interaktive Grafiken. Springer, Berlin. Cramer, E. und Kamps, U. (2006). Statistik griffbereit — Eine Formelsammlung zur Wahrscheinlichkeitsrechnung und Statistik. Aachen, 2. Aufl. Dehling, H. und Haupt, B. (2004). Einf¨ uhrung in die Wahrscheinlichkeitstheorie und Statistik. Springer, Berlin, 2. Aufl. D¨ umbgen, L. (2003). Stochastik f¨ ur Informatiker. Springer-Verlag, Berlin. Fahrmeir, L., Hamerle, A. und Tutz, G. (1996). Multivariate Statistische Verfahren. de Gruyter, Berlin, 2. Aufl. Fahrmeir, L., K¨ unstler, R., Pigeot, I. und Tutz, G. (2007). Statistik - Der Weg zur Datenanalyse. Springer, Berlin, 6. Aufl. Genschel, U. und Becker, C. (2004). Schließende Statistik - Grundlegende Verfahren. Springer, Berlin. Graf, U., Henning, H., Stange, K. und Wilrich, P. (1998). Formeln und Tabellen der angewandten mathematischen Statistik. Springer, Berlin, 3. Aufl. Hartung, J., Elpelt, B. und Kl¨ osener, K. H. (2005). Statistik. Oldenbourg, M¨ unchen, 14. Aufl. Heiler, S. und Michels, P. (2007). Deskriptive und Explorative Datenanalyse. Oldenbourg, M¨ unchen, 2. Aufl. Henze, N. (2006). Stochastik f¨ ur Einsteiger. Vieweg, Braunschweig, 6. Aufl. H¨ ubner, G. (2003). Stochastik. Vieweg, Braunschweig, 4. Aufl.
318
Literaturverzeichnis
Irle, A. (2005). Wahrscheinlichkeitstheorie und Statistik. Teubner, Stuttgart, 2. Aufl. Kamps, U., Cramer, E. und Oltmanns, H. (2003). Wirtschaftsmathematik – Einf¨ uhrendes Lehr- und Arbeitsbuch. Oldenbourg, M¨ unchen, 2. Aufl. Krengel, U. (2005). Einf¨ uhrung in die Wahrscheinlichkeitsrechnung und Statistik. Vieweg, Braunschweig, 8. Aufl. Lehr- und Lernumgebung EMILeA-stat (2007). Institut f¨ ur Statistik und Wirtschaftsmathematik, RWTH Aachen (http://emilea-stat.rwth-aachen.de). Mathar, R. und Pfeifer, D. (1990). Stochastik f¨ur Informatiker. Teubner, Stuttgart. Mosler, K. und Schmid, F. (2006). Beschreibende Statistik und Wirtschaftsstatistik. Springer, Berlin, 3. Aufl. Pfanzagl, J. (1991). Elementare Wahrscheinlichkeitsrechnung. de Gruyter, Berlin, 2. Aufl. Pokropp, F. (1996). Stichproben: Theorie und Verfahren. Oldenbourg, M¨ unchen, 2. Aufl. Rinne, H. (2003). Taschenbuch der Statistik. Harri Deutsch, Frankfurt am Main, 3. Aufl. Rinne, H. und Specht, K. (2002). Zeitreihen. Vahlen, M¨ unchen. Sachs, L. und Hedderich, J. (2006). Angewandte Statistik. Methodensammlung mit R. Springer, Berlin, 12. Aufl. Schlittgen, R. und Streitberg, B. H. (2001). Zeitreihenanalyse. Oldenbourg, M¨ unchen, 9. Aufl. Schmitz, N. (1996). Vorlesungen ¨ uber Wahrscheinlichkeitstheorie. Teubner, Stuttgart. Steland, A. (2004). Mathematische Grundlagen der empirischen Forschung. Springer, Berlin. Toutenburg, H. (2006). Deskriptive Statistik. Springer, Berlin, 5. Aufl.
Sachverzeichnis
a-posteriori Dichte, 308 a-posteriori Erwartungswert, 311 a-priori Dichte, 308 abh¨ angige Variable, 118 Ablehnbereich, 263 absolutskaliert, 10 Abszisse, 20 Alternative, 263 Annahmebereich, 263 Anteilsvergleiche, 291 antiton, 173 arithmetisches Mittel, 28 bei gepoolten Datens¨ atzen, 28 Minimalit¨ atseigenschaft, 29 Assoziationsmaß, 92 Ausreißer, 32 Balkendiagramm s. Diagramm, 21 Basiswert, 71 Bayes-Ansatz, 308 Bayes-Formel, 308 Bayes-Risiko, 310 Bayes-Sch¨ atzer, 310 Bayes-Statistik, 308 Bayessche Formel, 179 Bayessche Sch¨ atztheorie, 308 bedingte Erwartung, 311 bedingte H¨ aufigkeit, 96 Beobachtung, 233 Beobachtungswert, 4 Berichtswert, 71 Bernoulli-Experiment, 198
Bernoulli-Modell, 182 Bestandsmasse, 68 Bestimmtheitsmaß, 131, 143 Bewegungsmasse, 68 Beziehungszahl, 68 Bias, 240 bimodal, 50 Bindung, 24 Binomialmodell, 252 Binomialtest approximativer, 290 exakter, 288 Binomialverteilung, 184 bivariat, 14 Bonferroni-Ungleichungen, 176 Borel-Cantelli, 182 Borelsche σ-Algebra, 167 Box-Plot, 40 Bravais-Pearson-Korrelationskoeffizient s. Korrelationskoeffizient, 109 χ2 -Gr¨ oße, 98, 299
Clopper-Pearson-Werte, 253 Datenmatrix, 14 Datensatz, 5 gepoolter, 28 klassierter, 42 Datum, 4 Dezentil, 26, 27 Diagramm Balken-, 21 Histogramm, 45 Kreis-, 21
320
Sachverzeichnis
Linien-, 21 S¨ aulen-, 20 Stab-, 20 dichotom, 7 Dichte a-posteriori, 308 a-priori, 308 bedingte, 221 Riemann-, 167 Z¨ ahl-, 155 Differenzereignis, 155 Dimension, 14 disjunkt, 155 diskret, 10 Dreiecksungleichung, 210 einfache Indexzahl, 71 Einheitsmatrix, 200 Einstichprobenmodell, 260 Elementarereignis, 154 Elementarindex, 72 Elementarwahrscheinlichkeit, 155 empirische Kovarianz, 106 empirische Standardabweichung, 37 empirische Unabh¨ angigkeit, 98 empirische Varianz, 36 bei gepoolten Daten, 37 empirische Verteilungsfunktion, 18 Entsprechungszahl, 70 Ereignis, 154 spezielle, 155 Ergebnis, 154 Ergebnisraum, 154 erkl¨ arende Variable, 118 erwarteter Verlust, 309 Erwartung bedingte, 223, 311 erwartungstreu, 238 asymptotisch, 239 Erwartungswert, 207 a-posteriori, 311 bedingter, 222 Erwartungswertvektor, 216 erzeugende Funktion, 217 extensiv, 52 F-Test, 283 F¨ ullmengenkontrolle, 261 Faltung, 189, 190, 206, 217
Fehler 1. Art, 264 Fehler 2. Art, 264 Fehlerwahrscheinlichkeit 1. Art, 266 Fehlerwahrscheinlichkeit 2. Art, 266 Formel von der totalen Wahrscheinlichkeit, 179 Fourier-Transformierte, 218 G¨ ute, 266 G¨ utefunktion, 266 Binomialtest, 289 Gauß-Test, 274 Gauß-Test, 271 G¨ utefunktion, 274 geometrisches Mittel, 30 gepaarte Daten, 14 gepaarte Messreihe s. Messreihe, 14 gewichtetes arithmetisches Mittel s. Mittel, 29 gewichtetes geometrisches Mittel s. Mittel, 31 gewichtetes harmonisches Mittel s. Mittel, 32 Gini-Koeffizient, 57 normierter, 62 Gleichverteilung diskrete, 156 gleitende Durchschnitte, 145 Saisonkomponente, 147 Gliederungszahl, 66 Grenzwert, 174 Grenzwerts¨ atze, 224 Grundgesamtheit, 2 Grundmenge, 154 Grundraum, 154 H¨ aufigkeit absolute, 16 bedingte, 96 Klassen-, 43 kumulierte, 17 Rand-, 93 relative, 17 H¨ aufigkeitstabelle, 17 H¨ aufigkeitsverteilung, 17 bedingte, 98 bimodale, 50 f¨ ur klassierte Daten, 44
Sachverzeichnis linksschiefe, 51 rechtsschiefe, 51 symmetrische, 51 unimodale, 50 harmonisches Mittel, 31 Herfindahl-Index, 64 Histogramm, 45 Homogenit¨ atstest, 283 Hypothese, 261 einfache, 263 zusammengesetzte, 263 Hypothesentest, 263
korreliert, 111 Kovarianz, 211, 213 Kovarianzmatrix, 216 Kreisdiagramm s. Diagramm, 21 kritische Schranke, 264
Indexzahl einfache, 71 Verkettung, 73 zusammengesetzte, 78 Indikatorfunktion, 16, 188 Intervallsch¨ atzung, 250 intervallskaliert, 9 isoton, 173
Lagemaß, 23, 212 Laplace-Raum, 156 Laplace-Transformierte, 218 Laplace-Verteilung, 156 Likelihoodfunktion, 245, 308 Limes einer Mengenfolge, 174 limes inferior, 174 limes superior, 174 lineare Transformation, 39 Liniendiagramm s. Diagramm, 21 linksschief, 51 log-Likelihoodfunktion, 245 Lorenz-Kurve, 53
Klasse, 42 offene, 43, 45 Klassenbreite, 43 Klassenh¨ aufigkeit, 43 klassierte Daten, 42 klassierter Datensatz, 42 Kleinste-Quadrate-Sch¨ atzer, 301 Kolmogorov-Axiome, 156, 166 Kombination, 160, 162 Kombinatorik, 157 Komplement, 155 Komplement¨ arereignis, 155 Konfidenzintervall, 250 approximatives, 252 Normalverteilung, 257 Konfidenzniveau, 250 konjugiert, 312 Konsistenz, 242 Kontingenzkoeffizient nach Pearson, 103 korrigierter, 104 Kontingenztafel, 92, 198, 298 Konzentrationsmaß, 57 Korrelation, 111 Schein-, 113 Korrelationskoeffizient, 213, 282 nach Bravais-Pearson, 109, 123, 131 Korrelationstests, 282
Marginalverteilung, 197 Maximum, 18 Maximum-Likelihood-Methode, 244 Maximum-Likelihood-Sch¨ atzer, 245 Median f¨ ur metrische Daten, 26 f¨ ur ordinale Daten, 25 Mengenindex, 86 Fisher, 88 Laspeyres, 86 Paasche, 87 Mengensystem, 166 Merkmal, 3 absolutskaliertes, 10 bivariates, 14 dichotomes, 7 diskretes, 10 extensives, 52 intervallskaliertes, 9 metrisches, 8 multivariates, 14 nominales, 7 ordinales, 7 qualitatives, 6 quantitatives, 8, 42 stetiges, 11 univariates, 3
321
322
Sachverzeichnis
verh¨ altnisskaliertes, 9 Merkmalsauspr¨ agung, 4 Merkmalstyp, 6 messbarer Raum, 166 Messfehler, 300 Messraum, 166 Messreihe gepaarte, 14, 105, 117, 137 Messwert, 4 Messzahl, 70 Methode der kleinsten Quadrate, 119, 140, 301 metrisch, 8 Mindeststichprobenumfang, 276 Minimum, 18 Mittel arithmetisches, 28 geometrisches, 30, 85 gewichtetes arithmetisches, 29, 83 gewichtetes geometrisches, 31 gewichtetes harmonisches, 32, 83 harmonisches, 31 Mittelwertvergleiche, 285 mittlere absolute Abweichung, 38 mittlere quadratische Abweichung, 236 mittlere quadratische Kontingenz, 104 mittlerer quadratischer Fehler, 240 Modalwert, 24 Modus, 23 Moment, 209, 211, 217 momenterzeugende Funktion, 218 Monotonie, 172 Multiplikationssatz, 210 multivariat, 14 negativ korreliert, 111 Niveau, 267 nominal, 7 Nullhypothese, 263 Nullmenge, 223 offene Kasse s. Klasse, 43 ordinal, 7 Ordinate, 20 paarweise disjunkt, 155 paarweise stochastisch unabh¨ angig, 181 Parameterraum, 234
Periodendiagramm, 150 Permutation, 158, 159 Perzentil, 26, 27 Polynomialkoeffizient, 165 Polynomialverteilung, 198 positiv definit, 200 positiv korreliert, 111 positiv semidefinit, 216 Potenzmenge, 155, 166 Power, 266 Preisindex Fisher, 85 Laspeyres, 80 Paasche, 81 Preisindizes, 79 Produkt der Wahrscheinlichkeitsr¨ aume, 183 Produktraum, 183 Pseudoinverse, 194 Punktsch¨ atzung, 237 Normalverteilung, 255 Quantil, 195 f¨ ur metrische Daten, 27 f¨ ur ordinale Daten, 25 Quantilfunktion, 194 quantitativ, 8 Quartil, 26, 27, 196 Quartilsabstand, 35 Randh¨ aufigkeit s. H¨ aufigkeit, 93 Randverteilung, 197 Rang, 24, 113 Rangkorrelationskoeffizient nach Spearman, 114 Rangwert, 18 Rangwertreihe, 18 Realisation, 233 rechtsschief, 51 Regressand, 118 Regression lineare, 300 Sch¨ atzung, 301 Regressionsanalyse, 117 Regressionsfunktion, 118 Regressionsgerade, 121, 301 Regressionsmodell, 118, 300 lineares, 120
Sachverzeichnis Zeitreihe, 141 Regressionswert, 118 Regressor, 118 Residualanalyse, 133 Residualplot, 133, 143 Residualstreuung, 131 Residuum, 40, 129, 133, 140 normiertes, 129 Reststreuung, 131 Riemann-Dichte, 167, 199 Risiko, 309 Risikofunktion, 309 S¨ aulendiagramm s. Diagramm, 20 Saisonbereinigung, 150 Saisonkomponente, 138 Satz von Steiner, 212 Scatterplot s. Streudiagramm, 105 Sch¨ arfe, 266 Sch¨ atzer, 233 Sch¨ atzfunktion, 233, 237 Sch¨ atzwert, 233, 237 Scheinkorrelation, 113 Schnittereignis, 155 schwach korreliert, 112 Schwaches Gesetz großer Zahlen, 224 Siebformel, 176 σ-Additivit¨ at, 166 σ-Algebra, 166 Signifikanzniveau, 267 Skala, 5 Skalenmaß, 212 Spannweite, 34 Spearman-Rangkorrelationskoeffizient s. Rangkorrelationskoeffizient, 114 Stabdiagramm s. Diagramm, 20 Standardisierung, 40, 212 Standardnormalverteilung, 171, 200, 227 stark korreliert, 112 Starkes Gesetz großer Zahlen, 226 Statistik, 233 statistische Einheit, 2 statistische Kenngr¨ oße, 23 Steiner-Regel, 36 stetig, 11 Stetigkeit von P, 174
323
Stichprobe, 3, 233 unabh¨ angige, 261 verbundene, 260, 300 Stichprobenergebnis, 233 Stichprobenmittel, 236 Stichprobenraum, 233 Stichprobenumfang, 16, 233 Stichprobenvariablen, 233 Stichprobenvarianz, 236 Stichprobenverfahren, 158 Stochastische Unabh¨ angigkeit von Zufallsvariablen, 188 stochastische Unabh¨ angigkeit, 180 gemeinsame, 181 paarweise, 181 Streudiagramm, 105, 133 Streuungsmaß, 33 Streuungszerlegung lineare Regression, 130 Studentisieren, 269 at, 172 Sub-σ-Additivit¨ Subadditivit¨ at, 172 Subtraktivit¨ at, 172 Summen unabh¨ angiger Zufallsvariablen, 189 symmetrisch, 51 t-Test, 277 Teilereignis, 155 Teilgesamtheit, 4 Test, 263 Binomial-, 288, 290, 291, 294 F-, 283 Gauß-, 271 Homogenit¨ ats-, 283 Mann-Whitney, 297 t-, 277 U-, 297 Unabh¨ angigkeits-, 282, 299 Varianz-, 279 Versuchsplanung, 276 Vorzeichen-, 294 Wilcoxon-, 296 Testfunktion, 263 Teststatistik, 233 Tr¨ ager, 157, 171 Transformation Lage-/Skalen-, 171 Transformationsformel, 203, 204
324
Sachverzeichnis
Transformationssatz, 205 Trendbereinigung, 150 Trendsch¨ atzung, 142 U-Test, 297 Umbasierung, 73 Umsatzindex, 89 Unabh¨ angigkeitshypothese, 298 Unabh¨ angigkeitstest, 282, 299 Ungleichung Jensen, 215 Markov, 216 Tschebyscheff, 216 unimodal, 50 unkorreliert, 111, 213 unverzerrt, 238 Urliste, 5 Urnenmodell, 158, 177 Varianz, 211 bedingte, 222 Varianztest, 279 Variationskoeffizient, 39, 70 verbundene R¨ ange, 24 Vereinigungsereignis, 155 verh¨ altnisskaliert, 9 Verh¨ altniszahl, 65 Verkettung von Indexzahlen, 73 Verlaufskurve, 22, 138 Verlustfunktion, 309 quadratische, 309 Verschiebungssatz, 212 Versuchsplanung, 257, 276 Verteilung F-, 171 χ2 -, 170 t-, 171, 195 Beta-, 170 Binomial-, 165 diskrete Gleich-, 164 Einpunkt-, 164 Exponential-, 168, 169 zweiparametrige, 172 Gamma-, 169 geometrische, 165 hypergeometrische, 164, 244 inverse Gamma-, 312 konjugierte, 312 Laplace-, 213
Normal-, 171 bivariate, 200 multivariate, 200 Pareto-, 170 Poisson-, 165 Polynomial-, 165 Potenz-, 170 Rechteck-, 168 stetige Gleich-, 168 Student-, 269 Weibull-, 169 Verteilungsannahme, 233 nichtparametrische, 234 parametrische, 234 Verteilungsfunktion, 167, 192, 243 bedingte, 221 empirische, 243 multivariate, 196 Verteilungsmodell, 233 Vertrauenswahrscheinlichkeit, 250 Verursachungszahl, 69 Verzerrung, 240 Vorzeichentest, 294 Wachstumsfaktor, 75 Wachstumsrate, 77 Wahrscheinlichkeit, 155 bedingte, 176 wahrscheinlichkeitserzeugende Funktion, 217 Wahrscheinlichkeitsmaß, 166 diskretes, 155 Wahrscheinlichkeitsraum, 166 diskreter, 156 Wahrscheinlichkeitstafel, 198 Wahrscheinlichkeitsverteilung, 166 bedingte, 221 diskrete, 155 stetige, 168 Zufallsvariable, 187 Warenkorb, 78 Wertebereich, 4 Wertindex, 89 Wilcoxon-Test, 296 W¨ urfelwurf, 154, 177 Z¨ ahldichte, 155 bedingte, 221 Zeitreihe, 71, 75, 137
Sachverzeichnis glatte Komponente, 138 irregul¨ are Komponente, 138 saisonbereinigte, 150 Saisonkomponente, 138 trendbereinigte, 150 Zeitreihenanalyse, 137 linearer Trend, 141 Zeitreihenzerlegung, 138 additive, 139 Zeitumkehrbarkeit, 74
Zentraler Grenzwertsatz, 224, 227 Zentrierung, 40 Zerlegung, 43 Zufallsexperiment, 153 Zufallsvariable, 186 Zufallsvektor, 186, 216 zusammengesetzte Indexzahl s. Indexzahl, 78 Zusammenhangsmaß, 92 Zweistichprobenmodelle, 260
325