Reiner Hellbrück Angewandte Statistik mit R
Reiner Hellbrück
Angewandte Statistik mit R Eine Einführung für Ökonomen...
104 downloads
1803 Views
2MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Reiner Hellbrück Angewandte Statistik mit R
Reiner Hellbrück
Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
Prof. Dr. Reiner Hellbrück lehrt Volkswirtschaftspolitik und Betriebsstatistik an der FH Würzburg-Schweinfurt.
1. Auflage 2009 Alle Rechte vorbehalten © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009 Lektorat: Jutta Hauser-Fahr | Walburga Himmel Gabler ist Teil der Fachverlagsgruppe Springer Science+Business Media. www.gabler.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Umschlaggestaltung: KünkelLopka Medienentwicklung, Heidelberg Druck und buchbinderische Verarbeitung: Krips b.v., Meppel Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier Printed in the Netherlands ISBN 978-3-8349-1857-4
Vorwort Dieses Buch entstand im Zuge der Neustrukturierung meiner Statistikveranstaltungen an der FH Würzburg-Schweinfurt. Die fortschreitende Digitalisierung macht auch vor der Statistik nicht halt und so entstand der Wunsch, die Veranstaltungen neu auszurichten. Wie an Fachhochschulen üblich, liegt der Schwerpunkt auf der Anwendung. Aus diesem Grund sind im allgemeinen nach einer kurzen Darstellung des nötigen Hintergrundwissens Beispiele angefügt. Hierbei kommt die Statistiksoftware zum Einsatz. wird sehr selektiv eingesetzt, allen Anwendungen ist zuvor ein Grundlagenkapitel vorgeschaltet, in dem Maßzahlen, Teststatistiken, Hypothesen und dergleichen vorgestellt werden. Leser, die einen schnellen Überblick über die Software wünschen, seien auf den Anhang C verwiesen, wo die wichtigsten Befehle dargestellt werden. Um Mißverständnissen vorzubeugen, sei ausdrücklich darauf hingewiesen, daß es sich hier um keine Einführung in das Programmpaket handelt: Methoden und Anwendung, gestützt mit Software, stehen gleichberechtigt nebeneinander. Das Erlernen der Software ergibt sich als nützlicher Nebeneffekt. Die anfänglichen Rechnungen erfolgten mit Version R-2.5, dann mit neueren. Die Software ist auf vielen verschiedenen Betriebssystemen lauffähig. Im vorliegenden Fall wurde Windows XP und Suse-Linux genutzt. Bei Linux wurden teilweise Rechnungen mit Hilfe einer Shell, (auch Konsole oder Befehlsfenster genannt) größtenteils aber mit Emacs-ess durchgeführt. Emacs ist ein TextEditor, der üblicherweise mit jeder Linux-Distribution ausgeliefert wird. Das Kürzel ’ess’ steht für ’emacs speaks statistics’ und will heißen, daß das Zusatzwerkzeug ’Emacs-ess’ als Benutzeroberfläche (als ’frontend’) für Statistiksoftware eingesetzt werden kann. Hierüber ist es möglich, mit einer einheitlichen Benutzeroberfläche verschiedene Statistikprogramme, darunter auch ’SPSS’ und ’Stada’, anzusprechen. Eigene Versuche in dieser Richtung wurden von dem Autor bislang nicht unternommen. Der Einstieg ist sehr einfach gehalten, um dem Studenten während der ersten Wochen genügend Zeit zu lassen, die neue Software auf seinem eigenen Rechner zu installieren und kennenzulernen. Erfahrungsgemäß stellen sich bereits bei dem Einlesen der Daten die ersten Probleme ein. Dies rührt aus der Verwendung unterschiedlicher Parameter, die zur Trennung von Zeichen bei Textdateien verwendet werden. Desweiteren gibt es üblicherweise Probleme durch die Verwendung unterschiedlicher Betriebssysteme. ist primär für Linuxsyste-
vi
VORWORT
me geschrieben. Hier gelten jedoch etwas andere Konventionen bei der Angabe von Pfaden: statt des ’\’, wie in Windowssystemen üblich, wird das Zeichen ’/’ verwendet. Werden die Befehle nicht direkt in dem Befehlsfenster von geschrieben, sondern in einem Textverarbeitungsprogramm, so kann es nach Kopieren der Befehle in das Befehlsfenster leicht zu Fehlermeldungen kommen. Ursache ist dann häufig die automatische Ersetzung der Anführungszeichen in typographische Anführungszeichen innerhalb des Textverarbeitungsprogramms. Deshalb wird empfohlen, zum Schreiben oder Bearbeiten von Befehlen eine Software zu verwenden, die solche automatischen Ersetzungen nicht vornimmt, oder daß solche Funktionen ausgeschaltet werden. Der deskriptiven Statistik ist vergleichsweise wenig Raum gewidmet, der Schwerpunkt liegt auf der schließenden Statistik und multivariaten Verfahren, bei denen seitens Ökonomen (speziell meiner Kolleginnen und Kollegen) Nachfrage besteht. Der Text kann, je nach Belieben, unterschiedlich verwendet werden. Einerseits besteht die Möglichkeit, die Theorie weitestgehend in den Hintergrund zu drängen, um sich ausschließlich auf die Anwendung zu konzentrieren: die Kapitel 6 und 7 zur Wahrscheinlichkeitstheorie können dann übersprungen werden. Dies bietet sich an, wenn eine Veranstaltung zur Wahrscheinlichkeitstheorie vorgeschaltet ist. Andererseits ist es möglich, Inhalte anwendungsnah zu präsentieren, und bei Bedarf nötiges Wissen in Wahrscheinlichkeitstheorie einzuflechten. Dann bietet es sich an, die Kapitel in der angegebenen Folge zu besprechen. Da die Kapitel 10 und 11, ohne statistische Tests auskommen, können sie auch zur Veranschaulichung multivariater Verfahren vorgezogen werden. Bei einigen Lehrbüchern hat sich zwischenzeitlich die Unart eingeschlichen, während des laufenden Textes nicht zu zitieren. Es scheint, als habe ein sehr bekanntes Lehrbuch der Mikroökonomie, diese Entwicklung eingeleitet. Dem Autor des Lehrbuches verbrannte das Manuskript mitsamt der Zitate. Aus den verbliebenen Resten wurde es fast gänzlich ohne Zitate fertiggestellt. Hierdurch wird dem Studenten der Eindruck vermittelt, als brauche man nicht zu zitieren. Diesem Zeitgeist wird hier nicht gefolgt. Es wird angegeben, woher der Autor seine Weisheiten hat. Dank schulde ich vielen, insbesondere meinem akademischen Lehrer Prof. Dr. Volker Steinmetz, der es außerordentlich gut verstand, theoretische Statistik und Ökonometrie zu vermitteln. Herr Prof. Dr. Rudolf Richter bot bereits in den 80-er Jahren PC-gestützte ökonometrische Auswertungen an, damals ein Novum. Beide Ansätze werden hier miteinander verknüpft. Danken möchte ich an dieser Stelle auch meinem wissenschaftlichen Mitarbeiter Manuel Hertel, für die gute Zusammenarbeit und die Entlastung durch seine Übungsstunden, die er mit großer Umsicht anbietet. Schließlich möchte ich bei meinen Söhnen, David und Simon um Nachsicht bitten, für die Zeit, die ich in meinem Arbeitszimmer den PC blockiert habe. Meine Frau genoß die Zeit, während ich ’aufgeräumt’ war, ebenso wie ich. Würzburg, im Juni 2009: Reiner Hellbrück
Inhaltsverzeichnis Vorwort
v
Abbildungsverzeichnis
xv
Tabellenverzeichnis
xvii
1 Einleitung 1.1 Gegenstand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Datenerhebung - ganz praktisch 2.1 Einleitung . . . . . . . . . . . . . . . 2.2 Erhebungsplan . . . . . . . . . . . . 2.2.1 Grundlagen . . . . . . . . . . 2.2.2 Beispiel . . . . . . . . . . . . 2.3 Software . . . . . . . . . . . . . . . . 2.3.1 Moodle und LimeSurvey . . . 2.3.2 Statistikpaket R . . . . . . . 2.4 Ziehen einer Stichprobe . . . . . . . 2.4.1 Grundlagen . . . . . . . . . . 2.4.2 Beispiel . . . . . . . . . . . . 2.5 Rohdaten auslesen . . . . . . . . . . 2.5.1 Grundlagen . . . . . . . . . . 2.5.2 Beispiel . . . . . . . . . . . . 2.6 Daten in Statistikprogramm einlesen 2.6.1 Grundlagen . . . . . . . . . . 2.6.2 Beispiel . . . . . . . . . . . . 2.7 Plausibilitätsprüfung . . . . . . . . . 2.7.1 Grundlagen . . . . . . . . . . 2.7.2 Beispiel 1 . . . . . . . . . . . 2.7.3 Einfache Datensätze . . . . . 2.7.4 Beispiel 2 . . . . . . . . . . . 2.7.5 Komplexe Datensätze . . . . 2.7.6 Beispiel 3 . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
1 1 4 7 7 7 7 8 10 10 11 12 12 13 13 13 14 15 15 15 17 17 18 19 20 21 23
INHALTSVERZEICHNIS
viii
2.8 Abschließende Bemerkungen . . . . . . . . . . . . . . . . . . . . . 2.9 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24 25 27
3 Datenaufbereitung 3.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Graphische Methoden . . . . . . . . . . . . . . . . . . . . . 3.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Absolute Häufigkeitsverteilung . . . . . . . . . . . . . . . . 3.3.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Beispiel 1 . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 Beispiel 2 . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Relative Häufigkeitsverteilung . . . . . . . . . . . . . . . . . 3.4.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Beispiel 1 . . . . . . . . . . . . . . . . . . . . . . . . 3.4.3 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . 3.4.4 Beispiel 2 . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Verteilungsfunktion und Quantile . . . . . . . . . . . . . . . 3.5.1 Verteilungsfunktion . . . . . . . . . . . . . . . . . . 3.5.2 Quantile . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.3 Verteilungsfunktion und Quantile . . . . . . . . . . . 3.6 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.1 Absolute Häufigkeit . . . . . . . . . . . . . . . . . . 3.6.2 Durchschnittliche Häufigkeitsdichte . . . . . . . . . . 3.7 Kontingenztabelle . . . . . . . . . . . . . . . . . . . . . . . . 3.7.1 Gemeinsame Verteilung . . . . . . . . . . . . . . . . 3.7.2 Randverteilungen . . . . . . . . . . . . . . . . . . . . 3.7.3 Bedingte Verteilung und statistische Unabhängigkeit 3.8 Lorenz-Kurve . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . 3.8.2 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . 3.8.3 Gini-Koeffizienten . . . . . . . . . . . . . . . . . . . 3.9 Abschließende Bemerkungen . . . . . . . . . . . . . . . . . . 3.10 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . 3.11 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.A Nützliches zu Maßzahlen* . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29 29 30 30 32 36 36 36 37 38 40 40 41 42 43 43 43 45 48 50 50 51 53 53 55 56 57 57 58 60 63 63 64 67
4 Statistisches Testen 4.1 Einleitung . . . . . . . . . . . . . 4.2 Binomialverteilung . . . . . . . . 4.2.1 Grundlagen . . . . . . . . 4.2.2 Beispiel . . . . . . . . . . 4.3 Test . . . . . . . . . . . . . . . . 4.3.1 Zweiseitige Fragestellung
. . . . . .
. . . . . .
. . . . . .
69 69 70 70 72 73 73
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
INHALTSVERZEICHNIS
ix
4.3.2 Einseitige Fragestellung - Version 4.3.3 Einseitige Fragestellung - Version 4.3.4 Fehler 1. Art . . . . . . . . . . . 4.3.5 Beispiel . . . . . . . . . . . . . . 4.4 Abschließende Bemerkungen . . . . . . . 4.5 Kontrollfragen . . . . . . . . . . . . . . 4.6 Aufgaben . . . . . . . . . . . . . . . . . 4.A Wirkungsanalyse* . . . . . . . . . . . . 4.A.1 Grundlagen . . . . . . . . . . . . 4.A.2 Test . . . . . . . . . . . . . . . . 4.A.3 Beispiel . . . . . . . . . . . . . . 4.A.4 Abschließende Bemerkungen . .
1 2 . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
76 78 79 79 82 83 84 87 87 88 89 90
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
91 91 92 92 94 97 97 98 99 99 101 102 103 104
6 Wahrscheinlichkeitsräume 6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . 6.2 Definitionsmenge . . . . . . . . . . . . . . . . . 6.3 Wahrscheinlichkeitsraum der Grundgesamtheit 6.4 Wahrscheinlichkeitsraum der Stichprobe . . . . 6.5 Wichtige Zusammenhänge und Begriffe . . . . . 6.5.1 Rechenregeln . . . . . . . . . . . . . . . 6.5.2 Bedingte Wahrscheinlichkeit . . . . . . . 6.5.3 Stochastische Unabhängigkeit . . . . . . 6.5.4 Multiplikationssatz . . . . . . . . . . . . 6.5.5 Satz von der totalen Wahrscheinlichkeit 6.5.6 Satz von Bayes . . . . . . . . . . . . . . 6.5.7 Diskreter Wahrscheinlichkeitsraum . . . 6.6 Abschließende Bemerkungen . . . . . . . . . . . 6.7 Kontrollfragen . . . . . . . . . . . . . . . . . . 6.8 Aufgaben . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
107 107 108 110 113 115 115 116 116 117 117 118 120 120 121 122
5 Chi-Quadrat Tests 5.1 Einleitung . . . . . . . . . . . 5.2 Unabhängigkeitstest . . . . . 5.2.1 Grundlagen . . . . . . 5.2.2 Beispiel . . . . . . . . 5.3 Anpassungstest . . . . . . . . 5.3.1 Grundlagen . . . . . . 5.3.2 Beispiel . . . . . . . . 5.4 Homogenitätstest . . . . . . . 5.4.1 Grundlagen . . . . . . 5.4.2 Beispiel . . . . . . . . 5.5 Abschließende Bemerkungen . 5.6 Kontrollfragen . . . . . . . . 5.7 Aufgaben . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
x
INHALTSVERZEICHNIS
7 Abbildungen von Ergebnisräumen 7.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Meßbarkeit und Zufallsvariable . . . . . . . . . . . . 7.2.1 Meßbarkeit . . . . . . . . . . . . . . . . . . . 7.2.2 Zufallsvariablen . . . . . . . . . . . . . . . . . 7.3 Verteilungsfunktion und Dichte . . . . . . . . . . . . 7.3.1 Verteilungsfunktion . . . . . . . . . . . . . . 7.3.2 Dichte . . . . . . . . . . . . . . . . . . . . . . 7.4 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . 7.4.1 Erwartungswert . . . . . . . . . . . . . . . . . 7.4.2 Kovarianz, Varianz und Standardabweichung 7.4.3 Standardisierung . . . . . . . . . . . . . . . . 7.5 Abschließende Bemerkungen . . . . . . . . . . . . . . 7.6 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . 7.7 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
125 125 126 126 127 128 128 130 131 131 132 133 133 134 135
8 Einfache Korrelationsanalyse 8.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . 8.2 Korrelation . . . . . . . . . . . . . . . . . . . . . . . 8.2.1 Wahrscheinlichkeitstheorie . . . . . . . . . . . 8.2.2 Empirische Korrelation . . . . . . . . . . . . 8.2.3 Berechnung bei Wertepaaren . . . . . . . . . 8.2.4 Beispiele . . . . . . . . . . . . . . . . . . . . . 8.3 Tests bei kardinalen Merkmalen . . . . . . . . . . . . 8.3.1 Stetige normalverteilte Zufallsvariablen . . . 8.3.2 Stetige nicht-normalverteilte Zufallsvariablen 8.4 Test bei ordinalen Merkmalen: Bell-Doksum Test . . 8.4.1 Test . . . . . . . . . . . . . . . . . . . . . . . 8.4.2 Beispiel . . . . . . . . . . . . . . . . . . . . . 8.5 Abschließende Bemerkungen . . . . . . . . . . . . . . 8.6 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . 8.7 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . 8.A Weitere Tests* . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
137 137 138 138 139 140 140 143 143 147 154 154 155 158 159 160 161
9 Multivariate Korrelationsanalyse* 9.1 Einleitung . . . . . . . . . . . . . . 9.2 Vergleich zweier Korrelationen . . 9.2.1 Grundlagen . . . . . . . . . 9.2.2 Beispiel . . . . . . . . . . . 9.3 Partielle Korrelation . . . . . . . . 9.3.1 Grundlagen . . . . . . . . . 9.3.2 Beispiel 1 . . . . . . . . . . 9.3.3 Test . . . . . . . . . . . . . 9.3.4 Beispiel 2 . . . . . . . . . . 9.4 Zusammenhang zwischen mehreren 9.4.1 Grundlagen . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
165 165 166 166 167 168 168 169 169 170 170 170
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Merkmalen . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
INHALTSVERZEICHNIS 9.4.2 Beispiel . . . . . . . Globaltest . . . . . . . . . . 9.5.1 Test . . . . . . . . . 9.5.2 Beispiel . . . . . . . 9.6 Multiple Vergleiche . . . . . 9.6.1 Test . . . . . . . . . 9.6.2 Beispiel . . . . . . . 9.7 Multiple Korrelation . . . . 9.7.1 Grundlagen . . . . . 9.7.2 Beispiel 1 . . . . . . 9.7.3 Test . . . . . . . . . 9.7.4 Beispiel 2 . . . . . . 9.8 Kanonische Korrelation . . 9.8.1 Grundlagen . . . . . 9.8.2 Beispiel 1 . . . . . . 9.8.3 Test . . . . . . . . . 9.8.4 Beispiel 2 . . . . . . 9.9 Abschließende Bemerkungen 9.10 Kontrollfragen . . . . . . . 9.11 Aufgaben . . . . . . . . . .
xi . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
172 173 173 173 174 174 176 179 179 179 180 181 182 182 183 184 185 186 187 188
10 Daten- und Distanzmatrix 10.1 Einleitung . . . . . . . . . . . . . . . 10.2 Distanzmatrizen . . . . . . . . . . . 10.2.1 Definition und Eigenschaften 10.2.2 Skalierung . . . . . . . . . . . 10.3 Kardinale Merkmale . . . . . . . . . 10.3.1 Intervall- und Verhältnisskala 10.3.2 Manhattan-Distanz . . . . . . 10.4 Ordinale Merkmale . . . . . . . . . . 10.4.1 Grundlagen . . . . . . . . . . 10.4.2 Beispiel . . . . . . . . . . . . 10.5 Nominale Merkmale . . . . . . . . . 10.5.1 Grundlagen . . . . . . . . . . 10.5.2 Beispiel . . . . . . . . . . . . 10.6 Binäre Merkmale . . . . . . . . . . . 10.6.1 Grundlagen . . . . . . . . . . 10.6.2 Beispiel . . . . . . . . . . . . 10.7 Abschließende Bemerkungen . . . . . 10.8 Kontrollfragen . . . . . . . . . . . . 10.9 Aufgaben . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
189 189 191 191 192 192 192 194 198 198 199 202 202 202 203 203 205 206 207 207
9.5
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . .
INHALTSVERZEICHNIS
xii
11 Clusteranalyse 11.1 Einleitung . . . . . . . . . . . . . . . . . . . 11.2 Klassifikation . . . . . . . . . . . . . . . . . 11.2.1 Klassifikationstypen . . . . . . . . . 11.2.2 Konstruktionsverfahren . . . . . . . 11.3 PAM . . . . . . . . . . . . . . . . . . . . . . 11.3.1 Grundlagen . . . . . . . . . . . . . . 11.3.2 Beispiel 1 . . . . . . . . . . . . . . . 11.3.3 Bestimmung der Medoiden* . . . . . 11.3.4 Beispiel 2 . . . . . . . . . . . . . . . 11.3.5 Isolierte Cluster . . . . . . . . . . . . 11.3.6 Beispiel 3 . . . . . . . . . . . . . . . 11.3.7 Überprüfung der Klassenbildung . . 11.3.8 Beispiel 4 . . . . . . . . . . . . . . . 11.3.9 Bestimmung der Klassenzahl . . . . 11.3.10 Beispiel 5 . . . . . . . . . . . . . . . 11.4 FANNY . . . . . . . . . . . . . . . . . . . . 11.4.1 Grundlagen . . . . . . . . . . . . . . 11.4.2 Beispiel 1 . . . . . . . . . . . . . . . 11.4.3 Partition und Überdeckung . . . . . 11.4.4 Beispiel 2 . . . . . . . . . . . . . . . 11.4.5 Überprüfung der Klassenbildung und 11.4.6 Beispiel 3 . . . . . . . . . . . . . . . 11.5 MONA . . . . . . . . . . . . . . . . . . . . . 11.5.1 Grundlagen . . . . . . . . . . . . . . 11.5.2 Beispiel 1 . . . . . . . . . . . . . . . 11.5.3 Assoziationsmaß . . . . . . . . . . . 11.5.4 Beispiel 2 . . . . . . . . . . . . . . . 11.5.5 Missings . . . . . . . . . . . . . . . . 11.5.6 Beispiel 3 . . . . . . . . . . . . . . . 11.6 Abschließende Bemerkungen . . . . . . . . . 11.7 Kontrollfragen . . . . . . . . . . . . . . . . 11.8 Aufgaben . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klassenanzahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
211 211 214 214 215 216 216 216 220 223 224 225 226 228 229 229 229 229 231 232 233 236 237 237 237 238 240 241 244 244 245 246 247
12 Einfache Regression 12.1 Einleitung . . . . . . . . . . . . . . . . . 12.2 Einfaches klassisches Regressionsmodell 12.2.1 Grundlagen . . . . . . . . . . . . 12.2.2 Beispiel . . . . . . . . . . . . . . 12.3 Regressionsfunktion . . . . . . . . . . . 12.3.1 Grundlagen . . . . . . . . . . . . 12.3.2 Beispiel . . . . . . . . . . . . . . 12.4 Prognose . . . . . . . . . . . . . . . . . . 12.4.1 Grundlagen . . . . . . . . . . . . 12.4.2 Beispiel . . . . . . . . . . . . . . 12.5 Bestimmtheitsmaß . . . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
249 249 250 250 253 255 255 256 258 258 258 259
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
INHALTSVERZEICHNIS 12.5.1 Grundlagen . . . . . . . . . . . . 12.5.2 Beispiel . . . . . . . . . . . . . . 12.6 Vollständiges Modell . . . . . . . . . . . 12.7 Tests . . . . . . . . . . . . . . . . . . . . 12.7.1 Grundlagen . . . . . . . . . . . . 12.7.2 Beispiel . . . . . . . . . . . . . . 12.8 Abschließende Bemerkungen . . . . . . . 12.9 Kontrollfragen . . . . . . . . . . . . . . 12.10Aufgaben . . . . . . . . . . . . . . . . . 12.A Beweis der Streuungszerlegungsformel* . 12.B Erwartungswerte der KQ-Koeffizienten* 12.C Standardisierung* . . . . . . . . . . . . 12.C.1 Erwartungswert . . . . . . . . . . 12.C.2 Varianz . . . . . . . . . . . . . . 12.D Partielle Korrelation* . . . . . . . . . .
xiii . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
259 262 263 264 264 266 269 269 271 272 274 274 274 275 277
A Theoretische Verteilungen A.1 Einleitung . . . . . . . . . . . . . . . . . . A.2 Diskrete Verteilungen . . . . . . . . . . . A.2.1 Gleichverteilung* . . . . . . . . . . A.2.2 Bernoulli- und Binomialverteilung A.2.3 Hypergeometrische Verteilung* . . A.2.4 Poisson-Verteilung* . . . . . . . . A.2.5 Geometrische Verteilung* . . . . . A.3 Stetige Verteilungen . . . . . . . . . . . . A.3.1 Rechteckverteilung . . . . . . . . . A.3.2 Exponentialverteilung* . . . . . . . A.3.3 Normalverteilung . . . . . . . . . . A.3.4 Chi-Quadrat-Verteilung . . . . . . A.3.5 t-Verteilung . . . . . . . . . . . . . A.3.6 F-Verteilung . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
279 279 280 280 281 282 283 285 287 287 289 290 295 296 299
B Matrizenrechnung B.1 Einleitung . . . . . . . . . . . . . . . . . . . . B.2 Matrizen . . . . . . . . . . . . . . . . . . . . . B.2.1 Definition . . . . . . . . . . . . . . . . B.2.2 Vektoren . . . . . . . . . . . . . . . . B.2.3 Typen . . . . . . . . . . . . . . . . . . B.3 Verknüpfungen . . . . . . . . . . . . . . . . . B.3.1 Gleichheitsrelation . . . . . . . . . . . B.3.2 Addition . . . . . . . . . . . . . . . . . B.3.3 Skalare Multiplikation . . . . . . . . . B.3.4 Produkt zweier Matrizen . . . . . . . B.3.5 Multiplikation von Vektoren . . . . . . B.4 Unabhängigkeit, Rang, Determinante, Inverse B.4.1 Lineare Unabhängigkeit . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
303 303 304 304 304 305 306 306 307 308 310 312 313 313
INHALTSVERZEICHNIS
xiv B.4.2 Rang . . . . . . . . B.4.3 Determinante . . . B.4.4 Inverse . . . . . . . B.5 Eigenwerte, Eigenvektoren B.5.1 Definitionen . . . . B.5.2 Rechenregel . . . . B.5.3 Beispiele . . . . . .
. . . . . . . . . . . . . . . . . . und Spur . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
313 314 316 319 319 319 319
C Befehle in R C.1 Einleitung . . . . . . . . . . . . . . . . . . . . C.2 Grundlagen . . . . . . . . . . . . . . . . . . . C.3 Daten einlesen, Objekte speichern und laden . C.4 Dateneigenschaften . . . . . . . . . . . . . . . C.5 Manipulation eingelesener Datensätze . . . . C.6 Graphik . . . . . . . . . . . . . . . . . . . . . C.7 Suchen und Finden . . . . . . . . . . . . . . . C.8 Besonderheiten in Windows . . . . . . . . . . C.9 Fehlermeldungen . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
321 321 322 323 325 327 328 329 331 332
Lösungen
334
Glossar
347
Literaturverzeichnis
351
Stichwortverzeichnis
353
Abbildungsverzeichnis 2.1 2.2
Rohdaten in Tabellenkalkulationsprogramm einlesen . . . . . . . Anwendung empirische versus korrigierte Varianz . . . . . . . . .
14 20
3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.13
Einfaches Liniendiagramm . . . . . . . . . . . . . . . . . Liniendiagramm bei komplexen Datensätzen . . . . . . . Kreisdiagramm . . . . . . . . . . . . . . . . . . . . . . . Absolute Häufigkeitsverteilung . . . . . . . . . . . . . . Balkendiagramm . . . . . . . . . . . . . . . . . . . . . . Relative Häufigkeitsverteilung . . . . . . . . . . . . . . . Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . Berechnung der Quantile mit Option Typ 7 . . . . . . . Korrekte graphische Darstellung der Verteilungsfunktion Histogramm mit absoluten Häufigkeiten . . . . . . . . . Histogramm mit durchschnittlicher Häufigkeitsdichte . . Lorenzkurve . . . . . . . . . . . . . . . . . . . . . . . . . Lorenzkurve: Konzentration auf ein Merkmal . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
33 35 37 39 40 42 46 48 49 51 53 60 62
4.1 4.2 4.3 4.4
Binomialverteilung . . . . . . . . . . . . . . . . . Hypothesentest: zweiseitige Fragestellung . . . . Hypothesentest: einseitige Fragestellung - Version Hypothesentest: einseitige Fragestellung - Version
. . . .
. . . .
. . . .
. . . .
. . . .
74 76 77 78
5.1
Annahme und Verwerfungsbereich . . . . . . . . . . . . . . . . .
94
6.1 6.2
Veranschaulichung des Satzes von der totalen Wahrscheinlichkeit 118 Baumdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
8.1 8.2 8.3
Streudiagramme (= Scatterplots) . . . . . . . . . . . . . . . . . . 142 Veranschaulichung des Tests auf insignifikante Korrelation . . . . 146 Fishers z-Transformation . . . . . . . . . . . . . . . . . . . . . . . 162
. . 1 2
. . . .
. . . .
. . . .
10.1 Illustration der Manhattan-Distanz . . . . . . . . . . . . . . . . . 195 11.1 Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 11.2 Silhouette des ’output3’ . . . . . . . . . . . . . . . . . . . . . . . 226
xvi
ABBILDUNGSVERZEICHNIS 11.3 Silhouette des ’output8’ . . . . . . . . . . . . . . . . . . . . . . . 228 11.4 Clusterbildung mit MONA . . . . . . . . . . . . . . . . . . . . . 240 12.1 Einkommen in Abhängigkeit des Alters . . . . . . . . . . . . . . . 254 12.2 KQ-Schätzung einer Cobb-Douglas Produktionsfunktion . . . . . 257 12.3 Translationsinvarianz des Bestimmtheitsmaßes . . . . . . . . . . 262 A.1 Hypergeometrische Verteilung . . . . . . . . . . . . A.2 Poisson-Verteilung . . . . . . . . . . . . . . . . . . A.3 Verteilungsfunktion der Poisson-Verteilung . . . . . A.4 Geometrische Verteilung . . . . . . . . . . . . . . . A.5 Verteilungsfunktion der Geometrischen-Verteilung A.6 Rechteckverteilung . . . . . . . . . . . . . . . . . . A.7 Verteilungsfunktion der Rechteckverteilung . . . . A.8 Exponentialverteilung . . . . . . . . . . . . . . . . A.9 Verteilungsfunktion der Exponentialverteilung . . . A.10 Standardnormalverteilung . . . . . . . . . . . . . . A.11 Verteilungsfunktion der Standardnormalverteilung A.12 Dichtefunktion der Chi-Quadrat-Verteilung . . . . A.13 Verteilungsfunktion der Chi-Quadrat-Verteilung . . A.14 Dichtefunktion der t-Verteilung . . . . . . . . . . . A.15 Verteilungsfunktion der t-Verteilung . . . . . . . . A.16 Dichtefunktion der F-Verteilung . . . . . . . . . . . A.17 Verteilungsfunktion der F-Verteilung . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . .
284 286 287 288 289 290 291 292 293 294 295 296 297 298 299 300 301
Tabellenverzeichnis 2.1 2.2 2.3
Daten YX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Daten Einkommen Alter Ausbildungsjahre . . . . . . . . . . . . . Daten2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16 18 22
3.1 3.2 3.3 3.4 3.5
Arbeitslose in Deutschland . . . . . . . . . Vier mal drei Kontingenztabelle . . . . . . . Randverteilung . . . . . . . . . . . . . . . . 1. Schritt zur Erstellung einer Lorenz-Kurve 2. Schritt zur Erstellung einer Lorenz-Kurve
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
31 54 55 57 58
5.1 5.2 5.3 5.4 5.5
Rohdaten . . . . . . . . . . . . . . . . . . . . Kontingenztabelle mit absoluten Häufigkeiten Eingabe x . . . . . . . . . . . . . . . . . . . . Eingabe y . . . . . . . . . . . . . . . . . . . . Kontingenztabelle mit bedingter Verteilung .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
95 95 96 96 99
8.1 8.2
Beispiel: Umsatz - Bruttowertschöpfung . . . . . . . . . . . . . . 144 Ränge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
9.1
Umsatz und Entfernung . . . . . . . . . . . . . . . . . . . . . . . 167
10.1 Kontingenztabelle bei binären Merkmalen . . . . . . . . . . . . . 204 11.1 Datenmatrix zur Bildung von zwei Partitionen . . . . . . . . . . 216 11.2 Binäre Datenmatrix . . . . . . . . . . . . . . . . . . . . . . . . . 238
Kapitel 1
Einleitung 1.1
Gegenstand
Ziel dieses Lehrbuches ist es, den Leser so schnell wie möglich in die Lage zu versetzen, Daten sinnvoll auszuwerten. Es wird gezeigt, wie Daten online erhoben werden können, wie die so gewonnenen Rohdaten mit einem Tabellenkalkulationsprogramm nachbearbeitet und dann durch den Einsatz des Statistikprogramms ausgewertet werden. Die so gewonnenen Ergebnisse werden entweder mit oder einem Tabellenkalkulationsprogramm graphisch aufbereitet. Eine große Zahl an Statistiklehrbüchern gibt es und so stellt sich die Frage: warum braucht die Welt ein weiteres? Die Inhalte dieses Lehrbuches beruhen auf einer Befragung meiner betriebswirtschaftlichen Kollegen. Da die Inhalte existierender Lehrbücher deren Nachfrage in unbefriedigender Weise abdecken, lag es nahe, ein am Bedarf orientiertes Lehrbuch zu verfassen. Anders als Volkswirte, erstellen Betriebswirte in Marketing und Personalwirtschaft häufig selbst Fragebögen. Hieraus ergibt sich die Notwendigkeit des Ziehens von Stichproben sowie der Überprüfung der Daten auf Plausibilität. In der betrieblichen Praxis, beispielsweise dem Controlling, genügt es häufig, die Daten zur Entscheidungsvorbereitung graphisch oder mit Hilfe von Kennzahlen aufzubereiten. Deshalb sollten auch Verfahren zur Präsentation von Auswertungen dargestellt werden. Bei der Auswertung von Fragebögen werden in der Personalwirtschaft Korrelationsanalysen durchgeführt. In Einführungslehrbüchern der Statistik werden diese Methoden üblicherweise nicht dargestellt. Die Clusteranalyse wird an der FH Würzburg-Schweinfurt in der Marktforschung als Instrument erwähnt und kurz besprochen, woraus sich eine abgeleitete Nachfrage in der Statistik herleitet. In der Logistik und dem Controlling werden zu Planungszwecken Prognosen erstellt. Die Grundlagen hierfür sollten in der Statistikveranstaltung gelegt werden. Die Gliederung aller dem Autor bekannter Standardlehrbücher ist dreigeteilt: deskriptive Statistik, Wahrscheinlichkeitstheorie und schließende Statistik. Ist der Student bei der schließenden Statistik angelangt, so ist er häufig nicht R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
2
KAPITEL 1. EINLEITUNG
in der Lage, die Bezüge zur Wahrscheinlichkeitstheorie zu erkennen. Im übrigen ist es Studenten kaum zu vermitteln, weshalb sie dieselben Formeln, die sie bereits in der deskriptiven Statistik kennengelernt haben, in exakt derselben oder leicht abgewandelten Form in der Wahrscheinlichkeitstheorie wieder lernen sollen. Entscheidend ist der Zusammenhang, in den die Begriffe gestellt werden und so sollte die einmalige Einführung eines Begriffes und der Kontext, in den er gestellt wird, genügen. Aus diesen Gründen werden hier, ohne explizit auf Wahrscheinlichkeitstheorie einzugehen, zuerst die Prinzipien statistischen Testens vorgestellt, um dem Studenten zu veranschaulichen, wozu die Wahrscheinlichkeitstheorie überhaupt nütze ist. Dieses Vorgehen wird durch die Verwendung von Statistiksoftware erst möglich. Denn nun können, ohne vorherige Standardisierung von Zufallsvariablen, Quantile berechnet werden. Zudem werden die Verfahren mit einem Statistikprogramm relativ leicht nachvollziehbar. Selbst große Datenmengen können verarbeitet werden. Andererseits hat eine jede Software Eigenheiten, die der Anwender kennen muß, wenn er Fehler vermeiden will. Gelegentlich gibt es bei der Berechnung von Maßzahlen (beispielsweise bei Quantilen) keine eindeutigen Lösungen. In einem solchen Fall helfen allgemeine Hinweise, wie der Statistiker sich in solchen Situationen verhalten kann, nicht weiter. Man muß wissen, wie das verwendete Programm damit umgeht, um korrekte Interpretationen liefern zu können. Zudem sollte man auch bedenken, welche Fehler bei größeren Datenmengen entstehen: sie sind häufig vernachlässigbar gering. Statistik lebt von der Anwendung. Zur Anregung sind Beispiele eingeflochten mit Fragestellungen aus dem wirtschaftswissenschaftlichen Bereich. Im Zuge ihrer Diskussion werden auftretende praktische Probleme angesprochen und Lösungsmöglichkeiten unterbreitet. Die Aufgabenstellungen am Ende jeden Kapitels umfassen nicht nur die Anwendung statistischer Verfahren, sondern auch methodische Fragen, solche, die in der praktischen Anwendung auftauchen. Der Leser wird hierdurch gezwungen, die Methoden zu reflektieren und, falls die Anwendungsbedingungen nicht vorliegen sollten, nach passenden zu suchen. Der Anfänger wird dann naturgemäß Schwierigkeiten haben, eine adäquate Lösung selbst zu finden. Aus diesem Grund fällt den Lösungen eine besondere Bedeutung zu. Dieses Vorgehen wurde bewußt gewählt, denn in der betrieblichen Praxis stellt dies eher den Normalfall dar. Die Datenverarbeitung hat in den letzten Jahren neue Möglichkeiten für Datenerhebung und -verarbeitung ermöglicht, Opensourcesoftware ist verfügbar, mit deren Hilfe praktisch zum Nulltarif Daten erhoben, aufbereitet, ausgewertet und die Ergebnisse graphisch aufbereitet werden können. So gibt es OpenOffice, zu erhalten über www.openoffice.org, ein komplettes Officepaket mit Textverarbeitung, Tabellenkalkulation, Präsentation, Zeichen- sowie einem Datenbankprogramm. Es wird als Teil des Betriebssystems Linux üblicherweise mitgeliefert. Linux, ebenfalls eine Opensourcesoftware, kann parallel zu Windowsbetriebssystemen
1.1. GEGENSTAND
3
(z.B. Windows95, Windows98, WindowsXP) installiert werden. Bei dem Hochfahren des PCs kann der Nutzer dann zwischen dem Windowssystem und Linux wählen. Im Buchhandel und einschlägigen PC-Shops kann es erworben, gelegentlich auch für ein paar Euro als Beilage zu einschlägigen Zeitschriften mit ’Linux’ in der Titelleiste gekauft oder aus dem Internet kostenlos heruntergeladen werden. Die Distributionen unterscheiden sich allerdings qualitativ. Im Handel können welche mit Handbüchern gekauft werden und man erhält, abhängig von der Firma (Suse oder RedHat), auch Unterstützung bei Problemen. Dieser Service ist ansonsten nicht vorhanden. Linux-CD’s aus Zeitschriften können, der Autor hat es ausprobiert, ebenso problemlos genutzt werden wie die Versionen, die aus dem Internet heruntergeladen werden können. Der Unterschied zwischen diesen beiden Zugangswegen ist, daß im letzten Fall sehr große Datenmengen gehandhabt werden müssen. Gängige Browser und Dateimanager können dann versagen. Ist Linux bereits installiert, so kann Bittorrent eingesetzt werden. Ansonsten ist die Installation denkbar einfach: lege die Installations-DVD ein und automatisch wird ein Installationsvorschlag gemacht, der ggf. den eigenen Bedürfnissen angepaßt werden kann. OpenOffice gibt es für alle gängigen Betriebssysteme und gleiches gilt für das Statistikprogramm , das über http://ftp5.gwdg.de/pub/misc/cran/ aus dem Internet heruntergeladen werden kann. Neben dieser befehlsbasierten Version gibt es auch eine mit graphischer Oberfläche, zu erhalten über www.statistiklabor.de. Auch ’moodle’, eine serverbasierte Plattform, die für E-Learning geeignet ist, aber auch zur Online-Datenerhebung verwandt werden kann, ist interessant. Diese Software wird im Internet über www.moodle.de zur Verfügung gestellt. Sie ist in manchen Linuxdistributionen bereits vorhanden und muß händisch nur noch installiert werden. Limesurvey ist ein Werkzeug, das speziell zur Onlinebefragung entwickelt wurde. Informationen über das Programm wie auch Downloads können über www.limesurvey.org bezogen werden. Es ist ebenso wie die bereits aufgeführte Software frei verfügbar. Der Vorteil dieser Software liegt darin, daß Studenten mit Tools lernen, die sie später im Berufsleben ebenfalls nutzen können. Zudem ist es möglich, sich während des Studiums zu Hause mit der Software vertraut zu machen, zu üben und zu lernen. Die Lerneinheiten können auch mit kommerzieller Software bearbeitet werden, doch angesichts der beschriebenen Vorteile von Opensourceprodukten werden hier die genannten Produkte verwendet.
KAPITEL 1. EINLEITUNG
4
Aus der Perspektive von Unternehmen lohnt sich die Beschäftigung unserer Absolventen. Denn viele arbeiten in kleinen und mittelständischen Unternehmen. Ist keine Statistiksoftware vorhanden, so bringen unsere Absolventen attraktive Software und die nötigen Kenntnisse mit. Wird standardmäßig mit kommerzieller Software gearbeitet, so ist sollte ein Umstieg hierauf ohne größere Probleme möglich sein. Der größte Vorteil liegt jedoch in der Möglichkeit, statistische Auswertungen automatisch oder wenigstens halb-automatisch durchführen zu können. Dies geschieht über die Erstellung von Befehlsdateien, die als Textdatei abgespeichert werden und bei Bedarf über den Zwischenspeicher in kopiert werden. Haben Akademiker sich jedoch bereits auf Statistiksoftware mit graphischer Oberfläche eingearbeitet, so stellt dies den ’Industriestandard’ dar und größere automatisierte Auswertungen benötigen viel mehr Zeit, als die Nutzung von Befehlsdateien in . Das vorliegende Buch wurde übrigens ebenfalls mit freier Software erstellt, mit LATEX. Dies ist eine Sammlung von Makros, mit dem TEX, das wunderbare Setzprogramm von Donald E. Knuth, auf vergleichsweise einfache Art und Weise verwendet werden kann. Nützliche Informationen und Downloads findet man über www.latex-project.org. Für einen schnellen Einstieg in das Programm kann OpenOffice genutzt werden. Man schreibe seinen Text in OpenOffice-Writer und wähle ’Datei-Export’, wobei ’Latex 2e’ als Filter gewählt wird. Die so erzeugte ’*.tex’-Datei enthält alle nötigen Befehle, um ein TEX-Dokument zu erstellen. In Linuxdistributionen kann ’emacs-auctec’ aktiviert werden, wodurch mit Emacs auch Latex-Dokumente auf angenehme Art verarbeitet werden können.
1.2
Aufbau
Statistik ist mehr und mehr die Auseinandersetzung mit Software, ökonomischer Theorie, Statistik und Präsentation. Im Zentrum steht jedoch stets die Fragestellung. Damit rückt unvermittelt die fachliche Orientierung in den Mittelpunkt des Interesses. Statistik ohne theoretischen Hintergrund zu betreiben, macht wenig Sinn. Das Buch wendet sich vor allem an Ökonomen und so sind die hier verwendeten Beispiele vor allem den Wirtschaftswissenschaften entlehnt. Bei dem ersten Durcharbeiten können die mit ’*’gekennzeichneten Kapitel übersprungen werden. Die verwendeten Daten werden im Internetangebot des Verlages zur Verfügung gestellt. Die mit ’*.Rdata’ gekennzeichneten Dateien werden über den Befehl > load("Dateiname.Rdata") in das Programm eingelesen. Um zu erkennen, welche Variablen oder Objekte nun verfügbar sind, verwende man die Anweisung
-
1.2. AUFBAU
5
> ls(). In Kapitel 2 wird die Datenerhebung über Onlinebefragung beschrieben. Es wird deutlich, warum unterschiedliche Erhebungsmethoden verwendet werden und welche es gibt. Dem Leser werden Hilfestellungen bei der Auswahl der Methoden gegeben. Außerdem wird beschrieben, wie Rohdaten auf Plausibilität überprüft werden können. Methoden zur Datenaufbereitung, also zur Beschreibung von Datensätzen, werden in Kapitel 3 beschrieben. Die Ausführungen beginnen mit grundlegenden Bemerkungen und werden anschließend durch Beispiele veranschaulicht. Es zeigt sich, daß mit einigen wenigen Befehlen auch größere Datensätze mit Maßzahlen charakterisiert und graphisch aufbereitet werden können. Diese Methoden werden in anderen Lehrbüchern üblicherweise unter der Überschrift ’deskriptive’ oder ’beschreibende Statistik’ abgehandelt. Diesem Gebrauch wird hier nicht gefolgt. Bevor überhaupt eine Datenauswertung erfolgt, sollte man sich im klaren darüber sein, welchem Zweck die Datenauswertung dient. Hieraus ist abzuleiten, wie mit den Daten umgegangen werden muß. In der Praxis werden Methoden des Kapitels 3 üblicherweise genutzt, um sich einen ersten Eindruck über die Datenlage zu verschaffen. Dies kann leicht zu Fehlverhalten führen (siehe die Anekdote auf Seite 8). Erste statistische Tests stehen im Mittelpunkt des Kapitels 4. Wissen um die Wahrscheinlichkeitsrechnung wäre zwar wünschenswert, ist aber nicht unbedingt erforderlich. Anhand des Binomialtests über den Anteilswert werden die Prinzipien statistischer Tests erläutert. Diese Einsichten werden in Kapitel 5 vertieft. Zudem können diese Tests gerade bei der Auswertung von Fragebögen sinnvoll eingesetzt werden. Nachdem die Grundlagen des statistischen Testens gelegt sind, wird die Wahrscheinlichkeitstheorie in den Kapiteln 6 und 7 präsentiert. Sofern die Grundlagen der Wahrscheinlichkeitstheorie bereits gelegt sein sollten, können diese beiden Kapitel übersprungen werden. Zum besseren Verständnis empfiehlt sich jedoch die Lektüre der Abschnitte 6.3 und 6.4. Der Begriff des Wahrscheinlichkeitsraumes, konkret bezogen auf die Grundgesamtheit sowie den Stichprobenraum wird eingeführt. Es schließen sich wichtige Lehrsätze der Wahrscheinlichkeitstheorie an. Die zentralen Begriffe bedingte Wahrscheinlichkeit, stochastische Unabhängigkeit, der Multiplikationssatz sowie der Satz von der theoretischen Wahrscheinlichkeit werden hier vorgestellt. In Kapitel 7 werden Zufallsvariablen eingeführt, der zentrale Begriff, der die Grundlage für theoretische Wahrscheinlichkeitsverteilungen und Verteilungsfunktionen bildet. Die wichtigsten Kenngrößen, wie Erwartungswert und Varianz theoretischer Verteilungen sowie die Technik des Standardisierens finden sich hier. Die Korrelationsanalyse ist in zwei Kapitel aufgespalten: die einfache wird in Kapitel 8 und die multiple in Kapitel 9 dargestellt. Zunächst wird der Begriff der Korrelation in der Wahrscheinlichkeitstheorie eingeführt. Es schließen sich die Ausführungen über die Schätzung der Korrelation bei Vorliegen einer einfachen
6
KAPITEL 1. EINLEITUNG
Stichprobe an. Als Gliederungskriterium des Kapitels 8 dient das Skalenniveau des betrachteten Merkmals. Die multivariate Korrelationsanalyse startet mit dem Vergleich zweier Korrelationen, der auf den Vergleich mehrerer Korrelationen ausgeweitet wird. Hier findet sich auch die partielle Korrelation, die in der praktischen Arbeit von Bedeutung ist. Bei dem restlichen Kapitel werden Grundkenntnisse der Matrizenrechnung vorausgesetzt, die gegebenenfalls in Anhang B nachgelesen werden können. Kapitel 10 (Daten- und Distanzmatrix) und 11 (Clusteranalyse) bilden eine Einheit. Letztlich dienen beide Kapitel dazu, statistische Einheiten automatisch Klassen zuzuordnen (=Clusteranalyse). In ersterem wird das Skalenniveau der Merkmale näher betrachtet. Insbesondere werden binäre Variablen eingeführt, die in symmetrische und asymmetrische unterteilt werden. In der praktischen Anwendung der Clusteranalyse werden die verwendeten Merkmale im allgemeinen nicht dasselbe Skalenniveau aufweisen. Deshalb ist es nötig, zumindest ein Verfahren aufzuzeigen, mit Hilfe dessen, dieses Problem bewältigt werden kann. Dies ist der zentrale Inhalt des Kapitel 10. Im nachfolgenden Kapitel werden ausgewählte Verfahren der Clusteranalyse dargestellt. Nachdem verschiedene Klassifikationstypen und -verfahren dargestellt worden sind, wird ein Verfahren zu Bildung von Partitionen präsentiert. Hierbei wird auch eine Methode vorgestellt, mit deren Hilfe bei Bedarf die Klassenanzahl bestimmt werden kann. Mit FANNY, einer Methode zur Bestimmung unscharfer Mengen, wird auch gezeigt, wie Überdeckungen gebildet werden können. Bei Vorliegen ausschließlich binärer Daten kann mit MONA eine Hierarchie konstruiert werden. In Kapitel 12 wird schließlich die Regressionsrechnung dargestellt. Hauptzweck ist die Erstellung von Prognosen. Nach einleitenden Hinweisen zur Methode der kleinsten Quadrate (KQ-Methode) wird auf die Regressionsfunktion eingegangen. Es zeigt sich, daß die lineare Funktion aus verschiedenerlei Gründen nicht so einschränkend ist, wie sie auf den ersten Blick erscheint. Anschließend wird erläutert, wie Prognosen erstellt werden können. Ihre Güte hängt maßgeblich von der Zuverlässigkeit und Stabilität der geschätzten Regressionskoeffizienten ab. Aus diesem Grund ist es wünschenswert, Maße zur Überprüfung der Güte zur Verfügung zu haben. Deshalb werden in Kapitel 12.5 das Bestimmtheitsmaß und in 12.7 Signifikanztests vorgestellt. Abschließende Bemerkungen runden das Kapitel ab. Die wichtigsten diskreten und stetigen theoretischen Verteilungen sind in Anhang A dargestellt. Matrizen sind bei der praktischen Arbeit ein unentbehrliches Werkzeug. Ihre Definition, die Definition von Verknüpfungen, wichtige Rechenregeln und mathematische Lehrsätze sind in Kapitel B zusammengefaßt. Nützliche Hinweise zum Arbeiten mit finden sich in Anhang C. Lösungen, ein Glossar und ein Stichwortverzeichnis sind auf den letzten Seiten.
Kapitel 2
Datenerhebung - ganz praktisch 2.1
Einleitung
In einigen betriebswirtschaftlichen Disziplinen gehört die Erstellung eines Fragebogens und dessen Auswertung zum Handwerkszeug. Welche Kriterien bei der Erstellung zu berücksichtigen sind, ergeben sich letztlich aus der Fragestellung. Dieser Bereich wird üblicherweise in betriebswirtschaftlichen Grundlagenfächern abgedeckt und wird deswegen in vorliegendem Kapitel nicht thematisiert. Um viele der in den nachfolgenden Kapiteln dargestellten Methoden sinnvoll anwenden zu können, ist es nötig, einen Erhebungsplan zu erstellen. Welche grundlegenden Fragen hierbei zu beantworten sind, wird in Abschnitt 2.2 diskutiert. Nach der Beschreibung nützlicher Software in Abschnitt 2.3, mit der Daten online erhoben werden können, wird in Kapitel 2.4 dargestellt, wie eine Stichprobe gezogen wird. Es folgt die Beschreibung des Auslesens und Einlesens von Daten in ein Tabellenkalkulationsprogramm und in . Bemerkungen zu Plausibilitätsprüfungen von Datensätzen runden das Kapitel ab.
2.2 2.2.1
Erhebungsplan Grundlagen
Daten werden zur Gewinnung von Informationen erhoben. Einerseits können diese Informationen dazu dienen, dem Ökonomen einen Überblick über seinen Untersuchungsgegenstand, wir sagen auch sein Interessengebiet, zu verschaffen oder um auf neue Ideen zu kommen. Andererseits können sie dazu dienen, die Richtigkeit einer Vermutung (Hypothese) zu überprüfen. In jedem Fall ist davon auszugehen, daß der Ökonom mit Vorverständnis an die Aufgabe herangeht. Völlig unstrukturiert und aufs Geradewohl wird kaum eine Datenerhebung R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_2, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
8
erfolgen. Sei es offen gesagt (explizit) oder nicht (implizit): Daten werden im Hinblick auf ein bestimmtes Ziel erhoben. Ihre Auswertung wird sich an diesen Zielen orientieren. Die Ziele sollten so in Fragen (Hypothesen) gekleidet werden, daß sie entweder bejaht oder verneint werden können. Grundlage einer jeden statistischen Auswertung sind somit empirisch überprüfbare Hypothesen. Sie können auf theoretischen Überlegungen basieren oder als Idee aus vorausgegangenen statistischen Auswertungen hervorgehen. In letzterem Fall spricht man von der induktiven Vorgehensweise, bei der ersteren von Deduktion. Wird induktiv vorgegangen, sollte vermieden werden Daten zu ’quälen’. Damit ist gemeint, die Daten, die zur Aufstellung einer neuen Hypothese geführt haben, nicht zur Überprüfung selbiger verwendet werden dürfen, da dies zu einem Zirkelschluß führen würde. Insbesondere im Falle der Deduktion ist darauf zu achten, daß die theoretischen Begriffe adäquat durch Daten abgebildet werden. Anekdote In den achtziger Jahren des vergangenen Jahrhunderts hielt an der Universität des Saarlandes ein Gastprofessor mit Schwerpunkt Arbeitsmarktökonomie einen Vortrag über Missmatch auf Arbeitsmärkten. Er hatte Arbeitsmarktdaten deskriptiv aufbereitet, präsentierte die empirischen Befunde und diskutierte, welche Hypothesen zu den beobachteten Auffälligkeiten passen könnten. Im nächsten Schritt überprüfte er die Hypothesen mit Hilfe ökonometrischer Verfahren, wobei er stets dieselben Daten verwendete. Ökonometrie ist die Lehre von der ’Vermessung der Wirtschaft’ bei der vor allem Regressionsverfahren eingesetzt und Mittel der schließenden Statistik verwendet werden. In der anschließenden Diskussion meldete sich unter anderem Prof. Kmenta, ein ungarischer Ökonometriker, der in den USA lehrte. Er fragte, ob der Referent stets so vorgehe, der dies mit ’ja’ beantwortete. Daraufhin warf Prof. Kmenta dem Referenten vor, ’Daten zu quälen’.
2.2.2
Beispiel
Eine der wichtigsten Entscheidungen einer jeden Erhebung ist die Entscheidung über die Art der Datenerhebung: Voll- oder Teilerhebung. Werden bei allen interessierenden Personen oder Objekten (Grundgesamtheit oder Population) Daten erhoben, so spricht man von einer Vollerhebung, andernfalls von einer Teilerhebung. Die Elemente der Grundgesamtheit werden allgemein statistische Einheiten oder Untersuchungseinheiten genannt. Folgende Beispiele sollen wichtige Beurteilungskriterien verdeutlichen. 1. Beispiel: Angenommen, ein Lehrer der Fachoberschule Marktheidenfeld möchte gerne wissen, wie alt seine Schüler in der Klasse 11b am 1.1.2008 durchschnittlich sind. Ihn interessieren also alle Schüler der Klasse 11b in Marktheidenfeld zum Stichtag 1.1.2008. Befragt er alle, so handelt es sich um eine Vollerhebung, denn die befragten Personen sind identisch mit der
2.2. ERHEBUNGSPLAN
9
interessierenden Grundgesamtheit. Welche Personen zur Grundgesamtheit zählen, ergibt sich aus der Fragestellung.
2. Beispiel: Angenommen, derselbe Lehrer möchte wissen, wie alt die Schüler in allen Klassenstufen 11 sind, wobei es die Klassen 11a, 11b gebe. Die interessierende Grundgesamtheit setzt sich aus den Schülern der Klassen 11a und 11b zusammen; sie bilden die Grundgesamtheit. Klasse 11b ist lediglich Teil der Grundgesamtheit und Daten über die Klasse 11b heißen deshalb Teilerhebung.
Warum der Lehrer im ersten Fall nur Klasse 11b als Grundgesamtheit ansieht mag beispielsweise daran liegen, daß er wissen muß, ob er wegen eines Schulausfluges die Genehmigung der Eltern einholen muß oder nicht. Geht es um genau diese Fragestellung, so ist allerdings nicht das arithmetische Mittel entscheidend. Welche Maßzahl würden Sie stattdessen wählen?1 Zudem wird durch diese Fragestellung die Erhebungsmethode bestimmt. Welche Methode kann hier nur angewandt werden?2 Will der Lehrer aber wissen, warum die Schüler der Klasse 11a in allen Fächern bessere Noten haben als in der 11b, obwohl dieselben Lehrer in beiden Klassen unterrichten, so könnte dies daran liegen, daß die Schüler der 11a älter sind als die der 11b und in geringerem Maße pubertäres Verhalten an den Tag legen, was die Leistungen tendenziell mindert. Beide Klassen bilden aufgrund dieser Fragestellung die Grundgesamtheit. Ist aber eine Voll- oder eine Teilerhebung sinnvoll? Bei dieser Fragestellung ist es nicht unbedingt wichtig, das Alter jedes Schülers in der Grundgesamtheit zu wissen. Da es sich um eine relativ kleine Grundgesamtheit handelt, bietet sich eine Vollerhebung an, zumal das Alter der Schüler üblicherweise der Schule bekannt ist und vorhandenen Unterlagen entnommen werden kann. Man spricht in diesem Falle von Sekundärdaten. Werden die Daten direkt bei allen Personen der Grundgesamtheit erhoben, so handelt es sich um Primärdaten. Ob also eine Vollerhebung oder Teilerhebung sinnvoll ist, ergibt sich aus der konkreten Situation. Würde es sich jedoch nicht um zwei Schulklassen, sondern um zwei sehr große Personengruppen handeln, deren Daten erst erhoben werden müßten, so wäre eine Vollerhebung möglicherweise mit hohen Kosten verbunden. In diesem Fall bietet sich die schließende Statistik an, bei der mit Hilfe einer Teilerhebung möglichst gut auf die Situation in der Grundgesamtheit geschlossen werden soll. Hierdurch erklärt sich auch ihr Name ’schließende‘ Statistik. Bei dieser Art von Fragestellung bedarf es allerdings nicht Daten irgendeiner Teilerhebung, sondern von Stichproben, d.h. der Zufall spielt eine wichtige Rolle.
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
10
2.3 2.3.1
Software Moodle und LimeSurvey
Einige Programme sind mittlerweile verfügbar, mit deren Hilfe Onlinebefragungen durchgeführt werden können. Die Installation von Moodle und LimeSurvey soll im folgenden kurz skizziert werden. Moodle ist eigentlich eine ELearningplattform, mit deren Hilfe allerdings auch Onlinebefragungen durchgeführt werden können. LimeSurvey ist ebenfalls eine freie Software, die speziell für Onlinebefragungen entwickelt wurde. Über die Links www.moodle.de bzw. www.limesurvey.org/ können die Programme bezogen werden. Zur Installation von Moodle Version 1.9 genügt augenblicklich noch Webspace; es ist aber zu erwarten, daß künftig ein eigener Moodle-Server notwendig wird. Der Server muß gemäß den Vorgaben der Programme konfiguriert sein, d.h. MYSQL und PHP sind bei beiden nötig. Ansonsten ist die Installation relativ einfach, das Vorgehen ist bei beiden ziemlich ähnlich, die Ausführungen beschränken sich auf Moodle. Die Programmdateien befinden sich in einer komprimierten Datei (z.B. einer Zip-Datei), die auf den eigenen Rechner entpackt werden müssen. Nach Entpacken aller Dateien befinden sie sich dann in dem Ordner moodle. über eine FTP-Verbindung wird dieser Ordner samt Inhalt auf den Webspace übertragen. In Linux ist es möglich, eine FTP-Verbindung über das Programm Konqeror herzustellen. Dieses Programm dient der Dateiverwaltung, kann gleichzeitig aber auch als Internetbrowser genutzt werden. Wähle den Reiter ’Gehe zu’ und wähle ’Netzwerkordner’. Dann erscheint eine Box ’Netzwerkordner hinzufügen’. Klicke ’FTP’ an und wähle ’weiter’, um in der folgenden Eingabemaske die geforderten Daten eingeben zu können. Nachdem der Netzwerkordner erstellt wurde, können per drag and drop oder über die Kopierfunktion von Konqeror Daten auf den Server übertragen und über die Löschfunktion auch ggf. gelöscht werden. Übertrage über einen dieser Wege den Ordner ’moodle’ mit gesamtem Inhalt auf den Webspace und lege auf derselben Ebene, auf der auch der Ordner ’moodle’ erstellt wurde, einen zusätzlichen Ordner namens moodledata und den Ordner ’nobody’ an. Erstelle in dem Webspace eine MYSQL-Datenbank. Rufe anschließend einen Internetbrowser auf und gebe die ’eigene_Internetadresse/moodle’ in der Adreßzeile ein; anschließend beginnt die Installation des Programms. Folge den Answeisungen und gebe bei der Abfrage nach dem Server ’localhost’ ein.
2.3. SOFTWARE
2.3.2
11
Statistikpaket R
Das Statistikprogramm ist vor allem im wissenschaftlichen Bereich verbreitet. Es kommt in zwei verschiedenen Versionen daher: • mit einer graphischen Oberfläche als ’Statistiklabor’ und • ohne graphische Oberfläche unter dem Namen
.
Letztere ist befehlsbasiert, wodurch der Einstieg für Anfänger erschwert wird. Das Statistiklabor erleichtert dem Studenten den Zugang zur Software durch moderne Menüführung. Insbesondere gibt es die Möglichkeit, die durch Anklicken erzeugten Befehle anzeigen zu lassen. Ansonsten sind die Funktionalitäten beider Versionen zwar nicht identisch, doch ganz ähnlich. In der praktischen Anwendung jedoch bevorzugt der Autor eindeutig die befehlsbasierte Version. Denn hier eröffnen sich dem Nutzer vielfältige Möglichkeiten, die die graphische Oberfläche des Statistiklabors nicht bietet. Beispielsweise können eine Vielzahl statistischer Auswertungen ohne Eingreifen des Nutzers durchgeführt werden, wogegen im Statistiklabor jeder einzelne Schritt durch Anklicken initialisiert werden muß. Zudem kann der Nutzer neue, bislang in nicht vorhandene Auswertungsmethoden programmieren. Aus diesen Gründen werden ausschließlich die für nötigen Befehle angegeben. läuft auf verschiedenen Betriebssystemen. Hierbei ist zu beachten, daß die Installation und Handhabung vom verwendeten System abhängig ist. Unter Linux muß das Programm entweder compiliert werden, was dem Ungeübten zu kompliziert sein dürfte, oder entsprechend der Linux-Version (Debian, Suse oder Red Hat) wird eine bereits compilierte Version verwendet. Der Autor nutzt die Suse-Linux-Version 10.3. Hier ist die Installation über die 1-Click-Installation sehr einfach. Über die Seite ’http://software.opensuse.org/search’ erhält man Zugang zu bereits für Suse-Linux compilierter Software. Man wählt die Version und gibt in das Suchfeld ’R-base’ ein. Klicken auf ’1-Click-Install’ und Befolgen der Anweisungen führt zur bequemen Installation von . Zum Aufruf von öffnet man eine Shell (oder Terminalprogramm) und gibt ein. Nach kurzer Zeit erscheint ein einleitender Text und die erste Befehlszeile, die stets mit ’>’ beginnt. Empfehlenswert ist jedoch die Nutzung von ’emacs-ess’. Um diese Software zu installieren, gebe man in die Suchzeile der Seite ’http://software.opensuse.org/search’ ’emacs-ess’ ein und nutzt wieder die 1-Click-Installation. Drücken der ’Alt’Taste gefolgt von F2 öffnet ein Befehlsfenster. Hier gibt man ’emacs’ ein. Dies ist eine sehr universell einsetzbare Software, unter anderem kann sie auch als Basis für genutzt werden. Drücke die ’Alt’-Taste gefolgt von der ’x’-Taste und gebe ein. Zweimal drücken von Return eröffnet die Möglichkeit, über emacs zu bedienen. Dies hat den Vorteil, daß durch Farbgestaltung schnell erkannt
12
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
wird, ob Fehleingaben erfolgt sind oder nicht. Für Fortgeschrittene finden sich in Kapitel C weitere nützliche Hinweise, die übrigens auch für Windowsnutzer wertvoll sind. Bei der Anwendung ist zu beachten, daß die Programmiersprache englisch ist. Wie so häufig bringt dies Vor- wie auch Nachteile mit sich. Um beispielsweise den Mittelwert auszurechnen, wird nicht das deutsche Wort, sondern ’mean’ verwendet. Das Schöne hierbei ist, daß englische Fachbegriffe erlernt und eingeübt werden. Daß im Englischen zur Angabe der Dezimalstelle der Punkt verwendet wird, kann zu Fehlern führen und ist somit als Nachteil zu werten. Freilich läßt sich dieses Problem leicht umgehen, wenn anstatt einer deutschen Version von OpenOffice, die englische genutzt wird.
2.4 2.4.1
Ziehen einer Stichprobe Grundlagen
Bislang war zwar von Stichproben die Rede, ohne aber darüber zu sprechen, wie sie gebildet werden. Angenommen, es soll eine Telefonbefragung in Stadt- und Landkreis Würzburg erfolgen. Eine Stichprobe mit Zurücklegen ist geplant, da der Binomialtest über den Anteilswert angewendet werden soll. Der zuständige Betriebswirt wendet sich an ein Call-Center und vergibt den Auftrag, Personen aus der benannten Region in einem vorgegebenen Zeitraum zufällig aus dem Telefonbuch zu wählen, um einen vorbereiteten Fragebogen abzuarbeiten. Jeder Telefonist blättert in einem Online-Telefonbuch und greift durch zufälliges scrollen Personen heraus. Handelt es sich hierbei um eine einfache Stichprobe? Es ist durchaus möglich, daß eine Person mehrmals in der Stichprobe vorkommen kann. Insofern handelt es sich um eine Auswahl mit Zurücklegen. Erfolgen die Ziehungen aber tatsächlich zufällig, d.h. hat jede Person dieselbe Wahrscheinlichkeit gewählt zu werden? Sicher nicht, denn die Personen sind gewöhnlich alphabetisch geordnet. Beginnt der Telefonist bei Buchstabe A und hangelt sich entlang der Anordnung, so kann es sein, daß er die geforderte Anzahl an Personen gezogen hat, ohne daß Personen mit Anfangsbuchstaben ’Z’ überhaupt eine Chance gehabt hätten, aufgenommen zu werden. Aus diesem Grund stellt sich die Frage, wie sinnvoller Weise vorgegangen werden sollte. Eine Möglichkeit besteht darin, alle Personen durchzunumerieren. Man wählt so viele Kugeln, wie Personen in der Grundgesamtheit vorhanden sind, beschriftet sie fortlaufend mit Zahlen und füllt sie in eine Trommel. Anschließend bittet man eine ’Glücksfee’, wie bei der wöchentlichen Ziehung der Lottozahlen, darum, n Kugeln auszuwählen. Wurde eine Kugel gewählt, so wird ihre Nummer notiert und wieder in die Trommel zurückgelegt. Dieses Verfahren wäre korrekt, vorausgesetzt, daß die Kugeln dieselbe Wahrscheinlichkeit hätten, gezogen zu werden. Andererseits wäre es sehr umständlich. Statt n durchnumerierte Kugeln zufällig aus einer Trommel zu ziehen, kann ein Zufallsgenerator genutzt werden, um eine zufällige Zahlenreihe zu erzeugen, mit Hilfe derer die Personen festgestellt werden, die jeweils mit derselben Wahr-
2.5. ROHDATEN AUSLESEN
13
scheinlichkeit gezogen wurden.
2.4.2
Beispiel
Lade das Paket ’base’, um den Befehl ’sample’ verfügbar zu machen. Das Einlesen von Paketen wird auf Seite 322 beschrieben. > ?sample öffnet eine Hilfeseite, in der die Grundstruktur des Befehls angegeben ist (siehe unten); in der nachfolgenden Zeile ist ein konkreter Befehl dargestellt. > sample(x, size, replace = FALSE, prob = NULL) > sample(c(1:8000000), 10, replace = TRUE, prob = NULL) [1]} 4392192 1117576 3688549 6927580 2876239 2026266 6149387 5888866 3188394 7107292 Durch diesen Befehl wird eine Stichprobe vom Umfang 10 mit Zurücklegen aus den ganzen Zahlen beginnend bei 1 und endend bei 8 000 0000 gezogen. Wäre ’replace=FALSE’ gesetzt, so wäre es eine Stichprobe vom Umfang 10 ohne Zurücklegen. Erneute Eingabe desselben Befehls führte zu der nachfolgend angegebenen Ausgabe. Die beiden Ergebnisse sind verschieden. > sample(c(1:8000000), 10, replace = TRUE, prob = NULL) [1] 5320532 6702537 7313541 \ 111374 6514954 4659765 1456491 1255380 6120515 5931007
2.5 2.5.1
Rohdaten auslesen Grundlagen
Die Daten können in Linux über Konqueror aus moodle ausgelesen werden, indem auf den zuvor erstellten Netzwerkordner, der nichts weiter als eine Verknüpfung mit dem Server ist, geklickt wird. Mit Hilfe eines Tabellenverarbeitungsprogramms (bspw. OpenOffice) werden die Daten einer ersten Sichtung auf Plausibilität unterworfen, indem folgende Fragen bearbeitet werden: 1. Stimmen alle Formate? Mit anderen Worten interessieren folgende Fragen. Sind Zahlen auch dort, wo sie hingehören? Sind Felder, in denen ausschließlich Buchstaben erscheinen dürfen, auch genauso beschaffen? Gibt es bei alphanumerischen Einträgen keine unerlaubten Symbole? 2. Fehlen Daten? Hier muß überprüft werden, ob alle ’Missings’ genau gleich gekennzeichnet worden sind. 3. Sind die erhobenen Zahlen im vorab definierten Bereich bzw. sind sie im plausiblen Bereich? Diese Frage kann allerdings auch später mit Hilfe des Statistikprogramms beantwortet werden.
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
14
Abbildung 2.1: Rohdaten in Tabellenkalkulationsprogramm einlesen Quelle: eigene Darstellung
Die Sichtung auf Plausibilität ist eine wichtige Aufgabe. Denn Fehler, die bei der Dateneingabe gemacht worden sind, können das Ergebnis so stark verfälschen, daß statistische Auswertungen zu falschen Schlußfolgerungen führen können. Um die Daten in das Statistikprogramm einlesen zu können, werden sie als Textdatei im csv-Format gesichert. Andere Formate können freilich auch verwendet werden, sollen aber hier nicht angesprochen werden. Besondere Aufmerksamkeit sollte dem Symbol zufallen, durch das ganze Zahlen von Dezimalstellen getrennt werden. In diesem Kapitel wird davon ausgegangen, daß im verwendeten Tabellenverarbeitungsprogramm als Trennzeichen das Komma verwendet wird. Zudem ist zu berücksichtigen, welcher Feldtrenner verwendet wird; hier bietet sich die Möglichkeit des Tabulators, des Semikolons oder des Kommas an. Die verwendeten Standardeinstellungen unterscheiden sich von Programm zu Programm. Um Fehler zu vermeiden, sollten bei der praktischen Arbeit stets dieselben Programmpakete verwendet werden und umgekehrt: nach jedem Programm, ja sogar Versionswechsel, sollte geprüft werden, ob die Grundeinstellungen gleich geblieben sind, um ggf. Anpassungen vornehmen zu können.
2.5.2
Beispiel
Datenquellen können ganz unterschiedlich sein. In Abbildung 2.1 werden die Daten der Tabelle 2.1 in OpenOffice aus einer csv-Datei eingelesen. Man erkennt,
2.6. DATEN IN STATISTIKPROGRAMM EINLESEN
15
daß die Feldtrenner nicht korrekt gesetzt sind, denn beide Spalten erscheinen in ein und derselben Spalte.
2.6 2.6.1
Daten in Statistikprogramm einlesen Grundlagen
Um sicher zu sein, daß in keine Variablen aus vorherigen Sitzungen vorhanden sind, sollte der folgende Befehl genutzt werden: > rm ( list=ls() ) wobei ’rm’ für remove steht. Mit dem Befehl > setwd("g:/Auswertung") wird das Arbeitsverzeichnis gewählt. ’setwd’ ist zu interpretieren als ’set working directory’. In vorliegendem Fall befindet es sich im Laufwerk ’g’ und Ordner ’Auswertung’. Dies bedeutet, daß ohne Pfadangabe das Programm stets auf das Laufwerk g in Verzeichnis ’Auswertung’ auf Dateien zugreift. Der Befehl > YX <- read.table("YX.txt",dec=",",header=TRUE) liest die Tabelle, abgelegt in Datei ’YX.txt’ im Ordner ’Auswertung’ in ein. ’read.table’ ist der Befehl zum Einlesen einer Tabelle. ’dec=”,” ’ wandelt Kommazeichen in Punkte um, da in englischer Sprache programmiert ist und hier zwecks Trennung von ganzen Zahlen und Dezimalstellen nicht das Komma, sondern ein Punkt verwendet wird. ’header=TRUE’ bedeutet, daß die in der Tabelle angegebenen Überschriften in übernommen werden, soll dies nicht der Fall sein, so wäre ’header=FALSE’ einzugeben. Die Variablennamen werden von dann selbsttätig vorgenommen; allerdings ist es später immer möglich, die Variablennahmen nach Belieben zu ändern. Das Zeichen ’<-’ (zu interpretieren als Pfeil) bedeutet, daß der Inhalt der Tabelle in Datei ’YX.txt’ dem Symbol ’YX’ zugeordnet wird; die Daten können in nun über ’YX’ angesprochen werden. Mit dem Befehl > YX werden sie am Monitor angezeigt und es kann geprüft werden, ob sie korrekt eingelesen worden sind.
2.6.2
Beispiel
Angenommenen, in der Datei YX.csv (siehe Abbildung 2.1) befinden sich die Rohdaten der Tabelle 2.1. In dem geöffneten Fenster sind zwei Merkmale, ’Y’ und ’X’ zu sehen. Freilich werden die Daten nicht im korrekten Format dargestellt: es sollten zwei Spalten ersichtlich sein. Man erkennt, daß die Zahlen durch
16
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH Y 10,5 12,9 33,85
X 500 550 300
Tabelle 2.1: Daten YX Quelle: Daten frei erfunden ein Komma getrennt sind, dies ist in vorliegendem Fall der Feldtrenner. Wird statt ’Tabulator’ und ’Semikolon’ das ’Komma’ angeklickt, so werden die Daten korrekt angezeigt. Dies ist zugleich eine wichtige Information zum Einlesen der Daten in . Werden diese mit Hilfe des folgenden Befehls > YX <- read.csv("YX.csv",dec=",",header=TRUE) in ‘R’ ein gelesen, so erhält man nach Eingabe ’YX’ folgende Anzeige: Y X 1 10.50 500 2 12.90 550 3 33.85 300 Diese Dateneingabe ist korrekt. Die Daten bestehen aus einer Liste mit drei Zeilen und zwei Variablen, Y und X, in der ersten bzw. zweiten Spalte. Mit dem Befehl > is.list(Daten) [1] TRUE wird überprüft, ob es sich tatsächlich um Daten des Typs Liste handelt. In der zweiten Zeile ist das Ergebnis dieser Abfrage angegeben. Im folgenden werden Konsequenzen eines falschen Einlesens der Daten skizziert. In folgendem Befehl wird explizit der Feldtrenner (englisch: seperator, in abgekürzt mit ’sep’) vorgegeben. Fälschlicherweise wird ’\t’, das Zeichen für Tabulator, verwendet. Aus diesem Grund werden die Daten falsch eingelesen. > YX <- read.csv("YX.csv",header=TRUE,dec=".",sep="\t") > YX Y.X 1 10,5,500 2 12,9,550 3 33,85,300 Wird statt des Befehls > YX <- read.csv("YX.csv",dec=",",header=TRUE) folgender
2.7. PLAUSIBILITÄTSPRÜFUNG
17
> YX<-read.csv("YX.csv",dec=".",header=TRUE) eingegeben, so führt die Eingabe von ‘YX’ zu Y X 1 10,5 500 2 12,9 550 3 33,85 300 einer Eingabe, die wegen der Kommata falsch ist. Mit diesen Daten läßt sich nicht rechnen. Dies zeigt sich leicht, wenn in folgende Multiplikation ausgeführt werden soll: > 10,5*2 > 10,2*2 Fehler: Unerwartetes ’,’ in "10," Durch dieses kleine Beispiel wird zudem deutlich, daß auch als Taschenrechner genutzt werden kann. Werden die ganzen Zahlen von den Dezimalstellen korrekt getrennt, so erhält man das Ergebnis. > 10.5*2 [1] 21 Die Symbole zur Durchführung einfacher Rechenoperationen sind die gleichem wie in Tabellenverarbeitungprogrammen. Probieren Sie es einfach aus. Wird bei dem Einlesen der Daten statt ‘header=TRUE’ ’header=FALSE’ eingegeben, so werden Y und X nicht zur Kennzeichnung der Variablen, sondern als ein Datensatz behandelt. ordnet den Spalten automatisch die Namen V1 bzw. V2 zu. Bezeichnen Y und X jedoch die Variablen, so führt diese Dateneingabe zu falschen Ergebnissen (hier erscheinen zusätzlich auch noch die Kommata anstatt von Punkten). > YX <> YX V1 1 Y 2 10,5 3 12,9 4 33,85
2.7 2.7.1
read.csv("YX.csv",dec=",",header=FALSE) V2 X 500 550 300
Plausibilitätsprüfung Grundlagen
Bei Plausibilitätsprüfungen sind drei Aspekte zu beachten.
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
18
Einkommen 2000 2500 2900 3300
Alter 30 42 50 28
Ausbildungsjahre 12 13 10 18
Tabelle 2.2: Daten Einkommen Alter Ausbildungsjahre Quelle: Daten frei erfunden 1. Es ist zu prüfen, ob im Hinblick auf die interessierende Fragestellung die Daten geeignet sind, auch wirklich eine Antwort auf die gestellte Frage zu geben (Validität) 2. Zudem ist eine Überprüfung auf Konsistenz der Daten durchzuführen. 3. Außerdem ist zu prüfen, ob die Ausprägungen in dem Wertebereich liegen, den wir aus theoretischen Überlegungen oder praktischer Erfahrung erwarten (Korrektheit im Wertebereich).
2.7.2
Beispiel 1
Zur Veranschaulichung der Zusammenhänge dienen die Daten der Tabelle 2.2. Sie sind in Datei Einkommen.csv hinterlegt. In der ersten Zeile befinden sich die Merkmalsausprägungen der ersten Person, in der zweiten Zeile die der zweiten usw. Diesen Daten liegt die Vorstellung zugrunde, daß Einkommen, Alter und Ausbildungsjahre irgend etwas miteinander zu tun haben. Wird beispielsweise vermutetet, daß die Entlohnung nach dem Ancienitätsprinzip erfolgt, das heißt, daß mit steigendem Alter ein höherer Stundenlohn gezahlt wird, so müßte mit höherem Alter ein höheres Einkommen erzielt werden. Der ’Teufel’ steckt jedoch, wie so oft, im Detail. Dieser Zusammenhang gilt nur, wenn alle Personen unabhängig vom Alter dieselbe monatliche Anzahl an Arbeitsstunden arbeiten. Häufig weisen jedoch ältere Personen eine geringere monatliche Zahl an Arbeitsstunden auf als jüngere. Dies kann sein wegen gesetzlicher Regelungen, wie der Altersteilzeit, oder weil aus gesundheitlichen Gründen weniger gearbeitet wird. Aus dieser Perspektive betrachtet wäre es sinnvoll, statt des Einkommens den Stundenlohn und die monatliche Arbeitszeit zu erheben. Folglich wäre dieser Aspekt bereits bei der Planung der Datenerhebung zu berücksichtigen. In der Praxis wird dies jedoch häufig nicht möglich sein, sei es, weil die Datenerhebung bereits abgeschlossen ist oder Sekundärdaten verwendet werden und die erforderlichen Daten nicht enthalten sind. Aus diesem Grund stellt sich die Frage, ob durch die Verwendung geeigneter statistischer Verfahren das Problem vielleicht nicht gelöst, wohl aber gemildert werden kann. So könnte die
2.7. PLAUSIBILITÄTSPRÜFUNG
19
Analyse einmal mit Personen im Alter von 50 bis 58 Jahren und zudem mit den gesamten Daten erfolgen, um einen Hinweis darauf zu bekommen, ob der vermutete Effekt überhaupt von Bedeutung ist. Eine Überprüfung auf Konsistenz hat sich an der interessierenden Fragestellung zu orientieren. Es ist zu prüfen, ob sich die Befragten möglicherweise widersprechen. Sollte dies der Fall sein, so ist zu entscheiden, ob solch inkonsistente Datensätze entfernt werden.
2.7.3
Einfache Datensätze
In Tabelle 2.2 sind jeder Person mehrerer Merkmalsausprägungen zugeordnet. Analysiert man mehrere Merkmale, so spricht man von multivariater Statistik, wogegen statistische Verfahren, bei denen lediglich ein Merkmal analysiert wird, mit dem Wort univariat gekennzeichnet werden. Wird also beispielsweise das Minimum des Merkmals Einkommen bestimmt, so spricht man von univariater Datenanalyse. Bei Prüfung auf statistische Plausibilität ist es sinnvoll, für jede Variable zumindest das Minimum, das Maximum, das arithmetische Mittel und die Varianz zu bestimmen. Das arithmetische Mittel ist bei Verwendung von Rohdaten definiert als: n
x ¯ :=
1 xi . n i=1
xi ist die Ausprägung des kardinale Merkmals ’Einkommen’ bei Personen i, wobei i ein Laufindex ist, der im vorliegenden Fall von 1 bis 4 geht, und n ist die Anzahl an Beobachtungen (n ist hier gleich vier). Diese Formel wird bei Rohdaten (Urliste) genutzt, d.h. wenn in jeder Zeile der verwendeten Liste exakt die Merkmalsausprägungen für eine Person stehen. Die Formel, die in mit ’var(Daten$Einkommen)’ zur Berechnung der Varianz auf Basis von Rohdaten genutzt wird ist gleich n
2 V ˆar(x) := σ ˆ 2 := σ ˆX :=
1 (xi − x ¯ )2 . n − 1 i=1
Diese Formel dient zur Berechnung der korrigierten Stichprobenvarianz. Mit ihr soll aufgrund von Daten aus einer Stichprobe eine ’erwartungstreue’ Schätzung der ’wahren’, aber unbekannten Varianz in der Grundgesamtheit berechnet werden. Erwartungstreu bedeutet, daß die Varianz der Grundgesamtheit ohne systematische Verzerrung (Bias) geschätzt wird. Zur Beschreibung der Streuung, ganz gleich ob in einer Grundgesamtheit oder Stichprobe, wird aber die empirische Varianz, d.h. die Formel n
s2 = s2X :=
1 (xi − x ¯ )2 n i=1
verwendet. Der Index i läuft von 1 bis n, wobei n die Anzahl an Beobachtungen ist. Bei der empirischen Varianz werden die quadrierten Abweichungen der
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
20
Abbildung 2.2: Anwendung empirische versus korrigierte Varianz Quelle: eigene Darstellung Beobachtungen vom arithmetischen Mittel aufsummiert und mit dem Faktor n1 multipliziert. Sie unterscheidet sich von der korrigierten Stichprobenvarianz σˆ2 nur durch den verwendeten Faktor. Wird die korrigierte Stichprobenvarianz mit (n−1) multipliziert, so erhält man die empirische Varianz. Die Zusammenhänge n sind in Abbildung 2.2 veranschaulicht.
2.7.4
Beispiel 2
Die Berechnungen erfolgen beispielhaft mit Hilfe der in Tabelle 2.2 angegebenen Daten. Sie sind in der Datei Einkommen.csv abgelegt. Der folgende Befehl > min(Daten) [1] 10 liefert als Minimum 10 und > max(Daten) [1] 3300 ergibt den Maximalwert von 3300. Mit anderen Worten werden das Minimum und das Maximum aller Daten bestimmt.
2.7. PLAUSIBILITÄTSPRÜFUNG
21
In vorliegendem Fall ist dieses Vorgehen zur Prüfung auf Plausibilität nicht angebracht. Stattdessen wäre zu prüfen, ob die Einkommen alle größer als 0 und nicht zu hoch, das Alter größer oder gleich 14 aber kleiner als 120 und die Ausbildungsjahre größer oder gleich 0 und nicht zu hoch sind. Denn bereits mit 14 könnte eine Person eigenständiges Einkommen erzielen. Ganz ausgeschlossen ist es allerdings nicht, daß eine Person unter 14 Jahren eigenes Einkommen aus beispielsweise eigenem Vermögen bezieht. Dies wäre jedoch sicher ein Sonderfall (Ausreißer) und es wäre im Hinblick auf die interessierende Fragestellung zu überlegen, ob dieser statistische Ausreißer überhaupt in die Untersuchung aufgenommen werden sollte. Die Variable Einkommen kann über folgenden Befehl angesprochen werden: > Daten$Einkommen [1] 2000 2500 2900 3300 In der zweiten Zeile ist der erste Spaltenvektor (ja, Spaltenvektor ist richtig) der Liste ’Daten’ angegeben. Man beachte: obwohl die Anzeige in einer Zeile erfolgt, behandelt Daten$Einkommen als Spaltenvektor. Als Ergebnis für das Minimum, das Maximum, das arithmetische Mittel und die Varianz liefert das Statistikprogramm folgende Anzeige. > min(Daten$Einkommen) [1] 2000 > max(Daten$Einkommen) [1] 3300 > mean(Daten$Einkommen) [1] 2675 > var(Daten$Einkommen) [1] 309166.7 Welche Varianz wird hier geschätzt? Ist das sinnvoll?3
2.7.5
Komplexe Datensätze
In der Praxis sind Datensätze gewöhnlich mehrdimensional, wobei die Merkmale nicht alle gleichen Typs sind. In Tabelle 2.3 ’kleben’ fünf Merkmale an jeder Person. Bei dem Geschlecht handelt sich um eine nominal meßbare Größe, das heißt, dieses Merkmal zeigt nur Gleichheit oder Verschiedenartigkeit an. Es gibt an, ob eine Person oder Objekt im Hinblick auf einen bestimmten Aspekt gleich oder verschieden ist. In der letzten Spalte ist die Unternehmensgröße abgetragen. Die Merkmalsausprägungen sind ’K’ für Kleinunternehmen, ’M’ für mittelgroße Unternehmen und ’G’ für Großunternehmen. Dieses Merkmal ist ein Beispiel für eine ordinale Größe. Solche Merkmale geben zusätzlich zu den Informationen eines nominalen Merkmals Auskunft über eine Reihenfolge. Streng genommen sind die hier gemachten Angaben zur Unternehmensgröße unvollständig. Denn es fehlt die exakte Definition dessen, mit Hilfe welcher Kriterien Unternehmen in große, mittlere und kleine Unternehmen eingeteilt worden sind.
22 Einkommen 1000 2500 2900 3300 1500 1900 2111 2700 2900 2111 2000 2000 1900
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH Alter 30 42 50 28 30 42 50 28 50 50 30 30 42
Ausbildungsjahre 12 13 10 18 12 13 10 18 10 10 12 12 13
Geschlecht M M M M W W W W M W M M W
Unternehmensgröße K K G G K M M M G M M M K
Tabelle 2.3: Daten2 Quelle: Daten frei erfunden
So könnte beispielsweise eine Einteilung allein aufgrund der Anzahl an Beschäftigten erfolgen. Alternativ hierzu wäre eine Gruppenbildung mit Hilfe zweier Merkmale, z. B. Anzahl an Beschäftigten und Umsatz, möglich. Bei einer großen Anzahl an Unternehmen und mehreren Gruppierungsmerkmalen ist eine solche Einteilung selbst mit Hilfe eines Tabellenverarbeitungsprogramms sehr aufwendig. Die Statistik hat zwei Verfahren, die Diskriminanz- und Clusteranalyse, entwickelt, die die Bewältigung solcher Aufgaben erleichtern. Einkommen, Alter und Ausbildungsjahre sind Beispiele für kardinale Merkmale. Sie liefern dieselben Informationen wie nominale und ordinale Merkmale; darüber hinaus sind Differenzen zwischen Merkmalsausprägungen sinnvoll interpretierbar. Aus diesem Grund müssen sie zahlenmäßig ausgedrückt werden. Sie werden zudem unterteilt in verhältnis- und intervallskalierte Merkmale. Bei ersteren gibt es einen sachlogischen absoluten Nullpunkt und es lassen sich sinnvoll Quotienten aus verschiedenen Merkmalsausprägungen bilden. Bei letzteren ist dies nicht möglich. Hier können nur Differenzen zwischen Merkmalsausprägungen sinnvoll interpretiert werden. Handelt es sich bei dem Gewinn um ein verhältnis- oder intervallskaliertes Merkmal? Angenommen im vergangenen Jahr sei der Gewinn 2 Millionen, im jetzigen Jahr 4 Millionen Euro. Der Quotient 4 Millionen dividiert durch 2 Millionen Euro macht sicher Sinn: der Gewinn hat sich verdoppelt. Ist im vergangenen Jahr ein Verlust in Höhe von 2 Millionen und im laufenden ein Gewinn von 4 Millionen Euro angefallen und dividiert man 4 Millionen durch (-2) Millionen Euro, so erhält man -2. Diese Zahl ist im vorliegenden Zusammenhang nicht interpretierbar. Ist jedoch im vergangenen Jahr ein Verlust (oder mit anderen Worten ein negativer Gewinn) in Höhe von 2 Millionen und im laufenden ein Verlust von 4 Millionen Euro aufgetreten, so ist der Verlust dieses Jahres doppelt so hoch wie im vorangegangenen.
2.7. PLAUSIBILITÄTSPRÜFUNG
23
Aus diesen drei Beispielen erkennt man 1. die Bedeutung eines Nullpunktes und 2. es zeigt sich, daß Quotienten nicht immer sinnvoll interpretiert werden können. Werden Quotienten von Gewinnen, die ausschließlich im positiven oder ausschließlich im negativen Bereich liegen gebildet, so führt dies zu sinnvoll interpretierbaren Zahlen. Werden jedoch Quotienten aus Zahlen gebildet, wobei eine aus den positiven und die andere aus den negativen Zahlen stammt, so erhält man keine interpretierbaren Ergebnisse. Dann sind lediglich Differenzen sinnvoll nutzbar. Kardinale Merkmale müssen zwar in Zahlen ausgedrückt werden, doch der Umkehrschluß gilt nicht. Man hüte sich davor, aus der Tatsache, daß alle Merkmalsausprägungen irgendeines Merkmals Zahlen sind, darauf zu schließen, daß es sich um ein kardinales Merkmal handelt. Die Merkmalsausprägungen des Merkmals Geschlecht können zum Beispiel sein ’m’ und ’w’, aber genauso gut könnte verwendet werden ’1’ und ’2’. Bei der Signierung des Geschlechts mit ’1’ und ’2’ kann man zwar prinzipiell das arithmetische Mittel berechnen, doch das so erhaltene Ergebnis ist nicht interpretierbar. Signiert man jedoch männlich mit ’0’ und weiblich mit ’1’ und berechnet jetzt das arithmetische Mittel, so gibt es den Anteil der Frauen an.
2.7.6
Beispiel 3
Genutzt werden die ’Daten2’ in Tabelle 2.3; auf sie kann über die Datei Daten2.csv zugegriffen werden. Bei der Überprüfung auf statistische Plausibilität fällt nominalen und ordinalen Merkmalen die Aufgabe zu, die Daten sinnvoll in Gruppen einzuteilen, um sich einen ersten Überblick über die Daten zu verschaffen. Man beachte jedoch, daß zuvor das Programmpaket ’doBy’ geladen werden muß. Mit dem folgenden Befehl (siehe unten) wird das Minimum und Maximum, der Mittelwert, die Varianz sowie die Anzahl an Beobachtungen des Merkmals Einkommen berechnet. > summaryBy(Einkommen ~ Geschlecht, data=Daten2, FUN = c(min, max, mean,var,length)) Geschlecht Einkommen.min Einkommen.max Einkommen.mean 1 2
m 1000 w 1500 Einkommen.var Einkommen.length 1 599047.6 7 2 155285.6 6
3300 2700
2371.429 2037.000
24
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
Soll Minimum und Maximum jeweils für Einkommen und Alter geschlechtsspezifisch ausgerechnet werden, so führt folgender Befehl zum Ziel. > summaryBy(Einkommen+Alter ~ Geschlecht, data=Daten2, FUN = c(min, max)) Geschlecht Einkommen.min Alter.min Einkommen.max Alter.max 1 m 1000 28 3300 50 2 w 1500 28 2700 50 Wenn der Mittelwert von Einkommen und Alter gegliedert nach Geschlecht und Betriebsgröße berechnet werden soll, dann gebe folgenden Befehl ein. > summaryBy(Einkommen+Alter ~ Geschlecht+Betriebsgroesse, data=Daten2, FUN=c(mean)) Geschlecht Betriebsgroesse Einkommen.mean Alter.mean 1 m g 3033.333 42.66667 2 m k 1750.000 36.00000 3 m m 2000.000 30.00000 4 w k 1700.000 36.00000 5 w m 2205.500 42.50000 Der Befehl ’data=Daten2’ bestimmt, daß die Daten, abgelegt unter dem Namen ’Daten2’, verwendet werden. Dies hat auch zur Folge, daß die Merkmale durch ihren Namen (in vorliegenden Fall Einkommen und Geschlecht) und nicht durch voranstellen des relevanten Datennamens (wie oben ’Daten2$Einkommen’) angesprochen werden müssen.
2.8
Abschließende Bemerkungen
Daten werden im wesentlichen zu zwei verschiedenen Zwecken erhoben: zur explorativen Datenanalyse und zur Überprüfung von Hypothesen. Im ersteren Fall wird induktiv vorgegangen, im zweiten deduktiv. Der wesentliche Unterschied zwischen beiden besteht darin, daß es bei der Induktion keine ausformulierten Ursache-Wirkungsbeziehungen geben muß. Idealerweise besteht ein Erhebungsplan aus klar formulierten wenigen Zielen, die sich im Erhebungsplan bei deduktiver Vorgehensweise in Form empirisch überprüfbarer Hypothesen niederschlagen. In jedem Fall jedoch sollte er die statistischen Methoden umfassen, die zur Anwendung kommen sollen. Denn manche Methoden erfordern kardinal skalierte Merkmale, bei anderen reichen ordinale oder nominale aus. Die gewählte Methode hat somit Einfluß auf die Art der Befragung. Wird diese Empfehlung nicht berücksichtigt, so kommt bei der Auswertung schnell das böse Erwachen: die angedachte Methode oder die Methode, bei der der Anwender über ausreichendes Wissen verfügt, ist vielleicht wegen falschen Skalenniveaus der Variablen nicht verwendbar. Merkmale wie Geschlecht, Alter, Einkommensklasse haben häufig einen Einfluß auf Konsumverhalten. Aus diesem Grund ist es sinnvoll, sich im Vorfeld
2.9. KONTROLLFRAGEN
25
einer Befragung auch über solche ’Kontrollvariablen’ Gedanken zu machen. Mit steigendem Alter sinkt im allgemeinen die körperliche Mobilität und dies hat möglicherweise Einfluß auf das Konsumverhalten. Frauen haben möglicherweise andere Präferenzen als Männer, was sich in Konsumverhalten wie auch der Berufswahl, bei Bewerbungen oder im Verhalten bei Konflikten im Betrieb niederschlagen kann. Selbst zwischen solchen Kontrollvariablen kann es systematische Beziehungen geben. Mit steigendem Alter steigt häufig auch das Einkommen. Das Wissen um solche Beziehungen ist wichtig, da sie die Ergebnisse von Auswertungsmethoden beeinflussen können. Aus diesen Gründen sollten im Erhebungsplan auch solche Kontrollvariablen berücksichtigt werden. Es wird zu Versuchszwecken empfohlen, den erstellten Fragebogen vor der Erhebung mehrmals selbst mit Daten zu füllen. Mit diesen Daten kann ’gefüttert’ werden, um zu testen, ob die gewünschte Methode wirklich anwendbar ist. Fehlermeldungen des Statistikprogramms geben Hinweise auf Aspekte, die zusätzlich zu berücksichtigen sind. Zudem wird der Anwender gezwungen, sich bereits vor der Datenerhebung mit den Auswertungsmethoden vertraut zu machen und gegebenenfalls Wissenslücken zu schließen. Spätestens bei der Anwendung machen sich mangelnde Kenntnisse statistischer Grundlagen bemerkbar. Denn die Fragestellung bestimmt die Auswertungsmethode und diese die zu erhebenden Daten. Passen Daten und Methode aber nicht zusammen, so muß auf andere, häufig auch kompliziertere Methoden zurückgegriffen werden. Gerade dann, wenn es spannend wird, so zeigt die Erfahrung, ist Methodenkenntnis wichtig.
2.9
Kontrollfragen
1. Was ist eine Hypothese? 2. Erläutern Sie die Begriffe Deduktion und Induktion. 3. Was ist eine Grundgesamtheit? Verdeutlichen Sie den Begriff durch ein Beispiel. 4. Was ist eine statistische Einheit? 5. Stellen Sie anhand eines Beispiels dar, wann eine Vollerhebung nötig ist. 6. Was versteht man unter Vollerhebung, was unter Teilerhebung, was unter Stichprobe? 7. Warum werden Teilerhebungen überhaupt durchgeführt? 8. Wie lädt man neue 9. Wie ruft man in
-Pakete von R CRAN auf den lokalen Rechner? Hilfeseiten auf?
10. Es findet sich innerhalb der geladenen Programmpakete keine Hilfeseite. Was können Sie tun?
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH
26
11. Was bewirkt folgender Befehl: > rm ( list=ls() )? 12. Erläutern Sie folgende Anweisung: >setwd("g:/Auswertung"). 13. Bei folgender Anweisung hat sich ein Fehler eingeschlichen: YX <-read(‘‘YX.txt",dec=",",header=TRUE). Welcher? 14. Was bedeutet folgende Anweisung: > header=TRUE? 15. Sind die folgenden Datenssätze korrekt? Begründen Sie. Y X 1 10,5 500 2 12,9 550 3 33,85 300 16. In den Rohdaten ihres Tabellenverarbeitungsprogramms stehen der ersten Zeile die Überschriften der Variablen. Zum Einlesen der Daten nutzen Sie folgenden Befehl: > YX <-read.table("YX.txt",dec=",",header=FALSE). Führt er zu einem korrekten Einlesen ihrer Daten in ihre Antwort.
? Begründen Sie
17. Erläutern Sie, was man unter nominalen, ordinalen und kardinalen Merkmalen versteht. Geben Sie für jeden Merkmalstyp mindestens vier Beispiele an. 18. Erläutern Sie, was durch Eingabe des Befehls > summaryBy(Einkommen ~ Geschlecht+Betriebsgröße, data=Daten2, FUN=c(min, max, mean,var,length)) berechnet wird.
2.10. AUFGABEN
2.10
27
Aufgaben
1. Sie sollen in Erfahrung bringen, ob die organisatorischen Abläufe an der FH Würzburg-Schweinfurt verbessert werden könnten. Zu diesem Zweck planen Sie eine Befragung mit anschließender Auswertung und Präsentation. (a) Bestimmen Sie die Grundgesamtheit. (b) Diskutieren Sie, ob eine Voll- oder Teilerhebung sinnvoll wäre. (c) Stellen Sie die Fragen, die zur Erstellung des Fragebogens beantwortet werden müssen.4 (d) Angenommen, Sie möchten eine einfache Stichprobe ziehen. Welche Fragen ergeben sich hierbei?5 (e) Stellen Sie dar, wie Sie eine einfache Stichprobe ziehen? 2. Bei den folgenden Befehlen haben sich Fehler eingeschlichen. Wo sind sie? (a) x <- read(“Daten.csv”, dec=”’’, header=FALSE)6 (b) sample(c(1:8000000), 10, replace = TRUE, prob = null)7 (c) x*0,3.8 (d) summaryby(Einkommen Geschlecht+Betriebsgröße, data=Daten2, FUN = c(min, max, mean,var,length))9 (e) Der Befehl ’summaryBy’ läßt sich nicht laden. Woran kann dies liegen?10 3. (a) Besorgen Sie sich aus dem Onlineangebot des Statistischen Bundesamtes Daten zur Arbeitslosigkeit in Deutschland jeweils gegliedert nach Geschlecht, Jugendliche unter 20 Jahren, Personen 55 Jahre und älter, Schwerbehinderte, Ausländer, Aussiedler. (b) Wählen Sie als Dateiformat ’*.csv’ und lesen Sie sie in ein Tabellenkalkulationsprogramm ein. (c) Kennzeichnen Sie alle Missings einheitlich mit ’NA’. (d) Überprüfen Sie alle Daten auf Plausibilität. (e) Vergeben Sie für jede Variable einen eindeutigen Namen. Achten Sie darauf, daß die Namen nicht zu lang sind, denn Namen mit mehr als 256 Byte können nicht in eingelesen werden. (f) Speichern Sie die Datei als csv-Datei ab. (g) Lesen Sie die Daten in eingelesen wurden.
ein und überprüfen Sie, ob die Daten korrekt
4. Nutze die Daten aus Tabelle 2.3 und (a) berechne von jeder Variable das arithmetische Mittel. Geht das?11
28
KAPITEL 2. DATENERHEBUNG - GANZ PRAKTISCH (b) Ziehe von jedem Einkommen das arithmetische Mittel des Einkommens ab und bilde von den so gebildeten neuen Einkommen das arithmetische Mittel.12 (c) Erhöhe schließlich alle Einkommen um 100 Euro und verdopple das Alter. Berechnen aus den so modifizierten Daten das arithmetische Mittel des Einkommens bzw. des Alters.13 Hinweis: Diese Aufgabe vermittelt grundlegende Einsichten. Lösen Sie die Teilaufgaben mit und algebraisch. 5. (a) Nutze die Daten aus Tabelle 2.3 und (b) berechne von jeder Variable die empirische Varianz. Geht das?14 (c) Addieren Sie zu dem Einkommen jeder Person 234 Euro und berechnen Sie von den so gebildeten Werten die empirische Varianz.15 (d) Multipliziere jeden Einkommenswert mit 450 und berechne die empirische Varianz von den so gebildeten Werten.16 Hinweis: Diese Aufgabe vermittelt grundlegende Einsichten. Lösen Sie die Teilaufgaben mit und algebraisch.
Kapitel 3
Datenaufbereitung 3.1
Einleitung
Nach Abschluß der Datenerhebung liegen Rohdaten vor, d.h., daß jeder Person (oder sonstigem interessierenden Objekt) eine oder mehrere Merkmalsausprägungen zugeordnet sind. In Tabelle 2.3 sind Rohdatensätze einzelner Personen zu sehen. Rohdaten geben uns aber wenig Auskunft: der Informationsgehalt ist zwar hoch, aber wir können diese Informationen mit unserem Gehirn nicht sinnvoll verarbeiten - zumindest bei sehr umfangreichen Datensätzen. Aus diesem Grund ist der Statistiker bemüht, die Merkmalsausprägungen in geeigneter Weise zusammenzufassen. Daten werden • zwecks Plausibilitätsprüfung, • zur Vorbereitung betrieblicher Entscheidungen oder • zur Generierung empirisch überprüfbarer Hypothesen aufbereitet. Hierbei stellt sich auch die Frage, ob die Daten adäquat sind. Sind sie es nicht, so ist zu überlegen, ob neue Daten erhoben werden sollen. Falls sie im Hinblick auf die interessierende Fragestellung als adäquat beurteilt werden, so stellt sich die Frage, wie die Daten ausgewertet werden sollen. In der betrieblichen Praxis genügt häufig eine adäquate Beschreibung der vorliegenden Daten durch graphische Methoden, wie sie beispielhaft in Abschnitt 3.2 dargestellt werden oder mit Maßzahlen, wie in den nachfolgenden Abschnitten beschrieben. Die absolute und relative Häufigkeitsverteilung sowie Verteilungsfunktion und Quantile werden in den Kapiteln 3.3 bis 3.5 behandelt. Sie bilden zudem die Grundlage für den Einstieg in die statistische Testtheorie des Kapitels 4. Bei gruppierten Daten werden Histogramme verwendet. Sie sind Gegenstand des Kapitels 3.6. Bei gemeinsam erhobenen Merkmalen, d.h. wenn eine Person R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_3, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
KAPITEL 3. DATENAUFBEREITUNG
30
beispielsweise Auskunft gibt über ihr Einkommen und die Verteilung ihrer Ausgaben auf verschiedene Güter, kann eine Kontingenztabelle erstellt werden. Wie dies geschieht, ist in Kapitel 3.7 nachzulesen. Diese Technik wird auch in der Wahrscheinlichkeitstheorie genutzt, ist also von grundlegender Bedeutung. Lorenzkurve und Gini-Koeffizient bilden den Abschluß des Kapitels. Diese Methoden dienen ausschließlich der Beschreibung und laufen auch unter der Überschrift deskriptive oder beschreibende Statistik. Dabei ist es ganz gleich, ob eine Vollerhebung, Teilerhebung oder Stichprobe vorliegt: in all diesen Fällen ergibt sich die Aufgabe, sie aufzubereiten, da der Mensch den Informationsgehalt umfangreicher Rohdaten nicht erfassen kann. Im vorliegenden Kapitel geht es ausschließlich um die Beschreibung von Daten, ohne Bezug auf ein statistisches Entscheidungsmodell. Auf die Situation in der Grundgesamtheit zu schließen, ist Aufgabe der schließenden Statistik.
3.2 3.2.1
Graphische Methoden Grundlagen
Die Bedeutung der Datenaufbereitung wird schnell klar, wenn man mit echten Datensätzen arbeitet. Die Daten der Tabelle 3.1 wurden dem Onlineangebot des Statistischen Bundesamtes entnommen; sie stellen gleichzeitig die Lösung zu Aufgabe 3a des Kapitels 2 dar. Über den Link www-genesis.destatis.de kommt man zur Startseite. Hier finden sich eine Vielzahl wichtiger ökonomischer Kenngrößen unserer Volkswirtschaft. In Tabelle 3.1 wird lediglich ein Auszug der Daten abgebildet. Sie stehen unter dem Namen Daten4.csv zur Verfügung. Werden die Daten am Bildschirm vollständig angezeigt, so erkennt man schnell, wie schwierig es ist, sich auch nur einen Überblick zu verschaffen. Insgesamt umfaßt er 228 Zeilen und 14 Spalten. ’NA’ steht für ’not available’, die Daten sind nicht verfügbar. In der ersten Spalte findet sich der Monat, ’1’ steht für Januar, ’2’ für Februar und so weiter. In der zweiten Spalte ist das Jahr. Die Variablennamen mußten abgekürzt werden, damit sie in eingelesen werden konnten. In der Spalte ’alle_m’ sind alle männlichen Arbeitslose, in ’alle_w’ alle weiblichen und ’J_unter_20_m’ gibt alle Jugendlichen Arbeitslosen unter 20 Jahren an, das ’w’ in der nachfolgenden Spalte steht wiederum für weiblich. So bequem die Online-Datenbeschaffung auch ist, wichtige Informationen können den so bereitgestellten Daten nicht entnommen werden. Die Zahl der Arbeitslosen ist eine Bestandsgröße, d.h. sie bezieht sich auf einen Zeitpunkt. In der Tabelle des Statistischen Bundesamtes wird nicht erläutert, auf welchen Zeitpunkt, ob am Monatsanfang oder -ende, sich die Zahlen beziehen. Zudem
3.2. GRAPHISCHE METHODEN
1 2 3 4 5 6 7 . . . 228
Monat 1 2 3 4 5 6 7 . . . 12
31
Jahr alle_m alle_w J_unter_20_m J_unter_20_w ... 1990 NA NA NA NA ... 1990 NA NA NA NA ... 1990 NA NA NA NA ... 1990 NA NA NA NA ... 1990 NA NA NA NA ... 1990 NA NA NA NA ... 1990 NA NA NA NA ... . . . . . ... . . . . . ... . . . . . ... 2008 1617943 1484134 31868 24994 Tabelle 3.1: Arbeitslose in Deutschland Quelle: Bundesamt (2008)
ist es auch möglich, daß es keine Bestandsgrößen sind, sondern daß es sich jeweils um die durchschnittliche monatliche Zahl an Arbeitslosen handelt. In einer wissenschaftlichen Arbeit wäre in Veröffentlichungen des Statistischen Bundesamtes zu klären, welche Interpretation zutrifft. Handelt es sich um echte Bestandsgrößen, so gibt die Differenz der arbeitslosen Männer zwischen Dezember 2008 und November 2008 die Veränderung des Bestandes an männlichen Arbeitslosen an. Diese Veränderung ist eine Stromgröße, sie bezieht sich auf einen Zeitraum. Diese Beziehungen gelten immer, es handelt sich um Tautologien. Man sagt dazu auch Identitäten. Anhand dieser Daten lassen sich wichtige Begriffe klären. Einerseits kann man die Spalten betrachten, andererseits können ausschließlich Zeilen dargestellt werden. Im ersteren Fall ist der zeitliche Bezug der Daten wichtig. Die Reihenfolge der Daten kann nicht ohne weiteres verändert werden. Analysiert man solche Bestandsgrößen, so spricht man von Längsschnittanalyse. Betrachtet man dagegen lediglich eine Zeile, so handelt es sich um eine Querschnittsanalyse. Allerdings ist es auch möglich, daß in einer Tabelle statt Bestandsgrößen Stromgrößen stehen. Auch dann spricht man bei Nutzung der Spalten von Längsschnitts - und bei Betrachtung einer Zeile, von einer Querschnittsanalyse. Die Daten der Tabelle 3.1 entstammen einer Totalerhebung. Um die Zahlen korrekt interpretieren zu können, ist es nötig, die Definition von Arbeitslosigkeit in Erfahrung zu bringen. Bei der von der Bundesagentur für Arbeit verwendeten werden nur solche Personen als arbeitslos geführt, die auch arbeitslos gemeldet sind. Erhält eine Person kein Arbeitslosengeld und besteht wenig Hoffnung, überhaupt einen Arbeitsvertrag abschließen zu können, so ist der Anreiz gering, sich arbeitslos zu melden. Neben dieser Einschränkung gibt es weitere Kriterien, durch den der Begriff der Arbeitslosigkeit konkretisiert worden ist. In wissenschaftlichen Arbeiten ist es unumgänglich, den Begriff vollständig und korrekt darzustellen.
KAPITEL 3. DATENAUFBEREITUNG
32
Insbesondere in der Betriebswirtschaftslehre sind Längsschnittsuntersuchungen auf Stichprobenbasis relevant, um beispielsweise das Konsumverhalten von Kunden in Erfahrung zu bringen. Hierbei werden zwei unterschiedliche Arten an Studiendesigns unterschieden: die Trend- und die Panelstudie. Bei der ersteren werden zu verschiedenen Zeitpunkten Stichproben gezogen. Die Folge hiervon ist, daß zu verschiedenen Zeitpunkten unterschiedliche Personen in der Stichprobe enthalten sind. Bei Panelstudien wird zu Beginn der Studie eine Stichprobe gezogen und die Personen dieser Stichprobe zu festgelegten Zeitpunkten befragt oder beobachtet. Dann können Änderungen ein und derselben Personen im Zeitverlauf beobachtet werden und es sind korrekte Rückschlüsse auf das Konsumentenverhalten einzelner Personen möglich. Der Zusammenhang zwischen Bestands- und Stromgrößen wird auch in der Bevölkerungsstatistik genutzt. Hier dient er zur Aufstellung von Bevölkerungsprognosen (von der Lippe, 1996). Der Anspruch ist hier jedoch sehr viel geringer. Es soll weder Konsumverhalten analysiert noch Bevölkerungsprognosen erstellt werden. Vielmehr sollen lediglich ein paar Methoden zur graphischen Aufbereitung von Daten beispielhaft dargestellt werden.
3.2.2
Beispiele
Liniendiagramme Univariate Daten Soll lediglich eine Variable als Liniendiagramm dargestellt werden, so kann der Befehl ’plot’ genutzt werden. Das Vorgehen wird anhand einiger weniger Datensätze erläutert. Mit dem Befehl > x <- matrix(c(1,2,3,4,5,22,44,34,65,76),5,2) > x [,1] [,2] [1,] 1 22 [2,] 2 44 [3,] 3 34 [4,] 4 65 [5,] 5 76 > plot(x,type="l") werden die Datensätze eingelesen. ’c’ steht für ’column’, also Spalte. Mit anderen Worten wird mit c(1,2,3,4,5,22,44,34,65,76) ein Spaltenvektor eingetragen. Die ’5’ weist an, daß die ersten 5 Zahlen des Spaltenvektors in die erste Spalte der Matrix eingetragen werden sollen und die restlichen in die zweite Spalte. Ist einmal eine Matrix erzeugt, so kann mit > fix(x) eine Tabelle aufgerufen werden, mit der einfach Daten von Hand eingegeben werden können, ohne auf ein externes Tabellenverarbeitungsprogramm zurückgreifen zu müssen. Zur graphischen Darstellung wird der Befehl > plot(x[,1],x[,2],type="l")
3.2. GRAPHISCHE METHODEN
50 20
30
40
x[, 2]
60
70
33
1
2
3
4
5
x[, 1]
Abbildung 3.1: Einfaches Liniendiagramm Quelle: eigene Darstellung
verwendet. Mit ’x[,1]’ wird die erste und mit’x[,2]” die zweite Spalte der Matrix angesprochen. Die Werte des Vektors ’x[,1]’ werden an der Abszisse und die Werte von ’x[,2]’ an der Ordinate abgetragen. Das Ergebnis ist in Abbildung 3.1 dargestellt. Weitere Optionen können über den Befehl > ?plot in Erfahrung gebracht werden. Multivariate Daten Ziel ist die Darstellung der Ausprägungen mehrerer Variablen in ein und demselben Diagramm als Linien. Die Linien sollen farblich unterscheidbar sein, wobei die Zuordnung zu den Variablen in einer Legende beschrieben wird. Um diese Aufgabe zu lösen sind folgende Schritte nötig: 1. Zuordnung jeder Zeile zu exakt einem Monat, wobei die erste Aufgabe gelöst wird (a) indem ein Spaltenvektor mit korrekten Datumseinträgen erzeugt wird und (b) mit den Originaldaten zu einer neuen Matrix zusammengefaßt werden.
KAPITEL 3. DATENAUFBEREITUNG
34
2. Zudem ist der geeignete Graphikbefehl zu wählen und die Achsenbeschriftung einzutragen sowie 3. der Befehl zur Einfügung der Zeichenerklärung einzugeben. Genutzt werden die Daten aus Tabelle 3.1. Es wird davon ausgegangen, daß sie korrekt eingelesen worden sind und unter dem Variablennamen ’Daten4’ angesprochen werden können. Bei dem Autor führte die Eingabe der Anweisung > Daten4 <- read.csv("Daten4.csv",sep=";",header=TRUE) zum Ziel. Es müssen Datumsangaben vom Typ Monat-Jahr erzeugt werden. Hierzu wird das Paket ’zoo’ über > library(zoo) geladen. Damit wird der Befehl > x <- yearmon(1990+seq(0, 227)/12) > head(x) [1] "Jan 1990" "Feb 1990" "Mär 1990" "Apr 1990" "Mai 1990" verfügbar. Er bildet die nötigen Einträge vom Typ Monat-Jahr in einem Vektor. Die Datumsangabe beginnt bei demselben Wert wie bei den Originaldaten. Mit ’head’ werden die ersten Einträge eines -Objektes angezeigt. Anschließend müssen die ursprünglichen Daten mit dem Vektor x zu einer Matrix zusammengefaßt werden: > xx <- cbind(x,Daten4[,3:12]). Wenn mehrere Variablen als Linien in einer Abbildung erscheinen sollen, dann ist der Befehl ’matplot’ geeignet. Diese Abkürzung steht für ’matrixplot’, also die graphische Darstellung einer Matrix. > matplot(xx[,1],xx[,2:3],type="l",col=1:2, xlab="Jahre", ylab="Arbeitslose",main="Arbeitslose in Deutschland",lty=1) An der Abszisse soll das Datum und an der Ordinate die Variablenwerte abgetragen werden. Das Datum steht in der Liste ’xx’ in der ersten Spalte. Der Einfachheit wegen sollen nur die Arbeitslosenzahlen geschlechtsspezifisch angezeigt werden, also Spalten 2 und 3. Durch die Anweisung ’xx[,2:3]’ werden diese Spalten angesprochen. ’type=“l”’ sagt dem Programm, daß Linien ausgegeben werden sollen. Als Farben sollen die im Programm mit den Nummern ’1’ und ’2’ verwendet werden; ’col’ steht als Abkürzung von ’color’. ’xlab’ dient zur Beschriftung der Abszisse und ’ylab’ zur Beschriftung der Ordinate. Mit ’lty=1’ wird der Linientyp bestimmt; ’lty’ steht stellvertretend für ’linetype’. Damit fehlt lediglich die Legende, die mit Hilfe von > legend("topleft", c("männlich","weiblich"),col=1:2, text.col=1:2, title="Zeichenerklärung",lty = 1)
3.2. GRAPHISCHE METHODEN
35
1500000 2000000 2500000 3000000
Arbeitslose
Arbeitslose in Deutschland Zeichenerklärung männlich weiblich
1990
1995
2000
2005
Jahre
Abbildung 3.2: Liniendiagramm bei komplexen Datensätzen Quelle: eigene Darstellung, Daten aus Bundesamt (2008)
eingefügt wird. ‘topleft’ gibt die Plazierung an, der nachfolgende Vektor beinhaltet den einzutragenden Text. ’text.col’ bestimmt die Textfarbe und mit ’title=’ wird der Legende eine Überschrift zugewiesen; ’lty’ kennzeichnet wieder den Linientyp. Das Ergebnis ist in Abbildung 3.2 dargestellt. Kreisdiagramm Das Kreisdiagramm eignet sich zur Aufbereitung von Daten, die zum selben Zeitpunkt erhoben wurden. Mit dem Befehl > length(Daten4[,1]) [1] 228 wird die Anzahl der Zeilen ermittelt. Dann wird die Zeile 228 mit allen Variablen ausgelesen und der Variable ’x’ zugeordnet. > x <- Daten4[228,] > x Monat Jahr alle_m alle_w J_unter_20_m J_unter_20_w 228 12 2008 1617943 1484134 31868 24994 Schwerb_m Schwerb_w Auslaender_m Auslaender_w Aussied 228 88981 62462 253232 227465
... ... ... ...
KAPITEL 3. DATENAUFBEREITUNG
36
Die Variable ’x’ ist jedoch nicht numerisch > is.numeric(x) [1] FALSE, aus diesem Grund wird über folgende Anweisung > x2 <- as.numeric(x) > x2 [1] 12 2008 1617943 1484134 [10] 62462 253232 227465 NA
31868 NA
24994
... ...
die numerische Variable ’x2’ gebildet. Der Befehl > pie(x2[3:4]) erzeugt unter Nutzung der Standardeinstellungen von Möglichkeiten zur Gestaltung sind vielfältig. Mit
ein Kreisdiagramm. Die
> pie(x2[3:4],labels = names(x2), col=c("yellow", "blue")) > names(x2)=c("Männer","Frauen") erfolgt die Beschriftung der beiden Teile, wobei der Teil der Männer gelb und der der Frauen blau gekennzeichnet ist (siehe Abbildung 3.3). Eine Diskussion der Vor- und Nachteile dieser Darstellungsart findet sich bei (Dolic, 2004, S. 85ff).
3.3 3.3.1
Absolute Häufigkeitsverteilung Grundlagen
So schön die erzeugten Graphiken auch sein mögen, zur Entscheidungsfindung reichen sie alleine meist nicht aus. Man nutzt im allgemeinen weitere Kennzahlen, um ein besseres Verständnis der Situation zu erhalten. So können die Daten in Form absoluter Häufigkeiten zusammengefaßt werden. Zur Aufstellung der absoluten Häufigkeitsverteilung geht man wie folgt vor. Im einfachsten Fall wird lediglich eine Variable betrachtet. Bei Rohdaten findet man heraus, welche unterschiedlichen Ausprägungen überhaupt vorkommen. Diese Werte werden in die erste Zeile geschrieben. Anschließend zählt man durch, wie oft die einzelnen Ausprägungen in den Rohdaten vorkommen und schreibt die entsprechenden Werte in die zweite Zeile einer Tabelle und fertig ist eine absolute Häufigkeitsverteilung.
3.3.2
Beispiel 1
Mit können absolute Häufigkeiten über den Befehl ’table’ bestimmt werden. Auf Grundlage der Rohdaten in Tabelle 2.3 wurden die absoluten Häufigkeiten für das Merkmal Einkommen bestimmt. In der ersten Zeile befinden sich
3.3. ABSOLUTE HÄUFIGKEITSVERTEILUNG
37
Männer
Frauen
Abbildung 3.3: Kreisdiagramm Quelle: eigene Darstellung, Daten aus Bundesamt (2008)
die Merkmalsausprägungen und in der zweiten die absoluten Häufigkeiten ihres Vorkommens. > table(Daten2$Einkommen) 1000 1500 1900 2000 2111 2500 2700 2900 3300 1 1 2 2 2 1 1 2 1
3.3.3
Maßzahlen
Arithmetisches Mittel Auf Basis der absoluten Häufigkeitsverteilung lassen sich, ebenso wie mit Rohdaten, arithmetisches Mittel und empirische Varianz berechnen. Wird auf der Basis absoluter Häufigkeiten das arithmetische Mittel berechnet, so ist folgende Formel zu verwenden k 1 ni · xi . x ¯ := n i=1 xi bezeichnet die Ausprägung des interessierenden Merkmals, ni ist die absolute Häufigkeit der Merkmalsausprägung i und
KAPITEL 3. DATENAUFBEREITUNG
38
k die Anzahl unterschiedlicher Beobachtungen. Empirische Varianz Sie ist definiert als
k
2
s =
s2X
1 := ni (xi − x ¯ )2 , n i=1
wobei dieselben Bezeichnungen wie in Kapitel 3.3.3 verwendet werden. sX bedeutet, daß die empirische Varianz zu der Variablen X berechnet wird. Die Varianz ist ein Streuungsmaß, das heißt, sie gibt das Ausmaß an, in dem die Beobachtungen in der Grundgesamtheit (bei einer Vollerhebung) bzw. einer Stichprobe herumvagabundieren. Ist die Varianz sehr groß, so liegen die Beobachtungen weit verstreut um das arithmetische Mittel herum. Je kleiner die Varianz wird, desto näher liegen die Beobachtungen um den Mittelwert herum. Ist die Varianz gleich 0, dann haben alle Beobachtungen exakt denselben Wert.
3.3.4
Beispiel 2
Wird auf der Basis der absoluten Häufigkeitsverteilung das arithmetische Mittel berechnet, so ergeben sich selbstverständlich dieselben Ergebnisse wie auf der Basis von Rohdaten. Probieren Sie es zu Übungszwecken anhand einfacher Beispiele aus. Die Berechnung der empirischen Varianz kann in über die korrigierte Stichprobenvarianz erfolgen. Ausgegangen wird von den Daten 2.3, wobei die empirische Varianz des Einkommens berechnet werden soll. Um zur (empirischen) Varianz zu gelangen, ist in > (n-1) * var(Daten$Einkommen) /n bzw. in unserem speziellen Fall > length(Daten2$Einkommen) * var(Daten2$Einkommen) / length(Daten2$Einkommen) [1] 394337.6 einzugeben. Der Befehl > table(Daten2$Einkommen) gibt die absolute Häufigkeitsverteilung nur temporär an. Soll im weiteren Verlauf einer statistischen Auswertung auf die absolute Häufigkeit Bezug genommen werden, so kann man durch Zuweisung eines Variablennamens das Ergebnis permanent machen. Dies geschieht unter Verwendung von Daten2 durch folgenden Befehl. > absoluteHäufigkeit <- table(Daten2$Einkommen)
3.3. ABSOLUTE HÄUFIGKEITSVERTEILUNG
1.5 1.0 0.5 0.0
absoluteHäufigkeit
2.0
39
1000
1500
1900 2111
2500
2900
3300
Abbildung 3.4: Absolute Häufigkeitsverteilung Quelle: eigene Darstellung Eingabe von > absoluteHäufigkeit liefert als Ergebnis: 1000 1500 1900 2000 2111 2500 2700 2900 3300 1 1 2 2 2 1 1 2 1 Durch die Anweisung > plot(absoluteHäufigkeit) erzeugt Abbildung 3.4. An der Abszisse sind die Merkmalsausprägungen abgetragen und an der Ordinate die zugehörigen absoluten Häufigkeiten. Durch > plot(absoluteHäufigkeit, xlab =’’Einkommen’’) wird die Abszisse mit ’Einkommen’ beschriftet. Alternativ hierzu lassen sich auch Balkendiagramme (bar charts oder bar plots) erstellen. Hierzu nutzt man den Befehl ’barplot’. Über die Funktion ’Noten=scan()’ gefolgt mit ’Return’ können anschließend Daten direkt von dem Bildschirm in eingelesen werden. Erneutes ’Return’ schließt die Dateneingabe ab. Nachdem die absolute Häufigkeitsverteilung der Noten ermittelt wurde, wird mit der Anweisung ’barplot’ das Balkendiagramm erstellt. Das Ergebnis ist in Abbildung 3.5 widergegeben.
KAPITEL 3. DATENAUFBEREITUNG
10
40
6 4 0
2
absolute Häufigkeit
8
beste Note zweitbeste drittbeste schlechteste
1
2
3
4
Note
Abbildung 3.5: Balkendiagramm Quelle: eigene Darstellung
> Noten=scan() 1: 3 4 1 1 3 4 3 1 3 3 2 2 1 1 2 3 2 3 1 1 1 1 4 3 1 26: Read 25 items > barplot(table(Noten), width = 1, legend.text = c("beste Note", "zweitbeste","drittbeste","schlechteste"), angle = 45, col = 2:5, xlab = "Note", ylab = "absolute Häufigkeit", plot = TRUE, axis.lty = 1)
3.4 3.4.1
Relative Häufigkeitsverteilung Grundlagen
Werden die absoluten Häufigkeiten durch die Anzahl an Beobachtungen dividiert, so erhält man die relative Häufigkeiten. Bei der relativen Häufigkeitsverteilung werden in der ersten Zeile die Merkmalsausprägungen und in der zweiten die zugehörigen relativen Häufigkeiten angegeben. Die relative Häufigkeitsverteilung kann auch als Funktion geschrieben werden: hi für x = xi h(x) = 0 sonst
3.4. RELATIVE HÄUFIGKEITSVERTEILUNG
41
Diese Darstellungform ist zur Datenaufbereitung und Präsentation nicht zu empfehlen. Dennoch sollte man sich mit dieser Schreibweise vertraut machen, da sie in der Wahrscheinlichkeitstheorie und schließenden Statistik von Bedeutung ist.
3.4.2
Beispiel 1
Das Beispiel von S. 38 wird fortgeführt. Der Befehl >
sum(absoluteHäufigkeit)
[1] 13 gibt die Anzahl der Beobachtungen, n, an. Die zuvor definierte Variable absoluteHäufigkeit’ wird abgeändert zu > absoluteHäufigkeit/sum(absoluteHäufigkeit) und liefert dann die relative Häufigkeitsverteilung. 1000 1500 1900 2000 2111 0.07692308 0.07692308 0.15384615 0.15384615 0.15384615 2500 2700 2900 3300 0.07692308 0.07692308 0.15384615 0.07692308 Folgende Anweisung > relativeHäufigkeit <- absoluteHäufigkeit/sum(absoluteHäufigkeit) definiert die permanente Variable ’relative Häufigkeit’, wobei die Summe aller relativen Häufigkeiten gleich 1 sein muß, was leicht überprüft werden kann: > sum(relativeHäufigkeit) [1] 1 Als Häufigkeitsfunktion geschrieben erhält man: ⎧ ⎪ 0.07692308 für x = 1000 ⎪ ⎪ ⎪ ⎪ ⎪ 0.07692308 für x = 1500 ⎪ ⎪ ⎪ ⎪ 0.15384615 für x = 1900 ⎪ ⎪ ⎪ ⎪ ⎪0.15384615 für x = 2000 ⎪ ⎪ ⎪ ⎨0.15384615 für x = 2111 h(x) = ⎪ 0.07692308 für x = 2500 ⎪ ⎪ ⎪ ⎪ ⎪0.07692308 für x = 2700 ⎪ ⎪ ⎪ ⎪ 0.15384615 für x = 2900 ⎪ ⎪ ⎪ ⎪ ⎪ 0.07692308 für x = 3300 ⎪ ⎪ ⎪ ⎩0 sonst Der Befehl
KAPITEL 3. DATENAUFBEREITUNG
0.10 0.05 0.00
relative Häufigkeit
0.15
42
1000
1500
1900 2111
2500
2900
3300
Einkommen
Abbildung 3.6: Relative Häufigkeitsverteilung Quelle: eigene Darstellung
> plot(relativeHäufigkeit, xlab ="Einkommen", ylab="relative Häufigkeit") öffnet ein neues Fenster, dessen Inhalt in Abbildung 3.6 dargestellt ist. An der Waagerechten dieses Stabdiagramms sind die Merkmalsausprägungen und an der Senkrechten die relativen Häufigkeiten abgetragen.
3.4.3
Maßzahlen
Arithmetisches Mittel Auf Grundlage der relativen Häufigkeitsverteilung errechnet sich das arithmetische Mittel mit folgender Formel x ¯ :=
k
hi · xi , mit hi := ni /n,
i=1
wobei hi für relative Häufigkeit steht, ni die absolute Häufigkeit des Vorkommens des Merkmals i angibt, k die Anzahl unterschiedlicher Merkmalsausprägungen kennzeichnet.
3.5. VERTEILUNGSFUNKTION UND QUANTILE
43
Empirische Varianz Mit der relative Häufigkeitsverteilung läßt sich ebenfalls die empirische Varianz berechnen: k hi (xi − x ¯)2 , s2 = s2X := i=1
wobei die Variablen genauso definiert sind wie oben beim arithmetischen Mittel.
3.4.4
Beispiel 2
Berechnet man auf Grundlage von Daten2 das arithmetische Mittel und die empirische Varianz mit Hilfe der relativen Häufigkeitsverteilung, so erhält man selbstverständlich dieselben Ergebnisse wie in Abschnitt 3.3.4.
3.5 3.5.1
Verteilungsfunktion und Quantile Verteilungsfunktion
Grundlagen Die empirische Verteilungsfunktion ist definiert als h(xi ), H(x) :=
(3.1)
xi x
mit relativer Häufigkeit h(xi ). Das bedeutet, daß an jeder Stelle, an der x = xi , H(xi ) um den Wert h(xi ) steigt. Am besten macht man sich die Funktion über ein Beispiel klar. Wir verwenden das Merkmal Einkommen aus Daten2. H(900) = 0, da links von 900 kein Einkommen liegt. Erst bei einem Einkommen von 1000 ist die relative Häufigkeit größer als Null. H(1000) = h(1000) = 1/13. Bei einem Einkommen von 1400 ist der Wert der Verteilungsfunktion ebenfalls 1/13, denn links von 1400 ist nur eine Merkmalsausprägung und 1400 ist eine relative Häufigkeit von Null zugeordnet. Das Einkommen 1500 ist jedoch wieder eine Merkmalsausprägung mit positiver relativer Häufigkeit: H(1500) = 1/13 + 1/13 = 2/13. Auf diese Weise kann man aus der relativen Häufigkeitsverteilung die restlichen Werte der Verteilungsfunktion herleiten. Diese Überlegungen machen klar, daß man an Sprungstellen dem Wert H(xi ) von links nicht beliebig nahe kommen kann, man sagt, daß die Funktion linksseitig nicht stetig ist. Von rechts aber kann man einer Sprungstelle beliebig nahe kommen, sie ist also rechtsstetig.
44
KAPITEL 3. DATENAUFBEREITUNG
Diese Art der Darstellung kann bei Vollerhebungen wie Teilerhebungen eingesetzt werden. Sie dient lediglich der Beschreibung der vorliegenden Daten. Liegt eine Teilerhebung vor, so ist bei der Interpretation allerdings Vorsicht geboten: es kann nicht einfach von der Teilerhebung auf die Grundgesamtheit geschlossen werden. Wurden beispielsweise bei der Datenerhebung systematisch Fehler gemacht, so wird sich dies in einem Bias, einer systematischen Verzerrung, in der Teilerhebung niederschlagen. Zudem hat die Art und Weise der Datenerhebung ceteris paribus systematischen Einfluß auf die Verteilung. Zusammenhänge dieser Art werden bei der Datenaufbereitung häufig ausgeblendet. Realiter wird die Verteilungsfunktion kaum zur Datenaufbereitung verwendet. Denn zu ihrer Interpretation sind Vorkenntnisse nötig, die sie zu Präsentationszwecken eher ungeeignet machen. In der Wahrscheinlichkeitstheorie und der schließenden Statistik zeigt sich ihre Bedeutung. Dies ist der eigentliche Grund, weshalb sie hier vorgestellt wird. Diese Grundlage wird beim Verstehen statistischer Testverfahren von großem Nutzen sein. Beispiel Lade zuerst das Paket QRMlib, um die Funktion ’edf’ (empirical distribution function) verfügbar zu machen. Durch Eingabe von > Eink <- sort(Daten2$Einkommen) wird das Einkommen in ’Daten2’ der Größe nach sortiert und durch > Eink [1] 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300 das Ergebnis angezeigt. Die Zeile > edf(Eink) [1] 0.07692308 0.15384615 0.30769231 0.30769231 0.46153846 0.46153846 0.61538462 0.61538462 0.69230769 0.76923077 [11] 0.92307692 0.92307692 1.00000000 führt schließlich zur Ausgabe der empirischen Verteilungsfunktion, wobei freilich nur die kumulierten relativen Häufigkeiten abgetragen werden. Welche Angabe fehlt?17 Durch > c(500, Eink, 3500) [1] 500 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300 3500
3.5. VERTEILUNGSFUNKTION UND QUANTILE
45
wird (auch wenn die Anzeige in einer Zeile erfolgt, um Platz zu sparen) ein Spaltenvektor erzeugt. Versuchen Sie es selbst und erzeugen Sie den Spaltenvektor18 ⎛ ⎞ 1 ⎜2⎟ ⎜ ⎟. ⎝3⎠ 4 Eingabe von > plot(c(500, Eink, 3500), c(0,edf(Eink),1),xlab = "Einkommen", ylab = "H(Einkommen)",type="s") führt zur Anzeige der gewünschten Graphik in einem neuen Fenster (siehe Abbildung 3.7). Der Eintrag ’c(500, Eink, 3500)’ gibt die Werte an, die an der Abszisse abgetragen werden und ’c(0,edf(Eink),1)’ die Werte der Ordinate. Der Befehl ’type = s’ weist das Programm an, eine Treppenfunktion zu zeichnen. Man erkennt, daß die Funktion treppenförmig von links nach rechts steigend verläuft: sie beginnt bei x-Werten von −∞ bei Null, steigt dann in Stufen an und erreicht bei +∞ die Eins. Aus der Graphik geht allerdings nicht hervor, daß sie an Sprungstellen zwar rechts-, aber nicht linksseitig stetig ist. Markiere in der empirischen Verteilungsfunktion der Abbildung 4 die Sprungstellen xi und kennzeichne den zugehörigen Wert H(xi ) , der rechtsseitig stetig ist durch einen schwarzen Punkt.19
3.5.2
Quantile
Grundlagen Ein Quantil splittet Daten in zwei Teilbereiche auf. Angenommen, es wird das 0,25-Quantil gesucht, so ist die Ausprägung xi zu finden, bei der mindestens 25 Prozent der Ausprägungen kleiner oder gleich xi und mindestens 75 Prozent der Ausprägungen größer oder gleich xi sind. Das 0,25-Quantil heißt auch unteres Quartil, das 0,75-Quantil oberes Quartil und das 0,5-Quantil wird Median genannt. Angenommen, die absolute Häufigkeitsverteilung sei gleich Merkmalsausprägung absolute Häufigkeit
-2 1
1 2
2 1
Wir haben dann als Rohdaten aufsteigend angeordnet -2, 1, 1, 2 vorliegen. 50 Prozent der Beobachtungen sind kleiner und 50 Prozent sind größer als 1. Folglich ist der Median gleich 1. Sollte aber folgende absolute Häufigkeitsverteilung
Merkmalsausprägung absolute Häufigkeit
-2 1
0 1
1 1
2 1
KAPITEL 3. DATENAUFBEREITUNG
0.6 0.4 0.0
0.2
H(Einkommen)
0.8
1.0
46
500
1000
1500
2000
2500
3000
3500
Einkommen
Abbildung 3.7: Verteilungsfunktion Quelle: eigene Darstellung gegeben sein, so ist die geordnete Folge der Beobachtungen gleich -2, 0, 1, 2. Man erkennt, daß 50 Prozent der Beobachtungen kleiner oder gleich 0 und 50 Prozent größer oder gleich 1 sind. Der Median ist in diesem Fall nicht eindeutig bestimmt. In einem Statistikprogramm ist dann eine Entscheidungsregel nötig, mit Hilfe derer er eindeutig angegeben werden kann. Beispiel Der Befehl quantile(x) führt zu dem Ergebnis > quantile(Daten2$Einkommen) 0% 25% 50% 75% 100% 1000 1900 2111 2700 3300 Dies bedeutet, daß mindestens 25 Prozent aller Ausprägungen kleiner oder gleich 1900 und mindestens 75 Prozent größer oder gleich 1900 sind. Alternativ hierzu kann der Median auch mit dem Befehl > median(Daten2$Einkommen, na.rm = FALSE) [1] 2111 ermittelt werden. Jetzt soll der Fall betrachtet werden, bei dem die Bestimmung des Quantils nicht eindeutig möglich ist. Es wird von folgenden Rohdaten ausgegangen:
3.5. VERTEILUNGSFUNKTION UND QUANTILE -2
1,2
2
3
4
47
5.
Den einzelnen Ausprägungen werden dann gemäß der Formel (j − 1)/(n − 1) relative Häufigkeiten zugeordnet. j kennzeichnet hierbei die j-te Ausprägung und n ist die Gesamtzahl an Beobachtungen. Dies ist die Standardeinstellung in funktion: xi : H(xi ) :
-2 0
1,2 0,2
2 0,4
3 0,6
. Damit ergibt sich folgende Verteilungs-
4 0,8
5 1
Das 0, 25-Quantil muß demgemäß zwischen der Beobachtung der zweiten Merkmalsausprägung mit Wert 1, 2 und der dritten mit Wert 2 liegen. Der Beobachtung 1, 2 ist bereits eine relative Häufigkeit von 0, 2 zugeordnet. Es fehlt die relative Häufigkeit in Höhe von 0, 05, um das 0, 25-Quantil zu erreichen. Im Intervall 1, 2 bis 2 steigt die relative Häufigkeit von 0, 2 auf 0, 4, also um 0, 2 an. Über einen einfachen Dreisatz berechnet man die Steigerung von 1, 2 bis zum 0, 25-Quantil: 0, 05 0, 2 = . (3.2) 2 − 1, 2 y y ist gleich 0, 2. Von 1, 2 bis 1, 4 steigt die relative Häufigkeit approximativ um 0, 05. Somit wird 1, 4 (= 1, 2 + 0, 2) als 0, 25-Quantil ausgewiesen. Das Vorgehen ist auch in Abbildung 3.8 illustriert. Es ist das 0, 25-Quantil gesucht, weshalb zu der relativen Häufigkeit von 0, 2 bei dem x-Wert von 1, 2 noch 0, 05 hinzuaddiert werden. Die Waagerechte in Höhe von 0, 25 schneidet die Gerade, die von links unten nach rechts oben verläuft. Bildet man in diesem Schnittpunkt das Lot auf die x-Achse, so erhält man den gesuchten x-Wert. Auch gemäß dieser Illustration müssen sich die Verhältnisse, wie in 3.2 angegeben, entsprechen. Die Anwendung des Befehls > quantile(c(-2,1.2,2,3,4,6),type=7) 0% 25% 50% 75% 100% -2.00 1.40 2.50 3.75 6.00 bestätigt dies. “type=7” weist an, den im Programm hinterlegten “Typ 7” zur Bestimmung von Quantilen zu verwenden. Dies ist die Standardeinstellung.
KAPITEL 3. DATENAUFBEREITUNG
0.30
0.35
0,8
0.2
0.25
relative Häufigkeit
0.40
48
0.05
0.20
y 1.2
1.4
1.6
1.8
2.0
Beobachtungen
Abbildung 3.8: Berechnung der Quantile mit Option Typ 7 Quelle: eigene Darstellung
3.5.3
Verteilungsfunktion und Quantile
Grundlagen Quantile können auch bestimmt werden, indem die Umkehrfunktion der Verteilungsfunktion bestimmt wird. Denn die Verteilungsfunktion gibt die kumulierte relative Häufigkeit H(x) zu einer bestimmten Merkmalsausprägung x an. Deren Umkehrfunktion H −1 (x) ergibt dann das H-Quantil. Das Ergebnis ist gleich x. In Abbildung 3.9 ist die korrekte Verteilungsfunktion des Einkommens aus Daten2 dargestellt. Will man das 0,25-Quantil bestimmen, so wählt man an der Ordinate die 0,25 geht nach rechts und nimmt das Lot auf die Abszisse. In vorliegendem Fall erhält man 1900. Ebenso kann der Median bestimmt werden. Auch über diesen Weg erhält man den Wert 2111. Einen Schönheitsfehler hat dieses Vorgehen allerdings. Die Umkehrfunktion einer Verteilungsfunktion ist im allgemeinen nicht eindeutig. Will man beispielsweise das 17 -Quantil bestimmen, so sind Werte zwischen 1000 und 1500 mögliche Kandidaten für dieses Quantil. Dann muß, wie bereits erwähnt, eine Entscheidungsregel her, damit das Statistikprogramm eindeutig ein Quantil ausweisen kann.
3.5. VERTEILUNGSFUNKTION UND QUANTILE
49
0.6 0.4 0.0
0.2
Fn(x)
0.8
1.0
ecdf(Daten2$Einkommen)
1000
1500
2000
2500
3000
3500
Einkommen
Abbildung 3.9: Korrekte graphische Darstellung der Verteilungsfunktion Quelle: eigene Darstellung
Beispiel Alternativ zur Standardeinstellung kann in auch die Inverse der empirischen Verteilungsfunktion zur Bestimmung von Quantilen verwendet werden. Bei Mehrdeutigkeit wird die Sprungstelle gewählt. Der Befehl hierzu lautet: > quantile(c(-2,1.2,2,3,4,6),type=1) 0% 25% 50% 75% 100% -2.0 1.2 2.0 4.0 6.0 Das Programm kann auch angewiesen werden, bei Mehrdeutigkeit den Mittelwert zwischen der oberen und unteren Merkmalsausprägung statt der Sprungstelle zu wählen. Wird dies gewünscht, dann muß Typ 2 verwendet werden. > quantile(c(-2,1.2,2,3,4,6),type=2) 0% 25% 50% 75% 100% -2.0 1.2 2.5 4.0 6.0 Insgesamt sind in 9 verschiedene Möglichkeiten implementiert, um Quantile bei Mehrdeutigkeit zu bestimmen. Ihre Beschreibung erhält man über den Befehl > ?quantile
KAPITEL 3. DATENAUFBEREITUNG
50
Allerdings sollte man dem Problem der Quantilsbestimmung keine zu große Bedeutung beimessen. Denn bei praktischen Fragestellungen werden häufig stetige Verteilungen verwendet oder sie dienen der Approximation von diskreten. Dann entsteht das beschriebene Problem der Mehrdeutigkeit nicht. Zudem verringert sich das Problem selbst bei Verwendung von diskreten Verteilungen in der praktischen Anwendung dadurch, daß eine Vielzahl an Beobachtungen vorliegt. Die Wahl der Zuordnungsregel beeinflußt das Ergebnis dann häufig nicht.
3.6
Histogramme
3.6.1
Absolute Häufigkeit
Grundlagen Häufig kommt es vor, daß bei Erhebungen keine exakten Angaben in Erfahrung gebracht werden, sondern der Befragte sich für eine Gruppe entscheiden soll. Zum Beispiel kann es sein, daß nicht das exakte Einkommen des letzten Monats, sondern monatliche, durchschnittlich im Verlauf eines Jahres erzielte Einkommen abgefragt werden, wobei Einkommensbereiche angegeben werden. Zum Beispiel wird erfragt: Liegt Ihr Einkommen üblicherweise im Bereich von 0 bis 1000 Euro, von 1001-1500 Euro usw.? Solche Daten können graphisch durch Histogramme veranschaulicht werden. Auf der Abszisse werden dann die Klassengrenzen und an der Ordinate entweder die absolute Klassenhäufigkeit oder ¯ die durchschnittliche Häufigkeitsdichte h(x) angegeben. Beispiel Durch > hist(Daten2$Einkommen, main = "Histogramm", xlab = "Einkommen", ylab = "absolute Häufigkeit") wird ein Histogramm mit den Daten ’Daten2’ und Spalte Einkommen gezeichnet. Zusätzlich wurden Befehle angegeben, mit Hilfe derer ein Titel und die Achsenbezeichnungen eingetragen werden können. Die Interpretation dieses Histogramms fällt leichter, wenn man die Rohdaten der Größe nach sortiert. > sort(Daten2$Einkommen) [1] 1000 1500 1900 1900 2000 2000 2111 2111 2500 2700 2900 2900 3300 An der Abszisse sind die Klassengrenzen eingetragen, sie werden in vorliegendem Fall durch das Programm selbsttätig erzeugt. An der Ordinate ist die absolute Häufigkeit der Beobachtungen abgetragen, die in die Klasse fällt. Ist eine Ausprägung identisch gleich der Klassenobergrenze, so wird sie der unteren Klasse zugeordnet. Beispielsweise fallen in das zweite Intervall die Ausprägungen ’1900, 1900, 2000, 2000’, weshalb an der Ordinate die absolute Häufigkeit ’4’ abgetragen ist; die Ausprägung ’1500’ ist der ersten Klasse zugeordnet.
3.6. HISTOGRAMME
51
3 2 1 0
absolute Häufigkeit
4
Histogramm
1000
1500
2000
2500
3000
3500
Einkommen
Abbildung 3.10: Histogramm mit absoluten Häufigkeiten Quelle: eigene Darstellung
3.6.2
Durchschnittliche Häufigkeitsdichte
Grundlagen Aus den absoluten Häufigkeiten jeder Klasse lassen sich die relativen Klassenhäufigkeiten berechnen, indem erstere durch die Anzahl an Beobachtungen, n, dividiert werden. Teilt man nun die relative Klassenhäufigkeit von Klasse j durch die zugehörige Klassenbreite, so erhält man die durchschnittliche Häufigkeitsdichte. Dieses Verfahren wird gewählt, um einen besseren Eindruck von der Verteilung der Objekte in jeder Klasse zu erhalten. Wir wissen ja nur, daß sich eine bestimmte absolute Anzahl an Merkmalsausprägungen in einer bestimmten Klasse befinden. Die Ausprägungen könnten alle denselben Wert haben, ein eher unwahrscheinlicher Fall, oder sie könnten innerhalb einer Klasse normalverteilt sein, eine Möglichkeit, die ebenfalls als eher abwegig zu betrachten ist. Ohne zusätzliche Information erscheint es eine akzeptable Annahme zu sein, daß alle Objekte innerhalb einer Klasse gleichverteilt sind. Aus diesem Grund wird die relative Häufigkeit innerhalb einer Klasse durch die Klassenbreite dividiert. Werden an der Abszisse die Klassenbreiten und der Ordinate die jeweilige durchschnittliche Häufigkeitsdichte abgetragen, so erhalten wir eine Abbildung, die als Histogramm mit durchschnittlicher Häufigkeitsdichte oder einfach als Histogramm bekannt ist. Durch diese Darstellungsform wird kenntlich gemacht,
52
KAPITEL 3. DATENAUFBEREITUNG
wie viele Beobachtungen durchschnittlich in Klasse j zu liegen kommen, die genaue Verteilung innerhalb der einzelnen Klassen ist nicht ersichtlich. Beispiel Die Anweisung > hist(Daten2$Einkommen, plot=FALSE) führt zu folgender Anzeige. $breaks [1] 1000 1500 2000 2500 3000 3500 $counts [1] 2 4 3 3 1 $intensities [1] 0.0003076922 0.0006153846 0.0004615385 0.0004615385 0.0001538462 $density [1] 0.0003076922 0.0006153846 0.0004615385 0.0004615385 0.0001538462 $mids [1] 1250 1750 2250 2750 3250 $xname [1] "Daten2$Einkommen" $equidist [1] TRUE attr(,"class") [1] "histogram" In der zweiten Zeile sind die Klassengrenzen angegeben und in der vierten Zeile die jeweiligen absoluten Klassenhäufigkeiten. Die Klassenbreiten sind über alle Klassen hinweg identisch gleich 500, sie sind äquidistant. Division der absoluten Klassenhäufigkeiten durch die Anzahl an Beobachtungen in Höhe von n = 13 ergibt die relativen Klassenhäufigkeiten, die hier nicht angegeben sind. Die durchschnittlichen Häufigkeitsdichten sind nach der mit ’$density’ gekennzeichneten Zeile abgetragen. Zur Erzeugung des Histogramms mit durchschnittlicher Häufigkeitsdichte ist nachfolgender Befehl nötig. > hist(Daten2$Einkommen, main = "Histogramm", xlab = "Einkommen", ylab = "durchschnittliche Häufigkeitsdichte", freq = FALSE) An der Ordinate ist die durchschnittliche Häufigkeitsdichte der ersten Klasse mit 3 3e − 04 = 3 · 10−04 = 4 = 0, 0003 10
3.7. KONTINGENZTABELLE
53
0e+00
2e−04
4e−04
durchschnittliche Häufigkeitsdichte
6e−04
Histogramm
1000
1500
2000
2500
3000
3500
Einkommen
Abbildung 3.11: Histogramm mit durchschnittlicher Häufigkeitsdichte Quelle: eigene Darstellung
angegeben, das heißt, die durchschnittliche relative Häufigkeit, mit der in dieser Klasse Beobachtungen vorgefunden werden, beträgt (2/13)/500 = 2/(13∗500) = 0, 0003076923 0, 0003. Um zu der relativen Häufigkeit an Beobachtungen in dieser Klasse zu gelangen, ist die durchschnittliche Häufigkeitsdichte mit der zugehörigen Klassenbreite von fünfhundert (= 1500 − 1000) malzunehmen. Mit anderen Worten gibt die Fläche die relative Häufigkeit der Besetzung einer Klasse mit Beobachtungen an.
3.7 3.7.1
Kontingenztabelle Gemeinsame Verteilung
Grundlagen ’Kleben’ an einer statistischen Einheit (beispielsweise einer Person) zwei Merkmale, so kann man die gemeinsame Verteilung beider Variablen in einer Kontingenztabelle (gelegentlich auch Korrelationstabelle genannt) darstellen. nij soll die absolute Häufigkeit der Merkmalskombination angeben, mit der Merkmal x Ausprägung xi und Merkmal y Ausprägung yj aufweist. n12 kennzeichnet dann beispielsweise die absolute Häufigkeit des Auftretens der Kombination x1 und y2 . Eine vier mal drei Kontingenztabelle ist in Tabelle 3.2 dargestellt.
KAPITEL 3. DATENAUFBEREITUNG
54
x1 x2 x3 x4
y1 n11 n21 n31 n41
y2 n12 n22 n32 n42
y3 n13 n23 n33 n43
Tabelle 3.2: Vier mal drei Kontingenztabelle Quelle: eigene Darstellung In der waagerechten Tabellenüberschrift wird die Variable y mit den Ausprägungen yj und in der senkrechten die Variable x mit Ausprägungungen xi abgetragen. Alternativ zu dieser Darstellungsform können statt der absoluten Häufigkeiten die relativen Häufigkeiten genutzt werden. Beispiel Mit den Rohdaten in Tabelle 2.3 kann anhand der Merkmale Geschlecht und Betriebsgröße eine Kontingenztabelle erzeugt werden. In der ersten Zeile stehen die Merkmalsausprägungen des Merkmals ’Betriebsgröße’ und in der ersten Spalte die des Geschlechtes. > table(Daten2$Geschlecht,Daten2$Betriebsgroesse) g k m m 3 2 2 w 0 2 4 Zur Berechnung der Anzahl an Beobachtungen, n, führt: > sum(table(Daten2$Geschlecht,Daten2$Betriebsgroesse)) [1] 13 Division der obigen Kontingenztabelle durch die Anzahl an Beobachtungen, n, ergibt eine Kontingenztabelle mit relativen Häufigkeiten. > table (Daten2$Geschlecht, Daten2$Betriebsgroesse) /sum(table (Daten2$Geschlecht, Daten2$Betriebsgroesse)) g k m m 0.2307692 0.1538462 0.1538462 w 0.0000000 0.1538462 0.3076923 Die Summe aller relativen Häufigkeiten muß selbstverständlich wieder 1 ergeben. > sum(table (Daten2$Geschlecht, Daten2$Betriebsgroesse) /sum(table (Daten2$Geschlecht, Daten2$Betriebsgroesse))) [1] 1
3.7. KONTINGENZTABELLE
x1 x2 x3 x4. Randverteilung Absolute Häufigkeitsverteilung y
55
y1
y2
y3
n11 n21 n31 n41 n.1
n12 n22 n32 n42 n.2
n13 n23 n33 n43 n.3
Randverteilung Absolute Häufigkeitsverteilung x n1. n2. n3. n4.
Tabelle 3.3: Randverteilung Quelle: eigene Darstellung
3.7.2
Randverteilungen
Grundlagen Summiert man in Tabelle 3.2 alle absoluten Häufigkeiten der Zeile i auf, so erhält man die absolute Häufigkeit dieser Merkmalsausprägung ni• . Der Punkt in ni• deutet an, daß bei gegebenem i über alle Ausprägungen des Merkmals y aufsummiert wird. Addition aller absoluten Häufigkeiten der Spalte j ergibt die absolute Häufigkeit n•j der Merkmalsausprägung j. Mit anderen Worten steht in der letzten Spalte die absolute Häufigkeitsverteilung des Merkmals x und in der untersten Zeile jene des Merkmals y. Sind in der Kontingenztabelle relative Häufigkeiten abgetragen und errechnet man die Randverteilungen, so erhält man die relativen Häufigkeitsverteilungen des Merkmals x bzw. y. In Kontingenztabelle 3.3 sind die absoluten Häufigkeiten abgetragen. Teilt man sie durch n, die Anzahl aller Merkmalsausprägungen, so erhält man die relative gemeinsame Häufigkeitsverteilung, bzw. die relativen Randverteilungen.
Beispiel Durch folgende Zuordnung kann die Kontingenztabelle über ’KT’ angesprochen werden. > KT <- table(Daten2$Geschlecht,Daten2$Betriebsgroesse) > KT g k m m 3 2 2 w 0 2 4 Mit > KT[1,] g k m 3 2 2
KAPITEL 3. DATENAUFBEREITUNG
56
wird die erste Zeile angesprochen und der Befehl > KT[2,] g k m 0 2 4 spricht Zeile zwei an. Im Gegensatz zu der oben angeführten mathematischen Notation fehlt bei ’KT[2,]’ nach dem Komma der Punkt, doch die Interpretation ist ansonsten gleich: lese alle Daten der Zeile zwei aus. Die Anwendung der Anweisung > sum(KT[1,]) [1] 7 errechnet die absolute Häufigkeit n1• der Merkmalsausprägung x1 und > sum(KT[2,]) [1] 6 ergibt die absolute Häufigkeit des anderen Merkmals. Mit dem folgenden Befehl wird die erste Spalte angesprochen und die Berechnung der absoluten Häufigkeiten der Variable ’Betriebsgröße’ erfolgt analog. > KT[,1] m w 3 0
3.7.3
Bedingte Verteilung und statistische Unabhängigkeit
Grundlagen In einer Wissenschaft ist es Brauch, Sachverhalte mit Worten zu bezeichnen, die dem Leser das Verstehen erleichtern. Kommt man allein von der Bezeichnung ’bedingte Verteilung’ her, so handelt es sich um eine Verteilung, die einer Bedingung unterworfen ist. Ein anderes Wort für Bedingung ist Voraussetzung. Wir können dies auch folgendermaßen umschreiben: ’unter der Bedingung, daß irgendein Sachverhalt eingetreten ist, soll die zugehörige Verteilung angegeben werden’. Die bedingte absolute Häufigkeitsverteilung von x unter der Bedingung y1 bedeutet dann, daß lediglich die absoluten Häufigkeiten des Merkmals x betrachtet werden, die bei Ausprägung des Merkmals y1 beobachtet wurden. Dies läßt sich in Tabelle 3.3 aus der ersten Spalte ablesen. Dividiert man die Absolutwerte durch n.1 , so ergibt sich die bedingte relative Häufigkeitsverteilung: n11 /n.1 , n21 /n.1 , n31 /n.1 , n41 /n.1 . Hält man also bei zweidimensionalen Variablen x und y eine konstant (z.B. yj ) und betrachtet die absolute Häufigkeiten der anderen Variablen x bei gegebener Ausprägung yj , so heißt diese bedingte absolute Häufigkeitsverteilung von x unter yj .
3.8. LORENZ-KURVE
57
Merkmalsausprägung absolute Häufigkeit
x1 n1
x2 n2
x3 n3
x4 n4
Tabelle 3.4: 1. Schritt zur Erstellung einer Lorenz-Kurve Quelle: eigene Darstellung Falls sich die gemeinsame Verteilung der Variablen x und y durch Multiplikation der Randverteilungen, also hi,j = hi. ∗ h.j für alle i und j, ergibt, so sagen wir, die Variablen x und y sind statistisch unabhängig. In diesem Fall sind alle relativen bedingten Häufigkeiten von x wie auch y identisch und exakt gleich den jeweiligen Randverteilungen. Beispiel Ausgehend von folgender Kontingenztabelle
m w
g 3 0
k 2 2
m 2 4
ergibt sich als bedingte absolute Häufigkeitsverteilung des Geschlechts bei großen Firmen folgende Verteilung: 3 männliche und keine weiblichen Beobachtungen.
3.8 3.8.1
Lorenz-Kurve Grundlagen
Zur Konstruktion einer Lorenz-Kurve ist ein kardinales Merkmal nötig, das folgende Bedingungen erfüllt: 1. (∀i ∈ {1, 2, 3, ..., i, ..., k})(xi 0) und 2. 0 x1 < x2 < · · · < xk . Mit anderen Worten müssen die Merkmalsausprägungen größer oder gleich 0 und der Größe nach angeordnet sein. Der Index ’k’ ist kleiner oder gleich der Anzahl an Beobachtungen n. Denn falls alle Ausprägungen voneinander verschieden sind, so ist k = n, andernfalls gibt es mindestens zwei identische Ausprägungen. Im ersten Schritt wird die absolute Häufigkeitsverteilung erstellt. Zwecks Vereinfachung der Darstellung wird davon ausgegangen, daß k = 4. Im zweiten Schritt wird die gesamte Merkmalsumme errechnet: gesamte Merkmalssumme = S :=
k i=1
ni ∗ xi .
(3.3)
KAPITEL 3. DATENAUFBEREITUNG
58 Kumulierter Anteil an der Merkmalssumme
(n1 x1 )/S
(n1 x1 n2 x2 )/S
+
Kumulierte Häufigkeit
n1 /n
(n1 + n2 )/n
(n1 x1 n2 x2 n3 x3 )/S
+ +
(n1 + n2 + n3 )/n
(n1 x1 n2 x2 n3 x3 n4 x4 )/S
+ + +
(n1 + n2 + n3 + n4 )/n
Tabelle 3.5: 2. Schritt zur Erstellung einer Lorenz-Kurve Quelle: eigene Darstellung Weil die Bildung von Summen ausschließlich bei kardinalen Merkmalen sinnvoll ist, wurde diese Annahme zu Anfang getroffen. Anschließend wird die absolute Häufigkeitsverteilung wie in Tabelle 3.5 verändert. Der erste Eintrag dieser Tabelle ist folgendermaßen zu interpretieren. Auf n1 /n der Population entfällt (n1 x1 )/S des interessierenden Merkmals. Aufgrund dieser Tabelle läßt sich die Lorenz-Kurve erstellen, indem auf der Abszisse die kumulierte Häufigkeit und an der Ordinate der kumulierte Anteil der Merkmalssumme abgetragen wird. Definitionsmenge und Wertebereich der Lorenz-Kurve sind deshalb identisch gleich dem Intervall [0, 1]. Die Kurve besteht aus dem Streckenzug, der sich durch Verbindung der Punkte (0, 0) und den Werten der Tabelle 3.5 ergibt. Liegt eine Gleichverteilung vor, so ist die Lorenz-Kurve identisch mit der 45°Linie. Je größer die Ungleichheit ist, desto mehr hängt die Kurve nach unten durch. Existiert eine Konzentration auf eine Person oder ein Objekt, so ist die Fläche zwischen der 45°-Linie und der Lorenz-Kurve maximal.
3.8.2
Beispiel
Lade das Paket ’ineq’, um die nötigen Befehle verfügbar zu machen. Die Anweisung > a <- table(Daten2$Einkommen) > a 1000 1500 1900 2000 2111 2500 2700 2900 3300 1 1 2 2 2 1 1 2 1 führt zur Erstellung der absoluten Häufigkeitsverteilung. Der Befehl ’Lc’ dient zur Erzeugung der Lorenz-Kurve, wobei als erstes Argument die Merkmalsausprägungen als Spaltenvektor, c(1000, 1500, 1900, 2000, 2111, 2500, 2700, 2900, 3300), und dann der Spaltenvektor mit den zugehörigen absoluten Häufigkeiten, c( 1, 1, 2, 2, 2, 1, 1, 2, 1), angegeben werden muß. > Lorenz <- Lc(c(1000, 1500, 1900, 2000, 2111, 2500, 2700, 2900, 3300), c( 1,1,2,2,2,1,1,2,1), plot=FALSE)
3.8. LORENZ-KURVE
59
Durch Angabe von ’plot=FALSE’ werden die errechneten Werte zur Konstruktion der Kurve angezeigt. Wird diese durch ’plot=TRUE’ ersetzt, so öffnet sich ein neues Fenster mit der Lorenz-Kurve. Allerdings lassen sich die Achsen dann nicht beschriften. Über den ’plot’-Befehl ist beides möglich (siehe Abbildung 3.12). > Lorenz $p [1] 0.00000000 0.07692308 0.15384615 0.30769231 0.46153846 0.61538462 [7] 0.69230769 0.76923077 0.92307692 1.00000000 $L [1] 0.00000000 0.03469572 0.08673930 0.21858303 0.35736590 0.50385122 [7] 0.59059052 0.68426896 0.88550413 1.00000000 $L.general [1] 0.0000 111.1111 277.7778 1891.3333 [8] 2191.3333 2835.7778 3202.4444
700.0000 1144.4444 1613.5556
attr(,"class") [1] "Lc" Die Korrektheit der Berechnungen können durch folgende Eingaben überprüft werden. > Summe <- sum(Daten2$Einkommen) > Summe [1] 28822 Die erste Merkmalsausprägung ist 1000, Division durch die gesamte Merkmalssumme ergibt: > 1000/Summe [1] 0.03469572 Dieselbe Rechnung analog für die ersten beiden Merkmalsausprägungen durchgeführt macht: > 2500/Summe [1] 0.0867393 Der Anteil der ersten Merkmalsausprägungen an allen Merkmalen ist > 1/13 [1] 0.07692308 und der der ersten beiden Merkmalsausprägungen
KAPITEL 3. DATENAUFBEREITUNG
60
Anteil des Einkommens am Einkommen aller
Lorenzkurve 1.0
0.8
0.6
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
Anteil der Personen
Abbildung 3.12: Lorenzkurve Quelle: eigene Darstellung
> 2/13 [1] 0.1538462 Die restlichen Berechnungen sollten Sie zur Übung analog durchführen.
3.8.3
Gini-Koeffizienten
Einfacher Gini-Koeffizient Die Lorenz-Kurve vermittelt einen visuellen Eindruck von der Konzentration der Merkmalsausprägungen in einer Population. Um die Konzentrationen verschiedener Populationen miteinander vergleichen zu können, wäre eine Maßzahl nützlich, die nur Werte innerhalb eines vorher bestimmten Bereiches annehmen kann, also normiert ist. Der Gini-Koeffizient ist eine solche Größe, mit der Konzentrationen in verschiedenen Grundgesamtheiten miteinander verglichen werden können. Er ist definiert als Gini :=
Konzentrationsfläche Fläche zwischen Diagonale und Abszisse =
Konzentrationsfläche 1 2
.
(3.4)
3.8. LORENZ-KURVE
61
Die Konzentrationsfläche ist gleich der Fläche zwischen Diagonale und LorenzKurve. Ist die Lorenz-Kurve identisch mit der Diagonalen, so ist der Gini gleich Null: es gibt keine Konzentration. Beispiel 1 Die Berechnung des Gini mit ’Daten2’ und Merkmal ’Einkommen’ kann mit den Rohdaten erfolgen, eine Sortierung nach der Größe ist in nicht nötig. > Gini(Daten2$Einkommen) [1] 0.1511185 > Gini(sort(Daten2$Einkommen)) [1] 0.1511185 Normierter Gini Die Situation bei Konzentration aller Merkmalsausprägungen auf eine statistische Einheit wird durch folgendes Beispiel illustriert. Es gibt insgesamt 5 Personen, allerdings verdienen 4 gar nichts und eine 3300 Euro. Damit erhält man als Definitionsmenge und Wertebereich: > Lorenz <- Lc(c(0,0,0,0, 3300), c(1,1,1,1,1), plot=FALSE) > Lorenz $p [1] 0.0 0.2 0.4 0.6 0.8 1.0 $L [1] 0 0 0 0 0 1 $L.general [1] 0 0
0
0
0 660
attr(,"class") Graphik 3.13 zeigt, daß bei Konzentration auf ein Merkmal, nicht die gesamte Fläche unterhalb der Diagonalen Seitenlänge ∗ Seitenlänge = 1/2, 2 sondern nur aus
oder allgemein
zusammensetzt.
1 1 − 2 (2 ∗ 5) 1 n−1 1 − = 2 (2 ∗ n) 2∗n
KAPITEL 3. DATENAUFBEREITUNG
62
Anteil des Einkommens am Einkommen aller
Lorenzkurve 1.0
0.8
0.6
0.4
0.2
0.0 0.0
0.2
0.4
0.6
0.8
1.0
Anteil der Personen
Abbildung 3.13: Lorenzkurve: Konzentration auf ein Merkmal Quelle: eigene Darstellung
Man beachte dabei, daß der Flächeninhalt des kleinen Dreiecks sich errechnet über (Seitenlänge mal Seitenlänge)/2, also 1 1 ∗ (1/5) = . 2 2∗5 In folgender Formel wird dieser Sachverhalt berücksichtigt: Gininormiert =
Konzentrationsfläche 1 2
·
1 n−1 n
= Gini ·
n . n−1
Der so berechnete Gini-Koeffizient ist normiert auf den Bereich [0; 1]. Beispiel 2 Als Gini erhalten wir > Gini(c(0,0,0,0, 3300)) [1] 0.8 und hieraus errechnet sich mit n = 5 der Gininormiert über > 0.8*5/4 [1] 1
(3.5)
3.9. ABSCHLIEENDE BEMERKUNGEN
3.9
63
Abschließende Bemerkungen
Es gibt eine Vielzahl an Statistiklehrbüchern, in denen die deskriptive Statistik dargestellt wird. Im wesentlichen lassen sich drei Arten unterscheiden. Zum einen gibt es Bücher, die sich ausschließlich mit der Statistik beschäftigen. Dann gibt es solche, die bereits Vorkenntnisse in Statistik voraussetzen und sich auf die praktische Umsetzung mit Statistikprogrammen konzentrieren. Schließlich sind jene zu erwähnen, die Statistik und Nutzung von Statistiksoftware in einem Buch vereinen. Zu der ersten Kategorie zählt das Buch von Bamberg und Baur (1984). Es ist seit Jahren ein Klassiker, aktualisierte Versionen liegen vor. Schira (2005), ein neueres Werk, gibt einen eher theoretischen Einstieg, ohne zu mathematisch daherzukommen. Die Beispiele und Aufgaben dieser Bücher können gut zu Übungszwecken herangezogen werden. Dolic (2004) ist, wie andere Literatur mit Bezug zu im Titel, im ersten Teil fokussiert auf das Programm. Dann ändert sich der Aufbau und es werden Teilbereiche der Statistik dargestellt, die mit bearbeitet werden können. Dennoch können ihm nützliche Informationen entnommen werden. Zwerenz (2006) verwendet zur Auswertung Excel und SPSS, beides kommerzielle Standardsoftware, ein Buch, das den Umstieg auf SPSS erleichtert.
3.10
Kontrollfragen
1. Wodurch unterscheiden sich deskriptive und schließende Statistik? 2. Wovon hängt es ab, ob die deskriptive oder schließend Statistik zu Anwendung kommt? 3. Bei welchen Daten nutzt man die empirische Varianz? 4. Wie errechnet sich die empirische Varianz? (a) bei Rohdaten, (b) bei Vorliegen einer absoluten Häufigkeitsverteilung und wie (c) bei einer relativen Häufigkeitsverteilung? 5. Wie ist die korrigierte Stichprobenvarianz definiert? 6. Wie können Sie die empirische Varianz aus der korrigierten Stichprobenvarianz berechnen? 7. Welche Formel nutzen Sie zur Berechnung des arithmetischen Mittels, wenn die Daten in Form einer (a) absoluten Häufigkeitsverteilung, (b) einer relativen Häufigkeitsverteilung vorliegen? 8. Was versteht man unter einem Quantil?
KAPITEL 3. DATENAUFBEREITUNG
64
9. Gegeben sei folgende Auswertung: 0% 1000
25% 1900
50% 2111
75% 2700
100% 3300
Geben Sie den Median sowie das untere und obere Quartil an. 10. Wie ist eine Verteilungsfunktion definiert? 11. Welche Eigenschaften hat eine Verteilungsfunktion? 12. Was versteht man unter einer Kontingenztabelle? 13. Geben Sie beispielhaft eine 2 × 2-Kontingenztabelle an und interpretieren Sie sie. 14. Wie erhalten Sie aus einer Kontingenztabelle die zugehörigen Randverteilungen? 15. Interpretieren Sie einen Punkt auf einer Lorenz-Kurve. 16. Was versteht man unter dem Gini- und was unter dem normierten GiniKoeffizienten?
3.11
Aufgaben
1. Zeige, daß die Summe aller relativen Häufigkeiten immer gleich 1 sein muß. 2. Geben Sie Beispiele an, bei denen eine Vollerhebung relevant ist, und begründen Sie Ihre Entscheidung. 20 3. Was ist der Unterschied zwischen der empirischen Varianz und der Stichprobenvarianz? 21 4. Welche Daten müssen bei Anwendung der Formel n
s2 = s2X :=
1 ni (xi − x ¯ )2 . n i=1
überhaupt verwendet werden?22 5. (a) Was sind nominal skalierte Variablen? (b) Geben Sie zwei Beispiele hierfür an.
23
24
(c) Was sind ordinal skalierte Variablen? (d) Können ordinal skalierte Variablen nominal interpretiert werden?25 (e) Ist es möglich, bei nominal skalierten Variablen eine relative Häufigkeitsverteilung anzugeben?26
3.11. AUFGABEN
65
(f) Können bei ordinal skalierten Variablen absolute Häufigkeitsverteilungen angegeben werden? 27 (g) Kann man aus einer empirischen Verteilungsfunktion die relative Häufigkeitsverteilung herleiten? 28 (h) Kann auf der Basis ausschließlich nominal skalierter Merkmale eine Kontingenztabelle erstellt werden?29 (i) Zwei kardinalskalierte Merkmale mit jeweils mehr als eintausend verschiedenen Ausprägungen liegen vor. Wie können Sie die Daten in einer Kontingenztabelle aufbereiten?30 (j) Können aus einer Kontingenztabelle die Rohdaten hergeleitet werden?31 (k) In dem Beispiel auf Seite 57 ist eine Kontingenztabelle angegeben. Formen Sie die Daten so um, daß sie in demselben Format wie Rohdaten vorliegen.32 (l) Berechnen Sie mit den Daten aus der Kontingenztabelle auf Seite 57 die arithmetischen Mittel der beiden Variablen x und y und überprüfen Sie Ihr Ergebnis mit mit Hilfe Ihres Ergebnisse von Aufgabe 5k.33 (m) Kann aus einer empirischen Verteilungsfunktion die absolute Häufigkeitsverteilung hergeleitet werden? 34 6. Zwanzig Betriebe sind über eine Clusteranalyse in 3 Gruppen, groß, mittel und klein eingeteilt worden. Ausprägung Anzahl
1 4
2 7
3 9
“1” bedeutet groß, “2” mittel und “3” klein. (a) Bestimmen Sie das arithmetische Mittel und interpretieren Sie das Ergebnis.35 (b) Können Sie die zugehörigen Rohdaten angeben? Wenn ja, so leiten Sie sie her.36 7. In einem Warenhaus wurden von der ersten Person 20 Taschentücher, der zweiten 20, der dritten 30 und der vierten 40 Taschentücher gekauft.37 (a) Berechnen Sie mit
die absolute Häufigkeitsverteilung,
(b) die relative Häufigkeitsverteilung, (c) die 25%-, 50%- und 75%-Quantile und (d) stellen Sie die Verteilungsfunktion graphisch dar. (e) Erläutern Sie, warum 20 ein 25 Prozent Quantil, warum 25 der Median und 32,5 das obere Quartil ist.
KAPITEL 3. DATENAUFBEREITUNG
66
8. Verwenden Sie Daten2 (siehe Tabelle 2.3). (a) Bilden Sie mit den Merkmalen Einkommen und Ausbildungsjahre eine Kontingenztabelle. (b) Berechnen Sie die zugehörigen Randverteilungen. (c) Bestimmen Sie das arithmetische Mittel des Einkommens und der Ausbildungsjahre. (d) Bestimmen Sie die empirische Varianz von Einkommen und Ausbildungsjahren. 9. (a) Ergänzen Sie folgende Tabelle und begründen Sie Ihr Ergebnis kurz.38
Merkmalsausprägungen Relative Häufigkeit
1 0,1
2
3 0,3
4 0,3
(b) Bestimmen Sie das arithmetische Mittel. (c) Bestimmen Sie die empirische Varianz. (d) Interpretieren Sie die empirische Varianz. (e) Geben Sie die Verteilungsfunktion an. (f) Stellen Sie die Verteilungsfunktion graphisch dar. 10. Gegeben sind folgende Rohdaten: Statistische Einheit 1 2 3 4 5 6 7 8 9 10
Einkommensklasse 1 2 1 1 1 2 1 2 1 1
Geschlecht m w w m m w m m m w
(a) Welche Verfahren kennen Sie, mit Hilfe derer diese Daten aufbereitet werden könnten? (b) Welche würden Sie wählen? Begründen Sie Ihre Entscheidung.39 (c) Erstellen Sie, falls möglich, die Lorenzkurve.40
3.A. NÜTZLICHES ZU MAZAHLEN*
3.A
67
Nützliches zu Maßzahlen*
Die Berechnung der empirischen Varianz kann auch über folgende Formel erfolgen: (3.6) ¯)2 = x2 − x ¯2 . s2 (x) = n1 (xt − x Denn
s2 (x) =
1 n
(xt − x¯)2 =
1 n
2 ¯+x ¯2 ) (xt − 2xt x
2 = n1 ( x2t − 2¯ x xt + x ¯ )= =
1 2 n (nx
1 (nx2t n
− 2n¯ x2 + n¯ x2 )
− n¯ x2 ) = x2 − x ¯2 .
Sie erweist sich bei algebraischen Umformungen gelegentlich als nützlich.
Kapitel 4
Statistisches Testen 4.1
Einleitung
Angenommen, es liege eine Vollerhebung aller Kunden des vergangenen Jahres vor und es ist bekannt, wie viele Männer und Frauen darunter sind. Der Anteilswert der Frauen ist dann Anteil Frauen =
Anzahl Frauen Anteil an Personen in Gesamtpopulation
oder allgemein wenn es zwei Merkmalsausprägungen, 1 und 2, gibt: h :=
Anzahl Merkmalsausprägung 1 . Anzahl Merkmalsausprägung 1 + Anzahl Merkmalsausprägung 2
Soll aufgrund einer einfachen Stichprobe der Anteilswert in der Grundgesamtheit geschätzt werden, so kann auf zweierlei Weise vorgegangen werden. Einerseits könnte eine Maßzahl berechnet werden, deren Wert man als Schätzer für den unbekannten Anteilswert in der Grundgesamtheit hernimmt. In diesem Fall spricht man von einer Punktschätzung. Hierbei wird der Anteilswert so berechnet, als ob es sich um eine Vollerhebung handeln würde, d.h. obige Formel zur Berechnung von h kommt hier ebenfalls zum Einsatz. Um Punktschätzfunktionen von jenen der empirischen Statistik zu unterscheiden, kennzeichnet man ˆ . Folglich gilt im Falle des Anteilswertes: h ˆ = h , da der sie durch ein Dach: h wahre, aber unbekannte Anteilswert in der Grundgesamtheit mit derselben Formel geschätzt wird, mit der er auch bei Vorliegen einer Totalerhebung berechnet würde. Da bei Stichproben der Zufall eine Rolle spielt, könnte dieser dem Statistiker andererseits einen “Streich” spielen. Die mit den Daten der Stichprobe errechnete Maßzahl könnte ziemlich weit von dem Anteilswert in der Grundgesamtheit abweichen. Aus diesem Grund besteht ein Interesse daran zu überprüfen, ob der Punktschätzer (Schätzer oder auch Schätzwert genannt) für den Anteilswert aufgrund der einfachen Stichprobe akzeptabel ist oder nicht. R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_4, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
KAPITEL 4. STATISTISCHES TESTEN
70
Dabei sollte es sich um ein Verfahren handeln, bei dem man bei Verwendung derselben Daten personenunabhängig zu demselben Ergebnis kommt. Denn dies ist ein wichtiges Kriterium zur Beurteilung wissenschaftlichen Arbeitens und sollte eingehalten werden. Um eine solche Akzeptanzprüfung, wir sagen einen statistischen Test, durchführen zu können, benötigt man die relevante Stichprobenverteilung. Im nächsten Kapitel zeigt sich, daß die Binomialverteilung den beschriebenen Sachverhalt korrekt widerspiegelt. Anschließend werden in Kapitel 4.3 die Grundlagen des statistischen Testens beschrieben. Es werden zweiseitige und einseitige Tests beschrieben, wie man entscheidet, welches Testverfahren anzuwenden ist und wie der Test durchzuführen ist. Die Bestimmung der Hypothesen sollte nicht dem Zufall überlassen bleiben. Aus diesem Grund wird der Begriff des ’Fehlers 1. Art’ vorgestellt und seine Bedeutung bei der Aufstellung von Hypothesen dargestellt.
4.2 4.2.1
Binomialverteilung Grundlagen
Liegt eine einfache Stichprobe vor, so könnte die Fragestellung lauten: ist der Anteil der Frauen 50 Prozent? Um dies zu beantworten, kann mit Hilfe der Daten aus der einfachen Stichprobe eine Punktschätzung des Anteilswertes erfolgen. Angenommen, es ergibt sich eine Punktschätzung in Höhe von 55 Prozent, so wissen wir nicht, ob uns der Zufall einen Streich gespielt hat oder nicht. Um seinen Einfluß abschätzen zu können, ist zu überlegen, wie groß die Wahrscheinlichkeit ist, daß eine weiße Kugel zufällig mit Zurücklegen aus einer Urne mit weißen und schwarzen Kugeln gezogen wird. Denn dieses Urnenbeispiel entspricht exakt einer einfachen Stichprobe. Angenommen, der Anteil der weißen Kugeln sei gleich p. Die Wahrscheinlichkeit, daß bei einer Stichprobe vom Umfang n = 1 eine weiße Kugel gezogen wird, ist dann gleich p und die Wahrscheinlichkeit, daß bei einer Stichprobe vom Umfang n = 2 zwei weiße Kugeln gezogen werden gleich p2 . Denn die Wahrscheinlichkeit, daß eine weiße Kugel gezogen wird, ändert sich nicht, da nach jedem Ziehen die Kugel wieder zurück in die Urne gelegt wird. Allgemein können wir sagen: die Wahrscheinlichkeit, daß bei einer Stichprobe vom Umfang n nur weiße Kugel gezogen werden, ist gleich pn . Analog kann bei der Berechnung der Wahrscheinlichkeit für das Auftreten schwarzer Kugeln argumentiert werden. Die Wahrscheinlichkeit, daß in einer Stichprobe ausschließlich schwarze Kugeln vorhanden sind, ist gleich (1 − p)n . Damit ergibt sich die Wahrscheinlichkeit, daß die ersten k (k < n) Kugeln weiß und die restlichen (n − k) Kugeln schwarz sind, zu pk · (1 − p)(n−k) . Freilich wird hierdurch nur eine Möglichkeit des Ziehens mit Zurücklegen beschrieben. Es könnte ja auch sein, daß beispielsweise abwechselnd eine weiße und eine schwarze Kugel gezogen wird. Jede Anordnung dieser Kugeln nennt man Permutation. Um die Wahrscheinlichkeit auszurechnen, mit der k weiße
4.2. BINOMIALVERTEILUNG
71
Kugeln in einer Stichprobe vom Umfang n sind, muß die Anzahl aller Permutationen mit k weißen und (n − k) schwarzen Kugeln berechnet werden und mit der Wahrscheinlichkeit des Auftretens einer Permutation (= pk · (1 − p)(n−k) ) multipliziert werden. Kommen wir zur Berechnung der Anzahl aller relevanten Permutationen. Angenommen, man hat n verschiedene Kugeln, und man fragt danach, auf wieviel verschiedene Arten man diese anordnen kann, so erhält man n Permutation
= n · (n − 1) · . . . · 2 · 1.
Denn, um die erste Stelle zu besetzen, hat man n verschiedene Kugeln, um die zweite Stelle zu besetzen verbleiben (n−1) usw. Hat man k verschiedene Kugeln, so gibt es k · (k − 1) · ... · 2 · 1 Permutationen. Sind von den anfänglichen n verschiedenen Kugeln jedoch k Kugeln weiß, so können von den n·(n−1)·...2·1 Permutationen allerdings diejenigen der k weißen Kugeln (deren Anzahl ist k · (k − 1) · ... · 2 · 1) nicht unterschieden werden. Die Anzahl der Permutationen, die tatsächliche unterscheidbar sind, multipliziert mit der Anzahl an Permutationen der weißen Kugeln ist gleich der Anzahl an Permutationen von n unterschiedlichen Kugeln. Anders gewendet berechnet sich die Anzahl der voneinander unterscheidbaren Permutationen über n Permutation k
=
n! n · (n − 1) · . . . · 2 · 1 = , k · (k − 1) · . . . · 2 · 1 k!
wobei ’!’ das Fakultätszeichen ist. Wenn die restlichen n−k Kugeln schwarz, also ebenfalls nicht unterscheidbar sind, so ist die Anzahl an unterscheidbaren Permutationen multipliziert mit den k! nicht unterscheidbaren Permutationen weißen Kugeln und dies nochmal multipliziert mit den (n − k)! nicht unterscheidbaren Permutationen der schwarzen Kugeln gleich n!. Stellt man diese Formel um, so ergibt sich: n Permutation k,(n−k)
=
n · (n − 1) · . . . · 2 · 1 k · (k − 1) · . . . · 2 · 1 · (n − k) · (n − k − 1) . . . 2 · 1 =
n! k! · (n − k)!
Wird die Wahrscheinlichkeit des Auftretens von k weißen und (n−k) schwarzen Kugeln einer einzigen Permutation mit der Anzahl aller möglichen Permutationen multipliziert, so erhält man die Wahrscheinlichkeit, mit der in einer einfachen Stichprobe vom Umfang n genau k weiße und (n − k) schwarze Kugeln enthalten sind: n! n · pk · (1 − p)(n−k) = Q(k, n, p) = · pk · (1 − p)(n−k) . (4.1) k k! · (n − k)! Diese Funktion heißt Binomialverteilung und n! n := k k! · (n − k)!
(4.2)
KAPITEL 4. STATISTISCHES TESTEN
72
ist der Binomialkoeffizient. Bei der Datenanalyse ist es folglich wichtig zu wissen, auf welche Art und Weise sie erhoben worden sind. Liegt eine Voll- oder eine Teilerhebung vor? Bei einer Teilerhebung ist zu unterscheiden zwischen Zufallsauswahl (Stichprobe) und sonstigen Verfahren. Diese Differenzierungen sind von Bedeutung, da hiervon abhängt, welche Methoden angewandt werden können. Handelt es sich bei einer Teilerhebung um keine Stichprobe, so ist die Entscheidung darüber, welche Methode angewandt werden sollte, besonders schwierig: mitunter ist es besser, die Daten überhaupt nicht zu verwenden. Handelt es sich um eine Stichprobe, so ist es wichtig, zwischen einer einfachen Stichprobe (zufälliges Ziehen mit Zurücklegen) und Stichproben ohne Zurücklegen zu unterscheiden. Bei einer Stichprobe mit Zurücklegen ändert sich die zugrunde liegende Wahrscheinlichkeitsverteilung nicht. Wird bei zufälligem Ziehen die gezogene Kugel nicht zurückgelegt, so vermindert sich die Anzahl an Kugeln in der Grundgesamt bei jeder Ziehung: die Verteilung der Grundgesamtheit ändert sich und dies hat Auswirkungen auf die Verteilung in der Stichprobe. Ist umgekehrt klar, wie die Daten analysiert werden sollen, hat dies Auswirkungen auf die Datenerhebung. Soll beispielsweise der nachfolgend beschriebene Binomialtest angewendet werden, so sollte eine einfache Stichprobe gezogen werden. Aus diesem Grund sollte der Erhebungsplan nicht nur die interessierende Fragestellung sondern auch die Auswertungsmethoden umfassen, die zum Einsatz kommen sollen.
4.2.2
Beispiel
Die wichtigsten Verteilungen sind in kürzungen verwendet:
implementiert. Es werden folgende Ab-
d: density - Dichtefunktion, p: (cumulative) probability - Verteilungsfunktion, q: quantile - Quantil, r: random - Zufallsgenerator. Anmerkung: Für Leser mit Kenntnissen in Wahrscheinlichkeitstheorie sei darauf hingewiesen, daß ganz gleich, ob es sich um stetige oder diskrete Zufallsvariablen handelt, die Dichtefunktion bzw. Wahrscheinlichkeitsverteilung mit ’d’ (für density) angesprochen wird. Um die Wahrscheinlichkeit zu berechnen, mit der bei Vorliegen einer Binomialverteilung k weiße Kugeln in einer Stichprobe vom Umfang n sind wird hinter ’d’ das Kürzel gesetzt, mit dem in die Verteilung angesprochen wird. Die Binomialverteilung hat das Kürzel ’binom’. Mit dem Befehl ’dbinom’ kann die Wahrscheinlichkeit und mit ’qbinom’ ein Quantil berechnet werden. Durch
4.3. TEST
73
> c(-20:20) [1] -20 -19 -18 -17 -16 -15 -14 -13 -12 -11 -10 -9 -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6 7 8 9 [31] 10 11 12 13 14 15 16 17 18 19 20 wird ein Spaltenvektor erzeugt, beginnend bei -20 und aufsteigend mit Schrittweite 1 bis 20. > dbinom(k, n, p, log = FALSE) berechnet den Wert der Binomialverteilung an der Stelle (k, n, p), also die Wahrscheinlichkeit, daß es k weiße Kugeln gibt in einer Stichprobe vom Umfang n bei einer Eintrittswahrscheinlichkeit einer weißen Kugel in der Grundgesamtheit von p. k kann nur positiv und es können nur ganze Zahlen sein im Intervall [0, n]. Die Anweisung > Binomialverteilung <- dbinom(c(-20:20), 12, 0.5, log = FALSE) berechnet den Wert der Binomialverteilung an den Stellen −20, −19, . . . , −1, 0, 1, . . . , 19, 20, bei einem Stichprobenumfang von 12 und einer Auftrittswahrscheinlichkeit einer weißen Kugel in der Grundgesamtheit von 0,5. ’log = FALSE’ bedeutet, daß auf die Wahrscheinlichkeiten nicht die Logarithmusfunktion angewendet wird. Die errechneten Werte werden über den Pfeil ’<-’ dem Ausdruck ’Binomialverteilung’, den der Nutzer frei wählen kann, zugeordnet. Ein graphische Veranschaulichung ergibt sich über > plot(c(-20:20),Binomialverteilung) und man erkennt in Graphik 4.1, daß die Funktion nur im Bereich [0 ,12] von Null verschiedene Werte aufweist.
4.3
Test
4.3.1
Zweiseitige Fragestellung
Die Binomialverteilung Q(k, n, p) gibt bei bekannter Eintrittswahrscheinlichkeit, p, für eine weiße Kugel in der Grundgesamtheit und gegebenem Stichprobenumfang n die Wahrscheinlichkeit an, daß genau k weiße (und n−k schwarze) Kugeln in einer einfachen Stichprobe sind. Will man beispielsweise prüfen, ob der Anteil der Frauen, p, in der Grundgesamtheit gleich 0,20 ist, so schreibt man: H0 : p = 0, 20 und bezeichnet dies als Nullhypothese. Als Alternative hierzu verbleibt
KAPITEL 4. STATISTISCHES TESTEN
0.15 0.10 0.05 0.00
Binomialverteilung
0.20
74
−20
−10
0
10
20
c(−20:20)
Abbildung 4.1: Binomialverteilung Quelle: eigene Darstellung H1 : p = 0, 20. Allgemein ausgedrückt schreibt man für die Nullhypothese H0 : p = p0 und H1 : p = p0 für die Gegenhypothese. Sofern die einfache Stichprobe bereits vorliegt, spielt der Zufall keine Rolle und wir kennen die Anzahl der weißen Kugeln. Liegt der Anteil der beobachteten ˆ ) weit weg von p0 , entweder weit weißen Kugeln dividiert durch alle Kugeln (= h oberhalb oder unterhalb von p0 , wo würde man der Nullhypothese mißtrauen und verwerfen, also die Gegenhypothese (Alternativhypothese) annehmen. k = ˆ · n nennen wir Testgröße. h Was jedoch heißt ’weit weg’? Die Entscheidung soll personenunabhängig sein und deshalb wäre ein Kriterium sinnvoll, mit dessen Hilfe jede beliebige Person entscheiden kann, ob die Nullhypothese abgelehnt werden sollte oder nicht. Falls die Nullhypothese stimmt, so kann man mit der Binomialverteilung Q(k, n, p0 ) die Wahrscheinlichkeit ausrechnen, mit der in der Stichprobe vom Umfang n genau k weiße Kugeln sind. Je weiter nach oben oder unten die Abweichung ist, desto geringer ist die Wahrscheinlichkeit des Eintretens (siehe Abbildung 4.1).
4.3. TEST
75
Würde die Anzahl an weißen Kugeln bei der Binomialverteilung ganz rechts oder links liegen, so würden wir die Nullhypothese ablehnen. Diese Bereiche nennen wir Ablehnungsbereich oder kritischen Bereich. Da wir zwei Ablehnungsbereiche haben, wird von einer zweiseitigen Fragestellung gesprochen. Anders gewendet können wir in der Binomialverteilung einen Bereich um n · p0 festlegen, den wir Annahmebereich nennen. Denn wenn die beobachtete Anzahl weißer Kugeln, k, in diesen Bereich fällt, so würde man die Nullhypothese nicht ablehnen. Somit verbleibt die Frage, wie Annahme- und Ablehnungsbereich personenunabhängig festgelegt werden sollen. Dies kann durch Festlegung der Wahrscheinlichkeit des Annahmebereiches bzw. des kritischen Bereiches erfolgen. Da die Wahrscheinlichkeit über alle möglichen Ereignisse auf Eins normiert ist, ist die Wahrscheinlichkeit des Annahmebereiches (= Sicherheitswahrscheinlichkeit) gleich Eins minus der Wahrscheinlichkeit des kritischen Bereiches. Üblicherweise wird die Wahrscheinlichkeit des Ablehnungsbereiches mit α gekennzeichnet; α heißt auch Signifikanzniveau. 1−α ist die Wahrscheinlichkeit des Annahmebereiches und heißt Sicherheitswahrscheinlichkeit. Sofern sich zwei Statistiker auf ein Signifikanzniveau geeinigt haben, ist bei gegebener Stichprobe Annahmebereich und kritischer Bereich eindeutig festgelegt: die Entscheidung über Annahme oder Ablehnung der Nullhypothese ist personenunabhängig. Folgende Signifikanzniveaus werden üblicherweise genutzt: entweder 0,01 oder 0,05 oder 0,10. Damit ist auch klar, daß die Entscheidung von der Festlegung des Signifikanzniveaus abhängig sein kann. Aus diesem Grund werden bei Veröffentlichung statistischer Tests häufig die Testergebnisse bei unterschiedlichen Signifikanzniveaus angegeben. Wegen ihrer zentralen Bedeutung in der schließenden Statistik, werden die vier Schritte zur Durchführung statistischer Tests noch einmal aufgelistet. 1. Hypothesen aufstellen H0 : p = p0 und H1 : p = p0 . ˆ =n·h ˆ . 2. Testgröße berechnen: kk 3. Annahmebereich und kritischen Bereich bestimmen. Annahmebereich: P (Quantilunten k Quantiloben ) = 1 − α und kritische Bereiche: P (k < Quantilunten ) = α/2 sowie P (k > Quantiloben ) = α/2 . 4. Entscheidung treffen, ˆ im kritischen Bereich liegt, so lehne die Nullhypothese d.h. falls kˆ = n · h ab. P ist hierbei die Abkürzung für Wahrscheinlichkeit, Quantilunten ist das untere
α 2 -Quantil
und
KAPITEL 4. STATISTISCHES TESTEN
0.08 0.06 0.04
Ablehnungsbereich
Annahme− bereich
Ablehnungsbereich
alpha/2
(1−alpha)
alpha/2
0
20
40
0.02 0.00
Q(k,n,p)=Q(k,100,0,2)
0.10
76
−20
60
k
Abbildung 4.2: Hypothesentest: zweiseitige Fragestellung Quelle: eigene Darstellung Quantiloben das 1 − α2 -Quantil. Die Bestimmung des Annahmebereiches ergibt sich über die Nullhypothese. Bei der zweiseitigen Fragestellung wird der Bereich der Nullhypothese von dem Annahmebereich mit Wahrscheinlichkeit (1 − α) überdeckt. In Abbildung 4.2 ist eine Binomialverteilung mit n = 100 und Wahrscheinlichkeit weißer Kugeln p = 0, 20 dargestellt. Die zugrundeliegende Nullhypothese ist H0 : p = 0, 20 oder in Absolutwerten ausgedrückt p0 = 20 und dieser Bereich wird von dem Annahmebereich überdeckt. Der Test heißt zweiseitig, weil der kritische Bereich aus zwei Teilen besteht, dem Bereich links des unteren Quantils Quantilunten und dem rechts oberhalb des oberen Quantils Quantiloben . Über beiden kritischen Bereichen liegt insgesamt eine Wahrscheinlichkeitsmasse in Höhe des Signifikanzniveaus α. Da es zwei Ablehnungsbereiche gibt, wird das Signifikanzniveau gleichmäßig auf beide aufgeteilt.
4.3.2
Einseitige Fragestellung - Version 1
Die einseitige unterscheidet sich von der zweiseitigen Fragestellung lediglich durch die Art der Hypothesen. Das Verfahren ist ansonsten dasselbe, wie zuvor. 1. Hypothesen aufstellen
4.3. TEST
0.08 0.06 0.04
Annahmebereich
0.02
Ablehnungsbereich
alpha
0.00
Q(k,n,p)=Q(k,100,0,2)
0.10
77
−20
0
(1−alpha)
20
40
60
k
Abbildung 4.3: Hypothesentest: einseitige Fragestellung - Version 1 Quelle: eigene Darstellung
H0 : p > p0 und H 1 : p p0 . ˆ . 2. Testgröße berechnen: kˆ = n · h 3. Annahmebereich und kritischen Bereich bestimmen. Annahmebereich: P (k > Quantil) = 1 − α und kritischer Bereich: P (k Quantil) = α . 4. Entscheidung treffen, ˆ im kritischen Bereich liegt, so lehne die Nullhypothese d.h. falls kˆ = n · h ab. Wie im Fall der zweiseitigen Fragestellung ergibt sich der Annahmebereich aus der Nullhypothese. In vorliegendem Fall muß der Annahmebereich auf der rechten Seite des gesuchten Quantils liegen (siehe Abbildung 4.3). Die Wahrscheinlichkeitsmasse, die über dem Annahmebereich liegt, ist gleich 1 − α. Da es nur einen Verwerfungsbereich gibt, beträgt die ihm zugeordnete Wahrscheinlichkeit gleich α. Weil der Verwerfungsbereich auf der linken Seite liegt, wird dieser Test als linksseitiger Test oder unterseitiger Test etikettiert. Das (untere) α-Quantil trennt den Verwerfungs- von dem Annahmebereich und wird auch kritischer Wert genannt.
KAPITEL 4. STATISTISCHES TESTEN
0.04
0.06
Q(k,n,p)=Q(k,100,0,2)
0.08
0.10
78
Ablehnungsbereich
0.02
Annahmebereich
0.00
(1−alpha)
−20
0
alpha
20
40
60
k
Abbildung 4.4: Hypothesentest: einseitige Fragestellung - Version 2 Quelle: eigene Darstellung
In diesem Fall wird getestet, ob der Anteilswert größer als p0 ist oder nicht. Alternativ könnte auch interessieren, ob der Anteilswert größer oder gleich p0 ist, dann gehört das Quantil zum Annahmebereich. Bei Aufstellung der Gegenhypothese ist darauf zu achten, daß Null- und Gegenhypothese keine gemeinsame Schnittmenge haben und der gesamte Bereich aller möglichen Merkmalsausprägungen (Definitionsbereich) auch überdeckt wird.
4.3.3
Einseitige Fragestellung - Version 2
Außerdem könnte die 1. Nullhypothese p < p0 und Gegenhypothese p p0 von Interesse sein. Dann ist das Vorgehen wie folgt. ˆ. 2. Testgröße berechnen: kˆ = n · h 3. Annahmebereich und kritischen Bereich bestimmen. Annahmebereich: P (k < Quantil) = 1 − α und kritischer Bereich: P (k Quantil) = α .
4.3. TEST
79
4. Entscheidung treffen, ˆ im kritischen Bereich liegt, so lehne die Nullhypothese d.h. falls kˆ = n · h ab. Diese Variante ist in Abbildung 4.4 veranschaulicht. Er heißt auch rechtsseitiger oder oberseitiger Test.
4.3.4
Fehler 1. Art
Leicht könnte der Eindruck entstehen, die Art der Hypothesenbildung sei ohne Belang, doch dem ist nicht so. Angenommen, die interessierende Null- und Gegenhypothesen seien H0 : p > p0 bzw. H 1 : p p0 . Mit Wahrscheinlichkeit α können weiße Kugeln einer einfachen Stichprobe vom Umfang n in den kritischen Bereich fallen, obwohl die Nullhypothese korrekt ist. Mit anderen Worten gibt das Signifikanzniveau α die Wahrscheinlichkeit an, mit der fälschlicherweise die Nullhypothese abgelehnt wird. α gibt die Fehlerwahrscheinlichkeit an, die Nullhypothese abzulehnen, obwohl sie korrekt ist. Diese Art von Fehler heißt Fehler 1. Art. Diese Überlegungen führen zu folgender Empfehlung: Wähle als Gegenhypothese die Aussage, deren Wahrscheinlichkeit, sie fälschlicherweise zu akzeptieren, kontrolliert werden soll.
4.3.5
Beispiel
Test aus Firmenperspektive Ein Konzern sieht sich Vorwürfen ausgesetzt, Frauen bei Einstellungen zu benachteiligen. Aus diesem Grund werden alle Bewerbungen der letzten drei Jahren im gesamten Konzern gesichtet: von 1000 Bewerbern sind 200 Frauen. Wenn keine Diskriminierung stattfinden würde und die Einstellung als Ziehen einer Stichprobe interpretiert wird, so argumentiert der Personalchef, müßte der Anteil der Frauen in der Gruppe der Bewerber und der Personen, die eingestellt wurden, gleich sein. Deshalb wurde zudem erhoben, wieviele von den 1000 Bewerbern eingestellt und wieviel hiervon Frauen waren. Es ergab sich, daß 100 Personen, wovon 17 Frauen waren, eingestellt wurden. Der Personalchef möchte sicherlich ungern zu Unrecht der Diskriminierung bezichtigt werden. Mit anderen Worten möchte er die Wahrscheinlichkeit kontrollieren, daß der Anteil der Frauen, die aus der Gruppe der Bewerber eingestellt wurden, von 200/1000 = 0,20 sehr stark nach unten abweicht. Als Gegenhypothese wird also gewählt p < 0, 20 . Die Anwendung unseres Schemas führt zu nachfolgendem Ergebnis.
KAPITEL 4. STATISTISCHES TESTEN
80 1. Hypothesen aufstellen H0 : p 0, 20 und H1 : p < 0, 20.
ˆ = 100 · 17/100 = 17 . 2. Testgröße berechnen: kˆ = n · h 3. Annahmebereich und kritischen Bereich bestimmen. Annahmebereich: P (k Quantil) = 1 − α und kritischer Bereich: P (k < Quantil) = α . Durch > qbinom(.95, 100, .20, lower.tail = FALSE, log.p = FALSE) [1] 14 wird Quantil = 14 und damit der Annahmebereich bei einem Signifikanzniveau von α = 0, 05 berechnet: Annahmebereich = A = [14, 100]. Das ’q’ in ’qbinom’ steht für Quantil, ’binom’ für Binomialverteilung und 0,95 ist die Sicherheitswahrscheinlichkeit. Danach ist der Stichprobenumfang, hier 100, einzugeben, wonach der Anteilswert bei Geltung der Nullhypothese eingetragen werden muß (hier 0,20). Die Eingabe ’lower tail = FALSE’ bedeutet, daß die Wahrscheinlichkeit auf der rechten Seite des Quantils angegeben ist. ’log.p = FALSE’ besagt, daß die Wahrscheinlichkeit nicht logarithmiert angegeben ist. Auch folgender Befehl führt zum Ziel: > qbinom(.05, 100, .20, lower.tail = TRUE, log.p = FALSE) [1] 14 4. Entscheidung treffen. Da die Testgröße in den Annahmebereich fällt, kann die Nullhypothese nicht abgelehnt werden. Obwohl der Anteil der Einstellungen von Frauen (=17) geringer ist als der Anteil weiblicher Bewerberinnen, kann aufgrund der Stichprobe nicht auf eine Diskriminierung von Frauen geschlossen werden. Test aus der Perspektiven einer Frauenschutzorganisation Die Interessenlage einer Frauenschutzorganisation ist sicher anders einzuschätzen. Sie möchte gerne die Wahrscheinlichkeit kontrollieren, daß der Test zu dem Ergebnis führt, daß die Firma keine Diskriminierung betreibt, obwohl sie in Wirklichkeit diskriminiert. Diese Wahrscheinlichkeit sollte zudem möglichst gering sein. Aus diesem Grund ist davon auszugehen, daß hier folgender Test präferiert würde. 1. Hypothesen aufstellen H0 : p < 0, 20 und H1 : p 0, 20.
4.3. TEST
81
ˆ = 100 · 17/100 = 17 . 2. Testgröße berechnen: kˆ = n · h 3. Annahmebereich und kritischen Bereich bestimmen. Annahmebereich: P (k Quantil) = 1 − α und kritischer Bereich: P (k < Quantil) = α . Über den Befehl > qbinom(.95, 100, .20, lower.tail = TRUE, log.p = FALSE) [1] 27 erhält man das 0, 95-Quantil Quantil = 27 und damit ist der Annahmebereich bei einem Signifikanzniveau von α = 0, 05 gleich [−∞, 27]. Aufgrund dieses Tests kann die Nullhypothese nicht abgelehnt werden, da kˆ im Annahmebereich liegt. Somit wäre der Firma Diskriminierung vorzuwerfen. Probleme Man erkennt, wie wichtig die Hypothesenaufstellung ist. Bei ansonsten identischem Vorgehen erhält man abhängig davon, ob ein links- oder rechtsseitiger Test durchgeführt wird, unterschiedliche Ergebnisse. Eine weitere Einflußmöglichkeit ergibt sich über die Festlegung des Signifikanzniveaus. Will die Firma beispielsweise erreichen, daß das für sie problematische Ergebnis ceteris paribus möglichst nicht eintritt, so wählt sie ein möglichst geringes, aber noch allgemein akzeptables Signifikanzniveau α. Würde Sie statt mit einem α = 0, 05 mit einem einprozentigen Signifikanzniveau den Test durchführen, so wäre der Annahmebereich gleich [11; ∞[. Im Vergleich zu oben wäre er also um einiges größer. Wollte die Frauenschutzorganisation sicher gehen, daß der Test in gewünschter Weise ausfällt, so könnte dies ceteris paribus dadurch erreicht werden, daß das Signifikanzniveau ebenfalls gesenkt wird. Bei einem einprozentigen Signifikanzniveau ergäbe sich ein Annahmebereich von ] − ∞; 30], also ebenfalls größer als in obigem Beispiel. Das Vorgehen ist aus statistischer und ökonomischer Sicht mit einigen Problemen behaftet. Statistisch gesehen handelt es sich bei Einstellungen allenfalls um ein Ziehen einer Stichprobe ohne Zurücklegen, aber die Binomialverteilung wurde unter der Annahme hergeleitet, daß es sich um Ziehen mit Zurücklegen handelt (einfache Stichprobe). Insofern ist das Vorgehen nicht ganz korrekt. Statt der Binomialverteilung wäre die hypergeometrische Verteilung zu verwenden. Somit wird deutlich, daß die Beschäftigung mit weiteren Verteilungen unausweichlich ist. Die wichtigsten Verteilungen, darunter auch die hypergeometrische, werden ab Seite 280 dargestellt. Aus ökonomischer Sicht ist dieses Vorgehen ebenfalls bedenklich. Denn es mag durchaus sein, daß Männer und Frauen sich hinsichtlich ihrer Qualifikation unterscheiden. Unter diesem Gesichtspunkt wäre ein statistisches Verfahren zu wählen, das erlaubt, Qualifikationsunterschiede zu berücksichtigen. Zudem kann der Analyse folgender Vorwurf gemacht werden. Die öffentliche Darstellung des Konzerns könnte bereits dazu führen, daß sich Frauen erst gar
KAPITEL 4. STATISTISCHES TESTEN
82
nicht bewerben, sich Frauen also selbst zensieren. In der Ökonomie ist dieses Verhalten auch als Selbstselektion bekannt. So berechtigt dieses Argument auch sein mag, dieser Aspekt kann aufgrund der Stichprobe nicht untersucht werden: eine neues Untersuchungsdesign und eine erneute Datenerhebung wären nötig.
4.4
Abschließende Bemerkungen
Um einen Test durchzuführen sind vier Schritte nötig: 1. Hypothesen aufstellen, 2. Testgröße berechnen, 3. Ablehnungs- und Verwerfungsbereich bestimmen und 4. Entscheidung treffen. Die Hypothesen werden in der Praxis unter Berücksichtigung des Fehlers 1. Art festgelegt. Er entsteht, wenn die Gegenhypothese angenommen wird, obwohl die Nullhypothese in Wirklichkeit korrekt ist. Unter Geltung der Nullhypothese ist die Wahrscheinlichkeit dieses Fehlers gleich unserem Signifikanzniveau α. Da die Tendenz besteht, in so geringem Umfang als möglich Fehler zu begehen, sollte das Signifikanzniveau gering gewählt werden. Üblicherweise werden Niveaus im Bereich von 0, 10 − 0, 01 verwendet. Das geringste Niveau wäre freilich 0, doch würde man dieses festlegen, so würde die Nullhypothese ja nie abgelehnt. Dann entstünde ein anderer Fehler, der bekannt ist unter dem Namen ’Fehler 2. Art’. Er entsteht, wenn aufgrund eines Tests die Nullhypothese nicht verworfen wird, obwohl sie in Wahrheit falsch ist. Um diesen 2. Fehler nicht zu groß werden zu lassen, wird der Fehler 1. Art nicht gleich Null gesetzt. Die Testgröße und ihre Verteilung sind aus der Sicht des Anwenders die einzigen Größen, die bekannt sein müssen, um einen Test durchzuführen. Existiert keine Testgröße oder ist ihre Verteilung nicht bekannt, so ist kein Test möglich. Die Verteilung der Testgröße wird unter der Annahme bestimmt, daß die Nullhypothese korrekt sei. Natürlich wissen wir in der Realität nicht, ob diese Annahme wahr ist. Allen Stichprobenereignissen, denen durch die Wahrscheinlichkeitsverteilung eine positive Wahrscheinlichkeit zugeordnet ist, sind möglich. Liegt bei einem zweiseitigen Test die Testgröße aber sehr weit links oder rechts, also in einem Bereich, der zwar aufgrund der Nullhypothese in der Realität sehr wohl vorkommen kann, der aber aufgrund der Verteilung, die ja unter der Annahme hergeleitet wurde, daß die Nullhypothese gilt, sehr gering ist, so würde man der getroffenen Annahme nicht trauen. Dies ist der Kern statistischen Testens: wenn sich in einer Stichprobe eine Situation offenbart hat, die bei Geltung der Nullhypothese als sehr unwahrscheinlich eingestuft wird, so verwirft man die zu Grunde liegende Annahme. Dabei können Fehler auftreten: der Fehler 1. oder 2. Art.
4.5. KONTROLLFRAGEN
83
Ist die Entscheidung gefallen, welche Null- und welche Gegenhypothese sein soll, so verbleibt die Aufgabe der Festlegung des Annahme- und Verwerfungsbereiches. Über der Nullhypothese soll (1− α) an Wahrscheinlichkeitsmasse liegen. Beherzigt man diese Information, so ist es leicht, den Annahme- und Verwerfungsbereich zu bestimmen. Lautet die Nullhypothese beispielsweise H0 : p 5, so liegt der Annahmebereich links und über ihm (1 − α) Wahrscheinlichkeitsmasse. Da in der Nullhypothese das Gleichheitszeichen enthalten ist, gehört das Quantil, das den Annahme- von dem Ablehnungsbereich trennt, zu dem Annahmebereich. Würde die Nullhypothese lauten H0 : p < 5, dann würde das Quantil dem Verwerfungsbereich zugerechnet.
4.5
Kontrollfragen
1. Was versteht man unter einer Punktschätzung? 2. Warum gibt man sich mit Punktschätzungen alleine nicht zufrieden und nutzt statistische Tests? ˆ 3. Was ist der Unterschied zwischen der Variablen h und h? 4. Was ist der Unterschied zwischen h=
Anzahl weißer Kugeln Anzahl weißer und schwarzer Kugeln
und der Wahrscheinlichkeit p? 5. Erläutern Sie den Begriff Permutation anhand eines einfachen Beispiels. 6. Berechne
7. (a) Berechnen Sie
(b) Nutzen Sie nom(...)’.
70! . 65! 30 · 0, 322 · (1 − 0, 3)(30−22) . 22 und verwenden Sie zur Berechnung den Befehl ’pbi-
8. Hier ist eine Auswahl an Befehlen, die unvollständig sind. Können Sie dennoch sagen, was mit ihnen berechnet wird? (Hinweis: Nutzen Sie gegebenenfalls die Hilfefunktion in .) (a) qnorm(...), (b) pchisq(...), (c) rbinom(...), (d) rf(...),
KAPITEL 4. STATISTISCHES TESTEN
84 (e) pt(...).
9. Was ist an den folgenden Befehlen falsch?41 > dbinom(40,30,0.5,log=FALSE) > qbinom(0,96,200,0,4,lower.tail=TRUE,log.p=FALSE) 10. Wie groß ist die Wahrscheinlichkeit, daß man die Nullhypothese fälschlicherweise ablehnt?
4.6
Aufgaben
40 7 7 40 , , , , 1. Berechnen Sie nachfolgende Binomialkoeffizienten: 41 2 5 41 n . 0 2. Zeigen Sie, daß folgender Zusammenhang gilt: n n . = n−k k 3. Begründen Sie, warum folgende Gleichung korrekt ist. n+1 n n . = + k+1 k+1 k 4. Spielen bei statistischen Tests Punktschätzungen überhaupt eine Rolle?42 5. (a) Können Sie den Wert ∞
Q(k, 10, 0.8)
k=10
berechnen?43 (b) Welchen Zusammenhang gibt es zwischen ∞
Q(k, 10, 0.8)
(4.3)
k=10
und der Verteilungsfunktion?44 (c) Berücksichtigen Sie Ihre Lösung zu Aufgabe 5b und lösen Sie unter Berücksichtigung dieser Einsicht Aufgabe 5a auf eine andere Art.
4.6. AUFGABEN
85
6. In der Grundgesamtheit befinden sich 1 000 000 Männer und 1 200 000 Frauen. Es wird eine einfache Stichprobe vom Umfang n = 5 gezogen. (a) Wie groß ist die Wahrscheinlichkeit, daß 2 Männer gezogen werden? (b) Berechnen Sie die Wahrscheinlichkeit, daß zuerst ein Mann und dann eine Frau gezogen wird. (c) Wie groß ist die Wahrscheinlichkeit, daß bei den ersten beiden Ziehungen ein Mann und eine Frau gezogen werden? (d) Wie groß ist die Wahrscheinlichkeit, daß mindestens 3 Männer gezogen werden? (e) Berechnen Sie die Wahrscheinlichkeit, daß maximal 2 Männer in der Stichprobe sind. 7. In einem Lager gibt es 100 Fächer. In jedem dieser Fächer ist ein anderer Artikel abgelegt. (a) Berechnen Sie die Anzahl aller Permutationen der Fächer. (b) Die Bestückung der Fächer wurde geändert. Nun sind in 4 Fächern von den 100 dieselben Artikel gelagert. Wieviele mögliche unterscheidbare Permutationen der Fächer gibt es? (c) Die Einlagerung hat sich im Vergleich zur Ausgangssituation nun folgendermaßen geändert. In 10 Fächern wurden Meisel, in 4 Fächern Hämmer und in 2 Fächern Digitalkameras abgelegt. In allen anderen Fächer sind jeweils verschiedene Produkte hinterlegt. Wieviele unterscheidbare Permutationen gibt es? 8. Warum ist
∞
Q(k, 10, 0.8) = 0?
k=11
9. (a) In einer Urne gibt es 200 schwarze Kugeln. Berechnen Sie die Wahrscheinlichkeit, mit der 40 weiße Kugeln und 50 schwarze Kugeln aus der Urne mit 1 000 weißen und schwarzen Kugeln gezogen werden. (b) Wie groß ist die Wahrscheinlichkeit, daß genau 40 oder mehr als 40 weiße Kugeln gezogen werden? (c) Berechne die Wahrscheinlichkeit, daß weniger als 30 weiße Kugeln in der Stichprobe sind. (d) Wie groß ist die Wahrscheinlichkeit, daß mehr als 30 und weniger als 60 weiße Kugeln gezogen werden? (e) Nutzen Sie
und stellen Sie die Binomialverteilung graphisch dar.
(f) Illustrieren Sie Ihre Ergebnisse in dieser Graphik. 10. Woher weiß man, ob es sich um eine einseitige oder eine zweiseitige Fragestellung handelt?45
KAPITEL 4. STATISTISCHES TESTEN
86
11. Warum wird die kritische Größe dem Annahmebereich und manchmal zum kritischen Bereich zugeschlagen?46 12. Welche Angaben braucht man, um den Annahmebereich festlegen zu können?47 13. (a) In einer Firma soll überprüft werden, ob bei der Produktion die nötigen Qualitätsstandards eingehalten werden. Zu diesem Zweck werden aus jeder Charge im Umfang von 10 000 Produkten 20 per einfacher Stichprobe gezogen. Die Prüfung soll zur Sicherheitswahrscheinlichkeit von 96 Prozent erfolgen. Ab welcher Anzahl fehlerhafter Produkte sind die Qualitätsstandards nicht erfüllt, wenn als Nullhypothese geprüft werden soll, daß maximal 2 Prozent der Produktion fehlerhaft sein darf?48 (b) Stellen Sie mit
die Binomialverteilung graphisch dar.
(c) Kennzeichnen sie in dieser Graphik den Annahme- und Verwerfungsbereich. 14. Zwei Wissenschaftler nutzen exakt dieselben Daten und beide wenden den Binomialtest an. Dennoch kommen sie zu unterschiedlichen Ergebnissen. Woran mag das liegen?49 15. In einem Betrieb wird eine Maschine regelmäßig auf ihren Ausschußanteil geprüft, um festzustellen, wann der Einbau eines Ersatzteils zu erfolgen hat. Denn bei einem Ausschuß von 2 Prozent oder mehr muß ein Ersatzteil eingebaut werden, da sonst Vertragsstrafen drohen. Zu diesem Zweck wird eine einfache Stichprobe vom Umfang n=200 gezogen, von denen 4 als Ausschuß klassifiziert wurden. Testen Sie die H0 -Hypothese, daß der Ausschußanteil kleiner als 2 Prozent ist zum Signifikanzniveau von 5 Prozent.50 Auswahl von Ergebnissen des Statistikprogrammes 'R'. > qbinom(0.95 [1] 1 > qbinom(0.02 [1] 17 > qbinom(0.02 [1] 196 > qbinom(0.02 [1] 120 > qbinom(0.02 [1] 80 > qbinom(0.95 [1] 7
,200 ,0.02, lower.tail = FALSE, log.p = FALSE) ,200 ,0.05, lower.tail = FALSE, log.p = FALSE) ,200 ,0.95, lower.tail = FALSE, log.p = FALSE) ,2000 ,0.05, lower.tail = FALSE, log.p = FALSE) ,2000 ,0.05, lower.tail = TRUE, log.p = FALSE) ,200 ,0.02, lower.tail = TRUE, log.p = FALSE)
4.A. WIRKUNGSANALYSE*
4.A 4.A.1
87
Wirkungsanalyse* Grundlagen
Wirkungsanalysen können in folgenden Zusammenhängen nützlich sein. • Um Kosten zu senken, ändert ein Einzelhandelsgeschäft Anzahl und Plazierung der Kassen. Dies könnte jedoch unerwünschte Wirkungen auf den Umsatz haben. Aus diesem Grund wäre es sinnvoll, im nachhinein zu überprüfen, ob dieser Effekt eingetreten ist oder nicht. • Ein Produktionsunternehmen ändert zwecks Umsatzsteigerung das Design seines Produktes ’Zahnbürste - sauber und fein’. Auch hier wäre es hilfreich zu wissen, ob das angestrebte Ziel erreicht wurde. • Durch verstärkte Werbung sollen Stammkunden animiert werden, mehr zu kaufen. Man möchte überprüfen, ob hierdurch tatsächlich mehr Umsatz als Kosten entstanden sind. Der Binomialtest eignet sich, etwas anders interpretiert, auch dazu, solche Fragen zu beantworten. Es wird von folgenden Voraussetzungen ausgegangen. 1. Wir gehen von einer zweidimensionalen Zufallsvariable (X, Y ) in der Grundgesamtheit aus. 2. Die beiden Zufallsvariablen seien kardinal meßbar und stetig. 3. Es wird nur eine Stichprobe gezogen (= Ein-Stichprobenfall). 4. Die Daten stammen aus einer einfachen Stichprobe, so daß die Differenzen Z1 , . . . , Zi , . . . , Zn := (Y1 − X1 ), . . . , (Yi − Xi ), . . . , (Yn − Xn ) stochastisch unabhängig voneinander sind. 5. Zu jeder Beobachtungseinheit i werden zwei Merkmale erhoben. 6. Jede Zufallsvariable Yi − Xi für i = 1, 2, 3, . . . , n habe denselben Median θ. Dies bedeutet, daß Fi (θ) = 1 − Fi (θ) für i = 1, 2, 3, . . . , n, wobei Fi die Verteilungsfunktion der Zufallsvariablen Zi , i = 1, 2, 3, . . . , n ist. Mit anderen Worten wird ein Verfahren zur Überprüfung des Median angegeben. Der Parameter θ ist der unbekannte Behandlungseffekt (Hollander und Wolfe, 1999, S. 60ff). In den angeführten Beispielen geht es um die Frage, ob die ergriffenen Maßnahmen zu Umsatzsteigerungen geführt haben oder nicht. Entlang des Zeitstrahles ist demzufolge zu unterscheiden in eine Periode vor und eine nach der
KAPITEL 4. STATISTISCHES TESTEN
88
Maßnahme. Relevant sind nicht verschiedene Zeitpunkte, sondern Zeiträume, da es sich bei der Variablen Umsatz um eine Stromgröße handelt. Xi bezeichne den Umsatz des Kunden i vor und Yi den nach der Maßnahme. Ist die Differenz Zi = Yi − Xi positiv, so hat eine Umsatzsteigerung stattgefunden. Dieses Vorgehen hat zwei Konsequenzen: 1. zum einen auf praktische Erwägungen und 2. andererseits auf die Art des Vergleiches. Denn es wird nur eine Stichprobe vom Umfang n gezogen, nämlich nach der zweiten betrachteten Periode. Es müssen folglich Kundendaten vorhanden sein, die sich auf die erste Periode und die zweite Periode erstrecken. Ohne zusätzliche organisatorische Maßnahmen verfügt man nicht über die erforderlichen Daten. Eine Möglichkeit ergibt sich über die Vergabe von Kundennummern. Damit Kunden einen Anreiz haben, auch bei jedem Einkauf die Kundennummer anzugeben, ist es im allgemeinen erforderlich, Rabatte einzuräumen. Sofern es sich um Beziehungen zwischen Unternehmen handelt, mit denen automatisch oder halbautomatisch Geschäftsprozesse abgewickelt werden, lassen sich die Daten über die Notwendigkeit der Standardisierung des Datenaustausches aus den laufenden Geschäftsprozessen generieren. Das Untersuchungsdesign besteht in einem einfachen Vergleich: vorher versus nachher. In der Ökonomie werden jedoch Alternativenvergleiche bevorzugt. Vergleicht man lediglich zwei Situationen auf dem Zeitstrahl, so handelt es sich um keine Alternativen. Denn die Existenz von Alternativen bedeutet, daß Wahlmöglichkeiten vorliegen. Aus diesem Grund ist Vorsicht geboten, denn es könnte sein, daß sich eine nicht kontrollierte Größe, die auf den eigenen Umsatz Einfluß hat, während der betrachteten Zeitspannen ebenfalls geändert hat. Beispielsweise könnte ein Konkurrenzunternehmen zwischenzeitlich Pleite gehen. Denn dann würde man erwarten, daß ceteris paribus der eigene Umsatz steigt. Existiert ein allgemeiner Wirtschaftsaufschwung, so wird man ebenfalls prognostizieren, daß der eigene Umsatz im Zeitverlauf steigt. In solchen Situationen kann es vorkommen, daß in Wirklichkeit die eigenen Maßnahmen wirkungslos sind, aber dennoch werden Umsatzsteigerung beobachtet. Eine wichtige Voraussetzung zur Anwendung des hier beschriebenen Verfahrens ist folglich, daß sonst keine Änderungen, die auf den Umsatz Einfluß haben könnten, erfolgen.
4.A.2
Test
Alle drei Testvarianten sind möglich, d.h. der zweiseitige Test ebenso wie die einseitigen Tests. Die Darstellung des zweiseitigen Tests soll an dieser Stelle genügen. Die Hypothesen lauten H0 : θ = 0 gegen H1 : θ = 0.
4.A. WIRKUNGSANALYSE*
89
Als Testgröße wird T estgroesse = ξi =
n
ξi mit
(4.4)
i=1
1 0
für Zi > 0 für Zi < 0
verwendet. Falls es Zi = 0 geben sollte, so werden diese bei der Berechnung nicht berücksichtigt und der Stichprobenumfang n entsprechend angepaßt. Die Testgröße ist also nichts weiter als die Anzahl positiver Werte Zi . Die zugehörige Zufallsvariable der Grundgesamtheit folgt einer Bernoulli-Verteilung. Wir wissen, daß bei einer einfachen Stichprobe aus dieser Grundgesamtheit vom Umfang n die Stichprobe binomialverteilt ist. Aus diesem Grund ist die Testgröße binomialverteilt und bei Geltung der Nullhypothese ist, um im Bild des Kapitels 4.2 zu bleiben, die Wahrscheinlichkeit des Ziehens einer ’weißen Kugel’ gleich 1/2. Als Annahmebereich erhalten wir [Quantilα/2;prob=1/2 ; Quantil1− α2 ;prob=1/2 ] bei Erfolgswahrscheinlichkeit von prob = 1/2 in der Grundgesamtheit zum Signifikanzniveau α. Liegt die Testgröße außerhalb dieses Bereiches, so ist die Nullhypothese zu verwerfen. Dieser Test ist auch bekannt als verteilungsfreier Vorzeichentest nach Fisher (Hollander und Wolfe, 1999, S. 60ff).
4.A.3
Beispiel
Es soll überprüft werden, ob eine betriebswirtschaftliche Maßnahme zu einer Änderung des Umsatzes bei Stammkunden geführt hat. Die verwendeten Daten sind in der Datei Wirkungsanalyse-Fisher-Test.Rdata abgelegt. Die nötigen Befehle sind wie folgt. > > > > > > > >
x <- rnorm(200,mean=3000,sd=400) y <- rnorm(200,mean=3100,sd=403) z <- y-x z2 <- 2:201 z2 <- 2:201 for (i in 1:200) if (z[i]<0) (z2[i] for (i in 1:200) if (z[i]>0) (z2[i] z2 [1] 1 0 0 0 1 1 0 1 1 0 1 1 1 1 1 1 0 0 0 1 0 1 0 1 1 0 0 0 1 [38] 0 1 1 0 1 1 1 0 1 0 1 1 1 1 1 1 0 0 1 0 1 0 1 0 1 1 1 1 0 [75] 1 0 1 1 0 1 1 1 0 0 0 0 0 0 0 0
<- 0) <- 1) 0 1 0 1 1 1 0 0 0 0 1 0 0 0 1 1 0 1 1 0 1 0 0 0
KAPITEL 4. STATISTISCHES TESTEN
90
0 1 0 1 0 0 0 1 1 0 1 1 1 [112] 1 0 1 0 1 0 0 1 0 0 1 1 0 1 0 0 1 0 0 1 1 1 1 0 1 0 1 0 0 1 0 0 0 0 1 0 1 [149] 0 0 0 0 1 1 1 1 0 1 1 1 0 1 1 1 1 0 1 1 1 0 0 1 0 1 1 1 0 0 1 0 1 1 1 1 1 [186] 1 0 0 0 0 1 1 0 1 0 1 1 1 0 1 > Testgroesse <- sum(z2) > Testgroesse [1] 107 > qbinom((0.05/2),200,0.5,lower.tail=TRUE) [1] 86 > qbinom((1-0.05/2),200,0.5,lower.tail=TRUE) [1] 114 Im ersten Schritt werden normalverteilte Zufallsvariablen x und y erzeugt. In der Tat ist der Mittelwert der Variablen y größer als der von x, aber gleichzeitig ist die Standardabweichung bei y größer als bei der anderen Variablen. Dann wird die Variable z gebildet. z2 ist eine Hilfsvariable, es sind 200 Zahlen von 2 bis 201, die durch die nachfolgenden ’if’-Anweisungen entweder durch 0 oder 1 ersetzt werden, wenn zi < 0 bzw. zi > 0 ist. Mit z2 werden die so erzeugten Zahlen angezeigt. Würde eine andere Zahl als 0 oder 1 erscheinen, so würden Bindungen vorliegen, die aus den Daten entfernt werden müßten. Die Summe über z2 ergibt die Testgröße. Die beiden letzten Befehle dienen der Ermittlung des Annahmebereiches. Er ist [86; 114]. Da die Testgröße in diesem Bereich liegt, kann die Nullhypothese nicht verworfen werden. Damit ist freilich ein Fehler aufgetreten. Welcher?51
4.A.4
Abschließende Bemerkungen
Alternativ zu dem Vorzeichentest nach Fisher kann auch der Wilcoxon Rangsummentest genutzt werden (Hollander und Wolfe, 1999, S. 60ff). Dieser Test ist in implementiert; nähere Informationen können den Hilfeseiten, die über > ?wilcox.test abgerufen werden können, entnommen werden. Neben diesen verteilungsfreien Tests ist auch ein Mittelwertvergleich zweier normalverteilter Zufallsvariablen möglich. Dann wird jedoch ein bestimmter Verteilungstyp, eben die Normalverteilung, unterstellt. In vielen Lehrbüchern der Statistik findet man die nötigen Informationen, um ihn durchzuführen.
Kapitel 5
Chi-Quadrat Tests 5.1
Einleitung
In Kapitel 4 wurden die Grundlagen statistischen Testens gelegt, in dem vorliegenden sollen sie vertieft werden. Es werden drei Testverfahren beschrieben: • der Unabhängigkeitstest, • der Anpassungstest und der • Homogenitätstest. Bei dem Unabhängigkeitstest wird geprüft, ob zwei Variablen (stochastisch) unabhängig sind oder nicht. Der Begriff der stochastischen Unabhängigkeit wurde bislang zwar noch nicht eingeführt, doch wir kennen bereits den der statistischen Unabhängigkeit. Dies sollte genügen, um das Testverfahren zu verstehen. In Kapitel 5.3 wird der Frage nachgegangen, ob davon ausgegangen werden kann, daß die empirische Verteilung gleich einer vorgegebenen theoretischen Verteilung ist oder nicht. Eine Auswahl theoretischer Verteilungen findet sich überblicksartig in Anhang A. Fragen dieser Art spielen in der Praxis eine bedeutende Rolle, da man zur Bestimmung des Annahmebereiches eine theoretische Verteilung braucht, die nicht immer, wie im vorangegangenen Kapitel, theoretisch hergeleitet werden kann. In solchen Fällen bestehen jedoch häufig Vermutungen über den Verteilungstyp. Liegen Daten vor, so kann mit Hilfe eines Anpassungstests geprüft werden, ob die theoretische Verteilung aufgrund der Datenlage nutzbar ist oder nicht. Der dritte Test dient zur Überprüfung der Hypothese, ob einfache Stichproben aus derselben Grundgesamtheit stammen oder aus Grundgesamtheiten, die dieselbe Verteilung aufweisen. Stammen sie aus derselben Grundgesamtheit, so können sie ggf. zu einer Datei zusammengefaßt werden. Hierdurch erhöht sich der Stichprobenumfang und die Schätzgenauigkeit erhöht sich. Andererseits können mit Hilfe dieses Tests direkt interessierende Hypothesen überprüft werden, was durch das letzte Beispiel dieses Kapitels illustriert wird. R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_5, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
KAPITEL 5. CHI-QUADRAT TESTS
92
5.2 5.2.1
Unabhängigkeitstest Grundlagen
Die Kontingenztabelle haben wir bereits kennengelernt. In ihr werden die Ausprägungen zweidimensionaler Variablen und deren gemeinsame (absolute oder relative) Häufigkeitsverteilung niedergelegt. Wir haben die (absoluten wie relativen) Randverteilungen wie auch die bedingten Häufigkeitsverteilungen kennengelernt und den Begriff der statistischen Unabhängigkeit eingeführt. Zwei Variablen sind statistisch unabhängig, wenn gilt: hij = hi. h.j
(5.1)
Liegen Erhebungsdaten vor, so ist von praktischem Interesse, ob beide Variablen als statistisch unabhängig angesehen werden können oder nicht. Wenn die in der Kontingenztabelle aufgeführte gemeinsame absolute Häufigkeitsverteilung nicht sehr stark von der Häufigkeitsverteilung abweicht, die über die Definition der statistischen Unabhängigkeit errechnet wird, so besteht der Verdacht, daß beide Variablen statistisch unabhängig sind. Liegen die tatsächlichen Werte jedoch weit von den theoretischen Werten bei statistischer Unabhängigkeit weg, so würde man darauf schließen wollen, daß es irgendeinen, wenn auch unbekannten, Zusammenhang zwischen beiden Variablen gibt. Damit ist die Frage aufgeworfen, was “weit weg” konkret bedeuten soll. Da wissenschaftliches Arbeiten heißt, daß jede Person, die dasselbe Verfahren anwendet, bei denselben Daten zu denselben Ergebnissen gelangen soll, sollte das Verfahren möglichst wenig Spielraum für persönliche Wertungen geben. Findet man eine Testgröße und die zugehörige Stichprobenverteilung, so böte sich ein statischer Test an. Um zu einer Testgröße zu kommen, könnten im ersten Schritt die theoretischen absoluten Häufigkeiten bestimmt werden, indem die relativen Randverteilungen jeweils mit der Anzahl an Beobachtungen, n, multipliziert wird, also TH ij = T heoretischeHäuf igkeiten = nhi. h.j Die Testgröße könnte auf der Differenz von tatsächlichen und theoretischen absoluten Häufigkeiten aufbauen. Um zu einer einzigen Zahl zu gelangen, könnten diese Differenzen addiert werden. Bei dieser Summe würden sich allerdings positive und negative Differenzen ausgleichen. Dies könnte dazu führen, daß die Summe zwar Null, aber dennoch beträchtliche Abweichungen zwischen tatsächlicher und theoretischer Verteilung vorliegen könnten. Jede Abweichung der tatsächlichen von der theoretischen absoluten Häufigkeit sollte berücksichtigt werden. Eine Möglichkeit, dieser Forderung zu genügen, ergibt sich über die Quadrierung der jeweiligen Differenzen (nij − T H ij )2
5.2. UNABHÄNGIGKEITSTEST
93
und Summation über alle Zellen: k l
(nij − T H ij )2 ,
i=1 j=1
wobei k die Anzahl der Zeilen und l die der Spalten angeben soll. Die absoluten Abweichungen eines Summanden könnten beträchtlich sein, doch die theoretische absolute Häufigkeit der betrachteten Zelle der Kontingenztabelle könnte ebenfalls sehr groß sein. Je größer die theoretischen absoluten Häufigkeiten jedoch sind, desto geringer wären die Abweichungen der tatsächlichen von den theoretischen Häufigkeiten zu gewichten. Deshalb dividiert man die quadrierte Differenz durch die zugehörige theoretische absolute Häufigkeit. Dies führt zu QK :=
k l (nij − T H ij )2 , T H ij i=1 j=1
ein Ausdruck, der als quadratische Kontingenz oder Chi-Quadrat-Koeffizient bekannt ist. Die Nullhypothese lautet H0 : beide Variablen sind statistisch unabhängig und die Gegenhypothese H1 : es liegt keine statische Unabhängigkeit vor. Als Testgröße wird der Chi-Quadrat-Koeffizient verwendet, der unter H0 annähernd Chi-Quadrat-verteilt ist mit (k − 1)(l − 1) Freiheitsgraden. Die Freiheitsgrade geben an, wie viele theoretische absolute Häufigkeiten (also Zellen in der Kontingenztabelle) frei festgelegt werden können. Denn hat eine Kontingenztabelle zwei Zeilen und drei Spalten und liegt die Gesamtzahl an Beobachtungen, n, fest, so ist die relative Randverteilung in der letzten Spalte der Kontingenztabelle eindeutig bestimmt, wenn auch nur ein Wert bekannt ist, der andere läßt sich dann über die Normierungsvorschrift berechnen. Ganz gleich verhält es sich mit der Randverteilung in der untersten Zeile: sind die relativen Häufigkeiten zweier dieser Zellen bekannt, so kann die dritte errechnet werden. In diesem Beispiel ist k = 2 und l = 3. Woraus sich errechnet, daß (2 − 1) ∗ (3 − 1), also zwei Zellen der theoretischen gemeinsamen Verteilung sich frei festlegen lassen, die restlichen können dann errechnet werden. Damit verbleibt einzig zu klären, welches Skalenniveau die Variablen haben müssen. Grundlage des Tests ist eine Kontingenztabelle. Um eine solche zu erstellen, muß es abzählbar endlich viele Ausprägungen der zweidimensionalen Variable geben. Diese Anforderung wird von nominalen wie ordinalen Merkmalen erfüllt. Bei kardinalen Merkmalen können Gruppen gebildet werden, so daß die Anforderung ebenfalls erfüllt werden kann. Liegt statische Unabhängigkeit vor, so müßte die Testgröße nahe Null oder mit anderen Worten links des (1 − α) -Quantils liegen, wobei α das Signifikanznivau bezeichnet, wie in Abbildung 5.1 dargestellt. Damit verbleibt lediglich
KAPITEL 5. CHI-QUADRAT TESTS
0.00 0.05 0.10 0.15 0.20 0.25 0.30
P(X)
94
Annahmebereich
Testgröße
2
Ablehnungsbereich
(1−alpha)
4
alpha
6
8
10
12
14
X (=Zufallsvariable, dhi−qudrat−verteilt)
Abbildung 5.1: Annahme und Verwerfungsbereich Quelle: eigene Darstellung
das Problem, dieses Quantil zu berechnen. Dies soll durch das folgende Beispiel illustriert werden.
5.2.2
Beispiel
In einer Befragung wurden Daten zu Geschlecht und Berufsausbildung mit folgenden Merkmalsausprägungen erhoben: Geschlecht: männlich, weiblich Berufsausbildung im (1) technischen Bereich, (2) kaufmännischen Bereich, (3) künstlerischen Bereich . Die Rohdaten sind in Tabelle 5.1 dargestellt. Es interessiert die Frage, ob es einen systematischen Zusammenhang zwischen Geschlecht und Berufsausbildung gibt. Getestet werden soll zum Signifikanzniveau α = 0, 05. Zwecks Untersuchung dieser Frage bietet sich eine Kontingenztabelle an (siehe Tabelle 5.2 ).
Geprüft werden die Hypothesen: H0 : Geschlecht und Beruf sind statistisch unabhängig,
5.2. UNABHÄNGIGKEITSTEST Person 1 2 3 4 5 6 7 8 9 10
Geschlecht m m w m w w w w m m
95 Berufsausbildung 1 2 1 3 3 2 1 1 2 2
Tabelle 5.1: Rohdaten Quelle: Daten frei erfunden
m w
1 1 3
2 3 1
3 1 1
Randverteilung Geschlecht 5 5
Tabelle 5.2: Kontingenztabelle mit absoluten Häufigkeiten Quelle: eigene Darstellung H1 : Beide Variablen sind nicht unabhängig. Die Testgröße ist gleich 2 und der Annahmebereich kann über die Chi-QuadratVerteilung mit (2 − 1)(3 − 1) = 2 Freiheitsgraden mit Sicherheitswahrscheinlichkeit (1 − 0, 05) = 0, 95 bestimmt werden: Annahmebereich = [0, 5, 991465], der über den Befehl > qchisq(0.95, 2, ncp=0, lower.tail = TRUE, log.p = FALSE) [1] 5.991465 berechnet werden kann. Aber Vorsicht: die Zellenbesetzung innerhalb der Kontingenztabelle ist zu gering, so daß die Approximation an die Chi-Quadrat-Verteilung zu schlecht ist. In jeder Zelle sollten mindestens 5 sein. Aus diesem Grund wird hier die Entscheidung getroffen, daß das Datenmaterial nicht ausreicht, einen verläßlichen Test durchzuführen. Alternativ hierzu besteht in die Möglichkeit, den Chi-Quadrat-Unabhängigkeitstest zu erhalten über die Befehlszeile > chisq.test(x). Dies ergibt
KAPITEL 5. CHI-QUADRAT TESTS
96 1 3
3 1
1 1
Tabelle 5.3: Eingabe x Quelle: eigene Darstellung 20 60
34 11
50 70
Tabelle 5.4: Eingabe y Quelle: eigene Darstellung Pearson’s Chi-squared test data: x X-squared = 2, df = 2, p-value = 0.3679 Warning message: Chi-squared approximation may be incorrect in: chisq.test(x). x steht hierbei für den Inhalt der Kontingenztabelle, also wie in Tabelle 5.3. Als Output wird der Kontingenzkoeffizient (dort mit X-squared bezeichnet), die Anzahl an Freiheitsgraden (df=2, wobei df für ’degrees of freedom’ steht) und die Wahrscheinlichkeit rechts der Testgröße angezeigt. Wäre das Signifikanzniveau also identisch mit diesem p-value, so könnte die Nullhypothese nicht verworfen werden; dem ist jedoch nicht so. In Abbildung 5.1 ist links bei zwei eine senkrechte Linie eingetragen, dies ist die Testgröße. Rechts hiervon liegt die Wahrscheinlichkeitsmasse von 0, 3679. Die Senkrechte bei 5,99 ist das (1 − α)Quantil, rechts davon liegt die Wahrscheinlichkeitsmasse α. Die Testgröße liegt also im Annahmebereich. Ist das Signifikanzniveau größer als dieser ’p-value’, so wäre die Nullhypothese zu verwerfen, da die Testgröße im Ablehnungsbereich liegen würde. Da die ausgewiesene Wahrscheinlichkeit für ihn viel höher ist als das vorgegebene Signifikanzniveau, kann die Nullhypothese nicht abgelehnt werden. Die zum Schluß ausgegebene Warnung ergibt sich wegen der ungenügenden Zellenbesetzung. Dieses Problem kann gegebenenfalls durch die Zusammenfassung benachbarter Kategorien vermieden werden; hier jedoch ist dies nicht möglich und das Ergebnis deshalb nicht verläßlich. Bei korrekter Zellenbesetzung, wie in Tabelle 5.4, wird keine Fehlermeldung ausgegeben: > chisq.test(y) Pearson’s Chi-squared test data: y X-squared = 30.1897, df = 2, p-value = 2.782e-07 In diesem Fall ist der ausgewiesene p-value (d.h. die Wahrscheinlichkeit rechts des ’X-squared’) viel kleiner als die festgelegten 0,05: die Testgröße liegt
5.3. ANPASSUNGSTEST
97
im Ablehnungsbereich, weshalb die Nullhypothese hier abzulehnen wäre. Denn 2.782e − 07 = 2.782e ∗ 10−07 = 0, 0000002782. Mit anderen Worten verschiebt sich das Komma um 5 Stellen nach links. Die Richtigkeit dieser Interpretation läßt sich überprüfen, indem die Wahrscheinlichkeit rechts des Chi-Quadrat-Koeffizienten (hier: 30.1897) berechnet wird. Eingabe von > 1-pchisq(30.1897, 2, ncp=0, lower.tail = TRUE, log.p = FALSE) [1] 2.78221e-07 ergibt den im ’Pearson’s Chi-squared test’ angegebene Wahrscheinlichkeit (pvalue). Die Zusammenhänge können auch in Abbildung 5.1 abgelesen werden. Nun liegt die Testgröße (= 30, 1897) rechts im Verwerfungsbereich; sie ist nicht eingezeichnet (die links liegende Testgröße bezieht sich auf das vorangegangene Beispiel). Aus diesem Grund ist die Nullhypothese abzulehnen.
5.3 5.3.1
Anpassungstest Grundlagen
Der Chi-Quadrat-Unabhängigkeitstest läßt sich auch anders interpretieren und wird hierüber zum Ansatzpunkt zum Vergleich zweier Verteilungen, mit anderen Worten zum Anpassungstest. Im Zentrum steht dann die Frage, ob sich eine empirische Verteilung signifikant von einer theoretischen unterscheidet. Fragestellungen dieser Art treten in der praktischen Arbeit in zwei Formen auf: 1. auf der Objektebene, d.h. zur direkten Überprüfung einer konkreten Frage und 2. auf der Metaebene, d.h. zur Überprüfung, ob eine vermutete Verteilungsannahme vorliegt, um den eigentlich interessierenden Test durchführen zu können. Die Qualität der Produktion ist im allgemeinen auch von der Motivation der Mitarbeiter abhängig. Nach einem Wochenende kann es beispielsweise sein, daß wegen Motivationsmangels Qualitätsprobleme auftreten. Zur Überprüfung dieser These kann man prüfen, ob das Ausmaß von Fehlproduktion (Ausschuß) über die Wochentage hinweg gleichverteilt ist. Dies ist eine typische Frage zu Fall 1. Bei jedem statistischen Test wird zur Bestimmung von Annahme- und Ablehnungsbereich ein bestimmter Verteilungtyps vorausgesetzt. In der Realität mag die Annahme zutreffen oder auch nicht. Aus diesem Grund sind statistische Testverfahren nötig, um zu überprüfen, ob die Voraussetzungen des Testverfahrens zutreffen oder nicht. Diese Aufgabenstellung tritt bei 1 auf.
KAPITEL 5. CHI-QUADRAT TESTS
98
Bei dem Chi-Quadrat-Unabhängigkeitstest haben wir den Chi Quadrat-Koeffizienten kennengelernt. Die Grundidee besteht darin, die Differenz von beobachteten absoluten und theoretischen Häufigkeiten zu bilden. Sind diese über alle Beobachtungen hinweg groß, so wird man mit einer gewissen Berichtigung behaupten können, daß die empirische von der theoretischen Verteilung abweicht. Die theoretische Verteilung ergab sich hierbei aus der Nullhypothese, daß die beiden Merkmale statistisch unabhängig sind. Dieser Ansatz läßt sich erweitern, indem statt statistischer Unabhängigkeit und der hieraus abgeleiteten theoretischen Verteilung irgendeine andere als theoretische Verteilung verwendet wird. So mutiert der Chi-Quadrat-Unabhängigkeitstest zum Anpassungstest. Als Testgröße sollten aus den bereits bekannten Gründen nicht einfach die Differenzen von beobachteten und theoretischen absoluten Häufigkeiten aufsummiert werden. Stattdessen verwenden wir, wie bei dem Chi-Quadrat- Unabhängigkeitstest, wiederum den Chi-Quadrat-Koeffizienten. Als Nullhypothese ergibt sich dann H0 : die empirische Verteilung ist gleich der theoretischen und H1 : empirische und theoretischen Verteilung unterscheiden sich voneinander. Ist der Chi-Quadrat-Koeffizient nahe bei Null, so werden wir wenig geneigt sein, die Nullhypothese zu verwerfen. Aus diesem Grund und weil die Chi-Quadrat-Verteilung keine positive Wahrscheinlichkeitmasse im negativen Bereich besitzt beginnt der Annahmebereich bei Null. Die Wahrscheinlichkeitsmasse von (1 − α) überdeckt den Annahmebereich bis zum kritischen Wert, dem (1 − α)-Quantil, wie in Abbildung 5.1 dargestellt.
5.3.2
Beispiel
In einer Betriebsstätte arbeiten hundert Personen im Zweischichtbetrieb; in jeder Schicht wird annähernd soviel produziert wie in der anderen. Der Werksleiter möchte wissen, ob die Produktion von Ausschuß bei beiden Schichten derselbe ist. Gruppe 1 produzierte im letzten Monat Ausschuß in Höhe von 85 und Gruppe 2 von 60 Stück. Das vorgegebene Signifikanzniveau ist gleich 5 Prozent. In kann wiederum der Chi-Quadrat-Test angewendet werden. Anstatt den Inhalt einer Kontingenztabelle als Daten zu übergeben, wird der Vektor (85, 60) verwendet. Er repräsentiert die empirische Verteilung, die theoretische Verteilung wird über die Angabe der theoretischen Verteilung eingespeist. Hierzu ist in vorliegendem Fall der Vektor p = (1/2, 1/2) einzugeben. Multiplikation der theoretischen relativen Häufigkeiten mit der gesamten Anzahl an Ausschuß (= 145) ergibt die theoretischen absoluten Häufigkeiten (= 72,5). Hierüber läßt sich die quadratische Kontingenz berechnen; im vorliegenden Fall beträgt sie 4,3103. > x1 <- c(85,60) > chisq.test(x1, y = NULL, correct = TRUE,p = c(0.5,0.5)) Chi-squared test for given probabilities
5.4. HOMOGENITÄTSTEST
m w
1 0,25 0,75 1
2 0,75 0,25 1
99 3 0,5 0,5 1
Randverteilung Geschlecht 0,5 0,5 1
Tabelle 5.5: Kontingenztabelle mit bedingter Verteilung Quelle: eigene Darstellung
data: x1 X-squared = 4.3103, df = 1, p-value = 0.03788 Da die empirischen absoluten Häufigkeiten gegeben sind und die theoretischen relativen Häufigkeiten aus nur zwei Zahlen bestehen, ist der Freiheitsgrad gleich 1. Denn ist eine der beiden theoretischen relativen Häufigkeiten bekannt, so kann die andere wegen der Normierung der Summe aller Wahrscheinlichkeiten auf 1 berechnet werden. Die angegebene Wahrscheinlichkeit, die rechts der Testgröße liegt, ist 0,03788. Aus diesem Grund ist die Nullhypothese zum Signifikanzniveau von 5 Prozent abzulehnen.
5.4 5.4.1
Homogenitätstest Grundlagen
Schließlich gibt es ausgehend von dem Chi-Quadrat-Unabhängigkeitstest eine weitere Interpretationsmöglichkeit. Zu diesem Zweck leiten wir aus dem Beispiel von Seite 94 die Randverteilung und die bedingten Verteilungen des Merkmals Geschlecht her. Das Ergebnis ist in Tabelle 5.5 eingetragen. Man erkennt, daß sie nicht identisch sind und von der Randverteilung des Geschlechts abweichen. Würde statistische Unabhängigkeit bestehen, so wären diese Verteilungen identisch. Denn angenommen, wir hätten x = (0, 6; 0, 4) und y = (0, 23; 0, 77) als Randverteilungen. Besteht statistische Unabhängigkeit, so läßt sich die gemeinsame Verteilung durch Multiplikation der beiden Randverteilungen errechnen.
y x x1 x2
y1
y2
0,14 0,09 0,23
0,46 0,31 0,77
0,6 0,4
Hieraus erhalten wir die bedingte Verteilung von x unter der Bedingung von j = 1, 2.
KAPITEL 5. CHI-QUADRAT TESTS
100 y x x1 x2
y1
y2
0,6 0,4 1
0,6 0,4 1
0,6 0,4
Man erkennt: Die Multiplikation der Randverteilungen ergibt den Inhalt der Matrix. Zudem sind die bedingten Verteilungen identisch und exakt gleich der Randverteilung der Variablen x. Dies ist kein Zufall. Denn bei statistischer Unabhängigkeit gilt ja, daß die Multiplikation der Randverteilungen die gemeinsame Verteilung ergibt, also hij = hi. h.j ⇔ h.j =
hij hij ⇔ hi. = . hi. h.j
Der Ausdruck hij h.j ist gerade die bedingte Verteilung von i unter j (für i = {1, 2, 3, . . . , k} und hij hi. die bedingte Verteilung von j unter Bedingung i (für j = {1, 2, 3, . . . , l}. Bislang wurde angenommen, daß die beiden Merkmale, x und y gemeinsam erhoben worden sind. Die Merkmale Geschlecht und Berufsausbildung ’kleben’ beispielsweise an jeder Person, wie aus Tabelle 5.1 zu ersehen ist. Die zugehörigen bedingten Verteilungen, dargestellt in 5.5, zeigen jedoch, daß die Geschlechterverteilung davon abhängt, ob eine Ausbildung im technischen (1), kaufmännischen (2) oder künstlerischen Bereich (3) erfolgt. Wäre die Geschlechterverteilung unabhängig von der Ausbildungsrichtung, so müßten die bedingten Verteilungen identisch sein und exakt gleich der Randverteilung. Demgemäß ist die Nullhypothese des Chi-Quadrat-Unabhängigkeitstests äquivalent mit der Hypothese, daß die bedingten Verteilungen alle identisch und gleich der Randverteilung sind. Wird nun nicht von Merkmalen ausgegangen, die gemeinsam erhoben worden sind, so ergibt sich ein Ansatzpunkt für einen neuen Test, den Homogenitätstest. Verteilung i, i = 1, 2, ist die Geschlechtsverteilung mit ’m’ für männlich und ’w’ für weiblich. In der nachfolgenden Tabelle sind die Geschlechterverteilungen angegeben für die Verteilungen 1, 2 und 3. y x m w
Verteilung 1
Verteilung 2
Verteilung 3
40 50 90
30 31 61
60 40 100
130 121 251
5.4. HOMOGENITÄTSTEST
101
Die Berechnung der relativen Häufigkeiten des Geschlechts für jeweils jede Verteilung ergibt: y
Verteilung 1
Verteilung 2
Verteilung 3
40 90 50 90
30 61 31 61
60 100 40 100
x m w
1
1
1
130 251 121 251
1
Die Geschlechtsverteilung für jedes j, j = 1, 2, 3, sei das Ergebnis einer einfachen Stichprobe. Geprüft werden kann nun die Nullhypothese, ob die Verteilungen identisch sind gegen die Hypothese, daß mindestens eine sich von den anderen unterscheidet. Sind alle Verteilungen identisch, so ist zu vermuten, daß die Stichproben aus derselben Grundgesamtheit stammen oder aber aus verschiedenen Grundgesamten, die jedoch dieselbe Verteilung aufweisen. Diese Nullhypothese ist aber äquivalent zu der Hypothese, daß die Multiplikation der ’Randverteilungen’ zu denselben relativen Häufigkeiten führt wie im inneren der Matrix. Man beachte, daß es sich bei dem Homogenitätstest nicht um eine Kontingenztabelle im eigentlichen Sinne handelt! Warum eigentlich nicht?52 Aus diesem Grund wurde Randverteilung auch in Anführungsstriche gesetzt. Damit ergibt sich wieder die Möglichkeit, den Kontingenzkoeffizienten als Testgröße zu verwenden, der chi-quadrat-verteilt ist. Damit verbleibt einzig die Anzahl der Freiheitsgrade zu klären. Analog zum Chi-QuadratUnabhängigkeitstest ergeben sie sich durch Multiplikation von (k − 1)(l − 1), wobei k die verschiedenen Ausprägungen und l die Anzahl der unterschiedlichen Verteilungen bezeichnet. Man errechnet Annahme- und Verwerfungsbereich und lehnt die Nullhypothese ab, wenn die Testgröße in den kritischen Bereich fällt.
5.4.2
Beispiel
In einer Firma gibt es drei Vertriebsabteilungen, von denen jede für eine andere Region die Verantwortung trägt. Der Umsatz in Region Nord-Deutschland ist 2,5 Millionen, in Süd-Deutschland 2,2 Millionen und in Österreich und der Schweiz ist er 1,8 Millionen Euro. Die Firma betreibt Preisdiskriminierung dritten Grades, d.h. Erwachsene, die älter als 65 Jahre sind, erhalten dasselbe Produkt 20 Prozent günstiger als andere Erwachsene. Der Geschäftsführer möchte wissen, ob die Verteilung des Absatzes auf die beiden Personengruppen in jeder Region identisch sind. Er wählt als Signifikanzniveau 5 Prozent. Zu diesem Zweck wird aus den Kunden des vergangenen Jahres aus jeder Region eine einfache Stichprobe gezogen. Das Ergebnis ist wie folgt.
unter 65 Jahre 65 Jahre und älter
NordDeutschland 33 44
Süd-Deutschland 30 66
Österreich und Schweiz 40 50
KAPITEL 5. CHI-QUADRAT TESTS
102
Die Stichproben stammen zwar aus unterschiedlichen Grundgesamtheiten, dennoch kann geprüft werden, ob die Verteilungen dieser Grundgesamtheiten identisch sind. Dies ist die Nullhypothese. Die Gegenhypothese lautet, daß mindestens eine der Verteilungen sich von den anderen unterscheidet. Als Testgröße wird wiederum der Chi-Quadrat-Koeffizient gewählt: QK = 4, 01. Die Freiheitsgrade errechnen sich über (2 − 1) ∗ (3 − 1) = 2. Der Annahmebereich ist [0; 5, 99], der über > qchisq(0.95,2,lower.tail=TRUE) [1] 5.991465 errechnet wurde. Da die Testgröße im Annahmebereich liegt, kann die Nullhypothese nicht verworfen werden. Statt dieses Verfahrens können auch die Befehle > x <- matrix(c(33,44,30,66,40,50),2,3) > x [,1] [,2] [,3] [1,] 33 30 40 [2,] 44 66 50 > chisq.test(x) Pearson’s Chi-squared test data: x X-squared = 4.0176, df = 2, p-value = 0.1341 verwendet werden. In der ersten Zeile werden die Daten als Matrix eingegeben und dem Ausdruck ’x’ zugeordnet. Eingabe von ’x’ gibt die Möglichkeit, die Daten auf Korrektheit zu prüfen. Mit Eingabe von ’chisq.test(x)’ wird die Testgröße und die Anzahl der Freiheitsgrade ausgegeben. Der ’p-value’ ist die Wahrscheinlichkeitsmasse, die rechts der Testgröße liegt. Ist diese Wahrscheinlichkeitsmasse größer (wie in vorliegendem Fall) oder gleich dem Signifikanzniveau, so kann die Nullhypothese nicht abgelehnt werden.
5.5
Abschließende Bemerkungen
Gerade bei Befragungen werden vielerlei nominale und ordinale Merkmale erhoben. Kardinal skalierte Merkmale, wie beispielsweise das Einkommen, werden oft nicht direkt erfragt, vielmehr werden Einkommensklassen gebildet und es wird gebeten Auskunft zu geben, in welcher Klasse sich das eigene Einkommen bewegt. Auf diese Art und Weise hofft man, verläßlichere Auskünfte zu erhalten. Der Vorteil der vorgestellten Chi-Quadrat-Tests besteht darin, daß sie auch bei diesen Skalenniveaus verwendbar sind. Sollen kardinale Merkmale mit Hilfe der Chi-Quadrat-Tests bearbeitet werden, so können Klassen gebildet werden, um die Methoden anwenden zu können.
5.6. KONTROLLFRAGEN
103
Bei dem Binomialtest war es möglich, die Nullhypothese mit der Gegenhypothese zu vertauschen. Dies ist bei dem Chi-Quadrat-Unabhängigkeitstest nicht möglich, weil dann weder Testgröße noch ihre Verteilung bekannt sind. Der Chi-Quadrat-Anpassungstest kann zur Überprüfung von Verteilungsannahmen, die bei vielen statistischen Verfahren gemacht werden, genutzt werden. Allerdings gibt es eine Vielzahl von Tests, zur Überprüfung der Hypothese, ob ein bestimmter Verteilungstyp vorliegt oder nicht. Im allgemeinen sind diese speziellen Tests trennschärfer und somit dem Anpassungstest vorzuziehen. Durch die Hinleitung zum Chi-Quadrat-Homogenitätstest wird die Bedeutung der statistischen Unabhängigkeit klarer. Sind alle bedingten Verteilungen einer Variablen x identisch und gleich der Randverteilung von x, so hängen die bedingten Verteilungen offensichtlich nicht von dem Eintritt der jeweiligen Bedingung ab, sind also unabhängig (von den gewählten Bedingungen). Hierdurch wird es möglich, zu testen, ob zwei Variablen aus derselben Grundgesamtheit stammen oder aus Grundgesamtheiten, die dieselbe Verteilung aufweisen.
5.6
Kontrollfragen
1. Geben Sie die Definition der statistischen Unabhängigkeit an. 2. Skizzieren Sie die Grundidee des Chi-Quadrat Unabhängigkeitstests. 3. Wie werden bei dem Unabhängigkeitstest die theoretischen absoluten Häufigkeiten bestimmt? 4. Warum werden bei der Berechnung der quadratischen Kontingenz die Differenzen der empirischen Häufigkeiten nij von den theoretischen Häufigkeiten T Hij gebildet? 5. Warum werden in der Formel zur Berechnung des Chi-Quadrat Koeffizienten die Differenzen quadriert? 6. Wie ist der Chi-Quadrat Koeffizient verteilt? 7. Kann der Chi-Quadrat Unabhängigkeitstest mit nominal skalierten Variablen durchgeführt werden? 8. Der Chi-Quadrat Unabhängigkeitstest soll mit kardinal-skalierten Variablen durchgeführt werden. Ist das überhaupt möglich? Wenn ja, wie muß vorgegangen werden? 9. Wie werden die Freiheitsgrade bei dem Chi-Quadrat Unabhängigkeitstest bestimmt? 10. Beschreiben Sie die Grundidee eines Anpassungstests. 11. Zu welchen Zwecken werden Anpassungstests benötigt?
KAPITEL 5. CHI-QUADRAT TESTS
104
12. Gegeben seien zwei Merkmale: x und y. Erläutern Sie, warum bei Vorliegen statistischer Unabhängigkeit, die bedingten Verteilungen von x jeweils bei den Bedingungen y1 , . . . ym einander gleich sind. 13. Skizzieren Sie die Grundidee des Homogenitätstests.
5.7
Aufgaben
1. (a) Welche Art von Daten müssen bei dem Befehl chisq.test(x) eingegeben werden?53 (b) Welcher Befehl ist hierzu bei Vorliegen von Rohdaten erforderlich?54 (c) Interpretieren Sie den Output des folgenden Befehls55 > chisq.test(xxx) Pearson’s Chi-squared test with Yates’ continuity correction data: xxx X-squared = 0.1068, df = 1, p-value = 0.7439. 2. Wie groß ist der Chi-Quadrat Koeffizient, wenn empirische und theoretische Verteilung exakt übereinstimmen? 56 3. (a) Führen Sie aufgrund folgender Daten einen Chi-Quadrat Unabhängigkeitstest zur Sicherheitswahrscheinlichkeit von 90 Prozent durch.57 Tageszeit Tagesfahren Nachtfahrten Unfälle mit Todesfolge 204 321 ohne Todesfolge 300 466 (b) Bestimmen Sie den kritischen Wert.58 (c) Skizzieren Sie die Chi-Quadrat Verteilung und kennzeichnen Sie die Testgröße, den kritischen Wert und den Annahme- und Verwerfungsbereich. (d) Geben Sie das höchste Signifikanzniveau an, bei dem die Nullhypothese gerade noch angenommen wird.59 4. (a) Bei dem Binomialtest ergibt sich die Festlegung des Annahmebereiches aus der Festlegung der Nullhypothese. Geben Sie hierfür ein Beispiel. 60 (b) Wo liegt bei dem Chi-Quadrat Unabhängigkeitstest der Annahmebereich? 61 (c) Gehört bei dem Chi-Quadrat Unabhängigkeitstest der kritische Wert zu dem Annahme- oder Verwerfungsbereich? 62
5.7. AUFGABEN
105
5. Ist es möglich, daß Null- und Gegenhypothese bei dem Chi-Quadrat Unabhängigkeitstest einfach umgedreht werden? 63 6. (a) Interpretieren Sie folgenden Befehl:64 > qchisq(0.95,2,lower.tail=TRUE) (b) Geben Sie einen äquivalenten Befehl ein, d.h. einen, der zu demselben Ergebnis führt. 65 (c) Begründen Sie Ihre Antwort zu 6b.
66
(a) Interpretieren Sie den Befehl > pchisq(5,10,lower.tail=TRUE) (b) Begründen Sie, warum der Befehl > pchisq(5,10,lower.tail=TRUE) [1] 0.1088220 zu demselben Ergebnis führt wie67 > 1-pchisq(5,10,lower.tail=FALSE)? [1] 0.1088220 7. Gegeben sei folgende Kontingenztabelle.
Geschlecht
Geschlecht
männlich weiblich
0-10 100 122
Alter in Jahren 10-20 20-30 400 300 202 504
Alter in Jahren 50-60 70-80 männlich 200 134 weiblich 69 23
30-40 322 129
40-50 300 200
über 80 80 12
Testen Sie, ob die Variablen Alter und Geschlecht statistisch unabhängig sind. Überprüfen Sie zu den Signifikanzniveaus α = 0, 01, α = 0, 05 und α = 0, 1.68 8. Eine Befragung zufällig ausgewählter Personen (einfache Stichprobe) ergab, daß 20 Männer rauchen, aber sogar 55 Frauen zum Glimmstengel greifen. 33 Männer sind Nichtraucher und 77 Frauen gaben an, nicht zu rauchen. (a) Untersuchen Sie, ob Rauchen geschlechtsspezifisch ist (Hinweis: Signifikanzniveau = 0, 08.69
106
KAPITEL 5. CHI-QUADRAT TESTS (b) Mit welcher Wahrscheinlichkeit wird fälschlicherweise angenommen, daß es einen systematischen Zusammenhang zwischen Rauchen und Geschlecht gibt?70
9. Überprüfen Sie aufgrund der Daten in der nachfolgenden Tabelle, ob es einen systematischen Zusammenhang zwischen Altersklasse und der Eigenschaft gibt, Kunde zu sein oder nicht.71 Alter bis 12 Jahre Alter über 12 und unter 18 Jahren Alter zwischen 18 und 24 Jahren
Kunde 20 24 3
Kein Kunde 55 24 4
10. (a) Bestimmen Sie bei dem Beispiel auf Seite 98 den kritischen Wert und geben Sie den Annahme- und Ablehnungsbereich an.72 (b) Stellen Sie die Chi-Quadratverteilung graphisch dar. (c) Tragen Sie in dieser Graphik die Testgröße ein und kennzeichnen Sie den Bereich mit Wahrscheinlichkeitsmasse ’p-value’. (d) Kennzeichnen Sie den Verwerfungsbereich. (e) Bei welchem Signifikanzniveau würde die Nullhypothese verworfen?
Kapitel 6
Wahrscheinlichkeitsräume 6.1
Einleitung
In Kapitel 4 wurde ein wichtiges Ziel erreicht: die Durchführung statistischer Tests. Ausgehend von einer Verteilungsannahme über die Grundgesamtheit wurde eine Stichprobenverteilung hergeleitet. Dabei wurde die Bedeutung des Stichprobenverfahrens deutlich. Denn von ihr hängt die Stichprobenverteilung ab. In diesem Kapitel soll das Verfahren verallgemeinert werden, um es auch in anderen Situationen anwenden zu können. In unserem Fall konnten in der Grundgesamtheit lediglich zwei Werte angenommen werden, schwarz oder weiß. Eine solche Verteilung heißt Bernoulli˜ = {schwarz, weiß} nennen wir Grundgesamtheit oder Verteilung. Die Menge Ω Ergebnisraum und ihre Elemente heißen Ergebnisse. Da man bei einer Ziehung einer Kugel entweder eine schwarze oder weiße erhält, ist die Wahrscheinlichkeit, keine zu bekommen, gleich Null. Die Wahrscheinlichkeit, eine weiße zu ziehen, sei gleich der, einer schwarzen: 1 P˜ (weiß) = P˜ (schwarz) = . 2 Es können bei zufälligem Ziehen folgende Ereignisse auftreten: entweder wird keine, beide, eine schwarze oder eine weiße Kugel gezogen. Die Menge ˜ weiß, schwarz}. F˜ = {∅, Ω, enthält all diese Möglichkeiten. Daß keine Kugel gezogen wird, wird durch die leere Menge, ∅, berücksichtigt. Jedem Element dieser Menge lassen sich Wahrscheinlichkeiten zuordnen: ˜ = 1, P˜ (weiß = 1 , P˜ (schwarz) = 1 . P˜ (∅) = 0, P˜ (Ω) 2 2 Die Wahrscheinlichkeit, daß weiß oder schwarz eintritt, kann als Wahrscheinlich˜ = keit der Vereinigungsmenge (weiß∪schwarz), also P˜ (weiß∪schwarz) = P˜ (Ω) R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_6, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
108
KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME
1 aufgefaßt werden. Die Wahrscheinlichkeit, daß weder schwarz noch weiß ein˜ = P˜ (∅) = 0. Mit anderen Worten tritt wäre P˜ ((weiß ∪ schwarz))) = P˜ (Ω) ˜ eignet sich die Menge F als Definitionsmenge, um ein Wahrscheinlichkeitsmaß zu definieren. Dies geschieht im nachfolgenden Abschnitt. Die Wahrscheinlichkeitstheorie, die in diesem und dem nachfolgenden Kapitel behandelt wird, ist kein Selbstzweck. In den Kapiteln 6.3 und 6.4 wird der Begriff des Wahrscheinlichkeitsraumes vorgestellt und auf die Situation in der Grundgesamtheit sowie der Stichprobe angewandt. Hierbei wird einmal mehr deutlich, daß das Stichprobenverfahren entscheidenden Einfluß auf die Wahrscheinlichkeitsverteilung in der Stichprobe hat. Viele Verfahren und Darstellungen statistischer Verfahren sind nur dann nachvollziehbar, wenn grundlegende Rechenregeln der Wahrscheinlichkeitstheorie bekannt sind. Die wichtigsten sind in Kapitel 6.5 niedergeschrieben. Einige dieser Regeln sind so wichtig, daß ihnen eigens ein eigener Unterabschnitt gewidmet ist. Hierzu zählen die bedingte Wahrscheinlichkeit in Abschnitt 6.5.2 und der Begriff der stochastischen Unabhängigkeit in Kapitel 6.5.3, die in enger Beziehung zueinander stehen. Der Satz von der totalen Wahrscheinlichkeit in Abschnitt 6.5.5 kann bei der Ziehung von Stichproben wie auch bei Schätzungen sinnvolle Dienste leisten. Im letzten Abschnitt wird der Satz von Bayes dargestellt, der für den Fall, daß bereits Vorinformationen über einen Parameterwert (beispielsweise den Erwartungswert) einer Verteilungsfunktion vorliegen, zu genaueren Schätzungen führen kann.
6.2
Definitionsmenge
Offensichtlich führt diese Notation zu sinnvollen Interpretationen. Aber nicht ˜ die sich aus Elementen von Ω ˜ zusammensetzt, ist sinnvoll. Anjede Menge F, ˜ würde nur aus der leeren Menge bestehen. In diesem Fall gibt genommen, Ω es keine Alternative, die mit positiver Wahrscheinlichkeit eintreten könnte. Aus diesem Grund ist es sinnvoll, zu fordern, daß ˜ = ∅. Ω
(6.1)
˜ zusammensetzen. InsAnders gewendet sollte F˜ sich aus Teilmengen von Ω ˜ bestimmen können, besondere wollen wir auch die Wahrscheinlichkeit von Ω weshalb ˜ ∈ F˜ Ω (6.2) gelten soll. ˜ Angenommen, eine Menge A sei eine echte oder unechte Teilmenge von Ω, ˜ ˜ dann sollte jedoch auch ihre Komplementmenge zu Ω in F enthalten sein. Denn man will ja nicht nur die Wahrscheinlichkeit von A, sondern auch die des Komplementes von A bezüglich F bestimmen können. Deshalb fordern wir A ∈ F˜ ⇒ Ω˜ A ∈ F˜ .
(6.3)
6.2. DEFINITIONSMENGE
109
Wollen wir die Menge F˜ als Definitionsmenge für ein Wahrscheinlichkeitsmaß nutzen, so muß die Vereinigungsmenge beliebiger Teilmengen von F˜ wiederum in F˜ enthalten sein. Denn sonst könnten wir deren Wahrscheinlichkeit nicht bestimmen. Deshalb wird gefordert, ˜ ⇒ (∀j ∈ N)(Aj ∈ F)
∞
Aj ∈ F˜ .
(6.4)
j=1
˜ die die Bedingungen 6.1, 6.2, 6.3 und 6.4 erfüllt, heißt σ-Ring. Eine Menge F, Aus dieser Definition ergibt sich, daß auch die leere Menge in F˜ enthalten ist. ˜ in F˜ ist, dann ist auch die Komplementmenge, die leere Menge, Denn wenn Ω enthalten. Angenommen, es gäbe eine Vielzahl an möglichen Ereignissen. Es könnten sogar unendlich viele, also unendlich viele Ai s sein. Um Ihre Wahrscheinlichkeit berechnen zu können, müssen sie Element des σ-Rings F˜ sein: A1 , A2 , . . . , ∞ ∈ ˜ Die Wahrscheinlichkeit des gemeinsamen Auftretens der Ereignisse F. A1 , A2 , . . . , ∞ ∞ sollte dann auch berechenbar sein, also P ( i=1 Ai ) muß berechnet werden können. Um dies zu ermöglichen, muß die Schnittmenge im σ-Ring sein, also ∞
˜ Ai ∈ F.
i=1
Denn andernfalls gäbe es ja keine Definitinsmenge, der wir eine Wahrscheinlichkeit zuordnen könnten. Mit anderen Worten müssen wir fordern, daß für jede Familie von Mengen Ai gilt: (∀i ∈ N)(Ai ∈ F˜ ) ⇒
∞
Ai ∈ F˜ .
(6.5)
i=1
Wir wissen, daß eine doppelte Verneinung zum ursprünglichen Ergebnis führt. Diese Regelmäßigkeit können wir verwenden und erhalten, daß eine Menge A gleich dem Komplement des Komplements von A ist: A = A. Deshalb können wir auch schreiben: ∞
Ai ∈ F˜ =
i=1
∞
Ai ∈ F˜ .
(6.6)
i=1
Außerdem gilt, daß das Komplement des Durchschnitts beliebig vieler Mengen gleich der Vereinigung der Komplemente dieser Mengen ist. Angewendet auf unseren Fall erhalten wir:
∞ i=1
Ai ∈ F˜ =
∞ i=1
Ai ∈ F˜ .
(6.7)
KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME
110
Wegen 6.3 sind aber die Komplemente von A, A, in F˜ und wegen 6.4 ist auch deren Vereinigung im σ-Ring. Eine weitere Anwendung von 6.3 auf
∞
Ai ∈ F˜
i=1
bestätigt schließlich, daß 6.5 erfüllt ist, wenn F˜ ein σ-Ring ist. Es wurde mit anderen Worten gezeigt, daß aus F˜ ist ein σ-Ring folgt, daß 6.5 gilt. Forderung 6.5 ist aufgrund der Definition des σ-Rings bereits erfüllt und braucht nicht zusätzlich in der Definition des σ-Ringes aufgenommen zu werden. Für den Fall, daß n ∈ N endlich ist, gelten zu 6.4 und 6.5 ganz analoge Aussagen: A1 , A2 , . . . , An ∈ F˜ ⇒
n
Ai ∈ F˜
(6.8)
Ai ∈ F˜ .
(6.9)
i=1
und A1 , A2 , . . . , An ∈ F˜ ⇒
n i=1
Zudem gilt A1 , A2 ∈ F˜ ⇒ A1 \A2 ∈ F˜ . Aussage 6.8 ergibt sich aus 6.4, wenn ∅ =: An+1 = An+2 dann gilt n ∞ Ai = Ai . i=1
(6.10) ˜ + · · · ∈ F . Denn
i=1
Die leere Menge ist auch im σ-Ring und somit ist A1 , A2 , . . . , ∞ ∈ F˜ . Anwendung von 6.4 führt dann zur Behauptung. Um Aussage 6.9 zu beweisen, argumentiert man ganz analog, berücksichtigt jedoch statt 6.4 den Zusammenhang 6.5. A1 \A2 steht für ’A1 ohne A2 ’, d.h. es ist die Menge aller Elemente von A1 mit der Eigenschaft, daß sie kein Element von A2 sind. Also kann man auch schreiben A1 \A2 = A1 ∩ A2 . Da A1 und A2 annahmegemäß in F˜ sind, ist wegen 6.3 auch A2 im Sigma-Ring und wegen 6.9 gilt 6.10.
6.3
Wahrscheinlichkeitsraum der Grundgesamtheit
Das Wahrscheinlichkeitsmaß P˜ wird eingeführt als Abbildung des σ-Rings F˜ auf die reellen Zahlen R: P˜ : F˜ → R. ˜ sei ungleich der leeren Menge und F˜ sei ein Sigma-Ring in Ω. ˜ Gelten zudem Ω folgende drei Bedingungen A ∈ F˜ ⇒ P (A) 0,
(6.11)
6.3. WAHRSCHEINLICHKEITSRAUM DER GRUNDGESAMTHEIT
111
˜ und (Ai ∩ Aj = ∅ für i = j) (A1 , A2 , · · · ∈ F) ∞ ⇒ P( ∞ i=1 Ai ) = i=1 P (Ai )
(6.12)
P (Ω) = 1,
(6.13)
und ˜ F˜ , P˜ ) Wahrscheinlichkeitsraum. so heißt das Tripel (Ω, ˜ die Grundgesamtheit des WahrscheinlichIn unserer Interpretation ist Ω ˜ heißen Ergebnisse, Untersuchungseinheiten keitsraumes und die Elemente von Ω oder statistische Einheiten. Den σ-Ring F˜ bezeichnen wir als Ereignisraum des Wahrscheinlichkeitsraumes und seine Elemente als Ereignisse. Folgende Sprachregelung soll gelten. Gegeben sei eine Menge A ∈ F˜ . Wir sagen Ereignis A sei ˜ beobachtet wurde und Element von A ist. eingetreten, wenn ein Element ω ˜∈Ω ˜ endlich viele Elemente enthält. Dann ist Forderung 6.12 vereinfacht sich, falls Ω sie äquivalent zu der einfacheren A, B ∈ F˜ und A ∩ B = ∅ ⇒ P (A ∩ B) = P (A) + P (B).
(6.14)
Forderungen 6.11 bis 6.13 dienen der Festlegung der Wahrscheinlichkeiten auf Werte größer oder gleich Null bzw. der Normierung auf Eins. Die Wahr˜ scheinlichkeit des sicheren Ereignisses, das heißt, daß irgendein Element aus Ω zufällig gezogen wird, wird Eins gesetzt. Die Forderung 6.12 heißt σ-Additivität. Nach diesem Umweg über die Definition eines Wahrscheinlichkeitsraumes kann das Vorgehen in Kapitel 4 verallgemeinert werden. Die Situation in der ˜ F˜ , P˜ ) beGrundgesamtheit läßt sich durch den Wahrscheinlichkeitsraum (Ω, ˜ hat zwei Elemente, schwarz und weiß. Der σ-Ring besteht aus der schreiben. Ω ˜ schwarz, weiß, ∅. Daß dies wirklich ein Sigma-Ring Menge mit den Elementen Ω, ist, läßt sich überprüfen, indem die Anforderungen an einen solchen, d.h. 6.3, 6.4 und 6.5, überprüft werden. Bedingung 6.3 ist trivialerweise erfüllt. Das Komplement zu schwarz be˜ ist weiß und umgekehrt; zudem ist das Komplement von Ω ˜ die leere züglich Ω Menge. Somit sind alle Komplemente ebenfalls in dem σ-Ring, weshalb 6.4 ebenfalls erfüllt ist. Statt 6.5 genügt es, 6.8 zu überprüfen, da es sich ja um endliche Mengen handelt. Die Vereinigung von schwarz und weiß ergibt den Ergebnis˜ und all diese Mengen sind in dem σ-Ring enthalten. Schwarz vereinigt raum Ω ˜ oder die der leeren Menge mit Ω oder die Vereinigungsmenge von weiß und Ω ˜ ergibt Ω ˜ und somit ist die Vereinigung von Teilmengen von Ω ˜ in vereinigt mit Ω der Ergebnismenge enthalten. Gleiches gilt für Vereinigungen von schwarz oder weiß mit der leeren Menge. Folglich ist F˜ ein σ-Ring. Schließlich verbleibt einzig das Problem, Wahrscheinlichkeiten festzulegen. Ad hoc wurde oben festgelegt, daß die Wahrscheinlichkeit eine schwarze Kugel zu ziehen gleich der ist, eine weiße zu ziehen. Dies ist nicht trivial und hängt sicherlich von der Anzahl weißer und schwarzer Kugeln in der betrachteten Urne ab. Ist die Anzahl der weißen gleich der der schwarzen Kugeln, so mag man geneigt sein, die Wahrscheinlichkeiten als gleich hoch einzuschätzen.
112
KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME
Weicht die Anzahl weißer Kugeln von derer der schwarzen ab, so könnte man die Anzahl der weißen zu der Gesamtzahl an Kugeln in Relation setzen, um durch diese Gewichtung eine Wahrscheinlichkeit festzulegen. #A bezeichne die Anzahl der Elemente von A und entsprechendes gelte für Menge B. ˜ eine endliche, nicht leere Menge ist und F˜ ein σ-Ring bezüglich Ω ˜ Sofern Ω ist, so ist durch die Abbildung h→R (6.15) mit h(A) :=
#A , für alle Mengen A ∈ F˜ #Ω
(6.16)
˜ F˜ , h) ist ein Wahrscheinlichkeitsein Wahrscheinlichkeitsmaß festgelegt und (Ω, raum. Genügt jedoch der über 6.16 definierte Wahrscheinlichkeitsraum den Anforderungen, die an einen Wahrscheinlichkeitsraum gestellt werden? Hierzu ist zu ˜ prüfen, ob die Bedingungen 6.11, 6.14 (wegen endlich vieler Elemente von Ω) ˜ und 6.13 erfüllt sind. Die Mächtigkeit von Ω ist größer als Null, somit ist die relative Häufigkeit auch definiert. Die Mächtigkeit einer jeden Menge A ∈ F˜ ist größer oder gleich Null, weshalb Bedingung 6.11, erfüllt ist. Gegeben seien, wie in Forderung 6.14 vorausgesetzt, zwei disjunkte Mengen A und B (d.h. A ∩ B = ∅). In diesem Fall gilt #(A ∪ B) = #A + #B. Aus diesem Grund gilt auch h(A ∪ B) =
#A #B #(A ∪ B) = + . #Ω #Ω #Ω
Die Normierungsvorschrift wird ebenfalls eingehalten, da #Ω = 1. #Ω Damit ist die Behauptung bewiesen. Gibt es, wie bei unserem Beispiel mit weißen und schwarzen Kugeln, nur ˜ und der σ-Ring ist gleich der Potenzmenge PΩ, so endlich viele Elemente in Ω, ˜ F, ˜ h) Laplacescher Wahrscheinlichkeitsheißt der Wahrscheinlichkeitsraum (Ω, ˜ die raum und P = h Laplacesche Wahrscheinlichkeit. Wird von einer Menge Ω, ungleich der leeren Menge ist, ausgegangen, so ist die Potenzmenge die Men˜ Im σ-Ring gibt es folglich Mengen mit nur einem ge aller Teilmengen von Ω. Element. Die Wahrscheinlichkeit dieser Elementarereignisse ist dann P (˜ ω) =
1 ˜ für alle ω ˜ ∈ Ω. #Ω
6.4. WAHRSCHEINLICHKEITSRAUM DER STICHPROBE
6.4
113
Wahrscheinlichkeitsraum der Stichprobe
Das Konzept des Wahrscheinlichkeitsraumes läßt sich auch auf Stichproben anwenden. Dies soll anhand einer einfachen Stichprobe aus einer Urne mit weißen und schwarzen Kugeln verdeutlicht werden. In Kapitel 4 haben wir aufgrund dieser Voraussetzungen die Binomialverteilung hergeleitet. Machen wir es noch konkreter: es wird das Ziehen einer Stichprobe mit Zurücklegen vom Umfang n ∈ N aus einer Urne, die hälftig mit weißen und schwarzen Kugeln besetzt ist, betrachtet. Ω bezeichne den Stichprobenraum. In vorliegendem Fall besteht er aus allen Permutationen von k weißen und (n-k) schwarzen Kugeln für k = 0, 1, 2, . . . , n. Hierfür können wir auch schreiben ˜ n = {(ω1 , ω2 , . . . , ωn )|ωi ∈ Ω ˜ für i = 1, 2, 3, . . . , n}. Ω=Ω Demgemäß ist Bedingung 6.11 erfüllt: der Ergebnisraum oder Stichprobenraum, wie er hier sinnvollerweise genannt wird, ist nicht leer. Ω ist endlich. Wählen wir als σ-Ring die Potenzmenge von Ω, so erhalten wir einen Laplaceschen Wahrscheinlichkeitsraum. Bei vorgegebener Anzahl weißer Kugeln ist jede Permutation der Anordnung von weißen und schwarzen Kugeln ein Elementarereignis. Die Wahrscheinlichkeit, daß beim ersten Ziehen eine weiße Kugel gezogen wird, ist gleich P (weiß, ω2 , ω3 , . . . , . . . , ωn ) =
1 , 2
(6.17)
wobei es völlig gleich ist, wie nachher die Besetzung mit weißen und schwarzen Kugeln erfolgt. Die ωi für i = 2, 3, . . . , k − 1, k + 1, . . . , n stehen für weiße oder schwarze Kugeln, die zufällig gezogen werden. Die Wahrscheinlichkeit, daß in der i-ten Ziehung eine weiße Kugel gezogen wird, ist bei einer einfachen Stichprobe völlig unabhängig davon, wieviele weiße Kugeln und auch in welcher Reihenfolge sie vorher gezogen wurden. Mit anderen Worten gilt aufgrund des Stichprobenverfahrens: ˆ 2, . . . , ω ˆ k−1 , weiß, ωk+1 , . . . , ωn ) = P (ˆ ω1 , ω
1 , 2
(6.18)
ganz gleich, welche Stelle i = 2, 3, . . . , n betrachtet wird. ω ˆ i bezeichnet hierbei die Realisierung der Zufallsvariablen. Betrachten wir nun eine beliebige Menge A aus dem Sigma-Ring F . Dann müßte sich die Wahrscheinlichkeit P (A) berechnen lassen über P (A) =
#A , #Ω
denn wir haben es mit einem Laplaceschen Wahrscheinlichkeitsraum zu tun (siehe 6.16). Ω besteht aus Elementen (ω1 , ω2 , . . . , ωn ), wobei jedes Element zwei mögliche Ausprägungen hat. Die erste Stelle kann mit einer weißen oder schwarzen Kugel belegt sein und dies gilt auch für die nächste Ziehung. Also ist die Mächtigkeit von Ω bei zwei Ziehungen gleich 2*2=4. Bei drei Ziehungen
114
KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME
sind es 2 ∗ 2 ∗ 2 = 23 und bei n Ziehungen sind es 2n . Somit erhalten wir für beliebiges A ∈ F #A P (A) = n . (6.19) 2 Die Wahrscheinlichkeit, daß an der i-ten Stelle eine weiße Kugel gezogen wird ist 1 (6.20) P ((ω1 , ω2 , . . . , ωi−1 , weiß, ωi+1 , . . . ωn ) = . 2 Denn die Mächtigkeit von (ω1 , ω2 , . . . , ωi−1 , weiß, ωi+1 , . . . ωn ) ist gleich 2n−1 . Dies ist leicht einsichtig, da es bei einer Ziehung mit Stichprobenumfang n = 2 nur ein möglicher Ausgang des Zufallsexperimentes gibt, bei n = 3 sind es 2 ∗ 2 = 22 , bei n = 4 erhalten wir 23 und die Verallgemeinerung dessen führt zu dem angegebenen Ergebnis. Anwendung von 6.19 ergibt P ((ω1 , ω2 , . . . , ωi−1 , weiß, ωi+1 , . . . ωn ) =
2n−1 1 = . 2n 2
Aufgrund der gemachten Voraussetzungen, insbesondere der Annahmen 6.17 und 6.18, ergibt sich, daß die Wahrscheinlichkeit, daß m Kugeln eine ganz bestimmte Ausprägung haben (beispielsweise, daß die die erste schwarz und alle anderen weiß sind) zu ˆ i1 , . . . ω ˆ im , . . . , ωn) = P (ω1 , ω2 , . . . , ω
1 . 2m
(6.21)
Ein ω ˆ ij mit j = 1, . . . , m bezeichnet hierbei eine ganz bestimmte Ausprägung, in vorliegendem Fall also entweder weiß oder schwarz. Die ω ˆ ij j = 1, . . . , m müssen nicht hintereinander zu liegen kommen; ja sie können an beliebiger Stelle stehen. Aufgrund des Ziehens mit Zurücklegen kann freilich an einer Stelle nur eine bestimmte Ausprägung sein. Wie gelangt man zu Aussage 6.21? Erneute Verwendung von 6.19 bringt das Ergebnis. Liegen bereits m Ausprägungen fest, so sind n − m noch frei wählbar. Die Mächtigkeit von A ist demnach 2n−m . Wegen 1 2n−m = m 2n 2 folgt die Behauptung. Wir haben aus 6.17 und 6.18 die Aussagen 6.19, 6.20 und 6.21 hergeleitet. Die Mächtigkeit der in Frage stehenden Menge A entscheidet gemäß 6.19, über seine Wahrscheinlichkeit. Bei einer Ziehung mit Zurücklegen wird jedes Element mit derselben Wahrscheinlichkeit gezogen (Aussage 6.20). Wird bei Aussage 6.21 zudem beachtet, daß bei jeder Ziehung mit derselben Wahrscheinlichkeit gezogen wird (also 6.20), so erhält man m
P (ω1 , ω2 , . . . , ωˆi1 , . . . ωˆim , . . . , ωn ) =
1 1 . = m 2 2 i=1
(6.22)
6.5. WICHTIGE ZUSAMMENHÄNGE UND BEGRIFFE
115
Dies bedeutet, daß m (1 m n) Ziehungen stochastisch unabhängig voneinander sind. Dieser Begriff wurde noch nicht eingeführt und verweist auf den nachfolgenden Abschnitt 6.5. Der Zusammenhang zwischen dem Wahrscheinlichkeitsraum der Grundgesamtheit und dem der Stichprobe stellt sich wie folgt dar. Der Stichprobenraum ist bestimmt über die Festlegung von Grundgesamtheit und Stichprobenumfang. Über die Grundgesamtheit ergibt sich, wie viele Ausprägungen bei jeder Ziehung überhaupt möglich sind; in unserem Fall war dies beschränkt auf zwei. ˜ n. Der Stichprobenumfang legt die Dimension des Stichprobenraumes fest: Ω = Ω Die Wahrscheinlichkeit einer Ausprägung beim ersten Ziehen ist gleich seiner Eintrittswahrscheinlichkeit in der Grundgesamtheit (siehe 6.17 und entsprechendes gilt für 6.18). In unserem Fall haben wir diese Wahrscheinlichkeit mit 12 angesetzt. Andere Eintrittswahrscheinlichkeiten in der Grundgesamtheit führen gemäß 6.19, 6.20 und 6.21 zu entsprechend geänderten Eintrittswahrscheinlichkeiten in der Stichprobe. Damit wird die Bedeutung des Stichprobenverfahrens deutlich. Ein anderes Vorgehen führt zu anderen Eintrittswahrscheinlichkeiten in der Stichprobe. Die Stichprobenverteilung ändert sich hierdurch und statt einer Binomialverteilung wäre bei einem Ziehen ohne Zurücklegen mit einer hypergeometrischen Verteilung zu hantieren. Dies hat bei der Durchführung eines Tests Einfluß auf die Bestimmung von Annahme- und Verwerfungsbereich und damit auf die Testentscheidung. Ist überhaupt nicht klar, wie Daten erhoben wurden, so kann die Stichprobenverteilung nicht bestimmt und damit kein verläßlicher Test durchgeführt werden. Handelt es sich überhaupt nicht um eine Stichprobe, so gilt das gleiche: die Stichprobenverteilung ist unbekannt und Tests sind nicht möglich. Freilich muß einschränkend gesagt werden, daß die vorgestellte Methode nicht die einzige Möglichkeit ist, Verteilungen zu begründen, doch insbesondere bei Befragungen, wie sie in der Marktforschung oder im Personalwesen häufig vorkommen, bei denen aufgrund weniger Befragungen auf die Verhältnisse in der Grundgesamtheit geschlossen werden soll, sind diese Zusammenhänge zu berücksichtigen.
6.5 6.5.1
Wichtige Zusammenhänge und Begriffe Rechenregeln
Nachfolgend werden aufbauend auf dem Begriff des Wahrscheinlichkeitsraumes Regelmäßigkeiten dargestellt. Diese gelten für jeglichen Wahrscheinlichkeits˜ F, ˜ P˜ ) ebenso wie für (Ω, F , P ). Vorrangiges Interesse hat raum, also für (Ω, jedoch hier die Anwendung, also die Betrachtung von Stichprobenräumen. Aus diesem Grund wird ohne Beschränkung der Allgemeinheit die Notation (Ω, F , P ) verwandt. Wenn ein Wahrscheinlichkeitsraum (Ω, F , P ) gegeben ist, so gelten folgende Regelmäßigkeiten. P (∅) = 0, (6.23)
116
KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME P (Ω A) = 1 − P (A),
(6.24)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B),
(6.25)
P (A ∪ B) P (A) + P (B),
(6.26)
A ⊆ B ⇒ P (A) P (B),
(6.27)
P (A) 1.
(6.28)
Regel 6.24 ist eine Konsequenz der bei der Definition eines Wahrscheinlichkeitsraumes vorgenommenen Normierung in 6.13.
6.5.2
Bedingte Wahrscheinlichkeit
In der beschreibenden Statistik haben wir den Begriff der bedingten Verteilung eingeführt. Dort bezog er sich auf relative Häufigkeiten. In Abschnitt 6.3 haben wir die relative Häufigkeit in Verbindung mit einem Ergebnisraum (oder Stichprobenraum) und einem σ-Ring als ein Wahrscheinlichkeitsmaß kennengelernt. So wundert es nicht, daß in der Wahrscheinlichkeitstheorie der Begriff der bedingten Wahrscheinlichkeit eingeführt worden ist. Bei gegebenem Wahrscheinlichkeitsraum (Ω, F , P ) und zwei Ereignissen A und B aus dem Sigma-Ring heißt P (A|B) :=
P (A ∩ B) , mit P(B) > 0 P (B)
(6.29)
bedingte Wahrscheinlichkeit oder genauer: die bedingte Wahrscheinlichkeit des Ereignisses A unter der Bedingung von B. Die Forderung P(B)>0 soll sicherstellen, daß die bedingte Wahrscheinlichkeit auch definiert ist. Dieses Maß gibt an, wie groß die Wahrscheinlichkeit des Eintritts von A ist, wenn B bereits eingetreten ist. Damit eignet es sich zur Berechnung von Wahrscheinlichkeiten, wenn Vorinformationen vorhanden sind.
6.5.3
Stochastische Unabhängigkeit
Ein wichtiger Begriff der Wahrscheinlichkeitstheorie ist der der stochastischen Unabhängigkeit. Angenommen, es gibt zwei Ereignisse A und B aus dem σ-Ring F. Sie heißen stochastisch unabhängig, wenn gilt: P (A ∩ B) = P (A) · P (B).
(6.30)
Dieser Begriff steht in engem Zusammenhang zu dem der bedingten Wahrscheinlichkeit. Bei folgenden Aussagen folgt eine aus der anderen: es ist ein Ringschluß, was nicht mit einem Zirkelschluß verwechselt werden sollte! Aus diesem Grund sind alle Aussagen äquivalent zueinander. 1. Wenn A und B stochastisch unabhängig sind, so ist P (A|B) = P (A).
6.5. WICHTIGE ZUSAMMENHÄNGE UND BEGRIFFE
117
2. Aus P (A|B) = P (A) folgt P (B|A) = P (B) 3. Wenn P (A|B) = P (A) gilt, so sind A und B stochastisch unabhängig. 4. Aus A und B sind stochastisch unabhängig folgt auch die stochastische Unabhängigkeit von A und B. 5. Sind A und B stochastisch unabhängig, so sind es auch A und B. 6. Aus der stochastischen Unabhängigkeit von A und B folgt die von A und B.
6.5.4
Multiplikationssatz
Durch Umstellen der Definition der bedingten Wahrscheinlichkeit 6.29 erhält man den Multiplikationssatz in seiner einfachsten Form: P (A ∩ B) = P (A|B)P (B).
(6.31)
Die Präsentation in allgemeinerer Form erfordert eine neue Notation. Seien A1 , A2 , . . . , An ∈ F, wobei F ein Sigma-Ring zu dem Ergebnisraum Ω mit wohldefiniertem Wahrscheinlichkeitsmaß P sei. Dann ist P (A1 ∩ · · · ∩ An ) = P (A1 ) · P (A2 |A1 ) · P (A3 |A1 ∩ A2 ) · · · P (An |P A1 ∩ . . . An−1 ). (6.32) Auf der rechten Seite von 6.32 stehen bedingte Wahrscheinlichkeiten mit Zähler und Nenner. Freilich ergeben sich Probleme, wenn einer dieser Nenner gleich Null sein sollte, weil dann die bedingte Wahrscheinlichkeit nicht definiert wäre. Sollte ein solcher Fall eintreten, so wird P (A1 ∩ · · · ∩ An ) gleich Null gesetzt.
6.5.5
Satz von der totalen Wahrscheinlichkeit
Ausgangspunkt ist ein Wahrscheinlichkeitsraum (Ω, F , P ) mit einer abzählbaren Folge disjunkter Ereignisse A1 , A2 , · · · ∈ F. Disjunkt bedeutet, daß die Schnittmenge beliebiger, voneinander verschiedener Ereignisse leer ist, d.h. Ai ∩ Aj = ∅ für i = j. Zudem wird vorausgesetzt, daß Aj = Ω. j
Für ein beliebiges Ereignis aus dem Sigma-Ring F gilt dann: P (B) = P (B|Aj ) · P (Aj ). j
(6.33)
KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME
118
Abbildung 6.1: Veranschaulichung des Satzes von der totalen Wahrscheinlichkeit Quelle: eigene Darstellung
Demgemäß läßt sich die Wahrscheinlichkeit eines Ereignisses berechnen als Summe von Wahrscheinlichkeiten P (B∩Aj ), denn P (B|Aj )·P (Aj ) = P (B∩Aj ). Der Zusammenhang ist für j = 3 in Abbildung 6.1 dargestellt. Die Vereinigung aller Schnittmengen Aj ∩ B ergibt wieder B, weshalb intuitiv Zusammenhang 6.33 plausibel erscheint. Die Veranschaulichung des Zusammenhangs über ein Baumdiagramm, wie in 6.2 legt eine weitere Interpretation nahe. Die Ziehung einer Stichprobe kann in zwei Stufen erfolgen. Erstens wird im Anfangsknoten gemäß der Wahrscheinlichkeiten P (Aj ) eine Menge Aj zufällig gewählt. Im zweiten Schritt wählt man entsprechend der Wahrscheinlichkeit P (B|Aj ) zufällig ein Element aus. Der Satz von der totalen Wahrscheinlichkeit besagt also, daß das zufällige Ziehen einer Stichprobe in zwei Schritten erfolgen kann.
6.5.6
Satz von Bayes
Wiederum setzen wir abzählbare, paarweise disjunkte Ereignisse A1 , A2 , · · · ∈ F voraus (also wieder Ai ∩Aj = ∅ für i = j) und die Vereinigung aller Aj sei gleich dem Ergebnisraum Ω, dann gilt der Satz von Bayes: P (B|Ak ) · P (Ak ) . P (Ak |B) = j P (B|Aj ) · P (Aj )
(6.34)
Dieser Zusammenhang läßt sich zurückführen auf die Definition der bedingten Wahrscheinlichkeit. Denn es kann geschrieben werden: P (B|Ak ) · P (Ak ) = P (B ∩ Ak ). Außerdem ist, wegen des Satzes von der totalen Wahrscheinlichkeit folgende Schreibweise korrekt: P (B|Aj ) · P (Aj ) = P (B). j
6.5. WICHTIGE ZUSAMMENHÄNGE UND BEGRIFFE
Abbildung 6.2: Baumdiagramm Quelle: eigene Darstellung
119
120
KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME
Damit kann 6.34 umgeschrieben werden zu P (Ak |B) =
P (B ∩ Ak ) P (B).
(6.35)
Dies entspricht aber, wie behauptet, gerade der Definition der bedingten Wahrscheinlichkeit. Der Satz von Bayes spielt in der Statistik bei der Herleitung von BayesSchätzfunktionen (siehe Bamberg und Baur (1984), S. 156ff und S. 249ff) eine bedeutende Rolle. Das zu behandelnde Problem besteht im einfachsten Fall darin, einen Parameterwert, zum Beispiel den Mittelwert, zu schätzen. Besitzt man über Parameterwerte, beispielsweise den Mittelwert, bereits vorab Informationen, so möchte man nicht nur die Stichprobe, sondern auch diese Vorinformationen in die Schätzung des Mittelwertes eingehen lassen. An dieser Stelle kommt der Satz von Bayes zur Anwendung.
6.5.7
Diskreter Wahrscheinlichkeitsraum
Zwecks Definition eines diskreten Wahrscheinlichkeitsraumes gehen wir von einem Ergebnisraum Ω mit abzählbar endlichen oder abzählbar unendlichen Ergebnissen ω ∈ Ω aus. Mit anderen Worten können wir die ω durchzählen. Es mögen endlich viele sein, aber es könnte auch unendlich viele Elemente im Ergebnisraum Ω geben. Die Ergebnisse seien zudem paarweise disjunkt, also ωi ∩ ωj = ∅ für i = j. Die Eintrittswahrscheinlichkeit des Ereignisses ωi sei pi ∈]0, 1] für i = 1, 2, . . . und die Normierungsvorschrift pi = 1 i
werde eingehalten. Dann sind in der Tat die Bedingungen 6.11, 6.12 und 6.13, die an einen Wahrscheinlichkeitsraum gestellt werden, erfüllt. Der so gebildete Wahrscheinlichkeitsraum (Ω, F , pi ) heißt diskret. pi werden Punktmassen oder Punktwahrscheinlichkeiten und die ωi Trägerpunkte genannt. Die so definierte Wahrscheinlichkeit P heißt diskret. Ein Beispiel für einen solchen haben wir bereits kennengelernt. Den zu der Binomialverteilung gehörenden Wahrscheinlichkeitsraum, dessen Ergebnisraum Ω aus einer endlichen Anzahl von n-Tupeln besteht. Jede Stelle dieses Tupels kann mit zwei möglichen Ausprägungen besetzt sein. Bei gegebener Anzahl an weißen Kugeln, k, haben wir jeder unterscheidbaren Permutation eine Punktwahrscheinlichkeit zugeordnet und die Summe über alle Punktwahrscheinlichkeiten ist gleich Eins.
6.6
Abschließende Bemerkungen
Nachdem in den Kapiteln 4 und 5 bereits statistische Tests dargestellt wurden, wird hier die Wahrscheinlichkeitstheorie nachgeholt, die wesentliche Grundlage der statistischen Testtheorie. Es zeigt sich, daß die relative Häufigkeit ein
6.7. KONTROLLFRAGEN
121
Wahrscheinlichkeitsmaß ist. Aus diesem Grund konnten wir uns mit den spärlichen Kenntnissen aus Kapitel 3 über relative Häufigkeit, Verteilungsfunktion und Quantile erste Tests erarbeiten. Man hüte sich jedoch davor zu behaupten, die relative Häufigkeit sei eine Wahrscheinlichkeit. In unserem Standardbeispiel mit weißen und schwarzen Kugeln in der Grundgesamtheit ist der Anteil der weißen Kugeln eine relative Häufigkeit. Erst dann, wenn ein geeignetes Zufallsexperiment aufgesetzt wird, kann die relative Häufigkeit als Wahrscheinlichkeitsmaß herhalten. In unserem Fall bestand das Experiment aus einer einfachen Stichprobe vom Umfang n aus der Grundgesamtheit. Werden Kugeln zufällig anders gezogen, so kann es sein, daß relative Häufigkeiten nicht zur Beschreibung der Ergebnisse geeignet sind. Sind Kugeln beispielsweise unterschiedlich schwer oder besitzen unterschiedliche Oberflächen, wodurch die Wahrscheinlichkeit des Ziehens beeinflußt wird, so werden die relativen Häufigkeiten des Vorkommens in der Grundgesamtheit zur Beschreibung der Eintrittswahrscheinlichkeiten kaum geeignet sein. In vorliegendem Kapitel wurde klar, daß relative Häufigkeiten nicht das einzige Wahrscheinlichkeitsmaß sind. Es gibt ihrer viele und sie sind notwendig, um je nach Problemstellung das geeignete zu finden. Allen Wahrscheinlichkeitsmaßen jedoch ist gemeinsam, daß sie sich auf einen wohldefinierten Wahrscheinlichkeitsraum zurückführen lassen. Praktische Konsequenz dessen ist, daß jede Wahrscheinlichkeit größer oder gleich Null und kleiner oder gleich Eins ist. Zudem wurde deutlich, daß der Wahrscheinlichkeitsraum der Stichprobe über das gewählte Stichprobenverfahren von dem Wahrscheinlichkeitsraum der Grundgesamtheit abhängt. Eine Änderung des Stichprobenverfahrens führt zu anderen Wahrscheinlichkeiten des Stichprobenraumes. Analog zur statistischen Unabhängigkeit in Kapitel 3 gibt es das Konzept auch in der Wahrscheinlichkeitstheorie; jetzt heißt es stochastische Unabhängigkeit. Hier wie da gibt es Bezüge zur bedingten Verteilung bzw. bedingten Wahrscheinlichkeit. Spätestens bei der Bearbeitung der Aufgaben wird klar, daß die dargestellten mathematischen Lehrsätze zur Lösung praktischer Probleme nützlich sind. “Nichts ist eben so praktisch wie eine gute Theorie” pflegte Ulrich Fehl (Volkswirtschaftsprofessor in Marburg) zu sagen.
6.7
Kontrollfragen
˜= 1. Warum muß in der Wahrscheinlichkeitstheorie gefordert werden, daß Ω ∅? 2. Welche Bedingungen muß eine Menge F erfüllen, damit er die Anforderungen erfüllt, die sinnvollerweise an die Definitionsmenge eines Wahrscheinlichkeitsmaßes gestellt werden? 3. In welchem Zusammenhang stehen der Ergebnisraum der Grundgesamtheit und der Stichprobenraum?
KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME
122
4. Erläutern Sie, weshalb bei der praktischen Arbeit die Art des Stichprobenverfahrens so wichtig ist. 5. Wie kann man überprüfen, ob zwei Ereignisse stochastisch unabhängig voneinander sind? Geben Sie mindestens zwei Möglichkeiten an. 6. Welche praktische Bedeutung fällt dem Satz von der totalen Wahrscheinlichkeit zu? 7. Welche praktische Bedeutung hat der Satz von Bayes?
6.8
Aufgaben
1. Zeigen Sie, daß A = A gilt, wie auf Seite 6.6 behauptet. 2. Zeigen Sie durch ein kleines Beispiel, daß folgender Zusammenhang gilt: A1 \A2 = A1 ∩ A2 . 3. Zeigen Sie, daß P (∅) = 0, indem Sie veranschaulichen, daß die Forderungen, die an einen Wahrscheinlichkeitsraum gestellt werden, eingehalten ˜ aus.73 werden. Gehen Sie von einem endlichen Ergebnisraum Ω 4. Gehen Sie von einem Laplaceschen Wahrscheinlichkeitsraum aus. Zeigen Sie, daß die Rechenregeln 6.23 bis 6.28 gelten. 5. Was ist der Unterschied zwischen P (A1 \A2 ) und P (A1 |A2 )?74 6. Eine relative Häufigkeit erfüllt die Eigenschaften, die an ein Wahrscheinlichkeitsmaß gestellt werden. Wieso ist aber nicht jede relative Häufigkeit gleichzeitig auch ein Wahrscheinlichkeitsmaß?75 7. Ein Pharmaunternehmen sucht in den Bereichen Onkologie(O), Depression (D), und Alzheimer (A) nach neuen Wirkstoffen. Die Wahrscheinlichkeiten zur Entwicklung eines marktreifen Produktes werden wie folgt eingeschätzt. Krankheit Eintrittswahrscheinlichkeit
Onkologie (O) 0,7
Depression (D) 0,6
Alzheimer (A) 0,4
Es wird davon ausgegangen, daß der Erfolg der Projekte O, D und A stochastisch unabhängig von einander sind. Berechnen Sie die Wahrscheinlichkeit, daß (a) alle Entwicklungen, (b) mindestens eine,
6.8. AUFGABEN
123
(c) genau zwei, (d) keine erfolgreich sind.76 8. (Ω, F , P ) sei ein Wahrscheinlichkeitsraum. A und B seien jeweils im σRing von Ω und P (A) > 0 sowie P (B) > 0. Zeigen Sie, daß77 p(A|B) + P (A|B) = 1. 9. Sie sind Marketingleiter einer Pharmafirma und für den Absatz von AntiMasern-Medikamenten verantwortlich. Eine epidemiologische Untersuchung hat ergeben, daß 1/6 der Bevölkerung gegen Masern geimpft ist. Aus einer früheren Epidemie ist bekannt, daß von dreißig Geimpften zwei Personen an Masern erkrankt sind und von 7 Erkrankten einer geimpft war. Mit A werde das Ereignis, daß eine Person erkrankt ist, gekennzeichnet. B stehe für ’Person ist geimpft’. (a) Wie groß ist die Wahrscheinlichkeit, daß eine Person an Masern erkrankt? (b) Zeigen Sie, daß A und B stochastisch abhängig sind. (c) Wie groß ist die Wahrscheinlichkeit, daß eine Person, die nicht geimpft wurde, an Masern erkrankt?78 10. Aus Erfahrung weiß Betriebsleiter Meier, daß die Wahrscheinlichkeit eines Ausfalls einer Drehbank gleich 0, 05 ist. Es kommt ein Großauftrag herein und der Firmeninhaber möchte wissen, mit welcher Wahrscheinlichkeit (a) (b) (c) (d)
genau zwei Drehbänke, höchstens eine, mindestens eine sowie überhaupt keine Drehbank ausfällt.
Können Sie die Angaben machen?79 11. In einer Fabrik gibt es drei Arbeitsgruppen, die zur Produktion einer Pumpe zusammen arbeiten müssen. Gruppe 1 liefert den Input für Gruppe 2 und jene den Input für Gruppe 3. Nur dann, wenn alle gut zusammenarbeiten, wird es möglich sein, den gesetzten Termin einzuhalten. Es wird angenommen, daß die Motivationen der Gruppen wie folgt untereinander abhängig sind, wobei P (Ai ) die Wahrscheinlichkeit sei, daß Gruppe i = 1, 2, 3 motiviert ist. Die Wahrscheinlichkeit, daß Gruppe 2 motiviert ist, hängt von dem Arbeitsergebnis der Gruppe 1 und damit deren Motivation ab. Ist Gruppe 1 motiviert, so ist Gruppe 2 mit Wahrscheinlichkeit 0,9 ebenfalls motiviert. Die Motivation der Gruppe 3 hängt von der Motivation der beiden anderen Gruppen ab. Sind die beiden anderen motiviert, so ist die Wahrscheinlichkeit, daß auch die dritte motiviert ist, gleich 0,8.80
124
KAPITEL 6. WAHRSCHEINLICHKEITSRÄUME (a) Wie hoch ist die Wahrscheinlichkeit, daß alle drei Gruppen motiviert sind, wenn Gruppe 1 demotiviert ist? (b) Wie groß ist die Wahrscheinlichkeit, daß der Termin eingehalten wird, wenn die Wahrscheinlichkeit des Arbeitserfolges der Gruppe 1 auf 0,5 steigt?
Kapitel 7
Abbildungen von Ergebnisräumen 7.1
Einleitung
In Kapitel 6 wurde der Begriff des Wahrscheinlichkeitsraumes eingeführt. Er basiert auf Mengen als da wären Ergebnisraum und Ereignisraum. Mit unstrukturierten Mengen zu hantieren ist mitunter recht umständlich. Aus diesem Grund ist man bemüht, diese auf Größen abzubilden, mit denen man gewohnt ist umzugehen. Die Ausführungen dieses Kapitels zielen genau hierauf ab. Der Ergebnisraum Ω soll auf die reellen Zahlen abgebildet werden. Die Abbildung, aber auch das Ergebnis dieser Abbildung, heißt Zufallsvariable. Bei diesem Bestreben sollen allerdings die eingeführten Begriffe nicht ihre Bedeutung verlieren. Wahrscheinlichkeitsraum, Ergebnisram, Sigma-Ring und Wahrscheinlichkeitsmaß haben sich als sinnvolle Begriffe erwiesen. Aus diesem Grund sollten die neu einzuführenden Termini auf diesen aufbauen. Der neu zu definierende Wahrscheinlichkeitsraum soll seine Eigenschaften von dem zugrundeliegenden ’erben’. Zu diesem Zweck wird in Abschnitt 7.2 der Begriff der Meßbarkeit eingeführt. Abbildungen des Ergebnisraumes auf die reellen Zahlen, so wird dann gefordert, sollen meßbar sein. Auf Basis dieses Begriffes werden in Abschnitt 7.2.2 Zufallsvariablen definiert, eindimensionale wie auch mehrdimensionale. Im zweidimensionalen Fall kann die zugehörige Wahrscheinlichkeitsverteilung in einer Kontingenztabelle dargestellt werden. In Kapitel 3.5 wurde die empirische Verteilungsfunktion als eine Möglichkeit dargestellt, Informationen zu verdichten. Dieselbe Technik wird auch in der Wahrscheinlichkeitstheorie verwendet. Wir wissen: die Verteilungsfunktion steht in engem Zusammenhang zur relativen Häufigkeit und deren Verteilung. In Kapitel 6 haben wir bereits mit einer Verteilungsfunktion der Wahrscheinlichkeitstheorie gearbeitet. Dies war möglich, weil das Wissen um empirische Verteilungsfunktion, Quantile und relative Häufigkeitsverteilung den Weg ebneR. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_7, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
126
KAPITEL 7. ABBILDUNGEN VON ERGEBNISRÄUMEN
te. Die Verteilungsfunktion und ihre Notation in der Wahrscheinlichkeitstheorie wird in Abschnitt 7.3.1 eingeführt. In Kapitel 6.5.7 wurde der diskrete Wahrscheinlichkeitsraum und aufbauend hierauf werden im vorliegenden Kapitel diskrete Zufallsvariablen definiert. In der praktischen Arbeit finden jedoch häufig stetige Zufallsvariablen Verwendung, die in Abschnitt 7.3.2 zusammen mit der Dichtefunktion eingeführt werden. Verteilungsfunktionen und zugehörige Wahrscheinlichkeitsverteilungen bzw. im stetigen Fall Dichtefunktionen sind häufig durch einige wenige Maßzahlen eindeutig charakterisiert. Um ein Statistikprogramm sinnvoll anwenden zu können, ist das Wissen und Verstehen dieser Kenngrößen unentbehrlich. Die wichtigsten Maße und zugehörigen Rechenregeln werden in Abschnitt 7.4 präsentiert. In der schließenden Statistik, gelegentlich auch induktive Statistik genannt, werden Bereiche berechnet, in die mit vorgegebener Sicherheitswahrscheinlichkeit, 1 − α, der ’wahre’ oder unbekannte Parameter einer Verteilungsfunktion zu liegen kommt. Diesen Bereich nennt man Konfidenzintervall. Zu seiner Berechnung ist die Beherrschung der Standardisierung notwendig, die in Abschnitt 7.4.3 vorgestellt wird. Diese Methode ist auch nötig, wenn man mit Hilfe von statistische Tests nachvollziehen will, die in älteren Lehrbüchern zu finden sind.
7.2 7.2.1
Meßbarkeit und Zufallsvariable Meßbarkeit
Zwecks Definition der Meßbarkeit gehen wir davon aus, daß es zwei beliebige ˜ gibt. Jede dieser Mengen sei der σ-Ring F bzw. F˜ nichtleere Mengen Ω und Ω zugeordnet. Dann heißt eine Abbildung ˜ →Ω f :Ω
mit
∀A ∈ F : f −1 (A) ∈ F˜
(7.1)
˜ F-F-meßbar. Die Bedeutung dieses Begriffs wird deutlich, wenn man sich klar macht, daß bei Vorliegen einer meßbaren Abbildung f das Wahrscheinlichkeitsmaß P (A) auf P (f −1 (A)) zurückgeführt werden kann. Dies ist genau dann der ˜ -meßbaren AbbilFall, wenn gezeigt werden kann, daß bei Vorliegen einer F-F −1 dung f die Wahrscheinlichkeit P (A) über P (f (A)) korrekt definiert ist. Mit anderen Worten muß gezeigt werden, daß P (A) die Bedingungen 6.11, 6.12 und 6.13 erfüllt. ˜ daß P (A) ˜ • Überprüfung von Bedingung 6.11. Gemäß 6.11, gilt für alle A, 0. Folglich gilt wegen der Voraussetzung der Meßbarkeit für ein beliebiges A ∈ F : P (A) = P (f −1 (A)) 0. • Überprüfung von Bedingung 6.12. Wenn A1 , A2 , · · · ∈ F und für i = j gilt, daß Ai ∩ Aj = ∅, dann gilt auch f −1 (A1 ), f −1 (A2 ), · · · ∈ F,
7.2. MEBARKEIT UND ZUFALLSVARIABLE
127
wobei f −1 (Ai ) und f −1 (Aj ) für i = j paarweise disjunkt sind. Denn es gilt für eine Abbildung f : A → B mit B1 , B2 ∈ B: f −1 (B1 ∩ B2 ) = f −1 (B1 ) ∩ f −1 (B2). Da zudem gilt f −1 (
∞
Ak ) =
k=1
∞
f −1 (Ak ),
k=1
können wir auch schreiben P(
∞
Ak ) = P (f −1 (
k=1
∞
Ak )) = P (
k=1
=
∞
∞
f −1 (Ak ))
k=1
P (f −1 (Ak )) =
k=1
∞
P (Ak ).
k=1
• Überprüfung von Bedingung 6.13. Dies ist am einfachsten zu zeigen. Denn ˜ P (Ω) = P (f −1 (Ω)) = P (Ω). Damit ist klar, daß P (A) über P (f −1 (A)) richtig definiert ist, da die an ein Wahrscheinlichkeitsmaß geknüpften Bedingungen über die Voraussetzung der Meßbarkeit erfüllt werden. Die so definierte Wahrscheinlichkeit P (A) := P (f −1 (A)) heißt Bildwahrscheinlichkeit von P bezüglich der Abbildung f .
7.2.2
Zufallsvariablen
Die Definition der Meßbarkeit gründet lediglich auf zwei beliebigen nichtleeren Mengen und ist eine wichtige Voraussetzung bei der Definition des Begriffs Zufallsvariable. Eine eindimensionale Zufallsvariable X ist definiert als Abbildung X:Ω→
,
(7.2)
die F − B1 -meßbar ist. B1 ist der σ-Ring der Zufallsvariablen X. Ist Ω Element des Wahrscheinlichkeitsraumes (Ω, F , P ), so kennzeichnet man die Bildwahrscheinlichkeit von P bezüglich X mit QX . Sie heißt auch Wahrscheinlichkeitsverteilung der Zufallsvariablen X. Ist der Wahrscheinlichkeitsraum (Ω, F , P ) diskret, so sagen wir, daß die Zufallsvariable X und ihre Wahrscheinlichkeitsverteilung QX diskret sind. Die Wahrscheinlichkeit P (B) eines Ereignisses B ∈ B1 ist gleich der Bildwahrscheinlichkeit der Abbildung X, also QX (B) = P −1 (B) = P {ω|ω ∈ Ω ∧ X(ω) ∈ B}
(7.3)
Anstatt diese umständliche Schreibweise zu benutzen, führt man die Menge {X ∈ B} := {ω|ω ∈ Ω ∧ X(ω) ∈ B}
(7.4)
128
KAPITEL 7. ABBILDUNGEN VON ERGEBNISRÄUMEN
ein und bezeichnet sie als durch Bedingungen über X bestimmtes Ereignis aus F . Ganz analog schreibt man für {X a} = {ω|ω ∈ Ω ∧ X(ω) a}
(7.5)
{X = a} = {ω|ω ∈ Ω ∧ X(ω) = a}.
(7.6)
und Es ist möglich, daß an einem Merkmalsträger ω mehrere Merkmale ’kleben’. In diesem Fall definiert man eine n-dimensionale Zufallsvariable als Abbildung X:Ω→ mit n ∈
n
und wir schreiben X(ω) = X1 (ω), X2 (ω), . . . , Xn (ω) = (X1 , X2 , . . . , Xn ).
Die Abbildung QX : B → mit der Vorschrift ∀B ∈ B : QX (B) = P (X −1 (B))
(7.7)
nennen wir gemeinsame Wahrscheinlichkeitsverteilung der n-dimensionalen Zufallsvariablen X. Die Wahrscheinlichkeitsverteilung der i-ten Komponente von X = (X1 , X2 , . . . , Xi , . . . , Xn ) ist die zugehörige Randverteilung. Im Falle einer zweidimensionalen Zufallsvariablen läßt sich, wie Seite 53 dargestellt, ebenfalls eine Kontingenztabelle herleiten. Anstatt der absoluten oder relativen Häufigkeiten erscheint in der Tabelle die gemeinsame Wahrscheinlichkeit QX (xij ). Die Zeilennamen sind gleich den Ausprägungen der Zufallsvariablen X1 und die der Spalten sind gleich den Ausprägungen der Zufallsvariablen X2 .
7.3 7.3.1
Verteilungsfunktion und Dichte Verteilungsfunktion
Die Verteilungsfunktion der Zufallsvariablen X ist analog zu der Verteilung in der deskriptiven Statistik definiert: Sie ist eine Abbildung FX :
→
mit FX (x) := QX ] − ∞, x] = P (X x), mit x als Realisierung der Zufallsvariablen X. P steht für Wahrscheinlichkeit.
(7.8)
7.3. VERTEILUNGSFUNKTION UND DICHTE
129
Sie hat dieselben Eigenschaften wie die Verteilungsfunktion in der deskriptiven Statistik: sie ist an Sprungstellen rechtsseitig, nicht aber linksseitig stetig. Zudem ist sie monoton steigend. Wenn x gegen minus unendlich strebt, so strebt die Verteilungsfunktion gegen Null; strebt x gegen plus unendlich, so strebt die Verteilung in Richtung 1. Wir sprechen von einer diskreten Verteilungsfunktion, wenn die zu Grunde liegende Zufallsvariable diskret ist. Wir gehen davon aus, daß a, b ∈ , a < b und FX (a − 0) :=
lim FX (a − h),
h>0,h→0
dann gilt: QX {a} = FX (a) − FX (a − 0).
(7.9)
Ist QX {a} = FX (a) − FX (a − 0) > 0, so ist a eine Sprungstelle der Verteilungsfunktion FX (.). QX (x) gibt die zugehörige Sprunghöhe an. Wir sagen, die Sprungstellen sind die Trägerpunkte von Punktwahrscheinlichkeiten. Die Punktwahrscheinlichkeiten und die Sprunghöhen stimmen miteinander überein. Zudem gelten folgende Zusammenhänge: QX ]a, b] = FX (b) − FX (a),
(7.10)
QX ]a, b[= FX (b − 0) − FX (a),
(7.11)
QX [a, b] = FX (b) − FX (a − 0),
(7.12)
QX [a, b[= FX (b − 0) − FX (a − 0),
(7.13)
QX ] − ∞, b] = FX (b),
(7.14)
QX ] − ∞, b[= FX (b − 0),
(7.15)
QX ]a, ∞] = 1 − FX (a),
(7.16)
QX [a, ∞[= 1 − FX (a − 0).
(7.17)
In dem Falle, daß mehrere Merkmale an einem Merkmalsträger ω ’kleben’ lassen sich auch mehrdimensionale Verteilungsfunktionen definieren. Wir bezeichnen die Abbildung FX : n → mit der Abbildungsvorschrift FX (x1 , x2 , . . . , xn ) = QX (] − ∞, x1 ], × · · · ×] − ∞, xn ])
(7.18)
für alle (x1 , x2 , . . . , xn ) ∈ n als gemeinsame Verteilungsfunktion der Zufallsvariablen X = (X1 , X2 , . . . , Xn ). Die Verteilungsfunktion FXi mit i ∈ {1, 2, . . . , n} bezeichnet man als Randverteilungsfunktionen der gemeinsamen Verteilung FX .
KAPITEL 7. ABBILDUNGEN VON ERGEBNISRÄUMEN
130
7.3.2
Dichte
Bei diskreten Zufallsvariablen ist die Wahrscheinlichkeitsverteilung (oder Wahrscheinlickeitsmassefunktion) von Zufallsvariablen das Analogon zur relativen Häufigkeitsverteilung in der deskriptiven Statistik. Man verwechsle jedoch beide nicht miteinander! Die Binomialverteilung ist ein Beispiel für die Wahrscheinlichkeitsverteilung einer diskreten Zufallsvariablen. Sie ist allgemein definiert als (7.19) QX (x) := P (X = x), d.h. sie ist gleich der Wahrscheinlichkeit des Auftretens von x. Die Wahrscheinlichkeit QX (x) ist größer oder gleich Null und kleiner oder gleich Eins. Die Summe der Wahrscheinlichkeiten aller Massepunkte, d.h. Werte, bei denen QX (x) > 0 , ist gleich Eins. Eine Zufallsvariable X und ihre Wahrscheinlichkeitsverteilung QX sowie ihre Verteilungsfunktion FX heißen stetig, wenn die Abbildung fX :
→
folgende Eigenschaften hat: ∀x ∈
gilt, daßfX (x) 0, b ∀a, b ∈ ∪ {−∞, +∞} : fX (x)dx existiert, a x fX (t)dt. ∀x ∈ : FX (x) =
(7.20) (7.21) (7.22)
−∞
Diese Abbildung fX nennen wir Dichte oder Dichtefunktion. Liegt eine stetige Zufallsvariable mit der Verteilungsfunktion FX vor, so erhält man ihre Dichtefunktion durch Ableitung ihrer Verteilungsfunktion an allen Stetigkeitsstellen, d.h. an Stellen, bei denen keine Knicke oder Sprungstellen sind: dF X (x) = fX (x0 ). (7.23) dx x=x0 Wahrscheinlichkeiten im Bereich [a, b], QX [a, b], mit a, b ∈ lassen sich berechnen über QX [a, b] = QX ]a, b[= QX ]a, b[= QX [a, b[ b fX (x)dx. = FX (b) − FX (a) =
und a < b (7.24)
a
Insbesondere gilt
+∞ −∞
fX (x)dx = 1,
(7.25)
die Normierungsvorschrift. Der Unterschied zur Wahrscheinlichkeitsverteilung diskreter Zufallsvariablen ist, daß fX (x) an einzelnen Stellen x Werte annehmen kann, die größer als Eins sein können, ohne daß hierdurch die Normierungsvorschrift 7.25 verletzt wird. Denn die Fläche fX (x) , die dem Wert x zugeordnet ist, ist bei stetigen Variablen gleich Null.
7.4. MAZAHLEN
7.4 7.4.1
131
Maßzahlen Erwartungswert
Grundlagen Die Lageparameter (Maßzahlen oder Momente) theoretischer Verteilungen dienen, ähnlich denen in der deskriptiven Statistik, ihrer Charakterisierung. Ist der Verteilungstyp bekannt, so genügen häufig einige wenige Maßzahlen und die Verteilung ist vollkommen bestimmt. Die wichtigsten sind Erwartungswert und Varianz. Vorausgesetzt, der Erwartungswert existiert, d.h. |xi | pi < ∞, i
so ist der Erwartungswert bei diskreten Merkmalen definiert als E(X) := xi · QX (xi ),
(7.26)
i
wobei QX die Wahrscheinlichkeitsverteilung und xi die abzählbaren Trägerpunkte sind. Bei stetigen Merkmalen ist er definiert als +∞ x · fX (x)dx , (7.27) E(X) := −∞
mit der Dichtefunktion fX zur Zufallsvariablen X, wobei ebenfalls vorausgesetzt wird, daß er existiert, d.h. +∞ |x| fX (x)dx < ∞. −∞
Der Erwartungswert oder Mittelwert ist das Analogon zum arithmetischen Mittel in der deskriptiven Statistik. Dies wird im diskreten Fall sogleich deutlich, wenn die relative Häufigkeit als Wahrscheinlichkeitsmaß dient. Rechenregeln Gegeben sei eine Zufallsvariable X mit E(X) = μ und eine Abbildung G : R → R mit G(x) = ax + b; und a, b ∈ R , dann existiert der Erwartungswert der Zufallsvariablen G(X)= aX+b und errechnet sich über E(aX + b) = aE(X) + b.
(7.28)
Gegeben sei eine zweidimensionale Zufallsvariable Z=(X,Y), dann gilt E(X + Y ) = E(X) + E(Y )
(7.29)
KAPITEL 7. ABBILDUNGEN VON ERGEBNISRÄUMEN
132 und
E(X − Y ) = E(X) − E(Y );
(7.30)
sind schließlich die Zufallsvariablen X und Y stochastisch unabhängig, so gilt zudem E(XY ) = E(X) · E(Y ).
7.4.2
(7.31)
Kovarianz, Varianz und Standardabweichung
Grundlagen Gegeben sei eine zweidimensionale Zufallsvariable Z=(X,Y), dann heißt Cov(X, Y ) = σXY = σ11 := E(X − E(X))(Y − E(Y ))
(7.32)
Kovarianz oder gemischte Streuung von X und Y. Für den Fall, daß X=Y erhält man aus der Definition der Kovarianz die Varianz: 2 Var(X) = σX := E(X − E(X))(X − E(X)) = E(X − E(X))2 .
(7.33)
Wird die Quadratwurzel auf die Varianz angewendet, so erhält man eine Maßzahl, bekannt als Standardabweichung: σ :=
(σ2 ).
(7.34)
Rechenregeln Es gelten folgende Zusammenhänge: Eine Ausklammerung von Konstanten ist möglich über: Cov(aX , bY ) = a ∗ b∗Cov(X, Y ).
(7.35)
Die Addition von Konstanten ändert weder Kovarianz noch Varianz: Cov(X + a, Y + b) = Cov(X, Y ).
(7.36)
Die Kovarianz läßt sich zerlegen (Zerlegungssatz): Cov(X, Y ) = E(XY ) − E(X)E(Y ).
(7.37)
Die Kovarianz ändert sich bei Umstellung der Variablen nicht (Symmetrieeigenschaft): Cov(X, Y ) = Cov(Y, X).
(7.38)
Im Falle von X = Y gelten diese Sätze ganz analog, d.h. sie können entsprechend bei der Varianz angewendet werden.
7.5. ABSCHLIEENDE BEMERKUNGEN
7.4.3
133
Standardisierung
Die Standardisierung einer Zufallsvariablen auf Erwartungswert 0 und Varianz 1 ist wichtig, wenn man bei statistischen Tests Annahme- und Verwerfungsbereich mit Hilfe statistischer Tafeln bestimmen will. Diese Methode wird nach wie vor in vielen Statistiklehrbüchern genutzt. Bei Verwendung eines Programmpaketes wie 'R' ist dies freilich nicht mehr nötig. Dennoch wird sich diese Technik als nützlich erweisen. Will man beispielsweise statt einer Punktschätzung für den Erwartungswert einer Zufallsvariablen einen Bereich (genauer: ein Konfidenzintervall) bestimmen, das mit Sicherheitswahrscheinlichkeit (1 − α) den wahren aber unbekannten Erwartungswert überdeckt, so benötigt man diese Technik. Ist X eine Zufallsvariable mit Erwartungswert E(X) und Varianz V ar(X) = 2 σX , dann hat die Variable Z, die aus X durch Z=
X − E(X) σX
(7.39)
2 ) hervorgeht, Erwartungswert Null und Varianz von Eins. mit σX = (σX Denn die Anwendung der Rechenregeln ergibt X − E(X) 1 1 E (E(X) − E(E(X))) = (E(X) − E(X)) = 0. = σX σX σX Außerdem gilt Var(
1 (X − E(X)) ) = 2 Var((X − E(X))). σX σX
Beachtet man zudem, daß E(X) eine Konstante ist, so läßt sich folgendermaßen weiterrechnen: 2 1 1 σX 2 Var((X − E(X))) = 2 Var(X) = 2 = 1, σX σX σX
womit die Behauptungen bewiesen sind.
7.5
Abschließende Bemerkungen
Der Begriff der Zufallsvariablen erleichtert das Leben sehr. Da hierbei vorausgesetzt wird, daß die Abbildung F − B1 -meßbar ist, ist sichergestellt, daß die Wahrscheinlichkeit eines Ereignisses aus dem σ-Ring der Zufallsvariable wohldefiniert ist. Über diesen Umweg wird die Verteilungsfunktion QX definiert. Eindimensionale und mehrdimensionale Zufallsvariablen sind möglich. Ähnlich wie bei realen Datensätzen, klebt entweder nur eine Zufallsvariable an einer Person oder Objekt oder es sind mehrere Variablen einer statistischen Einheit zugeordnet. Angenommen es gibt gemeinsam verteilte Zufallsvariablen mit der gemeinsamen Wahrscheinlichkeitsverteilung QX,Y . Dann können zwei verschiedene Darstellungsformen unterschieden werden: entweder wird jedem Wertepaar (Xi , Yi ) die (gemeinsame) Wahrscheinlichkeit QX,Y (xi , yi ) zugeordnet
KAPITEL 7. ABBILDUNGEN VON ERGEBNISRÄUMEN
134
(siehe Aufgabe 6) oder, analog einer Kontingenztabelle, werden außen die Ausprägungen der Zufallsvariablen und innerhalb der Tabelle die Wahrscheinlichkeiten QXY (xi , yj ) = pij des gemeinsamen Auftretens von (xi , yj ) angegeben (siehe Aufgabe 7). Je nach Darstellungsart, sind leicht abgewandelte Formeln zur Berechnung von Maßzahlen zu verwenden, die jedoch letztlich bei derselben Verteilung zu demselben Ergebnis führen müssen. Alle dargestellten Maßzahlen sind von grundlegender Bedeutung. Die Kovarianz ist die Grundlage zur Definition einer weiteren Maßzahl, der Korrelation. Aufbauend hierauf befassen sich gleich zwei Kapitel (Kapitel 8 und 9) mit der einfachen bzw. der multivariaten Korrelationsanalyse, die gerade bei der Auswertung von Fragebögen häufig angewandt werden können. In der Regressionsrechnung ermöglicht die Kovarianz eine interessante Interpretation des Steigungsparameters b. Erwartungswert und Varianz sind Lageparameter theoretischer Verteilungen (siehe Kapitel A). Ist der Verteilungstyp, der Erwartungswert und die Varianz bekannt, so sind viele theoretische Verteilungen bereits eindeutig festgelegt. Die Standardisierung erweist sich als notwendig, wenn man, wie früher, statistische Tests durchführen will, man aber keine Software zur Verfügung hat, sondern nur Tabellen. Zudem ist sie notwendig, wenn man Konfidenzintervalle herleiten bzw. verstehen will.
7.6
Kontrollfragen
1. Wie wird sichergestellt, daß die Wahrscheinlichkeit einer Zufallsvariable auch definiert ist? 2. Machen Sie anschaulich klar, was Bildwahrscheinlichkeit P (A) := P (f −1 (A)) bedeutet. 3. Ω sei die Grundgesamtheit und X eine dreidimensionale Zufallsvariable zur Grundgesamtheit Ω. Erläutern Sie, was das praktisch bedeutet. 4. Ergänzen Sie: Die Dichtefunktion ist das Analogon zur diskreter Zufallfsvariablen. 5. Welche Rechenregeln (a) zu Erwartungswerten kennen Sie, (b) welche zu Kovarianz und (c) Varianz?
7.7. AUFGABEN
7.7
135
Aufgaben
1. Veranschaulichen Sie 7.10 bis 7.17 graphisch. 2. Eine Zufallsvariable hat die möglichen Ergebnisse 1, 2, 3. Gehen Sie davon aus, daß jedes Elementarereignis mit derselben Wahrscheinlichkeit auftritt. (a) Stellen Sie die Wahrscheinlichkeitsmassefunktion in Tabellenform dar. (b) Berechnen Sie den Erwartungswert und (c) die Varianz. 3. Beweisen Sie die Rechenregeln 7.28 bis 7.31. 4. Berechnen Sie Erwartungswert und Varianz der Bernoulli-Verteilung.81 5. Leiten Sie den Erwartungswert und die Varianz der Binomialverteilung her. Nutzen Sie Ihre Ergebnisse aus Aufgabe 4. 6. Gegeben sei folgende Wahrscheinlichkeitsverteilung zu der zweidimensionalen Zufallsvariablen Z = (X, Y ).82 (Xi , Yk ) pik
(3, 50) 1 2
(7, 60) 1 4
(9, 85) 1 8
(12, 115) 1 8
Berechnen Sie (a) den Erwartungswert jeder Zufallsvariablen, (b) V ar(X) sowie (c) V ar(Y ) und (d) Cov(X, Y ). 7. Gegeben sei die Wahrscheinlichkeitsverteilung der zweidimensionalen Zufallsvariablen Z = (X, Y ). yk xi 1 2 3
3
4
5
1/6 1/12 0
0 1/3 1/6
1/6 0 1/12
(a) Berechnen Sie den Erwartungswert jeder Zufallsvariablen, (b) die Varianzen V ar(X) und V ar(Y ), (c) die Kovarianz Cov(X, Y ) und (d) die Kovarianz Cov(Y, X).83 8. X und Y seien zwei Zufallsvariablen, a, b, c ∈ R sind Konstanten. Berechnen Sie
KAPITEL 7. ABBILDUNGEN VON ERGEBNISRÄUMEN
136
(a) die Erwartungswerte E(X1 ) und E(Y1 ), (b) die Varianzen V ar(X1 ) und V ar(Y1 ) sowie (c) die Kovarianz Cov(X1 , Y1 ), mit X1 = a · X + b, und
Y1 = c2 · Y.
9. Zufallsvariable X hat folgende Wahrscheinlichkeitsverteilung xi pi
-2 0,05
0 0,20
1 0,10
2 0,25
3 0,40
(a) Bestimmen Sie die Verteilungsfunktion FX und (b) stellen Sie sie graphisch dar. (c) Bestimmen Sie die Verteilungsfunktion der Zufallsvariablen Y , die aus X durch folgende Umformung Y := −4 · X + 5 hervorgeht. und (d) stellen Sie auch sie graphisch dar. 10. Die tägliche Auslieferung frischer Backwaren sei eine normalverteilte Zufallsvariable X mit Erwartungswert 180 Minuten bei einer Standardabweichung von 20 Minuten. (a) Wie groß ist die Wahrscheinlichkeit, daß die Auslieferung weniger als zwei Stunden dauert? (b) Wie groß ist die Wahrscheinlichkeit, daß die Auslieferung mehr als vier Stunden dauert? (c) Wie groß ist die Wahrscheinlichkeit einer Auslieferungszeit zwischen 2,5 und 3,5 Stunden?
Kapitel 8
Einfache Korrelationsanalyse 8.1
Einleitung
Hier interessiert, ob ein Zusammenhang zwischen zwei Zufallsvariablen existiert oder nicht. Damit ergibt sich als erste Aufgabe, näher zu bestimmen, was unter Zusammenhang zu verstehen ist. Wir gehen von einer zweidimensionalen Zufallsvariablen Z = (X, Y ) aus. Die Kovarianz ist eine Maßzahl, die Auskunft gibt über den Zusammenhang der Variablen X und Y : Cov(X, Y ) := E((X − E(X))(Y − E(Y ))). Ist die Abweichung (X −E(X)) positiv, wenn auch (Y −E(Y )) positiv ist und ist (X − E(X)) negativ, wenn auch (Y − E(Y )) negativ ist, so ist die Kovarianz positiv. Denn die Multiplikation zweier positiver Zahlen wie die Multiplikation zweier negativer Zahlen ist positiv. Ist umgekehrt die Differenz (X − E(X)) negativ, wenn (Y − E(Y )) positiv und umgekehrt, ist (X − E(X)) positiv, wenn (Y − E(Y )) negativ ist, dann ist die Kovarianz negativ. Bewegen sich also X und Y in derselben Richtung, so ist die Kovarianz positiv, bewegen sie sich in entgegengesetzter, so ist sie negativ. Ist die Differenz (X − E(X)) klein, wenn (Y − E(Y )) groß ist und umgekehrt, ist (X − E(X)) groß, wenn (Y − E(Y )) klein ist, so wird die Kovarianz klein sein. Dies kann ein Hinweis auf stochastische Unabhängigkeit sein. Doch selbst wenn die Kovarianz sehr klein ist, so kann dennoch ein Zusammenhang zwischen X und Y bestehen. Ja, die Kovarianz kann Null sein und dennoch gibt es eine Abhängigkeit zwischen den Variablen. Sind jedoch X und Y stochastisch unabhängig, so ist die Kovarianz gleich Null. Die Anwendung des Erwartungswertoperators ändert an dieser Argumentation nichts. Für den Fall diskreter Zufallsvariablen errechnet sich der Kovarianz R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_8, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
KAPITEL 8. EINFACHE KORRELATIONSANALYSE
138 über die Formel
Cov(X, Y ) =
l k
pij (Xi − E(X))(Yj − E(Y ))
i=1 j=1
und die Erwartungswerte berechnen sich wie folgt: E(X) =
k
pi. Xi
i=1
bzw. E(Y ) =
l
p.j Yj .
j=1
k, l geben hierbei die Anzahl unterschiedlicher Merkmalsausprägungen an. Die Erwartungswerte sind also zu berechnende Größen, doch ist die Wahrscheinlichkeitsverteilung gegeben, so ändern sie sich nicht. Nun wissen wir vorab nicht, ob zwei Zufallsvariablen stochastisch unabhängig sind oder nicht. Allein die Kovarianz kann errechnet werden. Ist sie jedoch von Null verschieden, so besteht keine stochastische Unabhängigkeit. Auf der Grundlage dieser Zusammenhänge wurden Tests entwickelt, mit denen überprüft werden kann, ob die Kovarianz gleich Null ist oder nicht. Im nächsten Abschnitt wird die Korrelation definiert. Zunächst wird der Begriff aus Sicht der Wahrscheinlichkeitstheorie eingeführt. Anschließend wird die Berechnung der empirischen Korrelation vorgestellt und die Formeln selbiger bei Vorliegen von Wertepaaren präsentiert. Dieser Abschnitt endet mit der Vorstellung vier wichtiger Fälle, die bei Anwendungen von Bedeutung sind. Der Rest des Kapitels nutzt als Gliederungskriterium das Skalenniveau der Variablen. Im zweiten Abschnitt erfolgt die Darstellung von Tests bei kardinal skalierten, danach die bei ordinal skalierten Merkmalen.
8.2 8.2.1
Korrelation Wahrscheinlichkeitstheorie
In der statistischen Praxis wird der Zusammenhang zwischen Zufallsvariablen jedoch nicht über die Kovarianz sondern die Korrelation überprüft. Denn die Kovarianz ist nicht normiert, d.h. sie kann sehr große positive und sehr große negative Werte annehmen. Deshalb weiß man nicht einzuschätzen, ob ein Zusammenhang als groß oder klein zu bewerten ist. Dieses Problem wird durch die Korrelation gelöst. Sie ist definiert als Cov(X, Y ) , Korr(X, Y ) := ρ := V ar(X) V ar(Y ) mit
8.2. KORRELATION
139
Korr(X,Y) bzw. ρ: Korrelation. Cov(X,Y): Kovarianz, Var(X): Varianz von X und Var(Y): Varianz von Y. Die Korrelation kann nur Werte annehmen im Bereich von [−1, 1], ist also, wie gewünscht, normiert. Ist die Kovarianz gleich Null, so trifft dies auch auf die Korrelation zu. Das Vorzeichen der Korrelation ist identisch mit dem der Kovarianz. Denn die Quadratwurzeln der Varianzen sind jeweils positiv, weshalb die Korrelation nur bei einer negativen Kovarianz negativ sein kann.
8.2.2
Empirische Korrelation
Nun ist erst einmal eine theoretische Größe definiert. In der Praxis liegen jedoch nach Ziehung einer Stichprobe Realisierungen einer Zufallsvariablen vor. Mit Hilfe dieser wollen wir möglichst gut auf die Verhältnisse in der Grundgesamt zurückschließen. Somit besteht die Aufgabe darin, einen Schätzer für die unbekannte Korrelation zu gewinnen. Hierfür wird die empirische Korrelation verwendet. Sie ist definiert als r :=
s11 (x, y) , s2 (x) s2 (y)
(8.1)
mit s11 (x, y): empirische Kovarianz, s2 (x): empirische Varianz von X und s2 (y): empirische Varianz von Y. Die empirische Kovarianz ist s11 (x, y) :=
k l
hij (xi − x ¯)(yj − y¯),
(8.2)
i=1 j=1
wobei hij die gemeinsame Häufigkeitsverteilung der beiden Variablen x und y ist und k die Anzahl unterschiedlicher Merkmalsausprägungen von x und l diejenigen des Merkmals y sind. und die Formel für die empirische Varianz (oder Stichprobenvarianz) ist n
s2 (x) :=
1 (xi − x ¯)2 . n i=1
(8.3)
KAPITEL 8. EINFACHE KORRELATIONSANALYSE
140
Die Eigenschaften der empirischen Korrelation sind die gleichen wie die der Korrelation in der Wahrscheinlichkeitstheorie. Es gibt verschiedene Definitionen der Korrelation. Die vorliegende heißt Korrelation nach Bravais-Pearson. Sie unterscheiden sich insbesondere im Hinblick auf das Skalierungsniveau der Variablen. Bei Bravais-Pearson werden kardinal skalierte Merkmale vorausgesetzt. Denn es werden Differenzen von Variablen gebildet. Die sind jedoch nur bei kardinalen Merkmalen sinnvoll, weil bei nominaler Skalierung man lediglich Ausprägungen voneinander unterscheiden kann und man bei ordinaler nur qualitative Vergleiche ziehen kann. Man kann sagen, ein Haus ist schöner als ein anderes, doch Differenzenbildung macht hier keinen Sinn, weil sie nicht interpretierbar ist.
8.2.3
Berechnung bei Wertepaaren
In den vorangegangenen Abschnitten wurden die Definitionen für Kovarianz und empirische Kovarianz (= Stichprobenkovarianz) bei Vorliegen einer gemeinsamen Wahrscheinlichkeitsverteilung bzw. Häufigkeitsverteilung angegeben. Wissen Sie noch, was mit gemeinsamer Verteilung gemeint ist?84 Liegen jedoch Wertepaare an diskreten Zufallsvariablen Z = (X, Y ) = {(X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn )} vor, so berechnet sich die Kovarianz in der Wahrscheinlichkeitstheorie über folgende Formel Cov(X, Y ) =
n
pi (Xi − E(X))(Yi − E(Y )).
(8.4)
i=1
Sofern bei einer Stichprobe Wertepaare an Beobachtungen z = (x, y) = {(x1 , y1 ), (x2 , y2 ), . . . , (xn , yn )} vorhanden sind, dann wird die empirische Kovarianz (oder Stichprobenkovarianz) über n 1 s11 (x, y) = (xi − x ¯)(yi − y¯) (8.5) n i=1 berechnet. Mit ’Wertepaaren an Beobachtungen’ ist nichts weiter gemeint, als daß Daten in Form von Rohdaten vorliegen und an jeder Beobachtung jeweils die zwei interessierenden Merkmale gemessen und ausgewiesen wurden. Falls der Zusammenhang zwischen Kontingenztabelle und Rohdaten unklar sein sollte, so bearbeiten Sie bitte die Aufgaben 5j bis 5l in Kapitel 3.
8.2.4
Beispiele
Um einen besseren Eindruck von der Maßzahl Korrelation zu erhalten, ist es nützlich die Korrelation für ausgesuchte Fälle zu berechnen und graphisch zu
8.2. KORRELATION
141
veranschaulichen. In Abbildung 8.1 sind vier verschiedene Beispiele für Beziehungen zwischen zwei Variablen abgetragen. Die Realisierungen sind in Form von Streudiagrammen, auch bekannt unter dem Namen Scatterplots, dargestellt. An der Abszisse ist jeweils die Variable ’x1’ und an der Ordinate x2, x3 bzw. x4 und im letzten Bild ist an der Abszisse x5 und an der Ordinate x6 abgetragen. Die Beispiele sind nachfolgend beschrieben. Beispiel a Mit Hilfe des Zufallsgenerators in können Realisierungen normalverteilter Zufallsvariablen erzeugt werden. Damit ist sichergestellt, daß wir auch tatsächlich Realisierungen einer normalverteilten Zufallsvariable haben. Auf diese Weise wird zuerst die Variable x1 erzeugt, die Realisierungen einer normalverteilten Zufallsvariablen mit Mittelwert 0 und Standardabweichung 2 sind. Ganz analog wird die Variable x2 generiert, ebenfalls mit Erwartungswert 0, aber diesmal mit Standardabweichung 22. Der Autor erhielt das unten abgebildete Ergebnis. Diese Daten finden sich in Korrelation1.Rdata. Werden dieselben Schritte von dem Leser unternommen, so werden sich die erzeugten Zahlen von den hier angegebenen unterscheiden. Warum eigentlich?85 > x1 <- rnorm(50, mean=0, sd=2) > x1 [1] -1.15204523 1.74757418 -1.50642468 -0.37293526 -0.61799307 0.91818561 [7] 0.09373976 -2.16817628 -0.65595495 0.39700398 1.64626535 -1.49401302 ... > x2 <- rnorm(50,mean=0,sd=22) > x2 [1] -26.5448163 3.1596591 -2.8589313 17.8617474 7.7142471 -46.3383767 [7] -30.9303737 16.2872737 -1.2653705 4.6119958 -16.4232524 0.1189868 ...
Es handelt sich um eine Punktwolke, die, kaum zu erkennen, mit steigenden x1Werten auch steigende x2-Werte aufweist. Die empirische Korrelation beträgt 0,205, ist also schwach positiv. Trotz dieses Ergebnisses, sollte die Überprüfung der Nullhypothese, daß beide Variablen eine von Null verschiedene Korrelation aufweisen, nicht zu ihrer Ablehnung führen. In diesem Fall sagen wir auch, die Korrelation ist nicht signifikant von Null verschieden. Beispiel b Besteht ein exakt linearer positiver Zusammenhang zwischen den beiden betrachteten Variablen, so ist die empirische Korrelation gleich Eins. In diesem Fall wurde an der Abszisse die Variable x1 und an der Ordinate x3 := 3 ∗ x1 abgetragen. Man kann durch den Nullpunkt eine Gerade legen und alle Punkte liegen auf selbiger. Beispiel c Falls zwischen zwei Variablen ein perfekter linearer negativer Zusammenhang besteht, so verlaufen in einem Scatterplot die Punkte von links oben nach rechts unten. Bei c wurde aus der Variablen x1 die Variable x4 über die Abbildung x4 := 5 − 6 ∗ x1 erzeugt. In diesem Fall ist die Korrelation gleich -1.
KAPITEL 8. EINFACHE KORRELATIONSANALYSE
142
Beispiel b (r = 1)
x3 −10
−40
−5
−20
0
0
x2
5
20
10
40
15
Beispiel a (r = 0,205)
−2
0
2
4
−4
−2
0
2
4
x1
x1
Beispiel c (r = −1
Beispiel d (r = 0)
x6 40
0
20
−10
0
−20
x4
60
10
80
20
100
−4
−4
−2
0
2 x1
4
−10
−5
0 x5
Abbildung 8.1: Streudiagramme (= Scatterplots) Quelle: eigene Darstellung
5
10
8.3. TESTS BEI KARDINALEN MERKMALEN
143
Beispiel d Hier ist ein Fall, bei dem die empirische Korrelation gleich Null ist, obwohl beide Variablen in einem funktionalen Zusammenhang stehen. Nachfolgend sind die verwendeten Befehle angegeben. Mit dem ersten werden Zahlen von -10 bis 10 in Einserschritten erzeugt. Die zweite Anweisung quadriert die Werte der Variablen x5. Berechnet man aus diesen Werten die empirische Korrelation, so erhält man Null. > x5 <- c(-10:10) > x6 <- x5^2
8.3
Tests bei kardinalen Merkmalen
8.3.1
Stetige normalverteilte Zufallsvariablen
Test Die Geschichte ist noch immer nicht zu Ende, denn um den kritischen und den Annahmebereich bestimmen zu können, brauchen wir eine Stichprobenverteilung. Wir benötigen mit anderen Worten eine Größe, deren Stichprobenverteilung bekannt ist. Der Term n−2 (8.6) tn−2 := R 1 − R2 ist unter der Nullhypothese H0 : ρ = 0 und der Voraussetzung, daß Z = (X, Y ) gemeinsam normalverteilt ist, t-verteilt mit (n − 2) Freiheitsgraden, wobei n gleich dem Stichprobenumfang ist. Man beachte, daß hier statt r der Großbuchstabe R verwendet wurde, um deutlich zu machen, daß es sich hierbei um eine Zufallsvariable handelt. Sie wählen wir deshalb als Testgröße, wobei r als Schätzer für die unbekannte Korrelation verwendet wird. Liegt sie links von dem t(n−2), (α) -Quantil oder 2 rechts von dem t(n−2),(1− (α) ) -Quantil, so ist die Nullhypothese zu verwerfen. 2 Denn dann liegt die Testgröße in dem Ablehnungs- oder Verwerfungsbereich. Andernfalls ist sie im Annahmebereich und die Nullhypothese kann nicht verworfen werden. Beispiel In Tabelle 8.1 sind in der ersten Spalte die Umsätze in Filialen einer Einzelhandelskette und in der zweiten die Bruttowertschöpfung der Region abgetragen. Sie sind in der Datei Korrelation.csv hinterlegt. Es wird vermutet, daß zwischen beiden Größen eine signifikante Korrelation besteht. Berechnet werden sollen: 1. die jeweilige empirische Varianz beider Variablen
KAPITEL 8. EINFACHE KORRELATIONSANALYSE
144
Umsatz (U1) 2970 532 299 1200 3463 2643 3630 3294 2000 5008
Bruttowertschöpfung (U2) 23273 5283 2807 5058 20442 15076 28360 19812 12379 20403
Tabelle 8.1: Beispiel: Umsatz - Bruttowertschöpfung Quelle: Daten frei erfunden 2. die empirische Kovarianz und 3. die empirische Korrelation. 4. Zudem soll ein Test durchgeführt werden, der Auskunft darüber gibt, ob zwischen beiden Variablen eine von Null verschiedene Korrelation besteht. α sei gleich 0, 05. Es wird davon ausgegangen, daß die Daten bereits eingelesen sind und die Variablen U 1 und U 2 verwendet werden. Zunächst ist es erforderlich, die Daten in der Liste anzusprechen. Variable U 1 kann über > X$U1 [1] 2970
532
299 1200 3463 2643 3630 3294 2000 5008
am Bildschirm angezeigt werden und bei U 2 verfährt man analog. Die Hilfefunktion > ?var öffnet ein Fenster, aus dem nützliche Informationen für die Berechnung der Varianz hervorgeht. Das Format des Befehls ist: var(x, y = NULL, na.rm = FALSE, use) x und y entsprechen unseren Variablen U 1 und U 2. Die Anweisung ’na.rm = FALSE’ bedeutet, daß fehlende Werte nicht entfernt werden sollen. ’na.rm’ ist zu übersetzen mit ’not availables.remove’, also entferne die Missings. Würde man eingeben ’na.rm = TRUE’, so würden Missings entfernt. Der Befehl ’use’ wird benutzt, um vorzugeben, wie bei fehlenden Werten verfahren werden soll. Wir wählen > var(X$U1, [1] 2224821,
na.rm = FALSE, use= "pairwise.complete.obs")
8.3. TESTS BEI KARDINALEN MERKMALEN
145
was bedeutet, daß bei der Berechnung nur solche Werte berücksichtigt werden, bei denen die Beobachtungen paarweise komplett sind. Als korrigierte empirische Varianz ergibt sich 2002339. Denn die Eingabe > var(X$U1,
na.rm = FALSE, use= "pairwise.complete.obs") * 9/10
[1] 2002339, bei der mit dem Korrekturfaktor (n − 1)/n multipliziert wird, ergibt die empirische Varianz. Begründen Sie, warum dies tatsächlich zur empirischen Varianz führt.86 Für die andere Variable errechnen wir > var(X$U2,
na.rm = FALSE, use= ’’pairwise.complete.obs’’) * 9/10
[1] 67686642 und die empirische Kovarianz errechnet sich zu > cov(X$U1, X$U2, use = "all.obs", method = c("pearson"))*9/10 [1] 10179174. Denn hier ist in dasselbe Verfahren implementiert wie bei der Varianz. Auf derselben Hilfeseite findet sich auch der Befehl zur Berechnung der Korrelation. Er lautet > cor(x, y = NULL, use = "all.obs", method = c("pearson", "kendall","spearman")). Im Vergleich zum Befehl zur Berechnung der Varianz ist lediglich ein Unterschied festzustellen. Es gibt verschiedene Methoden zur Berechnung einer Korrelation. Wir benötigen ’pearson’, da wir kardinal skalierte Merkmale haben und den Korrelationskoeffizienten nach Bravais-Pearson berechnen wollen. Der Befehl > cor(X$U1, X$U2, use = "all.obs", method = c("pearson")) [1] 0.874364 führt zum gewünschten Ergebnis. Überprüfen Sie, ob Sie mit den berechneten empirischen Varianzen und der Kovarianz zum selben Ergebnis kommen.87 Die Durchführung des Tests ist mit der verfügbaren Routine > cor.test(X$U1, X$U2,
alternative = c("two.sided"), method =
c("pearson"), exact = NULL, conf.level = 0.95) Pearson’s product-moment correlation data: X$U1 and X$U2 t = 5.0963, df = 8, p-value = 0.0009341 alternative hypothesis: true correlation is not equal to 0
KAPITEL 8. EINFACHE KORRELATIONSANALYSE
0.3 0.2
Annahme− bereich (1−alpha)
Ablehnungsbereich
0.1
Wert der Dichtefunktion
0.4
146
alpha/2
alpha/2
p−value/2
0.0
p−value/2
Ablehnungsbereich
−5
0 t−verteilte Zufallsvariable mit zwei Freiheitsgraden
5
Abbildung 8.2: Veranschaulichung des Tests auf insignifikante Korrelation Quelle: eigene Darstellung
95 percent confidence interval: 0.5444938 0.9699893 sample estimates: cor 0.874364 schnell durchführbar. Es wird die Testgröße angegeben (hier: t = 5.0963) und die Zahl der Freiheitsgrade (df = 8). Es folgt die Wahrscheinlichkeit, die neben der Testgröße liegt. Dieser Wert ist weit unter dem vorgegebenen Signifikanzniveau von 0, 05. Aus diesem Grund muß die Nullhypothese verworfen werden. Mit anderen Worten ist davon auszugehen, daß die Korrelation signifikant von Null verschieden ist. Die Auswertung deutet also darauf hin, daß es einen signifikanten Zusammenhang zwischen Umsatz und Bruttowertschöpfung gibt. Diese Interpretation wird durch Graphik 8.2 nachvollziehbar. Hier ist die Dichte der t-Verteilung angezeigt mit df = 8 Freiheitsgraden. Die beiden äußeren senkrechten gestrichelten Linien geben die Testgröße, links mit −5, 09 und rechts mit +5, 09 an. Die Wahrscheinlichkeit die rechts von −5, 09 liegt ist gleich der rechts von +5, 09 und beträgt p − value/2. Die beiden senkrechten gestrichelten Linien bei −2.31 bzw. +2, 31 sind die beiden α/2-Quantile, links das untere und rechts das obere α/2-Quantil. Links von −2, 31 und rechts von +2, 31 liegen jeweils α/2 an Wahrscheinlichkeitsmasse. Da links der Testgröße
8.3. TESTS BEI KARDINALEN MERKMALEN
147
−5, 09 und rechts von +5, 09 jeweils weniger an Wahrscheinlichkeitsmasse liegt als durch das Signifikanzniveau vorgegeben ist, liegt die Testgröße = +5, 09 im Verwerfungsbereich. Daß rechts von +5.09 tatsächlich p − value/2 an Wahrscheinlichkeit ist, ergibt sich über folgende Rechnung. > 2*(1-pt(5.0963,10-2,lower.tail=TRUE)) [1] 0.0009341098 Zudem ist das Konfidenzintervall angegeben. Es gibt bei vorgegebener Sicherheitswahrscheinlichkeit (hier gleich 0, 95) das Intervall an, in dem mit einer Wahrscheinlichkeit von 0, 95 der wahre, aber unbekannte Parameter ρ liegt. In vorliegendem Fall ist dies das Intervall [0, 544; 0, 970]. In unserem Fall liegt der Schätzer r im Konfidenzbereich und die Null ist kein Element dieses Intervalls. Ein Problem freilich bleibt. Bei diesem Testverfahren wird vorausgesetzt, daß die Zufallsvariablen gemeinsam normalverteilt sind. Wenn es sich um Daten aus einer echten Erhebung handelt, kann die Gültigkeit der Voraussetzung nicht einfach unterstellt werden, sondern muß mit Hilfe eines adäquaten Testverfahrens überprüft werden. Ergibt eine solche Überprüfung, daß die Variablen nicht gemeinsam normalverteilt sind, so ist die grundlegende Verteilungsannahme verletzt und Verfahren für stetige, nicht-normalverteilte Zufallsvariablen können eingesetzt werden.
8.3.2
Stetige nicht-normalverteilte Zufallsvariablen
Spearmanscher Korrelationskoeffizient Grundlagen Bei Anwendungen sind Meßfehler nicht auszuschließen. Sie können so groß sein, daß Tests aufgrund der Beobachtungen dazu führen, daß die Variablen in der Grundgesamtheit nicht normalverteilt sind. Auch ohne Meßfehler vorauszusetzen, ist es möglich, daß sich bei einem Test auf Normalverteilung herausstellt, daß die Merkmale nicht (gemeinsam) normalverteilt sind. In diesen Fällen kann das Testverfahren des Kapitels 8.3.1 nicht angewandt werden. Als Testgröße bei stetig verteilten Zufallsvariablen dienen dann entweder der Spearmansche oder der Kendallsche Korrelationskoeffizient. Beide Verfahren werden hier vorgestellt. Anstatt den Korrelationskoeffizienten nach BravaisPearson zu nutzen, werden im ersten Schritt Ränge berechnet, die den Ausgangspunkt zur Ermittlung des Spearmanschen wie auch des Kendallschen Rangkorrelationskoeffizienten bilden. Bei Sportveranstaltungen erhält der Sieger den Rang 1, der zweite den Rang zwei und so weiter. Solche Ränge sind also ordinal-skaliert. Liegen kardinalskalierte Merkmale vor, so kann man dem höchsten Wert den Rang 1, dem zweithöchsten den Rang zwei und entsprechend alle anderen Rangzahlen vergeben. Da kein besonderer Grund vorliegt, dem höchsten Wert den Rang 1 zuzuordnen, könnte man auch dem niedrigsten Wert einer Zahlenreihe den Rang 1 zuordnen, dem zweitniedrigsten den Rang zwei und so fort. Auf welche der beiden Arten man die Ränge zuordnet ist im folgenden nebensächlich. Entscheidend ist nur, daß bei beiden Variablen x und y dasselbe
KAPITEL 8. EINFACHE KORRELATIONSANALYSE
148
Verfahren angewandt wird. Entweder ordnet man bei beiden Variablen jeweils den größten Ausprägungen den Rang 1 zu oder man geht gerade umgekehrt vor. Anstatt der Ursprungswerte werden bei dem Spearmanschen Korrelationskoeffizienten dann die Ränge in Formel 8.1 eingesetzt, also s11 (Rang(x), Rang(y)) . ρSpearman = s2 (Rang(x)) s2 (Rang(y))
(8.7)
Das Verfahren nach Kendall ist etwas komplizierter. Beispiel 1
Die Daten dieses Beispiels sind in der Datei
Hartung-S195.Rdata angegeben. In einer empirischen Untersuchung wurde getestet, ob es eine signifikante Korrelation zwischen Schreien von fünf Tage alten Kleinkindern und deren Intelligenz im Alter von drei Jahren gibt. Hierzu wurden die Schreie von 22 Babys und ihre Intelligenz erhoben. (Hartung und Elpelt, 1984, S.192-194). Alternativ zum Einlesen der Datei, können mit den beiden Anweisungen > x1 <- c(19,12,18,16,26,15,27,23,20,21,19,15,17,15,21,16,23, 17,14,18,17,19) > x2 <- c(103,119,124,133,155,112,108,103,90,114,120,100,109, 112,157,118,113,94,106,109,141,132) die Daten eingegeben werden. x1 ist die Anzahl der Schreie und x2 der Intelligenzquotient im Alter von drei Jahren. Die nachfolgenden Befehle dienen zur Berechnung der Ränge. > rank(x1) [1] 14.0 1.0 11.5 6.5 21.0 4.0 22.0 19.5 16.0 17.5 14.0 9.0 4.0 17.5 [16] 6.5 19.5 9.0 2.0 11.5 9.0 14.0 > rank(x2) [1] 4.5 15.0 17.0 19.0 21.0 10.5 7.0 4.5 1.0 13.0 16.0 8.5 10.5 22.0 [16] 14.0 12.0 2.0 6.0 8.5 20.0 18.0
4.0
3.0
Der Wert 11, 5 kommt bei rank(x1) gleich zweimal vor. Es handelt sich um Bindungen (= ’ties’ im Englischen). Die 18 kommt bei x1 an der dritten und der zwanzigsten Stelle vor. Standardmäßig wird der Mittelwert der Ränge gebildet. In vorliegendem Fall werden von den beiden Beobachtungen die Ränge 11 und 12 belegt. Der Mittelwert zwischen beiden ergibt den ausgewiesenen Wert von 11, 5. Merke: Die Ränge können prinzipiell in aufsteigend oder absteigend gebildet werden. Welches Verfahren angewendet wird, ist egal, jedoch muß für beide Variablen dasselbe verwendet werden, um mit
8.3. TESTS BEI KARDINALEN MERKMALEN
149
> cor(rank(x1),rank(x2),method="pearson") [1] 0.0908323 den Spearmanschen Korrelationskoeffizienten zu berechnen. Schneller geht es mit dem Befehl > cor(x1,x2,method="spearman") [1] 0.0908323. Test Aufbauend auf den Rängen wird die Hotelling-Pabst-Statistik errechnet: D :=
n
(Rang(xi ) − Rang(yi ))2 .
(8.8)
i=1
Dieser Wert wird als Testgröße verwendet. Denn bei Geltung der Nullhypothese, daß der Spearmansche Rankkorrelationskoeffizient gleich Null ist, und n > 30, wobei n den Stichprobenumfang angibt, ist D annähernd normalverteilt mit Erwartungswert E(D) =
1 1 3 (n − n) − (D1 + D2 ) 6 12
mit Dj =
pj
(d3jk − djk )
k=1
für j = 1, 2, pj als Anzahl unterschiedlicher Werte unter x1 , x2 , x3 , . . . , xn bzw. in der Reihe y1 , y2 , y3 , . . . , yn . djk für j = x, y ist die Häufigkeit des k-ten Wertes in der Reihe x1 , x2 , x3 , . . . , xn bzw. y1 , y2 , y3 , . . . , yn . und Varianz V ar(D) =
(n − 1)(n + 1)2 n2 D1 D2 (1 − 3 )(1 − 3 ) 36 n −n n −n
(Hartung und Elpelt, 1984, S.192-194). Es sind auch einseitige Tests möglich, bei dem als Nullhypothese entweder H0 : ρSpearman 0 oder H0 : ρSpearman 0 gesetzt wird. In wird allerdings folgende Teststatistik (1 − ρ) 6 verwendet (Best und Roberts, 1975). Im Internet ist auf (n3 − n) ·
http://lib.stat.cmu.edu/apstat/89 der verwendete Algorithmus hinterlegt.
(8.9)
150
KAPITEL 8. EINFACHE KORRELATIONSANALYSE
Beispiel 2 Das Beispiel von Seite 148 wird fortgeführt. Mit den folgenden Anweisungen wird D berechnet. > x3 <- rank(x1) > x4 <- rank(x2) > x5 <- x3-x4 > sum(x5^2) [1] 1601.5 Über die Berechnung von D1 und D2 könnten der Erwartungswert E(D) und die Varianz V ar(D) bestimmt werden und hierüber könnte mit ’qnorm’ der Annahme- und Verwerfungsbereich ermittelt werden. Dieses Verfahren verbietet sich jedoch hier, da n < 30. Schneller geht es zudem mit der in hinterlegten Routine ’cor.test’. > cor.test(x1,x2,method="spearman",conf.level=0.95, alternative="two.sided",exact=NULL) Spearman’s rank correlation rho data: x1 and x2 S = 1610.136, p-value = 0.6877 alternative hypothesis: true rho is not equal to 0 sample estimates: rho 0.0908323 Warning message: In cor.test.default(x1, x2, method = "spearman", conf.level = 0.95, : Kann exakte p-Werte bei Bindungen nicht berechnen Die ermittelte Korrelation ρSpearman ist recht gering. Die Nullhypothese lautet H0 : ρ = 0 und die Gegenhypothese H1 : ρ = 0. Die Testgröße ist gleich S = 1610, 136 und die Wahrscheinlichkeit des zur Testgröße gehörigen Verwerfungsbereiches ist 0, 6877. Zum Signifikanzniveau von 5 Prozent kann die Nullhypothese nicht verworfen werden. Mit anderen Worten ist die Korrelation nicht signifikant von Null verschieden. Zu beachten ist jedoch die ausgegebene Warnung, daß bei Bindungen keine exakten p-Werte berechnet werden könnten. Besser wäre deshalb die Verwendung korrekter Wahrscheinlichkeiten. Kendallscher Korrelationskoeffizient Test Der Kendallsche Korrelationskoeffizient basiert auf denselben Rangzahlen wie der Spearmansche. Nachdem sie berechnet wurden, werden die Beobachtungen Rang(xi ), Rang(yi ), i = 1, 2, 3, . . . n, geordnet, wobei der Rang der Variablen x als Gliederungskriterium dient. Hierdurch entsteht eine Matrix, in
8.3. TESTS BEI KARDINALEN MERKMALEN
151
der in der ersten Spalte der Rang der Variablen 1 in aufsteigender Reihenfolge steht, womit automatisch auch der Rang der Variablen 2 in eine Ordnung gebracht wird. Aufgrund dieser Anordnung wird die Variable qi bestimmt, die für jede Beobachtung i, i ∈ {1, 2, 3, . . . , n}, angibt, wieviele Rangzahlen Rang(yj ) kleiner oder gleich Rang(yi ) sind und in der Reihenfolge weiter unten steht. Der Kendallsche Korrelationskoeffizient berechnet sich dann über 4 ni=1 qi . (8.10) τ := 1 − n · (n − 1) Als Testgröße wird die Kendallsche K-Statistik verwandt (Hartung und Elpelt, 1984, S. 199-201), die auf τ aufbaut. n
K=
1 n(n − 1) n(n − 1) − 2 · τ. qi = 2 2
(8.11)
i=1
Die Nullhypothese lautet: H0 : die Korrelation zwischen beiden Variablen ist gleich Null und die Gegenhypothese: H1 : Beide Variablen sind korreliert. In dieser Formulierung handelt sich um einen zweiseitigen Test. Der Annahmebereich ist [Kn; α2 , Kn;1− α2 ]. Liegt die Testgröße außerhalb dieses Bereiches, so wird die Nullhypothese verworfen. Wir sagen dann auch, die Korrelation ist von Null verschieden. Die Formulierung einseitiger Tests ist möglich, wobei die Nullhypothese entweder in der Form ρ < 0 oder ρ 0 bzw. ρ > 0 oder ρ 0 formuliert sein muß, da ansonsten die Testgröße anders verteilt wäre. Der Annahmebereich ergibt sich darüber, daß er bei Geltung der Nullhypothese mit 1 − α an Wahrscheinlichkeit überdeckt wird. Ob das Quantil zum Annahme- oder Verwerfungsbereich zählt, ergibt sich ebenfalls über die Nullhypothese. Ist in der Nullhypothese das Gleichheitszeichen enthalten, so zählt es dazu, sonst nicht. Die kritischen Werte [Kn; α2 und Kn;1− α2 ] sind vertafelt, liegen nach Kenntnis des Autors aber in nicht vor. Falls jedoch 1. weniger als 50 Beobachtungen vorliegen, 2. alle Werte endlich sind und 3. keine Bindungen vorliegen
152
KAPITEL 8. EINFACHE KORRELATIONSANALYSE i 1 3 2 7 5 6 4
Rang(x) 1 2 3 4 5 6 7
Rang(y) 4 3 7 1 6 2 5
qi 3 2 4 0 2 0 0
Tabelle 8.2: Ränge Quelle: eigene Darstellung werden standardmäßig exakte p-Werte (= p-values) ausgegeben. Andernfalls wird in folgende Testgröße K1 =
K n(n−1)(2n+5) 18
(8.12)
verwendet. Sie ist approximativ standardnormalverteilt. Die Anwendung dieser Routine erfolgt über den Befehl ’cor.test’, mit der schnell und zuverlässig ein Test auf Unkorreliertheit auf Basis von Kendalls τ durchgeführt werden kann. Freilich kann die Testgröße auch ohne ’cor.test’ ermittelt werden und zwecks Bestimmung von Annahme- und Verwerfungsbereich kann der Befehl ’qnorm’ eingesetzt werden. Die Berechnung des Kendallschen Korrelationskoeffizienten und die Durchführung des Tests auf Unkorreliertheit werden anhand eines Beispiels verständlicher. Beispiel In Tabelle 8.2 sind die Objekte bereits gemäß der Ränge des Merkmals x sortiert. x und y sind in Datei Korrelation-Kendall.Rdata zu finden. In der ersten Spalte ist die Objektnummer abgetragen, es folgt der Rang des Merkmals x, des Merkmals y und der zugehörige qi -Wert. Die Daten können auch mit > x <- matrix(c(1,2,3,4,5,6,7,4,3,7,1,6,2,5),ncol=2, dimnames=list(c(1:7),c("x1","x2"))) in eingelesen werden. Das Kendallsche Tau kann Schritt für Schritt berechnet werden > q <- c(3,2,4,0,2,0,0) > 1-(4*sum(q))/(7*(7-1)) [1] -0.04761905 oder über den Befehl
8.3. TESTS BEI KARDINALEN MERKMALEN
153
> cor(x[,1],x[,2],method="kendall") [1] -0.04761905. Nun wird der Test auf Unkorreliertheit durchgeführt. Er besteht aus folgenden Schritten: 1. Hypothesenaufstellung, 2. Testgröße: Berechnung von K und Errechnung von K1, 3. Bestimmung des Annahme, und Verwerfungsbereiches und 4. der Entscheidung. Die Hypothesen lauten H0 : Beide Variablen sind unkorreliert, gegen H1 : beide Größen sind korreliert. Die Testgröße wird über folgende Befehle errechnet. K <- ((7*(7-1))/2)*cor(x[,1],x[,2],method="kendall") > K [1] -1 > K1 <- K/((7*(7-1)*(2*7+5))/18)^(0.5) > K1 [1] -0.1501879 Da die Testgröße annähernd standardnormalverteilt ist, wird zur Bestimmung der Quantile, die den Annahme- und Verwerfungsbereich bestimmen, die Normalverteilung ’norm’ verwendet. > qnorm((0.05/2),mean=0,sd=1, lower.tail=TRUE) [1] -1.959964 > qnorm((1-0.05/2),mean=0,sd=1,lower.tail=TRUE) [1] 1.959964 > qnorm((0.05/2),mean=0,sd=1,lower.tail=FALSE) [1] 1.959964 Man beachte, daß die beiden letzten Befehle äquivalent sind und deshalb zum selben Ergebnis führen. Der Annahmebereich ist [−1, 9599, +1, 9599]. Da die Testgröße in den Annahmebereich fällt, kann die Nullhypothese nicht abgelehnt werden. Schneller führt der in implementierte Befehl ’cor.test’ zum Ergebnis. > cor.test(x[,1],x[,2],method="kendall",conf.level=0.95, alternative="two.sided") Kendall’s rank correlation tau
KAPITEL 8. EINFACHE KORRELATIONSANALYSE
154
data: x[, 1] and x[, 2] T = 10, p-value = 1 alternative hypothesis: true tau is not equal to 0 sample estimates: tau -0.04761905 Da bei gegebener Testgröße der zugehörige p-value größer als 0.05 ist, kann die Nullhypothese nicht abgelehnt werden.
8.4
Test bei ordinalen Merkmalen: Bell-Doksum Test
8.4.1
Test
Der Test ist in (Hartung und Elpelt, 1984, S. 204-205) beschrieben. Es werden zwei ordinal skalierte Merkmale x und y, die an einer Person oder einem Objekt gemessen wurden, vorausgesetzt. Die Daten x1 , . . . , xn bzw. y1 , . . . , yn seien Realisierungen einer einfachen Stichprobe vom Umfang n zu den Zufallsvariablen X bzw. Y . Die Grundidee ist wie folgt. Es werden die Rangzahlen für x und y bestimmt. Anstatt eine Testgröße auf Basis dieser Zahlen aufzubauen, wird für jedes Merkmal jeweils eine standardnormalverteilte Zufallsvariable vom Umfang n erzeugt. Diese Zufallszahlen werden in eine Rangfolge gebracht und jedem Objekt i entsprechend der Rangzahlen x bzw. y zugeordnet. Treten bei x Bindungen auf, so werden die betroffenen Rangzahlen gemittelt. Genau dasselbe macht man bei den Realisierungen der standardnormalverteilten Zufallsvariablen, die x zugeordnet sind. Sollten bei y Bindungen vorhanden sein, so geht man ganz analog vor. Die Hypothesen lauten: H0 : Die Zufallsvariablen X und Y sind nicht korreliert. H1 : Beide Variablen sind korreliert. Als Teststatistik wird die standardnormalverteilte Zufallsvariable n √ 1˜ ˜ yi ) n ∗ rBell−Doksum mit rBell−Doksum = R(˜ xi ) · R(˜ n i=1
(8.13)
verwendet. ˜ xi ) ist hierbei die Realisierung der standardnormalverteilten Zufallsvariable, R(˜ die der Rangzahlen von xi zugeordnet ist und ˜ yi ) ist die entsprechende Realisierung, die den Rangzahlen von yi zugeordnet R(˜ sind. Falls diese Testgröße außerhalb des Intervalls [z α2 , z1− α2 ] zu liegen kommt, wäre die Nullhypothese zu verwerfen.
8.4. TEST BEI ORDINALEN MERKMALEN: BELL-DOKSUM TEST
8.4.2
155
Beispiel
Zur Illustration wird das Beispiel in (Hartung und Elpelt, 1984, S. 205-206) herangezogen und mit gelöst. Die Daten sind in Datei Hartung-1984-S205.Rdata zur Verfügung gestellt. Die Hypothese lautet, daß es eine signifikante Korrelation zwischen Körpergröße und Gewicht gibt. Zum Signifikanzniveau von 10 Prozent soll geprüft werden, ob diese Hypothese stimmt. Die Rohdaten x und y können auch über > M <- matrix(c(1:10,167,162,172,170,167,165,154,162,157, 160,66,63,63,75,61,69,52,60,58,56),ncol=3) eingegeben werden. > M [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]
[,1] [,2] [,3] 1 167 66 2 162 63 3 172 63 4 170 75 5 167 61 6 165 69 7 154 52 8 162 60 9 157 58 10 160 56
In der ersten Spalte stehen die Objektnamen i mit i = 1, 2, 3, . . . , 10, also n = 10. Die Körpergrößen der Personen sind in Spalte 2 aufgeführt und in der letzten Spalte steht das Gewicht. In der ersten Zeile stehen also Person 1 mit Körpergröße 167 cm und Gewicht 66 kg. Im nächsten Schritt werden die standardnormalverteilten Zufallsvariablen über den in enthaltenen Zufallsgenerator erzeugt. > > > >
Rx <- rnorm(10,mean=0,sd=1) Ry <- rnorm(10,mean=0,sd=1) sortiertRx <- sort(Rx) sortiertRy <- sort(Ry)
Der erste Befehl erzeugt die Zufallszahlen, die für Variable x vorgesehen sind und die zweite diejenigen für Variable y. Durch die beiden letzten Befehle werden die erzeugten Zufallsvariablen aufsteigend sortiert. Die nächsten beiden Befehle fassen die erzeugten Zufallsvariablen zu der Matrix N zusammen. Man beachte jedoch: Werden dieselben Befehle von dem Leser ausgeführt, so werden im allgemeinen andere Zufallszahlen erzeugt. Dies bedeutet mit anderen Worten, daß es aufgrund dieses Effektes bei denselben Rohdaten, aber von Lauf zu Lauf verschiedenen Zufallszahlen, zu unterschiedlichen Testentscheidungen kommen kann.
156
KAPITEL 8. EINFACHE KORRELATIONSANALYSE
> N <- cbind(sortiertRx,sortiertRy) > N sortiertRx sortiertRy [1,] -1.1419460 -0.61329012 [2,] -0.3642690 -0.45619167 [3,] 0.2538490 -0.44343837 [4,] 0.2663532 -0.41896236 [5,] 0.8365606 -0.25677110 [6,] 0.8401299 0.02981200 [7,] 0.8621636 0.22675427 [8,] 1.0052275 1.02447082 [9,] 1.0580118 1.23550080 [10,] 1.2780812 1.31408394 Im folgenden Schritt werden die Rohdaten x gemäß ihres Ranges sortiert, so daß sie dieselbe Reihung erhalten wie die gerade erzeugte Zufallsvariable ’sortiertRx’. In der Matrix ’M1’ werden die Objektnummern (Spalte 1) und der zugehörige Rang von x (in Spalte 2) niedergelegt. Matrix ’M2’ entsteht, indem man die erste Spalte der Matrix N hinzufügt, also die Variable ’sortiertRx’. > ii <- order((rank(M[,2]))) > M1 <- t(rbind(M[,1],rank(M[,2]))[,ii]) > M2 <- cbind(M1,N[,1]) Als Ergebnis erhält man folgende Matrix. > M2 [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]
[,1] [,2] [,3] 7 1.0 -1.1419460 9 2.0 -0.3642690 10 3.0 0.2538490 2 4.5 0.2663532 8 4.5 0.8365606 6 6.0 0.8401299 1 7.5 0.8621636 5 7.5 1.0052275 4 9.0 1.0580118 3 10.0 1.2780812
In Matrix ’M3’ werden immer dann, wenn bei Variable x (= zweite Spalte von ’M2’) Bindungen auftreten, Mittelwerte der zugeordneten Zufallszahlen ’sortiertRx’ gebildet. Sie stehen in der zweiten Spalte von ’M3’; dies ist die ˜ xi ). Variable R(˜ M3 M3
8.4. TEST BEI ORDINALEN MERKMALEN: BELL-DOKSUM TEST
[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]
157
[,1] [,2] 7 -1.1419460 9 -0.3642690 10 0.2538490 2 0.5514569 8 0.5514569 6 0.8401299 1 0.9336956 5 0.9336956 4 1.0580118 3 1.2780812
˜ x˜i ) und R( ˜ y˜i ) stets für dasselbe Objekt i multiDa in 8.13 die Variablen R( pliziert werden müssen, werden die Daten der Matrix ’M3’ gemäß Spalte 2, dies sind die Objektzahlen i, geordnet. iii <- order(M2[,1]) M4 <- t(rbind(M3[,1],M3[,2])[,iii]) Ganz analog wird im Falle der Rohdaten y vorgegangen. Die y werden entsprechend ihrem Rang geordnet, wobei die i in Spalte 1 der Matrix N1 mitgeführt werden. iv <- order(rank(M[,3])) N1 <- t(rbind(M[,1],rank(M[,3]))[,iv]) > N1 [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]
[,1] [,2] 7 1.0 10 2.0 9 3.0 8 4.0 5 5.0 2 6.5 3 6.5 1 8.0 6 9.0 4 10.0
An die Matrix ’N1’ wird die Spalte 2 der Matrix ’N’ angehängt; dies sind die erzeugten Zufallsvariablen. N2 <- cbind(N1,N[,2]) N2 [,1] [,2] [,3] [1,] 7 1.0 -0.61329012 [2,] 10 2.0 -0.45619167 [3,] 9 3.0 -0.44343837
KAPITEL 8. EINFACHE KORRELATIONSANALYSE
158 [4,] [5,] [6,] [7,] [8,] [9,] [10,]
8 4.0 -0.41896236 5 5.0 -0.25677110 2 6.5 0.02981200 3 6.5 0.22675427 1 8.0 1.02447082 6 9.0 1.23550080 4 10.0 1.31408394
Bestehen bei y Bindungen, so werden die betroffenen Zufallsvariablen gemittelt und in Spalte 2 der Matrix ’N3’ abgetragen. Anschließend werden die Daten sortiert, wobei die Objektnummer als Gliederungskriterium dient. N3 <- cbind(N2[,1],c(N2[1:5,3],mean(N2[6:7,3]), mean(N2[6:7,3]),N2[8:10,3])) v <- order(N3[,1]) N4 <- t(rbind(N3[,1],N3[,2])[,v]) Als Testgröße erhält man im vorliegenden Fall: Testgroesse <- (10)^(0.5)*(1/10)*sum(t(M4[,2])%*%N4[,2]) > Testgroesse [1] 1.231652 Durch t(M4[,2]) wird der Spaltenvektor transponiert (siehe Kapitel B.2.1) und mit t(M4[,2])%*%N4[,2] wird ein Zeilenvektor mit einem Spaltenvektor multipliziert. Gut nachvollziehbar wird dies durch das Beispiel des Kapitels B.3.5. Da die Testgröße normalverteilt ist, erhält man den Annahmebereich über > qnorm(0.05,mean=0,sd=1,lower.tail=TRUE) [1] -1.644854. Er ist gleich [−1, 64, +1, 64]. Da die Testgröße in den Annahmebereich fällt, kann die Nullhypothese nicht abgelehnt werden. In (Hartung und Elpelt, 1984, S. 205206) ergibt sich jedoch eine andere Entscheidung, da mit anderen Zufallszahlen gerechnet wurde.
8.5
Abschließende Bemerkungen
In diesem Kapitel wurde der Begriff der Korrelation eingeführt. Er basiert in der Wahrscheinlichkeitsrechnung auf der Kovarianz und den Standardabweichungen der betrachteten Zufallsvariablen. Als Schätzer für die Korrelation können der
8.6. KONTROLLFRAGEN
159
Korrelationskoeffizient nach Bravais-Pearson, nach Kendall oder der Spearmansche Korrelationskoeffizient genutzt werden. Alle drei können verwendet werden, wenn den Realisierungen stetige Zufallsvariablen zu Grunde liegen. Sind die betrachteten stetigen Zufallsvariablen zudem gemeinsam normalverteilt, so kann mit dem in Kapitel 8.3.1 beschriebenen Test geprüft werden, ob die Korrelation signifikant von Null verschieden ist. Sind die beiden Zufallsvariablen nicht gemeinsam normalverteilt, so können die Tests, die auf dem Spearmanschen oder dem Kendallschen Korrelationskoeffizienten aufbauen, angewandt werden. Soll die Korrelation zwischen zwei ordinal skalierten Zufallsvariablen geprüft werden, ob sie signifikant von Null verschieden ist, so kann der Bell-DoksumTest verwendet werden. Er hat den Nachteil, daß je nach Realisierung der Zufallsvariablen, die Nullhypothese bei denselben Daten verworfen wird und ein andermal nicht. Soll die Korrelation zwischen einer stetigen Zufallsvariable und einer diskreten überprüft werden, ob sie signifikant von Null verschieden sind, so ist keines der beschriebenen Verfahren anwendbar. Dasselbe gilt, wenn die Korrelation zwischen zwei nominal skalierten Variablen auf Signifikanz geprüft werden soll. Dann sind andere, teilweise aufwendigere Verfahren anzuwenden, die üblicherweise in Lehrbüchern zur multivariaten Statistik, wie beispielsweise in Hartung und Elpelt (1984), behandelt werden. Dies ist ein weiterer Grund, sich vor Durchführung einer Befragung mit relevanten Auswertungsmethoden zu beschäftigen, um sicherzustellen, daß die Auswertung wie gewünscht erfolgen kann.
8.6
Kontrollfragen
1. Angenommen, Sie berechnen die Kovarianz zweier Zufallsvariablen X und Y . Interpretieren Sie folgende Ergebnisse: (a) sie ist negativ, (b) sie ist gleich Null, (c) sie ist positiv. 2. (a) Kann aus einer Kovarianz zwischen den Zufallsvariablen X und Y von Null gefolgert werden, daß beide stochastisch unabhängig sind? (b) Ist es möglich, aus der stochastischen Unabhängigkeit der beiden Zufallsvariablen U und V zu schließen, daß die Kovarianz gleich Null ist? 3. Welchen Wertebereich kann (a) die Kovarianz, (b) welcher die Korrelation annehmen? 4. Wie kann die Kovarianz zweier Zufallsvariablen geschätzt werden?
160
KAPITEL 8. EINFACHE KORRELATIONSANALYSE
5. (a) Zeichnen Sie ein Streudiagramm einer zweidimensionalen Zufallsvariablen mit negativer Korrelation, die nahe der −1 liegt. (b) Zeichnen Sie ein Scatterplot einer zweidimensionalen Zufallsvariablen mit negativer Korrelation nahe der Null. 6. Erläutern Sie die Redewendung: ’Die Korrelation ist signifikant von Null verschieden.’ 7. Sie testen die Korrelation zweier gemeinsam normalverteilter Zufallsvariablen darauf, ob sie signifikant von Null verschieden ist. (a) Welche Verteilung nutzen Sie?88 (b) Wie viele Freiheitsgrade müssen Sie berücksichtigen? 8. Beschreiben Sie anhand eines einfachen Beispiels, wie der Spearmansche Korrelationskoeffizient berechnet wird. 9. Erläutern Sie mit Ihren Worten den Bell-Doksum Test.
8.7
Aufgaben
1. Nutzen Sie die Daten aus Aufgabe 6 Seite 135 und berechnen Sie die Korrelation Korr(X, Y ) zwischen X und Y .89 2. Wie groß ist die Korrelation zwischen X und Y in Aufgabe 7 auf Seite 135?90 3. Zeigen Sie, daß es zur Berechnung der empirischen Korrelation völlig gleichgültig ist, ob man die korrigierte Stichprobenkovarianz und korrigierte Stichprobenvarianz oder die empirische Kovarianz und die empirische Varianz verwendet. 4. Laden Sie über den Befehl > load(file="Korrelation1.Rdata") die Daten des Beispiels a von Seite 141. Bei korrektem Einlesen, sollten die Daten über x1 und x2 ansprechbar sein. (a) Überprüfen Sie zum Signifikanzniveau von 0,01, ob die Korrelation von 0,205 signifikant von Null verschieden ist.91 i. Berechnen Sie die Testgröße und bestimmen Sie die relevanten Quantile indem Sie die t-Verteilung von nutzen. Führen Sie in vier Schritten den Test durch. ii. Führen Sie den Test mit dem Befehl ’cor.test’ aus. Halten Sie auch hier die vier Schritte zur Durchführung von Tests ein.
8.A. WEITERE TESTS*
161
(b) * Testen Sie zum Signifikanzniveau α = 0, 05 die Nullhypothese, daß ρ < 0, 5. i. Kann der Test mit dem Befehl ’cor.test’ durchgeführt werden? Führen Sie den Test ggf. aus.92 ii. Führen Sie den Test aus, indem Sie als Testgröße z verwenden.93 iii. Nutzen Sie als Testgröße Formel 8.17. 5. Dürfen die Variablen unterschiedliche Anzahl an Ausprägungen haben?94 6. Erläutern Sie, warum durch die Korrelation nach Bravais-Pearson nur lineare Zusammenhänge gemessen werden.95 7. Herr Müller vermutet, daß zwischen Betriebsgröße und Gehalt der Mitarbeiter eine Korrelation besteht. (a) Welchen Korrelationskoeffizienten sollte er verwenden? Begründen Sie Ihre Antwort.96 (b) In seiner Untersuchung stellt sich eine vergleichsweise geringe Korrelation von 0, 24 heraus. Deshalb möchte Herr Müller einen Test durchführen, um zu überprüfen, ob sie signifikant von Null verschieden ist. Welchen Test würden Sie empfehlen?97 8. Es soll geprüft werden, ob die Korrelation zweier stetiger Zufallsvariablen größer als Null ist. Zu diesem Zweck wurde eine einfache Stichprobe vom Umfang n = 20 erhoben. Die Verteilung der Zufallsvariablen ist nicht bekannt. Wie würden Sie vorgehen? Begründen Sie Ihre Entscheidung.98 9. (a) Führen Sie den Test des Beispiels 8.3.2 von Seite 150 aus, indem Sie die Hotelling-Pabst-Statistik D berechnen und den Test über die Bestimmung von Annahme- und Verwerfungsbereich durchführen. (b) Ist dieses Vorgehen korrekt?99 10. Führe den Test auf Unkorreliertheit, dargestellt in Kapitel 8.3.2 auf Seite 152 mit Hilfe des Befehls ’cor.test’ durch, verwende jedoch die Normalverteilungsapproximation.100 11. Welche Schwachstelle weist der Bell-Doksum-Test auf?101
8.A
Weitere Tests*
In Abschnitt 8.3.1 wurde einzig und allein die Nullhypothese H0 : Die Korrelation der Variablen x und y ist gleich Null betrachtet. Mit den angegebenen Verfahren können auch einseitige Tests der Gestalt H0 : Die Korrelation zwischen x und y ist größer als Null
KAPITEL 8. EINFACHE KORRELATIONSANALYSE
0 −2
−1
Fishers z
1
2
162
−1.0
−0.5
0.0
0.5
1.0
Korrelationskoeffizient nach Bravais−Pearson
Abbildung 8.3: Fishers z-Transformation Quelle: eigene Darstellung
oder H0 : Die Korrelation zwischen beiden Variablen ist kleiner als Null überprüft werden. Statt größer bzw. kleiner kann auch ’’ bzw. ’’ überprüft werden. Es ist aber nicht möglich, zu testen, ob die Korrelation zwischen x und y gleich einem bestimmten Wert ρ0 = 0 oder größer oder aber kleiner diesem Wert ist. Denn die Verteilung der Testgröße hängt in Abschnitt 8.3.1 davon ab, daß unter H0 keine Korrelation vorliegt. Auf der Basis von Fishers z-Transformation erhält man einen approximativen Test (Hartung und Elpelt, 1984, S. 154-155). Fishers z erhält man, indem auf die Korrelation r der arcus tangens hyperbolicus angewendet wird: z = atanh(rXY ) =
1 1 + rXY ). ln( 2 1 − rXY
(8.14)
Dies ist die Umkehrfunktion des Tangens hyperbolicus. In wird der arcus tangens hyperbolicus durch den Befehl ’atanh(.)’ berechnet: > x1 <- atanh(.5) > x1
8.A. WEITERE TESTS*
163
[1] 0.5493061 > tanh(x1) [1] 0.5. Den Wert der Umkehrfunktion erhält man durch Verwendung von ’tanh(.)’. z hat den Erwartungswert E(z) =
ρ 1 1+ρ ln + 2 1 − ρ 2(n − 1)
(8.15)
und die Varianz
1 . n−3 Als Testgröße wird der standardisierte z-Wert N = (n − 3)(z − E(z) V ar(z) =
(8.16)
(8.17)
verwendet. N ist approximativ standardnormalverteilt. Hierauf aufbauend können zweiseitige Tests durchgeführt werden, bei denen H0 ; ρ = ρ0 gegen H1 : ρ = ρ0 getestet werden kann. ρ0 kann hierbei eine negative oder positive Zahl sein. Auch einseitige Tests der Art H0 : ρ ρ0 gegen H1 : ρ < ρ 0 sind möglich. Die Festlegung von Annahme- und Verwerfungsbereich ergibt sich aus der Nullhypothese. Lautet sie H0 : ρ ρ0 , so wäre sie zu verwerfen, wenn N < Quantilα ist. Denn ] − ∞, Quantilα[ ist der Ablehnungsbereich. Mit Quantilα ist das α-Quantil der Standardnormalverteilung gemeint.
Kapitel 9
Multivariate Korrelationsanalyse* 9.1
Einleitung
In Kapitel 8 wurde ausschließlich die Korrelation zweier Merkmale untersucht. In diesem wird die Analyse ausgeweitet auf Untersuchungen über die Beziehung zwischen zwei und mehr Korrelationen sowie auf den Zusammenhang von mehr als zwei Merkmalen. In dem nachfolgenden Abschnitt 9.2 wird ein Test über zwei Korrelationskoeffizienten präsentiert. Hierbei wird auf die Fishersche zTransformation zurückgegriffen, die in Kapitel 8.A vorgestellt wurde. Es kann vorkommen, daß zwischen drei Variablen Y, X1 , X2 jeweils paarweise hohe Korrelationen nach Bravais-Pearson berechnet werden, doch die Korrelationen zwischen zweien von ihnen, beispielsweise Y und X1 , ist möglicherweise dem Umstand geschuldet, daß die dritte Variable, X2 , mit beiden anderen korreliert ist. Der durch die Korrelation nach Bravais-Pearson gemessene Zusammenhang vermittelt folglich einen falschen Eindruck. Um solchen Fällen auf die Spur zu kommen, dient die in Abschnitt 9.3 dargestellte partielle Korrelation. In der explorativen Datenanalyse werden Daten genutzt, um zu neuen Hypothesen und Einsichten zu kommen. Hier ist es völlig legitim, in Daten nach Korrelationen zwischen allen interessierenden Merkmalen zu suchen. Schön wäre es, wenn es ein Maß gäbe, das einen Eindruck von der Stärke des linearen Zusammenhanges zwischen allen Variablen vermitteln würde. In Kapitel 9.4 werden zwei vorgestellt, die Determinante und die maximale Exzentrizität der Korrelationsmatrix. Diese Analyse gibt einen ersten globalen Hinweis auf die Stärke des Zusammenhanges zwischen allen paarweisen Korrelationen. Um jedoch einzuschätzen, ob sie wirklich signifikant von Null verschieden sind, ist ein Test nötig. In Kapitel 9.5 wird solch ein Test präsentiert. Wird die Nullhypothese, daß alle paarweisen Korrelationen gleich Null sind, abgelehnt, so gibt es mindestens eine Korrelation zwischen zwei Merkmalen, die signifikant von Null verschieden ist. MöglicherR. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_9, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
166
KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*
weise sind gar mehrere paarweise Korrelationen signifikant von Null verschieden. Um sie herauszufinden, können multiple Vergleiche angestellt werden. Sie werden in Kapitel 9.6 vorgestellt. Bis jetzt standen paarweise Korrelationen im Mittelpunkt des Interesses. In Abschnitt 9.7 wird der Zusammenhang zwischen einer Variablen Y und einer Linearkombination von Variablen (X1 , . . . , Xp ) betrachtet. Die Kennzahl zur Messung dieses Zusammenhanges ist die multiple Korrelation. Im darauffolgenden Abschnitt 9.8 wird die multiple Korrelation erweitert auf den Zusammenhang zwischen jeweils einer Linearkombination der Variablen (Y1 , . . . , Yp1 ) und (X1 , . . . , Xp2 ). Nach Darstellung theoretischer Aspekte folgt stets ein Beispiel, wodurch das Verstehen der Zusammenhänge erleichtert und die Rechnungen nachvollziehbar werden. Um die Tests durchführen zu können, werden Kenntnisse über die Bestimmung von Quantilen bei Normal-, t-, F- und Chi-Quadratverteilung vorausgesetzt.
9.2 9.2.1
Vergleich zweier Korrelationen Grundlagen
Zur Illustration dient folgendes, frei erfundene Beispiel. Unternehmen ’Lebensmittel gut und billig’ ist im gesamten Bundesgebiet tätig. Aufgrund vermuteter Komplementaritäten im Produktsortiment mit Getränkeläden soll untersucht werden, ob der eigene Umsatz mit der Entfernung zum nächsten Getränkeladen korreliert ist. Zudem wird vermutet, daß bei hohem Alkoholkonsum in einer Region die Korrelation zwischen Umsatz und Entfernung zum nächsten Getränkemarkt stärker ist als in anderen Gegenden. Es soll überprüft werden, ob die Korrelation in trinkfreudigeren Regionen tatsächlich höher ist als im restlichen Gebiet. Dies ist eine Fragestellung, bei dem zwei Korrelationen miteinander verglichen werden sollen. Wir gehen davon aus, daß Umsatz und Entfernung zum nächsten Getränkemarkt gemeinsam normalverteilte Zufallsvariablen sind. Natürlich muß in einer empirischen Untersuchung getestet werden, ob diese Voraussetzung durch die Daten gestützt wird. Ferner wird davon ausgegangen, daß die Daten aus Region i, i = 1, 2, jeweils einfache Stichproben zur Zufallsvariablen (Xi , Yj ) sind. Erläutern Sie, was dies konkret bedeutet.102 Hat man die beiden Korrelationen ρ1 und ρ2 für die trinkfreudige Region 1 bzw. die andere, 2, durch die Korrelationskoeffizienten nach Bravais-Pearson, r1 bzw. r2 , geschätzt, so nutzt man Fishers z-Transformation (siehe Seite 162), um hierdurch approximativ normalverteilte Zufallsvariablen, z1 bzw. z2 , zu erhalten. Als Testgröße dient (Hartung und Elpelt, 1984, S. 159) N=
z1 − z 2 1 n1 −3
+
1 n2 −3
.
(9.1)
9.2. VERGLEICH ZWEIER KORRELATIONEN i 1 2 3 4 5 6 7 8 9 10 11 12
Umsatz (x1) 151973.56 136616.62 144083.53 99758.88 106716.54 115006.54 137101.28 110953.12 111687.82 159376.55
Entfernung (x2) 253.8514 158.4852 179.2869 358.4341 469.1657 288.4174 285.0767 390.0421 299.6763 376.7558
j 1 2 3 4 5 6 7 8 9 10 11 12
Umsatz (x3) 56373.45 73709.09 61590.58 91727.23 85659.38 58876.14 41765.44 60748.41 61874.73 64288.94 63764.16 65422.39
167 Entfernung (x4) 397.5702 352.2753 434.0470 453.2736 357.1181 521.0742 310.8642 350.4587 483.4926 435.6101 419.5133 419.7664
Tabelle 9.1: Umsatz und Entfernung Quelle: Daten frei erfunden Sie ist annähernd standardnormalverteilt. Die Nullhypothese lautet im eingangs beschriebenen Beispiel H 0 : ρ 1 > ρ2 und die Gegenhypothese H1 : ρ 1 ρ 2 . Zur Bestimmung des Annahme- und Ablehnungsbereiches werden bei gegebenem Signifikanzniveau α die Quantile über die Standardnormalverteilung bestimmt. Der Annahmebereich ist ]Quantilα, ∞[.
9.2.2
Beispiel
Die Daten für die beiden Regionen sind in Tabelle 9.1 abgebildet und sind in der Datei Zusammenhang_zwischen_zwei_Korrelationen.Rdata hinterlegt. Die nächsten Befehle dienen zur Berechnung der Schätzer für die unbekannten Korrelationen ρ1 und ρ2 . Als Schätzfunktionen dienen jeweils der Korrelationskoeffizient nach Bravais-Pearson. Aufbauend auf diesen Ergebnissen wird die z-Transformation vorgenommen und in die Formel zur Berechnung der Testgröße eingesetzt. Als Testgröße ergibt sich N = −1.29. Bei einem Signifikanzniveau von 5 Prozent ist der Annahmebereich ] − 1, 64, ∞[. Da N in diesen Bereich fällt, kann zum 5 Prozentniveau die Nullhypothese nicht abgelehnt werden. Zum Signifikanzniveau von 10 Prozent ist der Annahmebereich gleich ] − 1.28, ∞[. In diesem Falle liegt die Testgröße im Verwerfungsbereich und die Nullhypothese wäre abzulehnen.
168
KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*
> Korrelation1 <- cor(x1,x2) > Korrelation1 [1] -0.4750031 > Korrelation2 <- cor(x3,x4) > Korrelation2 [1] 0.1362508 > z1 <- atanh(Korrelation1) > z1 [1] -0.5165116 > z2 <- atanh(Korrelation2) > z2 [1] 0.1371035 > N <- ((z1-z2)/((1/(10-3))+(1/(12-3)))^(0.5)) > N [1] -1.296977 > qnorm(0.05,mean=0,sd=1,lower.tail=TRUE) [1] -1.644854 > qnorm(0.10,mean=0,sd=1,lower.tail=TRUE) [1] -1.281552
9.3 9.3.1
Partielle Korrelation Grundlagen
Es ist möglich, daß eine Variable X2 die Variablen Y und X1 beeinflußt und infolgedessen mit beiden korreliert ist. Berechnet man nun die Korrelation zwischen Y und X1 , so kann eine signifikant von Null verschiedene Korrelation vorliegen. Würde aber der Einfluß der Variablen X2 auf Y bzw. X1 eliminiert, so kann es sein, daß zwischen Y und X2 keine signifikant von Null verschiedene Korrelation meßbar ist. Um den Einfluß der dritten Variablen X2 zu eliminieren, wurde das Konzept der partiellen Korrelation entwickelt. Hierbei wird der Einfluß einer dritten Variable X2 auf die Korrelation zwischen Y und X1 ausgeschaltet. Gegeben seien stetige Zufallsvariablen X2 , Y und X1 , die jeweils normalverteilt sind, dann ist die partielle Korrelation definiert als ρYX1 − ρYX2 · ρX1 X2 ρ(Y,X1 .X2 ) = . (9.2) (1 − ρ2YX2 ) · (1 − ρ2X1 X2 ) Als Schätzer der partiellen Korrelation ρ(Y,X).U kann dann auf den Korrelationskoeffizienten nach Bravais-Pearson zurückgegriffen werden: rYX1 − rYX2 · rX1 X2 . (9.3) r(Y,X1 .X2 ) = 2 2 (1 − rYX ) · (1 − rX ) 2 1 X2 Die Definition der partiellen Korrelation ist, so wie sie hier präsentiert wurde, nichtssagend. Man mag es glauben oder nicht. Der interessierte Leser findet
9.3. PARTIELLE KORRELATION
169
jedoch in Kapitel 12.D eine Begründung für diese Formel. Da zum Verstehen der Zusammenhänge Kenntnisse in Regressionsrechnung vorausgesetzt werden, wurden diese Ausführungen im Anhang des Kapitels 12 plaziert.
9.3.2
Beispiel 1
Um sicherzustellen, daß die Voraussetzungen auch wirklich eingehalten sind, werden drei Zufallszahlen, X2 , Y, X1 mit dem Befehl ’rnorm(.)’ erzeugt, die in der Datei partielle-Korrelation.Rdata abgelegt sind. Die Variable X2 ist eine normalverteilte Zufallsvariable und Y und X1 bestehen jeweils aus einer Linearkombination mit X2 plus Absolutglied und einem Störterm. Folglich wird man eine hohe Korrelation zwischen allen drei Variablen erwarten können, wobei jedoch die partielle zwischen den Variablen Y und X1 klein sein sollte. Die Korrelationen zwischen allen drei Variablen ist, wie erwartet, recht hoch. Berechnet man jedoch die partielle Korrelation ’ryx1.x2’, so zeigt sich, daß sie bei Konstanzhaltung des Einflusses von X2 klein ist. > > > >
x2 <- 100+rnorm(1000,mean=500,sd=200) y <- 400+2*u+rnorm(1000,mean=220,sd=100) x1 <- 2000+49*u+rnorm(1000,mean=444,sd=300) head(x1) [,1] [,2] [,3] [1,] 593.5791 1797.071 31598.65 [2,] 398.9282 1506.940 21751.40 [3,] 543.7372 1781.948 28873.01 [4,] 453.2159 1583.277 24132.91 [5,] 797.2763 2253.224 41244.71 [6,] 693.7436 2063.189 36511.22 > cor(y,x1) [1] 0.969014 > cor(y,x2) [1] 0.969335 > cor(x1,x2) [1] 0.9995485 > ryx1.x2 <- (cor(y,x1)-cor(y,x2)*cor(x1,x2))/ ((1-cor(y,x2)^2)*(1-cor(x1,x2)^2))^.5 > ryx1.x2 [1] 0.01579925
9.3.3
Test
Es werden stetige, normalverteilte Zufallsvariablen in der Grundgesamtheit vorausgesetzt. Die Daten, so wird angenommen, entstammen einer einfachen Stich-
KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*
170
probe vom Umfang n aus der Grundgesamtheit. Zur Überprüfung der Hypothesen H0 : ρ(Y,X1 .X2 ) = 0 gegen H1 : ρ(Y,X1 .X2 ) = 0 kann die Testgröße
(n − 3) · r(Y,X1 .X2) 2 (1 − r(Y,X ) 1 .X2)
(9.4)
verwendet werden, die tn−3 -verteilt ist mit n − 3 Freiheitsgraden. Der Annahmebereich ist [tn−3,( α2 ) ; tn−3,(1− α2 ) ]; liegt die Testgröße innerhalb dieses Bereich, so ist die partielle Korrelation nicht signifikant von Null verschieden.
9.3.4
Beispiel 2
Beispiel 9.3.2 wird fortgeführt. Es wird überprüft, ob die berechnete partielle Korrelation signifikant von Null verschieden ist. Den Stichprobenumfang kann man über den Befehl ’length(.)’ in Erfahrung bringen. Als Testgröße ergibt sich 0, 4989, die im Annahmebereich [−1, 96; 1, 96] liegt. Aus diesem Grund kann die Nullhypothese nicht abgelehnt werden. Mit anderen Worten ist die partielle Korrelation nicht signifikant von Null verschieden. > n <- length(y) > n [1] 1000 > Testgroesse <- ((n-3)^.5 * ryx1.x2)/((1-ryx1.x2^2)^.5) > Testgroesse [1] 0.4989285 > qt(0.05/2,1000-3,ncp=0,lower.tail=TRUE) > qt(0.05/2,1000-3,ncp=0,lower.tail=TRUE) [1] -1.962346 > qt(1-0.05/2,1000-3,ncp=0,lower.tail=TRUE) [1] 1.962346
9.4 9.4.1
Zusammenhang zwischen mehreren Merkmalen Grundlagen
Hat man, beispielsweise in einer Befragung, mehrere Merkmale, zwischen denen lineare Zusammenhänge vermutet werden, so wäre es von Interesse, eine Kenngröße zu haben, die die Stärke dieses Zusammenhanges zum Ausdruck bringt.
9.4. ZUSAMMENHANG ZWISCHEN MEHREREN MERKMALEN
171
Wir gehen von kardinal meßbaren Merkmalen aus. Die paarweisen Korrelationen zwischen je zwei Merkmalen bilden die Grundlage zur Berechnung einer eindimensionalen Kenngröße, die den linearen Zusammenhang zwischen allen paarweisen Korrelationen angibt. Die Vorgehensweise besteht somit aus zwei Schritten. 1. Bestimme alle möglichen Korrelationen (nach Bravais-Pearson) zwischen jeweils zwei Merkmalen und 2. berechne auf der Grundlage dieses Ergebnisses ein Maß, das den Zusammenhang zwischen allen Korrelationen in einer Zahl abbildet. Zur Schätzung der Korrelationsmatrix Korr(XX) der Zufallsvariablen X = (X1 , . . . , XP ) ˆ werden die Korrelationen nach Bravais-Pearson berechnet. Der Schätzer Korr(XX) hat folgende Gestalt: ⎛ ⎞ 1 rX1 X2 . . . rX1 Xp ⎜rX2 ,X,1 1 . . . rX2 Xp ⎟ ⎜ ⎟ ˆ Korr(XX) = rXX = ⎜ . . .. ⎟ . .. ⎝ .. . ⎠ rXp X1
rXp X2
...
1
Hierbei ist zu beachten, daß es gleichgültig ist, ob die Korrelation nach BravaisPearson über rX1 X2 oder rX2 X1 berechnet wird. Mit anderen Worten steht rechts der Diagonale spiegelbildlich dasselbe wie unterhalb von ihr. Der erste Schritt ist mit Hilfe von über den Befehl ’cor(.)’ sehr schnell abzuarbeiten. Damit verbleibt die Aufgabe, alle Korrelationen so zu einer Maßzahl zusammenzufassen, daß sie, ähnlich der Korrelation zwischen zwei Merkmalen, möglichst zwischen −1 und 1 zu liegen kommt. Hierzu gibt es zwei Möglichkeiten. 1. die Berechnung der Determinante der Korrelationsmatrix und 2. die maximale Exzentrizität. Die maximale Exzentrizität basiert auf den Eigenwerten der Korrelationsmatrix und errechnet sich wie folgt: MaxExzentrizität =
λmax − λmin , λmax + λmin
(9.5)
wobei λ für Eigenwert und ’max’ bzw. ’min’ für den Maximal- bzw. Minimalwert steht. (Hartung und Elpelt, 1984, S. 162). Informationen über die Determinante und die Eigenwerte einer Matrix finden sich in Anhang B.
172
KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*
Die Determinante kann im allgemeinen beliebige positive oder negative Werte annehmen. Da in der Korrelationsmatrix jedoch lediglich Werte zwischen −1 und +1 vorkommen können, liegt die Determinante der Korrelationsmatrix im Bereich von [0, 1]. Ist die Determinante der Korrelationsmatrix gleich Null, so besteht zwischen den Korrelationen eine lineare Abhängigkeit. Je größer diese Determinante ist, desto geringer ist der lineare Zusammenhang. Die maximale Exzentrizität kann ebenfalls nur Werte zwischen Null und Eins annehmen. Je größer der Wert ist, desto größer ist der Zusammenhang zwischen den Korrelationen.
9.4.2
Beispiel
Zur Illustration werden drei Vektoren normalverteilter Zufallsvariablen, x1 , x2 , x3 erzeugt. Die Daten sind in der Datei Korrelation_linearer_Zusammenhang_zw_mehreren_Merkmalen.Rdata abgelegt. Hierdurch ist es für den Leser möglich, die einzelnen Schritte mit denselben Daten durchzuführen. Anschließend werden diese Vektoren zu der Matrix x zusammengefaßt und die Korrelationsmatrix ’Korrelation’ ermittelt. > > > > > >
x1 <- rnorm(50,mean=3000,sd=500) x2 <- rnorm(50,mean=50000,sd=4000) x3 <- rnorm(50,mean=4000000,sd=900000) x <- matrix(c(x1,x2,x3),ncol=3) Korrelation <- cor(x) Korrelation [,1] [,2] [,3] [1,] 1.000000000 -0.003837006 0.10917406 [2,] -0.003837006 1.000000000 0.09949648 [3,] 0.109174058 0.099496476 1.00000000 > det(Korrelation) [1] 0.9780834 > Eigenwerte <- eigen(Korrelation,symmetric=TRUE,only.values=TRUE) > Eigenwerte $values [1] 1.145813 1.003821 0.850366 > MaxExzentrizitaet <- (Eigenwerte$values[1]-Eigenwerte$values[3])/ (Eigenwerte$values[1]+Eigenwerte$values[3]) > MaxExzentrizitaet [1] 0.1480065 Als Determinante erhält man 0, 978, die maximale Exzentrizität beträgt 0, 148. Derlei Werte, die auf einen geringen Zusammenhang hindeuten, waren zu erwarten, da die genutzten Daten normalverteilte Zufallszahlen, die stochastisch unabhängig voneinander sind.
9.5. GLOBALTEST
9.5
173
Globaltest
9.5.1
Test
Hier wird die paarweise Unabhängigkeit von Korrelationen durch einen Globaltest unter die Lupe genommen. Es wird davon ausgegangen, daß die Daten aus einer einfachen Stichprobe vom Umfang n stammen. Die Variablen X1 , . . . , Xp seien stetig und normalverteilt. Will man überprüfen, ob alle paarweisen Korrelationen der Korrelationsmatrix in Kapitel 9.4 gleich Null sind, so nutzt man folgende Testgröße: W = −(n − p −
2p + 5 ) · ln(det(Korrelationsmatrix)). 6
(9.6)
Bei Gültigkeit der Nullhypothese ist sie approximativ gemäß χ2f +
p(p − 1) · (2p2 − 2p − 13)(χ2f +4 − χ2f ) 2 288 · (n − p − 2p+5 ) 6 p(p − 1) . mit f = 2
(9.7) (9.8)
verteilt (Hartung und Elpelt, 1984, S. 163). Hierbei gibt p die Anzahl der Merkmale an und n ist die Anzahl an Objekten. Der Term
p(p − 1) 2 288 · (n − p − 2p+5 6 )
ist für p = 10 und n = 1000 gleich 3, 215459e − 07; er sinkt mit steigendem n. Für p = 10 und n = 10 ist er 0, 018, also relativ klein. Aus diesem Grund wird näherungsweise so getan, als sei W χ2f -verteilt. Die Nullhypothese lautet H0 : ρij = 0 für alle Tupel (i, j), i = j und die Gegenhypothese H1 : mindestens eine Korrelation ρi,j , i = j ist von Null verschieden.
9.5.2
Beispiel
Die hier genutzten Daten sind in der Datei "Test-ueber-paarweise-Unabhaengigkeit_Globaltest.Rdata" abgespeichert. Es werden normalverteilte Zufallszahlen y1 , . . . , y5 über den Befehl ’rnorm(.)’ erzeugt und in der Matrix y zusammengefaßt. Aus diesem Grund sollte der Test nicht zur Verwerfung der Nullhypothese führen. Warum eigentlich
KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*
174
nicht?103 In der ersten Spalte sind die Objektnummern abgelegt, in den nachfolgenden die Zufallszahlen y1 , . . . , y5 . Die Determinante der Korrelationsmatrix der Zufallszahlen ist gleich 0, 68, n = 50, die Anzahl an Merkmalen, p, ist 5 und die Anzahl der Freiheitsgrade, f , ist 10. Null- und Gegenhypothese lauten H0 : ρij = 0 für alle Tupel (i, j), i = j bzw. H1 : mindestens eine Korrelation ρi,j , i = j ist von Null verschieden. Die Testgröße, W , ist gleich 16,29 und der Annahmebereich ist bei einer Sicherheitswahrscheinlichkeit von 95 Prozent gleich [0; 18, 3]. Da die Testgröße im Annahmebereich liegt, kann die Nullhypothese nicht abgelehnt werden. Dies bedeutet, daß alle paarweisen Korrelationen gleich Null sind. Anders gewendet gibt es keine von Null signifikanten Korrelationen, ein Ergebnis, das wir aufgrund der verwendeten Daten auch erwarten sollten. > y1 <- rnorm(50,mean=30000,sd=300) > y2 <- rnorm(50,mean=500,sd=30) > y3 <- rnorm(50,mean=600000,sd=550) > y4 <- rnorm(50,mean=200,sd=50) > y5 <- rnorm(50,mean=200,sd=5) > y <- matrix(c(1:50,y1,y2,y3,y4,y5),ncol=6) > Determinante <- det(cor(y[,2:6])) > Determinante [1] 0.6816174 > n <- 50 > p <- 5 > W <- -(n-p-(2*p+5)/(6))*log(Determinante) > W <- -(n-p-(2*p+5)/(6))*log(Determinante) > W [1] 16.28969 > f <- p*(p-1)/(2) > f [1] 10 > qchisq(0.95,f,ncp=0,lower.tail=TRUE) [1] 18.30704
9.6 9.6.1
Multiple Vergleiche Test
In diesem Abschnitt wird die paarweise Unabhängigkeit von Korrelationen durch multiple Vergleiche untersucht. Betrachtet werden wieder p stetige, normalverteilte Variablen X1 , . . . , Xp . Die Daten, so wird vorausgesetzt, entstammen einer einfachen Stichprobe vom Umfang n. Die Hypothesen sind
9.6. MULTIPLE VERGLEICHE
175
H0 : ρij = 0 versus H1 : ρij = 0 für 1 i j p. Als Testgröße dient
Kij = |rij | ·
(n − 2) , 2 1 − rij
(9.9)
die unter der Nullhypothese t-verteilt mit n − 2 Freiheitsgraden ist. Nachdem alle p(p − 1)/2 Korrelationen Kij berechnet wurden, sortiert man sie der Größe nach, d.h. in der Form Ki1 j1 Ki2 j2 . . . Ki p(p−1) j p(p−1) . 2
2
Den größten Wert bezeichnen wir mit Kim jm für m = 1, der zweitgrößte ist Kim jm mit m = 2 und so weiter. p · (p − 1) ist die Anzahl aller Korrelationen in der Korrelationsmatrix, wobei die Einsen der Diagonalen nicht berücksichtigt sind. Die Testgröße kann nicht negativ werden. Der Annahmebereich ist [−∞; tn−2,1−α/(p(p−1)+2−2m) ], t steht für t-Verteilung und n − 2 sind die Freiheitsgrade. Damit verbleibt noch, den Term 1 − α/(p(p − 1) + 2 − 2m) zu erklären. Er gibt die Sicherheitswahrscheinlichkeit an, wobei mit steigendem m die Sicherheitswahrscheinlichkeit sinkt. Ist beispielsweise die Anzahl der Merkmale, p, gleich 5, α = 0.05 und m = 1, so ist die Sicherheitswahrscheinlichkeit 0,9975. Insgesamt gibt es in der Korrelationsmatrix 20 Korrelationen, die im allgemeinen von Eins verschieden sind. Da je zwei identisch sind, sind insgesamt nur 10 zu schätzen: > p <- 5 > alpha <- 0.05 > m <- 1 > 1-alpha/((p*(p-1))+2-2*m) [1] 0.9975. Das Testverfahren besteht aus mehreren Schritten. 1. Schritt
Für m = 1 wird
H0 : Ki1 j1 = 0 gegen H1 : Ki1 j1 = 0 für 1 i j p.. getestet. Kann die Nullhypothese nicht verworfen werden, so ist der Test beendet und es gibt keine Korrelation, die signifikant von Null verschieden ist.
KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*
176
2. Schritt Wird jedoch im ersten Schritt die Nullhypothese verworfen, so ist für die größte Testgröße die Korrelation signifikant von Null verschieden. Nun wird m gleich 2 gesetzt und die Hypothese lautet H0 : Ki2 j2 = 0 gegen H1 : Ki2 j2 = 0 für 1 i j p. Wird die Nullhypothese angenommen, so ist der Test beendet und alle Korrelationen m, bei denen zuvor die Nullhypothese abgelehnt wurde, sind signifikant von Null verschieden. Andernfalls erhöht man m um eins geht man analog so lange vor, bis alle Möglichkeiten ausprobiert wurden. In Schritt 2 ist p · (p − 1) + 2 − 2 · m = 18 und die Wahrscheinlichkeit, die über dem Annahmebereich liegt, sinkt von 0, 9975 auf 0, 99722. Warum wird so verfahren? Wir haben zwar bei fünf verschiedenen Merkmalen (p = 5) 10 unterschiedliche Korrelationen, von denen jedoch jede in der Korrelationsmatrix doppelt vorkommt. Im ersten Schritt wird α auf 20 Variablen aufgeteilt, von denen je zwei identisch sind. Kommt man zum zweiten Schritt, so ist ja bekannt, daß die größte Testgröße im Ablehnungsbereich liegt. Nun wird α auf 18 Variablen aufgeteilt. Die multiplen Vergleiche sollten im Zusammenhang mit dem Globaltest gesehen werden: zuerst sollte der Globaltest und anschließend, falls dies überhaupt nötig sein sollte, sollten multiple Vergleiche durchgeführt werden. Wird im Globaltest des Kapitels 9.5 die Nullhypothese verworfen, so ist mindestens eine paarweise Korrelation von Null verschieden. Anschließend können die multiplen Vergleiche angestellt werden, um herauszufinden, welche Korrelationen signifikant von Null verschieden sind.
9.6.2
Beispiel
Die Daten des Beispiels von Seite 173 werden wie folgt verändert. > y7 <- 2*y[,2]+rnorm(50,mean=500,sd=33) > y[,3] <- y7 Dies bedeutet: es wird die Variable y7 erzeugt, die sich ergibt, indem die zweite Spalte der Matrix y mit 2 multipliziert wird und bei jedem Objekt i eine normalverteilte Zufallszahl mit Erwartungswert 500 und Standardabweichung 50 hinzuaddiert wird. Um dem Leser die Möglichkeit zu bieten, mit denselben Daten wie hier zu rechnen, sind sie in der Datei Test-ueber-paarweise-Unabhaengigkeit_multiple_Vergleiche.Rdata abgelegt.
9.6. MULTIPLE VERGLEICHE
177
Globaltest Die Durchführung des Globaltests führt zur Ablehnung der Nullhypothese, da die Testgröße W = 260 im Verwerfungsbereich ]18, 3; ∞[ liegt. Folglich ist mindestens eine Korrelation als von Null verschieden anzusehen. Aus diesem Grund soll nun mit dem Test auf multiple Vergleiche herausgefunden werden, welche paarweisen Korrelationen signifikant von Null verschieden sind. > Determinante <- det(cor(y[,2:6])) > Determinante [1] 0.002160966 > n <- 50 > p <- 5 > W <- -(n-p-(2*p+5)/(6))*log(Determinante) > W [1] 260.831 > f <- p*(p-1)/(2) > f [1] 10 > qchisq(0.95,f,ncp=0,lower.tail=TRUE) [1] 18.30704 Multiple Vergleiche Um die multiplen Vergleiche anstellen zu können, muß die Korrelationsmatrix berechnet werden. Anschließend werden alle Korrelationen, die unterhalb der Diagonalen der Korrelationsmatrix liegen, in den Vektor ’Kor1’ geschrieben. > Korrelation <- cor(y[,2:6]) > Korrelation [,1] [,2] [,3] [,4] [,5] [1,] 1.00000000 0.99852955 0.04418607 0.1898035 -0.03548950 [2,] 0.99852955 1.00000000 0.05334472 0.1781336 -0.02474375 [3,] 0.04418607 0.05334472 1.00000000 -0.2325353 0.26297503 [4,] 0.18980349 0.17813363 -0.23253527 1.0000000 -0.28187295 [5,] -0.03548950 -0.02474375 0.26297503 -0.2818730 1.00000000 > Kor1 <- c(Korrelation[2,1],Korrelation[3,1],Korrelation[4,1], Korrelation[5,1],Korrelation[3,2],Korrelation[4,2], Korrelation[5,2],Korrelation[4,3],Korrelation[5,3], Korrelation[5,4]) > Kor1 [1] 0.99852955 0.04418607 0.18980349 -0.03548950 0.05334472 0.17813363 [7] -0.02474375 -0.23253527 0.26297503 -0.28187295 Dann wird von jeder Korrelation der Betrag genommen und in ’Kor2’ geschrieben, um in der Folge die Werte Kij zu berechnen, die in ’K3’ abgespeichert werden.
178
KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*
> Kor2 <- abs(Kor1) > Kor2 [1] 0.99852955 0.04418607 0.18980349 0.03548950 0.05334472 0.17813363 [7] 0.02474375 0.23253527 0.26297503 0.28187295 > Kor3 <- Kor2 > n <- 50 > for (i in (1:10)) {Kor3[i] <- Kor2[i]*((n-2)/(1-Kor2[i]^2))^.5} > for (i in (1:10)) {Kor3[i] <- Kor2[i]*((n-2)/(1-Kor2[i]^2))^.5} > Kor3 [1] 127.6148560 0.3064293 1.3393436 0.2460334 0.3701100 1.2542054 [7] 0.1714822 1.6564585 1.8884115 2.0354053 In ’Kor4’ stehen die Werte Kij der Größe nach sortiert und die Parameterwerte m und alpha werden eingegeben. > Kor4 <- sort(Kor3,decreasing=TRUE) > Kor4 [1] 127.6148560 2.0354053 1.8884115 1.2542054 [7] 0.3701100 0.3064293 0.2460334 > m <- 1 > alpha <- .05
1.6564585
1.3393436
0.1714822
Jetzt werden die Quantile berechnet. Der erste Befehl dient dazu, einen Vektor der Länge 10 zu erzeugen. Es folgt eine Schleife, um die Rechenoperationen für jedes einzelne Quantil elegant und schnell durchführen zu können. Der letzte Befehl dient dazu, herauszufinden, wann die Nullhypothese zum ersten Mal verworfen wird. Dies ist bei dem ersten Wert der Fall. Dies bezieht sich auf die Korrelation zwischen der zweiten und dritten Spalte der Rohdaten in y. Man beachte bitte, daß in der ersten Spalte die Nummern der Objekte i für i = 1, 2, . . . , 50 abgetragen sind. > Quantile <- c(1:10) > for (i in (1:10)) { m <- i Quantile[i] <- qt(1-alpha/(p*(p-1)+2-2*m),n-2,lower.tail=TRUE) } > Quantile [1] 2.942616 2.903872 2.860222 2.810288 2.752023 2.682204 2.595323 2.480783 [9] 2.313899 2.010635 > Kor4
9.7. MULTIPLE KORRELATION
179
Da die dritte Spalte eine lineare Funktion der zweiten plus einem normalverteilten Störterm ist, war dieses Ergebnis zu erwarten. Das bedeutet, daß der Test dazu führt, daß alle paarweisen Korrelationen gleich Null sind bis auf jene zwischen Spalte 2 und 3 in der Matrix y.
9.7
Multiple Korrelation
9.7.1
Grundlagen
Es werden stetige, normalverteilte Zufallsvariablen in der Grundgesamtheit vorausgesetzt. Wir gehen davon aus, daß die Daten aus einer einfachen Stichprobe vom Umfang n stammen. Die multiple Korrelation ist ein Maß, das die Stärke des linearen Zusammenhanges zwischen Y und p Merkmalen X1 , . . . , Xp angibt. Die betragsmäßig größte einfache Korrelation zwischen Y und einer beliebigen Linearkombination a1 X1 + a2 X2 + · · · + ap Xp mit ai = konst für i = 1, 2, . . . , p,
(9.10)
heißt multiple Korrelation rY,(X1 ,...,Xp ) . Die Konstanten ai , i = 1, 2, . . . , p heißen Gewichte. Wir schätzen die multiple Korrelation über folgende Schätzfunktion ˆ X)−1 · rYX . (9.11) rY,(X ,...,X ) = r · Korr(X, 1
p
YX
Ein hochgestelltes ’t’ deutet an, daß die Transponierte des Vektors oder der Matrix verwendet werden soll. Fett gedruckte Variablen sind Vektoren oder Matrizen. Bei rYX = (rYX1 , rYX2 , . . . , rYXp ) handelt es sich um einen transponierten Spaltenvektor, in dem paarweise Korrelationskoeffizienten nach Bravais-Pearson stehen.
9.7.2
Beispiel 1
Es soll untersucht werden, ob es in einer Filiale zwischen dem Umsatz (Y) einerseits und dem Alter (X1 ) und der Entfernung zur Filiale (X2 ) eine multiple Korrelation gibt. Die verwendeten Daten sind in der Datei Multiple_Korrelation.Rdata hinterlegt. Entweder werden sie mit dem Befehl ’load’ oder mit der Anweisung Daten <- matrix(c(1:21, 400,200,33,45,69,33,34,76,777,896, 459,234,327,23,567,875,66,458,987,92,100, 22,44,55,45,76,23,45,11,89,45, 65,72,34,54,67,54,76,53,21,22,55, 1.6,37,22,33,46,120,45,67,98,56, 27,57,23,32,65,87,94,50,32,12,34),ncol=4)
KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*
180
eingelesen. Im nächsten Arbeitsgang wird der Vektor rYX berechnet. Um den Schätzer ˆ für die Korrelationsmatrix, Korr(XX), zu berechnen, werden die X-Daten zu der Matrix ’XX’ zusammengefaßt. Mit ’Korr(XX)’ wird die Korrelationsmatrix geschätzt. > ryx <- c(cor(Daten[,2],Daten[,3]),cor(Daten[,2],Daten[,4])) > ryx [1] 0.07710795 0.14512626 > XX <- Daten[,3:4] > head(XX) [,1] [,2] [1,] 22 1.6 [2,] 44 37.0 [3,] 55 22.0 [4,] 45 33.0 [5,] 76 46.0 [6,] 23 120.0 > KorrXX <- cor(XX) > KorrXX [1,] 1.0000000 0.2962710 [2,] 0.2962710 1.0000000 Zur Berechnung der multiplen Korrelation, ist es nötig, die Inverse von ’Cor(XX)’ zu bestimmen. Dies erfolgt über den Befehl ’inv’, der im Paket ’fUtilities’ verfügbar ist. Als multiple Korrelation ergibt sich ein Wert von 0, 149, der vergleichsweise gering ist. [,1] [,2] > library(fUtilities) > rYX1X2 <- (t(ryx)%*%inv(KorrXX)%*%ryx)^.5 > rYX1X2 [,1] [1,] 0.1494562
9.7.3
Test
In Beispiel 9.7.2 ergab sich eine geringe multiple Korrelation. Doch selbst bei höheren Korrelationen kann es vorkommen, daß sie nicht signifikant von Null verschieden sind. Dies kann dann der Fall sein, wenn die beobachteten Varianzen der Variablen recht groß sind. Aus diesem Grund empfiehlt es sich zu testen, ob H0 : ρY,(X1 ,...,Xp ) = 0 oder H1 : ∃ρY,Xi = 0 für i ∈ {1, 2, 3, . . . , p} zutrifft.
9.7. MULTIPLE KORRELATION
181
∃ ist der Existenzquantor und steht für ’es existiert der Zusammenhang’. Die Nullhypothese tritt genau dann ein, wenn alle Korrelationen ρY,X1 = · · · = ρY,Xp gleich Null sind. Als Testgröße dient 2 rY,(X
1 ,...,Xp )
F =
p 2 1−rY,(X
(9.12)
1 ,...,Xp )
(n−1−p)
wobei p die Anzahl der Merkmale X = (X1 , . . . , Xp ) ist und n die Anzahl an Objekten angibt. Die Testgröße folgt einer F-Verteilung mit p Zählerfreiheitsgraden und n − 1 − p Nennerfreiheitsgraden (Hartung und Elpelt, 1984, S. 171). Der Annahmebereich ist [0, Fp,n−1−p,(1−α) ]; fällt die Testgröße in diesen Bereich, so kann die Nullhypothese nicht abgelehnt werden.
9.7.4
Beispiel 2
Beispiel 9.7.2 wird fortgesetzt und überprüft, ob die multiple Korrelation, die auf rY,(X1 ,...,Xp ) = 0, 149 geschätzt wurde, signifikant von Null verschieden ist. Zuerst werden die Parameter p und n eingegeben. Die Berechnung der Testgröße wird in zwei Schritten vorgenommen. Zuerst werden Zähler und Nenner berechnet und hierauf aufbauend die Testgröße ermittelt. Sie ist gleich 0, 2056. Der Annahmebereich ist [0; 3, 554557]. Da die Testgröße im Annahmebereich liegt, kann die Nullhypothese zum Signifikanzniveau α = 0, 05 nicht abgelehnt werden. > > > > > > >
p <- 2 n <- 21 Zaehler <- rYX1X2^2/p Nenner <- (1-rYX1X2^2)/(n-1-p)
F <- Zaehler/Nenner F [,1] [1,] 0.2056277 > Quantil <- qf(0.95,p,n-1-p,ncp=0,lower.tail=TRUE) > Quantil [1] 3.554557 > F
KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*
182
9.8
Kanonische Korrelation
9.8.1
Grundlagen
Die kanonische Korrelation ist eine Verallgemeinerung der multiplen. Anstatt, wie bei der multiplen, die Korrelation zwischen einer Variablen Y und den Variablen (X1 , . . . , Xp ) zu ermitteln, sucht man bei der kanonischen nach einem Zusammenhang zwischen zwei Variablengruppen Y = (Y1 , . . . , Yp1 ) und X = (X1 , . . . , Xp2 ). Wie zuvor wird von stetigen und normalverteilten Zufallsvariablen Y und X ausgegangen. Bei der kanonischen Korrelation sucht man nach der betragsmäßig größten Korrelation zwischen folgenden beiden Linearkombinationen a1 Y1 + · · · + ap1 Yp1 und b1 X1 + · · · + bp2 Xp2 . Der Vektor mit den Parameterwerten a, (a1 , . . . , ap1 ) , heißt Vektor regressionsähnlicher Parameter und (b1 , . . . , bp2 ) Vektor des besten Vorhersagekriteriums (Hartung und Elpelt, 1984, S. 172). Gegeben seien die Zufallsmatrizen Y und X. Dann wird die kanonische Korrelation, ρY,X , berechnet als Quadratwurzel aus dem maximalen Eigenwert von Q, wobei Q := Cov(Y) mit
und
−1
· Cov(YX) · Cov(X)−1 · Cov(YX) ,
⎛
(9.13)
Cov(Y1 , Y1 ) ⎜ Cov(Y2 , Y1 ) ⎜ Cov(Y) = ⎜ .. ⎝ .
Cov(Y1 , Y2 ) Cov(Y2 , Y2 ) .. .
... ...
⎞ Cov(Y1 , Yp1 ) Cov(Y2 , Yp1 ) ⎟ ⎟ ⎟ .. ⎠ .
Cov(Yp1 , Y1 )
Cov(Yp1 , Y2 )
...
Cov(Yp1 , Yp1 )
Cov(Y1 , X2 ) Cov(Y2 , X2 ) .. .
... ...
⎛
Cov(Y1 , X1 ) ⎜ Cov(Y2 , X1 ) ⎜ Cov(XY) = ⎜ .. ⎝ .
Cov(Yp1 , X1 ) Cov(Yp1 , X2 ) . . .
⎞ Cov(Y1 , Xp2 ) Cov(Y2 , Xp2 ) ⎟ ⎟ ⎟. .. ⎠ . Cov(Yp1 , Xp2 )
Diese Kovarianzen werden über die korrigierte Stichprobenkovarianz geschätzt: 2 σ ˆY = i Yj
n 1 (yik − y¯i ) · (yjk − y¯j ). n−1
(9.14)
k=1
Für i = j erhält man die korrigierte Stichprobenvarianz. Mit Hilfe dieser Schätˆ analog zu Q berechnet. Die geschätzte kanonische Korrelation zungen wird Q ˆ ist die Quadratwurzel des größten Eigenwertes λmax von Q: r(Y,X) = λmax . (9.15)
9.8. KANONISCHE KORRELATION
9.8.2
183
Beispiel 1
Methode 1 Die verwendeten Daten sind abgespeichert in der Datei Korrelation-kanonische.Rdata. Um sicherzustellen, daß die Voraussetzungen zur Berechnung der kanonischen Korrelation auch wirklich vorliegen, werden alle Variablen als normalverteilte Zufallszahlen y1, y2, y3, y4 mit erzeugt und zu der Matrix x zusammengefaßt. Die Merkmale 1 und 2 bilden die erste Gruppe und 3 und 4 die zweite. Da wir wissen, daß zwischen allen Variablen lineare Zusammenhänge zugrunde liegen, sollte sich eine vergleichsweise hohe kanonische Korrelation ergeben. > > > > > >
y1 <- 40+3*seq(1:50)+rnorm(50,mean=400,sd=200) y2 <- y1+rnorm(50,mean=400,sd=200) y3 <- y2+rnorm(50,mean=400,sd=200) y4 <- y3+rnorm(50,mean=400,sd=200) x <- cbind(y1,y2,y3,y4) head(x) y1 y2 y3 y4 [1,] 516.01219 626.4031 1197.7035 1778.381 [2,] 301.27502 831.2924 894.6699 1262.685 [3,] 436.93262 771.7871 1434.1364 1279.126 [4,] 633.41539 1256.4101 1820.4107 2102.112 [5,] 493.97013 1089.3177 1400.0759 1863.305 [6,] 71.24755 308.7346 870.0140 895.819
ˆ berechnet. Das ’ ˆ ’ über Dann werden die Matrizen zur Berechnung von Q ˆ dem Q heißt im Englischen ’hat’, weshalb der Schätzer von Q in den -Befehlen mit ’Qdach’ gekennzeichnet wurde. Die Quadratwurzel aus dem größten Eigenwert von ’Qdach’ ist gleich der kanonischen Korrelation; sie beträgt 0, 8337455. > CovY <- cov(x[,1:2]) > CovY y1 y2 y1 65713.95 62421.74 y2 62421.74 91407.68 > CovX <- cov(x[,3:4]) > CovX y3 y4 y3 137093.7 129154.7 y4 129154.7 155240.4 > Cov <- cov(x) > Cov y1 y2 y3 y1 65713.95 62421.74 69880.16
y4 70233.70
KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*
184
y2 62421.74 91407.68 90941.42 92985.05 y3 69880.16 90941.42 137093.74 129154.66 y4 70233.70 92985.05 129154.66 155240.39 > CovYX <- Cov[1:2,3:4] > CovYX y3 y4 y1 69880.16 70233.70 y2 90941.42 92985.05 > library(fUtilities) > Qdach <- inv(CovY)%*%CovYX%*%inv(CovX)%*%t(CovYX) > Qdach y1 y2 y1 0.1683440 0.2178722 y2 0.4026484 0.5286017 > Eigenwerte <- eigen(Qdach) > Eigenwerte$values [1] 0.695131584 0.001814074 > r <- (Eigenwerte$values[1])^.5 > r [1] 0.8337455 Methode 2 Schneller und bequemer geht die Berechnung mit Hilfe des Programmpaketes ’yacca’ und der Verwendung des Befehls ’cca’. Der Output ist recht umfangreich, hier genügt allein der Verweis, wo die kanonische Korrelation abzulesen ist. Unter ’CV 1’, wobei ’CV’ für ’canonical variate’ (=kanonische Zufallsvariable) steht, ist sie abzulesen. > library("yacca") > Canonical <- cca(x[,1:2],x[,3:4]) > Canonical Canonical Correlation Analysis Canonical Correlations: CV 1 CV 2 0.83374552 0.04259194 ...
9.8.3
Test
In (Hartung und Elpelt, 1984, S. 175-177) finden sich vier Tests zur Überprüfung der Hypothese H0 : ρY,X = 0
9.8. KANONISCHE KORRELATION
185
gegen H1 : ρY,X = 0. Hier soll jedoch nur der Wilks-Test vorgestellt werden. Die Testgröße ist gleich
mit und
−δ · ln(ΛW )
(9.16)
1 ΛW = Πpi=1 (1 − λi )
(9.17)
p1 + p2 + 1 . 2 ist approximativ Chi-Quadrat-verteilt. Der Annahmebereich ist δ =n−1−
ΛW
(9.18)
[0; Quantilp1 ·p2 ,(1−α) ]. Liegt Testgröße 9.16 außerhalb dieses Bereiches, so ist die Nullhypothese zu verwerfen. In finden sich zwei Tests zur Überprüfung der Hypothesen: den Bartlett Chi-Quadrat Test und den Test von Rao. Bei Bartletts Test wird in Zeile ’CV 1’ (siehe Beispiel 9.8.4) Testgröße 9.16 verwendet, und in der letzten Spalte die Wahrscheinlichkeitsmasse rechts der Testgröße angegeben. Bei dem Test nach Rao wird eine Testgröße F berechnet, die approximativ F-verteilt ist. Bei beiden Tests wird die Nullhypothese abgelehnt, wenn die angegebenen Wahrscheinlichkeiten kleiner sind als das vorgegebene Signifikanzniveau.
9.8.4
Beispiel 2
Methode 1 Hier wird mit denselben Daten gerechnet wie in Beispiel 9.8.2. Die Ergebnisse des Bartlett Tests erhält man über die Anweisung ’summary(cca(.))’. In vorliegendem Fall wurde das Ergebnis der kanonischen Korrelationsanalyse als Variable ’Canonical’ abgespeichert und wird über ’summary (Canonical)’ angesprochen. Der Test wird nicht nur für den höchsten Eigenwert, sondern nach der Höhe der Eigenwerte in absteigender Reihenfolge durchgeführt. Hier ist die erste kanonische Korrelation, die aufgrund des höchsten Eigenwertes berechnet wurde, signifikant von Null verschieden, d.h. die Nullhypothese ist abzulehnen. > summary(Canonical) Canonical Correlation Analysis - Summary
Canonical Correlations: CV 1
CV 2
KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*
186
0.83374552 0.04259194 Shared Variance on Each Canonical Variate: CV 1 CV 2 0.695131584 0.001814074 Bartlett’s Chi-Squared Test: rho^2 Chisq df Pr(>X) CV 1 0.6951316 55.3206194 4 2.783e-11 *** CV 2 0.0018141 0.0844310 1 0.7714 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ... Methode 2 Zur Durchführung des Tests nach Rao ist der Befehl ’F.test.cca(.)’ zu nutzen. Auch hier ergibt sich wegen sehr kleiner Wahrscheinlichkeit für die Korrelation, berechnet aus dem maximalen Eigenwert, eine von Null verschiedene kanonische Korrelation. Mit anderen Worten ist die Nullhypothese abzulehnen. > F.test.cca(Canonical) F Test for Canonical Correlations (Rao’s F Approximation) Corr F Num df Den df Pr(>F) CV 1 0.833746 18.693264 4.000000 92 2.827e-11 *** CV 2 0.042592 0.085416 1.000000 47 0.7714 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 ...
9.9
Abschließende Bemerkungen
In diesem Kapitel wurden paarweise Korrelationen miteinander verglichen oder solche zwischen Linearkombinationen von Merkmalen berechnet sowie Tests vorgestellt. Bei dem Vergleich zweier Korrelationen sollte beachtet werden, daß beide Maßzahlen in einem sinnvollen Zusammenhang stehen. Der Vergleich der Korrelation zwischen der Anzahl der Störche und der Größe ihres Lebensraumes mit der Korrelation der zugelassenen Autos pro Monat und der Verkehrstoten pro Monat macht (zumindest ohne weitere Erklärung) keinen Sinn. Die partielle Korrelation macht deutlich, wie wichtig sachlogische Zusammenhänge sind. Das angegebene Beispiel illustriert mögliche Probleme. Es können mitunter hohe Korrelationen zwischen zwei Variablen gemessen werden,
9.10. KONTROLLFRAGEN
187
doch bei Ausschaltung der intervenierenden Zufallsvariable X2 kann sich herausstellen, daß die partielle Korrelation nicht signifikant von Null verschieden ist. Gelegentlich wird statt dieser Ausdrucksweise auch nur gesagt, daß die partielle Korrelation nicht signifikant ist. Der Globaltest und die multiplen Vergleiche zielen darauf ab, mehrere paarweise Korrelationen zu überprüfen. Zeigt der Globaltest, daß zumindest eine Korrelation von Null verschieden ist, so kann mit den multiplen Vergleichen herausgefunden werden, welche paarweisen Korrelationen von Null verschieden sind. Die multiple Korrelation dient der Berechnung der Korrelation zwischen einer Variablen Y und einer Linearkombination der Variablen X. Die Verallgemeinerung dieses Vorgehens führt zu der kanonischen Korrelation, bei der die Korrelation zwischen zwei Linearkombinationen berechnet wird. Bereits an dieser Stelle sei darauf hingewiesen, daß es zwischen der Regressionsrechnung (siehe Kapitel 12) und Korrelationsanalyse enge Beziehungen gibt. Wendet man beispielsweise die Quadratwurzel auf das Bestimmtheitsmaß R2 , dargestellt in Kapitel 12.5, an, so erhält man ebenfalls die multiple Korrelation.
9.10
Kontrollfragen
1. (a) Könnte in Kapitel 9.2 auch die Hypothese H0 : Beide Korrelationen sind identisch überprüft werden?104 (b) Wie würde die Gegenhypothese lauten? (c) Geben Sie den zugehörigen Annahmebereich zum Signifikanzniveau von 96 Prozent an. 2. Erläutern Sie, wozu die partielle Korrelation überhaupt nütze ist. 3. (a) Warum ist die Korrelationsmatrix symmetrisch und (b) warum stehen auf ihrer Diagonalen Einsen? 4. Können Sie angeben, wofür X1 steht?105 5. (a) Sie schätzen den Zusammenhang zwischen allen paarweisen Korrelationen mit Hilfe der Determinante der Korrelationsmatrix. Angenommen, die Determinante ist nahe Null. Was bedeutet das? (b) Sie nutzen dieselben Daten, verwenden jedoch die Maximale Exzentrizität. Können Sie angeben, welchen Wert diese Kennzahl annähernd haben muß? 6. Warum wird überhaupt der Globaltest angewandt? 7. Sollten in jedem Falle multiple Vergleiche gemacht werden? 8. Welcher Zusammenhang wird bei der multiplen Korrelation untersucht? 9. Um welchen Zusammenhang geht es bei der kanonischen Korrelation?
KAPITEL 9. MULTIVARIATE KORRELATIONSANALYSE*
188
9.11
Aufgaben
1. (a) In Kapitel 9.2 auf Seite 166 wird ohne nähere Begründung die Nullhypothese H0 : ρ1 > ρ2 angegeben. Ist dies korrekt? 106 (b) Falls dies nicht korrekt sein sollte, welche Methode sollte sinnvollerweise angewandt werden, um diese Frage zu beantworten?107 2. Erläutern Sie, warum die Testgröße 9.1 annähernd standardnormalverteilt ist.108 3. Im Beispiel auf Seite 172 wurde die Korrelation der Matrix x berechnet. Warum wurde nicht der Befehl ’cor(x1,x2)’verwandt?109 4. Was ist der Unterschied zwischen Cov(X, Y) und Cov(Y1 , X1 )?110 5. Sanitätshaus Meier gibt in Auftrag zu untersuchen, ob es eine Korrelation zwischen ihrem Umsatz Y1 und Gewinn Y2 einerseits und dem Alter der Patienten X1 und der Anzahl ihrer Arztbesuche pro Quartal X2 andererseits gibt. Welche Methoden bieten sich zur Untersuchung dieser Fragestellung an?111 6. Abteilungsleiter Müller hat die Ergebnisse einer Befragung vorliegen. Es handelt sich ausschließlich um kardinal meßbare Größen. Welche Analyseverfahren können genutzt werden?112 7. Eine Verkaufsleiterin hat Daten über die Verkaufszahlen und die Verkäuferstunden in 50 Filialen zusammengestellt. Hieraus ergibt sich eine Korrelation in Höhe von 0, 23 zwischen diesen beiden Merkmalen. Hieraus schließt sie, daß eine Verringerung der eingesetzten Arbeitsstunden sinnvoll wäre. Diskutieren Sie.113 8. Zeigen Sie, daß die Anwendung der Formel zur Berechnung der kanonischen Korrelation zwischen den Merkmalen Y1 und X1 zum selben Ergebnis führt, wie die Berechnung der Korrelation nach Bravais-Pearson.114
Kapitel 10
Daten- und Distanzmatrix 10.1
Einleitung
Datenmatrizen haben wir in einer leicht anderen Darstellungsform bereits kennengelernt. Es handelt sich um Rohdaten, die in Tabellenform, beispielhaft dargestellt auf Seite 15, präsentiert wurden. Jede Zeile unserer Rohdaten (d.h. jeder Datensatz) repräsentiert eine statistische Einheit, wobei in jeder Zeile die Merkmalsausprägungen der statistischen Einheit abgetragen sind. Werden die Daten statt in einer Tabelle in eine Matrix geschrieben, so sprechen wie von einer Datenmatrix. Die Rohdaten in Tabelle 2.1 auf Seite 15 sehen als Datenmatrix geschrieben folgendermaßen aus: ⎞ ⎛ 10, 5 500 ⎝ 12, 9 550⎠ . (10.1) 33, 85 300 Diese Matrix kann in allgemeiner Form geschrieben werden als ⎛ ⎞ y11 y12 ⎝y21 y22 ⎠ . y31 y32 y21 bezeichnet also den Wert in der zweiten Zeile und ersten Spalte. Es ist die Ausprägung des ersten Merkmals, durch die das zweiten Objekt gekennzeichnet ist. In der Clusteranalyse beispielsweise werden die Daten jedoch nicht in Form einer Datenmatrix, sondern üblicherweise als Distanzmatrix in Programme eingespeist. Die Distanzmatrix gibt Auskunft darüber, wie weit die Objekte voneinander entfernt sind. Ziel der Clusteranalyse ist es, aufgrund dieser Informationen jene Objekte zu identifizieren, die sich möglichst ähnlich sind. Ähnliche Objekte werden zu einer Gruppe oder einem ’Cluster’ zusammengefaßt. Dieses Kapitel ist dem Kapitel 11 folglich notwendigerweise vorgeschaltet, um die Grundlagen zu legen, damit die verschiedenen Verfahren der Clusteranalyse überhaupt sinnvoll angewendet werden können. R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_10, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
190
KAPITEL 10. DATEN- UND DISTANZMATRIX
Ausgehend von Rohdaten oder einer Datenmatrix lassen sich Distanzmatrizen herleiten. Distanz bedeutet, daß man die Entfernung zwischen zwei statistischen Einheiten mit Hilfe ihrer Merkmalsausprägungen festlegt. Man vergleicht also in einer Datenmatrix die i-te mit der j-ten Zeile. In diesem Kapitel wird beschrieben, wie man ausgehend von Daten- zu Distanzmatrizen kommen kann. Distanzmatrizen können dann genutzt werden, um mit Hilfe der Clusteranalyse Objekte zu Gruppen zusammenzufassen. In gibt es mindestens zwei Möglichkeiten, Distanzmatrizen herzuleiten: einerseits mit dem Befehl ’dist’ und andererseits mit ’daisy’. Die erstgenannte Anweisung erlaubt die Berechnung von Distanzmatrizen, falls ausschließlich numerische Variable vorhanden sind. Üblicherweise liegen in der Praxis jedoch Datenmatrizen vor, bei denen die Objekte durch Variablen mit unterschiedlichem Skalenniveau beschrieben werden. Zwei mögliche Vorgehensweisen bieten sich dann an: 1. nominal und ordinal skalierte Merkmale werden transformiert zu kardinalen oder 2. man standardisiert den Distanzindex einer jeden Variable, ganz gleich, welches Skalenniveau sie besitzt, auf den Bereich [0, 1] und faßt diese variablenspezifische Indizes zu einem zusammenfassenden Index zusammen. (Hartung und Elpelt, 1984) beschreiben Methoden, wie eine Transformation auf höhere Skalenniveaus erfolgen kann. Im Programm ’daisy’ wird hingegen die zweite Möglichkeit genutzt. Es ist Teil des Programmpaketes ’cluster’. Um das Programm verfügbar zu machen, lade gegebenenfalls zuerst mit > library(cluster) das erforderliche Paket. Die Eingabe von > ?daisy öffnet eine Hilfeseite, in der die wichtigsten Hinweise zur Nutzung des Programms zu finden sind. DAISY steht für DISsimilAritY. Es dient vor allem zur Berechnung von Ungleichheitskoeffizienten (= Distanzmaßen). Ausgangspunkt ist eine Datenmatrix. Zugelassen sind alle Arten an Daten, nominal, ordinal, intervall- und verhältnisskalierte Variablen. Die Daten müssen als Matrix oder ’data.frame’ eingegeben werden. Informationen über Dateneigenschaften sind in Kapitel C.4 zu finden. Dabei ist darauf zu achten, daß Spalten, denen die Eigenschaft ’numerisch’ zugewiesen ist, als intervallskalierte Variablen behandelt werden. Spalten mit der Eigenschaft ’geordnet’ werden als ordinal und solche mit der Eigenschaft ’Faktor’ werden als nominal skalierte Variablen behandelt. Im nachfolgenden Abschnitt werden Distanzmatrizen definiert und wünschenswerte Eigenschaften vorgestellt. Zudem wird etwas detaillierter als in den
10.2. DISTANZMATRIZEN
191
vorangegangenen Kapiteln auf unterschiedliche Skalenniveaus von Variablen eingegangen. Insbesondere wird eine zusätzliche Kategorie, die binären Variablen, eingeführt, wobei zwischen symmetrischen und asymmetrischen unterschieden wird. Alle nachfolgenden Ausführungen beziehen sich auf das Verfahren ’gower’ im Befehl ’daisy’, bei dem eine eingeschränkte Auswahl an Distanzindizes zur Verfügung steht. Aus diesem Grund wird bei den kardinalen Merkmalen lediglich die Manhattan-Distanz vorgestellt. Es folgt die Darstellung der Standardisierung einer jeden Variable und wie die Indizes jeder Variable zu einer einzigen Maßzahl zum Vergleich zweier Personen oder Objekte zusammengefaßt werden können.
10.2
Distanzmatrizen
10.2.1
Definition und Eigenschaften
Allgemein schreiben wir für die Distanz zwischen den Objekten i und j: d(i, j). Um jedoch die Entfernung bestimmen zu können, benötigen wir eine einzige Zahl d(1, 2), die die Distanz zwischen Objekt 1 und 2 anzeigt. Distanzen sollten nicht beliebig festgelegt werden. Folgende Eigenschaften von Distanzen erscheinen sinnvoll (Kaufmann und Rousseeuw, 1990, S. 13). 1. d(i, j) 0, d.h. daß Distanzen nicht negativ sind. 2. Ist i = j (d.h. sind die Merkmalsausprägungen identisch), so wird sinnvollerweise festgelegt, daß die Distanz gleich Null ist: d(i, i) = 0. Dies bedeutet jedoch nicht unbedingt, daß es sich um dieselben Objekte handeln muß. 3. Die Distanz sollte unabhängig von der Reihenfolge der statistischen Einheiten in der Datenmatrix sein, d.h. d(i, j) = d(j, i) für alle i, j in der Datenmatrix. 4. Zudem soll gelten: d(i, j) d(i, h) + d(h, j). In allgemeiner Form ist eine Distanzmatrix wie ⎛ 0 d(1, 2) d(1, 3) ⎜ d(2, 1) 0 d(2, 3) ⎜ ⎜ d(3, 1) d(3, 2) 0 D=⎜ ⎜ .. .. .. ⎝ . . .
folgt aufgebaut: ⎞ · · · d(1, n) · · · d(2, n)⎟ ⎟ · · · d(3, n)⎟ ⎟. .. .. ⎟ . . ⎠
d(n, 1) d(n, 2) d(n, 3) · · ·
0
Wegen Bedingung 2 besteht die Diagonale einer Distanzmatrix aus Nullen. Sofern Bedingung 3 erfüllt ist, ist die Datenmatrix symmetrisch, d.h. die Werte oberhalb der Hauptdiagonalen, die hier ausschließlich aus Nullen besteht, finden sich spiegelbildlich auch unterhalb von ihr. Bei solchen Matrizen kann man entweder den oberen oder unteren Teil ohne Informationsverlust weglassen.
KAPITEL 10. DATEN- UND DISTANZMATRIX
192
10.2.2
Skalierung
Bei der Bestimmung einer Distanzmatrix ist auf die Skalierung der Merkmale zu achten. Es wurde zwar bereits auf die unterschiedliche Skalierung grob eingegangen, hier ist jedoch eine feinere Klassifizierung nötig. Wir unterscheiden 1. kardinale, 2. ordinale, 3. nominale und 4. binäre Merkmale. Bei den kardinalen Merkmalen wird außerdem unterschieden zwischen 1. intervall- und 2. verhältnisskalierten Variablen. Ferner werden bei den binären Variablen 1. symmetrische und 2. asymmetrische Variablen unterschieden.
10.3
Kardinale Merkmale
10.3.1
Intervall- und Verhältnisskala
Bei intervallskalierten Merkmalen handelt sich um kontinuierliche Messungen, bei denen Differenzen sinnvoll interpretiert werden können. Alter, Temperatur und Kosten zum selben Zeitpunkt sind Beispiele hierfür. Üblicherweise wird vorausgesetzt, daß Intervallen gleicher Länge dieselbe Bedeutung zufällt. Bei verhältnisskalierten Merkmalen gibt es demgegenüber ausschließlich positive Werte (Kaufmann und Rousseeuw, 1990, S. 4, 31) oder nur negative. Ein Beispiel hierfür sind Aktienkurse; ein Aktienkurs mag Null oder positiv sein. Steigt der Aktienkurs innerhalb eines Jahres von 100 auf 110 Euro und findet keine Dividendenzahlung statt, so stellt dies eine Verzinsung von 10 Prozent dar. War der Aktienkurs zu Beginn des Jahres dagegen 1000 Euro und erhöhte er sich auf 1100 Euro, so stellt dies ebenfalls eine Verzinsung von 10 Prozent dar. Können solche Verhältnisse gebildet und sinnvoll interpretiert werden, so handelt es sich um verhältnisskalierte Merkmale. Findet eine jährlich gleichbleibende Verzinsung statt, so kann die Entwicklung des Wertes eines Vermögensgegenstandes (wie z.B. ein Aktienkurs) bei kontinuierlicher Verzinsung und Berücksichtigung von Zinseszinsen durch die Formel a · exp(zt) (10.2) beschrieben werden. a und z sind hierbei Konstanten, wobei
10.3. KARDINALE MERKMALE
193
a das ursprüngliche Kapitel und z den Zinssatz darstellt. Die Abzinsung mit Zinseszinsen wird durch a · exp(−zt)
(10.3)
beschrieben. Bei der Messung von Distanzen ist es wichtig, welche Art kardinalen Merkmals vorliegt. Geht man davon aus, daß in den Augen eines Menschen der Wert eines Vermögens in einem Jahr geringer ist als der gegenwärtige, so könnten sie durch Berücksichtigung von Zinsen gleich wertvoll gemacht werden. Wäre eine Aktie, die heute einen Kurs von 100 Euro aufweist, in den Augen eines Menschen genausoviel wert wie die Aktie ein Jahr später mit Kurs 110, so wären die Differenzen zwischen zwei Kursen zu verschiedenen Zeitpunkten nicht gleichwertig. Bei geforderter konstanter Verzinsung in Höhe von z wäre aber auf jede Zeitdifferenz derselbe Zinssatz anzuwenden. Ein Beispiel soll dies verdeutlichen. Nach der Zeit t1 wäre ein Kapital von a angewachsen auf K1 = a · ezt1 und nach der Zeit t2 auf
K2 = a · ezt2 .
Um zu einer Proportionalskala zu kommen, kann auf diese Werte der Logarithmus angewandt werden. Differenzen dieser logarithmierten Werte haben dann immer dieselbe Bedeutung. Denn die Anwendung des natürlichen Logarithmus auf K1 bzw. K2 ergibt: ln(a) + zt1 bzw. ln(a) + zt2 . Zieht man von dem zweiten Wert den ersten ab, so erhält man zt2 − zt1 = z(t2 − t1 ) und die Differenzen hängen bei gegebener Verzinsung nur noch von der Periodenlänge ab. Betrachten wir nun zwei Personen, i und j, mit ihren Vermögenswerten Kit1 und Kjt1 zum Zeitpunkt t1 , wobei sichergestellt sei, daß die Vermögenswerte nur positive Werte annehmen können. Die Logarithmierung der Vermögenswerte ergibt ln(ai ) + zi t1 bzw. ln(aj ) + zj t1 . Zieht man von dem zweiten Wert den ersten ab, so erhält man ln(aj ) − ln(ai ) + zj t1 − zi t1 = ln(aj ) − ln(ai ) + (zj − zi )t1 .
KAPITEL 10. DATEN- UND DISTANZMATRIX
194
Mit anderen Worten erhält man durch Differenzenbildung den Logarithmus des Anfangskapitals der Person j abzüglich des Logarithmus des Anfangskapitals der Person i plus der Zinsdifferenz beider Personen bis Zeitpunkt t1 . Haben beide Personen dasselbe Startkapital, so ist die Differenz gleich der Zinsdifferenz beider Personen multipliziert mit t1 . Logarithmierung kann also zu ökonomisch interpretierbaren Differenzen führen. Intervalle gleicher Länge sollten dieselbe Bedeutung haben. Würden wir jedoch als Basis zur Erzeugung von Distanzen die Kapitalwerte K1 und K2 verwenden, so hätten Intervalle gleicher Länge wegen Zinseszinsen ganz verschiedene Bedeutung. Über die Logarithmierung können wir jedoch eine Proportionalskala erzeugen, womit der Forderung, ’gleiche Länge = dieselbe Bedeutung’ genügt wird. Wir haben also gesehen, daß Logarithmierung zu sinnvollen, interpretierbaren Distanzen führen können. Werden ökonomisch sinnvolle Distanzindizes gebildet, so kann man die Hoffnung haben, mit Hilfe der Clusteranalyse interpretierbare Klassen bilden zu können.
10.3.2
Manhattan-Distanz
Grundlagen Die Manhattan-Distanz ist auch unter dem Namen City-Block-Distanz bekannt. Sie ist definiert als d(i, j) := |yi1 − yj1 | + |yi2 − yj2 | + |yi3 − yj3 | + · · · + |yil − yjl |
(10.4)
l bezeichnet die Anzahl an Merkmalen und i und j sind unterschiedliche statistische Einheiten (Objekte). |.| sind Betragszeichen. Abbildung 10.1 dient zur Veranschaulichung dieser Maßzahl. Drei Punkte sind hier abgetragen, (4, 1), (1, 1), und (1, 3). Will man von dem Punkt ganz rechts, das ist (4, 1), zu Punkt (1, 3) wandern und nimmt den Weg über Punkt (1, 1), so ist die Entfernung gleich: |4 − 1| + |3 − 1| = 3 + 2 = 5 = |xi1 − xj1 | + |xi2 − xj2 |. Dieses Ergebnis entspricht der Anwendung der Manhattan-Distanz. Vergegenwärtigt man sich die Häuserblocks New Yorks, so entspricht dies der Distanz, die man zurücklegen muß, um von einer Ecke des Häuserblocks zu dem gegenüberliegenden zu kommen. Daher nennt man diese Distanz auch City-Block-Distanz. Auch wenn man ausschließlich kardinal skalierte Merkmale verwendet, muß man festlegen, mit welchem Gewicht jede Variable in das Distanzmaß eingeht.
10.3. KARDINALE MERKMALE
2.5 2.0 1.5 1.0
zweites Merkmal
3.0
195
1.0
1.5
2.0
2.5
3.0
3.5
4.0
erstes Merkmal
Abbildung 10.1: Illustration der Manhattan-Distanz Quelle: eigene Darstellung Probleme entstehen bereits, wenn die Objekte durch zwei Entfernungsmaße charakterisiert sind. Wird eine Entfernung in km und die andere in Meter angegeben, so wird sich bei Anwendung der einfachen Manhattan-Distanz im allgemeinen eine andere Distanzmatrix ergeben, als wenn beide Variablen mit denselben Maßeinheiten verwendet werden. Zudem ergibt sich das Problem, daß mit kardinalen Merkmalen Distanzindizes aus zwei oder mehr kardinalen Merkmalen erstellt werden sollen, aber kardinale Merkmale sehr unterschiedliches messen können. Hat ein Merkmal sehr hohe Werte, wie z.B. die Körpergröße in cm, und die Werte des anderen, beispielsweise das Körpergewicht in Zentnern, weist sehr kleine Zahlen auf, so ergeben sich im allgemeinen andere Distanzen, als wenn das Körpergewicht in Kilogramm angegeben wird. In solchen Fällen besteht eine Möglichkeit darin, alle Summanden des verwendeten Distanzmaßes unabhängig von ihrem Skalenniveau zu normieren, beispielsweise auf den Bereich [0, 1]. Wird die Manhattan-Distanz verwendet, so ist es notwendig, ihre Summanden auf den Bereich [0, 1] zu normieren. Zu diesem Zweck wird dann jeder Summand f , f ∈ {1, 2, 3, . . . , l}, der City-Block-Distanz durch die Differenz von Rf := max yhf − min yhf . h
dividiert.
h
(10.5)
196
KAPITEL 10. DATEN- UND DISTANZMATRIX
f steht hierbei stellvertretend für das interessierende Merkmal und h läuft über alle nicht-fehlenden Objekte des Merkmals f . Man beachte jedoch: die aus diesen standardisierten Summanden errechneten Summen sind nicht auf den Bereich [0, 1] normiert. Will man jedoch aus Merkmalen mit verschiedenen Skalenniveaus ein zusammengefaßtes Distanzmaß bilden (und dies ist hier das Ziel), so muß überlegt werden, mit welchem Gewicht die einzelnen Merkmale eingehen sollen. Im einfachsten Fall erhält jede Merkmalsgruppe aus der Menge der kardinalen, ordinalen, nominalen und binären Variablen dasselbe Gewicht. Dann könnte die Summe aller vorhandenen Distanzen über alle Merkmalsgruppen hinweg durch die Anzahl aller vorhandenen Distanzen dividiert werden. Die so erhaltenen Distanzindizes wären dann auf den Bereich [0, 1] normiert. Dies ist das von Gower (1971) vorgeschlagene Verfahren, das von (Kaufmann und Rousseeuw, 1990, S. 35ff) leicht angepaßt und im Programm ’daisy’ umgesetzt wurde. Auch dann, wenn nur kardinal skalierte Variablen mit ’daisy’ und der Anweisung ’metric=”gower”’ verwendet werden, werden Distanzindizes ausgegeben, die auf den Bereich [0, 1] normiert sind. Beispiel Ein kleines Beispiel soll das Vorgehen in
illustrieren. Der Befehl
> x <- matrix(c(1,0,2,0,1,3,0,0,4), 3,3) > x [,1] [,2] [,3] [1,] 1 0 0 [2,] 0 1 0 [3,] 2 3 4 führt zur Eingabe der Matrix x. Die Spalten dieser Matrix sind numerisch, wie die Überprüfung mit > is.numeric(x) [1] TRUE zeigt. Die Berechnung der Manhattan-Distanz kann mit der Anweisung > Manhattan<- dist(x, method = "manhattan", diag = FALSE, upper = FALSE) > Manhattan 1 2 2 2 3 8 8 erfolgen. In diesem Fall wird nicht die gesamte Distanzmatrix ausgegeben, sondern nur der unterhalb der Hauptdiagonalen liegende Teil. Die erste Reihe und
10.3. KARDINALE MERKMALE
197
die linke Spalte dienen der Beschriftung. Die ’1’ bzw. ’2’ in der ersten Zeile bezeichnen die Objekte 1 und 2. Die ’2’ und die ’3’ in der linken Spalte bezeichnen die Objekte 2 und 3. Die Distanz zwischen Objekt 1 und zwei ist demgemäß gleich 2 und die zwischen zwei und drei gleich 8. Ändert man den Befehl um in > Manhattan<- dist(x, method = "manhattan", diag = TRUE, upper = TRUE) > Manhattan 1 2 3 1 0 2 8 2 2 0 8 3 8 8 0, so erhält man die vollständige Matrix. Die Distanz zu sich selbst ist gleich Null, weshalb die Diagonale mit Nullen besetzt ist. Alternativ hierzu kann auch das Programmpaket ’cluster’ > library(cluster) geladen und der Befehl > daisy(x, metric="manhattan", stand=FALSE) Dissimilarities : 1 2 2 2 3 8 8 Metric : manhattan Number of objects : 3 genutzt werden. Wird statt metric = ”manhattan” metric = ”gover” eingegeben
> daisy(x, metric="gower", stand=FALSE) Dissimilarities : 1 2 2 0.2777778 3 0.8333333 0.8888889 Metric : mixed ; Types = I, I, I Number of objects : 3, so erhält man Werte, die jeweils auf den Bereich [0, 1] normiert sind, indem die Summanden der Manhattan-Distanz jeweils durch die Spannweite der jeweiligen Variable dividiert wird und die so erhaltene Distanz durch die Anzahl der vorhandenen möglichen paarweisen Vergleiche dividiert wird. Dies wird deutlich, wenn man das Verfahren schrittweise durchführt. Als erstes werden die Maximia und die Minima jeder Variablen bestimmt:
KAPITEL 10. DATEN- UND DISTANZMATRIX
198 > > > > > >
max1 max2 max3 min1 min2 min3
<<<<<<-
max(x[,1]) max(x[,2]) max(x[,3]) min(x[,1]) min(x[,2]) min(x[,3]).
Dann werden die jeweiligen Werte Rf gebildet. > R1 <- max1-min1 > R2 <- max2-min2 > R3 <- max3-min3 Die Berechnung der Manhattan-Distanz aus den normierten Werten ergibt jeweils > 1/R1+1/R2+0 [1] 0.8333333 > 2/R1+2/R2+4/R3 [1] 2.666667 > 1/R1+3/R2+4/R3 [1] 2.5 und die Division durch die Anzahl der vorhandenen möglichen Vergleiche zwischen den Objekten i und j führt zu: > (1/R1+1/R2+0)/3 [1] 0.2777778 > (2/R1+2/R2+4/R3)/3 [1] 0.8888889 > (1/R1+3/R2+4/R3)/3 [1] 0.8333333. Der Vergleich mit der direkten Berechnung über den Befehl ’daisy’ mit ’metric=”gower”’ bestätigt die Korrektheit der Beschreibung.
10.4
Ordinale Merkmale
10.4.1
Grundlagen
Bei ordinalen Variablen kann nur angegeben werden, ob eine Ausprägung besser, genauso gut oder schlechter ist als eine andere. Der einfachste Fall liegt vor, wenn eine Variable diskontinuierliche Ausprägungen hat, ihnen aber unterschiedliche Wertigkeit zugeschrieben wird. Es gibt jedoch weitere Gründe, eine Variable ordinal auszuweisen. Zum einen ist es möglich, daß eine Variable zwar kontinuierliche Ausprägungen hat, aber die Differenzen zwischen ihnen 1. nicht sinnvoll interpretierbar sind oder
10.4. ORDINALE MERKMALE
199
2. dieselben Differenzen bei unterschiedlichen Punkten unterschiedliche Bedeutung haben oder 3. Meßfehler aufgetreten sind. Ein Anwendungsfall von 1 sind Präferenzen, die gewöhnlich als ordinalskaliert vorausgesetzt werden. Für 2 haben wir bereits oben bei der Diskussion von intervall-skalierten und verhältnisskalierten Merkmalen ein Beispiel kennengelernt. Haben wir Grund für die Annahme, daß eine Skala nicht proportional ist und wir wissen nicht, wie sie in eine Proportionalskala überführt werden kann, so kann die betreffende Variable als ordinale Größe behandelt werden, um mögliche Fehler gering zu halten. Liegen schließlich Meßfehler vor, wie in Fall 3, so bietet es sich an, die Variable ebenfalls als ordinal-skaliert zu behandeln, um den Einfluß der Meßfehler auf die Bildung von Distanzen so gering wie möglich halten. Ziel der Ausführungen ist es, eine Distanz zu definieren, die bei mehreren Variablen mit unterschiedlicher Skalierung verwendet werden kann. Dabei soll im einfachsten Fall jedem Merkmal dasselbe Gewicht zufallen. Analog zum Vorgehen bei kardinalen Merkmalen ist es nötig, bei jedem ordinalen die Distanz auf den Bereich [0, 1] zu normieren. Die Vorgehensweise ist analog dem bei der Manhattan-Distanz. Die Normierung setzt hier bei der Definition des Ranges an indem er wie folgt transformiert wird: zif :=
rif − 1 , Mf − 1
(10.6)
wobei rif den Rang des Merkmals f bei Objekt i und Mf den höchste Rang des Merkmals f angeben soll. Hierdurch wird der niedrigste Rang transformiert zu Null und der höchste wird auf eins festgesetzt; alle übrigen Ausprägungen nehmen Werte zwischen diesen beiden an. Im nächsten Schritt ist die Distanz des Merkmals f zu definieren. Bei dem Programm ’daisy’ wird, sofern das Merkmal ordinal ausgewiesen ist, im Hintergrund im ersten Schritt die korrekten Ränge zugewiesen, wobei jeder Rang mindestens einmal erscheint. Im zweiten Schritt werden die Ränge rif transformiert zu zif . Die Distanz zwischen den Objekten i und j wird berechnet als Manhattan-Distanz, angewendet auf die zif , f ∈ {1, 2, 3, . . . , l}, und im letzten Schritt wird die City-Block-Distanz durch die Anzahl nicht-fehlender Werte dividiert. Unter nicht-fehlenden Werten werden hierbei solche verstanden, die bei beiden Objekten nicht fehlen.
10.4.2
Beispiel
Wiederum soll ein kleines Beispiel die Vorgehensweise verdeutlichen. Es werden dieselben Daten wie Seite 196 genutzt. Diese werden jedoch jetzt als ordinale Variablen ausgewiesen, indem der Befehl ’ordered’ verwendet wird. Die Anweisungen
200
KAPITEL 10. DATEN- UND DISTANZMATRIX
> xx1 <- ordered(x[,1]) > xx2 <- ordered(x[,2]) > xx3 <- ordered(x[,3]) wandeln die Spaltenvektoren der Matrix x in ordinale Variable um. Die Korrektheit wird nachgewiesen durch > is.ordered(xx1) [1] TRUE Anschließend werden diese Vektoren zu dem data.frame xx zusammengefaßt. > xx <- data.frame(xx1,xx2,xx3) > xx x1 x2 x3 1 1 0 0 2 0 1 0 3 2 3 4 Die Anwendung des Befehls ’daisy’ mit der Metrik ’gower’ führt zu dem gewünschten Resultat, wie es im vorangegangenen Abschnitt beschrieben wurde. > daisy(xx,metric="gower") Dissimilarities : 1 2 2 0.3333333 3 0.8333333 0.8333333 Metric : mixed ; Types = O, O, O Number of objects : 3 Da die Distanzmatrix symmetrisch ist und auf der Diagonalen ausschließlich Nullen zu liegen kommen, wird nur der Teil angezeigt, der unterhalb der Diagonalen zu liegen kommt. ’gower’ ist die Anweisung, mit der prinzipiell aus Datenmatrizen mit Variablen unterschiedlicher Skalierung eine Distanzmatrix erzeugt werden kann. In vorliegendem Fall wird die Skalierung korrekt mit ’Types = O, O, O’, ’O’ für ordered, also ordinal skaliert, angezeigt. Die Korrektheit der Darstellung kann geprüft werden, indem die im vorangegangenen Abschnitt beschriebenen Schritte einzeln ausgeführt werden. Zuerst werden die Daten eingegeben: > x11 <- as.ordered(c(2,1,3)) > x22 <- as.ordered(c(1,2,3)) > x33 <- as.ordered(c(1,1,2)) Sie handelt sich um Rangzahlen: > is.ordered(x11) [1] TRUE.
10.4. ORDINALE MERKMALE
201
Die Daten werden zu einem data.frame xxx zusammengefaßt > xxx <- data.frame(x11,x22,x33) und die Anweisung > daisy(xxx, metric="gower") Dissimilarities : 1 2 2 0.3333333 3 0.8333333 0.8333333 Metric : mixed ; Types = O, O, O Number of objects : 3 führt zu demselben Resultat wie oben. Allerdings ist dieses Ergebnis nicht mit der Anwendung der City-Block-Distanz auf den data.frame xxx zu verwechseln. Die einfache Anwendung der Manhattan-Distanz ergibt: > dist(xxx,method="manhattan") 1 2 2 2 3 4 4 Werden die Ränge jeder Variablen korrekt gebildet und gemäß 10.6 standardisiert, so erhält man folgendes Ergebnis. > x111 <- as.ordered(c(.5,0,1)) > x222 <- as.ordered(c(0,.5,1)) > x333 <- as.ordered(c(0,0,1)) Die Zusammenfassung zum data.frame xxxx führt zu > xxxx <- data.frame(x111,x222,x333). Die Berechnung der Manhattan-Distanz auf Basis der korrigierten Datenmatrix xxxx ergibt noch immer nicht das Endergebnis. Man erhält >
dist(xxxx,method="manhattan") 1 2 2 1.0 3 2.5 2.5 Erst die Division mit der Anzahl an nicht-fehlenden Werten, die jeweils bei keinem der beiden fehlenden Objekte fehlen, erbringt das korrekte Endergebnis. Hierdurch ist sichergestellt, daß die errechneten Distanzen immer im Bereich von [0, 1] zu liegen kommen. Da in vorliegendem Beispiel keine Missings auftreten, genügt die Division aller Distanzen durch drei. >
dist(xxxx,method="manhattan")/3 1 2 2 0.3333333 3 0.8333333 0.8333333
KAPITEL 10. DATEN- UND DISTANZMATRIX
202
10.5
Nominale Merkmale
10.5.1
Grundlagen
Nominale Merkmale zeichnen sich dadurch aus, daß lediglich Unterschiede in den Merkmalsausprägungen festgestellt werden können. Vergleiche, wie bei ordinalen Merkmalen, sind hier nicht möglich. Ein Beispiel für ein nominales Merkmal ist das Merkmal Haarfarbe. Ob jemand rote, schwarze, blonde oder graue Haare hat, kann objektiv nicht in eine Rangfolge gebracht werden. Es kann lediglich gesagt werden, daß es unterschiedliche Haarfarben gibt. Werden hingegen in einer Befragung Personen gebeten, die Haarfarben nach ihren persönlichen Präferenzen in eine Rangordnung zu bringen, so liegen ordinal skalierte Merkmale vor. Schließlich können Farben sogar metrisch kodiert werden. Dann kann auch zwischen hellem rot, rot und dunkelrot unterschieden werden. Ja selbst sehr kleine, kontinuierliche Farbabstufungen sind möglich und insofern können Farben als intervallskaliertes Merkmal aufgefaßt werden. Ob also ein Merkmal nominal, ordinal oder kardinal eingestuft wird, hängt von der Fragestellung und der Interpretation ab. Werden die Objekte durch mehrere nominal skalierte Variablen beschrieben, so wird im Programm ’daisy’ die Distanz zwischen Objekt i und j durch d(i, j) := l − #matches
(10.7)
berechnet (Kaufmann und Rousseeuw, 1990, S. 35). l steht für die Anzahl an Merkmalen und #matches gibt an, wie viele Ausprägungen der nominalen Merkmale bei beiden Objekten identisch sind. Die Differenz l − #matches gibt dann an, wie oft keine Übereinstimmungen stattgefunden haben. Eine kurze Diskussion alternativer Definitionen der Distanz nominaler Merkmale findet sich in (Kaufmann und Rousseeuw, 1990, S. 29).
10.5.2
Beispiel
Zur Illustration werden wiederum dieselben Daten wie in den vorangegangen Beispielen verwendet. Durch die Befehle x11 <- as.factor(c(2,1,3)) x22 <- as.factor(c(1,2,3)) x33 <- as.factor(c(1,1,2)) werden die Daten jedoch als nominale Variablen gekennzeichnet und mit der Anweisung > x0 <- data.frame(x11,x22,x33) > x0
10.6. BINÄRE MERKMALE
1 2 3
203
x11 x22 x33 2 1 1 1 2 1 3 3 2
zu dem data.frame ’x0’ zusammengefaßt. Um den Befehl ’daisy’ verfügbar zu machen, wird mit > library("cluster") das Paket ’cluster’ geladen und > daisy(x0,metric="gower") Dissimilarities: 1 2 2 0.6666667 3 1.0000000 1.0000000 Metric : mixed ; Types = N, N, N Number of objects : 3 errechne die Distanzen, die in einer Matrix zusammengefaßt ausgegeben werden. Wie bei kardinalen und ordinalen Merkmalen auch, wird jeder Distanzindex 10.7 bei Nutzung des Befehls ’daisy’ mit Metrik ’gower’ durch die Anzahl an nicht-fehlenden Ausprägungen dividiert. Dies wird deutlich, wenn man die Distanz zwischen Objekt 1 und 2 Schritt für Schritt berechnet. Die Anzahl an Übereinstimmungen zwischen Objekt1 und 2 ist gleich 1, d.h. d(1, 2) = l − #matches = 2. Division durch die Anzahl an existierenden Ausprägungen, die miteinander verglichen werden können ist gleich drei und die durch die Metrik ’gower’ berechnete Distanz ist gleich d(1, 2)/3.
10.6
Binäre Merkmale
10.6.1
Grundlagen
Eine binäre Variable kann nur zwei Werte annehmen, ’wahr’ und ’falsch’, was oft auch mit ’1’ und ’0’ kodiert wird. Beispiele für binäre Variable sind das Geschlecht mit den Ausprägungen männlich und weiblich sowie Helligkeit mit den einzigen Ausprägungen ’hell’ und ’dunkel’. Der Größenunterschied, gekennzeichnet mit ’größer als oder gleich 1,70 m’ und ’kleiner als 1,70 m’, ist ebenfalls eine binäre Variable. Eine solche ist deshalb nicht einfach eine spezielle Form einer nominalen Größe, denn im letzten Beispiel handelt es sich ja um eine ordinale Größe mit zwei Ausprägungen. Grundlage zur Konstruktion von Distanzmaßen bei binären Variablen ist eine Kontingenztabelle folgender Art. a ist die Anzahl der Variablen, bei denen bei Objekt i und j die Variable dieselbe Ausprägung ’1’ haben; b bezeichnet die Anzahl Variablen, bei denen Objekt i die Ausprägung ’1’ und j die Ausprägung ’0’ hat. l ist die Anzahl aller Variablen und in der rechten Spalte steht die
KAPITEL 10. DATEN- UND DISTANZMATRIX
204
Objekt i
1 0
Objekt j 1 0 a b c d a+c b+d
a+b c+d l
Tabelle 10.1: Kontingenztabelle bei binären Merkmalen Quelle: (Kaufmann und Rousseeuw, 1990, S. 23) Randverteilung von Objekt ’i’, d.h. die Anzahl aller Variablen, bei denen Objekt ’i’ entweder Ausprägung ’1’ oder ’2’ hat. Zwei Arten an binären Variablen (Kaufmann und Rousseeuw, 1990, S. 23) werden unterschieden: 1. symmetrische und 2. asymmetrische. Angenommen, in einer Untersuchung wäre allein die Feststellung relevant, ob eine Merkmalsausprägung vorliege oder nicht, persönliche Präferenzen mögen keine Rolle spielen. Dann würde man jeder Ausprägung des Merkmals ’Geschlecht’ dasselbe Gewicht beimessen. In diesem Fall handelte es sich um eine symmetrische binäre Variable. Es wäre völlig gleichgültig, welche Ausprägung mit ’1’ und welche mit ’0’ signiert würde. Dies bedeutet, daß sich die Distanz nicht dadurch ändern sollte, daß anders signiert wird. Aus diesem Grund sollte den Übereinstimmungen a und d in Tabelle 10.1 bei der Konstruktion eines Distanzindexes jeweils dasselbe Gewicht zufallen. Indizes, die diese Eigenschaft aufweisen, heißen invariantes Unähnlichkeitsmaß (= Distanz). Es gibt verschiedene Möglichkeiten, Distanzindizes zu bilden, die dieser Bedingung genügen. In dem Programm ’daisy’ wird folgender verwendet: d(i, j) :=
b+c . a+b+c+d
(10.8)
Er heißt ’simple matching coefficient’ (=einfacher Übereinstimmungs-Koeffizient), ist aber auch bekannt unter den Namen ’M-Koeffizient’ und Affinitätsindex. Bei der Signierung binärer Variablen wird üblicherweise die wichtigste Ausprägung mit ’1’ und die andere mit ’0’ gekennzeichnet. Bei dem Merkmal Geschlecht gibt es keinen Grund, eine stärker zu gewichten als die andere. Aus der Perspektive eines Unternehmens macht es jedoch sicher einen Unterschied, ob bei einer Befragung eine Person Kunde ist oder nicht. In diesem Fall liegt deshalb ein asymmetrisches binäres Merkmal vor. Würde man den ’simple matching coefficient’ verwenden, so würden sich bei anderer Signierung (also: beide Personen sind Kunden würde mit ’0’ gekennzeichnet), keine andere Distanz ergeben. Die unterschiedliche Bedeutung der verschiedenen Ausprägungen für die Firma käme infolgedessen durch diesen Distanzindex gar nicht zum Ausdruck. Aus diesem Grund sollte ein anderer Index verwendet werden.
10.6. BINÄRE MERKMALE
205
Hinzu kommt, daß die schiere Anzahl potentieller Nachfrager im allgemeinen sehr viel höher ist als die Zahl der Kunden der betrachteten Firma. Infolgedessen wird in Kontingenztabelle 10.1 a sehr viel kleiner sein als d. Der ’simple matching coefficient’ wäre wegen der zu vermutenden hohen Zahl von Nichtkunden (hohes d) recht hoch; es würde eine hohe Ähnlichkeit bzw. geringe Distanz ausgewiesen. Zwecks Beseitigung dieses unerwünschten Effektes würde es sich anbieten, bei der Bildung eines Distanzmaßes für asymmetrische binäre Variable, d überhaupt nicht zu verwenden. In dem Programm ’DAISY’ ist der Distanzindex ’Jaccard’ implementiert. Er ist wie folgt definiert: b+c . (10.9) a+b+c Er unterscheidet sich von dem ’simple matching coefficient’ dadurch, daß im Nenner d nicht auftaucht und kann deshalb bei asymmetrischen binären Merkmalen verwendet werden.
10.6.2
Beispiel
Wir gehen von folgender Datenmatrix aus: ⎛ ⎞ 1 0 1 ⎝0 0 0⎠ . 1 0 0
(10.10)
Um den Befehl ’daisy’ verfügbar zu machen, ist es nötig, zuvor das Programmpaket ’cluster’ zu laden. Die Datenmatix 10.10 kann über die Variable ’x’ angesprochen werden. Im ersten Fall wird angenommen, daß alle Variablen binär und symmetrisch sind; danach werden alle als binär und asymmetrisch gekennzeichnet. Sind alle Merkmale symmetrisch, so ist der Distanzindex zwischen den Objekten ’3’ und ’1’ identisch gleich dem zwischen ’3’ und ’2’: > daisy(x,metric="gower",type=list(symm=1:3)) Dissimilarities : 1 2 2 0.6666667 3 0.3333333 0.3333333 Metric : mixed ; Types = S, S, S Number of objects : 3 Warning message: In daisy(x, metric = "gower", type = list(symm = 1:3)) : at least one binary variable has not 2 different levels. Sollten die Merkmale jedoch asymmetrisch sein, so ist die Distanz zwischen ’3’ und ’1’ nur noch die Hälfte der zwischen ’3’ und ’2’. > daisy(x,metric="gower",type=list(asymm=1:3))
KAPITEL 10. DATEN- UND DISTANZMATRIX
206 Dissimilarities : 1 2 2 1.0 3 0.5 1.0
Metric : mixed ; Types = A, A, A Number of objects : 3 Warning message: In daisy(x, metric = "gower", type = list(asymm = 1:3)) : at least one binary variable has not 2 different levels. Aufgrunddessen ist davon auszugehen, daß die Kennzeichnung binärer Merkmale als ’symmetrisch’ oder ’asymmetrisch’ einen Einfluß hat auf die Zusammenfassung von Objekten zu Gruppen.
10.7
Abschließende Bemerkungen
Distanzmatrizen bilden die Grundlage der Clusteranalyse. In der Praxis ist es wohl eher die Regel, daß Merkmale völlig unterschiedlichen Skalenniveaus zur Gruppenbildung herangezogen werden sollen. In diesem Kapitel wurde eine Möglichkeit präsentiert, wie dieses Ziel erreicht werden kann. Prinzipiell lassen sich mit dem Verfahren ’gower’ eine Vielzahl von Variablen unterschiedlichen Skalenniveaus zu einer Maßzahl zusammenfassen. In Verallgemeinerung dieses Verfahrens, wird auch gezeigt, wie man mit die Variablen unterschiedlich gewichten kann. Damit steht der praktischen Anwendung prinzipiell nichts im Wege. Es wird jedoch abgeraten, diese Methode anzuwenden, ohne zuvor sachlogische Bezüge herzustellen. Die Ergebnisse der Clusteranalyse hängen von den eingegebenen Distanzmatrizen ab. Einfach alle vorhandenen Variablen zur Gruppenbildung heranzuziehen und dann alle gefundenen Gruppierungen interpretieren zu wollen, gleicht eher einem Versuch, die berühmte Stecknadel im Heuhaufen finden zu wollen. Besser ist es, sich über das Ziel der Clusteranalyse im klaren zu sein. Man sollte sich überlegen, welche Einflußgrößen relevant sein könnten und in welchem Zusammenhang sie zueinander stehen. Produktionsmengen, Preise, Lagerkosten, Absatzmengen und dergleichen stehen in einem sachlogischen Zusammenhang und möglicherweise in enger Verbindung zu dem Ziel der Clusteranalyse. Insbesondere sollten die Zusammenhänge zwischen Strom- und Bestandsgrößen nicht vergessen werden. Schließlich sollten auch mögliche Rückwirkungen einer Klassenbildung auf das Produktionsergebnis, den Umsatz und Gewinn berücksichtigt werden. Angenommen, eine Firma verkauft erklärungsbedürftige Produkte. Der Marketingleiter möchte, daß die Kunden in zwei Klassen eingeteilt werden: in eine Klasse B mit hohen Beratungskosten bei geringem Umsatz und eine mit geringen Beratungskosten bei hohem Umsatz (Klasse A). Zweck der Einteilung sei es, daß die Beratungszeit der Klasse B massiv beschränkt wird, um Kosten
10.8. KONTROLLFRAGEN
207
zu sparen. Kunden in Klasse A erhalten nach wie vor die gewünschte Beratung. Diese Klassifizierung könnte zur Folge haben, daß Kunden in Klasse B durch die verringerte Beratungszeit nicht mehr oder in verringertem Maße zu Kunden der Klasse A werden. Kurzfristig mag dies zwar zu Kostensenkungen bei unverändertem Ertrag führen, langfristig aber könnte der Ertrag sinken, wenn Kunden aus A im Verlaufe der Zeit zu Kundentyp B werden und weniger B-Kunden zu A-Kunden werden.
10.8
Kontrollfragen
1. Können Sie kurz beschreiben, was der Unterschied zwischen Rohdaten und Datenmatrix ist? 2. Was steht in der Zeile und was in einer Spalte einer Datenmatrix? 3. Gegeben sei die Datenmatrix Y. Was bedeutet y4,8 ? 4. Wozu benötigt man Distanzmaße? 5. Welches Ziel wird in der Clusteranalyse verfolgt? 6. Welche zwei Befehle stehen in rechnen?
zur Verfügung, um Distanzindizes zu be-
7. Welche Eigenschaften sollten Distanzmatrizen sinnvollerweise haben? 8. Geben Sie drei Beispiele für intervallskalierte Merkmale. 9. Worauf ist bei intervallskalierten, auf was bei verhältnisskalierten Merkmalen zu achten? 10. Veranschaulichen Sie die Manhattan-Distanz graphisch. 11. Warum wird in diesem Kapitel jeder Merkmalstyp standardisiert? 12. Aus welchen Gründen könnte es sinnvoll sein, kardinale Merkmale so zu behandeln als ob sie ordinal seien? 13. Wie wird in ’daisy’ die Distanz bei nominalen Merkmalen berechnet? Verdeutlichen Sie die Methode mit zwei Objekten und zwei Merkmalen. 14. Welche zwei unterschiedlichen Arten binärer Merkmale werden unterschieden?
10.9
Aufgaben
1. Geben Sie je drei Beispiele für alle Merkmalstypen (intervall- und verhältnisskalierte Merkmale bis hin zu binären Merkmalen).
KAPITEL 10. DATEN- UND DISTANZMATRIX
208
2. Ist es möglich, daß mit ’daisy’ jedes Merkmal entsprechend den Präferenzen des Nutzers gewichtet wird?115 3. Herr Müller ist Controller und hat folgende Distanzmatrix errechnet:
Statistische Einheit
1 2 3 4
Statistische 1 2 0 1,2 0,5 1 0,7 0,7 0,3 0,3
Einheit 3 4 0,7 0,3 0,7 0,3 0 0,3 0,3 0
(a) Weist Sie die Eigenschaften auf, die eine Distanzmatrix haben sollte? (b) Wenn nein, welche Eigenschaften werden verletzt? 4. (a) Interpretieren Sie nachfolgende Befehle. Das Gewicht ist in Zentnern und die Körpergröße der Personen in cm angegeben.116 > > > >
Koerpergroesse <- c(180,160) Gewicht <- c(1.5,1) x <- cbind(Koerpergroesse,Gewicht) x Koerpergroesse Gewicht [1,] 180 1.5 [2,] 160 1.0 > Gewicht2 <- Gewicht*50 > x2 <- cbind(Koerpergroesse,Gewicht2) > x2 Koerpergroesse Gewicht2 [1,] 180 75 [2,] 160 50 (b) Berechne die Manhattan-Distanz auf Basis der Matrix ’x’ wie auch mit ’x2’.117 (c) Obwohl derselbe Distanzindex verwendet wurde, ergeben sich unterschiedliche Werte. Wie erklären Sie sich das? (d) Wie kann man vermeiden, daß dieser Effekt eintritt?118 . (e) Nutze die Daten, abgelegt unter dem Namen ’x’. Normiere jedes Merkmal gemäß Kapitel 10.5 und erstelle eine normierte Datenmatrix. (f) Führe die Normierung mit den Daten ’x2’ durch. (g) Vergleichen Sie Ihre beiden zuvor erzielten Ergebnisse. Wie erklären Sie sich dies.119 (h) Berechne auf Basis der normierten Matrix die Manhattan-Distanz.120 (i) Obwohl jedes Merkmal normiert wurde, ist die berechnete ManhattanDistanz nicht auf den Bereich [0, 1] normiert. Warum nicht?121
10.9. AUFGABEN
209
(j) Nutzen Sie die normierte Datenmatrix ’xx’. Angenommen, aus fachlichen Gründen soll das Körpergewicht bei der Berechnung der Manhattandistanz aus den beiden Merkmalen (Körpergröße und -gewicht) doppelt so stark zählen als das andere. Berechnen Sie die Distanz.122 (k) Berechnen Sie die gesamte Distanz, indem Sie beide Merkmale gleich gewichten.123 (l) Berechnen Sie die Distanz mit dem Verfahren ’gower’. Nutzen Sie die Daten, die unter ’x’ abgelegt sind.124
Kapitel 11
Clusteranalyse 11.1
Einleitung
Statistische Einheiten sollen in der Clusteranalyse so zusammengefaßt werden, daß Objekte innerhalb einer Gruppe möglichst gleich und Unterschiede zwischen den Gruppen möglichst groß sind. Der Einstieg in das Thema gelingt am besten über ein einfaches Beispiel. Betrachten wir eine Hochschule, in der vermutet wird, daß die Übungsangebote umso effektiver sind, je homogener die Gruppen sind. Der Übungsleiter, so die Überlegung, kann dann auf die spezifischen Probleme der einzelnen Gruppe besser eingehen und eine effizientere Betreuung kann sichergestellt werden. Möglicherweise kann in einigen Gruppen die Übungszeit vergrößert und in anderen entsprechend verkleinert werden. Hierdurch erhalten diejenigen, die mehr Übung brauchen, die nötige Zeit und die anderen haben zusätzliche Zeit zur Verfügung, um in anderen Fächern besser zu werden. Zu diesem Zweck sollen Cluster gebildet werden oder mit anderen Worten: Studenten sollen in Gruppen eingeteilt werden. In diesem Beispiel wird implizit davon ausgegangen, daß bereits eine Struktur in der Population vorhanden ist. Sie soll durch Clusteranalyse gefunden werden. Andererseits ist es auch möglich, daß Objekte in Gruppen eingeteilt werden sollen, ohne daß davon ausgegangen wird, daß irgendeine Struktur vorhanden sei. Soll beispielsweise eine Region in verschiedene Verkaufsgebiete unterteilt werden, so mag dies nach firmeninternen zweckdienlichen Kriterien erfolgen, ohne daß überhaupt der Anspruch erhoben wird, eine bereits vorhandene Struktur zu finden. Dies sind typische Fragestellungen, die mit Hilfe der Clusteranalyse bearbeitet werden können. Sie ’firmiert’ auch unter den Namen automatische Klassifizierung und numerische Taxonomie. Ziel der Clusteranalyse ist es, Objekte oder statistische Einheiten so zu Gruppen zusammenzufassen, daß die Unterschiede innerhalb der Gruppen möglichst gering und die zwischen den Gruppen möglichst groß sind. Bei der Lösung dieser Aufgabe stellen sich folgende Fragen: R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_11, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
212
KAPITEL 11. CLUSTERANALYSE
1. Klassifikationstyp: Welche Art der Gruppenbildung soll erfolgen? In vorliegendem Fall wäre die Bildung disjunkter Gruppen sinnvoll. Dies sind Gruppen bei denen die Schnittmenge beliebiger zwei Gruppen gleich der leeren Menge ist. Denn angesichts knapper Hochschulressourcen und begrenzter Zeit der Studenten sollen Studenten nur einer Gruppe zugeordnet werden. 2. Messung: Wie soll die Homogenität innerhalb der Gruppen und die Heterogenität zwischen den Gruppen gemessen werden? Dies hängt sicher auch davon ab, für welches Fach Gruppen gebildet werden sollen. Bei Statistik könnte man an die Vornoten in Deutsch und Mathematik sowie Vorkenntnisse in Statistik denken. Alternativ hierzu kann die persönliche Einschätzung der Studenten über ihre Schwierigkeiten mit dem Fach in Erfahrung gebracht werden. Freilich sind damit nicht alle Probleme gelöst. So ergibt sich einerseits die Frage, ob auch alle relevanten Merkmale zur Gruppenbildung herangezogen werden und andererseits, ob überhaupt alle Merkmale benötigt werden. In vorliegendem Fall mag man mit den angegebenen Merkmalen zu einer sinnvollen aber unpraktikablen Klassenbildung kommen. Denn es nutzt recht wenig, Personen, bei denen kein gemeinsames Zeitfenster für Übungsstunden besteht, zu Übungsgruppen zusammenzufassen. 3. Güte: Eine Anzahl von Personen kann auf viele verschiedene Arten zu disjunkten Gruppen zusammengefaßt werden. Die Unterschiede zwischen den Gruppen und innerhalb der Gruppen sollten deshalb sinnvoll zu einer Maßzahl zusammengefaßt werden, um die Güte der Gruppierung messen zu können. 4. Konstruktionsverfahren: Im letzten Schritt ist festzulegen, wie die Klassenbildung vorgenommen werden soll. Hierbei ist insbesondere festzulegen, ob die Anzahl der zu bildenden Klassen vorgegeben wird oder ob sie durch das Verfahren bestimmt werden soll. In unserem Beispiel hängt die Anzahl der Gruppen von dem Stundenkontingent des Übungsleiters ab, sie ist also eine vorgegebene Größe. In den Wirtschaftswissenschaften finden sich zwischenzeitlich vielfältige Anwendungen. Im Marketing kann es zwecks Preisdiskriminierung dritten Grades sinnvoll sein, Kunden in verschiedene Klassen einzuordnen. In der Logistik können hiermit die Frage bearbeitet werden, wie ein Lager bestückt werden sollte. Im Personalwesen können bei hunderten von Bewerbern per Clusteranalyse Bewerber bestimmt werden, die eingeladen werden sollten. Mitarbeiter können mit Hilfe der Clusteranalyse in Lohngruppen eingeteilt werden und/oder Zulagen können hierüber verteilt werden. Im nächsten Abschnitt werden vier verschiedene Klassifikationstypen beschrieben: Partition, Überdeckung, Hierarchie und Quasihierarchie. Es folgt die Darstellung der zwei grundlegenden Methoden zur Klassenbildung: das diversive (= aufteilende) und das agglomerative (= zusammenfassende) Verfahren. Im
K−means
PAM
Partitionierung
CLARA
Abbildung 11.1: Verfahren Quelle: eigene Darstellung
FANNY
Klassifikationstyp
AGNES
DIANA
Hierarchie
MONA
11.1. EINLEITUNG 213
KAPITEL 11. CLUSTERANALYSE
214
Paket ’cluster’ finden sich standardmäßig keine Verfahren, mit Hilfe derer Überdeckungen oder Quasiehierarchien gebildet werden könnten. Deshalb beschränkt sich die Darstellung lediglich auf die Konstruktion von Partitionen und Hierarchien. Es wird jedoch gezeigt, wie aufgrund der Ergebnisse des Programms ’FANNY’ Überdeckungen gebildet werden können. Die in verfügbaren Verfahren, die standardmäßig oder im Programmpaket ’cluster’ verfügbar sind, sind in Abbildung 11.1 übersichtsartig dargestellt. Allderdings werden hier lediglich die gelb (bzw. dunkel) gekennzeichneten vorgestellt. Standardmäßig ist ’k-means’-Methode verfügbar. Ein Vergleich dieser Methode mit der in dem Programm PAM implementierten ergibt, daß in ersterer das Ergebnis der automatischen Klassifizierung von der Anordnung der Objekte in der Datenmatrix abhängen kann (Kaufmann und Rousseeuw, 1990, S. 114). Aus diesem Grund wird ’q-means’ hier nicht vorgestellt. Die Darstellung beginnt mit PAM, einem Verfahren zur Konstruktion disjunkter Gruppen. CLARA dient ebenfalls zur Berechnung disjunkter Gruppen und wurde speziell zur Klassifizierung vieler Objekte entwickelt, zu einer Zeit, als die Rechnerkapazität im Vergleich zu der heutigen gering war. Versuche des Autors mit bis zu 4000 Objekten zeigten, daß mit PAM mit vertretbarem Zeitaufwand auch eine solcher Umfang an Objekten automatisch gruppiert werden kann. Aus diesem Grund wird CLARA hier nicht vorgestellt.
11.2
Klassifikation
11.2.1
Klassifikationstypen
Folgende Klassifikationstypen werden unterschieden • Partition, • Überdeckung, • Hierarchie und • Quasihierarchie. Wir sprechen von einer Partition, wenn die Schnittmenge zweier beliebiger Gruppen der Klassifikation leer ist. Sei K eine Klassifikation mit den Klassen K1 , K2 , . . . , Km . Gilt für beliebige Gruppen Ki ∈ K und Kj ∈ K (i = j), daß Ki ∩ Kj = ∅, so handelt es sich um eine Partition. Eine Partition ist eine spezielle Überdeckung, eine, bei der alle Klassen disjunkt sind. Angenommen, wir haben zwei Klassen: K1 = {1, 2, 3, 4} und K2 = {3, 4, 5, 6, 7}. Die Schnittmenge beider Klassen ist gleich die Menge mit den Elementen {3, 4}. Es handelt sich um keine Partition, wohl aber um eine Überdeckung. Bei ihr darf die Schnittmenge bei dem Vergleich zweier beliebiger Klassen Ki ∈ K und Kj ∈ K (i = j) ungleich der leeren Menge sein, aber die
11.2. KLASSIFIKATION
215
Schnittmenge der Klassen Ki und Kj darf weder gleich Ki noch Kj sein. Angenommen, eine Gruppierung bestehe nur aus den beiden Klassen K3 = {1, 2, 3} und K2 = {1, 2, 3, 4}. Da K3 ⊂ K4 handelt es sich nicht um eine Überdeckung. Eine Hierarchie besteht aus mehreren Stufen, wobei die Klassen einer Stufe eine Partition sind. Die Ausgangsstufe wird mit Null gekennzeichnet, die nächste mit Eins und so weiter. Die Klassen der nächst höheren Stufe i + 1 sind echte Teilmengen der Klassen in der vorangegangenen Stufe i. Sei die Ausgangsmenge gegeben durch K 0 = {1, 2, 3, 4, 5, 6}, dann wäre K 1 = {{1, 2, 3}, {4, 5, 6}} = {K11 , K12 } eine Partition auf Stufe 1 und da die Schnittmenge von K11 und K12 gleich der leeren Menge ist, handelt es sich auf Ebene 1 um eine Partition. Da wir zwei Stufen haben, liegt eine zweistufige Hierarchie vor. Ausgehend von K 0 = {1, 2, 3, 4, 5, 6} wäre eine andere Hierarchie durch K 1 = {{1, 2, 3, 4}, {5, 6}} gegeben. Wiederum ausgehend von der Menge K 0 = {1, 2, 3, 4, 5, 6} würde mit K 1 = {{1, 2, 3, 4}, {4, 5, 6}} auf Stufe eins keine Partition, wohl aber eine Überdeckung vorliegen. Da es zwei Stufen gibt und eine Überdeckung vorliegt spricht man von einer Quasihierarchie. Eine Überdeckung ist mit anderen Worten eine Quasihierarchie mit nur einer Stufe. Freilich können Hierarchien wie auch Quasihierarchien aus mehr als zwei Stufen bestehen und eine Vielzahl möglicher Gruppierungen sind denkbar. Aus diesem Grund stellt sich die Notwendigkeit, jede Gruppierung zu bewerten. Diese Fragestellung steht im folgenden Abschnitt im Mittelpunkt des Interesses.
11.2.2
Konstruktionsverfahren
Bei der Konstruktion werden zwei diametral entgegengesetzte Verfahren unterschieden: 1. agglomerative und 2. aufteilende Verfahren. Ist die Anzahl unterschiedlicher Objekte gleich n, so startet man bei Verfahren 1 mit n unterschiedlichen Klassen. Im nächsten Schritt werden jene zwei Klassen zu einem Cluster zusammengefaßt, die sich am ähnlichsten sind. So fährt man fort, bis schließlich alle Objekte in einem Cluster enthalten sind. Bei dem aufteilenden Verfahren geht man genau anders herum vor. Ausgehend von einem Cluster, das alle Objekte enthält, spaltet man dieses in zwei auf. Dies wird so lange gemacht, bis schließlich n verschiedene Gruppen vorhanden sind. Beide Verfahren können zu unterschiedlichen Klassenbildungen führen. Der Unterschied zwischen den in Programmpaket ’cluster’ enthaltenen Verfahren zur Partitionierung und zur Hierarchie besteht darin, daß bei der Bildung von Hierarchien nicht sichergestellt ist, daß es sich bei einer Partition mit m Klassen um eine beste Partition handelt.
KAPITEL 11. CLUSTERANALYSE
216
Person
Unterrichtsbeginn 8:00 Uhr
1 2 3 4 5 6 7 8 9 10
1 0 0 1 1 0 0 0 0 0
Persönliche Einschätzung zur Dringlichkeit von Übungen 80 33 55 23 87 100 50 34 45 76
Tabelle 11.1: Datenmatrix zur Bildung von zwei Partitionen Quelle: Daten frei erfunden
11.3
PAM
11.3.1
Grundlagen
PAM steht für ’Partitioning Around Medoids’. Der Name ist Programm. Gesucht wird nach einer Partition um repräsentative Objekte (= Medoiden) herum; in der Clusteranalyse werden sie auch mit den Namen ’centrotype’ oder ’medoids’ belegt (Kaufmann und Rousseeuw, 1990, S. 68 ff). Ein Objekt ist Medoid, wenn die durchschnittliche Distanz zu allen anderen Elementen des betrachteten Clusters geringer ist als die durchschnittliche Distanz irgendeines anderen Objektes desselben Clusters zu allen anderen Objekten derselben Gruppe. Wurden m repräsentative Objekte gefunden, wobei m die Anzahl der Klassen bezeichnet, so ordnet man alle verbleibenden dem nächstgelegenen Medoiden zu.
11.3.2
Beispiel 1
Problemstellung Studentenpräferenzen sowie ihre spezifischen Schwierigkeiten mit dem Fach Statistik sollen bei der Bildung von Übungsstunden berücksichtigt werden. An Hochschulen tritt häufig das Problem auf, daß sich Veranstaltungen überschneiden. Wegen persönlicher Präferenzen, Mitfahrgelegenheiten, Fahrplänen öffentlicher Verkehrsmittel und dergleichen haben Studenten im allgemeinen unterschiedliche Präferenzen hinsichtlich der zeitlichen Lage von Übungsstunden in Statistik. Studenten mit großen Problemen sollen doppelt so viele Übungsstunden erhalten als andere, um in einer weiteren Untersuchung herauszufinden, ob hierdurch der Lernerfolg und die Abbrecherquote gesenkt werden kann. Zu diesem Zweck werden 10 Studenten befragt, ob sie lieber um 8:00 Uhr oder später eine Übungsstunde hätten. Das Ergebnis ist in Spalte 2 der Tabelle
11.3. PAM
217
11.1 abgetragen. Eine ’1’ bedeutet eine Präferenz für frühen Unterricht, eine ’0’ steht für Unterricht ab 10:00 Uhr. In der ersten Spalte ist die Personennummer abgetragen. Zudem sollen die Studenten ihre Schwierigkeiten mit dem Fach auf einer Skala von 0 bis 100 angeben, wobei ’0’ keine Schwierigkeiten und ’100’ extreme Schwierigkeiten bedeutet. Die entsprechenden Werte sind in der letzten Spalte der Tabelle 11.1 widergegeben. Freilich wird man für 10 Studenten keine getrennten Übungsstunden abhalten. Um die Klassifizierung nachvollziehbar zu halten, werden aber nur 10 statistische Einheiten betrachtet. Die Daten für dieses Beispiel sind in Daten-Beispiel-pam.Rdata abgelegt. Ziel ist es, zwei Übungsgruppen zu bilden, wobei all jene Studenten mit hohen Schwierigkeiten und möglichst gleicher Präferenz für die Tageszeit zu einer Gruppe zusammengefaßt werden sollen. Bestimmung der Distanzmatrix Als erstes ist zu entscheiden, wie der Unterschied zwischen den Personen gemessen werden soll. Denn es ist zu erwarten, daß dies entscheidenden Einfluß auf die Gruppenbildung hat. Zu diesem Zweck ist das Skalenniveau der Variablen festzulegen. Der Unterrichtsbeginn ist bereits bei der Erhebung als binäre Variable aufgefaßt worden, ’1’ bedeutet Unterrichtsbeginn um 8:00 Uhr, ’0’ bedeutet später. Es gibt keinen triftigen Grund, diese Variable als asymmetrisch zu betrachten. Deshalb wird sie als symmetrisch festgelegt. Die zweite Variable beruht auf einer Selbsteinschätzung; die Differenzen sind nicht interpretierbar. Aus diesem Grund wird diese Variable als ordinal eingestuft. Zweitens ist zu bestimmen, wie beide Variablen gewichtet werden sollen. Wird das Verfahren ’gower’ verwendet, so gehen beide mit gleichem Gewicht in die Berechnung der Distanzindizes ein. Diese Einstellung soll im ersten Durchlauf verwendet werden. Die Distanzmatrix wird mit dem Befehl ’daisy’ berechnet. Daß der Unterrichtsbeginn eine symmetrische Variable ist, kann in dieser Anweisung direkt eingespeist werden. Um die persönliche Einschätzung als ordinale Variable zu kennzeichnen ist allerdings ein Zwischenschritt nötig. Die Datenmatrix 11.1 ist unter dem Namen ’x’ abgespeichert. Der Befehl > x2 <- as.ordered(x[,2]) > x2 [1] 80 33 55 23 87 100 50 34 45 76 Levels: 23 < 33 < 34 < 45 < 50 < 55 < 76 < 80 < 87 < 100. weist Variable zwei als ordinalskaliert aus. Die Zusammenfassung der ersten Spalte von ’x’ und ’x2’ ergibt die neue Datenmatrix ’x3’. > x3 <- data.frame(x[,1],x2) Durch Anweisung
218
KAPITEL 11. CLUSTERANALYSE
> input3 <- daisy(x3,metric="gower",stand=FALSE,type=list(symm=1)) > input3 Dissimilarities : 1 2 3 ... 2 0.83333333 3 0.61111111 0.22222222 4 0.38888889 0.55555556 0.77777778 ... Metric : mixed ; Types = S, O Number of objects : 10 werden beide Merkmale unterschiedlichen Skalenniveaus miteinander verknüpft: es wird die Metrik ’gower’ verwendet, die Variablen werden nicht standardisiert und die erste Variable wird als binäres symmetrisches Merkmal gekennzeichnet. erkennt automatisch, daß die Variable in der zweiten Spalte von ’x3’ ordinal skaliert ist, was man an der zweitletzten Zeile erkennen kann. Hier findet sich die Information, daß es sich um Merkmale unterschiedlichen Skalenniveaus handelt; anschließend sind die Typen der vorhandenen Skalenniveaus angezeigt: ’S’ für symmetrische binäre Variable und ’O’ für eine ordinal skalierte. Bestimmung der Cluster Da zwei Partitionen gebildet werden sollen, wird ’PAM’ genutzt. Es wird die Distanzmatrix ’input3’ eingespeist, zwei Klassen sollen gebildet werden. Bei den eingegebenen Daten handelt es sich um eine Distanzmatrix (’diss=TRUE), wobei eine Standardisierung der Variablen nicht erfolgt. Da aber bereits eine Distanzmatrix eingelesen wird, wird diese Anweisung ignoriert, d.h. sie kann auch gänzlich entfallen. > output3 <- pam(input3,2,diss=TRUE,stand=FALSE) > output3 Medoids: ID [1,] 1 1 [2,] 7 7 Clustering vector: [1] 1 2 2 1 1 2 2 2 2 2 ... Das Ergebnis der Klassenbildung ist unter dem Namen ’output3’ abgelegt. Als erstes werden die verwendeten Medoiden angezeigt. Die Personen ’1’ und ’7’ wurden als solche genutzt. Unter ’Clustering vector’ sind Zahlen angegeben, wobei die erste Zahl die Gruppe angibt, zu der das erste Objekt zugeordnet wurde, die zweite Zahl gibt das Cluster der zweiten statistischen Einheit an. Es ergibt sich demgemäß, daß die Personen ’1, 4, 5’ zu Cluster eins und die anderen zu einer weiteren Gruppe zusammengefaßt wurden. Vergleicht man dieses
11.3. PAM
219
Ergebnis mit der zugrundeliegenden Datenmatrix, so scheint das Merkmal Unterrichtsbeginn entscheidenden Einfluß gehabt zu haben. Die Aufteilung in zwei Gruppen ist ungleichmäßig. Will man eine gleichmäßigere Aufteilung erreichen, so könnten bei der Bestimmung der Distanzmatrix die Merkmale verschieden gewichtet werden. Beispielsweise könnte größerer Wert auf das zweite Merkmal gelegt werden. In ’input4’ ist eine Distanzmatrix, die allein aufgrund des ersten Merkmals erzeugt wurde, dargestellt und ’input5’ enthält eine, die ausschließlich auf Basis des zweiten Merkmals beruht. > input4 <- daisy(data.frame(x[,1]),metric="gower", stand=FALSE,type=list(symm=1)) > input4 Dissimilarities : 1 2 3 4 5 6 7 8 9 2 1 3 1 0 4 0 1 1 5 0 1 1 0 6 1 0 0 1 1 7 1 0 0 1 1 0 8 1 0 0 1 1 0 0 9 1 0 0 1 1 0 0 0 10 1 0 0 1 1 0 0 0 0 Metric : mixed ; Types = S Number of objects : 10 > input5 <- daisy(data.frame(x2),metric="gower",stand=FALSE) > input5 Dissimilarities : 1 2 3 4 ...7 2 0.6666667 3 0.2222222 0.4444444 4 0.7777778 0.1111111 0.5555556 5 0.1111111 0.7777778 0.3333333 0.8888889 ... Metric : mixed ; Types = O Number of objects : 10 Faßt man beide Matrizen zu einer zusammen und gewichtet beide mit 0, 5, so erhält man dasselbe Ergebnis wie oben, als als Metrik ’gower’ verwendet wurde. > input6 <- .5*input4+.5*input5 > input6 Dissimilarities : 1 2 2 0.83333333 3 0.61111111 0.22222222
3
4
...
KAPITEL 11. CLUSTERANALYSE
220
4 0.38888889 0.55555556 0.77777778 5 0.05555556 0.88888889 0.66666667 0.44444444 ... Metric : mixed ; Types = S Number of objects : 10 Wird das erste Merkmal mit 1/10 und das zweite mit 9/10 gewichtet, so erhält man folgende Klassifizierung. Nun werden die Objekte ’1, 3, 5, 6, 10’ zur Klasse ’1’ und die restlichen zu anderen zusammengefaßt. Wir erhalten zwei gleichgroße Gruppen. In Klasse ’1’ sind zwei Personen, die gerne früh mit dem Unterricht beginnen möchten und alleseamt Personen, mit größeren Schwierigkeiten als in der anderen Gruppe. > input7 <- (1/10)*input4+(9/10)*input5 > output7 <- pam(input7,2,diss=TRUE) > output7 Medoids: ID [1,] 1 1 [2,] 8 8 Clustering vector: [1] 1 2 1 2 1 1 2 2 2 1 Objective function: build swap 0.18 0.16 Available components: [1] "medoids" "id.med" "isolation" [6] "clusinfo" "silinfo"
11.3.3
"clustering" "objective" "diss"
"call"
Bestimmung der Medoiden*
Bislang wurde nicht explizit auf das eigentliche Ziel der Clusteranalyse eingegangen, daß Gruppen gebildet werden sollen, bei denen sich Objekte in derselben Klasse möglichst ähnlich und die Unterschiede zwischen den Klassen möglichst groß sind. Die Nutzung bestimmter Objekte als Medoid hat Einfluß auf die Klassenbildung und damit darauf, wie gut die Klassifizierung ist. Zudem muß es für die Klassenbildung ein Gütekriterium geben, das als Zielfunktion dient, um jene Objekte als Medoiden festlegen zu können, die zu einer möglichst guten Klassifizierung führen. Als Zielfunktion (= Gütekriterium) dient die Minimierung der Summe der Distanzen aller Objekte zu ihrem nahegelegenen Medoiden. Folglich ist ein Suchalgorithmus nötig, womit Medoiden bestimmt werden, der zur Minimierung dieser Summe geeignet sind. Diese Aufgabe wird in ’PAM’ in zwei Teilaufgaben aufgesplittet,
11.3. PAM
221
• die ’Build’-Phase und • die ’SWAP’-Phase. In der Build-Phase wird eine Ausgangskonfiguration bestimmt, die als Start in der ’SWAP’-Phase dient, um die Zielfunktion weiter zu verringern. Build-Phase 1. Bestimmung des ersten Medoiden i1 : Bestimme das Objekt, bei dem die Summe der Distanzen zu allen anderen Objekten minimal ist. 2. Bestimmung des zweiten Medoiden: Suche einen zweiten Medoiden, der die Zielfunktion im Vergleich zu allen anderen am meisten senkt. Diese Aufgabe wird in den folgenden Schritten erledigt. (a) Wähle i = i1 . (b) Berechne die Distanzen d(j, i1 ) und d(j, i) und ziehe die zweite von der ersteren ab: d(j, i1 ) − d(j, i). (c) Falls diese Differenz positiv ist, so wird die Zielfunktion verringert, falls nicht, so wird der Beitrag zur Verminderung der Zielfunktion mit Null angesetzt: Cij := max(d(j, i1 ) − d(j, i), 0). (d) Errechne
Cij .
(11.1)
(11.2)
j
(e) Wähle jenes i als zweiten Medoiden i2 , für den der Ausdruck 11.2 maximal ist. 3. Die Bestimmung des nächsten Medoiden, iz , unterscheidet sich von der des zweiten nur dadurch, daß in 2b und 2c statt d(j, i1 ) der Ausdruck min d(j, ik ) mit k ∈ {1, . . . , z − 1} ik
ersetzt wird und i = {i1 , . . . , iz−1 }. 4. Wiederhole 3 so lange, bis z gleich der Anzahl vorgegebener Klassen, m, ist. SWAP-Phase In der zweiten Phase, SWAP, wird versucht, die erhaltenen repräsentativen Objekte aus der Build-Phase zu verbessern. In dieser Phase wird überprüft, ob durch einen Austausch des Medoiden ik durch das Objekt h eine Verbesserung der Klassifizierung erreicht werden kann. Es können folgende Situationen voneinander unterschieden werden:
KAPITEL 11. CLUSTERANALYSE
222
1. j ist vor der Vertauschung einem anderen Medoiden als ik zugeordnet. Dann gibt es nach der Vertauschung zwei Möglichkeiten: (a) Eine Verbesserung ist nicht möglich. Das betrachtete Objekt j bleibt auch nach einem Austausch des Medoiden ik durch h der bisherigen Gruppe zugeordnet. (b) Sodann gibt es die Möglichkeit, daß j vor der Vertauschung des Medoiden ik mit h zwar zu einem anderen Medoiden als ik die geringste Distanz aufwies, aber nach dem Tausch ist die Distanz zwischen j und dem neuen Medoiden h geringer. 2. j ist bislang dem Medoiden ik zugeordnet. Nach seiner Ersetzung durch Objekt h gibt es zwei Möglichkeiten: (a) Die Distanz von j zu dem neuen Medoiden h ist im Vergleich zu allen anderen existierenden Medoiden am geringsten. (b) Die Distanz zu einem bislang bereits existierenden Medoiden ist nach der Auswechslung von ik durch h am geringsten. Im folgenden wird die SWAP-Phase etwas detaillierter angegeben. Die herbei angesprochenen Schritte 2 und 3 entsprechen den obigen 1 bzw. 2. Bezeichne ik , k ∈ {1, . . . , m} einen Medoiden als Ergebnis der Build-Phase, dann wird in der SWAP-Phase der Einfluß einer Vertauschung von ik mit Objekt h ∈ / {i1 , . . . , im } auf die Zielfunktion untersucht. Die SWAP-Phase besteht aus folgenden Schritten. Hierbei sei iz ∈ {i1 , . . . , im } mit iz = ik ein von ik verschiedener Medoid. 1. Wähle ein Objekt j und überprüfe seine Entfernung zu ik , h und iz . 2. (a) Ist die Entfernung d(j, iz ) für ein z ∈ {1, . . . , m} mit z = k geringer als d(j, ik ) und geringer als d(j, h), so ist die Verbesserung infolge des SWAP (= Vertauschung) gleich Null. Mit anderen Worten ist die Entfernung zu einem anderen Medoiden geringer, weshalb durch eine Vertauschung von ik und h nichts gewonnen wird. (b) Schließlich ist der Fall denkbar, daß j näher bei einem Medoiden iz ∈ {1, . . . , m} mit z = k liegt als bei ik , gleichzeitig aber näher bei h als bei irgendeinem Medoiden aus {i1 , . . . , im }. In diesem Fall vermindert sich die Zielfunktion durch einen SWAP: ΔZiel(ik , h)j = d(j, h) − Ej , denn unter diesen Umständen ist diese Differenz in jedem Fall negativ (leicht anders als in (Kaufmann und Rousseeuw, 1990, S. 68 ff)). 3. Sollte für alle z ∈ {1, . . . , m} mit z = k gelten, daß Dj := d(j, ik ) d(j, iz ), so gibt es zwei Möglichkeiten.
11.3. PAM
223
(a) d(j, h) < Ej :=
min
z∈{1,...,m}
d(j, iz ) mit z = k,
d.h. daß die Distanz zwischen j und h geringer ist als die Distanz zwischen j und dem zweitnächsten Medoiden. In diesem Fall würde j dem neuen Medoiden h zugeordnet. Die Veränderung der Zielfunktion errechnet sich als Änderung Zielfunktion = ΔZiel(ik , h)j = d(j, h) − d(j, ik ). Diese Differenz kann positiv oder auch negativ sein. (b) Es kann auch sein, daß d(j, h) Ej :=
min
z∈{1,...,m}
d(j, iz ) mit z = k,
also daß die Distanz zwischen j und h größer oder gleich der Distanz von j zum zweitnächsten Medoiden ist. Dann würde j durch einen SWAP von ik zu h als neuem Medoiden, der ik ersetzt, nicht h sondern dem zweitnächsten Medoiden zugeordnet. Die Zielfunktion würde sich um die Distanz Dj verringern und um Ej erhöhen. Infolgedessen ändert sich die Zielfunktion um Änderung Zielfunktion = ΔZiel(ik , h)j = Ej − Dj . Diese Differenz ist immer positiv. 4. Die Schritte 1 bis 3 werden für jedes j durchgeführt. Anschließend wird berechnet, um welchen Betrag sich die Zielfunktion durch einen SWAP von ik zu h insgesamt verändert: ΔZiel(ik , h)gesamt = ΔZiel(ik , h)j . (11.3) j
/ {i1 , . . . , im } Die Schritte 1 bis 4 werden für alle ik ∈ {i1 , . . . , im } und h ∈ durchgeführt. Dann wird überprüft, ob ein SWAP durchgeführt werden soll oder nicht. Hierzu wird min ΔZiel(ik , h)gesamt (11.4) ik ,h
bestimmt. Ist das Minimum negativ, so verringert sich durch einen SWAP von ik zu h die Zielfunktion und der Austausch wird vollzogen. Danach beginnt der Prozeß erneut bei 1. Ist das Minimum gleich oder größer als Null so endet der Prozeß.
11.3.4
Beispiel 2
In dem nachfolgendem Befehl wird wiederum ’input3’ von Seite 217 verwendet. Als Medoiden werden ad hoc die Objekte ’6’ und ’9’ verwendet. Dann ergibt
KAPITEL 11. CLUSTERANALYSE
224
sich jedoch im Vergleich zu der Verwendung der Build- und SWAP-Phase (siehe Seite 218) eine andere Klassifizierung. Nun werden die Personen ’1,5,6’ zu einer Gruppe zusammengefaßt. Zudem ist die Zielfunktion (=0.2333) höher als vorher (= 0,122). Gemessen an der Zielfunktion ist folglich die Klassifizierung schlechter. Obwohl beide Merkmale mit gleichem Gewicht in die Distanzmatrix eingehen, werden jene Objekte zusammengefaßt, die einen großen Bedarf an Übungen haben. > output8 <- pam(input3,2,diss=TRUE,medoids=c(6,9),do.swap=FALSE) > output8 > Medoids: ID [1,] 6 6 [2,] 9 9 Clustering vector: [1] 1 2 2 2 1 1 2 2 2 2 Objective function: build swap 0.2333333 0.2333333 Available components: [1] "medoids" "id.med" "isolation" [6] "clusinfo" "silinfo"
11.3.5
"clustering" "objective" "diss"
"call"
Isolierte Cluster
Wir sagen, daß Cluster K1 isoliert ist, wenn es ein L-Cluster oder ein L∗ -Cluster gibt (Kaufmann und Rousseeuw, 1990, S. 83). K1 ist ein L-Cluster, wenn: ∀i ∈ K1 : max d(i, j) < min d(i, h). j∈K1
h∈K / 1
(11.5)
Sollte dagegen max d(i, j) <
i,j∈K1
min
l∈K1 ,h∈K / 1
d(l, h)
(11.6)
gelten, so ist K1 ein L∗ -Cluster. Wenn K1 ein L∗ -Cluster ist, so ist es auch ein L-Cluster. Denn angenommen, d(˜i, ˜j) = max d(i, j). i,j∈K1
Dann gilt für ein beliebiges Element k ∈ K1 : max d(k, j) d(˜i, ˜j) <
j∈K1
min
l∈K1 ,h∈K / 1
d(l, h) min d(k, h), h∈K / 1
was zu beweisen war. Wird eine Menge von Objekten in zwei Cluster aufgeteilt, so kann es vorkommen, daß nur eines der beiden separiert ist. Der Ausdruck max d(i, j)
i,j∈K1
(11.7)
11.3. PAM
225
heißt Diameter der Gruppe K1 und min
l∈K1 ,h∈K / 1
d(l, h)
(11.8)
Separation. Es zeigt sich, daß die Existenz von L- bzw. L∗ -Clustern wichtige Hinweise sind, ob die gefundenen Partitionen sinnvoll sind oder nicht. Ergibt sich, daß kein Cluster von anderen separiert ist, so stellt sich die Frage, ob die gefundenen Cluster eine sinnvolle Partition bilden. In nachfolgendem Beispiel wird dies deutlich.
11.3.6
Beispiel 3
Das Beispiel von Seite 224 wird fortgeführt. Über die Anweisung ’summary(.)’ kann in Erfahrung gebracht werden, ob isolierte Cluster existieren oder nicht. Im Falle des ’output8’ gibt es keine; bei ’output3’ sind beide Gruppen L∗ -Cluster und somit isoliert. Bei ’output8’ wurden irgendwelche Objekte als Medoiden gewählt. Keines der hierdurch gebildeten Cluster ist separiert. Wird dagegen die Build- und SWAP-Phase genutzt, wie bei ’output3’, so sind die so gebildeten Cluster separiert. > summary(output8) Medoids: ID [1,] 6 6 [2,] 9 9 Clustering vector: [1] 1 2 2 2 1 1 2 2 2 2 Objective function: build swap 0.2333333 0.2333333 Numerical information per cluster: size max_diss av_diss diameter separation [1,] 3 0.6111111 0.3888889 0.6111111 0.1666667 [2,] 7 0.6666667 0.1666667 0.8333333 0.1666667 Isolated clusters: L-clusters: character(0) L*-clusters: character(0) ... > summary(output3) Medoids: ID [1,] 1 1
KAPITEL 11. CLUSTERANALYSE
226
Silhouette plot of pam(x = input3, k = 2, diss = TRUE, stand = FALSE) 2 clusters Cj
n = 10
j : nj | avei∈Cj si
1
1 : 3 | 0.59
5 4 7 9 3
2 : 7 | 0.75
8 10 2 6
0.0
0.2
0.4
0.6
0.8
1.0
Silhouette width si Average silhouette width : 0.7
Abbildung 11.2: Silhouette des ’output3’ Quelle: eigene Darstellung
[2,] 7 7 Clustering vector: [1] 1 2 2 1 1 2 2 2 2 2 Objective function: build swap 0.1222222 0.1222222 Numerical information per cluster: size max_diss av_diss diameter separation [1,] 3 0.3888889 0.1481481 0.4444444 0.5555556 [2,] 7 0.2777778 0.1111111 0.4444444 0.5555556 Isolated clusters: L-clusters: character(0) L*-clusters: [1] 1 2 ...
11.3.7
Überprüfung der Klassenbildung
Ein weiteres Instrument zur Veranschaulichung wie auch zur Überprüfung der Klassenbildung ist die ’Silhouette’, die für die Klassenzahl m 2 definiert ist. Für den ’output3’ von Seite 218 ist sie in Abbildung 11.2 dargestellt. An der Abszisse ist die Silhouettenweite, s(i), und an der Ordinate für jede Klasse ei-
11.3. PAM
227
ne Silhouette abgetragen, wobei auch die zugehörigen Objekte angegeben werden. Rechts findet sich die Anzahl der Objekte der jeweiligen Klasse sowie die durchschnittliche Silhouettenweite für jedes Cluster. Die drei Objekte des ersten haben beispielsweise eine durchschnittliche Silhouettenweite von 0, 59, das zweite mit sieben Objekten eine von 0, 75. Ganz unten ist die durchschnittliche Silhouettenweite für alle Objekte angegeben; hier beträgt sie 0, 7. Die Silhouettenweite, s(i), ist eine Maßzahl, die aus den Maßen a(i) und b(i) gebildet wird. a(i) := durchschnittliche Distanz zu allen anderen Objekten derselben Gruppe. (11.9) Gibt es in dieser keine anderen Objekte, so kann a(i) nicht berechnet werden. / Kz zu d(i, Kz ) sei die durchschnittliche Distanz des Objektes i ∈ Kk und i ∈ der Klasse Kz . b(i) ist dann wie folgt definiert: b(i) := min d(i, Kz ). Kz ,z=k
(11.10)
Sei ohne Beschränkung der Allgemeinheit Cluster K2 jenes mit geringstem durchschnittlichem Abstand zu Objekt i. Dann heißt K2 Nachbar des Objektes i. Mit anderen Worten würde Objekt i der Klasse Kz zugeordnet, wenn es Klasse Kk nicht gäbe. a(i) und b(i) können in drei verschiedenen Konstellationen zueinander stehen. Erster Fall: Ist a(i) < b(i) so ist die durchschnittliche Distanz zu den Objekten derselben Klasse kleiner als diejenige von i zu der nächstbesten Gruppe, die Zuordnung erscheint sinnvoll. Zweiter Fall: Sollte a(i) = b(i) gelten, so wäre es gleich, zu welchem Cluster Objekt i zugeordnet würde. Dritter Fall: ist a(i) > b(i), so wäre i besser bei dem nächstbesten Cluster aufgehoben. In Fall 1 ist s(i) definiert als s(i) :=
b(i) − a(i) b(i)
und es gilt dann 0 < s(i) 1. Im dritten Fall ist s(i) :=
b(i) − a(i) a(i)
und −1 s(i) < 0, ansonsten ist s(i) gleich Null. Folglich kann geschrieben werden b(i) − a(i) . (11.11) s(i) := max(a(i), b(i)) mit −1 s(i) 1. Demgemäß besitzt s(i) folgende Bedeutung. Ist es nahe der Eins, so erscheint die vorgenommene Zuordnung als sinnvoll, da die Distanz zu dem zweitbesten Cluster erheblich schlechter ist als die vorgenommene. Je näher s(i) der Null
KAPITEL 11. CLUSTERANALYSE
228
Silhouette plot of pam(x = input3, k = 2, diss = TRUE, medoids = c(6, 9), do.swap = FALSE) 2 clusters Cj
n = 10
j : nj | avei∈Cj si
5
1 : 3 | 0.25
1 6 8 9 2
2 : 7 | 0.50
7 3 10 4
−0.2
0.0
0.2
0.4
0.6
0.8
1.0
Silhouette width si Average silhouette width : 0.42
Abbildung 11.3: Silhouette des ’output8’ Quelle: eigene Darstellung
kommt, desto weniger überzeugend ist die Zuordnung, da die durchschnittlichen Distanz des Objektes i zu der nächstbesten Gruppe annähernd so gut ist wie die vorgenommene. Ist s(i) negativ, so wäre i besser einer anderen Gruppe zuzuordnen, die vorgenommene Klassenbildung erscheint nicht sinnvoll.
11.3.8
Beispiel 4
Aus Abbildung 11.2 ist zu erkennen, daß alle Objekte eine positive Silhouettenweite aufweisen. Einzig Objekt ’4’ besitzt eine unter 0, 4, ein schwaches Anzeichen für eine möglicherweise nicht geeignete Zuordnung. Die durchschnittlichen Silhouettenweiten der beiden Cluster sind oberhalb von 0, 5, was prinzipiell als Anzeichen für eine zufriedenstellende Klassifikation angesehen werden kann. Die durchschnittliche Silhouettenweite über alle Objekte hinweg beträgt 0, 7, ist positiv und in der Nähe der +1: ein Hinweis für eine befriedigende Gruppeneinteilung. In Abbildung 11.3 ist die Silhouette der Klassenbildung mit arbiträren Medoiden (siehe Seite 224) dargestellt. Diese Klassenbildung minimiert die Zielfunktion nicht und sollte infolgedessen ungünstige Werte bei der Silhouettenweite aufweisen, d.h. es sollte sich zeigen, daß einige Objekte fehlklassifiziert sind. In der Tat sind die Silhouettenweiten der Objekte ’6’ und ’4’ negativ. Dies sind Hinweise auf falsche Gruppenzuordnungen. Die durchschnittlichen Silhouettenweiten je Cluster als auch die durchschnittliche Silhouettenweite über alle Objekte hinweg ist im Vergleich zu vorher geringer.
11.4. FANNY
11.3.9
229
Bestimmung der Klassenzahl
In unserem Beispiel, das auf Seite 216 begann, ergab sich aus der Problemstellung, daß lediglich zwei Gruppen gebildet werden sollen, da annahmegemäß nicht mehr Ressourcen zur Verfügung stehen. Gibt es diese Begrenzung nicht oder könnten maximal 9 Gruppen gebildet werden, so würde sich die Frage danach stellen, wie viele Gruppen sinnvoller Weise gebildet werden sollten. Zur Beantwortung dieser Frage eignet sich die durchschnittliche Silhouettenweite. Man berechnet diese bei gegebener Distanzmatrix für alle Klassenzahlen, m = 2, . . . , n − 1 und wählt dann jenes m, das die maximale durchschnittliche Silhouettenweite über alle Objekte aufweist. Dieses Maß heißt Silhouettenkoeffizient SC (Kaufmann und Rousseeuw, 1990, S. 87) : SC := max s¯(k).
(11.12)
k
11.3.10
Beispiel 5
Ausgehend von ’input3’ wird für unterschiedliche Klassenanzahl, m, jeweils die gesamte Silhouettenweite berechnet. Es ergeben sich folgende Werte: Klassananzahl k durchschnittliche Silhouettenweite
2 0,7
3 0,67
4 0,48
5 0,47
6 0,43
7 0,27
8 0,22
9 0,05
Demgemäß ist der Silhouettenkoeffizient gleich 0,7 und folglich sollte eine Gruppierung in m = 2 Gruppen vorgenommen werden.
11.4
FANNY
11.4.1
Grundlagen
Mit PAM werden alle Objekte irgendeinem Cluster zugeordnet. Anhand der Silhouette und Silhouttenweite einzelner Objekte kann man bereits erkennen, ob die Zuordnung sinnvoll ist oder nicht. Ist die Silhouettenweite nahe Null, so ist die Zuordnung nicht sehr überzeugend. Gerade auf solche Fälle ist das Verfahren ausgelegt, das im Programm FANNY implementiert wurde. In FANNY werden Mitgliedschaftskoeffizienten ermittelt, die Auskunft darüber geben, mit wieviel Prozent ein Objekt einem bestimmten Cluster zugeordnet wird. Die Eingabeformate wie auch die Behandlung von Missings sind bei PAM und FANNY identisch (Informationen hierzu finden sich auf den Hilfeseiten des Programms), doch im Gegensatz zu PAM werden bei FANNY keine repräsentativen Objekte genutzt. Stattdessen wird versucht, folgende Zielfunktion zu minimieren (Kaufmann und Rousseeuw, 1990, S. 80, 169, 171): m n 2 2 i,j=1 uik ujk d(i, j) n , (11.13) 2 · j=1 u2jk k=1
KAPITEL 11. CLUSTERANALYSE
230
wobei uik bedeutet, daß Objekt i zu Gruppe k gehört. Der Mitgliedschaftskoeffizient uik unterliegt folgenden Restriktionen: uik 0 für i = 1, . . . , n; k = 1, . . . , m und
m
uik = 1 für i = 1, . . . , n.
(11.14)
(11.15)
k=1
Gesucht werden alle Mitgliedschaftskoeffizienten, uik , i = 1, . . . , n; k = 1, . . . , m, die die Zielfunktion unter den angegebenen Nebenbedingungen minimieren. Gemäß Zielfunktion 11.13 berechnet man für jedes Cluster k den Quotienten n 2 2 i,j=1 uik ujk d(i, j) n . 2 · j=1 u2jk Auf dem Bruchstrich werden die Distanzen, d(i, j), zwischen allen Objekten i und j in Cluster k jeweils multipliziert mit den beiden Mitgliedschaftskoeffizienten uik und ujk aufsummiert. In dieser Summe sind die Distanzen d(i, j) als auch d(j, i) enthalten, die wegen Eigenschaft 3 (siehe Seite 191) von Distanzindizes einander gleich sind. Damit jede Distanz nur einmal in die Zielfunktion eingeht, wird der Zähler durch zwei dividiert. Je größer die Mitgliedschaft der Objekte j in Klasse k sind (= nj=1 u2ik ), desto geringer wird die Ungleichheit zwischen Objekt i für i = 1, . . . , n und den anderen Objekten j in Klasse k gewichtet. Über einen Lagrange-Ansatz werden die nötigen Bedingungen für ein Minimum der Zielfunktion bestimmt, die den Ausgangspunkt für ein iteratives Optimierungsverfahren bilden. Für die praktische Anwendung ist die Herleitung und Darstellung des Optimierungsverfahrens von geringem Interesse; es kann nachgelesen werden bei (Kaufmann und Rousseeuw, 1990, S. 182ff). Aus diesem Grund werden hier nur die wichtigsten Zwischenschritte präsentiert, um FANNY adäquat nutzen zu können. Die Ableitung der Lagrange-Funktion ergibt uik · 2 · j u2jk d(i, j) uik h j u2jk u2hk d(h, j) ∂L 2 = − −γi −ψik = 0, (11.16) ∂uik ( j u2jk )2 j ujk mit γ und ψ als Lagrange-Parameter, was mit aik =
2·
u2 d(i, j) jk2 − j ujk j
h
u2 u2 d(h, j) jk 2hk2 ( j ujk ) j
(11.17)
geschrieben werden kann als aik uik − γi − ψi = 0.
(11.18)
11.4. FANNY
231
Als Lösung des Minimierungsproblems ergibt sich nach einigen Zwischenschritten: 1/aik 0} (11.19) uik = 0 für k ∈ {k : w (1/aiw ) und uik =
1/aik w∈{k:
1/aik >0} (1/aiw ) w
(1/aiw )
für k ∈ {k :
1/aik > 0} w (1/aiw )
(11.20)
Gleichungen 11.19 11.20 sind die Optimalitätsbedingungen, die zu einem Minimum der Zielfunktion 11.13 unter Einhaltung der Nebenbedingungen 11.14 und 11.15 führen. Für jedes i gibt es eine Bestimmungsgleichung zur Berechnung des Mitgliedschaftskoeffizienten in Gruppe k, uik : entweder ist es 11.19 oder 11.20. Allerdings sind die Größen aik in diesen Gleichungen wiederum abhängig von den Mitgliedschaftskoeffizienten uik . Deshalb ist eine analytische Lösung des Minimierungsproblems nicht möglich. Startet man jedoch mit einer Ausgangskonfiguration der Mitgliedschaftskoeffizienten uik , so lassen sich diese Werte in 11.17 einsetzen und neue Werte uik berechnen. Genau dieses Verfahren wurde in FANNY umgesetzt.
11.4.2
Beispiel 1
Das Beispiel 11.3.2 von Seite 216 wird mit FANNY bearbeitet. Als Distanzmatrix wird ’input3’ von Seite 217 verwendet. Ebenso wie dort sollen zwei Partitionen gebildet werden. Anstatt Zielfunktion 11.13 zu verwendet, wird in FANNY m n r r i,j=1 uik ujk d(i, j) n , (11.21) 2 · j=1 urjk k=1
wobei r als Mitgliedschaftsexponent bezeichnet wird, genutzt. Für r = 2 erhält man wiederum die Zielfunktion 11.13. Der Mitgliedschaftsexponent hat Einfluß auf das Konvergenzverhalten des Iterationsverfahrens und kann, falls der Prozeß nicht oder sehr langsam konvergiert, angepaßt werden. Je näher r an ’1’ zu liegen kommt, desto klarer erfolgt die Zuordnung der Objekte zu Gruppen; je größer er wird, desto unklarer wird sie. Im Programm erfolgt die Einstellung über ’memb.exp’. Mit ’iniMem.p’ kann eine Ausgangskonfiguration der Mitgliedschaftskoeffizienten uik vorgegeben werden. > outputfanny3 <- fanny(input3,2,diss=TRUE,memb.exp=2, iniMem.p=NULL) Als Ergebnis des Optimierungsprozesses (siehe unten) wird zuerst die grundlegende Parametereinstellung ’m.ship.expon’ und anschließend der Wert der Zielfunktion angezeigt. Nach 16 Iterationen wurde der Prozeß abgebrochen, da
232
KAPITEL 11. CLUSTERANALYSE
die Toleranzschwelle von 10−15 unterschritten wurde. Der iterative Prozeß konvergierte, wobei maximal 500 Iterationen möglich gewesen wären. Nach der Angabe der Anzahl der Objekte n ist das eigentlich interessierende Ergebnis: die Angabe der Mitgliedschaftskoeffizienten für jedes Objekt i zu den Klassen k = 1, 2 für m = 2. In der ersten Zeile stehen die Koeffizienten u1k für k = 1, 2. Mit 95 Prozent wird demgemäß Objekt 1 der Klasse 1 und mit 5 Prozent der zweiten Klasse zugerechnet. Über alle Objekte hinweg sind diese Koeffizienten bei jeder Klasse entweder nahe der Eins oder nahe der Null. Dies bedeutet, daß alle Objekte ziemlich zweifelsfrei den Klassen zugeordnet werden konnten. > outputfanny3 Fuzzy Clustering object of class ’fanny’ : m.ship.expon. 2 objective 0.6978562 tolerance 1e-15 iterations 16 converged 1 maxit 500 n 10 Membership coefficients (in %, rounded): [,1] [,2] [1,] 95 5 [2,] 13 87 [3,] 8 92 [4,] 72 28 [5,] 94 6 [6,] 28 72 [7,] 5 95 [8,] 8 92 [9,] 6 94 [10,] 13 87 ... (wird unten fortgesetzt)
11.4.3
Partition und Überdeckung
Werden viele Klassen m gebildet, so geht leicht die Übersichtlichkeit verloren. Außerdem wäre es interessant, die Ergebnisse von FANNY mit denen von PAM bei Einspeisung derselben Distanzmatrix und derselben Klassenanzahl miteinander zu vergleichen. Aus diesen Gründen stellt sich die Frage, wie eine Partitionierung auf der Grundlage der Mitgliedschaftskoeffizienten aussieht. Genau dies wird standardmäßig in FANNY gemacht. Jedes Objekt wird jener Klasse zugeordnet, bei der ihr Mitgliedskoeffizient den höchsten Wert aufweist. Eine solche Partitionierung wird unter der Überschrift ’hard clustering’, (=kompromißlose Partitionierung) ausgewiesen. Aufgrund der Ergebnisse von FANNY ist es zudem möglich, Überdeckungen
11.4. FANNY
233
zu konstruieren, auch wenn diese Möglichkeit nicht in FANNY implementiert ist. Die Aufgabe läßt sich in folgenden Schritten bearbeiten. 1. Bestimme für jedes Objekt den maximalen Mitgliedschaftskoeffizienten. 2. Berechne aus dieser Menge der maximalen Mitgliedschaftskoeffizienten den minimalen Wert, bezeichnet als ’MinMax. 3. Sollen Objekte mit geringeren Mitgliedschaftskoeffizienten als MinMax überhaupt zu anderen Gruppen zugeordnet werden? Wenn nein, so existiert keine Überdeckung, es kann allenfalls die beste Partition gebildet werden. 4. Falls ja, so gebe den Wert (= Vorgabe) an, der von dem Mitgliedschaftskoeffizienten uiz für z ∈ {1, . . . , m}, z = k, überschritten werden muß, um Objekt i zusätzlich der Gruppe k zuzuordnen. 5. Bestimme die Matrix, aus der die Zuordnung der Objekte zu (mehreren) Objekten hervorgeht. 6. Überdeckungen dürfen jedoch nicht so gebildet werden, daß eine Gruppe eine echte Teilmenge einer anderen wird. Um dies auszuschließen, muß es in jeder Gruppe Objekte geben, die nur dieser Gruppe zugeordnet sind. Überprüfe dies.
11.4.4
Beispiel 2
Unten ist die Fortsetzung des vorangegangenen Outputs widergegeben. In der fünften Zeile findet sich die Partitionierung mit FANNY. Es zeigt sich, daß sie zu demselben Ergebnis wie PAM führt. Die ’Fuzzyness coefficients’ werden in Abschnitt 11.4.5 erläutert. ... (Fortsetzung von oben) Fuzzyness coefficients: dunn_coeff normalized 0.8056881 0.6113761 Closest hard clustering: [1] 1 2 2 1 1 2 2 2 2 2 Available components: [1] "membership" "coeff" "memb.exp" "clustering" "k.crisp" [6] "objective" "convergence" "diss" "call" "silinfo" Das Beispiel wird fortgeführt, um eine Überdeckung zu bilden. Um ’MinMax’ zu bilden, wird die Matrix ’a’ erstellt. Sie ist eine (n × m)-Matrix, wobei n die Anzahl der Objekte und m die Anzahl der Gruppen angibt.
234
KAPITEL 11. CLUSTERANALYSE
> a <- matrix(c(seq(1,length=20,by=0)),ncol=2) > a [,1] [,2] [1,] 1 1 [2,] 1 1 [3,] 1 1 [4,] 1 1 [5,] 1 1 [6,] 1 1 [7,] 1 1 [8,] 1 1 [9,] 1 1 [10,] 1 1 Der nächste Befehl dient zur Bestimmung von ’MinMax’. Er besteht aus zwei Schleifen mit einer if-Anweisung. Dies dient dazu, die maximalen Mitgliedschaftskoeffizienten in die Matrix ’a’ einzulesen. > for (j in 1:2) {for (i in 1:10) {if (outputfanny3$membership[i,j] == max(outputfanny3$membership[i,])) (a[i,j] <- max(outputfanny3$membership[i,j]))}} > a [,1] [,2] [1,] 0.9532596 1.0000000 [2,] 1.0000000 0.8724454 [3,] 1.0000000 0.9249371 [4,] 0.7225815 1.0000000 [5,] 0.9399924 1.0000000 [6,] 1.0000000 0.7210560 [7,] 1.0000000 0.9490883 [8,] 1.0000000 0.9162222 [9,] 1.0000000 0.9445081 [10,] 1.0000000 0.8730935 > MinMax <- min(a) > MinMax [1] 0.721056 Es wird die Vorgabe = 0.1 gemacht, d.h. daß immer dann, wenn ein Mitgliedschaftskoeffizient größer als dieser Wert ist, zusätzlich der betreffenden Klasse zugeordnet werden soll. Im Zwischenschritt wird die Matrix ’b’ gebildet, die dieselbe Dimension wie ’a’ hat und durch den nachfolgenden Befehl geändert wird. Es handelt sich wiederum um zwei Schleifen mit einer if-Anweisung, was dazu führt, daß alle Mitgliedschaftskoeffizienten in Matrix ’a’ eingelesen werden, wenn die Vorgabe überschritten wird. # Gebe einen minimalen Mitgliedschaftskoeffizienten an.
11.4. FANNY
235
> Vorgabe <- 0.1 > b <- matrix(c(seq(0,length=20,by=0)),ncol=2) > b [,1] [,2] [1,] 0 0 [2,] 0 0 [3,] 0 0 [4,] 0 0 [5,] 0 0 [6,] 0 0 [7,] 0 0 [8,] 0 0 [9,] 0 0 [10,] 0 0 > for (j in 1:2) {for (i in 1:10) {if (outputfanny3$membership[i,j] > Vorgabe) (b[i,j] <- outputfanny3$membership[i,j])}} > b [,1] [,2] [1,] 0.9532596 0.0000000 [2,] 0.1275546 0.8724454 [3,] 0.0000000 0.9249371 [4,] 0.7225815 0.2774185 [5,] 0.9399924 0.0000000 [6,] 0.2789440 0.7210560 [7,] 0.0000000 0.9490883 [8,] 0.0000000 0.9162222 [9,] 0.0000000 0.9445081 [10,] 0.1269065 0.8730935 Schließlich wird die Matrix erstellt, anhand derer abgelesen werden kann, ob ein Objekt nur einer oder mehreren Gruppen zugeordnet wird. Eine ’1’ bedeutet, daß das Objekt der Gruppe zugeordnet wird, eine ’0’ das Gegenteil. Stehen in einer Zeile zwei Einsen, so wird das Objekt beiden Gruppen zugeordnet. > for (j in 1:2){for (i in 1:10){if (b[i,j] > 0)(b[i,j] <- 1)}} > b [,1] [,2] [1,] 1 0 [2,] 1 1 [3,] 0 1 [4,] 1 1 [5,] 1 0 [6,] 1 1 [7,] 0 1 [8,] 0 1 [9,] 0 1
KAPITEL 11. CLUSTERANALYSE
236 [10,]
1
1
Zum Schluß ist zu prüfen, ob jede Gruppe mindestens ein Objekt enthält, das nur diesem Cluster zugeordnet ist. Dies ist der Fall, wenn im Falle zweier Gruppen obige Matrix mindestens ein (0, 1)t - und ein (1, 0)t -Element enthält. Zur Überprüfung, daß keine Gruppe durch die Zuordnung von Objekten zu mehreren Gruppen eine echte Teilmenge einer anderen wird, dienen die nachfolgenden Befehle. Da es in jeder Gruppe Elemente gibt, die nur dieser zugeordnet sind, wurde eine Überdeckung gefunden. > ii <- order(b[,1],b[,2]) > t(rbind(b[,1],b[,2])[,ii]) [,1] [,2] [1,] 0 1 [2,] 0 1 [3,] 0 1 [4,] 0 1 [5,] 1 0 [6,] 1 0 [7,] 1 1 [8,] 1 1 [9,] 1 1 [10,] 1 1 Erhielte man aber folgende Matrix, so wäre Gruppe 1 eine echte Teilmenge von Gruppe 2 und die Definition der Überdeckung wäre verletzt.
[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,]
[,1] [,2] 0 1 0 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1
11.4.5
Überprüfung der Klassenbildung und Klassenanzahl
Die Silhouette ist kein Spezifikum von PAM, denn sie setzt kein bestimmtes Verfahren zur Bestimmung von Partititionen voraus. Aus diesem Grund kann es ebenso bei FANNY verwendet werden. Will man über FANNY die Klassenanzahl bestimmen, so geht man wie in Abschnitt 11.3.9 vor.
11.5. MONA
237
FANNY unterscheidet sich von PAM allerdings dadurch, daß die Mitgliedschaftskoeffizienten eines Objektes die Stärke seiner Klassenzugehörigkeit widerspiegelt. Bildet man auf Basis von Mitgliedschaftskoeffizienten eine kompromißlose Partition, so können die Mitgliedschaftskoeffizienten als Grundlage dienen, um ein Maß für diese kompromißlose Zuordnung zu kreieren. Entweder nutzt man nur jene Koeffizienten, die zur Bildung der Partition genutzt wurde, d.h. max uik , k
oder man nutzt alle. Bei Dunns Partitions-Koeffizient gehen alle Mitgliedschaftskoeffizienten in die Berechnung ein. m n u2ik Fm = . (11.22) n i=1 k=1
Sein maximaler Wert ist gleich ’1’, denn dann werden alle Objekte jeweils eindeutig einer und nur einer Klasse zugeordnet; alle Mitgliedschaftskoeffizienten sind entweder Eins oder Null. Sind dagegen alle Mitgliedschaftskoeffizienten gleich 1/m, dann besteht kein Grund, ein Objekt einer bestimmten Klasse zuzuordnen. Die Gruppenbildung ist völlig unscharf (= fuzzy) und der Partitions-Koeffizient nimmt seinen niedrigsten Wert an. Angesichts dessen wird der Partitionskoeffizient über Fm − (1/m) mFm − 1 = (11.23) F˜m = 1 − (1/m) m−1 auf den Bereich [0, 1] normiert und wir nennen F˜m den normierten PartitionsKoeffizienten. Er wird standardmäßig ausgegeben.
11.4.6
Beispiel 3
Der Befehl > plot(outputfanny3) erstellt die Silhouette. Der einzige Unterschied zu der bei PAM ist, daß der ausgewiesene Titel nicht auf PAM sondern FANNY verweist. Die Interpretation ist ganz analog wie in Abschnitt 11.3.7 (siehe Seite 226). In Beispiel 11.4.4 auf Seite 233 wird der Partitions-Koeffizient Fm und sein normierter Wert F˜m ausgewiesen. Er ist integraler Bestandteil der Ergebnisanzeige von FANNY.
11.5
MONA
11.5.1
Grundlagen
In diesem Abschnitt wird beschrieben, wie auf der Grundlage einer Datenmatrix mit ausschließlich binären Merkmalen eine Klassifizierung mit dem Programm ’MONA’ vorgenommen wird. ’1’ bedeutet, die Ausprägung ist existent
KAPITEL 11. CLUSTERANALYSE
238 Objekt 1 2 3 4 5 6
Variable 1 1 1 1 0 0 0
Variable 2 0 0 0 1 1 1
Variable 3 1 1 0 0 1 1
Variable 4 1 0 1 0 1 0
Tabelle 11.2: Binäre Datenmatrix Quelle: Daten frei erfunden und ’0’, sie ist nicht vorhanden. Die Herleitung einer Distanzmatrix, wie in Kapitel 10.6 beschrieben, ist nicht erforderlich. Damit entfällt auch die Unterscheidung in symmetrische und asymmetrische binäre Merkmale. Alle Objekte werden, Schritt für Schritt, in Klassen eingeteilt. Zur Illustration dient Datenmatrix 11.2. Jede Zeile repräsentiert ein Objekt, in den Spalten zwei bis fünf stehen die vier Merkmale, mit Hilfe derer die sechs Objekte in Klassen eingeteilt werden sollen. Mitnichten müssen alle vier Variablen zur Klassifikation herangezogen werden. Zur Veranschaulichung des Verfahrens, werden lediglich die beiden letzten, die Variablen drei und vier, verwendet. Die Klasseneinteilung erfolgt in zwei Schritten. Zunächst werden alle sechs Objekte gemäß Variable 3 in zwei Gruppen eingeteilt, also 1,2,5,6 werden der einen und die beiden anderen der zweiten Klasse zugeordnet. Anschließend wird Variable 4 genutzt und die Objekte in beiden Klassen gemäß Variable vier in Gruppen eingeteilt. Eine solche Aufteilung aller Objekte in Gruppen, wobei bei jedem Schritt aus einer größeren mehrere kleinere (hier allerdings nur zwei) gebildet werden, heißt diversive Klassenbildung. Bei jedem Schritt ergeben sich zusätzliche Klassen. Sollte jedoch eine weitere Klassenbildung nicht möglich sein, so bricht das Verfahren ab. Dies ist dann der Fall, wenn einelementige Gruppen gebildet wurden oder wenn alle Objekte derselben Gruppe hinsichtlich aller Variablen, die zur Klassenbildung herangezogen wurden, dieselben Ausprägungen haben. Die so erzielte Gruppeneinteilung nennt man Hierarchie.
11.5.2
Beispiel 1
Die Daten sind in der Datei Daten-Mona.Rdata hinterlegt und können mit ’x’ angesprochen werden. Es sollen nur die Variablen drei und vier zur Klassifikation genutzt werden. Aus diesem Grund werden die Daten ’x1’ gebildet, wobei die Spalten mit “3” bzw. “4” beschriftet werden. Das Ergebnis der Klassifikation wird der Variablen ’output1’ zugeordnet. > x1 <- matrix(x[,3:4],ncol=2,dimnames=
11.5. MONA
239
list(c(1,2,3,4,5,6),c("3","4"))) > x1 3 4 1 1 1 2 1 0 3 0 1 4 0 0 5 1 1 6 1 0 > output1 <- mona(x1) Nach der Zeile beschriftet mit ’seperation step’ finden sich die drei Schritte (0, 1 und 2); direkt oberhalb sind die Variablen angezeigt, die bei der Klassenbildung verwendet wurden. In Schritt ’0’ wird keine Variable, im ersten Variable ’3’ und im letzten bei beiden Klassen die Variable ’4’ verwendet. Werden mehr als zwei Variablen zur Klassenbildung herangezogen, so kann es im zweiten Schritt vorkommen, daß verschiedene Variablen genutzt werden, um die jeweilige Klasse in Unterklassen einzuteilen.
> output1 ... Order of objects: [1] 1 5 2 6 3 4 Variable used: [1] NULL 4 NULL 3 Separation step: [1] 0 2 0 1
4 2
Available components: [1] "data" "order""variable" "step" "call" "order.lab" > plot(output1) Der Befehl ’plot’ dient der graphischen Veranschaulichung der Klassifizierung. Sein Ergebnis ist in Abbildung 11.4 dargestellt. An der Abszisse sind die Schritte, von ’0’ bis zum höchsten, hier ’3’, abgetragen. An der Ordinate findet sich die Reihung der Objekte, wie sie oben unter ’Order of objects’ bereits ausgewiesen wurde. Oberhalb des ersten Schrittes ist die Zahl ’3’ abgetragen; das will heißen, daß diese Variable zur Aufsplittung aller Objekte in zwei Gruppen verwendet wurde. ’1,5,2,6’ werden der einen und ’3,4’ der anderen Gruppe zugeordnet. Im zweiten Schritt dient in beiden Fällen Variable ’4’ der Aufspaltung jeder dieser beiden Gruppen in Untergruppen. Die obere Gruppe ’1,5,2,6’ wird aufgespalten in ’1,5’ und ’2,6. Damit wird auch deutlich, wie die Reihung in Schritt ’0’ zustande kommt. Die untere Gruppe aus Schritt 1 wird aufgesplittet in zwei jeweils einelementige Gruppen ’3’ und ’4’.
KAPITEL 11. CLUSTERANALYSE
240
Banner of mona(x = x1) 1
5 4 2
6 3 3 4 4 0
1
2
3
Separation step
Abbildung 11.4: Clusterbildung mit MONA Quelle: eigene Darstellung
11.5.3
Assoziationsmaß
Wird jedoch zuerst Variable vier zur Klasseneinteilung genutzt, so werden im ersten Schritt die Objekte ’1,3,5’ in eine und ’2,4,6’ in die andere Klasse eingeteilt. Im zweiten Schritt werden aus der Klasse ’1,3,5’ die Objekte ’1,5’ zu einer Klasse und ’3’ zur einelementigen Klasse zusammengefaßt. Die Klasse ’2,4,6’ aus Schritt eins wird aufgesplittet in ’2,6’ und ’4’. Die Klassenbildung nach Schritt zwei führt wohl zu demselben Ergebnis wie im vorangegangenen Beispiel, doch die zwei Klassen, gebildet nach Schritt eins, sind verschieden. Offensichtlich hat die Wahl des Merkmals, das im ersten Schritt und bei mehr als zwei Variablen auch in den nachfolgenden Schritten zur Klassenbildung herangezogen wird, einen Einfluß auf die Hierarchiebildung. Soll eine automatische Klassifizierung erfolgen, so ist es aus diesem Grund notwendig, bei jedem Schritt festzulegen, welche Variable zur Klassenbildung genutzt werden soll. Dem in MONA implementierten Algorithmus liegt die Entscheidung zu Grunde, daß jene Variable gewählt werden sollte, die, verglichen mit allen anderen, möglichst ’zentral’ liegt. Damit bleibt zu entscheiden, wie die ’Zentralität’ definiert werden soll. Hierzu gibt es mehrere Möglichkeiten, die hier nicht diskutiert werden sollen (siehe hierzu (Kaufmann und Rousseeuw, 1990, Kapitel 7.5). In MONA wird jene Variable gewählt, bei der die Summe der Ähnlichkeiten zu allen anderen Variablen am größten ist.
11.5. MONA
241
Damit verbleibt die Notwendigkeit zur Definition von Ähnlichkeit. Die größte Ähnlichkeit ergibt sich, wenn in einer Datenmatrix zwei Variablen exakt dieselbe Ausprägung haben. Hierdurch ist das eine Extrem von Ähnlichkeit gegeben. Weist eine Variable immer dann ’1’ auf, wenn die andere ’0’ hat und umgekehrt, so sind sich diese auch in höchstem Maße ähnlich: allerdings in umgekehrter Richtung. Dies ist das andere Extrem. Unähnlichkeit könnte man dann als einen Zustand zwischen diesen beiden Extremen liegend definieren. Gibt es bei dem Vergleich der Ausprägungen zweier Variablen genau so viele exakte Übereinstimmungen wie Nicht-Übereinstimmungen, so wären sie in höchstem Maße verschieden. In MONA wird zur Bewertung der Ähnlichkeit zweier Variablen bei gegebener Datenmatrix folgendes Assoziationsmaß verwendet: Man multipliziert die Anzahl der Fälle, in denen beide Variablen Einsen aufweisen mit der Anzahl an Fällen, in denen beide die Ausprägung Null haben und subtrahiert hiervon die Anzahl an Fällen, bei denen (1, 0) auftaucht, mit denen, bei denen (0, 1) vorhanden ist. Dieses Maß kann positiv oder negativ sein. Auf die so gebildete Differenz wird der Betrag angewendet und als Assoziationsmaß bezeichnet. Erhält man als Assoziationsmaß eine Null, so hat man zwei Variablen mit größtmöglicher Unähnlichkeit; ist einer der beiden Summanden des Assoziationsmaßes gleich Null, so ist die größtmögliche Ähnlichkeit gegeben. Jene Variable wird im nächsten Schritt zur Klassifizierung verwendet, deren Summe aller Assoziationsmaße über alle anderen, bisher nicht benutzten Variablen im Vergleich zu der gleichen Summe anderer Variablen am größten ist. Das nachfolgende Beispiel verdeutlicht das Vorgehen.
11.5.4
Beispiel 2
Das Beispiel von Seite 238 wird fortgeführt. Im ersten Schritt werden die Anzahl an Ausprägungen (1, 1), (0, 0), (1, 0) und (0, 1) ermittelt. Diese Aufgabe kann erledigt werden, indem die Kontingenztabelle berechnet wird, die hier mit ’K1’ bezeichnet ist. Das Assoziationsmaß zwischen den Variablen ’3’ und ’4’ ist gleich dem Produkt der Anzahl von (0, 0)-Ausprägungen mit der Anzahl an (1, 1)Ausprägungen, also 1 · 2 minus dem Produkt der zwei verbleibenden Variablen, also 2 ·1. Dies entspricht bei einer 2× 2-Matrix gerade der Determinante. Zudem ist zu berücksichtigen, daß der Betrag auf das Assoziationsmaß anzuwenden ist, weshalb unten der Befehl ’abs’ auf die Determinante angewendet wird. Anders gewendet: Mit ’det’ wird die Determinante errechnet und mit ’abs’ wird die Determinante zum Betrag genommen. Beide Variablen sind also in höchstem Maße unähnlich. > K1 <- table(x1[,1],x1[,2]) > K1 0 1 0 1 1 1 2 2
242
KAPITEL 11. CLUSTERANALYSE
> Asso <- abs(det(matrix(K1,ncol=2))) > Asso [1] 0 Werden anstatt dessen die Variablen ’1’ und ’2’ betrachtet, so zeigt sich, daß sie gerade gegenläufige Ausprägungen aufweisen. Folglich müßte das Assoziationsmaß innerhalb des Betragszeichens einen hohen negativen Wert aufweisen. Dies ist in der Tat auch der Fall (−9). Diese Situation kann auch folgendermaßen interpretiert werden: die größte Ähnlichkeit ist gegeben, wenn eine Variable im Vergleich zu einer anderen keinen zusätzlichen Informationsgewinn erbringt. > K12 <- table(x[,1],x[,2]) > K12 0 1 0 0 3 1 3 0 > Asso12 <- abs(det(matrix(K12,ncol=2))) > Asso12 [1] 9 Mit Hilfe der Variablen 1, 2, 3 soll nun eine Klassifizierung der sechs Objekte erfolgen. Hierzu ist zu bestimmen, welches Merkmal im ersten Schritt zur Gruppenbildung benutzt werden sollte. Hierzu sind die Assoziationsmaße zwischen allen Variablen zu bestimmen. > K12 <- table(x[,1],x[,2]) > Asso12 <- abs(det(matrix(K12,ncol=2))) > Asso12 [1] 9 > > K13 <- table(x[,1],x[,3]) > Asso13 <- abs(det(matrix(K13,ncol=2))) > Asso13 [1] 0 > K23 <- table(x[,2],x[,3]) > Asso23 <- abs(det(matrix(K23,ncol=2))) > Asso23 [1] 0 Die Summe der Assoziationsmaße der Variablen ’1’ zu allen anderen (nicht genutzten) ist gleich ’Asso12’ + ’Asso13’ = 9; die der Variablen ’2’ ist gleich: ’Asso12’+ ’Asso23’ = 9. Die Summe aller Assoziationen der dritten Variablen ist ’Asso13’ + ’Asso23’ = 0. Damit kommt Variable ’3’ nicht in Frage, um im ersten Schritt eine Klassenbildung zu bestimmen. Die Summen der beiden anderen Variablen weisen dieselbe Höhe auf; in MONA wird dann jene Variable
11.5. MONA
243
gewählt, die in der Datenmatrix am weitesten links steht; hier also Variable ’1’. Aus diesem Grund ist die Klassifizierung nicht völlig frei von Willkür. Positiv gewendet: Der Nutzer hat durch die Anordnung der Variablen in der Datenmatrix einen Einfluß auf die Klassifikation. Deshalb sollte man die Variablen gemäß der Wichtigkeit ordnen: links beginne man mit den wichtigsten und endet rechts mit der Variablen mit geringster Bedeutung. Bei der Berechnung des Assoziationsmaßes kommt es nicht darauf an, in welcher Reihenfolge die Variablen auftreten. Werden die beiden ersten Spalten der Matrix ’x’ vertauscht, so werden lediglich zwei Variablen vertauscht (siehe die markierten Eintragungen). Aus diesem Grund genügt es, bei drei Variablen die Assoziationsmaße ’Asso12’, ’Asso13’ und ’Asso23’ zu ermitteln. > K31 <- table(x[,3],x[,1]) Asso31 <- abs(det(matrix(K31,ncol=2))) Asso31 K31 <- table(x[,3],x[,1]) > Asso31 <- abs(det(matrix(K31,ncol=2))) > Asso31 [1] 0 > K31 0 1 0 1 (1 Tausch) 1(2 Tausch) 2 > K13 0 1 0 1 (2 Tausch) 1(1 Tausch) 2 Als Ergebnis der Klassifizierung mit den ersten drei Variablen ergibt sich der unten dargestellte Output. In der Tat wird Variable ’1’ im ersten Schritt zur Gruppenbildung verwendet. > x3<- (matrix(x[1:3],ncol=3)) > output3 <- mona(x[,1:3]) > output3 Revised data: [,1] [,2] [,3] [1,] 1 0 1 [2,] 1 0 1 [3,] 1 0 0 [4,] 0 1 0 [5,] 0 1 1 [6,] 0 1 1 Order of objects: [1] 1 2 3 4 5 6
KAPITEL 11. CLUSTERANALYSE
244 Variable used: [1] 0 3 1 3 0 Separation step: [1] 0 2 1 2 0
Available components: [1] "data" "order" "variable" "step" "call" Das Verfahren läßt sich folgendermaßen zusammenfassen: Die ersten beiden Klassen werden an Hand der repräsentativsten Variable vorgenommen. In nachfolgenden Schritten spielt diese Variable keine Rolle mehr. Im zweiten Schritt wird aus den verbleibenden Merkmalen die repräsentativste für jede vorhandene Klasse herausgesucht und man bildet die nächsten Klassen. Die nachfolgenden Schritte erfolgen analog. Im Endeffekt erhält man Cluster, wobei man bei jedem Schritt genau angeben kann, welche Variable zur Klassenbildung herangezogen wurde. Da bei diesem Verfahren bei jeder Klassenbildung immer nur eine Variable genutzt wird, wird es mit dem Begriff monothetisch charakterisiert. Das Gegenteil zu monothetisch ist polythetisch. Wird beispielsweise DIANA angewandt, so werden ebenfalls Hierarchien diversiv (= aufteilend) erzeugt oder bei PAM werden Partitionen bestimmt, aber dies sind polythetische Methoden. Hierbei wird im l-dimensionalen Raum, wobei l die Anzahl der unterschiedlichen Variablen ist, eine Struktur gesucht. Bei dem monothetischen Verfahren MONA wird dagegen entlang der Achsen nach Strukturen gesucht.
11.5.5
Missings
Der implementierte Algorithmus akzeptiert keine Missings. In der praktischen Arbeit werden jedoch manche Werte fehlen. In diesem Fall kann der Anwender all jene Objekte entfernen, in denen Missings enthalten sind. Alternativ hierzu kann der in MONA implementierte Korrekturmechanismus genutzt werden. Zumindest eine Variable darf keine Missings enthalten, ansonsten wird sowieso eine Fehlermeldung ausgegeben und die Berechnung wird abgebrochen. Im Falle fehlender Werte bei Merkmal f , wird wie folgt vorgegangen. Das Programm sucht automatisch nach den vollständigen Variablen, die gegenüber f das höchste Assoziationsmaß aufweist, diese sei g. Ist die Assoziation positiv (also der Wert innerhalb der Betragszeichen ist positiv), so werden alle fehlenden Werte in f durch die entsprechenden Werte in g ersetzt. Sollte die Assoziation negativ sein (= Wert zwischen den Betragszeichen des Assoziationsmaßes), so werden die entsprechenden Werte in f bei jeder Beobachtung durch 1−g ersetzt. Sollte es mehrere Variablen gegenüber f gegeben, die das höchste Assoziationsmaß aufweisen, so wird die erste Variable in der Datenmatrix gewählt.
11.5.6
Beispiel 3
Das Beispiel von Seite 238 wird fortgeführt. Es werden nur die ersten drei Variablen zu Klassifikationszwecken verwendet. Allerdings wurde im Vergleich zu
11.6. ABSCHLIEENDE BEMERKUNGEN
245
11.2 ein Missing eingefügt: > x3 [1,] [2,] [3,] [4,] [5,] [6,]
col1 col2 col3 1 0 1 1 NA 1 1 0 0 0 1 1 0 1 1 0 1 1.
Die erste und die letzte Spalte hat jeweils keine Missings. Das Assoziationsmaß zwischen Spalte 1 und 2 ist gleich | − 6|, das zwischen der zweiten und dritten gleich |3|. Aus diesem Grund ersetzt MONA den fehlenden Wert in Spalte zwei mit 1 − 1 = 0. Vergleicht man dieses Ergebnis mit den ursprünglichen Werten, so zeigt sich hier, daß die ursprüngliche Datenmatrix korrekt erzeugt wurde. > mona(x3) Revised data: col1 col2 col3 [1,] 1 0 1 [2,] 1 0 1 [3,] 1 0 0 [4,] 0 1 1 [5,] 0 1 1 [6,] 0 1 1 ...
11.6
Abschließende Bemerkungen
In diesem Kapitel wurde lediglich eine Auswahl an Verfahren der automatischen Klassifizierung präsentiert, doch sollte es nach Durcharbeiten des Kapitels möglich sein, sich das Wissen um weitere Verfahren anzueignen. Im Programmpaket ’cluster’ finden sich weitere, ja es gibt eine Vielzahl zusätzlicher Pakete, in denen andere Verfahren zur Verfügung gestellt werden. Sie können über die Homepage ausfindig gemacht werden. Der Autor beschäftigte sich im Studium zu einer Zeit mit numerischer Taxonomie, als der Einsatz des PC zu diesen Zwecken noch in den Kinderschuhen steckte. Theoretische Zusammenhänge und Verfahren statt Anwendung stand im Vordergrund. Dies erscheint aus heutiger Sicht bedauerlich. War es früher schwierig, überhaupt ein Ergebnis zu produzieren, so entsteht heute das Problem, aus der Vielzahl an Möglichkeiten, das geeignete auszuwählen. Dies beginnt bei der Clusteranalyse mit der Wahl der geeigneten Distanzmaße. Wir konzentrierten uns auf die Manhattan-Distanz, doch es gibt weitere, beispielsweise die euklidische Distanz, die Mahalanobisdistanz oder der tschebischeffsche Abstand. Der Leser ist aufgefordert, sich über Alternativen schlau zu machen.
KAPITEL 11. CLUSTERANALYSE
246
Angesichts der leichten Anwendbarkeit der Methoden ist heute die Versuchung groß, Verfahren ohne ihre hinreichende Kenntnis zu nutzen. Irgendwelche Ergebnisse lassen sich leicht produzieren, die bei näherem Hinsehen unter Berücksichtigung sachlogischer Zusammenhänge fragwürdig werden. Deshalb ist bei der Anwendung statistischer Verfahren der Bezug zur wissenschaftlichen Disziplin so wichtig.
11.7
Kontrollfragen
1. Ist es zur Anwendung der Clusteranalyse unbedingt erforderlich, daß innerhalb der Grundgesamtheit tatsächlich eine vorab vorhandene Gruppierung existiert? 2. Erläutern Sie folgende Begriffe: (a) Partition, (b) Überdeckung, (c) Hierarchie sowie (d) Quasihierarchie. 3. (a) Welche Konstruktionsverfahren kennen Sie? (b) Verlangen Hierarchien bestimmte Konstruktionsverfahren? 4. (a) Was ist ein Medoid, was ein repräsentatives Objekt? (b) Welches Gütekriterium wird bei PAM, welches bei FANNY benutzt? 5. Ist es zur Nutzung von PAM unabdingbar, zuvor eine Distanzmatrix zu erzeugen? Begründen Sie Ihre Meinung. 6. In PAM beispielsweise gibt es eine Befehlsoption ’metric’. Was ist das? 7. Beschreiben Sie mit Ihren Worten, was in PAM in der Build- und was in der SWAP-Phase gemacht wird. 8. Beschreiben Sie mit Ihren Worten, was man unter einem isolierten Cluster versteht. 9. Was ist ein Diameter, was ein Seperator? 10. (a) Was ist die Silhouettenweite? (b) Wie kann die Silhouettenweite graphisch für jedes Objekt veranschaulicht werden? (c) Was ist die Silhouettenweite eines Clusters? (d) Was versteht man unter der durchschnittlichen Silhouettenweite? (e) Zu welchem wichtigen Zweck kann die durchschnittliche Silhouettenweite genutzt werden?
11.8. AUFGABEN
247
(f) Die Silhouettenweite eines Objektes ist negativ. Was schließen Sie hieraus? (g) In welchem Bereich kann die Silhouettenweite nur zu liegen kommen? 11. Beschreiben Sie, wie Sie eine Überdeckung ermitteln können. 12. In FANNY gibt es die Option ’memb.exp’. (a) Was ist das? (b) Welchem Zweck dient sie? 13. Wozu dient Dunns Paritions-Koeffizient? 14. (a) Was versteht man unter einer monothetischen Klassenbildung? (b) Mit welchem Verfahren wird eine solche vorgenommen? 15. (a) Wie wird in MONA die Ähnlichkeit zweier Merkmale bestimmt? (b) Wie wird in MONA entschieden, welche Variable im nächsten Schritt zur Klassenbildung herangezogen wird?
11.8
Aufgaben
1. Handelt es sich bei folgender Aufteilung der Objekte auf drei Klassen um eine Überdeckung? Begründen Sie Ihre Antwort.125 Objekt 1 2 3 4 5 6 7 8 9 10
1 1 1 1 0 0 0 1 1 1 1
Klasse 2 3 0 0 0 0 0 0 1 0 1 0 0 1 1 0 1 1 1 1 1 1
2. Wie gelangt man zur Festlegung der Klassenanzahl?126 3. Zehn Objekte sollen mit Hilfe von drei Merkmalen in drei Klassen eingeteilt werden. Wieviele Distanzmaße müssen berechnet werden?127 4. In der Datei Daten-Cluster-1.Rdata
248
KAPITEL 11. CLUSTERANALYSE finden sich Kundendaten. In jeder Zeile sind die Ausprägungen eines Kunden über alle Merkmale hinweg angegeben. In der ersten Spalte steht die Kontakthäufigkeit des Kunden pro Monat, in der zweiten die durchschnittliche Zeit in Minuten, die der Kunde pro Monat für Beratung in Anspruch genommen hat und in der letzten ist der jeweilige monatliche Umsatz der Kunden abgetragen. Es besteht der Verdacht, daß mit einem kleinen Anteil der Kunden der größte Teil des Umsatzes generiert wird. Andererseits wird vermutet, daß ebenfalls ein kleiner Teil der Kunden einen Großteil der Beratungszeit in Anspruch nimmt. (a) Bestimmen Sie die durchschnittliche Beratungszeit jedes Kunden.128 (b) Berechnen Sie die durchschnittliche Beratungszeit über alle Kunden hinweg.129 (c) Welches Skalenniveau hat die durchschnittliche Beratungszeit pro Kunde, welches der Umsatz?130 (d) Der Marketingleiter beauftragt Sie, zwei oder drei Klassen zu bilden, um den Kunden, die für die Firma besonders profitabel sind, eine Kundenkarte auszuhändigen. Personen mit Kundenkarte sollten dann bevorzugt und alle anderen mit deutlich geringerem Aufwand bedient werden. Stellen Sie mindestens zwei Möglichkeiten dar, mit Hilfe derer eine Klassifizierung vorgenommen werden könnte.131 (e) Gehen Sie von kalkulatorischen Beratungskosten in Höhe von 40 Cent aus. Berechnen Sie für jeden Kunden die kalkulatorischen Beratungskosten pro Monat und den Umsatz abzüglich kalkulatorischer Beratungskosten (=kalkulatorischer.Gewinn).132 (f) Bilden Sie aufgrund der ermittelten kalkulatorischen Gewinne eine Partition mit zwei und eine mit drei Clustern. Nutzen Sie die CityBlock-Metrik.133 (g) Welche Klassenanzahl schlagen Sie dem Marketingleiter vor?134
Kapitel 12
Einfache Regression 12.1
Einleitung
In Kapitel 5.2 wurde der Chi-Quadrat-Unabhängigkeitstest vorgestellt. Da wird getestet, ob aufgrund der Datenlage davon ausgegangen werden kann, ob zwei Variablen als stochastisch unabhängig angesehen werden können oder nicht. Eine Vertauschung der Nullhypothese mit der Gegenhypothese war nicht möglich. Denn unter Gültigkeit der neuen Nullhypothese, ’beide Variablen sind voneinander abhängig’, müßte eine Testgröße samt zugehöriger Wahrscheinlichkeitsverteilung bekannt sein, um einen Test durchführen zu können. Sie ist jedoch zu unspezifisch, als daß dies gelänge. Wird bei dem Chi-Quadrat-Unabhängigkeitstest die Nullhypothese verworfen, so kann man die einfache Korrelationsanalyse verwenden. Mit ihr wird untersucht, ob lineare Zusammenhänge zwischen zwei Variablen existieren oder nicht. Ähnlich geht man bei der einfachen Regressionsanalyse vor. Der Unterschied zur Korrelationsanalyse ist, daß der funktionale Zusammenhang zwischen zwei Größen spezifiziert wird. Hierdurch wird es möglich zu testen, ob die Parameter der Schätzgleichung von Null verschieden sind. Im nächsten Abschnitt wird das einfache klassische Regressionsmodell vorgestellt. Hier werden auch die Kleinst-Quadrat-Schätzer eingeführt. Bei dem einfachen klassischen Ansatz wird angenommen, daß die erklärenden Variablen exogen vorgegebene Größen sind. Diese Annahme, die für Ökonomen zu restriktiv ist, wird in Kapitel 12.6 aufgegeben und durch schwächere Annahmen ersetzt. In Kapitel 12.3 zeigt sich, daß die lineare Verknüpfung zwischen erklärter und erklärender Variable nicht so restriktiv ist, als man dies auf den ersten Blick vermuten könnte. Es folgt, wie man aufgrund einer Regression zu Punktprognosen kommen kann. Prognosen sind nur so gut, wie die zugrunde liegende Schätzgleichung. Aus diesem Grund wird das Bestimmtheitsmaß vorgestellt, mit dessen Hilfe man einen ersten Anhaltspunkt erhalten kann, wie verläßlich eine Schätzung ist. R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1_12, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
KAPITEL 12. EINFACHE REGRESSION
250
Das Bestimmtheitsmaß kann jedoch leicht in die Irre führen. Mit einfach durchführbare Simulationen zeigen, daß bei steigender Varianz der Residuen das Bestimmtheitsmaß recht klein werden kann. Dies kann das Ergebnis so stark verfälschen, daß man allein aufgrund des Bestimmtheitsmaßes keine Entscheidung über die Akzeptanz einer Schätzgleichung treffen sollte. Aus diesem Grund werden Tests vorgestellt, mit Hilfe derer insbesondere überprüft werden kann, ob die KQ-Schätzer signifikant von Null verschieden sind. Beweise, die die Lesbarkeit des Textes eingeschränkt hätten, wurden in die Anhänge verbannt.
12.2
Einfaches klassisches Regressionsmodell
12.2.1
Grundlagen
Bei der einfachen Regression der Variablen Yt auf Xt , t = 1, 2, . . . , T wird davon ausgegangen, daß es einen linearen funktionalen Zusammenhang zwischen zwei kardinalen Merkmalen, Y und X, gibt: Yt = a + bXt + Ut mit t ∈ {1, 2, 3, . . . T }.
(12.1)
Yt sind die zu erklärenden Variablen, man nennt sie auch Regressanden, und Xt die erklärenden Variablen, auch Regressoren genannt. Bei dem einfachen klassischen Regressionsmodell wird davon ausgegangen, daß es sich um deterministische Variablen handelt, die beispielsweise in Laborversuchen durch die Versuchsanordnung festgelegt sind. a, b ∈ R sind die Parameter der Geradengleichung, die zu schätzen sind. Sie heißen auch Regressionskoeffizienten. Ut sind nicht beobachtbare Störterme, die die wahre, aber unbekannte Funktion überlagern. t ist ein Laufindex zur Unterscheidung verschiedener Variablen. Man geht davon aus, daß es einen systematischen Zusammenhang zwischen Y und X gibt. Ein solcher wird kaum deterministisch sein, sondern von vielerlei Zufälligkeiten überlagert sein. Erfüllt die Störvariable Ut folgende Bedingungen 2 σ ˆX > 0,
(12.2)
E(Ut ) = 0 für alle t ∈ {1, . . . , T },
(12.3)
E(Ut2 )
(12.4)
=σ
2
für alle t ∈ {1, . . . , T }
und E(Ut Ut˜) = 0 für alle t, t˜ ∈ {1, . . . , T } mit t = t˜,
(12.5)
dann heißt das Gleichungssystem einfaches klassisches Regressionsmodell. Bedingung 12.2 bedeutet, daß die korrigierte Stichprobenvarianz der Regressoren, Xt , größer als Null ist. Denn ist die Varianz der abhängigen Variablen Yt von
12.2. EINFACHES KLASSISCHES REGRESSIONSMODELL
251
Null verschieden, aber die erklärenden Größen Xt wären alle identisch, so würden Unterschiede in den Yt einzig und allein durch den Störterm Ut “erklärt” und nicht durch die Variable Xt , von der man einen systematischen Einfluß auf Yt erwartet. Die Annahme 12.3 besagt, daß der Erwartungswert der Störvariablen gleich Null ist. Mit anderen Worten wird davon ausgegangen, daß dieser Einfluß zwar existiert, daß es aber keinen systematischen Einfluß auf die zu erklärende Größe gibt. Die Bedingung 12.4 bedeutet, daß die Varianzen für jedes t identisch gleich σ 2 sind. Da ja vorausgesetzt wird, daß Ut = 0 und die Varianz definiert ist als E(Ut − E(Ut ))2 folgt, daß in diesem Fall σ2 = E(Ut )2 ist. Die letzte Voraussetzung 12.5 besagt, daß die Kovarianzen der Störterme Ut und Ut˜ mit t = t˜ gleich Null sind. Wir vereinbaren, Zufallsvariablen oder deterministische Variablen mit Großbuchstaben und ihre Realisierungen mit Kleinbuchstaben zu kennzeichnen. y1 , . . . , yT sind also Realisierungen der Zufallsvariablen Y1 , . . . , YT . Bei dem klassischen einfachen Regressionsmodell besteht die Aufgabe darin, die unbekannten wahren Parameter a und b der Regressionsgleichung 12.1 zu schätzen. Die Abstände ut = yt − a − bxt (12.6) zwischen den Beobachtungen (x, y) und der Geraden soll durch geeignete Bestimmung der Parameter a und b so gering wie möglich sein. Sie heißen Residuen. Würde man die Summe aller Abstände der Punkte (xt , yt ) zur Geraden als Kriterium zur Bestimmung der Parameter nehmen, so könnte man daran denken, jene zu nehmen, bei der die Summe gleich Null ist. Es ist jedoch im Falle von vier Beobachtungen leicht zu einzusehen, daß dieses Kriterium zu keiner eindeutigen Lösung führt. Zeichnen Sie in ein Diagramm vier Punkte, von denen je zwei denselben x-Wert besitzen und erläutern Sie warum.135 Man könnte auch daran denken, die Absolutwerte der Abweichungen der Beobachtungspunkte von der Geraden als Kriterium zu nehmen, um eine Gerade zu definieren. Man könnte dann jene Gerade wählen, bei der dieses Kriterium minimal wird. Doch auch mit diesem Kriterium findet man keine eindeutige Lösung. Weshalb nicht?136 Quadriert man die Abweichungen und sucht jene Parameterwerte, a und b, die deren Summe minimiert, so erhält man eine eindeutige Lösung (siehe Schneeweiß (1978), Kapitel 1.2). Damit ergibt sich folgendes Minimierungsproblem: min a,b
T
(yt − a − bxt )2 .
(12.7)
t=1
Die partielle Ableitung nach a bzw. b führt zu den Normalgleichungen T t=1
yt = T · a ˆ + ˆb
T t=1
xt
(12.8)
KAPITEL 12. EINFACHE REGRESSION
252 und
T
xt · yt = a ˆ
t=1
T
xt + ˆb
t=1
T
x2t .
(12.9)
t=1
Umstellen auf a ˆ und ˆb ergibt die Kleinst-Quadrat-Schätzer a ˆ und ˆb: T T T T 2 t=1 xt t=1 yt − t=1 xt · yt t=1 xt a ˆ= T T 2 2 T t=1 xt − ( t=1 xt ) ˆb = T
xt yt − Tt=1 xt Tt=1 yt . T T T t=1 x2t − ( t=1 xt )2
(12.10)
T
t=1
(12.11)
Der KQ-Schätzer ˆb läßt sich recht einfach über ˆb = s11 (y, x) s2 (x) berechnen, denn T T T x y − x yt ˆb = T t=1 Tt t 2 t=1 T t t=1 = 2 T
t=1
xt −(
t=1
T 2 [(1/T )
T t=1
(12.12)
xt yt −(1/T )
xt )
=
xy−¯ xy¯ x2 −¯ x2
=
T t=1
T 2 (x2 −¯ x2 ))
xt (1/T )
T t=1
yt ]
s11 (y,x) . s2 (x)
Ist ˆb bekannt, so kann vermittels a ˆ = y¯ − ˆb · x ¯
(12.13)
auch der andere KQ-Schätzer bequem berechnet werden. Wäre x ¯ = 0, so wäre a ˆ durch den Mittelwert y¯ bestimmt. Ist x ¯ = 0, so erfolgt eine Korrektur über den mit ˆb gewichteten Mittelwert x ¯ der erklärenden Variable x. Umformung von 12.13 zu y¯ = a ˆ + ˆb · x ¯ (12.14) zeigt, daß die geschätzte Regressionsgerade durch den Schwerpunkt (¯ x, y¯) der Punktwolke der Beobachtungen geht, wie dies beispielhaft in Abbildung 12.1 dargestellt ist. Die waagerechte und horizontale Linie gibt jeweils den Durchschnitt der x- bzw. y-Variable an; die leicht steigende Kurve ist die geschätzte Regressionsgerade, die durch den Punkt (¯ x, y¯) läuft. Anhand dieser Abbildung kann auch Formel 12.12 veranschaulicht werden. Auf dem Bruchstrich steht die empirische Kovarianz, darunter ist die Varianz der ’erklärenden’ Variable x. Da die Varianz nur Werte größer oder gleich Null annehmen kann, ergibt sich über die empirische Kovarianz die Steigung der Geraden. Steigt y überwiegend dann, wenn auch x steigt, so ist sie positiv. Ändern sich y und X in gegenläufiger Art und Weise, so ist die empirische Kovarianz negativ. Bei gegebener Kovarianz wird die Steigung der Regressionsgeraden auch über die Varianz der Variablen x bestimmt. Ist σ11 (y, x) groß, d.h. vagabundieren die
12.2. EINFACHES KLASSISCHES REGRESSIONSMODELL
253
Beobachtungen stark in der Gegend herum, so muß die Steigung der Geraden gering sein. In Abbildung 12.1 ist die Varianz vergleichsweise hoch, was man erkennt, indem man ausschließlich die x-Achse betrachtet und das Lot eines jeden Beobachtungspunktes auf die Abszisse fällt: die Beobachtungen x liegen recht verstreut in der Gegend herum. Wäre die Varianz jedoch sehr viel größer, d.h. würden die Beobachtungen x alle viel dichter am Mittelwertes x ¯ liegen, so muß c.p. die Steigung größer sein als im vorhergehenden Fall.
12.2.2
Beispiel
Es wird vermutet, daß die Einkommenshöhe, Y , vom Alter, X, abhängt (Ancienitätsprinzip) und die Stärke dieses Zusammenhanges soll geschätzt werden. Es sind die Regressionskoeffizienten a ˆ und ˆb zu bestimmen. Hierzu werden die Rohdaten aus Tabelle 2.2 genutzt. Sie beziehen sich alle auf denselben Zeitraum. Die Daten können über die Variable ’x’ angesprochen werden (siehe unten). Unter ’Reg1’ wird das Ergebnis der Regressionsrechnung abgelegt. Als Schätzer erhält man a ˆ = 2541, 486 und ˆb = 3, 56. Damit ergibt sich als Regressionsgerade yt = 2541, 486 + 3, 56 · xt . > x Einkommen Alter Ausbildungsjahre 1 2000 30 12 2 2500 42 13 3 2900 50 10 4 3300 28 18 > Reg1 <- lm(x[,1] ~ x[,2]) > Reg1 Call: lm(formula = x[, 1] ~ x[, 2]) Coefficients: (Intercept) 2541.486
x[, 2] 3.560
In Abbildung 12.1 sind an der Abszisse das Alter und der Ordinate das Einkommen abgetragen. Es sind alle Beobachtungspunkte eingezeichnet. Diese Abbildung erhält man über den Befehl > plot(x[,2:1]). Soll zusätzlich die Schätzgleichung eingezeichnet werden, so gibt man > abline(Reg1) ein. Will man die Punkte identifizieren, so nutzt man die Anweisung
KAPITEL 12. EINFACHE REGRESSION
3200
254
4
2800
2
2400 2000
Einkommen
3
1
30
35
40
45
50
Alter
Abbildung 12.1: Einkommen in Abhängigkeit des Alters Quelle: eigene Darstellung
> identify(x[,2:1]) und klickt mit dem Cursor einen Punkt in der Graphik an, um seine Identifizierung zu starten. Diese Anweisung funktioniert nicht nur bei Regressionen, sondern auch bei anderen Graphiken. Bei diesem Beispiel handelt es sich um eine Querschnittsanalyse. Auf Seite 31 wurde der Begriff mit Hilfe von Arbeitslosenzahlen in Deutschland veranschaulicht: in den Spalten standen die Variablen (beispielsweise arbeitslose Frauen in Deutschland im Durschnitt des Jahres 2003, aber, da keine weiteren Angaben vorlagen, könnte es auch der Bestand am Ende des Jahres 2003 sein) und in einer Zeile die Ausprägungen aller Variablen im Durchschnitt eines Jahres oder zu einem bestimmten Zeitpunkt. Insofern ist die Begriffsbildung auch einleuchtend, da bei Querschnittsanalysen eine Zeile und bei Längsschnittsanalysen Spalten betrachtet werden. Das hier vorgestellte Regressionsbeispiel unterscheidet sich in zweierlei Hinsicht von dem Arbeitslosenbeispiel: • die Daten stehen nicht in einer Zeile und • es handelt sich nicht durchgängig um Bestandsgrößen. Im Regressionsbeispiel bezieht sich das Einkommen auf einen Zeitraum, bei den Arbeitslosen nicht. Die Daten des Regressionsmodells stehen auch nicht
12.3. REGRESSIONSFUNKTION
255
alle in einer Zeile, wobei jeder Zeile ein bestimmter Zeitpunkt oder eine bestimmte Periode zugeordnet wäre. Dennoch sprechen wir von Querschnittsanalyse. Es handelt sich um die Beziehung zwischen einer Bestandsgröße (Alter) und einer Stromgröße (Einkommen). Da die Bestandsgröße ’Alter’ in demselben Zeitraum liegt, auf den sich das Einkommen bezieht, ist es gerechtfertigt, von Querschnittsanalyse zu sprechen. Die KQ-Methode ist sowohl für Querschnitts- als auch Längsschnittsuntersuchungen geeignet. Bei ersteren gibt t die Nummer der statistischen Einheit (einer Person oder eines Objektes) an. Bei einer Zeitreihenanalyse gibt t im Falle von Bestandsgrößen den Zeitpunkt und bei Stromgrößen die Periode einer Variablen an.
12.3
Regressionsfunktion
12.3.1
Grundlagen
Im einfachen klassischen Regressionsmodell werden lediglich lineare Verknüpfungen zwischen Yt und Xt zugelassen. Die Regressionsfunktion lautet: Yt = a + b · Xt .
(12.15)
Dies erscheint auf den ersten Blick eine große Einschränkung zu sein. Glücklicherweise stellt sich jedoch heraus, daß sich durch geschickte Interpretation oder Umformungen auch andere Funktionen schätzen lassen. Ist g(Xt ) = Xt2 so ist die Funktion
Yt = a + b · Xt2
linear in Xt2 und die KQ-Methode ist anwendbar. Das heißt, man definiert die ˜ t := Xt2 und setzt diese in die Regressionsfunktion 12.15 als RegresVariable X sand ein. Will man beispielsweise die Cobb-Douglas-Produktionsfunktion Yt = c · L α t mit 0 < α < 1,
(12.16)
wobei c ∈ R und α ∈ R Parameter sind, schätzen, eine nichtlineare Funktion, so kann man über einen Trick dennoch die KQ-Methode nutzen. Durch Anwendung des natürlichen Logarithmus auf beiden Seiten erhält man ln(Yt ) = ln(c) + α · ln(Lt ),
(12.17)
also eine lineare Funktion. Anstatt der Originalwerte werden ihre logarithmierten verwendet. Man definiert also Y˜t := ln(Yt ) und L˜t := ln(Lt ) und setzt diese Werte in die Regressionsfunktion ein.
KAPITEL 12. EINFACHE REGRESSION
256
Der in der Ökonomie vorkommende Regelfall ist dadurch gekennzeichnet, daß die funktionale Form g(Xt) überhaupt nicht bekannt ist. Aufgrund des Satzes von Taylor (Endl und Luh, 1980, S. 202) läßt sich jede hinreichend oft differenzierbare Funktion (genau muß sie (n+ 1)-fach diffenzierbar sein) beliebig genau durch ein Polynom n-ten Grades approximieren. Die einfachste Näherung ist eine Geradengleichung. Werden nur Bereiche in der Nähe eines Punktes einer gekrümmten Kurve betrachtet, so kann die Näherung durch eine lineare Funktion für praktische Zwecke ausreichend gut sein. Insofern ist die Einschränkung auf einen linearen Zusammenhang zwischen Yt und Xt nicht so einschränkend wie er auf den ersten Blick erscheint. Wir halten also an der Regressionsfunktion 12.15 fest. Anmerkung: Man verwechsle n nicht mit dem Stichprobenumfang. Hier ist mit n + 1 die (n + 1)-fache Ableitung bzw. ein Polynom n-ten Grades gemeint.
12.3.2
Beispiel
Es soll eine Produktionsfunktion des Typs 12.16 geschätzt werden. Mit den Parameterwerten c = 2 und α = 0, 4 werden die Werte der Produktionsfunktion im Definitionsbereich [1, 100] berechnet. Der Befehl ’seq(...)’ dient der Erzeugung der Zahlenfolge 0; 0, 1; 0, 2; . . . ; 100. Mit der letzten Anweisung werden die Outputmengen berechnet. > > > >
c <- 2 alpha <- .4 Lt <- seq(1,100,by=.1) y <- c*Lt^alpha
Würde diese relativ stark gekrümmte Funktion, die keine Störvariablen besitzt, über eine Regression von Yt auf Lt geschätzt, so erhielte man über die Anweisungen > Reg1 <- lm(y ~ Lt) > Reg1 Call: lm(formula = y ~ Lt) Coefficients: (Intercept) Lt 4.63126 0.08826 die Regressionskoeffizienten der linearen Approximation: als Absolutglied 4, 63126 und als Steigung 0, 08826. Das Ergebnis ist in Abbildung 12.2 dargestellt. Man erkennt: wegen der starken Krümmung im Bereich des Nullpunktes ist die Approximation der Produktionsfunktion durch eine Gerade nicht geeignet. Wendet man statt dessen den Trick über 12.17 an, so ergibt die Schätzung der Regressionskoeffizienten, da keine Störterme vorhanden sind, die exakten Werte. Die nötigen Befehle sind wie folgt.
12.3. REGRESSIONSFUNKTION
2
4
6
y
8
10
12
257
0
20
40
60
80
100
Lt
Abbildung 12.2: KQ-Schätzung einer Cobb-Douglas Produktionsfunktion Quelle: eigene Darstellung
> ln.y <- log(y) > ln.Lt <- log(Lt) > Reg2 <- lm(ln.y ~ ln.Lt) > Reg2 Call: lm(formula = ln.y ~ ln.Lt) Coefficients: (Intercept) ln.Lt 0.6931 0.4000 > exp(Reg2$coefficients[1]) (Intercept) 2
Die beiden ersten Zeilen dienen der Berechnung der logarithmierten Werte. Es folgt die Schätzung der Koeffizienten. Der berechnete Wert ’ln.Lt’ ist gleich dem gesuchten α. Die Exponentialfunktion angewendet auf das geschätzte Absolutglied ’Intercept’ ergibt den exakten Wert von c. Es zeigt sich, daß das Vorgehen prinzipiell geeignet erscheint, nicht-lineare Funktionen zu schätzen.
KAPITEL 12. EINFACHE REGRESSION
258
12.4
Prognose
12.4.1
Grundlagen
Mit Hilfe der KQ-Schätzer aˆ und ˆb lassen sich auch die Schätzer der abhängigen Variablen Yt berechnen: yˆt = a ˆ + ˆb · xt . (12.18) Handelt es sich bei den Regressoren um zeitpunkt- oder zeitraumbezogene Größen, so lassen sich auch Werte für zukünftige Zeitpunkte bzw. Zeiträume berechnen. Kennt man Variable xt+1 oder kann man aufgrund von Experteneinschätzungen diese Größe bereits heute verläßlich bestimmen, so kann der Schätzwert yˆt+1 bestimmt werden. Wissenschaftlich gestützte Prognosen sind hierüber möglich. Zudem gilt folgender nützliche Zusammenhang. Das arithmetische Mittel y¯ˆ der geschätzten Werte yˆt ist gleich dem arithmetischen Mittelwert y¯ der beobachteten Werte yt : y¯ ˆ = y¯.
(12.19)
Denn wir können schreiben T T T T 1 1 1 ˆb · xt ) = 1 ˆ+ yˆt = a ˆ + ˆb · xt = (T · a yt = y¯. y¯ˆ = T t=1 T t=1 T T t=1 t=1
Hierüber läßt sich dann schnell der Mittelwert y¯ˆ der geschätzten Werte yˆt berechnen.
12.4.2
Beispiel
Angenommen, der Regression aus Beispiel 12.2.2 würde vertraut, so könnte sie als Basis zur Berechnung des zu erwartenden Einkommens im Alter von 60 Jahren genutzt werden. Über den Befehl > Reg1$fitted.values 1 2 3 4 2648.297 2691.022 2719.505 2641.176 werden alle Werte angezeigt, die auf der Regressionsgeraden liegen. Zum selben Ergebnis führt der Befehl > t(Reg1$coefficients) %*% t(matrix(c(rep(1,times=4),x[,2]),ncol=2)) [,1] [,2] [,3] [,4] [1,] 2648.297 2691.022 2719.505 2641.176 Die Prognose für 60 Jahre erhält man, indem statt der bereits beobachteten Werte für xt der Wert ’60’ eingegeben wird.
12.5. BESTIMMTHEITSMA
259
> #1. Alternative > t(Reg1$coefficients) %*% t(matrix(c(1,60),ncol=2)) [,1] [1,] 2755.108 > #2. Alternative mit Rundungsfehlern: > 2548.297 + 3.560*60 [1] 2761.897 > #3. Alternative ohne Rundungsfehler > Reg1$coefficients[1] + Reg1$coefficients[2]*60 (Intercept) 2755.108
12.5
Bestimmtheitsmaß
12.5.1
Grundlagen
Gerne hätte man auch eine Überprüfung der Güte der gefundenen Regression. Denn Prognosen sind nur so gut, wie die Regression, die ihnen zugrunde liegt. Eine wichtige Kenngröße ist das Bestimmtheitsmaß. Seine Definition kann entweder auf der Varianz der geschätzten Regressionswerte yˆt oder der Varianz der geschätzten Residuen u ˆt aufbauen. Die Residuen Ut sind nicht direkt beobachtbar. Deshalb nennt man sie auch latente Variablen. Vermittels der berechneten Werte yˆt lassen auch sie sich schätzen: u ˆt := yt − yˆt (12.20) Es ist klar: je geringer die Abweichungen zwischen den Beobachtungen yt und den Punkten yˆt auf der Regressionsgeraden ceteris paribus sind, desto besser ist tendenziell die Schätzung. Insofern fällt den Residuen u ˆt eine große Bedeutung zu. Bei T Beobachtungen gibt es auch T Residuen. Die Summe über alle Residuen hinweg ist gleich Null: T t=1
u ˆt =
T
(yt − a ˆ − ˆbxt ) = 0.
(12.21)
t=1
Dieser Zusammenhang ergibt sich durch Berücksichtigung der Normalgleichung 12.8. Dies bedeutet, daß sich die Summe aller Residuen nicht eignet, die Güte der Schätzung zu überprüfen. Aus 12.21 ergibt sich, daß auch das arithmetische Mittel der Residuen gleich Null ist: T ¯ := 1 u ˆt = 0. (12.22) u ˆ T t=1
KAPITEL 12. EINFACHE REGRESSION
260
u) der Residuen berechnet sich über Die Varianz s2 (ˆ u) = s2 (ˆ
T T 1 ¯ˆ)2 = 1 (ˆ ut − u u ˆ2 , T t=1 T t=1 t
(12.23)
wegen 12.22 und die Varianz der Prognosewerte ist s2 (ˆ y) =
T T 1 1 (ˆ yt − y¯ ˆt )2 = (ˆ yt − y¯t )2 , T t=1 T t=1
(12.24)
wenn 12.19 berücksichtigt wird. Beide Größen eignen sich als Basis zur Definition einer Maßzahl, mit der die Güte der Regression bestimmt werden kann. Die Definition des Bestimmtheitsmaßes baut hierauf auf. Zur Definition und Interpretation dieser Kennziffer leistet die Streuungszerlegungsformel T 1 (yt − y¯)2 = s2 (ˆ y ) + s2 (ˆ u). (12.25) s2 (y) := T t=1 gute Dienste. Ihre Gültigkeit wird in Anhang 12.A gezeigt. Sie besagt, daß sich die Varianz der beobachteten Werte yt zerlegen läßt in die Varianz der geschätzten Werte yˆt und die der geschätzten Residuen u ˆt . Gegeben sei das klassische einfache Regressionsmodell. Das Bestimmtheitsmaß ist dann definiert als s2 (ˆ y) R2 := 2 , (12.26) s (y) wobei s2 (y) die Varianz der Beobachtungen yt , definiert in 12.25 bezeichnet. Wegen der Varianzzerlegungsformel 12.25 kann auch geschrieben werden R2 = 1 −
s2 (ˆ u) . 2 s (y)
(12.27)
Über Definition 12.26 läßt sich das Bestimmtheitsmaß R2 interpretieren als der Anteil der durch die Regression erklärten Varianz s2 (ˆ y ) an der Varianz s2 (y) der abhängigen Variablen. Je höher der Anteil der erklärten Varianz ist, desto besser ist die Anpassung der Regressionsgeraden an die Punkte im Streudiagramm. Liegen alle Beobachtungen yt auf der Regressionsgeraden, so ist das Bestimmtheitsmaß gleich Eins. Je kleiner das Bestimmtheitsmaß ist, desto schlechter ist die Anpassung. Da die Varianz nicht kleiner Null werden kann, gilt: 0 R2 1.
(12.28)
Zusammenhang 12.27 gibt Anlaß zu folgender Interpretation. Das Bestimmtheitsmaß ist gleich Eins minus dem Anteil der Varianz s2 (ˆ u) der Residuen an der Gesamtvarianz s2 (y) der Beobachtungen yt . Je größer die Varianz s2 (ˆ u) der Residuen ist, desto geringer ist das Bestimmtheitsmaß R2 .
12.5. BESTIMMTHEITSMA
261
Nicht jedes Maß eignet sich zur Messung der Güte. Wenn die Güte der Schätzung in Beispiel 12.2.2 davon abhängig wäre, ob das Alter statt in Jahren, in Monaten gemessen würde, oder ob es einen Unterschied machen würde, ob das Einkommen in Euro zu einem anderen Ergebnis führen würde als die Angabe in Cent, so wäre ein solches Maß zur Bestimmung der Güte wenig geeignet. Glücklicherweise ist das Bestimmtheitsmaß R2 invariant gegenüber Maßstabsänderungen. Das Bestimmtheitsmaß ändert sich nicht, wenn ceteris paribus yt mit einer Konstanten c multipliziert wird. Ist vt die Variable, die aus der Multiplikation von yt mit c hervorgeht, also (vt = c·yt ), dann sind die zugehörigen KQ-Schätzer zu vt gleich c · a ˆ bzw. c · ˆb, wobei a ˆ und ˆb die KQ-Schätzer zu yt sind. Ferner sollte 12.24 berücksichtigt werden und daß c 1 (c · yt ) = yt = c¯ y. T T Dann können wir schreiben:
T ¯ (ˆ vt − v ˆ)2 rv2 = t=1 T 2 t=1
T (cˆ a+cˆ bxt −cy¯ ˆ)2 t=1 T 2
=
t=1
=
c2
(vt −¯ v)
(cyt −c¯ y)
(12.29)
T (ˆ a+ˆ bxt −y¯ ˆ)2 t=1 = ry2 . T 2 2
c
t=1
(yt −¯ y)
Es ändert sich auch nicht, wenn alle Regressoren xt mit einer Konstanten c multipliziert werden. Die Argumentation ist analog der gerade beschriebenen. Dies bedeutet, daß das Bestimmtheitsmaß R2 invariant ist gegenüber Maßstabsänderungen. Zudem sollte ein Gütemaß unabhängig gegenüber Translationen sein, d.h. die Addition einer Konstanten sollte keinen Einfluß auf seine Höhe haben. Dies ist bei Verwendung des Bestimmtheitsmaßes der Fall. Denn R2 ändert sich nicht, wenn zu allen yt die Konstante d1 addiert wird, da die empirische Varianz translationsinvariant ist. Mit anderen Worten ändert sich die Varianz s2 (y) nicht, weil s2 (y) = s2 (y + d1 ).
(12.30)
Das Bestimmtheitsmaß ändert sich auch nicht, wenn zu allen xt die Konstante d2 addiert wird. Dies ist in Abbildung 12.3 illustriert. Links ist die Regressionsgerade zu Beispiel 12.2.2 abgebildet; die rechte ist die Regressionsgerade, wenn alle xt -Werte um 10 erhöht sind. Die neue Gerade liegt rechts der alten und alle Schätzwerte des Einkommens yˆt liegen jeweils auf den eingezeichneten gestrichelten horizontalen Linien. An der Ordinate erkennt man, daß sich die Lage der Schätzwerte des Einkommens, yˆt , nicht ändert. Deshalb verändern sich auch die Argumente der Funktion s2 (ˆ yt ) nicht und das Bestimmtheitsmaß bleibt von Änderungen solcher Art unberührt.
KAPITEL 12. EINFACHE REGRESSION
2700 2680 2660 2640
Schätzwerte des Einkommen
2720
262
30
35
40
45
50
55
60
Alter
Abbildung 12.3: Translationsinvarianz des Bestimmtheitsmaßes Quelle: eigene Darstellung
12.5.2
Beispiel
Das Bestimmtheitsmaß zur Regression von Seite 253 ist gleich 0, 004414. Die Varianz s2 (y) der beobachteten Werte errechnet sich über > Varianz1 <- var(x[,1])*3/4. Die Ergebnisse der Regression von yt auf xt ist in ’Reg1’ abgelegt und die geschätzten Werte lassen sich über ’Reg1$fitted.values’ ansprechen. Die Varianz s2 (ˆ yt ) kann dann über > Varianz2 <- var(Reg1$fitted.values)*3/4 > Varianz2/Varianz1 [1] 0.004414477 berechnet werden. Die Anwendung von Formel 12.26 führt zu besagtem Ergebnis. Werden alle xt -Werte um 10 erhöht, so erhält man denselben Wert. Das Beispiel von Seite 256 wird fortgeführt. Die Anweisung ’summary(...)’ gibt eine Übersicht über wichtige Kennziffern der Regression ’Reg2’. In der vorletzten Zeile findet sich die Angabe ’R-squared’, dies ist das Bestimmtheitsmaß R2 . Wir haben die Ausgangsdaten selbst erzeugt. Da in das Beispiel keine Störvariablen eingebaut wurden und wir wissen, daß alle Punkte (xt , yt ) auf einer Geraden liegen, werden die Parameter der zugrunde liegenden Funktion korrekt
12.6. VOLLSTÄNDIGES MODELL
263
geschätzt und alle Schätzwerte yˆt liegen auf derselben Geraden. Folglich ist die Varianz s2 (ˆ y ) der Schätzwerte yˆt gleich der Varianz s2 (y) der Regressanden yt und das Bestimmtheitsmaß ist gleich Eins. > summary(Reg2) Call: lm(formula = ln.y ~ ln.Lt) Residuals: Min 1Q Median 3Q Max -3.003e-15 -1.029e-16 -2.126e-18 9.810e-17 3.987e-16 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 6.931e-01 2.393e-17 2.897e+16 <2e-16 *** ln.Lt 4.000e-01 6.369e-18 6.280e+16 <2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 Residual standard error: 1.782e-16 on 989 degrees of freedom Multiple R-squared: 1,Adjusted R-squared: 1 F-statistic: 3.944e+33 on 1 and 989 DF, p-value: < 2.2e-16
12.6
Vollständiges Modell
Bei dem einfachen klassischen Regressionsmodell wird Xt als deterministische Variable vorausgesetzt. In vielen eher naturwissenschaftlichen Anwendungen ist dies korrekt, bei ökonomischen Fragestellungen häufig nicht. In einem naturwissenschaftlichen Experiment kann der Laborleiter die Einflußgröße Xt durch die Versuchsanordnung vorgeben, Xt ist in der Tat deterministisch. Bei Versuchsanordnungen in der experimentellen Spieltheorie oder laborgestützten Versuchen zur Untersuchung des Kundenverhaltens kommt man diesem Ideal zumindest nahe. Bei sonstigen ökonomischen Problemstellungen wird man wohl eher davon ausgehen müssen, daß auch Xt eine Zufallsvariable ist. Dem Modellansatz 12.1 tut dies keinen Abbruch. Denn die Verteilung von Yt bestimmt sich über die funktionale Abhängigkeit und die gemeinsame Verteilung von Xt und Ut . Freilich ist gewöhnlich diese gemeinsame Verteilung nicht bekannt. Wir kommen jedoch zu handhabbaren Ergebnissen, wenn angenommen wird, daß X = (X1 , . . . , XT ) und Ut stochastisch unabhängig sind. Hieraus ergibt sich, daß die bedingte Wahrscheinlichkeitsverteilung P (Ut |X) = P (Ut ) (wegen 1 auf Seite 116). Die Wahrscheinlichkeitsverteilung von Ut ist also immer dieselbe, ganz gleich wie X aussieht. Hieraus ergibt sich die schwächere Annahme, daß der Mittelwert und die Varianz von Ut unter der Bedingung X jeweils konstant sind. Denn aus stochastischer Unabhängigkeit folgen die beschriebenen Zusammenhänge, der
KAPITEL 12. EINFACHE REGRESSION
264
Umkehrschluß ist im allgemeinen nicht korrekt, d.h. aus der Konstanz von Erwartungswert und Varianz bei irgendeinem gegebenem Wert von X kann nicht auf stochastische Unabhängigkeit geschlossen werden. Wird zudem vorausgesetzt, daß die bedingten Störungen Ut|X sich im Mittel ausgleichen, also der bedingte Erwartungswert von Ut unter der Bedingung X gleich Null ist und wird die bedingte Varianz von Ut bei gegebenem X gleich σ2 gesetzt, so können die Annahmen des klassischen Regressionsmodells wie folgt umgeschrieben werden: 2 σ ˆX > 0 mit Wahrscheinlichkeit 1,
(12.31)
wobei sich diese Annahme von 12.2 durch die schwächere Annahme unterscheidet, daß die Varianz der Regressoren mit Wahrscheinlichkeit von Eins größer als Null ist. Die Annahmen 12.3 und 12.4 werden gemäß der gerade gemachten Anmerkungen durch
und
E(Ut |X) = 0 für alle t ∈ {1, . . . , T }
(12.32)
V ar(Ut |X) = σ2 für alle t ∈ {1, . . . , T }
(12.33)
ersetzt und Annahme 12.5 wird gefaßt als E(Ut Ut˜|X) = 0 für alle t, t˜ ∈ {1, . . . , T } mit t = t˜.
(12.34)
Wenn zusätzlich noch folgende Annahmen lim
T →∞
sowie
x2
< ∞ mit
x2
:=
T
x2t
(12.35)
t=1
lim s2 (X) > 0,
T →∞
(12.36)
wobei s2 die empirische Varianz bezeichnet sowie Ut ist normalverteilt bei gegebenem X für alle t = 1, . . . , T,
(12.37)
gelten, so spricht Schneeweiß (1978) von dem vollständigen Modell.
12.7
Tests
12.7.1
Grundlagen
a ˆ und ˆb hängen von der Zufallsvariablen Yt ab und sind deshalb selbst Zufallsvariablen. Weil Verwechslungen mit den KQ-Schätzern 12.10 bzw. 12.11 nicht zu befürchten sind, können die KQ-Schätzfunktionen mit denselben Variablen bezeichnet werden wie die Schätzer: T T T T 2 t=1 Xt t=1 Yt − t=1 Xt · Yt t=1 Xt (12.38) a ˆ= T T 2 2 T t=1 Xt − ( t=1 Xt )
12.7. TESTS
265
und ˆb = T
Xt Yt − Tt=1 Xt Tt=1 YT . T T T t=1 Xt2 − ( t=1 Xt )2
T
t=1
(12.39)
In der Ökonometrie unterscheidet man sowieso nicht zwischen Zufallsvariablen und Beobachtungen, weshalb im Rest des Kapitels nur noch Kleinbuchstaben verwendet werden. Ob es Zufallsvariablen sind oder nicht, ergibt sich aus dem Zusammenhang. Um einen Test über die KQ-Koeffizienten durchführen zu können, bedarf es einer Teststatistik. Üblicherweise werden auf Erwartungswert Null und Varianz 1 standardisierte Größen verwendet. Dieses Ziel erreicht man über Standardisierung (siehe Kapitel 7.4.3 auf Seite 133) von a ˆ und ˆb. Hierzu ist es nötig, den Erwartungswert von a ˆ bzw. ˆb zu kennen. Der Erwartungswert E(ˆ a) des Absolutgliedes ist E(ˆ a) = a (12.40) und der der Steigung E(ˆb) = b.
(12.41)
Die Herleitung findet sich in Anhang 12.B. Bei der Standardisierung ist der Erwartungswert von der in Frage stehenden Zufallsvariable abzuziehen. Damit ist sichergestellt, daß der Erwartungswert der so gebildeten Zufallsvariablen gleich Null ist. Dies ergibt a ˆ−a=
¯xt )ut (x2 − x 2 T s (x)
(12.42)
ˆb − b =
(xt − x ¯)ut . 2 T s (x)
(12.43)
und
In Anhang 12.C.1. können die Zusammenhänge nachvollzogen werden. Schließlich ist a ˆ − a und ˆb − b durch die Standardabweichung von a ˆ bzw. ˆb zu dividieren, um eine Testgröße mit Varianz Eins zu erhalten. Bei Geltung von Annahme 12.37 sind die KQ-Schätzer normalverteilt mit Erwartungswert 0 und Varianz 1: a ˆ−a ~N (0, 1) (12.44) σ(ˆ a|X) und
ˆb − b ~N (0, 1). σ(ˆb|X)
(12.45)
a|X) sowie σ2 (ˆb|X) unbekannt und müssen geFreilich sind die Varianzen σ2 (ˆ schätzt werden. Damit sind wir in der Lage, Hypothesentests über die KQ-Schätzer durchzuführen. Die Nullhypothese lautet H 0 : a = a0
KAPITEL 12. EINFACHE REGRESSION
266 und die Gegenhypothese H1 : a = a0 . Als Testgröße wird
Testgröße =
a ˆ−a ~t(T −2) σ ˆ (ˆ a|X)
(12.46)
verwendet, wobei die Standardabweichung σ(ˆ a|X) aus Gleichung 12.44 über T 1 x2 T −2 ˆ2t x2 σ ˆ2 t=1 u σ ˆ (ˆ a|X) = = (12.47) 2 2 T s (x) T s (x) geschätzt wird. Die Herleitung dieser Formel sowie der entsprechenden für den Parameter ˆb findet sich in Anhang 12.C.2. Der Term T
σ ˆ2 =
1 u ˆt 1 − 2 t=1
(12.48)
dient hierbei zur Schätzung der Varianz σ 2 der Residuen ut . Unter Gültigkeit der Nullhypothese ist die Testgröße t-verteilt mit T − 2 Freiheitsgraden. Der Annahmebereich ist gleich [t(T −2),α/2 ; t(T −2),1− α2 ]. t(T −2),α/2 ist hierbei das α/2-Quantil der t-Verteilung mit T −2 Freiheitsgraden. im Annahmebereich, so kann die Nullhypothese nicht Liegt die Testgröße σˆ 2aˆ(ˆ−a a|X) verworfen werden. Dies ist ein zweiseitiger Test, dessen Ergebnis für a0 = 0 standardmäßig in Statistikprogrammen ausgegeben wird. Ganz analog zu 4.3.2 und 4.3.3 lassen sich auch einseitige Hypothesentests durchführen. Bei Tests über den Steigungsparameter ˆb geht man ganz analog vor. Wir nutzen: ˆb − b (12.49) ~t(T −2) . Testgröße = σ ˆ (ˆb|X) Die Schätzung für die Standardabweichung σ(ˆb|X) in Gleichung 12.45 errechnet sich hier allerdings über die Formel t 1 2 ˆt σ ˆ t=1 u T −2 = , (12.50) σ ˆ (ˆb|X) = 2 2 T s (x) T s (x) wobei die Varianz σ ˆ 2 der Residuen ut auch hier über 12.48 geschätzt wird.
12.7.2
Beispiel
Das Beispiel von Seite 253 wird fortgeführt. Es soll getestet werden, ob der Parameter a ˆ zur Sicherheitswahrscheinlichkeit von α = 0, 05 signifikant von Null verschieden ist. Mit anderen Worten wird die Nullhypothese
12.7. TESTS
267
H0 : a = 0 gegen H1 : a = 0 geprüft. Das Objekt ist unter ’Reg1’ abgespeichert. Die Testgröße 12.68 muß berechnet werden, wobei die bedingte Varianz V ar(ˆ a|X) über 12.62 und die Varianz σ 2 der Residuen ut über 12.67 geschätzt wird. x2 wird durch den Befehl > T <- 4 > x.quadrat <- (1/T)*t(x[,2]%*%x[,2]) > x.quadrat [,1] [1,] 1487 bestimmt und die Varianz σ2 (u) über > sigma.quadrat.u <- (1/(T-2)) *t(Reg1$residuals)%*%Reg1$residuals > sigma.quadrat.u [,1] [1,] 461702.8 berechnet. ’Reg1$residuals’ ist ein Befehl zur Ausgabe der geschätzten Residuen. Die Berechnung der empirischen Varianz s2 (x) der Regressoren erfolgt über > s.quadrat.x <- var(x[,2])*(T-1)/T > s.quadrat.x [1] 80.75 Als Varianz für a ˆ erhalten wir 2125548 und die zugehörige Standardabweichung ist gleich 1457.926. Mit ’Reg1$coefficients’ lassen sich die KQ-Schätzer ansprechen, es handelt sich um einen ˆ − 0 durch die be Spaltenvektor. Division von a a|X) = 1457.926 ergibt die t-verteilte Testdingte Standardabweichung V ar(ˆ größe in Höhe von 1, 743220. > Var.a <- x.quadrat*sigma.quadrat.u/(T*s.quadrat.x) > Var.a [,1] [1,] 2125548 > (Var.a)^.5 [,1] [1,] 1457.926 > Reg1$coefficients[1]/(Var.a)^.5 [,1] [1,] 1.743220 Der Annahmebereich wird über die t-Verteilung bestimmt. Seine Grenzen berechnen sich wie folgt:
KAPITEL 12. EINFACHE REGRESSION
268
> qt(0.025,T-2,0,lower.tail=TRUE) [1] -4.302653 > qt(0.975,T-2,0,lower.tail=TRUE) [1] 4.302653.
Damit ist der Annahmebereich gleich [−4, 302653; 4, 302653]. Die Testgröße ist ca. 1, 7 und liegt im Annahmebereich. Deshalb kann die Nullhypothese nicht verworfen werden, d.h. a ˆ ist nicht signifikant von Null verschieden. Man kann auch folgendermaßen argumentieren. Die Testgröße (= 1, 7) ist positiv. Rechts von ihr liegt 0, 1117084 an Wahrscheinlichkeitsmasse und links von −1, 7 liegt ebensoviel. D.h., daß insgesamt 2 · 0, 1117084 = 0, 2234168 Wahrscheinlichkeitsmasse rechts von 1, 7 und links von −1, 7 liegen. Wäre das Signifikanzniveau genau 0, 2234168, so würde die Testgröße gerade auf dem rechten Rand des Annahmebereiches liegen. Wäre das Signifikanzniveau auch nur etwas größer, so fiele die Testgröße (= 1, 7) in den Ablehnungsbereich und die Nullhypothese wäre zu verwerfen. Diese Interpretation hilft, den Output von , der über den Befehl ’summary’ erzeugt wird, zu verstehen. Unter ’Estimate’ stehen die KQ-Schätzer, rechts davon ist die bedingte Standardabweichung V ar(ˆ a|X) angegeben. Es folgt der ’t value’, dies ist die von uns berechnete Testgröße. P r(> |t|) gibt die Wahrscheinlichkeitsmasse an, die rechts der Testgröße = 1, 7 und links von −1, 7 zu liegen kommt. Ist diese Wahrscheinlichkeit kleiner als das vorgegebene Signifikanzniveau, so liegt die Testgröße im Ablehnungsbereich und die Nullhypothese wäre abzulehnen.
> summary(Reg1) Call: lm(formula = x[, 1] ~ x[, 2]) Residuals: 1 2 -648.3 -191.0
3 180.5
4 658.8
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2541.49 1457.93 1.743 0.223 x[, 2] 3.56 37.81 0.094 0.934 Residual standard error: 679.5 on 2 degrees of freedom Multiple R-squared: 0.004414,Adjusted R-squared: -0.4934 F-statistic: 0.008868 on 1 and 2 DF, p-value: 0.9336
12.8. ABSCHLIEENDE BEMERKUNGEN
12.8
269
Abschließende Bemerkungen
Die vorangegangen Ausführungen stellen eine von zwei möglichen Interpretationen der Gleichung 12.1 dar. Es ist jene, die in der Ökonometrie Verwendung findet. Alternativ zu der ökonometrischen stellt sich gelegentlich die Aufgabe, eine Gerade so in ein Streudiagramm aller Beobachtungspunkte (xt , yt ) zu legen, daß die Abstände zwischen (xt , yt ) und der zu schätzenden Geraden möglichst gering sind. Zu diesem Zweck benötigt man keine Wahrscheinlichkeitstheorie, und keinen Erwartungswert oder Varianz. Ob die Annahmen 12.2 bis 12.5 zutreffen oder nicht, spielt keine Rolle. ut wird interpretiert als Abweichung von y von der Geraden a + b · xt. Eine solche Gerade kann mittels der KQ-Schätzwerte 12.10 und 12.11 stets bestimmt werden. Bei dem ökonometrischen Ansatz ist es möglich, daß aufgrund der vorgefundenen Parameterwerte der Zusammenhang verworfen wird. Dies ist dann der Fall, wenn bei geringem Bestimmtheitsmaß ein Test zu dem Ergebnis führt, daß ein Parameter nicht signifikant von Null verschieden ist. Insofern ist dieser Ansatz tiefgreifender. Es kann sein, daß selbst bei vergleichsweise geringem Bestimmtheitsmaß die geschätzten Koeffizienten signifikant sind. Dies ist zu erwarten, wenn die Varianz der Störterme recht groß ist. Insofern ist ein geringes Bestimmtheitsmaß kein hinreichender Grund, eine Regression zu verwerfen. Zudem kann es vorkommen, daß bei hohem Bestimmtheitsmaß die Koeffizienten nicht signifikant von Null verschieden sind. In solchen Situationen fällt die Entscheidung etwas schwer, sich für oder gegen eine Schätzung auszusprechen. Es stellt sich die Frage, warum Parameter insignifikant sind. Die Entscheidung kann erleichtert werden, wenn die Schätzergebnisse verschiedener Modellspezifikationen zusammen mit ihren Gütekriterien dargestellt und miteinander verglichen werden. Dies führt in den Bereich der multiplen Regression, bei der nicht nur eine erklärende Variable x sondern mehrere x1 , x2 , . . . , xn mit n + 1, n ≥ 1 erklärenden Variablen berücksichtigt werden. Eine Warnung sei zum Schluß ausgesprochen. Durch die Aufstellung der Gleichung 12.1 wird ein funktionaler Zusammenhang zwischen Y und X aufgestellt. Er wird, wie in der Mathematik üblich, der Gestalt interpretiert, daß Y von X abhängig ist. Doch selbst wenn die Regressionskoeffizienten signifikant von Null verschieden sind, hat man statistisch keineswegs gezeigt, daß diese Wirkungsrichtung tatsächlich vorliegt. Es könnte auch sein, daß X von Y abhängig ist oder aber drittens, daß sich beide Variablen gegenseitig bedingen. Mit anderen Worten ist eine Regression nicht als Beleg für eine bestimmte Ursache-Wirkungsrichtung zu interpretieren. Dies bedeutet allerdings nicht, daß es völlig gleichgültig wäre, welche Variable Regressand und welche Regressor ist (Schneeweiß, 1978, Kapitel 1.1.5).
12.9
Kontrollfragen
1. Wodurch unterscheidet sich das einfache klassische von dem vollständigen Regressionsmodell?
KAPITEL 12. EINFACHE REGRESSION
270
2. Warum wird das vollständige Modell eingeführt? 3. (a) Was ist eine latente Variable? (b) Geben Sie ein Beispiel für eine solche Variable an. 4. Mit welchem Befehl lassen sich in eine Graphik zusätzlich Geraden einzeichnen? 5. Sind Regressionen für Querschnittsanalysen geeignet? 6. Manche behaupten, die Regressionsrechnung sei sehr einschränkend, weil lediglich lineare Funktionen zugelassen sind. Halten Sie dagegen. 7. Sie haben eine Regression mit dem Befehl ’lm’ geschätzt und möchten gerne die Regressionskoeffizienten mit der Zahl vier multiplizieren. Wie lautet der Befehl in ? 8. Wie erstellen Sie eine Prognose? 9. In lassen sich die Residuen händisch berechnen oder sie können dem Regressionsobjekt ’lm(...)’ entnommen werden. Geben Sie jeweils die nötigen Befehle an. 10. Interpretieren Sie das Bestimmtheitsmaß. 11. Wieso kann R2 nur Werte zwischen Null und Eins annehmen? 12. Das Bestimmtheitsmaß ändert sich nicht, wenn alle x-Werte mit einer Konstanten multipliziert werden. Wieso ist diese Eigenschaft so wichtig? 13. Erläutern Sie die Translationsinvarianz mit Hilfe einer Graphik. 14. Wieso können die KQ-Schätzfunktionen als Zufallsvariable angesehen werden? 15. Wie standardisiert man eine Zufallsvariable? 16. Was bedeutet Y ~N (0, 1)? 17. Wie lautet die Testgröße zur Überprüfung, ob a ˆ signifikant von Null verschieden ist? 18. Es ist möglich und gelegentlich aus praktischen Gründen sinnvoll, eine Gerade so in eine Punktwolke zu legen, daß die Abstände zu den Beobachtungen möglichst gering sind. Was ist der Unterschied eines solchen Vorgehens im Vergleich zu einem ökonometrischen Ansatz?
12.10. AUFGABEN
12.10
271
Aufgaben
1. (a) Zeigen Sie, daß Formel 12.13 korrekt ist.137 (b) Begründen Sie etwas genauer als Seite 258 bereits geschehen, warum der Zusammenhang 12.19 gilt.138 (c) Beweisen Sie 12.21. (d) Seite 12.28 heißt es: “Liegen alle Beobachtungen yt auf der Regressionsgeraden, so ist das Bestimmtheitsmaß gleich Eins.” Begründen Sie diese Aussage mit Hilfe eines Diagramms.139 (e) Überprüfen Sie die Richtigkeit von 12.30. ˜t ) = 0. Hinweis: Argumen2. Zeigen Sie, daß bei Geltung von 12.5 Cov(Ut , U tieren Sie genauso wie bei den Varianzen. 3. Interpretieren Sie Formel 12.12 zur Berechnung des KQ-Schätzers ˆb.140 4. Das Bestimmtheitsmaß R2 sei sehr niedrig. Frau Klein schließt hieraus, daß die Schätzung nicht verläßlich ist. Nehmen Sie Stellung.141 5. (a) Zeigen Sie, daß im einfachen Regressionsmodell das Bestimmtheitsmaß R2 bei zwei Beobachtungen gleich Eins sein muß. (b) Statistiker Groß diskutiert mit Unternehmer Maul. Aus diesem Disput zwischen Groß-Maul, ziehen beide die Einsicht, daß im einfachen Regressionsmodell das Bestimmtheitsmaß sinkt, wenn ceteris paribus die Anzahl der Beobachtungen steigt. Stimmt das? Begründen Sie Ihre Position.142 6. Bestimmen Sie die KQ-Schätzer im Beispiel auf Seite 253 mit Hilfe der Gleichungen 12.10 und 12.11. 7. Zeigen Sie, daß 12.61 korrekt ist.*143 8. Eine Regression des Einkommens auf das Lebensalter habe ein Bestimmtheitsmaß von R2 = 0.65 und die KQ-Schätzer seien signifikant von Null verschieden. Statistiker Schlauberger behauptet unter Berufung auf dieses Ergebnis, daß statistisch bewiesen sei, daß das Einkommen von dem Lebensalter abhängt. Nehmen Sie kurz Stellung.144 9. (a) Erzeugen Sie 991 normalverteilte Zufallsvariablen mit Erwartungswert 0 und Varianz 1. (b) Addieren Sie diese Störterme zu ln.Lt, einer Variable erzeugt in Beispiel 12.3.2 auf Seite 256. (c) Berechnen Sie die KQ-Koeffizienten der Regression von ln.y auf ln.Lt+ u. (d) Interpretieren Sie das Bestimmtheitsmaß R2 und prüfen Sie, ob die KQ-Schätzer signifikant von Null verschieden sind.
KAPITEL 12. EINFACHE REGRESSION
272
(e) Erzeugen Sie 991 normalverteilte Zufallsvariablen, jetzt aber mit Erwartungswert 0 und Varianz 4 und führen Sie die Schritte 9b bis 9d mit diesen Störvariablen durch.145 10. Logistikfachmann Meier vermutet einen linearen Zusammenhang zwischen Exporten und der Nachfrage nach Logistikleistungen seines Unternehmens. Allerdings ist ihm unklar, ob die Exporte in Euro oder in Eintausend Euro vorliegen. Was raten Sie?146 11. Es wurden aufgrund einer KQ-Schätzung folgende Störterme u ˆt geschätzt: −32, 43, 25, −67, −74, 73, 43. (a) Bestimmen Sie die Summe der Residuen. (b) Interpretieren Sie Ihr Ergebnis.147 12. (a) Lesen Sie folgende zwei Zahlenreihen in
ein:
• 4 5.5 3 3 5 6.6 6.3 6.5 3 2 1 • 4 4.5 3.8 2.3 5.5 6 6 6.5 3 2 2 (b) Stellen Sie die erste Zahlenreihe an der Abszisse und die zweite an der Ordinate graphisch dar. (c) Berechnen Sie die Regression der ersten Zahlenreihe auf die zweite. (d) Welche Besonderheit fällt auf? (e) Berechnen Sie die Residuen. (f) Schätzen Sie die Varianz σ2 .148 13. Dem aufmerksamen Leser wird es nicht entgangenen sein, daß Seite 269 bei der multiplen Regression von n + 1 erklärenden Variablen die Rede ist. Wieso?149
12.A
Beweis der Streuungszerlegungsformel*
Die empirische Varianz s2 (y) von y ist definiert als T · s2 (y) :=
T t=1
(yt − y¯)2
(12.51)
12.A. BEWEIS DER STREUUNGSZERLEGUNGSFORMEL*
273
und kann umgeschrieben werden zu: T · s2 (y) := = = =
T
T
yt t=1 (ˆ
T
yt t=1 (ˆ
yt − y¯ˆt )2 + t=1 (ˆ =
+u ˆt − y¯ ˆ)2 − y¯ ˆt + u ˆt )2
T
T
u t )2 + 2 · t=1 (ˆ
yt t=1 (ˆ
− y¯ ˆt )2 +
(12.52)
T
yt − y¯ˆ) · u ˆt ) t=1 ((ˆ
T
ut )2 t=1 (ˆ
= V ar(ˆ y ) + V ar(ˆ u). Der Übergang von der vierten zur fünften Zeile in 12.52 ist wegen 12.53 korrekt. T yt − y¯ ˆ) · u ˆt ) t=1 ((ˆ =
T
t=1
= = =a ˆ
yˆt · uˆt − y¯ˆ
T
T
t=1
u ˆt
yˆt · u ˆt + 0
t=1
(12.53)
T
a + ˆbxt )uˆt t=1 (ˆ
T
t=1
u ˆt + ˆb
T
t=1
xt u ˆt
= 0. In der zweiten und der vorletzten Zeile von 12.53 ist zu berücksichtigen, daß die Summe aller Residuen gleich Null ist (siehe 12.21). Beachtet man in der vorletzten Zeile zudem 12.54, so folgt die Behauptung. Es gilt T xt · u ˆt = 0. (12.54) t=1
Denn wir können wie folgt umformen: T T ˆt = t=1 xt · (yt − yˆt ) t=1 xt · u = = =
T
T
t=1
t=1
T
t=1 (xt yt
xt y t −
xt y t − a ˆ
T
T
t=1
− xt yˆt )
t=1
xt (ˆ a + ˆbxt )
T xt − ˆb t=1 x2t = 0.
Bei der letzten Zeile wird Normalgleichung 12.9 verwendet, woraus die Behauptung folgt.
KAPITEL 12. EINFACHE REGRESSION
274
12.B
Erwartungswerte der KQ-Koeffizienten*
Wir starten mit den Normalgleichungen 12.8 und 12.9 und wenden hierauf den Erwartungswertoperator an. Dies ergibt unter Berücksichtigung von 12.32: E(ˆ a)T + E(ˆb) xt = E(yt ) ⇔ E(ˆ a)T + E(ˆb) xt = (a + bxt + E(ut ))
(12.55)
⇔ E(ˆ a)T + E(ˆb) xt = aT + b xt . bzw. E(ˆ a)
xt + E(ˆb)
x2t = a
xt + b
x2t .
(12.56)
Umstellen von 12.56 auf E(ˆb) und einsetzen in 12.55 ergibt: 2 2 2 a( xt ) +b xt 2xt −E(ˆa)( xt ) = aT + b xt E(ˆ a)T + x t
⇔ E(ˆ a)T
2 x2t + a( xt )2 + b x2t a)( xt )2 = aT xt + b x2t xt − E(ˆ xt ⇔ E(ˆ a)(T
2 x2t − ( xt )2 ) = a(T xt − ( xt )2 ⇔ E(ˆ a) = a. (12.57)
Die Argumentation zum Beweis von 12.41 verläuft analog.
12.C
Standardisierung*
12.C.1
Erwartungswert
In den Normalgleichungen 12.8 und 12.9 sind a ˆ und ˆb abhängig von yt . Wird diese Größe ersetzt durch 12.1, so erhält man ut (12.58) T · (ˆ a − a) + (ˆb − b) · xt = bzw. (ˆ a − a)
xt + (ˆb − b)
x2t =
u t xt .
(12.59)
Auflösung dieses Gleichungssystems ergibt analog zu 12.10 und 12.11 gleich: 2 2 2 xt x ¯ xt ut T x ut −T x ¯xt ut ut2− xt 2 ut xt = T x ut2−T = a ˆ−a= 2 T x −( x ) T x −( x )2 T x −( x )2 t
t
=
t
2 xxt )ut ) (x2 −¯ = T x −( x )2
T(
t
t
T(
(x2 −¯ xxt )ut )
T 2 x2 −T 2 (¯ x )2
t
t
t
=
(
(x2 −¯ xxt )ut ) , T s2 (x)
(12.60)
12.C. STANDARDISIERUNG*
275
wobei bei dem Übergang zur letzten Zeile Zusammenhang 3.6 zu beachten ist, und (xt − x ¯)ut xt ut − ut xt ˆb − b = T . (12.61) = ... = T x2t − ( xt )2 T s2 (x)
12.C.2
Varianz
Die Varianz V ar(Y ) einer Zufallsvariablen Y ist definiert als E(Y − E(Y ))2 . Zwecks Berechnung der bedingten Varianzen V ar(ˆ a − a|X) und V ar(ˆb − b|X) werden 12.42 bzw. 12.43 quadriert und hierauf der Erwartungswertoperator angewendet. Dies ergibt x2 σ 2 (12.62) V ar(ˆ a|X) = T s2 (x) bzw. V ar(ˆb|X) =
σ2 . T s2 (x)
(12.63)
Denn es gelten folgende Zusammenhänge, wobei die Darstellung auf 12.62 beschränkt ist; 12.63 geht ganz analog. E(ˆ a − a)2 = E(
( (x2 − x ¯xt )ut )2 ) 2 (T s (x))2
(12.64)
Der Term oberhalb des Bruchstrichs hat folgendes Aussehen (x2 − x ¯x1 )u1 · (x2 − x ¯x1 )u1 +(x2 − x ¯x2 )u2 · (x2 − x ¯x1 )u1 .. . +(x2 − x ¯xT )uT · (x2 − x ¯x1 )u1 +(x2 − x ¯x1 )u1 · (x2 − x ¯x2 )u2
(12.65)
+(x2 − x ¯x2 )u2 · (x2 − x ¯x2 )u2 .. . +(x2 − x ¯xT )uT · (x2 − x ¯x2 )u2 .. . Wird der Erwartungswertoperator angewendet, so sind wegen Annahme 12.34 alle Summanden mit E(ut , ut˜) = 0 für t = t˜ gleich Null und wegen 12.33 ist
KAPITEL 12. EINFACHE REGRESSION
276
E(u2t ) = σ 2 . Damit kann 12.64 umgeformt werden zu
(x2 −¯ xxt )2 E(u2t ) (T s2 (x))2
=
σ2
(x2 −2x2 x ¯xt +¯ x2 x2t ) (T s2 (x))2
(12.66) 2
=
σ2 (T x2 −T 2x2 x ¯2 +T x ¯2 x2 ) (T s2 (x))2
2
=
σ2 (x2 −x2 x ¯2 ) T s4 (x)
=
σ2 x2 (x2 −¯ x2 ) T s4 (x)
=
σ 2 x2 T s2 (x) .
Bei dem Übergang des vorletzten zum letzten Term wurde von Formel 3.6 Gebrauch gemacht. Damit wurde die Korrektheit von 12.62 gezeigt. Die einzig unbekannte Größe ist σ2 , die Varianz der Residuen. Sie wird über T
1 2 u ˆ T − 2 t=1 t
σ ˆ2 =
(12.67)
geschätzt. Wird in V ar(ˆ a|X) = σ 2 (ˆ a|X) das σ 2 ersetzt durch σ ˆ 2 , so kennzeich2 nen wir dies durch σ ˆ (ˆ a|X). Die Variable 2
2
(T − 2) Txs2σˆ(x) (T − 2) · σ ˆ 2 (ˆ a|X) = = x2 σ 2 σ 2 (ˆ a|X) 2 T s (x)
T
ˆt t=1 u σ2
2
ist χ2 -verteilt mit (T − 2) Freiheitsgraden. Division von 12.44 durch σ ˆ (ˆ a|X) σ(ˆ a|X) liefert in Verbindung mit der Definition der t-Verteilung (siehe Kapitel A.3.5) a ˆ−a σ(ˆ a|X) σ ˆ (ˆ a|X) σ(ˆ a|X)
=
a ˆ−a ~t(T −2) σ ˆ (ˆ a|X)
(12.68)
und entsprechende Operationen für ˆb − b führen zu dem Ergebnis ˆ b−b σ(ˆ b|X) σ ˆ (ˆ b|X) σ(ˆ b|X) ˆ b−b ~t σ ˆ 2 (ˆ b|X) (T −2)
=
ˆb − b ~t(T −2) . σ ˆ (ˆb|X) ˆ
(12.69)
bedeutet, daß die Zufallsvariable σˆ 2b−b t-verteilt ist mit T − 2 (ˆ b|X) Freiheitsgraden. Eine t-verteilte Zufallsvariable erhält man, wenn man eine normalverteilte durch eine χ2 -verteilte Zufallsvariable dividiert und beide Variablen stochastisch unabhängig voneinander sind (siehe A.3.4). Die stochastische Unabhängigkeit von Zähler und Nenner in 12.68 und 12.69 wäre noch zu zeigen, was hier jedoch zu weit führen würde. Der interessierte Leser sei verwiesen auf (Schneeweiß, 1978, S. 67).
12.D. PARTIELLE KORRELATION*
12.D
277
Partielle Korrelation*
Die partielle Korrelation haben wir bereits in Kapitel 9.3 kennengelernt. Dort wurde das Maß 9.3 ohne nähere Begründung eingeführt, da noch nicht auf die Regressionsrechnung zurückgegriffen werde konnte. Es wird davon ausgegangen, daß die Variable x2 jeweils mit den Variablen y und x1 korreliert sei. Berechnet man nun die Korrelation nach Bravais-Pearson zwischen y und x1 , so wird man eine hohe Korrelation berechnen können, obwohl es zwischen diesen beiden Variablen möglicherweise keinen direkten Zusammenhang gibt. Um herauszufinden, ob es tatsächlich eine direkte Korrelation zwischen y und x1 gibt, kann der Einfluß, den Variable x2 auf y hat, und ihre Wirkung auf x1 jeweils durch eine einfache Regression bestimmt werden. Es wird also zuerst eine Regression von y auf x2 und eine zweite von x1 auf x2 berechnet. Die Residuen,ˆ uyx2 bzw. u ˆx1 x2 , dieser beiden Regressionen sind frei von dem Einfluß der Variablen x2 . Damit läßt sich die partielle Korrelation über ˆx1 x2 t ˆx x t (1/T ) u ˆyx2 t u u ˆyx2 t u 1 2 ryx1 .x2 = r(ˆ uyx2 , u ˆ x1 x2 ) = = 2 (1/T ) uˆyx2 t (1/T )ˆ u2x1x2 t ˆ2x1 x2 t u ˆ2yx2 t u (12.70) berechnen. Die Residuen lassen sich vermittels Gleichung 12.20 ermitteln. Die Prognosewerte der ersten Regression werden bezeichnet als yˆyx2 und die der zweiten mit x ˆx 1 x 2 . Nun wird gezeigt, daß 12.70 mit 9.2 äquivalent ist. Im folgenden werden die Formeln 12.12 und 12.13 zusammen mit ˆbyx = ryx (s(y)/s(x2 )), 2 2
(12.71)
wobei ˆbyx2 den Schätzwert von byx2 der Regression von y auf x2 bezeichnet, ryx2 die Korrelation zwischen y und x2 sowie s(y) die Standardabweichung von y und s(x2 ) die Standardabweichung der Variablen x2 angibt, verwendet. 12.71 ergibt sich aus 12.12 in Verbindung mit der Definition der Korrelation 8.1. Damit läßt sich der Schätzer yˆ für y wie folgt berechnen: ˆyx2 + ˆbyx2 x2t = y¯ − ˆbyx2 x ¯2 + ˆbyx2 x2t yˆyx2 t = a (12.72) = y¯ + (ryx2 s(y)/s(x2 )) · (x2t − x ¯2 ). Ganz analog läßt sich auf der Grundlage der zweiten Regression der Schätzer x ˆx1 x2 für x bestimmen: ˆx1 x2 + ˆbx1 x2 x2t = x¯1 − ˆbx1 x2 x ¯2 + ˆbx1 x2 x2t x ˆ x1 x2 t = a (12.73) =x ¯1 + (rx1 x2 s(x1 )/s(x2 )) · (x2t − x ¯2 ).
278
KAPITEL 12. EINFACHE REGRESSION
Der Zähler von 12.70 kann dann wie folgt umgeformt werden: ˆx 1 x 2 = (yt − yˆyx2 ) · (x1t − x ˆx1 x2 ) u ˆyx2 u = ((yt − y¯) − (ryx2 s(y)/s(x2 )) · (x2t − x ¯2 )) ¯1 ) − (rx1 x2 s(x1 )/s(x2 )) · (x2t − x ¯2 )) ·((x1t − x = ((yt − y¯)(x1t − x ¯1 ) −(yt − y¯)(rx1 x2 s(x1 )/s(x2 )) · (x2t − x ¯2 ) −(ryx2 s(y)/s(x2 )) · (x2t − x ¯2 )(x1t − x ¯1 ) +(ryx2 s(y)/s(x2 )) · (x2t − x ¯2 )(rx1 x2 s(x1 )/s(x2 )) · (x2t − x ¯2 ) = T [syx1 − (rx1 x2 s(x1 )/s(x2 ))syx2 −(ryx2 s(y)/s(x2 ))sx1 x2 + (ryx2 s(y)/s(x2 ))(rx1 x2 s(x1 )/s(x2 ))s2 (x2 )] = T [syx1 − rx1 x2 ryx2 s(x1 )s(y) − rx1 x2 ryx2 s(x1 )s(y) + rx1 x2 ryx2 s(x1 )s(y)] = T s(x1 )s(y)[ryx1 − ryx2 rx1 x2 ]. Wird im Nenner berücksichtigt, daß
und
2 uyx2 ) = T s2 (y)(1 − ryx ) T s2 (ˆ 2
(12.74)
ux1 x2 ) = T s2 (x1 )(1 − rx2 1 x2 ) T s2 (ˆ
(12.75)
wegen 12.27 gelten, so zeigt sich, daß Formel 12.70 äquivalent ist zu 9.3.
Anhang A
Theoretische Verteilungen A.1
Einleitung
Um statistische Tests durchführen zu können, benötigt man theoretische Verteilungen, denn ansonsten könnte bei gegebenem Signifikanzniveau der Annahmeund Verwerfungsbereich nicht bestimmt werden. Betrachten wir beispielsweise Glücksspiele. Gehen wir von einem perfekten Würfel aus, bei dem die Wahrscheinlichkeit des Auftretens irgendeine Zahl zwischen 1 und 6 jeweils 1/6 ist, so erwarten wir bei jedem Wurf, daß die Wahrscheinlichkeit des Auftretens stets 1/6 ist. Die relevante Verteilung wäre eine diskrete Gleichverteilung. Ziehen wir aus einer Urne mit k weißen Kugeln und n − k schwarzen Kugeln eine (und nur eine) zufällig heraus, so wäre die Bernoulli-Verteilung relevant. Im Falle eines Tests über den Anteilswert haben wir gesehen, daß bei Vorliegen einer einfachen Stichprobe die Anzahl der weißen Kugeln in einer Stichprobe mit weißen und schwarzen Kugeln binomialverteilt ist. Hierüber wurde auch deutlich, wie wichtig das Erhebungsverfahren ist. Würde eine Stichprobe ohne Zurücklegen vorliegen, so gelangt man zu einer anderen theoretischen Verteilung der Stichprobe: der hypergeometrischen Verteilung. Die Poisson-Verteilung eignet sich zur Beschreibung von Warteschlangenproblemen, wie sie beispielsweise im Operations Research behandelt werden und im Alltag der Logistik, bei Verkäufern, an Schaltern oder im Call-Center vorkommen können. All diese Verteilungen haben eines gemeinsam: es sind Verteilungen über diskrete Merkmale. Das sind solche mit abzählbaren vielen Merkmalsausprägungen. Hierbei kommt es nicht darauf an, ob es endlich oder unendlich viele Merkmalsausprägungen gibt. Die nachfolgend genannten Verteilungen sind stetig, d.h. es gibt unendlich überabzählbar viele Merkmalsausprägungen. In anderen Worten: man kann die Merkmalsausprägungen nicht durch abzählen angeben und es gibt ihrer unendlich viele. Für Ökonomen sind die folgenden stetigen Verteilungen relevant. Die Normalverteilung ist die wichtigste. Denn mit ihr können bei genügend großem Stichprobenumfang einige diskrete Verteilungen approximiert werden. Zudem R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
ANHANG A. THEORETISCHE VERTEILUNGEN
280
ist sie häufig bei einfachen Stichproben relevant, wenn keine theoretische Herleitung, wie bei der Binomialverteilung, möglich ist. Die Verteilungen lassen sich oft durch einige wenige Lageparameter, beispielsweise Erwartungswert und Varianz, beschreiben. Ist bei normalverteilten Merkmalen die Varianz unbekannt, so wird die t-Verteilung relevant. Zudem ist die Normalverteilung Basis für die Chi-Quadrat- und die F-Verteilung. Die theoretischen Verteilungen basieren auf Zufallsexperimenten oder der Zufall spielt eine wichtige Rolle. Bei der Herleitung der Binomial-Verteilung wurde beispielsweise klar: es gibt eine Verbindung des ursprünglichen Wahrscheinlichkeitsraumes in der Grundgesamtheit zu der Verteilung in der Stichprobe. In der Grundgesamtheit gibt es zwei mögliche Ausprägungen, weiß und schwarz. Die Wahrscheinlichkeit, eine weiße Kugel zu ziehen, ist gleich p. Die Art des Stichprobenverfahrens bestimmte dann die theoretische Verteilung in der Stichprobe. Hierdurch wurde sichergestellt, daß vor Ziehen der Stichprobe, die Merkmalsausprägungen in der Stichprobe Zufallsvariablen mit bekannter Verteilung sind. Ist eine Stichprobe abgeschlossen, so spricht man von Realisierungen der Zufallsvariablen. Zufallsvariablen werden üblicherweise mit großen Buchstaben kenntlich gemacht; ihre Realisierungen kennzeichnet man durch Kleinbuchstaben. Das Kapitel gliedert sich in zwei große Bereiche: die diskreten und die stetigen Verteilungen. Hierbei werden jeweils die Funktion dargestellt und die wichtigsten Lageparameter, Erwartungswert und Varianz, angegeben. Um einen optischen Eindruck der Verteilungen zu erhalten, sind die Wahrscheinlickeitsmassefunktion bzw. die Dichte und die zugehörige Verteilungsfunktion jeweils graphisch dargestellt.
A.2
Diskrete Verteilungen
A.2.1
Gleichverteilung*
Grundlagen Im Falle von m Trägerpunkten 1, 2, 3, . . . , m ist ihre Wahrscheinlichkeitsverteilung 1 x = 1, 2, 3, . . . , m QX (x) = m 0 sonst mit Erwartungswert m
E(X) = und Varianz
m
V ar(X) =
1 xi m i=1 m
1 2 1 2 xi − ( xi ) . m i=1 m i=1
A.2. DISKRETE VERTEILUNGEN
281
Beispiel Für die diskrete Gleichverteilung ist in kein spezieller Befehl verfügbar. Es sollte jedoch keine Probleme bereiten, dieselbe Technik anzuwenden, die bereits zur Herleitung der relativen Häufigkeitsverteilung, deren Verteilung sowie graphischen Veranschaulichung angewendet wurde.
A.2.2
Bernoulli- und Binomialverteilung
Grundlagen Die Wahrscheinlichkeitsverteilung der Bernoulli-Verteilung ist ⎧ ⎪ ⎨(1 − p) für x = 0 QX (x) = p für x = 1 ⎪ ⎩ 0 sonst mit Erwartungswert E(X) = p und Varianz Var(X) = p · (1 − p). Sie ist ein Spezialfall der Binomialverteilung. Können Sie das begründen?150 Der Einfachheit wegen ist deren Wahrscheinlichkeitsmassefunktion für die Zufallsvariable X hier wieder angegeben ⎧ ⎪ ⎨ n · px · (1 − p)(n−x) für x 0 QX (x, n, p) = x ⎪ ⎩ 0 sonst mit Erwartungswert E(X) = n · p und Varianz Var(X) = n · p · (1 − p). Beispiel Lade zuerst das Paket ’Rlab’, um die Funktionen zur Berechnung der BernoulliParameter verfügbar zu machen. Im nachfolgenden Befehl steht die ’1’ steht für die Ausprägung, wobei nur 0 und 1 möglich sind. An zweiter Stelle steht die Wahrscheinlichkeit der Ausprägung ’1’. Wir erhalten > dbern(1, 0.5, log = FALSE) [1] 0.5 Die Berechnung der Binomialverteilung wurde bereits in Kapitel 4.2 beschrieben.
ANHANG A. THEORETISCHE VERTEILUNGEN
282
A.2.3
Hypergeometrische Verteilung*
Grundlagen Ihre Wahrscheinlichkeitsmassefunktion ist für x 0 S W · n−x x , P (x, W, S, n) = W +S n mit x = Anzahl gezogener weißer Kugeln, W = Anzahl weißer Kugeln in der Urne, S = Anzahl schwarzer Kugeln in der Urne, n = Stichprobenumfang. Die Anzahl an Kugeln in der Urne bezeichnen wir mit N (= W + S) und die Anzahl an schwarzen Kugeln in der Stichprobe ist gleich: n − x. Zu berücksichtigen ist, daß der Stichprobenumfang n kleiner oder gleich der Anzahl Kugeln in der Grundgesamtheit W + S ist, d.h. (n W + S). Die Anzahl weißer Kugeln in der Grundgesamtheit W kann nicht größer sein als alle Kugeln in ihr, also W W + S. Zudem muß für die Anzahl gezogener weißer Kugeln x gelten, daß sie nicht negativ und nicht kleiner als n − S, also dem Stichprobenumfang abzüglich der Zahl schwarzer Kugeln in der Grundgesamtheit sein kann. Denn angenommen, S wäre gleich Null, so muß x gleich n sein. Gibt es schwarze Kugeln in der Grundgesamtheit, so muß x jedoch mindestens so groß sein wie n−S. Und es muß gelten, daß x nicht größer als der Stichprobenumfang n, aber auch nicht größer als die Anzahl weißer Kugeln in der Grundgesamtheit ist. Diese Bedingungen können folgendermaßen zusammengefaßt werden: max(0, n − S) x min(n, W ). Der Erwartungswert ist E(X) = n ·
W , N
Ihre Varianz berechnet sich über V ar(X) = n ·
W N −n W · (1 − ) . N N N −1
Diese Varianz unterscheidet sich von der der Binomialverteilung durch den Korrekturfaktor N −n , N −1
A.2. DISKRETE VERTEILUNGEN
283
ist nichts weiter als der Anteil der weißen Kugeln in der Grundgesamtdenn W N heit, den wir bei der Binomialverteilung mit p gekennzeichnet haben. Für n = 1 ist dieser Quotient gleich Eins; falls n > 1 ist er kleiner als Eins. Division von (N − n) durch (N − 1) ergibt 1+
1−n . N −1
Der zweite Term strebt für N gegen unendlich gegen Null und damit strebt der gesamte Term für N gegen unendlich gegen 1. Dies bedeutet, daß die Varianz der hypergeometrischen Verteilung für große Grundgesamtheiten sich der Varianz der Binomialverteilung nähert. Zudem läßt sich zeigen, daß die hypergeometrische Verteilung für N → ∞ der der Binomialverteilung nähert Als praktische Konsequenz ergibt sich: Bei großen Grundgesamtheiten kann auch bei Ziehen ohne Zurücklegen die Binomialverteilung als Approximation verwendet werden. Beispiel Über folgende Befehle läßt sich die Wahrscheinlichkeitsmassefunktion veranschaulichen. > Hypergeometrische <- dhyper(c(-20:20), 100, 100, 12, log = FALSE) > plot(c(-20:20),Hypergeometrische) Der Befehl ist folgendermaßen zu interpretieren: dhyper(Anzahl gezogener weißer Kugeln, Anzahl weißer Kugeln in der Urne, Anzahl schwarzer Kugeln in der Urne, Stichprobenumfang, log = FALSE). Wie oben bei der Binomialverteilung wird der Bereich von -20 bis 20 auf der Abszisse betrachtet. Die Anzahl der weißen Kugeln ist identisch der der schwarzen und gleich 100. Der Stichprobenumfang ist ebenfalls derselbe und zwar 12. Man erkennt, daß ihr Verlauf dem der Binomialverteilung schon ziemlich ähnlich ist.
A.2.4
Poisson-Verteilung*
Grundlagen Die Wahrscheinlichkeitsmassefunktion ist QX (x, λ) =
λx −λ ·e x!
mit den Sprungstellen x ∈ N ∪ {0}, Erwartungswert E(X) = λ und Varianz Var(X) = λ. Wird, ausgehend von der Binomialverteilung, p definiert als p := nλ und läßt man n gegen unendlich laufen, so erhält man die Poisson-Verteilung. Denn die Binomialverteilung läßt sich umformen zu n −x x λ λ n(n − 1)(n − 2) · · · (n − x + 1) λ · 1 − · · 1 − . QX (x) = nx x! n n
ANHANG A. THEORETISCHE VERTEILUNGEN
0.15 0.10 0.05 0.00
Hypergeometrische
0.20
284
−20
−10
0
10
20
c(−20:20)
Abbildung A.1: Hypergeometrische Verteilung Quelle: eigene Darstellung
Der erste Term der rechten Seite ist für x = 2 1 1 n(n − 1) n = − =1− . n2 n n n Für n → ∞ strebt dieser Ausdruck gegen 1. Für x = 0 oder x = 1 ist die Argumentation trivial. Für x = 3 errechnet sich der erste Term zu n(n − 1)(n − 2) (n3 − 3n2 + 2n) (n(n2 − 2n − n + 2)) = . = 3 3 n n n3 x
Man erkennt, daß für jedes x ein Faktor nnx existiert und alle anderen nSummanden oberhalb des Bruchstriches einen Exponenten kleiner als x haben. Folglich strebt für jedes x größer oder gleich Null und n → ∞ der erste Term gegen 1. Selbiges gilt für den letzten Term. Der dritte Term strebt für n → ∞ gegen exp(−λ) und man erhält schließlich die Poisson-Verteilung als Grenzfall. Die Bedeutung der Poisson-Verteilung erschließt sich bei Betrachtung eines Warteschlangenproblems, wenn man von der diskreten zur kontinuierlichen Zeitbetrachtung übergeht. Betrachtet man eine gegebene Zeitspanne, z.B. eine Stunde, und teilt sie in n gleichlange Teilperioden ein. Zusätzlich geht man davon aus, daß innerhalb einer solchen Teilperiode keine oder genau eine Person ankommt und die Ankünfte stochastisch unabhängig sind. Die Besetzung der
A.2. DISKRETE VERTEILUNGEN
285
Teilperioden kann demgemäß durch eine Binomialverteilung beschrieben werden. Definiert man λ p := n und läßt n gegen unendlich gehen, so geht die Binomialverteilung in die PoissonVerteilung über. λ, den Erwartungswert der Poisson-Verteilung, nennt man mittlere Ankunftsrate. Beispiel Mit Erwartungswert λ = 10 läßt sich die Wahrscheinlichkeitsmassefunktion graphisch mit den Befehlen > y <- dpois(c(-20:40), 10, log = FALSE) > plot(c(-20:40),y) erzeugen. Die Verteilungsfunktion bei Verwendung derselben Parameter wird über > y1 <- ppois(c(-20:40), 10, lower.tail = TRUE, log.p = FALSE) > plot(c(-20:40),y1) erzeugt.
A.2.5
Geometrische Verteilung*
Grundlagen Ihre Wahrscheinlichkeitsmassefunktion ist für x 0 mit Sprungstellen x ∈ N ∪ {0} QX (x) = (1 − p)x p mit Erwartungswert
(1 − p) p
und Varianz V ar(X) =
(1 − p) , p2
wobei p = Erfolgswahrscheinlichkeit, (1 − p) = Wahrscheinlichkeit eines Mißerfolges. Die Wahrscheinlichkeit QX (x) gibt die Wahrscheinlichkeit von x Mißerfolgen in einer Folge von Bernoulli-Experimenten an. p die Wahrscheinlichkeit genau eines Erfolges. Sie wird bei Fragestellungen verwendet, bei denen die Wahrscheinlichkeit berechnet werden soll, nach wie vielen Mißerfolgen mit einem Erfolg zu rechnen ist.
ANHANG A. THEORETISCHE VERTEILUNGEN
0.00 0.02 0.04 0.06 0.08 0.10 0.12
y
286
−20
−10
0
10
20
30
40
c(−20:40)
Abbildung A.2: Poisson-Verteilung Quelle: eigene Darstellung
Beispiel Die Wahrscheinlichkeitsmassefunktion mit Erfolgswahrscheinlichkeit p = 0, 20 wird über die Befehle
> y <- dgeom(c(-20:40), 0.2, log = FALSE) > plot(c(-20:40), y)
und die Verteilungsfunktion über die Anweisungen
> y1 <- pgeom(c(-20:40), 0.2, lower.tail = TRUE, log.p = FALSE) > plot(c(-20:40),y1)
erzeugt.
A.3. STETIGE VERTEILUNGEN
0.0
0.2
0.4
y1
0.6
0.8
1.0
287
−20
−10
0
10
20
30
40
c(−20:40)
Abbildung A.3: Verteilungsfunktion der Poisson-Verteilung Quelle: eigene Darstellung
A.3 A.3.1
Stetige Verteilungen Rechteckverteilung
Grundlagen Sie ist auch unter dem Namen stetige Gleichverteilung bekannt. Ihre Dichtefunktion zur Zufallsvariablen X ist 1 , für a x b , fX (x) = b−a 0, sonst mit a, b ∈ R und a < b. Sie hat Erwartungswert E(X) =
a+b 2
und Varianz Var(X) =
(a + b)2 . 12
ANHANG A. THEORETISCHE VERTEILUNGEN
0.10 0.00
0.05
y
0.15
0.20
288
−20
−10
0
10
20
30
40
c(−20:40)
Abbildung A.4: Geometrische Verteilung Quelle: eigene Darstellung
Beispiel Der folgende Befehl erzeugt einen Vektor, beginnend bei 0 bis 4 mit der Schrittweite 0,01 und ordnet dieses Objekt dem Buchstaben x zu. > x <- seq(from = 0, to = 4, by=0.01) > x [1] 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 [31] 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0 Die Anweisung > y <- dunif(x, min=1, max=3, log = FALSE) ermittelt die Werte der Verteilungsfunktion an den Stellen von x. Minimalwert ist 1, Maximalwert 3, die Wahrscheinlichkeiten werden nicht logarithmiert ausgegeben. Der folgende Befehl führt zur Zeichnung der Dichtefunktion mit x-Werten an der Abszisse und y-Werten an der Ordinate: > plot(x,y,type="l"). Die Befehle
A.3. STETIGE VERTEILUNGEN
0.0
0.2
0.4
y1
0.6
0.8
1.0
289
−20
−10
0
10
20
30
40
c(−20:40)
Abbildung A.5: Verteilungsfunktion der Geometrischen-Verteilung Quelle: eigene Darstellung
> y1 <- punif(x, min=1, max=3, lower.tail = TRUE, log.p = FALSE) > plot(x,y1,type="l") ordnen die Verteilungsfunktion dem Ausdruck y1 zu bzw. der plot-Befehl stellt die Funktion graphisch dar.
A.3.2
Exponentialverteilung*
Grundlagen Das stetige Pendant zur geometrischen Verteilung ist die Exponentialverteilung mit Dichtefunktion λ · e−λx für x 0 fX (x) = 0 sonst für λ > 0, mit Erwartungswert E(X) = und Varianz Var(X) =
1 λ 1 . λ2
ANHANG A. THEORETISCHE VERTEILUNGEN
0.0
0.1
0.2
y
0.3
0.4
0.5
290
0
1
2
3
4
x
Abbildung A.6: Rechteckverteilung Quelle: eigene Darstellung
Beispiel Der Befehl > y <- dexp(seq(-20,40,by=.1), rate = 1, log = FALSE) > plot(seq(-20,40,by=.1), y,type="l") erzeugt die Wahrscheinlichkeitsmassefunktion für λ = 1 (= ’rate’) und die Anweisung > y1 <- pexp(seq(-20,40,by=.1), rate = 1, lower.tail = TRUE, log.p = FALSE) > plot(seq(-20,40,by=.1), y1,type="l") generiert die Verteilungsfunktion.
A.3.3
Normalverteilung
Grundlagen Ihre Dichtefunktion ist 1 x−μ 2 1 fX (x) = √ e− 2 ( σ ) σ 2π
A.3. STETIGE VERTEILUNGEN
0.0
0.2
0.4
y1
0.6
0.8
1.0
291
0
1
2
3
4
x
Abbildung A.7: Verteilungsfunktion der Rechteckverteilung Quelle: eigene Darstellung für −∞ < x < ∞, mit Erwartungswert μ und Varianz σ2 . Aus den Rechenregeln über Erwartungswerte ergibt sich, daß die Dichtefunktion sich um die Konstante a ∈ R verschiebt, wenn statt der Zufallsvariablen X die Variable X−a verwendet wird. Denn dann ist der Erwartungswert E(X − a) = E(X) − a. Ist a = μ , so ist der Erwartungswert von X − μ gleich Null. Wird statt X die Variable X −μ σ verwendet, d.h. wird die Zufallsvariable standardisiert, so ist der Erwartungswert gleich Null und die Varianz gleich Eins. Ist X normalverteilt, so heißt die so standardisierte Variable standardnormalverteilt. Beispiel Benötigt man Informationen über Befehle zur Normalverteilung, so öffnet die Anweisung > ?dnorm eine Hilfeseite, der die Befehlsstruktur zur Berechnung der Dichtefunktion entnommen werden kann. ’norm’ ist hierbei die Abkürzung für Normalverteilung.
ANHANG A. THEORETISCHE VERTEILUNGEN
0.0
0.2
0.4
y
0.6
0.8
1.0
292
−20
−10
0
10
20
30
40
seq(−20, 40, by = 0.1)
Abbildung A.8: Exponentialverteilung Quelle: eigene Darstellung
Will man den Wert der Verteilungsfunktion der Normalverteilung berechnen, so nutzt man den Befehl > pnorm. Kennt man den Verteilungstyp, den Erwartungswert und die Varianz, so kann man bei vielen theoretischen Verteilungen bereits zu einer Zufallsvariablen X den Wert der Dichtefunktion, der Verteilungsfunktion oder bei vorgegebener Wahrscheinlichkeit auch ein Quantil berechnen. Der Befehl > x <- seq(-5,5, by=.1) erzeugt einen Spaltenvektor beginnend bei minus 5 bis plus 5mit einer Schrittweite von 0,1. Er wird dem Ausdruck x zugeordnet und die Eingabe von x führt zur Anzeige am Bildschirm. > x [1] -5.0 -4.9 -4.8 -4.7 -4.6 -4.5 -4.4 -4.3 -4.2 -4.1 -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 [24] -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5
A.3. STETIGE VERTEILUNGEN
0.0
0.2
0.4
y1
0.6
0.8
1.0
293
−20
−10
0
10
20
30
40
seq(−20, 40, by = 0.1)
Abbildung A.9: Verteilungsfunktion der Exponentialverteilung Quelle: eigene Darstellung
[47] 0.7 [70] 3.0 [93]
-0.4 0.8 1.9 3.1 4.2
-0.3 0.9 2.0 3.2 4.3
-0.2 1.0 2.1 3.3 4.4
-0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.4 3.5 3.6 3.7 3.8 3.9 4.0 4.1 4.5 4.6 4.7 4.8 4.9 5.0
Die Anweisung > dnorm berechnet die Werte der Dichtefunktion der Normalverteilung; ’d’ steht für density und ’norm’ für Normalverteilung. Im vorliegenden Fall führen die Befehle > y <- dnorm(x, mean=0, sd=1, log = FALSE) und > y zu [1] 1.486720e-06 2.438961e-06 3.961299e-06 6.369825e-06 1.014085e-05 1.598374e-05 2.494247e-05 3.853520e-05
ANHANG A. THEORETISCHE VERTEILUNGEN
0.2 0.0
0.1
y
0.3
0.4
294
−4
−2
0
2
4
x
Abbildung A.10: Standardnormalverteilung Quelle: eigene Darstellung
5.894307e-05 [10] 8.926166e-05 1.338302e-04 1.986555e-04 2.919469e-04 usw. Durch den Befehl > plot(x,y,type="l") wird eine Grafik erzeugt, wobei an der Abszisse die Variable x und der Ordinate y abgetragen wird. Es handelt sich um die Standardnormalverteilung, weil ihr Mittelwert 0 und Standardabweichung gleich Eins ist. Die Werte der Verteilungsfunktion einer standardnormalverteilten Zufallsvariablen erhält man über > y1 <- pnorm(x, mean=0, sd=1, lower.tail = TRUE, log.p = FALSE) und die Anweisung > y1 würde ihre Werte am Bildschirm erscheinen lassen. Die Anweisung > plot(x,y1,type="l") führt zu ihrer graphischen Veranschaulichung.
A.3. STETIGE VERTEILUNGEN
0.0
0.2
0.4
y1
0.6
0.8
1.0
295
−4
−2
0
2
4
x
Abbildung A.11: Verteilungsfunktion der Standardnormalverteilung Quelle: eigene Darstellung
A.3.4
Chi-Quadrat-Verteilung
Grundlagen Gegeben seien die standardnormalverteilten und stochastisch unabhängigen Zufallsvariablen X1, X2, . . . , Xn , dann heißt χ2 := X12 + X22 + . . . + Xn2 chi-quadrat-verteilt mit n Freiheitsgraden, wobei n die Anzahl der unabhängigen Zufallsvariablen angibt. Die Berechnung des Erwartungswertes ergibt E(χ2 ) = n und ihre Varianz ist Var(χ2 ) = 2n. Sie nimmt nur Werte größer oder gleich Null an. Dieser Verteilungstyp ist in den Wirtschaftswissenschaften sehr wichtig. Zur Überprüfung, ob eine empirische Verteilung mit einer theoretischen Verteilung übereinstimmt, oder bei der Überprüfung auf stochastische Unabhängigkeit zweier Zufallsvariablen kommt sie zur Anwendung.
ANHANG A. THEORETISCHE VERTEILUNGEN
0.00
0.02
y
0.04
0.06
296
0
10
20
30
40
50
c(−5:50)
Abbildung A.12: Dichtefunktion der Chi-Quadrat-Verteilung Quelle: eigene Darstellung
Beispiel Die Dichtefunktion ergibt sich über > y <- dchisq(c(-5:50), 20, ncp=0, log = FALSE) > plot(c(-5:50),y,type="l") Die ’20’ gibt hierbei die Anzahl an Freiheitsgraden (= df = degrees of freedom) an. Zur Erzeugung der zugehörigen Verteilungsfunktion ist einzugeben: > y1 <- pchisq(c(-5:50), 20, ncp=0,lower.tail = TRUE, log.p = FALSE) > plot(c(-5:50),y1,type="l")
A.3.5
t-Verteilung
Grundlagen Gegeben sei die chi-quadrat-verteilte Zufallsvariable χ2 und die standardnormalverteilte Zufallsvariable X und beide seien stochastisch unabhängig voneinander. Dann heißt X Tn = 1 2 n χn
A.3. STETIGE VERTEILUNGEN
0.0
0.2
0.4
y1
0.6
0.8
1.0
297
0
10
20
30
40
50
c(−5:50)
Abbildung A.13: Verteilungsfunktion der Chi-Quadrat-Verteilung Quelle: eigene Darstellung
t-verteilt mit n Freiheitsgraden. Die Anzahl an Freiheitsgraden n zeigt an, wieviel unabhängige Zufallsvariablen in ihr enthalten sind. Ihr Erwartungswert ist E(Tn ) = 0 und Varianz Var(Tn ) =
n n−2
für n 3. Der t-Verteilung fällt in der schließenden Statistik große Bedeutung zu, wenn die Varianz einer normalverteilten Zufallsvariablen Y unbekannt ist. Der Erwartungwert wird über das arithmetische Mittel (erwartungstreu) geschätzt. Die Varianz wird über die korrigierte Stichprobenvarianz, die sich aus quadrierten normalverteilten Zufallsvariablen mit Mittelwert Null zusammensetzen, geschätzt. Dividiert man die korrigierte Stichprobenvarianz durch die wahre, aber unbekannte Standardabweichung (Standardisieriung), so erhält man eine chiquadrat-verteilte Zufallsvariable. Standardisierung der normalverteilten Variablen Y führt zu der standardnormalverteilten Größe Y − E(Y ) X := . V ar(Y ) Kann man zudem zeigen, daß die normalverteilte Zufallsvariable stochastisch
ANHANG A. THEORETISCHE VERTEILUNGEN
0.2 0.0
0.1
y
0.3
0.4
298
−10
−5
0
5
10
seq(−10, 10, by = 0.1)
Abbildung A.14: Dichtefunktion der t-Verteilung Quelle: eigene Darstellung
unabhängig von der standardisierten Stichprobenvarianz ist, so kann man eine t-verteilte bilden. Die standardnormalverteilte Variable X dividiert durch die Quadratwurzel der korrigierten Stichprobenvarianz (die zwecks Standardisierung durch die wahre, aber unbekannte Varianz V ar(Y ) dividiert wird), führt dazu, daß sich die unbekannte Varianz V ar(Y ) herauskürzen läßt. Beispiel Die Dichtefunktion einer standardisierten t-verteilten Zufallsvariablen mit 20 Freiheitsgraden kann erzeugt werden durch > y <- dt(seq(-10,10,by=.1), 20, 0, log = FALSE) > plot(seq(-10,10,by=.1),y,type="l") In Fall einer standardisierten Zufallsvariable ist der Nichtzentralitätsparameter gleich Null zu setzen. Die Verteilungsfunktion läßt sich durch folgende Anweisungen veranschaulichen: > y1 <- pt(seq(-10,10,by=.1), 20, 0, lower.tail = TRUE, log.p = FALSE) > plot(seq(-10,10,by=.1),y1,type="l").
A.3. STETIGE VERTEILUNGEN
0.0
0.2
0.4
y1
0.6
0.8
1.0
299
−10
−5
0
5
10
seq(−10, 10, by = 0.1)
Abbildung A.15: Verteilungsfunktion der t-Verteilung Quelle: eigene Darstellung
A.3.6
F-Verteilung
Grundlagen Gegeben seien die beiden chi-quadrat-verteilten und stochastisch unabhängigen Zufallsvariablen χ2m und χ2n , dann heißt Fnm :=
1 2 m χm 1 2 n χn
F-verteilt mit m Zähler- und n Nenner-Freiheitsgraden. Ihr Erwartungswert ist E(Fnm ) =
n für n > 2 n−2
und ihre Varianz V ar(Fnm ) =
2n2 (m + n − 2) für n > 4. m(n − 2)2 (n − 4)
Dieser Verteilungstyp kommt beispielsweise bei dem Vergleich zweier Varianzen, aber auch in der Regressionsrechnung bei zusammengesetzten Hypothesen über die Regressanden zum Einsatz.
ANHANG A. THEORETISCHE VERTEILUNGEN
0.0
0.2
0.4
y
0.6
0.8
1.0
300
−2
0
2
4
6
8
10
seq(−2, 10, by = 0.01)
Abbildung A.16: Dichtefunktion der F-Verteilung Quelle: eigene Darstellung
Beispiel Folgende Befehle erzeugen für den Definitionsbereich [−2, 10] mit Schrittweite 0,01, Zählerfreiheitsgraden von 10 und Nennerfreiheitsgraden in Höhe von 300, > y <- df(seq(-2,10, by=0.01), 10, 300, 0,log = FALSE) > plot(seq(-2,10,by=0.01),y,type="l") Im Fall einer standardisierten Zufallsvariable ist der Nichtzentralitätsparameter, wie bei der t-Verteilung, gleich Null zu setzen. Die Verteilungsfunktion wird erzeugt über > y1 <- pf(seq(-2,10, by=0.01), 10, 20, 0,lower.tail = TRUE, log.p = FALSE) > plot(seq(-2,10, by=0.01),y1,type="l")
A.3. STETIGE VERTEILUNGEN
0.0
0.2
0.4
y1
0.6
0.8
1.0
301
−2
0
2
4
6
8
seq(−2, 10, by = 0.01)
Abbildung A.17: Verteilungsfunktion der F-Verteilung Quelle: eigene Darstellung
10
Anhang B
Matrizenrechnung B.1
Einleitung
Matrizen erleichtern dem Statistiker das Leben ungemein. Rohdaten, bei denen die Zeilennamen gleich dem Objektnamen sind und die Spaltennamen gleich den Merkmalen mit ihren Ausprägungen in der jeweiligen Spalte, können als Matrix aufgefaßt werden. Hat man zwei Rohdaten mit identischer Anzahl von Zeilen und Spalten und möchte jede Zelle des einen addieren zu derselben Zelle des anderen, so kann man die Rechenregeln zur Addition von Matrizen verwenden. Es zeigt sich, daß bei multivariaten Daten viele Kenngrößen mit Hilfe der Matrizenrechnung bequem und schnell berechnet werden können. Allein aus diesen Gründen lohnt es sich, den Umgang mit Matrizen zu lernen. Matrizen sind zudem eine kompakte Schreibweise zur Darstellung von Zusammenhängen und Berechnungen, die in anderer Schreibweise nur schwer nachzuvollziehen wäre. Aus diesen Gründen werden hier die wichtigsten Definitionen und Sätze der Matrizenrechnung vorgestellt. Zudem zeigt sich, daß mit Hilfe von viele Rechnungen, die ohne Programmunterstützung mühsam durchzuführen waren, nun in sekundenschnelle berechnet werden können. Dies sollte Anreiz und Motivation sein, sich mit der Matrizenrechnung und adäquaten Programmen vertraut zu machen. Im ersten Abschnitt wird die Definition einer Matrix und von Vektoren eingeführt. In der praktischen Anwendung zeigt sich, daß bestimmte Typen von Matrizen besonders wichtig sind, weshalb die wichtigsten eigens zusammengestellt werden. Um mit Matrizen rechnen zu können, müssen Verknüpfungen zwischen ihnen definiert sein. dies geschieht in Abschnitt B.3. Hier werden Addition und Multiplikation von Matrizen sowie ihre Rechenregeln dargestellt. Matrizen können auch dazu genutzt werden, Gleichungssysteme zu lösen. Hierzu sind die Eigenschaften der Matrizen näher zu bestimmen. Aus diesem Grund werden die Begriffe lineare Unabhängigkeit, Rang, Determinante und Inverse einer Matrix eingeführt und Rechenregeln präsentiert. R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
ANHANG B. MATRIZENRECHNUNG
304
B.2
Matrizen
B.2.1
Definition
Zwecks Vereinfachung der Darstellung werden hier Matrizen mit reellen Zahlen betrachtet. Die Ausführungen gelten allerdings auch für reelle Zufallsvariablen, sofern die Rechenoperationen definiert sind. Eine Matrix ist eine besondere Anordnung von Zahlen. Eine (m × n)-Matrix X mit den Elementen xij für i = 1, 2, 3, . . . , m und j = 1, 2, 3, . . . , n hat folgenden Aufbau ⎛ ⎞ a11 . . . a1n ⎜ .. ⎟ . X := ⎝ ... (B.1) . ⎠ ...
am1
amn
Wir schreiben hierfür auch X = X(m×n) = aij , i = 1, . . . , m, j = 1, . . . , n.
(B.2)
m ist die Anzahl der Zeilen und n die der Spalten. Falls X eine (m × n)-Matrix ist, dann ist ihre transponierte jene Matrix, die aus X hervorgeht, indem ihre Spaltenvektoren in die neue Matrix X als Zeilenvektoren geschrieben werden. Die Transponierte X ist dann eine (n × m)Matrix.
B.2.2
Vektoren
Eine (m × 1)-Matrix heißt Spaltenvektor mit m Dimensionen: ⎛
⎞ x1 ⎜ ⎟ x := ⎝ ... ⎠ .
(B.3)
xm Greifen wir die i-te Zeile aus Matrix X heraus, so nennen wir ihn n-dimensionalen Zeilenvektor und schreiben x := (x1 , . . . , xn ).
(B.4)
Will man in der Matrix X eine bestimmte Spalte herausgreifen, so schreibt man ⎛ ⎞ x1j ⎜ ⎟ X•j = ⎝ ... ⎠ . (B.5) xmj Will man eine bestimmte Zeile angeben, so nutzt man folgende Notation Xi• = (xi1 , . . . , xin ).
(B.6)
B.2. MATRIZEN
B.2.3
305
Typen
Ist m = n so heißt Matrix X quadratisch. Eine quadratische Matrix heißt symmetrisch, wenn gilt xij = xji für alle i, j = 1, 2, 3, . . . , n. Bei einer symmetrischen Matrix X gilt: X = X . Folgende Matrix ⎛ ⎞ 1 0 ... 0 ⎜0 1 . . . 0 ⎟ ⎜ ⎟ I := ⎜ . .⎟ .. ⎝ .. . .. ⎠ 0 0
...
(B.7)
(B.8)
1
heißt Einheitsmatrix. Sie ist quadratisch und zugleich auch symmetrisch. Definieren wir r als die kleinere der beiden Zahlen m und n, dann heißen die Elemente a11 , a22 , a33 , . . . , arr die Hauptdiagonalelemente der Matrix X. Den Vektor a11 , a22 , a33 , . . . , arr nennen wir Hauptdiagonale. Im Falle der Einheitsmatrix besteht die Hauptdiagonale ausschließlich aus Einsen. Die Einheitsmatrix ist ein Spezialfall der n×n-Diagonalmatrix. Bei ihr stehen lediglich auf der Hauptdiagonalen von Null verschiedene Zahlen. ⎛ ⎞ x1 0 . . . 0 ⎜ 0 x2 . . . 0 ⎟ ⎜ ⎟ X := ⎜ . (B.9) .. ⎟ .. ⎝ .. . . ⎠ 0 0 . . . xn Sind sogar alle Elemente auf der Hauptdiagonale einer Diagonalmatrix gleich Null, so heißt diese Matrix Nullmatrix: ⎛ ⎞ 0 ... 0 ⎜0 . . . 0⎟ ⎜ ⎟ (B.10) X := ⎜ . .. ⎟ . ⎝ .. .⎠ 0
...
0
Sind bei einer quadratischen Matrix alle Elemente unterhalb der Hauptdiagonalen gleich Null, ⎞ ⎛ x11 x12 . . . a1n ⎜ 0 x22 . . . a2n ⎟ ⎟ ⎜ (B.11) X := ⎜ . .. ⎟ , .. ⎝ .. . . ⎠ 0
0
...
xnn
so spricht man von einer oberen Dreiecksmatrix. Im umgekehrten Fall, wenn oberhalb der Hauptdiagonale nur Nullen stehen, heißt die Matrix untere Dreiecksmatrix.
ANHANG B. MATRIZENRECHNUNG
306 Der Vektor
⎛ ⎞ 0 ⎜ .. ⎟ ⎜.⎟ ⎜ ⎟ ⎜0⎟ ⎜ ⎟ ⎟ ej := ⎜ ⎜1⎟ , ⎜0⎟ ⎜ ⎟ ⎜.⎟ ⎝ .. ⎠
(B.12)
0 bei dem die ’1’ in der j-ten Zeile steht, heißt j-ter Einheitsvektor. Sind alle Elemente eines Vektors gleich ’1’, so heißt er Einsvektor, sollten alle Elemente eines Vektors gleich Null sein, so spricht man von einem Nullvektor.
B.3 B.3.1
Verknüpfungen Gleichheitsrelation
Definition Zwei Matrizen X(m×n) und Y(m×n) sind einander gleich, X(m×n) = Y(m×n) , wenn für jedes ihrer Elemente gilt xij = yij , d.h. xij = yij gilt für alle i ∈ {1, 2, 3, . . . , m} und alle j ∈ {1, 2, 3, . . . , n}. Beispiele Ob Matrizen einander gleich sind oder nicht, kann mit leicht überprüft werden. Zunächst werden die Matrizen ’X’ uns ’Y’ erzeugt und anschließend wird überprüft, ob ’X’ kleiner oder größer ist als ’Y’. Sofern bei beiden Vergleichen an allen Stellen i = 1, 2, . . . , m und j = 1, 2, . . . , n ’FALSE’ ausgegeben wird, sind die Elemente xij und yij einander gleich. > X <- matrix(c(1,2,3,4),ncol=2) > Y <- matrix(c(1,2,3,4),ncol=2) > X [,1] [,2] [1,] 1 3 [2,] 2 4 > Y [,1] [,2] [1,] 1 3 [2,] 2 4 > X X>Y
B.3. VERKNÜPFUNGEN
307
[,1] [,2] [1,] FALSE FALSE [2,] FALSE FALSE > Z <- matrix(c(2,3,4,5),ncol=2) > Z [,1] [,2] [1,] 2 4 [2,] 3 5 > X X>Z [,1] [,2] [1,] FALSE FALSE [2,] FALSE FALSE
B.3.2
Addition
Definition Zwei Matrizen X(m×n) und Y(m×n) werden addiert und zur Matrix Z(m×n) zusammengefaßt, indem zij := xij + yij für alle i = 1, 2, 3, . . . , m und alle j = 1, 2, 3, . . . , n. Rechenregeln Wir gehen davon aus, daß die Matrizen X, Y, Z (m × n)-Matrizen sind. Dann gelten folgende Regeln: X + Y = Y + X,
(B.13)
X + 0 = X,
(B.14)
(X + Y) + Z = X + (Y + Z),
(X + Y) = X + Y .
(B.15) (B.16)
Beispiele Die Matrizen aus dem Beispiel von Seite 306 werden weiter genutzt. Stimmen die Dimensionen der Matrizen nicht überein, so ist eine Addition nicht möglich. > X1 <- matrix(c(1,2,3,4,5,6,7,8,9),ncol=3) > X1 [,1] [,2] [,3] [1,] 1 4 7 [2,] 2 5 8
ANHANG B. MATRIZENRECHNUNG
308
[3,] 3 6 9 > X+X1 Fehler in X + X1 : nicht passende Arrays Die Addition xon ’X’ und ’Y’ ergibt: > Z <- X+Y > Z [,1] [,2] [1,] 3 7 [2,] 5 9. Eine andere Reihenfolge der Addition führt zu demselben Ergebnis. > Y+X [,1] [,2] [1,] 2 6 [2,] 4 8 Bei der Addition von Matrizen können die Klammern beliebig gesetzt werden, denn es ergeben sich stets dieselben Ergebnisse. > (X+Y)+Z [,1] [,2] [1,] 4 10 [2,] 7 13 > X+(Y+Z) [,1] [,2] [1,] 4 10 [2,] 7 13 Die transponierte Matrix einer Summe von Matrizen ist gleich der Summe der transponierten. Man beachte hierbei, daß der Befehl zur Transponierung einer Matrix gleich ’t(.)’ ist. > t(X+Y) [,1] [,2] [1,] 2 4 [2,] 6 8 > t(X)+t(Y) [,1] [,2] [1,] 2 4 [2,] 6 8
B.3.3
Skalare Multiplikation
Definition Gegeben seien die reellen Zahlen a, b und die (m × n)-Matrix X. Die Multiplikation von a mit der Matrix X, a · X, wird vorgenommen, indem jedes Element xij für i = 1, 2, 3, . . . , m und j = 1, 2, 3, . . . , n mit a multipliziert wird.
B.3. VERKNÜPFUNGEN
309
Rechenregeln a, b seien reelle Zahlen und X eine (m×n)-Matrix. Dann gelten folgende Regeln: a · X = X · a,
(B.17)
(a + b) · X = a · X + b · X,
(B.18)
a · (b · X) = (a · b) · X = b · (a · X),
(B.19)
(a · X) = a · X .
(B.20)
Beispiele Wie in einem ganz normalen Taschenrechner erfolgt in kation.
die skalare Multipli-
> a*X [,1] [,2] [1,] 2 6 [2,] 4 8 > X*a [,1] [,2] [1,] 2 6 [2,] 4 8 Die Rechenregeln B.18, B.19 und B.20, lassen sich beispielhaft leicht überprüfen: > (a+b)*X [,1] [1,] 5 [2,] 10 > a*X+b*X [,1] [1,] 5 [2,] 10 > a*(b*X) [,1] [1,] 6 [2,] 12 > (a*b)*X [,1] [1,] 6 [2,] 12 > b*(a*X) [,1] [1,] 6 [2,] 12
[,2] 15 20 [,2] 15 20 [,2] 18 24 [,2] 18 24 [,2] 18 24
ANHANG B. MATRIZENRECHNUNG
310
B.3.4
Produkt zweier Matrizen
Definition Wir setzen die Matrizen X(m×n) und Y(n×r) voraus. Das Produkt dieser beiden Matrizen ist wie folgt definiert: Xm×n Yn×r := Zm×r = (z ij ) für i = 1, 2, 3, . . . , m; j = 1, 2, 3, . . . , n, mit zij := nk=1 xik · ykj für alle i, j. (B.21) Mit anderen Worten wird der erste Zeilenvektor der Matrix X mit dem ersten Spaltenvektor von Y elementweise multipliziert und diese Produkte aufsummiert, um z11 zu erhalten: z11 = x11 · y11 + x12 · y21 + x13 · y31 + · · · + x1n · yn1 . z21 erhält man, indem die Elemente des zweiten Zeilenvektors von X mit den Elementen des ersten Spaltenvektors der Matrix Y multipliziert und diese Produkte aufsummiert werden. So verfährt man, bis schließlich alle Elemente der Matrix Z berechnet wurden. Als Ergebnis erhält man aus der Multiplikation der (m × n)-Matrix X mit der (n × r)-Matrix Y eine (n × r)-Matrix Z. Rechenregeln a sei eine reelle Zahl. Gestatten die Dimensionen der Matrizen die Bildung der Produkte der Matrizen, dann gelten folgende Rechenregeln. (XY)Z = X(YZ),
(B.22)
X(Y + Z) = XY + XZ,
(B.23)
(X + Y)Z = XZ + YZ,
(B.24)
a · (XY) = (a · X)Y = X(a · Y),
(B.25)
IX = X = XI,
(B.26)
0X = 0 = X0,
(B.27)
(XY) = Y X ,
(B.28)
XX ist symmetrisch
(B.29)
X X ist symmetrisch.
(B.30)
und auch Man beachte jedoch, daß im allgemeinen XX = X X.
B.3. VERKNÜPFUNGEN
311
Beispiele
Es werden wieder die bereits zuvor genutzten Matrizen X, Y, Z verwendet und die Gültigkeit der Rechenregeln beispielhaft mit illustriert. Die Berechnungen der anderen Beziehungen geht analog und sollten vom Leser zur Übung selbst durchgeführt werden.
> X%*%Y [,1] [,2] [1,] 7 15 [2,] 10 22 > (X%*%Y)%*%Z [,1] [,2] [1,] 59 103 [2,] 86 150 > X%*%(Y%*%Z) [,1] [,2] [1,] 59 103 [2,] 86 150 > X%*%(Y+Z) [,1] [,2] [1,] 18 34 [2,] 26 50 > X%*%Y+X%*%Z [,1] [,2] [1,] 18 34 [2,] 26 50 > (X+Y)%*%Z [,1] [,2] [1,] 22 38 [2,] 32 56 > X%*%Z+Y%*%Z [,1] [,2] [1,] 22 38 [2,] 32 56 > a <- 2 > a*(X%*%Y) [,1] [,2] [1,] 14 30 [2,] 20 44
ANHANG B. MATRIZENRECHNUNG
312
B.3.5
Multiplikation von Vektoren
Folgerung Wir starten mit zwei Vektoren, dem n-dimensionalen Zeilenvektor x = (x1 , . . . , xn ) und dem n-dimensionalen Spaltenvektor ⎛ ⎞ y1 ⎜ .. ⎟ y = ⎝ . ⎠. yn
Die Multiplikation von x mit y ergibt:
x ·y =
n
xi · yi .
(B.31)
i=1
Multipliziert man jedoch einen n-dimensionalen Spaltenvektor y mit einem mdimensionalen Zeilenvektor z , so erhält man eine (n × m)-dimensionale Matrix: ⎛ ⎞ y1 z1 . . . y1 zm ⎜ .. ⎟ . y · x = ⎝ ... (B.32) . ⎠ yn z1
...
yn z m
Beispiele Zunächst werden Anweisungen gegeben, wodurch die Spaltenvektoren ’x,y,z’ gebildet werden. Die Dimensionen der Vektoren ’x’ und ’y’ sind identisch, die von ’z’ um eins höher. Wird ein Zeilenvektor mit einem Spaltenvektor multipliziert, so erhält man eine reelle Zahl. Hierbei ist zu beachten, daß die beiden Vektoren dieselbe Dimension haben müssen. Multipliziert man jedoch einen Spaltenvektor mit einem Zeilenvektor, wobei die Dimensionen unterschiedlich sein können, so ergibt sich eine Matrix. > > > >
x <- c(1,2) y <- c(3,4) z <- c(5,6,7) t(x)%*%y [,1] [1,] 11 > x <- c(1,2) > y <- c(3,4) > z <- c(5,6,7) > t(x)%*%y [,1] [1,] 11 > y%*%t(z) [,1] [,2] [,3] [1,] 15 18 21 [2,] 20 24 28
B.4. UNABHÄNGIGKEIT, RANG, DETERMINANTE, INVERSE
B.4 B.4.1
313
Unabhängigkeit, Rang, Determinante, Inverse Lineare Unabhängigkeit
Definitionen Wir gehen von der Existenz der Vektoren x, x1 , . . . , xn ∈ Rm aus. Wir sagen, x sei eine Linearkombination der Vektoren x1 , . . . , xn , genau dann, wenn (∃a1 , . . . , an ∈ R)(x = a1 x1 + · · · + an xn ).
(B.33)
Falls für alle a1 , . . . , an ∈ R gilt, daß aus 0 = a1 x1 + · · · + an xn
(B.34)
folgt, daß a1 = · · · = an = 0, dann heißen die Vektoren x1 , . . . , xn linear unabhängig. Andernfalls bezeichnen wir sie als linear abhängig. m unabhängige Vektoren des Rm heißen Basis des Rm . Gibt es in einer beliebigen Menge von Vektoren des Rm m linear unabhängige Vektoren, so bezeichnen wir diese Menge als Erzeugendensystem. Folgerungen Angenommen, es gibt die Vektoren x1 , . . . , xn ∈ Rm . Falls n m + 1 gilt, sind die Vektoren auf jeden Fall linear abhängig. Wenn die Vektoren x1 , . . . , xm ∈ Rm linear unabhängig sind, dann läßt sich jeder Vektor x ∈ Rm als Linearkombination der Vektoren xi , i = 1, 2, 3, . . . , m darstellen. Beispiele Wir setzen m = 2, das heißt, wir betrachten den zweidimensionalen Raum. Als Vektoren x1 , x2 wählen wir (1, 0) und (0, 1) , d.h. die Einheitsvektoren. a1 (1, 0) + a2 (0, 1) ist nur dann gleich 0 , wenn a1 = a2 = 0. Aus diesem Grund sind die beiden Einheitsvektoren eine Basis des R2 . Jeder Punkt des zweidimensionalen Raumes kann als Linearkombination der beiden Einheitsvektoren dargestellt werden. Man wähle a1 als Koordinate der x-Achse und a2 als Koordinate der y-Achse. Freilich kann man eine andere Basis wählen, z.B. (2, 0) und (0, 2). Die Parameterwerte a1 , a2 müßten dann entsprechend anders gewählt werden, um dieselben Punkte wie zuvor anzusprechen.
B.4.2
Rang
Definition Die maximale Anzahl an linear unabhängigen Spaltenvektoren der Matrix X heißt Rang der Matrix X und bezeichnen dies kurz mit RangX oder rgX. Hat eine quadratische n-dimensionale Matrix X den Rang n, so sagen wir, sie sei regulär.
ANHANG B. MATRIZENRECHNUNG
314 Rechenregeln
Wir betrachten die zwei Matrizen Xm×n und Yn×r , dann gelten folgende Zusammenhänge: Rang(X) = Rang(X ), (B.35) Rang(XY) min(Rang(X), Rang(Y),
(B.36)
Rang(0) = 0
(B.37)
X ist regulär ⇒ Rang(XY) = Rang(Y),
(B.38)
Rang(X) min(m, n),
(B.39)
Rang(X X) = Rang(X).
(B.40)
Beispiele Um den Rang einer Matrix zu berechnen, muß das Paket ’fUtilities’ geladen werden. Der nötige Befehl lautet ’rk’. Zur Illustration der Rechenregeln sind eine quadratische Matrix ’X1’ und eine (2×3)-dimensionale Matrix ’X2’ gebildet worden. Als erstes wird Regel B.35 veranschaulicht, dann B.36 und B.37. > X1 <- matrix(c(2,2,3,4),ncol=2) > X1 [,1] [,2] [1,] 2 3 [2,] 2 4 > X2 <- matrix(c(5,6,3,4,5,5),ncol=3) > X2 [,1] [,2] [,3] [1,] 5 3 5 [2,] 6 4 5 > rk(X2) [1] 2 > rk(t(X2)) [1] 2 > rk(X1%*%X2) [1] 2 > rk(X1) [1] 2 > rk(X1%*%X2) [1] 2
B.4.3
Determinante
Definition Wir starten mit der (n × n)-Matrix X. Xij für i, j ∈ {1, 2, 3, . . . , n} sei die Matrix X(n−1)×(n−1) , die durch Streichung der i-ten Zeile und der j-ten Spalte
B.4. UNABHÄNGIGKEIT, RANG, DETERMINANTE, INVERSE
315
aus X hervorgeht. Die Determinante von X, det(X), ist definiert als det(X) = x11 für n = 1, det(X) =
n
(B.41)
(−1)i+j xij · det(Xij ) für n 2 für ein festes i ∈ {1, 2, 3, . . . , n}.
j=1
(B.42) Man erkennt, daß die Anwendung der Definition bei Matrizen höherer Dimension ohne Software ziemlich rechenintensiv ist. Wir werden sehen, daß die Berechnung in recht schnell erfolgt. Für die praktische Anwendung sind jedoch die Eigenschaften der Determinante interessant. Rechenregeln Wir setzen (n × n)-dimensionale Matrizen X und Y voraus und a sei eine reelle Zahl, dann gelten folgende Regeln: det(X) = det(X ),
(B.43)
Werden entweder zwei Zeilen oder zwei Spalten miteinander vertauscht, so bleibt der Betrag unverändert, aber das Vorzeichen ändert sich. (B.44) ⎞ ⎛ ⎞ ⎛ x11 x11 . . . x1n 0 ⎟ ⎜ .. ⎟ = ⎜ .. .. .. det ⎝ (B.45) ⎠ = Πni=1 xii , . . . ⎠ ⎝ . 0
xnn
xn1
...
xnn
X ist regulär ⇔ det(X = 0),
(B.46)
det(XY) = det(X) · det(Y),
(B.47)
n
det(a · X) = a · det(X).
(B.48)
Beispiele In folgendem Beispiel werden zwei Spalten der Matrix ’X1’ vertauscht. Die so entstandene Matrix wird mit ’X3’ gekennzeichnet. In der Tat ändert sich hierdurch der Betrag nicht, aber das Vorzeichen. > X1 [,1] [,2] [1,] 2 3 [2,] 2 4 > det(X1) [1] 2 > X3 <- matrix(c(3,4,2,2),ncol=2) > X3 [,1] [,2] [1,] 3 2
ANHANG B. MATRIZENRECHNUNG
316 [2,] 4 > det(X3) [1] -2
2
Es wird die Matrix ’X4’ erzeugt, eine obere Dreiecksmatrix. Gemäß B.45 müßte die Determinante gleich der Multiplikation der Elemente auf der Hauptdiagonale sein, also 15: es stimmt. > X4 <- matrix(c(1,0,0,2,3,0,5,6,5),ncol=3) > X4 [,1] [,2] [,3] [1,] 1 2 5 [2,] 0 3 6 [3,] 0 0 5 > det(X4) [1] 15 > x5 <- 1 > for (i in 1:3)(x5 <- x5*X4[i,i]) > x5 [1] 15
B.4.4
Inverse
Definition Vorausgesetzt wird eine quadratische Matrix Xn×n . Sie heißt invertierbar, wenn eine Matrix X−1 existiert, so daß X · X−1 = I.
(B.49)
X−1 heißt Inverse zur Matrix X. X−1 ist eindeutig und es gilt auch X−1 · X = I.
(B.50)
Mit Hilfe der Inversen ist es möglich, Gleichungssysteme zu lösen. Nicht zu jeder Matrix gibt es eine Inverse. Ist jedoch Xn×n regulär, dann ist die (n × n)Matrix Y berechnet über yij =
(−1)i+j · det(Xji ) det(X)
(B.51)
Inverse zur Matrix X. Rechenregeln Sind die Verknüpfungen definiert, so gelten folgende Zusammenhänge: X ist invertierbar ⇔ X ist regulär,
(B.52)
(XY)−1 = Y−1 · X−1 ,
(B.53)
B.4. UNABHÄNGIGKEIT, RANG, DETERMINANTE, INVERSE (X−1 ) = (X )−1 , (a · X)−1 = ⎛ x11 ⎜ X=⎝ 0
⎞
0 ..
(B.54)
1 · X−1 , a ⎛ 1
⎜ ⎟ ⎠ ⇒ X−1 = ⎝
. xnn det(X
(X
x11
0
−1
−1
) = (det(X))
−1 −1
)
317
,
= X,
I−1 = I,
(B.55) 0 ..
.
⎞ ⎟ ⎠,
(B.56)
1
xnn
(B.57) (B.58) (B.59)
Beispiele Es werden zwei Matrizen ’X11’ und ’Y11’ gebildet. Beide haben vollen Rang n = 2. Dann wird beispielhaft Regel B.52 überprüft. > X11 <- matrix(c(1,22,3,5),ncol=2) > X11 [,1] [,2] [1,] 1 3 [2,] 22 5 > library(fUtilities) Lade nötiges Paket: MASS Rmetrics Package fUtilities (270.73) loaded. > rk(X11) [1] 2 > Y11 <- matrix(c(4,2,66,3),ncol=2) > Y11 [,1] [,2] [1,] 4 66 [2,] 2 3 > rk(Y11) [1] 2 > inv(X11%*%Y11) [,1] [,2] [1,] 0.20040984 -0.010245902 [2,] -0.01338798 0.001366120 > inv(Y11)%*%inv(X11) [,1] [,2] [1,] 0.20040984 -0.010245902 [2,] -0.01338798 0.001366120 Die Inverse, XY−1 , multipliziert mit XY muß die Einheitsmartrix ergeben. Wegen Rundungsfehlern ist das Ergebnis nicht exakt gleich dem theoretischen Ergebnis.
318
ANHANG B. MATRIZENRECHNUNG
> inv(X11%*%Y11)%*%(X11%*%Y11) [,1] [,2] [1,] 1.000000e+00 -4.003742e-15 [2,] -1.647987e-17 1.000000e+00 In folgendem Beispiel soll gezeigt werden, wie mit Hilfe der Matrizenrechnung ein Gleichungssystem gelöst werden kann. Gelöst werden soll: 3x1 + 7x2 + 3x3 = 50 5x1 + 5x2 + 2x3 = 44 . 6x1 + 6x2 + 3x3 = 34
(B.60)
Die x1 , x2 , x3 werden zu dem Vektor x = (x1 , x2 , x3 ) , die Zahlen der linken Seite zu der Matrix A und die Zahlen der rechten Seite zu dem Vektor b = (50, 44, 34) zusammengefaßt. In Matrixschreibweise lautet das Gleichungssystem nun A · x = b. Der Rang von A ist gleich 3, hat also vollen Rang und ist damit regulär (vergleiche Seite 313). Aus diesem Grund kann die Inverse gebildet und auf beiden Seiten der Gleichung von links her mit ihr multipliziert werden. Damit steht auf der linken Seite der Vektor x und auf ⎛ der⎞rechten Seite, die Lösung des Gleichungssystems 1, 33 in Form von A−1 · b = ⎝ 20 ⎠. −31 > A <- matrix(c(3,5,6,7,5,6,3,2,3),ncol=3) > b <- c(50,44,34) > A [,1] [,2] [,3] [1,] 3 7 3 [2,] 5 5 2 [3,] 6 6 3 > b [1] 50 44 34 > rk(A) [1] 3 > inv(A)%*%b [,1] [1,] 1.333333 [2,] 20.000000 [3,] -31.333333 Zur Lösung von Gleichungssystemen in ist die Berechnung der Inversen allerdings nicht vorteilhaft. Man nutzt besser den Befehl ’solve’.
B.5. EIGENWERTE, EIGENVEKTOREN UND SPUR
B.5 B.5.1
319
Eigenwerte, Eigenvektoren und Spur Definitionen
Vorausgesetzt wird eine (n × n)-dimensionale Matrix A. Die Eigenwerte sind definiert als Lösung der Gleichung det(A − λ · I) = 0.
(B.61)
Bei einer (n × n) Matrix gibt es n Eigenwerte. Die Bedeutung der λ’s wird klarer, wenn das Argument der Determinante genauer betrachtet wird. Wir können schreiben: A = λi · I , (B.62) A · x = λi x für i = 1, . . . , n. Angenommen, die Determinante der Matrix An×n sei von Null verschieden. Dann wäre sie regulär, d.h. ihre Spalten (und auch ihre Zeilen) sind nicht linear abhängig. Durch B.61 werden dann alle λ’s bestimmt, wodurch gewährleistet ist, daß die Spalten der Matrix (A − λ · I) linear abhängig sind. Ist die Determinante von A gleich Null, so sind ihre Spalten linear abhängig. Hat sie den Rang n − 1, so kann ein λi gleich Null gesetzt werden und B.61 ist dennoch Null. Ist der Rang der Matrix A gleich n − 2, so können zwei λi ’s Null gesetzt werden und B.61 gilt dennoch. Ist RangA = 1, dann verbleibt lediglich die Notwendigkeit, einen Eigenwert λ, der von Null verschieden ist, zu bestimmen. Die zu jedem λi gehörenden x-Vektoren (x = 0) in B.62 heißen Eigenvektoren und lösen das Gleichungssystem. Gelegentlich ist die Berechnung der Spur einer (n × n)-Matrix X von Interesse. Sie ist gleich der Addition der Elemente ihrer Hauptdiagonalen: Spur(X) :=
n
xii .
(B.63)
i=1
B.5.2
Rechenregel
Summiert man alle Elemente auf der Hauptdiagonale von A (= Spur), so ist diese Summe gleich der Summe aller Eigenwerte: Spur(X) =
n
λi .
(B.64)
i=1
B.5.3
Beispiele
Matrix ’A’ hat vollen Rang. Die Eigenwerte können mit dem Befehl ’eigen(.)’ berechnet werden. Hier sind alle Eigenwerte von Null verschieden.
320
ANHANG B. MATRIZENRECHNUNG
> A <- matrix(c(1:8,4),ncol=3) > rk(A) [1] 3 > eigen(A) $values [1] 13.6082676 -3.2713174 -0.3369502 ... ’A2’ ist zwar eine (3 × 3)-Matrix, hat aber nur zwei linear unabhängige Spalten. Aus diesem Grund ist ein Eigenwert gleich Null. > A2 <- matrix(c(1:9),ncol=3) > rk(A2) > rk(A2) [1] 2 > eigen(A2) $values [1] 1.611684e+01 -1.116844e+00 -4.054215e-16 ... Bei ’A3’ ist der Rang gleich 1. Deshalb sind zwei λ’s gleich Null. Die Spur von ’A3’ ist gleich 14 und somit ist der einzige von Null verschiedene Eigenwert ebenfalls 14. Die beiden anderen Werte sind wegen Rundungsfehlern nicht exakt gleich Null. > A3 <- matrix(c(1,2,3,2,4,6,3,6,9),ncol=3) > A3 [,1] [,2] [,3] [1,] 1 2 3 [2,] 2 4 6 [3,] 3 6 9 > rk(A3) [1] 1 > eigen(A3) $values [1] 1.400000e+01 5.329071e-15 1.484923e-15 $vectors [,1] [,2] [,3] [1,] -0.2672612 0.9636241 0.0000000 [2,] -0.5345225 -0.1482499 -0.8320503 [3,] -0.8017837 -0.2223748 0.5547002
Anhang C
Befehle in R C.1
Einleitung
Das Arbeiten in ist je nach verwendeter Software etwas verschieden. Aus diesem Grund werden hier einige Hinweise gegeben, wie man weitgehend softwareunabhängig, allein auf Grundlage der Syntax von , arbeiten kann. Dies hat zudem den Vorteil, daß Textdateien mit Befehlen angelegt werden können, die einfach in die Konsole, das ist das Arbeitsfenster, in das die Befehle eingegeben werden, eingetragen werden. Gelegentlich wird die Konsole auch als Shell oder Befehlsfenster bezeichnet. Im ersten Abschnitt werden die grundlegenden Befehle zur Erzeugung einer Befehlsdatei vorgestellt. Es folgen Anweisungen zum Einlesen von Daten sowie zur Abspeicherung und dem Einlesen von Daten im -Format. In werden den Daten Eigenschaften zugeordnet, die bei allgemeinen Befehlen, wie beispielsweise dem ’plot’-Befehl, bewirken, daß bestimmte Formatierungen standardmäßig genutzt werden. Sie werden in Kapitel C.4 präsentiert. Bei der Analyse von Finanzmarktdaten ist es nötig, Tageskurse in Wochenoder Monatswerte zu transformieren. Es kommt auch des öfteren vor, Variablen um einen Tag oder Woche nach hinten zu verschieben. Solche Variablen sind in der Literatur als ’Lags’ bekannt. Gelegentlich interessieren nicht die Kurse, sondern erste Differenzen zwischen Tages- oder Wochenkursen, also die Rendite in Absolutwerten oder auch als Prozentsatz. Solcherlei Manipulationen werden in Kapitel C.5 präsentiert. Das Programm wird nicht zuletzt wegen seiner Fähigkeit, schöne Graphiken zu erzeugen, gerne genutzt. Sie können in verschiedenen Formaten abgespeichert werden. Wie man befehlsbasiert solcherlei Objekte speichert wird in Abschnitt C.6 gezeigt. Hier wird auch dargestellt, wie man mehrere Abbildungen in einer Graphik anzeigen lassen kann. In Kapitel C.7 wird diskutiert, wie man über die Programmdokumentation an die Informationen kommt, die man zur Lösung eines aufgetretenen Problems benötigt. Es werden drei unterschiedliche Problembereiche angesprochen und R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
ANHANG C. BEFEHLE IN R
322
Befehle besprochen, die zur Problemlösung beitragen. Die Benutzeroberfläche der Shell unterscheidet sich je nach verwendetem Betriebssystem und bei gegebenem Betriebssystem wiederum gemäß der verwendeten Software. Die Installation neuer Pakete unter Linux ist Seite 323 beschrieben. In Kapitel C.8 wird das Vorgehen unter Windows gezeigt.
C.2
Grundlagen
Befehlsdateien des Autors beginnen üblicherweise wie folgt: rm ( list=ls() ) library(fSeries) setwd("g:/Auswertung") Daten2 <- read.table("Einkommen2.txt",dec=",",header=TRUE). Diese Anweisungen und die Sinnhaftigkeit, diese sonstigen Befehlen voranzustellen, werden im folgenden erläutert. Es ist eine gute Idee vor dem Beginn einer Arbeitssitzung, den Arbeitsspeicher völlig zu leeren. Ansonsten könnten noch Daten aus verhergehenden Sitzungen vorhanden sein. Wenn es nun beim Einlesen neuer Daten mit denselben Variablennamen wie zuvor zu Einleseproblemen kommt, so werden solche Fehler leicht übersehen, da jeder Variablen ja Daten zugeordnet sind, nur, es sind die falschen! Den Arbeitsspeicher kann man über den Befehl > rm ( list=ls() ) leeren. Das ’>’ zeigt an, daß der Befehl in eine Befehlszeile geschrieben wurde. Man beachte, daß bei dem Schreiben einer Befehlsdatei das Zeichen ’>’ nicht erscheinen darf! ist aufgeteilt in verschiedene Pakete und standardmäßig werden nur einige wenige geladen. Mit > library() erhält man eine Liste aller Pakete, die auf dem lokalen Rechner vorhanden sind. Durch Eingabe von > library(fSeries) # Dies ist ein Paket zur Bearbeitung von Zeitreihen. wird das Paket ’fSeries’ geladen. Das Symbol ’#’ dient dazu, Bemerkungen in die Befehlsdatei einzuarbeiten, die den späteren Programmablauf nicht stören. Freilich müssen zuvor die Pakete auf dem lokalen Rechner installiert worden sein. In Linux braucht der gewöhnliche Nutzer die Hilfe des Administrators. In der Konsole gibt man, ohne zu laden, den Befehl > su ein, worauf der Rechner sich meldet und das Administratorkennwort möchte. Anschließend gebe
C.3. DATEN EINLESEN, OBJEKTE SPEICHERN UND LADEN
323
> R CMD INSTALL Dateiname in der Konsole (oder Shell) ein. Um ’fSeries’ zu installieren, verwende den Dateinamen fSeries_260.73.tar.gz. Sollte der Befehl nicht durchführbar sein, so kann es daran liegen, daß ’Fortran’, eine spezielle Software, nicht installiert ist. Loggen Sie sich als ’root’ ein und nutzen Sie ’YAST2’. Klicken Sie auf ’Softwaremanagement’, suchen nach ’fortran’ und installieren es. Dennoch kann es vorkommen, daß ein Paket im normalen Modus nicht geladen wird. Dann kann folgender Befehl helfen: > R CMD INSTALL --fake Dateiname. Er bewirkt, daß nur eine minimale Installation erfolgt. Zusätzliche Pakete können über die -Homepage www.r-project.org/ gefunden und heruntergeladen werden. Die Arbeit wird zudem erleichtert, wenn man für jedes Arbeitspaket eigens einen Ordner anlegt, der als Arbeitsverzeichnis genutzt wird. Dies geschieht über den Befehl > setwd("Documents/aktuell2/Aktien/R_Files") ’Documents/aktuell2/Aktien/R_Files’ ist hier der verwendete Pfad. Sollen beispielsweise dieselben Auswertungen für verschiedene Bundesländer durchgeführt werden, so genügt es, für jedes Bundesland ein Arbeitsverzeichnis anzulegen und die Daten für jedes Bundesland werden im exakt identischem Format in das zugehörige Verzeichnis kopiert. In der Befehlsdatei ist dann lediglich das Arbeitsverzeichnis zu ändern, wenn man die Auswertung für ein anderes Bundesland durchführen will.
C.3
Daten einlesen, Objekte speichern und laden
Dateien werden über den Befehl ’read’ eingelesen. Als besonders sinnvoll erweist sich das ’*.csv’-Format. Denn eine Abspeicherung von Daten ist in diesem Format in praktisch jedem Tabellenverarbeitungsprogramm möglich. Zudem können Dateien dieses Typs auch wieder ohne Probleme in das Tabellenverarbeitungsprogramm eingelesen werden. Der Befehl X <- read.csv("GDAXwoechentlich.csv", dec =".", header = TRUE) liest die Datei ’GDAXwoechentlich.csv’ ein. Als Dezimalzeichen wird ein Punkt verwendet und die Datei enthält Spaltenüberschriften. Mit > head(X)
ANHANG C. BEFEHLE IN R
324
werden die ersten Zeilen der eingelesenen Datei angezeigt. Dies ist zur Kontrolle, ob auch tatsächlich Spaltenüberschriften vorhanden und richtig in eingelesen worden sind, sinnvoll. Es gibt auch die Möglichkeit direkt aus dem Internet Daten in das Programm einzulesen. Lade zuerst mit > library(quantmod) das Paket ’quantmod’. Mit > getQuote("\^{}GDAXI", src = "yahoo", what = standardQuote()) kann der aktuelle Kurs des DAX heruntergeladen werden. Über den Befehl >
getFX("EUR/USD", from = "2005-01-01", to = Sys.Date(), env = .GlobalEnv, verbose = FALSE, warning = TRUE, auto.assign = TRUE)
können bis zu 2000 Wechselkurse von www.onanda.com heruntergeladen werden. Der Eintrag “EUR/USD” gibt an, welche Kurse zueinander ins Verhältnis gesetzt werden sollen. Will man die Dividenden der Allianz für die vergangenen Jahre von yahoo.com herunterladen, so gebe man > a <- getDividends("ALV.DE", from = "1973-01-01", to = Sys.Date(), env = .GlobalEnv, src = "yahoo", auto.assign = TRUE, auto.update = TRUE, verbose = FALSE) ein. Mit dem Befehl > getSymbols("^GDAX", src=’yahoo’, from="2000-01-01",to=Sys.Date()) können direkt von www.yahoo.com historische Kurse des DAX heruntergeladen werden. Ziel jeder statistischen Analyse ist es, die Daten im Hinblick auf eine Fragestellung auszuwerten. Hierdurch entstehen neue Daten, die man ggf. in Dateien abspeichern möchte. Dies geschieht über den Befehl > save(x,file="Daten3.RData", ascii=FALSE).
C.4. DATENEIGENSCHAFTEN
325
’x’ ist ein -Objekt. Dies kann z.B. eine Kennziffer, eine Zahlenreihe, eine Matrix oder dergleichen sein. Freilich können auch mehrere Objekte gleichzeitig in eine Datei geschrieben werden. Die verschiedenen -Objekte werden dann durch ein Komma getrennt angegeben. In vorliegendem Fall wird das Format ’*.RData’ verwendet. Dies ist eines, bei dem die Daten über die Anweisung > load(file=’’Daten3.RData’’) wieder eingelesen werden können. Zudem ist es möglich, Objekte von gebe man statt ’ascii=FALSE ein
in einer ASCII-Datei abzulegen. Dann
> save(x,file="Daten3.csv", ascii=TRUE). Man beachte jedoch, daß das Einlesen in über die Anweisung ’read.table’ oder ’read.csv’ zu einer fehlerhaften Eingabe führt. Korrektes Einlesen in erfordert dann die Anwendung des ’load’-Befehls. Die Formatierung in ist sehr rudimentär. Nutzt man jedoch LATEX, so kann man zwecks Formatierung einer Datenmatrix in den Befehl > tex.table(Datenmatrix) nutzen. Dieser Befehl ist in Paket cwhmisc enthalten. Hiermit ist eine Möglichkeit geschaffen, den Output komfortabel für Textdokumente zu formatieren.
C.4
Dateneigenschaften
Mit Hilfe des Befehls > paste("A", 1:6, sep = "") [1] "A1" "A2" "A3" "A4" "A5" "A6" lassen sich nominale Merkmalsausprägungen erzeugen. In vorliegendem Fall werden die Werte A1 bis A6 erzeugt. Zudem können kardinale oder ordinale Daten, die als Vektor vorliegen, in nominale umgewandelt und verkettet werden. In werden Datensätzen durch die Zuweisung, eine Matrix, Liste oder Zeitreihe zu sein, spezielle Eigenschaften zugewiesen, wodurch bei generischen Funktionen, wie beispielsweise der graphischen Darstellung, Parameterwerte speziell auf diesen Datentyp eingestellt werden. Durch > x <- as.timeSeries(X) werden die eingelesenen Datensätze zum Typ Zeitreihe. Der Befehl > reversex
<- rev.timeSeries (x)
ANHANG C. BEFEHLE IN R
326
kehrt die Datei um, d.h. der Datensatz, der am Anfang stand steht nach diesem Befehl am Ende der Datei. Er kann nun über die Zeichenfolge ’reversex’ angesprochen werden. Soll nur ein Teil aus einer Zeitreihe bearbeitet werden, so kann man die Funktion ’window’ nutzen. > vv <- window(v, "1990-12-03", "2001-04-30") Hiermit werden die Daten, beginnend am 3.12.1990 und endend am 30.4.20001, aus der Zeitreihe ausgelesen. Der Befehl > X2 <- as.data.frame(reversex) macht aus der Zeitreihe einen Datenframe. Sind in einem Datenframe mehrere Variablen mit Namen enthalten, so können sie auf verschiedene Art und Weise angesprochen werden. In folgendem Dataframe > x 1 2 3 4 5
x1 151973.56 136616.62 144083.53 99758.88 106716.54
x2 253.8514 158.4852 179.2869 358.4341 469.1657
x3 56373.45 73709.09 61590.58 91727.23 85659.38
x4 397.5702 352.2753 434.0470 453.2736 357.1181
sind die Variablen x1 bis x4 enthalten. Will man nur die erste Spalte ansprechen, so kann man dies über den Befehl > x[,1] [1] 151973.56 136616.62 144083.53
99758.88 106716.54
tun. Analog läßt sich die erste Zeile mit > x[1,] x1 x2 x3 x4 1 151973.6 253.8514 56373.45 397.5702 ansprechen. Alternativ hierzu kann die erste Spalte auch über > x$x1 [1] 151973.56 136616.62 144083.53
99758.88 106716.54
ausgegeben werden. Die einfache Eingabe von x1 wäre freilich noch komfortabler, führt jedoch nicht ohne weiteres zum gewünschten Ergebnis > x1 Fehler: objekt "x1" nicht gefunden Über den Befehl ’attach()’ wird dies jedoch möglich. > attach(x) > x1 [1] 151973.56 136616.62 144083.53
99758.88 106716.54
Mit ’detach’ wird diese Funktion wieder ausgeschaltet.
C.5. MANIPULATION EINGELESENER DATENSÄTZE
C.5
327
Manipulation eingelesener Datensätze
Seite 324 wurde gezeigt, wie man online tägliche Kurse abrufen kann. Braucht man jedoch die monatlichen oder wöchentlichen Kurse, so wäre man ohne weitere Hilfe von darauf angewiesen, auf die Funktionalität anderer Quellen (wie beispielsweise. Yahoo-Finance) zurückzugreifen. Mit dem Paket ’xts’ lassen sich jedoch Tagesdaten zu Wochen- oder Monatsdaten transformieren. Lade das Paket ’xts’ und nutze den Befehl > to.period(EURUSD, "weeks"). Hierdurch wird der Wochenanfangskurs, der Höchst- und Niedrigstkurs sowie der Wochenendkurs ausgegeben: 2005-01-02 2005-01-09 2005-01-16 2005-01-23 2005-01-30
EURUSD.Open EURUSD.High EURUSD.Low EURUSD.Close 1.3569 1.3569 1.3566 1.3566 1.3546 1.3546 1.3048 1.3061 1.3057 1.3266 1.3057 1.3104 1.3102 1.3102 1.2974 1.2999 1.3049 1.3076 1.2973 1.3045
Um Zeitreihendaten um eine Zeiteinheit nach hinten zu verschieben verwendet man den Befehl ’Lag’. Das Gegenteil von ’Lag’ ist ’Next’. Beide Befehle sind in der library ’quantmod’ enthalten. Die Anweisung > Next (vv, k=1) verschiebt alle Daten ’vv’ um eine Zeiteinheit nach vorne. Um herauszufinden, wie viele Tagesdaten in einer Datei vorhanden sind, kann, nachdem die library ’xts’ geladen wurde, die Anweisung > ndays(GDAX) genutzt werden. In vorliegendem Fall werden dann die Anzahl an Tagen in den Daten ’GDAX’ angegeben. Analog funktionieren die Befehle ’nweeks(x), nmonths(x), nquarters(x), nyears(x). Selbst für Sekunden, Minuten und Stunden gibt es entsprechende Anweisungen. Um die erste Zeile einer Datei zu lesen, gibt man > first(GDAX) ein. Die letzte Zeile kann über > last(GDAX) angezeigt werden. Will man Differenzen eines Vektors x bilden, so kann man den Befehl > diff(x) des Programmpaketes ’base’ nutzen.
ANHANG C. BEFEHLE IN R
328
C.6
Graphik
Die Graphikausgabe in Dateien kann automatisiert werden, was das Einfügen in Textverarbeitungsprogramme erleichtert. Im ersten Schritt muß ein Dateityp festgelegt werden. Dies geschieht über > jpeg () # Festsetzen eines Gerätes, hier ist es ’jpeg’. Alle gängigen Formate sind vorhanden: pdf postscript usw.. Welche Graphikformate aber auch tatsächlich verfügbar sind, hängt davon ab, ob sie auch in compiliert worden sind. Nähere Informationen erhält man über > ?device Der Befehl > dev.copy(device=jpeg) weist das Programm an, die Ausgabe von Graphikanweisungen in eine Datei abzulegen. In diesem Fall erfolgt dies im ’*.jpeg’-Format. In die Datei wird dann bei Ausführung einer Graphikanweisung in dem festgelegten Arbeitsverzeichnis unter dem Namen ’Rplot.jpeg’ abgelegt. Zum Einbinden von Graphiken in Dokumente eignet sich besonders die Funktion > dev.copy2eps(file=’’Name.eps’’). Die Graphik wird im eps-Format unter dem Namen “Name.eps” abgespeichert. Will man in eine Datei mit mehreren Abbildungen erzeugen, so kann dies über > par(mfcol=c(2,2)) erreicht werden. In diesem Fall wird die erste Graphik oben links, die zweite unten links und die dritte oben rechts eingetragen. ’plot’ ist eine generische Funktion und die Art der Darstellung hängt von dem Typ der verwendeten Daten ab. In folgendem Beispiel wird der Typ Zeitreihe verwendet. Mit der Anweisung > acf(reversex[,4], lag.max = 100, plot = TRUE, demean = TRUE)
type = c("correlation"),
wird eine Autokorrelation der vierten Spalte unserer Zeitreihe ’reversex’ berechnet. Die maximale Anzahl an Zeitverzögerungen (= lags) ist hier 100. Es kann die Autokovarianz als auch Korrelation als Typ angegeben werden. Wird ’plot = FALSE’ gesetzt, so erfolgt statt der Ausgabe einer Graphik die Angabe der berechneten Werte. Um zwei verschiedene Zeitreihen entsprechend zu einer zusammenzufassen, gibt es zwei Befehle: ’merge’ und ’union’. Angenommen es liegen zwei Zeitreihen als Quartalsdaten vor. Beide wurden als Matrix eingelesen und können mit X1 bzw. X2 angesprochen werden. Über die Befehle
C.7. SUCHEN UND FINDEN
329
> X1Z <- as.ts(X1) > X2Z <- as.ts(X2) ist es möglich, sie als Zeitreihe ’ts’ (für time series) auszuweisen. Mit der Anweisung ’ts.union’ lassen sich beide Zeitreihen zu der Zeitreihe X12 zusammenfassen. > X12 <- ts.union(X1Z, X2Z)
C.7
Suchen und Finden
Keine Panik, wenn nötige Informationen fehlen! Dem Programm liegen umfangreiche Dokumentationen bei. Entscheidend ist nur, wie man an sie heran kommt. In Windows findet man unter dem Link ’Help’ weitere Dokumentationen; in Linux suche man in dem Verzeichnis ’/usr/lib/R/doc/manual’. Lesenswert ist insbesondere die Datei ’R-intro.pdf’, das ist eine Einführung in das Programm. Findet man hier nicht die nötige Information, so ist die interessierende Fragestellung entscheidend: 1. Man braucht einen Überblick, welche Werkzeuge in den geladenen Paketen überhaupt vorhanden sind. 2. Man hat innerhalb eines Paketes das richtige gefunden, benötigt aber weitere Informationen 3. In den standardmäßig, automatisch geladenen Paketen findet sich nicht das gewünschte. In Fall 1 führt der Befehl > library(help=stats) weiter. Hier wird ein Überblick über das Paket ’stats’ gewünscht und mit folgender Antwort belohnt. Information für Paket ’stats’ Description: Package: stats Version: 2.7.0 Priority: base Title: The R Stats Package Author: R Development Core Team and contributors worldwide Maintainer: R Core Team Description: R statistical functions License: GPL (>= 2) Built: R 2.7.0; i686-pc-linux-gnu; 2008-06-06 08:41:28; unix Index: .checkMFClasses Functions to Check the Type of Variables passed to Model Frames AIC Akaike’s An Information Criterion
330
ANHANG C. BEFEHLE IN R
ARMAacf Compute Theoretical ACF for an ARMA Process ARMAtoMA Convert ARMA Process to Infinite MA Process Beta The Beta Distribution Binomial The Binomial Distribution Box.test Box-Pierce and Ljung-Box Tests C Sets Contrasts for a Factor Cauchy The Cauchy Distribution ... Bei Fragestellung 2 nutze die Anweisung ?Box.test \#Sie können statt dessen auch ’help(’’Box.test’’)’ verwenden. Hierbei ist zu beachten, daß tunlichst auf Groß- und Kleinschreibung geachtet werden muß. Die Eingabe von > help("mean") Fehler: konnte Funktion "Help" nicht finden führt zu einer Fehlermeldung. Findet in dem geladenen Programmpaket keine Hilfeseite, so wird ein Befehl angezeigt, mit Hilfe dessen innerhalb der installierten Pakete nach Hilfeseiten gesucht wird. Nach korrekter Eingabe werden folgende Informationen angeboten. Box.test package:stats R Documentation Box-Pierce and Ljung-Box Tests Description: Compute the Box-Pierce or Ljung-Box test statistic for examining the null hypothesis of independence in a given time series. Usage: Box.test(x, lag = 1, type = c("Box-Pierce", "Ljung-Box")) Arguments: x: a numeric vector or univariate time series. lag: the statistic will be based on ’lag’ autocorrelation coefficients. type: test to be performed: partial matching is used. Value: A list with class ’"htest“ containing the following components: statistic: the value of the test statistic. parameter: the degrees of freedom of the approximate chi-squared distribution of the test statistic. p.value: the p-value of the test. method: a character string indicating which type of test was performed. data.name: a character string giving the name of the data. Note: Missing values are not handled.
C.8. BESONDERHEITEN IN WINDOWS
331
Author(s): A. Trapletti References: Box, G. E. P. and Pierce, D. A. (1970), Distribution of residual correlations in autoregressive-integrated moving average time series models. Journal of the American Statistical Association, *65*, 1509-1526. Ljung, G. M. and Box, G. E. P. (1978), On a measure of lack of fit in time series models. Biometrika *65*, 553-564. Harvey, A. C. (1993) Time Series Models. 2nd Edition, Harvester Wheatsheaf, NY, pp. 44, 45. Examples: x <- rnorm (100) Box.test (x, lag = 1) Box.test (x, lag = 1, type="Ljung") Die Struktur der Hilfeseiten ist immer dieselbe. Nach einer kurzen Beschreibung des Befehls wird die Befehlsstruktur angezeigt und seine Argumente erläutert. Unter der Überschrift ’Value’ wird beschrieben, welcher Output angezeigt wird. Häufig wird auf weiterführende Literatur verwiesen und, besonders empfehlenswert: es werden Beispiele angegeben. Man kann ihre Befehle einfach in die Befehlszeile von kopieren, um sie auszuprobieren. Sollte der letzte, Fall 3, auftreten, so gibt es zwei Möglichkeiten. 1. Man suche in allen lokal installierten Paketen nach Informationen. Der nötige Befehl lautet > help.search(’’Box.test’’) Hierbei müssen die Pakete nicht unbedingt geladen sein. 2. Sollte über diese Suchstrategie immer noch kein Erfolg verbucht werden können, so konsultiere man die -Homepage und suche nach den relevanten Paketen, lade sie herunter und installiere sie.
C.8
Besonderheiten in Windows
Die Verwendung unter Windows ist wie folgt. besteht aus verschiedenen Programmpaketen. Der Nutzer kann sie über drei Schritte verfügbar machen. 1. über den Reiter ’Pakete’ können fehlende Pakete aus dem Internet heruntergeladen werden und auf dem lokalen Rechner als Zip-Dateien gespeichert werden. Als erstes wird der Server festgelegt, von dem die nötige Software heruntergeladen werden soll (setzte CRAN-Mirror). Dann wählt man ’Pakete’ und ’Installiere Pakete’.
ANHANG C. BEFEHLE IN R
332
2. über den Reiter ’Pakete’ und die Auswahl ’Installiere Pakete aus lokalen Zip-Dateien’ werden zusätzliche Pakete auf dem lokalen Rechner installiert und 3. über ’Pakete’ und ’Lade Pakete’ kann benötigte Software verfügbar gemacht werden. Der Reiter ’Hilfe’, Auswahl ’Handbücher’ und ’An Introduction to R’ liefert dem statistisch vorgebildeten Leser einen ersten Einblick über die Mächtigkeit des Programms. Nützlicher sind nach einem ersten Kennenlernen des Programms die Hilfeseiten.
C.9
Fehlermeldungen
Anfänger tun sich gelegentlich etwas schwer mit dem Einlesen von ’*.csv’-Dateien. Die Bildschirmausgabe von weist jedoch häufig explizit auf das Problem hin. In folgendem Beispiel > x <- read.csv(file="Daten.csv") Fehler in file(file, "r") : kann Verbindung nicht Öffnen Zusätzlich: Warning message: In file(file, "r") : kann Datei ’Daten.csv’ nicht Öffnen: Datei oder Verzeichnis nicht gefunden ist die Datei in dem Verzeichnis überhaupt nicht enthalten. Über > dir() werden die in dem Arbeitsverzeichnis verfügbaren Dateien angezeigt. Sollte die Datei in einem anderen Verzeichnis sein, so kann über ’setwd(“Pfad”)’ das Arbeitsverzeichnis geändert werden. Im folgenden Beispiel wird das Arbeitsverzeichnis auf ’Auswertung’ gesetzt. > setwd("g:/Auswertung") Alternativ hierzu kann bei dem ’read’-Befehl zu dem Dateinamen auch noch der Pfad angegeben werden. Typische Probleme beim Einlesen von Daten in Textformat ist die falsche Angabe des Feldtrenners (= seperator). Im diesem Fall > x <- read.csv(file="Einkommen.csv") > x Einkommen.Alter.Ausbildungsjahre 1 2000\t30\t12 2 2500\t42\t13 3 2900\t50\t10 4 3300\t28\t18
C.9. FEHLERMELDUNGEN
333
wurde in der Textdatei der Feldtrenner \t verwendet, was man an der Ausgabe 2000\t30\t12 erkennen kann. Das Problem wird gelöst durch Rückgriff auf die Hilfeseite > ?read.csv. Hier ist zu lesen, daß andere Feldtrenner als jener, der standardmäßig genutzt wird über ’sep="Feldtrenner")’ eingestellt werden können. Hier wird das Problem wie folgt > x <- read.csv(file="Einkommen.csv",sep="\t") > x Einkommen Alter Ausbildungsjahre 1 2000 30 12 2 2500 42 13 3 2900 50 10 4 3300 28 18 gelöst. Anführungszeichen können ein Problem darstellen, weil sie in vielen Textverarbeitungsprogrammen automatisch in typographische geändert werden. Werden Befehle in solchen Programmen geschrieben und Befehlszeilen hieraus über die Zwischenablage in kopiert, so entstehen Fehlermeldungen wie im folgenden: Fehler: Unerwartetes Eingabe in "x <- read.csv(file=342". Es wurde exakt derselbe Befehl wie gerade zuvor eingegeben, bis auf den, daß typographische Anführungszeichen verwendet werden. In der Fehlermeldung ist zu erkennen, wo das Problem liegt. Das falsche Eingabesignal ist direkt nach dem =-Zeichen, also die Anführungszeichen werden nicht akzeptiert. In OpenOffice kann die automatische Änderung in typographische Anführungszeichen ausgeschaltet werden, indem auf Extras - AutoKorrektur - Typographische Anführungszeichen geklickt wird. Hier kann durch Anklicken auf zwei Kästchen ggf. die Umwandlung in typographische Anführungszeichen deaktiviert werden.
Lösungen 1 Relevant
wäre hier das minimale Alter innerhalb der Klasse 11b. ist nur die Vollerhebung. Denn ist auch nur ein Schüler jünger als 18 Jahre, so wäre die Genehmigung der Eltern einzuholen. 3 Berechnet wird die korrigierte Stichprobenvarianz. Sie dient, bei Vorliegen von Daten aus einer Stichprobe mit Zurücklegen, zur Schätzung der Streuung in der Grundgesamtheit. Bei Plausibilitätsprüfungen wäre die empirische Varianz (Stichprobenvarianz) und nicht die korrigierte zu berechnen. Denn die Plausibilitätsprüfung erstreckt sich auf die Daten in der (einfachen) Stichprobe. 4 Folgende Fragen sind von Bedeutung: 2 Möglich
• Welche Fragen sollen überhaupt gestellt werden? Denn die Auswahl der Merkmale, die erfragt werden, beeinflussen selbstredend das Ergebnis. Möglicherweise wäre es sinnvoll, zwei Erhebungen durchzuführen: die erste, um die interessierenden Merkmale in Erfahrung zu bringen und die zweite, um die Antworten auf die interessierenden Fragen auch zu erhalten. • Sollen geschlossene Fragen (mit vorgegebenen Antworten) und/oder auch offene Fragen, wo die Befragten ihre eigene Meinung angeben, gestellt werden? • Wie viele Antworten sollen bei geschlossenen Fragen vorgegeben werden? • Welches Gliederungsprinzip soll bei den Auswahlantworten herangezogen werden? • Welche Auswertungsmethoden sollen zum Einsatz kommen? • Wie sollen die Ergebnisse zur Präsentation aufbereitet werden? 5 Aus
dem
-Befehl zur Ziehung einer Stichprobe ergeben sich die zentralen Anhaltspunkte.
• Wie groß ist die Grundgesamtheit? • Wie groß soll die Stichprobe, d.h. n sein? • Soll eine Stichprobe mit oder ohne Zurücklegen gezogen werden? Eine Antwort auf die letzte Frage sollte auch berücksichtigen, welche Auswertungsmethoden angewandt werden sollen und wie groß der Stichprobenumfang sein soll. Denn hiervon hängt es ab, welche Stichprobe bevorzugt wird. 6 read.table muß es heißen 7 Statt null muß NULL eingetragen werden. 8 Komma ist falsch. 9 summaryBy 10 Das Programmpaket doBy könnte nicht geladen sein. 11 Das arithmetische Mittel kann nur bei kardinalen Merkmalen berechnet werden. Als Ergebnis von > mean(Daten2[,1:3]) erhält man Einkommen Alter Ausbildungsjahre 2217.07692 38.61538 12.53846 12 Lösung mit : > x1 <- Daten2[,1] > x1 [1] 1000 2500 2900 3300 1500 1900 2111 2700 2900 2111 2000 2000 1900 > x2 <- x1-rep(mean(x1), times=13) > x2 [1] -1217.0769 282.9231 682.9231 1082.9231 -717.0769 -317.0769 [7] -106.0769 482.9231 682.9231 -106.0769 -217.0769 -217.0769 [13] -317.0769 > x1-mean(x1) [1] -1217.0769 282.9231 682.9231 1082.9231 -717.0769 -317.0769 [7] -106.0769 482.9231 682.9231 -106.0769 -217.0769 -217.0769 [13] -317.0769 > [1] 2217.077 > mean(x2) [1] 2.098877e-13 > mean(x1-mean(x1)) [1] 2.098877e-13. Algebraische Lösung: Das Ergebnis muß gleich Null sein.
= 13 Bei
1 n
1 = n i
) i (xi −1 x¯
1 n
x −n x ¯ i i i xi − n x ¯=x ¯−x ¯ = 0. n
Addition um einen konstanten Faktor erhält man folgendes Ergebnis. 1 n
(xi + z) = i
1 n
xi + i
1 n
z=x ¯ + z. i
LÖSUNGEN
335
Im Falle des Alters lautet die algebraische Lösung: 1 n
(zxi ) = z x ¯. i
14 Diese Kenngröße kann nur bei kardinalen Merkmalen berechnet werden. Lösung mir :> VarianzEinkommen <- var(Daten2[,1])*12/13 > VarianzAlter <- var(Daten2Alter) ∗ 12/13 > V arianzAusbildungsjahre < −var(Daten2Ausbildungsjahre)*12/13 > VarianzEinkommen [1] 364003.9 > VarianzAlter [1] 82.69822 > VarianzAusbildungsjahre [1] 6.710059 15 Algebraische Lösung: sei z=234, dann gilt
s(x + z) =
1 n
((xi + z) − (¯ x + z))2 =
i
1 n
(xi − x ¯)2 .
i
Lösung mit : Ganz gleich, mit welchen Werten man rechnet, ob mit den ursprünglichen oder den Werten, die mit 234 addiert wurden, man erhält als Lösung 364003.9. 16 Algebraische Lösung: Sei z=450, dann erhält man s2 (zx) =
17 Es
1 n
1 [(zx ¯)]2 = n [z(xi − x ¯)]2 i − zx i 1 2 (x − x 2] = [z ¯ ) i n i 1 = z2 n (x − x ¯)2 = z 2 s2 (x). i i i
fehlen die zugehörigen Sprungstellen xi .
18 c(1,2,3,4) 19 Der
Befehl > plot(c(500, Eink, 3500), c(0,edf(Eink),1),xlab = “Einkommen”, ylab = “H(Einkommen)”,type=”p”) zeigt die Sprungstellen an, bei denen H(x) rechtsseitig stetig ist. Den korrekten Verlauf der Verteilungsfunktion wird über > plot(ecdf(Daten2$Einkommen), xlab=Ëinkommen") generiert. 20 Mögliche Antwort: Ausstehende Zahlungen. Begründung: Hier sollten alle Zahlungen berücksichtigt werden, sofern die damit verbundenen Kosten geringer sind als der Ertrag. 21 Die empirische Varianz dient der Beschreibung der Streuung in der Grundgesamtheit. Liegen Daten einer Stichprobe vor, so beschreibt sie die Streuung in der Sichprobe. In diesem Fall heißt die empirische Varianz auch Stichprobenvarianz. Die korrigierte Stichprobenvarianz dient zur Schätzung der Varianz in der Grundgesamtheit mit Hilfe von Stichprobendaten. 22 Absolute Häufigkeitsverteilung. Denn wird als Datengrundlage die absolute Häufigkeitsk 2 := ( 1 ) verteilung verwendet so gilt Var(x) = σ ˆ2 = σ ˆX n (x − x ¯)2 bzw. s2 = s2X := n−1 i=1 i i 1 n
k
n (x − x ¯)2 . Man erkennt es leicht daran, daß in der Formel auch die absolute Häui=1 i i figkeit ni enthalten ist. 23 Man kann bei den Ausprägungen einer Variablen nur erkennen, daß es Unterschiede gibt. 24 Die Wahrnehmung von Farben wie rot, grün, blau ist wohl nominal skaliert. Allerdings gibt es auch metrische Farbskalen, bei denen das Mischungsverhältnis von drei Grundfarben angegeben wird. Durch Angabe des Mischungsverhältnisses kann man dann Farben erzeugen. Insofern kann man sogar sagen, daß die Erzeugung von Farben über eine Farbskala kardinal ist. 25 Ja. 26 Ja. 27 Ja. 28 Ja. 29 Ja. 30 Dies ist durch Gruppenbildung möglich. 31 Die Rohdaten in der Form herzuleiten, daß auf die statistischen Einheiten zurückgeschlossen werden könnte, ist bei umfangreichen Datensätzen nicht möglich. Aber die Daten lassen sich in derweise aufbereiten, daß sie in derselben Form vorliegen, wie wir es bei Rohdaten kennen.
LÖSUNGEN
336
Statistische Einheit Geschlecht Betriebsgröße 1 m g 2 m g 3 m g 4 m k 5 m k 6 m m 32 7 m m 8 w k 9 w k 10 w m 11 w m 12 w m 13 w m 33 Das arithmetische Mittel kann nur bei kardinal skalierten Variablen berechnet werden. Würde es sich um solche Merkmale handeln, so könnte über die Kontingenztabelle wie über die Datensätze aus Aufgabe 5k das arithmetische Mittel berechnet werden. 34 Sofern man die Gesamtzahl an Beobachtungen kennt, ist dies möglich. 35 Diese Berechnung macht bei ordinalen Merkmalen keinen Sinn. 36 Die Herleitung ist möglich, wenn mit Rohdaten die Zuordnung von Merkmalsträger zu einer bestimmten Klasse gemeint ist. Ein Rückschluß auf spezielle Unternehmen ist jedoch nicht möglich. Die Rohdaten, die zur Bestimmung der Klassen verwendet wurden, sind natürlich nicht ersichtlich. 37 Die Dateneingabe kann über b<-c(20,20,30,40) erfolgen. Absolute Häufigkeitsverteilung table(b) b 20 30 40 2 1 1 Relative Häufigkeitsverteilung table(b)/sum(table(b)) b 20 30 40 0.50 0.25 0.25 Die Quantile erhält man über quantile(b) 0% 25% 50% 75% 100% 20.0 20.0 25.0 32.5 40.0 Die Verteilungsfunktion kann man über > ecdf(b). erzeugen. Die Ausprägung 20 ist ein unteres Quartil, weil es insgesamt 4 Beobachtungen gibt: 20, 20, 30, 40. Zwischen den ersten beiden Ausprägungen liegt das 25%-Quantil (=Quartil), zwischen der zweiten und dritten Ausprägung liegt der Median. Er ist nicht eindeutig. Zwischen 30 und 40 ist das obere Quartil (=75%-Quantil), es ist ebenfalls nicht eindeutig bestimmt. 38 0,3. Die Summe aller relativen Häufigkeiten ist gleich Eins; Die empirische Varianz gibt an, in welchem Ausmaß die Beobachtungen um das arithmetische Mittel streuen. 39 Absolute und relative Häufigkeitsverteilung für jede Variable. Da es sich um eine gemeinsame Verteilung handelt, wäre eine Kontingenztabelle möglicherweise besser geeignet. Als graphische Methode eignet sich ein Kreisdiagramm oder ein Balkendiagramm. 40 Dies ist nicht möglich, da keine der beiden Variablen kardinal skaliert ist. 41 Der Eintrag ’30’ muß größer sein als 40 (k n). Die ganzen Zahlen müssen durch Punkt von den Dezimalstellen getrennt werden.
LÖSUNGEN 42 Die
337
Testgröße ist eine Punktschätzung alternative Lösungen werden angegeben. 1. Alternative dbinom (0,10,0.8) + dbinom (1,10,0.8) + dbinom (2,10,0.8) + dbinom (3,10,0.8) + dbinom (4,10,0.8) + dbinom (5,10,0.8) + dbinom (6,10,0.8) + dbinom (7,10,0.8) + dbinom (8,10,0.8) + dbinom (9, 10, 0.8) + dbinom (10, 10, 0.8). 2. Alternative k <- -1 (Erläuterung: Zuweisung von ’-1’ zu der Variable k) b1 <0 (Erläuterung: Zuweisung von ’0’ zu der Variable b1) for (k in 0: 10) (Erläuterung: Definition des Anfangs und Endes der Programmierschleife) { (Erläuterung: Beginn der Programmierschleife) b2 <- dbinom(k, 10, 0.8) (Erläuterung: Erster auszuführender Befehl) b1 <- b1+b2 (Erläuterung: Zweiter auszuführender Befehl) } (Erläuterung: Ende der Programmierschleife) b1 (Erläuterung: Ausgabe des Ergebnisses) 44 Durch Gleichung wird die Verteilungsfunktion F (10) berechnet. 45 Dies ergibt sich aus der Nullhypothese. 46 Dies ergibt sich aus der Formulierung der Nullhypothese. 47 Hierzu muß man den Verteilungstyp der Testgröße, das Signifikanzniveau und die Nullhypothese kennen. 48 Gesucht ist der kritische Wert. Nullhypothese: h 0, 02, Gegenhypothese: h > 0, 02, Testgröße ist unbekannt, Annahmebereich: P (k Quantil) = 1 − α. Befehl: > qbinom(0.96, 20, 0.02, lower.tail = TRUE) [1] 2. Falls in der Stichprobe mehr als drei fehlerhafte Produkte enthalten sind, so würde die Nullhypothese abgelehnt. 49 Sie könnten falsch gerechnet haben oder aber sie verwenden verschiedene Signifikanzniveaus. Schließlich ist es auch möglich, daß einer als Nullhypothese wählte, was der andere als Gegenhypothese nahm. 50 H : H < 0, 02 , H : H 0, 02; Testgröße = 4; Annahmebereich = [0,7]; Entscheidung: 0 1 4 ∈ A , folglich kann H0 nicht abgelehnt werden. 51 Dies ist der Fehler 1. Art. 52 Bei einer Kontingenztabelle ’kleben’ alle Merkmale aneinander; sie wurden mit anderen Worten gemeinsam erhoben. 53 Kontingenztabelle 54 table 55 ’X-squared’ ist die quadratische Kontingenz, wobei eine Stetigkeitskorrektur vorgenommen wurde. ’df’ ist die Abkürzung für Freiheitsgrad, er ist hier gleich Eins. Der ’p-value’ gibt die Wahrscheinlichkeitsmasse an, die rechts des Chi-Quadrat Koeffizienten liegt. Ist diese Wahrscheinlichkeit geringer als das Signifikanzniveau, so ist in vorliegendem Fall die Nullhypothese abzulehnen. 56 0 57 Überprüft wird zur Sicherheitswahrscheinlichkeit von 90 Prozent, ob die Unfälle von der Tageszeit statistisch unabhängig sind (Nullhypothese) oder nicht (Gegenhypothese). Mit der Anweisung ’x1 <- matrix(c(204,300,321,466),2,2)’ werden die Daten eingegeben. Die Korrektheit wird durch Eintippen von ’x1’ überprüft. Mit dem Befehl ’chisq.test(x1) wird das nötige Testverfahren aufgerufen und erbringt als Ergebnis: ’Pearson’s Chi-squared test with Yates’ continuity correction, data: x1, X-squared = 0.0028, df = 1, p-value = 0.9576’. Die Entscheidung lautet: die Nullhypothese kann nicht abgelehnt werden. 58 Mit dem Befehl ’qchisq(0.9,1,lower.tail=TRUE)’ wird das 90-Prozent Intervall mit Freiheitsgrad Eins bestimmt. Als Ergebnis erhält man: 2,705543. 59 0,9576 60 Beispiel: Ist die Nullhypothese: h 0, 4, dann gehört der kritische Wert zum Annahmebereich. 61 Er beginnt bei Null und endet bei dem kritischen Wert, wobei letzterer dem Annahmebereich zugeschlagen wird. 62 Er wird dem Annahmebereich zugerechnet. 63 Nein, das ist nicht möglich. Denn dann würde die Nullhypothese lauten: Die betrachteten beiden Merkmale sind nicht statistisch unabhängig. Unter Geltung der Nullhypothese muß aber eine Testgröße berechnet werden. Wie soll denn bei dieser Nullhypothese die Testgröße berechnet werden, wenn der funktionale Zusammenhang überhaupt nicht spezifiziert ist? Sofern jedoch, eine konkrete Hypothese über den Zusammenhang zweier Variabler aufgestellt wird, ist ist prinzipiell möglich, eine Testgröße zu entwickeln und deren Verteilung zu 43 Zwei
LÖSUNGEN
338
bestimmen. Dann handelt es sich aber nicht mehr um einen Chi-Quadrat Unabhängigkeitstest, sondern um einen völligen neuen Test. 64 Hierdurch wird das 0,95-Quantil der Chi-Quadrat Verteilung bei zwei Freiheitsgraden bestimmt. 65 qchisq(0.05,2,lower.tail=FALSE) 66 In Frage 6a sucht man nach dem Quantil, indem man die Wahrscheinlichkeitsmasse links des Quantils angibt. In Aufgabe 6b wird die Wahrscheinlichkeitsmasse rechts des Quantils angegeben. 67 Die Wahrscheinlichkeit ist normiert auf den Bereich [0, 1]. Die Summe aller Wahrscheinlichkeiten von ] − ∞, +∞[ über die Chi-Quadrat Verteilung ist gleich 1. 68 Die Dateneingabe kann über die Anweisung ’xx <- matrix(c(100,122,400,202,300,504,322,129,300,200,200,69,134,23,80,12),2,8)’ erfolgen. Anschließend gibt man ein: ’> chisq.test(xx)chisq.test(xx)’ und als Ergebnis wird ausgegeben: Pearson’s Chi-squared test, data: xx, X-squared = 318.4098, df = 7, p-value < 2.2e-16. Aufgrund dieses Angaben ist die Nullhypothese, beide Variablen sind statistisch unabhängig, abzulehnen. 69 Die Nullhypothese lautet, daß Rauchen und Geschlecht statistisch unabhängig sind. Die Gegenhypothese ist: beide Variablen sind nicht statistisch unabhängig. Als Testgröße dient die quadratische Kontingenz. Um Sie zu errechnen, ist die Kontingenztabelle aufzustellen. Rauchen Raucher Nichtraucher männlich 20 33 Geschlecht weiblich 55 77 Mit xxx <- matrix(c(20,55,33,77),2,2) wird die Matrix eingegeben. Die Richtigkeit der Eingabe kann mit dem Befehl ’xxx’ überprüft werden. Anweisung ’chisq.test(xxx)’ führt zu dem Output: Pearson’s Chi-squared test with Yates’ continuity correction, data: xxx, Xsquared = 0.1068, df = 1, p-value = 0.7439. Demgemäß kann die Nullhypothese selbst zu einem Signifikanzniveau von 70 Prozent nicht verworfen werden. 70 Dies ist die Frage nach der Wahrscheinlichkeit, mit der die Gegenhypothese angenommen wird, obwohl die Nullhypothese korrekt ist. In vorliegendem Fall ist dies 0, 08. 71 Die Zellenbesetzung ist hier zu gering. Aus diesem Grund werden die letzten beiden Zeilen zusammengefaßt. Dateneingabe: x2 <- matrix(c(20,27,55,28),2,2), Überprüfung auf Richtigkeit der Eingabe: x2. Test: chisq.test(x2) mit Ergebnis: ’Pearson’s Chi-squared test with Yates’ continuity correction, data: x2, X-squared = 5.975, df = 1, p-value = 0.01451’. Demgemäß ist die Nullhypothese abzulehnen. 72 Den kritischen Wert erhält man über den Befehl: qchisq(0.95,1,lower.tail=TRUE) und erhält als Ergebnis: 3,841459. 73 Als Sigma-Ring kann die Potenzmenge gewählt werden. Deshalb und weil der Ergebnisraum endlich ist, haben wir einen Laplaceschen Wahrscheinlichkeitsraum. Demgemäß sind die ˜ und 6.13 zu nutzen. Ohne Bedingungen 6.11, 6.14 (wegen endlich vieler Elemente von Ω) ˜ ω1 , ω2 , ∅}. Es ˜ = {ω1 , ω2 }. Hieraus ergibt sich F˜ = {Ω, Beschränkung der Allgemeinheit sei Ω ˜ = P (Ω ˜ ∪ ω1 ∪ ω2 ∪ ∅). Da aber Ω ˜ = {ω1 ∪ ω2 } und P Ω ˜ = 1 folgt die Behauptung. gilt: P Ω 74 Im ersten Fall geht es um die Wahrscheinlichkeit von A ohne A , das heißt die Menge 1 2 aller Elemente, die in A1 und nicht in A2 sind. Im letzteren handelt es sich um die bedingte Wahrscheinlichkeit. 75 In einer Untersuchung können Merkmalsausprägungen in Form einer relativen Häufigkeitsverteilung dargestellt werden. Die Wahrscheinlichkeit, mit der sich die einzelnen Ausprägungen ergeben, müssen jedoch nicht gleich den beobachteten relativen Häufigkeiten sein. 76 0,168; 0,928; 0,436; 0,3 77
P (A ∩ B) P (A ∩ B) + P (A ∩ B) P (A ∩ B) + = = 1. P (B) P (B) P (B) Zeichnen Sie zur Veranschaulichung ein Rechteck, das Ω darstellen soll. In dieses Rechteck tragen Sie zwei Mengen, A und B ab, die eine Schnittmenge besitzen. Dann sollte klar werden, daß (A ∩ B) ∪ (A ∩ B) = B
LÖSUNGEN
339
78
2 30
P (A ∩ B) =
P (A|B) =
· 1 7
1 6
1 = P (A) · P (B) = 90
2 30
· 1 7
1 6
7 (1 − 17 ) · (15·6) P (B|A) · P (A) (1 − P (B|A)) · P (A) P (A ∩ B) = = = . 1 P (B) P (B) P (B) (1 − 6 )
79
0,00884736; 0,9995187; 0,1854937; 0,8145062. 80 0; 0,5*0,9*0,8=0,36; 81
E(X1 ) = (1 − p) · 0 + 1 · p = p. V ax(X1 ) = E(X1 − E(X1 ))2 = E(X12 − 2pE(X1 ) + p2 ) = E(X12 ) − 2p2 + p2 = E(X12 ) − p2 = 02 · (1 − p) + 12 · p − p2 = p − p2 = p · (1 − p). 82 E(X) = 5, 875, E(Y ) = 64, 875, V ar(X) = 10, 35938, V ar(Y ) = 468, 8594, Cov(X, Y ) = 65, 48438 83 E(X) = 1, 916667, E(Y ) = 4, V ar(X) = 0, 5763889, V ar(Y ) = 0, 5, Cov(X, Y ) = 0, 08333. Die nötigen Befehle in sind wie folgt. > x <- matrix(c(1,1,1,2,2,2,3,3,3,3,4,5,3,4,5,3,4,5, (1/6),0,(1/6),(1/12),(1/3),0,0,(1/6),1/12),ncol=3) > x [,1] [,2] [,3] [1,] 1 3 0.16666667 [2,] 1 4 0.00000000 [3,] 1 5 0.16666667 [4,] 2 3 0.08333333 [5,] 2 4 0.33333333 [6,] 2 5 0.00000000 [7,] 3 3 0.00000000 [8,] 3 4 0.16666667 [9,] 3 5 0.08333333 > E.X <- t(x[,3])%*%x[,1] > E.X [,1] [1,] 1.916667 > E.Y <- t(x[,3]%*%x[,2] +) > E.Y [,1] [1,] 4 > X1 <- x[,1]-E.X > Y1 <- x[,2]-E.Y > Var.X <- t(x[,3]%*%((X1)ˆ 2) +) > Var.X [,1] [1,] 0.5763889 > Var.Y <- t(x[,3]%*%((Y1)ˆ 2)) > Var.Y [,1] [1,] 0.5 > 33/2-(4ˆ 2)
340
LÖSUNGEN
[1] 0.5 > Cov.XY <- t(x[,3]%*%(X1*Y1)) > Cov.XY [,1] [1,] 0.08333333 84 Sofern Beobachtungen vorliegen, so bedeutet gemeinsame Verteilung, daß an ein und derselben statistischen Einheit zumindest zwei Merkmale erhoben wurden. Die gemeinsame Häufigkeitsverteilung kann dann als Kontingenztabelle dargestellt werden. Wir unterscheiden ihrer zwei: die Kontingenztabelle mit absoluten und die mit relativen Häufigkeiten. Die hij in Formel 8.2 sind dann nichts weiter als die relativen Häufigkeiten der Kontingenztabelle. 85 Das Programm erzeugt bei jedem Lauf neue Realisierungen. Dennoch sollte die graphische Darstellung ähnlich der hier gezeigten sein und aus einer Punktwolke besteht. Eine Struktur ist allenfalls schwach zu erkennen. 86 In wird bei den angegebenen Befehlen standardmäßig die korrigierte empirische Varianz berechnet. Sie enthält den Faktor 1/(n − 1). Wird dieser Faktor mit (n − 1)/n multipliziert, so ergibt sich 1/n, also der Faktor, der bei der Berechnung der empirischen Varianz Verwendung findet. 87 > 10179174/(2002339 ∗ 67686642). 5 [1] 0.874364 88 t-Verteilung 89 Korr(X, Y ) = 0, 9396143 90 Korr(X, Y ) = 0, 1552301. Die nötigen Befehle sind wie folgt (siehe auch die Lösung zu Aufgabe 7. > Korr.XY <- Cov.XY/((Var.X*Var.Y)ˆ.5) > Korr.XY [,1] [1,] 0.1552301 91 Unter der Nullhypothese, daß ρ = 0, ist die Testgröße t-verteilt mit n − 2 Freiheitsgraden. Die Gegenhypothese lautet, daß die Korrelation signifikant von Null verschieden ist. Die Korrelation und Testgröße sowie die Bestimmung des Annahmebereiches kann über folgende Befehle erfolgen. > Korr.X1X2 <- cor(x1,x2,method="pearson") > Korr.X1X2 [1] 0.2052648 > length(x2) [1] 50 > Testgroesse <- Korr.X1X2*((length(x1)-2)/(1-(Korr.X1X2)ˆ2))ˆ.5 > Testgroesse [1] 1.453057 > qt(0.01/2,length(x1)-2,0,lower.tail=TRUE) [1] -2.682204 > qt(0.01/2,length(x1)-2,0,lower.tail=FALSE) [1] 2.682204 Der Annahmebereich ist [−2, 68; 2, 68]. Da die Testgröße (= 1, 45) im Annahmebereich liegt, kann die Nullhypothese nicht verworfen werden. Der Befehl ’cor.test(.)’ führt zu folgendem Ergebnis. > cor.test(x1,x2, alternative="two.sided", method="pearson", exact = NULL, conf.level = 0.99), Pearson’s product-moment correlation, data: x1 and x2, t = 1.4531, df = 48, p-value = 0.1527, alternative hypothesis: true correlation is not equal to 0, 99 percent confidence interval: -0.1659514 0.5255276, sample estimates: cor 0.2052648. Demgemäß kann die Nullhypothese nicht verworfen werden. 92 Nein 93 Hier sind die Ausführungen in Kapitel 8.A relevant. Die nötigen Anweisungen sind:
LÖSUNGEN
341
> z <- atanh(Korr.X1X2) > E.z <- .5*(log((1+Korr.X1X2)/(1-Korr.X1X2)))+(Korr.X1X2)/(2*(length(x1)-1)) > E.z [1] 0.2103173 > Var.z <- 1/(length(x1)-3) > Var.z [1] 0.02127660 > qnorm(0.95,E.z,Var.z,lower.tail=TRUE) [1] 0.2453142 >z [1] 0.2082228 Der Annahmebereich ist ] − inf ty; 0.245[. Da die Testgröße z im Annahmebereich liegt, kann die Nullhypothese nicht verworfen werden. 94 Nein 95 Vergleiche Abbildung 8.1. 96 Der nach Bravais-Pearson entfällt, weil hier stetige Zufallsvariablen vorausgesetzt werden. Die Koeffizienten nach Spearman und Kendall würden sich anbieten, doch auch hier werden stetige Zufallsvariablen vorausgesetzt. Keine dieser Kenngrößen kann verwandt werden, es kann dann mit serialen Korrelationskoeffizienten gearbeitet werden (siehe (Hartung und Elpelt, 1984, S. 201ff)). 97 Es stellen sich gleich drei Probleme: • Welches Korrelationsmaß wurde überhaupt verwendet? • Es ist nicht klar, welche Verteilung die zugrundeliegenden Zufallsvariablen haben und • eine Variable ist ordinal, die andere kardinal skaliert. Das zweite Problem könnte mit Hilfe von Verteilungstests angegangen werden, allerdings ist eine Größe ja nur ordinal skaliert. Die Tests 8.3.2 und 8.3.2 könnten ebenfalls nicht verwendet werden, da jeweils zwei stetige Zufallsvariablen zugrunde gelegt werden, doch hier ist eine Größe nur ordinal skaliert deren zugrundeliegende Zufallsvariable kaum als stetig anzusehen ist. Aus diesem Grund sind andere Tests nötig. 98 Da die Verteilung nicht bekannt ist, kann der Test nach Bravais-Pearson nicht angewendet werden. Es kommen in Frage der Spearmansche oder der Kendallsche Test. Da beides stetige Zufallsvariablen sind, können beide verwendet werden. Allerdings kann das Verfahren in 8.3.2 von Seite 149 nicht genutzt werden, da der Stichprobenumfang kleiner als 30 ist. So verbleibt das Verfahren nach Kendall, dessen Voraussetzungen erfüllt sind. 99 Nein, der Stichprobenumfang ist zu gering. 100 > cor.test(x[,1],x[,2],method="kendall",exact=FALSE) 101 Wird der Test mehrfach mit verschiedenen Ziehungen normalverteilter Zufallszahlen durchgeführt, so sind unterschiedliche möglich. Damit ist eine wichtige Voraussetzung wissenschaftlichen Arbeitens nicht erfüllt. Denn bei Nutzung derselben Daten sollten Anwender stets zu demselben Ergebnis kommen. 102 Bei jeder Filiale wird gleichzeitig die kürzeste Entfernung zum nächsten Getränkemarkt erhoben. Das bedeutet, daß es sich um einfache Stichproben zur gemeinsamen Verteilung Xi , Yj handelt. 103 Wir wissen ja, daß die Variablen normalverteilt und stochastisch unabhängig sind, so wurden sie ja erzeugt. Damit sollten die paarweisen Korrelationen vergleichsweise klein sein und simultaner Test, bei dem überprüft wird, ob alle paarweisen Korrelationen gleich Null sind, sollte zur Annahme der Nullhypothese führen. Wäre dies in vorliegendem Fall anders, so wäre der Fehler erster Art eingetreten. 104 Ja. 105 Es kommt darauf an. Einerseits können damit Zufallsvariablen in der Grundgesamtheit gemeint sein. Andererseits können es auch Zufallsvariablen sein, die sich aus einer (einfachen) Stichprobe ergeben. 106 Nein, in der Praxis wäre zu diskutieren, welche Perspektive und welches Motiv für die Hypothesenaufstellung relevant sein soll. Wird die Perspektive des Unternehmens ’Lebensmittel gut und billig’ eingenommen und soll tunlichst vermieden werden, daß fälschlicherweise angenommen wird, daß ρ1 > ρ2 ist, so sollten die Hypothesen gerade vertauscht werden.
342 107 Argumentiere
LÖSUNGEN
über den Fehler 1. Art berechne den Erwartungswert von z1 − z2 und bestimme entweder die Varianz der Testgröße oder standardisiere z1 , z2 . 109 Hierdurch wird nur die Korrelation zwischen den Vektoren x und x berechnet. Man 1 2 könnte dies freilich paarweise für alle Vektoren machen und die Ergebnisse in einer Matrix zusammenfassen, doch dies wäre recht umständlich. 110 Im ersteren Fall handelt es sich um eine Matrix und in letzterem um eine einzelne Zahl. 111 Der Zusammenhang zwischen paarweisen Korrelationen macht hier wenig Sinn, weil die erste Korrelation zwei andere Merkmale in Beziehung zueinandersetzt als bei der zweiten. Vielmehr interessiert wohl der Zusammenhang zwischen den Linearkombinationen a1 Y1 +a2 Y2 und b1 X1 + b2 X2 . Aus diesem Grund bietet sich die kanonische Korrelation an. 112 Ohne weitere Informationen ist eine Antwort schwierig. Es kommt letztlich auf die Fragestellung an. Paarweise Korrelationen zwischen den Merkmalen Y1 , Y2 und X1 , X2 miteinander zu vergleichen, wobei mit Y1 , Y2 etwas vollkommen anderes gemessen wird als mit X1 , X2 macht wenig Sinn. Die Zusammenhänge, die mit Hilfe der Korrelationsanalyse untersucht werden sollen, sollten in einem sachlogischen Zusammenhang stehen. Anders verhält es sich bei einer explorativen Datenanalyse. Hier können alle vorgestellten Methoden angewandt werden, man hüte sich jedoch davor, Daten zu quälen. 113 Die Korrelation kann dennoch signifikant von Null verschieden sein. Zudem wäre es sinnvoll in erklärungsbedürftige Güter und nicht-erklärungsbedürftige zu unterscheiden. Im ersteren Fall sollte sich eine signifikant höhere Korrelation als im zweiten Fall ergeben. Zudem ist es möglich, daß die Korrelation bei nicht-erklärungsbedürftigen Produkten nicht signifikant von Null verschieden ist. Selbst bei den erklärungsbedürftigen Produkten könnte sich eine geringe oder nicht signifikant von Null verschiedene Korrelation ergeben. Dies könnte daraufhindeuten, daß die Motivation oder die Ausbildung der Verkäufer gering ist. 114 Diese Aufgabe kann entweder algebraisch oder mit über ein einfaches Beispiel mit zwei Variablen gelöst werden. Man beachte, daß die Cov(Y, X) für X = Y mutiert zu V ar(Y ). 115 Ja. 116 Es gibt zwei Personen, ’1’ und ’2’. Die Körpergröße wird in cm und das Gewicht in Zentnern angegeben. Anschließend wird das Gewicht mit 50 multipliziert und man erhält die Angabe in Kilogramm. ’cbind’ bedeutet, daß Spaltenvektoren aneinandergereiht zu einer Matrix zusammengefaßt werden. 117 > library(cluster) > daisy(x,metric="manhattan") Dissimilarities : 1 2 20.5 Metric : manhattan Number of objects : 2 > daisy(x2,metric="manhattan") Dissimilarities : 1 2 45 Metric : manhattan Number of objects : 2 118 Normiere jeden Summanden auf den Bereich [0, 1] 119 > Norm1 <- max(x[,1])-min(x[,1]) > Norm2 <- max(x[,2])-min(x[,2]) > Norm1 [1] 20 > Norm2 [1] 0.5 > xx <- cbind(x[,1]/Norm1,x[,2]/Norm2) > xx [,1] [,2] [1,] 9 3 [2,] 8 2 108 Man
LÖSUNGEN
343
> Norm3 <- max(x2[,1])-min(x2[,1]) > Norm4 <- max(x2[,2])-min(x2[,2]) > Norm3 [1] 20 > Norm4 [1] 25 > xx2 <- cbind(x2[,1]/Norm3,x2[,2]/Norm4) > xx2 [,1] [,2] [1,] 9 3 [2,] 8 2 120 > daisy(xx,metric="manhattan")daisy(xx,metric="manhattan") Dissimilarities : 1 22 Metric : manhattan Number of objects : 2 Es ergeben sich, aufgrund derselben normierten Datenmatrix, jeweils dieselben Distanzindizes. 121 Die berechneten Differenzen sind für jedes Merkmal im Bereich [0, 1]. also kann es vorkommen, daß die Summe dieser Differenzen größer als Eins ist. 122 > xxx1 <- data.frame(xx[,1]) > xxx2 <- data.frame(xx[,2]) > Distanz1 <- daisy(xxx1,metric="manhattan") > Distanz2 <- daisy(xxx2,metric="manhattan") > Distanz1 Dissimilarities : 1 21 Metric : manhattan Number of objects : 2 > Distanz2 Dissimilarities : 1 21 Metric : manhattan Number of objects : 2 > Distanz.gesamt <- (1/3)*as.matrix(Distanz1)+(2/3)*as.matrix(Distanz2) > Distanz.gesamt 12 101 210 Die errechnete Distanz zwischen den Objekten ’1’ und ’2’ ist gleich Eins. 123 In vorliegendem Fall ergibt sich dasselbe Ergebnis wie unter 4j, da die Manhattan-Distanzen beider Merkmale jeweils gleich Eins sind. 124 > daisy(x,metric="gower") Dissimilarities : 1 21 Metric : mixed ; Types = I, I Number of objects : 2 Es ergibt sich dasselbe Ergebnis, wie unter 4k, denn die Schritte sind völlig identisch. 125 Ja, denn keine Überdeckung ist eine echte Teilmenge eines Clusters. 126 Entscheidend ist die Problemstellung. Sollen beispielsweise drei Verkaufsregionen bestimmt werden, weil drei geeignete Regionalleiter zur Verfügung stehen, so ist die Klassenanzahl durch die Problemstellung vorgegeben. Sollen die Verkaufsregionen im Hinblick auf bestimmte Merkmale ziemlich ähnlich gebildet werden, so wäre die Klassenanzahl innerhalb
344
LÖSUNGEN
des Klassifikationsverfahrens zu bestimmen und die Anzahl der Verkaufsleiter würde sich hierüber ergeben, wäre ökonomisch gesehen die endogene Größe. 127 Distanzen werden zwischen je zwei Objekten errechnet. Niedergelegt in einer Distanzmatrix erhält man eine (10 × 10)-Matrix. Deren Hauptelemente sind gleich Null und sie ist symmetrisch. Aus diesem Grund gibt es (10 ∗ 10 − 10)/2 = 45 unterschiedliche Distanzindizes. 128 Die durchschnittliche Beratungszeit des ersten Kunden beträgt 1.637554 und die des Kunden mit Nummer 350 beträgt 303.279180 Minuten. 129 199.1725 Minuten 130 Kardinale Merkmale, es ist sowohl ein intervallskaliertes als auch eine verhältnisskaliertes Merkmal. 131 1. Alternative: Es könnten alle drei Merkmale zur Bildung einer Distanzmatrix herangezogen werden. 2. Alternative: Allerdings gibt es zwischen den Merkmalen ökonomisch sinnvolle Beziehungen. Die durchschnittliche Beratungszeit pro Kunde stellt Aufwand dar, der von dem Umsatz eines Kunden abgezogen werden könnte. Diese Möglichkeit verbietet sich in dieser Form, da beide Variablen unterschiedliche Dimensionen besitzen. Es wäre sinnvoll, den Aufwand mit einem kalkulatorischen Preis pro Minute zu multiplizieren und diese von dem Umsatz abzuziehen. Eine Partitionierung nach diesem (eindimensionalen) Merkmal würde die Kunden (unter Außerachtlassung sonstigen Aufwandes) gemäß des kalkulatorischen Gewinns in Klassen einteilen. 132 Die maximalen Beratungskosten betragen 192.0678. Der maximale kalkulatorische Gewinn beträgt in Euro 3109.526 und der minimale 649.0188. 133 Nutze zuerst ’daisy’ und wende dann den Befehl ’pam’ mit zweien und anschließend mit drei Clustern an. 134 Die durchschnittliche Silhouettenweite über alle Objekte hinweg beträgt bei zwei Partitionen gleich 0,55 und bei dreien 0,49, wobei zudem die Silhouettenweite einiger Personen negativ sind. Deshalb wird eine Einteilung in zwei Cluster vorgeschlagen. 135 Es gibt zwei Möglichkeiten, zwei Geraden so einzuzeichnen, daß die Gerade genau durch zwei Beobachtungspunkte verläuft und die Summe der Abstände zwischen allen Beobachtungspunkten und Geraden gleich Null sind. 136 Man zeichne wiederum vier Punkte so in ein Diagramm, daß je zwei denselben x-Wert haben. Das Minimum der aufsummierten und in den Betrag gesetzten Differenzen muß gleich dem Absolutwert der Differenz der ersten zwei Beobachtungen mit demselben x-Wert plus dem Absolutwert der Differenz der anderen zwei Beobachtungen mit identischem x-Wert sein. Man erkennt leicht, daß es mehrere Lösungen gibt. 137 Stelle Normalgleichung 12.8 um, dies führt zum Ergebnis. 138 Vergleiche die erste Normalgleichung. 139 Zeichne eine Regressionsgerade in ein Streudiagramm, bei dem alle Beobachtungen auf einer Geraden liegen. Zeichne waagerechte Linien durch alle Beobachtungen und alle geschätzten Werte yˆ. Es zeigt sich, daß y = yˆ, woraus die Behauptung folgt. 140 Der Schätzer ˆ b gibt die Steigung der Schätzgeraden an. Ändern sich die Variablen xt und yt gleichgerichtet, so ist die Steigung positiv und auch die Kovarianz ist positiv. Ist die Kovarianz zwischen xt und yt negativ, so steigt tendenziell xt , wenn yt sinkt, und umgekehrt: die Steigung der Schätzgeraden ist dann negativ. Sofern die Varianz V ar(x) sehr klein ist, so muß bei gegebenen Werten yt die Steigung der Schätzgeraden größer sein, als bei kleiner Varianz V ar(x). Dies schlägt sich in dem Schätzer 12.12 nieder, da hier die Varianz als Argument eingeht. Eine kleine Varianz führt zu höheren Werten von ˆ b als eine große. 141 Es kann sein, daß die Streuung des Störterms u so groß ist, daß sich dies in einem geringem t R2 niederschlägt. Dieser Einfluß wird bei statistischen Hypothesentests über die KQ-Schätzer berücksichtigt. Sollte dies tatsächlich der relevante Effekt sein, so sollten sich die KQ-Schätzer als signifikant von Null erweisen. 142 Bei zwei Beobachtungen geht die Regressionsgerade durch beide Punkte, weshalb die Varianz der Störterme gleich Null sein muß. Folglich ist das Bestimmtheitsmaß gleich Eins. Kommt eine weitere Beobachtung hinzu, so bleibt das Bestimmtheitsmaß entweder unverändert oder es sinkt. Liegt die zusätzliche Beobachtung genau auf der zuvor geschätzten Geraden, so ist R2 weiterhin gleich Eins. Ansonsten muß es sinken, da es Störterme ut > 0 gibt.
LÖSUNGEN 143
ˆb − b =
T
345
xt ut − ut 2 xt 2 T
xt −(
=
xt )
T(
=
T
(xt −¯ x)ut )
T 2 x2 −T 2 (¯ x)2 t
xt ut −T T
=
(
x2 −( t
ut (1/T ) 2
(xt −¯ x)ut )
T (x2 −(¯ x)2 ) t
xt )
=
(
xt
=
T( T
x ut ) xt2ut −¯ 2 xt −(
xt )
(C.1) (xt −¯ x)ut )
T s2 (x)
.
144 Die Aufstellung der Schätzfunktion ist zwar mitentscheidend für das Ergebnis, doch der Zusammenhang kann nicht im Sinne einer Ursache-Wirkungsrichtung interpretiert werden. Selbst wenn die KQ-Schätzer signifikant von Null verschieden sind, handelt es sich nicht um einen Kausalitätstest. 145 Das Bestimmtheitsmaß R2 verringert sich, da die Varianz der Störterme zunimmt und ist zuletzt nahe Null. Dennoch sind die KQ-Koeffizienten signifikant von Null verschieden. 146 Die Multiplikation der erklärenden Größe mit einer Konstanten hat keinen Einfluß auf die KQ-Residuen. 147 Die Summe der Residuen muß gleich Null ergeben. Ist dies nicht der Fall, so muß ein Rechenfehler vorliegen. 148 Es zeigt sich, daß das Absolutglied nicht signifikant ist. Hinweis: Sofern die Beobachtungen eine eng zusammenligende Punktwolke darstellt und je weiter sie vom Ursprung entfernt ist, desto unsicherer ist die Schätzung des Absolutgliedes ˆ a. In Anwendungen ist dies häufig der Fall. 149 Das Absolutglied wird als erklärende Variable mitgerechnet, erscheint aber nicht bei der Aufzählung x1 , x2 , . . . , xn . 150 Ist der Stichprobenumfang bei der Binomialverteilung gleich 1, und werden als mögliche Ausprägungen nur x ∈ {0, 1} zugelassen, so erhält man die Bernoulli-Verteilung.
Glossar Bestimmtheitsmaß R2
Ceteris paribus
Gini Korrelation
Kritischer Wert
Dies gibt den Anteil der erklärten Varianz einer Regression an der Varianz der zu erklärenden Variable wider, 260 ’Alles andere bleibt gleich’; lateinische Redewendung, die in der Ökonomie häufig verwendet wird, 259 Gini - Dies ist die Abkürzung für den Ginikoeffizient, der nicht normiert ist, 60 Die Korrelation ist ein Maß, mit dessen Hilfe der Zusammenhang zweier Zufallsvariablen überprüft werden kann. Sie hat dasselbe Vorzeichen wie die Kovarianz, mit deren Hilfe sie berechnet wird. Ist sie positiv und eine der beiden Varaibelen steigt, so steigt auch die andere; ist sie negativ und steigt eine Variable, dann sinkt die andere. Sind die betrachteten Zufallsvariablen stochastisch unabhängig, so ist die Kovarianz und damit auch die Korrelation gleich Null. Ist die Korrelation gleich Null, so müssen die beiden Zufallsvariablen allerdings nicht stochastisch unabhängig sein. Ist die Korrelation aber von Null verschieden, so liegt keine stochastische Unabhängigkeit vor. Diese Eigenschaft macht man sich bei den Tests auf Korrelation zu Nutze, 138 Bei einseitigen Tests teilt das Quantil den Definitionsbereich der Testgröße in einen Verwerfungsbereich und einen Annahmebereich. Da es nur einen Ablehnungsbereich gibt, heißen solche Tests einseitig. Bei zweiseitigen Tests werden zwei α2 -Quantile berechnet, ein unteres und ein oberes. Der Definitionsbereich der Testgröße wird in drei Bereiche aufgeteilt: einen Annahme und zwei äußere Verwerfungsbereiche, 77
R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
348 MONA N(0,1) PAM Standardisierung
Translation
Wahrscheinlichkeitsmasse
σX (x) (Ω F P ) Cov(X, Y ) E(X) FX (x) Gininormiert
H(x)
H0 H1 Mf P P (X x) QX
Glossar Monothetische Methode zur Bildung einer Hierarchie, 237 Normalverteilte Zufallsvariable mit Erwartungswert 0 und Varianz 1, 265 Polythetische Methode zur Bildung einer Partition, 215 Jede Zufallsvariable kann so umgerechnet werden, daß ihr Mittelwert 0 und ihre Varianz 1 beträgt. Diese Umrechnung heißt Standardisierung. Allerdings müßen Erwartungswert und Varianz bekannt sein, 132 Bei einer Addition aller Punkte mit einer Konstanten spricht man von Translation (Parallelverschiebung), 261 Damit wird die Wahrscheinlichkeit bezeichnet, die bei diskreten Zufallsvariablen auf einer Zufallsvariablen liegt. Man versteht darunter auch die Wahrscheinlichkeit, die über einem Intervall von Zufallsvariablen vorhanden ist. Die Fläche, die über einem Intervall stetiger Zufallsvariablen liegt bezeichnet man ebenfalls als Wahrscheinlichkeitsmasse. Da bei einer stetigen Zufallsvariablen die Fläche über einem Punkt gleich Null ist, ist dessen Eintrittswahrscheinlichkeit gleich Null, 76 Standardabweichung, 132 Wahrscheinlichkeitsraum, 111 Kovarianz, 132 Erwartungswert, 131 Verteilungsfunktion zur Zufallsvariablen X, 128 Normierter Gini - Dies ist die Abkürzung für den Ginikoeffizient, der normiert ist und nur Werte zwischen 0 und 1 annehmen kann, 62 Empirische Verteilungsfunktion - Sie gibt die kumulierten relativen Häufigkeiten der Merkmalsausprägungen an, die gleich oder kleiner der betrachteten Merkmalsausprägung sind, 43 Nullhypothese, 74 Gegenhypothese, 74 höchster Rang der Variable f , 199 Wahrscheinlichkeit, 70 Wahrscheinlichkeit, daß die Zufallsvariable X kleiner oder gleich x ist, 128 Bildwahrscheinlichkeit, 127
Glossar QX S SC T Hij
V ar(x) #A #matches %∗% Ω α
x ¯ ∃ ∀ σ ˆ2
n k Cor(XX) X ˆ Cor(XX) rXX K Bn Ω A ρ θ |a| d(i j)
349 Wahrscheinlichkeitsverteilung der Zufallsvariablen X, 72 Gesamte Merkmalssumme - Diese Größe ist der erste Schritt zur Bildung der Lorenzkurve, 57 Silhouettenkoeffizient, 229 Theoretische Häufigkeit - Dies ist die Häufigkeit, die sich aufgrund einer Verteilungsannahme bei Geltung der Nullhypothese ergibt. , 92 korrigierte Stichprobenvarianz, 19 Anzahl der Elemente der Menge A, 111 Anzahl an Übereinstimmungen, 202 Befehl in zur Durchführung einer Matrizenmultiplikation, 158 Ergebnisraum, 107 Signifikanzniveau, es gibt die Wahrscheinlichkeit an, die über dem Ablehnungsbereich liegt, 75 arithmetisches Mittel, 19 Existenzquantor, dieses Symbol soll bedeuten ’es existiert’, 180, 313 Allquantor, eine Kurzschreibweise, die bedeuten soll ’für alle’, 109 Korrigierte Stichprobenvarianz - Sie ist ein Streuungsmaß und wird genutzt, um die mit Daten einer einfachen Stichprobe die Streuung in der Grundgesamtheit erwartungstreu zu messen, 19 Binomialkoeffizient, 71 Korrelationsmatrix, 179 Transponierte der Matrix X, 304 Schätzer der Korrelationsmatrix, 171 Schätzer der Korrelationsmatrix für stetige, kardinale Merkmale, 171 Klassifikation, 214 Borelkörper in n , 127 Komplementmenge von A bezüglich Ω, 108 Korrelation in der Wahrscheinlichkeitstheorie, 138 Parameterwert, 87 Betragszeichen, die Variable a wird zum Betrag genommen, 194 Distanz zwischen den statistischen Einheiten i und j, 191
350 fX (x) h(x) hi hi,j
k l
m n ni nij
r
s2
s2X s11 (x,y) z
Glossar Dichtefunktion zur Zufallsvaraiblen X an der Stelle x, 130 Relative Häufigkeitsverteilung, 40 Relative Häufigkeit der Merkmalsausprägung i, 40 Gemeinsame Verteilung - hij gibt die gemeinsame relative Häufigkeit des Auftretens von Merkmalsausprägung i und j an, 53 Anzahl unterschiedlicher Beobachtungen, 37, 138 Er kann die Anzahl unterschiedlicher Merkmale angeben oder auch die Anzahl unterschiedlicher Ausprägungen. Die Verwendung ergibt sich aus dem Sinnzusammenhang, 138, 194, 202, 203, 244 Anzahl an Klassen, 214 bei Stichproben: Stichprobenumfang, 74 absolute Häufigkeit, 37 Zellenbesetzung - Sie gibt die absolute Häufigkeit an, mit der Kombinationen an Merkmalsausprägungen in einer Kontingenztabelle, 95 Empirische Korrelation - Mit ihr läßt sich der Zusammenhang zwischen zwei Zahlenreihen messen. Sie ist, wie die Korrelation in der Wahrscheinlichkeitstheorie (Cor(X, Y )) normiert und kann nur Werte zwischen [−1, +1] annehmen. Ansonsten gilt das gleiche, was dort gesagt wurde, wenn man stochastische durch statistische Unabhängigkeit ersetzt, 139 Empirische Varianz - Sie ist ein Streuungsmaß und wird bei Totalerhebungen oder zur Beschreibung der Streuung in einer Stichprobe benutzt, 19, 42, 264 empirische Varianz zur Variablen X, 38 empirische Kovarianz, 139 Zinssatz, 193
Literaturverzeichnis Günter Bamberg und Franz Baur. Statistik (München, Wien: R. Oldenbourg Verlag) (1984). D.J. Best und D.E. Roberts. Algorithm AS 89: The Upper Tail Probabilities of Spearman’s rho. In Applied Statistics, Band 24:377–379 (1975). Statistisches Bundesamt. Genesis-Online. https://www-genesis.destatis.de.
online
(2008).
URL
Dubravko Dolic. Statistik mit R, Einführung für Wirtschafts- und Sozialwissenschafter (München, Wien: R. Oldenbourg Verlag) (2004). Kurt Endl und Wolfgang Luh. Analysis I, Eine integrierte Darstellung (Wiesbaden: Akademische Verlagsgesellschaft), 6. Auflage (1980). ISBN 3-400-001856. JC Gower. A general coefficient of similarity and some of its properties. In Biometrics, Band 27:857–871 (1971). Joachim Hartung und Bärbel Elpelt. Multivariate Statistik (München: Oldenbourg Verlag) (1984). Myles Hollander und Douglas A. Wolfe. Nonparametric Statistical Methods (New York: John Wiley and Sons, Inc.) (1999). Leonard Kaufmann und Peter Rousseeuw. Finding Groups in Data An Introduction to Cluster Analyses (New York, Chichester, Brisbane, Toronto, Singapore: John Wiley and Sons, Inc.) (1990). Josef Schira. Statistische Methoden der VWL und BWL : Theorie und Praxis (München: Pearson Studium) (2005). ISBN 3-8273-7163-5. Hans Schneeweiß. Ökonometrie (Würzburg-Wien: Physica-Verlag), 3. durchgesehene Auflage (1978). Peter von der Lippe. Auflage (1996).
Wirtschaftsstatistik (Stuttgart: Lucius & Lucius), 5.
Karlheinz Zwerenz. Datenanalyse mit Excel und SPSS (München, Wien: Oldenbourg Verlag) (2006). R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
Stichwortverzeichnis σ-Additivität, 111 σ-Ring, 109 Ähnlichkeit von Objekten Definition, 241 Überdeckung Definition, 215 Konstruktion, 233 Abhängigkeit lineare, 313 Ablehnungsbereich, 75 Affinitätsindex, 204 Alternativenvergleich, 88 Ancienitätsprinzip, 18, 253 Anführungszeichen typographische, vi, 333 Ankunftsrate mittlere, 285 Annahmebereich, 75 Anpassungstest, 97 Arbeitsspeicher löschen, 322 Arbeitsverzeichnis anlegen oder wechseln, 323 Assoziationsmaß Interpretation, 241 attach, 326 Aufgaben, 2 Ausreißer, 21 Balkendiagramm, 39 bar chart, 39 bar plot, 39 Basis, 313 Bayes Schätzunktionen, 120 Befehlsdatei, 322
Befehlsfenster, v, 321 Beispiele, 2 Bereich kritischer, 75 Bestimmtheitsmaß, 259 Interpretation, 260 Invarianz gegenüber Maßstabsänderungen, 261 Invarianz gegenüber Translationen, 261 Bias, 19, 44 Bildwahrscheinlichkeit, 127 Bindungen, 148 Binomialkoeffizient, 72 Bittorrent, 3 Bundesamt Statistisches Online-Angebot, 30 Centrotype, 216 ceteris paribus, 259 City-Block-Metrik, 194 Cluster, 189 L∗ -Cluster, 224 L-Cluster, 224 Clusteranalyse, 22, 189, 211 Coefficient simple matching coefficient, 204 Daten Überprüfung auf Konsistenz, 18 abspeichern, 325 einlesen, 5, 325 herunterladen, 4 Internetadresse, 4 online beziehen, 4 permanent machen, 38
R. Hellbrück, Angewandte Statistik mit R, DOI 10.1007/978-3-8349-8370-1, © Gabler | GWV Fachverlage GmbH, Wiesbaden 2009
354 quälen, 8 temporäre, 38 Daten aus dem Internet einlesen, 324 Daten aus einer *.csv-Datei einlesen, 324 Datenanalyse explorative, 165 Dateneigenschaften, 325 Dateneingabe Eingabe als Matrix, 32 Datenmatrix, 189 Datensätze umkehren, 326 Datensatz, 189 Deduktion, 8 Deskriptive Statistik, 5 detach, 326 Determinante, 171 Diameter, 225 Dichte Definition, 130 Dichtefunktion, 126 Definition, 130 Diskriminanzanalyse, 22 Diskriminierung, 80 Distanz City-Block, 194 City-Block-Distanz, 194 invariantes, 204 Jaccard, 205 Manhattan, 194 weitere Maßzahlen, 245 Distanzmatrix, 189 Eigenvektor, 319 Eigenwert, 319 Ein-Stichprobenfall, 87 Einheit statistische, 8, 61, 111, 189 Einstichprobenfall Problem, 88 Elementarereignis, 112 Ereignisraum, 111 Ereignisse, 111 Ergebnisraum, 107 Ergebnisse, 107
STICHWORTVERZEICHNIS des Wahrscheinlichkeitsraumes, 111 Erhebungsplan, 24, 72 Erzeugendensystem, 313 Exzentrizität maximale, 171 Fakultät, 71 Fehler 2. Art, 82 Fehler 1. Art, 79 Fehlermeldungen mögliche Ursachen, vi Umgang mit, 332 Finden in , 329 Fisher z-Transformation, 162 Fragebogen, 7 Geradengleichung Parameter der, 250 Gini-Koeffizient, 60 normiert, 62 Gleichverteilung stetige, 287 Graphik abspeichern, 328 Formate, 328 Grundgesamtheit, 8 Häufigkeit relative, 40 Häufigkeitsdichte durchschnittliche, 51 Häufigkeitsverteilung relative gemeinsame, 55 Handbücher in Linux, 329 Handbücher in Windows, 332 Hauptdiagonale, 305 Hauptdiagonalelemente, 305 Hierarchie, 238 Definition, 215 Histogramm, 50–52 absolute Klassenhäufigkeit, 50 Homogenitätstest, 100 Hotelling-Pabst-Statistik, 149
STICHWORTVERZEICHNIS Erläuterung, 137 Hypothese, 7 KQ-Methode, 255 Hypothesen Interessenlage und Aufstellung von, Längsschnittanalyse, 31 80 Lag, 327 Lags, 321 Identität, 31 last, 327 Induktion, 8 Legende, 34 Inverse, 316 LimeSurvey, 10 K-Statistik Internetadresse, 10 Kendallsche, 151 Linearkombination, 313 Kendalls τ , 151 Lorenz-Kurve, 57 Klassen M-Koeffizient, 204 äquidistante, 52 matplot, 34 Klassenbildung Matrix diversiv, 238 Datenmatrix, 189 Klassifikationstyp, 214 Distanzmatrix, 189 Klassifizierung Einheitsmatrix, 305 automatische, 211 Inverse, 316 Kleinst-Quadrat-Schätzfunktionen, 264 Invertierbar, 316 Koeffizient obere Dreiecksmatrix, 305 M-Koeffizient, 204 quadratische, 305 Chi-Quadrat-, 93 Rang einer Matrix, 313 Ungleichheiheits-, 190 reguläre, 313 Konfidenzintervall, 126, 147 Spalten, 304 Konsistenz, 19 transponierte, 304 Konsole, v, 321 untere Dreiecksmatrix, 305 Konstruktionsverfahren Zeilen, 304 Unterschied zwischen Hierarchiebildung und Partitionierung, Meßbarkeit, 125 Definition, 126 215 Median, 45 Kontingenz Medoid, 216 quadratische, 93 Definition, 216 Kontingenztabelle, 53, 125 merge, 329 bei Zufallsvariablen, 128 Merkmal Kontrollvariable, 88 binäres, 203 Kontrollvariablen, 25 diskretes, 279 Korrelation intervallskaliert, 192 Definition, 138 kardinal, 22 kanonische, 182 kardinales multiple, 179 invervallskaliertes, 22 Korrelationskoeffizient verhältsnisskaliertes, 22 Bravais-Pearson, 140 nominales, 21 Kendall, 151 nominales in , 325 Korrelationstabelle, 53 Kovarianz, 132 ordinal, 21
355
356 stetiges, 279 verhältnisskaliert, 192 Merkmale gemeinsam erhobene, 30 Metaebene, 97 Methode KQ-Methode, 6 Missings, 13 Mitgliedschaftsexponent, 231 Mitgliedschaftskoeffizient, 230 Mittel arithmetisches bei Rohdaten, 19 bei absoluten Häufigkeiten arithmetisches, 37 bei relativen Häufigkeiten arithmetisches, 42 Mittelwertvergleich zweier normalverteilter Zufallsvariablen, 90 Modell vollständiges, 264 monothetisch, 244 Moodle, 10 Internetadresse, 10 ndays, 327 Nennerfreiheitsgrade, 181 Next, 327 nmonths, 327 Normalgleichungen, 251 Normalverteilung Standardnormalverteilung, 291 nquarters, 327 Objekt Nachbar eines Objektes, 227 repräsentatives, 216 Objekte interessierende, 8 siehe auch Grundgesamtheit, 8 Objektebene, 97 Online-Befragung Software, 10 Onlineangebot des Verlages, 4 OpenOffice
STICHWORTVERZEICHNIS Internetadresse, 2 ordered, 200 p-value graphische Veranschaulichung, 146 Pakete installieren unter Linux, 323 Pakete einlesen auf dem Rechner existierende, 323 Pakete installieren in Windows, 332 Panelstudie, 32 Parameter Vektor regressionsähnlicher, 182 Partition Definition, 214 kompromißlose, 232 Vergleich PAM und FANNY, 232 Partitions-Koeffizient, 237 normiert, 237 Permutation, 71, 113 Personen interessierende, 8 siehe auch Grundgesamtheit, 8 Plausibilität, 13 Überprüfung auf statistische, 23 Plausibilitätsprüfung, 17 polythetisch, 244 Preisdiskriminierung, 101 dritten Grades, 212 Primärdaten, 9 Probleme bei Befehlsdatei, 322 Prognose, 258 Punktprognose, 249 Programmpaket, 331 Punktmasse, 120 Punktschätzung, 69 Punktwahrscheinlichkeit, 120 Quantil, 45 Mehrdeutigkeit, 46, 48, 50 Quantile und Verteilungsfunktion, 48 Quartil
STICHWORTVERZEICHNIS oberes, 45 unteres, 45 Quasihierarchie Definition, 215 Querschnittsanalyse, 31, 254 R Internetadresse, 3 Randverteilung, 55 relative, 55 Zufallsvariablen, 128 Randverteilungsfunktion, 129 Rangkorrelationskoeffizient, 148 Rdata-Format, 325 Realisierungen, 280 Regressanden, 250 Regression einfache, 250 multiple, 269 von Yt auf Xt , 250 Regressionsfunktion, 255 Regressionsgerade, 253 Regressionskoeffizienten, 250 Regressionsmodell einfaches klassisches, 251 Regressoren, 250 Residuen, 251 rm, 322 Rohdaten, 19, 29, 189 Beispieldatensatz, 15 scan, 39 Scatterplot, 141 Sekundärdaten, 9 Selbstselektion, 82 Selbstzensur, 82 Separation, 225 Shell, v, 321 Sicherheitswahrscheinlichkeit, 75, 126 Signfikant von Null verschieden alternative Redewendung, 187 Signifikanzniveau, 75 Einfluß auf Testergebnis, 81 Silhouette, 227 Silhouettenweite, 227 Skalenniveau, 93
357 Skalierung Bedeutung von Fragestellung und Interpretation, 202 Sprungstelle der Verteilungsfunktion, 129 Störterm, 250 Stabdiagramm, 42 Standardisierung, 126 Statistik beschreibende, 30 deskriptive, 5, 30 induktive, 126 multivariate, 19 schließende, 9, 30, 126 univariat, 19 Statistiklabor Internetadresse, 3 Stetigkeit der Verteilungsfunktion, 43 Stichprobe Einstichprobenfall, 87 Stichprobenkovarianz korrigierte, 182 Stichprobenvarianz korrigierte, 19 Streudiagramm, 141 Streuung gemischte, 132 Streuungsmaß, 38 Streuungszerlegungsformel, 260 Stromgröße, 88 Suchen in , 329 Tautologie, 31 Taxonomie numerische, 211 Teilerhebung, 8 Test linksseitiger, 77 oberseitiger, 79 rechtsseitiger, 79 unterseitiger, 77 verteilungsfreier, 90 Vorzeichentest nach Fisher, 89 zweiseitiger, 76
358 Testgröße, 74 Tests Statistische Kern, 82 Trägerpunkte, 120 Translation, 261 Trendstudie, 32 Unähnlichkeitsmaß siehe Distanz, 204 Unabhängigkeit lineare, 313 statistische, 57, 99 und bedingte Häufigkeit, 57 stochastische, 116, 132 union, 329 Untersuchungseinheit, 8, 111 Urliste, 19 Validität, 18 Variable latente, 259 Variablen erklärenden, 250 zu erklärenden, 250 Varianz empirische, 43 Grundgesamtheit empirische, 19 Stichprobe empirische, 19 Varianzzerlegungsformel, 260 Vektor Einsvektor, 306 j-ter Einheitsvektor, 306 Nullvektor, 306 Verteilung bedingte, 56 Bernoulli, 89, 107 Bernoulli-Verteilung, 279 gemeinsame, 53 Gleichverteilung, 279 hypergeometrischen, 279 Standardabweichung, 132 Standardnormalverteilung, 294 Verteilungsfunktion, 126
STICHWORTVERZEICHNIS diskrete Definition, 129 empirische, 43 Normalverteilung, 280 Poisson-Verteilung, 279 stetige Definition, 130 Verzerrung systematische, 19, 44 Vollerhebung, 8 Vorhersagekriterium Vektor des besten, 182 Wahrscheinlichkeit bedingte, 116 diskrete, 120 Wahrscheinlichkeitsraum, 111 diskreter, 120, 126 Grundgesamtheit des, 111 Laplacescher, 112 stetiger, 126 Wahrscheinlichkeitstheorie, 108 Wahrscheinlichkeitsverteilung, 127, 130 diskrete, 127 stetige Definition, 130 Wahrscheinlickeitsmassefunktion, 130 Werbewirkungsanalyse, 87 Wert kritischer, 77 Werte fehlende, 13 nicht-fehlende, 199 Windows Besonderheiten in Windows, 332 Wirkungsanalyse, 87 Änderung der Organisation, 87 Umsatzsteigerung, 87 Werbung, 87 Zählerfreiheitsgrade, 181 Zeitreihen zusammenfassen, 329 Zufallsvariable, 125, 280 diskrete, 127 eindimensionale
STICHWORTVERZEICHNIS Definition, 127 standardnormalverteilte, 294 stetige Definition, 130 Wahrscheinlichkeitsverteilung, 127
359