Springer-Lehrbuch
Für weitere Bände: http://www.springer.com/series/1183
Göran Kauermann · Helmut Küchenhoff
Stichproben Methoden und praktische Umsetzung mit R
123
Göran Kauermann Universität Bielefeld Universitätsstraße 25 33615 Bielefeld Deutschland
[email protected]
Helmut Küchenhoff Ludwig-Maximilians-Universität München Institut für Statistik Ludwigstraße 33 80539 München Deutschland
[email protected]
ISSN 0937-7433 ISBN 978-3-642-12317-7 e-ISBN 978-3-642-12318-4 DOI 10.1007/978-3-642-12318-4 Springer Heidelberg Dordrecht London New York Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Springer-Verlag Berlin Heidelberg 2010 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Einbandentwurf: WMXDesign GmbH, Heidelberg Gedruckt auf säurefreiem Papier Springer ist Teil der Fachverlagsgruppe Springer Science+Business Media (www.springer.com)
Vorwort
Das vorliegende Buch führt in die Grundideen von Stichprobenziehung ein. Dabei verfolgen wir einen bewusst nicht-technischen Zugang und versuchen sowohl durch inhaltliche als auch durch einfache Zahlenbeispiele die Verfahren zu motivieren. Im Rahmen von statistischer Beratung haben wir in zahlreichen Formen Stichprobenpläne entworfen und zum großen Teil auch umgesetzt. Es zeigt sich, dass in der konkreten Umsetzung von Stichprobenverfahren der Teufel, wie üblich, im Detail steckt, so dass stets ein Kompromiss aus Theorie und Notwendigkeiten der Anwendung gefunden werden muss. Wir bemühen uns in den dargestellten und jedes Kapitel abschließenden Beispielen, diesen Kompromiss herauszuarbeiten. Unsere generelle Intention ist es, dass der interessierte Leser die Idee der Stichprobenplanung versteht und direkt zur Anwendung bringen kann. Hierzu dient auch die Beschreibung der numerischen Umsetzung mit R. Zur leichteren Realisierbarkeit haben wir dazu das R-Paket samplingbook verfasst, welches von der Homepage www.r-project.org heruntergeladen werden kann. Jedes Kapitel schließt mit einer Darstellung der numerischen Umsetzung mit R ab, getreu dem didaktischen Prinzip „hands on“. Dieses Buchprojekt hat sich über geraume Zeit hingezogen und wäre ohne die tatkräftige Unterstützung durch Cornelia Oberhauser wohl nie zu einem Abschluss gekommen. Ihr gebührt unser nachhaltiger Dank. Für Anregungen und Korrekturen bedanken wir uns bei Ingrid Kreuzmair und Freia Decker. Ebenso sei Nina Westerheide, Mark Hempelmann, Juliane Manitz und Manuel Wiesenfarth explizit gedankt für ihre wertvollen Beiträge im Bereich der numerischen Umsetzung. Letztlich danken wir natürlich auch den zahlreichen Studierenden, die uns immer wieder auf Fehler und Unstimmigkeiten aufmerksam machten (und wahrscheinlich machen werden). Schließlich sei dem Team von Il Grappolo in München gedankt; die mittägliche Verpflegung war immer aufbauend. Uns hat die Arbeit an dem Buch viel Freude und Einsicht bereitet und wir hoffen, dass sich diese auf unsere Leserinnen und Leser überträgt. Bielefeld München, September 2010
Göran Kauermann Helmut Küchenhoff
v
Inhaltsverzeichnis
1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Inhalt des Buches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 2 2
2 Einfache Stichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Grundbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Nicht-zufällige Auswahlverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 „Auswahl auf’s Geratewohl“ . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Typische Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Quotenstichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Repräsentativität und Verzerrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Gründe für Verzerrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Design einer Zufallsstichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Einfache Zufallsstichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6 Statistische Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.2 Mittelwertschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.3 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.4 Schätzung von Anteilen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7 Ziehen mit Zurücklegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8 Bestimmung des Stichprobenumfangs . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 Systematische Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.11 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.12 Numerische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.12.1 Ziehen einer einfachen Zufallsstichprobe . . . . . . . . . . . . . 2.12.2 Mittelwertschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.12.3 Anteilsschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.12.4 Bestimmung des Stichprobenumfangs bei Mittelwertschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.12.5 Bestimmung des Stichprobenumfangs bei Anteilsschätzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 5 7 7 8 9 9 10 11 12 16 16 18 25 29 34 37 42 45 46 47 47 51 52 55 57 vii
viii
Inhaltsverzeichnis
3 Modellbasierte Stichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Differenzenschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Quotientenschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Regressionsschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Zusammenhang der Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 Experiment: Geld in der Börse . . . . . . . . . . . . . . . . . . . . . . 3.5.2 Investitionswert Telefonnetz . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 Numerische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61 62 69 73 78 79 79 80 83 84
4 Designbasierte Stichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.1 Horvitz-Thompson-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.2 Größenproportionale Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 4.3 Praktische Umsetzung der PPS-Stichprobe . . . . . . . . . . . . . . . . . . . . . 107 4.3.1 Sampford-Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 4.3.2 Pareto-Sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 4.3.3 Eliminierungsmethode von Tillé . . . . . . . . . . . . . . . . . . . . . 113 4.3.4 Splitting-Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.3.5 Methode von Madow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 4.4 Die Hansen-Hurwitz-Strategie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 4.5 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 4.6 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 4.7 Numerische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4.7.1 PPS-Auswahlwahrscheinlichkeiten . . . . . . . . . . . . . . . . . . 120 4.7.2 PPS-Ziehung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 4.7.3 PPS-Ziehung und Auswahlwahrscheinlichkeiten . . . . . . . 125 4.7.4 Horvitz-Thompson-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . 131 5 Gruppierung der Population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 5.1 Geschichtete Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 5.1.1 Prinzip der Schichtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 5.1.2 Stichprobenumfang in den Schichten . . . . . . . . . . . . . . . . . 147 5.1.3 A posteriori Schichtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 5.1.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 5.2 Cluster-Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 5.2.1 Einfache Cluster-Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . 160 5.2.2 Modellbasierter Cluster-Schätzer . . . . . . . . . . . . . . . . . . . . 168 5.2.3 Designbasierter Cluster-Schätzer . . . . . . . . . . . . . . . . . . . . 170 5.2.4 Cluster-Stichprobe und systematische Stichprobe . . . . . . 172 5.3 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 5.3.1 Geschichtete Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 5.3.2 Cluster-Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
Inhaltsverzeichnis
5.4 5.5
ix
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 Numerische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 5.5.1 Geschichtete Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 5.5.2 Cluster-Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
6 Mehrstufige und mehrphasige Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 189 6.1 Zweistufige Stichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 6.1.1 Die einfache zweistufige Zufallsstichprobe . . . . . . . . . . . . 192 6.1.2 Modellbasierte und designbasierte zweistufige Verfahren 197 6.1.3 Erweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 6.2 Zweiphasige Stichprobenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 201 6.2.1 Modellbasierte zweiphasige Verfahren . . . . . . . . . . . . . . . . 201 6.2.2 Zweiphasige geschichtete Stichprobe . . . . . . . . . . . . . . . . . 208 6.3 Zweiphasige Stichprobe zum Umgang mit Non-Respondern . . . . . . 211 6.4 Capture-Recapture Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 6.5 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 6.5.1 Neues Design für Haushaltsstichproben in Deutschland . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 6.6 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 6.7 Numerische Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 6.7.1 Zweistufige Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214 6.7.2 Modellbasierte zweiphasige Verfahren . . . . . . . . . . . . . . . . 217 6.7.3 Zweiphasige geschichtete Stichprobe . . . . . . . . . . . . . . . . . 220 7 Probleme in der Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 7.1 Räumliche Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 7.2 Fehlende Werte und nicht erreichbare Individuen . . . . . . . . . . . . . . . 225 7.3 Behandlung delikater Fragen und Anonymisierung von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 7.4 Mess-und Erhebungsfehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 7.4.1 Additiver zufälliger Messfehler . . . . . . . . . . . . . . . . . . . . . 236 7.4.2 Fehler bei binären Merkmalen . . . . . . . . . . . . . . . . . . . . . . 237 7.5 Gewichtung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 7.5.1 Gewichtung mit inversen Auswahlwahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . 240 7.5.2 Non-Response-Bereinigung . . . . . . . . . . . . . . . . . . . . . . . . 241 7.5.3 Nachträgliche Schichtung als Gewichtung . . . . . . . . . . . . 244 A Das Programmpaket R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 A.1 Was ist R? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 A.2 Warum wir uns für R entschieden haben . . . . . . . . . . . . . . . . . . . . . . . 247 A.3 R herunterladen und installieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 A.4 R-Hilfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248
x
Inhaltsverzeichnis
A.5 A.6 A.7 A.8
Zusätzliche Pakete herunterladen, installieren und verfügbar machen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 Pakete zum Thema Stichprobentheorie . . . . . . . . . . . . . . . . . . . . . . . . 249 Daten einlesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 Ziehen von Zufallszahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252
Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
Kapitel 1
Einführung
Nach Bundestags- oder Landtagswahlen erfolgt die Berichterstattung über die Ergebnisse nach einem bestimmten Ritual. Unmittelbar nach Schließung der Wahllokale (in der Regel um 18 Uhr) werden von verschiedenen Fernsehanstalten Prognosen für den Ausgang der Wahl abgegeben. Zu diesem Zeitpunkt ist aber noch keine einzige Stimme ausgezählt, sondern diese Prognosen basieren ausschließlich auf Befragungen von Wählern unmittelbar nach Abgabe ihrer Stimme. Obwohl bei diesen im Englischen als „Exit-Polls“ bezeichneten Befragungen nur ein sehr geringer Anteil der Wählerinnen und Wähler befragt wird, liegen die zugehörigen Prognosen meist sehr nahe an dem tatsächlichen Endergebnis. Der Grund hierfür liegt in der erfolgreichen Anwendung von Stichprobenverfahren. Mit diesen ist es beispielsweise möglich, durch eine Befragung von nur 2 000 Personen Aussagen über eine Bevölkerung von ca. 80 Millionen Personen zu machen. Allerdings sind solche Aussagen nur möglich, falls die Strategie der Ziehung der 2 000 Personen und die Auswertung der Antworten nach bestimmten Regeln erfolgt. Eine Befragung von beliebigen Personen oder gar Ergebnisse aus Meinungsäußerungen im Internet würden keine sinnvollen Aussagen zulassen. Stichprobenverfahren spielen nicht nur in der Demoskopie eine zentrale Rolle. Sie werden auch in der Marktforschung bei der Analyse des Kaufverhaltens, bei großen sozial- und wirtschaftswissenschaftlichen Erhebungen wie z.B. dem Mikrozensus oder dem Sozioökonomischen Panel eingesetzt. Auch große medizinischepidemiologische Studien, wie z.B. die amerikanische NHANES-Studie (National Health and Nutrition Examination Survey), die KIGGS Studie zur Bewertung der Gesundheit von Kindern (www.kiggs.de) oder auch der deutsche Bundesgesundheitssurvey werden auf der Basis von Stichprobenerhebungen durchgeführt. Weiterhin kommen Stichprobenverfahren bei Fragestellungen, die sich nicht direkt auf Eigenschaften von Personen beziehen, zum Einsatz. Ein Beispiel, das wir in dem Buch ausführlich betrachten, ist die Investitionskostenanalyse von Telefonnetzen. Da es nicht möglich ist, für das gesamte Telefonnetz im Detail eine Kostenrechnung durchzuführen, beschränkt man sich auf eine Auswahl von Bereichen und führt die Abschätzung der Gesamtkosten dann mit Hilfe einer Hochrechnung durch. Zunehmend von Bedeutung sind Stichprobenverfahren in der Umweltforschung. Da Umweltbelastungen häufig nur mit großem Aufwand zu erfassen sind, ist es hier nötig, sich auf Teilerhebungen zu beschränken und mit deren Hilfe eine Hochrechnung auf eine Gesamtbelastung bzw. auf eine Durchschnittsbelastung durchzuführen. G. Kauermann, H. Küchenhoff, Stichproben, Springer-Lehrbuch, C Springer-Verlag Berlin Heidelberg 2011 DOI 10.1007/978-3-642-12318-4_1,
1
2
1 Einführung
1.1 Inhalt des Buches Inhalt dieses Buches ist die Beschreibung der Strategien zur Auswahl von Stichproben, mit deren Hilfe Schlüsse auf eine Population möglich sind. Man spricht hier vom Stichproben-Design. Als zentrales Instrument werden Zufallsstichproben verwendet. Diese ermöglichen dann mit Hilfe der Wahrscheinlichkeitstheorie statistische Rückschlüsse auf die Population. Die einfachste Variante, die einfache Zufallsstichprobe, und die theoretischen Grundlagen dazu werden in Kap. 2 ausführlich beschrieben. Bei der Auswertung der Daten einer Stichprobe kann nicht nur die Information bezüglich der Hauptfragestellung (wie in obigem Beispiel die Parteipräferenz) genutzt werden, sondern auch Zusatzinformationen wie z.B. die abgegebene Stimme bei der vorherigen Wahl, das Geschlecht oder das Alter der befragten Person. Unter bestimmten Bedingungen können diese Hilfsmerkmale unter Benutzung statistischer Modelle in die Auswertung miteinbezogen werden, um die Aussagekraft zu erhöhen. Strategien hierzu werden in dem Kap. 3 „Modellbasierte Stichprobenverfahren“ behandelt. Neben der Ziehung einer einfachen Zufallsstichprobe gibt es andere Möglichkeiten Stichproben zu ziehen. Beispielsweise kann man die Auswahl so durchführen, dass die Geschlechtsverteilung in der Stichprobe der Geschlechtsverteilung in der Population entspricht. Man spricht dann von „Designbasierten Stichprobenverfahren“, auf welche in Kap. 4 näher eingegangen wird. Da die meisten in der Praxis verwendeten Verfahren auf einer Gruppierung der Population (z.B. nach Regionen oder Haushalten) basieren, werden diese in Kap. 5 ausführlich dargestellt. Hier sind die geschichtete Stichprobe und die ClusterStichprobe die wichtigsten Vertreter. Im Anschluss daran werden Kombinationen der Verfahren in Kap. 6 vorgestellt. Man spricht von mehrphasigen und mehrstufigen Stichproben. Den Abschluss (Kap. 7) des Buches bildet die Diskussion einiger in der Praxis besonders relevanter Fragen. Diese beinhalten den Umgang mit fehlenden und fehlerhaften Daten sowie die häufig verwendete Gewichtung von vermeintlich nicht repräsentativen Stichproben. Jedes Kapitel liefert umfangreiche, in Form von einfachen Beispielen dargestellte Details, wie die Verfahren praktisch umgesetzt werden können. Dabei wird das frei verfügbare Softwarepaket R benutzt (siehe www.r-project.org). Alle Verfahren sind in dem im Internet verfügbaren R-Paket samplingbook zusammengestellt. Eine kurze Einführung zu dem Programmpaket R ist im Anhang des Buches zu finden. Somit werden die Verfahren nicht nur theoretisch, sondern auch praktisch vermittelt.
1.2 Notation Zur Verbesserung der Übersichtlichkeit und der Lesbarkeit werden grundlegende Begriffe der einzelnen Kapitel im Text hervorgehoben und die wesentlichen Inhalte in Kästen zusammengestellt.
1.2
Notation
3
Passagen, die mit „Beispiel“ beginnen und mit einem Dreieck enden, kennzeichnen Beispiele im Text. Passagen, die mit „Herleitung“ beginnen und mit einem Kästchen enden, sind eher technischer Natur und können nach Belieben übersprungen werden. In der numerischen Umsetzung verwenden wir folgende Notation, wobei Rrelevante Inhalte in Schrift gleicher Zeichenbreite abgesetzt sind: • Zeilen, die mit „#“ beginnen, kennzeichnen die relevanten Zeilen aus der R-Hilfe, die durchgängig in Englisch gehalten sind, z.B. # package the name of the package • Zeilen, die mit „>“ beginnen, sind Befehlszeilen, die direkt in R eingegeben werden, z.B. > function(x) • Zeilen ohne besonderes Zeilenanfangssymbol sind das Ergebnis, das R auf die entsprechende Befehlszeile ausgibt.
Kapitel 2
Einfache Stichprobenverfahren
2.1 Grundbegriffe Bei der Durchführung einer statistischen Erhebung besteht die Absicht, Informationen über eine (üblicherweise große) Menge von Individuen zu erhalten. So kann ein Unternehmen Interesse daran haben, sich einen Überblick über die Kundenzufriedenheit zu verschaffen oder ein Meinungsforschungsinstitut möchte im Auftrag einer Fernsehanstalt Informationen über die politische Stimmung in einem Land erhalten. Bei der Durchführung der Erhebung muss zuerst die Menge der Individuen, über die eine Aussage getroffen werden soll, bestimmt und abgegrenzt werden. Diese Menge besteht bei Umfragen in der empirischen Sozialforschung typischerweise aus der Bevölkerung eines Landes oder einer Untergruppe daraus, wie z.B. aus den wahlberechtigten Bürgern. Daher wird in der Stichprobentheorie und nachfolgend in diesem Buch der Begriff Population für diese abgegrenzte Menge von Individuen verwendet. Im deutschsprachigen Raum wird diese auch als Grundgesamtheit bezeichnet. • Die Population oder Grundgesamtheit ist die Menge aller Individuen oder Objekte, über die eine Aussage getroffen werden soll. Die Grundgesamtheit muss nicht zwingend aus Personen bestehen. Bei einer ökologischen Fragestellung kann sie z.B. aus Planquadraten einer Fläche oder aus Seen eines Landes bestehen. Wir definieren daher allgemein die Elemente der Population wie folgt. • Merkmalsträger oder statistische Einheiten sind die Einheiten oder Objekte, an denen Untersuchungen, Messungen oder Beobachtungen vorgenommen werden. Gelegentlich werden die Merkmalsträger auch Individuen genannt. Der Bezug zur inhaltlichen Fragestellung wird durch den Begriff des Merkmals hergestellt. • Merkmale sind die Eigenschaften der statistischen Einheiten, die untersucht, beobachtet oder gemessen werden sollen.
G. Kauermann, H. Küchenhoff, Stichproben, Springer-Lehrbuch, C Springer-Verlag Berlin Heidelberg 2011 DOI 10.1007/978-3-642-12318-4_2,
5
6
2 Einfache Stichprobenverfahren
Merkmale sind dabei zum Beispiel Einkommen, Wahlverhalten oder Meinungen zu bestimmten Themen, die in einem Interview erfragt werden können. Merkmale können auch konkrete Messungen oder Beobachtungen sein. Beispielsweise kann eine statistische Erhebung Aufschluss über die Schädigung des deutschen Waldes geben. In diesem Fall ist das Merkmal der konkrete Schädigungsgrad eines einzelnen Baumes oder Waldabschnittes. Der Ausgangspunkt einer empirischen Untersuchung ist damit die Definition von Grundgesamtheit, statistischen Einheiten und zu erhebenden Merkmalen. Das bedeutet im Grunde genommen nichts anderes als die folgenden Fragen zu beantworten: • Worauf bezieht sich die Untersuchung? • Welche Inhalte sollen betrachtet werden? In den meisten Anwendungen ist die Grundgesamtheit relativ groß, so dass man sich darauf beschränkt, anstelle der gesamten Population eine (kleine) Teilmenge zu untersuchen oder zu befragen. Diese Teilmenge nennen wir Stichprobe. • Eine Stichprobe ist die Teilmenge der Population, an der die Merkmale erhoben werden. Wenn man sich dafür entscheidet, die gesamte Population zu untersuchen, spricht man von einer Vollerhebung (oder auch Zensus genannt). In diesem Fall sind Stichprobe und Population identisch. Ansonsten spricht man von einer Teilerhebung. Typische Beispiele für Vollerhebungen sind Volkszählungen und Wahlen. Bevor wir uns im Folgenden ausschließlich mit Teilerhebungen beschäftigen, wollen wir kurz die Vor- und Nachteile von Teilerhebungen im Vergleich zu einer Vollerhebung diskutieren. In vielen Fällen ist eine Vollerhebung weder praktikabel noch finanzierbar. Dies gilt insbesondere für Untersuchungen, die sich auf die Gesamtbevölkerung eines Landes beziehen. In anderen Fällen ist eine Vollerhebung rein technisch nicht ratsam, wie das folgende Beispiel zeigt. Beispiel 2.1: Bei der Lieferung einer Charge von Äpfeln soll der Schadstoffgehalt bestimmt werden. Hier besteht die Population also aus allen Äpfeln der Charge, die Merkmalsträger sind die einzelnen Äpfel und das interessierende Merkmal ist z.B. der Schadstoffgehalt bezogen auf das Gewicht. Um diesen zu bestimmen, muss der Apfel chemisch untersucht werden und kann anschließend weder verzehrt noch verkauft werden. Daher hätte man nach einer Vollerhebung zwar genaue Angaben zur Schadstoffbelastung, aber keine Äpfel mehr. Somit ist es hier sinnlos, eine Vollerhebung durchzuführen. Des Weiteren haben Vollerhebungen den Nachteil, dass bedingt durch den hohen Aufwand häufig Mess- und Erhebungsfehler in stärkerem Maße auftreten. Zusätzlich kann es zu einer höheren Ausfallrate als bei einer Teilerhebung kommen. Das heißt, Individuen gelangen in die Stichprobe, ihre Antwort oder Messung bleibt jedoch aus, weil sie beispielsweise die Antwort verweigern. Unter Berücksichtigung derartiger Probleme bietet sich eine Stichprobe in Form einer Teilerhebung an. Entschließt man sich somit, eine Teilerhebung anstelle einer Vollerhebung durchzuführen, so stellen sich in der Anwendung drei konkrete Fragen:
2.2
Nicht-zufällige Auswahlverfahren
7
1. Welche Merkmalsträger der Population sollen beobachtet oder gemessen werden? 2. Wie viele Merkmalsträger sollen erhoben werden, das heißt, wie groß soll die Stichprobe sein? 3. Wie groß ist der Informationsverlust im Vergleich zu einer Vollerhebung? Wir werden diesen Fragen in den folgenden Kapiteln nachgehen. Dabei wird sich zeigen, dass eine Teilerhebung in vielen Fällen völlig ausreicht, um eine geforderte Genauigkeit einer Erhebung zu garantieren. Beispiel 2.2: Eine öffentliche Verwaltung möchte den Einsatz der Arbeitszeit ihres Personals genauer erfassen. Sie interessiert sich dafür, wie lange ein Arbeitnehmer mit Vorgängen wie „Bearbeitung von externen Anfragen“, „Bearbeitung von internen Anfragen“, „Kundenverkehr“, „Schriftverkehr“, etc. beschäftigt ist. Die Verwaltungsleitung zieht zwei mögliche Methoden in Betracht, die Daten zu sammeln. Einerseits durch eine Vollerhebung, bei der jeder Arbeitnehmer detailliert die aufgewendete Arbeitszeit in den einzelnen Bereichen auflistet. Andererseits kann eine Teilerhebung durchgeführt werden, bei der ausgewählte Arbeitnehmer die entsprechende Information liefern. Bei einer Vollerhebung ist sicher mit Problemen zu rechnen. Arbeitnehmer mögen sich kontrolliert fühlen und/oder ungenaue Angaben machen. Bei einer Teilerhebung können sich die ausgewählten Arbeitnehmer hingegen benachteiligt fühlen und ihre Mitarbeit verweigern. Da es sich jedoch dabei im Gegensatz zur Vollerhebung um eine kleinere Gruppe von Arbeitnehmern handelt, kann von Seiten der Verwaltungsleitung Motivation zur Mitarbeit gegeben werden. Somit kann durch eine Teilerhebung durchaus ein genaueres Ergebnis als durch eine Vollerhebung erzielt werden.
2.2 Nicht-zufällige Auswahlverfahren Generell unterscheidet man zwei Arten von Stichproben, zufällige und nichtzufällige Verfahren. In diesem Buch werden wir uns fast ausschließlich mit zufälligen Verfahren beschäftigen. Bei den nicht-zufälligen Stichprobenverfahren ist der Prozess der Auswahl weder kontrollierbar noch kann er mit statistischen Modellen beschrieben werden. Daher gibt es auch keine theoretische Grundlage für diese Verfahren. Wir diskutieren die Problematik kurz anhand der wichtigsten in der Praxis verwendeten nicht-zufälligen Stichprobenverfahren.
2.2.1 „Auswahl auf’s Geratewohl“ Hierbei wird der „Mann auf der Straße“ befragt. Diese einfache Methode kann durchaus zu interessanten Ergebnissen führen, lässt aber in der Regel keine Schlüsse auf die Population zu. Insbesondere kann nicht kontrolliert werden, welche Individuen keine Möglichkeit haben, in die Stichprobe zu gelangen. Ein Beispiel soll die Problematik offenlegen.
8
2 Einfache Stichprobenverfahren
Beispiel 2.3: Ein Supermarkt möchte Informationen über die Kundenzufriedenheit sammeln und entschließt sich zu einer Umfrage. Dabei wird eine Auswahl auf’s Geratewohl getroffen, indem an einem Vormittag 100 Kunden nach Bezahlen an der Kasse nach ihrer Zufriedenheit mit Service und Sortiment befragt werden. Die so erhaltenen Ergebnisse mögen für das Unternehmen von Interesse sein, sofern die Population, über die eine Aussage getroffen werden soll, die derzeitigen Kunden des Supermarktes sind, die zu der entsprechenden Zeit, in der die Befragung durchgeführt wird, üblicherweise einkaufen. Kunden, die zu anderen Zeiten einkaufen oder enttäuschte Ex-Kunden, die den Supermarkt inzwischen meiden, erreicht man mit so einer Auswahl auf’s Geratewohl nicht. Der Informationsgewinn der Stichprobe ist somit recht gering und fragwürdig. Bei einer Auswahl aufs Geratewohl ist somit weder garantiert, dass alle Individuen der Population eine positive Wahrscheinlichkeit haben in die Stichprobe gezogen zu werden, noch ist in irgendeiner Form bewertbar, wie groß die Wahrscheinlichkeit für ein Individuum ist gezogen zu werden. Kurzum, die Auswahl ist nicht zufällig. Beispiel 2.4: Sogenannte TED-Umfragen, bei denen Fernsehzuschauer um eine Meinung per Telefon gebeten werden, gehören ebenfalls zur Auswahl auf’s Geratewohl. Hier ist davon auszugehen, dass die Entscheidung, seine Meinung abzugeben, von der Meinung selbst stark abhängt. Die Gruppe der nicht interessierten Zuschauer wird in der Regel keine Meinung abgeben oder gar ein anderes Programm schauen.
2.2.2 Typische Stichprobe Hierbei befragt man eine „typische“ Person oder wählt ein typisches Element der Population. Dieses Verfahren ist so gut wie die Experten, die festlegen, was „typisch“ ist. Ein Nachteil des Verfahrens besteht darin, dass eine Genauigkeitsschätzung praktisch nicht möglich ist. Dennoch findet das Verfahren Anwendung wie Beispiele 2.5 und 2.6 zeigen. Beispiel 2.5: Zur Ermittlung der Inflationsrate wird zur Erstellung einer Preisstatistik ein bestimmter Warenkorb ausgewählt und die Preise in typischen Geschäften festgestellt. Aufgrund der Vielzahl der Waren und Verkaufseinheiten ist eine Ziehung mittels einer Zufallsstichprobe nicht möglich. Aufgrund der Erhebung gleicher Produkte in gleichen Verkaufseinheiten zu verschiedenen Zeitpunkten lässt sich damit die Preisentwicklung durchaus zuverlässig erheben. Beispiel 2.6: Die Stadt Haßloch in Rheinland-Pfalz dient der Gesellschaft für Konsumforschung (GfK) als Testmarkt für neue Produkte. Hier gelangen Innovationen in die Regale von Geschäften und Supermärkten, bevor sie im Bundesgebiet auf den Markt kommen. Ist das Produkt in Haßloch erfolgreich, so lohnt die bundesweite Einführung, ansonsten wird das Produkt nicht auf den
2.3
Repräsentativität und Verzerrung
9
Markt kommen. Die Konsumenten in Haßloch dienen somit als typische Stichprobe für die bundesdeutsche Bevölkerung im Hinblick auf den Konsum von Lebensmitteln.
2.2.3 Quotenstichprobe Dieses Verfahren wird hauptsächlich bei Umfragen verwendet. Die Idee besteht darin, ein möglichst gutes Abbild der Population (Bevölkerung) in der Stichprobe zu bekommen. Dies wird dadurch erreicht, dass zunächst gewisse Quotenmerkmale (z.B. Geschlecht, Altersgruppe, Berufstätigkeit) festgelegt werden, deren Verteilungen in der Population bekannt sind. Anschließend wird die Stichprobe so gezogen, dass die Anteile dieser Merkmale in der Stichprobe genau denen in der Population entsprechen. Eine Befragung von 1 000 Personen ist dann zum Beispiel so zu organisieren, dass 500 Personen weiblich sind, dass 200 Personen zwischen 21 und 30 Jahren alt sind usw. In der Praxis wird das so erreicht, dass jeder beteiligte Interviewer genaue Vorgaben erhält, sich Personen mit bestimmten Eigenschaften bezüglich der Quotenmerkmale zu suchen. Die Diskussion über Vor- und Nachteile einer Quotenauswahl war für die Entwicklung der Statistik sehr nützlich, siehe dazu z.B. Noelle-Neumann (2000) und Quatember (1996). Wesentliches Argument für die Quotenstichprobe ist die Kontrolle relevanter Störgrößen. Hier gibt es Ähnlichkeiten zur Strategie der geschichteten Stichprobe, siehe dazu Abschn. 5.1. Allerdings handelt es sich bei der Auswahl innerhalb der Quoten wieder um eine Auswahl auf’s Geratewohl. Daher ist auch für eine Quotenstichprobe eine zuverlässige Abschätzung der Genauigkeit problematisch. Verfahren zur Genauigkeitsabschätzung basieren in der Regel auf der Annahme, dass eine Quotenstichprobe ähnliche Eigenschaften wie eine Zufallsstichprobe aufweist.
2.3 Repräsentativität und Verzerrung In der empirischen Forschung wird der Begriff „repräsentative Stichprobe“ in unterschiedlichen Bedeutungen verwendet. In der Marktforschung und in der empirischen Sozialforschung wird manchmal eine repräsentative Stichprobe als ein verkleinertes Abbild der Grundgesamtheit definiert. Typischerweise wird verlangt, dass personenbezogene Merkmale wie z.B. Alter, Geschlecht, Bildung und Berufstätigkeit in der Stichprobe eine möglichst ähnliche Verteilung haben wie in der Grundgesamtheit. Diese Forderung hat den Vorteil, dass sie in der Praxis einfach zu überprüfen ist, wenn die entsprechenden Anteile in der Grundgesamtheit bekannt sind. Allerdings ist dadurch noch nicht gesichert, dass bezüglich der interessierenden Variablen die Ergebnisse der Stichprobe auf die Grundgesamtheit übertragbar sind. Beispiel 2.7: Parteipräferenz bei der Kommunalwahl Ein Landkreis besteht aus 10 Gemeinden, von welchen angenommen wird, dass diese bezüglich der Bevölkerungsmerkmale eine sehr ähnliche Struktur
10
2 Einfache Stichprobenverfahren
aufweisen. Nach obiger Definition wären die Bürger der Gemeinde A also eine repräsentative Stichprobe für den gesamten Landkreis. Befragt man diese nach ihren Konsumgewohnheiten, ist das Ergebnis von Gemeinde A vermutlich auf den Landkreis übertragbar. Das Ergebnis der Frage nach der Parteipräferenz für die Partei S bei der nächsten Kommunalwahl könnte sich aber in der Gemeinde A von dem Ergebnis im Landkreis deutlich unterscheiden, wenn die Gemeinde A beispielsweise einen besonders beliebten Bürgermeister aus der Partei S hat. Insofern sind Schlüsse auf die Grundgesamtheit bezüglich des Konsumverhaltens möglich, aber nicht bezüglich der Parteipräferenz. Das Beispiel zeigt die Problematik des Begriffs der repräsentativen Stichprobe. Die grundsätzliche Frage ist, ob Schlüsse von der Stichprobe auf die Grundgesamtheit zulässig sind. Das lässt sich bei nicht-zufälligen Stichproben kaum allgemein beantworten. Wir ziehen daher vor, den Begriff der Repräsentativität eher als die Zulässigkeit von Schlüssen auf die Grundgesamtheit zu definieren. Dabei gehört zu dem Begriff der Bezug zu den Merkmalen. Im obigen Beispiel ist die Gemeinde A eine repräsentative Stichprobe bezüglich des Konsumverhaltens, aber nicht bezüglich der Parteipräferenz. Man spricht im letzteren Fall von einer verzerrten Stichprobe oder von einer Stichprobe mit systematischem Fehler, auch Bias genannt. Dieser Begriff wird später exakt definiert und diskutiert. Wir wollen hier noch analysieren, wie es zu einer Verzerrung kommt.
2.3.1 Gründe für Verzerrung Bei nicht-zufälligen Auswahlverfahren kommt es besonders dann zu einer Verzerrung, wenn das Verfahren der Auswahl mit dem Zielmerkmal in Zusammenhang steht. Im obigen Beispiel wird als Auswahlkriterium der Wohnort gewählt (alle Bewohner der Gemeinde A). Wenn nun – dank des Bürgermeisters – der Wohnort mit der Parteipräferenz in Zusammenhang steht, kommt es zu einer Verzerrung. Ebenso ergibt sich eine Verzerrung, wenn man versucht, die Verteilung der Berufe in einer Stadt durch eine Befragung mittags vor einem Kaufhaus zu erheben, da bestimmte Berufsgruppen zu diesem Zeitpunkt nicht die Gelegenheit haben, einzukaufen. Hier ist also durch die Auswahlstrategie die Unbrauchbarkeit der Ergebnisse vorprogrammiert. Da nutzt es auch nichts zu versuchen, die Repräsentativität dadurch herzustellen, dass die Anteile der Geschlechter und die Altersverteilung der der Gesamtbevölkerung entsprechen. Man beachte auch, dass die Befragung von vielen Personen die Verzerrung nicht beseitigt. Ein wesentlicher Vorteil einer Zufallsstichprobe liegt in der Vermeidung solcher Verzerrungen. Der Mechanismus des Ziehens ist dabei unabhängig von dem zu betrachtenden Merkmal. Zusammenhänge sind somit zufällig und nicht systematisch. Die gerade angesprochenen Probleme treten aber bei Zufallsstichproben durch Antwortverweigerung bzw. durch nicht erreichbare Individuen auf und werden daher in Kap. 7 diskutiert.
2.4
Design einer Zufallsstichprobe
11
2.4 Design einer Zufallsstichprobe Bei den nicht-zufälligen Auswahlverfahren ist der Auswahlmechanismus immer von dem Verhalten der Personen, die die Auswahl durchführen, abhängig. Sie ist im Extremfall der Auswahl auf’s Geratewohl völlig der Stimmung der Interviewer oder der Beteiligten überlassen. Das Ergebnis wird zwar umgangssprachlich als „zufällig“ bezeichnet, aber es ist genau genommen vom subjektiven, nicht kontrollierbaren Verhalten beeinflusst. Im Gegensatz dazu wird bei Zufallsstichproben der Prozess der Ziehung genau definiert. Die Zufälligkeit einer Ziehung setzt damit einen echten Zufallsprozess voraus, was in der Praxis meist durch einen Zufallszahlengenerator realisiert wird. Salopp gesprochen unterscheidet sich eine zufällige Stichprobe von einer nicht zufälligen dadurch, dass wir quantifizierbare Wahrscheinlichkeiten dafür angeben können, dass ein Merkmalsträger in die Stichprobe gezogen wird. Diese Wahrscheinlichkeiten müssen nicht für alle Merkmalsträger gleich sein, sie müssen aber vor der Stichprobenziehung bekannt sein. Die explizite Angabe von derartigen Wahrscheinlichkeiten und entsprechenden Wahrscheinlichkeitsverteilungen in den Stichproben bezeichnen wir im Folgenden auch als Design oder Stichprobendesign. Beispiel 2.8: Gegeben sei eine Population von 5 Merkmalsträgern (A,B,C,D,E). Es sollen 2 Einheiten in Form einer Stichprobe gezogen werden. Als Ergebnis der Stichprobe ergeben sich damit die folgenden Möglichkeiten: S1 = (A, B), S2 = (A, C), S3 = (A, D), S4 = (A, E), S5 = (B, C), S6 = (B, D), S7 = (B, E), S8 = (C, D), S9 = (C, E), S10 = (D, E). Eine naheliegende Möglichkeit ist es, allen 10 Stichproben die gleiche Wahrscheinlichkeit zuzuordnen. Jede Stichprobe hat somit die Wahrscheinlichkeit 1/10. Dieses Design wird als einfache Zufallsstichprobe bezeichnet. Es können aber auch andere Strategien verfolgt werden. Beispielsweise könnten wir verlangen, dass in der Stichprobe ein Konsonant und ein Vokal vorkommen, womit nur die folgenden Stichproben S1 = (A, B), S2 = (A, C), S3 = (A, D), S7 = (B, E), S9 = (C, E), S10 = (D, E) zulässig wären. Diesen ordnet man dann jeweils die Wahrscheinlichkeit 1/6 zu. Ein derartiges Design werden wir als geschichtete Stichprobe kennen lernen. Weiter nehmen wir an, dass das Element A besonders wichtig sei und man deswegen eine Stichprobe ziehen möchte, in der A ein höheres Gewicht bekommt, d.h. dass alle Stichproben, die A enthalten, eine größere Wahrscheinlichkeit erhalten. Die Wahrscheinlichkeiten für die einzelnen Stichproben könnten wie folgt gesetzt werden:
12
2 Einfache Stichprobenverfahren
P(S1 ) = . . . = P(S4 ) =
2 1 , P(S5 ) = . . . = P(S10 ) = . 14 14
Auch solche Designs werden wir in diesem Buch betrachten. Wir werden sie als Ziehen proportional zur Größe (oder englisch „probabilities proportional to size“, kurz PPS) bezeichnen. Wir fassen die angesprochenen Designs in Tabelle 2.1 zusammen. Diese gibt die Wahrscheinlichkeiten für die einzelnen Stichproben wieder:
Tabelle 2.1 Wahrscheinlichkeiten bei verschiedenen Designs Wahrscheinlichkeit bei Stichprobe Design 1 Design 2 Design 3 (A,B) 1/10 1/6 1/7 (A,C) 1/10 1/6 1/7 (A,D) 1/10 1/6 1/7 (A,E) 1/10 0 1/7 (B,C) 1/10 0 1/14 (B,D) 1/10 0 1/14 (B,E) 1/10 1/6 1/14 (C,D) 1/10 0 1/14 (C,E) 1/10 1/6 1/14 (D,E) 1/10 1/6 1/14
Der wesentliche Vorteil von Zufallsstichproben besteht darin, dass mit Hilfe der Wahrscheinlichkeitsrechnung unter Berücksichtigung des Designs statistische Schlüsse auf die Population gezogen werden können. Insbesondere ist es möglich, neben Schätzungen für die interessierenden Größen der Grundgesamtheit, Angaben zur Genauigkeit der Schätzung zu machen. Die Genauigkeit hängt dabei von dem gewählten Design, vom Stichprobenumfang und von den Verhältnissen in der Population ab. Wir beginnen in diesem Kapitel mit dem einfachsten und am häufigsten verwendeten Design der einfachen Zufallsstichprobe. In den nachfolgenden Kapiteln diskutieren wir dann komplexere Designs.
2.5 Einfache Zufallsstichprobe Das Design der einfachen Zufallsstichprobe zeichnet sich dadurch aus, dass jede Stichprobe vom Umfang n mit gleicher Wahrscheinlichkeit gezogen wird. Betrachten wir eine Population vom Umfang N , aus der wir eine Stichprobe vom Umfang n ≤ N ziehen. Wir ziehen dabei ohne Zurücklegen, das heißt alle n gezogenen Individuen in der Stichprobe sind unterschiedlich. Mit Regeln der Kombinatorik erhalten wir
2.5
Einfache Zufallsstichprobe
13
N n
=
N! n!(N − n)!
mögliche Stichproben vom Umfang n, wobei n! = n · (n − 1) · . . . · 1 ist und 0! = 1 per Definition. Wenn n = N ist, so ergibt sich exakt eine mögliche Stichprobe, was einer Vollerhebung entspricht. Wenn n = 1 ist, so erhält man N mögliche Stichproben. Eine einfache Zufallsstichprobe liegt nun vor, wenn jede mögliche Stichprobe mit gleicher Wahrscheinlichkeit gezogen wird.
Das Design der einfachen Zufallsstichprobe
Gegeben sei eine Population G von N Elementen. Wir ziehen n verschiedene Elemente und erhalten die Stichprobe s. Dabei haben alle möglichen Stichproben vom Umfang n die gleiche Wahrscheinlichkeit, gezogen zu werden. Es gilt: P(s) =
1 ,
N n für alle Stichproben (Teilmengen von G) vom Umfang n.
Da bei der Ziehung kein Element der Population bevorzugt wird, hat jedes Element der Grundgesamtheit die gleiche Wahrscheinlichkeit, in die Stichprobe gezogen zu werden. Diese Wahrscheinlichkeit beträgt π = n/N und wird als Auswahlwahrscheinlichkeit bezeichnet. Intuitiv lässt es sich damit begründen, dass wir n Elemente aus N verfügbaren Elementen ziehen. Greifen wir dazu das Beispiel 2.8 mit Design 1 nochmals auf. In Tabelle 2.1 sind die Wahrscheinlichkeiten für jede mögliche Zufallsstichprobe vom Umfang n = 2 aus der Grundgesamtheit vom Umfang N = 5 gegeben. Wir betrachten Design 1. Es ist ersichtlich, dass z.B. der Buchstabe A in 4 Stichproben vorkommt. Also ist die Auswahlwahrscheinlichkeit für A gerade 4/10 = 2/5. Herleitung: Allgemein lässt sich die Auswahlwahrscheinlichkeit π für einfache Zufallsstichproben wie folgt herleiten. Bei der einfachen Zufallsstichprobe tritt jede Stichprobe vom Um fang n mit der gleichen Wahrscheinlichkeit 1/ Nn auf. Um nun die Auswahlwahrscheinlichkeit π für ein Individuum zu berechnen, müssen wir die Anzahl der Stichproben bestimmen, die jenes Element enthalten. Da das entsprechende Element in der Stichprobe sein muss, können wir nur noch n − 1 Elemente aus verbleibenden N − 1 Elementen ziehen, um die Stichprobe den −1 aufzufüllen. Wir erhalten also Nn−1 Stichproben, die das entsprechende Element enthalten. Die Wahrscheinlichkeit π , dass wir das entsprechende Element ziehen, ergibt sich daher zu
14
2 Einfache Stichprobenverfahren N −1 π = n−1 = N n
n . N
Die Anzahl der „günstigen“ Stichproben geteilt durch die Anzahl aller möglichen Stichproben, liefert die Wahrscheinlichkeit für ein Individuum, in die Stichprobe vom Umfang n zu gelangen.
Wir wollen uns an dieser Stelle Gedanken darüber machen, wie eine einfache Zufallsstichprobe praktisch vollzogen werden kann. Um die Zufallsauswahl durchzuführen, könnten aus einer Urne mit N Losen n Lose gezogen werden, wie dies z.B. bei der Ziehung der Lottozahlen durchgeführt wird. In der Praxis werden dazu heutzutage Computerprogramme benutzt. Man bezeichnet sie als Zufallsgeneratoren. Auf technische Aspekte und die Realisierung in Programmpaketen gehen wir in Abschn. 2.12 ein. An dieser Stelle wollen wir ein anderes Problem bei der Umsetzung von Stichproben ansprechen. Die Frage ist, wie eine numerische Zufallszahl mit den Individuen der Population in Verbindung zu bringen ist. Dazu nehmen wir an, dass die Elemente der Grundgesamtheit durchnummeriert sind. Wir haben also eine Liste der Zahlen 1 bis N vorliegen, von denen jeder Eintrag exakt einem Merkmalsträger der Grundgesamtheit zugeordnet wird. Exemplarisch ist dies in Abb. 2.1 dargestellt. Wir bezeichnen die Liste im Folgenden auch als Populationsliste. Für eine einfache Zufallsstichprobe ziehen wir nun n Zufallszahlen aus der Populationsliste. Da jede Zahl in der Liste exakt einem Merkmalsträger in der Grundgesamtheit entspricht, haben wir somit eine einfache Zufallsstichprobe gezogen. Auch wenn sich das Verfahren im Prinzip einfach anhört, so sind mit der Realisation durchaus große Schwierigkeiten verbunden. Wie kann man zum Beispiel
Abb. 2.1 Population und Populationsliste
2.5
Einfache Zufallsstichprobe
15
auf einfache Weise eine derartige numerische Populationsliste erstellen oder wie kann man auf vorhandene Listen zurückgreifen? Betrachten wir dazu das folgende Beispiel. Beispiel 2.9: Für eine Meinungsumfrage sollen 1 000 Haushalte in Deutschland kontaktiert werden. Diese Haushalte sollen nach dem Design der einfachen Zufallsstichprobe ausgewählt werden. Um diese Stichprobe zu ziehen, könnten z.B. zufällig Telefonnummern gewählt werden. Hierzu werden üblicherweise per Computer Telefonnummern zufällig gewählt. Der Interviewer, der die Befragung durchführt, wird dann mit dem ausgewählten Telefonanschluss verbunden. Mögliche Probleme bei diesem Verfahren sind unter anderem, dass Haushalte ohne Telefon eine Wahrscheinlichkeit von 0 haben, in die Stichprobe gezogen zu werden. Somit kann als Population nicht die Menge der Haushalte in Deutschland dienen, sondern nur die Menge der Haushalte mit Telefonanschluss. Diese Einschränkung kann zu einer systematischen Verzerrung führen, was wir im späteren Verlauf nochmals aufgreifen und weiter thematisieren wollen. Das Beispiel zeigt, dass in vielen Fällen, in denen eine einfache Zufallsstichprobe gezogen werden soll, Elemente in der Population existieren können, die eine Wahrscheinlichkeit von 0 besitzen, in die Stichprobe gezogen zu werden. Wir unterscheiden daher zwischen Population und Studienpopulation. Graphisch ist dies in Abb. 2.2 dargestellt.
Abb. 2.2 Population, Studienpopulation und Liste der Studienpopulation
16
2 Einfache Stichprobenverfahren
• Die Studienpopulation ist die Teilmenge der Population, die eine echt positive Wahrscheinlichkeit hat, in die Stichprobe gezogen zu werden. Allgemein gilt, dass wir generell nur eine Aussage über die Studienpopulation treffen können. Bestehen also zwischen Population und Studienpopulation relevante Unterschiede bezüglich des oder der interessierenden Merkmale, so ist die Stichprobenziehung basierend auf der gewählten Studienpopulation als kritisch zu betrachten. Beispiel 2.10: Ein Internetversandhaus möchte eine Untersuchung zum Zahlungsverhalten der Kunden durchführen, bei der die Zeit zwischen Versand und Bezahlung als interessierende Variable erhoben werden soll. Als Population, sprich Menge der interessierenden Objekte, definiert man daher die Bestellungen beim Versandhaus. Nun will das Unternehmen natürlich nicht nur rückblickend, sondern auch vorausschauend die Ergebnisse der Untersuchung nutzen. Das bedeutet inhaltlich, dass die Population aus bisherigen und zukünftigen Bestellungen bestehen soll. Die Stichprobenziehung kann sich aber nur auf abgeschlossene Bestellungen beziehen. Das heißt, die Studienpopulation (bestehend aus den abgeschlossenen Bestellungen) ist nur eine Teilmenge der Bestellungen bei dem Unternehmen, über die eine Aussage getroffen werden soll.
2.6 Statistische Inferenz 2.6.1 Notation Wir wollen nun den Informationsgehalt einer einfachen Zufallsstichprobe mit statistischem Instrumentarium bewerten. Hierzu führen wir im Folgenden eine Notationskonvention ein, um die Population zu beschreiben. Wir gehen zunächst von einem Merkmal Y aus. Die Größen Y1 , . . . , Y N sind die Merkmalsausprägungen in der Grundgesamtheit, das heißt Yi ist beispielsweise das Alter oder das monatliche Einkommen der i-ten Person in der Population. Wir interessieren uns in der Regel für die Werte, die aus den Yi abgeleitet werden, wie z.B. den Mittelwert oder die Varianz in der Population, also das mittlere Alter oder das mittlere Einkommen als Beispiele für Mittelwerte. Solche abgeleiteten Größen bezeichnen wir als Parameter. Ziel einer statistischen Erhebung ist es, diese Parameter zu schätzen. Dazu nutzen wir die Merkmalsausprägungen in der Stichprobe. Diese bezeichnen wir mit kleinen Buchstaben, also mit y1 , . . . , yn , und nennen sie Beobachtungen. Damit ist yk beispielsweise das Alter oder das Monatseinkommen der k-ten befragten und in die Stichprobe aufgenommenen Person. Aus der Stichprobe leiten wir sogenannte Statistiken oder Schätzer her, wie zum Beispiel den Mittelwert oder die Varianz in der Stichprobe. Somit beziehen sich große Buchstaben auf die Population, kleine Buchstaben sind Größen der Stichprobe. Schematisch ist dies in Abb. 2.3 dargestellt. Schätzer von Parametern einer Population notieren wir nachfolgend auch mit einem Dach .
2.6
Statistische Inferenz
17
Abb. 2.3 Schematische Darstellung einer Stichprobenziehung
Für unsere weiteren Betrachtungen werden wir die folgende Notation verwenden. Auf die jeweiligen Größen wird in den nachfolgenden Abschnitten näher eingegangen.
Größe
Bedeutung
In der Population: Yi , i = 1, . . . , N N Y¯ =
N
1 N
S2 =
Variable oder Merkmal des i-ten Merkmalsträgers in der Population Populationsumfang
i=1 Yi
1 N
N
i=1 (Yi
Mittelwert des Merkmals in der Population − Y¯ )2
Varianz des Merkmals in der Population
In der Stichprobe: yk , k = 1, . . . , n n y¯ =
1 n
n
k=1 yk
Variable oder Merkmal des k-ten Merkmalsträgers in der Stichprobe Stichprobenumfang Mittelwert des Merkmals in der Stichprobe
18
2 Einfache Stichprobenverfahren
s2 =
1 n−1
n
k=1 (yk
− y¯ )2
Varianz des Merkmals in der Stichprobe
Y¯
Schätzer für den Mittelwert in der Population
Wir verwenden im Folgenden in der Regel die Indizes i und j für Größen, die sich auf die Population beziehen und k und l als Indizes für die Variablen der Stichprobe.
2.6.2 Mittelwertschätzung Um mit den eingeführten Begriffen vertraut zu werden und um verschiedene Eigenschaften zu veranschaulichen, betrachten wir zunächst ein kleines Beispiel. Beispiel 2.11: Wir stellen uns eine kleine Population vom Umfang N = 5 vor. Das interessierende Merkmal hat die Ausprägungen Y1 = 9,
Y2 = 10,
Y3 = 11,
Y4 = 18,
Y5 = 22.
Der interessierende Parameter ist der Mittelwert der Y -Werte. Hier ist Y¯ = 14. Um diesen Wert zu schätzen, ziehen wir eine einfache Zufallsstichprobe vom Umfang n = 3 ohne Zurücklegen. Die Definition der einfachen Zufallsstichprobe besagt, dass jede mögliche Stichprobe mit gleicher Wahrscheinlichkeit auftritt. Es ergeben sich Nn = 53 = 5!/(2! 3!) = 10 mögliche Stichproben, von denen jede mit gleicher Wahrscheinlichkeit, nämlich 1/10 auftritt. Damit erhalten wir folgende Schätzer und die Wahrscheinlichkeitsverteilung für den Mittelwert y¯ der Stichprobe. Gezogene Individuen
Mittelwert der Stichprobe y¯
Wahrscheinlichkeit
1 1 1 1 1 1 2 2 2 3
10,00 12,33 13,67 12,67 14,00 16,33 13,00 14,33 16,67 17,00
1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10
2 2 2 3 3 4 3 3 4 4
3 4 5 4 5 5 4 5 5 5
Wir können nun den Erwartungswert, d.h. den mittleren Wert über alle möglichen Stichproben, und die Streuung des Schätzers in Form der Varianz berechnen. Es ergibt sich als Erwartungswert E( y¯ ) =
1 1 1 10, 00 + 12, 33 + . . . + 17, 00 = 14, 00 10 10 10
2.6
Statistische Inferenz
19
und als Varianz, d.h. als mittlere quadratische Abweichung vom Mittelwert 1 1 (10, 00 − 14, 00)2 + (12, 33 − 14, 00)2 + . . . 10 10 1 + (17, 00 − 14, 00)2 10 = 4, 33.
Var( y¯ ) =
Beide Größen werden nachfolgend noch genauer definiert. Die Standardabweichung (sie entspricht der Quadratwurzel aus der Varianz) kann als ein Maß für die mittlere √ Abweichung vom Erwartungswert interpretiert werden. Sie hat hier den Wert 4, 33 = 2, 08. Allgemein nehmen wir zunächst an, dass das interessierende Merkmal Y metrisch ist, also beispielsweise das Alter oder das Einkommen einer Person. Wie in obigem Beispiel ist man hierbei am Mittelwert der Merkmale Yi , i = 1, . . . , N interessiert. Wir unterscheiden dabei Größen der Population und Größen der Stichprobe. Den Mittelwert der Population erhalten wir durch N 1
Yi , Y¯ = N i=1
wohingegen die einfache Zufallsstichprobe den Mittelwert n 1
yk Y¯ E S = y¯ = n k=1
liefert. Dabei ist die Größe Y¯ der gesuchte und unbekannte Mittelwert in der Population, der durch Y¯ E S als Stichprobenmittelwert geschätzt werden kann. Der Index E S steht für Einfache Stichprobe. Man beachte, dass Y¯ ein (unbekannter) fester Wert ist, während Y¯ E S eine Zufallsgröße ist, da diese von der Stichprobe abhängt. Wir stellen uns nun die Frage welche Eigenschaften der Schätzer Y¯ E S hat. Ganz allgemein bewertet man einen Schätzer nach dem Schätzfehler. Dabei unterscheidet man zwischen dem systematischen und dem zufälligen Schätzfehler. Den systematischen Schätzfehler bezeichnen wir im Folgenden als Bias, den zufälligen Fehler messen wir in Form der Varianz. Diese Gütekriterien werden im Folgenden definiert. Betrachten wir zuerst die Definition des Bias. Hierzu berechnen wir den Erwartungswert des Schätzers. Wir notieren den Erwartungswert mit E(·). Für die einfache Zufallsstichprobe gilt (Herleitung folgt später) E Y¯ E S = Y¯ ,
20
2 Einfache Stichprobenverfahren
Y¯ E S = 0. Also liefert im Mittel das arithmetische Mittel der und somit Bias Stichprobe den gesuchten Parameter Y¯ der Population. Wir haben diesen Sachverhalt schon in dem kleinen Beispiel oben überprüft. Salopp gesprochen können wir sagen, dass wir im Mittel mit unserer Stichprobe richtig liegen. Allerdings kann der Wert von Y¯ E S von dem wahren Wert Y¯ je nach gezogener Stichprobe abweichen. Diese zufällige Abweichung wird durch die Varianz des Schätzers quantifiziert. Sie hängt von der Varianz der Variablen in der Population und dem Stichprobenumfang ab. Die Varianz in der Population ist ein Maß für die Streuung der einzelnen Yi -Werte, i ∈ {1, . . . , N }, und ist definiert durch S2 =
N 1
(Yi − Y¯ )2 . N i=1
Analog ist die Varianz in der Stichprobe definiert durch 1
(yk − y¯ )2 . n−1 n
s2 =
k=1
Die Größe S 2 ist die Varianz von Y in der Population, die wir gelegentlich auch mit SY2 notieren. Diese ist, genau wie Y¯ , unbekannt. Basierend auf einer Stichprobe kann s 2 als Schätzer für S 2 herangezogen werden. Wie in den Herleitungen später gezeigt wird, führt die Division durch n − 1 (statt n) zu einem annähernd unverzerrten Schätzer. Man achte an dieser Stelle auch auf die gewählte Notationskonvention, bei der Größen der Population mit großen Buchstaben notiert werden, wohingegen kleine Buchstaben für Größen der Stichprobe stehen. Sofern der Stichprobenumfang kleiner ist als die Populationsgröße (n < N ), das heißt, sofern keine Vollerhebung (Zensus) durchgeführt wird, liefert eine Stichprobe nicht das exakte Ergebnis. Wir berechnen daher die Varianz des Schätzers als Maß für die Genauigkeit. Wie die weiter unten folgende Herleitung zeigt, gilt S2 N − n . Var Y¯ E S = n N −1 Damit ist die Standardabweichung
N −n S ¯ STD Y E S = √ . n N −1 Nun ist S 2 nicht bekannt, kann aber durch s 2 geschätzt werden, was zur geschätzten Varianz führt: s2 N − n Y¯ E S = Var . n N
2.6
Statistische Inferenz
21
Gütekriterien für die Mittelwertschätzung Gegeben sei ein Schätzer Y¯ für den Mittelwert Y¯ . Der Bias ist der systematische Fehler des Schätzers Bias Y¯ = E Y¯ − Y¯ . Ein Schätzer mit Bias Y¯ = 0 heißt unverzerrt oder erwartungstreu. Der zufällige Fehler des Schätzers ist die Varianz 2 . Var Y¯ = E Y¯ − E Y¯ Anschaulicher ist die Standardabweichung Y¯ . STD Y¯ = Var Insgesamt wird die Schätzung durch den mittleren quadratischen Fehler (engl. „mean square error“) bewertet 2 MSE Y¯ := E Y¯ − Y¯ . Als intuitives Maß verwendet man die Wurzel des MSE (engl. „root mean square error“) RMSE :=
√ MSE.
Es gilt allgemein: 2 . MSE Y¯ = Var Y¯ + Bias Y¯ Insbesondere sind also Var Y¯ und MSE Y¯ für unverzerrte Schätzer identisch.
22
2 Einfache Stichprobenverfahren
Aus den Formeln ist ersichtlich, dass die Standardabweichung des Schätzers direkt proportional zur Standardabweichung des Merkmals in der Grundgesamtheit ist. Weiterhin ist bei der Standardabweichung die √ Abhängigkeit vom Stichprobenumfang im Wesentlichen durch den Faktor 1/ n gegeben. Im Gegensatz zur konventionellen Statistik taucht in den Formeln ein zusätzlicher Faktor der Form (N − n)/N = 1 − (n/N ) auf. Dieser Faktor wird auch als Korrekturfaktor für endliche Populationen bezeichnet und n/N nennt man auch Auswahlsatz. Insbesondere bewirkt der Korrekturfaktor, dass für n = N die Varianz des Schätzers 0 ist. Das macht Sinn, bedeutet doch n = N , dass alle Elemente der Population in die Stichprobe aufgenommen werden, was inhaltlich einer Vollerhebung gleichkommt. Somit folgt für n = N , dass y¯ = Y¯ ist, also weist Y¯ E S eine Varianz von 0 auf. Ganz allgemein wird die Varianz des Mittelwertschätzers mit steigendem Auswahlsatz n/N kleiner. Der Korrekturfaktor ist notwendig, da jeder Merkmalsträger höchstens einmal in die Stichprobe gezogen wird, was wir als Ziehen ohne Zurücklegen bezeichnen. Wir greifen diesen Punkt in Abschn. 2.7 nochmal auf. Es ist an dieser Stelle wichtig zu bemerken, dass gebräuchliche Softwarepakete den Korrekturfaktor vernachlässigen. Dies ist gerechtfertigt, wenn der Stichprobenumfang im Vergleich zum Populationsumfang klein ist, das heißt, wenn n << N . In diesem Fall ist (N − n)/N ≈ 1. Möglichkeiten, diese Korrektur softwaretechnisch einzubauen, werden in Abschn. 2.12 aufgezeigt.
Mittelwertschätzung bei einer einfachen Zufallsstichprobe (arithmetisches Mittel) Gegeben sei eine Stichprobe y1 , . . . , yn vom Umfang n, gezogen als einfache Zufallsstichprobe (ohne Zurücklegen) aus einer Population vom Umfang N . Ein unverzerrter Schätzer für den Mittelwert Y¯ ist Y¯ E S = y¯ =
1 n
n
yk .
k=1
Die Varianz von Y¯ E S kann erwartungstreu geschätzt werden durch Var Y¯ E S =
N −n 1 N n(n−1)
n
yk − Y¯ E S
2
.
k=1
Herleitung: Nachfolgend leiten wir den Erwartungswert und die Varianz des Schätzers einer einfachen Zufallsstichprobe her. Um die folgenden Berechnungen sinnvoll durchführen zu können, gehen wir zu einer nach der Reihenfolge der Ziehung geordneten Stichprobe (y1 , . . . , yn )
2.6
Statistische Inferenz
23
über. Diese entspricht genau der Vorstellung vom Ziehen ohne Zurücklegen. Da die Reihenfolge berücksichtigt wird, hat jede geordnete Stichprobe die Wahrscheinlichkeit 1 1 = . N (N − 1) . . . (N − n + 1) N n! n Wir beginnen mit der Wahrscheinlichkeitsverteilung der ersten gezogenen Einheit y1 . Da alle Einheiten der Population die Wahrscheinlichkeit 1/N haben, im ersten Zug gezogen zu werden, gilt P(y1 = y) =
1 {i|Yi = y}. N
Dabei bedeutet das Zeichen die Anzahl der Elemente der entsprechenden Menge. Die Wahrscheinlichkeit für y ist also die relative Häufigkeit von y in der Grundgesamtheit. Damit entspricht die Wahrscheinlichkeitsverteilung von y1 der festen, im Allgemeinen unbekannten empirischen Verteilung des Merkmals Y in der Population. Dieser einfache Zusammenhang bildet die Basis für die statistische Analyse der einfachen Zufallsstichprobe. Als erste Folgerung ergibt sich E(y1 ) =
N 1
Yi = Y¯ . N i=1
Im zweiten Schritt zeigen wir, dass die Wahrscheinlichkeitsverteilung von yk für alle k identisch ist. Das heißt insbesondere, dass die Wahrscheinlichkeitsverteilung des k-ten Zuges gleich der Wahrscheinlichkeitsverteilung des ersten Zuges ist. Man beachte, dass es sich dabei um die Verteilung von yk ohne Betrachtung der vorherigen Ziehungen handelt. Wenn die Ziehungen vor k bekannt sind, ist die obige Aussage nicht mehr gültig. Intuitiv lässt sich die Aussage damit begründen, dass das Ziehen ohne Zurücklegen im Prinzip auch in einem Schritt erfolgen kann. Damit ist die Nummerierung der gezogenen Elemente eigentlich unerheblich und hat daher keinen Einfluss auf die Verteilung. Dieses Argument kann wie folgt formalisiert werden: (i 1 , i 2 , . . . , i n )|yik = y, i k , il {1, . . . , N }, i k = il für k = l . P(yk = y) = N n n! Die Wahrscheinlichkeit entspricht also der Zahl aller Stichproben, bei denen an der k-ten Stelle ein Element mit der Ausprägung y gezogen wird, geteilt durch die Gesamtzahl aller Stichproben. Die Anzahl im Zähler ist offensichtlich nicht vom Index k abhängig. Daher gilt P(yk = y) = P(y1 = y). Damit entsprechen auch die Verteilungen der anderen Züge der empirischen Verteilung des Merkmals in der Population. Somit können wir auf einfache Weise den Erwartungswert des Stichprobenmittels berechnen: E Y¯ E S = E
n 1
yk n k=1
=
n 1
1 E(yk ) = n E(y1 ) = Y¯ . n n k=1
Die Varianz von Y¯ E S ergibt sich wie folgt: n n n n 1
1 1
yk = 2 Cov(yk , yl ) + 2 Var(yk ). Var Y¯ E S = Var n n k=1 l=1 n k=1
k=1
k=l
24
2 Einfache Stichprobenverfahren Für die Einzelvarianzen Var(yk ) gilt: N 1 2 Yi − Y¯ 2 = S 2 . Var(yk ) = Var(y1 ) = E y12 − (E(y1 ))2 = N i=1
Zur Berechnung der Kovarianzen Cov(yk , yl ) benutzen wir wie oben die Symmetrieeigenschaft des Ziehens ohne Zurücklegen. Es gilt für k = l:
P(yk = y (1) , yl = y (2) ) =
(i1 , . . . , i n )|yik = y (1) , yil = y (2) , i k , il {1, . . . , N }, i k = il für k = l . N n n!
Auch hier ist diese Wahrscheinlichkeit nicht von den Indizes k und l abhängig. Damit ist die gemeinsame Wahrscheinlichkeitsverteilung von yk und yl identisch mit der von y1 und y2 und es gilt Cov(yk , yl ) = Cov(y1 , y2 ). Es bleibt somit die Kovarianz Cov(y1 , y2 ) zu berechnen. Für diese gilt
E(y1 y2 ) =
N N
1 Yi Y j N (N − 1) i=1 j=1 i= j
=
1 N (N − 1)
= Y¯ 2
N N
Yi Y j −
i=1 j=1
N2 N (N − 1)
−
N
1 Yi2 N (N − 1) i=1
1 N (N − 1)
N
Yi2 .
i=1
Cov(y1 , y2 ) = E(y1 y2 ) − E(y1 ) E(y2 ) = Y¯ 2
N 1 1 2 1 − Yi N −1 N −1 N i=1
1 S2. =− N −1 1 1 1 Var Y¯ E S = 2 · n (n − 1) · − S2 + 2 n S2 N −1 n n n−1 S2 1− = n N −1 =
S2 N − n . n N −1
2.6
Statistische Inferenz
25
E(s 2 ) = E
n 1
(yk − y¯ )2 n−1
k=1
1 = E n−1
n
yk2
− n y¯
2
k=1
n (Y¯2 ) − n (E( y¯ ))2 + Var( y¯ ) 1 N −n 2 n (Y¯2 ) − n Y¯ 2 − n S n N −1 N −n 2 1 nS 2 − S = n−1 N −1 1 n−1 1 = n−1
=
= S2
N . N −1
Aus E(s 2 ) = S 2 NN−1 folgt nun unmittelbar Y¯ E S . E Var Y¯ E S = Var
2.6.3 Konfidenzintervalle Die Varianz (bzw. die Standardabweichung) ist nur ein mögliches Maß, um die Unsicherheit des Schätzers anzugeben. Eine anschauliche und in der Praxis verbreitete Alternative dazu ist die Angabe eines Bereiches (eines Intervalls), in dem der wahre Wert liegen soll. Man spricht im Allgemeinen von „Intervallschätzung“ und verlangt, dass dieser Bereich den wahren Wert mit einer vorgegebenen Wahrscheinlichkeit von 95 bzw. 99% (auch andere Werte sind möglich) enthält. Um ein solches Intervall zu erhalten, benötigt man die Verteilung des Schätzers. Hierzu benutzt man das Konzept des Zentralen Grenzwertsatzes. In seiner einfachsten Form besagt der Zentrale Grenzwertsatz, dass die Summe von unabhängigen und identisch verteilten Zufallsgrößen für wachsenden Stichprobenumfang approximativ normalverteilt ist. Diese Aussage lässt sich auf den Fall einer Stichprobe aus einer endlichen Grundgesamtheit übertragen. Hier haben wir jedoch mit der zusätzlichen Hürde zu kämpfen, dass der Ziehungsprozess ohne Zurücklegen erfolgt und somit die gezogenen Elemente (und damit die Zufallsgrößen yk ) nicht unabhängig sind. Allerdings lässt sich unter weiteren technischen Voraussetzungen eine asymptotische Theorie für Stichprobenszenarien entwickeln, aus der auch die approximative Normalverteilung des Stichprobenmittels für große Stichproben und große Grundgesamtheiten folgt, siehe dazu etwa Thompson (2002). Weiter wurde in verschiedenen Simulationsstudien gezeigt, dass die asymptotische Normalverteilung in vielen praktischen Fällen angemessen erscheint, siehe dazu etwa Cochran (1977). Wir veranschaulichen die asymptotische Normalität an einem kleinen Simulationsbeispiel. Beispiel 2.12: Elementen
Nehmen wir an, unsere Population bestehe aus den 100
26
2 Einfache Stichprobenverfahren
Y1 =
√
1,
Y2 =
√
2,
...,
Y99 =
√ 99,
Y100 =
√
100.
Wir ziehen nun eine einfache Zufallsstichprobe vom Umfang n, wobei wir exemplarisch n = 5, 10 bzw. 20 setzen, was einem Auswahlsatz von 5, 10 bzw. 20% entspricht. In Abb. 2.4 zeigen wir die Verteilung von Yi in der Population und von Y¯ E S , basierend auf 20 000 simulierten Stichproben. Es ist ersichtlich, dass die Verteilung von Y¯ E S schon bei kleinem Stichprobenumfang einer Normalverteilung folgt, welche in den Graphiken als klassische Glockenkurve eingezeichnet ist. Wir erweitern die Simulation auf den Fall einer kleineren Population und damit auf einen veränderten Auswahlsatz. Hierzu reduzieren wir N auf 25 mit den Werten Y1 =
√
1,
Y2 =
√
2,
...,
Y24 =
√ 24,
Y25 =
√
25.
Wieder ziehen wir n = 5, 10 bzw. 20 Individuen durch eine einfache Zufallsstichprobe. Abbildung 2.5 zeigt die Verteilung von Y¯ E S , wieder basierend auf 20 000 Simulationen. Ist der Auswahlsatz groß (hier jetzt 20, 40 bzw. 80%), so ist ersichtlich, dass die Glockenkurve, also die Normalverteilung, die Verteilung von Y¯ E S ebenfalls gut approximiert. Außerdem ist die Varianz des Schätzers kleiner. In Abb. 2.5 ist nämlich zu beachten, dass die x-Achse jetzt nur noch bis 5 anstatt bis 10 reicht.
Population
0.0 0.4 0.8
Population
4
Y
6
8
10
8
10
8
10
8
10
0.2
0.4
n=5
0.0
Histogramm
2
2
4
6 arithmetisches Mittel
0.3 0.0
Histogramm
n=10
2
4
6 arithmetisches Mittel
0.8 0.4 0.0
Histogramm
n=20
2
4
6 arithmetisches Mittel
Abb. 2.4 Population und Verteilung von Y¯ E S für verschiedene Stichprobenumfänge (N = 100)
2.6
Statistische Inferenz
27
Population
0.0 0.4 0.8
Population
1
2
3 Y
4
5
4
5
4
5
4
5
Histogramm
0.0 0.4 0.8
n=5
1
2
3 arithmetisches Mittel
Histogramm
0.0 0.6 1.2
n=10
1
2
3 arithmetisches Mittel
Histogramm
0 1 2 3
n=20
1
2
3 arithmetisches Mittel
Abb. 2.5 Population und Verteilung von Y¯ E S für verschiedene Stichprobenumfänge (N = 25)
Wir notieren die approximative Normalverteilung durch a Y¯ ∼ N Y¯ , Var Y¯ . Mit dieser Verteilungsannahme berechnen wir nun ein Intervall, das den gesuchten Parameter mit vorgegebener Wahrscheinlichkeit enthält. Dieses sogenannte Konfidenzintervall ist bestimmt durch
¯ ¯ ¯ ¯ Y − 1, 96 Var Y , Y + 1, 96 Var Y . Der Faktor 1,96 wird aus der Normalverteilungsannahme und der geforderten Überdeckungswahrscheinlichkeit abgeleitet, die konventionell auf 95% gesetzt ist. Somit können wir sagen, dass
¯ ¯ ¯ ≈ 0, 95. P Y Y ± 1, 96 Var Y
Das Konfidenzintervall beinhaltet also mit einer Wahrscheinlichkeit von 95% den unbekannten Parameter der Population. Allgemein wird das 1 − α2 -Quantil z 1− α2
28
2 Einfache Stichprobenverfahren
der Standardnormalverteilung für ein Konfidenzintervall mit der Überdeckungswahrscheinlichkeit 1 − α verwendet, welches für α = 0, 05 den Wert 1,96 liefert Y¯ nicht bekannt ist, schätzt man diese und für α = 0, 01 den Wert 2,58. Da Var Y¯ . durch Var
Konfidenzintervall Unter der Annahme, dass ein Schätzer Y¯ approximativ normalverteilt ist, ergibt sich ein 95% Konfidenzintervall durch
¯ ¯ ¯ ¯ . Y − 1, 96 Var Y , Y + 1, 96 Var Y Ein (1 − α)-Konfidenzintervall hat die Form
Y¯ − z 1− α2 Var Y¯ , Y¯ + z 1− α2 Var Y¯ . wobei z 1− α2 das 1 − α2 -Quantil der Standardnormalverteilung ist.
Generelle und allgemeingültige Faustregeln, ab welchem Stichprobenumfang die approximative Normalität greift, können nicht gegeben werden. Die Faustregel n ≥ 30, die an verschiedenen Stellen der statistischen Literatur geliefert wird, ist im Stichprobenfall sicher nur dann sinnvoll anzuwenden, wenn N hinreichend groß ist. Asymptotische Aussagen beruhen auf der Annahme, dass n, N und N −n ansteigen, was aus praktischen Gesichtspunkten fraglich ist, da N der feste, gegebene Populationsumfang ist. Die Interpretation, dass mit 95% Überdeckungswahrscheinlichkeit das Intervall (den unbekannten Parameter) Y¯ überdeckt, kann daher fragwürdig sein, falls n klein oder n/N groß ist. Dies gilt insbesondere dann, wenn in der Grundgesamtheit extreme Werte vorliegen. In der Literatur wird manchmal vorgeschlagen, statt des Quantils z 1− α2 der Standardnormalverteilung das entsprechende Quantil der t-Verteilung zu verwenden (siehe z.B. Cochran 1977; An & Watts 2000), da die Unsicherheit bei der Schätzung der Varianz damit berücksichtigt wird. Da aber die Verwendung der t-Verteilung aus der Normalverteilungsannahme für die Verteilung des Merkmals in der Grundgesamtheit hergeleitet wird und diese in unserem Fall meist verletzt ist, ist auch dieses Vorgehen problematisch. Außerdem sind die Unterschiede für Stichproben vom Umfang n ≥ 30 praktisch vernachlässigbar.
2.6
Statistische Inferenz
29
2.6.4 Schätzung von Anteilen In vielen Fragestellungen ist man an der Bestimmung eines Anteils interessiert. Beispielsweise soll durch eine Umfrage der Anteil der Studierenden bestimmt werden, die gegen die Einführung von Studiengebühren prinzipiell keine Einwände haben. In völliger Analogie zu den obigen Formeln definieren wir nun Yi als die Antwort der Person i. Wir kodieren mit Yi = 1 die Personen, die auf die gestellte Frage mit „ja“ antworten und mit Yi = 0 die negativen Antworten. Für die in die Stichprobe gezogenen Merkmalsträger beobachten wir yk mit yk = 1 oder yk = 0. Interessiert sind wir an dem Anteilswert N 1
P= Yi , N i=1
der dem arithmetischen Mittel der Yi entspricht. Die Größe P ist somit der (unbekannte) Anteil der Studierenden, die keine Einwände gegen die Einführung von Studiengebühren haben. In der Grundgesamtheit sind also N · P Personen mit Yi = 1 und N · (1 − P) Personen mit Yi = 0. Da wir bisher keine Voraussetzungen an die möglichen Werte Y gestellt haben, können die bisherigen Überlegungen auch auf diesen Fall angewendet werden. Durch die besonders einfache Struktur ergeben sich zusätzliche Möglichkeiten der Inferenz. Für die Varianz in der Grundgesamtheit gilt: S2 =
N 1
1 (Yi − Y¯ )2 = N P(1 − P)2 + N (1 − P)(0 − P)2 = P(1 − P). N N i=1
Basierend auf einer Stichprobe schätzen wir P durch n
E S = p = 1 yk . P n k=1
Als Varianz von p ergibt sich P(1 − P) N − n S2 N − n · = · . Var Y¯ E S = Var( p) = n N −1 n N −1 Insbesondere hängt die Varianz von p vom unbekannten Anteil P ab. Dieser kann wiederum geschätzt werden und man erhält die geschätzte Varianz p(1 − p) N − n Y¯ E S = Var( Var p) = . n−1 N
(2.1)
Das Vorgehen bei der Anteilsschätzung entspricht dem Vorgehen bei der Mittelwertschätzung eines mit den Werten 0 und 1 kodierten Merkmals. Die Varianzschät-
30
2 Einfache Stichprobenverfahren
zung entspricht ebenso dem Vorgehen bei der Entsprechend Mittelwertschätzung. kann man das 95%-Konfidenzintervall durch p − 1, 96 Var( p); p + 1, 96 Var( p)
bestimmen.
Anteilsschätzung bei einer einfachen Zufallsstichprobe Gegeben sei die Stichprobe y1 , . . . , yn vom Umfang n, gezogen mit dem Design der einfachen Zufallsstichprobe aus einer Population vom Umfang N . Dabei ist yk ∈ {0, 1}. Ein unverzerrter Schätzer für den Anteil P = Y¯ in der Grundgesamtheit ist E S = p = P
1 n
n
yk .
k=1
E S kann geschätzt werden durch Die Varianz von P E S = Var P
p(1− p) N −n n−1 N .
In den meisten Fällen weist das so konstruierte Konfidenzintervall zufriedenstellende Eigenschaften auf. Dies ist jedoch nicht der Fall für hohe oder niedrige Anteilswerte, das heißt für P in der Nähe von 0 oder 1. Dann empfiehlt es sich, sogenannte exakte Konfidenzintervalle zu berechnen. Dazu benutzen wir die spezielle Struktur der Stichprobe. Wir bezeichnen die Anzahl der Personen mit Yi = 1 N mit M, das heißt M = i=1 Yi = N · P. Die Anzahl der Beobachtungen mit yk = 1 in der Stichprobe notieren wir der Konvention folgend mit m = nk=1 yk . Die Wahrscheinlichkeitsverteilung von m kann nun durch die sogenannte hypergeometrische Verteilung charakterisiert werden. Die Wahrscheinlichkeitsfunktion lautet P
n
yk = m
M N −M =
m
n−m
N
.
n
k=1
Im Zähler steht genau die Anzahl der Stichproben, die zum Wert nk=1 yk = m führt. Für Erwartungswert und Varianz der hypergeometrischen Verteilung gilt E Var
n
n
k=1
= n P,
yk
k=1
yk
= n P (1 − P)
N −n . N −1
2.6
Statistische Inferenz
31
Nach Division durch n erhält man die entsprechenden Werte für die Anteilsschätzung. Um ein (1 − α)-Konfidenzintervall zu erhalten, setzen wir nk=1 yk = m und wählen nun als untere beziehungsweise obere Grenze für das unbekannte M die Größen U und O, so dass gilt m O N −O
r n−r = α1 , (2.2) N n r =0 (2.3) U N −U n
r n−r = α2 . (2.4) N r =m
n
α1 + α2 ≤ α.
Damit ist [U ; O] ein (1 − α)-Konfidenzintervall für den Parameter M. Entsprechend ist [U/N ; O/N ] ein (1 − α)-Konfidenzintervall für den Anteil P. Konfidenzintervall für Anteile Gegeben sei die Stichprobe y1 , . . . , yn vom Umfang n, gezogen mit dem Design der einfachen Zufallsstichprobe aus einer Population vom Umfang N . Dabei ist yk ∈ {0, 1}. Ein unverzerrter Schätzer für den Anteil P = Y¯ in der Grundgesamtheit ist E S = p = P
1 n
n
yk .
k=1
Für große Stichprobenumfänge und mittlere Anteile p (wobei n · p · (1 − p) > 10) hat das (1 − α)-Konfidenzintervall die Form p−z
1− α2
·
p·(1− p) n−1
·
N −n N ;
p+z
1− α2
·
p·(1− p) n−1
·
N −n N
,
wobei z 1− α2 das 1 − α2 -Quantil der Standardnormalverteilung ist. Ein exaktes (1 − α)-Konfidenzintervall ist gegeben durch −O m (Or ) ( Nn−r ) = α1 , N (n ) r =0 −U n (Ur ) ( Nn−r ) = α2 , N (n ) r =m α1 + α2 ≤ α.
U
O N; N
. falls gilt
32
2 Einfache Stichprobenverfahren
Auch wenn das Konzept der Bestimmung des exakten Konfidenzintervalls relativ einfach ist (siehe dazu auch Thompson 2002), ist die konkrete Umsetzung nur in einfachen Beispielen ohne den Einsatz eines Computers realisierbar. Zur numerischen Umsetzung siehe Abschn. 2.12.3. Weitere Probleme liegen in der Wahl von α1 und α2 . Zunächst wäre die Wahl von α1 = α2 = α/2 eine sinnvolle Wahl. Allerdings lassen sich auf Grund der Beschränkung auf ganze Zahlen U und O nicht so bestimmen, dass die beiden obigen Gleichungen exakt erfüllt sind. Also wird in den meisten Fällen α1 + α2 < α gewählt, was letztendlich zu einem Konfidenzintervall führt, dass ein höheres Konfidenzniveau hat. Wir illustrieren dies an einem Beispiel. Beispiel 2.13: In einem Betrieb mit N = 300 Mitarbeitern möchte die Firmenleitung von ihren Angestellten wissen, welche Maßnahmen diese zur Verbesserung des Betriebsklimas für geeignet halten. Dabei wurden unter anderem die folgenden zwei Fragen gestellt, welche mit ja oder nein beantwortet werden konnten: „Wünschen Sie sich flexiblere Arbeitszeiten?“ und „Wünschen Sie sich einen Betriebskindergarten?“. Es wurden n = 100 Personen befragt. Die Firmenleitung interessiert sich für die Anteilswerte P1 und P2 der zwei Fragen. Frage 1 wurde von m 1 = 45 Personen und Frage 2 von m 2 = 2 Personen mit „Ja“ beantwortet. Die Anteilsschätzungen sind nun p1 =
45 = 0, 45 100
p2 =
2 = 0, 02. 100
Die entsprechenden Konfidenzintervalle nach der approximativen Methode werden wie folgt berechnet 0, 45 (1 − 0, 45) 300 − 100 Var( p1 ) = = 0, 00167 99 300 0, 02 (1 − 0, 02) 300 − 100 Var( p2 ) = = 0, 00013 99 300 und es ergibt sich das 95%-Konfidenzintervall für p1 zu 0, 45 − 1, 96 0, 00167; 0, 45 + 1, 96 0, 00167 = [0, 370; 0, 530], wohingegen das 95%-Konfidenzintervall für p2 die Werte 0, 02 − 1, 96 0, 000132; 0, 02 + 1, 96 0, 000132 = [−0, 003; 0, 043] annimmt. Das zweite Konfidenzintervall hat eine negative untere Grenze, was klarerweise wenig informativ ist. Eine Korrektur dieser Grenze auf 0 ist insofern
2.6
Statistische Inferenz
33
auch nicht sehr hilfreich, da in der Stichprobe bereits 2 Personen sind, die die Frage 2 mit „Ja“ beantworten. Daher ist der gesuchte Anteil p2 in der Population mindestens 2/300, also größer als 0. Die Berechnung des exakten Konfidenzintervalls liefert (siehe dazu numerische Umsetzung in 2.12) das exakte 95%-Konfidenzintervall für p1 zu [0, 366; 0, 537], wohingegen das exakte 95%-Konfidenzintervall für p2 nun lautet [0, 006; 0, 064]. Die Grenzen der beiden exakten Konfidenzintervalle entsprechen den Anzahlen [110; 161] bzw. [2; 19] in der Grundgesamtheit. Für p1 sind exaktes und approximatives Konfidenzintervall praktisch identisch. Für p2 hingegen ergeben sich Unterschiede und das exakte Konfidenzintervall ist klar zu bevorzugen. Wie das Beispiel zeigt, ist es sinnvoll, insbesondere für kleine Anteile exakte Konfidenzintervalle zu berechnen. Ist der Umfang der Grundgesamtheit im Vergleich zur Stichprobe groß, so kann man auch Konfidenzintervalle für das Ziehen mit Zurücklegen verwenden, welche im folgenden Abschnitt behandelt werden. Manchmal kann es bei kleinen Wahrscheinlichkeiten auch von Interesse sein, nur eine obere Grenze anzugeben. Das führt zu sogenannten einseitigen Konfidenzintervallen mit Untergrenze 0. Dies kann bei den exakten Konfidenzintervallen durch Wahl von α1 ≤ 0, 05 und α2 = 0 realisiert werden. Beispiel 2.14: Bei einem Tierbestand von N = 10 000 Tieren soll eine obere Grenze für den Anteil der mit einer seltenen Krankheit infizierten Tiere angegeben werden. Dazu wurde eine einfache Zufallsstichprobe vom Umfang n = 500 gezogen. Dabei war ein Tier infiziert, was einem Anteil von 0, 2% entspricht. Das einseitige Konfidenzintervall ergibt sich zu [0; 0, 0093]. Die obere (95%Konfidenz-) Grenze liegt also bei 0, 93%. Bei der Benutzung der approximativen Normalverteilung (siehe Kasten S. 28) erhält man einseitige Konfidenzintervalle (obere bzw. untere Grenze) durch Anwendung des (1 − α)-Quantils statt des 1 − α2 -Quantils der Normalverteilung. Es lautet dann
E S + z 1−α · 0; P
E S V ar P
bzw.
E S − z 1−α · P
E S ; 1 . V ar P
34
2 Einfache Stichprobenverfahren
2.7 Ziehen mit Zurücklegen Wir wollen nun die Stichprobenziehung leicht verändern und erlauben, dass ein Individuum auch mehrmals in die Stichprobe gezogen werden kann. Dies wird im statistischen Jargon „Ziehen mit Zurücklegen“ genannt. Dieses Vorgehen führt dazu, dass die einzelnen Ziehungen voneinander unabhängig sind. Jedes Individuum hat unabhängig von den vorherigen Zügen die Wahrscheinlichkeit 1/N , im k-ten Zug gezogen zu werden. Wir befinden uns also im klassischen Fall der Statistik, der sogenannten unabhängig und identisch verteilten Stichprobe (engl.: i.i.d. für independent and identically distributed). Wir wollen die Konsequenzen dieses Ansatzes anhand des Beispiels in Abschn. 2.6.2 betrachten. Beispiel 2.15:
Aus der Population mit
Y1 = 9,
Y2 = 10,
Y3 = 11,
Y4 = 18,
Y5 = 22
ziehen wir nun mit Zurücklegen, d.h. ist ein Individuum gezogen, so wird der Wert von Y notiert und das Individuum wird in die Population „zurückgelegt“. Im nächsten Zug kann es somit noch einmal gezogen werden. Im Falle von Ziehen mit Zurücklegen ergeben sich damit die folgenden Stichproben, wobei die Reihenfolge der Ziehung berücksichtigt wird:
Gezogene Individuen
Mittelwert
Wahrscheinlichkeit
1 1 1 1 1
9,00 9,33 9,67 12,00 13,33 ··· 17,67 18,00 18,33 20,67 22,00
1/125 1/125 1/125 1/125 1/125 ··· 1/125 1/125 1/125 1/125 1/125
5 5 5 5 5
1 1 1 1 1 ··· 5 5 5 5 5
1 2 3 4 5 1 2 3 4 5
Wir bezeichnen den entsprechenden Mittelwertschätzer als Y¯ M Z , wobei der Index als Abkürzung für Mit Zurücklegen steht. Die Wahrscheinlichkeitsverteilung des Schätzers ist in Abb. 2.6 dargestellt. Zum Vergleich ist die Wahrscheinlichkeitsverteilung von Y¯ E S dargestellt, wie sie in Abschn. 2.6 hergeleitet wurde, also die Verteilung bei einem Ziehungsprozess ohne Zurücklegen. Es ist deutlich zu erkennen, dass die Varianz beim Ziehen mit Zurücklegen größer ist als beim Ziehen ohne Zurücklegen, die Wahrscheinlichkeitsverteilung weist also eine höhere Streuung auf.
2.7
Ziehen mit Zurücklegen
35
0.12 0.08 0.04 0.0
Wahrscheinlichkeit
Ziehen ohne Zuruecklegen
10
12
14
16 Schaetzer
18
20
22
18
20
22
0.12 0.08 0.04 0.0
Wahrscheinlichkeit
Ziehen mit Zuruecklegen
10
12
14
16 Schaetzer
Y¯ beim Ziehen ohne und mit Zurücklegen Abb. 2.6 Verteilung von
Berechnet man nun Erwartungswert und Varianz des so ergibt sich als Schätzers, ¯ ¯ Erwartungswert E Y M Z = 14 und als Varianz Var Y M Z = 8, 67. Allgemein ist Y¯ erwartungstreu und hat die Varianz MZ
S2 . Var Y¯ M Z = n Diese kann geschätzt werden durch
Mittelwertschätzung bei einer einfachen Zufallsstichprobe mit Zurücklegen
Gegeben sei eine Stichprobe y1 , . . . , yn vom Umfang n mit Zurücklegen. Ein unverzerrter Schätzer für den Mittelwert der Population ist Y¯ M Z = y¯ =
1 n
n
k=1 yk .
Die Varianz von Y¯ M Z kann geschätzt werden durch Var Y¯ M Z =
1 n (n−1)
n k=1
Y¯ M Z yk −
2
.
36
2 Einfache Stichprobenverfahren
Var Y¯ M Z =
n 2
1 yk − Y¯ M Z . n (n − 1) k=1
Herleitung: Da alle yk , k = 1, . . . , n, die gleiche Verteilung haben und unabhängig sind, ergeben sich die obigen Formeln aus den elementaren Rechenregeln für Mittelwert und Varianz und aus der Verteilung von y1 bei der Stichprobe ohne Zurücklegen.
Ein Vergleich der Varianzen mit und ohne Zurücklegen zeigt, dass die Varianz beim „Ziehen mit Zurücklegen“ größer ist. Allgemein ist sie um den Faktor (N −1)/ (N − n) größer, der sich aus den zugrunde liegenden Verteilungsmodellen ergibt. Im Fall der Schätzung eines Anteils erhält man eine Binomialverteilung. Ziehen mit Zurücklegen für binäre Merkmale (Binomialverteilung)
Aus einer Grundgesamtheit von N Elementen werden n Elemente mit Zurücklegen gezogen. Wir betrachten ein binäres Merkmal mit Werten 0 oder 1. In der Grundgesamtheit sind M Einsen vorhanden. Der Anteil der Einsen in der Grundgesamtheit beträgt folglich P = M/N . Die Wahrscheinlichkeit, dass m von den n gezogenen Elementen den Wert 1 haben ist P(y = m|P, n) =
n m
Die Anzahl der Einsen y =
P m (1 − P)n−m .
n
yi in der Stichprobe
i=1
ist binomialverteilt mit den Parametern E(y) = n P, Var(y) = n P(1 − P). Ein unverzerrter Schätzer für den Anteil P ist M Z = P
1 n
n
yk .
k=1
Als Varianzschätzung ergibt sich M Z = P Var
1 n
M Z ). M Z (1 − P P
2.8
Bestimmung des Stichprobenumfangs
37
Die Konfidenzintervalle ergeben sich analog zu dem Fall ohne Zurücklegen als
M Z − z 1− α · P 2
M Z ; P M Z + z 1− α · Var P 2
M Z . Var P
Als Beispiel wollen wir ein Ergebnis der Sonntagsfrage aus dem Jahr 2009 analysieren. Beispiel 2.16: Zur Sonntagsfrage vom 3.7.2009 wurden n = 1 206 wahlberechtigte Personen gefragt, welche Partei sie wählen würden, wenn am kommenden Sonntag Bundestagswahl wäre. Dabei gaben m = 302 Personen an, dass sie die SPD wählen würden. Damit ergibt sich ein exaktes Konfidenzintervall für den Anteil von [0,2262; 0,2759], d.h. das für die SPD ein Anteil zwischen 22 und 28% zu erwarten ist. Es werden in der Literatur auch andere Verfahren zur Bestimmung von Konfidenzintervallen diskutiert, siehe dazu z.B. Held (2008). Für kleine Anteile und/oder kleine Stichproben können auch die exakten Konfidenzintervalle nach ClopperPearson genutzt werden, siehe dazu z.B. Fleiss, Levin und Paile (2003). Eine gute Alternative ist das Konfidenzintervall nach Wilson, das auf dem Score-Test basiert und auch für kleine Anteile gut geeignet ist, siehe dazu auch Agresti und Coull (1998). In der Praxis wird das Ziehen mit Zurücklegen kaum angewendet. Allerdings sind bei großen Grundgesamtheiten Ziehen mit und ohne Zurücklegen praktisch identisch. Da insbesondere bei modellbasierten Schätzmethoden, wie wir sie später im Buch behandeln, die Berechnung der Varianz im Falle des Ziehens mit Zurücklegen wesentlich einfacher ist, wird diese bei entsprechend großen Populationen auch der Einfachheit halber angewendet. Man beachte, dass bei der Parameterschätzung der Umfang N der Grundgesamtheit nicht eingeht.
2.8 Bestimmung des Stichprobenumfangs Betrachtet man die Varianz des Schätzers Y¯ E S , so stellt man fest, dass diese mit wachsendem Stichprobenumfang abnimmt. Dies bedeutet insbesondere, dass Konfidenzintervalle mit wachsendem Stichprobenumfang kleiner werden. Inhaltlich lässt sich dies folgendermaßen interpretieren: Das Ergebnis der Stichprobe wird mit wachsendem Stichprobenumfang genauer. Wir können nun anders herum fragen, wie groß eine Stichprobe mindestens sein muss, um eine gewisse Genauigkeit zu erfüllen. Wir wollen also nun eine gewünschte Genauigkeit vorgeben und damit den erforderlichen Stichprobenumfang berechnen. Es soll somit der Stichprobenumfang n so gewählt werden, dass der Schätzwert mit einer vorgegebenen Wahrscheinlichkeit 1 − α einen Abstand kleiner als e vom wahren Wert hat. Dabei ist e eine vorgegebene Genauigkeit und 1 − α das Sicherheitsniveau bzw. α die Fehlerwahrscheinlichkeit. Als Formel geschrieben heißt das
38
2 Einfache Stichprobenverfahren
¯ Y E S − Y¯ < e ≥ 1 − α, P anders ausgedrückt, die Wahrscheinlichkeit, dass der Schätzer Y¯ E S um mehr als ¯ e vom unbekannten Populationsmittel Y abweicht, soll höchstens α betragen. Die obige Formel lässt sich umformen zu ⎛ ⎞ ¯ ¯ ⎜ Y E S − Y ⎟ e ⎟ P⎜ < ⎠ ≥ 1 − α. ⎝ ¯ ¯ Var Y E S Var Y E S Daraus ergibt sich mit Hilfe der Normalverteilungsannahme für Y¯ E S
e ≥ z 1− α2 , Var Y¯ E S
wobei z 1− α2 das 1 − α2 -Quantil der Standardnormalverteilung ist. Für die vorgegebene Fehlerwahrscheinlichkeit α= 0, 05 erhalten wir z 1−0,05/2 = z 0,975 = 1, 96. Einsetzen der Formel für Var Y¯ E S und quadrieren liefert unter Verwendung von N −n N −n ≈ N −1 N
e2 ≥ z2 α . S2 N − n 1− 2 n N
(2.5)
Lösen wir (2.5) nach n auf, so erhalten wir n≥
S2 . 2 2 e2 /z 1− α + S /N
(2.6)
2
Ist die Population im Vergleich zur Stichprobe groß, so können wir den Korrekturfaktor NN−n für endliche Populationen ignorieren und erhalten die Näherungslösung 2 n ≥ z 1− α 2
S2 . e2
(2.7)
Die übliche Wahl α = 0, 05 ergibt mit z 1−α/2 = 1, 96 ≈ 2 die Faustregel 2 n 4 · Se . Man benötigt also bei großen Populationen nur das Verhältnis S/e, um den Stichprobenumfang näherungsweise zu bestimmen. Ein anderer Ansatz zur Bestimmung des notwendigen Stichprobenumfangs ist es, die erwartete Länge des Konfidenzintervalls vorzugeben. Aus der Form
2.8
Bestimmung des Stichprobenumfangs
Y¯ E S − z 1− α2
39
Y¯ E S , Var Y¯ E S + z 1− α2
Y¯ E S Var
des Konfidenzintervalls ergibt sich dessen Länge durch
2 z 1− α2
Var Y¯ E S = 2 z 1− α
%
2
s2 N − n . n N
Da die Größe s 2 aus der Stichprobe berechnet wird, ist die Länge des Konfidenzintervalls zufällig und nicht im Vorfeld bestimmbar. Daher kann man sinnvollerweise auch nur die erwartete Länge l des Konfidenzintervalls vorgeben. Unter Berücksichtigung von E s 2 NN−n = S 2 NN −n −1 erhält man % l ≈ 2 z 1− α2
S2 N − n . n N −1
Damit berechnen wir bei vorgegebener maximaler erwarteter Länge l den notwendigen Stichprobenumfang mit der Formel n ≥ 2 l 2
S2 2 2 /z 1− α + S /N
,
(2.8)
2
N −n wobei wir wiederum die Approximation NN −n −1 ≈ N verwenden. Ein Vergleich mit der obigen Strategie zeigt, dass wir für l = 2e identische Stichprobenumfänge erhalten. Zur konkreten Bestimmung des Stichprobenumfangs mit Formel (2.6) bzw. (2.8) ist die Kenntnis der Standardabweichung S des Merkmals in der Population nötig. Vor der Stichprobenziehung ist S jedoch üblicherweise unbekannt. Auch die Schätzung von S ist hier unmöglich, denn es soll mit (2.6) bzw. (2.8) ja gerade der Stichprobenumfang geplant werden, d.h. die Stichprobe ist noch nicht gezogen und somit können keine Größen geschätzt werden. Als Ausweg aus diesem Dilemma bieten sich zwei Möglichkeiten an:
1. Man ersetzt S in (2.6) bzw. (2.8) durch einen geschätzten Wert aus vorherigen Erhebungen. In einigen Anwendungen ist das Merkmal in vorherigen Stichproben schon einmal erhoben worden. In diesem Fall kann man auf solches Wissen zurückgreifen, um eine Größenvorstellung von S zu bekommen. 2. Man zieht eine sogenannte Pilotstichprobe von kleinerem Umfang n , wobei n ≤ n angenommen ist. Aus dieser berechnet man einen Schätzer für S und plant damit den benötigten Stichprobenumfang. Beide Methoden sind nicht notwendigerweise immer praktikabel. Oftmals lässt sich jedoch für S eine obere Schranke festlegen, dass heißt ein „worst case“
40
2 Einfache Stichprobenverfahren
Szenario. Dieses kann wiederum genutzt werden, um eine Obergrenze des Stichprobenumfangs festzulegen. Aus der Formel (2.7) ist ersichtlich, dass der Stichprobenumfang umgekehrt proportional zum Quadrat der geforderten Genauigkeit e ist. Das bedeutet, dass man eine Halbierung der Länge des Konfidenzintervalls mit einer Vervierfachung des Stichprobenumfangs „bezahlen“ muss.
Bestimmung des Stichprobenumfangs bei einer einfachen Zufallsstichprobe
Gegeben sei die Genauigkeit e (erwartete halbe Länge l des Konfidenzintervalls), das Konfidenzniveau 1 − α und die Standardabweichung S in der Grundgesamtheit. Für den nötigen Stichprobenumfang gilt dann: n≥
S2 . 2 2 e2 /z 1− α +S /N 2
Beim Ziehen mit Zurücklegen und bei großen Grundgesamtheiten benutzt man: 2 n ≥ z 1− α 2
S2 . e2
Zur Bestimmung von S sind in der Regel eine Pilotstichprobe oder andere externe Zusatzinformationen erforderlich. Ist die interessierende Größe ein Anteilswert, so ergibt sich der Stichprobenumfang durch: n≥
P(1−P) , 2 e2 /z 1− α +P(1−P)/N 2
bzw. 2 n ≥ z 1− α 2
P(1−P) . e2
Für P verwendet man bei fehlendem Vorwissen den worst case 0,5. Ist hingegen bekannt, dass P einen Wert Ppriori < 0, 5 unterschreitet bzw. einen Wert Ppriori > 0, 5 überschreitet, so kann man diesen Wert als a priori bekannte Grenze in die Formel einsetzen. Ist die interessierende Größe ein Anteilswert P, so ergibt sich der Stichprobenumfang ebenfalls aus Formel (2.6). In diesem Falle ersetzt man jedoch S 2 durch P(1 − P), so dass sich ergibt
2.8
Bestimmung des Stichprobenumfangs
n≥
41
P(1 − P) , + P(1 − P)/N
(2.9)
2 e2 /z 1− α 2
2 2 und für N hinreichend groß n ≥ z 1− α P(1 − P)/e . Wir wollen Formel (2.9) 2 genauer betrachten. Dazu nehmen wir exemplarisch an, dass wir eine Genauigkeit von e = 0, 1 fordern. In Tabelle 2.2 sind die Stichprobenumfänge, wie sie sich durch Formel (2.9) ergeben, für verschiedene Werte von P und N bestimmt. Weiterhin geben wir in Tabelle 2.3 die benötigten Stichprobenumfänge für große Grundgesamtheiten (N 10 000) für verschiedene Genauigkeiten e an. Hier unterscheiden wir die Fälle P = 0, 5 und P = 0, 1. Bemerkenswert ist, dass für eine Genauigkeit von einem Prozentpunkt (e = 0, 01) bei Anteilswerten mit P = 0, 5 der hohe Stichprobenumfang von fast 10 000 Personen erforderlich ist. Bei der Befragung von 1 000 Personen ergibt sich eine Genauigkeit von etwa drei Prozentpunkten. Das bedeutet z.B. für Befragungen zur Wahlabsicht, dass Stichprobenumfänge von unter 2 000 ohne weitere methodische Verbesserungen nur ungenaue Ergebnisse liefern. In Abb. 2.7 ist der geforderte Stichprobenumfang gemäß Formel (2.9) für verschiedene Populationsgrößen aufgetragen. Es zeigt sich, dass der geforderte Stichprobenumfang für große Populationen nicht vom Populationsumfang abhängt. Das bedeutet inhaltlich, fordert man in einer Stichprobe eine gewisse Genauigkeit, so wird diese mit einer Stichprobe mit Mindeststichprobenumfang wie in Formel (2.9) bestimmt erreicht, egal wie groß die Population ist. In der Praxis bedeutet dies zum Beispiel, dass es bei Überlegungen zur Stichprobengröße und der damit verbundenen Schätzgenauigkeit unerheblich ist, ob die zugehörige Population die Münchner Bevölkerung oder die Bevölkerung Deutschlands ist. Die häufig verwendete Strate-
Tabelle 2.2 Notwendiger Stichprobenumfang bei einer geforderten Genauigkeit von e = 0, 1 für den Anteilswert P N = 10 N = 100 N = 1 000 N = 10 000 0,2 0,3 0,4 0,5
9 9 10 10
39 45 48 49
58 75 85 88
62 81 92 96
Tabelle 2.3 Notwendiger Stichprobenumfang für große Grundgesamtheiten (N 10 000), ausgehend von einem Sicherheitsniveau von 1 − α = 95% e P = 0, 5 P = 0, 1 0,1 0,05 0,03 0,02 0,01
97 385 1068 2401 9604
* 139 385 865 3458
* P = 0, 1 bedeutet, dass a priori bekannt ist, dass der wahre Anteil kleiner als 0,1 ist. Daher ist e = 0, 1 offensichtlich keine sinnvolle Vorgabe.
42
2 Einfache Stichprobenverfahren
80 60 40
P=0.5 P=0.4 P=0.25 P=0.1
20
Stichprobenumfang n
Einfluss von P (e=0.1)
0
500
1000
1500
2000
2500
3000
Populationsumfang N
1000 600
e=0.02 e=0.05 e=0.10
0 200
Stichprobenumfang n
Einfluss von e (P=0.5)
0
500
1000
1500
2000
2500
3000
Populationsumfang N
Abb. 2.7 Stichprobenumfang in Abhängigkeit von der Populationsgröße für verschiedene Werte von P und e
gie, den Auswahlsatz n/N ohne Berücksichtigung der Populationsgröße festzulegen (z.B. „3%-Stichprobe“) ist damit in vielen Fällen unsinnig. Wie bei einer Stichprobe zu einem metrischen Merkmal besteht auch für den Anteilswert P bei Stichprobenplanung das Problem, dass der explizite Wert von P unbekannt ist. Wie aus Tabelle 2.2 ersichtlich, ist der benötigte Stichprobenumfang für P = 0, 5 am größten, was daran liegt, dass die Funktion P ·(1− P) ihr Maximum bei P = 0, 5 hat. Daher ist die Wahl von P = 0, 5 das „Worst Case“ Szenario, womit man immer auf der sicheren Seite ist. Falls aber P = 0, 5 unrealistisch ist, ist es sinnvoll, zur Stichprobenplanung eine obere Schranke von P zur Grundlage der Planung zu machen. Ansonsten wird der Stichprobenumfang unnötig groß, was aus Kostengründen zu vermeiden ist. Wenn man bei einer ausführlichen Befragung mit vielen Merkmalen vor der Frage steht, wie groß der Stichprobenumfang gewählt werden sollte, sind die Überlegungen für Anteilsschätzungen oft hilfreich. Man kann sich überlegen, mit welcher Genauigkeit man Anteile von Antwortkategorien auf die Fragen schätzen will. Bei großer Grundgesamtheit ergibt sich aus Tabelle 2.3 für n = 97 eine Genauigkeit von e = 0, 1 (10 Prozentpunkte) im „Worst Case“ von P = 0, 5. Diese ist dann für alle Fragen gültig. Bei einer Anforderung von e = 0, 05 (5 Prozentpunkte) ist ein Stichprobenumfang von n = 385 nötig.
2.9 Systematische Stichprobe Bei der einfachen Zufallsstichprobe wird für jeden Zug eine neue Zufallsvariable gezogen. Dies kann aufwendig sein und ebenso zu zufälligen, vielleicht aber unerwünschten Gruppierungen führen. Es zeigt sich, dass eine systematische Stichprobe
2.9
Systematische Stichprobe
43
insbesondere dann von Vorteil ist, wenn die Population mit einer Ordnung oder Abhängigkeitsstruktur versehen ist. Wir ziehen in diesem Falle nicht mehr n Elemente zufällig aus der Population, sondern wenden eine Systematik an, indem wir jedes p-te Individuum der Population in die Stichprobe aufnehmen. Zur Ziehung einer systematischen Stichprobe muss damit eine Zufallszahl aus den Zahlen 1 bis p mit p = N /n gezogen werden, wobei der Einfachheit halber angenommen wird, dass N /n ganzzahlig ist. Diese Zufallszahl gibt das erste zu ziehende Element an und entsprechend ist die zu ziehende Stichprobe vollständig bestimmt. Wir wollen dazu ein einfaches Beispiel betrachten. Beispiel 2.17: Y1 = 10,
Nehmen wir an, eine Population bestehe aus den Werten Y2 = 30,
Y3 = 80,
Y4 = 20,
Y5 = 70,
Y6 = 90
und wir ziehen eine systematische Stichprobe vom Umfang n = 2. Wir wählen dabei p = 3 und ziehen eine Zufallszahl j aus den Werten 1 bis p mit einer Gleichverteilung. Die Stichprobe ergibt sich dann gemäß Y j , Y j+ p (im Allgemeinen gemäß Y j , Y j+ p , . . . , Y j+(n−1) p ). Wir erhalten somit die folgenden möglichen Stichproben Gezogene Individuen 1 4 2 5 3 6
y¯ 15 50 85
Wahrscheinlichkeit 1/3 1/3 1/3
Eine wichtige Eigenschaft bei systematischen Stichproben ist, dass die Anzahl der möglichen Stichproben klein ist, nämlich genau p. Als Schätzer für den Mittelwert ergibt sich bei der systematischen Stichprobe in allgemeiner Form n 1
Y j+(k−1) p , Y¯ syst = n k=1
wobei wir, wie schon gesagt, der Einfachheit halber annehmen, dass N /n eine ganze Zahl ist, so dass n = N / p gilt. Zur Bestimmung der Varianz von Y¯ syst gehen wir weiter davon aus, dass die Ordnung der Elemente zufällig ist. In diesem Fall können wir die Varianz schätzen durch s2 N − n , Var Y¯ syst = n N was der Varianz einer einfachen Zufallsstichprobe entspricht. Die Voraussetzung, dass die Elemente der Population zufällig geordnet sind, ist dabei essentiell. Ist diese Voraussetzung verletzt, hängt es entscheidend von der tatsächlichen Ordnung ab, ob die oben gegebene Varianz eine Über- oder Unterschätzung liefert. Da wir aber im
44
2 Einfache Stichprobenverfahren
Allgemeinen keine Information über die Ordnung haben, ist die obige Varianzberechnung durchaus gerechtfertigt. Im Prinzip kann eine systematische Stichprobe auch als eine Cluster-Stichprobe aufgefasst werden, wie sie in Abschn. 5.2 vorgestellt wird. Wir werden diesen Punkt dort noch einmal aufgreifen.
Systematische Stichprobe
Die Population bestehe aus N Elementen, von denen n zufällig ausgewählt werden. Es sei p = N /n ganzzahlig und j eine Zufallszahl aus {1, 2, . . . , p}. Ein unverzerrter Schätzer für den Mittelwert Y¯ ist Y¯ syst =
1 n
n
Y j+(k−1) p .
k=1
Die Varianz kann geschätzt werden durch Var Y¯ syst =
1 N −n N n(n−1)
n
Y j+(k−1) p − Y¯ syst
2
.
k=1
Beispiel 2.18: Ein Wirtschaftsprüfer möchte die Rechnungen eines Unternehmens prüfen. Dabei entscheidet er sich für eine systematische Stichprobe mit folgendem Vorgehen: Von den in Frage kommenden Rechnungen wird jede p-te in die Stichprobe gezogen und einer genauen Prüfung unterzogen. Die erste zu ziehende Rechnung wird jedoch zufällig ausgewählt, indem eine Zufallsvariable zwischen 1 und p gezogen wird, welche die erste Rechnung, die in die Stichprobe aufgenommen wird, bestimmt. Beispiel 2.19: Ein großes Gewässer soll bezüglich seines Schadstoffgehalts untersucht werden. Dazu wird das Gewässer in Planquadrate eingeteilt, die von 1 bis N durchnummeriert werden. Der Einfachheit halber betrachten wir nur die Planquadrate, die vollständig über dem See verteilt liegen. Aus diesen Planquadraten werden n zufällig ausgewählt und anschließend per Wasserprobe untersucht. Schematisch lässt sich dies wie in der linken Graphik in Abb. 2.8 darstellen. Die zufällig gewählten Planquadrate sind dabei schraffiert dargestellt. Die Wahl der Planquadrate ist zufällig, und ebenso zufällig kann es zu einer Gruppierung von benachbarten Planquadraten kommen. Die gezogene Stichprobe erscheint unvorteilhaft, insbesondere da davon auszugehen ist, dass die Wasserqualität in einem Planquadrat ähnlich ist zu denen der Nachbarplanquadrate, das heißt zwischen den Messungen in benachbarten Planquadraten kann eine Abhängigkeit bestehen. Um diesen Punkt zu berücksichtigen, wollen wir eine systematische Stichprobe ziehen. Hierbei wählt man die Planquadrate in einer systematischen Form aus.
2.10
Beispiel
45
Die Zufälligkeit besteht nun darin, das erste Planquadrat auszuwählen, die verbleibenden Planquadrate sind damit durch das systematische Muster bestimmt. Schematisch ist dies in der rechten Skizze von Abb. 2.8 gezeigt, wobei wir hier jedes 4-te Planquadrat in die Stichprobe aufnehmen. Je nachdem welches Planquadrat der ersten vier Planquadrate gezogen wird (1, 2, 3 oder 4) ist der Rest der Stichprobe systematisch bestimmt. Die Zufälligkeit besteht also in der Auswahl des ersten Quadrats.
Abb. 2.8 Einfache Zufallsstichprobe (links) und systematische (zufällige) Stichprobe (rechts), gezogene Planquadrate sind jeweils schraffiert.
2.10 Beispiel Wir besprechen nun ein Beispiel aus der Praxis, um die Methoden des Kapitels zu veranschaulichen. Das Beispiel bezieht sich auf eine große Population und wir werten es nach dem Prinzip einer Ziehung mit Zurücklegen aus. Beispiel 2.20: Im Rahmen der Diskussion um die Finanzierung der bayerischen Hochschulen kam es 2004 nach den Kürzungsbeschlüssen der Bayerischen Staatsregierung zu Demonstrationen und anderen Formen des Protests von Studierenden in Bayern. Um die Wirkung der Proteste und die Meinung der Münchener Bevölkerung zu einigen damit verbundenen Themen in Erfahrung zu bringen, wurde von der Fachschaft Statistik der Ludwig-Maximilians-Universität München eine telefonische Befragung durchgeführt. Die Auswahl wurde mit zufälliger Wahl von Telefonnummern realisiert. Insgesamt wurden 251 Personen befragt. Damit lassen sich zu den einzelnen Fragen die entsprechenden Anteile in der Münchener Bevölkerung hochrechnen. In der folgenden Tabelle sind die Ergebnisse für die einzelnen Fragen zusammengestellt. Dabei wurden jeweils die Konfidenzintervalle mit der Normalverteilungsapproximation verwendet. Da die zugrunde liegende Population groß genug ist, kann auf die Korrektur für endliche
46
2 Einfache Stichprobenverfahren
Populationen verzichtet werden. Konkret handelt es sich hier ungefähr um den 6 −251 Faktor 10 10 = 0,999749, wenn man berücksichtigt, dass die Bevölkerung von 6 München etwa eine Million Personen umfasst. In diesem Beispiel werden die ersten drei Fragen der telefonischen Befragung betrachtet. Diese lauten Frage 1: Haben Sie schon von den Studentenprotesten in Bayern gehört? Frage 2: Halten Sie die Proteste der Studenten für gerechtfertigt? Frage 3: Von welchen Protestaktionen haben Sie gehört? (Mehrfachnennungen möglich) Dabei wurde Frage 2 lediglich den Personen gestellt, welche Frage 1 mit „ja“ beantwortet haben, sprich bereits von den Studentenprotesten gehört haben. Die Antwortmöglichkeiten für Frage 3 sind in die Kategorien Großdemonstrationen, Lichterkette, Trauermarsch, 24 h Vorlesung und öffentliche Vorlesungen unterteilt. Bei dieser Frage wurde wieder die gesamte Stichprobe berücksichtigt, wobei die Individuen, die Frage 1 mit „nein“ beantwortet haben, auch hier überall mit „nein“ bewertet wurden. Die Ergebnisse sind in Tabelle 2.4 dargestellt. Tabelle 2.4 Auswertung der Telefonumfrage zu den Studentenprotesten in Bayern Frage Frage 1 Frage 2 Frage 3 Großdemonstrationen Lichterkette Trauermarsch 24 h Vorlesung Öffentliche Vorlesungen
„Ja“ Anteil in Stichprobe
95%-Konfidenzintervall
0,849 0,756
[0,7982; 0,8906] [0,6925; 0,8120]
0,7251 0,2590 0,2550 0,2669 0,2829
[0,6654; 0,7794] [0,2059; 0,3178] [0,2023; 0,3136] [0,2133; 0,3262] [0,2280; 0,3429]
Die einfache Zufallsstichprobe ist das sicherlich am häufigsten verwendete Stichprobendesign. Bei Anwendung und Dokumentation ist immer darauf zu achten, dass Konfidenzintervalle anzugeben sind, wenn ein Anspruch auf Übertragung des Ergebnisses auf die Grundgesamtheit besteht. Weiter ist die Umsetzung der zufälligen Ziehung in vielen Fällen nur ansatzweise oder durch Ersatzverfahren möglich. Daher gehört die Angabe der konkreten Ziehungsstrategie auch immer zu der Dokumentation der Ergebnisse.
2.11 Literatur Eine Einführung in die nötigen Kenntnisse der Statistik findet man in Fahrmeir, Künstler, Pigeot, und Tutz (2009) oder Mosler und Schmid (2004). Eine umfangreiche Einführung in Stichprobenverfahren liefert Cochran (1977), der generell als
2.12
Numerische Umsetzung
47
Standardwerk herangezogen werden kann. (Man beachte, dass das Buch in deutscher Übersetzung als Cochran (1972) vorliegt). Ebenfalls als deutschsprachige Literatur verweisen wir auf Kreienbrock (2004) oder Schwarz (1975). Empfehlenswert ist außerdem Scheaffer, Mendenhall und Ott (1995) und Leiner (1989). Dort wird eine elementare Einführung in die wichtigen Kapitel der Stichprobenverfahren gegeben. Umfassendes Material wird außerdem bereitgestellt in Thompson (2002) oder Levy und Lemeshow (1999), wobei Levy und Lemeshow praktische Aspekte deutlicher in den Vordergrund stellen.
2.12 Numerische Umsetzung Die numerische Umsetzung von einfachen Zufallsstichproben ist mit vielen Softwarepaketen zu bewerkstelligen. Unsere Hinweise beziehen sich jedoch ausschließlich auf das Programmpaket R. Eine kurze Einführung und weitere Informationen zu diesem Programm sind in Anhang A zu finden. Das zu diesem Buch erstellte R-Paket samplingbook ist von der Homepage des R-Projekts (www.r-project.org) herunterladbar. Nach dem Herunterladen und Installieren kann es mit > library(samplingbook) geladen und auf diese Weise die darin enthaltenen Funktionen und Datensätze verfügbar gemacht werden. In den folgenden Abschnitten werden das Ziehen einer einfachen Zufallsstichprobe, sowohl aus einem Vektor als auch aus einem Datensatz, die Mittelwert- und Anteilsschätzung für einfache Zufallsstichproben und die Bestimmung des Stichprobenumfangs zur Mittelwert- bzw. Anteilsschätzung dargestellt.
2.12.1 Ziehen einer einfachen Zufallsstichprobe Bei der konkreten Durchführung einer einfachen Zufallsstichprobe muss aus der Populationsliste eine Stichprobe vom Umfang n ohne Zurücklegen gezogen werden. Dies ist in R mit der Funktion sample(·) realisierbar, welche ohne vorheriges Laden eines Pakets direkt zur Verfügung steht. > sample(x, size, replace = FALSE, prob = NULL) # x # # # size # # replace
Either a (numeric, complex, character or logical) vector of more than one element from which to choose, or a positive integer. non-negative integer giving the number of items to choose. Should sampling be with replacement?
48
2 Einfache Stichprobenverfahren
# prob #
A vector of probability weights for obtaining the elements of the vector being sampled.
Die Funktion sample(·) zieht eine Stichprobe festgelegter Größe size aus den Elementen des Vektors x, je nach Bedarf mit oder ohne Zurücklegen. Die Funktion zieht standardmäßig ohne Zurücklegen (replace=FALSE). Mit der Option replace=TRUE kann aber auch eine Stichprobe mit Zurücklegen gezogen werden. Mit prob können den einzelnen Elementen unterschiedliche Ziehungwahrscheinlichkeiten zugewiesen werden. Dies ist bei dieser Prozedur nur für das Ziehen mit Zurücklegen sinnvoll. Für das Ziehen ohne Zurücklegen liefert diese Option keine sinnvollen Ergebnisse, siehe dazu Kap. 4. Da wir eine einfache Zufallsstichprobe ziehen wollen, ist für uns die Standardeinstellung des Ziehens ohne Zurücklegen bereits richtig voreingestellt. Außerdem sollen alle Elemente der Grundgesamtheit die gleiche Wahrscheinlichkeit besitzen, in die Stichprobe zu gelangen, weshalb wir auch die Option prob=NULL unverändert übernehmen können. Diese beiden Optionen können somit in der Syntax weggelassen werden. Folglich müssen wir nur den Vektor x, aus dem die Zufallsstichprobe gezogen werden soll, und die Stichprobengröße size spezifizieren. Wollen wir beispielsweise eine Stichprobe vom Umfang n = 100 aus einer Grundgesamtheit vom Umfang N = 2 000 ziehen, kann dies mit folgender Syntax realisiert werden: > > > > >
N <- 2000 n <- 100 populationlist <- 1:N set.seed(67399) sample(x=populationlist, size=n)
[1] [13] [25] [37] [49] [61] [73] [85] [97]
1093 494 1291 398 1526 817 1414 1359 662
538 932 110 796 1846 1883 1446 1667 1033 1150 323 125 914 1544 1614 1248 1905 848 1196 600 769 708 841 665 1270 240 858 550 199 719 1493 1719 728 855 1754
322 187 1947 1981 740 1045 30 1322 1219 1712 1576 1874 261 904 1135 687 1844 659 1145 936 1163 850 861 1752 680 973 463 1198 1513 146 862 1102 1162 392 531 1201 1413 337 1281 646 1984 1206 1059 652 778 795 1994 1224 27 982 430 955 438 1042 382 672
Wir nehmen dabei an, dass die Populationsliste von 1 bis N läuft und die gezogenen Werte den Identifikationsnummern der gezogenen Individuen entsprechen. Um das Ergebnis reproduzierbar zu machen, setzen wir unter Verwendung der Funktion set.seed(·) einen Startwert für den Algorithmus. Das Ergebnis kann in einen neuen Vektor, beispielsweise mit Namen sample1 gespeichert werden. Außerdem können die gezogenen Zahlen mit sort(·) sortiert werden. Durch Eingabe von sample1 kann das Ergebnis am Bildschirm ausgegeben werden.
2.12
Numerische Umsetzung
49
> sample1 <- sort(sample(x=populationlist, size=n)) > sample1 [1] [13] [25] [37] [49] [61] [73] [85] [97]
31 281 431 645 867 1077 1328 1591 1863
32 282 443 666 875 1095 1361 1592 1932
96 285 456 717 879 1104 1364 1603 1942
121 152 165 205 211 215 251 292 308 310 338 388 394 410 485 487 513 534 543 558 559 719 750 761 766 776 791 809 894 924 946 986 993 1020 1027 1122 1141 1197 1233 1240 1242 1258 1383 1402 1409 1433 1460 1478 1538 1631 1679 1701 1715 1718 1742 1768 1948
262 418 565 824 1030 1270 1568 1813
265 419 622 839 1031 1273 1578 1861
Der Aufruf von sample(·) liefert jedoch bei jedem Durchlauf ein anderes, zufälliges Ergebnis. Um die Ziehung reproduzierbar zu machen, empfiehlt es sich, mit einem sogenannten „seed“, einem Startwert für den Algorithmus (in diesem Fall zum Ziehen von Zufallszahlen), zu arbeiten. Dadurch wird sichergestellt, dass bei einem erneuten Ausführen die gleiche Stichprobe gezogen wird. Dieser Startwert kann festgelegt werden, indem man eine beliebig gewählte Zahl als Startwert definiert.
> start <- 13072008 > set.seed(start)
Im Anschluss daran liefert eine Funktion, die einen Zufallszahlengenerator enthält, wie z.B. sample(·), immer dasselbe Ergebnis. Weitere Informationen zum Setzen eines Startwertes sind in Anhang A.8 zu finden. Manchmal will man jedoch nicht eine Zufallsstichprobe aus einer geordneten Liste, sondern aus einem vorhandenen Datensatz ziehen. Zur Illustration verwenden wir als Datenbasis eine imaginäre Liste, welche vom Paket samplingbook bereitgestellt wird. Über die folgenden Befehle wird der Datensatz geladen und am Bildschirm ausgegeben. Der Datensatz ist nun im Objekt pop gespeichert. > data(pop) > print(pop)
1 2 3 4 5
id 1 2 3 4 5
X 11 11 11 21 21
Y 9 10 11 18 22
50
2 Einfache Stichprobenverfahren
Die Populationsliste ist bestimmt durch die Spalte id, denn jede ID ist exakt einer Person zugeordnet und umgekehrt. Nun gilt es, eine Stichprobe vom Umfang n zu ziehen, das heißt es sollen n ID-Nummern gewählt werden, um die zugehörigen Personen beispielsweise in eine Umfrage einzuschließen. Die entsprechenden zufällig gezogenen ID-Nummern erhält man mit > n <- 3 > set.seed(93456) > idsample <- sample(x=pop$id, size=n) wobei die Stichprobengröße hier exemplarisch auf 3 festgelegt ist. Die ausgewählten ID-Nummern werden mit > idsample [1] 1 2 4 ausgegeben. Die Elemente der Stichprobe sind damit gezogen und können somit befragt werden. Auch hier kann man unter Verwendung eines Startwertes für den Algorithmus die Stichprobenziehung reproduzierbar gestalten. Einen Datensatz mit den bereits vorhandenen Informationen zu den Personen in der Stichprobe erhält man beispielsweise mit folgender Syntax, welche sehr ausführlich gehalten ist, um die einzelnen, dazu notwendigen Schritte zu verdeutlichen. Man definiert zuerst eine Matrix, in die die Daten der Stichprobe geschrieben werden sollen, und initialisiert diese zunächst mit NA, d.h. mit fehlenden Werten. Unter Verwendung einer Zählvariable j füllen wir diese Matrix Zeile für Zeile mit den Daten der Stichprobe. Eine Schleife durchläuft die gezogenen ID-Nummern. In jedem Durchlauf werden die Daten des nächsten Stichprobenelements in die j-te Zeile der vordefinierten Matrix geschrieben und j um 1 erhöht. > + > > + + + +
sample1 <- as.data.frame(matrix(data=NA, nrow=n, ncol=ncol(pop))) j <- 1 for(i in idsample) { sample1[j,] <- pop[pop$id==i,] j <- j+1 }
Alternativ kann die bereits in R zur Verfügung gestellte Funktion subset(·) verwendet werden, welche aus einem gegebenen Datensatz eine Teilmenge von Zeilen auswählt. > sample2 <- subset(x=pop, subset=(pop$id %in% idsample))
2.12
Numerische Umsetzung
51
Weiterhin ist es möglich, direkt eine Stichprobe aus den Zeilen zu ziehen. In diesem Fall wird die bisher vorangegangene, separate Stichprobenziehung direkt integriert. > sample3 <- pop[sample(1:nrow(pop), size=n),]
2.12.2 Mittelwertschätzung In dem zu dem Buch gehörigen R-Paket samplingbook sind die Formeln zur Mittelwertschätzung und zur Bestimmung der Konfidenzintervalle umgesetzt. Die Funktion Smean(·) erlaubt diese Berechnungen bei Bedarf inklusive der Korrektur für endliche Populationen. > Smean(y, N = Inf, level = 0.95) # y # N # # # # level #
vector of sample data positive integer specifying population size. Default is N=Inf, which means that calculations are carried out without finite population correction. coverage probability for confidence intervals. Default is level=0.95.
Der Datenvektor y muss übergeben werden, die anderen beiden Angaben sind optional. Mit N kann der Populationsumfang übergeben werden, mit level die Überdeckungswahrscheinlichkeit des Konfidenzintervalls. Wird der Funktion kein Populationsumfang übergeben, wird N=Inf gesetzt und somit bei der Berechnung auf den Korrekturfaktor für endliche Populationen verzichtet. Dies ist sinnvoll, falls der Umfang der Grundgesamtheit sehr groß ist. Bei kleinen Grundgesamtheiten sollte der Populationsumfang übergeben werden. In letzterem Fall wird die Korrektur mit dem Faktor (N −n)/N bei der Berechnung der Varianz durchgeführt. Die Überdeckungswahrscheinlichkeit für das Konfidenzintervall ist mit 95% voreingestellt, kann aber bei Bedarf geändert werden. Zur Illustration verwenden wir die Daten aus Beispiel 2.11: Y1 = 9,
Y2 = 10,
Y3 = 11,
Y4 = 18,
Y5 = 22.
Daraus wurde eine einfache Zufallsstichprobe vom Umfang n = 3 gezogen. Anschließend können der geschätzte Mittelwert Y¯ E S , die geschätzte Standardabwei Y¯ E S und das zugehörige Konfidenzintervall berechchung von Y¯ E S , d.h. Var net werden. Die dazu benötigte Variable Y ist im Datensatz pop enthalten. Dieser wird zuerst geladen und anschließend wird die relevante Information im Vektor Y gespeichert. Nach Festlegen eines Startwerts wird eine einfache Zufallsstichprobe vom Umfang n = 3 gezogen und im Vektor y gespeichert. Zuletzt wird der Popu-
52
2 Einfache Stichprobenverfahren
lationsmittelwert unter Berücksichtigung der Korrektur für endliche Populationen geschätzt. > data(pop) > Y <- pop$Y > Y [1]
9 10 11 18 22
> set.seed(93456) > y <- sample(x=Y, size=3) > y [1]
9 10 18
> est <- Smean(y=y, N=length(Y)) > est Smean object: Sample mean estimate With finite population correction: N=5 Mean estimate: 12.3333 Standard error: 1.8012 95% confidence interval: [8.803,15.8637]
2.12.3 Anteilsschätzung Die Funktion Sprop(·), ebenfalls aus dem Paket samplingbook, gibt die entsprechenden Werte bei der Anteilsschätzung zurück. Hierbei werden unter anderem die in Abschn. 2.6.4 dargestellten Prozeduren realisiert. > Sprop(y, m, n = length(y), N = Inf, level = 0.95) # # # # # # # # # #
y m n N
level
vector of sample data containing values 0 and 1 an optional non-negative integer for number of positive events an optional positive integer for sample size. Default is n = length(y). positive integer for population size. Default is N=Inf, which means calculations are carried out without finite population correction. coverage probability for confidence intervals. Default is level=0.95.
2.12
Numerische Umsetzung
53
Mit y kann der Datenvektor übergeben werden. Dieser muss dazu dummykodiert sein, d.h. er darf nur Nullen und Einsen enthalten, wobei die „ja“-Antworten typischerweise mit „1“ kodiert sind. Alternativ können m, die Anzahl an „ja“-Antworten bzw. „positiven Ereignissen“, und der Stichprobenumfang n übergeben werden. Werden m und y gleichzeitig angegeben, so muss m der Anzahl an Einsen im Datenvektor y entsprechen. Mit N kann wiederum die Größe der Grundgesamtheit angeben werden. Die Angabe der Überdeckungswahrscheinlichkeit des Konfidenzintervalls ist mit 95% vorbelegt. Die Ausgabe hängt von der Vorgabe für N ab. Bei einer endlichen Grundgesamtheit werden neben der Schätzung zwei Konfidenzintervalle ausgegeben. Das Erste E S basiert auf der approximativen Normalverteilung und benutzt die Varianz Var P aus Formel (2.1). Weiter wird das exakte Konfidenzintervall aus den Formeln (2.2) und (2.4) berechnet. Im Fall von großen Grundgesamtheiten (ab N > 100 000) wird N = Inf gesetzt, da eine exakte Berechnung sehr aufwendig wäre. Für diese Einstellung werden die in Abschn. 2.7 diskutierten Konfidenzintervalle berechnet. Das erste Intervall wird basierend auf der Normalverteilungsannahme berechnet, das zweite Intervall basiert ebenfalls auf der Normalverteilungsannahme, benutzt aber eine von Agresti und Coull (1998) vorgeschlagene Korrektur. Das Konfidenzintervall nach Clopper-Pearson stellt das exakte Konfidenzintervall dar. Zur Illustration verwenden wir die Daten aus Beispiel 2.13. Dort wurden n = 100 von N = 300 Beschäftigten eines Betriebes zwei Fragen gestellt, wobei die erste Frage von m 1 = 45 Personen und die zweite Frage von m 2 = 2 Personen mit „Ja“ beantwortet wurde. Mit diesen Angaben können die geschätzten Anteile und die zugehörigen asymptotischen und exakten Konfidenzintervalle berechnet werden. Für die erste Frage ergibt sich: > Sprop(m=45, n=100, N=300) Sprop object: Sample proportion estimate With finite population correction: N= 300 Proportion estimate: 0.45 Standard error: 0.0408 95% approximate hypergeometric confidence interval: proportion: [0.37,0.53] number in population: [111,159] 95% exact hypergeometric confidence interval: proportion: [0.3667,0.5367] number in population: [110,161] Für die zweite Frage ergibt sich: > Sprop(m=2, n=100, N=300)
54
2 Einfache Stichprobenverfahren
Sprop object: Sample proportion estimate With finite population correction: N= 300 Proportion estimate: 0.02 Standard error: 0.0115 95% approximate hypergeometric confidence interval: proportion: [-0.0025,0.0425] number in population: [0,12] 95% exact hypergeometric confidence interval: proportion: [0.0067,0.0633] number in population: [2,19] Um die Vorgehensweise an realen Daten zu demonstrieren, verwenden wir die Ergebnisse zur Sonntagsfrage vom 3.7.2009 aus Beispiel 2.16. Dabei wurden n = 1206 wahlberechtigte Personen gefragt, welche Partei sie wählen würden, wenn am kommenden Sonntag Bundestagswahl wäre. Es gaben m = 302 Personen an, dass sie die SPD wählen würden. Weiterhin gaben m = 133 Personen an, dass sie die Grünen wählen würden. Die geschätzten Anteile und die zugehörigen Konfidenzintervalle werden wie folgt berechnet, wobei N=Inf gesetzt wurde. Die Berechnung mit der exakten Anzahl an wahlberechtigten Personen von ca. 61 Mio liefert die gleichen Ergebnisse. Für die SPD ergibt sich: > Sprop(m=302, n=1206, N=Inf) Sprop object: Sample proportion estimate Without finite population correction: N= Inf Proportion estimate: 0.2504 Standard error: 0.0125 95% asymptotic confidence interval: proportion: [0.226,0.2749] 95% asymptotic confidence interval with correction by Wilson: proportion: [0.2268,0.2756] 95% exact confidence interval by Clopper-Pearson: proportion: [0.2262,0.2759] Für die Grünen ergibt sich: > Sprop(m=133, n=1206, N=Inf) Sprop object: Sample proportion estimate Without finite population correction: N= Inf Proportion estimate:
0.1103
2.12
Numerische Umsetzung
Standard error:
55
0.009
95% asymptotic confidence interval: proportion: [0.0926,0.128] 95% asymptotic confidence interval with correction by Wilson: proportion: [0.0938,0.1292] 95% exact confidence interval by Clopper-Pearson: proportion: [0.0932,0.1293] Somit liegt der erwartete Stimmenanteil nach der Methode von Wilson für die SPD zwischen 22, 6 und 27, 6% und für die Grünen zwischen 9, 3 und 13, 0%. In Beispiel 2.14 wollten wir ein einseitiges Konfidenzintervall zur Abschätzung der maximalen Anzahl an Tieren, die an einer seltenen Krankheit leiden, erhalten. Dazu kann man bei Verwendung von Sprop(·) die Überdeckungswahrscheinlichkeit dementsprechend anpassen. Um also z.B. eine obere Grenze für ein einseitiges 95%-Konfidenzintervall zu erhalten, kann man die Funktion mit level=0.9 aufrufen und aus dem Output die obere Grenze ablesen. > Sprop(m = 1, n = 500, N=10000, level = 0.9) Sprop object: Sample proportion estimate With finite population correction: N= 10000 Proportion estimate: 0.002 Standard error: 0.0019 90% approximate hypergeometric confidence interval: proportion: [-0.0012,0.0052] number in population: [-12,52] 90% exact hypergeometric confidence interval: proportion: [1e-04,0.0093] number in population: [1,93] Als obere Grenze des einseitigen exakten 95%-Konfidenzintervalls ergibt sich somit 0.0093 für den Anteil bzw. 93 für die Anzahl. Die ausgegebene untere Grenze wird nicht weiter berücksichtigt. Man beachte, dass das approximative Konfidenzintervall hier nicht sinnvoll ist.
2.12.4 Bestimmung des Stichprobenumfangs bei Mittelwertschätzung Die Funktion sample.size.mean(·) im Paket samplingbook berechnet den notwendigen Stichprobenumfang, um einen Mittelwert mit vorgegebener Genauigkeit e (halbe Länge des Konfidenzintervalls, siehe S. 40) zu schätzen.
56
2 Einfache Stichprobenverfahren
> sample.size.mean(e, S, N = Inf, level = 0.95) # # # # # # # #
e S N
level
positive number specifying the precision which is half width of confidence interval standard deviation in population positive integer for population size. Default is N=Inf, which means that calculations are carried out without finite population correction. coverage probability for confidence intervals. Default is level=0.95.
Die Genauigkeit e und die Standardabweichung S müssen der Funktion übergeben werden. Die Angaben zum Populationsumfang N und zur Überdeckungswahrscheinlichkeit des Konfidenzintervalls sind optional. Als Beispiel betrachten wir den Fall, dass bei einer endlichen Grundgesamtheit von N = 300 und einer Standardabweichung von S = 10 eine Genauigkeit von e = 4 (bzw. e = 1) erreicht werden soll. Das Konfidenzniveau soll jeweils 95% betragen. Für eine Genauigkeit von e = 4 ergibt sich: > sample.size.mean(e=4, S=10, N=300) sample.size.mean object: Sample size for mean estimate With finite population correction: N=300, precision e=4 and standard deviation S=10 Sample size needed: 23 Für eine Genauigkeit von e = 1 ergibt sich: > sample.size.mean(e=1, S=10, N=300) sample.size.mean object: Sample size for mean estimate With finite population correction: N=300, precision e=1 and standard deviation S=10 Sample size needed: 169 Der benötigte Stichprobenumfang beträgt bei einer Genauigkeit von e = 4 somit 23 Personen und bei einer Genauigkeit von e = 1 sogar 169 Personen.
2.12
Numerische Umsetzung
57
2.12.5 Bestimmung des Stichprobenumfangs bei Anteilsschätzung Die Funktion sample.size.prop(·) aus dem Paket samplingbook ist das Analogon zur Funktion sample.size.mean(·) und berechnet den notwendigen Stichprobenumfang, um einen Anteil mit vorgegebener Genauigkeit e zu schätzen. > sample.size.prop(e, P = 0.5, N = Inf, level = 0.95) # # # # # # # # #
e P N
level
positive number specifying the precision which is half width of confidence interval expected proportion of events with domain between values 0 and 1. Default is P=0.5. positive integer for population size. Default is N=Inf, which means that calculations are carried out without finite population correction. coverage probability for confidence intervals. Default is level=0.95.
Die Genauigkeit e muss der Funktion übergeben werden, die Angaben zum Anteil an „Ja“-Antworten bzw. positiven Ereignissen P, zum Populationsumfang N und zur Überdeckungswahrscheinlichkeit des Konfidenzintervalls sind optional. Für den Anteil an „Ja“-Antworten bzw. positiven Ereignissen ist das „Worst Case“ Szenario von P=0.5 voreingestellt. Alternativ kann man für P eine obere Abschätzung für Anteile kleiner 0.5 bzw. eine untere Abschätzung für Anteile größer 0.5 angeben. Zunächst wollen wir uns mit der benötigten Stichprobengröße für Wahlprognosen wie in Beispiel 2.16 beschäftigen. Kurz vor der Bundestagswahl 2005 ist eine größere Genauigkeit der Prognosen für die einzelnen Parteien äußerst wichtig. Deshalb möchte ein Meinungsforschungsinstitut eine Stichprobe ziehen, mit der die Anteile der einzelnen Parteien mit einer Genauigkeit von e = 0.01 geschätzt werden können. Will man die Anteile für alle Parteien mit dieser Genauigkeit schätzen, sollte man wieder P = 0.5 wählen. > sample.size.prop(e=0.01, P=0.5, N=Inf) sample.size.prop object: Sample size for proportion estimate Without finite population correction: N=Inf, precision e=0.01 and expected proportion P=0.5 Sample size needed: 9604 Will man nur den Anteil einer bestimmten Partei abschätzen, kann man Vorwissen aus früheren Wahlergebnissen nutzen. Die Tendenzen für die SPD lassen beispielsweise erkennen, dass die Partei das Wahlergebnis bei der letzten Wahl 2002, nämlich 39%, nicht überschreiten wird. Man erhält somit
58
2 Einfache Stichprobenverfahren
> sample.size.prop(e=0.01, P=0.39, N=Inf) sample.size.prop object: Sample size for proportion estimate Without finite population correction: N=Inf, precision e=0.01 and expected proportion P=0.39 Sample size needed: 9139 Weiterhin betrachten wir nochmal das Beispiel 2.13 auf S. 32 zur Umfrage zur Verbesserung des Betriebsklimas in einem Betrieb mit N = 300 Mitarbeitern. Die flexibleren Arbeitszeiten wurden erfolgreich umgesetzt. Nach einem Jahr sollen diese mit der Frage „Sind Sie mit der neuen Arbeitszeitregelung zufrieden?“ (Ja/Nein) evaluiert werden. Die Umfrage soll dabei möglichst effizient sein, weshalb man den Stichprobenumfang diesmal im Vorhinein berechnen will. Deshalb werden die zwei Genauigkeiten e = 0.05 und e = 0.1 zur Auswahl gestellt, wobei als Wahrscheinlichkeit P = 0.5 gewählt wurde, da zu der aktuellen Einschätzung noch kein Vorwissen vorhanden ist. Für eine Genauigkeit von e = 0.05 ergibt sich: > sample.size.prop(e=0.05, P=0.5, N=300) sample.size.prop object: Sample size for proportion estimate With finite population correction: N=300, precision e=0.05 and expected proportion P=0.5 Sample size needed: 169 Für eine Genauigkeit von e = 0.1 ergibt sich: > sample.size.prop(e=0.1, P=0.5, N=300) sample.size.prop object: Sample size for proportion estimate With finite population correction: N=300, precision e=0.1 and expected proportion P=0.5 Sample size needed: 73 Entsprechend lassen sich die Werte aus den Tabellen 2.2 und 2.3 mit der Funktion sample.size.prop(·) erzeugen. Die erste Spalte von Tabelle 2.2 ergibt sich durch: > sample.size.prop(e=0.1, P=0.2, N=10) sample.size.prop object: Sample size for proportion estimate With finite population correction: N=10, precision e=0.1
2.12
Numerische Umsetzung
and expected proportion P=0.2 Sample size needed: 9 > sample.size.prop(e=0.1, P=0.3, N=10) sample.size.prop object: Sample size for proportion estimate With finite population correction: N=10, precision e=0.1 and expected proportion P=0.3 Sample size needed: 9 > sample.size.prop(e=0.1, P=0.4, N=10) sample.size.prop object: Sample size for proportion estimate With finite population correction: N=10, precision e=0.1 and expected proportion P=0.4 Sample size needed: 10 > sample.size.prop(e=0.1, P=0.5, N=10) sample.size.prop object: Sample size for proportion estimate With finite population correction: N=10, precision e=0.1 and expected proportion P=0.5 Sample size needed: 10 Die Werte in den weiteren Spalten und in Tabelle 2.3 erhält man analog.
59
Kapitel 3
Modellbasierte Stichprobenverfahren
In den bisherigen Anwendungen sind wir davon ausgegangen, dass es eine interessierende Größe Y gibt und wir darüber hinaus keine weiteren Informationen erheben. In vielen praktischen Anwendungen liegen jedoch über die Population weitere Informationen vor. Wir wollen in diesem Kapitel zeigen, wie man diese bereits vorliegenden Informationen nutzen kann, um bessere Schätzungen zu erhalten.
Beispiel 3.1: Bei einer Wählerumfrage ist es naheliegend, Informationen von der letzten Wahl zu nutzen. Da die Ergebnisse hierbei bekannt sind, stellt man typischerweise neben der aktuellen Wahlabsicht auch die Frage nach dem Verhalten bei der letzten Wahl. Nehmen wir nun an, in der gezogenen Stichprobe geben 40% der Befragten an, bei der letzten Wahl die Partei ABC gewählt zu haben. Die Partei ABC hat aber bei der letzten Wahl tatsächlich nur 35% der Stimmen erhalten. Damit ist die Menge der Individuen, die bei der letzten Wahl für Partei ABC gestimmt hat, überrepräsentiert, nämlich mit 40% statt mit 35%. Geht man davon aus, dass ein Großteil der Wähler einer Partei treu bleibt und diese bei der nächsten Wahl wieder wählt, so legt der überproportionale Anteil der Wähler von Partei ABC in der Stichprobe die Vermutung nahe, dass die Partei ABC auch bei der aktuellen Wahlabsicht in der Stichprobe besser abschneidet als in der Grundgesamtheit. Nehmen wir an, in der Stichprobe haben 44% ihre aktuelle Präferenz für Partei ABC angegeben. Basierend auf den obigen Überlegungen sollte man rein intuitiv sofort Zweifel haben, ob die Partei ABC bei der nächsten Wahl tatsächlich mit 44% abschneiden wird. Man mag mutmaßen, ob dieses Ergebnis eine Überschätzung ist. Es gibt nun verschiedene Möglichkeiten, dieses Ergebnis zu korrigieren. Aufgrund der Informationen über die letzte Wahl gehen wir davon aus, dass man in der Stichprobe den Anteil der Wähler von Partei ABC um 5 Prozentpunkte überschätzt und korrigiert das Ergebnis von 44 auf 39%. Eine andere Möglichkeit ist, dass die Partei in der Stichprobe aktuell ihre Anhängerschaft um 10% (von 40 auf 44%) gesteigert hat. Überträgt man dies auf die Grundgesamtheit, so ergibt sich eine Schätzung von 38, 5% für diese Partei. Die Methodik derartiger Korrekturen wollen wir in diesem Kapitel vorstellen.
G. Kauermann, H. Küchenhoff, Stichproben, Springer-Lehrbuch, C Springer-Verlag Berlin Heidelberg 2011 DOI 10.1007/978-3-642-12318-4_3,
61
62
3 Modellbasierte Stichprobenverfahren
Betrachten wir zunächst die Struktur des obigen Beispiels genauer. Zusätzlich zu der interessierenden Variablen Y steht uns weitere Information zur Verfügung, in diesem Fall das Wahlverhalten bei der letzten Wahl. Diese Information bezeichnen wir im Folgenden als Sekundärinformation oder auch Hilfsvariable und notieren sie mit X . Die interessierende Größe Y nennen wir in diesem Fall auch Primärinformation oder Zielvariable. Sekundärinformation kann sinnvoll eingesetzt werden, wenn sie folgende Eigenschaften aufweist: 1. Die Sekundärinformation X steht in einem engen Zusammenhang zur Primärinformation und interessierenden Größe Y . 2. Von der Sekundärinformation X ist der Mittelwert X¯ der Population bekannt. Die Sekundärinformation ermöglicht es uns, die Schätzung für das interessierende Merkmal Y zu verbessern. Allgemein benutzen wir hierzu ein statistisches Modell für den Zusammenhang zwischen X und Y . Im obigen Beispiel bedeutet dies, dass die Differenz bzw. der Quotient der Anteile zwischen den beiden Wahlen durch eine Konstante gut beschreibbar ist. Wir unterstellen somit ein Modell und sprechen daher von modellbasierten Schätzverfahren. Zu beachten ist dabei, dass wir üblicherweise von der Sekundärinformation Kenntnisse über den Mittelwert X¯ in der Population benötigen, wohingegen explizite Kenntnisse über die einzelnen X i nicht notwendig sind. Die Kenntnis von X¯ kann dabei aus historischen Daten herrühren, oder aber X¯ ist aufgrund von statistischen Erhebungen (wie z.B. statistischen Jahrbüchern) hinreichend genau bekannt. Abschließend bemerken wir, dass die Sekundärinformation bei der Stichprobenziehung nicht genutzt wird, d.h. wir ziehen aus der Population eine einfache Zufallsstichprobe. Stichprobenverfahren, die Hilfsvariablen bei dem Auswahlverfahren zur Stichprobenziehung verwenden, werden wir in Kap. 4 besprechen.
3.1 Differenzenschätzer Wir betrachten zunächst die Situation, dass neben dem interessierenden Merkmal Y eine Hilfsvariable X vorliegt. Es soll der Populationsmittelwert Y¯ geschätzt werden, wobei gleichzeitig der Mittelwert X¯ in der Population bekannt ist. Wir gehen weiter davon aus, dass der Unterschied zwischen den beiden Merkmalen gering ist oder genauer gesagt, dass die Differenz zwischen beiden Merkmalen eine geringe Streuung aufweist. Inhaltlich gesprochen heißt dies, dass X und Y ähnliche Werte annehmen. Wir analysieren daher das Merkmal Di = Yi − X i , das heißt die Differenz zwischen Primär- und Sekundärinformation. In der Population gilt nun die Beziehung ¯ Y¯ = X¯ + D,
(3.1)
3.1
Differenzenschätzer
63
N wobei D¯ = i=1 Di /N ist. Betrachtet man die rechte Seite von (3.1) so zeigt sich, dass X¯ bekannt ist, wohingegen D¯ unbekannt ist. Da in der Stichprobe beide Merkmale erhoben werden, kann der (unbekannte) Mittelwert D¯ der Differenz wie folgt geschätzt werden: n n 1
1
¯ ¯ dk = (yk − xk ) = y¯ − x. ¯ D=d= n n k=1
k=1
Damit erhalten wir unmittelbar eine Schätzung für Y¯ , indem wir in Formel (3.1) ¯ D durch d¯ schätzen. Dies liefert den Differenzenschätzer: ¯ Y¯ D := X¯ + d.
(3.2)
Zu beachten ist, dass neben der Schätzung der Differenz d¯ der aus der Grundgesamtheit bekannte Mittelwert X¯ in die Formel eingeht. Zu einer anderen Interpretation des Differenzenschätzers gelangt man durch folgende einfache Umformung: Y¯ D = y¯ + ( X¯ − x). ¯ Die Schätzung ohne Zusatzinformation wird um die Abweichung zwischen Grundgesamtheit und Stichprobe bezüglich des Merkmals X korrigiert. Wir wollen die Funktionsweise des Differenzenschätzers an einem kleinen Zahlenbeispiel motivieren. Beispiel 3.2: Wir betrachten exemplarisch eine kleine Population mit folgender Primär- und Sekundärinformation: X 1 = 11, X 2 = 11, X 3 = 11, X 4 = 21, X 5 = 21, Y1 = 9, Y2 = 10, Y3 = 11, Y4 = 18, Y5 = 22. Das zugehörige Merkmal Di = Yi − X i ist somit gegeben durch D1 = −2, D2 = −1, D3 = 0, D4 = −3, D5 = 1. Wir betrachten X i als Sekundärinformation und nehmen an, dass X¯ = 15 bekannt ist, wohingegen die einzelnen Werte von X i vor Stichprobenziehung unbekannt sind. Ebenso sind natürlich die Werte von Yi sowie die Werte von Di unbekannt. Wie ziehen eine Stichprobe vom Umfang n = 3. Es ergeben sich für die folgenden möglichen Stichproben die entsprechenden Differenzenschätzer:
64
3 Modellbasierte Stichprobenverfahren Stichprobe
Gezogene Individuen
d¯
Y¯ D
1 2 3 4 5 6 7 8 9 10
1 1 1 1 1 1 2 2 2 3
−1 −2 −2/3 −5/3 −1/3 −4/3 −4/3 0 −1 −2/3
14,00 13,00 14,33 13,33 14,66 13,66 13,66 15,00 14,00 14,33
2 2 2 3 3 4 3 3 4 4
3 4 5 4 5 5 4 5 5 5
Wir erhalten E Y¯ D = Y¯ = 14, d.h. der Differenzenschätzer ist erwartungstreu. ¯ = D¯ gilt. Weiter erhält man Dasist nicht sonderlich überraschend, weil E(d) Y¯ D = 0, 33. Von Interesse ist nun die Frage, ob und warum sich die AnVar wendung des Differenzenschätzers lohnt, insbesondere im Vergleich zur bisher behandelten einfachen Zufallsstichprobe. Vergleicht man die Varianz des Differenzenschätzers mit der einer einfachen Zufallsstichprobe (siehe dazu Abschn. 2.6.2, Beispiel 2.11), so zeigt sich, dass die einfache Zufallsstichprobe mit einer ¯ Varianz von Var Y E S = 4, 33 ein weitaus ungenaueres Ergebnis liefert. Wir erhalten also durch die Verwendung des Differenzenschätzers eine deutliche Reduktion der Varianz und damit eine höhere Genauigkeit des Schätzers. Bildlich ist dies in Abb. 3.1 gezeigt. Linkerhand sieht man Sekundär- und Primärinformation gegeneinander aufgetragen. Die mittlere Graphik zeigt die Ausprägungen des einfachen arithmetischen Mittels Y¯ E S basierend auf den in der obigen Tabelle gezogenen Stichproben. Rechterhand sieht man die Ausprägungen des zugehörigen Differenzenschätzers Y¯ D . Die Varianzreduktion ist klar ersichtlich, denn die Ausprägungen des Differenzenschätzers schwanken deutlich weniger um den wahren Mittelwert Y¯ = 14.
14
16 18 X
20
2
4
6
8
mögliche Stichprobe
10
16 14 12 10
16 14 12 10
18 Y 14 10
12
Differenzenschätzer Schätzer für den Mittelwert
Arithmetisches Mittel Schätzer für den Mittelwert
22
Primär−/Sekundärinformation
2
4
6
8
10
mögliche Stichprobe
Abb. 3.1 Darstellung von Sekundärinformation X i und Primärinformation Yi (linke Graphik). Y¯ D (rechte Graphik) für die 10 möglichen Realisierte Ergebnisse von y¯ (mittlere Graphik) und Stichproben
Um die Streuung und das Konfidenzintervall des Differenzenschätzers zu bestimmen, nutzen wir, dass X¯ ein fester, bekannter Wert ist und somit eine Varianz von 0 hat. Damit ist die Varianz von Y¯ D gleich der Varianz von d¯ und es gilt:
3.1
Differenzenschätzer
65
S2 ¯ = N −n D, Var Y¯ D = Var(d) N −1 n N
1 2 ¯ 2. mit S D := (Di − D) N i=1
Wir erhalten damit eine Schätzung für die Varianz unter Ausnutzung der Formeln für die einfache Zufallsstichprobe: 2 N − n sD ¯ ¯ Var Y D = Var(d) = , N n n 1
2 ¯ 2. (dk − d) mit s D := n−1 k=1
Das (1 − α)-Konfidenzintervall hat die Form
Y¯ D − z 1− α2 Var Y¯ D , Y¯ D + z 1− α2 Var Y¯ D , wobei z 1− α2 das 1 − α2 -Quantil der Standardnormalverteilung ist.
Differenzenschätzer
Gegeben sei eine einfache Zufallsstichprobe mit der Sekundärinformation x1 , . . . , x n und der Primärinformation y1 , . . . , yn . Der Mittelwert X¯ des Hilfsmerkmals in der Grundgesamtheit sei bekannt. Ein erwartungstreuer Schätzer für den Mittelwert Y¯ ist gegeben durch den Differenzenschätzer n 1
Y¯ D = X¯ + (yk − x k ). n k=1
Die Varianz von Y¯ D kann geschätzt werden durch n
N −n 1 {(yk − x k ) − ( y¯ − x)} Var Y¯ D = ¯ 2. N n(n − 1) k=1
66
3 Modellbasierte Stichprobenverfahren
Wir wollen nun die Eigenschaften des Differenzenschätzers und des Schätzers der einfachen Zufallsstichprobe Y¯ E S theoretisch miteinander vergleichen. Wegen ¯ der Unverzerrtheit von d ist auch Y¯ D unverzerrt. Die beiden Schätzer unterscheiden sich somit nur in ihren Varianzen. Bei der Varianz des Differenzenschätzers ist nur die Streuung des Merkmals D relevant, wohingegen es bei der Varianz von Y¯ E S auf die Streuung von Y in der Population ankommt. Es gilt Var Y¯ D S2 = D2 , SY Var Y¯ E S N 2 = ¯ 2 mit S D i=1 (Di − D) /N . D.h. die Varianz des Differenzenschätzers ist kleiner, wenn die Varianz von D die Varianz von Y in der Population unterschreitet. Unter 2 Ausnutzung der Definition von Di = Yi − X i lässt sich die Populationsvarianz S D wie folgt darstellen: 2 = SY2 + S X2 − 2S X Y . SD
(3.3)
X und Y in der Grundgesamtheit, d.h. S X Y = NDabei ist S X Y die Kovarianz von 2 ¯ ¯ i=1 (Yi − Y )(X i − X )/N , und S X die Varianz von X in der Grundgesamtheit. Nach einfachen Umformungen ergibt sich folgende Bedingung zum Vergleich der beiden Schätzer: SX Y 1 Y¯ E S ⇐⇒ 2 ≥ . Var Y¯ D ≤ Var 2 SX Somit liefert der Differenzenschätzer eine Varianzreduktion, wenn die beiden Merkmale eine starke positive Korrelation aufweisen, also wenn X und Y ähnliche Werte annehmen. In konkreten Anwendungen können beide Schätzer durch Berechnung ihrer geschätzten Varianzen miteinander verglichen werden, um festzustellen, ob sich eine Varianzreduktion auch praktisch einstellt. Beispiel 3.3: (Hochrechnung bei einer Wahl): Wir setzen das Beispiel 3.1 zur Wählerumfrage fort und nehmen an, dass wir an dem Wähleranteil PY für eine Partei ABC interessiert sind. Dazu bezeichnen wir mit Y das entsprechende Merkmal, d.h. Yi = 1, wenn der i-te Wähler die entsprechende Partei wählen wird und Yi = 0 sonst. Wir ziehen eine einfache Zufallsstichprobe und erhalten die Beobachtungen y1 , . . . , yn . Bei einer einfachen Hochrechnung aufgrund einer Zufallsstichprobe unter Vernachlässigung von Sekundärinformation ergibt Y = y¯ mit einer Varianz von PY · (1 − PY )/n. Da es sich sich der Schätzer P angenommenerweise um eine große Population handelt, wird der Korrekturfaktor (N − n)/N vernachlässigt. Wir vergleichen nun das Vorgehen mit der Differenzenschätzung. Hierzu erheben wir zusätzlich das Merkmal X i , welches angibt, ob die befragte Person die Partei ABC bei der letzten Wahl gewählt hat, ebenfalls
3.1
Differenzenschätzer
67
kodiert mit X i = 1, falls der i-te Wähler die Partei gewählt hat, und X i = 0 andernfalls. Für die Ausprägungen von X und Y ergibt sich folgende Tabelle: Y 0
1
Gesamt
0
P00
P01
1 − PX
1
P10
P11
PX
PY
1
X
Gesamt 1 − PY
Dabei ist P01 der Anteil der Wähler, die die Partei ABC wählen werden, obwohl sie diese bei der letzten Wahl nicht gewählt haben und P10 der Anteil der Wähler, die die Partei ABC nicht wählen werden, obwohl sie es bei der letzten Wahl getan haben. Analog dazu ist P11 der Anteil der treuen Wähler der Partei ABC und P00 der Anteil der Wähler, die weder früher noch heute ihre Sympathien bei Partei ABC haben. Wir definieren das Merkmal D = Y − X mit den Ausprägungen {−1, 0, 1} und den zugehörigen Wahrscheinlichkeiten P10 , P00 + P11 und P01 . Zur Berechnung 2. der Varianz des Differenzenschätzers benötigen wir die Varianz von D, d.h. S D Diese kann entweder direkt aus der Wahrscheinlichkeitsverteilung von D berechnet werden oder aus der Formel (3.3). Hierzu müssen wir die Kovarianz von X und Y berechnen, welche in dem konkreten Beispiel erhältlich ist durch S X Y = E(X Y ) − E(X ) E(Y ) = P11 − PX PY . Unter Vernachlässigung des Korrekturfaktors für endliche Populationen ergibt sich damit die Varianz des Differenzenschätzers zu 1 Y¯ D = {PY (1 − PY ) + PX (1 − PX ) − 2 (P11 − PX PY )} . Var n Y , wenn S 2 ≤ Wir erhalten somit eine Varianzreduktion im Vergleich zu P X 2S X Y , also wenn PX (1 − PX ) ≤ 2 (P11 − PX PY ) P11 ⇔ (1 − PX ) ≤ 2 − PY . PX Dabei ist P11 /PX der Anteil der Wiederwähler der Partei ABC. Ist dieser hoch, so ist mit dem Differenzenschätzer eine Varianzreduktion möglich. Ist hingegen
68
3 Modellbasierte Stichprobenverfahren
die Wiederwahl einer Partei unabhängig von der vorherigen Wahl, das heißt ist P11 = PX PY , so liefert der Differenzenschätzer keine Varianzreduktion. In diesem Falle zahlt sich die Ausnutzung der Sekundärinformation nicht aus. Beispielhaft sei hier die Varianz des Differenzenschätzers für folgendes Szenario berechnet: Eine einfache Zufallsstichprobe vom Umfang n = 1 000 ergab folgende Werte: Y 0
1
Gesamt
0
570
10
580
1
80
340
420
Gesamt
650
350
1 000
X
Von der letzten Wahl ist bekannt, dass Partei ABC mit 40% der Stimmen abgeschnitten hat, d.h. PX = 0, 4. Als Wahlprognose für PY ergibt sich ohne Ausnutzung der Sekundärinformation X : 95% − Konfidenzintervall für PY : 0, 35 ± 0, 030 Die Konfidenzgrenzen ergeben sich dabei gemäß der Berechnung 0, 030 ≈ √ 1, 96 0, 35 · 0, 65/999. Nutzt man hingegen die erfragte Information über X aus und korrigiert bezüglich PX (man beachte, dass von den 1 000 Befragten 42% angaben, Partei ABC bei der letzten Wahl gewählt zu haben, wohingegen der wahre Wähleranteil nur bei 40% lag), so ergibt sich der Differenzenschätzer Y¯ D = 0, 35 + (0, 40 − 0, 42) = 0, 33. Die Varianz wird geschätzt aus der beobachteten Verteilung von dk = yk − x k , welche die folgenden Häufigkeiten aufweist: dk Häufigkeit
−1 80
0 910
1 10
Das heißt in 80 Fällen war yk − xk = −1, in 10 Fällen war yk − xk = 1 und in 910 Fällen war für PY ergibt sich durch yk − xk = 0. Das 95%-Konfidenzintervall 1 000 2 2 2 ¯ (dk − d) /999: 0, 33 ± 1, 96 s /1 000, wobei s = D
D
k=1
95% − Konfidenzintervall für PY : 0, 33 ± 0, 018 In diesem Beispiel ist die Varianzreduktion offensichtlich.
3.2
Quotientenschätzer
69
3.2 Quotientenschätzer Ähnlich wie beim Differenzenschätzer nutzen wir beim Quotientenschätzer aus, dass die Sekundärinformation X i als Approximation für Yi gelten kann. Die Grundidee ist dabei, dass X i proportional zu Yi ist, d.h. R X i ≈ Yi , wobei R ein Proportionalitätsfaktor ist (R steht für engl.: ratio). Dabei ist R definiert als Quotient N
R=
i=1 N
Yi =
Y¯ . X¯
(3.4)
Xi
i=1
Formt man Formel (3.4) um, so erhält man Y¯ = R X¯ .
(3.5)
Betrachtet man die rechte Seite von (3.5) so wird ersichtlich, dass der Quotient R unbekannt ist, da Y¯ unbekannt ist und durch eine Stichprobe geschätzt werden soll. Der Mittelwert der Sekundärinformation X¯ wird hingegen als bekannt angenommen. Wir ziehen nun eine einfache Zufallsstichprobe und erheben yk , k = 1, . . . , n zusammen mit der zugehörigen Sekundärinformation xk , k = 1, . . . , n. Hieraus berechnen wir einen Schätzer für den Quotienten R durch n
= r = R
k=1 n
yk = xk
y¯ . x¯
k=1
Aufgrund der Beziehung (3.5) in der Population ergibt sich der Quotientenschätzer, indem wir den unbekannten Faktor R durch seinen Schätzer ersetzen und wir erhalten X¯ . Y¯ Q S = R Beispiel 3.4: Wir führen die Berechnung des Quotientenschätzers exemplarisch mit den Zahlen des Beispiels 3.2 durch. Folgt man der oben aufgeführten fortlaufenden Nummerierung der Stichproben, so ergibt sich mit X¯ = 15 der Quotientenschätzer wie folgt:
70
3 Modellbasierte Stichprobenverfahren Stichprobe
Gezogene Individuen
y¯
x¯
Y¯ Q S
1 2 3 4 5 6 7 8 9 10
1 1 1 1 1 1 2 2 2 3
10, 00 12, 33 13, 67 12, 67 14, 00 16, 33 13, 00 14, 33 16, 67 17, 00
11, 00 14, 33 14, 33 14, 33 14, 33 17, 67 14, 33 14, 33 17, 67 17, 67
13, 64 12, 91 14, 30 13, 26 14, 65 13, 87 13, 60 15, 00 14, 15 14, 43
2 2 2 3 3 4 3 3 4 4
3 4 5 4 5 5 4 5 5 5
Ein Vergleich mit dem Differenzenschätzer zeigt, dass Quotienten- und Differenzenschätzer in diesem Beispiel recht ähnliche Ergebnisse liefern. Dies ist graphisch in Abb. 3.2 dargestellt. Wir wollen nun die Eigenschaften des Quotientenschätzers näher betrachten. Zunächst ist festzuhalten, dass der Quotientenschätzer nicht unverzerrt ist. Dies gilt, obwohl x¯ und y¯ beide unverzerrt sind. Der Quotient zweier unverzerrter Schätzer ist jedoch im Allgemeinen nicht unverzerrt. Der Quotientenschätzer ist jedoch approximativ unverzerrt und die Verzerrung soll daher im Folgenden vernachlässigt werden. Die Varianz des Schätzers ergibt sich approximativ zu (Herleitung siehe unten) 2 N − n SQ S , Y¯ Q S = Var N −1 n
mit 2 SQ S =
N 1
(Yi − R X i )2 . N i=1
14
16 X
18
20
2
4
6
8
mögliche Stichprobe
10
16 14 12 10
16 14 12 10
22 18 Y 14 10
12
Quotientenschätzer Schätzer für den Mittelwert
Differenzenschätzer Schätzer für den Mittelwert
Primär−/Sekundärinformation
2
4
6
8
10
mögliche Stichprobe
Abb. 3.2 Darstellung von Sekundärinformation X i und Primärinformation Yi (linke Graphik). Realisierte Ergebnisse von Y¯ D (mittlere Graphik) und Y¯ Q S (rechte Graphik) für die 10 möglichen Stichproben
3.2
Quotientenschätzer
71
2 ist dabei nicht bekannt, da Y nicht bekannt ist. Somit muss zur Die Größe S Q i S 2 geschätzt werden. Als Schätzer bietet Berechnung von Konfidenzintervallen S Q S sich an:
1
(yk − r xk )2 , n−1 n
2 sQ S =
k=1
so dass sich die geschätzte Varianz von Y¯ Q S ergibt durch: 2 N − n sQ S ¯ = Var Y Q S · . N n
(3.6)
Das (1 − α)-Konfidenzintervall hat die Form
Y¯ Q S − z 1− α2 Var Y¯ Q S , Y¯ Q S + z 1− α2 Var Y¯ Q S , wobei z 1− α2 das 1 − α2 -Quantil der Standardnormalverteilung ist. Da der Schätzer für kleine Stichproben recht variabel ist und insbesondere von den gezogenen Werten xi abhängt, wurde folgender modifizierter Schätzer als Alternative vorgeschlagen (siehe Cochran 1977): X¯ Y¯ Q S . Var Y¯ Q S = Varmod x¯ In einigen Anwendungen ist man auch direkt an dem Quotienten R = Y¯ / X¯ interessiert. Falls die Variable X z.B. den Umsatz von Firmen einer Branche in einem bestimmten Jahr und Y den Umsatz im Folgejahr bezeichnet, so charakterisiert R = y¯ /x¯ gedas Gesamtwachstum (bzw. die Schrumpfung). Dann wird R durch R schätzt. Dazu ist dann nicht unbedingt die Kenntnis von X¯ in der Grundgesamtheit schätzt man aus der Varianzschätzung (3.6) des erforderlich. Die Varianz von R Quotientenschätzers durch Division durch X¯ 2 oder x¯ 2 . Herleitung: Eine Näherungsformel für Erwartungswert und Varianz von nichtlinearen Funktionen erhält man typischerweise durch eine geeignete lineare Approximation, d.h. eine Taylorreihen-Entwicklung. Im Fall des Quotienten y¯ /x¯ betrachten wir die Funktion g(x, y) = y/x. Diese Funktion wird in der Umgebung eines Punktes (x0 , y0 ) wie folgt approximiert: y0 ∂g ∂g y ≈ (x0 , y0 ) (x − x 0 ) + (x 0 , y0 ) (y − y0 ) + x x0 ∂x ∂y y0 y0 1 = − 2 (x − x0 ) + (y − y0 ). x0 x0 x0
g(x, y) =
Da x¯ und y¯ für großes n nahe bei den wahren Werten Y¯ und X¯ liegen, wählen wir (x0 , y0 ) = ( X¯ , Y¯ ) und erhalten:
72
3 Modellbasierte Stichprobenverfahren r=
y¯ = g(x, ¯ y¯ ) ≈ x¯
Y¯ 1 Y¯ − 2 (x¯ − X¯ ) + ( y¯ − Y¯ ). ¯ X X¯ X¯
Nun können wir Erwartungswert und Varianz von r approximativ bestimmen. Zu berücksichtigen ist dabei, dass Y¯ eine unbekannte, jedoch feste Größe ist. Ebenso ist X¯ fest. Es ist ¯ Y¯ Q S : E(r ) ≈ YX¯ , d.h. r ist approximativ erwartungstreu, und damit gilt dies auch für Y¯ ¯ E Y¯ Q S ≈ X = Y¯ . X¯ Für die Varianz von r ergibt sich (da X¯ und Y¯ konstant sind): ¯ 1 Y¯ Y (x¯ − X¯ ) + − ( y¯ − Y¯ ) X¯ X¯ 2 X¯ ¯ 1 Y 1 = Var Var( y¯ − R x) ¯ − x¯ + y¯ = X¯ X¯ X¯ 2 1 Var(y − Rx), = X¯ 2
Var(r ) ≈ Var
mit y − Rx = 1/n
n
k=1 yk
Y¯ Q S ergibt sich damit − Rxk . Für
N N −n 1 1
(Yi − R X i )2 . Var Y¯ Q S = Var(r X¯ ) = Var(y − Rx) = N −1 n N i=1
Ähnlich wie beim Differenzenschätzer wollen wir untersuchen, wann die Verwendung des Quotientenschätzers von Vorteil ist im Vergleich zum Schätzer einer einfachen Zufallsstichprobe. Wenn wir die Sekundärinformation unberücksichtigt lassen und Y¯ durch y¯ schätzen, so erhalten wir die Varianz N − n SY2 Var Y¯ E S = Var ( y¯ ) = · . N −1 n 2 < Das bedeutet, der Quotientenschätzer besitzt eine kleinere Varianz, wenn S Q S 2 etwas genauer. Die Terme (Y − R X )2 sind die SY2 gilt. Betrachten wir also S Q i i S quadratischen Abstände der Y -Werte zu einer Geraden durch den Ursprung mit der Steigung R, also Y = R X . Je besser der Zusammenhang zwischen Y und X durch eine solche Gerade durch den Ursprung beschrieben werden kann, desto geringer ist die Varianz des Quotientenschätzers. Kann der Zusammenhang zwischen Y und X besser durch eine Gerade beschrieben werden, die nicht durch den Ursprung geht, so ist der Regressionsschätzer, den wir im folgenden Abschnitt betrachten, besser geeignet.
3.3
Regressionsschätzer
73
Quotientenschätzer
Gegeben sei eine einfache Zufallsstichprobe mit der Sekundärinformation x1 , . . . , x n und der Primärinformation y1 , . . . , yn . Der Mittelwert X¯ des Hilfsmerkmals in der Grundgesamtheit sei bekannt. Die Größen X und Y werden als proportional modelliert angesehen, d.h. Y = R X. Ein approximativ erwartungstreuer Schätzer für Y¯ ist gegeben durch den Quotientenschätzer y¯ Y¯ Q S = X¯ . x¯ Die Varianz von Y¯ Q S kann geschätzt werden durch 2 n
N −n y¯ 1 ¯ yk − x k . Var Y Q S = N n (n − 1) x¯ k=1
Für kleine Stichproben empfiehlt es sich, die Varianzschätzung mit dem Faktor X¯ /x¯ zu korrigieren.
3.3 Regressionsschätzer Wir haben beim Differenzen- und Quotientenschätzer ausgenutzt, dass die Sekundärinformation als Approximation für die Primärinformation dienen kann. Beim Quotientenschätzer bedeutet das, dass X und Y annähernd proportional sind. Diese Annahme soll nun dahingehend verallgemeinert werden, dass wir annehmen, dass die Sekundärinformation X einen Einfluss auf die interessierende Variable Y hat. Diesen Einfluss modellieren wir in Form einer Regression und nehmen somit an, dass A + B X als Approximation für Y dienen kann. Beispiel 3.5: Ein Unternehmen plant, ein neues Produkt einzuführen und möchte hierzu eine Marktanalyse vornehmen. Es wird vermutet, dass das Produkt in verschiedenen Altersgruppen unterschiedlich angenommen wird. Ferner scheint es plausibel, dass Frauen dem Produkt anders gegenüberstehen als Männer. Das Unternehmen besitzt Sekundärinformationen über die Population (beispielsweise
74
3 Modellbasierte Stichprobenverfahren
aus statistischen Jahrbüchern). Insbesondere ist die Altersverteilung je Geschlecht bekannt. Das Unternehmen wählt Individuen aus der Population zufällig aus (einfache Zufallsstichprobe) und befragt diese nach der Produktakzeptanz. Ist nun die Alters- oder Geschlechtsstruktur in der Stichprobe, bedingt durch die zufällige Auswahl der Individuen, anders als in der Population, so kann und sollte das Stichprobenergebnis diesbezüglich korrigiert werden. Liegt zum Beispiel der Frauenanteil in der Stichprobe unter dem Frauenanteil in der Bevölkerung und sind Frauen im Mittel dem Produkt mehr abgeneigt als Männer, so sollte das Stichprobenergebnis korrigiert werden. Wir wollen zunächst annehmen, dass wir eine eindimensionale Sekundärinformation X vorliegen haben. Ähnlich wie bei Differenzen- und Quotientenschätzer benötigen wir dabei nicht die einzelnen Werte von X i in der Grundgesamtheit, sondern nur den entsprechenden Mittelwert: N 1
Xi . X¯ = N i=1
Wir nehmen weiter an, dass sich die Zielgröße Y als lineares Regressionsmodell beschreiben lässt in der Form Yi = A + B X i + E i , wobei Ei als Residuum bezeichnet wird. Für das Residuum E i soll gelten, dass es im Mittel den Wert 0 annimmt, das heißt N 1
¯ E= E i = 0. N i=1
Durch A und B ist somit die Regressionsgerade von Y auf X in der Grundgesamtheit gegeben. Man beachte, dass weder Yi noch A, B und E i bekannt sind. Gemäß dem Prinzip der kleinsten Quadrate sind A und B definiert durch N
B=
X i − X¯
Yi − Y¯
i=1 N
X i − X¯
2
,
A = Y¯ − B X¯ .
(3.7)
i=1
Aus der Formel für A ergibt sich insbesondere, dass sich der interessierende Mittelwert Y¯ berechnen lässt durch Y¯ = A + B X¯ .
(3.8)
3.3
Regressionsschätzer
75
Wir ziehen nun eine einfache Zufallsstichprobe vom Umfang n und erhalten die Datenpaare (xk , yk ), k = 1, . . . , n. Basierend auf diesen Datenpaaren schätzen wir A und B durch n
B=
(xk − x) ¯ (yk − y¯ )
k=1 n
, ¯ (xk − x)
= y¯ − A B x. ¯
2
k=1
Nun können wir Gl. (3.8) ausnutzen, indem wir wie gehabt die unbekannten Größen durch deren Schätzer ersetzen. Auf diese Weise erhalten wir den Regressionsschätzer durch + B X¯ . Y¯ R E G = A
(3.9)
Setzt man die Schätzer in die obige Gleichung ein, so lässt sich der lineare Regressionsschätzer auch schreiben als: B X¯ − x¯ . Y¯ R E G = y¯ + Diese Form weist starke Parallelen zum Differenzenschätzer auf. Der Unterschied besteht darin, dass beim Differenzenschätzer B = 1 gesetzt wird, wohingegen beim Regressionsschätzer der Koeffizient B aus den Daten geschätzt wird. Somit korrigiert der Regressionsschätzer das arithmetische Mittel y¯ mit Hilfe der Sekundärinformation. Als approximative Varianz ergibt sich N N −n 1 1
N −n 1 · S E2 , Var Y¯ R E G = (Yi − A − B X i )2 = N −1 n N N −1 n i=1
N E i2 /N . Die Varianzformit S E2 als Varianz der Residuen E i , das heißt S E2 = i=1 2 mel kann in dieser Form nicht direkt genutzt werden, weil S E unbekannt ist. Deshalb wird S E2 aus den Residuen der Stichprobe geschätzt durch & S E2 =
2 1 − Bxk . yk − A (n − 2) n
k=1
Dabei wird wie in der Regression üblich durch den Faktor (n − 2) dividiert, da zwei Parameter ( A und B) zu schätzen sind. In der Stichprobenliteratur findet man aber auch die Division durch (n − 1). Für Stichproben üblicher Größe ist der Unterschied jedoch vernachlässigbar. Insgesamt schätzt man die Varianz durch
76
3 Modellbasierte Stichprobenverfahren
N −n Var Y¯ R E G = N N −n = N
1 & S2 n E n
2 1 1 − Bxk yk − A n (n − 2) k=1 n
2 N −n 1 1 = B(xk − x) ¯ . (yk − y¯ ) − N n (n − 2) k=1
+ Bei der letzten Umformung wurde y¯ = A B x¯ benutzt. Das (1 − α)Konfidenzintervall hat die Form
¯ ¯ ¯ ¯ Y R E G − z 1− α2 Var Y R E G , Y R E G + z 1− α2 Var Y R E G , wobei z 1− α2 das 1 − α2 -Quantil der Standardnormalverteilung ist. Wir wollen der Frage nachgehen, ob sich der Einsatz eines Regressionsschät zers lohnt im Vergleich zur einfachen Zufallsstichprobe. Wir erhalten Var Y¯ E S ≥ Var Y¯ genau dann, wenn S 2 ≥ S 2 . Einfache Umformungen und die AusnutREG
Y
E
zung der Definition von A und B in (3.7) liefern SY2 =
N 1
(Yi − Y¯ )2 N i=1
=
N 2 1 Yi − Y¯ − B X¯ − B X¯ N i=1
=
N 2 1 Yi − A − B X i + B X i − X¯ N
=
S E2
i=1
+ B 2 S X2 .
(3.10)
N Wir schreiben B als S X Y /S X2 mit S X Y = i=1 (X i − X¯ )(Yi −Y¯ )/N . Man beachte, dass ρ = S X Y /(S X SY ) die Korrelation zwischen X und Y wiedergibt. Wir erhalten indem wir (3.10) durch SY2 teilen 1=
S E2 SY2
+ ρ2 ⇔
S E2 SY2
= (1 − ρ 2 ).
Wir können somit festhalten: Je größer die Korrelation zwischen X und Y , desto vorteilhafter ist die Benutzung des Regressionsschätzers. Die Größe ρ 2 wird auch als Bestimmtheitsmaß einer Regression bezeichnet.
3.3
Regressionsschätzer
Herleitung:
77
Nachfolgend ist die Herleitung der Varianz des Regressionsschätzers geliefert. Y¯ R E G − Y¯ = Var Y¯ R E G = Var + = Var( A B X¯ − Y¯ ) = Var( y¯ − B x¯ + B X¯ − Y¯ ) ≈∗ Var( y¯ − B x¯ + B X¯ − Y¯ ) = Var( y¯ − A − B x) ¯ n
1 (yk − A − Bxk ) = Var n k=1 n 1
1 N −n 2 = Var S . Ek = n n N −1 E k=1
Aus der Herleitung ist ersichtlich, dass die Approximation ∗ darauf basiert, dass die Ungenauigkeit der Schätzung in dem Parameter B unberücksichtigt bleibt. Eine andere Möglichkeit der Herleitung kann ähnlich wie beim Quotientenschätzer mit Hilfe einer Taylorreihenentwicklung durchgeführt werden (siehe z.B. Särndal, Swenson & Wretman 1992).
Regressionsschätzer
Gegeben sei eine einfache Zufallsstichprobe mit der Sekundärinformation x1 , . . . , x n und der Primärinformation y1 , . . . , yn . Der Mittelwert X¯ des Hilfsmerkmals in der Grundgesamtheit sei bekannt. Der Regressionsschätzer für den Mittelwert Y¯ ist gegeben durch Y¯ R E G = y¯ + B( X¯ − x), ¯ mit n
B=
k=1
(xk − x) ¯ (yk − y¯ ) n
. (xk − x) ¯
2
k=1
Die Varianz von Y¯ R E G kann geschätzt werden durch n
2 1 N −n Y¯ R E G = Var B(x k − x) ¯ . (yk − y¯ ) − N n (n − 2) k=1
78
3 Modellbasierte Stichprobenverfahren
Die Idee des Regressionsschätzers lässt sich direkt auf den Fall mehrerer Sekundärvariablen erweitern. Seien dazu X und Z zwei Variablen, die die Sekundärinformation zu Y darstellen. Beispielsweise ist X das Alter und Z das Geschlecht. Wir nehmen an, dass Y = A + B X X + B Z Z + E. Die Regressionskoeffizienten A, B X und B Z ergeben sich aus den Daten (xk , z k , yk ) der Stichprobe durch eine einfache kleinste Quadrateschätzung. Unter Ausnutzung von Matrixalgebra lässt sich der Schätzer schreiben als ⎞−1 ⎛ ⎞ ⎛ ⎛ ⎞ ⎛ ⎞ ⎞ n n A 1 1
⎝ xk ⎠ (1, xk , z k )⎠ ⎝ ⎝ x k ⎠ yk ⎠ . ⎝ BX ⎠ = ⎝ zk zk BZ k=1 k=1 ⎛
Damit ergibt sich der Regressionsschätzer durch + B Z Z¯ B X X¯ + Y¯ R E G = A ¯ + B Z ( Z¯ − z¯ ). = y¯ + B X ( X¯ − x) k = yk − A − Die Varianz ergibt sich ebenfalls analog. Es sei E B X xk − BZ zk das geschätzte Residuum. So ergibt sich die Schätzung für die Varianz gemäß n
1 N −n 1 k2 . E Var Y¯ R E G = N n (n − 3) k=1
Dabei wird der Faktor n − 3 benutzt, weil 3 Parameter zu schätzen sind, A, B X und B Z .
3.4 Zusammenhang der Schätzer Modellbasierte Stichprobenverfahren bauen auf Modellen auf, die den Einfluss der Sekundärinformation X auf Y beschreiben. Das globale Modell ist dabei ein Regressionsmodell, d.h. Y ergibt sich als lineare Approximation von X . Im Falle, dass diese lineare Approximation, dargestellt als Gerade, durch den Ursprung geht, ergibt sich der Quotientenschätzer. Fordert man stattdessen, dass die Gerade die Steigung 1 hat, so resultiert der Differenzenschätzer. Somit stellt das lineare Regressionsmodell den Kern von modellbasierten Verfahren dar. Die zu Grunde liegenden Modelle der einzelnen Schätzer lassen sich somit wie folgt schreiben:
3.5
Beispiel
79
Regressionsschätzer : Yi = A + B X i Quotientenschätzer : Yi = A + B X i mit A = 0 Differenzenschätzer : Yi = A + B X i mit B = 1.
Es ist zu beachten, dass die Herleitung der Schätzverfahren nicht auf der Gültigkeit eines linearen Regressionsmodells als datengenerierendem Prozess basiert, sondern nur die Regressionsgerade der Grundgesamtheit als Hilfsmittel benutzt. Da das lineare Regressionsmodell hier nicht mit den üblichen Modellannahmen verwendet wird, sind wir auf diese auch nicht näher eingegangen. Särndal et al. (1992) verwenden daher als Konsequenz nicht den Begriff modellbasiert, sondern den Begriff der „modellunterstützten“ (model assisted) Schätzung.
3.5 Beispiel 3.5.1 Experiment: Geld in der Börse Um die Wirkung der drei vorgestellten modellbasierten Schätzer zu veranschaulichen, wollen wir diese anhand eines kleinen Beispiels miteinander vergleichen (vergleiche auch Thompson 2002, S. 70). In einer Lehrveranstaltung über Stichprobenplanung führen wir ein kleines Experiment durch. Wir wollen uns einen Überblick darüber verschaffen, wieviel Geld ein Student im Mittel in seiner Geldbörse bei sich führt. Dazu holen wir zunächst leicht zu beschaffende Sekundärinformation ein. Hierzu bitten wir die Studierenden, eine grobe Vermutung darüber abzugeben, wieviel Geld sie in ihrer Geldbörse haben, ohne dabei in diese zu schauen. Die so erhaltene Information notieren wir als X i . In einer konkreten Klasse erhalten wir beispielsweise folgende Daten: X i = 30; 18; 29; 100; 25; 35; 30; 9; 7; 18; 40; 15; 6 undsomit X¯ = 27, 85. Nun erzeugen wir eine Populationsliste, indem wir jedem Studenten der Klasse eine eindeutige Nummer von 1 bis N geben. Aus dieser Liste ziehen wir zufällig n Elemente und bitten die zugehörigen Studenten, das Geld in ihrer Geldbörse exakt zu zählen. Wir erhalten damit neben der Sekundärinformation xk die zugehörige Primärinformation yk , k = 1, . . . , n. In unserer konkreten Klasse erhalten wir folgendes Ergebnis: yk = 45, 04; 28, 28; 8, 68; 53, 61; 30, 66; 45, 50; 19, 77 xk = 30; 25; 7; 30; 29; 35; 18 undsomit x¯ = 24, 86.
80
3 Modellbasierte Stichprobenverfahren
20
y 30
40
50
Erhobene x und y Werte
10
x X 10
15
20 x
25
30
35
Abb. 3.3 Ergebnis der Stichprobe zum „Geld in der Geldbörse“
Die erhobenen Paare (x k , yk ) sind in Abb. 3.3 dargestellt. Vertikal sind die Werte für X¯ und x¯ markiert. Wir können nun die zugehörigen Schätzer für Y¯ basierend auf den oben vorgestellten modellbasierten Verfahren berechnen. Graphisch ist dies in Abb. 3.4 gezeigt. Die Varianzreduktion wird offensichtlich.
3.5.2 Investitionswert Telefonnetz Das nachfolgende Beispiel stammt aus einer Untersuchung im Auftrag der Bundesnetzagentur (www.bundesnetzagentur.de). Dabei soll der mittlere Investitionswert pro Teilnehmeranschlussleitung in einem großen Telefonnetz bestimmt werden. Dazu wurde das Telefonnetz in 7 319 Anschlussbereiche (AsB) aufgeteilt. Diese AsB sind die statistischen Einheiten (Merkmalsträger) und bilden die Grundgesamtheit. Als Merkmal dient der Investitionswert Y (in Einheiten von Tausend). Aus der Stichprobe soll der Gesamtinvestitionswert bestimmt werden. Durch Division durch die (bekannte) Anzahl der Teilnehmeranschlussleitungen ergibt sich eine Schätzung für den gewünschten mittleren Investitionswert.
3.5
Beispiel
81
35 25
30
Schaetzer
40
45
Modellbasierte Schaetzer im Vergleich
Einfache Stichprobe
Differenzen Schaetzer
Quotienten Schaetzer
Regressions Schaetzer
Abb. 3.4 Verschiedene Schätzer zum „Geld in der Geldbörse“. Die Kästen entsprechen den jeweiligen 95%-Konfidenzintervallen. Beim Quotientenschätzer wurde zusätzlich die modifizierte Varianzschätzung benutzt, die durch die gestrichelte Linie dargestellt ist
Da eine Vollerhebung im Gesamtnetz nur mit einem nicht vertretbaren Aufwand durchzuführen gewesen wäre, wurde eine einfache Zufallsstichprobe vom Umfang n = 287 gezogen. Es ergab sich daraus eine Schätzung von Y¯ E S = 465, 95 Geld = 434, 15. einheiten mit einer geschätzten Varianz von Var Y¯ ES
Um die Genauigkeit der Schätzung zu erhöhen, wurde zusätzlich als Hilfsmerkmal die Kabellänge X (in Einheiten von Tausend) verwendet. Dieses Merkmal ist ein Maß für die Größe eines AsB und ist mit dem Merkmal „Investitionswert“ hoch korreliert. Weiter ist die Kabellänge für alle AsB bekannt. Die mittlere Kabellänge in der Grundgesamtheit betrug X¯ = 9, 97 Längeneinheiten. Als Schätzung für die mittlere Kabellänge pro AsB ergab sich in der Stichprobe x¯ = 12, 08. Das bedeutet, in der gezogenen Stichprobe ist die mittlere Kabellänge größer als in dem gesamten Telefonnetz. Zur Korrektur wenden wir daher den Regressionsschätzer an. Dieser ergibt sich zu Y¯ R E G = 405, 67. Der Regressionsschätzer unterscheidet sich somit deutlich vom einfachen Mittelwertschätzer Y¯ E S , was sich durch den Unterschied in der Hilfsvariable Kabellänge erklären lässt. Daher liegt die Vermutung nahe, dass auch der Investitionswert in der Stichprobe zu hoch geschätzt wird. Dies wird durch den Regressionsschätzer korrigiert, der wie erwartet deutlich niedriger liegt als der Mittelwertschätzer der einfachen Zufallsstichprobe.
82
3 Modellbasierte Stichprobenverfahren
Die (geschätzte) Varianz des Regressionsschätzers ist mit Var Y¯ R E G = 94, 01 ebenfalls deutlich geringer als die der einfachen Zufallsstichprobe mit Var Y¯ E S = 434, 15. Der Vergleich der beiden 95%-Konfidenzintervalle zeigt den Effizienzgewinn durch die Verwendung der Zusatzinformation Kabellänge. Konfidenzintervall basierend auf dem einfachen Mittelwertschätzer:
Y¯ E S − 1, 96 Var Y¯ E S ; Y¯ E S + 1, 96 Var Y¯ E S
465, 95 − 1, 96 434, 15; 465, 95 + 1, 96 434, 15 = 465, 95 − 1, 96 · 20, 84; 465, 95 + 1, 96 · 20, 84 = 425, 10; 506, 80 .
=
Konfidenzintervall basierend auf dem Regressionsschätzer:
Y¯ R E G − 1, 96 Var Y¯ R E G ; Y¯ R E G + 1, 96 Var Y¯ R E G
405, 67 − 1, 96 94, 01; 405, 67 + 1, 96 94, 01 = 405, 67 − 1, 96 · 9, 70; 405, 67 + 1, 96 · 9, 70 = 386, 66; 424, 68 .
=
Als Alternative zum Regressionsschätzer kann hier auch der Quotientenschätzer verwendet werden, da eine Approximation der Form Y = R X durchaus inhaltlich sinnvoll erscheint. Konkret ergibt sich 465, 95 y¯ · 9, 97 = 38, 57 · 9, 97 = 384, 54. Y¯ Q S = X¯ = x¯ 12, 08 Das Ausmaß der Korrektur ist im Vergleich zum Regressionsschätzer ähnlich. = 135, 95 etwas größer. Die geschätzte Varianz ist mit Var Y¯ QS
Man beachte, dass die Berechnung des Differenzenschätzers mit dem Hilfsmerkmal Kabellänge nicht sinnvoll ist, da die Kabellänge eine andere Maßeinheit hat als der Investitionswert. Ein Differenzenschätzer entspricht einem Regressionsschätzer mit einer Steigung der Regressionsgerade vom Wert 1. Inhaltlich heißt das, je Längeneinheit Kabel wird eine Geldeinheit investiert. Dies ist in diesem Beispiel nicht gegeben, so dass die Verwendung des Differenzenschätzers ausscheidet.
3.6
Literatur
83
3.6 Literatur Regressionsmodelle als solche werden ausführlich besprochen in Rao (1973) oder Fahrmeir, Hamerle, und Tutz (1996). Neuere Ansätze finden sich auch in Fahrmeir, Kneib, und Lang (2007). Regressionsmodelle in Kombination mit Stichprobenverfahren werden besprochen in Cochran (1972) oder Thompson (2002) und den dort angegebenen Referenzen. Umfangreiches Material im Bereich modellbasierter Stichprobenverfahren findet man in Särndal et al. (1992). Die Anwendungsmöglichkeiten des Regressionsschätzers sind sehr vielfältig, da er es erlaubt, das ganze Instrumentarium der modernen Regressionstheorie anzuwenden, siehe dazu z.B. Fahrmeir et al. (2007). Voraussetzung für die Schätzung ist dabei allerdings, dass jeweils die Mittelwerte der in dem Modell verwendeten Hilfsgrößen in der Grundgesamtheit bekannt sind. Neuere Ansätze für modellbasierte Stichprobenverfahren beruhen auf der Idee, dass die lineare Struktur durch komplexere Funktionen ersetzt werden kann. Einfache Umformulierung erlaubt es, den Regressionsschätzer wie folgt zu schreiben n N 1
1
¯ μ(xk )) + μ(X i ), Y REG = (yk − n N k=1
(3.11)
i=1
+ wobei μ(X ) = A + B X das lineare Modell wiedergibt, das durch μ(X ) = A BX geschätzt wird. Die Funktion μ(x) gibt somit den Modellansatz an. In den letzten Jahren hat sich im Bereich der Statistik dabei durchgesetzt, lineare oder parametrische Modelle für μ(x) durch sogenannte glatte, nicht-parametrische Modelle zu ersetzen. Als einführendes Werk sei hier auf Hastie und Tibshirani (1990) oder Ruppert, Wand und Carroll (2003) verwiesen. Die gleiche Idee lässt sich auf modellbasierte Verfahren übertragen. Das bedeutet, wir ersetzen die lineare Struktur durch eine flexiblere Form indem wir fordern, dass μ(x) eine glatte, sprich differenzierbare Funktion in X ist. Die explizite Form von μ(x) bleibt aber unspezifiziert. Dieser Ansatz ist natürlich nur sinnvoll für ein metrisches Merkmal X . Die Funktion μ(x) kann nun aus den Daten (yk , xk ), k = 1, . . . , n, geschätzt werden. Grundlegende Ideen und Eigenschaften dieser Methode sind in Breidt und Opsomer (2000) vorgestellt. Auch wenn dieser Ansatz flexibel ist, so hat er numerisch eine Hürde. Für ein lineares Modell μ(X ) = A + B X gilt μ¯ =
N 1
μ(X i ) = A + B X¯ = μ( X¯ ). N i=1
Das heißt, für die Berechnung des zweiten Ausdrucks in (3.11) ist es nicht notwendig die Sekundärinformation X i explizit für alle Individuen der Population zu kennen. Es reicht aus, Kenntnis über X¯ zu haben. Für eine beliebige Funktion μ(X ) gilt hingegen im Allgemeinen μ¯ = μ( X¯ ) und somit ist für die Berechnung von μ¯
84
3 Modellbasierte Stichprobenverfahren
die Kenntnis aller X i -Werte notwendig. Ebenso können die Modelle beliebig erweitert werden, um nicht normalverteilte Y -Werte zu behandeln (siehe beispielsweise Opsomer, Breidt, Moisen, & Kauermann 2005).
3.7 Numerische Umsetzung Modellbasierten Schätzern liegt ein lineares Regressionsmodell zu Grunde, welches in R mit Hilfe der Funktion lm(·) geschätzt werden kann. Dabei geht die Implementation in lm(·) davon aus, dass die Daten mit Zurücklegen gezogen wurden. Konkret heißt dies, dass Korrekturfaktoren für endliche Populationen nicht berücksichtigt werden. Wir verwenden daher das zu dem Buch gehörige R-Paket samplingbook, das die oben vorgestellten modellbasierten Schätzer berechnet. Teil des Pakets ist die Funktion mbes(·), welche modellbasierte Schätzungen durchführt (model based estimation). Die Funktion mbes(·) wird durch das Laden des Pakets verfügbar gemacht. > library(samplingbook) Die vorgestellten modellbasierten Schätzer können nun mit der Funktion mbes(·) berechnet werden. Die Syntax der Funktion ist dabei wie folgt > mbes(formula, data, aux, N = Inf, method = 'all', level = 0.95, ...)
# # # # # # # # # # # # # # #
formula
data aux N
method
level ...
object of class formula (or one that can be coerced to that class): symbolic description for connection between primary and secondary information data frame containing variables in the model known mean of auxiliary variable, which provides secondary information positive integer for population size. Default is N=Inf, which means that calculations are carried out without finite population correction. estimation method. Options are 'simple','diff','ratio','regr','all'. Default is method = 'all'. coverage probability for confidence intervals. Default is level = 0.95 further options for linear regression model
Dabei steht formula für das zugrunde liegende Modell in der in R üblichen Notation (siehe Dalgaard 2002). Wird Variable x als Sekundärinformation für y gesehen, so setzen wir für formula das Modell y∼x ein. Ferner geben wir mit data den Datensatznamen an und mit aux den bekannten Mittelwert der Sekundärinformation (auxiliary information) in der Grundgesamtheit. Unserer Notation folgend ist dies X¯ . Wird keine Angabe für aux gemacht, gibt R eine Fehlermeldung
3.7
Numerische Umsetzung
85
aus, die besagt, dass in diesem Fall mbes nicht geeignet ist, da die Sekundärinformation nicht adäquat genutzt werden kann. Bei der Berechnung der Varianz wird davon ausgegangen, dass X¯ bekannt ist. Mit N wird der Populationsumfang für den Korrekturfaktor (N −n)/N bei endlicher Grundgesamtheit angegeben. Erfolgt keine Angabe, so wird N=Inf gesetzt. Eine weitere Angabe in mbes(·) ist method, welche den gewünschten Schätzer angibt. Zur Verfügung stehen: simple (einfaches arithY¯ D ), ratio (Quotientenschätzer metisches Mittel Y¯ E S ), diff (Differenzenschätzer ¯ ¯ Y Q S ) und regr (Regressionsschätzer Y R E G ). Ferner liefert die Angabe all alle vorgestellten modellbasierten Schätzer. Schließlich kann mit level das Niveau des Konfidenzintervalls angegeben werden und mit „...“ können weitere Parameter für das lineare Regressionsmodell übergeben werden. Nehmen wir exemplarisch die imaginären Daten aus Beispiel 3.2, welche vom Paket bereitgestellt werden. Wir gehen nun davon aus, dass eine Stichprobe mit den Einheiten 1, 2 und 5 gezogen wurde und dass der Mittelwert X¯ = 15 aus der Grundgesamtheit bekannt ist. Die Daten sind also in der Form
1 2 5
id x y 1 11 9 2 11 10 5 21 22
im Datensatz data gegeben. Für unser Beispiel bestimmen wir somit den Differenzenschätzer wie folgt. > mbes(formula=y~x, data=data, aux=15, N=5, method="diff", + level=0.95) mbes object: Model Based Estimation of Population Mean Population size N = 5, sample size n = 3 Values for auxiliary variable: X.mean.1 = 15, x.mean.1 = 14.3333 ---------------------------------------------------------------Difference Estimate Mean estimate: 14.3333 Standard error: 0.5578 95% confidence interval [13.2401,15.4265] Das 95% Konfidenzintervall ergibt sich demnach zu [13.24; 15.43], der Differenzenschätzer hat den Wert 14.33. In analoger Weise erhalten wir den Quotientenschätzer.
86
3 Modellbasierte Stichprobenverfahren
> mbes(formula=y~x, data=data, aux=15, N=5, method="ratio", + level=0.95) mbes object: Model Based Estimation of Population Mean Population size N = 5, sample size n = 3 Values for auxiliary variable: X.mean.1 = 15, x.mean.1 = 14.3333 ---------------------------------------------------------------Ratio Estimate Mean estimate: 14.3023 Standard error: 0.6512 95% confidence interval [13.026,15.5787] Schließlich bestimmt sich der Regressionsschätzer wie folgt: > mbes(formula=y~x, data=data, aux=15, N=5, method="regr", + level=0.95) mbes object: Model Based Estimation of Population Mean Population size N = 5, sample size n = 3 Values for auxiliary variable: X.mean.1 = 15, x.mean.1 = 14.3333 ---------------------------------------------------------------Linear Regression Estimate Mean estimate: 14.5 Standard error: 0.2582 95% confidence interval [13.9939,15.0061] ---------------------------------------------------------------Linear Regression Model: Call: lm(formula = formula, data = data) Residuals: 1 2 -5.00e-01 5.00e-01
5 8.12e-17
3.7
Numerische Umsetzung
87
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -4.2500 1.3067 -3.252 0.190 x 1.2500 0.0866 14.434 0.044 * --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.7071 on 1 degrees of freedom Multiple R-squared: 0.9952, Adjusted R-squared: 0.9904 F-statistic: 208.3 on 1 and 1 DF, p-value: 0.04404 Beim Regressionsschätzer erhalten wir zusätzliche Informationen über das zu Grunde liegende lineare Modell. Setzt sich die Sekundärinformation aus mehreren Variablen zusammen, so können diese im Rahmen eines multiplen linearen Modells bei der Berechnung des Regressionsschätzers mit mbes(·) genutzt werden. Weiterhin wollen wir die numerische Umsetzung anhand realer Daten demonstrieren. Die Daten zu Beispiel 3.5.1 zum Geld in der Geldbörse sind im Paket samplingbook im Datensatz money gespeichert. Die verschiedenen Schätzer können folgendermaßen berechnet werden. > data(money) > print(money)
1 2 3 4 5 6 7 8 9 10 11 12 13 > > > >
id X y 1 30 45.04 2 18 NA 3 29 30.66 4 100 NA 5 25 28.28 6 35 45.50 7 30 53.61 8 9 NA 9 7 8.68 10 18 19.77 11 40 NA 12 15 NA 13 6 NA
mu.X <- mean(money$X) x <- money$X[which(!is.na(money$y))] y <- money$y[which(!is.na(money$y))] mbes(formula=y~x, aux=mu.X, N=13, method='all')
88
3 Modellbasierte Stichprobenverfahren
mbes object: Model Based Estimation of Population Mean Population size N = 13, sample size n = 7 Values for auxiliary variable: X.mean.1 = 27.8462, x.mean.1 = 24.8571 ---------------------------------------------------------------Simple Estimate Mean estimate: 33.0771 Standard error: 4.0872 95% confidence interval [25.0663,41.088] ---------------------------------------------------------------Difference Estimate Mean estimate: 36.0662 Standard error: 2.1998 95% confidence interval [31.7546,40.3778] ---------------------------------------------------------------Ratio Estimate Mean estimate: 37.0546 Standard error: 1.8764 95% confidence interval [33.3768,40.7323] ---------------------------------------------------------------Linear Regression Estimate Mean estimate: 37.5665 Standard error: 2.0042 95% confidence interval [33.6383,41.4946] ---------------------------------------------------------------Linear Regression Model: Call: lm(formula = formula, data = data) Residuals: 1 2 3 4 5 4.239 -8.640 -5.012 -2.811 12.809
6 7 2.423 -3.008
3.7
Numerische Umsetzung
89
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -4.2571 8.8633 -0.480 0.6513 x 1.5020 0.3362 4.467 0.0066 ** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 7.805 on 5 degrees of freedom Multiple R-squared: 0.7996, Adjusted R-squared: 0.7596 F-statistic: 19.95 on 1 and 5 DF, p-value: 0.006598 Weiterhin eignen sich modellbasierte Schätzer, um wie in Beispiel 3.1 Prognosen für die Stimmenanteile von Parteien basierend auf alten Wahlergebnissen zu erstellen. Um dies zu zeigen, verwenden wir den Datensatz election aus dem Paket samplingbook. Dieser enthält die Stimmenanteile zur Bundestagswahl von 2002 und 2005 für die fünf Parteien SPD, Union, die Grünen, die FDP und die Linke für die einzelnen Wahlkreise. Anhand einer Stichprobe soll nun der Stimmenanteil für die SPD für 2005 prognostiziert werden. Dabei stellen wir uns vor, dass die Werte von 2002 die wahren Stimmenanteile sind und die Werte von 2005 aus einer Umfrage unter den wahlberechtigten Personen der in die Stichprobe gezogenen Wahlkreise stammen. Zur Veranschaulichung berechnen wir an dieser Stelle nur den Regressionsschätzer. Vorbereitend laden wir den Datensatz, welcher die benötigten Informationen zu allen Wahlkreisen enthält. Aus diesen ziehen wir exemplarisch eine Stichprobe vom Umfang n = 20. Weiterhin berechnen wir als Hilfsgröße den wahren Stimmenanteil der SPD von 2002. Basierend auf diesen Vorbereitungen können wir nun die Funktion mbes(·) anwenden. > > > > > > +
data(election) N <- nrow(election) set.seed(67396) sample <- election[sort(sample(1:N, size=20)),] X.mean <- mean(election$SPD_02) mbes(SPD_05 ~ SPD_02, data=sample, aux=X.mean, N=N, method="regr")
mbes object: Model Based Estimation of Population Mean Population size N = 299, sample size n = 20 Values for auxiliary variable: X.mean.1 = 0.3861, x.mean.1 = 0.3956 ---------------------------------------------------------------Linear Regression Estimate Mean estimate: 0.3341 Standard error: 0.0079
90
3 Modellbasierte Stichprobenverfahren
95% confidence interval [0.3187,0.3496] ---------------------------------------------------------------Linear Regression Model: Call: lm(formula = formula, data = data) Residuals: Min 1Q -0.06312 -0.01003
Median 0.01472
3Q 0.01881
Max 0.04947
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.02110 0.04777 -0.442 0.664 SPD_02 0.91999 0.11896 7.734 3.96e-07 *** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.03657 on 18 degrees of freedom Multiple R-squared: 0.7687, Adjusted R-squared: 0.7558 F-statistic: 59.81 on 1 and 18 DF, p-value: 3.956e-07 Das Ergebnis kann nun mit dem „wahren“ Stimmenanteil für die SPD verglichen werden. > mean(election$SPD_05) [1] 0.3426949 Dieser liegt im oben berechneten Konfidenzintervall. Wir können das Beispiel nun erweitern, indem wir eine weitere Einflussgröße in das Modell einbeziehen. Wir verwenden zusätzlich das Ergebnis der Grünen aus dem Jahr 2002. Zu beachten ist, dass jetzt nur der Regressionsschätzer als Methode möglich ist. > X.mean2 <- c(mean(election$SPD_02), mean(election$GREEN_02)) > mbes(SPD_05 ~ SPD_02 + GREEN_02, data=sample, aux=X.mean2, + N=N, method="regr") mbes object: Model Based Estimation of Population Mean Population size N = 299, sample size n = 20 Values for auxiliary variable: X.mean.1 = 0.3861, x.mean.1 = 0.3956
3.7
Numerische Umsetzung
91
X.mean.2 = 0.0848, x.mean.2 = 0.0681 ---------------------------------------------------------------Linear Regression Estimate Mean estimate: 0.3466 Standard error: 0.0063 95% confidence interval [0.3342,0.3589] ---------------------------------------------------------------Linear Regression Model: Call: lm(formula = formula, data = data) Residuals: Min 1Q Median 3Q Max -0.0382967 -0.0226654 0.0002126 0.0181809 0.0598151 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.07526 0.04152 -1.813 0.08761 . SPD_02 0.92815 0.09520 9.749 2.24e-08 *** GREEN_02 0.74753 0.22414 3.335 0.00392 ** --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.02926 on 17 degrees of freedom Multiple R-squared: 0.8602, Adjusted R-squared: 0.8437 F-statistic: 52.28 on 2 and 17 DF, p-value: 5.47e-08 Die Berücksichtigung der Anteile der Grünen führt zu einer Verbesserung der Schätzung.
Kapitel 4
Designbasierte Stichprobenverfahren
Im vorherigen Kapitel haben wir die Sekundärinformation mit Hilfe eines Modells ausgenutzt, um den Schätzer für die Primärinformation zu verbessern. Die gezogene Stichprobe war jedoch eine einfache Zufallsstichprobe und das Stichprobendesign blieb somit unverändert. Dadurch hatte jedes Individuum der Population die gleiche Wahrscheinlichkeit, in die Stichprobe zu gelangen. Wir wollen dieses Konzept nun aufgeben und die Sekundärinformation schon bei dem Auswahlverfahren, d.h. bei der Wahl des Stichprobendesigns, ausnutzen. Das führt in der Regel dazu, dass die Individuen der Population unterschiedliche Wahrscheinlichkeiten erhalten, in die Stichprobe zu gelangen. Beispiel 4.1: Auf einem ehemalig industriell genutzten Gebiet soll eine Altlastensanierung durchgeführt werden. Um die Kosten dafür abschätzen zu können, soll eine Teilerhebung der Schadstoffbelastung des Bodens erfolgen. Dazu wird die Fläche in Planquadrate geeigneter Größe eingeteilt. Ohne weitere Zusatzinformation scheint es sinnvoll, eine einfache Zufallsstichprobe aus den Planquadraten zu ziehen, d.h. n Planquadrate zufällig auszuwählen und hier Bodenproben zu nehmen. In dem konkreten Fall liegen jedoch vor der Stichprobenziehung Sekundärinformationen vor. So ist bekannt, dass bestimmte Teilflächen des Gebietes besonders belastet sind (z.B. der ehemalige Standort einer Fabrik), andere Flächen hingegen weniger. Folglich ist man an der Untersuchung der stark belasteten Flächen besonders interessiert. Daher kann man das Design so modifizieren, dass die vermutlich hochbelasteten Teilflächen eine höhere Auswahlwahrscheinlichkeit erhalten. Eine andere Möglichkeit besteht darin, die Grundgesamtheit aufgrund der Vorinformation in mehrere Regionen aufzuteilen („geringe Belastung“, „mittlere Belastung“, „hohe Belastung“) und dann aus den jeweiligen Regionen eine einfache Zufallsstichprobe zu ziehen. In diesem Kapitel geht es also um die Frage, wie durch die Wahl eines geeigneten Stichprobendesigns die Schätzung der relevanten Größen verbessert werden kann. Dabei soll die vorhandene Sekundärinformation genutzt werden, um Schätzer mit möglichst kleiner Varianz zu erhalten. Geht man davon aus, dass jedes in die Stichprobe aufgenommene Individuum die gleichen Kosten verursacht, so wird man geneigt sein, Individuen mit höherem Informationsgehalt eher in die Stichprobe
G. Kauermann, H. Küchenhoff, Stichproben, Springer-Lehrbuch, C Springer-Verlag Berlin Heidelberg 2011 DOI 10.1007/978-3-642-12318-4_4,
93
94
4 Designbasierte Stichprobenverfahren
aufzunehmen als weniger informative Individuen. Wie dies realisiert werden kann, wollen wir nachfolgend beschreiben. Die Wahl von anderen Stichprobendesigns erfordert aber auch ein anderes Vorgehen bei der Schätzung des Populationsmittelwertes. Es stellt sich heraus, dass die bisher diskutierten Schätzer in der Regel bei anderen Stichprobendesigns verzerrt sind, d.h. einen systematischen Fehler aufweisen. Daher wenden wir uns zunächst der Frage der Parameterschätzung bei allgemeinen Stichprobendesigns zu.
4.1 Horvitz-Thompson-Schätzer In ihrer Arbeit „A generalization of sampling without replacement from a finite universe“ haben die beiden Statistiker D.G. Horvitz und D.J. Thompson einen allgemeinen Mittelwertschätzer für eine große Klasse von Stichprobendesigns vorgeschlagen (Horvitz & Thompson 1952). Dieser Schätzer wird üblicherweise als Horvitz-Thompson-Schätzer bezeichnet und ist für alle Stichprobendesigns anwendbar, bei denen es nicht zulässig ist, dass ein Element mehrfach in die Stichprobe gelangt. Diese Voraussetzung ist in den meisten praktisch verwendeten Designs erfüllt. Eine Ausnahme bilden nur Designs „mit Zurücklegen“. Beispiel 4.2: In einem Landkreis soll der Baumbestand geschätzt werden. Dazu wird ein Raster bestehend aus Planquadraten, jedes ca. 100 mal 100 Meter groß, über den Landkreis gelegt. Nachfolgend werden zufällig 1 000 der resultierenden Planquadrate (= 1 Hektar) gezogen und per Feldversuch bezüglich des Baumbestandes untersucht. Einige dieser gezogenen Hektar fallen zufälligerweise in städtisches Gebiet, wobei im Vorhinein klar ist, dass der Baumbestand dort von vernachlässigbarer Größe ist. Somit ist also ein Planquadrat in städtischen Gebieten für die Erhebung des Baumbestandes von wenig Information. Andere Planquadrate fallen in bewaldetes Gebiet. Derartige Planquadrate sind für die Bestimmung des Baumbestandes von großem Informationsgehalt. Es drängt sich somit die Frage auf, ob wir informative Planquadrate eher, sprich mit größerer Wahrscheinlichkeit ziehen sollten als weniger informative. Es liegt nahe, den Baumbestand eher in Waldgebieten als in bebauten oder landwirtschaftlich genutzten Bereichen zu untersuchen. Aus Sicht der Stichprobenziehung scheint es sinnvoll zu sein, Planquadrate, die in Waldbezirken liegen, mit höherer Wahrscheinlichkeit zu ziehen als Bereiche in städtischen Gebieten. Bei Verwendung des einfachen Stichprobenmittels wird man dann aber den Baumbestand systematisch überschätzen. Dieser Bias lässt sich korrigieren, wie wir nachfolgend sehen werden. Wir bezeichnen im Folgenden mit πi die Auswahlwahrscheinlichkeit für das i-te Individuum in die Stichprobe aufgenommen zu werden, sprich N in die Stichπi = n (Herprobe gezogen zu werden. Bei festem Stichprobenumfang n gilt i=1 leitung siehe S. 102).
4.1
Horvitz-Thompson-Schätzer
95
Weiter benötigen wir die Auswahlwahrscheinlichkeiten zweiter Ordnung. Sie werden mit πi, j bezeichnet und geben die Wahrscheinlichkeit dafür an, dass die Elemente i und j gleichzeitig in die Stichprobe gelangen. Wir bezeichnen πi, j auch als paarweise Auswahlwahrscheinlichkeiten. Die Idee des Horvitz-Thompson-Schätzers ist es, die Auswahlwahrscheinlichkeiten πi zu benutzen, um einen unverzerrten Schätzer zu konstruieren. Der Schätzer ist dabei wie folgt definiert: n 1 yk . Y¯ H T = N πk
(4.1)
k=1
Der Horvitz-Thompson-Schätzer ist erwartungstreu, wie wir später zeigen werden. Im Falle einer einfachen Zufallsstichprobe, also wenn πi = n/N gesetzt wird, ergibt sich der Horvitz-Thompson-Schätzer als einfaches arithmetisches Mittel. Die Auswahlwahrscheinlichkeiten zweiter Ordnung werden zur Berechnung der Varianz des Schätzers benötigt. Zunächst wollen wir aber der Frage nachgehen, warum die Verwendung von ungleichen Auswahlwahrscheinlichkeiten von Vorteil sein kann. Dies demonstrieren wir anhand eines kleinen Zahlenbeispiels.
Auswahlwahrscheinlichkeit
Gegeben sei ein beliebiges Stichprobendesign. Damit wird jeder Stichprobe s eine Wahrscheinlichkeit zugeordnet. Die Auswahlwahrscheinlichkeit πi gibt die Wahrscheinlichkeit an, mit der das i-te Individuum in die Stichprobe gelangt, d.h. πi = P(Individuum i wird in die Stichprobe gezogen). Ist der Stichprobenumfang n fest, so gilt N
πi = n.
i=1
Die paarweisen Auswahlwahrscheinlichkeiten oder Auswahlwahrscheinlichkeiten zweiter Ordnung πi, j geben die Wahrscheinlichkeit an, dass sowohl Individuum i als auch Individuum j in die Stichprobe gelangt, d.h. πi, j = P(Individuum i und j werden gemeinsam in die Stichprobe gezogen).
96
4 Designbasierte Stichprobenverfahren
Beispiel 4.3: Nehmen wir an, unsere Population bestehe aus 4 Elementen und sehe wie folgt aus: Y1 = 10,
Y2 = 20,
Y3 = 80,
Y4 = 90.
Wir ziehen zunächst eine einfache Zufallsstichprobe vom Umfang n = 2, wobei jedes Individuum die gleiche Wahrscheinlichkeit hat, gezogen zu werden. Damit ergibt sich als Verteilung für das arithmetische Mittel der Stichprobe y¯
15
45
50
55
85
P( y¯ )
1/6
1/6
2/6
1/6
1/6
,
so dass E( y¯ ) = 50 und Var( y¯ ) = 416, 7 ist. Als Auswahlwahrscheinlichkeit erhalten wir für die einzelnen Individuen πi = n/N = 2/4, was wir tabellarisch zusammenstellen: i
1
2
3
4
πi
2/4
2/4
2/4
2/4
.
Man beachte, dass die Werte von πi für jedes einzelne Individuum zwar eine Wahrscheinlichkeit darstellen, die πi über die Individuen betrachtet N jedoch keine Wahrscheinlichkeitsverteilung wiedergeben. Es gilt vielmehr i=1 πi = n. Be 4 trachtet man die 6 = möglichen Stichproben, so sieht man, dass die Ele2 mente i und j (i = j) jeweils nur in einer der 6 Stichproben gemeinsam vorkommen. Als Auswahlwahrscheinlichkeiten zweiter Ordnung πi, j ergeben sich demnach die Werte 1/6 für alle Kombinationen von i und j. Als Tabelle geschrieben erhält man also: πi, j
1
2
3
4
1 2 3 4
· 1/6 1/6 1/6
· · 1/6 1/6
· · · 1/6
· · · ·
Wir geben nun die Annahme auf, dass jedes Individuum die gleiche Wahrscheinlichkeit hat, gezogen zu werden. Stattdessen soll beispielsweise das vierte Individuum eine größere Wahrscheinlichkeit erhalten, in die Stichprobe zu gelangen. Wir wollen dies technisch wie folgt umsetzen. Die Auswahl der Individuen bei einer einfachen Zufallsstichprobe kann man sich (zumindest gedanklich) so vorstellen: In einer Urne befinden sich N unterscheidbare Kugeln mit den Aufdrucken 1, 2, 3, . . . , N . Aus diesen N Kugeln ziehen wir n Kugeln ohne Zurücklegen. Wird die Kugel mit Aufdruck i gezogen, so wird entsprechend Individuum i in die Stichprobe aufgenommen. Für unser Beispiel besteht
4.1
Horvitz-Thompson-Schätzer
97
die Urne aus N = 4 Kugeln mit den Aufdrucken 1, 2, 3, 4. Wir legen nun eine zusätzliche Kugel mit Aufdruck 4 in die Urne, so dass sich nun 5 Kugeln mit den Aufdrucken 1, 2, 3, 4, 4 in der Urne befinden. Nun ziehen wir ohne Zurücklegen n = 2 mal, wobei Züge, bei denen beide Kugeln mit Aufdruck 4 gezogen werden, nicht zählen. Das heißt insbesondere, wird eine der beiden Kugeln mit Aufdruck 4 beim ersten Zug gezogen, so entfernen wir die verbleibende zweite Kugel mit Aufdruck 4 aus der Urne. Dieses Prinzip garantiert, dass die gezogenen Kugeln stets unterschiedliche Aufdrucke haben. Entsprechend den Aufdrucken nehmen wir die Individuen in die Stichprobe auf und erhalten damit die folgenden möglichen Ergebnisse: Gezogene
Individuen
y¯
Wahrscheinlichkeit
1 1 1 2 2 3
2 3 4 3 4 4
15 45 50 50 55 85
1/10 = 2 · 1/5 · 1/4 1/10 7/30 = 1/5 · 2/4 + 2/5 · 1/3 1/10 7/30 7/30
Herleitung: Die Wahrscheinlichkeiten ergeben sich dabei wie folgt. Die erste Stichprobe erhalten wir, indem wir erst Individuum 1 und dann Individuum 2 ziehen oder umgekehrt. Betrachten wir erst den Fall, dass wir Individuum 1 zuerst ziehen. Die verbleibenden Individuen 2, 3 und 4 erhalten für den zweiten Zug die Wahrscheinlichkeiten 1/4, 1/4 und 2/4, d.h. die Restwahrscheinlichkeit wird auf die 3 verbleibenden Individuen aufgeteilt, nachdem Individuum 1 gezogen wurde. Somit ergibt sich die Wahrscheinlichkeit 1/4 für Individuum 2 gezogen zu werden. Die anderen Wahrscheinlichkeiten ergeben sich analog.
Für das arithmetische Mittel ergibt sich damit die Verteilung zu: y¯
15
45
50
55
85
P( y¯ )
1/10
1/10
1/3
7/30
7/30
.
Berechnet man daraus den Erwartungswert, so ergibt sich E( y¯ ) = 55, 33. Nicht überraschend ist der Erwartungswert größer als der Mittelwert der Population, d.h. y¯ ist verzerrt. Das liegt daran, dass Individuum 4 mit einer größeren Wahrscheinlichkeit als die anderen Individuen gezogen wird. Wir wollen diese Verzerrung nun korrigieren, was zum Horvitz-Thompson-Schätzer führt. In dem Beispiel haben wir die Wahrscheinlichkeit für Individuum 4, in die Stichprobe zu gelangen, erhöht. Berechnen wir also die konkreten Auswahlwahrscheinlichkeiten π1 , π2 , π3 und π4 aus der obigen Tabelle, so erhalten wir i
1
2
3
4
πi
13/30
13/30 13/30 21/30
.
98
4 Designbasierte Stichprobenverfahren
Die Auswahlwahrscheinlichkeiten ergeben sich dabei wie folgt. Individuum 1 kann beispielsweise in drei möglichen Stichproben gezogen werden, die ihrerseits die Wahrscheinlichkeiten 1/10, 1/10 und 7/30 besitzen, was summiert 13/30 ergibt. Individuum 4 hat somit eine höhere Wahrscheinlichkeit gezogen zu werden, was zu der Verzerrung führt. Ebenso können wir basierend auf der obigen Tabelle die Auswahlwahrscheinlichkeiten zweiter Ordnung angeben. Es ergibt sich basierend auf unserem Ziehungsmechanismus πi, j
1
2
3
4
1 2 3 4
· 1/10 1/10 7/30
· · 1/10 7/30
· · · 7/30
· · · ·
Mit den so berechneten Auswahlwahrscheinlichkeiten πi können wir nun den Horvitz-Thompson-Schätzer anwenden. Für die mögliche Stichprobe bestehend aus den Individuen 1 und 2 folgt beispielsweise 1 Y¯ H T = 4
10 20 + 13/30 13/30
= 17, 31.
In analoger Weise erhält man (gerundete Ergebnisse) Gezogene
Individuen
Y¯ H T
Wahrscheinlichkeit
1 1 1 2 2 3
2 3 4 3 4 4
17,31 51,92 37,91 57,69 43,68 78,30
1/10 1/10 7/30 1/10 7/30 7/30
und somit ergibt sich die Verteilung Y¯ H T P Y¯ H T
17,31
37,91
43,68
51,92
57,69
78,30
1/10
7/30
7/30
1/10
1/10
7/30
Einfache Berechnung zeigt nun E Y¯ H T = 50, d.h. der Schätzer ist erwartungstreu. An diesem Zahlenbeispiel wird die Grundidee des Horvitz-Thompson-Schätzers deutlich. Die Überrepräsentation (d.h. die höhere Auswahlwahrscheinlichkeit) des vierten Elements, die durch die Wahl des Designs zustande kommt, wird durch die niedrigere Gewichtung mit der inversen Auswahlwahrschein-
4.1
Horvitz-Thompson-Schätzer
99
Y¯ H T = 343, 45. Interlichkeit ausgeglichen. Für die Varianz ergibt sich Var essanterweise ist die Varianz kleiner im zuerst besprochenen Fall der ein als ¯ fachen Zufallsstichprobe mit Var Y E S = 416, 7, in der alle Individuen die gleiche Wahrscheinlichkeit haben, in die Stichprobe aufgenommen zu werden. Das bedeutet, indem wir Individuum 4 eine größere Chance gegeben haben, in die Stichprobe gezogen zu werden, haben wir die Varianz des Schätzers reduziert, ohne den Stichprobenumfang zu erhöhen. Wie können wir dieses Phänomen erklären? Dazu gehen wir noch einen Schritt weiter und wählen die Auswahlwahrscheinlichkeiten πi proportional zu Yi , d.h. wir ziehen eine Stichprobe mit Auswahlwahrscheinlichkeiten πi =
n Yi . N Y¯
(4.2)
Für das Zahlenbeispiel bedeutet dies i
1
2
3
4
πi
0,1
0,2
0,8
0,9
.
Ziehen wir nun basierend auf den Stichprobengewichten eine Stichprobe und berechnen den Horvitz-Thompson-Schätzer Y¯ H T , so zeigt sich, dass in diesem Fall n n 1 yk 1 yk ¯ Y¯ H T = = N Y = Y¯ . N πk nN yk k=1
k=1
Das bedeutet, unabhängig von der realisierten Stichprobe liefert der Schätzer das arithmetische Mittel der Population. Das impliziert aber andererseits, dass die Varianz des Schätzers in diesem Fall gleich 0 ist, d.h. der Schätzer weist keine Streuung auf. Dies klingt nach Zauberei, und es taucht die Frage auf: Wo ist der Haken? Die Antwort ist einfach. Die Stichprobengewichte πi nach Formel (4.2) hängen von Yi ab, also von dem Variablenwert des i-ten Individuums in der Grundgesamtheit. Dieser ist generell unbekannt, denn genau deswegen ziehen wir ja eine Stichprobe. Somit sind in der Praxis die Gewichte in Form von (4.2) nicht wählbar. Dennoch ist das Beispiel hilfreich. Es zeigt nämlich, selbst wenn man die optimalen Gewichte nicht nutzen kann, so sollten die Auswahlwahrscheinlichkeiten πi die folgende Eigenschaft aufweisen: πi sollte groß sein, wenn (das unbekannte) Yi als groß vermutet wird. Das Beispiel hat die grundlegenden Vorteile einer Stichprobe gezeigt, in der die Auswahlwahrscheinlichkeiten πi in geeigneter Form proportional zu den (vor Stichprobenziehung unbekannten) Yi gewählt werden. Eine derartige Stichprobenziehung wird als größenproportionale Stichprobe bezeichnet und wird in Abschn. 4.2 ausführlich behandelt. Zunächst wollen wir aber die Varianz des Horvitz-
100
4 Designbasierte Stichprobenverfahren
Thompson-Schätzers herleiten. Hierzu benötigen wir nicht nur die Auswahlwahrscheinlichkeiten πi , sondern auch die paarweisen Auswahlwahrscheinlichkeiten πi, j . Als Varianz erhalten wir damit (Herleitung siehe unten) ⎡ ⎤ N N N
π − π π π (1 − π ) 1 i, j i j i i Yi2 + Yi Y j ⎦ . Var Y¯ H T = 2 ⎣ πi π j N πi2 i=1
i=1 j=1 i= j
(4.3)
Die Varianz kann im Prinzip wie folgt geschätzt werden durch n n
n
1 − πk
π − π π 1 k,l k l 2 Var Y¯ H T = 2 yk + yk yl , N πk,l πk πl πk2 k=1 k=1 l=1 k=l
(4.4)
wobei dieser Schätzer eklatante Nachteile aufweist, wie wir später zeigen werden. Wir sehen, dass der Horvitz-Thompson-Schätzer ein recht allgemeingültiges Konzept widerspiegelt. Insbesondere kann das Design der einfachen Zufallsstichprobe als Spezialfall angesehen werden. Hier gilt πi = n/N für alle Individuen und die Varianzformel des Horvitz-Thompson-Schätzers vereinfacht sich in diesem Fall zu den Ergebnissen, wie wir sie in Abschn. 2.6 hergeleitet haben. Man beachte, dass der Horvitz-Thompson-Schätzer nur auf zwei Eigenschaften des Stichprobenverfahrens beruht: • Jedes Element kann nur einmal in die Stichprobe gelangen. • Die Wahrscheinlichkeit für jedes Element der Grundgesamtheit, in die Stichprobe zu gelangen, ist größer als 0 (πi > 0). Daher kann der Horvitz-Thompson-Schätzer für beliebige Stichprobendesigns mit diesen Eigenschaften verwendet werden, wie wir in den nachfolgenden Kapiteln noch sehen werden. Dies gilt auch für Stichprobendesigns, bei denen der Stichprobenumfang nicht festgelegt ist. Der Horvitz-Thompson-Schätzer gewichtet die gezogenen Elemente mit ihren inversen Auswahlwahrscheinlichkeiten. Dieses ebenso einfache wie wirkungsvolle Prinzip findet nicht nur in der Stichprobentheorie, sondern auch in anderen Gebieten der Statistik Anwendung. Die wichtige Eigenschaft der Erwartungstreue des Horvitz-Thompson-Schätzers wird in der Literatur häufig auch als Horvitz-Thompson-Theorem bezeichnet. Herleitung: Wir wollen zunächst zeigen, wie der Horvitz-Thompson-Schätzer funktioniert und warum er unverzerrt ist. Dazu bilden wir den Erwartungswert. Da in obiger Formel sowohl yk (als auch πk ) zufällig gezogen sind, verwenden wir zum Nachweis der Eigenschaften des Schätzers einen Trick, indem wir den Schätzer als Summe über die Elemente der Grundgesamtheit darstellen. Dazu definieren wir Ii als Indikator, der angibt, ob das i-te Individuum in die Stichprobe gezogen wurde (Ii = 1) oder nicht (Ii = 0). Damit ist Ii eine Bernoulli-Variable mit E(Ii ) = P(Ii = 1) = πi . Sie wird auch als Inklusionsvariable bezeichnet. Wir können den Horvitz-Thompson-Schätzer damit umschreiben zu
4.1
Horvitz-Thompson-Schätzer
101
n N 1 yk 1 Yi Ii Y¯ H T = = . N πk N πi k=1
i=1
Bilden wir nun den Erwartungswert, so ist nur Ii zufällig und es folgt N 1 Yi E(Ii ) = Y¯ , E Y¯ H T = N πi i=1
was die Unverzerrtheit zeigt. Die Herleitung der Varianz erfolgt, indem wir nochmals auf die Indikatorvariablen Ii und I j zurückgreifen, wobei E(Ii ) = P(Ii = 1) = πi , Var(Ii ) = πi (1 − πi ) und Cov(Ii , I j ) = πi, j − πi π j ist. Damit gilt N
Yi Ii 1 Var Y¯ H T = 2 Var πi N i=1 ⎡ ⎤ N N N 1 Var(Ii ) 2 Cov(Ii , I j ) Yi + Yi Y j ⎦ , = 2⎣ N πi π j πi2 i=1
i=1 j=1 i= j
woraus die Varianz direkt folgt. Die Varianz ist dabei abhängig von den unbekannten Ausprägungen Y1 , . . . , Y N , so dass wir eine entsprechende Schätzung für die praktische Anwendung benötigen. Ein erwartungstreuer Schätzer ergibt sich, indem wir die Summen über alle Individuen durch die Summen über die in der Stichprobe enthaltenen Individuen ersetzen. Dabei kann die Unverzerrtheit des Varianzschätzers leicht gezeigt werden. Man beachte, dass unter der Voraussetzung πi, j = 0 für alle i, j ⎡ ⎤ N N N
πi, j − πi π j 1 − π 1 i 2 Var Y¯ H T = 2 ⎣ Yi Ii + Yi Y j Ii I j ⎦ , N πi, j πi π j πi2 i=1
i=1 j=1 i= j
wobei nun Ii und I j die Zufallsgrößen sind. Setzt man nun für E(Ii ) = πi und E(Ii I j ) = πi, j , Y¯ H T so folgt E Var = Var Y¯ H T .
Die Schätzung der Varianz gemäß (4.4) ist zwar erwartungstreu, sprich liefert im Mittel die Varianz (4.3), es ist aber nicht garantiert, dass die Varianzschätzung nach (4.4) positiv ist, sprich negative Werte können auftreten, was natürlich nicht sinnvoll ist. Aus diesem Grund sind verschiedene Alternativen vorgeschlagen worden, die sich im praktischen Einsatz als weitaus sinnvoller erwiesen haben. Wir verweisen hier auf den Ansatz von Yates und Grundy (1953) (siehe auch Sen 1953). Dazu schreiben wir Formel (4.3) um und erhalten (Herleitung siehe unten) N N Yi Yj 2 1 1
Y¯ H T = 2 · − . πi π j − πi, j VarY G N 2 πi πj
(4.5)
i=1 j=1 i= j
Voraussetzung ist hierbei, dass der Stichprobenumfang fest steht. An dieser Darstellung (4.5) wird deutlich, dass für die Streuung hauptsächlich die Varianz von πYii
102
4 Designbasierte Stichprobenverfahren
Y relevant ist. Für den Fall πYii = π jj ergibt sich unmittelbar VarY G Y¯ H T = 0, was wir oben schon als optimale Auswahlwahrscheinlichkeiten herausgearbeitet hatten. Weiter ist zu bemerken, dass Differenzen der Paare für die πi, j = πi π j gilt, die also unabhängig voneinander gezogen werden, nicht in die Summe eingehen. Der theoretischen Form (4.5) folgend kann man nun die Varianz schätzen durch n n 1 1 πk πl − πk,l yk yl 2 ¯ − . VarY G Y H T = 2 · 2 πk,l πk πl N
(4.6)
k=1 l=1 k=l
Diese Formel für die Varianzschätzung stammt von Yates und Grundy (1953), was als Index Y G vermerkt ist. Der ursprüngliche Varianz-Schätzer stammt von Horvitz und Thompson (1952). Wie aus der folgenden Herleitung hervorgeht, ergibt sich für die theoretische Varianz von Y¯ H T durch die Formeln (4.5) und (4.3) ein identischer Wert. Allerdings sind die dazugehörigen Schätzer (4.4) und (4.6) verschieden. In Simulationsstudien und theoretischen Arbeiten wurde gezeigt, dass die Varianzschätzung (4.6) nach Yates und Grundy dem Schätzer (4.4) vorzuziehen ist (siehe bspw. Godambe & Joshi 1965; Lanke 1974; Rao & Singh 1973, oder Vijayan 1975). In manchen Fällen tritt das Problem von negativen Varianzschätzern auf. Dies kann durch die Wahl des Designs für (4.6) vermieden werden, falls für alle Paare k, l die Bedingung πk πl − πk,l > 0 gilt. Herleitung: Um Formel (4.5) herzuleiten, zeigen wir zunächst zwei Identitäten der Auswahlwahrscheinlichkeiten:
Es gilt
N
πi = n, da
i=1
N
Ii = n und somit E
i=1
N
Ii
=
i=1
N
E (Ii ) =
i=1
N
πi = n.
i=1
Wir benötigen des Weiteren die Identität N
(πi π j − πi, j ) = πi (1 − πi ) .
j=1 j =i
Man erhält diese durch Verwendung des festen Stichprobenumfangs n. Für festes i gilt daher N N N
n= Ij = I j + Ii und damit I j = n − Ii . Daraus folgt: j=1
j=1,i= j
j=1,i= j
πi (1 − πi ) = Var (Ii ) = Cov (Ii , Ii ) = −Cov (Ii , n − Ii ) ⎛ ⎞ N N N
⎜ ⎟ = −Cov ⎝ Ii , Ij⎠ = − Cov Ii , I j = − πi, j − πi π j . j=1 j =i
j=1 j =i
j=1 j =i
Wir formen die rechte Seite von (4.5) durch Auflösen des quadratischen Terms um:
4.1
Horvitz-Thompson-Schätzer
103
N N Yi Yj 2 1 1
· π − π − π i j i, j N2 2 πi πj i=1 j=1 i= j N N N N Y2 Yi Y j 1
1
= 2 πi π j − πi, j i2 − 2 πi π j − πi, j N N πi π j π i i=1 j=1 i=1 j=1 i= j
i= j
N N N N 1 Yi2 1 πi, j − πi π j = 2 π − π Yi Y j π + i j i, j N N2 πi π j π2 i=1 i j=1 i=1 j=1 j=i
i= j
N N N 1 πi (1 − πi ) 2 1 πi, j − πi π j = 2 Yi + 2 Yi Y j 2 N N πi π j πi i=1
i=1 j=1 i= j
= Var Y¯ H T .
Die letzte Zeile entspricht genau Formel (4.3).
Horvitz-Thompson-Schätzer
Gegeben sei ein Stichprobendesign, bei dem jedes Element nur einmal in die Stichprobe gelangen kann. Seien πi und πi, j die Auswahlwahrscheinlichkeiten erster und zweiter Ordnung. Weiter gelte πi > 0 für alle i. Ein unverzerrter Schätzer für den Mittelwert Y¯ der Population ist n 1 yk . Y¯ H T = N πk k=1 Falls für alle i, j π > 0 gilt, so kann die Varianz von Y¯ i, j
HT
erwartungstreu geschätzt werden durch n n
n
1 − πk
π − π π 1 k,l k l 2 Var Y¯ H T = 2 yk + yk yl . 2 N πk,l πk πl π k k=1 k=1 l=1 k=l
Bei festem Stichprobenumfang n sollte folgender erwartungstreuer Schätzer verwendet werden: n n 1 πk πl − πk,l yk yl 2 1 VarY G − . Y¯ H T = 2 · 2 πk,l πk πl N k=1 l=1 k=l
104
4 Designbasierte Stichprobenverfahren
Die Varianzberechnung werden wir später in einigen Spezialfällen nutzen. Wir zeigen hergeleitete Formel für im Folgenden, wie sich die bereits im 2. Kapitel Var Y¯ E S als Spezialfall der Formel von Var Y¯ H T ergibt. Herleitung: Für die einfache Zufallsstichprobe gilt πi = n/N , wie in Abschn. 2.5 hergeleitet. Außerdem ist N −2 n (n − 1) n−2 . πi, j = = N N (N − 1) n Die letzte Gleichung folgt, da die Anzahl der Stichproben, die die Elemente i und j enthal −2 ist, da die anderen n − 2 Elemente aus den übrigen N − 2 Elementen beliebig zu ten, Nn−2 ziehen sind. Damit ergibt sich die Varianzformel (4.3) zu ⎧ ⎫ N N N
⎨
⎬
N − n 1 N 1 N − n 2 Var Y¯ H T = 2 Yi − Yi Y j ⎭ N ⎩ N n N −1 n i=1
i=1 j=1 i= j
⎧ 2 ⎫ N N N 2 2 ⎬ N −n 1 1 ⎨N −n N −n i=1 Yi i=1 Yi i=1 Yi − = + ⎭ n⎩ N N N −1 N N N −1 N =
1 N −n 2 S . n N −1
4.2 Größenproportionale Stichprobe Wie wir bei der Betrachtung der Varianz des Horvitz-Thompson-Schätzers gesehen haben, sind unterschiedliche Auswahlwahrscheinlichkeiten insbesondere dann von Vorteil, wenn die Auswahlwahrscheinlichkeiten πi proportional zu Yi sind. Wir betrachten dazu folgendes Beispiel: Beispiel 4.4: In einer Stichprobe sollen die Ausgaben für Marketing und Werbemaßnahmen von Kreisen und kreisfreien Städten eines Landes erhoben werden. Ziel ist es, den mittleren Marketing-Etat pro Kreis (bzw. Stadt) zu schätzen. Daraus lässt sich dann der Gesamt-Etat des Landes für Marketing-Maßnahmen hochrechnen. Ein mögliches Vorgehen wäre n Kreise zufällig auszuwählen und nach ihrem Marketing-Etat zu befragen. Bei einer einfachen Zufallsstichprobe kann es dabei rein zufällig passieren, dass hauptsächlich kleine, bevölkerungsschwache Kreise gezogen werden, deren Etat generell kleiner ist als der von bevölkerungsreichen Städten. Es ist jedoch einleuchtend, dass große Städte bezüglich des Marketing-Etats bedeutender, d.h. informativer sind als kleine Kreise. Daher scheint es sinnvoll, die größeren Städte mit größerer Wahrscheinlichkeit zu ziehen. Betrachten wir das obige Beispiel genauer. Der intuitive Grund für die höhere Bedeutung gewisser Städte bzw. Kreise liegt in ihrer Größe. Diese kann als Hilfs-
4.2
Größenproportionale Stichprobe
105
merkmal oder auch Sekundärinformation angesehen werden, welche für die Grundgesamtheit als bekannt vorausgesetzt wird. Die Stichprobenziehung wird nun so durchgeführt, dass die einzelnen Auswahlwahrscheinlichkeiten proportional zur Größe der Sekundärinformation sind. Wir sprechen vom Design der größenproportionalen Stichprobe, die wir nach der englischen Bezeichnung („probabilities proportional to size“) PPS-Stichprobe nennen. Im vorigen Abschnitt haben wir gesehen, dass der Horvitz-Thompson-Schätzer die Varianz 0 besitzt, falls die Auswahlwahrscheinlichkeiten proportional zu Y sind. Vor diesem Hintergrund ist die PPS-Stichprobe sinnvoll und verspricht eine kleine Varianz des resultierenden Schätzers, wenn die Sekundärinformation proportional zur Primärinformation ist. Es ist im oben genannten Beispiel zu erwarten, dass der Marketing-Etat für größere Städte größer ist als der für kleine Städte. Daher kann die PPS-Stichprobe als Approximation der idealen Horvitz-Thompson-Stichprobe angesehen werden. Allgemein benötigt man also ein Hilfsmerkmal, im Folgenden mit Z bezeichnet, das möglichst proportional zum Zielmerkmal Y ist. Die Auswahlwahrscheinlichkeit soll proportional zu Z sein. Bevor wir die Frage diskutieren, wie das PPS-Design realisiert werden kann, wollen wir uns der Schätzung zuwenden. Wir gehen also von einer PPS-Stichprobe vom Umfang n aus und verwenden das Hilfsmerkmal Z. Die zu Z proportionalen Auswahlwahrscheinlichkeiten ergeben sich dann zu Zi πi = n N j=1
Zj
.
(4.7)
NDies ergibt sich direkt aus der Forderung der Proportionalität und der Eigenschaft j=1 π j = n. Die Mittelwertschätzung erfolgt nun durch n 1 yk = Y¯ H T = Y¯ P P S = N πk k=1
N
n n Zj 1
yk 1 yk = Z¯ . N n zk n zk
j=1
k=1
k=1
Im obigen Beispiel hat der PPS-Schätzer folgende Interpretation: Hier sind die yk die Gesamtausgaben für Marketingmaßnahmen eines Kreises bzw. einer Stadt und z k ist die Einwohnerzahl. Damit entspricht der Term n1 nk=1 zykk einer Schätzung der durchschnittlichen Pro-Kopf-Ausgaben für Marketing. Wenn man diese mit der N Z i multipliziert und durch die Anzahl der Kreise und Gesamteinwohnerzahl i=1 Städte N dividiert, ergibt sich eine plausible Schätzung für den gesuchten durchschnittlichen Marketing-Etat der Kreise bzw. Städte. Wir wollen den Schätzer Y¯ P P S kurz mit dem Schätzer der einfachen Zufallsstichprobe vergleichen, d.h. mit n 1
yk . Y¯ E S = n k=1
106
4 Designbasierte Stichprobenverfahren
Für die Varianz des Schätzers ist jeweils die Streuung der Werte in der Summe entscheidend. Hier zeigen sich die Vorteile des PPS-Schätzers. Falls die Streuung der Yi größer ist als die der Yi /Z i , so hat der PPS-Schätzer eine kleinere Varianz. Dies ist erfüllt, wenn Z i proportional zu Yi ist. In dem obigen Beispiel ist dies sicherlich der Fall, da die Pro-Kopf-Ausgaben in der Regel eine geringere Streuung aufweisen als die absoluten Gesamtausgaben für Marketingmaßnahmen. Diese Überlegung kann generell als eine Art Richtlinie angesehen werden, ob eine PPSStichprobe im Vergleich zu einer einfachen Zufallsstichprobe lohnenswert ist. Wenn auch das Ziehen einer PPS-Stichprobe am häufigsten mit dem Hilfsmerkmal „Größe“ erfolgt, lässt sich dieses Design mit beliebigen Hilfsmerkmalen durchführen. Voraussetzung ist dabei jedoch, dass das Hilfsmerkmal nur positive Werte annimmt. Da der Stichprobenumfang n bei dem PPS-Design fest vorgegeben ist, erfolgt die Schätzung der Varianz mit Hilfe des Ansatzes von Yates und Grundy (siehe Formel (4.6)). Allerdings ist es hier notwendig, die Auswahlwahrscheinlichkeiten zweiter Ordnung πi, j zu kennen. Diese sind von der Ziehungsstrategie abhängig, die wir im Folgenden diskutieren wollen.
Das Design der größenproportionalen Stichprobe
Gegeben sei ein Hilfsmerkmal Z , dessen Werte in der Population bekannt und positiv sind. Ein Design mit festem Stichprobenumfang n und Auswahlwahrscheinlichkeiten Zi πi = n N j=1
Zj
heißt PPS-Design („probabilities proportional to size“). Dabei erfüllen die Z i die Eigenschaft n Zi <
N
Z j.
j=1
Die unverzerrte Mittelwertschätzung lautet N n
yk j=1 Z j 1 . Y¯ P P S = N n zk k=1 Die Varianz kann erwartungstreu geschätzt werden durch n n yl 2 1 1 πk πl − πk,l yk VarY G − . Y¯ H T = 2 · 2 πk,l πk πl N k=1 l=1 k=l
4.3
Praktische Umsetzung der PPS-Stichprobe
107
4.3 Praktische Umsetzung der PPS-Stichprobe Die Aufgabe, eine PPS-Stichprobe, d.h. eine Stichprobe mit festem Stichprobenumfang und vorgegebenen Inklusionswahrscheinlichkeiten πi , zu ziehen, ist nicht ganz einfach zu lösen. Hinzu kommt, dass bei der Berechnung der Varianz des HorvitzThompson-Schätzers die Auswahlwahrscheinlichkeiten zweiter Ordnung πi, j benötigt werden. Dieses Kapitel beschäftigt sich eingehender mit numerischen Verfahren, die eine praktische Umsetzung einer PPS-Stichprobe ermöglichen. Der eher praktisch orientierte Leser mag dieses Kapitel überspringen, wenngleich eine Grundkenntnis des vorgestellten Materials zur numerischen, praktischen Anwendung nötig ist. Eine Ziehung nach dem PPS-Design sollte idealerweise folgenden Anforderungen genügen: 1. Der Stichprobenumfang n sollte fest vorgegeben sein. 2. Die Auswahlwahrscheinlichkeiten πi sollten möglichst exakt proportional zur Hilfsgröße Z i sein. 3. Die Auswahlwahrscheinlichkeiten zweiter Ordnung πi, j sollten für alle i, j größer als Null sein. Weiter sollte πi, j < πi π j gelten. Dies stellt sicher, dass die Schätzung der Varianz nach Yates und Grundy immer positive Werte annimmt. 4. Das Verfahren sollte relativ einfach realisierbar sein und die πi, j sollten ohne zu hohen Aufwand berechenbar sein. Es stellt sich heraus, dass es sehr schwierig ist, all diesen Punkten gerecht zu werden. In einem Artikel von Brewer und Hanif (1983) werden 60 verschiedene Methoden der Ziehung diskutiert. Eine aktuelle Übersicht ist in dem Buch von Tillé (2006) zu finden. Wir wollen hier fünf Verfahren vorstellen. Dabei beginnen wir mit der Sampford-Methode nach Sampford (1967) und dem sogenannten Pareto-Verfahren nach Bondesson, Traat, und Lundqvist (2006). In der Praxis finden weitere alternative Algorithmen Anwendung. Wir beschränken uns hierbei auf die Methoden von Tillé (2006), Midzuno (1952) und Madow (1949) (siehe auch Hartley 1966), die im nachfolgenden Kapitel in ihrer Implementierung in R benutzt und nachfolgend kurz skizziert werden. Bevor wir aber auf diese komplexen Verfahren näher eingehen, diskutieren wir zur Illustration der Problematik einen einfachen Ansatz. Wir beginnen mit dem Stichprobenumfang n = 1. Dabei sind die Auswahlwahrscheinlichkeiten πi = n NZ i . Dieses Design kann realisiert werden, indem wir eine gleichj=1
Zj
verteilte Zufallszahl aus dem Intervall [0; 1] ziehen. Dabei zerlegen wir das Intervall [0; 1] in N Abschnitte, wobei der i-te Abschnitt die Länge Z i / Nj=1 Z j hat (siehe Abb. 4.1). Nun wird das Element i gezogen, falls die Zufallszahl im i-ten Abschnitt liegt. Wir betrachten zunächst eine sequentielle Ziehung. Im ersten Schritt werden die Ein-Zug-Auswahlwahrscheinlichkeiten pi = NZ i gewählt. Die Auswahlj=1
Zj
wahrscheinlichkeiten für den zweiten Schritt werden dann in Abhängigkeit von der ersten Ziehung gewählt. Eine Möglichkeit besteht darin, die Auswahlwahrschein-
108
4 Designbasierte Stichprobenverfahren 10 20
2 20
5 20
2 20
0
1 20
1
Abb. 4.1 Ziehen einer PPS-Stichprobe vom Umfang n = 1 aus einer Grundgesamtheit mit N = 5 Elementen mit den Ausprägungen Z 1 = 2, Z 2 = 10, Z 3 = 5, Z 4 = 2 und Z 5 = 1
lichkeiten proportional zu denen im ersten Schritt zu wählen: := pi|(n=2) j
0
pi 1− p j
für i = j für i = j .
Dabei ist pi|(n=2) die Wahrscheinlichkeit für die Ziehung des i-ten Elementes im j zweiten Zug, wenn Element j im ersten Zug gezogen wurde. Es ergeben sich die (n=2) für eine Stichprobe vom Umfang n = 2: Auswahlwahrscheinlichkeiten πi πi(n=2) = P(i wird im ersten oder zweiten Zug gezogen) = P(i im ersten Zug) + P(i im zweiten Zug) = pi +
N
P(i im zweiten, j im ersten Zug)
j=1 j=i
= pi +
N
j=1
p j pi . (1 − p j )
j=i
Der Index gibt dabei die gewählte Größe der Stichprobe an, hier ist n = 2. In analoger Form können nun die Auswahlwahrscheinlichkeiten für größere Stichproben berechnet werden. Für eine Stichprobe vom Umfang n = 3 ergibt sich beispielsweise ⎛ (n=3)
πi
= pi ⎝1 +
N
j=1 j=i
(n)
pj + 1 − pj
N
N
j=1 k=1
⎞ p j pk ⎠. 1 − p j − pk
j=k=i
Es zeigt sich, dass πi sich auf recht komplexe Weise aus pi ergibt. Es gi(n) lt im Allgemeinen nicht πi = npi , was die eigentliche Vorgabe wäre. Somit ist die Berechnung von πi bei gegebenem pi numerisch komplex. Fordert man andererseits an die Stichprobe gewisse Auswahlwahrscheinlichkeiten πi , so lässt sich die EinZug-Auswahlwahrscheinlichkeit pi daraus nur für kleine Populationen analytisch herleiten, indem obige Berechnungsvorschriften invertiert werden.
4.3
Praktische Umsetzung der PPS-Stichprobe
109
4.3.1 Sampford-Methode Eine Alternative zu der oben angesprochenen nicht erfolgreichen Strategie, sukzessive die Ein-Zug-Auswahlwahrscheinlichkeiten zu ändern, ist die sogenannte Verwerfungsstichprobe. Im einfachsten Fall ziehen wir eine Stichprobe vom Umfang n mit Zurücklegen und den Ein-Zug-Auswahlwahrscheinlichkeiten pi . Sind alle n Elemente der Stichprobe verschieden, so wird die Stichprobe akzeptiert. Ansonsten wird sie verworfen und es wird eine neue Stichprobe gezogen. Dieses Vorgehen wird so lange wiederholt, bis die erste Stichprobe akzeptiert wird. Es stellt sich heraus, dass für die Auswahlwahrscheinlichkeiten (insbesondere bei großen Grundgesamtheiten) zwar approximativ πi ≈ npi gilt, dass diese Beziehung aber nicht exakt ist. Eine geringfügige Veränderung dieser Strategie, die exakt zu πi = npi führt, wurde von Sampford (1967) vorgeschlagen. Die Sampford-Methode ist insofern attraktiv, als dass sie die Berechnung der Auswahlwahrscheinlichkeiten zweiter Ordnung πi, j erlaubt. Die numerische Umsetzung dazu wird in Abschn. 4.7 vorgestellt. Die Idee der Sampford-Methode ist es, das erste Element der Stichprobe mit der EinZug-Auswahlwahrscheinlichkeit pi = πi /n zu ziehen. Die verbleibenden n − 1 Elemente der Stichprobe werden nun als Verwerfungsstichprobe gezogen, wobei jedes Element die Ein-Zug-Auswahlwahrscheinlichkeit p˜i =
πi /(1 − πi ) N
(4.8)
π j /(1 − π j )
j=1
erhält. Beispiel 4.5: Wir verfolgen das Zahlenbeispiel aus Beispiel 4.3 weiter, das heißt wir betrachten die Population Y1 = 10,
Y2 = 20,
Y3 = 80,
Y4 = 90,
aus der eine PPS-Stichprobe vom Umfang n = 2 gezogen werden soll. Die Auswahlwahrscheinlichkeiten sollen dabei proportional sein zu Z 1 = 13,
Z 2 = 13,
Z 3 = 13,
Z 4 = 21,
was den Auswahlwahrscheinlichkeiten πi = n Z i / spricht, nämlich π1 = 2 ∗
13 , 60
π2 = 2 ∗
13 , 60
π3 = 2 ∗
N
13 , 60
j=1
Z j des Beispiels ent-
π4 = 2 ∗
21 . 60
Im ersten Zug werden demnach die Elemente mit den Ein-Zug-Auswahlwahrscheinlichkeiten pi = πi /2 gezogen. Die Ein-Zug-Auswahlwahrscheinlichkeiten für den zweiten Zug ergeben sich durch (4.8) zu p˜ 1 = 0, 165,
p˜ 2 = 0, 165,
p˜ 3 = 0, 165,
p˜ 4 = 0, 505.
110
4 Designbasierte Stichprobenverfahren
Sampford-Methode zur Ziehung einer PPS-Stichprobe N Gegeben seien die Auswahlwahrscheinlichkeiten πi mit i=1 πi = n. Eine Stichprobe s vom Umfang n kann dann wie folgt gezogen werden: Im ersten Schritt wird ein Element mit der Ein-ZugAuswahlwahrscheinlichkeit pi = πi / n gezogen. In den weiteren (n − 1) Schritten werden aus allen Elementen mit Zurücklegen (n − 1) Elemente gezogen. Die Ein-Zug-Auswahlwahrscheinlichkeiten sind dabei πi 1 − πi . p˜ i = N
πj j=1
(1 − π j )
Falls die n gezogenen Elemente nicht paarweise verschieden sind, wird die Stichprobe verworfen und es wird wieder mit dem ersten Schritt begonnen. Für die Auswahlwahrscheinlichkeiten zweiter Ordnung gilt: πi, j = K ·
n pj pi 1 · t − πi − π j Ln−t (i j) t−2 , 1 − πi 1 − π j n t=2
mit
Lm := s|s
hat die Länge
m
1 πl /n , 1 − πl l∈s
Lm (i j) := s|s
hat die Länge
K :=
n
m
und enthält nicht i,j
1 πl / n , 1 − πl l∈s
−1 t · Ln−t / n
t
.
t=1
Es gilt die Beziehung πi, j < πi π j für alle i, j. Dies sichert die Existenz einer positiven Varianzschätzung. Zu beachten ist, dass die Summierung jeweils über alle entsprechenden Stichproben s erfolgt.
4.3
Praktische Umsetzung der PPS-Stichprobe
111
Herleitung: Wir zeigen, dass die Sampford-Methode tatsächlich die geforderten Auswahlwahrscheinlichkeiten liefert. Dazu beginnen wir mit dem Nachweis für den Fall n = 2. Die Wahrscheinlichkeit, dass das Element i in der Stichprobe s ist, wird wie folgt berechnet: P(i ∈ s) =
P(i wird gezogen und s wird nicht abgelehnt) . P(s wird nicht abgelehnt)
(4.9)
Dabei wird i im ersten oder im zweiten Zug gezogen, was es erlaubt (4.9) wie folgt zu vereinfachen ⎛ ⎞ ⎜ N ⎟ ⎜ π ⎟
πj πj πi ⎜ i ⎟ P(i ∈ s) = ⎜ · · · C2 + · C2 ⎟ · C1 , ⎜ ⎟ n 1 − πj n 1 − πi j = i ⎝j =1 ⎠ j = i mit −1
C1 = (P(s wird nicht abgelehnt))
⎛ N
C2 = ⎝
,
j=1
N
⎞−1 πj ⎠ . 1 − πj
Wir setzen nun C = C1 · C 2 /n und nutzen j=1 π j = 2 aus. Damit gilt ⎞ ⎛
πj π i ⎠ P(i ∈ s) = C · ⎝ πi · + πj · 1 − πj 1 − πi j=i
⎛ = C · ⎝π i ·
j=i
j=i
⎛ = C · ⎝πi ·
j=i
⎛ = C · ⎝πi ·
N
j=1
⎛
⎛
= C · ⎝πi · ⎝
⎞ πj πi ⎠ + πj 1 − πj 1 − πi j=i
⎞ πj πi + · (2 − πi )⎠ 1 − πj 1 − πi ⎞ πj πi πi − · πi + (2 − πi )⎠ 1 − πj 1 − πi 1 − πi
N
j=1
Wir erhalten somit
⎞⎞ πj + 2⎠⎠ . 1 − πj ⎛
P(i ∈ s) = πi · C mit C = C ⎝
N
j=1
⎞ πi + 2⎠ . 1 − πj
Die Wahrscheinlichkeit, dass Individuum i in der Stichprobe ist, ist somit proportional zu πi und aus πi = n folgt unmittelbar C = 1 und damit P(i ∈ s) = πi . Die Berechnung im allgemeinen Fall ist sehr viel komplizierter. Wir wollen aber dem mathematisch interessierten Leser den Beweis, der von Hajek (1981) brillant dargestellt wird, nicht vorenthalten. Wir bezeichnen die Elemente, die nicht in der Stichprobe sind, mit s c und benutzen die Identität
112
4 Designbasierte Stichprobenverfahren N
(1 − πi ) = πi , die unmittelbar aus πi = n folgt. i∈s
i∈s c
i=1
Um die Wahrscheinlichkeit einer Stichprobe zu bestimmen, müssen wir nach dem gezogenen ersten Element unterscheiden: 1 πj P(s, erstes Element von s ist k) = C · πk · 1 − πj j ∈s j = k 1 πj = C · (1 − πk ) · . 1 − πj j∈s
Die Konstante C ergibt sich aus der Wahrscheinlichkeit, eine gültige Stichprobe zu erhalten. Damit ergibt sich für die ungeordnete Stichprobe s 1 πj
(1 − πk ) P(s) = C · 1 − πj k∈s
=C·
j∈s
πk ·
k∈s c
1 j∈s
πj . 1 − πj
Nun betrachten wir Stichproben, die ein festes Element i enthalten. Wir bezeichnen die Stichprobe, bei der wir das Element i durch das Element k ∈ s c ersetzen mit sik . Es gilt dann: ⎞ ⎛ 1 πj
⎠ · πi · 1 − πk ·πk · ⎝ P(s) = C · 1 − πj 1 − πi πk c k∈s
j∈sik
1 πj πi
=C· (1 − πk ) · . 1 − πi 1 − πj c k∈s
j∈sik
Nun erhalten wir die Wahrscheinlichkeit für i ∈ s als Summe über die Wahrscheinlichkeiten von Stichproben s, die i enthalten.
P(s) P(i ∈ s) = s,i∈s
1 πj πi
(1 − πk ) 1 − πi 1 − πj s,i∈s k∈s c j∈sik
1 πj πi (∗ ) = C · (1 − πk ) 1 − πi 1 − πj r,i∈r k∈r j∈r
πi = · P(r ) 1 − πi = C·
r,i∈r
πi (1 − P(i ∈ s)) 1 − πi ⇒ P(i ∈ s) = πi . ⇒ P(i ∈ s) =
Die Identität (∗ ) folgt aus der Überlegung, dass die Summierung aller Einheiten, die nicht in den Stichproben mit i ∈ s enthalten sind, auch über alle Einheiten von Stichproben, die i nicht enthalten, erfolgen kann. Die erste Summe besteht aus N −1 · (N − n) n−1
4.3
Praktische Umsetzung der PPS-Stichprobe
113
Summanden, die zweite Summe enthält (N − 1) · n, woraus sich jeweils die identische Anzahl (N −1) (N −1−n)(n−1) ergibt. Die Berechnungen zu den Auswahlwahrscheinlichkeiten zweiter Ordnung sind komplizier ter. Eine Herleitung findet sich bei Sampford (1967) oder Hajek (1981).
Die Sampford-Methode ist in verschiedenen Programmpaketen realisiert, führt aber für große Auswahlsätze zu langen Rechenzeiten, da viele Stichproben verworfen werden, weil die Wahrscheinlichkeit mindestens ein Element doppelt zu ziehen groß ist. Daher wurden verschiedene Methoden vorgeschlagen, die eine geringere Rechenzeit benötigen und trotzdem zum gleichen Design wie die SampfordMethode führen.
4.3.2 Pareto-Sampling Von Rosén (1997) stammt das sogenannte Pareto-Sampling. Dazu zieht man für die ganze Grundgesamtheit gleichverteilte Zufallszahlen Ui , i = 1, . . . , N und definiert Qi =
Ui / (1 − Ui ) . πi / (1 − πi )
Anschließend werden die Elemente mit den n kleinsten Werten von Q i gezogen. Diese ebenso einfache wie originelle Methode liefert approximativ eine Ziehung mit Auswahlwahrscheinlichkeiten πi . Die Idee, die hinter dieser Methode steht, ist, dass die Division durch kleine Wahrscheinlichkeiten πi zu hohen Werten von Q i führt und damit die Auswahlwahrscheinlichkeiten reduziert. Kürzlich wurde diese Methode so modifiziert, dass sie genau der Sampford-Methode entspricht, aber sehr viel weniger Rechenzeit als diese benötigt, siehe Bondesson et al. (2006).
4.3.3 Eliminierungsmethode von Tillé Für die Situation von mittelgroßen Populationen und relativ großen Auswahlsätzen ist diese Methode besonders geeignet. Die Idee besteht darin, statt eine Stichprobe vom Umfang n aus einer Population zu ziehen, sukzessive N − n Elemente aus einer Population zu eliminieren. Die verbleibende Menge mit n Elementen bildet abschließend die gesuchte Stichprobe. Das i-te Individuum wird dabei im k-ten Schritt aus der Population mit einer Wahrscheinlichkeit von rki eliminiert (unter der Annahme, dass das Individuum noch in der Population ist). Der Algorithmus durchläuft die Schritte k = 1, . . . , N − n. Die Wahrscheinlichkeit rki ist so definiert, dass für die Ziehungswahrscheinlichkeiten gilt: πi =
N1 −n k=1
(1 − rki ).
114
4 Designbasierte Stichprobenverfahren
Der Algorithmus ist einfach und bedarf N − n Eliminierungsschritten, um die Stichprobe zu erhalten. Er erlaubt weiter die Berechnung von Auswahlwahrscheinlichkeiten beliebiger Ordnung, also insbesondere zweiter Ordnung, was die Berechnung von Varianzen ermöglicht. Details finden sich in Tillé (2006).
4.3.4 Splitting-Methoden Die zu Grunde liegende Idee dieser Methoden ist, den Ziehungsvorgang zu zerlegen („Splitting“). Seien zwei Ziehungsstrategien gegeben mit Auswahlwahrscheinlichkeiten π (1) und π (2) . Wir führen unsere Ziehung nun so durch, dass im ersten Schritt gelost wird, welche der beiden Strategien zum Einsatz kommt. Die Wahrscheinlichkeit für Strategie (1) sei dazu λ und für Strategie (2) entsprechend 1 − λ. Insgesamt ergeben sich dann die Auswahlwahrscheinlichkeiten durch πi = λπi(1) + (1 − λ)πi(2) .
(4.10)
Für die beiden Ziehungsstrategien π (1) und π (2) muss gelten
(1)
0 ≤ πi
≤ 1,
(2)
0 ≤ πi
≤ 1 und
N
i=1
(1)
(2)
(1)
πi
=
N
(2)
πi
= n.
i=1
Das bedeutet, dass sowohl πi als auch πi Auswahlwahrscheinlichkeiten darstellen. Die Methode ist so konstruiert, dass Individuum i mit Wahrscheinlichkeit λ (1) die Auswahlwahrscheinlichkeit πi und mit Wahrscheinlichkeit (1 − λ) die Auswahlwahrscheinlichkeit πi(2) hat, was mit (4.10) die resultierende Auswahlwahrscheinlichkeit von πi ergibt. Ziel dieser Zerlegung ist es nun, dass aus den einzelnen πi(1) und πi(2) leichter eine Stichprobe zu ziehen ist. Dies ist möglich, wenn (1) beispielsweise πi = n/N ist, was einer einfachen Zufallsstichprobe entspricht, die natürlich leicht realisiert werden kann. (1) Deville und Tillé (1998) zeigen, dass es möglich ist, πi = Nn zu wählen. Gleichzeitig kann Strategie (2) so gewählt werden, dass für mindestens ein Element (2) (2) der Grundgesamtheit πi = 0 oder πi = 1 gilt. Damit ist die Übertragung des Problems auf die Auswahl einer Stichprobe aus einer um 1 reduzierten Population gelungen. Das Verfahren wird nun iteriert, d.h. Strategie (2) wird wieder aufgeteilt in eine einfache Zufallsstichprobe und in eine Ziehungsstrategie mit einer Population vom Umfang N − 2. Eine andere Variante des Splittings wurde von Midzuno (1952) vorgeschlagen. Hier wird eine Aufteilung in N mögliche Ziehungsstrategien vorgenommen. Im ersten Schritt wird gelost, welche der N Strategien zum Einsatz kommt. Hierbei kommt Strategie j mit Wahrscheinlichkeit
4.3
Praktische Umsetzung der PPS-Stichprobe
λj = πj ·
115
N −1 n−1 − N −n N −n
zum Einsatz. Die Strategie j besitzt folgende Auswahlwahrscheinlichkeiten: ( j) πi
=
1 n−1 N −1
für i = j . für i = j.
Die Strategie j beinhaltet, dass das Element j gezogen wird und eine einfache Zufallsstichprobe vom Umfang n − 1 aus den übrigen N − 1 Elementen gezogen wird. Damit werden auch entsprechende Auswahlwahrscheinlichkeiten zweiter Ordnung hergeleitet, die sich ergeben zu πk,l =
n−1 n πk + πl + . N −2 N −1
Als Voraussetzungen für die einfache Anwendung benötigt man πi > (n − 1)/ (N − 1). Ist dies nicht erfüllt, so kann eine Verallgemeinerung des Verfahrens angewendet werden. Details hierzu finden sich in Deville und Tillé (1998).
4.3.5 Methode von Madow Die nachfolgende Methode ist von Madow (1949) vorgeschlagen und anschaulich in Hartley (1966) demonstriert. Wir skizzieren hier die zu Grunde liegende Idee. Es soll eine Stichprobe mit Auswahlwahrscheinlichkeiten πi , i = 1, . . . , N gezogen werden, wobei die Auswahlwahrscheinlichkeiten proportional zu einer Sekundärinformation Z i sind. Wir nehmen weiter an, dass alle Z i ganzzahlig sind, was natürlich für jede in der Praxis erhobene Größe erreicht werden kann, indem die Z i mit einem hinreichend großen Faktor multipliziert werden. Wir berechnen nun die kumulierte j Sekundärinformation W j = i=1 Z i , d.h. für eine beliebige Ordnung der Elemente der Population werden die Werte N von Z i sukzessive aufsummiert. Damit gilt insbesondere W N = N Z¯ = i=1 Z i . Wir nehmen an, dass eine Stichprobe vom Umfang n gesucht ist und definieren d = W N /n. Wir gehen weiter davon aus, dass d ganzzahlig ist, bzw. wenn dies nicht der Fall ist, multiplizieren wir die Größen Z i so, dass d ganzzahlig wird. Man wählt eine ganzzahlige Zufallszahl r zwischen 1 und d, die die Stichprobe definiert. Das heißt konkret, es verbleiben d mögliche Stichproben, alle mit gleichen Wahrscheinlichkeiten. Dabei wird als k-tes Element der Stichprobe (k = 1, . . . , n) das i-te Element der Population ausgewählt, wenn für das i-te Element gilt Wi−1 < r + (k − 1)d ≤ Wi , wobei W0 = 0 gesetzt wird. Das Verfahren ist numerisch leicht zu realisieren und liefert wie in Madow (1949) gezeigt eine Stichprobe mit den gewünschten Auswahl-
116
4 Designbasierte Stichprobenverfahren
wahrscheinlichkeiten πi . Voraussetzung zur Anwendbarkeit ist jedoch, dass Z i ≤ d für alle i = 1, . . . , N . Das heißt, insbesondere wenn d groß ist im Vergleich zu Z i , so ist das Verfahren gut anwendbar. Letzteres gilt z.B. wenn der Auswahlsatz n/N nicht zu groß ist. Die Auswahlwahrscheinlichkeiten können nun errechnet werden, indem alle d möglichen Stichproben betrachtet werden und notiert wird, mit welchen Wahrscheinlichkeiten die Elemente i und j gezogen werden. Das ist etwas aufwendiger, aber für ein hinreichend kleines d realisierbar. Mehr Details finden sich in Hartley (1966). Ein Problem dieser Methode ist allerdings, dass die Auswahlwahrscheinlichkeiten zweiter Ordnung nicht alle von 0 verschieden sind. Daher sind für die Varianzschätzung nur Methoden geeignet, wie sie im folgenden Abschnitt beschrieben werden.
4.4 Die Hansen-Hurwitz-Strategie Um die komplexen Formeln des Horvitz-Thompson-Schätzers zu umgehen, betrachten wir in diesem Abschnitt eine approximative Lösung. Wir haben in Abschn. 2.8 bereits gesehen, dass der Unterschied zwischen Ziehen mit und ohne Zurücklegen gering ist, wenn der Auswahlsatz n/N klein und die Population N genügend groß ist. In diesem Fall konnte man den Korrekturfaktor (N − n)/N für endliche Populationen vernachlässigen. Ähnliche Aussagen lassen sich auf den Ziehungsprozess mit ungleichen Auswahlwahrscheinlichkeiten übertragen, was die Berechnung des Varianzschätzers erheblich vereinfacht. Nehmen wir dazu an, wir ziehen eine Stichprobe vom Umfang n aus einer Population vom Umfang N mit Zurücklegen. Dabei hat das i die Ein-Zug-Auswahlwahrscheinlichkeit Individuum N pi , i = 1, . . . , N , mit i=1 pi = 1. Man behalte im Gedächtnis, dass beim Ziehen mit Zurücklegen ein Individuum mehrmals in die Stichprobe gelangen kann. Die Wahrscheinlichkeit, dass es mindestens einmal in der Stichprobe vertreten ist, beträgt 1 − (1 − pi )n . Der Horvitz-Thompson-Schätzer ist bei einem derartigen Stichprobendesign nicht anwendbar, da er einen Ziehungsprozess ohne Zurücklegen voraussetzt. Die entsprechende Korrektur beim Ziehen mit Zurücklegen ergibt sich durch den Hansen-Hurwitz-Schätzer n 1 yk ¯ Y HH = . Nn pk k=1
Dieser Schätzer ist erwartungstreu. Der Vorteil beim Hansen-Hurwitz-Schätzer im Vergleich zum Horvitz-Thompson-Schätzer ist, dass die Auswahlwahrscheinlichkeiten und damit die Varianzformeln ohne Schwierigkeiten berechnet werden können. Basierend auf der Tatsache, dass bei großen Populationen und kleinem Auswahlsatz n/N die Unterschiede zwischen Ziehen mit und ohne Zurücklegen gering sind, bietet es sich in diesem Falle an, den Hansen-Hurwitz-Schätzer als Approximation für den Horvitz-Thompson-Schätzer zu benutzen.
4.4
Die Hansen-Hurwitz-Strategie
117
Mittelwertschätzer bei beliebigen Auswahlwahrscheinlichkeiten und Ziehen mit Zurücklegen (Hansen-Hurwitz-Schätzer)
Sei pi die Ein-Zug-Auswahlwahrscheinlichkeit für das i-te Individuum der Population. Die Individuen werden mit Zurücklegen gezogen. Somit ergibt sich als unverzerrter Schätzer für den Mittelwert Y¯ der Population n 1 yk Y¯ H H = . Nn pk k=1
Die Varianz kann erwartungstreu geschätzt werden durch Var Y¯ H H =
1 n(n − 1) n
k=1
yk − Y¯ H H N pk
2 .
Herleitung: Der Erwartungswert des Hansen-Hurwitz-Schätzers kann wie folgt hergeleitet werden. Durch den Ziehungsprozess mit Zurücklegen ist E(yk / pk ) = E(yl / pl ) für k, l = 1, . . . , n, und es ergibt sich N 1 yk 1 Yi E Y¯ H H = E = pi = Y¯ . N pk N pi i=1
Für die Varianz gilt wegen der Unabhängigkeit der Züge, die sich gemäß dem Ziehen mit Zurücklegen ergibt 1 1 yk Var Var Y¯ H H = 2 N n pk 2 yk 1 1 ¯ E − NY = 2 pk N n 2 N 1 Yi − Y¯ pi . = n pi N i=1
Somit verbleibt zu zeigen, dass Var Y¯ H H =
2 n
1 yk Y¯ H H − n(n − 1) N pk k=1
ein erwartungstreuer Schätzer für die Varianz ist. Wir definieren dazu das Hilfsmerkmal V mit n
yk vk = Nypk k und v¯ = N1n . Damit ist aber pk k=1
118
4 Designbasierte Stichprobenverfahren = E E Var Y¯ H H
n
1 (vk − v) ¯ 2 n(n − 1) k=1 1 = Var(V ) = Var Y¯ H H . n
4.5 Beispiel Bei einer Fischereistudie in England, siehe Cotter, Course, Buckland, und Garrod (2002), sollte die Anzahl gefangener Fische geschätzt werden. Dabei wurden Kabeljau, Schellfisch und Weißfisch in der Nordsee in den Jahren von 1997 bis 1998 betrachtet. Da die Gesamtzahlen nur sehr schwer zu erheben sind, wurde eine Erhebung auf verschiedenen Fischerbooten durchgeführt. Die Untersuchungseinheiten sind also die in dem jeweiligen Zeitraum eingesetzten Fischerboote. Da sich die Boote in ihrer Kapazität und Fangstrategie stark unterscheiden, kam eine PPS-Stichprobe zur Anwendung. Die Größe Yk sind die in einem bestimmten Zeitraum auf dem Boot k gefangenen Fische. Nun unterscheiden sich die Boote stark in ihrer Kapazität und ihrer Fangstrategie. Dies führt zu einer hohen Streuung der Yk und damit wäre eine Schätzung basierend auf einer einfachen Zufallsstichprobe der Boote nur sehr ungenau. Eine Verbesserung der Genauigkeit kann dadurch erreicht werden, dass ein Hilfsmerkmal definiert wird, das möglichst proportional zu den gefangenen Fischen Yk ist. Wichtig ist dabei, dass das Hilfsmerkmal vor der Stichprobenziehung bekannt ist. Die Autoren der Studie wählten
Z=
VCU · Aufwand durchschnittliche Dauer der Ausfahrten in Tagen
Die Einheit VCU („vessel capacity unit“) beschreibt die Kapazität der Schiffe. Der Aufwand wurde durch die Stunden, die das Boot in den früheren Jahren unterwegs war, gemessen. Die Dauer der Ausfahrten ist indirekt proportional, da eine kürzere Zeitspanne mehr Ausfahrten erlaubt. Um die Berechnung einfach zu halten, wurde hier das Ziehen der Boote mit Zurücklegen und der Hansen-Hurwitz-Schätzer angewendet. Da sich die Boote erheblich in ihren Fängen unterschieden, führte die PPS-Strategie hier zu einem erheblichen Effizienzgewinn. Weitere Detailfragen, wie Messfehler und fehlende Werte werden in Cotter et al. (2002) diskutiert.
4.6 Literatur Designbasierte Verfahren beruhen auf dem Horvitz-Thompson-Theorem, welches in seiner Form einfach und flexibel ist. Problematischer ist die konkrete Anwendung des Theorems. Dies fängt beispielsweise bei der Schätzung der Varianz des
4.6
Literatur
119
Horvitz-Thompson-Schätzers an. Die einfache Form (4.4) ist zwar erwartungstreu, liefert aber nicht notwendigerweise positive Werte. Zur Korrektur dieses Mankos haben wir die Version von Yates und Grundy (1953) vorgestellt. Ein Vergleich der beiden Schätzer findet sich z.B. in Cumberland und Royall (1981). Der Schätzer von Yates und Grundy fällt dabei durch eine angenehme Tatsache auf. Sind die Auswahlwahrscheinlichkeiten πi proportional zu Yi , soll heißen sind das Sekundärmerkmal Z i und die Primärinformation Yi proportional, so folgt für den Schätzer nach Yates und Grundy gemäß (4.5), dass die Varianz den Wert 0 annimmt. Für den Schätzer (4.4) gilt dies nicht notwendigerweise. Weitergehende Untersuchungen zum Vergleich der Schätzer finden sich u.a. in Chaudhuri und Steger (2005), Rao und Singh (1973), Lanke (1974) und Vijayan (1975). Der Varianzschätzer verlangt die Angabe und Kenntnis der Auswahlwahrscheinlichkeiten zweiter Ordnung. Um dies zu umgehen, hat Jessen (1969) eine alternative Varianzbestimmung vorgeschlagen, die sich wie folgt berechnet N
N
Yj 2 Yi Var J − , Y¯ H T = W¯ πi πj i=1 j>i
mit W¯ =
N πi2 n − i=1 . N (N − 1)
Die entsprechende Schätzung ist erhältlich durch yk 1 N (N − 1) ¯
yl 2 ¯ W − , Var J Y H T = 2 πk πl N n n−1 i∈s j∈s, j
wobei s die Stichprobe, sprich die Indexmenge der gezogenen Individuen ist. Dieser Schätzer benötigt keine Auswahlwahrscheinlichkeiten zweiter Ordnung. Es zeigt sich jedoch in Simulationsstudien (Westerheide 2006), dass der Schätzer dazu neigt, die Varianzen zu unterschätzen, was natürlich aus statistischer Sicht kritisch ist. Als weitere Alternative zum Horvitz-Thompson-Schätzer bietet sich der HansenHurwitz-Schätzer an. In diesem Fall setzt man pi = πi /n und wendet entsprechende Varianzformeln des Hansen-Hurwitz-Schätzers an. Hierbei wird üblicherweise die Varianz überschätzt, was aufgrund der angenommenen Ziehung mit Zurücklegen resultiert. Ein ähnliches Phänomen hatten wir schon in Abschn. 2.5 gesehen. Zur Umgehung der Berechnung der Auswahlwahrscheinlichkeiten zweiter Ordnung bietet sich die Idee von Hajek (1981) an, der vorschlägt, die Auswahlwahrscheinlichkeiten zweiter Ordnung zu approximieren durch πi, j ≈ πi π j 1 − (1 − πi )(1 − π j )d −1 ,
(4.11)
N mit d = i=1 πi (1 − πi ). Diese Approximation zeigt sich in der Praxis als durchaus gebrauchsfähig (siehe Berger 1998) und wird beispielsweise von statistischen
120
4 Designbasierte Stichprobenverfahren
Ämtern in Schweden und Frankreich benutzt (siehe Andersson & Norberg 1994, und Berger 2004). Neuere Ansätze zur Varianzschätzung bei Vermeidung der Berechnung von Auswahlwahrscheinlichkeiten zweiter Ordnung finden sich in Berger und Skinner (2005). Neben der Berechnung von Auswahlwahrscheinlichkeiten zweiter Ordnung ist der explizite Ziehungsprozess von Bedeutung. Eine aktuelle Diskussion ist im schon erwähnten Buch von Tillé (2006) oder in Brewer (2002) zu finden. Der Vergleich von Alternativen zielt dabei auf die Varianz des Schätzers ab, das heißt der Ziehungsalgorithmus sollte zu einer möglichst kleinen Varianz des resultierenden Schätzers führen, insbesondere im Vergleich zur gängigen Sampford-Methode. Theoretische Ergebnisse in diese Richtung finden sich zum Beispiel in Gabler (1981) und Gabler (1984).
4.7 Numerische Umsetzung Wie wir in den obigen Abschnitten gesehen haben, besteht die Realisation designbasierter Stichproben aus zwei Schritten. Zunächst muss eine entsprechende Stichprobe mit vorgegebenen Auswahlwahrscheinlichkeiten πi gezogen werden. Diese Ziehung wird als PPS-Ziehung vollzogen. Hierbei ist es notwendig, die Auswahlwahrscheinlichkeiten erster und zweiter Ordnung zu kennen bzw. basierend auf dem Ziehungsverfahren zu berechnen, da diese in der Varianzberechnung des Schätzers benötigt werden. Danach kann der Horvitz-Thompson-Schätzer berechnet und seine Varianz geschätzt werden. Diese Zweiteilung der Umsetzung spiegelt sich auch in diesem Abschnitt wider. Wir gehen zunächst auf die bereits in anderen R-Paketen implementierten Möglichkeiten ein, was in den Abschn. 4.7.1 und 4.7.2 verfolgt wird. Das im Rahmen dieses Buches erstellte R-Paket samplingbook kombiniert diese Möglichkeiten, so dass der eher praktisch orientierte Leser direkt zu Abschn. 4.7.3 springen sollte.
4.7.1 PPS-Auswahlwahrscheinlichkeiten Zur Stichprobenziehung mit vorgegebenen Auswahlwahrscheinlichkeiten benötigen wir Funktionen, die in den R-Paketen pps und sampling zur Verfügung gestellt sind. Diese werden mit > library(pps) und > library(sampling) eingebunden. Wir wollen nun die Auswahlwahrscheinlichkeiten πi und die Auswahlwahrscheinlichkeiten zweiter Ordnung πi, j berechnen.
4.7
Numerische Umsetzung
121
Um die Auswahlwahrscheinlichkeiten πi nach Formel (4.7) zu berechnen, verwenden wir die Funktion inclusionprobabilities(·) aus dem Paket sampling. > inclusionprobabilities(a, n) # a # n
vector of positive numbers sample size
Diese zieht aus einem Vektor a mit positiven Zahlen eine PPS-Stichprobe der Größe n. Zur Veranschaulichung nehmen wir an, dass die Sekundärinformation, die zur Stichprobenziehung gemäß dem PPS-Ansatz benutzt werden soll, in folgendem Datensatz vorliegt: > data
1 2 3 4 5 6 7
id 1 2 3 4 5 6 7
z 1.8 2.0 3.2 2.9 1.5 2.0 2.2
Das heißt, zu Grunde liegt eine Population vom Umfang N = 7 mit Sekundärinformation Z , welche die Auswahlwahrscheinlichkeiten bestimmen soll. Nehmen wir an, wir wollen eine Stichprobe vom Umfang n = 2 ziehen. Die Auswahlwahrscheinlichkeiten sollen dabei proportional zur Größe Z sein.
> > > >
n <- 2 z <- data$z pik <- inclusionprobabilities(a=z,n=n) pik
[1] 0.2307692 0.2564103 0.4102564 0.3717949 0.1923077 0.2564103 [7] 0.2820513 Dies sind somit die Werte πi . Die Stichprobengröße n entspricht der Summe der Auswahlwahrscheinlichkeiten aus pik.
122
4 Designbasierte Stichprobenverfahren
Zur Berechnung der Varianz des Horvitz-Thompson Schätzers benötigen wir außerdem die Auswahlwahrscheinlichkeiten zweiter Ordnung πi, j . Diese hängen vom verwendeten Algorithmus ab. Für eine Auswahl basierend auf dem Sampford Algorithmus erhält man diese durch die Funktion sampfordpi(·) im Paket pps. > sampfordpi(sizes, n) # sizes # n
A vector of the sizes of the units in the population The sample size
Die Funktion berechnet somit für eine Stichprobe vom Umfang n die Auswahlwahrscheinlichkeiten zweiter Ordnung für einen Vektor sizes, der die Hilfsgrößen Z der einzelnen Einheiten in der Population enthält, zu denen die Auswahlwahrscheinlichkeiten proportional sind. Angewendet auf unser Datenbeispiel ergibt sich mit der Methode nach Sampford: > PI_sampford <- sampfordpi(sizes=z,n=n) > print(PI_sampford)
[1,] [2,] [3,] [4,] [5,] [6,] [7,]
[,1] 0.23077 0.03189 0.05778 0.05055 0.02295 0.03189 0.03571
[,2] 0.03189 0.25641 0.06517 0.05704 0.02595 0.03603 0.04034
[,3] 0.05778 0.06517 0.41026 0.10217 0.04716 0.06517 0.07281
[,4] 0.05055 0.05704 0.10217 0.37179 0.04123 0.05704 0.06377
[,5] 0.02295 0.02595 0.04716 0.04123 0.19231 0.02595 0.02908
[,6] 0.03189 0.03603 0.06517 0.05704 0.02595 0.25641 0.04034
[,7] 0.03571 0.04034 0.07281 0.06377 0.02908 0.04034 0.28205
Es ergibt sich eine symmetrische Matrix, wobei auf der Diagonalen die Auswahlwahrscheinlichkeiten πi aufgetragen sind. Wir betrachten als Alternative die Eliminierungsmethode von Tillé, die Midzuno Methode und die Methode nach Madow, welche im R-Paket sampling implementiert sind. > UPtillepi2(pik) > UPmidzunopi2(pik) > UPsystematicpi2(pik) # pik
vector of the first-order inclusion probabilities.
Allen drei Funktionen wird der Vektor der Auswahlwahrscheinlichkeiten erster Ordnung, wie er weiter oben mit inclusionprobabilities(·) berechnet wurde, übergeben.
4.7
Numerische Umsetzung
123
Für unsere Beispieldaten erhält man nach der Eliminierungsmethode von Tillé folgende Auswahlwahrscheinlichkeiten zweiter Ordnung: > PI_tille <- UPtillepi2(pik) > print(PI_tille)
[1,] [2,] [3,] [4,] [5,] [6,] [7,]
[,1] 0.23077 0.03139 0.05955 0.05227 0.02038 0.03139 0.03580
[,2] 0.03139 0.25641 0.06617 0.05807 0.02478 0.03580 0.04020
[,3] 0.05955 0.06617 0.41026 0.09595 0.04963 0.06617 0.07279
[,4] 0.05227 0.05807 0.09595 0.37179 0.04355 0.05807 0.06388
[,5] 0.02038 0.02478 0.04963 0.04355 0.19231 0.02478 0.02919
[,6] 0.03139 0.03580 0.06617 0.05807 0.02478 0.25641 0.04020
[,7] 0.03580 0.04020 0.07279 0.06388 0.02919 0.04020 0.28205
Die Funktion UPtillepi2(·) gibt die Auswahlwahrscheinlichkeiten erster und zweiter Ordnung aus. Die Diagonale der Matrix, das heißt die Auswahlwahrscheinlichkeiten πi , sind natürlich identisch zu denen, die wir mit der Sampford-Methode erhalten haben, die Auswahlwahrscheinlichkeiten zweiter Ordnung unterscheiden sich hingegen durch das anders gewählte Ziehungsverfahren. Nach der Midzuno Methode erhält man: > PI_midzuno <- UPmidzunopi2(pik) > print(PI_midzuno)
[1,] [2,] [3,] [4,] [5,] [6,] [7,]
[,1] 0.23077 0.03077 0.06154 0.05385 0.01795 0.03077 0.03590
[,2] 0.03077 0.25641 0.06667 0.05897 0.02308 0.03590 0.04103
[,3] 0.06154 0.06667 0.41026 0.08974 0.05385 0.06667 0.07179
[,4] 0.05385 0.05897 0.08974 0.37179 0.04615 0.05897 0.06410
[,5] 0.01795 0.02308 0.05385 0.04615 0.19231 0.02308 0.02821
[,6] 0.03077 0.03590 0.06667 0.05897 0.02308 0.25641 0.04103
[,7] 0.03590 0.04103 0.07179 0.06410 0.02821 0.04103 0.28205
Hier fällt auf, dass die Matrix zu der der Eliminierungsmethode identisch ist. Dies gilt nach Deville und Tillé (1998) allgemein. Die Methode nach Madow liefert: > PI_madow <- UPsystematicpi2(pik) > print(PI_madow) [,1] [,2] [,3] [,4] [,5] [,6] [,7] [1,] 0.23077 0.00000 0.00000 0.23077 0.00000 0.00000 0.00000
124
[2,] [3,] [4,] [5,] [6,] [7,]
4 Designbasierte Stichprobenverfahren
0.00000 0.00000 0.23077 0.00000 0.00000 0.00000
0.25641 0.00000 0.03846 0.19231 0.02564 0.00000
0.00000 0.41026 0.00000 0.00000 0.23077 0.17949
0.03846 0.00000 0.37179 0.00000 0.00000 0.10256
0.19231 0.00000 0.00000 0.19231 0.00000 0.00000
0.02564 0.23077 0.00000 0.00000 0.25641 0.00000
0.00000 0.17949 0.10256 0.00000 0.00000 0.28205
Man beachte, dass der Ziehungsprozess der Methode nach Madow Ähnlichkeit hat mit dem Ziehungsprozess einer systematischen Stichprobe, wie sie in Abschn. 2.9 behandelt wurde. Dies spiegelt sich im Namen der R-Prozedur wider.
4.7.2 PPS-Ziehung Im nächsten Schritt wird mit den vier vorgestellten Methoden eine Stichprobe gezogen. Verfolgen wir zunächst die Sampford-Methode. Wir ziehen hier n Elemente aus der Menge 1, . . . , N , wobei das Element i mit der Auswahlwahrscheinlichkeit πi gezogen wird. Die Wahrscheinlichkeit πi ist dabei durch das Sekundärmerkmal Z i bestimmt durch Formel (4.7) πi = n
Zi N
.
Zj
j=1
Diese Stichprobe kann mit dem Befehl sampford(·) aus dem Paket pps realisiert werden. > sampford(size, n) # size # n
A vector of the sizes of the units in the population The sample size
Es werden also dieselben Argumente wie bei der Funktion sampfordpi(·) übergeben. Basierend auf dem obigen Datensatz ergibt sich: > set.seed(178209) > index_sampford <- sampford(size=z,n=n) > index_sampford [1] 3 7 Hier wurden also zufällig Elemente 3 und 7 ausgewählt. Die Methoden von Tillé, Midzuno und Madow liefern die Ergebnisse in etwas anderer Form.
4.7
Numerische Umsetzung
125
> UPtille(pik) > UPmidzuno(pik) > UPsystematic(pik) # pik
vector of prescribed inclusion probabilities.
Auch hier werden also dieselben Argumente wie bei den obigen Funktionen übergeben. Als Ergebnis wird ein Vektor der Länge N zurückgegeben, der n Einträge mit der Zahl 1 beinhaltet, die die zu ziehenden Individuen widerspiegelt, und N − n Einträge mit der Zahl 0, die die nicht ausgewählten Individuen angibt. Angewendet auf unser Datenbeispiel ergibt sich:
> > > >
pik <- inclusionprobabilities(a=z, n=n) set.seed(178209) index_tille <- UPtille(pik) print(index_tille)
[1] 1 0 1 0 0 0 0 > set.seed(178209) > index_midzuno <- UPmidzuno(pik) > print(index_midzuno) [1] 0 0 1 1 0 0 0 > set.seed(178209) > index_madow <- UPsystematic(pik) > print(index_madow) [1] 0 0 1 0 0 1 0
Hier werden bei Anwendung der Methode von Tillé die Individuen 1 und 3 ausgewählt, bei Anwendung der Methode von Midzuno die Individuen 3 und 4 und bei Anwendung der Methode von Madow die Individuen 3 und 6.
4.7.3 PPS-Ziehung und Auswahlwahrscheinlichkeiten Die unter 4.7.1 und 4.7.2 durchgeführten Schritte können alternativ und aus praktischen Gesichtspunkten einfacher mit Hilfe der Funktion pps.sampling(·) im Paket samplingbook realisiert werden.
126
4 Designbasierte Stichprobenverfahren
> pps.sampling(z, n, id = 1:N, method = 'sampford', + return.PI = FALSE) # # # # # # # # # # # #
z n id
method
return.PI
vector of quantities which determine the sampling probabilites in the population positive integer for sample size an optional vector with identification values for the population elements. Default is 'id = 1:N', where 'N' is length of 'z' the sampling method to be used Options are 'sampford', 'tille', 'midzuno' or 'madow' logical. If TRUE the pairwise inclusion probabilities for all individuals in the population are returned
Dabei bestimmt z die Hilfsgröße, zu der die Auswahlwahrscheinlichkeiten proportional gewählt werden, und n die gewünschte Stichprobengröße. Mit id kann für die Populationselemente eine ID-Variable festgelegt werden. Wird diese nicht definiert, wird standardmäßig ein Vektor mit den Werten 1 bis N gebildet. Als Methoden können die Optionen ’sampford’, ’tille’, ’midzuno’ oder ’madow’ angegeben werden. Mit return.PI wird schließlich angegeben, ob die Auswahlwahrscheinlichkeiten zweiter Ordnung für alle Elemente der Grundgesamlheit ausgegeben werden sollen. Aus numerischen Gründen sind bestimmte Einstellungen nicht zulässig, nämlich bei method = ’sampford’ n/N >0.3 und N > 200 und bei method = ’tille’ N > 500. Bei großer Grundgesamtheit N empfiehlt es sich somit, die Methoden nach ’midzuno’ oder ’madow’ zu verwenden. Es soll nun eine PPS-Stichprobe nach Sampford vom Umfang n = 2 gezogen werden, so dass die Auswahlwahrscheinlichkeiten proportional zur Variable z im Datensatz data sind. > > + >
set.seed(178209) pps.sample_sampford <- pps.sampling(z=data$z, n=2, method="sampford") pps.sample_sampford
pps.sampling object: Sample with probabilities proportional to size Method of Sampford: PPS sample: [1] 3 7
4.7
Numerische Umsetzung
127
Sample probabilities: [,1] [,2] [1,] 0.41025641 0.07281474 [2,] 0.07281474 0.28205128 Als Ergebnis erhält man einerseits die gezogene Stichprobe durch Angabe der ausgewählten Indizes der Menge 1 bis N und andererseits die Auswahlwahrscheinlichkeiten erster Ordnung der in die Stichprobe gezogenen Individuen. In dem Beispiel sind dies die Individuen 3 und 7. Die Stichproben und Auswahlwahrscheinlichkeiten nach den Methoden von Tillé, Midzuno und Madow erhält man, indem man die Option method geeignet wählt. > set.seed(178209) > pps.sample_tille <- pps.sampling(z=data$z, n=2, method="tille") > pps.sample_tille pps.sampling object: Sample with probabilities proportional to size Method of Tille: PPS sample: [1] 1 3 Sample probabilities: [,1] [,2] [1,] 0.23076923 0.05955335 [2,] 0.05955335 0.41025641 > set.seed(178209) > pps.sample_midzuno <- pps.sampling(z=data$z, n=2, method="midzuno") > pps.sample_midzuno pps.sampling object: Sample with probabilities proportional to size Method of Midzuno: PPS sample: [1] 3 4 Sample probabilities: [,1] [,2] [1,] 0.41025641 0.08974359 [2,] 0.08974359 0.37179487
128
4 Designbasierte Stichprobenverfahren
> set.seed(178209) > pps.sample_madow <- pps.sampling(z=data$z, n=2, method="madow") > pps.sample_madow pps.sampling object: Sample with probabilities proportional to size Method of Madow: PPS sample: [1] 3 6 Sample probabilities: [,1] [,2] [1,] 0.4102564 0.2307692 [2,] 0.2307692 0.2564103 Größenproportionale Stichproben werden in der Praxis häufig verwendet, wenn Informationen zu bevölkerungsbezogenen Themen von Interesse sind, da die Einwohnerzahlen in Regionen, wie z.B. auf Kreisebene, zur Verfügung stehen. Bei bestimmten Variablen erhofft man sich, durch bevorzugte Auswahl von Elementen in bevölkerungsreicheren Regionen gegenüber bevölkerungsärmeren Regionen eine höhere Effizienz der Stichprobe zu erhalten. In dem Datensatz influenza aus dem Paket samplingbook stehen die Einwohnerzahlen in den deutschen Stadt- und Landkreisen aus dem Jahr 2007 in der Variable population zur Verfügung. Wir wollen nun exemplarisch eine größenproportionale Stichprobe der Landkreise vom Umfang n=20 nach der Methode von Midzuno ziehen. > > > +
data(influenza) set.seed(108506) pps <- pps.sampling(z=influenza$population, n=20, method='midzuno') Dies ergibt:
> pps pps.sampling object: Sample with probabilities proportional to size Method of Midzuno: PPS sample: [1] 35 83 107 109 130 140 157 210 219 223 257 273 290 294 324 [16] 342 361 371 418 423
4.7
Numerische Umsetzung
129
Sample probabilities:
[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,] [11,] [12,] [13,] [14,] [15,] [16,] [17,] [18,] [19,] [20,] [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,] [11,] [12,] [13,] [14,] [15,] [16,] [17,] [18,] [19,] [20,]
[,1] 0.09005 0.00533 0.00595 0.00474 0.00350 0.00373 0.00648 0.00840 0.01240 0.00517 0.00286 0.00845 0.00965 0.00304 0.00643 0.00427 0.00102 0.02116 0.00175 0.00712 [,8] 0.00840 0.00604 0.00676 0.00537 0.00396 0.00422 0.00738 0.10147 0.01361 0.00587 0.00324 0.00948 0.01068 0.00343 0.00732 0.00484 0.00115 0.02353 0.00198 0.00812
[,2] 0.00533 0.06223 0.00408 0.00320 0.00238 0.00253 0.00455 0.00604 0.00881 0.00350 0.00195 0.00607 0.00690 0.00207 0.00451 0.00290 0.00070 0.01484 0.00120 0.00512 [,9] 0.01240 0.00881 0.00988 0.00781 0.00574 0.00613 0.01084 0.01361 0.14572 0.00855 0.00469 0.01367 0.01508 0.00498 0.01075 0.00703 0.00167 0.03154 0.00287 0.01199
[,3] 0.00595 0.00408 0.07021 0.00364 0.00270 0.00288 0.00509 0.00676 0.00988 0.00397 0.00221 0.00680 0.00774 0.00234 0.00504 0.00329 0.00079 0.01669 0.00136 0.00572 [,10] 0.00517 0.00350 0.00397 0.00310 0.00230 0.00245 0.00443 0.00587 0.00855 0.06034 0.00189 0.00590 0.00671 0.00200 0.00438 0.00280 0.00067 0.01439 0.00116 0.00497
[,4] 0.00474 0.00320 0.00364 0.05499 0.00208 0.00222 0.00406 0.00537 0.00781 0.00310 0.00171 0.00540 0.00613 0.00181 0.00402 0.00254 0.00061 0.01314 0.00105 0.00455 [,11] 0.00286 0.00195 0.00221 0.00171 0.00123 0.00132 0.00246 0.00324 0.00469 0.00189 0.03276 0.00326 0.00369 0.00105 0.00243 0.00153 0.00035 0.00786 0.00061 0.00275
[,5] 0.00350 0.00238 0.00270 0.00208 0.04016 0.00160 0.00300 0.00396 0.00574 0.00230 0.00123 0.00398 0.00452 0.00130 0.00297 0.00186 0.00044 0.00962 0.00075 0.00336 [,12] 0.00845 0.00607 0.00680 0.00540 0.00398 0.00425 0.00742 0.00948 0.01367 0.00590 0.00326 0.10201 0.01072 0.00345 0.00736 0.00487 0.00116 0.02364 0.00199 0.00817
[,6] 0.00373 0.00253 0.00288 0.00222 0.00160 0.04292 0.00320 0.00422 0.00613 0.00245 0.00132 0.00425 0.00482 0.00139 0.00317 0.00198 0.00047 0.01028 0.00081 0.00359 [,13] 0.00965 0.00690 0.00774 0.00613 0.00452 0.00482 0.00846 0.01068 0.01508 0.00671 0.00369 0.01072 0.11531 0.00392 0.00839 0.00553 0.00131 0.02639 0.00226 0.00933
[,7] 0.00648 0.00455 0.00509 0.00406 0.00300 0.00320 0.07770 0.00738 0.01084 0.00443 0.00246 0.00742 0.00846 0.00261 0.00556 0.00366 0.00088 0.01839 0.00151 0.00624 [,14] 0.00304 0.00207 0.00234 0.00181 0.00130 0.00139 0.00261 0.00343 0.00498 0.00200 0.00105 0.00345 0.00392 0.03476 0.00258 0.00162 0.00038 0.00834 0.00065 0.00292
130
[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,] [11,] [12,] [13,] [14,] [15,] [16,] [17,] [18,] [19,] [20,]
4 Designbasierte Stichprobenverfahren
[,15] 0.00643 0.00451 0.00504 0.00402 0.00297 0.00317 0.00556 0.00732 0.01075 0.00438 0.00243 0.00736 0.00839 0.00258 0.07697 0.00363 0.00087 0.01822 0.00149 0.00619
[,16] 0.00427 0.00290 0.00329 0.00254 0.00186 0.00198 0.00366 0.00484 0.00703 0.00280 0.00153 0.00487 0.00553 0.00162 0.00363 0.04936 0.00055 0.01181 0.00094 0.00411
[,17] 0.00102 0.00070 0.00079 0.00061 0.00044 0.00047 0.00088 0.00115 0.00167 0.00067 0.00035 0.00116 0.00131 0.00038 0.00087 0.00055 0.01161 0.00279 0.00020 0.00098
[,18] 0.02116 0.01484 0.01669 0.01314 0.00962 0.01028 0.01839 0.02353 0.03154 0.01439 0.00786 0.02364 0.02639 0.00834 0.01822 0.01181 0.00279 0.24214 0.00480 0.02042
[,19] 0.00175 0.00120 0.00136 0.00105 0.00075 0.00081 0.00151 0.00198 0.00287 0.00116 0.00061 0.00199 0.00226 0.00065 0.00149 0.00094 0.00020 0.00480 0.01999 0.00169
Folgende Kreise wurden in die Stichprobe gezogen. > sample <- influenza[pps$sample,] > sample id district population cases 35 5554 LK Borken 370196 86 83 8117 LK Goeppingen 255807 67 107 3254 LK Hildesheim 288623 85 109 6434 LK Hochtaunuskreis 226043 8 130 3457 LK Leer 165088 5 140 3355 LK Lueneburg 176445 57 157 5770 LK Minden-Luebbecke 319401 86 210 8119 LK Rems-Murr-Kreis 417131 110 219 5382 LK Rhein-Sieg-Kreis 599042 72 223 9187 LK Rosenheim 248047 67 257 1061 LK Steinburg 134664 22 273 5978 LK Unna 419353 42 290 5170 LK Wesel 474045 8 294 15091 LK Wittenberg 142906 22 324 5314 SK Bonn 316416 11 342 16051 SK Erfurt 202929 188 361 9464 SK Hof 47744 12
[,20] 0.00712 0.00512 0.00572 0.00455 0.00336 0.00359 0.00624 0.00812 0.01199 0.00497 0.00275 0.00817 0.00933 0.00292 0.00619 0.00411 0.00098 0.02042 0.00169 0.08670
4.7
Numerische Umsetzung
371 418 423
5315 3405 5124
SK Koeln SK Wilhelmshaven SK Wuppertal
131
995397 82192 356420
35 17 62
4.7.4 Horvitz-Thompson-Schätzer Der Horvitz-Thompson-Schätzer kann im Prinzip mit der Funktion HTestimator(·) im Paket sampling berechnet werden. Diese beinhaltet jedoch keine Varianzschätzung, so dass wir auf diese Funktion nicht weiter eingehen wollen. Stattdessen benutzen wir die Funktion htestimate(·) aus unserem Paket samplingbook. > htestimate(y, N, PI, pk, pik, method = 'yg') # # # # # # # # # # # # # # # # #
y N PI
vector of observations integer for population size square matrix of second order inclusion probabilities with n rows and cols. It is necessary to be specified for variance estimation by methods 'ht' and 'yg'. pk vector of first order inclusion probabilities of length n for the sample elements. It is necessary to be specified for variance estimation by methods 'hh' and 'ha'. pik an optional vector of first order inclusion probabilities of length N for the population elements. It can be used for variance estimation by method 'ha'. method method to be used for variance estimation. Options are 'yg' (Yates and Grundy) and 'ht' (Horvitz-Thompson), approximative options are 'hh' (Hansen-Hurwitz) and 'ha' (Hajek).
Mit y wird der aus der Stichprobe resultierende Vektor der Beobachtungen und mit N die Größe der Grundgesamtheit übergeben. Die Auswahlwahrscheinlichkeiten zweiter Ordnung PI werden in Form einer Matrix der Dimension n × n übergeben, die Auswahlwahrscheinlichkeiten erster Ordnung in der Stichprobe pk in Form eines Vektors der Länge n bzw. bei der Methode nach Hajek optional zusätzlich die Auswahlwahrscheinlichkeiten erster Ordnung in der Grundgesamtheit pik in Form eines Vektors der Länge N . Für die Varianzschätzung stehen vier Methoden zur Verfügung, die mit der Option method gewählt werden. Optionen sind ’yg’ (Yates und Grundy), ’ht’ (Horvitz-Thompson), ’hh’ (Hansen-Hurwitz) und ’ha’ (Hajek). Die Voreinstellung der Prozedur ist die Methode ’yg’, also die Verwendung des Varianz-
132
4 Designbasierte Stichprobenverfahren
Y¯ H T , siehe Formel (4.6). Dieser kann nur bei festem Stichproschätzers VarY G benumfang verwendet werden. Weiterhin ist die Verwendung des Varianzschätzers nach Formel (4.4) möglich. Dieser kann allerdings in bestimmten Fällen Var Y¯ HT
negative Werte annehmen. Für beide Verfahren müssen die Auswahlwahrscheinlichkeiten zweiter Ordnung bekannt sein und durch Angabe von PI der Funktion übergeben werden. Sind diese nicht bekannt, so können zwei alternative Methoden verwendet werden, nämlich die Varianzschätzung nach Hansen-Hurwitz (siehe Abschn. 4.4) und nach Hajek, siehe S. 119. In letzteren beiden Fällen ist nur die Angabe der Auswahlwahrscheinlichkeiten erster Ordnung notwendig. Um eine approximative Varianzschätzung zu erhalten, werden die Auswahlwahrscheinlichkeiten erster Ordnung nur für die Stichprobe benötigt und mit pk übergeben. Um eine bessere Varianzschätzung zu erhalten, können für die Methode nach Hajek zusätzlich die Auswahlwahrscheinlichkeiten erster Ordnung für die Grundgesamtheit mit pik übergeben werden. Nun wollen wir diese Funktion auf die bereits oben verwendeten Daten der Grippeerkrankungen der Stadt- und Landkreise anwenden. > data(influenza) > head(influenza) id district population cases 1 5354 LK Aachen 309929 21 2 7131 LK Ahrweiler 129096 14 3 9771 LK Aichach-Friedberg 127785 74 4 8425 LK Alb-Donau-Kreis 190212 19 5 16077 LK Altenburger Land 103313 36 6 7132 LK Altenkirchen 134912 35 Die Variable district enthält die Namen der Stadt- bzw. Landkreise, die Variable population die Einwohnerzahl, und cases die Anzahl der InfluenzaErkrankungen aus dem Jahr 2007. Wir wollen nun anhand einer Stichprobe die Anzahl der Influenza-Fälle für ganz Deutschland schätzen. Dazu schätzen wir zuerst den Mittelwert der Influenza-Fälle mit allen vier Methoden der Varianzschätzung. Zunächst wird wie in Abschn. 4.7.4 eine Ziehung nach dem PPS-Design mit der Methode von Midzuno vorgenommen. Als Hilfsgröße wird die Einwohnerzahl der Landkreise verwendet. > > + > > >
set.seed(108506) pps <- pps.sampling(z=influenza$population, n=20, method='midzuno') sample <- influenza[pps$sample,] N <- nrow(influenza) N
4.7
Numerische Umsetzung
133
[1] 424 Im ersten Schritt wird der Horvitz-Thompson-Schätzer mit der StandardVarianzschätzung nach Yates und Grundy verwendet. Dazu ist die Angabe der Ziehungswahrscheinlichkeiten zweiter Ordnung nötig. Diese werden in der Matrix P I übergeben. Die Matrix wird bei der Ziehung durch pps.sampling in das oben definierte Objekt pps gespeichert. > PI <- pps$PI > est.yg <- htestimate(sample$cases, N=N, PI=PI, method='yg') > est.yg htestimate object: Estimator for samples with probabilities proportional to size Method of Yates and Grundy: Mean estimator: 40.36766 Standard Error: 8.059507 Als zweites wird die Schätzung nach Horvitz-Thompson illustriert. > est.ht <- htestimate(sample$cases, N=N, PI=PI, method='ht') > est.ht htestimate object: Estimator for samples with probabilities proportional to size Method of Horvitz-Thompson: Mean estimator: 40.36766 Standard Error: 8.22772 Man erkennt, dass sich die beiden Arten der Varianzschätzung kaum unterscheiden. Im Allgemeinen sollte die Varianzschätzung nach Horvitz-Thompson nur verwendet werden, wenn der Stichprobenumfang bei einer Erhebung nicht a priori feststeht. Als dritte Variante wird die Methode nach Hansen-Hurwitz illustriert. Hier benötigt man nur die Ziehungswahrscheinlichkeiten erster Ordnung. Diese werden mit dem Vektor pk übergeben, der beim Aufruf von pps.sampling in das oben definierte Objekt pps gespeichert wurde. > pk <- pps$pik[pps$sample] > est.hh <- htestimate(sample$cases, N=N, pk=pk, method='hh') > est.hh
134
4 Designbasierte Stichprobenverfahren
htestimate object: Estimator for samples with probabilities proportional to size Method of Hansen-Hurwitz (approximate variance): Mean estimator: 40.36766 Standard Error: 8.534792 Man erkennt, dass die Varianzschätzung nur geringfügig größer ist als die nach Yates und Grundy. Dies lässt sich mit dem relativ hohen Umfang der Grundgesamtheit erklären. Diese Varianzschätzung wird angewendet, wenn die Auswahlwahrscheinlichkeiten zweiter Ordnung nicht bekannt sind und der Auswahlsatz klein (< 5%) ist. Schließlich wird noch die Varianzschätzung mit der Methode von Hajek durchgeführt. Hierzu kann die Kenntnis der Auswahlwahrscheinlichkeiten erster Ordnung in der Grundgesamtheit verwendet werden, siehe Formel (4.11) auf S. 119, um eine genauere Schätzung zu erhalten. Diese wird zusätzlich in der Variablen pik übergeben und damit werden die Auswahlwahrscheinlichkeiten zweiter Ordnung approximiert. > est.ha1 <- htestimate(sample$cases, N=N, pk=pk, pik=pps$pik, + method='ha') > est.ha1 htestimate object: Estimator for samples with probabilities proportional to size Method of Hajek (approximate variance): Mean estimator: 40.36766 Standard Error: 8.262482 n N πi (1 − πi ) durch die Größe l=1 (1 − πl ) Alternativ kann die Größe d = i=1 aus der Stichprobe geschätzt werden. Dies wird von htestimate(·) durchgeführt, wenn die Variable pik nicht übergeben wird. > est.ha2 <- htestimate(sample$cases, N=N, pk=pk, method='ha') > est.ha2 htestimate object: Estimator for samples with probabilities proportional to size Method of Hajek (approximate variance): Mean estimator: 40.36766 Standard Error: 8.244296
4.7
Numerische Umsetzung
135
Schließlich multiplizieren wir am Ende einen beliebigen Mittelwertschätzer mit der Anzahl der Landkreise, um die Gesamtzahl der Krankheitsfälle zu schätzen. > est.yg$mean*N [1] 17115.89 Durch Multiplikation der Standardfehler mit der Anzahl der Kreise lässt sich ein Konfidenzintervall für die Gesamtanzahl der Krankheitsfälle bestimmen. > lower <- est.ht$mean*N - qnorm(0.975)*N*est.ht$se > upper <- est.ht$mean*N + qnorm(0.975)*N*est.ht$se > c(lower,upper) [1] 10278.45 23953.33 Vergleicht man das Konfidenzintervall für diese Anzahl mit der tatsächlichen Anzahl der Krankheitsfälle, so zeigt sich, dass es den wahren Wert von 18 900 überdeckt. Allerdings ist das Konfidenzintervall aufgrund des geringen Stichprobenumfangs sehr breit. Insgesamt ist also mit der sehr kleinen Stichprobe nur eine grobe Abschätzung möglich.
Kapitel 5
Gruppierung der Population
In vielen Anwendungen ist die Population recht umfangreich und das Ziehen einer einfachen Zufallsstichprobe erweist sich schon aus praktischen Gesichtspunkten als schwierig. Die Population zerfällt jedoch in den meisten Anwendungen ganz natürlich in einzelne Gruppen. Das Gebiet der Bundesrepublik Deutschland zerfällt im Jahr 2007 in 424 Kreise und kreisfreie Städte: Die Bürger der Bundesrepublik als Population betrachtet zerfallen somit in 424 nicht überlappende Gruppen (nimmt man den Erstwohnsitz als Zuordnung zu einem Kreis). Eine gröbere Zerlegung ergibt sich über Bundesländer, eine feinere über Postzustellbezirke basierend auf der Postleitzahl. Ein anderes Gruppierungsmerkmal für die Population ist das Geschlecht oder das Alter einer Person. Je nachdem welches Kriterium zur Gruppierung herangezogen wird, zerfällt die Population in in sich homogene oder heterogene Gruppen. Betrachtet man die Kreise als Gruppierung, so ist die Bevölkerung innerhalb eines Kreises zumindest in gewissem Rahmen heterogen. Das soll heißen in jedem Kreis gibt es Individuen verschiedenen Geschlechts, verschiedenen Alters, verschiedenen Berufs etc. Zerlegt man die Population hingegen nach ihrem Alter, so sind die Subgruppen zumindest bezüglich altersabhängiger Merkmale in gewissem Rahmen homogen. Wir werden im Folgenden Stichprobenverfahren entwickeln, die auf einer Zerlegung der Population beruhen. Je nach Verfahren werden unterschiedliche Ziehungsmethoden angewendet. Insbesondere werden wir die Gruppen der Population Schichten oder Cluster nennen. Die zugehörigen Stichproben werden mit geschichteter Stichprobe oder Cluster-Stichprobe bezeichnet.
5.1 Geschichtete Stichprobe 5.1.1 Prinzip der Schichtung Wie erwähnt zerfällt die Grundgesamtheit bei verschiedenen Fragestellungen in natürlicher Weise in Teilmengen oder, wie wir es bezeichnen werden, in Schichten. Staaten zerfallen in Bundesländer, Städte in Stadtbezirke, Mitarbeiter eines Betriebes in verschiedenen Abteilungen etc. Wenn man nun in den einzelnen
G. Kauermann, H. Küchenhoff, Stichproben, Springer-Lehrbuch, C Springer-Verlag Berlin Heidelberg 2011 DOI 10.1007/978-3-642-12318-4_5,
137
138
5 Gruppierung der Population
Schichten jeweils getrennt eine Stichprobe zieht und die damit erhobenen Daten dann erst zur Auswertung zusammenführt, spricht man von einer geschichteten Stichprobe. Beispiel 5.1: Eine Untersuchung soll Aufschluss über den durchschnittlichen Quadratmeterpreis von Mietwohnungen in einer Stadt geben. Eine Möglichkeit ist die Ziehung einer einfachen Zufallsstichprobe von beispielsweise 3 000 Wohnungen. Da aber bekannt ist, dass die Mietpreise stark von dem Stadtviertel abhängig sind, erscheint es sinnvoll, die Ziehung auf der Ebene von Stadtvierteln durchzuführen. Man kann die Stadt in drei Regionen einteilen, z.B. Region 1: „reiche Villengegend“, Region 2: „mittlere Lage“, Region 3: „Plattenbausiedlung“. Wenn man nun aus allen drei Regionen einzeln eine Stichprobe zieht, kann man nicht nur Aufschluss über die Mietpreise in den einzelnen Vierteln gewinnen, sondern auch das Gesamtmittel des Quadratmeter-Mietpreises effizienter schätzen, d.h. mit geringerer Varianz. Im obigen Beispiel können wir die Information zur Aufteilung der Stadt in drei Regionen als Sekundärinformation X ansehen. Wir nutzen die Information aus dem Merkmal „Region“ beim Stichproben-Design. Wir bezeichnen X in diesem Zusammenhang als Schichtungsmerkmal. In der Praxis sind verschiedene Schichtungsmerkmale möglich. So könnte die Wohnungsgrößenklasse im obigen Beispiel ebenso als Schichtungsmerkmal dienen. Um das Verfahren der geschichteten Stichprobe jedoch praktisch durchführen zu können, ist es nötig, die Schichtzugehörigkeit und den Umfang der Schichten in der Grundgesamtheit zu kennen. Die geschichtete Stichprobe ist das in der Praxis am häufigsten verwendete Design. Dafür gibt es im Wesentlichen drei Gründe: 1. Eine getrennte Auswertung der Daten innerhalb der einzelnen Schichten ist möglich. Während es bei einer einfachen Zufallsstichprobe passieren kann, dass einzelne Schichten nur sehr wenige Elemente in der Stichprobe haben, wird der Stichprobenumfang bei der geschichteten Stichprobe für jede Schicht einzeln festgelegt. 2. Unter bestimmten Bedingungen, die wir im Folgenden diskutieren werden, kann man bei der Schätzung des Gesamtmittelwertes einen erheblichen Effizienzgewinn erreichen. Das bedeutet, dass die Varianz des entsprechenden Schätzers geringer wird. Dies ermöglicht einen detaillierteren Einblick in die Verteilung des interessierenden Merkmals. 3. Wenn man die Stichprobenumfänge innerhalb der Schichten proportional zu den Schichtgrößen in der Grundgesamtheit wählt, so entspricht die Stichprobe dem Ideal der Repräsentativität bezüglich des Schichtmerkmals. Hier ist mit Repräsentativität gemeint, dass die Stichprobe ein möglichst gutes Abbild der Grundgesamtheit sein soll. Wählt man z.B. 10 Schichten, die durch 5 Altersgruppen und das Geschlecht definiert sind, und zieht aus jeder Schicht entsprechend den Anteilen an der Gesamtbevölkerung, so stimmt die Alters- und Geschlechtsverteilung in der geschichteten Stichprobe mit der aus der Population überein.
5.1
Geschichtete Stichprobe
139
Abb. 5.1 Schematische Darstellung einer geschichteten Stichprobe
Der letztgenannte Grund gilt allerdings nur für die geschichtete Stichprobe mit proportionaler Aufteilung. Wir werden allgemeiner Stichproben betrachten, bei denen eine nicht-proportionale Aufteilung sinnvoller sein kann. Auch hier sind unverzerrte Schlüsse auf die Grundgesamtheit möglich. So ist beispielsweise das Wahlverhalten in den alten Bundesländern der Bundesrepublik Deutschland mehr oder minder stabil, soll heißen, auch mit einer relativ kleinen Stichprobe erzielt man (auch basierend auf Vorwissen aus der vorherigen Wahl) recht genaue Ergebnisse. In den neuen Bundesländern hingegen ist die Wahlkontinuität weitaus weniger ausgeprägt. Um also eine ebenfalls verlässliche Aussage über das Wahlverhalten zu erhalten, ist eine größere Stichprobe in den neuen Bundesländern sinnvoll. Diese ungleiche Gewichtung muss korrigiert werden, was, wie wir sehen werden, nichts anderes ist als die Anwendung des oben besprochenen Horvitz-Thompson-Schätzers. Schematisch ist eine geschichtete Stichprobe in Abb. 5.1 gezeigt. Beispiel 5.2: Eine Untersuchung soll Aufschluss über den durchschnittlichen Wohnraum einer Familie in einer Stadt geben. Dazu sollen 100 Familien zufällig ausgewählt und befragt werden. Für die geplante Untersuchung liegt Sekundärinformation vor und es erscheint sinnvoll, diese zu nutzen. Man beachte beispielsweise, dass Wohnungen in wohl situierten Vororten vermutlich größer sind als Wohnungen in Arbeitergegenden. Diese Information soll bei der Stichprobenziehung genutzt werden. Die Idee ist, anstelle einer einfachen Zufallsstichprobe ein anderes Design zu verwenden, welches garantiert, dass Haushalte sowohl in den noblen Vororten als auch in Arbeitergegenden betrachtet werden und in die Stichprobe gelangen. Damit kann sowohl durch getrennte Auswertungen die Frage nach dem durchschnittlichen Wohnraum in den verschiedenen Stadtvier-
140
5 Gruppierung der Population
teln beantwortet werden, als auch ein Effizienzgewinn durch die Verringerung der Varianz bei dem entsprechenden Schätzer für den Gesamtmittelwert erreicht werden. Beispiel 5.3: Eine Universität möchte herausfinden, wie oft und in welchem Umfang Studierende die Lesetische und Studierräume der Bibliothek nutzen. Hierzu soll eine Stichprobe gezogen werden. Schon vor der Stichprobenziehung liegt jedoch Sekundärinformation vor. Studierende in niedrigeren Semestern sind vermutlich weitaus weniger in der Bibliothek zu finden als solche kurz vor ihrem Examen. Zieht man also eine einfache Zufallsstichprobe, so kann es rein zufällig geschehen, dass überwiegend Studenten in niedrigeren Semestern ausgewählt werden. Die Konsequenz ist, dass die Benutzung der Bibliothek unterschätzt wird. Dies geschieht, wie gesagt, rein zufällig durch die zufällige Auswahl der Studenten. Ebenso kann es rein zufällig passieren, dass überwiegend Studierende höherer Semester befragt werden und die Bibliotheksnutzung überschätzt wird. Diesen Aspekt der Variabilität können wir durch das Design der geschichteten Stichprobe verkleinern. Das Design einer geschichteten Stichprobe und deren Vorteile sollen anhand des folgenden Beispiels veranschaulicht werden. Wir betrachten dazu eine Population mit N = 5 Elementen. Y1 = 9, Y2 = 10, Y3 = 11, Y4 = 18, Y5 = 22 Zunächst soll aus der Population eine einfache Zufallsstichprobe vom Umfang n = 3 gezogen werden und wir erhalten die möglichen Stichproben, wie sie in Abschn. 2.6 aufgelistet sind. Da jede Stichprobe mit gleicher Wahrscheinlichkeit auftritt, ergibt sich für y¯ die Wahrscheinlichkeitsverteilung: y¯
10
12,33 12,67 13
13,67 14
14,33 16,33 16,67 17
P( y¯ )
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
0,1
Berechnet man aus obiger Verteilung den Erwartungswert und die Varianz, so ergibt sich E( y¯ ) = 14, V ar ( y¯ ) = 4, 33. Wir wollen nun der Frage nachgehen, wie wir die Varianz verringern können, indem wir „geschickt“ n = 3 Merkmalsträger ziehen. Nehmen wir dazu an, dass wir als Sekundärinformation wissen, dass die Population in 2 Gruppen geteilt ist. Die erste Gruppe besteht dabei aus Y1 , Y2 und Y3 , die zweite aus Y4 und Y5 . Die vorgeschlagene Teilung der Population zeichnet sich dadurch aus, dass in jeder Gruppe die Variable Yi annähernd gleiche Werte annimmt, also das Niveau von Y stark von der jeweiligen Gruppe abhängt. Wir bezeichnen eine Zerlegung der Population in Untergruppen als Schichtung oder Stratifizierung und die entsprechenden
5.1
Geschichtete Stichprobe
141
Gruppen als Schichten oder Strata. Wir ziehen nun aus jeder Schicht eine einfache Zufallsstichprobe. Ein derartiges Vorgehen bezeichnet man als geschichtete Stichprobe oder auch stratifizierte Stichprobe. Wir verfolgen obiges Beispiel weiter und nehmen an, die Schichten seien wie folgt definiert: Schicht 1: Y1 = 9 , Y2 = 10, Y3 = 11. Schicht 2: Y4 = 18, Y5 = 22. Nun ziehen wir aus der ersten Schicht zwei und aus der zweiten Schicht ein Element jeweils durch eine einfache Zufallsstichprobe. Damit erhalten wir die folgenden möglichen Stichproben. Schicht 1
Schicht 2
Gezogene Einheiten
Mittelwert der Stichprobe
Gezogene Einheit
Mittelwert der Stichprobe
1 1 2
9,5 10 10,5
4 5
18 22
2 3 3
Die Frage ist nun, wie wir die Mittelwerte der beiden Schichten zu einem gemeinsamen Schätzer verbinden können, der das Populationsmittel Y¯ schätzt. Die Antwort hierfür liefert das Horvitz-Thompson-Theorem, wie wir es in Abschn. 4.1 kennengelernt haben. Wir müssen somit nur die Auswahlwahrscheinlichkeiten der einzelnen Individuen bestimmen und damit dann den Horvitz-Thompson-Schätzer berechnen. Dazu verwenden wir folgende Notation:
Geschichtete Stichprobe Die Population wird in M sich nicht überlappende Gruppen zerlegt. Diese werden Schichten genannt und enthalten jeweils Nh Elemente, aus denen jeweils n h Elemente in Form einer einfachen Zufallsstichprobe gezogen werden. Größe
Bedeutung
In der Population: Nh , h = 1, . . . , M M Nh N = h=1
Populationsumfang in der h-ten Schicht Gesamt-Populationsumfang
142
5 Gruppierung der Population
Yhi , i = 1, . . . , Nh Y¯h =
1 Nh
Variable oder Merkmal des i-ten Individuums in der h-ten Schicht Mittelwert der Variablen in der h-ten Schicht
Nh
i=1 Yhi
πhi = n h /Nh
Sh2 =
Nh i=1
Auswahlwahrscheinlichkeit für das i-te Individuum in der h-ten Schicht
(Yhi −Y¯h )2 Nh
Varianz in der h-ten Schicht
In der Stichprobe: n h , h = 1, . . . , M M n = h=1 nh
Stichprobenumfang in der h-ten Schicht Gesamt-Stichprobenumfang
yhk , k = 1, . . . , n h y¯h =
1 nh
Variable oder Merkmal des k-ten gezogenen Individuums in der h-ten Schicht Mittelwert der Variablen in der h-ten Schicht
n h
k=1 yhk
πhk = n h /Nh
sh2 =
n h k=1
Auswahlwahrscheinlichkeit für das k-te gezogene Individuum in der h-ten Schicht
(yhk − y¯h )2 (n h −1)
Varianz in der h-ten Schicht
Inhaltlich bedeutet eine geschichtete Stichprobe nichts anderes, als dass unabhängig voneinander M einfache Zufallsstichproben in den M sich nicht überlappenden Schichten gezogen werden. Damit beträgt die Wahrscheinlichkeit, dass ein Individuum aus der h-ten Schicht gezogen wird n h /Nh , das heißt, für das i-te Individuum aus der h-ten Schicht ergibt sich die Auswahlwahrscheinlichkeit πhi = n h /Nh . Setzen wir dies in die Formel des Horvitz-Thompson-Schätzers ein, so erhält man den Schätzer für die geschichtete Stichprobe gemäß M nh M
yhk Nh 1
Y¯ G S = = y¯h , N πhk N h=1 k=1
(5.1)
h=1
n h wobei y¯h = k=1 yhk /n h der Schätzer für den Mittelwert in der h-ten Schicht ist. Der Horvitz-Thompson-Schätzer für die geschichtete Stichprobe ergibt sich also als gewichtetes Mittel der Mittelwerte in den einzelnen Schichten. Wir bezeichnen diesen Schätzer auch als geschichteten Schätzer, da er sich aus den Mittelwert-
5.1
Geschichtete Stichprobe
143
schätzern der einzelnen Schichten zusammensetzt. Die Erwartungstreue des geschichteten Schätzers folgt unmittelbar aus dem Horvitz-Thompson-Theorem. Die Erwartungstreue folgt aber auch unmittelbar aus E( y¯h ) = Y¯h und Y¯ =
M
Nh ¯ · Yh . N
(5.2)
h=1
Hieraus erkennt man das Prinzip des geschichteten Schätzers: Zunächst werden die Mittelwerte der einzelnen Schichten mit Hilfe einer einfachen Zufallsstichprobe geschätzt. Dann wird der Schätzer für den Gesamtmittelwert mit Hilfe der Gl. (5.2) bestimmt. Wir setzen obiges Beispiel fort. Für die Stichprobe mit gezogenen Einheiten 1 und 2 für Schicht 1 und gezogener Einheit 4 für Schicht 2 ergibt sich exemplarisch der Schätzer 3 (9 + 10) 2 Y¯ G S = + 18 = 12, 9. 5 2 5 Als mögliche Stichproben in beiden Schichten erhalten wir Gezogene Einheiten Schicht 1
Gezogene Einheit Schicht 2
y¯1
y¯2
Y¯ G S
1 1 2 1 1 2
4 4 4 5 5 5
9,5 10 10,5 9,5 10 10,5
18 18 18 22 22 22
12,9 13,2 13,5 14,5 14,8 15,1
2 3 3 2 3 3
Damit ergibt sich für den geschichteten Schätzer E Y¯ G S = 14,
Var Y¯ G S = 0, 7.
Wir sehen, dass der geschichtete Schätzer erwartungstreu ist. Auffallend und erfreulich ist weiter, dass die Varianz des Schätzers mit 0, 7 deutlich geringer ist als die für die einfache Zufallsstichprobe erhaltene Varianz von 4, 33. Die Reduktion der Varianz konnte erzielt werden, weil die Schichten so gewählt wurden, dass Schicht 1 die kleinen Y -Werte und Schicht 2 die großen Y -Werte beinhaltet. Das heißt, die Elemente innerhalb der Schichten waren ähnlich, wohingegen die einzelnen Schichten untereinander unterschiedlich waren. Diese Eigenschaft lässt sich generell formulieren und wird als sogenanntes Schichtungs-Prinzip bezeichnet.
144
5 Gruppierung der Population
Schichtungs-Prinzip: Die Schichten sollen so gewählt werden, dass die Variablen (oder Merkmalsträger) innerhalb einer Schicht so ähnlich wie möglich sind. Die einzelnen Schichten sollten sich untereinander so weit wie möglich unterscheiden.
Das Schichtungs-Prinzip ist in praktischen Anwendungen oftmals erfüllt durch einfache lokale Nähe der Merkmalsträger. Wählt man beispielsweise den Wohnort als Schichtungsmerkmal, so gilt üblicherweise, dass die Bevölkerung in Bezirken oder Ortsteilen ein ähnliches Profil aufweist. Somit wird eine derartige Schichtung in vielen Anwendungen einen positiven Effekt zeigen. Ebenso kann bei einer Umfrage zwischen Stadt- und Landbezirken unterschieden werden, in der Annahme, dass die städtische und ländliche Bevölkerung in sich relativ homogen ist, Stadtund Landbevölkerung sich jedoch stark voneinander unterscheiden. Wir wollen nun die Varianz des geschichteten Schätzers in Formeln herleiten. Im Prinzip können wir dabei auf die Varianzformel des Horvitz-Thompson Schätzers zurückgreifen (siehe Herleitung). Naheliegender ist jedoch die folgende Berechnung. In jeder Schicht wird eine einfache Zufallsstichprobe gezogen, so dass für die einzelnen Schichten gilt
Var( y¯h ) =
Nh − n h Sh2 Nh − 1 n h
mit
Sh2 =
Nh
(Yhi − Y¯h )2 . Nh i=1
Der geschichtete Schätzer ergibt sich nun als gewichtete Summe von y¯h , h = 1, . . . , M, wobei die Schätzer der Mittelwerte in den einzelnen Schichten unabhängig sind. Die Varianz ergibt sich damit als gewichtete Summe der einzelnen Schichtvarianzen. Wir erhalten M
Nh 2 ¯ Var Y G S = Var( y¯h ) N h=1
=
M
Nh 2 Nh − n h Sh2 . N Nh − 1 n h
(5.3)
h=1
Die Streuung der einzelnen Schichten Sh2 ist nicht bekannt und muss wie gehabt durch sh2 geschätzt werden. Dies führt zur geschätzten Varianz
5.1
Geschichtete Stichprobe
145
M
Nh 2 Nh − n h sh2 Var Y¯ G S = N Nh nh
mit sh2 =
h=1
nh
(yhk − y¯h )2 . (5.4) (n h − 1) k=1
Die Varianz ergibt sich als gewichtete Summe der Schichtvarianzen Sh2 . Somit hat der geschichtete Schätzer eine geringere Varianz als Y¯ E S , wenn die Größen Sh2 klein sind. Das heißt aber, dass geringe Streuung innerhalb der Schichten zu einer geringen Varianz des geschichteten Schätzers führt. Dies ist genau die Eigenschaft, die wir als Schichtungsprinzip formuliert hatten. Diesen Punkt werden wir später noch einmal aufgreifen, wenn wir die Varianz von Y¯ G S mit der Varianz des Schät zers einer einfachen Zufallsstichprobe Y¯ E S vergleichen werden. In verschiedenen Anwendungen ist die Populationsgröße der einzelnen Schichten nicht bekannt. Dies tritt auf, wenn die Population recht groß ist und damit die genaue absolute Größe einer Schicht unbekannt ist. Beispielsweise muss in einer großen Population nicht bekannt sein, wie viele Frauen oder Männer als Schichten betrachtet in einer Population sind. Sofern jedoch die relative Schichtengröße Nh /N bekannt ist, kann der geschichtete Schätzer zum Einsatz kommen, allerdings unter Vernachlässigung des Korrekturfaktors für endliche Populationen. Letzterer ist vernachlässigbar, wenn, wie gesagt, die Population und damit die einzelnen Schichten groß sind. In diesem Fall ergibt sich der Varianzschätzer zu M
Nh 2 sh2 ¯ V ar Y G S ≈ . N nh h=1
Geschichtete Stichprobe
Die Population sei aufgeteilt in M sich nicht überlappende Schichten vom Umfang Nh , h = 1, . . . , M. In jeder Schicht wird eine einfache Zufallsstichprobe vom Umfang n h , h = 1, . . . , M, gezogen. Die Ziehungen in den Schichten sind voneinander unabhängig. Ein erwartungstreuer Schätzer für den Mittelwert der Population ist gegeben durch den geschichteten Schätzer Y¯ G S =
M
Nh y¯h , N h=1
146
5 Gruppierung der Population
wobei y¯h der Mittelwert der Stichprobe in der h-ten Schicht ist. Die Varianz kann geschätzt werden durch M
Nh 2 Nh − n h sh2 , Var Y¯ G S = N Nh nh h=1
wobei sh2 die geschätzte Varianz in der h-ten Schicht ist.
Herleitung: Wir wollen zeigen, dass sich die Varianzformel 5.3 direkt aus der Darstellung 4.5 ergibt. Für die Auswahlwahrscheinlichkeiten der geschichteten Stichprobe gilt:
πhi = πhi,h j =
nh , Nh
h = 1, . . . , M ,
n h (n h − 1) , Nh (Nh − 1)
i = j ,
i = 1, . . . , Nh , i, j = 1, . . . , Nh .
Diese beiden Identitäten ergeben sich, da bei der geschichteten Stichprobe innerhalb der Schichten eine einfache Zufallsstichprobe gezogen wird. Für die Auswahlwahrscheinlichkeiten zweiter Ordnung bei Elementen aus verschiedenen Schichten gilt aufgrund der Unabhängigkeit der einzelnen Ziehungen: πh 1 i,h 2 j = πh 1 i · πh 2 j ,
h 1 = h 2 ,
i = 1, . . . , Nh 1 ,
j = 1, . . . , Nh 2 .
Einsetzen dieser Wahrscheinlichkeiten in 4.5 liefert unter Berücksichtigung der abweichenden Indizierung bei der geschichteten Stichprobe: M Nh M Nh Yh 1 i Yh j 2 1 1 1 2 − 2 πh 1 i πh 2 j − πh 1 i,h2 j Var Y¯ G S = 2 · 2 πh 1 i πh 2 j N h 1 =1 i=1 h 2 =1 j=1 (h 1 ,i)=(h 2 , j)
=
Nh Nh
M Yh j 2 1 1 2 1
n h (n h − 1) nh 2 Yhi · N · − − h N2 2 Nh Nh (Nh − 1) πh πh Nh2 i=1 j=1 h=1 i= j
M 1 2 = 2 Nh · Var ( y¯h ) . N h=1
Die erste Umformung erhält man, da alle Terme aus unterschiedlichen Schichten wegen πh 1 i πh 2 j − πh 1 i,h2 j = 0 wegfallen. Die letzte Umformung ergibt sich durch Anwendung von 4.5 auf die einzelnen Summanden (Schichten). Der Schichtmittelwert y¯h wird dabei als Horvitz Thompson-Schätzer für Y¯h angesehen.
5.1
Geschichtete Stichprobe
147
5.1.2 Stichprobenumfang in den Schichten Neben der Aufteilung der Individuen in Schichten ist vor Stichprobenziehung auch die Aufteilung des Stichprobenumfangs auf die einzelnen Schichten festzulegen. Ohne weitere Information bietet sich hier die proportionale Aufteilung an, bei der größere Schichten einen größeren Anteil in der Stichprobe erhalten. Dies lässt sich erreichen, indem der Stichprobenumfang in den einzelnen Schichten proportional zur Schichtgröße Nh in der Population gewählt wird. Wir notieren dies wie folgt: • Proportionale Aufteilung: Nh , n h, pr op = n · N
(5.5)
wobei die eckigen Klammern n · NNh hier die nächst gelegene ganze Zahl liefern, sprich das gerundete Ergebnis. Man beachte, dass der Gesamtstichprobenumfang, je nach Rundung, geringfügig größer oder kleiner als n sein kann. Wir ignorieren diese Feinheit, da sie in den meisten Fällen irrelevant ist. Die proportionale Aufteilung wird am häufigsten verwendet und wir werden später noch einige Argumente für sie anführen. Dennoch ist sie hinsichtlich der Genauigkeit nicht notwendigerweise optimal. Betrachtet man die Varianzformel genauer, so erkennt man, dass die Varianz des geschichteten Schätzers sowohl von Nh als auch von Sh , der Streuung innerhalb einer Schicht, abhängt. Dies legt es nahe, in Schichten mit einer geringeren Streuung eine kleinere Stichprobe zu ziehen. Ist die Streuung in einer Schicht dagegen groß, so sollte der Stichprobenumfang in dieser Schicht erhöht werden. Dies führt zur optimalen Aufteilung. Vernachlässigt man der Einfachheit halber den Korrekturfaktor (Nh − n h )/(Nh − 1), so ist die Varianz bestimmt durch M
Nh 2 Sh2 , Var Y¯ G S = N nh h=1
d.h. je größer Nh · Sh , desto größer die Varianz des Schätzers. Wir wählen daher n h proportional zu Nh · Sh , was die optimale Aufteilung oder auch Varianz-optimale Aufteilung liefert: • Optimale Aufteilung:
Nh · Sh
n h,opt = n M
h =1
Nh Sh
,
(5.6)
wobei die Klammern [ · ] wiederum die gerundete ganze Zahl liefern. Die genaue Herleitung folgt aus S. 150.
148
5 Gruppierung der Population
Betrachten wir exemplarisch die optimale Aufteilung für unser obiges kleines Zahlenbeispiel. Bei der gewählten Schichtung Schicht 1: Y1 = 9, Y2 = 10, Y3 = 11. Schicht 2: Y4 = 18, Y5 = 22. ergibt sich S12 = 2/3 und S22 = 4. Damit folgt die optimale Aufteilung √ 3 · 2/3 √ = 1, √ 3 · 2/3 + 2 · 4 √ 2· 4 n2 = 3 · = 2, √ √ 3 · 2/3 + 2 · 4 n1 = 3 ·
d.h. in Schicht 2 empfiehlt sich eine Vollerhebung, da n 2 = N2 = 2, in Schicht 1 soll hingegen der Stichprobenumfang auf n 1 = 1 festgelegt werden. Zieht man entsprechend eine geschichtete Stichprobe, so folgt Gezogene Einheiten Schicht 1
Gezogene Einheit Schicht 2
y¯1
y¯2
Y¯ G S
1 2 3
4 4 4
9 10 11
20 20 20
13,4 14 14,6
5 5 5
Als Erwartungswert und Varianz ergeben sich E Y¯ G S = 14,
Var Y¯ G S = 0, 24.
Im Vergleich zur vorherigen Schichtung zeigt sich wiederum eine Varianzreduktion, wenngleich die weitere Reduktion gering ausfällt. Dennoch hat der Ansatz zu einem optimalen Ergebnis geführt. Die optimale Aufteilung setzt die Kenntnis von Sh2 voraus, welche üblicherweise jedoch vor Stichprobenziehung nicht gegeben ist. Als Ausweg bietet sich an, eine Pilotstichprobe von kleinerem Umfang zu ziehen um daraus Sh2 zu schätzen. Dieses Vorgehen ist natürlich mit entsprechenden Kosten verbunden, was nicht notwendigerweise für seine Anwendung spricht. Alternativ kann es Situationen geben, in denen Kenntnisse über Sh2 aus vorherigen Studien vorliegen, welche zur Planung der Aufteilung herangezogen werden können. Zu beachten ist, dass die optimale Aufteilung der proportionalen Aufteilung entspricht, wenn die Varianzen in den einzelnen Schichten gleich sind, d.h. gilt Sh2 = S 2 , so ist n h,prop = n h,opt . Ist diese Annahme plausibel, so kann die optimale Aufteilung ersetzt werden durch eine proportionale Aufteilung. Andererseits ist eine optimale Aufteilung vorzuziehen, wenn deutliche
5.1
Geschichtete Stichprobe
149
Unterschiede in den einzelnen Schichten bezüglich der Varianz des zu untersuchenden Merkmals bestehen. Beispiel 5.4: In der bereits in Beispiel 3.5.2 besprochenen Studie sollte der mittlere Investitionswert pro Teilnehmeranschlussleitung in einem großen Telefonnetz bestimmt werden. Dazu wurde das Telefonnetz in 7 319 Anschlussbereiche (AsB) aufgeteilt. Daraus wurde zuerst eine einfache Zufallsstichprobe vom Umfang n = 287 gezogen. Um die Genauigkeit der Schätzung zu erhöhen, sollte anschließend mit Hilfe von Informationen aus dieser ersten Stichprobe eine geschichtete Stichprobe vom Umfang n = 600 gezogen werden. Die Stichprobenumfänge in den Schichten sollten dabei (Varianz-)optimal gewählt werden. Aus dieser zweiten Stichprobe sollte erneut der Gesamtinvestitionswert bestimmt werden. Durch Division durch die (bekannte) Anzahl der Teilnehmeranschlussleitungen ergibt sich eine Schätzung für den gewünschten mittleren Investitionswert. Zur Schichtung sind solche Merkmale geeignet, die die Grundgesamtheit in möglichst homogene Teile aufspalten. Da es keine Anhaltspunkte gibt, dass der Investitionswert eines Anschlussbereiches stark von der Region abhängt, ist eine Schichtung nach räumlichen Merkmalen nicht sinnvoll. Als viel besser geeignet erwies sich das Schichtungsmerkmal „Leitungslänge im AsB“. Dieses Merkmal ist ein Maß für die Größe des AsB und steht natürlicherweise in einem starken Zusammenhang zur Zielgröße. Die Grundgesamtheit wurde (aufgrund von Ergebnissen aus der ersten Stichprobe) in die folgenden 4 Schichten eingeteilt. Anzahl AsB in GG
Schicht
Schichtdefinition über Leitungslänge (LL) in Metern
Standardabweichung in Tausend
1 2 3 4
LL 8 Mio. 8 Mio. < LL 15 Mio. 15 Mio. < LL 26 Mio. 26 Mio. < LL
4 008 1 667 1 179 465
116 176 215 332
Gesamt
7 319
Da aus der ersten Erhebung neben den Schichtumfängen auch Schätzungen für die Standardabweichungen in den einzelnen Schichten zur Verfügung standen, kann die optimale Aufteilung der Stichprobe gewählt werden, d.h. n1 : n2 : n3 : n4 = N1 S1 : N2 S2 : N3 S3 : N4 S4 = 4 008 ∗ 116 : 1 667 ∗ 176 : 1 179 ∗ 215 : 465 ∗ 332 = 464 928 : 293 392 : 253 485 : 154 380 = 0, 3986743 : 0, 2515827 : 0, 2173626 : 0, 1323804 = 239, 20459 : 150, 94963 : 130, 41756 : 79, 42822.
150
5 Gruppierung der Population
Da die Stichprobe 600 AsB enthalten sollte, wurden die Zahlen in der letzten Zeile geeignet gerundet. Dabei wurden die beiden Zahlen mit den größten Nachkommastellen aufgerundet und die beiden anderen abgerundet. Somit ergab sich folgender Stichprobenplan: Schicht
Anzahl der zu ziehenden Einheiten
1 2 3 4
239 151 130 80
Gesamt
6 00
Aus der auf diese Weise gezogenen, geschichteten Varianz-optimalen Stichprobe ergab sich eine Standardabweichung für den Mittelwertschätzer von 6, 19. Damit ergibt sich eine Genauigkeit der Schätzung von 1, 96 · 6, 19 = 12, 13. Betrachtet man die gezogenen Einheiten hingegen als Ergebnis einer einfachen Zufallsstichprobe, so ergibt sich eine Standardabweichung von 14, 08 und somit eine Genauigkeit von 1, 96·14, 08 = 27, 60. Offensichtlich hat der Mittelwertschätzer der geschichteten Stichprobe eine deutlich geringere Standardabweichung und ist damit wesentlich genauer. Auch wenn eine optimale Aufteilung erstrebenswert erscheint, so ist sie selten realisierbar. Einerseits kann der Aufwand, Informationen über die nötigen Größen Sh in Form einer Pilotstichprobe zu erhalten, ziemlich groß sein. Vielleicht wichtiger ist jedoch die Tatsache, dass die Optimalität sich auf lediglich ein Merkmal bezieht. In einer Umfrage wird jedoch üblicherweise mehr als nur ein Merkmal erhoben. Somit kann eine Aufteilung zwar optimal bezüglich eines Merkmals sein, für ein anderes simultan erhobenes Merkmal kann die Aufteilung jedoch nicht optimal sein. Wegen dieses Dilemmas nimmt man in der Praxis üblicherweise Abstand von einer optimalen Aufteilung und bevorzugt eine proportionale Aufteilung. Herleitung: Wir zeigen, dass die Aufteilung (5.6) zur Minimierung der Varianz bei festem Gesamtstichprobenumfang n führt. Man betrachte die Varianzformel (ohne den Korrekturfaktor (Nh − n h )/(Nh − 1)) als Funktion von n h , h = 1, . . . , M, das heißt f (n 1 , . . . , n M ) =
M
Nh 2 Sh2 , N nh h=1
M
wobei h=1 n h = n. Formuliert man die Nebenbedingung als Lagrange Multiplikator in funk M n h − n so gilt es f (n 1 , . . . , n M ) + λ g(n 1 , . . . , n M ) zu tionaler Form g(n 1 , . . . , n M ) = h=1 minimieren. Differentiation bezüglich n h und λ liefert O =
∂ f (n 1 , . . . , n M ) ∂λg(n 1 , . . . , n M ) + ∂n h ∂n h
=−
1 Nh2 Sh2 +λ, N 2 n 2h
5.1
Geschichtete Stichprobe
151
wobei die Differentiation nach λ die Nebenbedingung liefert. Löst man die Gleichung nach n h auf und beachtet die Nebenbedingung, so folgt nh =
Nh Sh M
· n.
Nh Sh
h =1
Die Kontrolle der zweiten Ableitung zeigt, dass ein Minimum vorliegt.
Neben der Homogenität der einzelnen Schichten spielen die Kosten der Informationsgewinnung eine wichtige Rolle. So kann die Erhebung in den einzelnen Schichten unterschiedlich teuer sein und es empfiehlt sich eine sogenannte Kostenoptimale Aufteilung. Wir nehmen dazu an, dass die Kosten, um Information über ein Individuum aus der h-ten Schicht zu erhalten, bei kh liegen, h = 1, . . . , M. Die Gesamtkosten der geschichteten Stichprobe belaufen sich damit auf K = k0 + k1 n 1 + . . . + k M n M , wobei k0 die Fixkosten des Verfahrens sind. Die Kosten-optimale Aufteilung ergibt sich damit durch • Kosten-optimale Aufteilung: ⎡ n h,kostenopt
⎤
⎢ ⎥ ⎢ Nh Sh / kh ⎥ ⎢ ⎥ = ⎢n ⎥. M ⎢
⎥ ⎣ Nh Sh / kh ⎦
(5.7)
h =1
Die in der h-ten Schicht entstehenden Kosten sind dabei n h,kostenopt kh . Herleitung: Wir gehen davon aus, dass die Gesamtkosten auf K fixiert sind und somit K − k0 variable Kosten auf die Stichprobe aufgeteilt werden müssen. Ziel ist es, die Varianz bei vorgegebenen Kosten zu minimieren, wobei wir wiederum den Korrekturfaktor (Nh −n h )/(n h − 1) vernachlässigen. Schreiben wir die Varianz als Funktion von n h , h = 1, . . . , M, so gilt es die Funktion M
Nh 2 Sh2 f (n 1 , . . . , n M ) = N nh h=1
zu minimieren unter der Lagrange-Bedingung λg(n 1 , . . . , n M ) mit g(n 1 , . . . , n M ) = K − k0 − n 1 k1 − . . . − n M k M . Differenziert man f (n 1 , . . . , n M ) + λg(n 1 , . . . , n M ) bezüglich n h , h = 1, . . . , M und λ, so erhält √ man durch Nullsetzen der ersten Ableitung, dass n h,kostenopt proportional sein muss zu Nh Sh / kh .
Neben den Kosten und der Varianz können unterschiedliche Rücklaufquoten die Aufteilung des Stichprobenumfangs auf die Schichten bestimmen. Werden beispielsweise Fragebögen per Post ausgeschickt, mit der Bitte den ausgefüllten Bogen
152
5 Gruppierung der Population
retour zu schicken, so werden nicht alle Angeschriebenen dieser Bitte nachkommen. Die Bereitschaft, an der Umfrage teilzunehmen, kann dabei in den einzelnen Schichten sehr unterschiedlich sein. Dabei kann es empfehlenswert sein, den Stichprobenumfang in den Schichten zu erhöhen, in denen mit einer geringen Rücklaufquote gerechnet wird. Das Problem der unterschiedlichen Rücklaufquoten wird in Kap. 7 weiter diskutiert. Beispiel 5.5: In einer Umfrage zur Beurteilung von Risiko und Erfolgsfaktoren von neuen Unternehmen wurde in der sogenannten Münchner Gründerstudie (siehe Brüderl, Preisendörfer, & Ziegler 1992) eine Stichprobe aus Unternehmen gezogen, die Mitte der 80er Jahre in München und Umgebung ihr Gewerbe angemeldet haben. Die Stichprobe wurde dabei Anfang der 90er Jahre gezogen und die Unternehmensgründer wurden retrospektiv nach Erfolg oder Misserfolg befragt. Da man davon ausgegangen ist, dass Unternehmer von gescheiterten Unternehmen, die in den ersten fünf Jahren Konkurs angemeldet haben, weniger Willens sind, über ihren Misserfolg Auskunft zu geben als diejenigen, deren Unternehmen noch aktiv ist, wurde die Population in zwei Schichten geteilt, die erfolgreichen und die erfolglosen Unternehmen. Aus der letzteren Schicht wurden überproportional viele Unternehmen gezogen, um das erwartete zurückhaltende Antwortverhalten auszugleichen. Abschließend wollen wir einen theoretischen Vergleich der beiden Strategien optimaler und proportionaler Aufteilung der geschichteten Stichprobe mit der einfachen Zufallsstichprobe durchführen, um den Varianz reduzierenden Effekt auch formelmäßig greifen zu können. Üblicherweise wird der Unterschied in der Varianz der verschiedenen Mittelwertschätzer für designbasierte Verfahren auch als DesignEffekt bezeichnet. Je größer dieser Effekt, desto geringer ist die Varianz des Schätzers, d.h. desto besser ist das entsprechende Stichprobendesign. Der Einfachheit halber lassen wir den Korrekturfaktor für endliche Populationen bei den folgenden Überlegungen unberücksichtigt. Somit sind die Überlegungen nur näherungsweise gültig und müssen bei kleinen Schichten modifiziert werden. Für die Varianzen der Schätzer der einfachen Zufallsstichprobe und der geschichteten Stichprobe gilt: S2 , Y¯ E S ≈ Var n M
Nh 2 Sh2 ¯ . Var Y G S ≈ N nh h=1
Wir setzen zur weiteren Berechnung im Folgenden gleiche Gesamt M n h = n. Im Fall der proportionalen AufStichprobenumfänge voraus, d.h. h=1 teilung gilt:
5.1
Geschichtete Stichprobe
153
M
Nh 2 Sh2 Var Y¯ G S,prop ≈ Nh N N n h=1 M 1 Nh Sh2 . = n N
(5.8)
h=1
In der Grundgesamtheit können wir die Gesamtvarianz S 2 wie folgt zerlegen: M M
2 Nh 2 N h ¯ S + Yh − Y¯ S = N h N 2
h=1
⇔ NS = 2
M
(5.9)
h=1
Nh Sh2
h=1
+
M
2 Nh Y¯h − Y¯ .
h=1
Dies entspricht der Zerlegung, wie sie auch in der Varianzanalyse verwendet wird. Die Gesamtvarianz (Sum of Squares Total) setzt sich zusammen aus der gewichteten Summe der Varianzen innerhalb der Schichten (Sum of Squares Within) und der Varianz zwischen den Schichten (Sum of Squares Between). Wir notieren dies auch als N S 2 = SST = SSW + SS B. Die Varianz des geschichteten Schätzers hängt nur von der Varianz innerhalb der Schichten ab und aus Formel (5.8) lässt sich der Design-Effekt direkt herleiten. Es gilt: Var Y¯ G S,prop SSW SSW ≈ = . SST SSW + SS B Var Y¯ E S Der Schätzer der geschichteten Stichprobe hat also generell eine kleinere Varianz als der Schätzer der einfachen Zufallsstichprobe. Der Schichtungsgewinn lässt sich durch das Verhältnis der Varianz innerhalb der Schichten zur Gesamtvarianz quantifizieren. Dies entspricht dem schon erwähnten Schichtungsprinzip, also je geringer die Streuung innerhalb der Schichten (SSW) im Vergleich zur Gesamtstreuung (SST), desto besser ist die geschichtete Stichprobe im Vergleich zur einfachen Zufallsstichprobe. Für die optimale Aufteilung erhalten wir unter Berücksichtigung von nh =
Nh Sh M
h =1
Nh Sh
· n,
154
5 Gruppierung der Population
M
Nh 2 Sh2 Var Y¯ G S,opt ≈ N nh h=1
=
M
Nh 2 h=1
N
Sh2
M
1 Nh Sh
n Nh Sh
h =1
M M
Nh
1 Nh = Sh Sh
n N N h=1 h =1 2 M 1 Nh = Sh . n N h=1
Damit lässt sich der Gewinn einer optimalen Aufteilung im Vergleich zur proportionalen Aufteilung schreiben als: M 1 Nh 2 1 Y¯ G S,opt = S − Var Y¯ G S,prop − Var n N h n h=1
=
M
Nh Sh N
2
h=1
M 2 1 Nh Sh − S¯ , n N h=1
M Nh mit S¯ = h=1 N Sh . Die Varianzreduktion ist folglich umso besser, je größer die Streuung der Schicht-Standardabweichungen ist. Falls die Standardabweichungen innerhalb der Schichten ähnliche Werte annehmen, so ist die proportionale Aufteilung annähernd optimal. Y¯ G S,opt lassen sich Die Berechnungen zur Varianz der Schätzer Y¯ G S,prop und auch dazu nutzen, den Gesamtstichprobenumfang n aus einer Genauigkeitsanforderung zu bestimmen. Dies kann z.B. bei der proportionalen Aufteilung mit Hilfe der in Abschn. 2.8 diskutierten Methodik unter Verwendung der Formel (5.8) geschehen. Auch hier ist die Kenntnis der Schichtvarianzen Sh nötig. Daraus ergeben sich die Stichprobenumfänge der einzelnen Schichten nach Formel (5.5). In der Praxis benötigt man in vielen Fällen zusätzlich auch Schätzungen für die Schichtmittelwerte mit einer vorgegebenen Genauigkeit. In diesem Fall berechnet man zusätzlich die nötigen Stichprobenumfänge für die einzelnen Schichten wie in Abschn. 2.8 beschrieben. Falls der benötigte Stichprobenumfang in einzelnen Schichten den der proportionalen Aufteilung übersteigt, so wird dieser entsprechend erhöht.
5.1.3 A posteriori Schichtung Generell bietet die geschichtete Stichprobe erhebliche Vorteile, wenn ein starker Design-Effekt vorliegt, d.h. wenn die Streuung innerhalb der Schichten deutlich geringer ist als die in der Grundgesamtheit. In manchen Fällen ist die Ziehung einer
5.1
Geschichtete Stichprobe
155
geschichteten Stichprobe aber nicht möglich, da die Schichtzugehörigkeit in der Grundgesamtheit nicht bekannt ist. Ebenso kann es vorkommen, dass die Stichprobe bedingt durch unterschiedliche Rücklaufquoten bezüglich bekannter Sekundärmerkmale verzerrt ist. Beispielsweise kann es passieren, dass die Stichprobe einen erhöhten Männeranteil aufweist. Dies gilt es zu korrigieren, was im Rahmen einer a posteriori Schichtung möglich ist.
Beispiel 5.6: In einer Umfrage soll herausgefunden werden, wieviel Zeit pro Woche Studenten im Rahmen ihres Studiums vor dem Rechner verbringen. Zu diesem Zweck wird eine einfache Zufallsstichprobe gezogen. Bei der Auswertung der Daten zeigt sich, dass ein deutlicher Geschlechtsunterschied besteht, da männliche Studenten weitaus mehr Zeit vor dem Rechner verbringen als ihre weiblichen Kommilitoninnen. Nehmen wir weiter an, dass der Anteil der männlichen Studierenden bei 50% liegt, in der Stichprobe hingegen befinden sich (bedingt durch die zufällige Auswahl) 60% Männer. Ignoriert man den geschlechtsspezifischen Effekt, so wird die Zeit, die Studenten vor dem Rechner verbringen, in diesem Fall möglicherweise überschätzt. Der Schätzer kann jedoch unter Verwendung der Zusatzinformation zur Geschlechtsverteilung korrigiert werden, wie wir nachfolgend demonstrieren werden. Sofern man Informationen über die relativen Schichtgrößen Nh /N besitzt, kann eine a posteriori Schichtung des Schätzers vorgenommen werden. Als a posteriori geschichteten Schätzer definieren wir
Y¯ G S,post =
M
Nh y¯h , N
(5.10)
h=1
wobei y¯h wie gehabt der Mittelwert in der h-ten Schicht ist. Man beachte, dass nicht die expliziten Schichtgrößen Nh , h = 1, . . . , M bekannt sein müssen, sondern nur die relativen Schichtgrößen Nh /N . A posteriori Schichtung ist auch bekannt als Umgewichtung und ein häufig verwendetes Mittel in Befragungen. Typisch ist dabei die Verwendung von Merkmalen wie Geschlecht, soziale Schicht oder Wohnort (Stadt/Land). Wir diskutieren diesen Aspekt in Kap. 7 ausführlicher. Bei all diesen Merkmalen ist die Zusammensetzung in der Grundgesamtheit bekannt. Inhaltlich entspricht die a posteriori Schichtung einer Höhergewichtung der Individuen, die in der Stichprobe bezüglich der Schichtungsmerkmale unterrepräsentiert sind. Wir wollen den Effekt von a posteriori Schichtung an unserem obigen Beispiel demonstrieren. Wir ziehen hierzu eine einfache Zufallsstichprobe vom Umfang n = 3 aus der bisherigen Population Y1 = 9, Y2 = 10, Y3 = 11, Y4 = 18 und Y5 = 22. Nachträglich wird nun eine a posteriori Schichtung vorgenommen,
156
5 Gruppierung der Population
wobei die Schichten als Schicht 1 mit den Individuen 1, 2 und 3 und Schicht 2 mit den Individuen 4 und 5 angenommen sind. Wir erhalten je nach Stichprobe die folgenden Ergebnisse.
Gezogene Einheiten
y¯1
y¯2
Y¯ G S,post
1
2
3
10
?
1 1 1 1 1 2 2 2 3
2 2 3 3 4 3 3 4 4
4 5 4 5 5 4 5 5 5
9,5 9,5 10 10 9 10,5 10,5 10 11
18 22 18 22 20 18 22 20 20
keine a posteriori Schichtung möglich, da nur Beobachtungen aus Schicht 1 12,9 14,5 13,2 14,8 13,4 13,5 15,1 14,0 14,6
Es ergibt sich E Y¯ G S,post = 14,
Var Y¯ G S,post = 0, 55.
Es zeigt sich eine Reduktion der Varianz im Vergleich zur Varianz der einfachen Zufallsstichprobe (Var( y¯ ) = 4, 33, siehe oben). A posteriori Schichtung ist also in diesem Beispiel sinnvoll. Die allgemeine Berechnung der Eigenschaften des Schätzers Y¯ G S,post ist nicht ganz einfach. Dies liegt daran, dass die Aufteilung der Stichprobe auf die Schichten zufällig ist, denn die Schichtumfänge in den einzelnen Schichten wurden nicht vor Stichprobenziehung explizit festgelegt, sondern ergeben sich erst im Nachhinein mit der realisierten Stichprobe. Diese Zufälligkeit muss bei der Varianzschätzung berücksichtigt werden. Weiter können wir das Horvitz-Thompson-Theorem hier nicht anwenden, da die Gewichtung nicht durch die Auswahlwahrscheinlichkeiten, sondern durch die Schichtgrößen in Stichprobe und Grundgesamtheit erfolgt. Herleitung: Wir benötigen daher zur Analyse des Schätzers die Technik der bedingten Erwartung und der bedingten Varianz. Satz vom iterierten Erwartungswert Seien Y und X zwei Zufallsvariablen mit endlichen Momenten, so gilt: E Y (Y ) = E X (E Y (Y |X )) ,
(5.11)
VarY (Y ) = Var X (E Y (Y |X )) + E X (VarY (Y |X )) .
(5.12)
5.1
Geschichtete Stichprobe
157
Bei den folgenden Herleitungen bleiben die Fälle der Nicht-Existenz (d.h. mindestens eine Schicht in der Stichprobe hat den Umfang 0) unberücksichtigt, da in einem solchen Fall die a posteriori Schichtung nicht anwendbar ist. Wir betrachten nun die M-dimensionale Zufallsgröße n = (n 1 , . . . , n M ), die die M Schichtumfänge in der Stichprobe charakterisiert. (Diese besitzt eine verallgemeinerte hypergeometrische Verteilung.) Wir berechnen nun den Erwartungswert von Y¯ G S,post bei gegebenem n. Es gilt: (5.13) E Y¯ G S,post |n = Y¯ . Diese Eigenschaft folgt, da die Verteilung von Y¯ G S,post bei gegebenem n (unter der Annahme, dass alle Komponenten von n positiv sind) der Verteilung des Schätzers einer geschichteten Stichprobe mit Aufteilung n entspricht. Da der geschichtete Schätzer (bei bekannten Schichtumfängen in der Stichprobe) erwartungstreu ist, folgt Formel (5.13). Damit gilt nach Formel (5.11): Y¯ G S,post |n = En Y¯ = Y¯ . E Y¯ G S,post = En E Für die Varianz von Y¯ G S,post gilt: Y¯ G S,post |n + En Var Y¯ G S,post |n Var Y¯ G S,post = Varn E = En Var Y¯ G S,post |n =E
M
Nh 2 Nh − n h S 2 h . N Nh − 1 n h h=1
Der erste Term in der Berechnung entfällt, da E Y¯ G S,post |n = Y¯ konstant ist. Der zweite Term ist schwierig zu handhaben, da die Zufallsgrößen n h , h = 1, . . . , M im Nenner stehen. Es lässt sich jedoch eine Approximation durch eine Taylorreihe angeben: M M N − n Nh 1 N − n N − Nh · Sh2 + 2 · Sh2 . Var Y¯ G S,post ≈ n·N N N −1 N n h=1
(5.14)
h=1
Der erste Teil der Varianz ergibt sich als Varianz eines geschichteten Schätzers mit proportionaler Aufteilung, d.h. n h = n · Nh /N . Der zweite Teil in obiger Varianzformel resultiert aus der Tatsache, dass n h nicht fix gewählt ist, sondern sich zufällig ergibt. Man beachte, dass E(n h ) = n Nh /N ist. Also ist im Mittel die zufällige Aufteilung proportional zur Schichtgröße in der Population. Ein Vergleich von (5.14) und (5.3) zeigt, dass a posteriori Schichtung eine höhere Varianz hervorruft als eine proportional aufgeteilte geschichtete Stichprobe. D.h. eine (im vorhinein) geschichtete Stichprobe ist einer a posteriori geschichteten Stichprobe vorzuziehen. Dennoch kann a posteriori Schichtung die Varianz des Schätzers im Vergleich zum arithmetischen Mittel für einfache Zufallsstichproben reduzieren. Obwohl der Ausdruck für die Varianz des Schätzers komplex ist, lässt er sich erwartungstreu schätzen durch: M
Nh 2 Nh − n h sh2 Var . Y¯ G S,post = N Nh nh h=1
(5.15)
158
5 Gruppierung der Population Die Erwartungstreue folgt wieder aus dem Satz vom iterierten Erwartungswert: E Var
= En E Var Y¯ G S,post
Y¯ G S,post |n . Y¯ G S,post |n = En Var
Die letzte Umformung ergibt sich aus der Erwartungstreue des Varianzschätzers in der geschichteten Stichprobe. Insgesamt können also für den Schätzer aus der nachträglich geschichteten Stichprobe die Formeln des oben behandelten geschichteten Schätzers verwendet werden. Eine in der Literatur vorgeschlagene Alternative ist die Verwendung von Formel (5.14), wobei Sh2 , h = 1, . . . , M durch die entsprechenden Schätzer ersetzt wird.
A posteriori Schichtung (Nachträgliche Schichtung)
Gegeben sei eine einfache Zufallsstichprobe und ein Schichtungsmerkmal. Wir setzen voraus, dass mindestens zwei Elemente pro Schicht gezogen wurden (dies ermöglicht es, die Varianzen in den Schichten zu schätzen) und dass die relativen Schichtumfänge in der Grundgesamtheit bekannt sind. Ein unverzerrter Schätzer für den Mittelwert Y¯ der Population ist Y¯ G S,post =
M
Nh y¯h , N h=1
wobei y¯h der Mittelwert in der h-ten Schicht ist. Die Varianz von Y¯ G S,post lässt sich erwartungstreu schätzen durch M
Nh 2 Nh − n h sh2 ¯ Var Y G S,post = . N Nh nh h=1
Beispiel 5.7: Zur Illustration der nachträglichen Schichtung greifen wir auf Beispiel 3.5.2 zurück. In der dort beschriebenen Studie sollte der mittlere Investitionswert pro Teilnehmeranschlussleitung in einem großen Telefonnetz bestimmt werden. Dazu wurde das Telefonnetz in 7 319 Anschlussbereiche (AsB) aufgeteilt. Aus diesen AsB wurde eine einfache Zufallsstichprobe vom Umfang
5.1
Geschichtete Stichprobe
159
n = 287 gezogen. (Esergab sich daraus eine Schätzung von Y¯ E S = 465, 95 mit einer Varianz von Var Y¯ E S = 434, 15.) Nun soll der Mittelwertschätzer mit Methoden der nachträglichen Schichtung geschätzt werden. Als geeignetes Schichtungsmerkmal wird die Leitungslänge verwendet. Die Zuordung der gezogenen AsB zu den Schichten wurde wie in Beispiel 3.5.2 nach folgender Tabelle vorgenommen.
Schicht
Schichtdefinition über Leitungslänge (LL) in Metern
Anzahl AsB in GG
Standard-abweichung in Tausend
1 2 3 4
LL 8 Mio. 8 Mio. < LL 15 Mio. 15 Mio. < LL 26 Mio. 26 Mio. < LL
4 008 1 667 1 179 465
116 176 215 332
Gesamt
7 319
Um die Schätzungen Y¯ G S,post zu erhalten, werden folgende Y¯ G S,post und Var Größen aus der Stichprobe berechnet.
Schicht
(zufällige) Anzahl gezogener Schicht AsB n h
Anzahl AsB in der GG Nh
Relative Schicht-größen Nh /N
StandardMittelwert in abweichung Tausend y¯h in Tausend sh
1 2 3 4
136 69 48 34
4 008 1 667 1 179 465
0,5476 0,2278 0,1611 0,0635
206 498 669 1 154
Gesamt
287
7 319
1
116 176 215 332
407,32
Damit ergibt sich Y¯ G S,post =
M
Nh y¯h = 407, 32 N h=1
und M
Nh 2 Nh − n h sh2 = 87, 09. Var Y¯ G S,post = N Nh nh h=1
Vergleicht man diese Schätzungen mit denjenigen des Regressionsschätzers Y¯ R E G = 405, 67 und Var Y¯ R E G = 94, 01, so ergibt sich für beide Methoden
160
5 Gruppierung der Population
ein sehr ähnlicher Schätzwert für den Mittelwert und die Varianz. Dies lässt sich dadurch erklären, dass im Prinzip ähnliche Zusatzinformation zur Schätzung herangezogen wird. Bei der nachträglichen Schichtung wird die Kabellänge als kategoriales Merkmal in 4 Ausprägungen genutzt, während sie beim Regressionsschätzer direkt eingeht. In beiden Fällen wird die entsprechende Information aus der Grundgesamtheit (Mittelwert der Kabellänge beim Regressionsschätzer bzw. Häufigkeiten der Kategorien in der Grundgesamtheit bei der nachträglichen Schichtung) genutzt.
5.1.4 Zusammenfassung Fassen wir die wichtigsten Kriterien und Eigenschaften des geschichteten Schätzers nochmals zusammen, um der Wichtigkeit dieses Stichprobendesigns genügend Rechnung zu tragen. Durch Schichtung kann die Varianz des Schätzers für Y¯ reduziert werden. Voraussetzung für die Varianzreduktion ist, dass die einzelnen Schichten bezüglich des zu erhebenden Merkmals recht homogen sind, einzelne Schichten sich aber untereinander unterscheiden. Diese Eigenschaft hatten wir auch als Schichtungsprinzip bezeichnet. Sind die Schichten definiert, gilt es den Stichprobenumfang auf die Schichten aufzuteilen. Bei der Aufteilung sollte in größeren Schichten und in Schichten mit größerer Merkmalsvariabilität ein größerer Stichprobenumfang vorliegen. Die Vorteile der geschichteten Stichprobe können auch im nachhinein genutzt werden. Auch wenn keine geschichtete Stichprobe durchgeführt wurde, so kann eine a posteriori Schichtung von Vorteil sein. Voraussetzung ist hierbei, dass die relativen Schichtgrößen Nh /N in der Grundgesamtheit bekannt sind.
5.2 Cluster-Stichprobe 5.2.1 Einfache Cluster-Stichprobe Bei den bisher besprochenen Stichprobenverfahren haben wir angenommen, dass der Zugriff auf einzelne Untersuchungseinheiten ohne Probleme möglich und gleichzeitig kosteneffizient ist. Dies ist aber in der Praxis häufig nicht der Fall, wie folgendes Beispiel zeigt. Beispiel 5.8: Zur Bestimmung des Zigarettenkonsums von Hauptschülern in der 8. Klasse soll eine Erhebung mit Hilfe von Fragebögen durchgeführt werden. Bei der Ziehung einer Stichprobe ist es sehr aufwendig, einzelne Schüler direkt auszuwählen. Voraussetzung hierfür wäre, dass eine Liste von Schülern der 8. Klasse vorliegt, aus welcher dann zufällig Schüler gezogen und anschließend befragt werden könnten. Eine derartige Liste ist jedoch selten vorhanden oder wird aus Datenschutzgründen nicht zur Verfügung gestellt. Daher liegt es nahe,
5.2
Cluster-Stichprobe
161
die Untersuchung anders durchzuführen und jeweils ganze Klassen zu befragen. In diesem Fall ist eine Zufallsauswahl von Schulklassen und nicht von Schülern zu treffen. Dem Beispiel folgend nehmen wir an, dass sich die Elemente der Grundgesamtheit (die Schüler) in natürlicher Weise in sich nicht überlappende Gruppen (die Klassen) zusammenfassen lassen, die wir nachfolgend als Cluster oder Klumpen bezeichnen. Die Idee der Cluster- oder Klumpenstichprobe besteht nun darin, eine Zufallsstichprobe aus den Clustern zu ziehen und innerhalb der gezogenen Cluster eine Vollerhebung durchzuführen. Die Ziehung findet somit nicht auf den Elementen der Population statt, sondern auf den Clustern. Schematisch ist dies in Abb. 5.2 gezeigt. Das Vorgehen bei der Cluster-Stichprobe hat eine weitreichende praktische Konsequenz. Die bisher besprochenen Verfahren der Zufallsauswahl basieren auf einer Populationsliste, in der jeder Eintrag exakt einem Element der Grundgesamtheit entspricht. Dies kann in praktischen Anwendungen sehr schwierig oder auch gar nicht realisierbar sein. Erfolgt die Ziehung jedoch auf der Ebene der Cluster, so ist zur praktischen Durchführung nur eine Liste der Cluster in der Population erforderlich. Im obigen Beispiel ist es offensichtlich viel einfacher, eine Liste der Schulklassen oder auch Schulen zu erhalten als eine Liste aller Schülerinnen und Schüler der 8. Klassen. Diese Einfachheit ist überzeugend, es ist aber festzustellen, dass Clusterbildung nicht notwendigerweise zu einer genaueren Stichprobe im Sinne einer reduzierten Varianz führt.
Abb. 5.2 Schematische Abbildung einer Cluster-Stichprobe (hier vom Umfang m = 1)
162
5 Gruppierung der Population
Um den Effekt der Cluster-Stichprobe auf die Varianz des Schätzers zu verdeutlichen, betrachten wir als Beispiel eine kleine Population bestehend aus N = 9 Elementen. Die Elemente Y weisen dabei folgende Werte auf: 1 1 1
3 3 3
5 5 5.
Eine einfache Zufallsstichprobe vom Umfang 3 liefert E( y¯ ) = 3 und Var( y¯ ) = 0, 67. Wir teilen nun die Population in Cluster auf, sprich in sich nicht überlappende Gruppen. Nehmen wir beispielsweise die Zeilen der obigen Matrix als Cluster, so erhalten wir die folgende Aufteilung: Cluster 1: Cluster 2: Cluster 3:
1 1 1
3 3 3
5 5 5.
Gemäß dem Prinzip der Cluster-Stichprobe ziehen wir nun zufällig aus den 3 Clustern eine Stichprobe und führen in den gezogenen Clustern eine Vollerhebung durch. Um auf einen Stichprobenumfang von 3 zu kommen sei hier exemplarisch nur eins der drei Cluster gewählt. Unabhängig von der Wahl des Clusters erhalten wir einen Schätzer für Y¯ mit dem Wert 3. Das heißt aber der resultierende Schätzer hat die Varianz 0. Eine Cluster-Stichprobe liefert somit ein deutlich genaueres Ergebnis als eine einfache Zufallsstichprobe. Im Prinzip war die Wahl der Cluster willkürlich und wir hätten auch die Cluster spaltenweise bestimmen können, als gemäß Cluster 1: Cluster 2: Cluster 3:
1 3 5
1 3 5
1 3 5.
Dem Prinzip der Cluster-Stichprobe folgend wählt man nun wieder zufällig (per einfacher Stichprobe) ein Cluster aus und führt dann eine Vollerhebung durch. Als Schätzer für Y¯ erhalten wir somit die Größen 1, 3 und 5, je nach gezogenem Cluster, mit einer Wahrscheinlichkeit von je 1/3. Der Schätzer liefert damit im Mittel den wahren Wert Y¯ = 3, jedoch mit einer Varianz von 2,66. Im diesem Fall ist die Cluster Stichprobe schlechter als die einfache Zufallsstichprobe, sofern man die Varianzen vergleicht. Aus diesem zunächst nur beispielhaften Vergleich leiten wir das sogenannte Cluster-Prinzip ab. Eine Cluster-Stichprobe ist dann besonders effizient, wenn die einzelnen Cluster jeweils näherungsweise ein Abbild der Grundgesamtheit darstellen.
5.2
Cluster-Stichprobe
163
Clusterprinzip: Cluster sollten so gewählt werden, dass Beobachtungen innerhalb eines Clusters so heterogen wie möglich sind, sich einzelne Cluster aber so wenig wie möglich voneinander unterscheiden.
Beispiel 5.9: Die Stadt Haßloch in Rheinland-Pfalz dient als Test- und Probemarkt für neue Produkte, die deutschlandweit auf den Markt kommen sollen (vergleiche auch Süddeutsche Zeitung vom 29.01.2005). Von den knapp 10 000 privaten Haushalten in Haßloch sind ca. 3 000 registriert und nehmen an der Studie teil. Die Gesellschaft für Konsumforschung betreibt seit 1988 in Haßloch einen Testmarkt. Bei jedem Einkauf legen die registrierten Haushalte eine Chipkarte vor, und es wird registriert, welche Produkte gekauft werden. Ebenso wird in Haßloch lokal geworben, so dass Fernsehspots für ein neues Produkt nur in Haßloch gezeigt werden. Damit kann getestet werden, ob für ein Produkt hinreichend Nachfrage besteht, bevor es, gegebenenfalls deutschlandweit auf den Markt gebracht wird. Die Auswahl der 3 000 registrierten Einwohner wurde dabei so vorgenommen, dass diese etwa der Population der Bundesrepublik entsprechen, was Altersstruktur und sonstige Merkmale betrifft. Haßloch kann somit als Cluster-Stichprobe (vom Umfang 1) angesehen werden.
Beachtet werden sollte, dass das Clusterprinzip das Gegenteil zum SchichtungsPrinzip bildet. Genau hier liegt jedoch auch eine Schwierigkeit des Verfahrens. Cluster werden häufig als lokale Gruppen gewählt, seien es beispielsweise Straßenzüge, Gemeinden oder Schulen wie im Eingangsbeispiel. Einzelne Straßenzüge, Gemeinden oder Schulen sind damit im Sinne einer Cluster-Stichprobe zu ziehen und, wenn gezogen, per Vollerhebung aufzunehmen. Hierbei ist jedoch kritisch zu hinterfragen, ob die so gewählten Cluster dem Cluster-Prinzip entsprechen. Es ist eher anzunehmen, dass die Bewohner einer Straße homogen sind, wohingegen die Straßen einer Stadt von Seiten der Bevölkerungsstruktur her heterogen sind. Ebenso sind Gemeinden (oder Schulen) in sich homogen und unterscheiden sich von anderen Gemeinden (oder Schulen). Die praktischen Vorteile einer Cluster-Stichprobe können somit in Widerspruch zum Clusterprinzip stehen, was bedeutet, dass bei der Durchführung einer Cluster-Stichprobe nicht mit einer Varianzreduktion im Vergleich zur einfachen Stichprobe mit gleichem Stichprobenumfang gerechnet werden kann. Daher wird das Design der Cluster-Stichprobe vor allem aufgrund der einfachen Umsetzbarkeit gewählt. Zur Herleitung der Schätzer für eine Cluster-Stichprobe benötigen wir die folgende Notation.
164
5 Gruppierung der Population
Cluster-Stichprobe Die Population wird in M sich nicht überlappende Gruppen zerlegt. Diese werden Cluster genannt und enthalten jeweils Nh Elemente. Aus den M Clustern werden m Cluster in Form einer einfachen Zufallsstichprobe gezogen und es wird in diesen eine Vollerhebung durchgeführt. Größe
Bedeutung
In der Population: M Nh , h = 1, . . . , M M N = h=1 Nh
Anzahl der Cluster in der Population Anzahl der Elemente im h-ten Cluster
N¯ = N /M
durchschnittliche Clustergröße in der Population
Yhi , i = 1, . . . , Nh
Variable oder Merkmal des i-ten Merkmalsträgers im h-ten Cluster Mittelwert der Variablen im h-ten Cluster
Y¯h =
Nh
1 Nh
i=1 Yhi
Nh
YT,h =
Gesamt-Populationsumfang
¯
i=1 Yhi = N h Yh M 1 h=1 YT,h M
Y¯T,· =
Summe (Totale) der Variablen im h-ten Cluster Mittelwert der Clustersummen
In der Stichprobe: m Nl , l = 1, . . . , m m Nl n = l=1
Gesamt-Stichprobenumfang
n¯ = n/m
durchschnittliche Clustergröße in der Stichprobe
yli , i = 1, . . . , Nl
Variable oder Merkmal des i-ten Merkmalsträgers im l-ten gezogenen Cluster Mittelwert der Variablen im l-ten gezogenen Cluster Summe (Totale) der Variablen im l-ten gezogenen Cluster Mittelwert der Clustersummen
y¯l =
1 Nl
yT,l = y¯ T,· =
Anzahl der Cluster in der Stichprobe Anzahl der Elemente im l-ten gezogenen Cluster
Nl
i=1 yli
Nl
i=1 yli
1 m
m
= Nl y¯l
l=1 yT,l
5.2
Cluster-Stichprobe
165
Wir berechnen zunächst die Mittelwertschätzung nach dem Horvitz-ThompsonTheorem. Dabei verwenden wir, dass die Auswahlwahrscheinlichkeit πli eines einzelnen Elements der Auswahlwahrscheinlichkeit des entsprechenden Clusters entspricht. Bei m ausgewählten Clustern aus den M Clustern der Population ergibt sich für alle Elemente die Auswahlwahrscheinlichkeit m/M. Der Cluster-Schätzer lässt sich somit wie folgt herleiten: m Nl m Nl m Nl m yli M 1
1
M 1
M 1
= yli = yT,l . yli = Y¯ C L = N πli N m N m N m l=1 i=1
l=1 i=1
l=1 i=1
l=1
Der Schätzer kann auch auf eine andere Art motiviert werden, welche zum Verständnis des Cluster-Schätzers sehr nützlich ist. Wir können das Populationsmittel Y¯ auch schreiben als M Nh M 1
M ¯ 1
Yhi = YT,h = YT,· , Y¯ = N N N h=1 i=1
h=1
wobei Y¯T,· der Mittelwert der Clustersummen (Clustertotalen) YT,h ist. Wir können also das Populationsmittel als Mittelwert der Clustersummen schreiben. Mit diesem kleinen Trick sind wir in der Lage, die Theorie der einfachen Zufallsstichprobe und damit die Ergebnisse aus Abschn. 2.5 anzuwenden. Wir betrachten dazu die Grundgesamtheit der M Cluster und als Merkmal des h-ten Clusters die Clustersummen YT,h . Da unsere mStichprobenziehung auf der Ebene der Cluster erfolgt, können wir Y¯T,· durch m1 l=1 yT,l direkt schätzen. Daraus ergibt sich unmittelbar der Schätzer: m
M Y¯ C L = N
yT,l
l=1
m
=
M y¯T,· . N
(5.16)
Wir bezeichnen den Schätzer nachfolgend auch als einfachen Cluster-Schätzer, um ihn abzugrenzen von komplexeren Schätzern, die auf dem Clusterprinzip aufbauen. Die Varianz von Y¯ C L kann ebenfalls direkt mit den Ergebnissen der einfachen Zufallsstichprobe berechnet werden, indem wir YT,h als Merkmal auffassen. Es gilt: M 2 M2 M2 M − m 1 1 YT,h − Y¯T,· . Var Y¯ C L = 2 Var( y¯ T,· ) = 2 N N M −1 m M h=1
Wir erhalten daraus entsprechend die geschätzte Varianz:
(5.17)
166
5 Gruppierung der Population m
2 1 M2 M − m yT,l − y¯ T,· . Var Y¯ C L = 2 M m (m − 1) N
(5.18)
l=1
Man kann die beiden obigen Formeln auch direkt aus dem Horvitz-ThompsonTheorem herleiten, was allerdings von der Notation her etwas komplizierter ist.
Cluster-Stichprobe
Die Population sei in M sich nicht überlappende Cluster aufgeteilt. Gezogen wird eine einfache Zufallsstichprobe von m Clustern. Ein erwartungstreuer Schätzer für den Mittelwert Y¯ der Population ist gegeben durch den einfachen Cluster-Schätzer m
M M y¯T,· = Y¯ C L = N N
yT,l
l=1
m
,
wobei yT,l die Clustersumme (Totale) des l-ten gezogenen Clusters bezeichnet. Die Varianz von Y¯ C L kann geschätzt werden durch m
2 M2 M − m 1 Y¯ C L = 2 Var yT,l − y¯T,· . N M m (m − 1) l=1
Wir wollen nun die theoretischen Eigenschaften der Cluster-Stichprobe näher beleuchten. Dazu wollen wir die Cluster-Stichprobe mit der einfachen Zufallsstichprobe vergleichen. Wir nehmen der Einfachheit halber gleiche Clustergrößen an, also N1 = N2 = . . . = N M , woraus Nh = N /M folgt. In diesem Fall ergibt sich der einfache Cluster-Schätzer zu m
M Y¯ C L = N
yT,l
l=1
m
=
m 1
yT,l = y¯ . N1 m l=1
Der Cluster-Schätzer ist also genau das arithmetische Mittel der Beobachtungen. Für die Varianz ergibt sich unter Berücksichtigung der gleichen Clustergrößen
5.2
Cluster-Stichprobe
167
M 2 1 M − m 1 1 Var Y¯ C L = 2 YT,h − Y¯T,· N1 M − 1 m M h=1
=
M 2 M − m 1 1 ¯ Yh − Y¯ M −1 m M h=1
=
M 2 M −m 1 1
N1 Y¯h − Y¯ M −1 m N h=1
=
M −m 1 1 SS B. M −1 m N
Dabei ist SS B die Quadratsumme zwischen den Clustern, siehe dazu auch Formel (5.9), die bei der geschichteten Stichprobe als Quadratsummenzerlegung verwendet wurde. Wir vergleichen nun die Varianz der Cluster-Stichprobe mit der Varianz der einfachen Zufallsstichprobe bei gleichem Stichprobenumfang n = m N1 und erhalten N −n 1 1 SST. Var Y¯ E S = N − 1 m N1 N Ein Vergleich der beiden Varianzen ergibt Y¯ C L Var M − m M N 1 − m N1 = : · N1 M −1 M N1 − 1 Y¯ E S Var M −m M N1 − 1 = · · N1 M − 1 M N1 − m N 1 M N1 − 1 SS B = M −1 SS B + SSW ≈ N1
SS B . SS B + SSW
SS B SST SS B SST
(5.19)
Aus der Formel (5.19) erkennt man deutlich den sogenannten Design-Effekt der Cluster-Stichprobe. Es zeigt sich, dass je kleiner die Varianz zwischen den Clustern ist, d.h. je kleiner SSB, desto effizienter ist die Anwendung des Cluster-Schätzers. Dies entspricht aber genau dem oben formulierten Cluster-Prinzip. Weiter nimmt die Effizienz bei steigender Clustergröße ab. Bei dem aufgestellten Vergleich ist allerdings zu beachten, dass die Kosten für eine einfache Zufallsstichprobe in der Regel sehr viel höher sind als die einer Cluster-Stichprobe vom gleichen Umfang und wir hier Kostengesichtspunkte unberücksichtigt gelassen haben. Aus Formel (5.17) erkennt man, dass die Varianz des einfachen Cluster-Schätzers von der Varianz der Clustersummen in der Grundgesamtheit abhängt. Da die Clustersummen im Gegensatz zu den Clustermittelwerten stark von den Clustergrößen
168
5 Gruppierung der Population
abhängen, ist der einfache Cluster-Schätzer für stark ungleiche Clustergrößen nicht notwendigerweise optimal. In diesem Fall sollten alternative, modellbasierte Schätzer bzw. das PPS-Design gewählt werden, wie wir in den folgenden Abschnitten vorstellen werden.
5.2.2 Modellbasierter Cluster-Schätzer Bei den bisher behandelten einfachen Cluster-Schätzern haben wir die Sekundärinformation über die Clustergrößen unberücksichtigt gelassen. Dies ist gerechtfertigt, wenn die einzelnen Cluster gleiche oder annähernd gleiche Größe haben. Bei variierenden Clustergrößen kann die Größe des Clusters jedoch als Sekundärinformation genutzt werden, um die Varianz des Schätzers zu reduzieren. Voraussetzung dafür ist, dass die durchschnittliche Clustergröße N¯ = N /M bekannt ist. Damit können wir die Clustergröße modellbasiert als Sekundärinformation nutzen und den einfachen Cluster-Schätzer verbessern. Die zugrundeliegende Idee ist dabei folgende: Der Cluster-Schätzer (5.16) setzt sich als Summe der Clustersummen yT,l zusam Nl yli , men. Dabei ist yT,l definiert als Summe von Nl Summanden, d.h. yT,l = i=1 und es legt das Modell nahe, dass yT,l größere Werte annimmt, wenn die Clustergröße Nl groß ist. Diese Grundüberlegung liefert genau den Quotientenschätzer, wie wir ihn in Abschn. 3.2 kennengelernt haben. Das Modell ist dabei, dass YT,h annähernd proportional zu Nh ist, d.h. YT,h ≈ R Nh , mit R als Proportionalitätsfaktor gegeben durch M
R=
Nh M
YT,h
h=1 M
=
Yhi
h=1 i=1
N
= Y¯ .
Nh
h=1
Damit kann die Schätzung von Y¯ als Schätzung von R betrachtet werden. Wir können also den in Abschn. 3.2 eingeführten Quotientenschätzer nutzen und erhalten den Quotienten-Cluster-Schätzer m
= Y¯ C L ,Q S = R
yT,l
l=1 m
= y¯ .
(5.20)
Nl
l=1
Der Schätzer vereinfacht sich zum einfachen arithmetischen Mittel der gezogenen Elemente der Stichprobe, welches somit auch als Schätzer für die ClusterStichprobe geeignet ist. Da alle Elemente bei der einfachen Cluster-Stichprobe die
5.2
Cluster-Stichprobe
169
gleiche Auswahlwahrscheinlichkeit haben, ist dies auch plausibel. Allerdings ist der Quotientenschätzer nicht erwartungstreu, wie schon in Abschn. 3.2 gezeigt wurde. Die Verzerrung ist jedoch vernachlässigbar, sofern die Anzahl der gezogenen Cluster groß ist. Als Varianz ergibt sich näherungsweise M 2 1 M −m 1 Var Y¯ C L ,Q S ≈ 2 YT,h − Nh Y¯ . N¯ M − 1 m M h=1
2 Aus der Formel erkennt man, dass die Varianz von den Termen YT,h − Nh Y¯ = 2 Nh2 Y¯h − Y¯ abhängt. Damit ist für den Quotienten-Cluster-Schätzer die Varianz der Clustermittelwerte und nicht wie beim einfachen Cluster-Schätzer die Varianz der Clustersummen von Bedeutung. Man hat somit den Effekt ungleicher Clustergrößen bereinigt. Die Varianz kann geschätzt werden durch m 2
1 M −m 1 ¯ C L ,Q S . Var Y¯ C L ,Q S = yT,l − Nl Y M m (m − 1) N¯ 2
(5.21)
l=1
Cluster-Stichprobe bei ungleicher Cluster-Größe Gegeben sei eine einfache Zufallsstichprobe der Clustersummen yT,l , l = 1, . . . , m, berechnet aus m Clustern der Größe Nl , l = 1, . . . , m. Der Cluster-Schätzer unter Ausnutzung der Clustergröße ist gegeben durch m
Y¯ C L ,Q S =
yT,l
l=1 m
. Nl
l=1
Die Varianz kann geschätzt werden durch m 2
1 M −m 1 yT,l − Nl Y¯ C L ,Q S , Var Y¯ C L ,Q S = 2 M m (m − 1) N¯ l=1 mit N¯ = N /M.
Falls N¯ unbekannt ist, wird es durch den Stichprobenwert 1
Nl m l=1 ersetzt. m
n¯ =
170
5 Gruppierung der Population
Bei der Schätzung in Formel (5.20) sind keine Informationen zu der Clustergröße in der Grundgesamtheit erforderlich. Allerdings wird zur Varianzschätzung in Formel (5.21) die durchschnittliche Clustergröße N¯ benötigt. In der Praxis kann es aber vorkommen, dass diese nicht bekannt ist, beispielsweise wenn man bei einer Erhebung von Schulklassen zwar die Anzahl der Klassen kennt, aber nicht die Gesamtzahl der Schüler. In diesem Fall wird dann in der Formel (5.21) die durchschnittliche Clustergröße in der Grundgesamtheit durch die entsprechende Schät m Nl aus der Stichprobe ersetzt. zung n¯ = m1 l=1
5.2.3 Designbasierter Cluster-Schätzer Mit dem oben behandelten Quotienten-Cluster-Schätzer haben wir die Sekundärinformation der Clustergröße modellbasiert genutzt, um den einfachen Quotientenschätzer zu verbessern, sprich seine Varianz zu verkleinern. Ebenso können wir die Sekundärinformation designbasiert nutzen. Da bei der Cluster-Stichprobe die Merkmalssumme wesentlich in die Schätzung eingeht, orientiert man sich bei der Wahl eines alternativen Designs an ihr. Als Hilfsmerkmal dafür ist wiederum die Clustergröße geeignet. Wir wählen also ein Design, bei dem die Auswahlwahrscheinlichkeiten proportional zur Clustergröße sind: πl = m
Nl . N
Voraussetzung ist hierbei, dass die Clustergröße je Cluster bekannt ist. Außerdem gehen wir davon aus, dass πl < 1 für alle Cluster gilt. Durch die Stichprobe erhält man die Beobachtungen yT,1 , . . . , yT,m , also die Clustertotalen der gezogenen Cluster. Diese werden dem Horvitz-Thompson Ansatz folgend genutzt und man erhält den designbasierten Cluster-Schätzer m m m M 1 yT,l 1 yT,l 1
¯ Y C L ,P P S = = = y¯l . N M πl m Nl m l=1
l=1
l=1
Das Design ist in diesem Fall eine größenproportionale Ziehung (PPSStichprobe, probabilities proportional to size). Zur Berechnung der Varianz des Schätzers benötigt man die paarweisen Auswahlwahrscheinlichkeiten πl,k = Wahrscheinlichkeit, dass Cluster l und k gezogen werden. In direkter Anwendung des Horvitz-Thompson-Schätzers folgt dann, dass die Varianz geschätzt werden kann durch m m
m
1 − πl
π − π π 1 l,k l k 2 Var Y¯ C L ,P P S = 2 yT,l + yT,l yT,k . 2 πl,k πl πk N π l l=1 l=1 k=1 l=k
5.2
Cluster-Stichprobe
171
Des Weiteren können die modifizierten Varianzschätzer zum Einsatz kommen, wie sie Abschn. 4.1 vorgestellt worden sind. Beispiel 5.10: In einem Bundesland soll das Durchschnittseinkommen der Bürger mit Hilfe einer Stichprobe geschätzt werden, wobei das Steueraufkommen bei den Finanzämtern als Approximation für das Einkommen der Bürger herangezogen werden soll. Dazu soll eine Cluster-Stichprobe verwendet werden, bei der die einzelnen Kreise und Bezirke des Bundeslandes die Cluster bilden. Eine einfache Cluster-Stichprobe ordnet jedem Kreis als Cluster die gleiche Wahrscheinlichkeit zu, gezogen zu werden. Zur Berechnung des Cluster-Schätzers wird auf Nl yli zurückgegriffen. Das bedeutet aber, dass große Kreise und BeziryT,l = i=1 M YT,h leisten als kleine ke einen größeren Beitrag zur Gesamtsumme YT,· = h=1 Kreise. Anders ausgedrückt, große Bezirke sind informativer, was inhaltlich nachvollziehbar ist. Ein bevölkerungsreicher Bereich liefert mehr Information als ein spärlich bewohnter Landkreis. Basierend auf den Ideen des Horvitz-ThompsonSchätzers bietet es sich daher an, größere, sprich bevölkerungsreiche Bezirke mit einer größeren Wahrscheinlichkeit zu ziehen als kleinere. Das ist realisierbar mit einer größenproportionalen Cluster-Stichprobe.
Cluster-Stichprobe bei größenproportionaler Ziehung
Gegeben sei eine größenproportionale Ziehung der Cluster mit den Auswahlwahrscheinlichkeiten πl = m NNl und den paarweisen Auswahlwahrscheinlichkeiten πl,k . Damit ist der Cluster-Schätzer gegeben durch m 1
y¯l , Y¯ C L ,P P S = m l=1
mit y¯l =
Nl
i=1 yli /Nl .
Die Varianz kann geschätzt werden durch m m
m
1 − πl
π − π π 1 l,k l k 2 Var Y¯ C L ,P P S = 2 yT,l + yT,l yT,k . πl,k πl πk N πl2 l=1
l=1 k=1 l=k
172
5 Gruppierung der Population
5.2.4 Cluster-Stichprobe und systematische Stichprobe Wie wir anfangs schon erwähnt hatten, handelt es sich bei der systematischen Stichprobe genau genommen um eine Cluster-Stichprobe vom Umfang m = 1. Die Cluster bestehen jeweils aus den Elementen {Y j+(k−1) p | k ∈ N} , wobei p = N /n als ganzzahlig angenommen wird und j aus einer Gleichverteilung der Werte 1 bis p zufällig gezogen wird. Als Stichprobe ergibt sich somit Y j , Y j+ p , . . . , Y j+(n−1) p . Es ist zwar nicht möglich, die Varianzschätzung nach der Theorie der Cluster-Stichprobe durchzuführen, aber die Effizienzüberlegungen gelten auch für die systematische Stichprobe. Im Wesentlichen ist die systematische Stichprobe besonders geeignet, wenn die interne Clustervarianz hoch ist. Wenn die Anordnung keine Periodizitäten aufweist, sollte dies meist der Fall sein.
5.3 Beispiel 5.3.1 Geschichtete Stichprobe Noch bevor im Jahr 2008 in gesamt Nordrhein-Westfalen das Rauchen in öffentlichen Gebäuden generell verboten wurde, hat die Universität Bielefeld im Frühjahr 2007 ein Rauchverbot ausgesprochen, weil eine Umfrage ergeben hat, dass sich 67,5% der Uni-Nutzer eine rauchfreie Universität wünschen. Als Uni-Nutzer wurden drei Gruppen (Schichten) definiert, nämlich Studierende, wissenschaftliches Personal und nicht-wissenschaftliches Personal. Als Populationsliste lag eine Datei mit Email-Adressen mit N = 18 211 Einträgen vor, die in den drei Schichten folgende Anzahl von Nutzern umfasste. • N1 = 15 201 Studierende • N2 = 2 003 wissenschaftliches Personal • N3 = 1 007 nicht-wissenschaftliches Personal Wir benutzen die Email-Daten im Folgenden als Stichprobenliste und ignorieren Individuen, die ihre Emailadresse nicht hinterlegt haben. Der Stichprobenumfang wurde basierend auf der gewünschten Genauigkeit der Studie auf 700 berechnet. Zur Ausgleichung von Fehlläufen beim Emailversand und Personen, die nicht an der Umfrage teilnehmen, wurde der realisierte Stichprobenumfang erhöht und auf 1 150 festgesetzt. Die Stichprobe wurde ungefähr proportional auf die Schichten aufgeteilt, so dass sich ein geplanter Stichprobenumfang von 900, 150 und 110 je Schicht ergab. Den ausgewählten Personen wurde online ein Fragebogen mit personifizierten Transaktionsnummern (TAN) per Email zugestellt, wobei die TAN garantierte, dass jedes angeschriebene Individuum nur einen Fragebogen online absenden
5.3
Beispiel
173
konnte. Die letztendlichen Rücklaufquoten und damit realisierten Stichprobenumfänge lagen bei • n 1 = 401 Studierende • n 2 = 65 wissenschaftliches Personal • n 3 = 58 nicht-wissenschaftliches Personal Das Gesamtergebnis in Bezug auf die gestellte Frage des Rauchverbots ergab sich wie folgt.
Studierende Wissenschaftliches Personal Nicht-wissenschaftliches Personal
Anteil der Befragten für Rauchverbot
Stichprobenumfang
68,1% 69,2% 55,2%
401 65 58
Damit ergibt sich der geschichtete Schätzer für den Anteil der Uni-Nutzer, die ein Rauchverbot präferieren, gemäß 15 201 2 003 1 007 + 69, 2% · + 55, 2% · = 67, 5%. Y¯ G S = 68, 1% · 18 211 18 211 18 211 Die Varianz des Schätzers ergibt sich nach Formel (5.3), wobei, basierend auf dem binären Merkmal 1 wenn i-tes Individum in h-ter Schicht für Rauchverbot Yhi = 0 sonst Sh2 durch Sh2 = Y¯h (1 − Y¯h ) berechnet werden kann. Daraus ergibt sich das 99%Konfidenzintervall für den Anteil der Rauchverbotbefürworter zu [62, 73%]. Die Auswertung der Studie kann nun in verschiedener Weise hinterfragt werden. Die geringe Rücklaufquote beispielsweise ist durchaus problematisch, da von den 900 angeschriebenen Studierenden nur 401 (also 44,6%) geantwortet haben. Dies gilt insbesondere dann, wenn die Bereitschaft zum Antworten mit dem Zielmerkmal (Frage) zusammenhängt. Es ist denkbar, dass die Antwortbereitschaft und die Beantwortung der Frage vom Rauchverhalten des Befragten abhängt. Ein Raucher mag dazu neigen, ein Rauchverbot weniger attraktiv zu finden als ein Nichtraucher. Deshalb wurde in dem Fragebogen zusätzlich die Frage gestellt, ob der/die Befragte raucht. Als Ergebnis erhielt man, dass 17,3% der Individuen der Stichprobe Raucher waren, 23% waren Ex- bzw. Gelegenheitsraucher und 59,7% Nichtraucher. Will man diese Daten zur Korrektur des Schätzers im Sinne einer a posteriori Schichtung nutzen, so benötigt man die relativen Schichtgrößen von Rauchern/Nichtrauchern an der Universität Bielefeld. Diese sind nicht bekannt, weshalb eine exakte a posteriori Schichtung nicht möglich ist.
174
5 Gruppierung der Population
Basierend auf dem Mikrozensus 2005 sind jedoch Daten des statistischen Bundesamtes verfügbar, wonach 54% der Bevölkerung über 15 Jahre Nichtraucher, 19% Ex- bzw. Gelegenheitsraucher und 27% Raucher sind (Statistisches Bundesamt Deutschland 2006). Dies legt nahe, dass die Raucher und Ex- und Gelegenheitsraucher in der Stichprobe unterrepräsentiert sind. Auch wenn eine Korrektur basierend auf den Daten des statistischen Bundesamtes ungenau erscheint, da sich die beobachtete Raucherquote bei wissenschaftlichem und nicht-wissenschaftlichem Personal deutlich unterscheidet, wollen wir dennoch einen Schätzer ausrechnen. Berücksichtigt man, dass die Raucher (inklusive Ex- und Gelegenheitsraucher) als Gruppe zu 42,9% für ein Rauchverbot und die Nichtraucher zu 82,5% für ein Rauchverbot sind, so ergibt sich nach dem Prinzip der nachträglichen Schichtung ein Schätzer für den Anteil der Rauchverbotbefürworter gemäß Y¯ G S = 82, 5% · 0, 54 + 42, 9% · (0, 27 + 0, 19) = 64, 3%. Somit scheint das ursprüngliche Ergebnis von 67.5% eher Nichtraucher freundlich, aber selbst unter Berücksichtigung der (aus genannten Gründen sehr groben) Korrektur wird der Anteil der Rauchverbotsbefürwortet auf über 60% geschätzt. Basierend auf diesen Überlegungen wurde ein sofortiges Rauchverbot an der Universität Bielefeld umgesetzt.
5.3.2 Cluster-Stichprobe Im Rahmen des Programms „Jedem Kind sein Instrument“ (www.jedemkind.de) soll jedem Grundschulkind des Ruhrgebiets die Möglichkeit offen stehen ein Musikinstrument zu erlernen. Im Schuljahr 2009/10 sollen 27 700 Erstklässler in das Programm aufgenommen werden. Im Rahmen eines Forschungsprojektes soll der Erfolg und die Akzeptanz des Projektes beurteilt werden. Hierzu soll eine Stichprobe gezogen werden und es sollen Eltern von Kindern im Programm einen Fragebogen beantworten. Da eine Liste der Eltern rein aus Datenschutz rechtlichen Gründen nicht vorliegt, wird zur Stichprobenziehung auf eine Cluster-Stichprobe zurückgegriffen. Statt die Eltern als Stichprobenliste zu betrachten, wird eine Stichprobenliste aus den beteiligten Schulen gezogen. Im Jahr 2009/10 sind dies 522 im Programm kooperierende Grundschulen. Die Grundschulen selbst werden anschließend per Vollerhebung erfasst, sprich alle Eltern der ausgewählten Schulen erhalten einen Fragebogen zur Beteiligung an der Stichprobe. Die Ziehung der Schulen kann daher als einfache Zufallsstichprobe vollzogen werden. Genauere Ergebnisse können erzielt werden, wenn man berücksichtigt, dass verschiedene Grundschulen eine recht unterschiedliche Zusammensetzung und Sozialstruktur von Schülern haben. Als Information je Schule kann die Übergangsquote zum Gymnasium genutzt werden, das heißt der Anteil der Schüler, die nach der Grundschule zum Gymnasium bzw. zu einer äquivalenten Schule gehen. Diese Quote kann genutzt werden, um Schichten zu bilden und die Schulen, je nach Quote, in die Schichten einzuteilen und
5.5
Numerische Umsetzung
175
sodann die Schulen (Cluster) als geschichtete Stichprobe zu ziehen. Alternativ kann die geographische Lage der Schulen genutzt werden, oder die Größe der Schule, wie in Abschn. 5.2 dargestellt.
5.4 Literatur Die geschichtete Stichprobe und die Cluster-Stichprobe werden in fast allen einschlägigen Lehrbüchern ausführlich behandelt, siehe z.B. Levy und Lemeshow (1999) oder Lohr (1999). Weitere theoretische Aspekte und Details insbesondere zu design-basierten Clusterverfahren finden sich in Särndal, Swenson und Wretman (1992). Neuere Aspekte wie z.B. die sogenannte adaptive Cluster-Stichprobe (Adaptive Cluster Sampling) werden von Thompson (2002) diskutiert. Hierbei geht es um räumliche Stichproben, bei denen z.B. nach bestimmten Schadstoffen in einer Fläche gesucht wird. Zuerst wird eine einfache Zufallsstichprobe gezogen und falls in einem Planquadrat eine hohe Konzentration gefunden wird, wird ein Cluster rund um diesen Punkt gezogen. Da hier die Ziehung weiterer Einheiten von dem Ergebnis vorheriger Ziehungen abhängt, spricht man von adaptiven Stichprobenverfahren. Diese erfordern spezielle Strategien der Auswertung, die von Thompson (2002) ausführlich dargestellt werden.
5.5 Numerische Umsetzung Für den geschichteten und den Cluster-Schätzer empfehlen wir die Verwendung des Paketes survey in R, siehe auch Lumley (2010). Nach Installation und Laden des Pakets sind die nachfolgend beschriebenen Programme nutzbar und erlauben damit die praktische Umsetzung der vorgestellten designbasierten Stichprobenverfahren. Das Paket wird mit > library(survey) geladen. Dieses Paket ist sehr allgemein für komplexe designbasierte Stichproben konzipiert. Es muss zuerst das Stichprobendesign festgelegt werden. Anschließend kann der Mittelwert geschätzt werden. Das Stichprobendesign kann mit der Funktion svydesign(·) festgelegt werden, wobei im Folgenden nur auf die in diesem Buch weiter verwendeten Optionen eingegangen wird. > svydesign(ids, probs=NULL, strata = NULL, + fpc=NULL, data = NULL, weights=NULL, ...)
176
# # # # # # # # # # # #
ids
probs strata fpc weights data
5 Gruppierung der Population
Formula or data frame specifying cluster ids from largest level to smallest level, ~0 or ~1 is a formula for no clusters. Formula or data frame specifying cluster sampling probabilities Formula or vector specifying strata, use NULL for no strata Finite population correction Formula or vector specifying sampling weights as an alternative to prob Data frame to look up variables in the formula arguments
Mit ids wird eine Identifizierungs (ID)-Variable definiert. Bei Cluster-Schätzern muss an dieser Stelle eine Variable übergeben werden, welche die eindeutigen Clusternummern angibt. Bei geschichteten Stichproben gibt die ID-Variable die Identifikationsnummern der gezogenen Individuen an. Mit probs wird die Ziehungswahrscheinlichkeit übergeben. Alternativ dazu können Gewichte mit weights übergeben werden. Mit strata wird die Schichtnummer bei der geschichteten Stichprobe übergeben. Mit fpc kann eine Variable angegeben werden, die für die Korrektur für endliche Populationen verwendet wird. Mit data wird der zu verwendende Datensatz definiert. Um den Mittelwert basierend auf dem vorher festgelegten Stichprobendesign zu schätzen, wird die Funktion svymean(·) verwendet. Auch hier wird nur auf die im Weiteren verwendeten Optionen eingegangen. > svymean(x, design, ...) # x # design
A formula, vector or matrix survey.design object
Mit x wird ein Formelobjekt übergeben, das im einfachsten Fall die Form ∼y hat. Details hierzu werden nachfolgend gegeben. Mit design wird das vorher definierte Stichprobendesign übergeben. Im Folgenden werden beide Schritte nochmal getrennt für geschichtete Stichproben und Cluster-Stichproben gezeigt.
5.5.1 Geschichtete Stichprobe Zur Verdeutlichung der Benutzung der Routinen werden wir mit einem einfachen Beispiel arbeiten. Nehmen wir dazu an, eine Population ist in zwei Schichten
5.5
Numerische Umsetzung
177
geteilt, aus denen eine geschichtete Stichprobe gezogen worden ist. Wir stellen den Datensatz resultierend aus der Stichprobe wie folgt auf:
Tabelle 5.1 Datensatz resultierend aus einer geschichteten Stichprobe stratum
id
y
1
1
y11
.. .
.. .
.. .
1 2
n1 n1 + 1
.. .
y1n1 y21
.. .
n1 n2
.. .
N1 N2
.. .
2
n
y2n1
n2
N2
.. .
.. .
.. .
nh
Nh
n1
N1
Dabei ist id die zum Individuum gehörige Identifizierung, die der Einfachheit halber von 1 bis n 1 und fortlaufend von n 1 + 1 bis n durchnummeriert werden kann. Sie gibt an, dass jede Zeile im Datensatz ein neues Element der Stichprobe beinhaltet. Der Prozess der zufälligen Auswahl ist somit über id gelaufen. Die Variable stratum gibt an, zu welcher Schicht die entsprechende Beobachtung zählt, wohingegen nh und Nh die Stichprobengröße je Schicht beziehungsweise die Schichtgröße selbst angeben. In verschiedenen Anwendungen ist die Populationsgröße der einzelnen Schichten nicht bekannt. Beispielsweise muss in einer großen Population nicht bekannt sein, wie viele Frauen oder Männer als Schichten betrachtet in einer Population sind. Sofern jedoch die relative Schichtengröße Nh /N bekannt ist, kann der geschichtete Schätzer zum Einsatz kommen, allerdings unter Vernachlässigung des Korrekturfaktors für endliche Populationen. In diesem Fall bedienen wir uns eines kleinen Tricks, um die bereitgestellten Funktionen aus dem survey Paket anwenden zu können. Wir arbeiten in diesem Fall mit einem fiktiven Populationsumfang in den einzelnen Schichten, so dass n h << Nh , das heißt n h ist ein vernachlässigbarer Bruchteil von Nh . Dies erreicht man, indem die bekannten relativen Schichtgrößen Nh /N mit einem hinreichend großen Faktor multipliziert werden, beispielsweise Nh /N · 1e8. Der Datensatz hat in diesem Fall die Struktur Tabelle 5.2 Datensatz resultierend aus einer geschichteten Stichprobe bei unbekannter Schichtgröße stratum
id
y
nh
Nh
1
1
y11
n1
N1 /N · 1e8
.. .
.. .
.. .
.. .
.. .
1 2
.. .
n1 n1 + 1
.. .
y1n1 y21
.. .
n1 n2
.. .
N1 /N · 1e8 N2 /N · 1e8
2
n
y2n1
n2
N2 /N · 1e8
.. .
178
5 Gruppierung der Population
Wie wir oben hergeleitet haben, ist der geschichtete Schätzer auch über den Horvitz-Thompson Schätzer motivierbar. Dazu ist es nötig die Auswahlwahrscheinlichkeiten anzugeben. Im Fall einer geschichteten Stichprobe ist diese n h /Nh . Die inverse Auswahlwahrscheinlichkeit, wie sie in der Formel des Horvitz-Thompson Schätzers auftaucht, ist somit Nh /n h . Mit Kenntnis dieser Größe kann der geschichtete Schätzer berechnet werden. Anstatt im Datensatz der Stichprobe explizit die Schichtgröße Nh und die Stichprobengröße n h aufzuführen kann auch direkt die inverse Auswahlwahrscheinlichkeit als Gewicht angegeben werden. Der Datensatz muss in diesem Fall wie in Tabelle 5.3 gezeigt angegeben werden, wobei die Gewichte (weights) durch wh = Nh /n h gegeben sind. Tabelle 5.3 Datensatz einer geschichteten Stichprobe gewichtet mit inversen Auswahlwahrscheinlichkeiten stratum
id
y
weight
1
1
y11
w1
.. .
.. .
.. .
1 2
n1 n1 + 1
y1n1 y21
w1 w2
2
n
y2n1
w2
.. .
.. .
.. .
.. . .. .
Der Datensatz kann nun wie gehabt eingelesen werden. Exemplarisch arbeiten wir mit folgenden Daten > data
1 2 3 4 5 6 7 8
stratum id weight nh Nh y 1 1 3 5 15 23 1 2 3 5 15 25 1 3 3 5 15 27 1 4 3 5 15 21 1 5 3 5 15 22 2 6 4 3 12 77 2 7 4 3 12 72 2 8 4 3 12 74
Vor der Berechnung eines Schätzers muss nun unter R das angewandte Stichprobendesign definiert werden. Hierzu benutzt man die bereitgestellte Funktion svydesign(·). Unabhängig von der gewählten Representation des Datensatzes, also gemäß Tabelle 5.1, 5.2 oder 5.3 wird das Design einer geschichteten Stichprobe bestimmt durch > library(survey) > design <- svydesign(ids=~id, strata=~stratum, data=data)
5.5
Numerische Umsetzung
179
Der Befehl library(survey) bindet, wie oben schon erwähnt, das entsprechende R-Paket ein, mit dem Befehl svydesign definiert man das Design der gezogenen Stichprobe. Dabei werden die Schichten mit strata=∼stratum definiert, wobei stratum der entsprechende Variablenname im Datensatz ist, der die Schichten angibt und id der Variablenname, der die Indivuduen angibt. Der obige Aufruf wird begleitet von der Warnmeldung > design <- svydesign(ids=~id, strata=~stratum, data=data) Warning message: In svydesign.default(ids = ~id, strata = ~stratum, data = data) : No weights or probabilities supplied, assuming equal probability
Die Warnmeldung besagt, dass weder Auswahlwahrscheinlichkeiten noch Schichtgrößen angegeben wurden. Das entsprechende Design der Stichprobe ist nun dem Objekt design zugewiesen. Wir können den Inhalt der Definition mit der in R zur Verfügung gestellten Routine summary(·) anzeigen lassen. Angewendet auf des Objekt design ergibt sich damit > summary(design) Stratified Independent Sampling design (with replacement) svydesign(ids = ~id, strata = ~stratum, data = data) Probabilities: Min. 1st Qu. Median Mean 3rd Qu. Max. 1 1 1 1 1 1 Stratum Sizes: 1 2 obs 5 3 design.PSU 5 3 actual.PSU 5 3 Data variables: [1] "stratum" "id" "weight" "nh" "Nh" "y" Mit Aufruf der summary(·) Funktion werden unter Stratum Sizes die Größe der Schichten in der Stichprobe anzugeben. Von Interesse soll für uns hier vorerst nur die explizite Beobachtungszahl obs sein. Die Definition von design liefert keine Angabe darüber, welche Auswahlsätze in den einzelnen Schichten verfolgt wurden. Zur Berechnung des geschichteten Schätzers ist jedoch die Kenntnis von Nh /N notwendig (siehe Formel 5.1). Geht man jedoch von einer proportionalen Aufteilung auf die Schichten aus, so sind n h /n und Nh /N (approximativ) gleich. Die Standardeinstellung bei der Funktion svydesign(·) ist nun, dass ohne Angabe der Auswahlsätze von proportionaler Aufteilung ausgegangen wird und Nh /N = n h /n
180
5 Gruppierung der Population
gesetzt wird. Dies ist die Information, die in oben aufgelisteter Warnmeldung explizit gegeben wird. Der Schätzer der geschichteten Stichprobe (5.1) wird somit berechnet gemäß Y¯ G S =
M
nh h=1
n
y¯h
Diesen Schätzer erhält man numerisch durch den Befehl > svymean(~y, design) mean SE y 42.625 0.866 Für die Varianzberechnung wird ebenfalls Nh /N durch n h /n ersetzt und naheliegenderweise, da die Schichtgrößen nicht angegeben wurden, wird der Korrekturfaktor für endliche Populationen vernachlässigt. Wir wollen nun berücksichtigen, dass in den einzelnen Schichten unterschiedliche Auswahlsätze existieren. Hierzu bieten sich je nach Datensatz gemäß Tabellen 5.1, 5.2 oder 5.3 unterschiedliche Möglichkeiten. Die Funktion svydesign(·) erlaubt es, explizite Gewichte anzugeben. Dies sind, einfach gesprochen, die Reziproken der Auswahlwahrscheinlichkeiten. Hierzu müssen wir das entsprechende Stichprobendesign definieren. Für die Datensätze der Tabellen 5.1 oder 5.2 geschieht dies durch > design2 <- svydesign(ids=~id, strata=~stratum, + weights=~I(Nh/nh), data=data) oder alternativ > design2 <- svydesign(ids=~id, strata=~stratum, prob=~I(nh/Nh), + data=data) Beide Angaben sind inhaltlich und technisch äquivalent. Im ersten Fall geben wir ein Gewicht an, im zweiten Fall geben wir direkt die Auswahlwahrscheinlichkeiten an. Die Bedeutung der Notation I(·) ist in R aus technischen Gründen nötig. Es besagt, dass die im Argument von I(·) stehende Funktion erst berechnet wird bevor die Größe weiter verarbeitet wird. Liegen die Gewichte im Datensatz explizit vor, wie in der Form gemäß Tabelle 5.3, so erfolgt die Definition des Stichprobendesign über > design2 <- svydesign(ids=~id, strata=~stratum, + weights=~weight, data=data)
5.5
Numerische Umsetzung
181
Das Design kann nun wieder mit der Funktion summary(·) angezeigt werden. Wir zeigen hier exemplarisch den ersten Fall der obigen drei Beispiele. > summary(design2) Stratified Independent Sampling design (with replacement) svydesign(ids = ~id, strata = ~stratum, weights = ~weight, data = data) Probabilities: Min. 1st Qu. Median Mean 3rd Qu. Max. 0.2500 0.2500 0.3333 0.3021 0.3333 0.3333 Stratum Sizes: 1 2 obs 5 3 design.PSU 5 3 actual.PSU 5 3 Data variables: [1] "stratum" "id" "weight" "nh" "Nh" "y" Den Schätzer der geschichteten Stichprobe (5.1) erhalten wir durch den Befehl svymean(∼y,design2). > svymean(~y, design2) mean SE y 46.148 0.8804 Die Bedeutung von weights oder alternativ prob liefert den Horvitz-Thompson Schätzer. Bei der Berechnung der Varianz wird der Korrekturfaktor für endliche Populationen vernachlässigt. Dies ist akzeptabel, wenn die Population groß ist oder wenn die Schichtgrößen unbekannt sind und nur die relativen Schichtengrößen Nl /N verfügbar sind. Soll hingegen der Korrekturfaktor explizit bei der Berechnung der Varianz berücksichtigt werden, so müssen wir ein entsprechendes Stichprobendesign definieren. Nehmen wir dazu an, der Datensatz liegt in Form von Tabelle 5.1 vor (man beachte, dass für Datensätze der Form gemäß Tabelle 5.2 und 5.3 eine hinreichend große Population angenommen war, so dass die Benutzung einer Korrektur für keine Populationen nicht nötig ist). Wir definieren das Design der geschichteten Stichprobe nun durch > design3 <- svydesign(ids=~id, strata=~stratum, fpc=~Nh, + data=data) Mit fpc wird damit die „finite population correction“ definiert. In diesem Fall brauchen keine Gewichte angegeben werden, da diese bei Angabe der Schichtgröße
182
5 Gruppierung der Population
berechnet werden können. Der Befehl summary(·) zeigt die Komponenten des gewählten Stichprobendesigns. > summary(design3) Stratified Independent Sampling design svydesign(ids = ~id, strata = ~stratum, fpc = ~Nh, data = data) Probabilities: Min. 1st Qu. Median Mean 3rd Qu. Max. 0.2500 0.2500 0.3333 0.3021 0.3333 0.3333 Stratum Sizes: 1 2 obs 5 3 design.PSU 5 3 actual.PSU 5 3 Population stratum sizes (PSUs): 1 2 15 12 Data variables: [1] "stratum" "id" "weight" "nh" "Nh" "y" Der geschichtete Schätzer ist nun völlig analog zum bisherigen erhältlich durch den Befehl svymean(·). > svymean(~y,design3) mean SE y 46.148 0.7426 Im Vergleich mit dem Ergebnis bei design2 zeigt sich der gleiche Schätzwert, jedoch mit reduzierter Varianz beziehungsweise Standardabweichung. Dies spiegelt genau den Effekt der Korrektur für endliche Populationen wider.
5.5.2 Cluster-Stichprobe Erinnern wir uns, dass bei einer Cluster-Stichprobe die zufälligen Elemente in der Stichprobe ganze Cluster sind. Dies wird für die Berechnung der Varianz des Schätzers noch von Bedeutung sein und muss numerisch berücksichtigt werden. Nehmen wir aber zunächst folgendes Szenario für unsere Stichprobe an, um die Benutzung der Prozeduren im Paket survey zu verdeutlichen. In einer Population seien M Cluster, aus denen wir m Cluster gezogen haben. Die Clustergrößen Nh variieren und werden im Datensatz mit Nl bezeichnet. Je Cluster wird eine Vollerhebung durchgeführt, so dass die Stichprobengröße je Cluster nl = Nl beträgt. Die Struktur des Datensatzes ist in Tabelle 5.4 dargestellt.
5.5
Numerische Umsetzung
183
Dabei gibt die Variable Cluster die entsprechende Cluster-Nummer wieder, id bezeichnet die Identifikationsnummer eines Individuums innerhalb eines Clusters. Der Einfachheit halber können beide Größen fortlaufend nummeriert sein. Die Spalte y gibt die Beobachtungen wieder. Die Spalte M gibt die Anzahl der Cluster in der Population an. Diese Variable ist zur Berechnung des Korrekturfaktors für endliche Clusterpopulationen notwendig, wie wir nachfolgend sehen werden. Tabelle 5.4 Datensatz bei Erhebung einer Cluster-Stichprobe cluster
id
y
1
1
y11 .. . y1N1 .. . ym1 .. . ym Nm
.. .
1
.. .
.. . N1 .. .
m
1
.. .
m
.. . Nm
M M
.. .
M
.. .
M
.. .
M
Wir wollen die Anwendung nun konkret an folgendem Zahlenbeispiel zeigen. Eine Population sei in M = 10 Cluster zerlegt, von denen m = 3 gezogen wurden. Die Population habe N = 32 Elemente und somit im Mittel 3.2 Elemente je Cluster. Die durchschnittliche Clustergröße der Stichprobe beträgt n¯ = 3, wobei die gezogenen Cluster die Größen 4, 3 und 2 aufweisen. Der Datensatz nimmt somit die folgende Form an: > data
1 2 3 4 5 6 7 8 9
cluster id y M 1 1 23 10 1 2 24 10 1 3 33 10 1 4 77 10 2 1 25 10 2 2 35 10 2 3 74 10 3 1 27 10 3 2 72 10
Zunächst wollen wir einen einfachen Cluster-Schätzer berechnen. Hierzu müssen wir zunächst das Design entsprechend definieren. Dies geschieht durch den Befehl surveydesign(·).
184
5 Gruppierung der Population
> design4 <- svydesign(ids = ~cluster, data = data, fpc = ~M) > summary(design4) 1 - level Cluster Sampling design With (3) clusters. svydesign(ids = ~cluster, data = data, fpc = ~M) Probabilities: Min. 1st Qu. Median Mean 3rd Qu. Max. 0.3 0.3 0.3 0.3 0.3 0.3 Population size (PSUs): 10 Data variables: [1] "cluster" "id" "y" "M"
Wird das Argument fpc=∼M nicht gegeben, so werden die Schätzer ohne Korrekturfaktor für endliche Populationen berechnet, das heißt in der Varianzformel (5.18) wird (M − m)/M durch den Wert 1 ersetzt. Die Berechnung eines einfachen Cluster-Schätzers mit Hilfe der in survey bereitgestellten Routinen ist etwas mühselig, da die Funktion svymean(·) einen modellbasierten Ansatz verfolgt. Beachtet man jedoch, dass der einfache ClusterSchätzer sich aus dem arithmetischen Mittel der Clustertotalen ergibt, siehe (5.16), so liegt es nahe, den Schätzer über die Totale zu berechnen. Wir schätzen somit M Nh YT = h=1 i=1 Yhi . Dies kann mit Hilfe der Funktion svytotal(·) geschehen, wobei wir nur auf die im Folgenden verwendeten Optionen weiter eingehen werden. > svytotal(x, design, ...) # x # design
A formula, vector or matrix survey.design object
Mit x wird ein Formelobjekt, ein Vektor oder eine Matrix und durch design das vorher definierte Stichprobendesign übergeben. Durch die Eigenschaft Y¯ = N Y¯ ¯ bzw. Y = YT /N ergeben sich Schätzer und Varianz leicht, indem der resultierende Schätzwert und die Standardabweichung für die Totale durch N geteilt wird. Alternativ kann dies numerisch durch einen kleinen Trick geschehen, indem wir alle beobachteten Werte von Y durch N teilen, was wir im Folgenden mit Y˜hi = Yhi /N bezeichnen. Man beachte, dass Y¯ = YT /N =
M
h=1
YT,h /N =
Nh M
h=1 i=1
Yhi /N =
Nh M
Y˜hi
h=1 i=1
mit Y˜hi = Yhi /N . Das bedeutet, dass Y¯ = Y˜T , also das arithmetische Mittel Y¯ ist gleich der Totalen der Y˜hi . Somit gilt es Y˜hi zu bestimmen und die Totale von Y˜hi
5.5
Numerische Umsetzung
185
zu schätzen. Der zugehörige Schätzer ist dann äquivalent zum einfachen ClusterT /N , was durch die Schätzer. Für das Zahlenbeispiel erhalten wir somit Y¯ Cl = Y folgenden Befehle in R realisierbar ist. > > > >
N <- 32 data$y.tilde <- data$y/N design4 <- svydesign(ids=~cluster, data=data, fpc=~M) svytotal(~y.tilde, design=design4)
total SE y.tilde 40.625 4.4087 Man beachte, dass wir das Stichprobendesign design4 nochmals definieren müssen, weil in dem Datensatz eine neue Variable, nämlich y.tilde erzeugt worden ist. Als nächstes wollen wir zeigen, wie ein modellbasierter Cluster-Schätzer gemäß Formel (5.20) berechnet wird. Der Schätzer ist mit Hilfe der vorher schon benutzten Funktion svymean(·) berechenbar, jetzt allerdings angewendet auf das Clusterdesign design4. > svymean(~y, design=design4) mean SE y 43.333 2.3743 Bei der Prozedur wird keine Angabe zur durchschnittlichen Clustergröße in der Grundgesamtheit benötigt, da diese bei der Varianzschätzung mit der geschätzten durchschnittlichen Clustergröße aus der Stichprobe arbeitet, siehe Kasten S. 169. Die Varianzschätzung notieren wir in diesem Fall als m 2
1 1 M −m Y¯ C L ,Q S . yT,l − Nl Var Y¯ C L ,Q S = 2 m m(m − 1) n¯
(5.22)
l=1
Ist die durchschnittliche Clustergröße in der Grundgesamtheit bekannt, so erhält man die Varianzschätzung (5.21) aus (5.22) durch n¯ 2 Y¯ C L ,Q S . Var Y¯ C L ,Q S = 2 Var N¯ Im konkreten Beispiel ist der oben errechnete Standardfehler von 2, 3743 zu ersetzen durch 2, 3743 · 3/3, 2 = 2, 225935. In allgemeiner Form können die nachfolgenden R Befehle für beliebige Clusterdesigns genutzt werden. Wir benutzen die Funktion SE(·), die den Standardfehler, also die Wurzel aus der Varianz, berechnet.
186
5 Gruppierung der Population
Dieser muss mit n/ ¯ N¯ multipliziert werden. Für beliebige Designs erhalten wir dies wie folgt. > design4 <- svydesign(ids=~cluster, data=data, fpc=~M) > cluster.vec <- design$cluster[,1] > print(cluster.vec) [1] 1 1 1 1 2 2 2 3 3 > n <- length(cluster.vec) > print(n) [1] 9 > m <- length(unique(cluster.vec)) > print(m) [1] 3 > n.quer <- n/m > print(n.quer) [1] 3 > N.quer <- 3.2 > cluster.schaetzer <- svymean(~y, design4=design) > SE(cluster.schaetzer) * n.quer/N.quer y 2.225935 Der Standardfehler verändert sich somit um den Faktor n/ ¯ N¯ . Abschließend wollen wir den designbasierten Cluster-Schätzer berechnen. Wie wir im vierten Kapitel gesehen haben, ist die numerische Umsetzung von PPSStichproben schwierig und gleiches trifft für den designbasierten Cluster-Schätzer zu. Wir verfolgen daher die Vereinfachung, dass wir statt des Horvitz-Thompson Schätzers den Hansen-Hurwitz Schätzer benutzen, sprich dass wir von einem Ziehungsprozess mit Zurücklegen ausgehen. Dies ist eine Vereinfachung, die numerisch große Erleichterung mit sich bringt. Wir gehen dabei von Inklusionswahrscheinlichkeiten πl = m Nl /N aus. Für unseren Beispieldatensatz mit N=32 Elementen ergeben sich die Auswahlwahrscheinlichkeiten zu 3 · (4/32, 3/32, 2/32) = (0, 3750; 0, 28125; 0, 1875). Diese werden in dem Datensatz mit der Variable weight zur Verfügung gestellt.
5.5
Numerische Umsetzung
187
Der Datensatz hat dann folgende Form: > data
1 2 3 4 5 6 7 8 9
cluster id y weight M 1 1 23 0.3750 10 1 2 24 0.3750 10 1 3 33 0.3750 10 1 4 77 0.3750 10 2 1 25 0.2813 10 2 2 35 0.2813 10 2 3 74 0.2813 10 3 1 27 0.1875 10 3 2 72 0.1875 10 Man definiert nun entsprechendes Stichprobendesign durch
> design5 <- svydesign(ids=~cluster, weights=~weight, data=data) Die Auswahlwahrscheinlichkeit ist nun im Design berücksichtigt und wir erhalten den designbasierten Cluster-Schätzer wie gehabt durch den Befehl surveymean(·). > svymean(~y, design=design5) mean SE y 42.345 2.5716 Wir vermerken nochmals, dass die Varianzberechnung auf der Annahme beruht, dass mit Zurücklegen gezogen wurde, was natürlich unzutreffend ist. Dennoch erscheint es sinnvoll diese Annahme zu treffen, um die Numerik zu vereinfachen, auch vor dem Hintergrund, dass die Varianz damit überschätzt wird, man aus statistischer Sicht im Mittel somit eine größere Streuung angibt als vorhanden ist. Für die Anwendung anderer Verfahren kann man die Daten so umstrukturieren, dass die Cluster als Untersuchungseinheiten und die Clustersumme als Merkmal betrachtet werden kann. Dann lassen sich im Prinzip die in Kap. 4 beschriebenen Verfahren anwenden. Wir wollen dies im Detail allerdings hier nicht weiter ausführen.
Kapitel 6
Mehrstufige und mehrphasige Verfahren
Bei großen Populationen sind die bisher besprochenen Verfahren der Stichprobenziehung oft schwer umzusetzen. Deshalb wollen wir sie im nachfolgenden Kapitel kombinieren und verallgemeinern. Dabei erfolgt die Zufallsauswahl typischerweise in mehreren Schritten. Von zweistufigen Verfahren spricht man, wenn zunächst eine Auswahl von Gruppen von Elementen (Clustern) erfolgt und in einem zweiten Schritt aus den ausgewählten Clustern gezogen wird. Beispiel 6.1: Bei einer Erhebung zum ökologischen Zustand des Waldes eines Bundeslandes wird die gesamte Waldfläche des Landes in einzelne Planquadrate aufgeteilt. Nun wäre es sehr aufwendig, eine einfache Zufallsstichprobe der Planquadrate zu ziehen. Die gezogenen Planquadrate können weit verstreut liegen, was den Aufwand der Erhebung vergrößert. Man kann den Aufwand jedoch verringern, indem man die Planquadrate zu Gruppen zusammenfasst, also z.B. alle Planquadrate, die dem gleichen (Land-)Kreis angehören, zu einer Gruppe zusammenfasst. Dann zieht man zunächst eine Zufallsstichpobe der Kreise. Anschließend wird aus den gezogenen Kreisen jeweils eine Zufallsstichprobe von Planquadraten gezogen. Im Gegensatz dazu wird bei zweiphasigen Verfahren zunächst eine große Zufallsstichprobe gezogen und aus dieser wird in der zweiten Phase eine (kleinere) Stichprobe gezogen.
6.1 Zweistufige Stichprobenverfahren Wir fassen die Elemente der Population zunächst zu Gruppen zusammen. Diese Gruppen werden auch als Einheiten erster Stufe (primary sampling units) bezeichnet. In dem obigem Beispiel sind dies die (Land-)Kreise. Es wird im ersten Schritt eine Zufallsstichprobe von Gruppen (Einheiten erster Stufe) gezogen. In der zweiten Stufe ziehen wir dann aus den ausgewählten Gruppen Stichproben der Merkmalsträger. Dieses Vorgehen spiegelt ein zweistufiges Verfahren wider. Die Zufallsauswahl
G. Kauermann, H. Küchenhoff, Stichproben, Springer-Lehrbuch, C Springer-Verlag Berlin Heidelberg 2011 DOI 10.1007/978-3-642-12318-4_6,
189
190
6 Mehrstufige und mehrphasige Verfahren
vollzieht sich somit in mehreren Stufen, wobei auf jeder Stufe aus einer Population eine Zufallsstichprobe gezogen wird. Die Population verfeinert sich mit jeder Stufe, wie es in Abb. 6.1 dargestellt ist.
Beispiel 6.2: Der Verband der Einzelhändler möchte eine Befragung seiner Mitglieder durchführen. Hierzu sollen m = 100 Betriebe ausgewählt und besucht werden. Sinnvollerweise bietet sich eine Schichtung in Ost- und Westdeutschland an, wobei die Stichprobe im Verhältnis 30/70 auf Ost und West aufgeteilt werden soll. Nach Ziehung der Stichprobe stellt sich heraus, dass die 100 gewählten Unternehmen quer über die ganze Republik verteilt sind, was zu einem hohen Reiseaufwand führt. Es stellt sich somit die Frage, ob kosteneffizient vorgegangen werden kann. Der Verband der Einzelhändler hält folgendes Vorgehen für praktikabel: Es sollen zunächst zufällig Land-, Stadt- oder Regierungskreise ausgewählt werden. Aus den ausgewählten Kreisen sollen dann zufällig einzelne Betriebe ausgewählt und befragt werden.
Die zweistufige Stichprobe ist eine Kombination aus Cluster- und geschichteter Stichprobe. Bei reinen Cluster-Stichproben wählt man zufällig einige Cluster aus und führt in diesen eine Vollerhebung durch. Im Gegensatz dazu zieht man bei einer geschichteten Stichprobe aus allen Schichten zufällig die Merkmalsträger. Zur statistischen Analyse führen wir die folgende Notation ein.
Abb. 6.1 Schematische Darstellung einer zweistufigen Stichprobenziehung. Die Gruppen entsprechen den Einheiten erster Stufe
6.1
Zweistufige Stichprobenverfahren
191
Zweistufige Stichprobenverfahren Größe
Bedeutung
In der Population: M Nh , h = 1, . . . , M M N = h=1 Nh Yhi , i = 1, . . . , Nh Y¯h = Y¯ =
Nh
1 Nh 1 N
YT,h = Y¯T,· =
i=1 Yhi M Nh h=1
i=1 Yhi
Nh 1 M
¯ i=1 Yhi = Nh Yh M h=1 YT,h
Anzahl der Gruppen in der Population Populationsumfang in der h-ten Gruppe Gesamt-Populationsumfang Variable oder Merkmal des i-ten Individuums in der h-ten Gruppe Mittelwert der Variablen in der h-ten Gruppe Mittelwert der Variablen in der Population Summe (Totale) in der h-ten Gruppe Mittelwert der Gruppensummen vorgesehener Stichprobenumfang in der hten Gruppe
nh
Sh2 =
1 Nh
2 = SGr
1 M
Nh
2 Yhi − Y¯h M ¯ 2 h=1 Y T,h − YT,· i=1
Varianz in der h-ten Gruppe Varianz der Gruppensummen
In der Stichprobe: m nl , l = 1, . . . , m n=
m
l=1 n l
Stichprobengröße in der ersten Stufe Stichprobenumfang in der l-ten gezogenen Gruppe Gesamt-Stichprobenumfang
Nl , l = 1, . . . , m
Populationsumfang in der l-ten gezogenen Gruppe
ylk , k = 1, . . . , n l
Variable oder Merkmal des k-ten gezogenen Individuums in der l-ten gezogenen Gruppe Mittelwert der gezogenen Werte in der l-ten gezogenen Gruppe
y¯l =
1 nl
n l
k=1 ylk
192
6 Mehrstufige und mehrphasige Verfahren
T,l = Nl y¯l Y ¯ = Y T,·
1 m
m
geschätzte Summe (Totale) in der l-ten gezogenen Gruppe Mittelwert der geschätzten Gruppensummen
l=1 YT,l
πlk
sl2 =
Auswahlwahrscheinlichkeit für das k-te gezogene Individuum in der l-ten gezogenen Gruppe 1 nl −1
nl
k=1 (ylk
− y¯l )2
Varianz der gezogenen Werte in der l-ten gezogenen Gruppe
6.1.1 Die einfache zweistufige Zufallsstichprobe Die Grundgesamtheit ist in M Gruppen unterteilt. Wir wählen nun zufällig m Gruppen aus und ziehen aus jeder dieser Gruppen n l Elemente, wobei l = 1, . . . , m. Die Auswahl kann auf beiden Stufen nach verschiedenen Stichprobendesigns erfolgen. Wir betrachten zunächst auf beiden Stufen das Design der einfachen Zufallsstichprobe. Gesucht ist ein Schätzer für den Mittelwert Y¯ der Population. Um diesen herzuleiten, müssen wir folgendes beachten. Auch wenn jede Gruppe die gleiche Wahrscheinlichkeit hat, gezogen zu werden und auch wenn jedes Element in einer gezogenen Gruppe die gleiche Wahrscheinlichkeit hat, in die Stichprobe zu gelangen, so werden die einzelnen Elemente der Population nicht mit gleicher Wahrscheinlichkeit gezogen. Wählt man beispielsweise aus jeder Gruppe gleich viele Merkmalsträger, so haben Elemente in kleinen Gruppen eine größere Wahrscheinlichkeit gezogen zu werden als Elemente in größeren Gruppen. Da die zweite Stufe der Ziehung nach der ersten erfolgt, ist die Berechnung der Auswahlwahrscheinlichkeiten als Produkt der einzelnen Wahrscheinlichkeiten leicht durchführbar. Insgesamt beträgt die Wahrscheinlichkeit für den i-ten Merkmalsträger in der h-ten Gruppe, in die Stichprobe zu gelangen πhi = P(die h-te Gruppe wird gezogen) · P(das i-te Element wird gezogen | die h-te Gruppe wurde gezogen) m nh = . M Nh Somit kann nach Horvitz-Thompson ein unverzerrter Schätzer für Y¯ berechnet werden nl m nl m ylk 1
1 M Nl
Y¯ 2S = = ylk (6.1) N πlk N m nl l=1 k=1
l=1
k=1
m m 1 M 1 M
Nl y¯l = YT,l . = N m N m l=1
l=1
6.1
Zweistufige Stichprobenverfahren
193
Der Schätzer kann auf folgende Weise interpretiert werden: Aus den Stichproben in den einzelnen Gruppen wird zunächst die Gesamtsumme (Totale) der Gruppe geschätzt. Die Schätzung ist nl
T,l = Nl 1 ylk . Y nl k=1
Dann wird analog zur Cluster-Stichprobe aus den geschätzten Gruppensummen m die Summe aus allen Elementen geschätzt. Diese ergibt sich zu M l=1 YT,l . Man m bezeichnet dieses Verfahren auch als zweistufige Hochrechnung. Den Schätzer Y¯ 2S erhält man nach Division durch den Populationsumfang N . Die Varianz ergibt sich dabei in folgender Form: M2 Var Y¯ 2S = 2 N
M 2 M − m SGr 1 2 Nh − n h Sh2 Nh + M −1 m mM Nh − 1 n h
.
(6.2)
h=1
Die Formel (6.2) kann nach dem Horvitz-Thompson-Theorem berechnet werden. Die Varianz besteht aus zwei Komponenten. Der erste Summand in Formel (6.2) 2 und der Stichprobengröße m hängt nur von der Varianz der Gruppensummen SGr der gezogenen Gruppen (Einheiten erster Stufe) ab. Beim zweiten Summanden in Formel (6.2) sind die Varianzen innerhalb der Gruppen Sh2 und die zugehörigen Stichprobenumfänge n h von Bedeutung. Damit entsprechen die beiden Summanden genau den beiden Stufen der Ziehung. Dies wird durch die folgende Herleitung von Formel (6.2) verdeutlicht. Herleitung: Um das zweistufige Vorgehen zu berücksichtigen, benötigen wir die Eigenschaften von bedingten Erwartungswerten und Varianzen, wie sie in Kap. 5 in den Formeln (5.11) und (5.12) angegeben wurden. Obwohl die Erwartungstreue von Y¯ 2S bereits durch das Horvitz-Thompson-Theorem gesichert ist, zeigen wir diese zur Illustration mit dem Satz vom iterierten Erwartungswert. Nehmen wir dazu an, dass in der ersten Stufe die Gruppen G 1 , . . . , G m gewählt wurden. Betrachtet man nun die ausgewählten Gruppen als gegeben, so können wir die Vereinigung der Gruppen als neue Population ansehen. In diesem Fall können wir auf Ergebnisse der geschichteten Stichprobe zurückgreifen, denn für gegebenes G = {G 1 , . . . , G m }, also in der zweiten Stufe, entspricht die Ziehung der einer geschichteten Stichprobe. Für den bedingten Erwartungswert ergibt sich: m 1 M ¯ Nl Yl . E Y¯ 2S |G = Y¯G = N m l=1
Dies folgt, da Y¯ 2S für gegebenes G einem geschichteten Stichprobenschätzer gleicht und dieser erwartungstreu für die ausgewählte (gezogene) Population G ist. Im nächsten Schritt bilden wir den Erwartungswert über die erste Stufe, das heißt über alle möglichen gewählten Gruppen G. Dabei ist zu beachten, dass Nl und Y¯l als Zufallsvariablen betrachtet werden, weil die Gruppe zufällig gezogen werden. Wir müssen also den Erwartungswert über alle möglichen Ziehungen G berechnen. Es gilt nach den Regeln der einfachen Zufallsstichprobe:
194
6 Mehrstufige und mehrphasige Verfahren M 1
E Nl Y¯l = Nh Y¯h M
für l = 1, . . . , m .
h=1
Damit erhalten wir die Erwartungstreue von Y¯ 2S : m 1
1 ME Nl Y¯l Y¯ 2S |G = E Y¯ 2S = E E N m l=1
=
M 1 1
1 1 M m E Nl Y¯l = M Nh Y¯h = Y¯ . N m N M h=1
Im nächsten Schritt leiten wir nun die Varianz her. Dazu nutzen wir die allgemeine Varianzzerlegung, siehe Formel (5.12): Y¯ 2S |G + VarG E Y¯ 2S |G . Var Y¯ 2S = EG Var
(6.3)
Für die zweite Stufe, das heißt unter der Annahme, dass G gegeben ist, ergibt sich für Y¯ 2S die Varianz m M 2 1
¯ Var Nl y¯l |G Var Y 2S |G = N m l=1 2 m M 1 1 2 Nl − nl Sl2 · = Nl . N m m Nl − 1 nl l=1
Dabei ist G wiederum zufällig, was bedeutet, dass Nl und Sl durch die Auswahl der Gruppen zufällig sind. Bildet man nun den Erwartungswert und betrachtet das Merkmal Nh2
Nh − n h Sh2 Nh − 1 n h
für die Gruppen, so folgt M M 2 1 1
Nh − n h Sh2 Y¯ 2S |G = EG Var Nh2 . N m M Nh − 1 n h h=1
Damit ist der zweite Teil in der Varianzformel (6.2) hergeleitet. Der erste Teil folgt nun mit (5.12) und wir erhalten wegen der oben bewiesenen Erwartungstreue: Y¯ 2S |G VarG E = Var Y¯G 2 m M 1
= Var YT,l N m l=1 2 2 M M − m SGr = . N M −1 m Die letzte Umformung ergibt sich wiederum nach den Regeln der einfachen Zufallsstichprobe mit dem Merkmal YT,h . Damit ist die Varianzformel unter Benutzung von Formel (6.3) gezeigt.
6.1
Zweistufige Stichprobenverfahren
195
Zweistufige Stichprobe
Eine Population mit N Elementen ist in M sich nicht überlappende Gruppen eingeteilt. Aus den M Gruppen werden m Gruppen durch eine einfache Zufallsstichprobe gezogen. Aus der gezogenen l-ten Gruppe werden nl Elemente nach dem Design der einfachen Zufallsstichprobe gezogen, wobei l = 1, . . . , m. Der zweistufige Schätzer ist erwartungstreu und definiert durch m 1 M
Nl y¯l . Y¯ 2S = N m l=1
Die Varianz kann erwartungstreu geschätzt werden durch M2 Var Y¯ 2S = 2 N
m 2
M −m 1 ¯ T,l − Y Y T,· M m(m − 1) l=1 m 1 2 Nl − n l sl2 . + 2 Nl Nl nl m l=1
Man erhält die Schätzung der Varianz jeweils durch die entsprechenden Werte aus der Stichprobe. Im ersten Teil wird dabei die Varianz der Gruppensummen durch die Varianz der entsprechenden Schätzungen ersetzt. Im zweiten Teil wird die Streuung innerhalb der Gruppen jeweils durch die empirische Streuung geschätzt. Der Nachweis der Erwartungstreue von Var Y¯ erfolgt wiederum mit dem Satz vom 2S
iterierten Erwartungswert. Wir wollen die Varianzzerlegung anhand eines Beispiels veranschaulichen. Beispiel 6.3: Eine Population vom Umfang N = 16 sei gegeben durch die folgenden Größen. 1 1 1 1
2 2 2 2
3 3 3 3
4 4 4 4
Wir wollen eine zweistufige Stichprobe ziehen, indem wir zwei Gruppen wählen, woraus in der zweiten Stufe je zwei Elemente gezogen werden. Die Gruppeneinteilung kann nun unterschiedlich vorgenommen werden. Wir wählen zuerst die Einteilung
196
6 Mehrstufige und mehrphasige Verfahren
1 1 1 1
2 2 2 2
3 3 3 3
4 4 4 4
(6.4)
Da zwischen den Gruppen keinerlei Variation besteht, wir also perfekte Cluster 2 = 0. Die Variation des zweistufigen Schätzers basiert gänzlich auf haben, ist SGr der Variation innerhalb der Gruppen. Wählt man dagegen die Gruppen wie folgt 1 1 1 1
2 2 2 2
3 3 3 3
4 4 4 4
(6.5)
2 so erhält man eine perfekte Schichtungsstruktur, heißt Sh = 0. Bei dieser das Struktur ist für die Varianz des Schätzers Var Y¯ 2S nur die Varianz zwischen den Gruppen von Bedeutung. In der folgenden Tabelle 6.1 sind die Standardabweichungen des zweistufigen Schätzers für die beiden Aufteilungen für unterschiedliche Stichprobenumfänge angegeben. Zum Vergleich sind in der letzten Zeile die Standardabweichungen des Schätzers Y¯ E S bei einer einfachen Zufallsstichprobe mit gleichem Stichprobenumfang angegeben. Man erkennt, dass eine Erhöhung des Gruppenumfangs von m = 2 auf m = 3 bei Aufteilung (6.4) keine Verbesserung bringt. Entsprechend ist eine Erhöhung des Stichprobenumfangs n h innerhalb der Gruppen für Aufteilung (6.5) sinnlos.
Y¯ 2S und Y¯ E S unter verschiedenen Tabelle 6.1 Standardabweichungen für die Schätzer Bedingungen
Aufteilung (6.4) Aufteilung (6.5) Einfache Zufallsstichprobe
m=2 nh = 2 0,46 0,65 0,50 n=4
m=2 nh = 3 0,26 0,65 0,37 n=6
m=3 nh = 2 0,46 0,37 0,37 n=6
Aus der Varianzzerlegung nach dem obigen Beispiel lässt sich eine Strategie zur Wahl der Größen m und n h ableiten: Falls die Schwankung der Gruppensumme groß ist, muss der Umfang m bei der ersten Ziehung tendenziell größer gewählt werden. Wenn die Streuung innerhalb der Gruppen groß ist, sollten entsprechend die Umfänge n h nicht zu klein gewählt werden. Eine genaue Planung kann analog zu dem in Kap. 2 beschriebenen Vorgehen durchgeführt werden. Man benötigt dazu 2 und S 2 . entsprechende Annahmen für die Varianzen SGr h
6.1
Zweistufige Stichprobenverfahren
197
6.1.2 Modellbasierte und designbasierte zweistufige Verfahren Das in dem vorigen Abschnitt beschriebene Vorgehen kann auf verschiedene Weise modifiziert werden. Auf den beiden Stufen kann das Design oder das Schätzverfahren verändert werden. Wir betrachten zunächst die Verwendung des Quotientenschätzers auf der zweiten Stufe. Dieses Vorgehen ist analog zu dem entsprechenden Verfahren beim Cluster-Schätzer, siehe Abschn. 5.2.2. Wir gehen also von einer zweistufigen Stichprobe nach dem Design der einfachen Zufallsstichprobe auf beiden Stufen aus. Man bildet analog zur zweistufigen Hochrechnung zunächst die T,l = Nl y¯l . Da das Verhältnis Schätzungen für die Totalen der Gruppen Y M
R=
YT,h
h=1 M
Nh
h=1
dem Mittelwert Y¯ entspricht, ist der Quotientenschätzer gegeben durch: m
Y¯ 2S,Q S =
m
T,l Y
l=1 m
l=1
= Nl
Nl y¯l
l=1 m
.
(6.6)
Nl
l=1
Er entspricht dem mit den Gruppengrößen gewichteten Mittel der geschätzten Gruppenmittelwerte. Die Varianz erhält man durch Bedingen auf die erste Stufe und mit der entsprechenden Technik der Taylorreihen-Entwicklung, wie wir sie beim Quotientenschätzer angewendet haben. Konkret ergibt sich M 2 1 M − m 1 Var Y¯ 2S,Q S = / N¯ 2 Y¯ 2S,Q S YT,h − Nh M m M −1
(6.7)
h=1
+
M 1 Nh − n h Sh2 2 ¯ 2 N /N . mM Nh − 1 n h h h=1
Die Schätzung der Varianz ergibt sich durch geeignetes Ersetzen der Populationsgrößen durch die entsprechenden Stichprobengrößen. Der Nachweis der approximativen Erwartungstreue erfolgt durch den Satz vom iterierten Erwartungswert (5.11) und analog zum Vorgehen bei einfachen Quotientenschätzern, siehe Abschn. 3.2. Der Quotientenschätzer ist besonders dann empfehlenswert, wenn die Gruppengrößen stark unterschiedlich sind.
198
6 Mehrstufige und mehrphasige Verfahren
Zweistufiger Quotientenschätzer
Gegeben sei eine zweistufige Stichprobe mit dem Design der einfachen Zufallsstichprobe auf jeder Stufe. Der zweistufige Quotientenschätzer ist approximativ erwartungstreu und gegeben durch m
Y¯ 2S,Q S =
m
T,l Y
l=1 m
= Nl
l=1
Nl y¯l
l=1 m
. Nl
l=1
Die Varianz kann erwartungstreu geschätzt werden durch Var Y¯ 2S,Q S =
m 2 1 M − m
1 yT,l − Nl / N¯ 2 Y¯ 2S,Q S m−1 m M l=1
+
m
Nl − nl sl2 2 ¯ 2 1 1 N /N . m m−1 Nl nl l l=1
Eine andere Form der Ziehung einer zweistufigen Stichprobe besteht in der Wahl eines PPS-Designs in der ersten Stufe. Die Gruppen werden also proportional zu ihrer Größe gezogen. Mit Hilfe des Horvitz-Thompson-Theorems kann man einen erwartungstreuen Schätzer bestimmen. Es gilt dann für die Auswahlwahrscheinlichkeiten Nh m n h πhi = M N h=1 N h h und damit ergibt sich der Schätzer zu m nl m N 1
1
Y¯ 2S,P P S = ylk y¯l . = N nl m m l=1 k=1
(6.8)
l=1
Falls in den einzelnen Gruppen gleich viele Elemente gezogen werden, vereinfacht sich der Schätzer (6.8) zu dem (ungewichteten) Mittelwert. Man spricht dann von einer selbstgewichteten Stichprobe. Die Berechnung der Varianz kann entweder direkt über die allgemeine Formel für Horvitz-Thompson-Schätzer oder mit Hilfe der Varianzzerlegung bestimmt werden.
6.1
Zweistufige Stichprobenverfahren
199
Die Berechnung ist kompliziert, weil die Auswahlwahrscheinlichkeiten zweiter Ordnung berücksichtigt werden müssen. Eine Vereinfachung ergibt sich, wenn der Ziehungsprozess auf den Gruppen mit Zurücklegen angenommen wird, sprich statt die Ergebnisse des Horvitz-Thompson Schätzers auf die zweistufige Stichprobe zu übertragen, werden die Ergebnisse des Hansen-Hurwitz Schätzers angewendet. Konkret nehmen wir an, dass die Gruppen auf der ersten Stufe mit Zurücklegen gezogen werden, wobei die Ein-Zug-Auswahlwahrscheinlichkeit durch Nh /N bestimmt ist, also größere Gruppen eine höhere Auswahlwahrscheinlichkeit haben. Dabei ist es sogar möglich, dass eine Gruppe mehrfach gezogen wird. Die folgende Ziehung der Elemente erfolgt dann mehrfach, was somit zu einem höheren Stichprobenumfang in der Gruppe führt. Die Auswahl innerhalb der einzelnen Gruppen erfolgt nun als einfache Zufallsstichprobe. Somit ergibt sich für ein Individuum der Population bei einer Ziehung auf der ersten Stufe die Auswahlwahrscheinlichkeit phi =
Nh n h nh . = N Nh N
(6.9)
Den entsprechenden Schätzer notieren wir mit Y¯ 2S,H H , wobei der Index HH auf die angenommene Anwendung der Hansen-Hurwitz Strategie hinweist. Der Schätzer hat die einfache Form m 1
y¯l . Y¯ 2S,H H = m
(6.10)
l=1
Der Schätzer ergibt sich somit als arithmetisches Mittel der Mittelwerte der gezogenen Gruppen. Es ist nicht schwierig zu zeigen, dass der Schätzer erwartungstreu ist. Der Beweis läuft analog zum Beweis wie wir ihn zur Erwartungstreue des Hansen-Hurwitz Schätzers angewandt haben. Ebenso erhält man unter Anwendung der iterierten Erwartung die Varianzformel M M 2 1 Nh ¯ 1 Nh − n h Nh Sh2 Var Y¯ 2S,H H = . Yh − Y¯ + m N m Nh − 1 N n h h=1
(6.11)
h=1
Da es sich bei der Hansen-Hurwitz-Strategie um ein Ziehen mit Zurücklegen und daher um eine i.i.d.-Stichprobe handelt, kann die Varianz auch direkt ohne Berücksichtigung der zweiten Stufe geschätzt werden. Var Y¯ 2S,H H =
m 2
1 y¯l − Y¯ 2S,P P S m(m − 1)
(6.12)
l=1
Diese Strategie der Varianzschätzung hat den Vorteil, dass bei der Berechnung nur die Streuung auf der obersten Stufe eingeht, was die konkrete Berechnung stark vereinfacht. Das gilt insbesondere für Verallgemeinerungen des Designs auf mehr
200
6 Mehrstufige und mehrphasige Verfahren
als zwei Stufen. Der Grund dafür, dass Formel (6.12) eine korrekte, erwartungstreue Varianzschätzung liefert, liegt darin, dass in der Streuung der Mittelwerte y¯l implizit die Varianz der Ziehung der Stufe mit eingeht und daher kein Zusatzterm berücksichtigt werden muss. Da es sich um ein wichtiges Grundprinzip handelt, geben wir für diesen Fall die Herleitung an. Herleitung: Die Ziehung mit Zurücklegen liefert unabhängig identisch verteilte Zufallsgrößen y¯l für l = 1, . . . , m. Es gilt E( y¯l ) = E(E( y¯l |1.Stufe)) = E(Y¯l ) =
M
Nh ¯ · Yh = Y¯ N h=1
m
Damit ist der Schätzer m1 l=1 y¯l erwartungstreu. Dass die Varianzschätzung (6.12) erwartungstreu ist, folgt unmittelbar aus den allgemeinen Regeln für unabhängig identisch verteilte Zufallsgrößen.
Zweistufiger Hansen-Hurwitz-Schätzer
Gegeben sei eine zweistufige Stichprobe. Auf der ersten Stufe wird nach dem PPS-Design basierend auf der Gruppengröße gezogen. Auf der zweiten Stufe wird eine einfache Zufallsstichprobe gezogen. Ein erwartungstreuer Schätzer ergibt sich zu m 1
¯ Y 2S,H H = y¯l . m l=1
Die Varianz kann unter der Annahme des Ziehens mit Zurücklegen erwartungstreu geschätzt werden durch Var Y¯ 2S,H H =
m 2
1 y¯l − Y¯ 2S,P P S . m(m − 1) l=1
6.1.3 Erweiterungen Die oben besprochenen Verfahren können auf mehrere Stufen und auf andere Auswahlverfahren verallgemeinert werden. Beispiel 6.4: (ADM-Stichprobe) In Deutschland gibt es keine allgemein zugängliche Liste aller Privathaushalte. Die Verzeichnisse der kommunalen Ämter sind aus Gründen des Daten-
6.2
Zweiphasige Stichprobenverfahren
201
schutzes nur bei starkem öffentlichen Interesse (Volkszählung und Wahlen) verfügbar. Daher hat die Arbeitsgemeinschaft der Deutschen Markt- und Sozialforschungsinstitute e.V. (ADM) ein Auswahlverfahren entwickelt (Christian von der Heyde, Sprecher der Arbeitsgemeinschaft ADM-Stichprobem, Juli 2009 – www.adm-ev.de\index.php?id=adm_stichproben&type=1&type=1), um eine Zufallsauswahl aus den Privathaushalten zu ziehen. Das sogenannte F2FVerfahren („Face to Face“) ist für persönliche Interviews konzipiert und dreistufig. Ausgehend von den Wahlbezirken wurden 53 000 Flächen aufgrund der Gemeindegliederung abgegrenzt. Diese enthalten mindestens 350, im Mittel 700 Privathaushalte. Die Flächen werden nach Region und Typus geschichtet. Aus diesen werden dann – gewichtet nach Anzahl der Haushalte (PPS) – Auswahlflächen gezogen. Diese werden auch als „Sampling points“ bezeichnet. In der zweiten Auswahlstufe werden dann Haushalte nach dem Prinzip der einfachen Zufallsstichprobe gezogen. Die Realisation erfolgt durch „Random walk“. Dabei wird eine Startadresse zufällig ausgewählt und dann nach genau festgelegten Vorgaben für den Interviewer („Begehungsanweisung“) die weiteren Adressen ermittelt, z.B. Aufsuchen der Startadresse, zweites Gebäude links vom Haupteingang der Startadresse ist die erste Zieladresse; in gleicher Richtung weitergehen usw. Die Regeln steuern Himmelsrichtung, Straßenabschnitte und die Straßenseite über die geraden bzw. ungeraden Hausnummern, siehe Hoffmeyer-Zlotnik (1997). Aus den ermittelten Adressen wird dann eine einfache Zufallsauswahl getroffen. Wenn die Anweisungen tatsächlich befolgt werden, ist das Verfahren praktisch eine gute Approximation für eine einfache Zufallsauswahl, siehe Schnell, Hill, und Esser (2008). Alternativ ist eine direkte einfache Auswahl aus allen Adressen günstiger, wenn eine entsprechende Liste vorhanden ist. Die Schätzung der Mittelwerte bzw. der Anteile ist mit Hilfe des HorwitzThompson-Theorems relativ einfach durchführbar. Bei großen Stichproben, die von vielen Anwendern genutzt werden, werden typischerweise sogenannte Stichprobengewichte mit angegeben, welche die Auswahlwahrscheinlichkeiten repräsentieren. Problematisch ist jedoch, dass die Gewichte in der Praxis nicht immer genutzt werden, was zu (meist geringen) Verzerrungen führen kann, siehe dazu z.B. Hartmann und Schimpl-Neimanns 1992. Die Varianzschätzung ist bei komplexeren Designs zwar nach der erwähnten Methode der iterierten Erwartung möglich, praktisch aber häufig sehr schwer umsetzbar bzw. schätzbar. Wir diskutieren die Problematik ausführlicher in Kap. 7.
6.2 Zweiphasige Stichprobenverfahren 6.2.1 Modellbasierte zweiphasige Verfahren Wir haben bei modellbasierten Schätzern gesehen, wie Sekundärinformation sinnvoll genutzt werden kann, um die Variabilität des Schätzers zu reduzieren. Dabei sind wir davon ausgegangen, dass die Sekundärinformation X für die Population bekannt ist, beziehungsweise dass X¯ bekannt ist. Wir wollen nun diese Annah-
202
6 Mehrstufige und mehrphasige Verfahren
me aufgeben und annehmen, dass wir X ebenfalls durch eine Stichprobe erheben. Der Unterschied zwischen der Primärinformation Y und der Sekundärinformation X besteht dabei darin, dass eine Stichprobe zur Einholung von Information über X einfach, billig und/oder schnell ist, wohingegen die Einholung von Y aufwendig, teuer und/oder zeitintensiv ist. Die Information, die wir in der Stichprobe bezüglich X erhalten, wird genutzt um aus dieser Stichprobe eine zweite Stichprobe bezüglich des Merkmals Y zu ziehen. Die zweite Stichprobe ist dabei üblicherweise kleiner als die erste und erlaubt es, einen modellbasierten Schätzer zu berechnen. Diese zwei Phasen der Stichprobenziehung führen zu sogenannten Zwei-PhasenSchätzern. Beispiel 6.5: Zur Arbeitsoptimierung will ein Unternehmen Informationen über den Arbeitsaufwand seiner Arbeitnehmer erhalten. Dazu werden n = 100 Arbeitnehmer des Unternehmens zufällig ausgewählt und um eine persönliche Einschätzung bezüglich ihres Arbeitseinsatzes gebeten. Von den n = 100 Ausgewählten werden in einem zweiten Schritt n = 10 ausgewählt und detailliert befragt. Um die Parameter aus der ersten und zweiten Phase in der Notation unterscheiden zu können, verwenden wir in der ersten Phase die „Strichnotation“, d.h. z.B. n
für den Stichprobenumfang in der ersten Phase.
Zweiphasige Stichprobenverfahren Größe
Bedeutung
In der Population: N X i , i = 1, . . . , N Yi , i = 1, . . . , N
Populationsumfang Sekundärinformation Primärinformation
In der ersten Phase: n
xk , k = 1, . . . , n
x¯ = n1 nk =1 xk
Stichprobenumfang in der ersten Phase erhobene Sekundärinformation in der ersten Phase Mittelwert der Sekundärinformation in der ersten Phase
6.2
Zweiphasige Stichprobenverfahren
203
In der zweiten Phase: n xk , k = 1, . . . , n yk , k = 1, . . . , n x¯ = n1 nk=1 xk y¯ =
1 n
n
k=1 yk
Stichprobenumfang in der zweiten Phase erhobene Sekundärinformation in der zweiten Phase erhobene Primärinformation in der zweiten Phase Mittelwert der Sekundärinformation in der zweiten Phase Mittelwert der Primärinformation in der zweiten Phase
Wir nehmen an, dass die erste Stichprobe den Umfang n hat. Aus dieser ersten Stichprobe wird eine zweite Stichprobe vom Umfang n gezogen. Dabei ist n < n . Man beachte, dass wir annehmen, dass keine weiteren Strukturen (Gruppen oder Cluster) in der Grundgesamtheit vorliegen. Darin liegt der wesentliche Unterschied zwischen der zweiphasigen und der zweistufigen Stichprobe. In der ersten Stichprobe erheben wir nur die Sekundärinformation x k mit k = 1, . . . , n . Nach Ziehung der zweiten Stichprobe sind sowohl xk als auch yk bekannt. Wie in Kap. 3 betrachten wir die folgenden Modelle: Y−X=D Y = RX Y = A + BX + E .
Modell für Differenzen Modell für Quotienten Regressionsmodell
Wie bereits besprochen ist dabei das Regressionsmodell das allgemeingültige Modell und das Quotientenmodell ergibt sich aus dem Regressionsmodell, indem man A = 0 und B = R setzt. Ebenso ergibt sich das Differenzenmodell, indem man B = 1 und D = A + E setzt. Wir betrachten N daher im Folgenden nur das E i /N = 0 ist, so folgt Regressionsmodell. Nimmt man an, dass E¯ = i=1 Y¯ = A + B X¯ . Die Größen auf der rechten Seite der Gleichung werden jetzt stichprobenbasiert geschätzt. Dabei schätzt man X¯ durch die erste Phase der Stichprobe gemäß
n 1
xk . x¯ =
n
k =1
Die Größen A und B werden nun aus der zweiten Phase der Stichprobe geschätzt, d.h. aus den gezogenen Paaren (xk , yk ), k = 1, . . . , n. Man erhält
204
6 Mehrstufige und mehrphasige Verfahren n
B=
(xk − x)(y ¯ k − y¯ )
k=1 n
, (xk − x) ¯
= y¯ − A B x¯ ,
2
k=1
mit x¯ = nk=1 xk /n als Mittelwert der Sekundärinformation in der zweiten Phase. Der zweiphasige Regressionsschätzer ergibt sich somit zu + B x¯
Y¯ 2P,R E G = A = y¯ + B(x¯ − x) ¯ . Für die Varianz des Schätzers erhält man n − n S2 N − n SY2 REG Var Y¯ 2P,R E G =
+ n −1 n N − 1 n
mit S 2R E G =
N
(Yi − A − B X i )2 /N .
i=1
S2
REG Die Varianz besteht aus zwei Komponenten. Die erste Komponente nn −n −1 n spiegelt die Unsicherheit des Regressionsschätzers bezüglich der zweiten Phase wi
S2
Y der. Die Komponente NN−n −1 n entspricht der Varianz einer Mittelwertschätzung mit Hilfe einer Stichprobe vom Umfang n der Y -Werte. Diese korrespondiert zu der Ziehung in der ersten Phase. Die Varianzen können wie gehabt geschätzt werden, indem S 2R E G und SY2 durch entsprechende empirische Größen s 2R E G und sY2 ersetzt werden.
Zweiphasiger Regressionsschätzer Gegeben sei eine einfache Zufallsstichprobe vom Umfang n der Sekundärinformation x k , k = 1, . . . , n . Aus dieser Stichprobe wird eine zweite Stichprobe vom Umfang n gezogen, bei der die Informationen xk und yk erhoben werden, k = 1, . . . , n.
6.2
Zweiphasige Stichprobenverfahren
205
Der Regressionsschätzer für den Mittelwert Y¯ ergibt sich damit zu Y¯ 2P,R E G = y¯ + B(x¯ − x), ¯
mit
x¯
n n 1
1
=
xk und x¯ = xk . n
n k =1
k=1
Die Varianz kann geschätzt werden durch n − n s 2 N − n sY2 REG Var Y¯ 2P,R E G = , + n
n N n
mit 2 1 − = Bxk , yk − A n−2 n
s 2R E G
k=1
1
(yk − y¯ )2 . n−1 n
sY2 =
k=1
Herleitung: Die Herleitung der Varianz vollzieht sich wieder mit dem Satz vom iterierten Erwartungswert aus dem vorherigen Kapitel. Hierdurch ergibt sich Var Y¯ 2P,R E G = En Var Y¯ 2P,R E G |1.Phase (6.13) +Varn E Y¯ 2P,R E G |1.Phase . Dabei bezeichnen E (·) und Var (·) den Erwartungswert und die Varianz basierend auf der ersten Phase, d.h. auf der Stichprobe x k mit k = 1, . . . , n . Bedingt man auf diese Stichprobe, d.h. betrachtet man (x k , yk ) als Population, so lassen sich der innere Erwartungswert und die innere Varianz berechnen, indem alle Ergebnisse aus Abschn. 3.3 genutzt werden. Konkret ist n − n S 2 REG , Var Y¯ 2P,R E G |1.Phase = n−1 n n
2
2 mit S 2 k =1 (yk − A − Bx k ) /n . Nun ist S R E G eine zufällige Größe, da die StichREG =
probe bezüglich n zufällig ist. Es ist jedoch nicht schwierig zu zeigen, dass 2 En S 2 R E G = SR E G N gilt mit S 2R E G = i=1 (Yi − A − B X i )2 /N . Somit verbleibt die Berechnung der zweiten Komponente in Formel (6.13). Bedingen wir wieder auf die erste Phase, d.h. betrachten wir (x k , yk ) als Population, k = 1, . . . , n , so ist der Regressionsschätzer erwartungstreu und wir erhalten E Y¯ 2P,R E G |1.Phase = y¯ ,
206
6 Mehrstufige und mehrphasige Verfahren
mit y¯ = nk =1 yk /n . Man beachte, y¯ ist das arithmetische Mittel einer einfachen Zufallsstichprobe vom Umfang n . Mit den Ergebnissen über einfache Zufallsstichproben erhalten wir somit N − n SY2 Varn y¯ = N − 1 n
N mit SY2 = i=1 (Yi − Y¯ )2 /N . Ersetzt man nun S 2R E G und SY2 durch entsprechende Schätzer, so folgt die oben gegebene Varianzformel.
In analoger Form lässt sich nun der zweiphasige Differenzenschätzer berechnen. Y¯ 2P,D = y¯ + (x¯ − x) ¯ Die Varianz kann entsprechend geschätzt werden. Die Herleitung ist auch für den zweiphasigen Quotientenschätzer gegeben. Unter Verwendung der Formeln aus dem Kasten auf S. 73 für den einfachen Quotientenschätzer erhält man die in dem Kasten zusammengestellten Formeln.
Zweiphasiger Quotientenschätzer Gegeben sei eine einfache Zufallsstichprobe vom Umfang n der Sekundärinformation x k , k = 1, . . . , n . Aus dieser Stichprobe wird eine zweite Stichprobe vom Umfang n gezogen, bei der die Informationen xk und yk erhoben werden, k = 1, . . . , n. Der Quotientenschätzer für den Mittelwert Y¯ ergibt sich damit zu · x¯ , Y¯ 2P,Q S = R n
n 1
= k=1 mit x¯ =
xk und R n
n
k =1
yk . xk
k=1
Die Varianz kann geschätzt werden durch n n − n
2 N − n sY2 1 · − Rx + y Var Y¯ 2P,Q S = k k n
n(n − 1) N n
k=1
6.2
Zweiphasige Stichprobenverfahren
207
Beispiel 6.6: Ein Unternehmen stellt technische Produkte her, die einer Qualitätskontrolle unterliegen sollen. Dazu stehen zwei Produkttests zur Verfügung: Eine einfache Kontrolle, die schnell und wenig zeitaufwendig durchführbar ist, und eine aufwendige, jedoch sehr akkurate Methode. Das Unternehmen möchte einen Schätzer für die Ausschussproduktion erhalten. Dazu werden n = 1 000 Produkte mit der einfachen Kontrolle beurteilt. Es wurden 80 fehlerhafte Geräte gefunden. Von den 1 000 ausgewählten Geräten werden 100 zufällig ausgewählt und der aufwendigen Kontrolle unterworfen. Es ergaben sich folgende Anzahlen: zweite Kontrolle
erste Kontrolle defekt in Ordnung
defekt in Ordnung
10 0
5 85
15 85
10
90
100
Wir kodieren die Ergebnisse wie folgt. Es sei X ein Indikator ob ein Produkt in der ersten Phase als defekt befunden wurde (X = 1) oder nicht (X = 0). Damit erhalten wir in der Stichprobe der ersten Phase x¯ = 0, 08. Weiter notieren wir mit Y , ob ein Produkt in der zweiten Phase als defekt befunden wurde (Y = 1) oder nicht (Y = 0). Basierend auf der Stichprobe erhalten wir y¯ = 0, 15. Wir modellieren eine Proportionalität zwischen X und Y und wollen daher den zweiphasigen Quotientenschätzer zur Anwendung bringen mit = 15 = 1, 5. R 10 Als Quotientenschätzer folgt somit Y¯ 2P,Q S = 1, 5 · x¯ = 1, 5 · 0, 08 = 0, 12. Zur Berechnung der Varianz nehmen wir an, dass die Population sehr groß ist, d.h. wir können den Korrekturfaktor (N − n )/N vernachlässigen. Somit lässt sich die Varianz schätzen durch n n − n
s2 1 k 2+ Y Var Y¯ 2P,Q S = · − Rx y k n
n(n − 1) n
k=1
Mit Hilfe von sY2 = 0, 15 · 0, 85 = 0, 128 erhält man 0, 128 = 0, 00081. Var Y¯ 2P,Q S = 0, 000682 + 1 000
208
6 Mehrstufige und mehrphasige Verfahren
Als Standardabweichung folgt dem 95%- Konfidenzintervall
Var Y¯ 2P,Q S = 0, 028. Dies resultiert in
0, 12 ± 1, 96 · 0, 028 = 0, 12 ± 0, 055. Würde man die Sekundärinformation vernachlässigen, so würde man y¯ = 0, 15 als Schätzer heranziehen. Dabei ist Var( y¯ ) =
% sY2 ≈ 0, 036, 100
Y¯ 2P,Q S ist. Die Ausnutzung der Sekundärinforwas deutlich größer als Var mation hat sich also gelohnt.
6.2.2 Zweiphasige geschichtete Stichprobe Bei der Verwendung der geschichteten Stichprobe ist eine wichtige Voraussetzung die Kenntnis der Anteile der Schichten in der Grundgesamtheit. Ist diese unbekannt, kann man sie aus einer großen Stichprobe schätzen und dann eine (kleinere) Unterstichprobe ziehen. Beispiel 6.7: Die Marketingabteilung einer Firma möchte die Wirksamkeit einer Werbemaßnahme beurteilen. Das Produkt soll über Internet und Fernsehen beworben werden. Es wird dabei vermutet, dass die Nutzungsgewohnheiten der Medien Fernsehen und Internet Einfluss darauf haben, ob die Werbemaßnahme positiv oder negativ aufgenommen wird. Man kann die Population in die folgenden vier Gruppen einteilen: a) b) c) d)
Personen, die Fernsehen und Internet regelmäßig nutzen Personen, die Fernsehen aber nicht Internet regelmäßig nutzen Personen, die Internet aber nicht Fernsehen regelmäßig nutzen Personen, die weder Fernsehen noch Internet regelmäßig nutzen
Nun liegen über die Anteile der Gruppen (Schichten) keine nutzbaren Informationen vor. Um die Proportionen der 4 Gruppen schätzen zu können, kann daher eine große Stichprobe vom Umfang n gezogen werden. Basierend auf dieser Stichprobe wird eine zweite geschichtete Stichprobe gezogen, um die Primärinformation einzuholen, sprich ob die eigentliche Werbemaßnahme gut aufgenommen wurde. Nehmen wir an, wir teilen die erste Stichprobe vom Umfang n in die Schichten 1 bis M mit beobachtetem Schichtumfang n h , h = 1, . . . , M. Eine zweite Stichprobe
6.2
Zweiphasige Stichprobenverfahren
209
vom Umfang n wird geschichtet gezogen mit Stichprobenumfang n h für die h-te Schicht. Der zweiphasige geschichtete Schätzer ergibt sich zu Y¯ 2P,G S =
M
n
h
h=1
y¯h ,
n
n h
mit y¯h = k=1 yhk /n h als arithmetischem Mittel der h-ten Schicht und yhk als k-te Beobachtung in der h-ten Schicht. Der Schätzer ist erwartungstreu und die Varianz ergibt sich zu M N − n SY2 Nh 1 n h ¯ + − 1 · Sh2 . · Var Y 2P,G S = N − 1 n
N n nh h=1
Die Varianz kann dabei durch die empirischen Größen der Stichprobe geschätzt werden. Herleitung: Man kann wie zuvor durch die Technik des Bedingens auf die erste Phase die Eigenschaften des Schätzers Y¯ 2P,G S ableiten. Es gilt E Y¯ 2P,G S = E E Y¯ 2P,G S |1.Phase = E y¯ = Y¯ . Hierbei wurde genutzt, dass das Design der geschichteten Stichprobe in der neuen GrundY¯ 2P,G S gesamtheit einen erwartungstreuen Schätzer liefert. Zur Bestimmung der Varianz von bestimmen wir zunächst die bedingte Varianz des geschichteten Schätzers: M 2
n h − n h sh 2 nh Var Y¯ 2P,G S |1.Phase = ·
n n h − 1 n h h=1
=
M 2
n h=1
=
h n
M
n h=1
h n
·
·
1 · n h
1 · n
n h − 1 · sh 2 nh
n h − 1 · sh 2 , nh
2 mit sh 2 = i=1 yhi − y¯h / n h − 1 . Wir nehmen an, dass die Quotienten n /n und n h /n h für h = 1, . . . , M vor Stichprobenziehung fixiert wurden, beispielsweise soll die zweite Stichprobe aus 10% der ersten Stichprobe bestehen. Ferner ist n als der Gesamtstichprobenumfang der ersten Stichprobe bekannt. Somit sind nur n h /n und sh 2 zufällig und es folgt n h
M
Nh 1 n h E Var Y¯ 2P,G S |1.Phase = − 1 · Sh2 , N n nh h=1
mit Sh2 =
Nh
1 (Yhi − Y¯h )2 . Nh − 1 i=1
Da der geschichtete Schätzer erwartungstreu ist, ergibt sich weiter
210
6 Mehrstufige und mehrphasige Verfahren N − n SY2 Var E Y¯ 2P,G S |1.Phase = Var( y¯ ) = · . N − 1 n
Fasst man beide Größen zusammen, so ergibt sich M
Nh 1 n h N − n SY2 · + − 1 · Sh2 . Var Y¯ 2P,G S = N −1 n N n nh h=1
Zweiphasige geschichtete Stichprobe Wir teilen die erste Stichprobe vom Umfang n in die Schichten 1 bis M mit beobachtetem Schichtumfang n h , h = 1, . . . , M. Eine zweite Stichprobe vom Umfang n wird geschichtet gezogen mit Stichprobenumfang n h für die h-te Schicht. Der geschichtete Schätzer für den Mittelwert Y¯ ergibt sich damit zu M
n
Y¯ 2P,G S =
h
h=1
n
y¯h ,
mit nh
yhk . y¯h = nh k=1
Die Varianz kann geschätzt werden durch M N − n sY2 n h Var Y¯2P,G S = · + N n n 2 h=1
n h − 1 · sh2 , nh
mit h 1
(yhk − y¯h )2 , nh − 1 k=1 n 1
2 (yk − y¯ )2 . sY = n−1
n
sh2 =
k=1
6.3
Zweiphasige Stichprobe zum Umgang mit Non-Respondern
211
6.3 Zweiphasige Stichprobe zum Umgang mit Non-Respondern Ein generelles Problem in Stichproben und Umfragen ist der teilweise große Anteil von Non-Respondern, also Elementen der Stichprobe, von denen keine Antwort oder Messung erhältlich ist. Ein Non-Responder kann dabei aus vielfachen Gründen auftreten. Einfache Antwortverweigerung in einer Umfrage führt genauso zu fehlender Information wie der Ausfall eines technischen Geräts. Non-Responder sind deshalb von entscheidender Bedeutung, weil die fehlende Information informativ sein kann. Beispiel 6.8: Bei einer Umfrage werden n Individuen angeschrieben mit der Bitte einen Fragebogen ausgefüllt zurückzuschicken. Nach Ablauf der gegebenen Frist werden die Individuen, die den Fragebogen noch nicht zurückgesandt haben, als Non-Responder klassifiziert und mit einem Erinnerungsschreiben erneut angeschrieben. Die hierauf eingehenden weiteren Fragebögen werden als Stichprobe aus der Schicht der Non-Responder angesehen. Wir teilen gedanklich die gesamte Population in „Responder“ und „NonResponder“ als Schichten ein. Wir ziehen eine Stichprobe und erhalten n 1 Responder und n 2 Non-Responder. In einem zweiten Anlauf kontaktieren wir eine Stichprobe von n 2 „Non-Respondern“ noch einmal, beispielsweise durch einen oder mehrere Anrufe. Wir gehen dabei von vollständigem Rücklauf aus. Konzeptionell betrachtet haben wir somit eine zweiphasige geschichtete Stichprobe mit n 1 = n 1 als Stichprobenumfang in der Schicht der Responder und n 2 als Stichprobenumfang in der Schicht der Non-Responder. Man erhält somit den geschichteten Schätzer n
n
Y¯ G S = 1 y¯1 + 2 y¯2 , n n mit y¯h als Mittelwert der h-ten Schicht, h = 1, 2, und n = n 1 + n 2 . Die zugehörige Varianz ergibt sich durch Var Y¯ G S =
n 2 − n 2 n 2 2 N − n
2 · S + S . Y (N − 1) n
(n − 1) n 2 n 2
Man beachte, dass wir in Schicht 1, der Schicht der Responder, in der zweiten Phase formal eine Vollerhebung durchführen. Somit ist der Beitrag zur zweiten Komponente der Varianz gleich 0. In der Praxis ist dieser Umgang mit Non-Respondern nicht immer sinnvoll durchzuführen. Typischerweise werden auch im zweiten Versuch viele Befragte keine Antwort geben. Dies führt dann eventuell zu einer noch stärkeren Verzerrung als bei einer einfachen Zufallsstichprobe, bei der nur die Responder berücksichtigt werden. Andere Möglichkeiten des Umgangs mit Non-Respondern werden in Kap. 7 diskutiert.
212
6 Mehrstufige und mehrphasige Verfahren
6.4 Capture-Recapture Verfahren In der Wild- und in der Meeresbiologie ist es häufig von Interesse, die Anzahl der Individuen einer Population in einer bestimmten Region zu schätzen. Es geht also darum, den Populationsumfang N durch eine geeignete Stichprobenerhebung zu schätzen. Ein Verfahren ist das sogenannte Capture-Recapture. Beispielsweise kann Interesse daran bestehen, den Umfang einer Fischpopulation zu schätzen. Dazu werden zwei Stichproben gezogen. Zunächst werden M Elemente der Grundgesamtheit gezogen. Dabei wird davon ausgegangen, dass diese Ziehung den Regeln einer einfachen Zufallsstichprobe unterliegt. Die gezogenen M Elemente werden markiert und der Population zurückgegeben. Nach einer adäquaten Zeit (engl. wash-out period) wird eine zweite Stichprobe gezogen, diesmal vom Umfang n. Die zweite Stichprobe spiegelt nun ein Urnenexperiment der hypergeometrischen Verteilung wider. Notiert wird die Anzahl der markierten Elemente m in der zweiten Stichprobe. Dabei ist m/n ein erwartungstreuer Schätzer für M/N . Somit ergibt sich ein Schätzer für N durch = M· n. N m Die Varianz des Schätzers ergibt sich mit Hilfe der Delta-Methode und der Varianz der hypergeometrischen Verteilung. Man erhält als Schätzer: ) = M n (M − m) (n − m) . Var( N m3
Capture-Recapture Stichprobe
Ziel ist es, den Umfang N der Grundgesamtheit zu schätzen. Im ersten Schritt werden M Elemente markiert. Im zweiten Schritt werden n Elemente gezogen, von denen m markiert sind. Ein approximativ erwartungstreuer Schätzer für N ist = M· N
n m.
Der Varianzschätzer ist ) = M n (M − m) (n − m) . Var( N m3
6.5
Beispiel
213
Diese Methode wurde ursprünglich bei der Zählung von Wildpopulationen angewendet. Aktuell wird sie auch in der medizinischen und sozialwissenschaftlichen Forschung benutzt.
6.5 Beispiel 6.5.1 Neues Design für Haushaltsstichproben in Deutschland Im Rahmen eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projektes wurde von R. Schnell ein neuer Vorschlag für Haushaltsstichproben in Deutschland entwickelt, siehe Schnell (2008). Die in der Praxis aktuell verwendeten Stichprobenpläne für Interviews sind ADM-Stichproben (siehe Beispiel 6.4) sehr ähnlich. Diese Pläne basieren auf einem mehrstufigen Verfahren mit einer PPSAuswahl von Wahlbezirken bzw. daraus abgeleiteten Einheiten. Die Auswahl hat jedoch wesentliche Probleme, wie die Einbeziehung von Ausländern oder Deutschen mit Migrationshintergrund. Diese werden durch die Nutzung von Einwohnermeldedaten ausgeschlossen bzw. fallen aufgrund sprachlicher Probleme bei den Interviews aus der Stichprobe. Um mit diesen und anderen Problemen umzugehen, wird ein anderes Vorgehen vorgeschlagen. Die primäre Untersuchungseinheit sollen Gemeinden und Städte sein. Hier ist die Bestimmung der Bevölkerungsgröße genauer möglich als bei Stimmbezirken. Als Einheit zweiter Stufe sollen die Gebäude dienen. Nach Angabe des Statistischen Bundesamtes gibt es in Deutschland 17 Mio. Gebäude mit 38 Mio. Wohnungen. Über 62% der Gebäude haben jedoch nur eine Wohnung. Daher muss in diesem Fall keine weitere Ziehung zur Auswahl einer Wohnung durchgeführt werden. Bei größeren Gebäuden muss per einfacher Zufallsstichprobe eine weitere Ziehung vorgenommen werden. Dies gilt ebenso für die Auswahl der einzelnen Personen in dem Haushalt (HH). Die Auswahlwahrscheinlichkeit für eine Person i wird in zwei Schritten bestimmt. Zuerst ergibt sich die Auswahlwahrscheinlichkeit des Gebäudes: pb = pOrt ·
Anzahl der gezogenen Gebäude . Anzahl der Gebäude in einem Ort
Insgesamt ist die Auswahlwahrscheinlichkeit einer Person somit pi = pb ·
1 1 · . Anzahl der HH in einem Gebäude Anzahl der Personen im Haushalt
Weiter ist zu beachten, dass ein relevanter Teil der Bevölkerung in Deutschland in Institutionen lebt (Altersheime, Studentenwohnheime, Bundeswehr, etc.). Diese müssen bei der Ziehung ebenfalls berücksichtigt werden. Dies ist einfach durch Einordnen der Institutionen als den Gebäuden entsprechenden Einheiten zu erreichen. Weitere Details finden sich in Schnell (2008).
214
6 Mehrstufige und mehrphasige Verfahren
In der dritten Stufe wird dann aus den gezogenen Haushalten die gewünschte Menge an Individuen per einfacher Zufallsauswahl gezogen. Die praktische Umsetzung erfolgte durch eine Tabelle, in der abhängig von der Anzahl der relevanten Personen im Haushalt die Nummer des zu ziehenden Elements steht. Man spricht bei diesem Verfahren auch von einem „Schwedenschlüssel“, engl. „kish-selectiongrid“.
6.6 Literatur Da die mehrstufigen Auswahlverfahren in der Praxis sehr häufig angewendet werden, bezieht sich ein großer Teil der aktuellen Forschungsliteratur auf solche Designs. Im Jahr 2007 wurde sogar eine im Internet frei verfügbare Zeitschrift gegründet, die Zeitschrift „Survey Research Methods“, siehe Lynn und Schnell (2007). Die mehrstufigen Verfahren zur Bestimmung von Populationsgrößen, die in der Ökologie angewendet werden, wie z.B. Capture-Recapture Verfahren, werden in dem Buch „Advanced Distance Sampling“ von Buckland, Anderson, und Burhham (2008) ausführlich behandelt. Eine aktuelle Zusammenfassung bieten zwei Sammelbände aus der Reihe Handbook of Statistics (Band 29A, 29B). Hier sind insbesondere Abschnitte über komplexe Designs (Berger & Tillé, 2009) und über mehrphasige Stichproben (Legg & Fuller, 2009) zu finden. Mit Erweiterungen von Regressionsschätzern auf komplexere Designs haben sich Opsomer (2009) und Breidt und Oposmer (2009) beschäftigt. Die Umsetzung mit R wird in dem Buch von Lumley (2010) behandelt.
6.7 Numerische Umsetzung 6.7.1 Zweistufige Stichprobe Wir stellen nachfolgend vor, wie eine zweistufige Stichprobe mit Hilfe des bereits im vorherigen Kapitel besprochenen Pakets survey realisiert werden kann. Wir beschränken uns in der Darstellung auf die Berechnung des Quotientenschätzers bei zweistufigen Designs und auf die Berechnung des Hansen-Hurwitz-Schätzers für den Fall der PPS-Ziehung. Für weitere komplexe Designs sei auf Lumley (2010) verwiesen. Zur Berechnung werden wie bereits bei der einfachen Cluster-Stichprobe die beiden Funktionen svydesign(·) und svymean(·) benutzt. > svydesign(ids, probs=NULL, + fpc=NULL, data = NULL, weights=NULL, ...) # ids # # # probs #
Formula or data frame specifying cluster ids from largest level to smallest level, ~0 or ~1 is a formula for no clusters. Formula or data frame specifying cluster sampling probabilities
6.7
Numerische Umsetzung
# fpc # weights # # data #
215
Finite population correction Formula or vector specifying sampling weights as an alternative to prob Data frame to look up variables in the formula arguments
Wesentlich ist die Variable ids, mit der die Struktur, d.h. die Stufen der Ziehung angegeben wird. Mit der Variable probs können die Auswahlwahrscheinlichkeiten angegeben werden. Schließlich liefert die Variable data die Verbindung zu dem entsprechenden Datensatz. Die Schätzung erfolgt wieder durch die Funktion svymean(·). > svymean(x, design, ...) # x # design
A formula, vector or matrix survey.design object
Mit x wird ein Formelobjekt übergeben, das im einfachsten Fall die Form ∼y hat. Mit design wird das vorher definierte Stichprobendesign übergeben. Wir betrachten eine zweistufige Stichprobe mit dem interessierenden Merkmal y. Die Daten seien wie folgt gegeben. > print(data)
1 2 3 4 5 6 7 8 9
cluster id nl Nl M y 1 1 4 100 23 23 1 2 4 100 23 33 1 3 4 100 23 24 1 4 4 100 23 25 2 1 3 50 23 72 2 2 3 50 23 74 2 3 3 50 23 71 3 1 2 75 23 37 3 2 2 75 23 42
Die Einheiten erster Stufe werden durch die Variable cluster definiert. Hier wurden 3 Gruppen von insgesamt M = 23 Gruppen gezogen. Die Variable M wird für die weitere Berechnung benötigt und ist daher in dem Datensatz als eigene Variable gegeben. Weiter sind die Einheiten innerhalb der Gruppen mit der Variablen id gekennzeichnet. Zusätzlich sind der jeweilige Stichprobenumfang und der Gesamtumfang der Gruppen durch die Variablen nl bzw. Nl gegeben. Wir gehen zunächst von einer einfachen Zufallsstichprobe auf beiden Stufen aus und berechnen den Quotientenschätzer Y¯ 2S,Q S nach Formel (6.6). Es gilt hierzu das Stichprobendesign zu definieren. In der Variablen ids wird die Formel sequen-
216
6 Mehrstufige und mehrphasige Verfahren
tiell mit cluster+id angegeben. Die Variable cluster bezeichnet die Gruppen (1. Stufe) und die Variable id die Individuen (2. Stufe). Entsprechend werden die Populationsgrößen für den Korrekturfaktor für endliche Populationen angegeben. Die Populationsgröße beträgt auf der ersten Stufe M, auf der zweiten Stufe Nl. Auch dies wird sequentiell notiert als additive Formel M+Nl. Da die Ziehung nach dem Prinzip der einfachen Zufallsstichprobe erfolgt, sind keine weiteren Angaben zu der Variablen probs nötig. Das Stichprobendesign wird folgendermaßen definiert. > design.2S.QS <- svydesign(ids=~cluster+id, fpc=~M+Nl, + data=data) > summary(design.2S.QS) 2 - level Cluster Sampling design With (3, 9) clusters. svydesign(ids = ~cluster + id, fpc = ~M + Nl, data = data) Probabilities: Min. 1st Qu. Median Mean 3rd Qu. Max. 0.003478 0.005217 0.005217 0.005700 0.007826 0.007826 Population size (PSUs): 23 Data variables: [1] "cluster" "id" "nl" "Nl" "M" "y" Durch die summary(·)-Funktion wird das Design dargestellt, was zur Kontrolle sehr hilfreich ist. Sie liefert neben der Bezeichnung des Designs (hier 2-level Cluster design) eine Beschreibung der Verteilung der Ziehungswahrscheinlichkeinl 3 · 23 . Den kleinsten Wert erhält man für die ten. In unserem Beispiel sind diese Nl Untersuchungseinheiten 8 und 9. Da mit den inversen Auswahlwahrscheinlichkeiten gewichtet wird, können kleine Auswahlwahrscheinlichkeiten oder eine starke Streuung der Auswahlwahrscheinlichkeiten zu Problemen führen. Nach Definition des Designs kann nun der Schätzer für den Mittelwert der interessierenden Größe wie schon im letzten Kapitel mit der Funktion svymean(·) berechnet werden. > svymean(~y, design.2S.QS) mean SE y 40.907 10.931 Die Varianzschätzung in dem survey-Paket basiert auf einer etwas anderen Approximationsformel als Formel (6.7). Die Details finden sich in Lumley (2010) und sollen hier nicht weiter erörtert werden.
6.7
Numerische Umsetzung
217
Ist bei der Auswahl der Gruppen keine einfache Zufallsauswahl vollzogen worden, sondern wurden die Gruppen mit Auswahlwahrscheinlichkeit proportional zu ihrer Gruppengröße gezogen, so müssen die entsprechenden Auswahlwahrscheinlichkeiten bei der Spezifikation des Stichprobendesigns mit angegeben werden. Wie in obigem Kapitel berechnet sind diese proportional zu nl und können in der Spezifikation des Stichprobendesigns angegeben werden durch prob=∼nl. Die Kenntnis des Gesamtumfangs N der Population ist nicht erforderlich. Die entsprechenden Befehle lauten wie folgt.
> design.2S.HH <- svydesign(ids=~cluster+id, prob=~nl, + data=data) > summary(design.2S.HH) 2 - level Cluster Sampling design (with replacement) With (3, 9) clusters. svydesign(ids = ~cluster + id, prob = ~nl, data = data) Probabilities: Min. 1st Qu. Median Mean 3rd Qu. Max. 2.000 3.000 3.000 3.222 4.000 4.000 Data variables: [1] "cluster" "id" "nl" "Nl" "M" "y"
Man beachte, dass wie im obigen Kapitel erwähnt die Berechnung der Varianz bei einem reinen PPS Design schwierig ist und man statt dessen übergeht zu einem Design mit Zurücklegen und den entsprechenden Schätzer Y¯ 2S,H H nach (6.10) berechnet. Dies wird in der Zusammenfassung des Designs nach Aufruf der Funktion summary(·) expilzit durch den Hinweis „with replacement“ angegeben. Der entsprechende Schätzer ergibt sich nun wie gehabt durch
> svymean(~y, design.2S.HH) mean SE y 46.028 13.698
6.7.2 Modellbasierte zweiphasige Verfahren Die Berechnung von modellbasierten zweiphasigen Schätzern ist im Prinzip auch mit Hilfe des im vorigen Kapitel besprochenen R-Pakets survey möglich. Die Verwendung der bereitgestellten Routinen ist jedoch recht komplex, so dass wir hier auf die in Abschn. 3.7 besprochene Funktion mbes(·) zurückgreifen.
218
6 Mehrstufige und mehrphasige Verfahren
Wir illustrieren das Vorgehen anhand des Beispiels 6.6 (siehe S. 207). Dazu geben wir zunächst die entsprechenden Daten an, die im Prinpzip einem Datensatz mit 1 000 Einträgen entsprechen würden. Diese n = 1 000 Individuen wurden in der ersten Phase gezogen, wovon n = 100 in der zweiten Phase bezüglich des Merkmals Y noch einmal erhoben wurden. Das heißt für Merkmal Y liegt nur Information von 100 Individuen vor. Ein entsprechender Datensatz sieht wie folgt aus Tabelle 6.2 Datensatz (gekürzt) einer zweiphasigen Stichprobe id
x
y
phase
1 2
1 1
1 1
2 2
1 0
1 1
2 2
0 0
1 0
2 2
0 1
0 NA
2 1
1 0
NA NA
1 1
0 0
NA NA
1 1
... 10 11
... 15 16
... 100 101
... 170 171
... 999 1000
Dabei entspricht die Variable x (x=1 für „defekt“ und x=0 für „in Ordnung“) der ersten einfachen Kontrolle, die in der ersten Phase durchgeführt wird. Die Variable y bezeichnet die zweite (genaue) Kontrolle (y=1 für „defekt“ und y=0 für „in Ordnung“). Die Variable phase gibt an, zu welcher Phase die Daten gehören. Da es sich um binäre Daten handelt, kann der Datensatz aufgrund der Angaben aus der Vierfeldertafel auf S. 207 wie folgt erzeugt werden. > > > > > >
id <- 1:1000 x <- rep(c(1, 0, 1, 0), times=c(10, 90, 70, 830)) y <- rep(c(1, 0, NA), times=c(15, 85, 900)) phase <- c(rep(2, 100), rep(1, 900)) data <- data.frame(id, x, y, phase) head(data)
1 2 3 4
id 1 2 3 4
x 1 1 1 1
y phase 1 2 1 2 1 2 1 2
6.7
5 6
Numerische Umsetzung
5 1 1 6 1 1
219
2 2
Um nun die Quotientenschätzung in der zweiten Phase durchzuführen, müssen der Mittelwert von x und der Gesamtumfang der ersten Phase berechnet werden. Da die Stichprobe der ersten Phase als Grundgesamtheit in der zweiten Phase betrachtet wird, müssen die Parameter entsprechend übergeben werden. > mean.x <- mean(data$x) > mean.x [1] 0.08 > N1 <- length(data$x) > N1 [1] 1000 > est.y <- mbes(y~x, data=data, aux=mean.x, N=N1, + method='ratio') > est.y mbes object: Model Based Estimation of Population Mean Population size N = 1000, sample size n = 100 Values for auxiliary variable: X.mean.1 = 0.08, x.mean.1 = 0.1 ---------------------------------------------------------------Ratio Estimate Mean estimate: 0.12 Standard error: 0.0261 95% confidence interval [0.06882,0.1712] In Bezug auf den Mittelwertschätzer stellt der Quotientenschätzer bereits das endgültige Ergebnis dar. Der Standardfehler ist allerdings noch nicht korrekt, da er die Unsicherheit in der ersten Phase nicht berücksichtigt. Diese wird durch folgende Befehle hinzugefügt: > v.y <- var(data$y, na.rm=TRUE) > v.y [1] 0.1287879
220
6 Mehrstufige und mehrphasige Verfahren
> se.y <- sqrt(est.y$ratio$se^2 + v.y/N1) > se.y [1] 0.02847114 Das endgültige Konfidenzintervall ist dann > lower <- est.y$ratio$mean - qnorm(0.975)*se.y > upper <- est.y$ratio$mean + qnorm(0.975)*se.y > c(lower,upper) [1] 0.06419758 0.17580242 Man erkennt, dass der Standardfehler sich nicht wesentlich von dem der zweiten Phase unterscheidet. Dies ist mit dem relativ hohen Stichprobenumfang (n = 1 000) in der ersten Phase zu erklären. Das hier beschriebene Vorgehen ist für die drei Typen von designbasierten Schätzern unmittelbar übertragbar. Bei komplexeren Designs kann die – allerdings etwas schwer zu benutzende – Prozedur twophase(·) des Pakets survey verwendet werden, siehe Lumley (2010).
6.7.3 Zweiphasige geschichtete Stichprobe Im Folgenden wollen wir die Umsetzung einer zweiphasigen geschichteten Stichprobe zeigen, zu der das Stichprobendesign mit der Funktion twophase(·) definiert wird. > twophase(id, strata = NULL, probs = NULL, weights = NULL, + fpc = NULL, subset, data) # # # # # # # # # #
id strata probs weights fpc subset data
list of two formulas for list of two formulas (or list of two formulas (or probabilities list of two formulas (or list of two formulas (or population corrections formula specifying which in phase 2 Data frame with all data
sampling unit identifiers NULLs) for stratum identifiers NULLs) for sampling NULLs) for sampling weights NULLs) for finite observations are selected for phase 1 and 2
Wie gehabt gibt id die Identifikationsnummern der gezogenen Individuen in der ersten bzw. zweiten Phase an. Mit strata werden die Schichten angegeben. Die Angabe der Auswahlwahrscheinlichkeiten erfolgt über probs bzw. die Angabe der inversen Auswahlwahrscheinlichkeiten über weights. Korrekturfaktoren für endli-
6.7
Numerische Umsetzung
221
che Populationen sind mit fpc zur Verfügung gestellt, wobei NULL bedeutet, dass die Populationsgröße unbekannt ist. Die Angabe der Phasen erfolgt mit subset und schließlich wird mit data der entsprechende Datensatzname übergeben. Wir greifen Beispiel 6.6 nochmals auf. Die Daten stehen gemäß Tabelle 6.2 zur Verfügung bzw. sind wie oben beschrieben eingelesen. Nun betrachten wir die Variable x als Schichtungsmerkmal. Da zur Definition des Stichprobendesigns die Schichtgrößen n h in der ersten Phase benötigt werden, wird diese Information zuerst durch die Variable nh.strich in den Datensatz aufgenommen. > data$nh.strich <- NA > data$nh.strich[data$x==1] <- 80 > data$nh.strich[data$x==0] <- 920 Anschließend bestimmen wir das Design. Gezogen werden in der ersten und zweiten Phase die Individuen id. Die Ziehung der ersten Phase ist nicht geschichtet, deshalb wird für strata der Wert NULL übergeben, die zweite Phase ist durch die Variable x geschichtet. Die zweite Phase wird durch subset spezifiziert, wobei die unten stehende Angabe durch die Funktion I(·) bewirkt, dass erst die entsprechende Auswertung phase==2 durchgeführt wird. Schließlich sind die Populationsgrößen für die Phasen durch fpc angegeben. Der Funktionsaufruf ist somit wie folgt. > design.2P.GS <- twophase(id=list(~id,~id), + strata=list(NULL,~x), + subset = ~I(phase==2), + fpc=list(NULL,~nh.strich), + data = data) > summary(design.2P.GS) Two-phase sparse-matrix design: twophase2(id = id, strata = strata, probs = probs, fpc = fpc, subset = subset, data = data) Phase 1: Independent Sampling design (with replacement) svydesign(id = ~id) Probabilities: Min. 1st Qu. Median Mean 3rd Qu. Max. 1 1 1 1 1 1 Phase 2: Stratified Independent Sampling design svydesign(id = ~id, strata = ~x, fpc = ~nh.strich) Probabilities: Min. 1st Qu. Median Mean 3rd Qu. Max. 0.09783 0.09783 0.09783 0.10050 0.09783 0.12500
222
Stratum Sizes: 0 1 obs 90 10 design.PSU 90 10 actual.PSU 90 10 Population stratum sizes (PSUs): 0 1 920 80 Data variables: [1] "id" "x" "y"
6 Mehrstufige und mehrphasige Verfahren
"phase"
"nh.strich"
Der entsprechende Schätzer der zweiphasigen geschichteten Stichprobe ergibt sich durch den Befehl svymean(·). > svymean(~y, design.2P.GS) mean SE y 0.13111 0.0238 Es muss vermerkt werden, dass die Berechnung der Varianzen mit svymean(·) approximativ ist, siehe Lumley (2010). Letztendlich ist die Approximation allerdings in konkreten Anwendungen hinreichend genau, so dass den Ergebnissen der Funktion Vertrauen geschenkt werden kann.
Kapitel 7
Probleme in der Anwendung
In diesem Kapitel sollen einige konkrete und in der Anwendung besonders relevante Probleme diskutiert werden. Zunächst beschäftigen wir uns kurz mit räumlichen Stichproben und deren Besonderheiten. Weitergehend greifen wir den Punkt von fehlenden Werten auf. Bei der Behandlung von fehlenden Werten lassen sich häufig nur prinzipielle Überlegungen zu möglichen Verzerrungen der Ergebnisse machen. Auch wenn in der Literatur einige Ansätze zur Behandlung fehlender Werte bereit stehen, sind diese häufig wegen des Fehlens der entsprechenden Information nicht anwendbar. Wir beschränken uns daher nur auf die Grundlagen und verweisen für die Verfahren auf die Literatur. Ein weiterer Abschnitt des Kapitels ist dem Thema Anonymisierung von Daten und sogenannten Randomized-Response-Techniken gewidmet. Diese Verfahren weisen starke Analogien zur Theorie von Messfehlern und falschen Antworten auf, die wir in Abschn. 7.4 behandeln. In der Praxis werden Probleme der NichtBeantwortung bzw. Nicht-Erreichbarkeit mit Strategien der nachträglichen Schichtung verbunden, indem Stichprobengewichte eingeführt werden. Diesem Ansatz ist der letzte Abschnitt des Kapitels gewidmet.
7.1 Räumliche Stichproben Erhebungen, bei denen die Untersuchungseinheiten räumlich definiert sind, spielen in der Anwendung eine zunehmende Rolle. Beispiele sind hier in der Umweltstatistik, der Wildbiologie und der Epidemiologie zu finden. Typischerweise besteht die Population aus räumlichen Einheiten (z.B. Planquadrate, Bezirke) und die Merkmale sind solche, die die Umweltbelastung charakterisieren, die Häufigkeit des Vorkommens einer Tierart, oder auch die Inzidenz von bestimmten Krankheiten. Das Ziel der Erhebungen kann einerseits in der Bestimmung des Gesamtmittels von bestimmten Merkmalen liegen, andererseits ist man häufig an Charakteristika der gesamten räumlichen Struktur interessiert. Diese werden üblicherweise durch eine Landkarte dargestellt. Ein Beispiel dafür ist der sogenannte Krebsatlas, wo
G. Kauermann, H. Küchenhoff, Stichproben, Springer-Lehrbuch, C Springer-Verlag Berlin Heidelberg 2011 DOI 10.1007/978-3-642-12318-4_7,
223
224
7 Probleme in der Anwendung
(standardisierte) Krebshäufigkeiten in Regionen dargestellt werden. Bei den Verfahren der räumlichen Statistik geht man davon aus, dass Untersuchungseinheiten, die benachbart sind, also räumlich beieinander liegen, ähnliche Werte in den Merkmalen aufweisen, also miteinander korreliert sind. Bei der Frage der Schätzung des Gesamtmittels können wir auf die bereits besprochenen Verfahren der geschichteten, der Cluster-Stichprobe und der systematischen Stichprobe zurückgreifen. Da nach dem Schichtungsprinzip die Streuung der Merkmale innerhalb der Schichten gering sein soll, ist offensichtlich eine Schichtung in zusammenhängende Regionen, deren Einheiten eine möglichst geringe räumliche Entfernung haben, sinnvoll. Matérn (1986) hat die Frage nach der besten geometrischen Form für die entsprechenden Schichten untersucht. Er geht davon aus, dass die Korrelation zwischen den Einheiten unabhängig von der Richtung mit der Entfernung monoton abnimmt. Dies ist eine plausible Annahme, wenn keine zusätzlichen Informationen vorliegen. Es zeigt sich dann, dass Schichten von kreisförmiger, sechseckiger, quadratischer Form in dieser Reihenfolge die höchste Effizienz aufweisen. Allerdings sind die Unterschiede in diesen Formen nicht besonders groß und daher wählt man häufig quadratische Schichten, da eine Aufteilung in kreisförmige Schichten eher schwierig ist. Zu beachten ist aber, dass quadratische Schichten wesentlich effizienter sind als rechteckige Schichten mit ungleichen Seitenlängen. Dies ist in Abb. 7.1 dargestellt. In der Umweltforschung sind räumliche Stichproben von großer Bedeutung. Hier liegen in der Regel a priori Informationen zu räumlichen Hilfsgrößen vor, so dass typischerweise designbasierte Stichprobenverfahren (geschichtete Stichprobe, mehrstufige Verfahren) zur Anwendung kommen. Zu beachten ist bei räumlichen Stichproben, dass die Zielsetzung häufig nicht nur die Bestimmung des Populationsmittels, sondern eine Abschätzung der gesamten räumlichen Verteilung ist. Weiter wurden sogenannte adaptive Verfahren entwickelt. Hierbei wird die Ziehung der Einheiten schrittweise durchgeführt und die Ziehung neuer Komponenten hängt von den Ergebnissen der bisherigen Ziehungen ab. Wenn man sich bei-
Abb. 7.1 Aufteilung in Schichten in Form von Quadraten (links) ist meist wesentlich effizienter als die Aufteilung in Rechtecke (rechts)
7.2
Fehlende Werte und nicht erreichbare Individuen
225
spielsweise für die Schadstoffbelastung im Boden interessiert und man hat in einem Planquadrat eine hohe Belastung gefunden, erlaubt ein adaptives Verfahren, dass dann die Ziehungswahrscheinlichkeit für benachbarte Einheiten höher angesetzt wird. Dieses Vorgehen muss natürlich bei der Parameterschätzung berücksichtigt werden. Eine Einführung zu diesen Verfahren ist in Thompson (2002) zu finden. Ein aktueller Überblick zu räumlichen Stichproben in der Umweltforschung findet sich in Marker und Stevens (2009).
7.2 Fehlende Werte und nicht erreichbare Individuen Bei der konkreten Durchführung von Erhebungen tritt häufig das Problem auf, dass nicht alle Daten korrekt erhoben werden können. Dies kann vielfältige Ursachen haben. Führt man z.B. eine Befragung durch, kann es vorkommen, dass die ausgewählte Person nicht auffindbar ist oder sich weigert, an der Untersuchung teilzunehmen („Unit-Non-Response“). Ebenso kann eine Person auch nur die Beantwortung einzelner Fragen verweigern („Item-Non-Response“). Das Auftreten von fehlenden Werten ist eine der Hauptquellen von systematischen Fehlern bei der Auswertung von Stichprobendaten. Daher ist der Effekt und die Entwicklung von Korrekturverfahren Gegenstand aktueller Forschung, siehe z.B. Groves, Dillman, Eltinge, und Little (2002). Wir verwenden die folgenden Formulierungen. • Als antwortbereit bezeichnen wir die Personen in der Grundgesamtheit, die erreichbar, gewillt und fähig sind, die gestellte Frage zu beantworten. Für antwortbereite Personen erhält man somit eine gültige Antwort, falls diese in die Stichprobe gezogen werden. Falls die Untersuchungseinheiten keine Personen sind, fallen auf andere Weise erhebbare Werte in diesen Bereich. Entscheidend ist ein gültiger resultierender Wert. • Als nicht antwortbereit bezeichnen wir die Personen in der Grundgesamtheit, die nicht erreichbar sind oder erreichbar sind, aber die gestellte Frage nicht beantworten wollen oder können. Für nicht antwortbereite Personen erhält man somit aus unterschiedlichen Gründen keine gültige Antwort, falls diese in die Stichprobe gezogen werden. Falls die Untersuchungseinheiten keine Personen sind, fallen aus anderen Gründen nicht erhebbare Werte in diesen Bereich. Entscheidend ist ein fehlender Wert. • Als Antworter bezeichnen wir die Personen bzw. Untersuchungseinheiten, die in die Stichprobe gezogen wurden und für die ein gültiger Wert erhoben werden konnte. • Als Antwortverweigerer bezeichen wir die Personen bzw. Untersuchungseinheiten, die in die Stichprobe gezogen wurden, für die aber dennoch kein gültiger Wert erhoben werden konnte. Wir verwenden die folgende Notation:
226
7 Probleme in der Anwendung
Fehlende Werte und nicht erreichbare Individuen Unter Verwendung der obigen Definiton von Antwortbereitschaft notieren wir:
In der Grundgesamtheit: G Y¯
Grundgesamtheit Mittelwert in der Grundgesamtheit
G1 W1 = |G 1 |/|G| Y¯1
Anzahl antwortbereiter Personen Anteil antwortbereiter Personen Mittelwert der antwortbereiten Personen
G2 W2 = |G 2 |/|G| Y¯2
Anzahl nicht antwortbereiter Personen Anteil nicht antwortbereiter Personen Mittelwert nicht antwortbereiter Personen
In der Stichprobe: n
geplanter Stichprobenumfang
n1 y11 , . . . , y1n 1 y¯1
realisierter Stichprobenumfang tatsächlich beobachtete Werte Mittelwert der Antworter
n2 = n − n1
Differenz zwischen geplantem und realisiertem Stichprobenumfang nicht erhebbare Werte unbekannter Mittelwert der Antwortverweigerer
y21 , . . . , y2n 2 y¯2
Wir betrachten zunächst ein einfaches Grundmodell zum besseren Verständnis der Wirkung von fehlenden Daten auf die Schätzung der entsprechenden Parameter. Dazu teilen wir eine Grundgesamtheit von Personen in zwei Teile. Der erste Teil G 1 besteht aus den Personen, die eine Frage zum Merkmal Y (z.B. Einkommen) korrekt beantworten. Der zweite Teil G 2 besteht aus den nicht antwortbereiten Personen. Die Anteile der beiden Gruppen an der Grundgesamtheit G = G 1 ∪ G 2 bezeichnen wir mit • W1 = |G 1 |/|G| für die Gruppe der antwortbereiten Personen und mit • W2 = |G 2 |/|G| = 1 − W1 für die Gruppe der nicht antwortbereiten Personen.
7.2
Fehlende Werte und nicht erreichbare Individuen
227
Für das arithmetische Mittel der Variable Y in der Grundgesamtheit gilt: Y¯ = W1 Y¯1 + W2 Y¯2 = W1 Y¯1 + (1 − W1 )Y¯2 . Bei der Auswertung einer Stichprobe können die Personen, die zu G 2 gehören und somit nicht geantwortet haben, nicht in die Schätzung einbezogen werden. Wir verwenden im Folgenden die Notation aus der nachträglich geschichteten Stichprobe. Mit y11 , . . . , y1n 1 werden die tatsächlich beobachteten Werte der Stichprobe bezeichnet, mit y21 , . . . , y2n 2 die nicht erhebbaren Werte der nicht antwortenden Personen. Zur Schätzung von Y¯ ist es naheliegend, das arithmetische Mittel der beobachteten Werte („complete cases“) zu verwenden: n1 1
Y¯ CC = y1k = y¯1 . n1
(7.1)
k=1
Für den Erwartungswert von Y¯ CC gilt offensichtlich E Y¯ CC = Y¯1 . Der Bias von Y¯ CC ist somit E Y¯ CC − Y¯ = Y¯1 − Y¯
(7.2)
(7.3)
= Y¯1 − (W1 Y¯1 + (1 − W1 )Y¯2 ) = (1 − W1 )(Y¯1 − Y¯2 ). Aus dieser einfachen Formel sind folgende Eigenschaften der Verzerrung durch Antwortverweigerung abzuleiten: 1. Die Verzerrung hängt von der Größe des Unterschieds der Mittelwerte Y¯1 und Y¯2 ab. Sind beide Mittelwerte gleich, so gibt es keine Verzerrung. Im konkreten Fall ist dies natürlich schwer zu entscheiden, da für die Antwortverweigerer keine Daten vorliegen. Hierzu sind häufig inhaltliche Überlegungen nötig. Im Fall des Einkommens ist also zu überlegen, ob die Antwortverweigerer eher Personen mit überdurchschnittlichem Einkommen sind oder diejenigen mit unterdurchschnittlichem Einkommen. Falls das Einkommen und die Bereitschaft zu antworten voneinander unabhängig sind, d.h. die Durchschnittseinkommen von Antwortern und Antwortverweigerern praktisch identisch sind, gibt es keinen systematischen Fehler. 2. Die Verzerrung ist weiterhin von dem Anteil der Antwortverweigerer abhängig. Je höher dieser ist, desto größer ist der systematische Fehler. Allerdings lassen sich daraus keine allgemeingültigen Regeln, wie z.B. „Bei einer Rate von 80% Antwortern ist der Fehler durch Antwortverweigerung vernachlässigbar“ ablei-
228
7 Probleme in der Anwendung
ten, da die Verzerrung (wie unter Punkt 1 beschrieben) auch von der Größe des Unterschieds der Mittelwerte Y¯1 und Y¯2 abhängt.
Complete Case Schätzer Zur Schätzung von Y¯ wird das arithmetische Mittel der beobachteten Werte („complete cases“) verwendet. n1 1
y1k = y¯1 . Y¯ CC = n1 k=1
Der Erwartungswert von Y¯ CC ist E Y¯ CC = Y¯1 . Der Bias von Y¯ CC ist E Y¯ CC − Y¯ = Y¯1 − Y¯ = (1 − W1 )(Y¯1 − Y¯2 ) Beispiel 7.1: Stadtratswahl in München Bei Stadtratswahlen in Bayern können entweder Listen von Parteien angekreuzt werden oder einzelne Personen aus verschiedenen Listen gewählt werden. Dabei hat jede Wählerin/jeder Wähler so viele Stimmen, wie es Sitze in dem entsprechenden Stadtrat gibt. In München können die Wahlberechtigten also 80 Stimmen verteilen. Dazu haben sie die Möglichkeit die Liste einer Partei anzukreuzen (dann erhält die Partei alle 80 Stimmen) oder einzelne Personen aus verschiedenen Parteilisten anzukreuzen. Die Verteilung der Mandate richtet sich nach der Gesamtzahl der Stimmen für die Kandidaten der einzelnen Parteien. Es gibt also zwei Typen von Wählern, die Listenwähler und die Persönlichkeitswähler. Bei der Stadtratswahl in München 1996 wurden zunächst die Stimmen der Listenwähler ausgezählt. Diese wurden als Grundlage der Berichterstattung über die Wahl verwendet. Es handelt sich hierbei zwar nicht um ein Problem durch Antwortverweigerung im engeren Sinne, wir können aber die Persönlichkeitswähler als „Antwortverweigerer“ betrachten, da diese nicht in die Auswertung einbezogen wurden. Das Ergebnis lautete (SZ vom 11.03.1996): Partei
Anteil
CSU SPD Grüne FDP
40,7 37,9 7,7 2,9
7.2
Fehlende Werte und nicht erreichbare Individuen
229
Der Anteil der Listenwähler lag bei ca. 70%. Wenden wir nun unsere Überlegungen von oben (7.3) an, erhält man beispielsweise für den Anteil der Wähler der Grünen Y (G) folgenden Bias: Bias = (1 − W1 )(Y¯1 − Y¯2 ) = 0, 3 · (Y¯1 − Y¯2 ). Dabei wird der Anteil der Grünen-Wähler bei den Listenwählern mit Y¯1 und der Anteil der Persönlichkeitswähler (noch nicht ausgezählt) mit Y¯2 bezeichnet. Der Bias hängt also vom Unterschied der Anteile bei den Listenwählern und den Persönlichkeitswählern ab. Um für diese eine Einschätzung zu erhalten, hätte man Ergebnisse der letzten Wahl heranziehen können. Es stellte sich nach der Auszählung aller Stimmen heraus, dass der Unterschied erheblich war. Die SZ titelte am Dienstag „Das Blatt wendet sich zugunsten von Rot-Grün“. In der folgenden Tabelle sind die Endergebnisse beider Wählergruppen und der Bias dargestellt. Partei
Anteile Listenwähler Y¯1
CSU SPD Grüne FDP
40,7 37,9 7,7 2,9
Anteile Personenwähler Y¯2 31,4 36,2 14,0 4,2
Gesamt Y¯ 37,9 37,4 9,6 3,3
Bias 2,8 0,5 −1,9 −0,4
Das obige Beispiel zeigt deutlich, dass die Betrachtung von Teilen der Grundgesamtheit zu erheblichen Verzerrungen führen kann. Obwohl die „Stichprobe“ hier sehr groß ist (70%), ist der direkte Schluss auf die Grundgesamtheit nicht korrekt. Eine Zufallsstichprobe hätte sicherlich zu besseren Ergebnissen geführt (siehe dazu auch Abschn. 2.3). Generell kommen durch das Auftreten von fehlenden Werten bzw. Antwortverweigerern möglicherweise nicht-zufällige, d.h. systematische und damit verzerrende Effekte zur Wirkung. Beispiel 7.2: Telefonische Befragung und Nicht-Antworter-Verhalten bei einer Befragung zur Erwerbstätigkeit Asef und Riede (2006) diskutieren mögliche Effekte des Nicht-Antworter-Verhaltens in Zusammenhang mit der Erhebungsstrategie. Bei einer telefonischen Befragung des Statistischen Bundesamtes (Wiesbaden) wurde eine Zufallsstichprobe aus den für den Mikrozensus ausgewählten Haushalten gezogen. Ein zentrales Merkmal war hierbei die Art der Berufstätigkeit der befragten Personen mit den Antwortmöglichkeiten „erwerbstätig“, „erwerbslos“ und „Nichterwerbsperson“. Dabei wurde eine zweistufige Stichprobe gezogen. Zunächst wurde ein Haushalt nach dem sogenannten Gabler-Häder Verfahren ausgewählt. Es handelt sich dabei um eine Technik zur Durchführung von Telefonstichproben, siehe dazu
230
7 Probleme in der Anwendung
Gabler und Häder (1999). Danach wurde aus den in dem Haushalt lebenden Personen zwischen 15 und 74 Jahren eine Person nach dem Prinzip der einfachen Zufallsstichprobe gezogen. Die praktische Umsetzung erfolgte durch eine Tabelle, in der abhängig von der Anzahl der relevanten Personen im Haushalt die Nummer des zu ziehenden Elements steht. Man spricht bei diesem Verfahren auch von einem „Schwedenschlüssel“, engl. „kish-selection-grid“. Die Erhebung wurde zu zwei verschiedenen Zeitpunkten wiederholt und es stellte sich heraus, dass es völlig unplausible Unterschiede zwischen den zwei Erhebungen gab. In der Pilotstudie lag die Schätzung der erwerbstätigen Personen bei über 39 Mio. und in der Hauptstudie bei unter 38 Mio. Der einzige nennenswerte methodische Unterschied zwischen diesen beiden Erhebungen bestand in der Tageszeit, zu der die Haushalte angerufen wurden. Bei der einen Erhebung wurde zwischen 9 und 21 Uhr angerufen und bei der zweiten Erhebung nur zwischen 17 und 21 Uhr. Das bekannte Problem, dass berufstätige, allein lebende Personen tagsüber nicht telefonisch erreichbar sind, sollte in beiden Erhebungen dadurch gelöst werden, dass im Fall des Nicht-Antreffens der ausgewählten Personen ein weiterer Versuch der Kontaktaufnahme zwischen 20 und 21 Uhr erfolgte. Also kann der Unterschied in der Verteilung der Berufsgruppen zwischen den beiden Erhebungen nicht direkt auf dieses Problem zurückgeführt werden. Eine weitere Analyse des Nicht-Antworter-Verhaltens ergab, dass bei einer solchen freiwilligen Befragung mehrere Hürden zu überwinden sind. Zunächst können die Angerufenen die Teilnahme direkt verweigern. Das trat in beiden Befragungen in 40% der Fälle auf. Nach der prinzipiellen Bereitschaft zur Teilnahme gibt der Angerufene die Zahl der in dem Haushalt lebenden Personen im entsprechenden Alter an. Dann wird mit dem Schwedenschlüssel die Zielperson ermittelt. Ist diese die Person am Telefon, so wird das Interview direkt durchgeführt. Da im Laufe des Interviews einige wenige Personen abbrechen, kommt es in 95% der Fälle zu einer erfolgreichen Erhebung. Stimmt die Person nicht mit der Zielperson überein, kommt es zu einer höheren Ausfallrate (ca. 32%), da die andere Person von sich aus die Antwort verweigern kann oder nicht erreichbar ist. Das Auftreten von fehlenden Werten hängt also stark davon ab, ob die Person am Telefon die Zielperson ist. In Tabelle 7.1 sind die Ergebnisse nach der Frage der Erwerbstätigkeit bei den beiden Befragungen dargestellt. Man erkennt, dass der Anteil der Erwerbstätigen bei den Personen, die direkt befragt Tabelle 7.1 Ergebnisse zweier Telefonbefragungen zur Erwerbstätigkeit nach Asef und Riede (2006). Der wesentliche Unterschied der beiden Befragungen lag in der Zeit der ersten Kontaktaufnahme Erstkontakt vor 17 Uhr Erstkontakt nach 17 Uhr Kontaktperson
= Zielperson (%)
= Zielperson (%)
= Zielperson (%)
= Zielperson (%)
Anteil erfolgreiches Interview Erwerbstätigkeit
55 94
45 68
54 95
46 67
55
63
67
69
7.2
Fehlende Werte und nicht erreichbare Individuen
231
werden (Kontaktperson = Zielperson) in der Erhebung mit Kontaktaufnahme vor 17 Uhr deutlich niedriger ist (55 vs. 67%). Dieser durch die häufigere Abwesenheit von Erwerbstätigen erklärbare Effekt führt zu dem Unterschied zwischen den Erhebungen. Das Beispiel zeigt, dass Gründe für Verzerrungen sehr komplex sein können und es stellt sich die Frage nach der Korrektur bzw. der Vermeidung von Verzerrungen. Eine Strategie mit Nicht-Beantwortern umzugehen, besteht in Nacherhebungen bei den Antwortverweigerern. Dies wurde bereits in Abschn. 6.1 genauer dargestellt. Eine Nacherhebung kann jedoch in vielen Fällen nicht umgesetzt werden, da die Personen weiterhin die Antwort verweigern. Dann können statistische Modelle zur Korrektur verwendet werden, siehe Groves et al. (2002). Strategien, die auf einer Gewichtung beruhen, diskutieren wir in Abschn. 7.5.2. Weiter ist zu beachten, dass die Nicht-Beantworter Problematik durch die Verwendung von alternativen Designs und/oder durch modellbasierte Verfahren entschärft werden kann. Betrachten wir z.B. eine geschichtete Stichprobe. Dann ergibt sich der Mittelwert eines Merkmals Y als Y¯ =
M
Nh ¯ · Yh . N h=1
Teilt man nun die Grundgesamtheit in Antworter und Nicht-Antworter ein, so ergibt sich daraus eine entsprechende Einteilung der Schichten. Bezeichnen wir mit Y¯h1 , h = 1, . . . , M, jeweils die Mittelwerte der erreichbaren und antwortbereiten Personen der einzelnen Schichten. Dann wird aus der Stichprobe unter Verwendung der Antworter der Complete Case Schätzer Y¯ CC,G S =
M
Nh · y¯h1 N h=1
verwendet. Der Erwartungswert des Schätzers ist M
Nh ¯ · Yh1 . E Y¯ CC,G S = N h=1
Der Bias ergibt sich aus (7.3) zu M
Nh ¯ ¯ · (1 − Wh1 ) · (Y¯h1 − Y¯h2 ). E Y CC,G S − Y = N
(7.4)
h=1
Hierbei bezeichnet Wh1 den Anteil der Antworter in Schicht h und Y¯h1 bzw. Y¯h2 die Mittelwerte der Antworter bzw. Nichtantworter in Schicht h. Die Formel (7.4)
232
7 Probleme in der Anwendung
zeigt, dass sich der Antwortverweigerer-Bias aus den entsprechenden Größen innerhalb der Schichten ergibt. Somit werden Effekte vermieden, die daher kommen, dass das Antworterverhalten in den Schichten unterschiedlich ist, wie folgendes hypothetisches Beispiel zeigt. Beispiel 7.3: Bei einem bestimmten Produkt wird der Preis erhoben, den eine Person zu zahlen bereit ist. Der Mittelwert in der Grundgesamtheit liegt bei den Frauen bei 16 e und bei den Männern bei 10 e. Ausgehend von einem Frauenanteil von 0,5 ergibt sich ein Mittelwert in der Grundgesamtheit von 0,5 · 16 + 0,5 · 10 = 13 e. Gehen wir davon aus, dass bei einer Befragung alle Männer antworten und die Frauen zu 50% die Antwort verweigern, kann dies auch zu einer Verzerrung führen, wenn die Antwortverweigerer unter den Frauen den gleichen Mittelwert haben wie die antwortenden Frauen.
Anteile in der Grundgesamtheit Anteil Antworter innerhalb der Gruppen Mittelwert Antworter Mittelwert Antwortverweigerer Mitte
Frauen
Männer
Gesamt
0,5 0,5 16 16 16
0,5 1 10 – 10
1 0,75 12 16 13
Bei einer einfachen Zufallsstichprobe liegt der Erwartungswert der antwortenden Personen bei 13 · 16 + 23 · 10 = 12 e. Diese Verzerrung durch das Übergewicht der Männer in der Stichprobe kann durch (nachträgliche) Schichtung behoben werden. Dies gilt allerdings nicht, wenn die nicht antwortenden Frauen im Mittel deutlich andere Angaben machen als die antwortenden Frauen. Der in dem Beispiel angesprochene Effekt kann auf komplexere Situationen übertragen werden. In den meisten Fällen wird Verzerrung durch Verwendung von modellbasierten Schätzverfahren reduziert. Strategien zur Reduktion der Verzerrung durch Gewichtung werden in Abschn. 7.5 vorgestellt.
7.3 Behandlung delikater Fragen und Anonymisierung von Daten Bei kritischen oder peinlichen Fragen wie „Nehmen Sie Drogen?“ oder „Haben Sie letztes Jahr Steuern hinterzogen?“ ist es offensichtlich schwer, korrekte Antworten zu erhalten. Einerseits werden viele Personen diese Frage nicht wahrheitsgemäß beantworten, andererseits könnte es für den Interviewer problematisch sein, wenn solche Fragen mit „Ja“ beantwortet würden. Er oder sie wäre evtl. verpflichtet, die Person anzuzeigen, was mit einer wissenschaftlichen Untersuchung nicht vereinbar wäre. Für solche Situationen wurde die sog. „Randomized-Response“-Technik ent-
7.3
Behandlung delikater Fragen und Anonymisierungvon Daten
233
wickelt, die von Warner (1965) vorgeschlagen worden ist. Die Methode ist in vielerlei Hinsicht modifiziert worden, wobei der Originalvorschlag wie folgt ist. Auf einen Satz von (Spiel-)Karten wird entweder die Frage „Erfüllen Sie die Eigenschaft A?“ oder die Gegenfrage „Erfüllen Sie nicht die Eigenschaft A?“ geschrieben. Der Befragte zieht zufällig eine Karte, ohne dass der Interviewer weiß, zu welcher der beiden Typen die entsprechende Karte gehört. Dann wird die Frage mit „Ja“ oder „Nein“ beantwortet. Es ist nun gesichert, dass dem Interviewer nicht bekannt ist, auf welche der beiden Fragen der Befragte geantwortet hat. Damit wird die Bereitschaft erhöht die Frage korrekt zu beantworten. Wie lassen sich aus den Daten dennoch Informationen gewinnen? Der Schlüssel dazu liegt darin, dass die Anzahl der verschiedenen Typen von Karten nicht im Verhältnis 1 : 1 stehen, sondern z.B. im Verhältnis 4 : 1 (oder 3 : 1). Das bedeutet, dass die Wahrscheinlichkeit, dass die Frage lautet „Erfüllen Sie die Eigenschaft A?“ 80% (bzw. 75%) beträgt und die Gegenfrage die Wahrscheinlichkeit 20% (bzw. 25%) hat. Wir zeigen im Folgenden, wie man aus den so gewonnenen Daten Schätzungen für die entsprechenden Anteile erhält. Dazu führen wir folgende Bezeichnungen ein.
Behandlung delikater Fragen und Anonymisierung von Daten
n
Stichprobenumfang
A pA
interessierende Eigenschaft der Person Wahrscheinlichkeit, mit der die Frage nach der Eigenschaft A gezogen wird Wahrscheinlichkeit, mit der die Gegenfrage gezogen wird
1 − pA Yi∗ ∈ {0, 1} nY ∗ = pY ∗ =
n
∗ i=1 Yi
nY ∗ n
PY ∗ Yi ∈ {0, 1} PY = P(Y = 1) Y P
Antwort der i-ten zufällig ausgewählten Person auf die zufällige Frage (1=ja, 0=nein) Anzahl der Personen, die auf die zufällige Frage mit „Ja“ antworten (bei n befragten Personen) beobachteter Anteil der Personen, die auf die zufällige Frage mit „Ja“ antworten erwarteter Anteil der Personen, die auf die zufällige Frage mit „Ja“ antworten wahrer Status, sprich wahre Antwort auf die Frage: „Erfüllen Sie die Eigenschaft A?“ (1=ja, 0=nein) wahrer Anteil der Personen mit Eigenschaft A geschätzter Anteil der Personen mit Eigenschaft A
234
7 Probleme in der Anwendung
Die Größe Yi∗ bezeichnet die Antwort des i-ten Individuums auf die zufällig gezogene Frage, während Yi seinen wahren Status, also die Antwort auf die Frage „Erfüllen Sie die Eigenschaft A?“ bezeichnet. Wir interessieren uns für PY , also den Anteil der Personen mit Eigenschaft A. Wir bezeichnen die bekannte Wahrscheinlichkeit für die Ziehung der Frage mit p A . Dann ist die Wahrscheinlichkeit für die Gegenfrage 1 − p A . Daraus ergibt sich für den erwarteten Anteil PY ∗ , dass die (zufällige) Frage mit „Ja“ beantwortet wird: PY ∗ = P(Y ∗ = 1) = p A · PY + (1 − p A ) · (1 − PY ).
(7.5)
Die Antwort „Ja“ kann also von einer Person mit Eigenschaft A kommen, welche die Ursprungsfrage als Karte zieht, oder von einer Person ohne Eigenschaft A mit gezogener Gegenfrage. Durch einfache Umformung der Gl. (7.5) ergibt sich für p A = 12
PY =
PY ∗ + p A − 1 . 2 pA − 1
(7.6)
Wir gehen zunächst davon aus, dass die Personen korrekt antworten. Nun kann aus den Daten der erwartete Anteil PY ∗ durch die relative Häufigkeit pY ∗ geschätzt werden. Dies ermöglicht es aus den erhobenen Daten eine Schätzung für PY herzuleiten, indem in Formel (7.6) auf der rechten Seite der Gleichung PY ∗ durch pY ∗ ersetzt wird. Man erhält
Y = P
nY ∗ n
+ pA − 1 . 2 pA − 1
(7.7)
Hierbei ist n Y ∗ die Anzahl der Personen, die die Frage mit „Ja“ beantworten. Da die Ziehungswahrscheinlichkeit p A bekannt ist, ergibt sich die Varianz des SchätY als zers P Y ) = Var( P
1 1 . · PY ∗ · (1 − PY ∗ ) n (2 p A − 1)2
(7.8)
Unter Benutzung des Zusammenhangs von PY ∗ , p A und PY erhält man Y ) = Var( P
1 p A · (1 − p A ) · PY · (1 − PY ) + . n (2 p A − 1)2
(7.9)
7.3
Behandlung delikater Fragen und Anonymisierungvon Daten
235
Schätzung im Randomized-Response-Modell
Bei einer Befragung wird mit bekannter Wahrscheinlichkeit p A die Frage nach der Eigenschaft A gestellt. Mit Wahrscheinlichkeit 1 − p A wird die Gegenfrage gestellt. Sei n Y ∗ die Anzahl der Personen, die die (im Einzelfall) unbekannte Frage mit „Ja“ beantworten. Der Anteil PY der Personen, die die Eigenschaft A haben, wird erwartungstreu geschätzt durch Y = P
nY ∗ n
+ pA − 1 . 2 pA − 1
Die Varianzschätzung lautet Y ) + p A · (1 − p A ) . Y ) = 1 · P Y · (1 − P Var( P n (2 p A − 1)2
Die Formel (7.9) zeigt, dass die Varianz aus zwei Teilen besteht. Der erste Teil entspricht der Varianz aus der einfachen Zufallsstichprobe ohne Verwendung der Randomisierung der Antworten. Der zweite Teil ist gewissermaßen der Preis, den man für die Randomisierung zahlen muss. Je näher p A bei 1 liegt, umso geringer ist dieser Anteil. Für p A = 12 enthält die Stichprobe keine Information, was in Formel Y ) sehr groß wird, falls p A nahe (7.9) dadurch zum Ausdruck kommt, dass Var( P 1 bei 2 liegt. Neben dieser Form des Randomized-Response werden in der Literatur noch andere Verfahren diskutiert, siehe z.B. Chaudhuri und Mukerjee (1988). Einen guten Überblick über die verschiedenen Entwicklungen im Gebiet der RandomizedResponse Verfahren bietet van den Hout und van der Heijden (2002). Die obigen Überlegungen lassen sich auch auf Daten übertragen, die mit Hilfe der sogenannten Post Randomization Method (PRAM) anonymisiert sind. Hierbei geht es darum, Daten zur Wahrung der Anonymität der befragten Personen oder Firmen zu verfälschen. Hierbei wird mit einer bestimmten Wahrscheinlichkeit p A die Antwort auf eine Frage mit zwei Antwortmöglichkeiten nachträglich in die andere Kategorie verändert. Diese „Fälschung“ der Daten entspricht genau dem Stellen der Gegenfrage bei dem Randomized-Response Design. Da auch hier die Wahrscheinlichkeit p A bekannt ist, können die Formeln (7.8) und (7.9) direkt für mit dieser Methode verfälschte Daten angewendet werden. Zum weiteren Umgang mit solchen Daten siehe z.B. Ronning (2005).
236
7 Probleme in der Anwendung
7.4 Mess-und Erhebungsfehler Bei der Erhebung von Daten können Messfehler in sehr vielfältiger Weise auftreten. Im einfachsten Fall kann z.B. bei der Erhebung des Blutdrucks einer Person ein Messfehler durch das verwendete Gerät auftreten. Komplizierter wird die Problematik bei der Erhebung von Ernährungsgewohnheiten. Hierbei ist die Messung der Größe Y = „Tägliche Fettaufnahme“ schwierig. Die in der Praxis übliche Anwendung von Ernährungstagebüchern führt typischerweise zu nicht unerheblichen Ungenauigkeiten in der Messung. Im Fall von Befragungen kann der Befragte die Unwahrheit sagen oder der Interviewer die falsche Antwort notieren. Die statistische Literatur zu Messfehlern und der Messproblematik ist sehr vielfältig, siehe z.B. Hand (2004), Bühner (2006), Küchenhoff (2009). Wir wollen hier zwei relativ einfache Messfehlerstrukturen und deren Konsequenzen für Stichprobenverfahren betrachten.
7.4.1 Additiver zufälliger Messfehler Wir gehen davon aus, dass wir bei einer Erhebung statt des korrekten Wertes yk nur einen mit einem Messfehler k behafteten Wert yk∗ beobachten können. Es soll dabei gelten yk∗ = yk + k
mit E(k ) = 0 und Var(k ) = σ 2 .
Es liegt also ein unsystematischer zufälliger Messfehler vor. Die Messgenauigkeit ist durch die Streuung σ charakterisiert. Solche Messfehler sind typisch für Messgeräte, aber auch für Angaben aus Befragungen. Wenn nun bei einer einfachen Zufallsstichprobe der Messfehler ignoriert wird und als Schätzer für Y¯ der Mittelwert y¯ ∗ verwendet wird, so erhält man für den Erwartungswert und die Varianz: n n 1
1 ∗ E( y¯ ) = E yk = E (yk + k ) n n k=1 k=1 n n 1
1
yk + E k = Y¯ + 0 = Y¯ , =E n n k=1 k=1 n n 1 ∗ 1
∗ yk = Var (yk + k ) Var( y¯ ) = Var n n k=1 k=1 n n 1
1
1 = Var yk + Var k = Var( y¯ ) + · σ 2 . n n n
∗
k=1
k=1
Der Schätzer y¯ ∗ ist erwartungstreu, hat aber eine etwas höhere Streuung. Falls σ im Verhältnis zu der Streuung der y-Werte gering ist, kann diese vernachlässigt
7.4
Mess-und Erhebungsfehler
237
werden. Nun ist zu beachten, dass bei der Schätzung der Varianz von y¯ ∗ ebenfalls die fehlerbehafteten Daten verwendet werden, also die Varianz wie folgt geschätzt wird (siehe Formel S. 22)
2 1 N −n · Var( y¯ ∗ ) = yk∗ − y¯ ∗ . N n(n − 1) n
k=1
Für den Erwartungswert des Schätzers gilt 1 N −n 1 · σ2 + · · σ2 n N n 1 ∗ 2 = Var( y¯ ) − ·σ . N
E(Var( y¯ ∗ )) = Var( y¯ ∗ ) −
Die Formel ist dadurch zu erklären, dass für den Messfehler keine Korrektur für endliche Populationen gemacht werden kann. Der Unterschied zwischen den beiden Schätzern ist für große Grundgesamtheiten irrelevant. Für kleine Grundgesamthei2 ten und bekannten Messfehler kann der Term σN zur Varianzschätzung hinzugefügt werden. Also ergibt
2 σ 2 N −n 1 Var( y¯ ∗ ) = yk∗ − y¯ ∗ + · N n(n − 1) N n
k=1
einen erwartungstreuen Schätzer, der dann auch zu korrekten Konfidenzintervallen führt. Das Vorgehen lässt sich auf andere Verfahren wie den Cluster- und den geschichteten Schätzer und auch den Regressionsschätzer übertragen. Die Verfahren bleiben korrekt, falls die Korrektur für endliche Populationen vernachlässigbar ist und die obigen Voraussetzungen für den Messfehler gelten. Bei systematischen Messfehlern oder bei von der wahren Größe abhängigen Messfehlern kommt es in der Regel zu Verzerrungen bei der Schätzung von Y¯ .
7.4.2 Fehler bei binären Merkmalen Bei der Beantwortung von Ja-/Nein-Fragen oder ganz allgemein bei der Erhebung von binären Merkmalen kann es ebenfalls zu fehlerhaften Angaben kommen. Neben bewusst falschen Antworten können z.B. Fehldiagnosen bei Krankheiten auftreten oder der Interviewer nimmt die Frage falsch auf. Bezeichnen wir die erhobene, möglicherweise falsche Antwort mit Y ∗ und die korrekte Antwort mit Y , so kann dafür folgendes einfaches Modell aufgestellt werden: P(Y ∗ = 1|Y = 1) = p11 P(Y ∗ = 0|Y = 0) = p00 .
238
7 Probleme in der Anwendung
In der medizinischen Diagnostik wird die Wahrscheinlichkeit p11 auch als Sensitivität und die Wahrscheinlichkeit p00 als Spezifität bezeichnet. In diesem Fall ist Y = 1, falls die Person erkrankt ist und Y ∗ = 1 bezeichnet die Diagnose (Erhebung) der Krankheit. Ähnlich wie in Formel (7.5) kann man nun die Wahrscheinlichkeit dafür, dass der erhobene Wert 1 ist berechnen P(Y ∗ = 1) = p11 · P(Y = 1) + (1 − p00 )(1 − P(Y = 1)).
(7.10)
Durch Auflösen von Formel (7.10) ergibt sich P(Y = 1) =
P(Y ∗ = 1) + p00 − 1 . p11 + p00 − 1
(7.11)
Damit kann bei gegebenen Wahrscheinlichkeiten für korrekte Antworten p11 und p00 der Anteil von 1 bei den korrekten Y -Werten geschätzt werden. Basierend auf einer Stichprobe vom Umfang n seien n 1 (< n) Beobachtungen mit Y ∗ = 1 erhalten worden. Ersetzt man nun den erwarteten Anteil P(Y ∗ = 1) in Formel (7.11) durch den beobachteten Anteil nn1 , so ergibt sich der Schätzer Y = P(Y = 1) = P
n1 n
+ p00 − 1 . p11 + p00 − 1
(7.12)
Da die Größen p00 und p11 fest sind, ergibt sich die Varianz zu Y ) = Var( P
1 n1 n1 1 . · · 1− · n n n ( p11 + p00 − 1)2
(7.13)
Das Vorgehen ist zu dem Vorgehen bei Randomized-Response bzw. PRAM (siehe Abschn. 7.3) analog, da kein prinzipieller Unterschied zwischen der Verfälschung von Antworten durch „falsche“ Fragen, nachträgliche Veränderung der Daten und falscher Erhebung besteht. Der Unterschied in den Formeln besteht in der Regel in unterschiedlichen Wahrscheinlichkeiten p00 und p11 . Bei der Verwendung des Schätzers (7.12) ist allerdings die Kenntnis dieser Wahrscheinlichkeiten erforderlich. Dies ist in der Praxis häufig schwierig und daher ist eine solche Korrektur häufig nicht möglich. Man kann Formel (7.12) unter verschiedenen Szenarien für p00 und p11 anwenden und damit mögliche Verfälschungen quantifizieren. Alternativ kann man die Größe aus Validierungsstudien schätzen, siehe Küchenhoff (2009).
7.5 Gewichtung Häufig werden bei Datensätzen, die aus Zufallsstichproben stammen, neben den Einzelwerten zusätzlich Gewichte der einzelnen Beobachtungen mit angegeben. Diese bestehen häufig nicht einfach aus den inversen Auswahlwahrscheinlichkeiten,
7.5
Gewichtung
239
sondern enthalten häufig „Korrekturen“ für Antwortverweigerung und verwenden implizit Prinzipien der nachträglichen Schichtung. Auch bei Daten aus Befragungen von Meinungsforschungsinstituten wird das Gewichten von Beobachtungen oft als Kunst angesehen und die Methodik als eine Art Betriebsgeheimnis nicht offen gelegt. Es stellen sich in diesem Zusammenhang folgende Fragen. • Wie sollten „Gewichtungen“ in adäquater Weise vorgenommen werden? • Wie sollten die Daten bei gegebener Gewichtung ausgewertet werden? Natürlich hängt die Beantwortung der zweiten Frage von der ersten Frage ab, da die adäquate Auswertung durch das Zustandekommen der Gewichte bestimmt wird. Die Probleme entstehen hauptsächlich bei der Verwendung von modellbasierten Verfahren und bei der Schätzung der Varianz und der Angabe von Konfidenzintervallen. In einem kürzlich erschienenen Artikel beschreibt Gelman (2007) die Situation aus Sicht der theoretischen Statistik mit den Worten „Survey weighting is a mess. It is not always clear how to use weights in estimating anything more complicated than a simple mean or ratios, and standard errors are tricky even with simple weighted means.“1 Im Folgenden soll etwas Licht in das Durcheinander gebracht werden. Betrachten wir eine einfache Zufallsstichprobe mit Stichprobenumfang n. Hier ist der Schätzer n 1
Y¯ = yk n
(7.14)
k=1
erwartungstreu. Die einzelnen Werte yk gehen in die obige Summe mit gleichem Gewicht n1 ein. Die Einführung von Gewichten wk führt zu dem gewichteten Schätzer n
Y¯ =
wk · yk
k=1 n
.
(7.15)
wk
k=1
Eine Interpretation von Gewichten ist die Anzahl der Personen der Grundgesamtheit, die die gezogene Einheit „repräsentiert“. Wenn die Stichprobe „repräsentativ“ ist, sollte sich als Summe der Gewichte der Gesamtumfang der Grundgesamtheit ergeben, d.h. nk=1 wk = N . Im Fall der einfachen Zufallsstichprobe „repräsentiert“ jedes gezogene Element Nn Elemente der Grundgesamtheit. Im Fall einer geschich-
1 „Es ist nicht immer offensichtlich, wie Gewichte verwendet werden sollen, wenn etwas komplizierteres als ein einfacher Mittelwert oder ein Verhältnis geschätzt werden soll, und Standardfehler sind bereits bei einfachen gewichteten Mittelwerten kompliziert.“
240
7 Probleme in der Anwendung
teten Stichprobe mit M Schichten und mit Umfängen n h = 1 für h = 1, . . . , M repräsentiert jedes gezogene Element eine Schicht, d.h. Nh Elemente. Der geschichtete Schätzer ergibt sich dann zu Y¯ G S =
M
Nh yh1 . N h=1
Die Werte Nh können als Gewichte aufgefasst werden und es ergibt sich ein erwartungstreuer Schätzer. Die Gewichtung dient ganz allgemein dazu, Verzerrungen, die der einfache Mittelwertschätzer (7.14) hat, zu beheben und/oder seine Effizienz zu verbessern. Wir stellen im Folgenden das Vorgehen der Gewichtung zur Behandlung folgender Aspekte vor: • ungleiche Auswahlwahrscheinlichkeiten • Nichtbeantworter-Problematik (Nonresponse-Bereinigung) • nachträgliche Schichtung (Modellbasierte Korrektur)
7.5.1 Gewichtung mit inversen Auswahlwahrscheinlichkeiten Eine wichtige Grundidee ist die Verwendung des Horvitz-Thompson-Theorems (siehe S. 100), wonach unter sehr allgemeinen Bedingungen der Schätzer n 1 yk Y¯ H T = N πk k=1
erwartungstreu ist. Der Horvitz-Thompson-Schätzer ist genau genommen kein gewichteter Schätzer, da sich die Gewichte nicht zu N addieren. Der gewichtete Schätzer (7.15) mit den Gewichten wk = π1k kann jedoch als Näherung des HorvitzThompson-Schätzers aufgefasst werden, was wir im Folgenden motivieren wollen. Die Gewichte wk aus dem Horvitz-Thompson-Schätzer setzen wir als inverse Auswahlwahrscheinlichkeiten π1k . Hat ein Element z.B. die Auswahlwahrschein-
1 , so ergibt sich als Gewicht 100. Da von 100 Elementen der Grundgelichkeit 100 1 samtheit mit Auswahlwahrscheinlichkeit 100 im Durchschnitt eins gezogen wird, 1 ist die Interpretation von wk = πk als die Anzahl der Elemente, die das gezogene Element „repräsentiert“, sinnvoll. Weiter ergibt sich für die Gewichte der gezogenen Individuen des Horvitz-Thompson-Schätzers
E
n
k=1
wk
n N
1
1 =E =E P(Ii = 1) = N . πk πi k=1
i=1
Dabei sind Ii die in Abschn. 4.1 eingeführten Indikatorfunktionen für die Auswahl des i-ten Elementes der Grundgesamtheit, d.h. Ii = 1 sofern das i-te Individu-
7.5
Gewichtung
241
um Element der Stichprobe ist und Ii = 0 sonst. Es zeigt sich, dass der gewichtete Schätzer auch dann verwendet werden kann, wenn die Auswahlwahrscheinlichkeiten nur bis auf einen Proportionalitätsfaktor bekannt sind oder wenn N unbekannt ist. Da sich die Gewichte direkt aus dem Stichprobendesign ergeben, werden diese auch als „Basis-Gewichte“ bezeichnet. Wir verwenden im Folgenden für diese die Bezeichnung wk(B) .
7.5.2 Non-Response-Bereinigung Wir wollen uns nun zumindest ansatzweise mit der Problematik beschäftigen, dass Individuen im Rahmen einer Stichprobe ihre Teilnahme verweigern. Wir gehen dazu davon aus, dass die Bereitschaft einer Person zu antworten, mit einem stochastischen Modell beschrieben werden kann. Wir bezeichnen dabei die Wahrscheinlichkeit, dass eine Person antwortet, mit γi . In der Theorie der fehlenden Werte, siehe z.B. Little und Rubin (1987), werden solche Modelle im Detail beschrieben und gezeigt, wie diese geschätzt werden. Nehmen wir exemplarisch an, dass die Antwortbereitschaft von Geschlecht, sozialer Schicht und anderen persönlichen Merkmalen abhängt. Aus erhobenen Daten kann dann ein Modell (häufig ein logistisches Regressionsmodell) zur Bestimmung der γi verwendet werden. Wenn man die Bereitschaft zu antworten als weitere Stufe in dem Auswahlprozess der Stichprobe auffasst, so ergibt sich: P(Person i kann in die Auswertung einbezogen werden) · P(Person i wird gezogen und antwortet) = Auswahlwahrscheinlichkeit · Antwortwahrscheinlichkeit = πi · γi . Wir setzen dabei die Unabhängigkeit von der Bereitschaft zu antworten und der Ziehung voraus, sprich es liegt beim Ziehungsprozess der Stichprobe keine Information vor, ob ein Individuum eine höhere oder geringere Bereitschaft hat zu antworten. Damit ergibt sich der erwartungstreue Schätzer für Y¯ aus dem HorvitzThompson-Theorem durch n 1 1 yk . Y¯ = N πk γk
(7.16)
k=1
Hier ist zu beachten, dass die obige Summe über die Personen läuft, die gezogen wurden und geantwortet haben. Aus Formel (7.16) ergibt sich die multiplikative Verknüpfung der Gewichte. Daher verwenden wir die inversen Antwortwahrscheinlichkeiten γ1k als „Non-Response“-Adjustierungs-Gewichte wk(N R) . Die Gesamtgewichtung ergibt sich dann als das Produkt der beiden Einzelgewichte.
242
7 Probleme in der Anwendung
Diese Idee kann man z.B. dazu verwenden, Antwortverweigerung adäquat zu berücksichtigen. Wir gehen von einer Zufallsstichprobe aus und nehmen an, dass für das i-te Individuum die Wahrscheinlichkeit zu antworten γi beträgt. Wenn wir bei der Auswertung nur die Antworter einbeziehen, ergibt sich für diese die Auswahlwahrscheinlichkeit πi =
n
· γi . N
Eine Möglichkeit der Schätzung für den Mittelwert ist nun n n 1 yk 1 yk = . Y¯ = N πk n γk k=1
(7.17)
k=1
Bei Formel (7.17) ist zu beachten, dass die Summe nur über die n Antworter läuft. Weiter müssen zur Berechnung die Antwortwahrscheinlichkeiten γk der gezogenen Individuen bekannt sein. Diese können z.B. für bestimmte Gruppen von Individuen bekannt sein oder aus den Daten zum Antwortverhalten geschätzt werden. Hierzu führen wir eine weitere Indikatorvariable ein. In einer Stichprobe vom Umfang n (> n) gibt Jl an, ob das l-te befragte Individuum antwortet (Jl = 1) oder n
Jl = n der Stichprobenumfang nicht (Jl = 0), wobei l = 1, . . . , n . Damit ist l=1 der Individuen, die geantwortet haben. Für die Antwortwahrscheinlichkeiten der gezogenen Individuen gilt:
n
1 E γk k=1
⎞ ⎛
n n
1 1 = E⎝ · Jl ⎠ = · P(Jl = 1) = n . γl γl l=1
l=1
Damit kann Formel (7.17) durch Approximation von n wie folgt vereinfacht werden: Y¯ =
n 1 yk . n
γk 1 k=1
γk
(7.18)
k=1
Der Schätzer in Formel (7.18) erhält damit die Gestalt eines gewichteten Mitn n
wk yk mit wk = 1 geschrieben wertelwertschätzers und kann in der Form k=1
k=1 n
1 1 den. Die Gewichte notieren wir als wk(N R) = / . Zur Berechnung des γk ∗ γk ∗ k =1 Schätzers genügt es, die Gewichte bis auf einen konstanten Faktor zu kennen, also absolute Werte von γk sind ohne Bewandtnis. Diese Vorteile werden aus folgendem Beispiel klar.
7.5
Gewichtung
243
Beispiel 7.4: NHANES-Studie Die Studie „National Health and Nutrition Examination Survey“ wird von dem Amerikanischen Zentrum für Gesundheitsfragen durchgeführt (www.cdc.gov/ nchs/nhanes.htm). Große Teile der Daten sind im Internet verfügbar und es werden üblicherweise neben den Daten (z.B. Antworten auf Fragebogen, Körpergröße, Körpergewicht, usw.) auch sogenannte Gewichte („survey weights“) angegeben. Diese werden aus den Raten der Antwortverweigerer bestimmt. Da aber die ursprünglich geplante Stichprobengröße nicht bekannt ist, können Schätzer für die Variablen aus dem Datensatz nur über die Approximationsformel (7.18) bestimmt werden. Bei der Bestimmung der Gewichte kann wie schon erwähnt ein logistisches Modell verwendet werden. Eine Alternative ist es, die Grundgesamtheit in Schichten aufzuteilen, bei denen man gleiche Ausfallwahrscheinlichkeiten vermutet. Damit ist es möglich, die Ausfallwahrscheinlichkeiten einfach aus den relativen Häufigkeiten der Antwortverweigerung je Schicht zu schätzen. Vermutet man beispielsweise, dass die Antwortbereitschaft von Geschlecht und Wohnbezirk abhängig ist, so teilt man die Grundgesamtheit in M = 2 · K (K ist die Anzahl der Wohnbezirke) Schichten (Geschlecht und Wohnbezirk) ein und bestimmt dann γh für die h-te Schicht aus der relativen Häufigkeit der Antworter, h = 1, . . . , M, getrennt nach Wohnbezirk und Geschlecht. Es sei Jhk die Indikatorvariable, dass die k-te befragte Person in Schicht h antwortet (Jhk = 1) oder nicht (Jhk = 0), so schätzt man γh aus
nh
γh =
Jhk
k=1
n h
=
nh , n h
wobei n h der ursprüngliche Stichprobenumfang in Schicht h ist, d.h. inklusive der Non-Responder in der Schicht, h = 1, . . . , M. Diese in der Praxis verbreitete Strategie funktioniert allerdings nur, falls Geschlecht und Wohnort bei den Nicht-Antwortern bekannt ist. Die vorgeschlagene Schätzung der γk ist zu modifizieren, falls das StichprobenDesign mit unterschiedlichen Auswahlwahrscheinlichkeiten arbeitet. Nehmen wir dazu an, dass πhk die Auswahlwahrscheinlichkeit des k-ten Individuums in der h-ten Schicht ist, so kann γh geschätzt werden durch
γh =
nh
1 Jhk πhk k=1
nh
1 πhk
· nh .
k=1
Da es in fast jeder Umfrage Nicht-Antworter und fehlende Werte gibt, sind effiziente Strategien zum Umgang mit diesen Problemen Gegenstand aktueller Forschung. Man versucht hierbei zusätzliche Informationen zu nutzen. Beispiele hier-
244
7 Probleme in der Anwendung
für sind weitere Merkmale, siehe Kreuter et al. (2010), oder Informationen zum Antwortverhalten bei wiederholter Kontaktaufnahme bei (zunächst) nicht antwortbereiten Personen, siehe Kreuter und Kohler (2009).
7.5.3 Nachträgliche Schichtung als Gewichtung Die in Abschn. 5.1.3 besprochene a posteriori Schichtung kann, wie nachfolgend gezeigt, ebenfalls als Gewichtung verstanden werden. Wir gehen zunächst von einer einfachen Zufallsstichprobe aus. Bei der Verwendung der nachträglichen Schichtung wird die Stichprobe in M Schichten aufgeteilt und der mit den Schichtanteilen der Grundgesamtheit gewichtete Mittelwert gebildet. Nach Formel (5.10) ergibt sich Y¯ G S,post =
nh M M
Nh Nh 1 · yhk . y¯h = N N nh h=1
h=1 k=1
Aus der Formel erkennt man, dass die Verwendung des Schätzers einer zusätzlichen Gewichtung mit den Gewichten Nn hh entspricht. Diese Gewichtung gleicht zufällig entstandene Unterschiede des Stichprobenumfangs innerhalb der Schichten aus. Es können aber auch systematische Unterschiede wie z.B. das NichtAntworterverhalten oder Effekte der Ziehungsstrategie z.B. bei Telefonstichproben ausgeglichen werden. Da häufig damit auch das Problem der Nichterreichbarkeit behandelt wird, werden die Gewichte auch als „Noncoverage-Weights“ bezeichnet. In ähnlicher Weise kann auch die Verwendung einer Regressionsschätzung insbesondere bei kategorialen Einflussgrößen interpretiert werden. Im Fall der einfachen Zufallsstichprobe ist die Verwendung der Schätzer einschließlich der Varianzschätzung unproblematisch. Schwieriger wird es dagegen, wenn eine dieser Strategien mit den beiden oben diskutierten Verfahren (ungleiche Auswahlwahrscheinlichkeiten und Non-Response-Korrektur) zu kombinieren sind. Gehen wir von einer Aufteilung in M Schichten aus und gegebenen Basisgewichten (B) (N R) whk = π1hk und Non-Response-Gewichten whk = γ1hk , mit h = 1, . . . , M und k = 1, . . . , n h . Dann ergeben sich die Gewichte der nachträglichen Schichtung in Schicht h durch wh(P S) =
Nh nh
.
(7.19)
(B) (N R) whk whk
k=1
Sie werden als PS-Gewichte (engl. PSA=Poststratification Adjustment) bezeichnet. Im Fall der einfachen Zufallsstichprobe und keiner Non-Response-Korrektur stimmen die Gewichte mit der Größe Nn hh überein. Zu beachten ist, dass sich die Wahl der Schichten von denen bei der Non-Response-Korrektur meist unterscheidet. Bei der Non-Response-Korrektur muss die Schichtzugehörigkeit der NichtAntworter bekannt sein. Für die Berechnung der Poststratifizierungsgewichte sind nur die Daten aus der Stichprobe und die Schichtumfänge Nh der Grundgesamtheit nötig. Insgesamt lassen sich die drei Aspekte der Korrektur zu Gesamtge-
7.5
Gewichtung
245
wichten in der Stichprobe zusammenfassen. Bei der Zusammenfassung der Gewichte ist zu beachten, dass diese pro gezogenem Individuum anzugeben sind. Die Poststratifizierungsgewichte sind zwar innerhalb der Schichten identisch, aber die Basisgewichte können sich innerhalb der Schichten unterscheiden und die NonResponse-Gewichte können für jedes einzelne Element unterschiedlich sein. Insgesamt ergeben sich die Gewichte multiplikativ in folgender Weise: (B) (N R) · whk · wh(P S) , whk = whk
h = 1, . . . , M, k = 1, . . . , n h .
Bei großen Erhebungen werden diese Gewichte typischerweise mit den Daten zur Verfügung gestellt.
Gewichtung
Zur Berücksichtigung von ungleichen Auswahlwahrscheinlichkeiten, Antwortverweigerung, Nichterreichbarkeit und verzerrter Schichtumfänge werden Gewichte eingeführt. Die Basisgewichte sind (B) whk =
1 πhk .
Die Gewichte zur Non-Response-Korrektur sind (N R)
whk
=
1 γhk ,
wobei γhk die geschätzte Antwortwahrscheinlichkeit ist. Die Poststratifizierungsgewichte sind (P S)
wh
=
nh
Nh
.
(B) (N R) ·whk whk
k=1
Die Gesamtgewichte ergeben sich als Produkt der Einzelgewichte (B) (N R) (P S) whk = whk · whk · wh .
Die Varianzschätzung ist bei solchen Verfahren schwierig und im Einzelfall zu entscheiden. Näheres dazu in de Leeuw, Hox, und Dillman (2008).
Anhang A
Das Programmpaket R
A.1 Was ist R? R ist eine Programmiersprache und Programmierumgebung zur Umsetzung statistischer Berechnungen und Grafiken. R ist im Internet unter http://www.r-project.org/ frei verfügbar und einfach zu installieren. Neben der Basis-Software, mit der die wichtigsten Prozeduren durchgeführt werden können, gibt es eine Vielzahl von Paketen, die von verschiedenen Autoren zur Verfügung gestellt werden. Auch diese sind kostenlos unter der oben genannten Adresse abrufbar.
A.2 Warum wir uns für R entschieden haben Wir haben uns aus den folgenden Gründen für R als Programmpaket zu diesem Buch entschieden: • R ist einfach und kostenlos verfügbar. • Es lassen sich relativ einfach zusätzliche Prozeduren in R installieren. • Auch wenn der Einstieg etwas schwerer ist als bei anderen Paketen, ist es doch als benutzerfreundlich zu bezeichnen. • Zu komplexeren Stichprobenverfahren gibt es bereits Pakete mit den entsprechenden Prozeduren.
A.3 R herunterladen und installieren Das Programmpaket R kann von der Homepage des R-Projekts http://www.r-project.org/
G. Kauermann, H. Küchenhoff, Stichproben, Springer-Lehrbuch, C Springer-Verlag Berlin Heidelberg 2011 DOI 10.1007/978-3-642-12318-4,
247
248
A Das Programmpaket R
heruntergeladen werden. Auf dieser Homepage kann unter dem Menüpunkt „Download, Packages“ ein CRAN-Server aus einer vorgegebenen Liste ausgewählt werden, wobei man darauf achten sollte, einen Server „in der Nähe“ zu wählen. Anschließend kann man über weitere Links eine R-Version für Linux, MacOS X und Windows herunterladen. Unter dem Menüpunkt „Manuals“ findet sich der Punkt „R Installation and Administration“. Hier findet man weitere Hilfe. Es empfiehlt sich, zusätzlich zu R einen geeigneten Editor herunterzuladen, z.B. Tinn-R. Dieser kann von der Homepage http://sourceforge.net/projects/tinn-r/ heruntergeladen werden. R und Tinn-R müssen dann bei Bedarf noch konfiguriert werden. Anschließend kann man die R-Syntax im Editor schreiben und beispielsweise über den Button „Send selection“ in R laufen lassen.
A.4 R-Hilfe Hilfe zu R findet man unter anderem auf folgende Weise: • Auf der R-Homepage http://www.r-project.org/. – Unter dem Menüpunkt „Documentation“ sind über den Link „Manuals“ Handbücher zu verschiedenen Themen in HTML- und PDF-Format verfügbar. – Weiterhin finden sich unter dem dortigen Link „contributed documentation“ weitere Dateien, vor allem PDF-Dokumente, die einführende und weiterführende Hilfestellungen enthalten. Wir möchten an dieser Stelle auf die „R reference card“ von Tom Short hinweisen, die einen guten Überblick über die wichtigsten Basis-Befehle gibt und sich gut als Nachschlagewerk für einfache Befehle eignet. – Unter dem Menüpunkt „R Project“ ist über den Link „Search“ eine GoogleSuche auf zu R gehörigen Seiten möglich. • In Büchern zu R, z.B. in dem Buch „Programmieren mit R“ Ligges (2005) bzw. in „A Handbook of Statistical Analyses Using R“ (Everitt & Hothorn, 2006). Hilfe zu R-Funktionen erhält man nach Laden des entsprechenden Pakets über die Eingabe > ?Funktionsname Zur Funktion sample(·), mit der eine einfache Zufallsstichprobe gezogen werden kann, lässt sich die Hilfe somit durch > ?sample aufrufen.
A.6
Pakete zum Thema Stichprobentheorie
249
A.5 Zusätzliche Pakete herunterladen, installieren und verfügbar machen Zusätzliche Pakete werden wie das Programmpaket selbst von der Homepage http://www.r-project.org/ heruntergeladen. Nach Auswahl des CRAN-Servers kann man unter dem Menüpunkt „Software“ über den Link „Packages“ einzelne Pakete herunterladen. Diese kann man anschließend in R installieren. Alternativ kann man Pakete auch direkt in R über den Menüpunkt „Pakete“ installieren. Bevor man mit einem bereits installierten Paket arbeiten kann, muss dieses noch verfügbar gemacht werden. Dies ist über die Funktion library(·) möglich. > library(package, ...) # package # ...
the name of a package further options not shown here
Dieser Funktion muss mit package der Name des zu ladenden Paketes übergeben werden. Das zu diesem Buch erstellte Paket samplingbook wird folglich über den Befehl > library(package=samplingbook) bzw. kürzer mit > library(samplingbook) geladen. Anschließend kann auf alle in dem Paket eingebundenen Funktionen und Datensätze zugegriffen werden. Ausführlichere Erklärungen finden sich im oben erwähnten Manual „R Installation and Administration“ im Abschnitt „Add-on packages“.
A.6 Pakete zum Thema Stichprobentheorie Zum Thema Stichprobentheorie gibt es verschiedene Pakete (Stand 2010): • sampling: Survey Sampling von Yves Tillé • survey: Analysis of Complex Survey Samples von Thomas Lumley • sampfling: Sampford sampling (w/o replacement and unequal probabilities) von Carlos Enrique Carleos Artime • pps: Functions for PPS Sampling von Jack G. Gambino
250
A Das Programmpaket R
Weiter existiert ein Paket zu diesem Lehrbuch, das die Daten zu den Beispielen und alle verwendeten Programme enthält. Es ist unter dem Namen • samplingbook auf der R-Homepage verfügbar. An dieser Stelle werden wir insbesondere auf den Inhalt des Paketes samplingbook näher eingehen. Darin befindet sich die Mehrzahl der notwendigen Funktionen zur Anwendung der Stichprobentheorie, wie sie in den Abschnitten zur numerischen Umsetzung in diesem Lehrbuch verwendet wird. Zur einfachen Zufallsstichprobe in Kap. 2 sind vier Funktionen in dem Paket enthalten. Es wird dabei unterschieden, ob eine Mittelwert- oder Anteilsschätzung durchgeführt werden soll. Es gibt Funktionen zur Berechnung des Schätzers und des notwendigen Stichprobenumfangs. Bei allen ist die Verwendung der Korrektur für endliche Populationen optional möglich. Smean(·)
Schätzung des Mittelwertes in der Grundgesamtheit und dessen Standardfehler auf Basis einer einfachen Zufallsstichprobe.
Sprop(·)
Schätzung des Anteils in der Grundgesamtheit und dessen Standardfehler auf Basis einer einfachen Zufallsstichprobe. Darüber hinaus werden verschiedene Methoden zur Berechung von Konfidenzintervallen bereitgestellt.
sample.size.mean(·)
Berechnung des benötigten Stichprobenumfangs bei der Mittelwertschätzung.
sample.size.prop(·)
Berechnung des benötigten Stichprobenumfangs bei der Anteilsschätzung.
In Kap. 3 wurden verschiedene modellbasierte Stichprobenverfahren vorgestellt. Diese sind in einer einzigen Funktion umgesetzt, wobei die gewünschte Methode (Differenzen-, Quotienten- oder Regressionsschätzer) über eine Option angegeben werden kann. Außerdem ist es möglich, unter Verwendung dieser Funktion die Schätzung für mehrphasige Verfahren aus Kap. 6 zu berechnen. mbes(·)
Modellbasierte Schätzung von Mittelwerten der Grundgesamtheit auf Basis einer Sekundärinformation und dessen Standardfehler. Dabei sind der Differenzen-, Quotienten- und Regressionsschätzer verfügbar.
Zur Umsetzung designbasierter Stichprobenverfahren wie in Kap. 4 gibt es zwei Funktionen in dem Paket. Beide stellen durch ihre Optionen eine Vielfalt an Methoden zur Verfügung.
A.7
Daten einlesen
251
pps.sampling(·)
Methode zur Ziehung von größenproportionalen Stichproben. Dabei werden die Methoden von Sampford, Tillé, Midzuno und Madow angeboten.
htestimate(·)
Berechnung des Horvitz-Thompson-Schätzers, wobei zur Varianzschätzung die Methoden von Horvitz-Thompson, Yates und Grundy, Hansen-Hurwitz und Hajek zur Verfügung stehen.
Außerdem ist es möglich auf die verwendeten Datensätze aus den Beispielen zuzugreifen. Wir werden sie im Folgenden kurz beschreiben. pop
Hypothetischer Datensatz einer kleinen Grundgesamtheit von fünf Elementen zur Illustration der verschiedenen Ziehungs- und Schätzmethoden.
money
Daten zum Unterrichtsexperiment „Geld in der Geldbörse“ über die Vermutungen und wahren Geldbörseninhalte der Studierenden.
election
Datensatz, welcher die Anzahl der Wahlberechtigten und die Ergebnisse der Bundestagswahlen 2002 und 2005 in Deutschland beinhaltet.
influenza
Datensatz zu den Grippefall- und Bevölkerungszahlen von 2007 in den Landkreisen und kreisfreien Städten in Deutschland.
Ausführlichere Informationen befinden sich in der Dokumentation des Paketes, siehe Manitz et al. (2010).
A.7 Daten einlesen Beim Einlesen von Daten muss man zwei Fälle unterscheiden, nämlich den Zugriff auf Daten, die in bereits geladenen Paketen vorhanden sind, und das Einlesen externer Dateien, die beispielsweise im ASCII-Format vorliegen. Im Paket samplingbook ist beispielsweise der Datensatz pop enthalten. Auf diesen kann man nach Laden des Paketes mit der Funktion data(·) zugreifen. > library(samplingbook) > data(pop) Anschließend kann man über den Datensatznamen, hier pop, mit dem Datensatz arbeiten. Mit Hilfe der Funktion head(·) kann man sich beispielsweise die ersten Zeilen des Datensatzes am Bildschirm ausgeben. > head(pop)
252
1 2 3 4 5
id 1 2 3 4 5
A Das Programmpaket R
X 11 11 11 21 21
Y 9 10 11 18 22
Externe Dateien, wie z.B. ASCII-Dateien, kann man über die Funktion read.table(·) einlesen. > read.table(file, header = FALSE, sep = "", dec = ".", ...) Die wichtigsten Optionen (mit stark gekürzter Beschreibung) sind: # # # # # # # #
file header
sep dec
the name of the file which the data are to be read from. a logical value indicating whether the file contains the names of the variables as its first line. the field separator character. Values on each line of the file are separated by this character. the character used in the file for decimal points.
Mit file wird der Name des Datensatzes angegeben. Durch header wird festgelegt, ob die Datei in der ersten Zeile die Variablennamen enthält. Falls dies der Fall ist, muss header=TRUE gesetzt werden. Mit sep wird das Trennzeichen definiert, dass die Werte aufeinanderfolgender Spalten voneinander abgrenzt und durch dec wird das Dezimalzeichen festgelegt. Weitere Optionen zu read.table(·) und zusätzliche Funktionen zum Einlesen von Daten erhält man durch Aufruf der Hilfeseite zu read.table(·) mit > ?read.table Ein externer Datensatz im Textformat (ASCII) namens filename.dat kann nun beispielsweise folgendermaßen eingelesen werden. > data <- read.table("filename.dat", header=TRUE)
A.8 Ziehen von Zufallszahlen Um die Ziehung einer Stichprobe reproduzierbar zu machen, empfiehlt es sich, mit einem sogenannten „seed“, einem Startwert für den Algorithmus (in diesem Fall zum Ziehen von Zufallszahlen), zu arbeiten. Dadurch wird sichergestellt, dass bei einem erneuten Ausführen die gleiche Stichprobe gezogen wird. Dieser Startwert
A.8
Ziehen von Zufallszahlen
253
kann auf zweierlei Art festgelegt werden. Einerseits kann einfach eine beliebige Zahl als Startwert gewählt werden, z.B. > start <- 13072008 Andererseits kann der Startwert einmalig zufällig gezogen werden, beispielsweise mit > start <- sample(x=1:10000, size=1) Dieser Teil der Syntax darf aber nur genau einmal ausgeführt werden. Anschließend sollte man sich als Kommentar notieren, welcher Startwert gezogen wurde und diesen bei erneutem Durchlauf der Syntax wie in Version 1 direkt zuweisen. Mit > set.seed(start) wird der Startwert dem Programm als solcher kenntlich gemacht. Anschließend kann mit der Syntax zur Ziehung der Stichprobe immer wieder genau dieselbe Stichprobe gezogen werden.
Literatur
Agresti, A., & Coull, B. A. (1998). Approximate is better than exact for interval estimation of binomial proportions. The American Statistician, 52(2), 119–126. An, A., & Watts, D. (2000). SAS procedures for analysis of sample survey data (S. 120–129). Cary, NC: SAS Institute Inc. Andersson, C., & Norberg, L. (1994). A method for variance estimation of non-linear function of totals in surveys. Journal of Official Statistics, 10, 396–405. Asef, D., & Riede, T. (2006). Kontaktzeiten in einer Telefonerhebung - wie beeinflussen sie die Messung der Erwerbstätigkeit? Statistisches Bundesamt. Wirtschaft und Statistik, 6, 581–586. Berger, Y. G. (1998). Rate of convergence for asymptotic variance of the horvitz-thompson estimator. Journal of Statistical Planning and Inference, 74, 149–168. Berger, Y. G. (2004). A simple variance estimator for unequal probability sampling without replacement. Journal of Applied Statistics, 31, 305–315. Berger, Y. G., & Skinner, C. J. (2005). A jacknife variance estimator for unequal probability sampling. Journal of the Royal Statistical Society, Series B, 67, 79–89. Berger, Y. G., & Tillé, Y. (2009). Sampling with unequal probabilities. In D. Pfeffermann & C. Rao (Hrsg.), Sample surveys: Design, methods and applications: Vol. 29A of Handbook of statistics, Kapitel 2, (1. Aufl., S. 39–54). Amsterdam: North-Holland. Bühner, M. (2006). Einführung in die Test- und Fragebogenkonstruktion (2. Aufl.). München: Pearson-Education. Bondesson, L., Traat, I., & Lundqvist, A. (2006). Pareto sampling versus sampford and conditional poisson sampling. Scandinavian Journal of Statistics, 33, 699–720. Breidt, F. J., & Opsomer, J. D. (2000). Local polynomial regression estimators in survey sampling. Annals of Statistics, 28, 1020–1053. Breidt, F. J., & Opsomer, J. D. (2009). Nonparametric and semiparametric estimation in complex surveys. In D. Pfeffermann & C. Rao (Hrsg.), Sample surveys: Inference and Analysis: Vol. 29B of Handbook of statistics (1. Aufl., S. 103–120). Amsterdam: North-Holland. Brewer, K. (2002). Combined survey sampling inference. London: Hodder Arnold. Brewer, K. R. W., & Hanif, M. (1983). Sampling with unequal probabilities. New York, NY: Springer. Brüderl, J., Preisendörfer, P., & Ziegler, R. (1992). Survival chances of newly founded business organizations. American Sociological Review, 57, 227–242. Buckland, S. T., Anderson, D. R., & Burnham, K. P. (2008). Advanced distance sampling: Estimating abundance of biological populations. Oxford: Oxford University Press. Chaudhuri, A., & Mukerjee, R. (1988). Randomized response: Theory and techniques. New York, NY: Marcel Dekker. Chaudhuri, A., & Steger, H. (2005). Survey sampling: Theory and methods (2. Aufl.). Boca Raton, London, New York, Singapore: Chapman and Hall/CRC. Cochran, W. (1972). Stichprobenverfahren. Berlin: de Gruyter. Cochran, W. (1977). Sampling techniques (3. Aufl.). New York, NY: Wiley.
255
256
Literatur
Cotter, A. J. R., Course, G., Buckland, S. T., & Garrod, C. (2002). A PPS sample survey of English fishing vessels to estimate discarding and retention of North Sea cod, hadock, and whiting. Fisheries Research, 55(1), 25–35. Cumberland, W. G., & Royall, R. M. (1981). Prediction models and unequal propability sampling. Journal of the Royal Statistical Society, Series B, 43, 353–367. Dalgaard, P. (2002). Introductory statistics with R. New York, NY: Springer. Deville, J., & Tillé, Y. (1998). Unequal probability sampling without replacement through a splitting method. Biometrika, 85(1), 89–101. Everitt, B. S., & Hothorn, T. (2006). A Handbook of statistical analyses using R. Boca Raton, FL: Chapman und Hall/CRC. Fahrmeir, L., Hamerle, A., & Tutz, G. (1996). Multivariate statistische Verfahren (2. Aufl.). Berlin, New York: de Gruyter. Fahrmeir, L., Kneib, T., & Lang, S. (2007). Regression – Modelle, Methoden und Anwendungen. Berlin: Springer. Fahrmeir, L., Künstler, R., Pigeot, I., & Tutz, G. (2009). Statistik: Der Weg zur Datenanalyse (7. Aufl.). Berlin, Heidelberg: Springer. Fleiss, J., Levin, B., & Paile, M. (2003). Statistical methods for rates and proportions (3. Aufl.). New York, NY: Wiley. Gabler, S. (1981). A comparison of sampford sampling procedure versus unequal probabilitysampling with replacement. Biometrika, 68(3), 725–727. Gabler, S. (1984). On unequal probability-sampling - sufficient conditions for the superiority of sampling without replacement. Biometrika, 71(1), 171–175. Gabler, S., & Häder, S. (1999). Erfahrungen beim Aufbau eines Auswahlrahmens für Telefonstichproben in Deutschland. ZUMA-Nachrichten, 23(44), 45 ff. Gelman, A. (2007). Struggles with survey weighting and regression modeling. Statistical Science, 22(2), 153–164. Godambe, V. P., & Joshi, V. M. (1965). Admissibility and bayes estimation in sampling finite populations. Annals of Mathematical Statistics, 36, 1707–1742. Groves, R. M., Dillman, D. A., Eltinge, J. L., & Little, R. J. A. (2002). Survey nonresponse. New York, NY: Wiley Series in Survey Methodology. Hajek, J. (1981). Sampling from a finite population. New York, NY: Marcel Dekker. Hand, D. (2004). Measurement theory and practice: The world through quantification (2. Aufl.). Oxford: Oxford University Press. Hartley, H. O. (1966). Systematic sampling with unequal probability and without replacement. Journal of the American Statistical Association, 61(315), 739–748. Hartmann, P., & Schimpl-Neimanns, B. (1992). Sind Sozialstrukturanalysen mit Umfragedaten möglich? Analysen zur Repräsentativität einer Sozialforschungsumfrage. Kölner Zeitschrift für Soziologie und Sozialpsychologie, 44(2), 315–340. Hastie, T., & Tibshirani, R. (1990). Generalized additive models. London: Chapman and Hall. Held, L. (2008). Methoden der statistischen Inferenz: Likelihood und Bayes. Heidelberg: Spektrum Akademischer Verlag. Hoffmeyer-Zlotnik, J. H. P. (1997). Random-route-stichproben nach ADM. In S. Gabler & J. Hoffmeyer-Zlotnik (Hrsg.), Stichproben in der Umfragepraxis (S. 33–42). Opladen: Westdeutscher Verlag. Horvitz, D., & Thompson, D. (1952). A generalization of sampling without replacement from a finite universe. Journal of the American Statistical Association, 47, 663–685. van den Hout, A., & van der Heijden, P. (2002). Randomized response, statistical disclosure control and misclassification: a review. International Statistical Review, 70(2), 269–288. Jessen, R. J. (1969). Some methods of probability non-replacement sampling. Journal of the American Statistical Association, 64(325), 175–193. Kreienbrock, L. (2004). Einführung in die Stichprobenverfahren. München, Wien: Oldenbourg Verlag.
Literatur
257
Kreuter, F., & Kohler, U. (2009). Analyzing contact sequences in call record data. Potential and limitations of sequence indicators for nonresponse adjustments in the European Social Survey. Journal of Official Statistics, 25(2), 203–226. Kreuter, F., Olson, K., Wagner, J., Yan, T., Ezzati-Rice, T. M., Casas-Cordero, C., Lemay, M., Peytchev, A., Groves, R. M., & Raghunathan, T. E. (2010, Apr). Using proxy measures and other correlates of survey outcomes to adjust for non-response: examples from multiple surveys. Journal of the Royal Statistical Society Series A-Statistics in Society, 173(Part 2), 389–407. Küchenhoff, H. (2009). Misclassification and measurement error in oral health. In E. Lesaffre, J. Feine, B. Leroux, & D. Declerck (Hrsg.), Statistical and methodological aspects of oral health research (S. 280–294). Chichester: Wiley-Blackwell. Lanke, J. (1974). On non-negative variance estimators in survey sampling. Sankhy¯a Series C, 35, 33–42. de Leeuw, E. D., Hox, J. J., & Dillman, D. A. (2008). International handbook of survey methodology. New York, NY: Taylor & Francis Group. Legg, J. C., & Fuller, W. A. (2009). Two-phase sampling. In D. Pfeffermann & C. Rao (Hrsg.), Sample surveys: Design, methods and applications: Vol. 29A of Handbook of statistics, Kapitel 3, (1. Aufl., S. 55–70). Amsterdam: North-Holland. Leiner, B. (1989). Stichprobentheorie: Grundlagen, Theorie und Technik. München: Oldenbourg. Levy, P., & Lemeshow, S. (1999). Sampling of populations (3. Aufl.). New York, NY: Wiley. Ligges, U. (2005). Programmieren mit R. Heidelberg: Springer. Little, R. J. A., & Rubin, D. B. (1987). Statistical analysis with missing data. New York, NY: Wiley. Lohr, S. L. (1999). Sampling: Design and analysis. Pacific Grove, CA: Duxbury Press. Lumley, T. (2010). Complex surveys: A guide to analysis using R. Hoboken, NJ: Wiley Series in Survey Methodology. Lynn, P., & Schnell, R. (2007). Editorial: Methodology in our madness. Survey Research Methods, 1(1), 1–2. http://w4.ub.uni-konstanz.de/srm/article/view/45/44. Madow, W. G. (1949). On the theory of systematic sampling ii. Annals of Mathematical Statistics, 20, 333–354. Manitz, J., contributions by Hempelmann, M., Kauermann, G., Kuechenhoff, H., Oberhauser, C., Westerheide, N., & Wiesenfarth, M. (2010). Samplingbook: Survey sampling procedures. R package version 1.0. Marker, D. A., & Stevens, D. L. (2009). Sampling and inference in environmental surveys. In D. Pfeffermann & C. Rao (Hrsg.), Sample surveys: Design, methods and applications: Vol. 29A of Handbook of statistics, Kapitel 19, (1. Aufl., S. 487–512). Amsterdam: North-Holland. Matérn, B. (1986). Spatial variation. Berlin: Springer. Midzuno, H. (1952). On the sampling system with probability proportionate to sum of sizes. Annals of the Institue of Statistical Mathematics, 3, 99–107. Mosler, K., & Schmid, F. (2004). Beschreibende Statistik und Wirtschaftsstatistik (2. Aufl.). Berlin, Heidelberg: Springer. Noelle-Neumann, E. (2000). Die Schweigespirale. München Langen Müller. Opsomer, J., Breidt, F., Moisen, G., & Kauermann, G. (2007). Model-assisted estimation of forest resources with generalized additive models (with discussion). Journal of the American Statistical Association 102, 400–416. Opsomer, J. D. (2009). Alternative approaches to inference from survey data. In D. Pfeffermann & C. Rao (Hrsg.), Sample surveys: Inference and Analysis: Vol. 29B of Handbook of statistics (1. Aufl., S. 3–10). Amsterdam: North-Holland. Quatember, A. (1996). Das Quotenverfahren. Linz: Universitätsverlag Rudolf Trauner. Rao, C. R. (1973). Linear statistical inference and its applications (Wiley series in probability and mathematical statistics) (2. Aufl.). New York, NY: Wiley. Rao, J. N. K., & Singh, M. P. (1973). On the choice of estimator in survey sampling. Australian Journal of Statistics, 15, 95–104. Ronning, G. (2005). Randomized response and the binary probit model. Economics Letters, 86, 221–228.
258
Literatur
Rosén, B. (1997). On sampling with probability proportional to size. Journal of Statistical Planning and Inference, 62, 159–191. Ruppert, D., Wand, M., & Carroll, R. (2003). Semiparametric regression. Cambridge: Cambridge University Press. Sampford, M. (1967). On sampling without replacement with unequal probabilities of selection. Biometrika, 54, 499–513. Scheaffer, R., Mendenhall, W., & Ott, L. (1995). Elementary survey sampling (5. Aufl.). Boston, MA: Duxbury Press. Schnell, R. (2008). Avoiding problems of traditional sampling strategies for household surveys in Germany: Some new suggestions. DIW, Berlin. Schnell, R., Hill, P. B., & Esser, E. (2008). Methoden der empirischen Sozialforschung. München: Oldenbourg. Schwarz, H. (1975). Stichprobenverfahren: Ein Leitfaden zur Anwendung statistischer Schätzverfahren. München: Oldenbourg Verlag. Sen, A. R. (1953). On the estimate of the variance in sampling with varying probabilities. Journal of the Indian Society of Agricultural Statistics, 5, 119–127. Särndal, C., Swenson, B., & Wretman, J. (1992). Model Assisted Survey Sampling. New York, NY: Springer. Statistisches Bundesamt Deutschland (2006). Pressemitteilung Nr. 249 vom 22.06.2006, Drei Viertel der Bevölkerung in Deutschland sind Nichtraucher. DESTATIS. Thompson, S. (2002). Sampling (2. Aufl.). New York, NY: Wiley. Tillé, Y. (2006). Sampling algorithms. New York, NY: Springer. Vijayan, K. (1975). On estimating the variance in unequal probability sampling. Journal of the American Statistical Association, 70, 713–716. Warner, S. (1965). Randomized response: A survey technique for eliminating evasive answer bias. Journal of the American Statistical Association, 60, 63–69. Westerheide, N. (2006). Diplomarbeit, Fach Wirtschaftswissenschaften, Universität Bielefeld, Bielefeld. Yates, F., & Grundy, P. (1953). Selection without replacement from within strata with probability proportional to size. Journal of the Royal Statistical Society B, 15, 253–261.
Sachverzeichnis
A ADM-Stichprobe, 200 Anteilsschätzung, 30, 52 A posteriori Schichtung, 154, 158 Approximative Normalverteilung, 27 Arithmetisches Mittel, 85 Ausfallrate, 6 Auswahl auf’s Geratewohl, 7 Auswahlsatz, 22 Auswahlwahrscheinlichkeit, 13, 94, 95, 103, 105, 165 Auswahlwahrscheinlichkeiten zweiter Ordnung, 95, 106 B Bedingte Erwartung, 156 Bedingte Varianz, 156 Beobachtungen, 16 Bernoulli-Variable, 100 Bestimmtheitsmaß, 76 Bias, 19, 21 Binomialverteilung, 36 C Capture-Recapture Stichprobe, 212 Capture-Recapture Verfahren, 212 Cluster, 161, 164 Cluster-Schätzer, 165, 169 Cluster-Stichprobe, 160, 164, 166, 182 Cluster-Stichprobe bei größenproportionaler Ziehung, 171 Cluster-Stichprobe bei ungleicher ClusterGröße, 169 Clustergröße, 168 Clusterprinzip, 163 Clustersummen, 166 D Design, 11
Designbasierter Cluster-Schätzer, 170, 186 Designbasierte Stichprobenverfahren, 92 Designbasierte zweistufige Verfahren, 197 Design der einfachen Zufallsstichprobe, 12, 192 Design-Effekt, 152, 167 Differenzenschätzer, 63, 65, 85 Durchschnittliche Clustergröße, 168 E Einfache Cluster-Stichprobe, 160 Einfacher Cluster-Schätzer, 165, 166 Einfache Stichprobe, 19 Einfache Zufallsstichprobe, 11–13, 47, 62, 195 Einfache zweistufige Zufallsstichprobe, 192 Einheiten erster Stufe, 189 Einseitiges exaktes Konfidenzintervall, 33 Ein-Zug-Auswahlwahrscheinlichkeit, 107, 116 Eliminierungsmethode von Tillé, 113 Endliche Populationen, 22 Erhebungsfehler, 6 Erwartungstreu, 21 Erwartungswert, 18, 19, 35 Exaktes Konfidenzintervall, 30, 31, 33 F Fehlerwahrscheinlichkeit, 37 G Gütekriterien, 21 Genauigkeit, 12, 20, 37 Gesamtvarianz, 153 Geschichteter Schätzer, 142, 145, 210 Geschichtete Stichprobe, 137, 141, 145, 176 Gewichtung, 98 Größenproportionale Stichprobe, 99, 104, 106 Größenproportionale Ziehung, 170 Grundgesamtheit, 5 Gruppierung, 136
259
260 H Höhergewichtung, 155 Hajek, 119 Hansen-Hurwitz-Schätzer, 117 Hansen-Hurwitz-Strategie, 116 Hilfsmerkmal, 105 Hilfsvariable, 62 Horvitz-Thompson-Schätzer, 94, 95, 100, 103, 131, 139, 170 Horvitz-Thompson-Theorem, 100, 165 Hypergeometrische Verteilung, 30 I I.i.d., 34 Independent and identically distributed, 34 Individuen, 5 Inferenz, 16 Inklusionsvariable, 100 Intervallschätzung, 25 Inverse Auswahlwahrscheinlichkeit, 99 K Kleinste Quadrateschätzung, 78 Klumpen, 161 Klumpenstichprobe, 161 Konfidenzintervall, 25, 27, 28, 37 Konfidenzintervall für Anteile, 30, 31 Korrekturfaktor, 22, 38 Kosten-optimale Aufteilung, 151 L Länge des Konfidenzintervalls, 38 Lineares Regressionsmodell, 74 M Madow, 115 Mehrphasige Verfahren, 189 Mehrstufige Verfahren, 189 Merkmal, 5 Merkmalsträger, 5 Messfehler, 6 Methode von Madow, 107, 115 Methode von Midzuno, 107 Methode von Tillé, 107 Midzuno, 114 Mittelwertschätzung, 18, 21, 22, 35, 51 Mittlerer quadratischer Fehler, 21 Model assisted, 79 Modellbasierter Cluster-Schätzer, 168, 185 Modellbasierter Schätzer, 202 Modellbasiertes Schätzverfahren, 62 Modellbasierte Stichprobenverfahren, 61, 62, 64, 66, 68, 70, 72, 74, 76, 78, 80, 82, 84, 86, 88, 90
Sachverzeichnis Modellbasierte zweiphasige Verfahren, 201, 217 Modellbasierte zweistufige Verfahren, 197 Modellunterstützte Schätzung, 79 MSE, 21 N Nachträgliche Schichtung, 158 Nicht-zufällige Auswahlverfahren, 7 Non-Responder, 211 O Optimale Aufteilung, 147, 153 P Paarweise Auswahlwahrscheinlichkeiten, 95, 170 Parameter, 16 Pareto-Sampling, 113 Pareto-Verfahren, 107 Pilotstichprobe, 39, 40, 148, 150 Population, 5, 17 Populationsliste, 14 Populationsmittelwert, 62 Populationsumfang, 17 PPS-Auswahlwahrscheinlichkeiten, 120 PPS-Design, 106, 198 PPS-Stichprobe, 105 PPS-Ziehung, 124, 125 Primärinformation, 62, 93 Primary sampling units, 189 Prinzip der kleinsten Quadrate, 74 Probabilities proportional to size, 105, 106, 170 Proportional, 69 Proportionale Aufteilung, 147, 152 Proportionalitätsfaktor, 69 Q Quotenauswahl, 9 Quotenmerkmale, 9 Quotenstichprobe, 9 Quotienten-Cluster-Schätzer, 168 Quotientenschätzer, 69, 73, 85, 168, 197 R Rücklaufquoten, 151 Regression, 73 Regressionsschätzer, 73, 75, 77, 85 Relative Schichtgrößen, 155 Repräsentative Stichprobe, 10 Repräsentativität, 9 Residuum, 74 RMSE, 21 Root mean square error, 21
Sachverzeichnis S Sampford-Methode, 107, 109, 110 Satz vom iterierten Erwartungswert, 156 Schätzer, 16, 18 Schätzfehler, 19 Schätzung von Anteilen, 29 Schichten, 137, 141 Schichtung, 137, 140 Schichtungsgewinn, 153 Schichtungsmerkmal, 138 Schichtungs-Prinzip, 144 Sekundärinformation, 62, 93, 105, 138 Selbstgewichtete Stichprobe, 198 Sicherheitsniveau, 37 Splitting-Methoden, 114 SSB, 153 SST, 153 SSW, 153 Standardabweichung, 19, 21 Statistiken, 16 Statistische Einheiten, 5 Statistische Inferenz, 16 STD, 21 Stichprobe, 6, 17 Stichprobe mit systematischem Fehler, 10 Stichprobendesign, 11, 94 Stichprobengewichte, 201 Stichprobenumfang, 17, 37, 40 Stichprobenumfang bei Anteilsschätzung, 57 Stichprobenumfang bei Mittelwertschätzung, 55 Stichprobenumfang in den Schichten, 147 Strata, 141 Stratifizierte Stichprobe, 141 Stratifizierung, 140 Studienpopulation, 16 Sum of squares between, 153 Sum of squares total, 153 Sum of squares within, 153 Systematische Stichprobe, 42, 44, 172 Systematischer Fehler, 21 Systematischer Schätzfehler, 19 T Teilerhebung, 6 Tillé, 113 Typische Stichprobe, 8
261 U Überdeckungswahrscheinlichkeit, 27 Umgewichtung, 155 Unabhängig und identisch verteilt, 34 Unverzerrt, 21 V Var, 21 Varianz, 19–21, 35 Varianz eines Anteils, 29 Varianz-optimale Aufteilung, 147 Varianzreduktion, 64, 66 Verwerfungsstichprobe, 109 Verzerrte Stichprobe, 10 Verzerrung, 9 Vollerhebung, 6, 161 Y Yates und Grundy, 101 Z Zensus, 6 Zentraler Grenzwertsatz, 25 Ziehen mit Zurücklegen, 34 Ziehen ohne Zurücklegen, 12 Zielvariable, 62 Zufälliger Fehler, 21 Zufälliger Schätzfehler, 19 Zufallsgeneratoren, 14 Zufallsprozess, 11 Zufallsstichprobe, 11, 189 Zwei-Phasen-Schätzer, 202 Zweiphasige geschichtete Stichprobe, 208, 210, 220 Zweiphasiger Differenzenschätzer, 206 Zweiphasiger geschichteter Schätzer, 209 Zweiphasiger Quotientenschätzer, 206 Zweiphasiger Regressionsschätzer, 204 Zweiphasige Stichprobe, 211 Zweiphasige Stichprobenverfahren, 201, 202 Zweiphasige Verfahren, 189 Zweistufige Hochrechnung, 193 Zweistufiger Hansen-Hurwitz-Schätzer, 200 Zweistufiger Quotientenschätzer, 198 Zweistufiger Schätzer, 195 Zweistufige Stichprobe, 195, 214 Zweistufige Stichprobenverfahren, 189, 191 Zweistufige Verfahren, 189