Udo Kuckart z . St efan Rädiker . Thom as Ebert . Julia Schehl Statistik
Udo Kuckartz . Stefa n Rädiker Thomas Ebert . Julia Schehl
Statistik Eine verständliche Einfüh rung
III VSVERLAG
Bibliogra fische Information der Deutschen Nationalbibliothek Oie Deutsche Nationalbibliothek verzeichnet diese Publika tion in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Int ernet über c ht t o.z/dnb.d-nb.des abrutbar.
1. Auflage 2010 Alle Rechte vorbehalten
© VS verlag für Sozialwissenschaften I Springe r Fachmedien Wiesbaden GmbH 2010 Lektorat: Frank Engelhardt VS Verlag für Sozialwissenschaften ist eine Marke von Springer sacrmeden Springer Fachmedien ist Teil der Fachverlagsgruppe Springer scence-eusmess Media . wwwvs -verleg.de Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und verarbeitung in elektronischen Systemen. Oie Wiedergabe von ceoraucnsnamen. Handelsnamen. Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeic hnung nicht zu der Annahme, dass solche Namen im Sinne der warenzechen - und Markenschutz-Gesetzgebung als frei zu bet rachten wären und daher von jedermann benu tzt werden dürften. Umschlaggestaltung: k ünkenopka Medienentwicklung. Heidelberg Druck und bucnbmcenscne Verarbeitung: reo Brink, Meppel Gedruckt auf säurefreiem und chlorfrei gebleichtem capter ennteo in the Netnertenos ISBN 978-3-531-16662 -9
Inhalt
~ ~ r t
9
1
Die Aufbe re it u ng der Daten für die sta tistische Anal yse 1.1 Der Codep lan 1.2 Fehlen de Werte, immer ein Problem 1.3 Der Entwu rf eines Codeplans - ein Beispiel 1.4 So geht es mit SPSSjSYSTAT
13 14 20 21 26
2
Häufigkei ts verteilungen und ihre grafisch eu Da rstellungen 2.1 Häufigkeitstabellen 2.2 Bildung von Kategorien bei intervallskalierten Variab len 2.3 Grafische Dar stellungen einfacher Häu figkeitsvertei lungen 2.4 So gehtes mit SPSSjSYSTAT
33 34 37 38 51
3
Mitt elwerte und Streuungs maße 3.1 Mittelwerte 3.2 Streu ungs maße 3.3 Boxplots: Grafische Dars tellung von Streuu ngen 3.4 Stand ardi sierungsverfahren 3.5 So geht es mit SPSSj SYSTAT 3.6 Mitt elwerte und Streuungsmaße in der Forschungsliterat ur
57 57 64 70 72 75 80
4
Kreuztab elle, Chi-Quadrat und Zusammenban gsm aße 4.1 Das Prin zip der Kreuztabelle 4.2 Absolute Häufigkeiten, Spalten summ en und Zeilensummen 4.3 Relative Häufigkeiten, Spalte nprozente und Zeilenprozente 4.4 Erwar tu ngswerte und die Berechnung von Chi-Quadrat 4.5 Die Kreuztab elle mit meh rfach gest uften Merkmalen 4.6 Zusammenhangs maße für d ie Kreuzta bellenana lyse 4.7 Weitere Variablen in die Analyse ein bezie hen 4.8 Chi-Quad rat-Berechnung für univariate Verte ilungen 4.9 Grafische Darste llung von Kreuztabe llen 4.10 So geht es mitSPSSjSYSTAT 4.11 Die Kreuztabellenanalyse in der For schungsliteratur
81 81 83 84 86 89 91 93 93 95 98 101
Inhalt
6
5 Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen 5.1 Was ist Wahrscheinlichkeit und wie berechnet man sie? 5.2 Irren ist nicht nur menschlich, sondern auch wahrscheinlich 5.3 Wahrscheinlichkeitsverteilungen 5.4 Die Binomialverteilung 5.5 Die Normalverteilung 5.6 Die t-Verteilung 5.7 Die Chi-Quadrat-Verteilung 5.8 Die F-Verteilung
103 104 111 112 115 119 126 127 128
6
129 129 133 135 138 140 142 144 145
Die 6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8
Logik des statistischen Schließens Die Verteilung von Stichprobenkennwerten Konfidenzintervalle Die statistische Hypothese Der Hypothesentest Einseitige und zweiseitige Tests Alpha-Fehler und Beta-Fehler Signifikanz - ein Begriff, der in die Irre führen kann Effektgröße
7 t- Test: zwei Mittelwerte vergleichen 7.1 Mittelwerte von zwei unabhängigen Stichproben vergleichen 7.2 Mittelwerte von zwei abhängigen Stichproben vergleichen 7.3 So geht es mitSPSS/SYSTAT 7.4 Der Vergleich von Mittelwerten in der Forschungsliteratur
147 149 154 158 165
8
Varianzanalyse: mehr als zwei Mittelwerte vergleichen 8.1 Grundbegriffe der Varianzanalyse 8.2 Das Prinzip der einfaktoriellen Varianzanalyse 8.3 Durchführung einer einfaktoriellen Varianzanalyse 8.4 Die mehrfaktorielle Varianzanalyse 8.5 Voraussetzungen für die Durchführung einer ANOVA 8.6 So geht es mitSPSS/SYSTAT 8.7 Die Varianzanalyse in der Forschungsliteratur
167 167 168 170 178 180 181 186
9
Korrelation: Zusammenhänge identifizieren 9.1 Zusammenhänge von Variablen grafisch darstellen 9.2 Die Korrelation von intervallskalierten Variablen 9.3 Die Korrelation von ordinalskalierten Variablen 9.4 Die Korrelation von nominalskalierten Variablen 9.5 Korrelation und Kausalität 9.6 So geht es mit SPSS/SYSTAT 9.7 Die Korrelationsanalyse in der Forschungsliteratur
189 189 192 198 200 203 206 211
Inhalt
7
10 Skalenbildung 10.1 Was ist überhaupt eine Skala? 10.2 Skalierungsverfahren 10.3 Konstruktion einer Likert Skala 10.4 Die Qualität einer Skala 10.5 Angaben der Skalengüte in der Forschungsliteratur 10.6 So geht es mit SPSS/SYSTAT
215 216 219 220 227 228 228
11 Regression: komplexe Zusammenhänge analysieren und Vorhersagen treffen 11.1 Einfache lineare Regression 11.2 Multiple lineare Regression 11.3 Ausblick auf die logistische Regression 11 .4 So geht es mitSPSS/SYSTAT 11.5 Die Regressionsanalyse in der Forschungsliteratur
233 233 239 244 246 250
Glossar
253
Literatur
261
Anhang A. Datensätze von sozial- und erziehungswissenschaftlichen Studien B. Tabellen
263 263 267
Register
272
Vorwort
Dieses Lehr buch der sozialwis sen schaftlichen Sta tistik ist spe ziell für die neuen Bachelor- und Master-Studieng änge konzipiert: Es ist forsc hungsorientiert, verstä ndlich und anwendungsorientiert Was heißt das ? Forschungsorientiert bed eutet, das s zu Beginn der Planu ng des Inhalts dieses Buches die method enkritische Lektü re de r Top-Fachzeits chriften sta nd. Wir haben zunächst katalogisiert, welche sta tistischen Verfahren in den forschun gsorientierten Artikeln verwe ndet werden, d ie bs pw. in d er Kölne r Zeitschri ft für Soziologie, der Zeitschrift für Erzie hungswissenschaft, der Zeitschr ift für Evaluation, der Zeitschrift für Soziologie oder der Zeitschrift für Pädagogik a bged ruc kt w urden. Verfahren, d ie dort häufi g Verwend ung finden, muss man als Fachwi s-
sensc haftlerj in kennen , allein schon um die Fachbeitr äge verstehen und kriti s ieren zu können. Solche Verfahren hab en pr ioritär Eingang in dieses Buch gefunden, weil diese Zeitsc hriften den Stare-of-th e-art vo n Forschu ng und For sch ungsmet hodik repräsentieren. Verständlich bedeutet, dass wi r darauf verzichtet haben, ein Lehrbuch der Stochasti k mit sozialwiss enschaftliehen Beispie len zu schreiben. Unsere Devise lautete: Soviel Math ematik und sovie l Form eln wie nötig, soviel sozialw issenscha ftliehe Forschu ngs- und Interpretationslogik wie möglich. Wir wo llen also in diesem Buch dar ste llen, was man aus der Persp ektive der empirischen Sozialforschu ng an Stati stikkennt nissen besitzen muss und nicht der inneren Logik der statistische n Verfah ren und ihr er mathematischen Grund lagen folgen. Anwendun gsorienti ert bedeutet, das s w ir die Leser und Leserinnen in den Stand vers etzen wollen, die dargestellten Verfah ren auch pra ktisc h im Forschungsalltag einsetz en zu können - und dies geschieht heutzuta ge mit Statis tik-Software, die preisgünstig und teilwei se kosten los für herkömmliche P'Cs verfügba r ist. Die Fäh igkeit, all die s auch per Hand mit dem eigenen Taschenrechner a usführen zu können, ist da gegen von begren ztem Nutzen . Wir hab en deshalb Wert darauf gelegt, jeweils zu erk lären, w ie d ie bes prochenen Statistikverfa hren in die Praxis umsetzba r sind, und zwar zum einen mit dem we it verb reiteten Program m SPSS und zum anderen mit dem Programm SYSTAT, dessen Version für Stud ierende unter dem Namen MYSTAT kosten los zu r Verfügung geste llt wi rd. Statistik-Puris ten werden vielleicht vorbringen, dass die Darstellung in diesem Buch zu oberflächlich sei und die Kompetenz pre ise n, au ch eine Varianz -
10
Vorwort
analyse oder eine multiple Regression mit dem Taschenrechner lösen zu können. Wir halten diese Fähigkeit für entbehrlich. Viel wichtiger ist es unseres Erachtens, die Ergebnisse statistischer Analysen interpretieren zu können und die Realität empirischer Forschung mit kritischem Blick wahrzunehmen. Was nützt bspw. die theoretisch unbestrittene Überlegenheit von Zufallsstichproben als Auswahlverfahren, wenn mehr als die Hälfte der so ausgewählten Menschen aus was für Motivlagen auch immer - nicht zu einem Interview bereit sind? Die Kritik, die an den quantitativ-statistischen Methoden und den mit ihnen produzierten Ergebnissen in den letzten Jahrzehnten vorgetragen worden ist, hat nicht zuletzt deshalb gegriffen, weil das Festhalten am standardisierten Vorgehen und mathematisch-statistischen Prinzipien oftmals an den Realitäten der Lebenswelt vorbei ging. Es wäre allerdings falsch, aus der teilweise berechtigten Kritik gleich eine fundamentale Ablehnung zu folgern. Die Betrachtung von zahlenmäßigen Verteilungen, Relationen und Korrelationen kann sehr erhellend sein und stellt ein machtvolles Instrumentarium empirischer Sozialforschung dar. Das ist auch trotz der Ablehnung, auf die der Lerngegenstand Statistik des Öfteren stößt, den Studentinnen und Studenten durchaus bewusst. Im Rahmen unserer Vorlesung "Einführung in die sozialwissenschaftliehe Statistik haben wir Studierende im 2. Semester schriftlich gefragt "Was ist der Nutzen von statistischen Erhebungen für die Pädagogik?" Von den mehreren hundert Antworten auf diese offen gestellte Frage seien hier nur wenige exemplarisch genannt: Erfolg oder Misserfolg von bestimmten Maßnahmen/Experimenten überprüfen Aktuelles, repräsentatives Bild von der Gesellschaft erhalten Bedürfnisse, Wünsche, Meinungen der Klienten und Klientinnen kennenlernen Theorien und Hypothesen überprüfen Ursachen und Problemfelder erkennen Verbesserung der Qualität pädagogischer Arbeit Schon diese kleine Auswahl zeigt in ihrer verblüffenden Vielschichtigkeit, wie wichtig ein solides Basiswissen in statistischen Methoden sein kann. Dieses Buch folgt der Logik der statistischen Datenanalyse. wie sie typischerweise in Forschungsprojekten praktiziert wird. Die Kapitel bauen aufeinander auf und sollten deshalb auch der Reihe nach gelesen werden. Der Prozess der Datenerhebung und deren verschiedene Formen wie Interview, Beobachtung, Experiment oder Inhaltsanalyse bleiben in diesem Buch außen vor. Wir starten mit dem ersten Kapitel an dem Punkt, wo die auszuwertenden Daten bereits vorliegen, z.B. in Form ausgefüllter Fragebögen oder Beobachtungsbögen. In den folgenden zehn Kapiteln wird ein anwendungsorientiertes statistisches Grundwissen vermittelt.
Vorwort
11
Alle Kapitel, in denen Berechnungen erläutert werden, beinhalten einen Abschnitt "So geht es mit SPSS/SYSTAT", in dem die Umsetzung des Beschriebenen mit Statistiksoftware erklärt wird. Den Abschluss der meisten Kapitel bildet ein Abschnitt, in dem Beispiele aus der aktuellen Forschungsliteratur dargestellt werden. Der Anhang enthält unter anderem ein Glossar der zentralen Begriffe sowie Hinweise aufwichtige, für die Forschung frei zugängliche Datensätze großer sozial- und erziehungswissenschaftlicher Studien. Das Buch ist als Begleitbuch für einen einsemestrigen Hochschulkurs mit 15 Terminen konzipiert, wobei der erste Termin wie üblich als Einführungstermin und der letzte Termin für die abschließend Klausur vorgesehen ist. Je nach intendierter Schwerpunktsetzung können dann zwei Kapitel, bspw. Kapitel 4 .Kreuztabellenanalyse" und Kapitel 11 "Regression", vertiefend an zwei Terminen bearbeitet werden. Es ist empfehlenswert und höchst sinnvoll, parallel zum inhaltlichen Seminar/Vorlesung einen Übungstermin oder ein Tutorium vorzusehen. Wir möchten uns bei allen bedanken, die uns bei der Erarbeitung und Fertigstellung dieses Buches unterstützt haben. Dies gilt vor allem für die Mitarbeiterinnen der Marburger Arbeitsgruppe für Methoden & Evaluation (magma), insbesondere für Katrin Peyerl, Dina Weiler, [anika Olschewski, Julia Busch und Stefanie Zanetti, die bei der Erstellung der Grafiken sowie beim Satz und Layout sehr engagiert und zuverlässig gearbeitet haben. Udo Kuckartz, Siefan Rädiker, Thomas Ebert,julia Schehl Marburg, im April 2010 P.S.: Im Internet stellen wir unter V\TWV\l.statistik-verständlich.de zusätzliche Informationen (interessante Links, Formelsammlung etc.) bereit.
1
Die Aufbereitung der Daten für die statistische Analyse
Bevor Daten ausgewe rtet werden können, müs sen sie zunächs t so aufberei tet w erden, dass sie mit sta tisti schen Analysep rogrammen bearbeite t werden können. Hat man etwa eine Pace-tc-face-Befragung! - also eine mündliche persönliche Befragung - du rchgeführt und die Antworten in einem Papierfragebogen notiert, s o muss man nun den Transfer der Dat en von den vielen einzelnen Fra geböge n in eine einzige übersichtliche Datenta belle orga nisieren. Eine so lche Datentabelle für die statistische Analyse besitzt eine n rechteckigen Aufbau und s ieht im Prinzip folgendermaßen aus: Tab 1-1 ' Die Datentabelle als Ergebnis d er Dat en au fber eit ung 10
Geschl echt
Note
Religion
Zufriedenheit
Beruf
101
m
3,2
2
2
Lehre r
10 2
w
2,1
1
3
Ärzt in
103
m
2,3
2
3
Schreiner
10 4
w
3,2
3
4
Päd ago gin
1,9
1
0
Anwa lt
105 106
m
2,9
3
2
Verkäufer
107
m
1,6
0
1
Krankenpfleger
Die erste Zeile ent hält die Namen der Variablen, hier z.B. Geschlecht, Note etc. Die fertige Dat entabelle, die häufig au ch Datenmat rix genannt wird, besteht aus n Zeilen, also genau so vielen Zeilen, wie es Befragte gibt, und m Spalte n, d h. so vielen Spa lte n, wie der Fragebogen Fragen ent hä lt bzw. um es gena u zu for mu-
1
Jm Fall von Online-Befra gungen muss man sich viele der hier folgenden Überlegungen bereits vor der Datenerhebung ma chen (vgl. hier zu z.B. Kuckart z u.a. 2009).
14
Die Aufbereitung der Daten fur die statistische Analyse
lieren: so viele Spalten, wie Variablen definiert werden müssen, um die Befragung adäquat auswerten zu können.
Was ist eigentlich eine Variable? Der Begriff "Variable" wird in den Sozialwissenschaften für ein Merkmal oder eine Eigenschaft verwendet. Eine Variable besitzt verschiedene Ausprägungen, z.B. hat das "Geschlecht" die Ausprägungen "männlich" und "weiblich" und die Ausprägungen der Variable "Alter in Jahren" sind die Jahre. Häufig werden die Begriffe "Variable" und "Merkmal" sy'nony'm verwendet. In der ersten Spalte der oben dargestellten Datentabelle (Tab. 1-1) steht eine Identifikationsnummer (Spaltenbenennung "rDU), die es ermöglichen soll, schnell auf den Originalfragebogen zurückzugreifen. Wenn auf den zu erfassenden Fragebögen nicht bereits eine eindeutige Kennung abgedruckt war, muss man also vor der Dateneingabe einen Stift zur Hand nehmen und alle ausgefüllten Fragebögen mit einer laufenden Nummer versehen. Eine solche Identifikationsnummer ist vor allem dann wichtig, wenn sich später bei der Kontrolle der eingegebenen Daten herausstellt, dass offenbar ein Eingabefehler vorliegen muss, weil die Datentabelle z.B. Variablenwerte enthält, die es aufgrund des Codeplans gar nicht geben kann oder die sehr unwahrscheinlich sind (Alter = 200 Jahre, 20-Jährige mit sieben Kindern etc.).
1.1 Der Codeplan Wenn man die Daten in Tabelle 1 näher betrachtet, wird man höchstwahrscheinlich die Tabellenwerte der Variablen "Geschlecht" intuitiv mit den tatsächlichen Ausprägungen der Variable in Verbindung bringen. Man vermutet wohl zurecht, dass der Code .rn" männlich bedeutet und es sich bei ID = 101 um einen männlichen Befragten handelt. Dementsprechend bedeutet die Eingabe "w", dass die befragte Person "weiblich" ist. Anders verhält es sich bei der vierten Spalte, die Angaben über die Religionszugehörigkeit enthält. Diese ist hier nicht im Klartext eingetragen, sondern wir finden dort nur Zahlenangaben, die wir nicht direkt in Verbindung mit den möglichen Ausprägungen "katholisch", "evangelisch", "keine Religionszugehörigkeit" etc. bringen können. Hier bedarf es also einer entsprechenden Korrespondenztabelle, in der die Bedeutung eines Variablenwertes eindeutig festgelegt wird. Eine solche Korrespondenztabelle bezeichnet man auch als Codeplan, Codierscherna oder englisch als Codebook. Betrachten wir Tab. 1- 2 als Beispiel:
15
Der Codeplan
Tab. 1-2:
Beispiel-Codeplan für sechs Variablen
Variablenname
Variablenlabel
Wertelabel
Variablentyp
Skalenniveau
ID
Identifikations nummer
Wert eingeben
Numerisch
nominal
Geschlecht
Geschlecht
w = weiblich
Strtng
nominal
Numerisch,l Dezimalstelle
intervall
Numerisch
nominal
Numerisch
ordlnal
Strtng
nominal
m - männlich 0= k.A.
Wert eingeben
Note
Durchschnittsnote im Abitur
0= k.A.
Religion
Religionszugehörigkelt
2 = protestantisch 3 = nlcht-chrtstl. Religion
1
katholisch
0= k.A.
1
Zufriedenheit
Beruf
Zufriedenheit mit Einkornmens-höhe Welchen Beruf üben Sie aus?
sehr zufrieden
2 = eher zufrieden 3 = eher nicht zufrieden 4 = sehr unzufrieden 0- k.A. Text eingeben
Der Codeplan ordnet den Fragen und Teilfragen eines Fragebogens Variablennamen (engl. Variable Names) und den möglichen Ausprägungen einer Variablen Wertelabels (Value Values) zu. Im folgenden Abschnitt werden die einzelnen Spalten von Tab. 1- 2 erläutert: Variablenname
Die Variablennamen dienen einem Statistikprogramm zur eindeutigen Identifizierung der einzelnen Variablenspalten. Variablennamen bestehen aus einem Wort bzw. einer Zeichenkette ohne Leerzeichen. Wenn der Fragebogen kurz ist und nur wenige Variablen zu definieren sind, kann man wie in Tab. 1-2 eine einfache, gegebenenfalls verkürzte Klartextbezeichnung verwenden. In den meisten Codeplänen enthält der Variablenname jedoch die Nummer der korrespondierenden Frage im Fragebogen, also bspw. "F1" oder "v23", wobei das "F" als Abkürzung für Frage und das "v" für Variable stehen. Diese Methode hat insbesondere bei längeren Fragebögen den Vorteil, dass man leichter den Überblick behält und im Statistikprogramm auf gesuchte Variablen schnell zugreifen kann. Zu beachten ist ferner, dass Statistikprogramme häufig nur bestimmte Zeichenkombinationen als Variablennamen erlauben (die Vorschriften werden im Detail weiter unten dargestellt).
16
Die Aufbereitung der Daten fur die statistische Analyse
Variablenlabel
In das Feld .Vartablenlabel" lässt sich für jede Variable eine detaillierte Beschreibung der Variablen eintragen. Während die Variablennamen meist Beschränkungen unterliegen, hat man bei der Definition von Variablenlabels "freie Hand". So bietet es sich an, die vollständige Formulierung der Frage aus dem Fragebogen als Variablenlabel zu übernehmen. Statistikprogramme benutzen das Variablenlabel später bei der Ausgabe zur Beschriftung von Tabellen und Grafiken. Wertelabel
Die dritte Spalte ist für die Ausprägungen der jeweiligen Variablen vorgesehen. Es wird festgehalten, wie die Antworten auf eine Frage in die Datenmatrix eingegeben werden. Enthält eine Frage im Fragebogen Antwortvorgaben (z.B. männlich und weiblich), so informiert die Spalte Wertelabel darüber, mit welcher Zahl oder mit welchem Zeichen die unterschiedlichen Antvvortmöglichkeiten in der Datenmatrix erfasst werden. Variablen typ
Beim Anschauen der Tab. 1-1 stellt man auf den ersten Blick fest, dass es offenbar Variablen verschiedenen Typs geben kann, bspw. findet man in der Spalte Geschlecht nur einzelne Buchstaben ("w" und "m") und in der Spalte Beruf ganze Wörter Ll.ehrerm"}. Solche Variablen, die nicht nur Zahlen, sondern auch Buchstaben und andere Zeichen enthalten, bezeichnet man als Zeichenkettenoder Stringvariable. Die Variablen Religion und Zufriedenheit enthalten hingegen ganze Zahlen und die Variable Note (das ist die Durchschnittsnote der Befragten im Abitur) enthält Zahlen mit Nachkommstellen. Derartige Variablen werden als "numerisch" bezeichnet. Skalenniveau
Welche Operationen man mit Variablen durchführen kann, hängt von ihrem Skalenniveau (Messniveau) ab. Man unterscheidet zwischen Nominalskala, Ordinalskala und Intervallsakala-, wobei die Nominalskala das geringste Skalenniveau und die Intervallskala das höchste aufweisen. Beim Vorgang des Messens werden den Merkmalen des empirischen Relativs Zahlen so zugeordnet, dass die ursprünglichen Relationen möglichst erhalten bleiben. Für das einfachste Skalenniveau. die Nominalskala, sieht dies etwa wie in Abb. 1-1 aus.
2
Die vierte Skalenart, die Verhältnisskala oder Ratioskala, spielt in der empirischen Forschung so gut wie keine Rolle und wird hier nicht berücksichtigt
Der Codeplan
17
Abb. 1-1: Veranschaulichung der Nominalskala
I Merkmal "Geschlecht" I
I
~
Camilla
!
Isabel Florian Nils
I
Zahlen
-
Empirisches Relativ
..
1
..
2
~
~
I
I
Numerisches Relativ
I
I
Anstelle der Werte ,,1" und ,,2" hätte man auch andere Werte zur Bezeichnung des Geschlechts wählen können [etwa; 7" und ,,12"). Für Variablen mit Nominalskalenniveau lassen sich nur Aussagen über Gleichheit bzw. Ungleichheit treffen. Jemand ist männlich oder weiblich; deutscher, italienischer, französischer oder anderer Nationalität. Dementsprechend ist es auch ohne Belang, welche Zahlen man den verschiedenen Ausprägungen einer nominalskalierten Variable zuordnet, ob man bei der Frage nach der Parteipräferenz der SPD ,,1" oder ,,4" zuordnet, spielt keine Rolle. Anders verhält es sich bei der Ordinalskala. Hier ist es erforderlich, dass im empirischen Relativ eine Ordnungsrelation besteht und diese Relation muss bei der Zuordnung von Zahlen erhalten bleiben. Beispiele für ordinalskalierte Variablen sind Gehaltsstufen, Bildungsabschlüsse, soziale Schicht und alle Arten von Rangfolgen. Sind Objekte äquivalent - etwa Personen, die beide nach der Gehaltsgruppe TVÖD 13 bezahlt werden - erhalten sie eine identische Zahl zugeordnet. Die schematische Darstellung in Abb. 1-2 verdeutlicht, dass die Information über den Rangplatz (Platzierung) auch erhalten bleibt, wenn anstelle von ,,1", ,,2", ,,3"und ,,4" die Zahlen ,,1", ,,3", ,,6" und" 7" zugeordnet werden. Die Intervallskala erlaubt nicht nur Aussagen über die Rangfolge von Objekten, sondern auch über die Größe ihrer Abstände. Während ich bei der Rangskala den zugeordneten Werten nur entnehmen kann, dass Camilla vor Isabel und Florian vor Nils ins Ziel gekommen ist, sind die Werte einer Intervallskala so zugeordnet, dass gleiche Zahlendifferenzen zwischen zwei Objekten gleichen Merkmalsunterschieden entsprechen. Erhalten bspw. unsere vier Läufer linnen die von ihnen benötigte Zeit in Sekunden zugeordnet, so lassen sich auch Aussagen über die Abstände von je zwei Objekten formulieren ("Der Abstand zwischen Camilla und Isabel ist größer als der zwischen Florian und Nils"]. Beispiele für intervallskalierte Variablen sind "Zeit, die für Zusammenlegen eines Puz-
18
Die Aufbereitung der Daten fur die statistische Analyse
zles benötigt wurde", "Zahl der Kinder", "Einkommen in Euro", "Entfernung von Wohnung zur Arbeit in Kilometern". Anstelle von Intervallskalenniveau ist häufig auch vom metrischen Skalenniveau die Rede. Abb. 1-2: Veranschaulichung der Ordinalskala
Merkmal "Gemessene Zeit beim 100m Lauf'
I
I
Zahl
---:-----_~
3
--+-----~~
6
--+-----~~
7
Numerisches Relativ
I
Zu unterscheiden sind ferner stetige (kontinuierliche) und diskrete Variablen: Bei stetigen Variablen existieren im Prinzip zwischen zwei Werten unendliche viele Zwischenwerte (Beispiel: Zeitmessung), während bei diskreten Variablen die Werte abzählbar sind und keine Zwischenwerte auftreten können (Beispiel "Zahl der Kinder"). Mit dem Begriff kategoriale Variablen werden üblicherweise neben nominalskalierten auch ordinalskalierte Variablen mit relativ wenigen Ausprägungen
bezeichnet. Anstelle von Ausprägungen ist dann meistens von Kategorien die Rede. In manchen Statistikprogrammen, wie etwa in SYSTAT, wird nur zwischen intervallskalierten und kategorialen Variablen unterschieden. Häufig findet man in der Literatur auch den Begriff dichotome Variable. Dies ist eine Variable mit lediglich zwei Ausprägungen, wobei es sich um eine natürliche oder konstruierte Dichotomie handeln kann. Das Merkmal "Geschlecht" ist ein Beispiel für eine natürliche Dichotomie, während andere Dichotomien wie etwa die dichotome Variable "Einkommen" von den Forschenden konstruiert werden, indem ein Schwellenwert definiert wird, der die Werte in lediglich zwei Gruppen aufteilt (erste Gruppe: Einkommen über dem Durchschnitt; zweite Gruppe: Einkommen unter dem Durchschnitt). Prinzipiell können Variablen eines bestimmten Skalenniveaus in solche eines geringeren Skalenniveaus transformiert werden. So kann die intervallskalierte Variable "Einkommen" nicht nur wie beschrieben in eine dichotome (=nominalskaliert), sondern auch in eine
19
Der Codeplan
ordinalskalierte Variable verwandelt werden, indem die Probanden gemäß ihrem Einkommen in eine Rangreihe gebracht werden. Das Skalenniveau determiniert die Art von möglichen mathematischen Operationen und damit auch die statistischen Verfahren, die mit den so skalierten Variablen durchführbar sind (vgl. Tab. 1-3). So ist es offenkundig unsinnig, einen Mittelwert der Religionszugehörigkeiten zu berechnen, obwohl die Spalte in der Tab. 1-3 nur Zahlenangaben enthält und theoretisch - anders als bei der Stringvariable "Geschlecht" - die Berechnung eines Mittelwerts denkbar wäre. Tab. 1-3
Skalenniveau nominal
ordinal
Erlaubte Operationen
Beispiele
a=b
Geschlecht, Beruf, Partelpräferenz. Studienfach,
a,b
Religionszugehö rigkeit
a
Gehaltsstufe, militärischer Rang, Rangliste der besten Freunde/Freundinnen
a>b Interva!l
a-b=c-d
Zahl der Kinder, Einkommen, Durchschnittsnote im Abitur, Zahl der Elektroge räte im Haushalt,
Die Variablen der Tab. 1-2 besitzen also folgendes Skalenniveau: Variablenname
Skalenniveau
ID
nominal (zur Identifikation von Fragebögen)
Geschlecht
nominal (dichotom)
Note
Interva!l
Religion
nominal
Zufriedenheit
ordlnal
Beruf
nominal
An der unterschiedlichen Codierung der Variablen Geschlecht, Beruf und Religion lässt sich erkennen, dass nominalskalierte Variablen sowohl als Stringvariable als auch als numerische Variable codiert werden können. Während das Geschlecht in unserem Beispiel als Stringvariable definiert wurde, ist die Religionszugehörigkeit als numerische Variable definiert. In der Regel ist es bei Benutzung von statistischen Analyseprogrammen vorzuziehen, numerische Variable zu verwenden, obwohl deren Ausprägungen wie gesehen nicht ohne Hinzuziehen einer Korrespondenztabelle interpretiert werden können.
20
Die Aufbereitung der Daten für die statistische Analyse
1.2 Fehlende Werte, immer ein Problem Bei der Übertragung der Informationen aus einem Papier- oder OnlineFragebogen in eine Datenmatrix steht man häufig vor dem Problem, dass eine Antwort eines Befragten nicht auswertbar ist. Hierfür können zahlreiche Gründe vorliegen, z.B. Die Befragten haben die Antwort verweigert oder die Frage aus anderen Gründen nicht beantwortet Die Befragten haben zwei Antwortmöglichkeiten angekreuzt, obwohl nur eine Antwort erlaubt ist. Gelegentlich werden Kreuze auch zwischen zwei Ankreuzkästchen gesetzt und sind nicht eindeutig einer Antwortalternative zuzuordnen. Die Antwort ist offensichtlich falsch, z.B. wenn bei der Befragung von Studierenden eine Befragte als Alter ,,225" angegeben hat, ist nicht klar, ob sie 22 Jahre oder 25 Jahre meinte oder sich einen Scherz erlaubt hat. Die Antwort ist nicht lesbar. Die Antwort ist im Vergleich mit anderen Angaben nicht plausibel, z.B. eine 20-Jährige Person mit sieben Kindern. Die Frage trifft nicht zu, z.B. die Frage nach der Höhe des Einkommens bei einem befragten Kind. Das Problem der sogenannten fehlenden Werte ist bei der Auswertung von Forschungsdaten keineswegs trivial, sondern verursacht vielfältige Probleme. Zunächst muss man aber entscheiden, wie man solche fehlenden Werte in der Datentabelle codiert. Hierfür bieten sich im Wesentlichen zwei Methoden an. Erstens kann man das entsprechende Feld in der Datenmatrix einfach leer lassen, wie dies z.B. in Tab. 1-1 bei der Person mit der Identifikationsnummer 105 bei der Frage nach dem Geschlecht geschehen ist. Zweitens kann man fehlende Werte mit einem Zahlencode in die Datenmatrix aufnehmen. Dies ist dann hilfreich, wenn man zwischen verschiedenen Arten fehlender Werte unterscheiden möchte, so kann man z.B. die ,,9" für zweideutige Antworten verwenden und die ,,0" bei Antwortverweigerung. Von zentraler Bedeutung ist, welche Vorgaben das benutzte Statistikprogramm für die Verwaltung der fehlenden Werte macht, denn bei der Auswertung, z.B. bei der Berechnung des Mittelwertes, muss das Statistik- Programm in der Lage sein, die fehlenden Werte aus den Berechnungen auszuschließen. Wenn man als Code für fehlende Werte bei der Altersangabe den Wert ,,99" definiert hat, würde sich das Durchschnittsalter der Stichprobe nicht unerheblich erhöhen, wenn der Wert 99 in die Berechnung einbezogen würde. SPSS ist in Bezug auf die Handhabung fehlender Werte sehr flexibel, denn man kann fast alle denkbaren Werte als fehlende Werte deklarieren. Auch kann man unterschiedliche Arten fehlender Werte - etwa Antwortverweigerung.
Der Entwurf eines Codeplans - ein Beispiel
21
Weiß-nicht-Antvvorten etc. unterscheiden. SYSTAT ist in dieser Hinsicht weitaus restriktiver. Hier kann man fehlende numerische Werte nur durch einen Punkt kenntlich machen und fehlende Werte von Stringvariablen müssen als Leerzeichen codiert werden.
1.3 Der Entwurf eines Codeplans - ein Beispiel Nach diesen Vorklärungen wollen wir die Entstehung eines Codeplans an einem Beispiel demonstrieren. Wir werden dazu den Originalfragebogen der Studie Umweltbewusstsein in Deutschland> ausschnitt:vveise durchgehen.
OffeneFragen Der Fragebogen beginnt wie folgt: 1.
Was, glauben Sie, ist das wichtigste Problem, dem sich unser Land heute gegen übersieht?
INT.:
Bitte die Antwort des/der Befragten genau notieren! Bitte nur die ersten zwei Probleme, die der Befragte nennt, notieren!
Die erste Frage ist also eine offene Frage ohne Antwortvorgaben. Bei offenen Fragen werden die Antworttexte der Befragten in der Regel einfach in das entsprechende Feld der Datenmatrix eingegeben, so dass als Variablentyp nur .Stnng" in Frage kommt. Der Codeplans beginnt folgendermaßen: Variablenname
Label
Wertelabel
Typ
Skala
Fl
Wichtigstes Problem in Deutschland
(entfällt; Codieranweisung .Antworttext eingeben")
String
nominal
Um später eine Häufigkeitstabelle mit den Antworten auf die erste Frage erstellen zu können, müssen zunächst die Antworten durchgelesen werden und eine sinnvolle Kategorisierung entwickelt werden. Dabei verwendet man am besten die aus der qualitativen Inhaltsanalyse stammende Technik der induktiven Codierung (vgl. Mayring 2008: 74). Da die Zahl der Probleme, die potenziell von den Befragten genannt werden können, riesig groß ist, verfährt man bei der Kategorienbildung am besten so, dass bei der späteren Bearbeitung der Antworttexte für jedes Problem eine Oll-Variable definiert wird, wobei für den Fall,
3
Vgl. KuckartzjRheingans-HeintzejRädiker (2006). Der vollständige Fragebogen ist unter www.umweltbewusstsein.deverfügbar.
Die Aufbereitung der Daten fur die statistische Analyse
22
dass das betreffende Problem genannt wurde, eine 1 codiert wird. Die erarbeiteten Kategorien werden dann als Wertelabel in den Codeplan integriert. Zu diesem Zeitpunkt kann man allerdings noch nicht wissen, welche Kategorien gebildet werden, deshalb sind diese auch nicht Teil des ursprünglichen Codeplans, sondern werden erst später in diesen eingefügt.
lternbatterien Frage 2 des Fragebogens zum Umweltbewusstsein stellt eine sogenannte Itembatterie dar. Das Antwortformat ist jeweils gleich, nämlich eine 4er-Skala, sie von "sehr wichtig" bis "überhaupt nicht wichtig" reicht. 2. Ich lese Ihnen nun verschiedene politische Aufgabenbereiche vor. Bitte sagen Sie mir jeweils, ob Sie persönlich die Aufgabe für sehr wichtig, eher wichtig, weniger wichtig oder für überhaupt nicht wichtig halten. sehr wichtig
eher wichtig
weniger wichtig
überhaupt nicht wichtig
1
2
3
4
die Arbeitslosigkeit bekämpfen
0
0
0
0
den Bürger wirksamer vor Verbrechen schützen
0
0
0
0
für wirksamen Umweltschutz sorgen
0
0
0
0
das Zusammenleben mit Ausländern regeln
0
0
0
0
Die Umsetzung in den Codeplan geschieht wie in der folgenden Abbildung. Die Variablenlabels und Wertelabels werden zweckmäßigerweise so formuliert, dass die Formulierungen des Fragebogens so weit wie möglich im Originaltext übernommen werden. Gerade bei Fragebogenerhebungen ist äußerst wichtig zu wissen, wie die Frageformulierung lautet, insofern verbietet es sich an dieser Stelle, sich neue Formulierungen auszudenken, und zwar auch dann, wenn sie vielleicht präziser und besser wären.
23
Der Entwurf eines Codeplans - ein Beispiel
Variablenname
Label
Wertelabel
Typ
Skala
F2- 1
Politische Aufgabenberelche: Arbeitslosigkelt bekämpfen
1 = sehr wichtig
numerisch
Intervall
2 = eher wichtig
numerisch
Intervall
3 = weniger wichtig 4 = überhaupt nicht wichtig 0= fehlend
F2_4
das Zusammenleben mitAusländern regeln
Siehe F2- 1
Mehrfachnennungen Sehr häufig sind Frageformen, die den Befragten Mehrfachnennungen gestatten, wie bei der Frage 5 des Fragebogens zum Umweltbewusstsein. 5. Ich habe hier jetzt Karten mit verschiedenen Aufgabenbereichen im Umweltschutz. Welchen Aufgaben sollte sich die Bundesregierung Ihrer Meinung nach in der Zukunft verstärkt zuwenden? Bitte suchen Sie die drei Aufgaben aus, die Ihnen am wichtigsten erscheinen. ausgewählt
A
für einen sparsameren Umgang mit Energievorräten sorgen
D
B
mehr informieren über gesundheits- und umweltgefährdende Produkte und Zusätze
D
C
für eine umweltfreundliche Stadtentwicklung sorgen
D
für einen verbesserten Naturschutz sorgen
E
das Aussterben von Tier- und Pflanzenarten verhindern
F
für eine Unabhängigkeit von Öl und Gas durch erneuerbare Energien sorgen
G
die Entwicklung von sparsamen Antrieben und Motoren fördern
D D D D D
H
für eine deutliche Verringerung von klimaschädlichen Gasen sorgen, z.B. den Ausstoß von Kohlendioxid (C02)
D
I
für einen sparsameren Rohstoffverbrauch sorgen
D
Solche Fragen lassen sich prinzipiell auf zwei unterschiedliche Arten codieren. In der ersten Variante sieht man so viele Variablen vor, wie Nennungen möglich sind, in diesem Fall also drei Variablen:
Die Aufbereitung der Daten fur die statistische Analyse
24
F5- 1N
Vorrangige Aufgabenberelche im Umwelt-
1- sparsamer Umgang mit Energievorräten
schutz 1. Nennung
2 = Information über gesundhelts- und umweltgefährdende Produkte
numerisch
nominal
3 = für umweltfreundliche Stadtentwickl ung sorgen 4= .
5 =. 6 =. 7=. 8 =. 9 = für sparsameren Roh-
stoffverbrauch sorgen
0= fehlend F5- 2N
Vorrangige Aufgabenberelche im Umweltschutz 2. Nennung
Wie FS-
1N
numerisch
nominal
F5- 3N
Vorrangiger Aufgabenbeteich im Umweltschutz 3. Nennung
Wie FS-
1N
numerisch
nominal
Bei der zweiten Variante der Umsetzung in einen Codeplan sieht man für jede Antvvortmöglichkeit eine Variable vor: Aufgabenbereiche im Umweltschutz: Sparsamer Umgang mit Energievorräten Aufgabenbereiche im Umweltschutz: mehr informieren über gesundhelts- und umweltgefährdende Produkte
1 = genannt
numerisch
nominal
numerisch
nominal
0= nicht genannt 9 = gesamte Frage nicht beantwortet 1 = genannt 0= nicht genannt 9 = gesamte Frage nicht beantwortet
Die erste Variante ist dann vorzuziehen, wenn es nur eine relativ kleine vorab festgesetzte Anzahl von Nennungen gibt. Die zweite Variante ist dann günstiger, wenn die Zahl der Nennungsmöglichkeiten groß ist oder wenn die Zahl der möglichen Nennungen nicht von vornherein festliegt. Beim vorliegenden Beispiel würden bei der zweiten Variante also neun Variablen gebildet.
25
Der Entwurf eines Codeplans - ein Beispiel
Normale Einzelfragen Normale Einzelfragen sollten ohne weitere Umstände in den Codeplan übertragen werden wie die folgende Frage 7: 7.
Jetzt einige Fragen zur Umweltpolitik und zu umweltpolitischen Maßnahmen. Wenn Sie die Politik der Bundesregierung bewerten, soll die Regierung Ihrer Meinung nach insgesamt mehr für den Umweltschutz tun, weniger für den Umweltschutz tun, oder ist es so richtig , wie es derzeit ist?
1 2 3
F7
D D D
soll mehr für den Umweltschutz tun soll weniger für den Umweltschutz tun ist so richtig, wie es derzeit ist
Soll die Bundesregierung mehr für den Umweltschutz tun?
1 = soll mehr tun
numerisch
nominal
2 = soll weniger für den Umweltschutz tun 3 = ist so richtig, wie es ist 9 = keine Antwort
Wer die Antwortvorgaben aufmerksam liest, wird vielleicht bemerken, dass die Reihenfolge der Antwortvorgaben unglücklich gewählt wurde, denn in dieser Form besitzt die Variable nur Nominalskalenniveau. Besser wäre es gewesen, die Antwort "ist so richtig, wie es derzeit ist" in der Mitte (mit dem Code 2) anzuordnen, dann hätte die Variable Ordinalskalenniveau. Gegebenenfalls lässt sich die Reihenfolge später noch verändern, für die Dateneingabe sollte man aber - um die Codierer nicht zu verwirren - die Zuordnungen des Fragebogens beibehalten. Erst, wenn auf die beschriebene Weise der gesamte Fragebogen in den Codeplan umgesetzt wurde, kann mit der Eingabe der Daten begonnen werden.
26
Die Aufbereitung der Daten fur die statistische Analyse
1.4 So geht es mit SPSSjSYSTAT Aufbereitung der Daten mit SPSS4 Hinweise zu Variablennamen
SPSS besitzt einige Besonderheiten, die man von vornherein berücksichtigen sollte: Bei älteren Versionen (bis Version 11) durften Variablennamen nur aus maximal 8 Zeichen bestehen. Seit der SPSS-Version 12 sind immerhin 64 Zeichen erlaubt. Die Variablennamen dürfen aus Buchstaben, Ziffern und einigen wenigen Sonderzeichen (z.B.: _, @) bestehen, aber keine Leerzeichen enthalten. Variablennamen müssen einzigartig sein, d.h. im gesamten Codeplan darf der gleiche Name nur einmal existieren. Dabei unterscheidet SPSS nicht zwischen Groß- und Kleinschreibung. In den neueren Versionen bleibt die Groß- Kleinschreibung allerdings bei der Anzeige erhalten.
Legale Namen EinstellungUmwelt Geschlecht einsA KUCKARTZ_RÄDIKER Einkommen Frage_l
Illegale Namen Einstellung zur Umwelt Geschlecht.Lehrer
lA
KUCKARTZ&RÄDIKER Einkommen! Frage 1
Definition der Variablen in der Variablenansicht Der SPSS-Dateneditor unterscheidet zwischen zwei Ansichten: der Datenansicht und der Variablenansicht, zwischen denen man durch Klick auf die bei den "Tabs" am unteren Bildschirmrand hin- und herwechseln kann. In der Datenansicht können die Variablenwerte angezeigt und verändert werden. Die Definition des Codeplans und die Eingabe von Variablennamen und -werten etc. erfolgt in der Variablenansicht.
4
Für die Darstellung des Vorgehens in SPSS greifen wir auf die Softwareversion 18 zurück, die zwischenzeitlich auch unter dem Namen PASW firmierte.
..
So geht es mitSPSSjSYSTAT
27
rm lJ~b .~ .~~U [D .'.~ \.ot01 _ PA>W ,' .ti<>", D .'.~ _ 'Mo, Datei
'; ~
Bearbeiten
"" s icht
Oa1en
~
t:?'
T,ans fofmieren
Diagramme
E.tras
fenster
Hilfe
'"'" • il. =I .. . .Jiil . ll2. Bi An a l~ s i e r e n
.N.,
= "" ~I
~_N ame ~YP --..l.Spa lt e nfOf'!"'t LOezi ~l st e ll e n"yari " bl e n l a l>e~I~e rt e l a l>eI U e h l e nde ,!,eft e_~Spa lt enJLAu s ricl1t un9!L Mes s niveauJ
, ,
~ e
.=-+-1
~[
Umschalten zwischen Daten- ) : und Variablenansicht
..
~ atenans ich.1'(ltrill l>le"a"S)Chti
~Slat;su c:s f'fozes so.-;s t bereit ITI~
I
Man geht so vor, dass man in die erste Spalte den Namen der Variablen einträgt und dann mit der Tab-Taste in die nächste Spalte springt, wo man den Variablentyp auswählt. SPSS unterscheidet zwischen acht verschiedenen Variablentypen, von denen man aber normalerweise nur zwei braucht, nämlich "Numerisch" und .Stnng".
fm Variabl en!YJl::.:d"~",,"",,,,,,,,,,,"...
[;Q;I
@[~~~:~~j~i
Bre!te: 18
O ~o mm a
O Eu n ~
o ~is s e nS ch am i ch e Notation o O~tu m
ö eam eut enen.
~12==~
O OO!la r
o sgezrene Währung O Sl! ing
OK
I
Abtlfechen
Hilfe
Bei der Umsetzung eines Fragebogens in SPSS-Variablen hat man es in den meisten Fällen mit einstelligen Zahlen ohne Nachkommstellen zu tun, so dass man den Wert für die "Breite" der Variablen auf 1 und für Dezimalstellen auf 0 einstellen kann. Die oben beschrieben Variable "Note", mit der die Durchschnittsnote im Abitur erfasst wird, benötigt allerdings eine Nachkommstelle. Stringvariablen können in älteren Versionen von SPSS maximal 255 Zeichen lang sein. Seit der Version 14 können Texte mit bis zu 32768 Zeichen eingegeben werden.
Die Aufbereitung der Daten für die statistische Analyse
28
Bei SPSS kann in die Spalte .Variablenlabel" eine ausführliche Bezeichnung für die Variable eingetragen werden und in der Spalte "Wertelabels" können Labels für die Ausprägungen der Variablen definiert werden.
Fehlende Werte In der Datenansicht behandelt SPSS alle nicht ausgefüllten Eingabefelder von Variablen als fehlende Werte. Diese Werte heißen in SPSS systemdefiniert fehlend. Es können aber auch beliebige Zahlenwerte als benutzerdeJiniert fehlend definiert werden. Ein Klick in die Spalte Missing Values öffnet das in der folgenden Abbildung dargestellt Dialogfeld, in dem alle Werte angegeben werden können, die SPSS als fehlend behandeln soll.
l'ill F. hlond. w.rt.
11 I
11
o !3ereirn und einzelne, fehlende, Wert !geinste,Welt E"'felne,We,t:
L OK ,
GfOßle,We,t
=::=J
1 ~ b<erneiiJ
U
H ilfe
Bei itembatterien, die alle das gleiche Antwortformat haben, wäre es unpraktisch jeweils alle Wertelabel und Missing Value Vereinbarungen neu einzugeben. SPSS erlaubt es hier, eine komplette Variablendeklaration zu kopieren, in dem man diese anklickt, mit "Bearbeiten > Kopieren" in die Zwischenablage kopiert und dann mittels "Bearbeiten > Einfügen" erneut einfügt. Da Variablennamen nicht doppelt definiert werden dürfen, ändert SPSS lediglich den Variablennamen ab, alles andere erscheint in der gleichen Form wie bei der Ausgangsvariablen, d.h. mit allen Definitionen von Wertelabeln. Alle Zahlenwerte, die in der dargestellten Eingabemaske in eins der drei Felder unter "Einzelne fehlende werte" eingetragen werden, behandelt SPSS bei der Auswertung der Daten als fehlend und schließt diese aus den Berechnungen aus. Die Spalten "Spalten" und "Ausrichtung" beziehen sich nur auf die Darstellung der Variablenwerte im SPSS Dateneditor, die Spalte Measures ermöglicht einem die Skalenqualität der Variablen zu definieren. Allerdings hat die Angabe primär nur einen Wert für die eigene Erinnerung, SPSS prüft nicht immer, ob das gewählte statistische Verfahren auch für diesen Skalentyp überhaupt geeignet ist.
29
So geht es mit SPSSjSYSTAT
. bei M ; 0;
il unb enmnf,!<W [[l,t enSetl] · PfJ.SWSt,t"li" [l,t en·,ditor
I~
s
::S!Ofmieren ~a'iin
. .gr.
i
-'C4f ..
ite~is
~J
1_--,-_~Icc'N a~~y~--.Jl§~lt e.n.f~~_P!'zj~ S!~H ~~"~ar~,,~.!'.n.l a ~!jL~e.1t_e l a ~ I ,;,.f!'.~I.~~~ e We.rto;..1 pa lt e~hJ.~0~ u~g. ..!o1.!~;;,~ auJ ~ 10
Numerisch 4
0
Identifib tion
~ G e sc h~ht Numerisc h ,1 - - - ·0 - - -Gesc hle<: ht
o
K eine Keine ,8 ,,. Re<:hts I ~ No mi n oi {1, männli... ,0 - - - - " - - -' ~I;,N omi n al
--=
Alt er_ _ N u';'e risc h ' 2- ·O - - = = :Alter.in Jahren K';;;;e , 0= = "8 =," R~h;;- 4P Sk~ ,~ Re l igi on Numerisc h ,1 0 Religionsz ug {1, katholi 0 8 ,. Re<: hts I;, Nominal Zuffi ed e n h e it .N~ 1 ·0 = =z uffiedenheiL-:-/ 1,---; ehf z~ 0- - = = : ·8 = :,. Re<:ht s-l .dor~
=0
.
~ Not e_~Nu ~e ri sch 2 ' = : r = J Beruf
:=:c=J
Stnng
I
Oaten"nsid1ill V~ ""l>Ien~ n sJc ht
255 I
11
10
Abitu rdu rchs.:::..~~O Welchen Ber
I
Keine
I
Keine I
. "_~:: 5oc hts_ 8
-' l inks
li
'$'~k.;I . _ ;;, Nommal
I
.
.
,PASWstati s~cs Pml ess", ;st bereil l ll T U
Eingabe der Daten Wenn alle Variablen definiert sind, kann mit der Eingabe der Daten begonnen werden. Bevor man dies tut, sollte man noch einmal überprüfen, ob die gewählten Variablentypen korrekt sind, denn eine nachträgliche Veränderung (etwa des Typs String in eine numerische Variable) ist nicht immer möglich. Die Definition von Wertelabels und fehlenden Werten kann hingegen auch später noch verändert werden, ohne dass die zwischenzeitlich eingegebenen Daten davon direkt betroffen sind. Selbstverständlich ist darauf zu achten, dass keine falschen Zuordnungen von Variablenwerten zu Wertelabels erzeugt werden. Zur Dateneingabe schaltet man in die Datenansicht und beginnt - dem Codeplan entsprechend - mit der Eingabe der Daten. Durch das Drücken der Tabulator-Taste springt man jeweils ins nächste Eingabefeld. Bei der Eingabe der ersten Fragebögen stellt man eventuell fest, dass der Codeplan noch einmal verbessert werden muss. Man nimmt dann diese Verbesserung vor und fährt mit der Eingabe fort. Fragebogen für Fragebogen werden die Daten eingegeben. Hilfskräfte sind in den meisten Fällen willkommen.
Die Aufbereitung der Daten für die statistische Analyse
30
lilI unb en,nn!. "", [O, t enSrtl] Qatei
.1J" arbeiten
- PASW 5lolirtic
6" sicl1t
=
1 1 :=~'=~lt,
Da!en
[};o!l.,amme
Ar1 . I~ s i e r e n
1 ; - - -104 2 11
105
,-• - -
t ons!er
tjilfe
I 8; d11b",: 7 .0117 V. riablen
Note
+-__ "
33, 19
28 401
Beruf
z
z
3
4
3.2 P OO"9"9in
2
2.9V erkäufer
1 2
__7~=::J'---,rn;~; , ====:t:= ~22~ 30 [ - - -107 1 201 5
E,t ras
10
101 1c_ ~=::J' ---1 02 2 - -3= - - - 103 1 4
Transformieren
1
3 3
0
1
1
3.2 l ehrer 2.1 Arzt in 2.3 Sc hreiner 1,9 Anwalt
1,6 Krankenpl1 eg er - ,- -
Date "a nsic ht
Speichern der Daten und Zusammenfügen von Daten Mit "Datei> Speichern unter" können Daten und Variablendeklarationen gemeinsam in einer sogenannten SPSS-Systemdatei (erkennbar an der Endung .savJ gespeichert werden. Wenn man in einer Arbeitsgruppe die Dateneingabe auf mehrere Personen verteilt hat, besteht die Möglichkeit mehrere sav-Dateien, die die gleiche Struktur aufweisen, zusammenzufügen. Dateien weisen die gleiche Struktur auf, wenn sie Variablen gleichen Namens und gleichen Typs enthalten. Man muss in diesem Fall also so vorgehen, dass zunächst der gesamte Codeplan in SPSS umgesetzt wird und dann diese Datei, die noch keine Daten enthält, dupliziert wird, so dass verschiedene Personen die Daten eingeben können. Damit die Fusion der Datei problemlos geschehen kann, dürfen keine Änderungen an den Variablendeklarationen vorgenommen werden, z.B. keine Änderung der Variablennamen. Zusammengefügt werden die Daten, indem zunächst die erste Datei geöffnet wird und dann mit Hilfe der Option "Daten> Dateien zusammenfügen> Fälle hinzufügen" die zweite SAV-Datei an die erste angehängt wird.
31
So geht es mit SPSSjSYSTAT
Aufbereitung der Daten in SYSTAT5 Variablennamen Generell ist SYSTAT ein etwas einfacheres Programm, das über weniger Optionen als SPSS verfügt, welche aber in den meisten Fällen völlig ausreichen. Variablennamen dürfen aus maximal 64 Buchstaben oder Zahlen bestehen. Stringvariablen müssen mit einem Dollarzeichen ($) enden. SYSTAT unterscheidet nicht zwischen Groß- und Kleinschreibung, sondern verwandelt sofort alle eingegebenen Kleinbuchstaben in Großbuchstaben, d.h. auch die spätere Ausgabe von Variablennamen besteht nur aus Großbuchstaben. Außer Zahlen und Buchstaben sind nur der Unterstrich (J und runde Klammern in Variablennamen erlaubt. Variablenlabels können bis zu 256 Zeichen lang sein und beliebige Zeichen enthalten. Als Default-Wert für das Variablenlabel setzt SYSTAT zunächst den Variablennamen ein. Es können auch Wertelabels definiert werden. • [u
OK
I[
lEl Tlm oll CO!1CeI
I
Variablentyp SYSTAT kennt nur zwei Variablentypen, nämlich numerisch (max. 23 Stellen) und string (max. 256 Zeichen). Standardmäßig ist bei SYSTAT eingestellt, dass Stringvariablen maximal 24 Zeichen lang sind. Dieser Wert kann über die Menüfunktion .Edit > Options" auf maximal 256 Zeichen erhöht werden. Stringvariablen erlauben die Verwendung von Groß- und Kleinschreibung.
5
Für die Darst ellung der Verwendung von SYSTAT greifen wir auf die Softwareversion 12 zurück. Unter www.systat.com können Studierende das kostenfreie Programm MYSTAT herunterladen, das den Großteil aller Funktionen von SYSTAT enthält, jedoch nur 100 Variablen pro Datei erlaubt
32
Die Aufbereitung der Daten für die statistische Analyse
Das Skalenniveau lässt sich in der Spalte .categorical" festhalten. SYSTAT bietet die Möglichkeit sowohl String- als auch numerische Variable als .xategorical" zu deklarieren. In diesem Fall ist der Wert in der Spalte auf "YES" zu stellen. §
MYSTAl , A ';lud. nl V. " ion 01 5V>TAT - IC,\lI,",,\St>ll>ti k\D ~,lctop\SI't"li kb u( h\\.c ro.n ,h ol>\Unl~l .d,
~:H e
~<*t
:!i ew Q. ta \,!Iil ties ",apl1
~a!yll!
",D '" .. "~ ,, ; ,, ß~ C I:l [J ~~ .s~
~ ~
•
~a u a ta :
V. r i ~ b l ~
,
'"'"
, , ,
'" '"" '"
, ,
'"' ".
f---.'
" -..' "
."l.Ir• ..!.!.'?!
I.
ALTER
ze
RElIGION
,
ZUf RIEDENHEIT
z
, a • ,
,
"ta
, ,
z
za ao zz zo
t
~n
.,
QGRAPH
ffiM
K~
~,
ev wo> "Q
I!D
[)
2,1kzli n 2, 3 ScI1reiner 3,2 Päo'QoQ;n 1,9Anw alt
,
10
.
BERUf$
a.zt enre r
2,9 Verkäufer
..
1,6KrankenpfteQ" r
'"
Pfe.>", . nt., o lol>el.
......
h 5']R]
U n t il l ed.5YZ* I
GESCHlE CIfl
c---; f---.' c---;
~
Q!J;ck Aecess '!"!'i ndow !::!elp
OVR
Fehlende Werte Für fehlende Werte sieht SYSTAT nur sehr eingeschränkte Möglichkeiten vor: Bei einer numerischen Variable wird ein fehlender Wert durch Leerlassen des Eingabefeldes oder durch Eingabe eines Punktes erzeugt, bei Stringvariablen durch ein Leerzeichen. Weitergehende Möglichkeiten zur Deklaration fehlender Werte existieren nicht. Eingabe der Daten Sobald alle Variablen definiert sind, schaltet man in die Ansicht .Data" um und kann mit der Dateneingabe beginnen. Mit der Tabulator-Taste kann man sich von einem Eingabefeld zum nächsten bewegen. Speichern der Daten und Zusammenftigen von Daten Mit der Menüfunktion "File> Save as" werden die Daten und der Codeplan gemeinsam in einer SYSTAT-Systemdatei (erkennbar an der Endung .syz) gespeichert. Ähnlich wie bei SPSS kann man, wenn mehrere Mitglieder eines Teams die Dateneingabe vornehmen, zwei von der Struktur her identische Systemdateien leicht zusammenfügen. Nachdem die erste Datei geöffnet wurde, wählt man .Data > Merge Files> Append Cases" und SYSTAT fügt die beiden Dateien zusammen.
2
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Die Kapitel 2 bis 4 befassen sich mit der des kr iptiven oder besc hreibenden Sta tistik Unter der des kriptiven Stati sti k verste ht man eine Vielzahl von Verfah re n, die eine gegebene Datenmenge summ arisch zusammenfassen und die Beziehu ngen zwischen Varia blen unte rsuchen. Die Desk ript ivstatist ik besc hränkt sich au f Aussagen über die erhobenen Daten, ihr e Verfahren könn en sic h auf einzelne Merkmale bezieh en (uni variate Analyse) ode r Zusammenhänge zw ischen zwe i (bivariat e Ana lyse) oder mehr Variab len (mu ltivariat e Analyse) untersuchen. Wenn d ie Daten aufbereitet sind, d h. die Eingab e in eine Datenmatrix beendet ist und gegeben enfa lls die offenen Fragen kategori siert s ind, kann die statistische Analyse beginnen. Der Deskriptivstatistik ste hen prinzipiell drei Möglichkeiten zur Verfügung: tabellarische Darste llungen in Form sogenannte r Häufigkeitstabellen grafische Darstellungen Ber echnung von statistischen Kennwerten Die ers te Phase der Auswertung empirischer Daten ist in der Regel durch Exploration gekenn zeichnet, d.h. man unternimmt ein e ers te Erkundung durch das Dickicht der Zahlen und verschafft sich ein en Überblick über die Ergebn isse der Studi e. Sinnvollerweise beginnt man mit einer Auszählun g der Häufigke ite n der Merkm alsausprägungen der Variablen, und zwar für de n gesa mten Datens atz. Natürli ch wird man im späteren Forschungsbe richt nu r einen Teil der Tabe llen ver we nde n kön nen, den noch ist es sinnvoll, zunächst einma l für alle Variab len am best en in der Reihenfo lge des Fragebogen s - eine Häufigkeits auswertung an zufer tigen. Di ese Vorgehen sweise erla ubt es au ch, eine Kontrolle der eingegebene n Werte hinsicht lich des Auftretens von nicht erlaubte n Werten vorz unehm en . Zielvor stellung ist es also, über Ta bellen nach de m Muster von Tab. 2-1 zu verfügen. Dort ist da s Ergebni s einer Erhebung unt er Mitgliedern der Gese llscha ft für Evaluati on (DeGEval) dargestellt; gefragt wa r, we lchen institutio nellen Hintergru nd d ie Mitglied er der Gesellschaft besitzen.
34
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Tab. 2-1: Institutioneller Beschäftigungskontext (n = 163) Häufigkeit
Prozent
Freiberuflich
38
23,3
Privatwirtschaftliches Unternehmen
26
16,0
Non-Profit-Organ lsatlon
19
11,7
Universität, Hochschule
52
31,9
Sonstiger Öffentlicher Dienst
28
17,2
Man erfährt aus dieser Tabelle, dass nahezu ein Drittel der Mitglieder der DeGEval an Universitäten und Hochschulen beschäftigt sind und dass insgesamt 163 Personen befragt wurden. Nicht immer sind Überblicke über die Antwortverteilungen so einfach herzustellen wie bei dieser einfachen nominalskalierten Variable "Institutioneller Beschäftigungskontext". So kann eine Variable nicht nur fünf Ausprägungen wie in diesem Beispiel aufweisen, sondern eine intervallskalierte Variable hat vielleicht sogar mehrere hundert Ausprägungen (wenn man etwa in einer Repräsentativstudie mit 2000 Forschungsteilnehmenden nach dem exakten Monatseinkommen in Euro fragt) oder es können Mehrfachantworten möglich sein, was dazu führt, dass mehrere Variablen zu einer einzigen Häufigkeitstabelle zusammengefasst werden müssen. Beginnen wir also etwas ausführlicher mit der Beschreibung von Häufigkeitstabellen.
2.1 Häufigkeitstabellen Häufigkeitstabellen sind Darstellungen der absoluten und relativen Häufigkeiten der Ausprägungen einer Variablen. Als absolute Häufigkeit bezeichnet man die nach Kategorien ausgezählte Verteilung der Antworten einer Variablen. Die relative Häufigkeit gibt - meist in Form einer Prozentangabe - an, wie häufig die jeweilige Kategorie (Ausprägung) in Relation zur Anzahl der Fälle auftritt. Je nach empirischer Studie können Fälle aus Personen, Haushalten, Institutionen etc. bestehen, die Gesamtzahl der Fälle wird üblicherweise mit n [entweder dem kleinen oder großen Buchstaben) bezeichnet. Die Häufigkeitstabellen, die man in der ersten Phase der Auswertung erstellt, sollten auch die fehlenden Werte explizit aufführen. In späteren Forschungsberichten wird auf eine explizite Angabe über fehlende Werte häufig aus pragmatischen Gründen verzichtet, allerdings sollte bei einer relevanten Anzahl fehlender Werte zumindest in einer Fußnote eine Angabe hierzu erfolgen. Häufigkeitstabellen erstellt man heute nicht mehr mit Hilfe von Strichlisten, sondern mit
35
Häufigkeitstabellen
Hilfe von Statistik-Software. Die ausgegebenen Tabellen folgen meistens dem Muster der hier dargestellten Tab. 2-2 Diese Tabelle zeigt die Ergebnisse einer Befragung von 122 Studierenden des BA-Studiengangs "Erziehungs- und Bildungswissenschaft", die nach ihrem Interesse für bestimmte Profilmodule gefragt wurden. Tab. 2-2: Beispiel für eine Häufigkeitstabelle Interesse Profilmodul
Häufigkeit
Prozent
Gültige Prozent
Kumulierte Prozent
Medien
13
10,7
14,1
14,1
Umwelt
7
5,7
7,6
21,7
Gender
4
3,3
4,3
26,1
Gesellschaft und Bildung
22
18,0
23,9
50,0
Beratung
46
37,7
50,0
100,0
92
75.4
100,0
28
23,0
2
1,6
122
100,0
Total Weiß ich noch nicht . Fehlende Werte Total
Spalte 1 enthält die Ausprägungen der Variablen, hier also die zur Auswahl stehenden fünf Profilmodule sowie die Antwortmöglichkeit "Weiß ich noch nicht." Spalte 2 listet die Anzahl der Personen mit der entsprechenden Merkmalsausprägung: Es sind also 13 Personen, die Medien als Profilmodul wählen wollen und 7 Personen, die sich für Umwelt entscheiden. Spalte 3 enthält die relativen Häufigkeiten in Prozent. Diese werden wie folgt berechnet: f(k) %k =--·100%
n
f(k)
n
=
absolute Häufigkeit in der Kategorie k Anzahl der Fälle
Die 13 Personen, die als Profilmodul Medien wählen möchten, haben an den 122 befragten Personen also einen Anteil von 13/122 . 100% = 10,%.
36
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Spalte 4 enthält die sogenannten gültigen Prozentwerte. Da fehlende Werte in der empirischen Sozialforschung immer vorkommen können, ist es sinnvoll eine weitere Form der Prozentuierung vorzunehmen, die nur die gültigen Werte berücksichtigt. Die Ursachen für fehlende Werte können wie beschrieben sehr vielfältig sein. Bei der obigen Frage nach der Entscheidung für ein bestimmtes Profilmodul kann es natürlich passieren, dass Befragte sich noch nicht entschieden haben, welches Profil modul sie studieren wollen. Für eine Schätzung, wie viele Studierende bspw. "Beratung" wählen werden, würde man auf den Prozentwert auf der Basis der gültigen Antworten zurückgreifen, d.h. den Anteil mit 50% schätzen. Ähnlich verhält es sich bspw. bei der bekannten Sonntagsfrage "Welche Partei würden Sie wählen, wenn nächsten Sonntag Bundestagswahl wäre?". Hier sind beide Arten von Prozentwertverteilungen interessant. Aus der Prozentangabe bezogen auf alle Werte kann man entnehmen, wie groß der Prozentsatz der noch Unentschlossenen ist. Aus der Prozentangabe der gültigen Werte kann man entnehmen, wie die Prozentanteile der Parteien bei den bereits Entschiedenen aussehen. Die gültigen Prozente werden nach folgender Formel berechnet
f(k) %k =--·100%
ng
f(k)
ng
=
absolute Häufigkeit in der Kategorie k Anzahl der Fälle mit gültigen Werten
Anstatt durch alle Fälle zu teilen, wird also bei der Berechnung der gültigen Prozente nur durch die Anzahl der gültigen Fälle dividiert - in unserem Beispiel also durch 92.
Spalte 5 enthält die kumulierten gültigen Prozentwerte. Die in der Tabelle von oben nach unten summierten gültigen Prozentwerte ergeben die kumulierte Häufigkeitsverteilung. Die zweite Zahl in der letzten Spalte ,,21,7%" ergibt sich also als Summe von 14,1% und 7,6%. In der letzten Ausprägung muss die kumulierte Häufigkeitsverteilung den Wert 100% ausweisen. Der kumulierte Prozentwert berechnet sich wie folgt: "k _fkum(k) ·100" 70kum70
n
fkum(kJ = die aufsummierten absoluten Häufigkeiten bis einschließlich zur Kategorie k n = Anzahl der Fälle
Bildung von Kategorien bei intervallskalierten Variablen
37
Z.Z Bildung von Kategorien bei intervallskalierten Variablen Bei intervallskalierten Variablen (oder ordinalskalierten Variablen mit sehr vielen Ausprägungen) macht es keinen Sinn, eine Häufigkeitstabelle nach dem obigen Muster zu erstellen. Hat man bspw. das Monatseinkommen in Euro erhoben, so kann eine solche Variable eine kaum mehr überschaubare Anzahl von Ausprägungen besitzen, d.h. die Häufigkeitstabelle würde sich vielleicht über mehrere Seiten erstrecken und wäre als Information ziemlich nutzlos. Die Lösung sieht dann so aus, dass Kategorien gebildet werden, d.h. die Variablenwerte werden systematisch gruppiert und in Kategorien zusammengefasst. Als erstes stellt sich natürlich die Frage, wie viele Kategorien man braucht. Auf diese Frage lässt sich keine allgemeingültige Antwort geben. Die Zahl der zu bildenden Kategorien richtet sich einmal nach dem gewünschten Differenzierungsgrad und zum anderen nach der Anzahl der zu kategorisierenden Fälle. Hat man wie im Beispiel der Mitgliederumfrage der DeGEval nur eine relativ kleine Fallzahl (n = 163), würde es wenig Sinn machen, für das Einkommen zehn Kategorien zu bilden, denn bei einer späteren Zusammenhangsanalyse mit einem drei- oder vierfach gestuften Merkmal würden sich bereits 30 bzw. 40 Merkmalskombinationen ergeben. Verfügt man hingegen wie bei den großen EurobarometerStudien oder der Shell-Jugendstudie (vgl. Anhang Al über mehr als 2.000 Probanden, so wäre die Unterscheidung von zehn Einkommenskategorien an sich unproblematisch. Es ist dann abzuwägen, welcher Differenzierungsgrad sinnvoll ist bzw. von den Rezipierenden oder Auftraggebenden der Studie gewünscht wird. Bei Grundlagenforschung wird man naturgemäß für größere Exaktheit und für einen höheren Differenzierungsgrad plädieren, bei angewandter Forschung oder Forschung mit hoher öffentlicher Aufmerksamkeit (wie der ShellJugendstudie) wird man sich auf ein besser kommunizierbares Maß beschränkenmüssen. Zur Bestimmung der Kategoriengrenzen und der Kategorienbreiten ermittelt man zunächst die Variationsbreite als Differenz aus größtem und kleinstem Wert, anschließend dividiert man durch die gewünschte Anzahl der Kategorien und erhält die Kategorienbreite. Beispiel: Man habe bei 100 vierjährigen Kindern die Zeit ermittelt, die sie zum Zusammenlegen eines Puzzles benötigen. Der kleinste Wert betrug 180, der größte 360 Sekunden. Es sollen 6 Kategorien gebildet werden. Variationsbreite: 360 - 180 180 Kategorienbreite: -6-
= 180 Sek.
= 30 Sek.
38
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Damit ergeben sich die in Tab. 2-3 dargestellten Kategorien. Tab. 2-3 Kategorie
Sekunden
1
180 - 209
2
210 - 239
3
240 - 269
4
270 - 299
5
300 - 329
6
330 - 360
Auf den ersten Blick irritiert der Wertebereich der Randkategorie ,,330 - 360 Sekunden". Da es sich bei der gemessenen Zeit um ein stetiges Merkmal handelt, gehen die eigentlichen Kategoriengrenzen bis 359,9 Periode. Da aber anders als bei olympischen Wettbewerben keine NachkommastelIen gemessen wurden, ermöglicht die Zuordnungstabelle eine eindeutige Kategorisierung aller Messwerte. Wenn sich bei der Ermittlung von Kategorienbreiten sehr unanschauliche Werte ergeben (z.B. 233,5 bis 246,4) Sekunden, empfiehlt es sich, die Zahl der Kategorien um 1 zu erhöhen und ganzzahlige Kategorienbreiten vorzusehen. Ein Problem können Ausreißerwerte darstellen, also wenn in unserem Beispiel ein Kind 500 Sekunden benötigt hätte. Solche Werte sollten bei der Bestimmung der Variations breite nicht berücksichtigt werden und die Randkategorien sollten dann als offene Kategorien definiert werden, hier also ,,330 und mehr Sekunden".
2.3 Grafische Darstellungen einfacher Häufigkeitsverteilungen In diesem Abschnitt sollen Möglichkeiten der grafischen Darstellung von einfachen Häufigkeitsverteilungen und Kennwerten aufgezeigt werden. Über konkrete Hinweise und Beispiele zur Gestaltung von grafischen Darstellungen bzw. Visualisierungen hinaus wird in diesem Kapitel auch die Frage beantwortet, welche Form der Darstellung sich wann und wie sinnvoll einsetzen lässt. Bereits die erläuterten Häufigkeitstabellen stellen als "Nicht-Text-Elemente" eine Form von Visualisierungen dar und schon dieser einfache Typus zeigt deutlich den Zugewinn, der durch den Einsatz von Tabellen und Grafiken möglich ist. Denn Visualisierungen erlauben es, komplexe Informationen übersichtlicher und schneller
Grafische Darstellungen einfacher Häufigkeitsverteilungen
39
erfass bar bereit zu stellen, als dies mittels Beschreibungen in einem Fließtext möglich wäre. Somit spielen grafische Darstellungen bei der Unterstützung des Verstehensprozesses eine wichtige Rolle, wenn bspw. sprachliche Erklärungen zu umständlich oder ausufernd wären. Der Zugewinn durch Visualisierungen besteht nicht nur bei der hier im Fokus stehenden Darstellung von Häufigkeiten oder Verteilungen, sondern auch bei der Verdeutlichung von Verknüpfungen und Zusammenhängen. Die bildlichschematische Abbildung von Abläufen ist deutlich anschaulicher als deren sequenzielle Beschreibung in der Schriftsprache. Für den Einsatz von Visualisierungen spricht außerdem deren motivierender Charakter, etwa indem sie Texte auflockern. Nichts wirkt abschreckender als Absätze gefüllt mit Zahlenkolonnen. wohingegen Grafiken sofort den Blick auf sich ziehen. Während die letztgenannte Funktion der Motivation vorrangig für die Darstellung von Ergebnissen gilt, spielen die anderen Vorteile auch bei der Erkundung von Daten eine wichtige Rolle. In den 1970er Jahren plädierte [ohn W. Tukey in seinem Buch .Bxplorauve Datenanalyse" für den Einsatz von Grafiken zur Datenerkundung um so bspw. Hypothesen über die möglichen Gründe für das Zustandekommen der vorliegenden Daten aufzustellen zu können. Sowohl Zusammenhänge als auch Ausreißer treten aus grafischen Darstellungen deutlich plastischer und schneller hervor als aus Tabellen. Balkendiagramme In Balkendiagrammen (engl. bar charts) erfolgt die Darstellung von absoluten oder relativen Häufigkeiten auf einem zweiachsigen rechtwinkligen Koordinatensystem. Je nach Ausrichtung der Balken wird dabei zwischen horizontalen und vertikalen Balkendiagrammen unterschieden. Bei einem horizontalen Balkendiagramm sind die Balken übereinander angeordnet. Die Merkmalsausprägungen stehen auf der y-Achse (Ordinate) und die Häufigkeiten werden durch horizontale Balken dargestellt. In Abb. 2-1 würden sich also 24% der Befragten für die SPD entscheiden, wenn am nächsten Sonntag Bundestagswahl wäre. Im Falle eines vertikalen Balkendiagramms hingegen sind die Merkmalsausprägungen auf der horizontalen Achse (Abszisse) und die Häufigkeiten auf der vertikalen (Ordinate) abgetragen - die Balken stehen also nebeneinander. Häufigwerden vertikale Balkendiagramme auch Säulendiagramme genannt. Abb. 2-2 zeigt ein vertikales Balkendiagramm. bei der auf der Abszisse die Antwortmöglichkeiten auf die Frage nach der Selbsteinschätzung des eigenen Gesundheitszustandes zu sehen sind. Anhand der Höhe der Balken kann abgelesen werden, dass bspw. 25% der Befragten ihren Gesundheitszustand als "ausgezeichnet" einschätzen.
Häufigkeitsverteilungen und ihre grafischen Darstellungen
40
Abb.2-1
,
,
,
,
I
I
Welche Partei würden Sie wählen, wenn am nächsten Sonntag Bundestagswahl wäre? CDU/CSU
5PD Grüne
Linke
FDP Sonstige
~
I
I
i
I
i
I
i
I
36 26
15 11
8
)- ~ 0%
5%
10%
15%
20%
25%
30%
35%
40"10
Quelle: infratestdimap, 04.02.2010, n = 1.500
Abb.2-2 Wie schätzen Sie Ihren Gesundheitszustand ein? 60%
50% 40% 30%
20% 10% 0% ausgezeichnet
gut
einigermaßen
schlecht Quelle: fiktive Daten
Balkendiagramme können sehr schnell ein Bild über die quantitative bzw. relative Rangfolge von Merkmalsausprägungen vermitteln, was durch eine sinnvolle Sortierung noch verstärkt werden kann. Im Falle der Darstellung von nominalskalierten Variablen wie der Parteienpräferenz in Abb. 2-1 sollte die Sortierung direkt nach der Häufigkeit erfolgen, sodass bspw. ohne große Anstrengungen ersichtlich ist, welche Ausprägung am häufigsten bzw. am seltensten vertreten ist. Bei ordinalskalierten Variablen hingegen sollte die Reihenfolge der Kategorien beibehalten werden, da diese sonst durch den Betrachter/die Betrachterin in einem zusätzlichen Schritt erst wieder hergestellt werden muss (siehe Abb. 2-2).
41
Grafische Darstellungen einfacher Häufigkeitsverteilungen
In beiden gezeigten Beispielen wurde jeweils die relative Häufigkeit verwendet, was in den meisten Fällen die beste Wahl darstellt. Liegen hingegen nur kleine Stichproben vor (n < 20), so empfiehlt es sich, zusätzlich die absoluten Häufigkeiten anzugeben und die Prozentangaben ohne NachkommastelIen zu belassen, da sonst eine nicht vorhandene Genauigkeit suggeriert wird. Ein sehr wichtiger Aspekt bei der Erstellung sowie Bewertung von Balkendiagrammen ist die Gestaltung der Achse, auf der die Häufigkeiten abgetragen werden. So kann die die Nicht-Verwendung der Null als Startpunkt also der Beschneidung der Achse, zu Verzerrungen führen. Ebenso verhält es sich mit der Streckung der Achse durch kleinere Abstände zwischen den Skalen punkten. Beides führt dazu, dass bereits geringe Unterschiede zwischen den Merkmalsausprägungen visuell deutlich stärker hervortreten, wie Abb. 2-3 zeigt, in der die identischen Daten auf unterschiedliche Weise dargestellt sind. Prinzipiell ist gegen das Beschneiden der Achsen nichts einzuwenden, denn bisweilen kann dies durchaus angemessen sein, etwa wenn nur sehr kleine Unterschiede veranschaulicht werden sollen und auch viele Grafiktools machen dies automatisch. Wichtig ist allerdings, die Leserinnen und Leser darauf hinzuweisen. In Abb. 2-3 sieht man, wie trotz einer eher homogenen Alterszusammensetzung durch das Beschneiden der x-Achse die erste Altersgruppe optisch überproportional stark hervortr'itt," Abb . 2-3: Die selb e n Daten, links mit und rechts ohne Nullpunkt visualisiert Altersverteilung der Kursteilnehmer/-innen
30%
Altersverteilung der Kursteilnehmer/-innen
28%
25% 20%
26%
15%
24%
10%
22%
5%
20%
0% 20-25
26-31
32-37
Alter i n Jahren
38-43
20-2 5
26-31
32-37
38-43
Alter in Jahren
Bei der Betrachtung und Erstellung von Balkendiagrammen, die kategorisierte Daten (vgl. Kapitel 2.2) darstellen, ist weiterhin darauf zu achten, dass identische Kategorienbreiten gewählt werden, da sonst ein direkter Vergleich zwi6
Weitere Beispiele, wie mittels Grafiken Ergebnisse verfälscht dargestellt werden, finden sich bei Krämer 2008.
Häufigkeitsverteilungen und ihre grafischen Darstellungen
42
sehen den Gruppen nur schwer möglich ist. Dies wäre bspw. dann der Fall, wenn man das Einkommen von Befragten nicht in gleich breite Kategorien von etwa 1.000 Euro einteilt, sondern die eine von 0 - 1.000 EUR, die andere von 1.001 2.500 EUR und die letzte von 2.501 - 3.500 geht. Ein höherer Balken der mittleren Kategorie käme dann nicht zwangsläufig durch die Einkommensverteilung zustande, sondern auch dadurch, dass potenziell mehr Personen in dieses breitere Intervall fallen. Histogramme Histogramme sind eine besondere Form von Balkendiagrammen zur Darstellung intervallskalierter Variablen mit vielen Werten, wie etwa dem Alter oder dem Jahreseinkommen. Histogramme bilden dabei die Daten häufig in kategorisierter Form ab, womit sie sich besonders für die Visualisierung vieler Ausprägungen oder großen Datenmengen eignen. Abb.2-4 Wie hoch ist Ihr persönliches monatliches Nettoeinkommen? 50% 40% 30% 20% 10% 0%
500
1000
1500
2000
2500
3000
3500
4000
>4000
persönliches Monatseinkommen in EUR
Quelle:Jiktive Daten
Abb. 2-4 zeigt die fiktive Verteilung des persönlichen monatlichen Nettoeinkommens von 1438 Befragten. Dieses ist auf der x-Achse abgetragen und in Intervalle mit einer Breite von jeweils 500 EUR eingeteilt, über denen jeweils ein Rechteck gezeichnet wurde. Auf der y-Achse kann die relative Häufigkeit der einzelnen Kategorien abgelesen werden. Man kann so bspw. sehen, dass 45% der Personen angeben, von 1001 bis 1500 Euro im Monat zu verdienen. Meist sind - wie hier - die für ein Histogramm gebildeten Kategorien gleich breit, was jedoch nicht zwingend sein muss. Denn eigentlich dient nicht die Höhe oder Länge der Rechtecke als direktes Maß und Repräsentant für die Häufigkeit, sondern die Fläche und so sind auch ungleichgroße Kategorienbreiten denkbar. Da die Fläche jedoch deutlich schwieriger zu interpretieren ist als die
Grafische Darstellungen einfacher Häufigkeitsverteilungen
43
Länge oder Höhe und darüber hinaus bei unterschiedlichen Kategorienbreiten auch die Beschriftung der y-Achse wegfällt, wird in der Regel auf gleiche Kategorienbreiten zurückgegriffen. Eine weitere Besonderheit von Histogrammen ist, dass die einzelnen Balken direkt aneinander grenzen, ohne sich jedoch zu überschneiden. Dies verdeutlicht, dass die Grenzen der gebildeten Intervalle ebenfalls aneinander grenzen, kein Wert ausgelassen wurde und es sich somit um die Darstellung einer kontinuierlichen Variablen handelt. In unserem Beispiel gibt es keine Werte in der Kategorie ,,4000 EUR", sie wird aber dennoch mit eingezeichnet, um auf einen Blick zu zeigen, dass diese Kategorie leer ist. Damit bieten Histogramme eine gute Möglichkeit, die Form einer Verteilung zu erkennen und zu beschreiben. Häufig verwendete Begriffe hierbei sind "Schiefe" (engl. skewness) und "Exzess" (engl. kurtosis). Eine schiefe Verteilung kann entweder linkssteil und damit rechtsschief oder rechtssteil und damit linksschief sein. Die Einkommensverteilung in Abb. 2-4 hat ihren Gipfel links und einen langgezogenen rechten Ausläufer, womit sie linkssteil bzw. rechtsschief ist. Bei einer linkssteilen Verteilung ist der Mittelwert größer als der Median, der Schwerpunkt ist also nach links verschoben. Umgekehrt ist bei einer rechtssteilen Verteilung der Mittelwert kleiner als der Median (siehe Abb. 2-5). Unter Exzess wird die Wölbung einer Verteilung verstanden wobei zwischen schmalgipflig und breitgipflig unterschieden wird (Abb. 2-5). Sowohl für die Schiefe als auch den Exzess gilt, dass deren Angabe nur bei Verteilungen sinnvoll sind, die eingipflig (uni modal) sind. Abb.2-5
linkssteil/ rechtssch lef
rechtssteil/I inksschlef
1\
hreitgipflig
unimoda I/eing!pflig
bimoda I/zweigipflig
schmalgipflig
44
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Beachtet werden sollte allerdings, dass sich das Bild eines Histogramms erheblich durch die Variation der Intervallbreite verändern lässt Zu viele Kategorien ziehen in der Regel ein verstärktes Auf und Ab der Balken nach sich, während zu grob gewählte Intervalle ein eher flaches Histogramm bewirken. Aber selbst bei einer gut gewählten Kategorienbreite geht in einem Histogramm die Information darüber verloren, wie sich die Werte innerhalb der Intervalle verteilen. Dieser Informationsverlust, der mit der Einteilung in Kategorien einhergeht, verhindert Aussagen darüber, ob die Werte innerhalb eines Intervalls dicht beieinander liegen oder sich gleichmäßig über die gesamte Breite verteilen. Kreisdiagramme Kreisdiagramme (engl. pie charts) bieten die Möglichkeit relative Häufigkeiten darzustellen. Die jeweiligen Anteile der verschiedenen Merkmalsausprägungen werden durch den Flächeninhalt bzw. Winkel einzelner Kreissegmente dargestellt, wobei 1% einem Winkel von 3,6 0 entspricht. Hierdurch ergibt sich das Bild eines Kuchens, der in unterschiedlich große Stücke geschnitten wurde, weshalb Kreisdiagramme häufig umgangssprachlich auch als Torten- bzw. Kuchendiagramme bezeichnet werden. Wie auch beim Kuchen bilden in einem Kreisdiagramm alle Einzelstücke ein Ganzes, was bedeutet, dass die Summe aller Anteile (rundungsbedingt annähernd) 100% ergeben muss. Abb.2-6 Welche Partei würden Sie wählen, wenn am nächsten Sonntag Bundestagswahl wäre?
CDU/CSU 36%
SPD 26%
Quelle: infratest dimap, 04.02.2010, n = 1.500
Gleichwohl Kreisdiagramme sehr häufig in den Medien eingesetzt werden, sind sie als Visualisierungsform nicht unproblematisch. Zunächst sind sie nur für eine beschränkte Anzahl von unterschiedlichen Merkmalsausprägungen geeignet, da sie sonst zu unübersichtlich werden. Weiterhin ist es bei mehreren kleinen
Grafische Darstellungen einfacher Häufigkeitsverteilungen
45
Teilstücken sehr schwierig, deren Größen zu unterscheiden. Hinzu kommt noch, dass es für die menschliche Wahrnehmung im Vergleich zu Längenunterschieden bei Balkendiagrammen deutlich schwieriger ist, Unterschiede zwischen Flächen oder Winkeln wahrzunehmen. Besonders gut sichtbar werden in Kreisdiagrammen hingegen vorhandene große quantitative Unterschiede zwischen Kategorien. Bei der Entscheidung für die Verwendung von Kreisdiagrammen sollte also aufgrund der Einschränkungen bedacht werden, dass es meist bessere Alternativen gibt und gänzlich verzichten sollte man auf ihren Einsatz beim Vergleich von Anteilen zwischen mehreren Gruppen. Fällt die Wahl schließlich doch auf diesen Visualisierungstyp, so erhöht bei nominalskalierten Daten eine Anordnung der Teilsegmente der Größe nach und im Uhrzeigersinn die Lesbarkeit, so wie dies in Abb. 2-6 vorgenommen wurde. Liegen ordinalskalierte Daten vor, so sollte - wie auch beim Balkendiagramm - deren Sortierung beibehalten werden. Bei vielen kleinen, schwer unterscheidbaren Kreissegmenten bietet es sich an, diese in einer Kategorie "Sonstige" zusammenfassen, wobei darauf zu achten ist, dass diese Kategorie nicht größer ist als eine der anderen. Außerdem sollte dieser Schritt auf jeden Fall für die Leserinnen und Leser dokumentiert werden. Liniendiagramme Sollen Daten in ihrem zeitlichen Verlauf dargestellt werden, z.B. wenn Zeitreihen vorliegen, so bietet sich hierfür ein Liniendiagramm an. Abb. 2-7 zeigt die zeitliche Entwicklung der Arbeitslosenquote differenziert für die alten und neuen Bundesländer. Abb.2-7 Arbeitslosenquote nach Gebietsstand 25% 20% 15% 10%
5% 0%
2000
2001
~ Gesa mt
2002
2003
~ A l te
2004
2005
Länder (ohne Berlin)
2006 ~
2007
2008
2009
Neue Länder (einschi. Berlin)
Quelle: Statistisches Bundesamt 2010
46
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Entsprechend unseren Lesegewohnheiten hat es sich durchgesetzt, dass auf der x-Achse die Zeiteinheiten, also bspw. Jahre, Monate, Stunden U$W. von links nach rechts aufsteigend und auf der y-Achse die darzustellenden Werte eingezeichnet werden. Die einzelnen Datenpunkte werden anschließend mit Linien verbunden, was diesem Diagrammtyp seinen Namen gibt. Liniendiagramme haben gegenüber Balkendiagrammen den Vorteil, dass mit ihnen auch sehr viele Datenpunkte visualisiert werden können, ohne dass die gesamte Abbildung unübersichtlich wird. Bei Liniendiagrammen ist immer darauf zu achten, dass die Verwendung von Linien logisch sinnvoll sein muss. Die Verteilung von Schulabschlüssen in einer Stichprobe bspw. lassen sich nicht in einem Liniendiagramm darstellen, da in diesem Fall Verbindungslinien inhaltlich keinen Sinn haben. In diesem Fall ist ein Balkendiagramm besser geeignet. Abb. 2-7 zeigt einen großen Vorteil dieser Visualisierungsart: Mit ihrer Hilfe lassen sich sehr gut mehrere Datenreihen gleichzeitig abbilden und damit vergleichen. Zur Unterscheidung der einzelnen Datenreihen können unterschiedliche Gestaltungselemente herangezogen werden. Zum einen können die Datenpunkte jeweils durch unterschiedliche Symbole markiert werden (Dreiecke, Vierecke, etc.). Eine andere Möglichkeit der Unterscheidung bietet die Verwendung verschiedener Linienfarben. Schließlich können auch die Linien in ihrer Form variiert werden, sodass bspw. gepunktete, gestrichelte und durchgezogenen Linien gezeichnet werden. Um den Leserinnen und Lesern die Unterscheidung zu vereinfachen, sollte man sich jedoch auf eine Markierungsart beschränken . Wie bei den Balkendiagrammen kann auch in Liniendiagrammen der Verlauf optisch entweder drastischer oder weniger bedeutsam dargestellt werden. Dies kann hier ebenfalls durch Streckung bzw. Stauchung der y-Achse erreicht werden. Darüber hinaus sind aber auch durch Veränderungen der x-Achse Verzerrungen möglich: Je nachdem, wie groß der Abstand zwischen den Zeitpunkten gewählt wird, erscheinen die Unterschiede zwischen den Datenpunkten stärker oder schwächer. Stamm-Blatt- Diagramme Stamm-Blatt-Diagramme (engl. stem-and-leaf plots) sind eine quasi-grafische Form von Histogrammen und verlangen demnach ebenfalls intervallskalierte Variablen mit vielen Werten. Auch hier werden wie bei einem Histogramm Kategorisierungen vorgenommen, jedoch bleibt die Information, wie sich die Werte jeweils in den Kategorien verteilen, erhalten. Dies bringt allerdings mit sich, dass sich Stamm-Blatt-Diagramme nicht für sehr große Datensätze mit mehr als 150 Datenpunkten eignen. Genau wie Histogramme geben Stamm-BlattDiagramme ein sehr gutes Bild über die Form einer Verteilung.
47
Grafische Darstellungen einfacher Häufigkeitsverteilungen
Am besten lässt sich diese Visualisierungsform anhand eines Beispiels verstehen. Gegeben sei folgende Verteilung der von 14 Studierenden erreichten Klausur- Punkte 25,26,31,31,35,36,37,39,40,41,44,48,56,57
In einem Stamm-Blatt-Diagramm sieht diese Verteilung wie folgt aus. 2
56
3
115679
4
0148
5
67
Der Stamm wird in diesem Fall durch die Zehnerwerte gebildet, die Blätter entsprechen den Werten der Einerstellen. Liegen wie hier ganze Zahlen vor, so ist die Abtrennung der ersten Ziffer als Stamm die Regel. Würden statt zweistelliger Punktwerte vierstellige Einkommen vorliegen, so entspräche der Stamm dementsprechend den Tausendern und die Blätter den Hundertern. Dabei wird entweder auf die HundertersteIle gerundet oder aber die Zehner und Einer werden einfach abgetrennt Aus den Monatseinkommen 500, 600, 1350, 1920, 2210,2680 und 2840 erhält man folgendes Stamm-Blatt-Diagramm mit gerundeten Daten. 500600 13501920
500600 ~
221026802840
Werte so rti eren
14001900
~
220027002400 ~
auf- bzw. abrunden
~
o
56
1
49
2
278
Zehner und Einer streichen
Bei rationalen Zahlen werden meist die ganzen Zahlen als Stamm und die Dezimalstellen als Blätter verwendet, wobei meist nur die erste Nachkommastelle ebenfalls abgetrennt oder gerundet eingezeichnet wird. Allgemeine Hinweise zu grafischen Darstellungen Für die Erstellung von Grafiken lassen sich einige generelle Richtlinien zur Vermeidung von Fehlern, die zu Verzerrungen und Problemen beim Ablesen führen, formulieren.
48
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Vollständige Beschriftungen Ein wichtiger Punkt bei der Gestaltung von Grafiken ist deren Beschriftung, da fehlende oder falsch platzierte Informationen die korrekte Interpretation erheblich erschweren, wenn nicht gar unmöglich machen. Zunächst sollte die gesamte Grafik einen Titel erhalten, der deutlich beschreibt, was genau die Abbildung zeigt. Hierfür bewährt hat sich die Orientierung an der im Erhebungsinstrument gestellten Frage oder gar deren wörtliche Wiedergabe, wenn diese nicht zu lang ist und sich nicht bereits im Text befindet. Um den Titel deutlich als solchen erkennbar zu machen, sollte er weit genug von den Datenachsen entfernt platziert werden. Hilfreich kann es auch sein, ihn in einer anderen Schriftauszeichnung oder -größe zu formatieren. Bei zu langen Fragen sollte diese unterhalb der Grafik platziert sein. Beschriftet werden müssen auch die vorhandenen Achsen. Die Achsenbeschriftung bei der Darstellung von Häufigkeitsverteilungen gibt Auskunft darüber, welche Variable abgebildet ist und ob es sich um absolute oder relative Häufigkeiten handelt. Zur Gestaltung der Achsen gehört weiterhin, die entsprechenden Skalenwerte bzw. Merkmalsausprägungen einzutragen. Zusätzlich können noch Teilstriche eingezeichnet werden, wobei zwischen den einzelnen Skalenpunkten maximal fünf von diesen liegen sollten. Um eine hohe Lesbarkeit zu erreichen, sollten alle Beschriftungen grundsätzlich horizontal von links nach rechts verlaufen, also in der für den Leser und die Leserin gewohnten Art Gleichwohl dies nicht immer leicht umzusetzen ist, sollten vertikale Beschriftungen die Ausnahme darstellen. Eine gute Alternative bspw. bei vertikalen Balkendiagrammen stellen schräg gestellte Beschriftungen dar. Bei allen Beschriftungen der Achsen und deren Punkte ist weiterhin darauf zu achten, dass diese jeweils näher am entsprechenden visuellen Objekt liegen, als an irgend einem anderen Teil der Grafik, damit sie in der Wahrnehmung schnell als zugehörig erkannt werden. Zu einer vollständigen Beschriftung gehört ebenfalls die Information darüber, auf welcher Fallzahl die Abbildung beruht. Diese lässt sich am besten in der Form "n = xy" platzieren, und zwar so, dass sie schnell gefunden werden kann z.B. im Titel oder direkt unterhalb der Grafik. So kann die Leserin/der Leser gerade bei der Darstellung von Prozentangaben die abgebildeten Daten besser einordnen und bewerten. Gerade bei Präsentationen und wenn Daten aus unterschiedlichen Quellen visualisiert werden, sollte die Herkunft der Daten ebenfalls ersichtlich sein. Wie eine gut und vollständig beschriftete Grafik aussehen kann, zeigt Abb. 2-8.
Grafische Darstellungen einfacher Häufigkeitsverteilungen
49
Abb. 2-8: Gut und vollständig beschriftete Grafik Akzeptanz von Aktivität in Umwelt- oder Naturschutzgruppe bei Freunden/Bekannten würden das sehr gutfinden würden das eher gut finden wären eher zurückhaltend würden das eher schlecht finden
,
,
~
I
16
1I I I I I
.2
würden das sehr schlecht finden
47
34
1 0%
5%
10"10
15%
20%
25%
30%
35%
40%
45%
50%
Frage: Was glauben Sie: Finden oder fänden es Ihre Freunde und Bekannten gut, wenn Sie in einer Umwelt- oder Natu rschutzgr uppe aktiv sind oder wären? Quelle: Umweltbewusstsein in Deutschland 2006, n = 2.034
2D statt 3D
Die meisten Programme zur Erstellung von Grafiken ermöglichen die Erstellung von sogenannten .Pseudo-Sü-Diagrammen", bei denen eigentlich zweidimensionale Darstellungen mittels 3D-Körpern wie z.B. räumlich dargestellte Säulen in scheinbar räumlicher Form ausgegeben werden. Auch in den Medien wird bei der Verwendung von Grafiken häufig auf die 3D-Form zurückgegriffen. Diese mögen aus ästhetischer Sicht zuweilen sicherlich ansprechender sein als deren zweidimensionalen Pendants, für die Verwendung in wissenschaftlichen Arbeiten sind sie jedoch ungeeignet. Die Gründe hierfür liegen in einer unnötigen Erhöhung der Komplexität und in den durch sie verursachten Verzerrungen, die ein schnelles bzw. fehlerfreies Ablesen verhindern. Zusätzlich führt die Beschränkung der zweidimensionalen Zeichnungsfläche bei einer räumlich verteilten Anordnung dazu, dass Objekte im Hintergrund von anderen Elementen überlagert und verdeckt werden. Abb. 2-9 und Abb. 2-10 zeigen dieselben Daten in einem vertikalen Balkendiagramm. Bereits der Vergleich der Säulen über der ersten Kategorie zeigt deutlich den Verzerrungseffekt durch die Pseudo-3D-Darstellung. Dieser verhindert ein fehlerfreies Ablesen der Werte, da die Säule weit unter der Linie, die den Wert 70 markiert, endet.
50
Häufigkeitsverteilungen und ihre grafischen Darstellungen
Abb. 2-9: Verzerrung durch Pseudo-3D-Darstellung
80
70 60 50 40 30 20 10
o 3
2
4
Abb. 2-10: Dieselben Daten in zweidimensionaler Darstellung 80
70 60
50 40 30 20 10
o 2
3
4
AufÄsthetikachten Bei der Gestaltung von Visualisierungen sollte weiterhin ein Augenmerk auf deren Proportionen bzw. Form gelegt werden. Grafiken sollten eine horizontale Ausdehnung aufweisen, also breiter sein als hoch, wofür es mehrere Begründungen gibt (vgl. Tufte 2007: 186ff.). Für diese Gestaltung spricht unter anderem die Analogie zum Horizont und der menschlichen Fähigkeit, Veränderungen an diesem schnell wahrnehmen zu können - damit entspricht diese Form eher den natürlichen Sehgewohnheiten. Auch wirken bestimmte Seitenverhältnisse auf den Menschen als besonders ästhetisch. Man muss hier jedoch nicht zwingend den "Goldenen Schnitt", der als das Maß in der Kunst und Architektur gilt, einhalten. Denn auch andere Seitenverhältnisse gelten als ästhetisch, sodass als Faustregel Grafiken etwa 50 Prozent breiter als hoch sein sollten. Teilt man die
51
So ge ht es mit SPSS/ SYSTAT
Breite durch d ie Höhe sollte demnach das Ergebni s ca. 1,5 bet rage n, so wie dies bei einer Gra fik mit den Maßen 12cm x 8cm der Fall ist. Schließ lich s prec he n auch ga nz pragmat ische Grü nde für eine derartige Gestalt ung: d ie oben ausges proc he ne Emp fehlung, d ie Schrift horizon tal verlaufen zu lassen , lässt s ich so leichter umsetzen.
2 .4 So ge h t es mitSPSSjSYSTAT Häufigke it sverteilun gen in SPSS In SPSS findet man die Funktio n zur Erste llung von Häufigkeitstabellen unte r dem Menüpu nkt .Analysteren > Deskriptive Statistik > Häufigkeite n ...". Im Hauptdialogfeld wird im linken Fenste r die Var iable nliste dargestellt, aus de r man die interessieren de(n) Variable(n) auswählt. Durch Anklicken des Dre iecks in de r Mitte zwische n d en Fenster n kann man ausgewählte Variable( n) in das zu Anfang noch leere recht e Variab lenfenster übert rage n. Nach Bestätigen mit "OK" wird eine Häufigkeits ta belle ersteLLt, die mit Tab. 2-2(5.35) nahezu ide nt isch ist. Die Tabelle kann übe r d ie Zwische nab lage d irekt in eine n Forschu ngs ber icht hinein kopiert we rde n. fiI Ho"' ogkeot
Ii:>l
I Slatistiken.. ~
vanatlll'(n~
I~_--.o= ~ Gudll."" IGUCIII , "",, '" Jan,... lNte~ ~) Rel'Il' o
oll
r!
DIagramme ..
Im
FS"""L
I
~kel! s:~ellen anzeigen Zuru''' et",,"
Al>l>fed1en
Hilfe
Zur Kategorisierun g von Variablen wird die SPSS Funktion "Tra ns formieren > Recodier en" be nutzt. Man kann entscheiden, ob man die beste he nde Variable umcodier en w ill oder für die neuen Kategorien zuordnungen eine neue Variable erz eugen w ill. Letzteres ist vorzuziehen, denn so bleiben die ursp rü nglichen Date n, di e ja gena ue re Messungen darstellen , für etwa ige weitere Analysen er halten.
52
Häufigkeitsverteilungen und ihre grafisch en Darstellungen
filiIJmkodieron in . nder. V" " hl
""
I:, Id enMkation l iD]
IJ Gesch lecht jGeschl I:, R. l i QionszuQeh öri ~
.d Zufriedenhe it m it Ei # Abiturdurchsclm it1t{ ~ Welcl1en aerot üben
var
-> A!JsQabev",
AlJs gab""ariabie
> ,
Name
I
I
B.sd1rinun ~
G
I
fAlte und neue Werte
lIöiiiiii
•
~(O pt; on a l e F. II.usw"h l b. d;n ll'Jn ~)
I
1~ [
UrUCkSetzl'nJ [ Abl>red1en
I
I
I ume
In SPSS können auch neue Variablen berechnet werden, die vorhandene Variablen zusammenfassen. Dazu wird der MenüpunktTransformieren > Variable berechnen ..." aufgerufen. Hat man bspw. mit Hilfe von zehn Variablen erfasst, welche Elektrogeräte die Befragten besitzen, dann kann man eine neue Variable "Anzahl der Elektrogeräte im Haushalt" durch auszählen dieser zehn Variablen bilden. Für die Generierung von Häufigkeitstabellen für Mehrfachantworten offeriert SPSS eine eigene Prozedur, die über den Menüpunkt "Analysieren> Mehrfachantworten " zugänglich ist.
Grafische Darstellungen in SPSS Alle in diesem Kapitel vorgestellten Visualisierungstypen lassen sich ohne großen Aufwand in SPSS erstellen. Balken- und Kreisdiagramme sowie Histogramme können am einfachsten im Rahmen einer Häufigkeitsauswertung angefordert werden. Im Dialogfenster unter "Analysieren> Deskriptive Statistiken> Häufigkeiten ...~ kann nach einem Klick auf den Button .Diagramme" eine gewünschte grafische Darstellungsform ausgewählt werden.
So geht e s mit SPSSj SYSTAT
l5I ~iPi"'''' ~~~ fGt'd11
~:"JIIV"' 1""'trI RtiIlI'O"lZUOfI'lon; ,d Z -tlI tn11 EJ
EI
....._~l
'
A w_
:;
8t<'ul uOtn .
~. ..,,~ lfaOlltIl
--
S3
--
0':='
~
o ~.~
.....-
..........
o "!...o~
>-
o H1!tel9'3mITIt .
-- -
" .......-..r,..UM
.-
~_~
-
Die Grafik finde t sich in der SPSS-Ausgabe unte r den Häufigke itstabellen und mittels Doppelklick gelangt man zu einem neu en Dialogfenster mit sehr umfangreichen Möglichkeiten, um die Grafik nach eigen en Wüns chen an zupassen. Unter and er em kann die Reihenfo lge der Balken, Säulen ode r Kreissegmente geänder t so wie Beschr iftun gen und Fa rb en va riiert werden. Für a ndere Forme n de r grafischen Da rst ellung, wie etwa das Liniendiagrarnrn , bie tet SPSS einen eigene n, größtente ils intu itiv zu bediene nden und selbste rklä re nde n Menüpunkt .Dtagramrne > Diagramme rst ellung": fillo..gtlmmerst ellutlg
It :oentrlit3llonllDl ~ :!,:"' ~lll ...
Oi:il Dlagr~u_ lIOOI ~ren
Gesc1>ledl11GuC'>l ,.
1~ ~"~J ~n ..nl'Jte1 Rellg< onsIUgenong
.d Zulrreoenne lt m
Ziehen Sie ein Galeriediagramm als AusQangs punkth ierher
~ AI)i!U' CI\J' dls dl nltttl
ODER
A Weldle n Berulu Den
Klicken Sie aul die Regisl erkarte "O,undelemenle", um ein Diagramm Eleme nt für Elementzu erstellen
~Kar""""",
. K~ 2
rG~lene lrGtunoellmtnltlrGru/lflI!llPunIJ-lO--:~lle15ußnot.ß
".
Aus*a/II"'~
r=~ unlt
Ft~cnt
kr"~lllat
.~ .
. . ~ [i]~
Slrtu-Punl
"
oo ~iiir
Inlilg lnsch~ft l
~P"~s ...
•• ~• ~
c=::J
,.,.,,-
_
_
M ~.
Zun ächst zieht man den gewünschten Diagrammtyp mit der Maus und anschließ end die gewünschten Vari ablen ins obere rechte Fenster.
Häufigkeitsverteilungen und ihre grafischen Darstellungen
54
Etwas versteckt und nicht im Menü .Diagrammerstellung" zu finden ist das Stamm-Blatt-Diagramm. Dieses befindet sich unter "Analysieren> Deskriptive Statistiken> Explorative Datenanalyse...", Hier kann nach einem Klick auf "Diagramme ..." ein entsprechendes Häkchen gesetzt werden.
Häufigkeitsverteilungen in SYSTAT SYSTAT ist nicht ganz so komfortabel wie SPSS. Um Häufigkeitstabellen zu erstellen geht man auf .Analyze > One-Way Frequency Tables ...", Im linken Dialogfenster können die Variable(n) ausgewählt werden und mittels des .Add". Buttons ins rechte Dialogfenster übertragen werden. Als nächstes muss alleine die Option .Frequency distrfbution" aktiviert werden.
Moin
I Cel sl olislOod
I
Resompling
Selecled v", ioble(s)
Avoiloble v", ioble(s)
'0
•
GESCHLECHH lI ALTER
I
I
Add --)
L:il . _ 1<-- Reroove I
RELIGIO N
,-,
1.,_", "I
l!lJ Fre~ncy " slroooo
IEJ COl.rls
~ COl.rls ond percent s
~ Pe rceols
Moos" es ~ Pe", son c!-i-squ", e
D ConIdence rlervols lor perceols wilh ~ conldence ~ IncWe missng volues
IEJ Sove lobIelsl
J
l
l
OK
II
Conc
I
Wenn keine weiteren Einstellungen vorgenommen werden, erstellt SYSTAT die Häufigkeitstabelle nur mit den gültigen Werten. Es besteht die Möglichkeit, die fehlenden Werte zu integrieren, indem die Option .jncl ude missing values" aktiviert wird. Als Ergebnis werden alle Werte mit in die Häufigkeitstabelle aufgenommen. In SYSTAT können die gültigen Prozente und die Prozente aller Ausprägungen nicht in einer Tabelle angezeigt werden. Die Kategorisierung von Variablen ist in SYSTAT unter .Data > Transform > Recode" verfügbar. Wie bei der Erstellung von Häufigkeitstabellen werden auf der linken Seite die relevanten Variablen ausgewählt und mit dem .Add '<Butron in die rechte Tabelle übertragen werden. Es besteht die Option, die bestehende
55
So geht es mit SPSSjSYSTAT
Variable umzukodieren oder eine neue Variable zu erzeugen. Für den zweiten Fall muss in der Tabelle rechts neben der ausgewählten Variable ein neuer Variablenname eingetragen werden. Mithilfe eines Buttons, welcher mittig auf der rechten Seite zu finden ist, wird eine neue Zeile im unteren Bereich des Fensters erzeugt. Nun können auf der linken Seite die alten und auf der rechten die neuen Werte eingetragen werden.
Avoiloble vorioble(s)
'0 C GESCHLECHT ALTER C RELIGION ZLIFRIE DENHE
•,:'7,'::'
IJI ~~~ r--~-==","~'",mi"iiail II [ Add --> I 1<-- Roroove I
Now V. luo •
Old V. luo
, i
s
• ~ Sove lile
~BJ
J OK
I LJ:~~::J
Man könnte bspw. das Alter der Probanden einer Stichprobe so kategorisieren, dass man die Kategorien ,,1 = 20-29 Jahre", ,,2 = 30-39 Jahre" usw. erhält, wobei 1 und 2 den Wertelabels entsprechen. Dafür wird im Feld .Recode Frorn" die Variable "ALTER" ausgewählt und in dem .Recode To" Feld die neue Variable "ALTERKATEGORISIERT" angelegt. Nun kann im unteren Teil des Dialogfeldes für jedes Alter der richtige Wertelabel eingetragen werden, z.B. 20 = 1, 21 = 1, 22 = 1, ..., 30 = 2, usw..
Grafische Darstellungen in SYSTAT SYSTAT bietet eine große Fülle an unterschiedlichen Visualisierungsformen, die mittels "Graph> Graph Callery..." angefordert werden können. Etwas übersichtlicher und für die in diesem Kapitel behandelten Grafiken zugänglicher ist der Eintrag "Graph> Summary Charts" bzw. für das Histogramm "Graph> Density Displays". Die unten stehende Abbildung zeigt beispielhaft das Dialogfenster zur Erstellung eines Balkendiagramms. Zuerst wählt man die Variable aus, die visualisiert werden soll und bringt sie in das Feld .Xcvanablefs)". Nun lassen sich über die Reiter eine Vielzahl von Einstellungen vornehmen, auf die an dieser
56
Häufigkeitsverteilungen und ihr e grafischen Darste llungen
Stell e nu r exemplarisch eingegangen werden kann. Sollen etwa statt de r absoluten die proz entuale Häufigkeit angezeigt werden, muss im Reiter "Options" das Feld "Display the values as a percentage oft the sum" aktiviert sein. Für die Ausgabe eines vertikalen statt horizontalen Balkendiagramms gibt es unter "All Axes" die Option .T ranspose X-Y-Achses". Der Großteil de r Einstellungen lässt sich auch im Nachhinein per Doppelklick au f die Grafik verändern.
c-
I~ p' h' Bor (h, rt
I
AIAxos Moin OplOooo
I
I
I
Errar Bors
LeQend
I
Coordinoles
I I
Coo X-Axis
I
I I "Z-Axi, I
X-viOIioble(s)
Avoiloble vorioblelsl
'0
GESCHLECHH
LiclfiJ
ALTER
[ <--Remove
RELI GION$ ZUFRIEDENHEIT NOTE BERUF S TU DIE N RIC H TU ~
GESCHLECHH
I
!!I M
• Ir
•
Y-viOIioble(s)
[ Add --> I I <--Reroove l
D Repealed trials
ICOOXIlsj
. 1_ ,.... • Z-viOlioble(s)
[
Add -->
I
[ < - Reroove l
,=
I
Y-Axis
[
•
Add -->
I
[ <--Reroove l
1,-.= .1
I!:l COlXIls 01 Y "X D Malrix colt.mns Display os
Gr ~
[3-D
varioble(s)
[ .",;]
='I
D M",.(Dual) D MuW lol
D Overlay mul:o;>Ie !l'aph,.-< o a s",* Ir""", D Slack bars 01 rrruli:tpIe var,obIes
~~ffiJ
D Range bElwoen lwo variobles
1
"'
11
c_, I
In SYSTAT lässt sich ein Stamm-Blatt-Diagramm über das Menü .Analyze > Descriptive Statistics > Stem-and-Leaf" anfo rdern.
3
Mittelwerte und Streuungsmaße
3.1 Mittel werte Mittelwerte, au ch Maße der zentralen Tendenz genannt, bieten die Möglichkeit Datenmengen so zu aggregi er en, dass man sie du rch einen ein zigen Wert ausdrü cken kan n. Wenn man an Mittelwerte denkt, fallt einem zunächst das arith meti sche Mittel, de r Durchschnittswert, ein, den man bereits aus der Schule kennt, wo z.B. die Durchschnittsnote einer Klassen arbeit berechnet wur de. ln diesem Ka pite l we rde n die drei Mittelwerte Mod us, Median und arithm etis ches Mittel vorgeste llt. Der Unterschied zwischen den drei Mittelwer ten ist die Art und Weise, wie s ie die ze ntrale Tendenz der Werte beschreib en . Mo dus
Der Modu s (e ng!. mode), auc h Modalwert genannt, ist der Wert, der in nerha lb ein er Dat enmen ge am häufigs ten vor komm t. Er muss nicht ber echnet werden, ma n kann ihn in einer Häufigkeitstabelle oder einer grafisc he n Darste llung ein fach ablesen. Beispielsweise w ur de das Alter von neun Kindern einer Kinderg artengrupp e er ho ben und die Ergebnisse wie in Abb. 3-1da rges tellt. Ab b.3·1 5
6
4
2
o 4 Jahre
5 Jahre
6 Jahre
Der Modu s bet rägt in diesem Fall 6 Jahre, we il d ieser Wert am häufigsten vorkomm t. Da nu r ein Modus vor handen ist, handelt es s ich um eine unimo dale Verteilung. Wen n in einer Verteilung zwei Werte die höchste Anza hl von Nen nun gen haben, wü rde ma n von eine r bimodalen Vert eilung sprec he n. Wenn alle Wer te gleichhäufig vo rkommen, es also in jeder Alterss tufe die gleiche Anzahl von Kinderga rtenkind ern gäbe, so würde die Bestimmung eines Modus
Mittelwerte und Streuungsmaße
58
keinen Sinn haben, weil man dann keine zusammenfassende Information erhält Üblicherweise wird der Modus vor allem dann angegeben, wenn die Verteilung ein oder zwei herausstehende Werte hat. Die Bestimmung des Modus ist an kein Skalenniveau gebunden, er lässt sich sowohl für Intervallskaien als auch für Ordinal- und Nomialskalen ermitteln. Es könnte sowohl ein bestimmtes Alter [intervall], ein bestimmter Schulabschluss (ordinal) oder eine Religionszugehörigkeit (nominal) am häufigsten vorkommen. Wenn es einzelne Werte gibt, die stark von den restlichen Werten abweichen, sogenannte Ausreißer, so bleibt der Modus konstant. Man spricht deswegen davon, dass er gegenüber Ausreißern robust ist, da sich die Werte neben dem Modalwert beliebig ändern können, ohne ihn zu beeinflussen. Dieser Vorteil des Modus ist gleichzeitig auch seine Schwäche, da er nur darüber eine Aussage treffen kann, welcher Wert am häufigsten vorkommt und außer diesem Wert keine weiteren Werte berücksichtigt. Abb. 3-2 zeigt drei verschiedene Verteilungen, die alle den gleichen Modus aufweisen und trotzdem eine völlig andere Form haben. Abb.3-2
10 1
1 2
3
1
2
1
4
5
6
7
10
8
2
3
4
10
9
5
6
2
3
9
4
5
6
Median Der Median (engl. median) teilt die Datenmenge genau in der Mitte, so dass 50% der Werte über dem Median und 50% der Werte unter dem Median liegen. Um den Medien bestimmen zu können, werden zunächst alle vorkommenden Werte der Größe nach sortiert. Dafür muss die analysierte Variable mindestens ordinalskaliert sein. Je nachdem ob eine gerade oder ungerade Anzahl von Werten vorliegt, gestaltet sich die Bestimmung des Medians unterschiedlich. Bei einer ungeraden Anzahl von Werten ist der Median der Wert, der genau in der Mitte der nach Größe aufgereihten Werte steht. Um ihn zu bestimmen, sind folgende Schritte notwendig:
59
Mittelwerte
Bestimmung a es Meaians 6ei einer ungeranen Anzalil von Wert en a) Alle Werte der Größe nach sortieren. b) Die Position des mittleren Werts mit der Formel ~ bestimmen, 2
wobei n der Anzahl der Werte entspricht. c) Den mittleren Wert ablesen.
Wenn der Median des Alters der neun Kindergartenkinder aus dem obigen Beispiel bestimmt werden soll, muss folgendermaßen vorgegangen werden: Werte sortieren
4
5
5
5
6
6
6
6
6
i.
2.
3.
4.
5.
6.
7.
8.
9.
Position des mittleren Wertes bestimmen Mittleren Wert ablesen
Der fünfte Wert ist 6. Der Median beträgt also 6 Jahre.
Wenn nun die Kindergartengruppe ein neues Kind im Alter von 4 Jahren aufnimmt, verändert sich die Situation ein wenig, denn nun haben wir es mit zehn Kindern zu tun und es gibt keinen Wert mehr, der genau in der Mitte der Reihe steht. In diesem Fall müssen die zwei mittleren Werte bestimmt werden, weil der Median genau in der Mitte dieser beiden Werten liegt. Bestimmung a es Meaian Dei einer ungeranen Änzalil von Werten a) Alle Werte der Größe nach sortieren. b) Die Position der beiden mittleren Werte mit den Formeln?:. und ~ 2
2
bestimmen. c) Die beiden mittleren Werte ablesen. d) Die Mitte dieser beiden Werte mit der Formel Wert 1+W ert 2 berechnen. 2
Für das Beispiel mit den nun zehn Kindergartenkindern bedeutet dies: Werte sortieren
4
4
5
5
5
6
6
6
6
6
i.
2.
3.
4.
5.
6.
7.
8.
9.
10.
Position der mittleren Werte bestimmen
1. Wert:?:. = ~
Mittlere Werte ablesen
Der fünfte Wert ist 5 und der sechste Wert ist 6. Mitte der beiden Werte bestimmen: ~
Mitte der mittleren Werten bestimmen
2
2
=5
Der Median beträgt also 5,5 Jahre.
2
= 5,5
Mittelwerte und Streuungsmaße
60
Genau wie der Modus ist der Median gegenüber Ausreißern robust. Ein Anwendungsbeispiel des Medians findet sich im World Fact Book der CrA7. Für jedes Land der Welt ist unter anderem der Median des Alters aufgeführt, also das Alter durch das die Bevölkerung eines Landes in zwei Gruppen geteilt wird. Der Median des Alters in Deutschland beträgt 43,8 Jahre während er in Afghanistan bei 17,6 jahre liegt. In Afghanistan sind also 50% der Bevölkerung jünger als 17,6 jahre und in Deutschland sind 50% der Bevölkerung jünger als 43,8 jahre. Allein durch den Median erhält man so eine wichtige Information über die Altersstruktur der beiden Länder.
Arithmetisches Mittel Der Mittelwert, oder das arithmetische Mittel (engl. mean value], ist umgangssprachlich als der Durchschnittswert bekannt. Alle Maße der zentralen Tendenz können unter dem Begriff Mittelwerte zusammengefasst werden, wenn von dem Mittelwert die Rede ist, so ist jedoch das arithmetische Mittel gemeint. Der Mittelwert begegnet einem häufig auch im Alltag, z.B. wenn das Durchschnittseinkommen einer Berufssparte in den neuen und alten Bundesländern verglichen oder über das Abschneiden verschiedener Länder in der PISA-Studie gesprochen wird. Um den Mittelwert zu berechnen, werden alle vorkommenden Werte summiert und durch die Anzahl der Werte dividiert. Der Mittelwert wird üblicherweise mit x (ausgesprochen x quer) abgekürzt und die Formel für seine Berechnung lautet: Mittelwert Xi
n
= =
x=
Xl
+
xa
+ x 3 + .+ x n
--'-----"----''--------''
IY=l Xi
n
n
Messwert des i-ten Falls Anzahl der Fälle
Berechnen wir nun den Mittelwert für das Alter der neun Kindergartenkinder aus Abb. 3-1: 4+5+5+5+6+6+6+6+6 ------:::9-----
49 =9" = 5,4
Für die Kindergartenkinder ergibt sich ein Durchschnittsalter von 5,4 Jahren. Der Mittelwert ist demnach um 0,6 Jahre niedriger als der weiter oben berechnete Median von 6 Jahren.
7
https:jjwww.cia.govjlibraryjpublicationsjthe-world-factbook
Mittelwerte
61
Das Summenzeichen L Das Summenzeichen kann als vereinfachte Schreibweise verwendet werden, wenn Zahlen aufsummiert werden sollen. In unserem Beispiel liegen als Messwerte X i die Altersangaben von neun Kindern vor. Um den Vorgang der Summierung dieser neun Werte zu beschreiben, könnte die folgende Schreibweise gewählt werden:
Bei einer großen Anzahl von Werten kann diese Schreibweise jedoch schnell umständlich werden. Ein Summenzeichen vor dem Xi steht für die folgende Abkürzung: LXi = die Summe aller Werte Xi Das Summenzeichen wird mit einem sogenannten Laufindex (meistens mit dem Buchstaben i) versehen, der angibt, was summiert werden sollen. Am unteren Rand des Summenzeichens steht der erste zu summierende Wert und am oberen Rand der letzte. Folgendes Summenzeichen meint also:
Soll das Alter aller neun Kindergartenkinder aufsummiert werden, muss das Summenzeichen demnach folgendermaßen beschriftet werden:
Um den Mittelwert berechnen zu können, muss die untersuchte Variable, wie hier das Alter, intervallskaliert sein. Für Variablen mit niedrigerem Skalenniveau hat die Berechnung des Mittelwerts keinen Sinn. Man stelle sich den Versuch vor, den Mittelwert der nominalskalierten Variable Familienstand mit den Werten 1 = ledig, 2 = verheiratet und 3 = verwitwet zu bilden. Ein Mittelwert von 2,5 wäre in diesem Fall offensichtlich unsinnig. Bei der Interpretation eines Mittelwertes muss bedacht werden, dass dieser Wert von einigen außergewöhnlich hohen oder niedrigen Ausreißerwerten leicht beeinflusst werden kann. Ein einziger hoher Wert treibt den Mittelwert in die Höhe. Wird zum Alter der neun Kinder das Alter der dort tätigen 26-jährigen Erzieherin hinzugerechnet. steigt der Mittelwert von 5,5 auf 7,5 Jahre. Man spricht deshalb davon, dass der Mittelwert anfällig gegenüber Ausreißern ist. Zudem ist die Berechnung des Mittelwertes nur bei Verteilungen üblich, die unimodal und annähernd symmetrisch sind. Bei einer Verteilung mit mehreren
Mittelwerte und Streuungsmaße
62
Modi oder einer u-förmigen Verteilung hat der Mittelwert wenig Aussagekraft. weil er die realen Begebenheiten nicht wiedergeben kann. Wenn man z.B. das Alter der Besucherinnen und Besucher eines Stadtteilzentrums erhebt, das vor allem von älteren Menschen und Kindern und Jugendlichen besucht wird, dann ist die Altersverteilung u-förmig und das Durschnittsalter einer Untersuchung beträgt könnte bspw. 35 Jahre betragen. Dieser Wert gibt die Realität jedoch nicht gut wieder. In einem solchen Fall ist es besser, für beide Gruppen das jeweilige Durchschnittsalter zu berechnen und so z.B. die bei den Mittelwerte 15 und 76 Jahre zu erhalten. Bevor man einen Mittelwert berechnet, sollte man also einen Blick auf die Verteilung der Werte in einer Häufigkeitstabelle oder grafischen Darstellung werfen.
Mittelwertfür eine Häujigkeitstabelle Auch wenn Werte bereits in einer Häufigkeitstabelle zusammengefasst wurden, lässt sich der Mittelwert berechnen. Die Tab. 3-1 bildet die Altersverteilung von 25 Kindern eines Kindergartens ab. Die ersten Spalte enthält die drei verschiedenen Altersstufen k i Die zweite Spalte gibt für jedes Alterskategorie an, wie häufig sie vorkommt (fi). Um den Mittelwert der so vorliegenden Altersverteilung der Kindergartenkinder zu bilden, müssen die Alterskategorien, wie in der dritten Spalte dargestellt, mit der Häufigkeit ihres Auftretens multipliziert und anschließend summiert werden. Tab. 3-1 Alte r k i
Häufigkeit
t,
r..«,
4
6
24
5
9
45
6
10
60
Lf,;,1 fi . k i =129
Um den Mittelwert zu berechnen, wird diese Summe nun durch die Summe der Häufigkeiten dividiert (also durch die Summe der zweiten Spalte). Formalisiert lässt sich dieser Vorgang folgendermaßen beschreiben.
x= fi ki
m
If,:,lh· k i If,:,lh
f, . k,
+ f, . k, + f3 . k 3 + .+ km t, + f, + t, + ... + fm
Die Häufigkeit des Vorkommens einer Kategorie Der Wert einer Kategorie Die Anzahl der Kategorien
63
Mittelwerte
Für die Kinder des Kindergartens ergibt sich demnach ein Mittelwert von 5,2 Jahren.
x~
129
25~
5,2
Mittelwert für gruppierte Daten Es kommt vor, dass Daten bereits kategorisiert, d.h. gruppiert, wurden und nun aus der Tabelle der gruppierten Daten heraus der Mittelwert berechnet werden soll. Zum Beispiel wurde die Zeit, die die Kinder einer Grundschulklasse täglich im Internet verbringen, zu den Kategorien 0 bis <30 Minuten, 30 bis <60 Minuten und 60 bis 90 Minuten zusammengefasst Kategorie
Anzahl der Kinder !k
Kategorienmitte Xk
Obis <30 Minuten
5 Kinder
15 Minuten
30 bis <60 Minuten
14 Kinder
45 Minuten
60 bis 90 Minuten
6 Kinder
75 Minuten
Eine genaue Berechnung des arithmetischen Mittels der im Internet verbrachten Zeit ist nun nicht mehr möglich, daher muss ein Verfahren angewendet werden, durch das man sich an das arithmetische Mittel annähern kann. Zum Beispiel kann für die Kinder in der Kategorie 0 bis <30 Minuten nicht mehr nachvollzogen werden, wie viele von ihnen 10 Minuten täglich und wie viele von ihnen 20 Minuten täglich online sind. Daher nimmt man für alle Kinder einer Kategorie die jeweilige Kategorienmitte als Wert, der z.B. für die Kategorie 0 bis <30 Minuten bei 15 Minuten liegt. Die Anzahl von Kindern in einer Kategorie wird nun mit der jeweiligen Kategorienmitte Xk multipliziert und das Ergebnis anschließend durch die Anzahl aller Kinder geteilt:
X= !k Xk
m
L:~=1!k . Xk
/ , . x, + [z . x, + [s . x 3 + ... + fm·xm
I.':~1 !k
Die Häufigkeit des Vorkommens einer Kategorie Die Kategorienmitte Die Anzahl der Kategorien
Wenn man anhand dieser Formel die durchschnittlich im Internet verbrachte Zeit der Grundschulkinder berechnet, erhält man als Ergebnis eine Zeit von 46,2 Minuten: 5·15+ 14·45+6·75 1155 X= 5+14+6 =---zs=46,2
64
Mittelwerte und Streuungsmaße
3.2 Streuungsmaße Mittelwerte als Maße der zentralen Tendenz geben Auskunft über die Mitte einer Verteilung von Werten. Mehr erfährt man über die Verteilung jedoch nicht. Daher wird üblicherweise zusätzlich ein Streuungsmaß berechnet, das darüber informiert, wie weit die Werte um die Mitte herum streuen. Wenn in zwei Kindergartengruppen die Zeit gemessen wird, die die Kinder brauchen um ihre Schuhe zu binden und die Kinder der Hasengruppe einen Mittelwert von 40,6 Sekunden erreichen, während die Kinder der Bärengruppe durchschnittlich 40,8 Sekunden benötigen, könnte man bei alleiniger Betrachtung der Mittelwerte zunächst davon ausgehen, dass die feinmotorische Fertigkeit der Kinder bezüglich des Schuhbindens in beiden Gruppen ähnlich verteilt ist. Ein Blick auf die genauen Ergebnisse zeigt jedoch einen völlig anderen Tatbestand (Abb. 3-3). In der Hasengruppe sind die von den Kindern benötigten Zeiten viel dichter beieinander als bei den Kindern der Bärengruppe. Während in der Hasengruppe eine Tendenz der Kinder zu einer Zeit von 40-45 Sekunden erkennbar ist, verteilen sich die Kinder der Bärengruppe gleichmäßig auf die verschiedenen Zeiten. Abb.3-3 Hasengruppe
4
Bärengruppe
4
3
3
2
20
25
30
40
45
2
2
50
55
60
20
3
2
2
2
2
25
30
40
45
3
2
50
55
60
Offensichtlich können zwei Verteilungen trotz eines fast identischen Mittelwertes völlig verschieden sein. Zusätzlich zu den Kennzahlen, die man durch die Berechnung von Mittelwerten erhält, braucht man deswegen Informationen über die Verteilung der Werte insgesamt. Zur Erinnerung: Mittelwerte sagen etwas darüber aus, wo auf der x-Achse sich die jeweilige Mitte der Werte befindet. An Streuungsmaßen kann zusätzlich abgelesen werden, wie weit um den Mittelwert herum die restlichen Werte streuen. Je weiter die Werte sich vom Mittelwert entfernen, desto größer ist die Streuung und desto flacher die Verteilung. Je näher die Werte sich am Mittelwert befinden, desto kleiner ist die Streuung und desto schmalgipfliger die Verteilung. Die Streuung, der für das Schuhebinden benötigten Zeit, ist in der Bärengruppe also größer als die Streu-
Streuungsmaße
65
ung in der Hasengruppe. Mit anderen Worten, die gemessenen Zeiten der Bärengruppe sind unterschiedlicher als die Zeiten der Hasengruppe. Wie bei den Mittelwerten gibt es auch bei Streuungsmaßen nicht ein einziges, sondern verschiedene Maße mit unterschiedlichen Voraussetzungen und Berechnungsweisen. In diesem Kapitel werden Spannweite, Perzentile und Quartile, Varianz und Standardabweichung vorgestellt Zu beachten ist, dass Streuungsmaße nicht für nominalskalierte Variablen berechnet werden können, da die einzelnen Messwerte in keine geordnete Reihenfolge von z.B. langsam nach schnell oder niedrig nach hoch gebracht werden können. Die Anordnung der Kategorien auf der x-Achse ist demnach beliebig und eine Streuung wäre je nach Anordnung unterschiedlich und deshalb ohne Aussagekraft.
Spannweite Einen schnellen Überblick über die Streuung der Werte einer Verteilung gibt die Spannweite, auch Variationsbreite genannt (engl. range). Dieses Streuungsmaß informiert über den Abstand von Minimum und Maximum, also den Abstand zwischen dem niedrigsten und höchsten Wert einer Verteilung. Berechnet wird die Spannweite, die üblicherweise mit R abgekürzt wird, indem der niedrigste Wert vom höchsten Wert abgezogen wird: Spannweite R
= x max
-
xmin
Wenn man die Spannweite für die gemessenen Zeiten des Schuhebindens in den bei den Kindergartengruppen berechnet, erhält man für die Hasengruppe eine Spannweite von 30 Sekunden und für die Bärengruppe eine Spannweite von 40 Sekunden.
Hasengruppe: Bärengruppe:
R R
= 55 Sekunden = 60 Sekunden -
25 Sekunden 20 Sekunden
= 30 Sekunden = 40 Sekunden
Anhand dieser bei den Kennzahlen kann man bereits erkennen, dass die Zeiten der Kinder in der Hasengruppe homogener sind, sich also weniger unterscheiden als die Zeiten der Kinder in der Bärengruppe. Da die Spannweite nur die zwei äußersten Werte der gesamten Verteilung berücksichtigt, ist sie gegenüber Ausreißern sehr empfindlich. Wenn z.B. in der Hasengruppe ein Kind 120 Sekunden benötigt hätte, würde die Spannweite der Gruppe 95 Sekunden statt 30 Sekunden betragen. Die Spannweite kann für ordinal- und intervallskalierte Daten berechnet werden und wird häufig angewendet, um den Bereich zu kennzeichnen, in dem sich die Werte einer Stichprobe befinden.
Mittelwerte und Streuungsmaße
66
Perzentile, Quartile und Interquartilsabstand Die Spannweite gibt Auskunft über die bei den Werte einer Verteilung, zwischen denen sich 100% aller Werte befinden. Häufig möchte man nur Auskunft über die mittleren 50% der Werte erhalten, ohne die oberen und unteren 25% der Werte zu berücksichtigen. Dies ist der Fall, wenn Ausreißer außen vor gelassen werden sollen oder der mittlere Bereich der Daten mehr interessiert als die Extremwerte. Für die Bestimmung des Medians wurde die Reihe der geordneten Werte einer Verteilung in zwei Hälften geteilt. Man kann die geordneten Werte statt nur in zwei aber auch in mehrere Teile einteilen. Wenn die der Größe nach sortierten Werte, in genau 100 gleich große Teile geteilt werden, nennt man die Schnittstellen Perzentile und zwischen zwei Perzentilen liegt immer ein Anteil von einem Prozent der Werte einer Verteilung. Wenn das Alter von 200 Personen erhoben wird und die Werte anschließend der Größe nach sortiert werden, erhält man eine lange Reihe von Zahlen, die mit dem kleinsten Alter beginnt und mit dem größten Alter endet, etwa so: 18,18,18,18,19,19,20,20,20,22,
,87,88,88,90.
Genau zwei Werte entsprechen in diesem Fall einem Prozent der Werte insgesamt. Nach jedem zweiten Wert befindet sich ein Perzentil (p), eine Schnittstelle, die analog zur Bestimmung des Medians, genau zwischen den beiden sie flankierenden Werten liegt. 18 18
18 18 p1
pi p2 p3 p4
19 19 p2
20 20 p3
20 22 p4
87 88 p5
p98
88 90 p99
plaa
= 18 = 18,5 = 19,5 = 20
p99 = 88 pl00 = 90
Dabei schneidet das x-te Perzentil x% der Werte ab, also werden die untersten 5% der Werte durch das 5. Perzentil und die obersten 5% durch das 95. Perzentil abgeschnitten. Wenn man erfahren möchte, zwischen welchen beiden Werten sich 90% der Werte befinden, kann man die Spannweite zwischen dem 5%Perzentil und dem 95%-Perzentil berechnen. Einzelne Perzentile zu berechnen, hat jedoch erst ab einer geeigneten Anzahl von Werten Sinn. Am häufigsten werden das 25., 50. und 75. Perzentil genutzt, die eine Verteilung in vier gleichgroße Abschnitte teilen, welche jeweils 25% der Werte enthalten. Diese Perzentile werden Quartile genannt und können auch für eine geringere Anzahl von Werten bestimmt werden, wobei fast immer Statistiksoftware zum Einsatz kommt
Streuungsmaße
67
Es gibt für Quartile verschiedene Arten der Notation: 25. Perzentil 50. Perzentil 75. Perzentil 100. Perzentil
= = = =
1. Quartil 2. Quartil 3. Quartil 4. Quartil
= Q.25 = Q.50
(= Median)
= Q.75 = Q.l00
Die Spannweite der mittleren 50% der Werte kann nun anhand des Abstandes zwischen dem 1. und 3. Quartil berechnet werden. Diese reduzierte Spannweite wird Interquartilsabstand IQR (eng!. interquartile range) genannt und folgendermaßen bestimmt: Interquartilsabstand IQR
= 3. Quartil-l. Quartil = Q.75 -
Q.25
Da die Werte der Verteilung für die Berechnung von Perzentilen, Quartilen und dem Interquartilsabstand in eine geordnete Reihenfolge gebracht werden müssen, ist es notwendig. dass die Variablen ordinal- oder intervallskaliert sind.
Varianz und Standardabweichung Das in der Sozialforschung am häufigsten verwendete Streuungsmaß ist die Standardabweichung (engl. standard deviation), die mit s oder SD abgekürzt wird. Die Standardabweichung ergibt sich rechnerisch als Wurzel aus der mit S2 oder var(x) abgekürzten Varianz (engl. variance). Die Varianz informiert darüber, wie weit die Werte einer Verteilung vom arithmetischen Mittel entfernt liegen. Varianz und Standardabweichung können nur für intervallskalierte Variablen angewendet werden, da das arithmetische Mittel für ein niedrigeres Skalenniveau nicht berechnet werden kann. Für die Berechnung der Varianz werden die Abstände aller Werte zum Mittelwert quadriert, aufsummiert und anschließend durch die Anzahl der Werte geteilt. Varianz var(x) Xi
x
n
= = =
= S2 =
IY=l (x, - x/ n
Wert eines Falls Mittelwert Anzahl der Fälle
In der Inferenzstatistik, die in diesem Buch ab Kapitel 5 behandelt wird, findet die folgende, leicht abgeänderte Formel Verwendung: Varianz (Inferenzstatistik) var(x)
= S2 = IY=l (Xi
-
n-l
x/
Mittelwerte und Streuungsmaße
68
Von der Anzahl der Fälle im Nenner wird der Wert Eins abgezogen. Statistiksoftwate und Tabellenkalkulationsprogramme wie Excel verwenden standardmäßig die Formel der Inferenzstatistik bei der Varianzberechnung. Um die Standardabweichung zu erhalten, muss nur noch die Wurzel aus der Varianz gezogen werden: Standardabweichung s
=B
Der Vorteil von Varianz und Standardabweichung ist, dass sie im Gegensatz zur Spannweite oder dem Interquartilsabstand nicht nur zwei, sondern alle Werte berücksichtigen. Je höher die Varianz und Standardabweichung ausfallen, desto weiter streuen die Werte um den Mittelwert. Die Tab. 3-2 verdeutlicht die Rechenschritte. die notwendig sind, um die Varianz der Zeiten zu berechnen, die zehn Kindergartenkinder der Hasengruppe für das richtige Zuordnen von geometrischen Formen benötigen. Die Durchschnittszeit der zehn Kinder beträgt 38,5 Sekunden. Die erste Spalte zeigt die für jedes Kind gemessene Zeit in Sekunden an. In der zweiten Spalte wird von jedem Messwert die Durchschnittszeit abgezogen und das Ergebnis in der dritten Spalte quadriert. Tab. 3-2 X,
x i- X
(Xi - x)Z
Oskar
25
25 - 38,5 = -13,5
182,25
Emil
30
30 - 38,5 = -8,5
72,25
Sonja
60
60 - 38 ,5 = 21,5
462,25
Nils
45
45 - 38,5 = 6,5
42,25
Luzie
35
35 - 38,5 = -3,5
12,25
Florian
25
25 - 38,5 = -13,5
182,25
Camilla
45
45 - 38,5 = 6,5
42,25
Laura
20
20 - 38,5 = -18,5
342,25
Isabel
60
60 - 38,5 = 21,5
462,25
Kalle
40
40 - 38,5 = 1,5
2,25 L[.~\(Xi
L[~tCXi - X)2
n
- X)2 = 1802,5 1802,5
----ul ~
180,25
69
Streuungsmaße
Beim Betrachten der Tabelle wird deutlich, dass Werte, die weiter vom Mittelwert entfernt liegen, durch das Quadrieren weit mehr zur Varianz beitragen, als Werte die wenig vom Mittelwert abweichen. Aus der berechneten Varianz von 180,25 Sekunden.' wird durch das Ziehen der Wurzel die Standardabweichung ermittelt: Standardabweichung s
= ,/180,25 Sekunden' = 13,4 Sekunden
Angenommen auch in der Bärengruppe wurde die zum Zuordnen der Formen benötigte Zeit gemessen und anschließend Mittelwert, Varianz und Standardabweichung berechnet: Hasengruppe
Bärengruppe
x = 38,5 Sekunden
x = 39,8 Sekunden
S2
= 180,25 Sekunden"
s = 13,4 Sekunden
S2
= 85,5 Sekunden"
s = 9,2 Sekunden
Obwohl sich die Mittelwerte der beiden Gruppen nur um 1,3 Sekunden unterscheiden, kann man an der Standardabweichung eine Unterschiedlichkeit der Kindergartengruppen deutlich erkennen. Die höhere Standardabweichung in der Hasengruppe bedeutet, dass die Zeiten innerhalb dieser Gruppe unterschiedlicher sind als die der Kinder in der Bärengruppe.
70
Mittelwerte und Streliungsmaße
3.3 Boxplots: Grafische Darst ellung vo n Streuungen Boxplots sind Diagramme , die den Median und die Streuu ng von Daten grafisch dar ste llen. Sie können mit einer Stat ist iksoftwa re erst ellt werden. Abb. 3-4 zeigt ein Boxplot de r Altersverteilung für die mä nnlichen und wei bliche n Stud iere nde n eines Stud iengangs. Abb. 3-4
:~
::: " :::"
•,.:E
Extremwerte
•
• • •
• • • •
Ausre Ißer
•
<
:~
::.
:;
3 . nuartil
1. Qua rtil
I
I .Median
1We;bli
~
.. Niedrigster Wer t innerhal b von 1.5 lnt e rq uartllsa bsta nde n M' nnli
Die Box selbst kennze ichnet den Bereich, in dem die mittleren 50% aller We rte liegen , also de n lnterquartilsabstand. Die Ränder der Box sind de mnach durch da s 1. und das 3. Quartil definiert. Als zwe ite Info rmat ion wird die Lage des Medians d urch eine Linie inner halb d er Box geke nnze ichnet. Von der Box geh en die T-för migen Whisker s, auch Fühler genan nt, ab. Was du rch d ie Whisker s geken nzeichnet wir d, ist je nach Definitio n unte rsch iedl ich. Me iste ns ist es jedoch so, dass die Län ge de r Whisker maximal d as l ,5-fache de s Inter quartilsahstands bet rägt und ge nau an de m Pun kt enden , an de m sich der letzte Wert befinde t, der sich nicht weite r als 1,5 lnterquarti lsabstände vom Med ian entfernt. Daher ist es möglich, d ass die Whisker s nicht die gleiche Länge bes itzen. Wenn d ie Definition de r Whiskers auf diese Art gewähl t wird, wer den Datenp un kte. d ie weite r als 1,5 Interq uar tilsa bstände vo m Median entfernt liege n, als Aus re iße r in Fo rm von Kreisen oder Punkten da rgestellt. Ein Wert, der mehr als 3 lnterquartilsabstände vom Median e ntfernt liegt, gilt als Extremwe rt und wird mit einem Stern geke nnzeichnet. Es gibt allerdings Fälle, in denen kein Wert weiter als 1,5 Interquart ilsabstände vom Median entfernt liegt. Dann kennzeichne n die Whis-
Boxplots: Grafische Darstellung von Streuungen
71
ker gleichzeitig die Lage des Maximum bzw. Minimum, also den höchsten und niedrigsten Wertes der Verteilung. Die Whiskers können auch so definiert werden, dass sie vom niedrigsten zum höchsten Wert der Verteilung reichen oder dass sie den Bereich kennzeichnen, in dem 95% der Werte liegen. Boxplots vermitteln schnell ein sehr gutes Bild über eine vorhandene Verteilung. Sie eignen sich für die Darstellung unimodaler Verteilungen, bei mehrmodalen Verteilungen würde die Box sehr groß werden und keine nützlichen Informationen mehr wiedergeben. In den mit SPSS erstellten Boxplots der Altersverteilung von Männern und Frauen in Abb. 3-5 kennzeichnen die Whiskers den 1,5-fachen Interquartilsabstand. An der Achsenbeschriftung auf der linken Seite zeigt sich eine weitere Besonderheit von Boxplots. Ab einem Alter von 32 springt die Skala um 3, um 5 oder um 2 Jahre nach oben. Das liegt daran, dass Boxplots nicht vorkommende Werte auslassen. Es werden nur die Daten angezeigt, die auch wirklich vorhanden sind. Boxplots erlauben auch die gleichzeitige Darstellung mehrere Verteilungen oder mehrerer Untergruppen innerhalb einer einzigen Verteilung. In Abb. 3-5 wird das Klimabewusstsein differenziert nach Geschlecht und Bildungsstand angezeigt Abb.3-5 Geschlecht 20 ,00
.
Mann
. Fra u c
.~
, ••
1 5,0 0
~
~
10 ,00
" ~
5,00
.oo--'-----,--L-----,----,-------' niedri g
mittel
hoch
Bildung kategorisiert
Boxplots eignen sich zudem gut für die Hypothesenentwicklung. Anhand der Boxplots in Abb. 3-5 können die Hypothesen aufgestellt werden, dass ein höheres Bildungsniveau mit einem höheren Klimabewusstsein einhergeht und Frauen ein tendenziell höheres Klimabewusstsein als Männer haben. Woran erkennt
Mittelwerte und Streuungsmaße
72
man dies? Die mittlere Linie, die den Median kennzeichnet, ist bei den bei den rechten Boxplots der Personen mit hohem Bildungsniveau deutlich höher als bei den Boxplots für das niedrige Bildungsniveau. Auch die untere Begrenzung der beiden rechten Boxen, die das 1. Quartil kennzeichnet, ist höher als bei den meisten anderen Gruppen. Innerhalb der Bildungsniveaus erreichen die Frauen jeweils höhere Werte, was an der höheren Linie des Medians (mittleres Bildungsniveau) oder einem höheren Wert für das 3. Quartil (hohes Bildungsniveau) erkennbar ist.
3.4 Standardisierungsverfahren Variationskoeffizient Den Variationskoeffizienten V (engl. coefficient of variation) erhält man, wenn man die Standardabweichung durch den Mittelwert teilt. Er setzt die Größe der Standardabweichung also in ein Verhältnis zur Größe des Mittelwerts. Anhand des Variationskoeffizienten lassen sich verschiedene Verteilungen miteinander vergleichen, selbst wenn die Verteilungen nicht die gleiche Skala/Maßeinheit aufweisen. Die Formel zur Berechnung lautet: Variationskoeffizient V
=
s X
Als Einschränkung darf der Mittelwert nicht Null betragen, da durch Null nicht geteilt werden darf. Die Variationskoeffizienten der zehn Kinder aus der Hasenund der Bärengruppe betragen: Hasengruppe: Bärengruppe:
v= -xs v= xs
1 3,4 38,5 9,2 39,9
~
0,348
~
0,231
Der Variationskoeffizient ist eigentlich dimensionslos. Damit er besser interpretiert werden kann, wird er oft als Prozentzahl angegeben. Für die Hasengruppe beträgt er 34,8% und für Bärengruppe 23,1%. Diese Prozentzahlen sagen aus, dass für die Kindergartengruppen die Standardabweichungen, der zum Zuordnen der geometrischen Formen benötigten Zeiten 34,8% bzw. 23,1% des Mittelwerts betragen.
z-Transformation Eine weitere Standardisierungsmethode ist die z-Transformation. Sie ordnet jedem Wert einer Verteilung einen z-Wert zu, der darüber informiert, wie weit dieser Wert vom Mittelwert abweicht. Eigentlich sind z-Werte dimensionslos, allerdings kann man die Höhe eines z-Wertes als Standardabweichungen inter-
Standardisierungsverfahren
73
pretieren. Wenn für einen Messwert ein z-Wert von 1,5 berechnet wird, bedeutet dies, dass dieser Wert genau 1,5 Standardabweichungen oberhalb des Mittelwertes liegt, während ein Wert von -1,5 bedeutet, dass der Wert genau 1,5 Standardabweichungen unterhalb des Mittelwertes liegt. Eingesetzt wird die zTransformation vor allem, um Werte verschiedener Verteilungen zu vergleichen. Zum Beispiel braucht Sonja, die in die Bärengruppe geht, für das Zusammenlegen eines Puzzles mit 25 Puzzleteilen 250 Sekunden. Der Mittelwert der benötigten Zeiten in der Bärengruppe beträgt 320 Sekunden. An einem anderen Kindergarten wurde der gleiche Test mit einem etwas kleineren Puzzle durchgeführt. Nils, der dort die Blumengruppe besucht, braucht 230 Sekunden, um ein Puzzle mit 20 Puzzleteilen zusammenzulegen. Die Durchschnittszeit in seiner Kindergartengruppe beträgt 290 Sekunden. Mit Hilfe der z-Transformation kann die Frage beantwortet werden, welches der bei den Kinder im Vergleich zu seiner Kindergartengruppe schneller ein Puzzle zusammenlegen kann. Dafür benötigt man drei Werte: die jeweiligen Puzzlezeiten der Kinder, die durchschnittlich benötigte Zeit in ihrer Kindergartengruppe x und die jeweils dazu gehörende Standardabweichung s. Die Formel der z-Transformation lautet: z-Transformation
x,
x s
= = =
S
einzelner Messwert innerhalb der Vergleichsgruppe Mittelwert der Vergleichsgruppe Standardabweichung der Vergleichsgruppe
Wenn man jetzt die z-Transformation auf die Puzzlezeiten von Sonja und Nils anwendet, ergeben sich folgende z-Werte. Tab . 3-3 Sonja
Nils
Puzzlezeit
xi
250 Sekunden
230 Sekunden
Durchschnittliche Puzzlezeit der Kindergartengr~~e
x
320 Sekunden
290 Sekunden
Standardabweichung
5
90 Sekunden
60 Sekunden
z-wert
Xi -x 5
250
320 90
"" -0,8
230
320 60
-1,5
Beide Kinder brauchen weniger als die Durchschnittszeit in ihrer Gruppe für das Legen des Puzzles, da der z-Wert bei beiden einen negativen Wert erreicht. Nils ist jedoch im Verhältnis zu Sonja etwas schneller als die restlichen Kinder in
74
Mittelwerte und Streuungsmaße
seiner Gruppe, da seine Zeit 1,5 Standardabweichungen unter dem Mittelwert seiner Vergleichsgruppe liegt. Die Zeit von Sonja liegt mit 0,8 Standardabweichungen etwas näher am Mittelwert. Was genau geschieht während der z-Transformation? Abb. 3-6 stellt das Prozedere der z-Transformation grafisch dar. In der Bärengruppe verteilten sich die Puzzle zeiten zunächst um den Mittelwert von 320 Sekunden. Die Verteilung ist auf der x-Achse demnach um den Wert von 320 Sekunden herum positioniert. Indem von jeder Zeit nun die Durchschnittszeit abgezogen wird, verschieben sich die Zeiten um genau diese 320 Sekunden nach links. Die so entstandene Verteilung hat den Mittelwert Null, an der Position der Werte im Verhältnis zueinander hat sich jedoch nichts verändert. Wird nun jeder einzelne Wert durch die Standardabweichung geteilt, wird jeder Person ihr z-Wert zugewiesen, der die Entfernung der Zeit von der Durchschnittszeit in Standardabweichungen angibt. Als Ergebnis erhält man eine Verteilung, die eine Standardabweichung von 1 hat. Abb.3-6
allbla.
Vor der z-Transformation
x = 320 s = 60
Nach Abzug des Mittelwertes
x=o
s = 60
Nach Dividierung durch die Standardabweichung
x=o s=1
Abschließend für dieses Kapitel fasst die Tab. 3-4 die benötigten Skalenniveaus für die in diesem Kapitel vorgestellten Verfahren zusammen. Nur bei Variablen, die Intervallskalenniveau besitzen, können alle Verfahren angewendet werden. Bei Variablen mit niedrigerem Skalenniveau muss beachtet werden, dass die Auswahl eingeschränkt ist.
75
So geht es mit SPSS/ SY5TAT
Tb a 3 <J.
Skalenniveau
Modus Mmelwerte Med ian
Nominal
Ordinal
Intervall
,/
,/
,/
,/
,/
Mitte lwe rt Pe rzentile/O uart ile Streuungima8e Var ia nz
Standardisie rungiverfahren
,/ ,/
,/ ,/
St andardabwekhu ng
,/
Va rtat o nskoeffizien t
,/
z-I ra nsform at ion
,/
3 .5 So geht es mitSPSSjSYSTAT Kennwerte mit SPSS berechnen Die Ausgabe statist ischer Kennwert e forde rt ma n in SPSS über den Men ü pu nktes "Analysiere n > Deskr iptive Stat istik> Häu figkeite n" an. Ein Klick auf den Butt on "Stat istik" öffnet ein Dialogfeld, in dem versch ieden e Kennwerte ausgew ählt we rden können: ill l-l."'i9k.~.~: St.1O.h' P.mo~ ti lw.!t.
la~.m"ß.
[.... Qu"' tJl.
:.... ~IIt.lw.!t
~
n.nnW. ll. IIJ.' 1()
gI. K:ll. Gru pp .~
li[] ~ .;j
;j ;~ -
f"j ~ mm .
I"] Werte sind Qruppe nmrtl.tpunll. Verteilun ~
~
.... V,., :If\Z
..... M.!!!" n i.... MQdiOw. !t
"
lol!"'mum "PImum
I"'I ~'" w_
-~~
~ Sd'"efe
I"'I !9JrIoSIS
~.
Mittelwerte und Streuungsmaße
76
Im Rahmen einer Befragung wurden Bachelorstudierende gefragt, wie viele Leistungspunkte sie am Ende ihres 4. Semester wahrscheinlich gesammelt haben werden. Für diese intervallskalierte Variable gibt SPSSfolgende Ergebnistabelle aus. N
Gültig Fehlend
79 11
Mittelwert
111,34
Median
110,00
120
Modus Standardabweichung
16,980 288,330
Varianz
112
Spannweite Minimum
30
Maximum
142
Perzentile
25
100 ,00
50
110,00
75
120,00
SPSS berechnet für die 79 Personen eine Spannweite von 112 Punkten, die zwischen 30 und 142 Leistungspunkten liegt. Der Mittelwert beträgt 111 Punkte und der Median mit 110 Punkten nur einen Punkt weniger. Am häufigsten wurden 120 Punkte angegeben, was auf eine rechtssteile Verteilung hinweist, weil der Modus rechts vom Mittelwert liegt. Die Standardabweichung ist mit 17 Punkten im Verhältnis zum Mittelwert eher gering. Die Varianz beträgt 288,3 Punkte, wobei SPSSzur Berechnung der Varianz die Formel der Inferenzstatistik verwendet. Das gleiche gilt für den Interquartilsabstand, den SPSS nicht berechnet, den man aber als Differenz zwischen dem 1. und 3. Quartilleicht bestimmen kann und der 120 -100 = 20 Punkte beträgt. Die Verteilung ist trotz der großen Spannweite daher eher schmalgipflig. Wahrscheinlich gibt es nur wenige Ausreißer, die das Minimum von 30 Punkten verursachen. Das folgende Diagramm zeigt, dass die aus den Maßzahlen gezogenen Annahmen über die Art der Verteilung zutreffen.
77
So geht es mit SPSS/SYSTAT
s
r-
IQe L Quartil ~ •• •• 3 Quartil
"
s
... b. ............. .... .... ... .. . .,
.....S.P.~.'!.~~~~!!~ ..•. ..................
,
os ü
'"
an
00
.
nso
.
r-,
'""
Medi a n
""
""
Mitt e lwe rt
Um eine z-Transformation mit SPSS durchzuführen, muss das Menü "Analysieren> Deskriptive Statistiken> Deskriptive Statistik" aufgerufen und im Auswahlfenster nach Auswahl der zu transformierende Variable das Häkchen im Feld "Standardisierte Werte als Variable speichern" gesetzt werden. SPSS berechnet nun im Hintergrund die z-Werte für die ausgewählte Variable und legt anschließend eine neue Variable an, in der die z-Werte gespeichert sind.
UD D,",luiptN~ SUli
u eerwercne mrcr, u eer wercne Inf\>r Überweldle Inf\>r Über weldl e tnfol ,. Uberweldle Infor.,. Nadl WIe "' elen S Planen Sie evenlu
..
IQ;I
.
Vanable{nj·
18 .
~'It: ~,~,~dis~e:,~I~_~,!~I,!,,~!,~~,~,!I!,!_~'p,!I~!,~
I
OK
I
o eneneo j
lV. WIe ";ele ECTs-Punl..l
ElnfiJge
zuruoaeuen
I
llIedle
IL
HIKe
Um Boxplots zu erstellen, muss der Menüpunkt "Diagramme> Diagrammerstellung" aufgerufen werden und im unteren Bereich .Boxplot" ausgewählt werden.
78
Mittelwerte und Streuungsmaße
Iill Di'9"mm erstellu~9 ~ a f i .t> e n
(T
es ells rn aftlid1e
,;?
Familien stan d (' 51
C"st, . bl. "------fk '"b . .--- ,,,,,I ----------- -,
~ l ebenss ituation (
e?Alter (2 00 &-Geb J
,;? Alle r kale goris ie rl
.d Bildun g kal ogo ns $? K ind er j aln ein I I
6' BIK-Drtsg,öße (1 # #
BI K-{)rts ~öß . (2. Monatlid1es N ett
,;? '.." zahl der Kind er ~ -SKALEN_ (VA
~ SJW:AKlim.a~ew
#
Alter kal egorisi erl
~ All e r k. legOfis ie rl Keioo Kategorien (metrische V5IfiiilIJe)
Galerie
Grunaelemente
Grupp'erliPunKl- ID
iTi te llfu ß n ote ~
ae me nletgens c;llanen
Ausw
Balken
U ni.
Flam e KreislP ," ar Streu-IPun ktdia
H istogramm
uccn-net e~ ot
Doppel. rn, . n Hi lfe
Im Fenster werden die gewünschten Variablen mit der Maus in die markierten Felder an x- oder y-Achse und im Falle von gruppierten Boxplots die Variable, nach der die verschiedenen Gruppen unterschieden werden sollen in das Feld .Clustervariable" Feld gezogen. Kennwerte mitSYSTAT berechnen Um statistische Kennwerte in SYSTAT anzufordern, wählt man den Menüpunkt .Analyze > Basic Statistics" aus. Im erscheinenden Dialogfenster können alle hier behandelten Kennwerte bis auf den Modus ausgewählt werden. Um den Modus zu bestimmen, kann man diesen aus einer mit SYSTAT erstellten Häufigkeitstabelle ablesen.
So geh t es mit SPSSjS YSTAT
79
J~~ANJYie: BISlC SlMtiu
I
~ oin .H P.He. 1 R.~ l A"""OO' . ..IIJbIel.1
0_
·
. ""
.~ "_ ~"" ",DD C
I!:! Al w bo",
D
Selecl. d . .. ,lIbIeltt
.
F8_ECT S F8_AU SLANDS'L I F10_MASTE R F10_CMASTEf
~
. I<.-ROII'IO'ff\!
. ~
[l N !'l: M.........
~ Ge<Jmebic """"" (GM)
~ IA -......
~ r rlll'ln"ll!
"',-
~ R .......
~ H .. möf'»I:: """""IH M)
~ S k ..........
~IT_
" ,~
' ''''''
A r~",-, l/I M )
l;I SE o/AM
. 1~ S E 0/ oI<ewne.. ~ K,"", m
~ SD
~ D o/ AM~
~ S E o/ lwo- l=
R cv
~ Ande!soo-{lilllio:Jg rormolii:y tesl
~ S r.op;-"""iI< nonn.>Iily tesi
M" ivllMle rorrMIily
C M.. do.... _
.,,''''Menl
D H....,.,Z"'Ieo ..."
D M or
IV..iobb
~ S _ """'I".
.
·1
I
J I or J I c.n:.l;;;iifJ
~~[jl]
Hinter der Abkürzung CVverbirgt sich der Variationskoeffizient (coefficient of variation) und SD steht für die Standardabweichung (standard deviation). Die z-Transformation fordert man über den Menüpunkt .Data > Standardize" an und wählt eine oder mehrere zu transformierende Variablen aus. i '9=i~
, Z D.I ", Slilnd.ordiu Aveiloblevorioble(s)
'0
SUBMI TDATE STARTDATE F2_VERTIEFUN _p
·W
'
DP nc" u
'
·
Cl
·
...... D Selecled vorioble(s)
~
I <-.R emove I
;, ~
o SD
~ Sove lile
~ e~
I
~~
' J
~~
Es empfiehlt sich, ein Häkchen in das Feld .Save flle" zu setzen und im darunterliegenden Feld einen Speicherort auszuwählen. Bei einem Klick auf "OK" erstellt SYSTAT am ausgewählten Speicherort eine Kopie der aktuellen Datendatei, in der die Werte der ausgewählten Variablen durch ihre z-Werte ersetzt wurden.
80
Mittelwerte und Streuungsmaße
3.6 Mittelwerte und Streuungsmaße in der Forschungsliteratur In der Forschungsliteratur werden Mittelwerte und Streuungsmaße häufig "nebenbei" aufgeführt, wenn Ergebnisse von komplexen statistischen Analysen berichtet werden. Manchmal finden sie sich jedoch auch als prägnante Kennwerte. um das analysierte Datenmaterial zu beschreiben. Beispielweise wurde im Rahmen einer interdisziplinären Forschergruppe in 97 Kindergärten eine Studie über das Qualitätsniveau durchgeführt. Die Tab. 3-5 bildet einen Auszug einer Ergebnistabelle dieser Studie ab (vgl. Kuger jKluczniok 2009: 166). Tab. 3-5 : Prozessqualität im Kindergarten Strukturmerkmale Anzahl der Kinder in de r Gruppe
M
SO
Min
Mo>
24.3
3.6
9.0
30.0
Anzahl Kinder pro Fachkraft in der Gruppe
12.4
4.6
4.S
26.7
Quote der Kinder mit Migrationshintergrund in der Gruppe
24.6
26.8
0.0
100.0
Anzahl der Berufsjahre der Gruppenleiterin
15.0
9.0
0.3
40.0
3.3
2.6
1.3
19.6
Quadratmeter pro Kind in den Gruppenräumen
In der Tabelle finden sich Mittelwert (M), Standardabweichung (SD), Minimum (Min) und Maximum (Max) für verschiedene in der Studie erhobene Merkmale. So kann man entnehmen, dass die Kindergartengruppen durchschnittlich aus 24,3 Kindern bestehen und die Standardabweichung 3,6 beträgt. Die kleinste untersuchte Kindergartengruppe besteht aus 9 Kindern und die größte Gruppe aus 30 Kindern, die Spannweite beträgt also 30-9 = 21 Kinder. Wenn man die Quote der Kinder mit Migrationshintergrund betrachtet, stellt man fest, dass diese durchschnittlich 24,6% beträgt, wobei die Standardabweichung von 26,8% sehr groß ist. Mit dieser hohen Streuung geht auch eine sehr hohe Spannweite von 100%, denn es gibt Kindergartengruppen, in denen alle Kinder einen Migrationshintergrund besitzen (Max = 100%) und Kindergartengruppen, in denen dies für keines der Kinder zutrifft (Min = 0%).
4
Kreuztabelle, Chi-Quadrat und Zusammenhangsmaße
Die sozialwissenschaftliehe Ana lyse ist in der Regel nicht nur an der Ermittlung der Vert eilu ng einzelner Phänome ne bzw. Variab len, sondern an der Unters uchung von Beziehungen zwisc hen sozialen Phänomen en interessiert. In diesem Kapi te l geht es nicht mehr nu r um die Auswertung einzelner Varia blen und die Berechnung der Kennwerte ihrer Verteilung (..univar iat e Ana lyse "), so nder n um den Zusa mme nha ng zwisc hen zwei Variab len, und zwar zunächst zw ischen so lchen, d ie Nomin alska lenniveau aufweisen. Man spricht in diese m Fall von bivariater Ana{yse und ste llt den Zusammenhan g zwisc he n den beid en Variab len in Form eine r sogenannten Kreuztabelle oder Kontingenztafel dar. In der Methodenliteralur existiert für die Kreuztabellenanalyse eine Vielzah l unt erschiedlicher Begriffe: Man spricht auch von Kontingenztafelana lyse, Tabe llenanalyse oder an glisiert von Cross-Tabu lation oder Cross-Tabs. Mit Chi-Quadrat wird in diesem Kapitel ein Zusammenh an gsmaß eingeführt, da s zum einen den in einer Kreuztabe lle vorhanden en Zusamm enhang in einer ein zigen Maßzah l ausdrückt, zum anderen aber auch eine Prüfgröße für einen sogen annten Sign ijikanz test dar stellt. Wie man solche Signifikanztests du rchführt, wird in Kapitel 9 besc hrieben.
4.1 Das Prinzip der Kreuztabelle In einer Kreuztabelle werden die Häufigkeitsvert eilun gen von zwe i Variab len dargestellt und ana lysiert. Die Kreuztabelle ist ein Multit alent. sie eignet sich s owohl für nomina l- und ordinalska lierte als auch für gruppierte metrische Variab len. In Kapitell wurde dargelegt, dass man au ch Variab len mit höheren Skalennivea us prob lem los in so lche mit geringerem Skalenniveau transformieren kann. Also aus einer Variab le "Einkommen", deren Werte das Monatseinkommen in Euro beinhalten, kann man durch Kategorisierung eine ordinalskalierte Var iable mit bsp w. sechs Einkommen sgruppen erze ugen ode r man kann die gleiche Variable auch gro b entlang des Media ns dichoto misiere n, d.h. in zwei Gru ppen unt erteilen, und lediglich die be ide n Ausprägungen "hohes Einkomme n" und "niedriges Einkom men" untersche iden. Die Kreuztabellenanalyse lässt
82
Kreuztabelle, Chi-Quadrat und Zusammenhangsmaße
sich folglich auch mit ordinalskalierten Variablen oder in Kategorien zusammengefassten intervallskalierten Variablen durchführen. Man spricht deshalb auch von kategorialen Variablen und von der Kreuztabellenanalyse als Kategorialdatenanalyse. Faktische Voraussetzung für eine Kreuztabelle ist, dass die Zahl der Kategorien nicht allzu groß ist, ansonsten wird die Tabelle leicht unübersichtlich und kann weder in einer schriftlichen Publikation noch in einem Vortrag vollständig präsentiert werden. Eine Empfehlung für die maximale Anzahl von Kategorien lässt sich schwerlich geben, schließlich hängt die Darstellung auch von der Schriftgröße und der Art der Beschriftung ab. In jedem Fall sollte die Tabelle auf eine DIN-A4 Seite passen und die Schriftgröße nicht zu klein gewählt werden. Die einfachste Form der Kreuztabelle ist die Vier-Felder-Tafel, in der beide Variablen nur zwei Ausprägungen besitzen: Tab. 4-1 Bildung hoch (X1)
niedrig (X2)
Zeilensumme
männlich (Y1)
a
b
a+b
weiblich (Y2)
c
d
c+d
Spaltensumme
a+c
b+d
n
Die eigentlichen vier Felder im Innern dieser Kreuztabelle sind mit abis d bezeichnet. In der Spalte Zeilensumme stehen die auf die Zeilenvariable bezogenen Häufigketten. in den Spaltensummen entsprechend die Häufigkeiten der Spaltenvariablen. Betrachtet man nur die Spaltensummen bzw. nur die Zeilensumrnen, so findet man dort die univariaten Häufigkeiten der beiden Variablen wieder. Die Spaltenvariable, in der Tabelle ist dies die Variable "Bildung", wird durch den Buchstaben x symbolisiert, ihre Ausprägungen durch den Buchstaben i, der hier die Werte 1 und 2 annimmt [xr und X2). Die Zeilenvariable, hier "Geschlecht", wird durchy und ihre Ausprägungen durch den Buchstabenj symbolisiert. Die Kreuztabelle ist eine i malj Tabelle und besitzt also i malj (hier 2 ·2 = 4) Felder bzw. Zellen. Eigentlich ist es funktional und für die statistische Berechnung unerheblich, wie man die Variablen anordnet, untersucht man jedoch eine Fragestellung, bei der man einen Zusammenhang in einer bestimmten Richtung vermutet {Die Bildung beeinflusst das Umweltbewusstsein"), so gibt es eine Konvention, derzufolge die unabhängige Variable, d.h. die Variable, von der die vermutete Wirkung ausgeht, als Spaltenvariable dargestellt wird. Will man nur den wechselseitigen Zusammenhang tabellieren, ohne dass man bereits eine be-
Absolute Häuflgkeiten, Spaltensummen und Zeilensummen
83
stimmte Richtung annimmt, so spielt es keine Rolle, welche Variable als Spaltenvariable und welche als Zeilenvariable gewählt wird. In den einzelnen Zellen der Kreuztabelle können, ähnlich wie bei univariaten Häufigkeitstabellen, sowohl absolute als auch relative Häufigkeiten (Prozentanteile) stehen. Eine Bedingung für die Kreuztabellenanalyse scheint eigentlich selbstverständlich, soll hier aber dennoch nicht unerwähnt bleiben, nämlich dass sich jeder Fall eindeutig den Merkmalsausprägungen bei der Variablen, also einer Zelle der Vier-Felder-Tafel zuordnen lässt. Beispiel: In einer Studie über Absolventinnen und Absolventen des DiplomPädagogik-Studiengangs wurde u.a. nach der gewählten Studienrichtung (entweder Sozial- jSonderpädagogik oder ErwachsenenbildungjAußerschulische Jugendbildung) gefragt. Es soll nun untersucht werden, ob es einen Zusammenhang zwischen dem Geschlecht und der gewählten Studienrichtung gibt. Aufgrund der vorhandenen Hintergrundinformationen vermuten wir, dass Männer sich eher für Erwachsenenbildung entscheiden, d.h. es handelt sich um eine gerichtete Fragestellung mit der unabhängigen Variable "Geschlecht", die folglich als Spaltenvariable definiert wird.
4.2 Absolute Häufigkeiten, Spaltensummen und Zeilensummen Im ersten Schritt wird die Verteilung der 138 Befragten dieser Studie auf die vier Zellen ermittelt (absolute Häufigkeiten). Den Randhäufigkeiten der Tab. 4-2 können wir die univariaten Verteilungen entnehmen: Es sind also 37 Befragte männlichen und 101 Befragte weiblichen Geschlechts; 96 Befragte hatten sich für Sozial- jSonderpädagogik entschieden und 42 für ErwachsenenbildungjAußerschulische Jugendbildung. Tab. 4-2: Kreuztabelle mit absoluten Häufigkeiten Geschlecht
Studienrichtung
Total
männlich
weiblich
Total
Scalal-jSonderpädagogik
22
74
96
Erwachsenen btldu ngJAußerschulische Jugendbildung
15
27
42
37
101
138
84
Kreuztabelle, Chi-Quadrat und Zusammenhangsmaße
4.3 Relative Häufigkeiten, Spaltenprozente und Zeilenprozente Im zweiten Schritt werden anstelle der absoluten Häufigkeiten die Prozentzahlen bezogen auf die Gesamtpopulation (n = 138) wiedergegeben. Aus der Tab. 4-3 kann bspw. abgelesen werden, dass 15,9% der Befragten männlichen Geschlechts sind und Sozial-jSonderpädagogik studiert haben. Aus den Prozentangaben der Randhäufigkeiten geht hervor, dass 69,6% sich für Sozial- jund Sonderpädagogik und 30,4% für Erwachsenenbildung entschieden hatten. Tab. 4-3: Kreuztabelle mit absoluten und relativen Häufigkeiten Geschlecht
Studienrichtung
Sozlal-jSonderpädagogik Erwachsenen b!IdungJ Außerschulische Jugendbildung
Total
männlich
weiblich
Total
absolut
22
74
96
%
15,9%
53,6%
69,6%
absolut
15
27
42
%
10,9%
19,6%
30,4%
absolut
37
101
138
%
26,8%
73,2%
100,0%
Im dritten Schritt werden die Zeilen prozente berechnet. Für die erste Zeile, die Studienrichtung Sozial- jSonderpädagogik, bedeutet dies, dass die Prozentangaben für die beiden Geschlechter auf die insgesamt 96 Befragten bezogen werden, die diese Studienrichtung gewählt haben. Diese Personen verteilen sich zu 22,9% (männlich) und 77,1% (weiblich) auf die Geschlechter. Die Prozentangaben aller Zellen einer Zeile addieren sich bei zeilenweiser Prozentuierung immer zu 100%.
Relative Häuflgkeiten, Spaltenprozente und Zeilenprozente
85
Tab. 4-4: Kreuztabelle mit Zeilenprozenten Geschlecht männlich
weiblich
Total
22
74
96
22,9%
77,1%
100,0%
15
27
42
35,7%
64,3%
100,0%
absolut
37
101
138
%
26,8%
73,2%
100,0%
absolut Sozlal-jSonderpädagogik Studienrichtung
% der Studienrichtung
Erwachsenenbild ungj Außerschulische Jugendbildung
Total
absolut % der Studienrichtung
Im folgenden vierten Schritt werden die Spaltenprozente berechnet, bei der sich die Prozentangaben auf die Spaltensumme beziehen: Bei einer gerichteten Fragestellung ("Das Geschlecht beeinflusst die Wahl der Studienrichtung") sind die Spaltenprozente die entscheidende Größe. Der Tab. 4-5 lässt sich entnehmen, dass von den Männer 59,5% Sozial-jSonderpädagogik und 40,5% Erwachsenenbildung gewählt haben. Bei den Männern ist damit der Prozentanteil für die Wahl der Studienrichtung Erwachsenenbildung tatsächlich höher als bei den Frauen (26,7%), was auf den ersten Blick für die oben formulierte Vermutung spricht. Tab. 4-5: Kreuztabelle mit Spaltenprozenten Geschlecht männlich
weiblich
Total
absolut
22
74
96
/Sonderpädagogfk
%von Geschlecht
59,5%
73,3%
69,6%
Erwachsenen biIdungJ Außerschulische Jugendbildung
absolut
15
27
42
%von Geschlecht
40,5%
26,7%
30,4%
absolut
37
101
138
%
100,0%
100,0%
100,0%
SozialStudienrichtung
Total
86
Kreuztabelle, Chi-Quadrat und Zusammenhangsmaße
4.4 Erwartungswerte und die Berechnung von ChiQuadrat Wie groß nun der Zusammenhang zwischen den bei den Merkmalen ist, wird mithilfe der Chi-Quadrat-Statistik ermittelt Die Logik von Chi-Quadrat-Verfahren besteht darin, empirisch beobachtete und erwartete Häufigkeiten miteinander zu vergleichen. Den Randhäufigkeiten können wir entnehmen, dass unter den insgesamt 138 Pädagogik-Studierenden 101 Frauen sind, sie also einen Anteil von 73,2% haben. Unter der Annahme, dass das Geschlecht die Studienrichtung nicht beeinflussen würde, würden wir für beide Studienrichtungen ohne Unterschied einen Frauenanteil von 73,2 Prozent erwarten. Formalisiert lässt sich schreiben: j,(weibliche in Sozialpädagogik) = 0,732' 96 = 70,3 Personen j,(weibliche in Erwachsenenbildung) = 0,732' 42 = 30,7 Personen Mit Je werden in der obigen Gleichung die erwarteten Häufigkeiten bezeichnet. MitJb bezeichnet man hingegen die beobachteten, d.h. die empirisch in der Studie ermittelten Häufigkeiten. Diese betragen hier 74 (Sozialpädagogik) und 27 (Erwachsenenbildung). Es haben sich also mehr weibliche Studierende für Sozialpädagogik und weniger für Erwachsenenbildung entschieden als man aufgrund der Randhäufigkeiten erwarten würde. Chi-Quadrat ist nun ein Maß, das die Abweichungen der beobachteten von den erwarteten Häufigkeiten misst und in einer einzigen Maßzahl ausdrückt. Um die Logik des Verfahrens zu verstehen, mag man sich als Gedankenexperiment vorstellen, was das Resultat wäre, wenn die Wahl der Studienrichtung tatsächlich ausschließlich vom Geschlecht bestimmt würde, dann würden nämlich bspw. alle Männer Erwachsenbildung wählen und alle Frauen Sozialpädagogik. Die Randhäufigkeiten lassen einen solchen perfekten Zusammenhang in diesem Fall aber gar nicht zu, denn unter den Studierenden befinden sich nur 37 Männer, aber 42 Studierende der Erwachsenenbildung, d.h. es müssen sich mindestens 5 Frauen ebenfalls für Erwachsenenbildung entschieden haben. Will man nun den Zusammenhang zwischen den beiden Merkmalen durch eine Prüfgröße messen, so müsste diese einen perfekten Zusammenhang der beiden Variablen durch einen möglichst hohen Wert anzeigen. Je mehr nun die tatsächlich empirisch feststellbaren Häufigkeiten mit den erwarteten übereinstimmen, desto kleiner müsste die Prüfgröße bis diese schließlich gleich null wäre, wenn beobachtete und erwartete Werte identisch sind. Genau diese Eigenschaften hat die im Weiteren beschriebene Prüfgröße Chi-Quadrat.
Erwartungswerte und die Berechnung von Chi-Quadrat
87
Zur Berechnung von Chi-Quadrat müssen zunächst die Erwartungswerte berechnet werden. Die allgemeine Formel zur Ermittlung des Erwartungswertes einer Zelle in der i-ten Zeile undj-ten Spalte der Kreuztabelle lautet: fe(i,j) nj
p.
= =
= nj
. Pi
Anzahl der Fälle in Kategorie j relative Häufigkeit für die Ausprägung i
Die erwartete Häufigkeit für die Tabellenzelle (iJ) lässt sich auch aus den Randhäufigkeiten bestimmen: f'Ct,})
n
=
Zeilensumme i . Spaltensumme j
= -------'------"n
Anzahl aller Fälle
Diese Berechnungsmethode ist bei Berechnung mit dem Taschenrechner vorzuziehen, weil sich so Rundungsfehler vermeiden lassen. Beide Berechnungsmethoden funktionieren nicht nur für Vier-Felder-Tafeln, sondern für Kreuztabellen beliebiger Größe. Tab. 4-6 gibt die aufgrund der Randhäufigkeiten zu erwartende Anzahl von Befragten für die vier Zellen der Tabelle wieder. Eine solche Tabelle der erwarteten Häufigkeiten bezeichnet man auch als Indifferenztabelle. Tab. 4-6: Indifferenztabelle mit Erwartungswerten Geschlecht
Studienrichtung
Total
männlich
weiblich
Total
Scalal-jSonderpädagogik
25,7
70,3
96,0
Erwachsenen b!IdungJ Außerschulische Jugendbildung
11,3
30,7
42,0
37,0
101,0
138,0
Um die Prüfgröße Chi-Quadrat zu ermitteln, sind jetzt noch die Abweichungen der beobachteten von den erwarteten Werten zu berechnen. Tab. 4-7 enthält in jeder Zelle der Vier-Felder-Tafel die beobachtete Häufigkeit, die erwartete Häufigkeit und deren Differenz, das sogenannte Residuum.
Kreuztabelle, Chi-Quadrat und Zusammenhangsmaße
88
Tab. 4-7: Absolute Häufigkeiten, Erwartungswerte und Residuen Geschlecht
SozlaI-/Sonde rpädagogik Studien-
richtung Erwachsenen bild u ngJAu ßerschulische Jugendbildung
Total
männlich
weiblich
Total
beobachtet
22
74
96
erwartet
25,7
70,3
96,0
residual
-3,7
3,7
beobachtet
15
27
42
erwartet
11,3
30,6
42,0
residual
3,7
-3,7
beobachtet
37
101
138
residual
37,0
101,0
138,0
Chi-Quadrat wird nun so ermittelt, dass für jede der vier Zellen der Tabelle die Differenz zwischen beobachteten und erwarteten Häufigkeiten gebildet und anschließend quadriert wird. Das Ergebnis wird durch die jeweils erwartete Häufigkeit dividiert. Die vollständige Formel zur Berechnung von Chi-Quadrat, das üblicherweise durch den griechischen Buchstaben X (sprich: Chi) abgekürzt wird, sieht folgendermaßen aus:
k
Jb Je
= Anzahl der Zellen = beobachtete Häufigkeiten = erwartete Häufigkeiten
Für die obige Vier-Felder-Tafel ergibt sich folgendes Chi-Quadrat: z-
X -
37' 37' (-37)' (- 3 7) ' ' - '-''::::: 2 38 257 +703+113+ 307 ' , , . ,
Anhand dieses Beispiels lässt sich auch bereits der für die spätere Signifikanzprüfung der Chi-Quadrat-Analyse (siehe Kapitel 9) wichtige Begriff der Freiheitsgrade erläutern. Unsere Ausgangstabelle besteht nur aus vier Zellen. Die Personen sind entweder männlich oder weiblich und haben entweder Sozialpädagogik oder Erwachsenenbildung gewählt. Bei gegebenen Randhäufigkeiten
Die Kreuztabelle mit mehrfach gestuften Merkmalen
89
(also den Zeilen- und Spaltensummen) werden mit der Häufigkeit einer Merkmalskombination die Häufigkeiten der übrigen drei Zellen automatisch festgelegt: Wenn man weiß, dass 22 Männer Sozial- und Sonderpädagogik gewählt haben, lassen sich die Häufigkeiten der anderen drei Felder der Kreuztabelle sofort berechnen. Die Anzahl der Freiheitsgrade ist folglich gleich 1. Bei der Kontingenztafelanalyse sind die Freiheitsgrade also gleich der voneinander unabhängigen Zellen. Angenommen man habe als Spaltenvariable anstelle des Geschlechts ein dreifach gestuftes Merkmal - z.B.die Variable .Schulabschluss" mit den Ausprägungen niedrig, mittel, hoch - so reicht die Kenntnis der Anzahl der Personen einer Zelle (z.B. Wahl der Sozialpädagogik/niedriges Bildungsniveau) nicht zur Bestimmung der Tabelle aus. Hier ist die Zahl der Freiheitsgrade gleich zwei, denn bei gegebenen Randhäufigkeiten benötigen wir die Häufigkeiten von mindestens zwei Zellen, um die übrigen unter Zuhilfenahme der Randhäufigkeiten errechnen zu können.
4.5 Die Kreuztabelle mit mehrfach gestuften Merkmalen Die Vier-Felder-Tafel stellt nicht den Regelfall bei der Kreuztabellenanalyse dar, denn in den meisten Fällen arbeitet man mit Variablen, die mehr als zwei Ausprägungen besitzen bzw. es ist zumindest eine Variable mit mehr als zwei Ausprägungen beteiligt. Wie sieht das Verfahren nun aus, wenn wir es mit einer Kreuztabelle zu tun haben, die mehr als vier Zellen aufweist? Hier ein Beispiel: Tab. 4-8 Altersstufe
Klimabewusstsein
Total
Total
18-24
25-49
50+
niedrig
42
230
201
473
mittel
87
494
554
1135
hoch
23
203
200
426
152
927
955
2034
In Tab. 4-8 ist als Spaltenvariable eine gruppierte Variable namens "Altersstufe" dargestellt - sie hat 1=3 verschiedene Ausprägungen. Das kategorisierte .Klimabewusstsein" mit k = 3 Ausprägungen bildet die Zeilenvariable. Untersucht werden soll nun die Frage, ob es Unterschiede zwischen den Altersgruppen hinsichtlich des Klimabewusstseins gibt.
Kreuztabelle, Chi-Quadrat und Zusammenhangsmaße
90
Bezeichnet man die Anzahl der Ausprägungen der Zeilenvariablen mit kund die Anzahl der Ausprägungen der Spaltenvariablen mit 1, dann besitzt die Kreuztabelle k mall, d.h. 3 mal 3 gleich 9 Zellen im inneren Kern der Tabelle. Die Prüfgröße Chi-Quadrat wird hier im Prinzip genauso berechnet wie bei der Vier-Felder-Tafel:
X'
=
II k
I
i= l j= l
(fb(i.j) - l ' (i.j))
z
fe(q)
Alle i mal j Zellen der Tabelle werden durchlaufen und es wird jeweils das zellenspezifische Chi-Quadrat berechnet und diese Einzelwerte werden schlussendlich zu einem Gesamt-Chi-Quadrat summiert. Die Erwartungswerte für die Zellenhäufigkeiten werden nach der in Abschnitt 4.4 dargestellten Formel über die Randhäufigkeiten ermittelt. Neu ist bei der Kreuztabelle mit mehrfach gestuften Merkmalen lediglich die Berechnung der Freiheitsgrade. Diese beträgt: df= (k-l)· (1-1) hier also df= (3-1)· (3-1) = 2·2 = 4
Entsprechend würde eine 4 mal 4 Kreuztabelle mit 16 Zellen drei mal drei gleich neun Freiheitsgrade besitzen. Nach der obigen Formel berechnen wir die erwarteten Häufigkeiten über die Randhäufigkeiten und anschließend Chi-Quadrat. Interessant ist nicht nur das Gesamt-Chi-Quadrat, sondern auch die Chi-Quadrat Werte in den einzelnen Zellen. Sie zeigen bei Tabellen mit mehr als vier Zellen an, welche Zellen besonders viel zum Gesamt-Chi-Quadrat beitragen. Als Voraussetzung für die Chi-Quadrat Berechnung wird in der Literatur in der Regel genannt, dass maximal 20% aller Zellen der Tabelle eine erwartete Häufigkeit kleiner 5 aufweisen dürfen. Die Begründung hierfür ist, dass durch die Berechnungsmethode. bei der ja die erwarteten Häufigkeiten im Nenner stehen, der Quotient bei sehr kleinen Erwartungswerten schnell steigt und der tatsächliche Zusammenhang zwischen der Variablen somit verfälscht würde, wenn sehr kleine erwartete Häufigkeiten auftreten. Man hat aber auch bei einer Kreuztabellenanalyse mit vielen Erwartungswerten kleiner 5 noch die Möglichkeit, die Tabelle daraufhin zu inspizieren, ob tatsächlich eine solche Zelle mit f;« 5 zu einem hohen Chi-Quadrat beiträgt Je kleiner die Anzahl der Probanden ist und je größer die Zahl der Merkmalsausprägungen der beiden Variablen, desto virulenter wird das Problem der kleinen Erwartungswerte. Die Lösung kann dann eventuell darin bestehen, dass man Merkmalsausprägungen sinnvoll zusammenfasst und so die Zahl der Tabellenzellen verkleinert Auch wird bei kleinen Fallzahlen häufig mit dem sogenannten Fishers Exakt Test gearbeitet, der in diesen Fällen zuverlässigere Ergebnisse liefert.
Zusammenhangs maße für die Kreuztabellenanalyse
91
Man mag sich auch fragen, wie viele Spalten und Zeilen eine Kreuztabelle eigentlich haben darf. Prinzipiell gibt es keine Grenze, aber einerseits ist durch die Anzahl der Probanden wegen der 200/0-Bedingung ein Limit gesetzt und andererseits sollte man seine Ergebnisse ja in übersichtlicher Form berichten, so dass eine 10 mal 10 Tabelle sicher normalerweise kaum mehr angemessen ist. Es gibt allerdings weithin bekannte Ausnahmen: In Studien des Eurobarometer (vgl. Anhang Al ist es bspw. üblich, alle 27 EU-Staaten in Kreuztabellen nebeneinander anzuordnen.
4.6 Zusammenhangsmaße für die Kreuztabellenanalyse Die Berechnung von Chi-Quadrat fasst zwar den Zusammenhang zwischen zwei Merkmalen in einer Maßzahl zusammen, gibt aber keine Information über die Stärke des Zusammenhangs. Wie die Formel zur Berechnung von Chi-Quadrat leicht erkennen lässt, ist Chi-Quadrat abhängig von der Fallzahl. d.h. je größer diese ist, desto größer wird auch Chi-Quadrat. Die gleiche Tabelle mit den gleichen Spalten- und Zeilenprozenten produziert ein weit höheres Chi-Quadrat, wenn man die jeweiligen absoluten Häufigkeiten in den Zellen einfach verdoppeln würde. Um die Stärke eines Zusammenhangs zu ermitteln, muss man also einen Schritt weiter gehen und die Anzahl der untersuchten Fälle mit in die Berechnung eines Koeffizienten einbeziehen, wodurch die Zusammenhangsstärke gewissermaßen standardisiert wird. Es existieren eine Reihe von auf Chi-Quadrat beruhenden Koeffizienten, die genau dies zum Ziel haben, die gebräuchlichsten sind der Phi- Koeffizient, der Kontingenzkoeffizient Cund Cramers V. Phi- Koeffizient Der Phi-Koeffizient ist ein Maß für den Zusammenhang von zwei dichotomen Variablen. Er eignet sich also nur für die Vier-Felder-Tafel und berechnet sich aus den Zellenhäufigkeiten a, b, c und d:
=
a·d-b·c '-J7(a=+=c"")=.7.(b=+=d":;)C".'7(a=+;==:;b)C".'7(c=+==;d);=
Beispiel: Ist die Bereitschaft von Eltern, ihr Kind an einem internationalen Austausch teilnehmen zu lassen, abhängig vom Geschlecht des Kindes?
Kreuztabelle, Chi-Quadrat und Zusammenhangsmaße
92
Tab. 4-9 Geschlecht des Kindes
Bereitschaft Aus landsaufenthalt
männlich
weiblich
ja
20
a
10
b
30
nein
30
c
40
d
70
50
50
100
Im Beispiel erhalten wir also:
=
20 ·40-10 ·30 ~50
. 50 . 30 . 70
0,22
Phi steht in folgender Beziehung zu Chi-Quadrat:
X2
bzw.
= n . lj) 2
Der Wertebereich von Phi reicht von 0 bis + 1, wobei ein höherer Wert eine höhere Stärke des Zusammenhangs bedeutet, ein Wert von 0,22 ist also eher als geringer Zusammenhang zu interpretieren (vgl. auch Kapitel 9, Tab. 9-3).
Kontingenzkoeffizient C Der Kontingenzkoeffizient C basiert ebenfalls auf Chi-Quadrat. Er wird folgendermaßen bestimmt:
~ 2
c-- X 2 +n Der Wertebereich von C hat im Prinzip ebenfalls Grenzen zwischen 0 und + 1, aber der maximal erreichbare Wert ist abhängig von der Tabellengröße. Er bestimmt sich folgendermaßen:
~ c-; = ~~-Rmit R = min (ij), wobei i gleich der Anzahl der Kategorien der Zeilenvariablen und j gleich der Anzahl der Kategorien der Spaltenvariablen ist. Bei einer 4x3 Kreuztabelle ist also R = 3 und Cmax= 0,816 (Wurzel aus 2/3). Wegen dieser un-
Weitere Variablen in die Analyse einbeziehen
93
günstigen Eigenschaft wird Cin der Praxis weit seltener verwendet als der Koeffizient Cramers V. Cramers V Der auf Cramer zurückgehende Zusammenhangskoeffizient Vwird nach folgender Formel bestimmt:
v--
~ 2
n· (R -1)
mit R = min (i, j), wobei i und j die gleiche Bedeutung haben wie beim CKoeffizienten. Der Wertebereich von V hat Grenzen zwischen 0 und +1, der Koeffizient ist für Tabellen beliebiger Größe geeignet und schöpft immer den vollen Wertebereich aus, d.h. er kann bei allen Tabellengrößen den Wert 1 erreichen.
4.7 Weitere Variablen in die Analyse einbeziehen Die Kreuztabellenanalyse ist zwar eigentlich nur ein Verfahren zur Überprüfung bivariater Zusammenhänge, aber es lassen sich durchaus auch mehr Variablen in die Analyse einbeziehen. So lässt sich untersuchen, ob der ermittelte Zusammenhang auch bei Berücksichtigung von weiteren Variablen fortbesteht. Dies geschieht, indem die verschiedenen Ausprägungen weiterer Variablen als Schichten (engl. layers) je gesondert betrachtet werden. Hat man bspw. einen Zusammenhang zwischen Umweltbewusstsein und Geschlecht festgestellt, kann man nun überprüfen, ob sich dieser Zusammenhang auf jedem Bildungsniveau wiederfindet. Hat man drei Stufen des Bildungsniveaus (niedrig, mittel, hoch) unterschieden, erstellt man für jede Stufe eine Kreuztabelle mit Chi-QuadratBerechnung. Falls der Zusammenhang zwischen Umweltbewusstsein und Geschlecht nun verschwindet, könnte dies daran liegen, dass es einen Zusammenhang zwischen Bildung und Geschlecht gibt und es in Wirklichkeit primär die Bildung ist, die das Umweltbewusstsein beeinflusst und nicht das Geschlecht.
4.8 Chi-Quadrat-Berechnung für univariate Verteilungen Chi-Quadrat-Verfahren eignen sich nicht nur für die Kreuztabellenanalyse. sondern auch für die Prüfung univariater Verteilungen. Dazu folgendes Beispiel: Angenommen wir zählen bei einem bestimmten Vortragsabend der Volkshochschule 30 Frauen und 50 Männer als Teilnehmende. Nun wisse man gleichzeitig
Kreuztabelle, Chi-Quadrat und Zusammenhangsmaße
94
aus der Teilnehmendenstatistik dieser Einrichtung, dass insgesamt genauso viele Männer wie Frauen VHS-Vorträge besuchen. Wir erwarten also eigentlich auch für diese Veranstaltung einen Frauenanteil von 50 Prozent, sprich bei 80 Teilnehmenden wäre der Erwartungswert für Frauen (und Männer) gleich 40. Tatsächlich sind es aber nur 30 Frauen, die die Veranstaltung besuchen. Mit Chi-Quadrat lassen sich nun die Abweichungen der beobachteten von den erwarteten Häufigkeiten messen, dazu wird folgende Tabelle erstellt: Tab. 4-10 Geschlecht
Teilnehmende insgesamt
Frauen
Männer
Vortrag - beobachtet
80
30
50
Vortrag - erwartet
80
40
40
Differenz (beobachtet-erwartet)
-10
10
Quadrierte Differenz
100
100
Mit der Berechnung der Abweichungsquadrate haben wir schon den halben Weg zur Berechnung von Chi-Quadrat hinter uns gebracht Die Formel zur Berechnung von Chi-Quadrat sieht vor, dass die Abweichungsquadrate jeweils durch die erwartete Häufigkeit der Zelle dividiert werden:
fbU) = beobachtete Anzahl in Kategorie j erwartete Anzahl in Kategorie j k = Anzahl der Kategorien
leU) =
Im Fall der Gleichverteilung erwarten wir für jede Kategorie die gleiche Häufigkeit, so dass wir alle Abweichungsquadrate zunächst summieren und dann durch die erwartete Häufigkeit dividieren können, hier also:
X'
=
100
+ 100 40
=5
Für die Berechnung müssen keine besonderen Anforderungen erfüllt sein, ein Merkmal muss weder gleich verteilt sein, noch bestimmten anderen Bedingungen, wie z.B. ein bestimmtes Skalenniveau. genügen.
Grafische Darstellung von Kreuztabellen
95
4.9 Grafische Darstellung von Kreuztabellen Die bivariaten Zusammenhänge in einer Kreuztabelle lassen sich auch grafisch darstellen. Dies kann zunächst in der gleichen Form geschehen wie bei der univariaten Analyse, nämlich in Form von Kreisdiagrammen, horizontalen und vertikalen Balkendiagrammen (Säulendiagramm). Darüber hinaus können Zusammenhänge auch in Form von Boxplots (siehe vorne in Kapitel 3.3 der Zusammenhang von Klimabewusstsein und Bildung) dargestellt werden.
Gruppierte Balkendiagramme Aus einem gruppierten Balkendiagramm lässt sich leicht ersehen, ob ein Zusammenhang zwischen den beiden Variablen besteht und ob die dargestellten Differenzen groß oder klein sind. Wichtig ist, dass die Balken auch mit den Zahlenwerten beschriftet werden, ansonsten erfüllt das Diagramm zwar den Zweck, die prinzipiellen Zusammenhänge darzustellen, es kann aber die Kreuztabelle mit Zahlen nicht ersetzen. Im Balkendiagramm in Abb. 4-1 ist der in Tab. 4-6 dargestellte Zusammenhang von Geschlecht und Wahl der Studienrichtung visualisiert. Die Achsenbeschriftung kann sowohl in absoluten Häufigkeitswerten als auch in Prozentwerten erfolgen. Abb.4-1 Wahl der Studienrichtung in Abhängigkeit vom Geschlecht (n=138J 80%
60%
40"10
40,5%
• männlich 26,7% • weiblich
20"10
0% ErwachsenenblIdungj Au ßerschulische JugendblIdung
Sozla l-jSonderpädagogi k
Studienrichtung
Quelle: Erstsemesterstudie, www.methoden-evaiuation.de
Kreuztabelle, Chi-Quadrat und Zusammenhangsmaße
96
Abb. 4-2 zeigt ein gruppiertes Balkendiagramm, das die regionale Herkunft von Studierenden verschiedener Jahrgänge miteinander vergleicht. Man kann dem Diagramm entnehmen, dass sich die Zusammensetzung der Studierenden zwischen dem Diplomjahrgang 2006 und den ersten bei den Bachelorstudiengängen 2007 und 2008 etwas verändert. Der Anteil der Erstsemesterstudierenden, die aus Marburg und Umgebung stammen, steigt von 26% auf 43% (2007) bzw. 41% (2008) an. Gleichzeitig verringert sich der Anteil der Studierenden, die aus einem anderen Bundesland stammen von 59% auf38% bzw. 44%. Abb.4-2 Entwicklung der Herkunft der Diplom-Studierenden 2006 bzw. BA-Studierenden 2007 und 2008 59%
60"10 • Marburg und Umgebung (lOOkm)
50"10 40"10
• Hessen
30"10
. Ande res Bundesland
20"10 10"10
4%
. Ande re r Staat
0%
2006
2007
2008
Quelle: Erstsemesterstudie, www. methoden-evaiuation.de
Gestapelte Balkendiagramme Gestapelte Balkendiagramme stellen eine Alternative zu gruppierten Balkendiagrammen dar. Sie sind allerdings, wie das Beispiel in Abb. 4-3 zeigt, manchmal schwer zu lesen, da der Vergleich der Größe von einzelnen Balkenabschnitte nicht immer leicht fällt. Automatisch nimmt man die Zahlenangaben zu Hilfe, was aber in einer bloß tabellarischen Darstellung einfacher ginge.
Grafische Darstellung von Kreuztabellen
97
Abb.4-3 Entwicklung der Herkunft der Diplom bzw. BA-Studierenden zwischen 2006 und 2008 100%
4°~
• Marburg und Umgebung (lOOkm)
80% 59%
38%
44%
• Hessen
60% . A nde res Bundesland
40%
. A nde rer Staat 20% 0%
2006
2007
2008
Quelle: Erstsemesterstudie, www.methoden-evaiuation.de
Kreu ztabelle, Chi-Quadrat und Zusammenhangsmaße
98
4.10 So geht es mit SPSSjSYSTAT Kreuztabellenanalyse in SPSS SPSS ermöglicht nicht nur die Erstellung zweidimensionaler Tabellen, sondern die Berücksichtigung einer dritten Variablen, durch welche eine Schichtung der angeforderten Kreuztabellen vorgenommen wird. Das Hauptdialogfeld für die Kreuztabellenanalyse sieht wie folgt aus:
ii Kreu;t, bellen Zell.(n)
~ id lid) tlß su ~m itdate ls ubmildalel ~ startdate {startdate]
Ä
I
'""
Gesquec:ht
litatlSt1 ken..5J
L le ll . ~._J
Code ~1 _codel
Lf!l.f maL
~ Verl ief1.J nQsmodul {T2_vertiefunQs 1. Profilmo dul lU _1yrofilmodulj
IJ I:J2. Proftlmo clullfl_2yrofilmo dulj
I!
~ 1. Nebenfad1 ~4_1 _n eb e nfa d11
6J 2 . Ne ben fa d1 (l alls zutreffend) {14
IJ J . Ne ~enfa ch (falls zutreffend) lf4 IJ Wie Qul fUhlen Sie sich inf <>rmi ert ~ Wie QutfU hlen Sie sich informi ert
6J Wie Qut fUhlen Sie sich Inf of m iert
IJ Ü~e r we l ch e Inform .ti on sw eQe m lEl 9:ru ppierte Balkendia!l'amme anzeiQen
11"1 K ein e Ta bellen !-f lfe
Mit Hilfe der Option "Zellen" lassen sich folgende Werte für die Darstellung in den Zellen auswählen: beobachtete und erwartete Häufigkeiten, relative Häufigkeiten bezogen auf die Anzahl der Fälle, Spaltenprozente, Zeilenprozente unstandardisierte, standardisierte und korrigiert standardisierte Residuen (diese pro Zelle ausgegebenen Ergebnisse sind zur besseren Interpretation nützlich)
So geht es mit SPSS/SYSTAT
99
ffil Kreurt ,~ell en: Zellen , n..igen
lQl
r;:':"::::~'~ I!"J !,:rwartet
Pfozentwerte -
Residuen
I!':'J ,1;e ilenwe ise
~ !:,!id1t standardisi ert
I!"J
Irl §tan dardis iert
Sl'a ltenwe ise
lEl Gesarn!
~ Kooigie,t stand.r
Nid1tganmohlige Ge>Md1tungen
@ A!!z.a hl in den Zellen runden o Fallge!!id1 te runden o Mz.ah!ln den Zellen stutzen o E. lIge>M ct1te stutzen o keine Koo ekt!!, en
I
Weiter
l lA!lo;ed1 en
J
i lte
Mittels der Option "Statistiken" lassen sich Koeffizienten anfordern, und zwar Chi-Quadrat und der Pearsonsche Korrelationskoeffizient (Kapitel 9), für nominalskalierte Daten u.a. der Kontingenzkoeffizient, Phi und Cramers V, für ordinalskalierte Daten die in diesem Buch nicht beschriebenen Gamma, Sommers d und Kendalls tau sowie ferner für Kombinationen aus nominalen und intervallskalierten Variablen Eta sowie weitere spezielle Koeffizienten.
Im Kreurt.1b~ len: 5tmm ~
lQj
:t ct!i-Oua..a1
~ Korreli!IJ ("wn
Nomllla l
Ofdinal
~ K~tinoellZkoellizienl
I!':l Qamma
r;t ~'j_~d~a~!r:Y __
J
~ .§omers·d
~ bambda
fj Kendall·Talt-b
~ Uns";h erlle~s koeTr1Den1
~ Kendall-Talt-C
[~;;~ bezu~lC~ mte~]
~ Kappa ~ RISIko
11";1 Ud'l emar ~ Cochf~n· und Uant~+laens.zeI-Sli!IJsbk Ge~SiImesOuo':
C
W e ~ er
I "llD<eCfWI
;1
H I~e
100
Kreuztabe lle. Chi-Quadrat un d Zusammenha ngsmaße
Die Möglichkeiten zur grafischen Dar stellu ng von biva rtaten Zusammenhangen in SPSS sind re lati v begr enzt. Die Prozedur ,,Analys ie re n> Kreuztabellen > Des kriptive Stat ist iken > Kre uztabellen" erlaubt d ie Erst ellung von gr uppierten Balkendiagramm en. Das Menü "Diagramme> Diagramm e rste llung" offeriert zwa r weitere Visualisieru ngsmö glichkeite n, wer jedoch hinsichtlich Gesta ltu ng und Beschriftung flexibler sein will, sollte eher zu Excel od er äh nliche n Programmen gre ifen, um Grafiken wie gestapelte Balkendiagramm e zu ers tellen. Kreuzta bel lenanalyse in SYSTAT Um eine Kreuztabelle in SYSTAT zu erstellen, wählt man im Menu ..A.nalyze > Tables > Two Way", Sodann erscheint das Haup tdi alogfeld. in dem im obere n Dritt el die zu unt er suchenden Var iablen aus gewählt werden könn en. Fern er lässt sich angeben, welc he Häufigkel ten in der Tabelle ausgegeben wer den sollen (~ Devia tes " ste ht für Residuen). Über de n Reite r ~M ea s u res" forde rt man ChiQuadrat, Phi, Kontin genskoeffizient C und Cramers V sowie zahlreiche wei tere Maßzah len an.
fIow• ....tIk(.~
A""" ...........I~
~~~~sl· ~ VERANI'\IIOFlT NACHHALIIJl:1 BILDUNG SCHUlABSCHL·
, IAI j
'
C.,...,..
STUOIHIFlICHTUN:
GiilI!"""""J . ~
r=-I
CcUm._
I
-
rl c.,...,.. ar'I
~ Pelc...... ~ R ""' ~c
~ Ccbm ~c
rl Uo.eAh>or:l '_ cn-
~ y_' "",,- ~.
rl Co:h...... teot ot_
2.21_
I"'lr......... -.c! teot I"'lOdlk ,_
t""l y.....Qar'I
~ s~
......
' , c ' _.or<:\eledleYelo
I"'J Uncorl....y coellicienl: ConIO:Ienc.lor roeeue.
~ IncWo mio.ng......
T".'hoId
~
J
t""l McN.....·.teotIolOjOl'fhelJJr t""l eot.>·. k_ ~ G_IUOk "" _ I"'lK...... ,arb
0 .. .,..,. ~ L~1 1.o;W
trend
'01'-
' .<1 _."""<:\010<1 ......
I"'l G ~r"' ..oj '.~
rl SI
2.k'_
!':lPh
Ccrl"'.lon
rl o_ ...
.
~ F'edrsm " " " - .
It:er"","', v
~ E >
.
'
~ GESCHLECHT ~"""!J :J ' """ ..~~'!!~_ --,-
I
rl S",",,'. I....., t""l Spe...""",,'. mo rl Sorrer.' d ~.
]
Die Kreuztabellenanalyse in der Forschungsliteratur
101
4.11 Die Kreuztabellenanalyse in der Forschungsliteratur Ein Blick in die Forschungsliteratur offenbart, dass in vielen Artikeln ChiQuadrat als Maßzahl für den Zusammenhang von zwei Merkmalen berichtet wird. Deutlich seltener ist allerdings der standardisierte Zusammenhang in Form von Phi, Cramers V oder eines anderen Koeffizienten zu finden. Häufig wird nicht nur ein untersuchter Zusammenhang verbalisiert, sondern auch die dazugehörige Kreuztabelle präsentiert, die selten eine Größe von 3x3 Feldern übersteigt Kreuztabellen werden zum einen verwendet, um eine umfassende Beschreibung der erhobenen Daten zu geben und über eventuelle Verzerrungen im Datensatz zu informieren. Pöschl u.a. (2009) berichten bspw. über eine Evaluationsstudie zur Mensch-Roboter-Interaktion im Baumarkt Die Autorinnen und Autoren stellen die Zusammensetzung der befragten Personen sehr übersichtlich mithilfe einer Kreuztabelle dar, die auszugsweise in Tab. 4-11 wiedergeben ist. Je nach Nutzungsgrad eines Roboters als Einkaufsratgeber werden drei Gruppen unterschieden: die Nutzer. die Abbrecher und die Nicht-Nutzer. Diese drei Gruppen bilden die Spalten der Tabelle, während in den Zeilen einmal die Variable Geschlecht mit zwei Ausprägungen (Zeilen) und die Variable Alter mit fünf Ausprägungen aufgetragen sind. Es handelt sich also genau genommen nicht nur um eine, sondern um die Kombination von zwei Kreuztabellen. Die Zellen enthalten die Spaltenprozente und geben z.B. an, wie groß der Anteil der Männer in den jeweiligen drei Gruppen ist. Die erste Zeile verrät, dass der Männeranteil in allen drei Gruppen nahezu identisch ist, denn er schwankt nur um drei Prozentpunkte von 62 bis 65%. Bezüglich des Alters zeigen sich aber deutliche Unterschiede bei den drei Gruppen, denn unter den NichtNutzern sind deutlich mehr ältere Menschen vertreten. Tab. 4-11: Soziodemographische Statistiken (in Prozent) der erhobenen Daten, aus: Pöschl u.a. (2009: 47) Nutzer 58)
Abbrecher {n = 96)
{n =
Nicht-Nutzer {n = 83)
Gesamt 237)
{n =
Geschlecht männlich weiblich
62 38
63 37
65 35
63 37
26 19 17 28 10
16 14 28 32 10
10 11 26 36 17
16 14 25 32
Alter 16-29 30-39 40-49 50-64 65 und älter
13
Kreuztabelle, Chi-Quadrat und Zusammenhangsmaße
102
Neben der Charakterisierung der befragten Personen findet man in der Forschungsliteratur sehr häufig Kreuztabellen. die über die Ergebnisse einer Zusammenhangsstudie informieren. Emrich u.a. (2007) berichten über die Auswirkungen eines Internatsbesuch einer Eliteschule des Sports und haben hierfür zahlreiche Kreuztabellen. wie die in Tab. 4-12 dargestellte, angefertigt. Sie haben unter anderem die Hypothese überprüft, ob Sportler linnen, die eine Eliteschule des Sports besucht haben (Zeilenvariable), häufiger einen Medaillenplatz bei den Olympischen Spielen (Spaltenvariable) erreichen. Die Kreuztabelle enthält neben den absoluten Häufigkeiten auch die Zeilenprozente. der folgenden Zusammenhang verdeutlicht: Während von Sportlerjinnen des Internats 48,7% einen Medaillenplatz erhielten, waren es unter den Nicht-Besuchernj innen lediglich 18,5%. Im Erläuterungstext werden das errechnete Chi-Quadrat und das Ergebnis der Hypothesenprüfung angegeben: "Die Häufigkeiten der Medaillenplätze unterscheiden sich signifikant (,(2 = 6,29; df = 1; N = 66; P = 0,012) in Abhängigkeit von der Unterbringung im Internat" (ebd. 236). Was es mit dem Begriff "signifikant" und dem kleinen p in der Klammer auf sich hat, erläutern wir in den folgenden beiden Kapiteln. Tab. 4-12: Internatsbesuch und sportlicher Erfolg insgesamt unter Eliteschülern des Sports (Prozentangaben bezogen auf Zeilen), aus: Emrich u.a. (2007: 237) Platzierungskategorie bei letzten Olympischen Spielen Medaillenplatz kein Medaillenplatz Internat in Eliteschule des Sports Gesamt
ja
nein
Gesamt
5
48,7% 18,5%
20 22
51,3% 81,5%
39 27
100% 100%
24
36,4%
42
63,6%
66
100%
19
5
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
In den bisherigen Kapite ln habe n wir wichtige Verfahren der besc hreiben den Statis tik be handelt. In dies em Kapitel wird mit der Wahrscheinlichkeitsrechnung ein wichtiger Grunds tein für die schließende Statistik gelegt. Vere infacht au sgedrückt bes teht das Ziel de r schließ enden Sta tistik dari n, die Ergebnisse in den erho bene n Daten zu ver allgemeinern. Dabei spielt das Konzept vo n Grundgesa mtheit und Stichprobe (engl. population und sample) eine w ichtige Rolle, da s wir a n dieser Stelle kurz einführen möchten: Als Grundgesamtheit bezeichnet man d ie Menge vo n Einheiten, über d ie man etwas au ssagen möcht e. In der Sozialwissenschaft sind die s in der Regel Personen, we sha lb hä ufig für Grundgesamtheit der gleichbedeutende Begriff Population verwendet wird. Als Einheiten kommen neben Personen auc h Familien, Haus halte und Organisation en, aber auc h Produkte und Dokumente wie Arbeitsleistungen von Ausz ubildenden, Schülera ufsätze und Evaluations berichte in Frage. Einige Beispiele für Grundgesamth eiten s ind alle Schüler/innen einer Schule, alle Bewohner/innen einer Behinderteneinri cht ung. alle Teilnehmenden einer Bildungsmaßnah me, alle Familien mit schulpflichtigen Kindern in einer Stadt, alle Per sonen ab 18 Jahr en mit Hauptwoh nsitz in Deutschland und alle Aufsätze von Schülern/innen einer Klasse.
Da man jedoch häufig nicht alle Einheiten der Grundg esamtheit untersuchen kann, muss man eine Auswa hl der Einheiten t reffen. Wäh lt man per Zufall Untersuchungseinheit en a us der Grundgesa mt heit aus, dann nen nt man diese Auswa hl Stichprobe. Wichtige Voraussetzung für die Anwendung der meisten statistischen Verfahren ist, dass alle Einheiten die gleic he Chance ha ben, in die Stichprobe aufgenommen zu werden. (In der empirischen Sozialforsc hung wird mit dem Begriff Stichprobe auch die Auswahl von Personen bezeichnet, die nic ht a uf dem Zufall, sondern auf willkürlicher oder bewusster Auswa hl beruht. Im Folgenden be ziehen wir uns aber nur auf Stichp roben, die per Zufall zusta nde gekommen sind.)
104
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
Wenn man von einer Stichprobe auf eine Grundgesamtheit schließen möchte, spielen Wahrscheinlichkeiten eine wichtige Rolle: Man stellt bspw. in einer Zufallsstichprobe von 100 Familien fest, dass 30% der Befragten die Einführung von Schuluniformen befürworten. Aber wie wahrscheinlich ist es, dass dieser Prozentsatz auch für die Grundgesamtheit aller Familien in der Stadt gilt? Oder, wie wahrscheinlich ist es, in einer Stichprobe zufällig einen Unterschied zwischen Männern und Frauen hinsichtlich ihrer Einstellung zur Elternzeit zu finden, obwohl in der Grundgesamtheit gar kein Unterschied vorliegt? Aber auch bei allgemeineren Fragen und bei Erhebungsinstrumenten kommt die Wahrscheinlichkeit ins Spiel: Ist die neue Lernmethode wirklich besser als die alte oder können die besseren Lernerfolge vielleicht dem Zufall zugeschrieben werden? Wie wahrscheinlich ist es, dass jemand beim Ausfüllen eines Fragebogens mit zehn Ja/Nein-Fragen zehn Mal "nein" ankreuzt? Um derartige Fragen zu beantworten, bedient sich die sozialwissenschaftliche Statistik der Wahrscheinlichkeitsrechnung. Dabei besteht das Hauptziel darin, Muster und Regelmäßigkeiten vom Zufall abzugrenzen. Man möchte sich quasi gegen den Zufall absichern, um die Gültigkeit von postulierten Aussagen und Theorien einschätzen zu können oder die Wirksamkeit von neuen Methoden und Interventionen zu überprüfen. Manchmal spricht man auch davon, zufällige von .überzufälligen" Ergebnissen zu unterscheiden. Diese Formulierung soll zum Ausdruck bringen, dass es häufig um die Frage geht, ob ein Ergebnis so unwahrscheinlich ist, dass es nicht mehr dem Zufall zugeschrieben werden kann. Doch was bedeutet eigentlich in diesem Zusammenhang "Wahrscheinlichkeit" und wie lässt sie sich berechnen?
5.1 Was ist Wahrscheinlichkeit und wie berechnet man sie? Um diese Frage zu beantworten, wollen wir zunächst zwei wichtige Grundbegriffe der Wahrscheinlichkeitsrechnung einführen, das Zufallsexperiment und das Ereignis. Das Zufallsexperiment Wirft man eine Münze oder einen Würfel, so führt man in der Sprache der Statistik ein Zufallsexperiment durch, das durch folgende Eigenschaften gekennzeichnet ist: Das Experiment ist unter gleichen Bedingungen beliebig oft wiederholbar, die möglichen Ergebnisse sind bekannt, aber der Ausgang unterliegt dem
Was ist Wahrscheinlichkeit und wie berechnet man sie?
105
Zufall, kann also nicht vorhergesagt werden. In den Sozialwissenschaften fasst man auch die Befragung oder die Beobachtung einer Person als Zufallsexperiment auf. Wenn in der Shell-Jugendstudie eine Person danach gefragt wird, ob sie Heiraten für "in" oder "out" hält, dann sind zwar die möglichen Ergebnisse bekannt, aber für welches Ergebnis sich die Person entscheidet, kann nicht vorhergesagt werden und unterliegt - aus Sicht des Forscherteams - dem Zufall. Genauso stellt auch die zufällige Auswahl von Personen ein Zufallsexperiment dar und zwar in Hinblick auf die Zusammensetzung der Stichprobe. Wählt man bspw. aus einer Seminargruppe per Zufall fünf Personen aus, unterliegt es auch dem Zufall, wie viele Männer und Frauen in der Stichprobe sind und welches Alter diese haben.
DasEreignis Der Ausgang eines Zufallsexperiments wird als Ereignis bezeichnet. Ein mögliches Ereignis des Münzwurfes ist "Kopf'. Eine ,,1 zu würfeln", aber auch "eine 5 oder eine 6 zu würfeln" sind mögliche Ereignisse beim Würfeln. Ereignisse, die sich nicht weiter in Einzelereignisse zerlegen lassen, nennt man Elementarereignisse. "Kopf' beim Münzwurf und die Antwort "in" auf die Frage der Jugendstudie nach dem Heiraten sind Elementarereignisse, während das Ereignis "eine gerade Zahl zu würfeln" aus drei Elementarereignissen zusammengesetzt ist, nämlich der 2, der 4 und der 6. Alle möglichen Elementarereignisse bilden den sogenannten Ereignisraum. So besteht der Ereignisraum für den Würfelwurf aus den sechs unterschiedlichen Seiten des Würfels {1; 2; 3; 4; 5; 6) und für die Frage nach dem Heiraten aus den beiden Antwortalternativen {in; out}. Mit diesen beiden Grundbegriffen lässt sich "Wahrscheinlichkeit" definieren: Die Wahrscheinlichkeit ist ein Maß für die Chance, dass bei einem Zufallsexperiment ein interessierendes Ereignis eintritt. Die Wahrscheinlichkeit lässt sich in einer Zahl zwischen 0 und 1 angeben. Eine Wahrscheinlichkeit von 0 bedeutet, dass das Ereignis mit Sicherheit nicht eintritt, eine 1 steht dafür, dass das Ereignis mit absoluter Gewissheit stattfindet. Zum Beispiel kann das Ereignis, eine 7 bei einem sechsseitigen Würfel zu würfeln, nicht eintreten und die zugehörige Wahrscheinlichkeit beträgt O. Die Wahrscheinlichkeit, bei einer Münze "Kopf oder Zahl" zu werfen, beträgt hingegen 1, denn eins der beiden wird die Münze in jedem Fall zeigen. Häufig wird die Höhe der Wahrscheinlichkeit nicht als Zahl zwischen 0 und 1 berichtet, sondern als Prozentwert zwischen 0 und 100%. Die Aussage, dass die neue Lernmethode mit 80%iger Wahrscheinlichkeit besser ist als die alte, lässt
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
106
sich einfach besser kommunizieren als "die Wahrscheinlichkeit, dass die Lernmethode besser ist, beträgt 0,8". Um die Wahrscheinlichkeit von einer Dezimalzahl zwischen 0 und 1 in eine Prozentzahl umzuwandeln, muss man sie einfach mit 100 multiplizieren, also das Komma um zwei Stellen nach rechts verschieben:
0,630 -7 63,0%
0,155 -7 15,5%
0,049 -7 4,9%
Da in vielen, vorwiegend englischsprachigen Ländern ein Punkt anstelle eines Kommas verwendet wird, finden sich in vielen Publikationen, aber auch in einigen Statistikprogrammen häufig unterschiedliche Schreibweisen, die jedoch alle das gleiche bedeuten. Beispielsweise sollen alle folgenden Notationen eine Wahrscheinlichkeit von 5% ausdrücken: 5,0%
5.0%
0.05
0,05
.05
---.....,
Üblicherweise wird die Wahrscheinlichkeit mit dem großen oder dem kleinen Buchstaben "P" abgekürzt, wobei das interessierende Ereignis in Klammern angehängt wird. So bezeichnet P(Würfelwurf= 3) die Wahrscheinlichkeit, dass man eine drei würfelt. Es existiert keine eindeutige Regel, wann das große "P" und wann das kleine .p" benutzt wird, und beide Schreibweisen sind korrekt. Allerdings wird in der sozialwissenschaftlichen Literatur in der Regel der Kleinbuchstabe bevorzugt. Dabei wird häufig nur der Buchstabe .p" ohne das zugehörige Ereignis angegeben. In diesem Fall muss man sich das Ereignis aus dem Zusammenhang erschließen. Die Wahrscheinlichkeit für ein Ereignis lässt sich nach der klassischen Definition von Pierre-Simon Laplace (1749-1829) berechnen, indem man die Anzahl der günstigen Fälle für ein Ereignis durch die Anzahl aller möglichen Ereignisse teilt: Wahrscheinlichkeit (Ereignis A)
Anzahl der günstigen Ereignisse Anzahl der möglichen Ereignisse
= P(A) = -:-----:-:-,----"-:,....,,--:'--::--"'--:--
Was versteht man unter den günstigen und den möglichen Ereignissen? Dies wollen wir an einigen einfachen Beispielen verdeutlichen. Angenommen, man möchte die Wahrscheinlichkeit bestimmen, eine 5 oder eine 6 beim einmaligen Würfelwurf zu erhalten. Dann gibt es zwei günstige Ereignisse (die Augenzahlen 5 und 6) sowie sechs mögliche Ereignisse: P(keine 5 und keine 6)
= 100% -
P(5 oder 6)
= 100% -
33%
= 66%
107
Was ist Wahrscheinlichkeit und wie berechnet man sie?
P(5 oder 6 würfeln)
=
o
D[]I
.. .. = ~ = -'= 0,33 = 33% D D Cl D []I 6 3
Auf die gleiche Weise bestimmt man die Wahrscheinlichkeit, "Kopf' beim Münzwurf zu erhalten, mit einem günstigem ("Kopf') und zwei möglichen Ereignissen (..Kopf' oder "Zahl") als \12 = 0,5. Natürlich ist die Wahrscheinlichkeit, "Zahl" zu werfen, genau so hoch. Um beim Würfeln eine ungerade Zahl zu werfen, existieren insgesamt drei Möglichkeiten, nämlich die Augenzahlen 1, 3 und 5. Die Wahrscheinlichkeit hierfür ergibt sich demnach als 3/6, beträgt also ebenfalls 1/2 = 0,5. Zu jedem Ereignis "A" existiert ein sogenanntes Komplementärereignis "non A". Das Komplementärereignis zu ,,5 oder 6" beim Würfelwurf lautet z.B. "keine 5 und keine 6" zu werfen. Bei jedem Zufallsexperiment tritt entweder ein Ereignis oder sein Komplementärereignis ein, da es ja nur diese beiden Ereignisse gibt. Deshalb addieren sich die beiden Wahrscheinlichkeiten immer zu 100%: P(A) + P(non A) = 100% P(5 oder 6) + P(keine 5 und keine 6)
= 100%
Diese Eigenschaft kann man ausnutzen, um die Wahrscheinlichkeit auszurechen, dass ein Ereignis nicht eintritt. Man zieht einfach die Wahrscheinlichkeit, dass das Ereignis eintritt, von 100% ab und erhält die gesuchte Wahrscheinlichkeit: P(keine 5 und keine 6)
= 100% -
P(5 oder 6)
= 100% -
33%
= 67%
Die Mathematik offeriert uns weitere "Abkürzungen" für die Berechnung von Wahrscheinlichkeiten, z.B. wenn man an der Wahrscheinlichkeit für zusammengesetzte Ereignisse oder für andere komplexe Ereignisse interessiert ist. Zu den Abkürzungen zählen unter anderem der Additionssatz und der Multiplikationssatz der Wahrscheinlichkeitsrechnung. Additionssatz {für die Oder-Verknüpfung von Ereignissen] Schließen sich Ereignisse eines Zufallsexperiments gegenseitig aus, ergibt sich die Wahrscheinlichkeit, dass Ereignis 1 oder Ereignis 2 ... oder Ereignis n eintritt, als Summe der Einzelwahrscheinlichkeiten. Da die 5 und die 6 beim einmaligen Würfelwurf nicht gemeinsam auftreten können, sie sich also gegenseitig ausschließen, lässt sich die Wahrscheinlichkeit, eine 5 oder eine 6 zu würfeln auch folgendermaßen bestimmen:
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
108
P(S oder 6)
1
1
1
= peS) + P(6) ="6 +"6 ="3 = 0,33 = 33%
Multiplikationssatz (für die Und-Verknüpjung von zwei Ereignissen] Will man die Wahrscheinlichkeit berechnen, dass man beim zweimaligen Würfeln zuerst eine 5 und dann eine 6 erhält, braucht man nur die Einzelwahrscheinlichkeiten multiplizieren:
P(S und 6 zu würfeln)
1 1
1
= peS) . P(6) ="6."6 = 36 = 0,03 = 3%
Auf diese Weise lässt sich auch die Wahrscheinlichkeit berechnen, dass eine zufällig ausgewählte Person "männlich" und ,,18 Jahre alt" ist. Hierzu muss man lediglich die Einzelwahrscheinlichkeiten für "männlich" mit der von ,,18 Jahren" multiplizieren. Der Multiplikationssatz lässt sich auch auf Ereignisfolgen anwenden: Die Wahrscheinlichkeit, 4-mal hintereinander Kopf zu werfen, beträgt \12·\12· \12· \12, also \12 hoch 4 = 1/16 = 6,25%. Wichtige Voraussetzung für die Anwendung des Multiplikationssatzes ist allerdings, dass sich die zwei Ereignisse nicht gegenseitig in ihrer Wahrscheinlichkeit beeinflussen. Man spricht davon, dass die Ereignisse voneinander stochastisch unabhängig sein müssen. Das heißt, unabhängig davon, ob das eine Ereignis eintritt oder nicht, bleibt die Wahrscheinlichkeit für das andere Ereignis gleich. Die Münze hat kein Gedächtnis und deshalb ist die Wahrscheinlichkeit Kopf zu werfen bei jedem Wurf unabhängig von den vorherigen Würfen. In den Sozialwissenschaften sind "Ereignisse" allerdings häufig voneinander abhängig: Personen über 30 haben mit größerer Wahrscheinlichkeit Kinder. Wenn ich weiß, dass eine Person verwitwet ist, steigt die Chance, dass sie weiblich ist, weil Frauen im Durchschnitt länger leben als Männer. Mithilfe der oben vorgestellten Wahrscheinlichkeitsberechnung nach Laplace (Anzahl günstiger geteilt durch Anzahl möglicher Ereignisse) lassen sich Wahrscheinlichkeiten bereits vor der Durchführung eines Zufallsexperiments bestimmen. Deshalb wird diese Wahrscheinlichkeit auch als theoretische oder apriori-Wahrscheinlichkeit bezeichnet. Um die Berechnung nach Laplace anwenden zu können, müssen jedoch erstens alle Elementarereignisse mit der gleichen Wahrscheinlichkeit eintreten und zweitens muss man die günstigen und möglichen Ereignisse abzählen können. Mit diesen Voraussetzungen kann die Bestimmung der theoretischen Wahrscheinlichkeit selbst bei einfachen, aber in den Sozialwissenschaften häufig vorkommenden Beispielen an ihre Grenzen stoßen: Wie groß ist etwa die Wahrscheinlichkeit, dass ein zufällig ausgewählter Jugendlicher findet, dass Heiraten "in" ist? Hier sind zwar die möglichen Ereignisse bekannt, nämlich "in" und "out". Aber offensichtlich unterscheiden sich die
Was ist Wahrscheinlichkeit und wie berechnet man sie?
109
Wahrscheinlichkeiten für beide Ereignisse, denn diese sind davon abhängig, wie viele der Jugendlichen in ganz Deutschland Heiraten "in" finden. Um die gesuchten Wahrscheinlichkeiten zu finden, muss man deshalb auf die Bestimmung der empirischen oder auch a-posteriori genannten Wahrscheinlichkeit zurückgreifen, die man erst nach der Durchführung eines Zufallsexperiments ermitteln kann. Sie lässt sich formal folgendermaßen ausdrücken: empirische Wahrscheinlichkeit k
n
= =
k
= n--->oo Um n
Anzahl der günstigen Ereignisse Anzahl der durchgeführten Zufallsexperimente
Die Wahrscheinlichkeit eines Ereignisses ist also definiert als Grenzwert (Limes) der relativen Häufigkeit, mit der das Ereignis auftritt, wenn man theoretisch unendlich viele Experimente durchführt. Wie ist diese Definition zu verstehen? Dies wollen wir zunächst am Beispiel des Münzwurfs erläutern. Die theoretische Wahrscheinlichkeit beim Münzwurf "Kopf' zu erhalten, beträgt wie oben gezeigt 1/2 = 50%. Alternativ könnte man diese Wahrscheinlichkeit auch ermitteln, indem man eine Münze sehr häufig wirft, und notiert, wie oft sie dabei "Kopf' zeigt. Dieses Experiment kann man mithilfe eines Computers simulieren. In der folgenden Tabelle sind Ergebnisse einer solchen Simulation für 10, 50, 100, 500 und 1.000 Mal werfen einer Münze aufgeführt: Tab . 5-1: Wahrscheinlichkeit als Grenzwert der relativen Häufigkeit durchgeführte Münzwürfe
absolute Häufigkeit von "Kopf"
relative Häufigkeit von "Kopf"
10
4
4/10 = 40,0%
50
24
24/50 = 48,0%
100
51
51/100 = 51,0%
500
254
254/500 = 50,8%
1.000
502
502/1.000 = 50,2%
In unserer Simulation beträgt die relative Häufigkeit von "Kopf' bei 10 Würfen 40% und liegt damit 10 Prozentpunkte niedriger als die wahre Wahrscheinlichkeit von 50%. Bei 100 Würfen beträgt der Abstand nur noch 1 Prozentpunkt, bei 1.000 nur noch 0,2. Die relative Häufigkeit schwankt um den wahren Wahrscheinlichkeitswert von 50% und nähert sich diesem Wert mit zunehmender Zahl der Würfe immer weiter an.
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
110
Dieses Beispiel ist gut geeignet, um das Prinzip der empirischen Wahrscheinlichkeit zu verdeutlichen. Allerdings ist das Beispiel künstlich konstruiert, denn um die Computersimulation überhaupt durchführen zu können, muss man die Wahrscheinlichkeit kennen, mit der die Münze "Kopf' zeigt. Diese Wahrscheinlichkeit liegt aber in der Praxis nicht vor, sondern eben diese wird gesucht. Man kann sich aber das vorgestellte Prinzip zu Nutze machen, um in der Praxis bspw. die Wahrscheinlichkeit zu bestimmen, zufällig eine Jugendliche auszuwählen, die Heiraten "in" findet. Man wählt einfach zufällig (der Zufall ist dabei sehr bedeutend, ohne ihn funktioniert es nicht) mehrere Jugendliche aus. Mit zunehmender Personenzahl muss sich der relative Anteil an Personen, der Heiraten "in" findet, immer weiter dem wahren Wert bzw. der Wahrscheinlichkeit annähern. Dies ist für Stichproben der Größe 10, 100 und 1.000 in Tab. 5-2 anhand von fiktiven, aber an die Ergebnisse der Shell-Jugendstudie 2006 angelehnten Daten dargestellt. Auf Basis der empirischen Daten schätzen wir also die Wahrscheinlichkeit, in Deutschland einen Jugendlichen anzutreffen, der Heiraten "in" findet, auf 41 %. Tab. 5-2 Anzahl zufällig ausgewählter Personen
Anteil der Personen, die Heiraten "in" finden
10
48%
100
39%
1.000
41%
Der Zusammenhang zwischen Wahrscheinlichkeiten und relativen Häufigkeiten Auch wenn es bereits angeklungen ist, soll zur besseren Verständlichkeit an dieser Stelle noch einmal der Zusammenhang zwischen Wahrscheinlichkeiten und relativen Häufigkeiten kurz an einem Beispiel verdeutlicht werden. Angenommen, an einem Vortragsabend der Volkshochschule zum Thema .Erneuerbare Energien" nehmen 30 Männer und 20 Frauen teil. Die Wahrscheinlichkeit, aus den Zuhörern zufällig einen Mann für ein kurzes Interview auszuwählen, kann man bestimmen, indem man den relativen Anteil der Männer ermittelt: 30 der anwesenden 50 Personen sind Männer, was einer relativen Häufigkeit von 30/50 = 0,6 = 60% entspricht. Dies ist genau die Wahrscheinlichkeit, einen Mann auszuwählen, denn die Wahrscheinlichkeit für ein Ereignis entspricht genau seinem relativen Anteil am Ereignisraum. Das zahlenmäßige Verhältnis von Frauen und Männer im Ereignisraum ist in dem Kreisdiagramm in Abb. 5-1 visualisiert: Der Flächenanteil der Frauen beträgt 40% und die Männer nehmen 60% der Fläche ein.
Irren ist nicht nur menschlich, sondern auch wahrscheinlich
111
Abb. 5-1: Zusammenhang zwischen Wahrscheinlichkeiten und relativen Häufigkeiten
20 Frauen = 40% 30 Männer = 60%
Die relative Häufigkeit der Männer/Frauen e ntsprieht der Wa hrschein lieh kelt, el nen Mann/eine Frau per Zufall auszuwählen.
5.2 Irren ist nicht nur menschlich, sondern auch wahrscheinlich Menschen neigen dazu, Wahrscheinlichkeiten von Ereignissen falsch einzuschätzen. Nehmen wir als einfaches Beispiel das Glücksspiel Roulette, bei dem es 18 rote und 18 schwarze Zahlen sowie die grüne Null gibt. Das sogenannte Gesetz der großen Zahlen, das die Gültigkeit der oben vorgestellten empirischen Definition der Wahrscheinlichkeit garantiert, besagt, dass auf lange Sicht gesehen beim Roulette schwarz genauso häufig fallen wird wie rot Dieses Gesetz besagt jedoch nicht, was viele Glücksspieler/innen irrtümlich glauben: "Wenn fünfmal oder sogar sechs- oder siebenmal hintereinander rot gefallen ist, wird beim nächsten Mal sicherlich schwarz fallen." In vielen Casinos wird dieser Irrglaube sogar gehegt und gepflegt, denn eine elektronische Anzeige neben dem Roulette- Tisch informiert genau darüber, welche Zahlen mit welchen Farben als letztes gefallen sind. Doch gleich was die Anzeige verraten mag, bleibt die Wahrscheinlichkeit für schwarz in jeder Runde gleich und beträgt immer 18/37, also knapp 49%, denn das Roulette hat im Gegensatz zum Menschen kein Gedächtnis. Es gibt zahlreiche Wahrscheinlichkeiten, die man intuitiv aus dem Bauch heraus zu hoch oder zu niedrig ansetzt. Die Wahrscheinlichkeit, dass zwei Personen am gleichen Tag des Jahres Geburtstag haben, beträgt bereits bei 27 Anwesenden mehr als 50% und die Lotto-Kombination 1, 2, 3, 4, 5, 6 ist genauso wahrscheinlich wie jede andere auch, die keinem einfachen Muster folgt. Es herrscht zudem nicht immer Einigkeit und es kann einige Zeit dauern, bis komplexe Wahrscheinlichkeiten eindeutig bestimmt sind.
112
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
Besonders populär geworaen ist aas ZiegenproJjlern, Dei (lern es um eine Spielshow mit drei Türen geht, bei denen hinter zweien eine Ziege und hinter einer Tür der Hauptgewinn wartet. Nachdem der Kandidat eine der Türen ausgewählt hat, öffnet die Moderatorin (die weiß, hinter welcher Tür, was steht) eine Tür mit einer Ziege. Die Wahrscheinlichkeitsfrage lautet: Erhöht die Kandidatin, wenn sie jetzt noch einmal die Tür wechselt, ihre Chancen auf den Hauptgewinn? Zum Ziegenproblem haben sich zahlreiche Mathematiker linnen gegenseitig denunziert, es wurde in mehreren Büchern aufgearbeitet (vgl. z.B. Randow 2004), es kann einen eigenen Wikipedia-Eintragvorweisen und ist unter dem Stichwort .Monty-Ilall-Problem" auch als Video im Internet verfügbar. Inzwischen ist aber unumstritten, wenn auch nicht immer intuitiv erkennbar, dass sich die Wahrscheinlichkeit von 1/3 auf 2/3 erhöht, wenn die Kandidatin die Tür wechselt ..... Walter Krämer (1995) zählt in seinem Buch .Dcnkstc! Trugschlüsse aus der Welt der Zahlen" namhafte Gelehrte auf, die einem Irrtum bei der Wahrscheinlichkeitsrechnung unterlagen. Neben anderen Erklärungsansätzen, warum Menschen gerade bei Wahrscheinlichkeiten irren, weist Krämer insbesondere darauf hin, dass wir Menschen erfahrungsgeleitet sind und darauf getrimmt sind, Gesetzmäßigkeiten zu identifizieren. "Auch die einzigartige Fähigkeit des Menschen, Muster im Chaos zu entdecken, auch im größten Unsinn einen Sinn zu finden, ... schlägt bei chaotischen Prozessen leicht ins Negative aus: Wir sehen dann imaginäre Muster in Aktienkursen oder Regelmäßigkeiten bei Glücksspielen und Würfeln, wo keine Muster oder Regelmäßigkeiten sind" (ebd. Krämer 1995: 183). Fazit: Wenn man sich mit Statistik befasst, sollte man diese Eigenschaft des Menschen immer vor Augen haben und lieber einmal rechnerisch überschlagen, ob ein vermeintlich unwahrscheinliches Ereignis tatsächlich so unwahrscheinlich ist, wie es auf den ersten Blick scheint.
5.3 Wahrscheinlichkeitsverteilungen Eine Häufigkeitsverteilung informiert darüber, wie häufig die Ausprägungen einer Variablen vorkommen. In einer Altersverteilung kann man z.B. ablesen, wie viele Personen oder wie viel Prozent der Personen 18 Jahre alt sind. Eine Wahrscheinlichkeitsverteilung informiert darüber, mit welcher Wahrscheinlichkeit die jeweils möglichen Ereignisse eines Zufallsexperiments auftreten können. In Abb. 5-2 sind bspw. die Wahrscheinlichkeiten der sechs Augenzahlen beim Würfeln dargestellt. So wie bei der Altersverteilung die Variable Alter mit all ihren Ausprägungen auf der x-Achse abgetragen wird, so wird bei der Wahrscheinlichkeitsverteilung auf der x-Achse eine sogenannte Zufallsvariable aufgetragen, deren Ausprägungen den möglichen Ereignissen entsprechen.
Wahrscheinlichkeitsverteilungen
113
Da alle sechs Augenzahlen mit der gleichen Wahrscheinlichkeit von p = 1/6 = 16,7% auftreten können, sind in Abb. 5-2 alle Säulen gleich hoch.
In Kapitel 2 haben Sie den Unterschied zwischen diskreten und stetigen Variablen kennen gelernt: Bei diskreten Variablen lassen sich die möglichen Ausprägungen abzählen (z.B. bei der Anzahl der Kinder), bei stetigen Variablen existieren unendlich viele Ausprägungen (z.B. bei der Zeitdauer in Minuten). Die gleiche Unterscheidung wendet man auch bei Wahrscheinlichkeitsverteilungen an. Bei diskreten Wahrscheinlichkeitsverteilungen lassen sich die möglichen Ereignisse abzählen und sie lassen sich daher wie in Abb. 5-2 gut in Säulendiagrammen visualisieren. Stetige Verteilungen werden graphisch in Liniendiagrammen veranschaulicht, da es unendlich viele Ereignisse gibt. In der deskriptiven Statistik verwendet man üblicherweise lateinische Buchstaben für die Abkürzung wichtiger Kennwerte und so haben wir in Kapitel 2 für den Mittelwert x und für Varianz und Standardabweichung S2 und seingeführt. Bei einer Wahrscheinlichkeitsverteilung werden hingegen griechische Buchstaben verwendet Statt vom Mittelwert spricht man zudem von dem Erwartungswert, der mit dem Buchstaben f1 (mü) abgekürzt wird. Für die Standardabweichung verwendet man (Y (sigma). Der Einfachheit halber verwenden wir im folgenden Text statt .Erwartungswert" dennoch den Begriff "Mittelwert". Wichtig ist schließlich die Unterscheidung zwischen Kennwerten und Parametern: Die Kennwerte einer theoretischen Wahrscheinlichkeitsverteilung und von Grundgesamtheiten nennt man Parameter. Diese Begriffsvielfalt ist übersichtlich in folgender Abbildung dargestellt.
114
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
Stichproben
Wahrscheinlichkeitsverteilungen
Grundgesamtheiten
.Kennwerte"
"Parameter"
"Parameter"
Mittelwert x
Erwartungswert J1
Mittelwert J1
Standardabweichung 5
Standardabweichung a
Standardabweichung a
Varianz 52
Varianz
d
Varianz
cl
Welchen Nutzen haben die Wahrscheinlichkeitsverteilungen eigentlich? Um diese Frage zu beantworten, wollen wir noch einmal die eingangs eingeführte Definition von Zufallsstichproben heranziehen. Demnach besteht eine Stichprobe aus zufällig ausgewählten Einheiten der Grundgesamtheit, wobei alle Einheiten mit der gleichen Wahrscheinlichkeit ausgewählt werden können. Eine Stichprobe kann man also auch als Ergebnis eines Zufallsexperiments verstehen: Je nachdem, welche Personen ich per Zufall auswähle, erhalte ich unterschiedlich zusammengesetzte Stichproben, mit jeweils unterschiedlichen Mittelwerten, Varianzen, Standardabweichungen und Prozentanteilen. Die wichtige Bedeutung der Wahrscheinlichkeitsverteilungen besteht nun darin, dass diese statistischen Kennwerte von Stichproben nicht wahllos und beliebig sind, sondern mathematisch bestimmbaren Wahrscheinlichkeitsverteilungen folgen. Angenommen, man zieht (theoretisch) sehr viele Zufallsstichproben aus einer Grundgesamtheit, dann folgen bspw. die Mittelwerte in den Stichproben der sogenannten Normalverteilung. Wenn wir jetzt von einem Stichprobenmittelwert auf den Mittelwert der Grundgesamtheit schließen, können wir dank der Verteilung genau sagen, mit welcher Wahrscheinlichkeit wir richtig liegen. Wir können also mithilfe der Wahrscheinlichkeitsverteilungen eine Aussage über die Genauigkeit unserer Schätzung treffen. Weil diese Überlegungen von zentraler Bedeutung für die gesamte Inferenzstatistik (also die schließende Statistik) sind, werden wir zu Beginn von Kapitel 6 unter dem Stichwort "Zentraler Grenzwertsatz" auf sie zurückkommen. In den folgenden zwei Abschnitten sollen jedoch erst einmal häufig verwendete Wahrscheinlichkeitsverteilungen vorgestellt werden: die diskrete Binomialverteilung, die für die Statistik besonders wichtige stetige Normalverteilung sowie die t-, die Chi-Quadrat- und die F-Verteilung.
Die Binomialverteilung
115
5.4 Die Binomialverteilung Zur Erläuterung der Binomialverteilung greifen wir auf ein einfaches Beispiel zurück: Man wirft zweimal eine Münze und interessiert sich für die Wahrscheinlichkeiten, einmal Zahl zu erhalten. Mit der oben vorgestellten theoretischen Definition der Wahrscheinlichkeit, lässt sich diese Aufgabe leicht bewerkstelligen, denn man benötigt lediglich die Anzahl der günstigen und die Anzahl der möglichen Ereignisse. Beim zweimaligen Münzwurf können insgesamt vier mögliche Ereignisse auftreten: Zahl, Zahl
Zahl, Kopf
Kopf, Zahl
Kopf, Kopf
Es gibt zwei günstige Ereignisse, bei denen nur einmal Zahl vorkommt, nämlich bei den Abfolgen "Zahl, Kopf' und "Kopf, Zahl". Um die Wahrscheinlichkeit für einmal Zahl beim zweimaligen Münzwurf zu berechnen, muss man nun die Anzahl der günstigen (2) durch die Anzahl der möglichen Ereignisse (4) teilen:
prix Zahl bei 2 Würfen)
= 2/4 = 0,5 = 50%
Sucht man die Wahrscheinlichkeit, einmal Zahl beim dreimaligen Münzwurf zu erhalten, kann man analog vorgehen. Zunächst muss die Anzahl der möglichen Ereignisse bestimmt werden. Hierzu notiert man alle möglichen Abfolgen des dreimaligen Münzwurfes, wobei Kfür "Kopf' und Z für "Zahl" steht: ZZZ
ZZK
ZKZ
ZKK
KZZ
KKZ
KZK
KKK
Es gibt also insgesamt acht mögliche Ereignisse, wenn man dreimal hintereinander eine Münze wirft. Bei drei Ereignissen kommt genau einmal Zahl vor, und zwar, wenn man Zahl nur beim ersten, nur beim zweiten oder nur beim dritten Wurf erhält (ZKKoder KKZ oder KZK). Die gesuchte Wahrscheinlichkeit beträgt also:
prix Zahl bei 3 Würfen)
= 3/8 = 0,375 = 37,5%
Auf die gleiche Weise ließe sich berechnen, wie wahrscheinlich es ist, beim zehnmaligen Münzwurf genau dreimal Zahl oder beim zehnmaligen Würfelwurf genau dreimal eine Sechs zu erhalten. Dies wäre jedoch mit der vorgestellten Methode nicht mehr einfach per Hand und Taschenrechner zu bewerkstelligen. Komfortabler ist es, auf die sogenannte Binomialgleichung zurückzugreifen, die folgendes besagt:
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
116
Wenn ein Ereignis mit der Wahrscheinlichkeit p eintritt, dann beträgt die Wahrscheinlichkeit, dass es k-mal bei n hintereinander durchgeführten Zufallsexperimenten eintritt: ?(n; p; k)
=
G) .p" .
n)
wobei ( k n!
p k
(1- p)n-k
n! = ";""7---;---;" k! . (n - k)!
1· 2 . 3 ..... n (gelesen: n Fakultät] Wahrscheinlichkeit des interessierenden Ereignisses beim einmaligen Experiment = Anzahl, wie häufig das interessierende Ereignis auftreten soll = =
Die gesuchte Wahrscheinlichkeit, beim zehnmaligen Münzwurf genau dreimal Zahl zu erhalten, ergibt sich durch einfaches Einsetzen in die Formel, wobei n 10, denn zehnmal wird die Münze geworfen, p 0,5, denn mit dieser Wahrscheinlichkeit tritt "Zahl" bei einem Wurf ein und k 3, denn das interessierende Ereignis "Zahl" soll dreimal auftreten. ?(n
= 10;p = 0,5; k = 3) = C30).
10) wobei ( 3
10! - 3)!
= 3! . (10
=
0,5 3 . (1- 0,5)7
= 0,117 = 11,7%
1· 2 . 3 ·4· 5 . 6 . 7·8 . 9 . 10 1·2·3·1· 2 . 3 ·4·5·6·7
= 120
Mithilfe der Binomialgleichung lässt sich auch die Wahrscheinlichkeit ermitteln, dass eine Familie mit drei Kindern ein, zwei oder drei Mädchen hat, denn in diesem Fall gibt es drei Zufallsexperimente. k ist 1, 2 oder 3 und die Wahrscheinlichkeit für ein Mädchen kann näherungsweise als 50% angenommen werden (Beispiel aus Krämer 2002]. Die Anwendung der Binomialgleichung soll an einem weiteren Beispiel demonstriert werden. Angenommen, bei einem viertägigen Bildungsurlaub mit zehn Teilnehmenden wird jeden Morgen neu gelost, wer an diesem Tag das Protokoll zu schreiben hat. Dann lässt sich die Wahrscheinlichkeit errechnen, dass eine Person zweimal Protokoll schreiben muss. In diesem Beispiel gilt: n 4 an vier Tagen wird die Protokollvergabe gelost p = 0,1 jeden Tag gibt es ein günstiges Ereignis und zehn mögliche Ereignisse k = 2 gesucht ist die Wahrscheinlichkeit, dass eine Person zweimal ausgelost wird
117
Die Binomialverteilung
Einsetzen in die Formel ergibt: P(n
= 4;p = O,l;k = 2) =
G)·
0,1'· (1- 0,1)'
= 0,049 = 4,9%,
Das heißt, mit einer Wahrscheinlichkeit von 4,9% muss eine Person genau zweimal während des Bildungsurlaubes Protokoll schreiben. Für die praktische Anwendung der Binomialgleichung ist es noch nicht einmal notwendig, die Formel zu bemühen und die Wahrscheinlichkeit mit der Hand zu berechnen, denn es gibt Binomialtabellen, in der man für ausgewählte Werte von n, p und k die zugehörigen Wahrscheinlichkeiten nachschlagen kann (vgl. Tabelle im Anhang B). Allerdings offerieren diese Tabellen zwangsläufig nur einen kleinen Ausschnitt aller möglichen p-Werte von 0 bis 1 und reichen meist nur bis n = 20. Im Internet existieren zahlreiche Binomialrechner, die in Sekundenschnelle und ohne Mühen exakte Wahrscheinlichkeiten für (fast) beliebige Eingaben von n, p und k berechnen können. Einige Links haben wir unter www.statistik-verständlich.de zusammengestellt. Von der Binomialgleichung zur Binomialverteilung ist es nur ein kleiner Schritt. Bei einer Binomialverteilung wird auf der x-Achse abgetragen, wie häufig das interessierende Ereignis auftreten kann. Die x-Achse reicht also immer von 0 bis n, weil das interessierende Ereignis Ox, Lx, 2x ... bis maximal n Mal eintreten kann. Die Höhe des Balkens k informiert über die jeweilige Wahrscheinlichkeit, dass das Ereignis k-Mal eintritt. Die konkrete Gestalt einer Binomialverteilung ist von den beiden Einflussgrößen n (Anzahl der Experimente) und p (Eintrittswahrscheinlichkeit des interessierenden Ereignisses) abhängig. Man kann deshalb nicht von der Binomialverteilung sprechen, sondern es gibt unendlich viele Verteilungen. Abb. 5-3 stellt die Binomialverteilung für das obige Beispiel dar, also die Verteilung mit n = 4 und p = 0,1. Abb. 5-3: Binomialverteilung für n = 4 und p = 0,1 70% c,
.ij; ~
:§
••
"E ~
~
;;:•
~
60% 50% 40% 30% 20% 4,9%
10%
0,36%
0,01%
3
4
0% 0
2
k
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
118
Aus der Abbildung liest man ab, dass eine Person mit der Wahrscheinlichkeit von gerundet 66% keinmal, mit 29%iger Wahrscheinlichkeit einmal und - wie oben bereits berechnet - mit 4,9%iger Wahrscheinlichkeit zweimal Protokoll während der vier Tage Bildungsurlaub schreiben muss. An der Abbildung kann man sich auch leicht verdeutlichen, wie man die Wahrscheinlichkeit dafür berechnet, dass ein Ereignis nicht gen au k mal sondern mindestens oder höchstens k-mal auftreten soll: Hierfür addiert man einfach die entsprechenden Wahrscheinlichkeiten. So beträgt die Wahrscheinlichkeit, dass eine Person maximal einmal Protokoll schreibt: P(k <; 1)
= P(k = 0) + P(k = 1) = 65,6% + 29,2% = 95%
Abb. 5-4 zeigt eine weitere Binomialverteilung, und zwar für n = 10 und p = 0,5, aus der man bspw. die Wahrscheinlichkeit ablesen kann, bei zehn Münzwürfen k-mal Kopf zu werfen. Mit Blick auf die beiden Abbildungen lassen sich folgende wichtige Eigenschaften von Binomialverteilungen festhalten: sie sind immer eingipflig für p = 0,5 sind sie symmetrisch für p < 0,5 sind sie linkssteil alle Wahrscheinlichkeiten addieren sich zu 100% Binomialverteilungen haben natürlich auch einen Mittelwert und eine Standardabweichung. Diese Parameter lassen sich folgendermaßen bestimmen: Mittelwert f1 = n . p Standardabweichung (J Für Abb. 5-4 gilt also: J1
a
= 10
=5 0,5 = 2,5
. 0,5
= 10· 0,5·
= n· p . q
Die Normalverteilung
119
Abb. 5-4: Binomialverteilung für n = 10 und p = 0,5 30% 24,6% c,
••
25%
~
~
20%
••
15%
:§ "E ~
~
;;:•
~
10% 5%
0,1% 1,0%
1,0"10 0,1%
0% 0
2
3
4
5
6
7
8
9
10
k
5.5 Die Normalverteilung Die Normalverteilung wurde ursprünglich von Abraham de Moivre (16671754) und Pierre-Simon Laplace (1749-1827) als Annäherung an die Binomialverteilung entwickelt und angewandt. Am häufigsten wird die Normalverteilung jedoch mit dem Göttinger Gelehrten Carl Friedrich Gauß (1777-1855) in Verbindung gebracht, der die Normalverteilung unter anderem in der Astronomie einsetzte. In Erinnerung an Gauß spricht man auch häufig von der Gauß-Verteilung oder von der Gaußsehen Gloekenkurve, denn wie nebenstehende, schematische Abbildung einer Normalverteilung zeigt, erinnert ihre Form an eine Glocke.
1\
Eigenschaften von Normalverteilungen Neben der Glockenform sind Normalverteilungen durch weitere wichtige Eigenschaften gekennzeichnet: Normalverteilungen sind symmetrisch. Mittelwert, Median und Modus sind identisch, liegen genau in der Mitte und teilen die Verteilung in zwei gleich große Hälften. Die meisten Werte liegen nah um den Mittelwert herum und je weiter man sich vom Mittelwert entfernt, desto weniger Werte findet man. Normalverteilungen nähern sich der x-Achse an, ohne sie jemals zu erreichen. Es existieren unendlich viele verschiedene Normalverteilungen, die jeweils durch zwei Größen eindeutig bestimmt sind, nämlich durch den Mittelwert f1
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
120
und die Standardabweichung 6. Abb. 5-5 veranschaulicht drei verschiedene Normalverteilungen, die sich hinsichtlich dieser beiden Größen unterscheiden. In der Abb. 5-5 wird die Kurzschreibweise N(jl;oJ verwendet. Die Verteilung N(O;l) bezeichnet die Verteilung mit dem Mittelwert 0 und der Standardabweichung 1. Die blau eingezeichnete Verteilung N(2;O,5) ist aufgrund des größeren Mittelwerts um eine Einheit nach rechts verschoben und hat einen schmaleren und höheren Gipfel, weil ihre Streuung nur 0,5 beträgt. Abb. 5-5: Unterschiedliche Normalverteilungen
0,8 0,7
~
~ .ij; ~
:§
c
".~ ~
;;:•
0,6 0,5 0,4 0,3
~
0,2 0,1
°
-3
-2
-1
°
2
3
4
5
6
Nehmen wir einmal an, die Zeit, die vierjährige Kinder für das Zusammenlegen eines Test-Puzzles benötigen, sei normalverteilt mit einem Mittelwert von 120 Sekunden und einer Standardabweichung von 20 Sekunden. Dann zeigt Abb. 5-6 die zugehörige Wahrscheinlichkeitsverteilung.
Die Normalverteilung
121
Abb. 5-6: Normalverteilte Zeit, die vierjährige Kinder für ein Test-Puzzle benötigen
40
60
80
100
120
140
160
180
200
Sekunden
Anders als bei diskreten Verteilungen, lässt sich bei stetigen Verteilungen nicht die Wahrscheinlichkeit für ein einzelnes Ereignis ablesen, denn diese strebt gegen O. Dies ist darin begründet, dass es quasi nur ein günstiges, aber unendlich viele mögliche Ereignisse gibt, da man (zumindest theoretisch) beliebig genau messen könnte. Deshalb ist in Abb. 5-6 wie bei den anderen stetigen Verteilungen in diesem Kapitel auf der y-Achse auch nicht die Wahrscheinlichkeit, sondern die sogenannte Wahrscheinlichkeitsdichte abgetragen. Statt nach einzelnen Ereignissen zu fragen, interessiert man sich bei stetigen Verteilungen für die Wahrscheinlichkeit von Ereignissen, die in einem bestimmten Intervall liegen, etwa nach der Wahrscheinlichkeit, dass vierjährige Kinder 100 bis 140 Sekunden brauchen, um das Puzzle zusammenzulegen. Die Fläche unter der Kurve einer stetigen Verteilung setzt man auf 100%. Da alle Normalverteilungen die gleiche Form haben, ist der Flächenanteil. der in einem definierten Abstand links und rechts um den Mittelwert herum liegt, bei allen Normalverteilungen identisch. Abb. 5-7 zeigt, dass im Streuungsbereich Mittelwert ± 1 Standardabweichung 68% der Fläche liegen und im Bereich Mittelwert ± 2 Standardabweichungen 95,5% der Fläche. Diese Information lässt sich auf unser Beispiel übertragen: Die Wahrscheinlichkeit, dass vierjährige Kinder 120 ± 20 Sekunden für die Lösung des Puzzles benötigen, beträgt 68% und mit 95,5%iger Wahrscheinlichkeit, benötigen vierjährige Kinder 120 ± 40 Sekunden.
122
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
Abb. 5-7:Streuungsbereiche der Normalverteilung
-20
-tc
+10
-68%-
+20
95,5%
Die Standardnormalverteilung Als Standardnormalverteilung bezeichnet man die Normalverteilung mit dem Mittelwert I' = 0 und der Streuung 0- = 1, also N(0;1). Jede Normalverteilung lässt sich mithilfe der z-Transformation, in die Standardnormalverteilung transformieren, indem jeder Wert der Verteilung nach der in Kapitel 2 vorgestellten Formel in einen z-Wert standardisiert wird, wobei wir die griechischen Buchstaben für die bei den Parameter "Mittelwert" und "Standardabweichung" verwenden:
Bei der z-Transformation (auch z-Standardisierung genannt) behält die Verteilung ihre Form, nur die Skaleneinheiten auf der x- und auf der y-Achse verändern sich. Abb. 5-8 illustriert, wie durch die z-Transformation aus der Normalverteilung für unser Beispiel eine Standardnormalverteilung entsteht. Der blau schraffierte Bereich beträgt in bei den Verteilungen 68%. Genau genommen ist die x-Achse der Standardnormalverteilung dimensionslos. doch kann man die zWerte als Standardabweichungen interpretieren: Ein z-Wert von +1 ist gleich bedeutend mit "einer Standardabweichung oberhalb" und ein z-Wert von -1 mit "einer Standardabweichung unterhalb" des Mittelwerts. Deshalb reicht der blau schraffierte Bereich in der Standardnormalverteilung in Abb. 5-8 jetzt von z = -1 bis z = +1.
Die Normalverteilung
123
Abb. 5-8: Transformation einer Normalverteilung in die Standardnormalverteilung
... 60
80
100
120
-+
140
160
180
·3
-2
-1
o
2
3
sekunden
Praktische Anwendung der Normalverteilung Die gesamte Fläche unter einer Standardnormalverteilungskurve wird auf 100% gesetzt. Für jeden z-Wert lässt sich deshalb berechnen, wie viel Prozent der Fläche von dem z-Wert abgeschnitten werden, gewissermaßen in welche zwei Stücke der z-Wert die Verteilung zerschneidet. Der z-Wert 0 halbiert die Verteilung in genau zwei gleich große Hälften mit jeweils 50%. In Abb. 5-9 sieht man, dass zu dem eingezeichneten z-Wert von 1 genau 84,1% auf der linken Seite gehören. Abb . 5-9: zugehöriger Flächenanteil zu einem z-Wert
-4
-3
-2
-1
o
3
4
Für ausgewählte z-Werte liegen die zugehörigen Flächenanteile tabelliert vor. Mathematisch formuliert geben diese Tabellen wieder, wie groß die Wahrscheinlichkeit für einen z-Wert oder einen kleineren ist: P(x s z). Mit den Tabellen lassen sich zwei unterschiedliche Fragen beantworten: 1. Welcher z-Wert gehört zu einem vorgegeben Flächenanteil? 2. Welcher Flächenanteil gehört zu einem vorgegeben z-Wert? Mit der Doppel- Tab. 5-3, die häufig Normalverteilungstabelle genannt wird, lassen sich beide Fragen beantworten. In der linken Teiltabelle liest man für 95%
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
124
einen z-Wertvon 1,645 ab und in der rechten Teiltabelle für den z-Wert 2 einen Flächenanteil von 97,7%. Tab. 5-3: Normalverteilungstabelle: z-Werte und zugehörige Flächenanteile linker Flächenanteil
z-wert
z-wert
linker Flächenanteil
1%
-2,326
-2
2,3%
5%
-1,645
-1
15,9%
50%
0
0
50,0%
95%
1,645
1
84,1%
99%
2,326
2
97,7%
Im Anhang B findet man für weitere z-Werte die zugehörigen Flächenanteile. Im Internet existieren Normalverteilungsrechner, in denen man benötigte Werte auch online berechnen kann (siehe www.statistik-verständlich.de). Wie lassen sich die Flächenanteile unter der Normalverteilungskurve interpretieren und anwenden? An dieser Stelle haben wir die Normalverteilung als Wahrscheinlichkeitsverteilung eingeführt, die Flächen stehen also für Wahrscheinlichkeiten. Weiter oben in diesem Kapitel haben Sie erfahren, dass zwischen Wahrscheinlichkeiten und relativen Häufigkeiten ein direkter Zusammenhang besteht und je nach Anwendungsfall kann man die Flächen unter der Normalverteilungskurve auch als Häufigkeiten auffassen. Bei dieser Sichtweise ist es möglich, einzelne Messwerte im Verhältnis zu den anderen Messwerten zu beurteilen. Weiß man z.B., dass der vierjährige Nils 100 Sekunden benötigt hat, um das Test-Puzzle zusammenzulegen, kann man diesen Wert mit Hilfe der zTransformation standardisieren, indem man den Mittelwert abzieht und durch die Standardabweichung teilt (vgl. Kapitel 3):
z(Nils) =
100 Sek. - 120 Sek. 20Sek.
-20 Sek. ""'2"'0"'S"'e7k-.
=-1
Anhand dieses z-Wertes können wir zunächst bestimmen, wie schnell Nils das Puzzle im Verhältnis zum Mittelwert zusammengelegt hat, denn die -1 verrät uns, dass Nils eine Standardabweichung schneller als der Durchschnitt war. Da wir aber zusätzlich wissen, dass die Zeit für das Puzzlezusammensetzen normalverteilt ist, und wir Nils mithilfe der z-Standardisierung genau auf der xAchse lokalisieren können, lässt sich sogar berechnen, wie viele Kinder weniger Zeit und wie viele mehr benötigen. Dazu schaut man in die Normalverteilungstabelle und bestimmt den Flächenanteil. der zu z = -1 gehört: In Tab. 5-3 liest man in der rechten Tabellenseite einen Anteil von 15,9% ab. Dies entspricht
Die Normalverteilung
125
dem Anteil an Kindern, der weniger Zeit oder genauso viel Zeit wie Nils für das Test-Puzzle benötigt. Um den Anteil zu bestimmen, der länger benötigt als Nils, muss man den linken Flächenanteil einfach von 100% abziehen. Der Anteil ergibt sich also als 100% - 15,9% = 84,1 %.
Bedeutung der Normalverteilung Mehrfach wurde in diesem Kapitel die besondere Bedeutung der Normalverteilung für die Statistik betont. Hierfür gibt es verschiedene Gründe: 1. Die Normalverteilung wird verwendet, um die Gültigkeit von Aussagen einzuschätzen, denn wenn man genügend große Stichproben zieht, folgen die Mittelwerte dieser Stichproben einer Normalverteilung. Dies führen wir in Kapitel 6 weiter aus. 2. Viele andere Wahrscheinlichkeitsverteilungen können durch die Normalverteilung angenähert werden. So kann man für die Binomialverteilung die Werte der Normalverteilung verwenden, wenn n . p . q > 9 gilt, also eine entsprechend große Fallzahl vorliegt. Für die symmetrische Binomialverteilung mit p = 0,5 liefert die Normalverteilung bereits bei n > 36 ausreichend gute Werte, für p = 0,1 ist die Normalverteilung erst bei n > 100 anwendbar. 3. Die Normalverteilung wird für die Anwendung vieler statistischer Verfahren vorausgesetzt. 4. Einige empirische Merkmale folgen einer Normalverteilung. So sind altersspezifische Körpergewichte und die Körpergrößen von Frauen und die von Männern normalverteilt. Weitere Beispiele führt Krämer (2002: 83f.) an: "Der Intelligenzquotient aller erwachsenen Bundesbürger. die täglichen Renditen von Aktien der Deutschen Bank ... das Schlachtgewicht von Mastochsen einer Rasse x, die jährlichen Niederschläge (in mm) am Flughafen Prankfurt/Mam, der Hektarertrag an Weizen eines bestimmten Feldes über mehrere Jahre, usw," Es handelt sich um Merkmale, die sich aus der Summe vieler Einflüsse ergeben, die dem Zufall unterliegen. Beispielsweise wird der Intelligenzquotient durch die Gene, die Eltern, die Lehrer linnen, die Geschwister, die Spielkameraden und vielem mehr beeinflusst (vgl. ebd.: 84). Allerdings sind wenige der normalverteilten Merkmale für die Sozialwissenschaft relevant Die Zustimmung zu einer Aussage wie "Bürger können nur wenig Energie einsparen", gemessen auf einer 7er Skala ist z.B. selten normalverteilt. Erst wenn man mehrere Umwelteinstellungen aufsummiert; steigt die Wahrscheinlichkeit, dass man ein normalverteiltes Merkmal erhält.
126
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
5.6 Die t-Verteilung Die t-Verteilung ist die "kleine Schwester" der Standardnormalverteilung. Vereinfacht gesprochen kommt sie immer dann zum Einsatz, wenn nur wenige Daten zur Verfügung stehen, und zwar bei Stichproben mit n < 30. Die t-Verteilung ist flacher als die Normalverteilung, denn gewissermaßen besteht der Preis, den man für die geringe Datenmenge zahlen muss, darin, dass die Werte stärker streuen und weniger Werte nahe am Mittelwert liegen. Es gibt nicht nur eine t-Verteilung, sondern unendlich viele t-Verteilungen, die sich hinsichtlich einer Größe unterscheiden: dem Freiheitsgrad (engl. degrees of frccdom, abgekürzt "d/'). Der Freiheitsgrad errechnet sich je nach Anwendungsart der t-Verteilung auf unterschiedliche Weise aus der Anzahl der Untersuchungseinheiten der Stichprobe. Abb. 5-10 zeigt die t-Verteilung für die Freiheitsgrade df = 3 und df = 30. Abb. 5-10: t-Verteilungen für die Freiheitsgrade df= 3 und df= 30
-4
-3
-2
-1
o
3
4
t
Wie bei allen stetigen Verteilungen wird auch die Fläche unter einer t-Verteilung auf 100% gesetzt, so dass zu jedem t-Wert ein entsprechender Flächenanteil gehört. In der Abb. 5-10 ist in der t-Verteilung für df= 30 der t-Wert 1,70 eingezeichnet, der links von der Verteilung 95% und rechts 5% abschneidet. Auch für die t-Verteilung existieren Rechner im Internet, mit deren Hilfe sich zu jedem t-Wert und einen ausgewählten Freiheitsgrad die zugehörige Fläche, also die zugehörige Wahrscheinlichkeit berechnen lässt (vgl. www.statistikverständlich.de). Anhang B enthält eine Tabelle mit t-Werten für die häufig verwendeten Prozentanteile von 95%, 99% und 99,9%. Alle (Standard- )t-Verteilungen haben den Mittelwert Null, und zwar unabhängig von der Höhe des Freiheitsgrads. Dieser beeinflusst jedoch, wie hoch eine t-Verteilung ist, denn je größer der Freiheitsgrad, desto enger liegen die Werte um den Mittelwert herum und desto weniger verteilen sie sich auf die Randbereiche rechts und links. In Abb. 5-10 sieht man, dass der Gipfel der t-
Die Chi-Quadrat-Verteilung
127
Verteilung für df= 30 höher ist und die gesamte Verteilung etwas dichter um den Mittelwert herum liegt als bei der t-Verteilung für df= 5. Für größer werdende Freiheitsgrade geht die t-Verteilung in eine Normalverteilung über, etwa ab df= 30 ist optisch kein Unterschied mehr im Kurvenverlaufzu erkennen. Bereits für df= 105 unterscheidet sich der t-Wert, der links von der Verteilung 95% abschneidet, nur noch in der zweiten Nachkommastelle vom z-Wert, der die gleiche Fläche der Standardnormalverteilung abschneidet: Z95% = 1,645; t95%, df=105 = 1,659.
5.7 Die Chi-Quadrat-Verteilung Die ebenfalls stetige Chi-Quadrat-Verteilung (abgekürzt mit dem griechischen X 2 ) ist definiert als Summe von n quadrierten und standardisierten Zufallsvariablen. Wie bei der t-Verteilung gibt es unendlich viele Chi-Quadrat-Verteilungen, die sich nach ihrer Anzahl der Freiheitsgrade unterscheiden. Die Anzahl der Freiheitsgrade entspricht dabei der Anzahl der Summanden. Abb. 5-11 gibt die Formen der Chi-Quadrat-Verteilungen mit df= 1, df= 4 und df= 10 wieder. Während Verteilungen mit df< 2 nur monoton abfallen, steigen diejenigen mit höheren Freiheitsgraden erst an, um dann wieder abzufallen. Ein Blick auf die xAchse verrät, dass diese Verteilung nur für positive x-Werte definiert ist. Die Chi-Quadrat-Verteilung wird häufig - wie im Kapitel 4 erläutert - beim Vergleich von Erwartungswerten mit beobachteten Werten eingesetzt. Im Anhang B finden sich für ausgewählte Freiheitsgrade Chi-Quadrat-Werte, die 95%, 99% und 99,9% Flächenanteil auf der linken Seite abschneiden. Abb. 5-11: Chi-Quadrat-Verteilungen für die Freiheitsgrade df= 1, df= 4 und df= 10
~
0,4
.~ :§
0,3
".-5e
0,2
df = 1
'C ~
"E
;;:•
~
df = 10
0,1
Chi-Quadrat
0,0
°
5
10
15
20
128
Wahrscheinlichkeit und Wahrscheinlichkeitsverteilungen
5.8 Die F-Verteilung Die stetige F-Verteilung erhielt ihren Namen von Ronald Fisher (1890-1962), einem Biologen und Statistiker aus London. Die Verteilung ist definiert als Quotient aus zwei Zufallsvariablen, die der Chi-Quadrat-Verteilung folgen, und kommt häufig zum Einsatz, wenn es um die Wahrscheinlichkeitsabschätzung von Varianzverhältnissen geht, z.B. bei der Varianzanalyse in Kapitel 8. Da in ihre Berechnung zwei Chi-Quadrat-verteilte Variablen einfließen, ist eine F-Verteilung nur durch zwei Freiheitsgrade eindeutig bestimmt, nämlich durch den Freiheitsgrad des Zählers und des Nenners. Abb. 5-12 zeigt die F-Verteilung für die zwei Kombinationen von Freiheitsgraden dfl = 1 und df2 = 10 sowie dfl = 5 und df2 = 5. Auch die F-Verteilung ist tabelliert im Anhang B zu finden. Abb. 5-12: F-Verteilungen für zwei verschiedene Kombinationen von Freiheitsgraden 1,0
~
~ .ij;
0,8
~
:§
••C
0,6
~
~
;;:•
0,4
~
0,2 0,0
°
2
3
4
6
Die Logik des statistischen Schließens
Population, Grundgesa mtheit, Verteilungsformen, Normalverteilung und Standardnormalverteilung - nachdem diese Begriffe im vorangehenden Kapitel eingeführ t wurden, schrei ten wir jetzt weiter voran ins Zent ru m der Inferenzstatistik. In diesem Kapite l geht es um Schätzen und Test en, um Regelmäßigkeiten in der Vert eilung von Stichprobenp arametern, um Nullhypoth esen und Alternativhypoth esen und um das Grundp rinzip des statistische n Schließens. Sta tistisc he Begriffe haben immer mehr in unsere Alltagswelt Einzug gehalten . Täglich sind w ir mit Meldungen und Information en konfrontiert, in denen von signifikanten Ergebnissen in repräsentativen Studien die Red e ist - und sogleich s ind wir gene igt, dem Gesagten Glaub en zu sche nken, sche int es doch durch dieses Zaub erw ort qua si bewiesen ("signifikant"!) und durch die Hinweise au f die Repräsentativität der Stichprobe auc h gegen jeden Verdacht des Singu lär en immunisiert. Mit statist ischen Schlüssen ve rhält es sic h aber gar nicht so ei nfach, wie wir dies im Alltag bei der Lektü re so lcher For schungsergebnisse vielleicht gerne glauben möchten. Das statistische Schließe n besitzt eine Reihe von Vor au sset zun gen, Stolperfallen und Unsicherheit en . Die Basis von allde m sind Grundannahmen über die Verteilung von Stichp robenkenn werten.
6.1 Die Verteilung von Stichprobenkennwe rten Das Ziel der Inferen zstatistik ist es, von den bekannten Kennwerten einer Stichprobe (z.B. Mitt elwert, Varianz), auf die unbekannten Paramet er einer Grundge samt he it zu schließen. War um ste llt sich die ses Prob lem überh aupt? Der w ichtigste Grund ist, dass es we gen des immensen Aufwand es praktisch unm öglich und unb ezah lbar ist, die entsprechenden interessierend en Kenn werte der Grund gesamt heit zu ermitteln. Wir können nicht die Mathem atikkomp etenzen aller deutschen Sch ülerinnen und Schüler mit Hilfe eines Tests unt ersu chen und sie anschließend mit de n Schülerinnen und Schülern de r ande re n 26 EU-Länder verg leiche n. Selbst ein so einfach zu erhebend es Merkmal wie Körpergröße oder Gewicht w ürde bei 80 Millionen Probanden in Deutschlan d mit riesig en Erhebu ngskosten verb unde n sein, so dass sich jeder Gedank e an eine so lche Stud ie von vor nherein ver bietet. Eine Vollerhebu ng der Grundgesamthei t ist aber auch - der statistischen Theorie sei Dank - re lativ überflüssig, weil man aus einer ge-
130
Die Logik des statistischen Schließens
nügend großen Stichprobe die gewünschten Information mit einer hinreichenden Genauigkeit schließen (schätzen) kann. Um die Problematik von Stichprobe und Grundgesamtheit zu verdeutlichen, wollen wir zunächst einen kleinen virtuellen Versuch starten, und zwar nicht mit einer unbekannten, sondern einer bekannten Grundgesamtheit, nämlich den 2034 Personen, die in der Studie .Llmweltbewusstsein in Deutschland'? befragt wurden". Diese Personen sollen für die folgenden Überlegungen die Grundgesamtheit darstellen, ihr Durchschnittsalter beträgt 48,9 Jahre. Wir ziehen nun aus dieser Grundgesamtheit eine Zufallsstichprobe von n = 100 Personen und ermitteln für diese Stichprobe das Durchschnittsalter. Das Ziehen der Stichprobe könnte man nach dem Umenmodell" per Hand realisieren, bequemer geschieht dies mit einem Statistikprogramm, das in der Lage ist, Zufallsstichproben gewünschter Größe zu ziehen. Für diesen Versuch haben wir die Stichprobe mit Hilfe von SPSS gezogen; das Ergebnis zeigt, dass die jüngste Person unserer 100-er Stichprobe 19 jahre alt ist und die älteste 77. Der Altersmittelwert beträgt 51,1 jahre und die Standardabweichung 15,97 jahre. Versetzen wir uns nun in die Lage, auf der Basis dieser Stichprobe den Altersdurchschnitt aller 2034 Befragten erraten zu müssen: Wie würden wir vorgehen? Da man keinen anderen Wert als diesen Stichprobenmittelwert von 51,1 Jahren zur Verfügung hat, ist es naheliegend, eben diesen als Schätzwert des Altersmittelwerts der Grundgesamtheit zu benutzen und den Mittelwert der Grundgesamtheit ebenfalls mit 51,1 Jahren zu veranschlagen. Was wir bis zu diesem Punkt getan haben, bezeichnet man als Parameterschätzung: Der uns unbekannte Parameter "Mittelwert der Grundgesamtheit" wurde aus einem Stichprobenmittelwert geschätzt. Bei diesem Versuch kennen wir aber den "wirklichen" Mittelwert der 2034 Personen, der also durch die Schätzung um 1,2 Jahre verfehlt würde. Wir starten nun einen zweiten Versuch und ziehen erneut eine Stichprobe von n = 100. Das minimale Alter beträgt nun laut SPSS-Ausdruck 19 [ahre, das maximale 83. Als Mittelwert wird 49,6 (Standardabweichung 17,95) berechnet. Diese Stichprobe ist also etwas jünger als beim ersten Versuch. Um die Sache an dieser Stelle abzukürzen, haben wir die Ergebnisse unserer ersten bei den und acht weiterer Versuche in Tab. 6-1 zusammengestellt.
8 9
Siehe Kuckartz et al. 2006 Wer den Versuch selbst ausprobieren will, kann die Daten der Studie in Form einer SPSSDatei unter www.statistik-verständlich.de herunterladen. 10 Hierzu mussten sich alle 2034 Personen ähnlich wie die 49 Lottokugeln in einer Urne befinden, aus der sie dann zufällig gezogen wurden.
131
Die Verteilung von Stichprobenkennwerten
Tab. 6-1: Mittelwerte von Zufallsstichproben der Größe n = 100 Versuch
Mittelwert der Stichprobe
Abweichung vom Mittelwert der Grundgesamtheit (48,9)
1
51,1
+0,2
2
49,6
+0,3
3
46,3
-2,6
4
49,4
+0,5
5
50,0
+1,1
6
45,3
-3,6
7
47,6
-1,3
8
49,8
+0,9
9
45,9
-3,0
10
48,7
-0,2
Die Werte der zweiten Spalte beinhalten die Verteilung des Stichprobenparameters Mittelwert für eine gegebene Stichprobengröße (hier n = 100). Für die Streuung dieser Verteilung lassen sich auch Varianz und Standardabweichung berechnen, wobei zu beachten ist, dass es sich dabei um etwas Anderes handelt als um die Streuung der 100 Messwerte. Die dritte Spalte gibt an, wie weit die jeweiligen Stichprobenmittelwerte vom Mittelwert der Grundgesamtheit abweichen. Es ist erkennbar, dass sich der Mittelwert in drei Stichproben um mehr als 2 Jahre vom Populationsmittelwert unterscheidet. Wir führen nun eine zweite Versuchsreihe durch, diesmal mit einem größeren Stichprobenumfang von n = 300. Es ergeben sich die in Tab. 6-2 dargestellten Mittelwerte und Abweichungen:
Die Logik des statistischen Schließens
132
Tab. 6-2: Mittelwerte von Zufallsstichproben der Größe n = 300 Versuch
Mittelwert der Stichprobe
Abweichung vom Mittelwert der Grundgesamtheit (48,9)
1
48,2
-0,7
2
49,0
+0,1
3
48 ,6
-0,3
4
48,9
0
5
50,1
+1,2
6
49 ,5
+1,6
7
48,6
-0,3
8
50,3
+1,4
9
48,9
0
10
48,2
-0,7
Auf den ersten Blick ist schon zu erkennen, dass die Stichprobenmittelwerte weniger schwanken als zuvor bei der kleineren Stichprobe mit n = 100 und die maximale Abweichung vom Populationsmittelwert beträgt nur noch 1,6 Jahre. Würde man die Stichprobengröße nun immer weiter erhöhen, so würde sich die Verteilung der Stichprobenmittelwerte immer mehr der Normalverteilung annähern, wobei der Mittelwert dem Mittelwert der Grundgesamtheit entsprechen würde. Diese Erkenntnis führt uns zu einem der zentralen Lehrsätze der schließenden Statistik, dem zentralen Grenzwertsatz, der im Kern besagt, dass Stichprobenkennwerte normalverteilt sind. 11 Die Mittelwerte von hinreichend großen Stichproben (n ;:: 30) verteilen sich normal um p, den Mittelwert der Grundgesamtheit. Diese Verteilung ist unabhängig von der Verteilung der Werte der Grundgesamtheit, d.h. diese müssen nicht normalverteilt sein. ..... Für kleine Stichproben (n < 30) folgen Stichprobenkennwerte nicht der Normalverteilung sondern der t-Verteilung mit df = n-l Freiheitsgraden.
11 Genau genommen besagt das zentrale Grenzwerttheorem, dass Summen von Zufallsvariablen normalverteilt sind. Die n Messwerte Xi einer Stichprobe werden dabei als voneinander unabhängige Realisierung einer Zufallsvariablen betrachtet
Konfidenzintervalle
133
Stichprobenkennwerte weisen wie oben gezeigt eine Streuung auf, dabei wird die Standardabweichung des Stichprobenmittelwerts als Standard/eh/er oder Stichprobenfehler des Mittelwerts bezeichnet. Der Standardfehler lässt sich nach folgender Formel aus der Standardabweichung der Messwerte schätzen: Standardfehler
fix
r;,
= ~-:;
Für unser allererstes Experiment mit der lOOer-Stichprobe beträgt der Standardfehler also: 15,97'
15,97
----:wcJ = 10 = 1,597 Je größer der Standardfehler ist, desto unsicherer ist die Schätzung des Mittelwerts, d.h. die Genauigkeit der Schätzung hängt entscheidend von der Streuung der Variablenwerte ab: Je kleiner die Streuung der Messwerte, desto genauer die Schätzung, je größer die Streuung desto unpräziser.
6.2 Konfidenzintervalle Dank des zentralen Grenzwertsatzes und der Möglichkeit, unbekannte Parameter der Grundgesamtheit zu schätzen, können wir nun die in Kapitel 5.5 dargelegten Erkenntnisse über die Eigenschaften der Normalverteilung und insbesondere der Standardnormalverteilung kreativ anwenden. Dort war gezeigt worden, wie man zunächst einen Messwert in einen z-Wert transformieren und dann mit Hilfe der Standardnormalverteilung bestimmen kann, wie groß der Anteil der Verteilung ist, der in einem bestimmten Messwertebereich liegt. Für jede Person der Stichprobe lässt sich auf diese Weise angeben, wie viele Einheiten (in Standardabweichungen gemessen) sie vom Mittelwert positiv oder negativ entfernt ist (84% hatten zum Zusammenlegen des Puzzles länger gebraucht als der kleine Nils mit einem z-Wert von 1). Genau dasselbe kann man nun auch für Stichprobenkennwerte tun und damit bspw. ermitteln, innerhalb welchen Wertebereichs wie viele Prozent der Kennwerte liegen. Bei der Schätzung von Parametern der Grundgesamtheit ist man nicht nur an der Angabe eines ganz bestimmten Wertes (Punktschätzung) interessiert, sondern man möchte auch wissen, innerhalb welchen Bereichs der Parameter mit großer Sicherheit liegt (Intervallschätzung).
Die Logik des statistischen Schließens
134
Mit dem Begriff Konjiaenzintervall J:)ezeidinet man den Bereicn, innernall:5 dessen ein bestimmter Prozentsatz aller möglichen Populationsparameter liegt12. Am häufigsten wird das 95% Konfidenzintervall berechnet, gelegentlich auch das 99% Intervall. Wie berechnet man nun das 95%-Konfidenzintervalls für den Mittelwert? Die allgemeine Formel lautet für die untere bzw. obere Grenze: Untere Grenze: Obere Grenze:
j1-
z·
fix
f1 + z· fix
Im Fall unseres Beispiels kennen wir den Mittelwert der Grundgesamtheit (n = 2034), er beträgt 48,9 Jahre. Meist sind die Parameter der Grundgesamtheit
nicht bekannt, dann verwendet man die Stichprobenwerte als Schätzung. Zur Berechnung der konkreten Unter- und Obergrenze ersetzen wir z in den obigen Formeln durch die entsprechenden z-Werte der Standardnormalverteilung. Der Tabelle der Standardnormalverteilung im Anhang B lässt sich entnehmen, dass sich 95% der Werte zwischen z = -1,96 und z = +1,96 befinden, d.h. wir setzen -1,96 bzw. +1,96 in die Formeln für die Grenzen des Intervalls ein. Für das Konfidenzintervall ergibt sich somit folgende Rechnung: Untere Grenze: Obere Grenze:
x - 1,96 . fj = 48,9 - 1,96 . 1,597 = 45,8 x + 1,96 . fj = 48,9 + 1,96 . 1,597 = 52,0
In Worten bedeutet dies "In 95% aller Fälle, in denen eine Stichprobe dieser Größe (n = 100) aus der Grundgesamtheit gezogen wird, liegt der Mittelwert zwischen 45,8 und 52,0. Um ein anderes Konfidenzintervall zu berechnen sind lediglich die der Standardnormalverteilungstabelle (Anhang B) zu entnehmenden z-Werte anstelle von 1,96 einzusetzen, z.B. 2,58 für die Berechnung des 99%-Konfidenzintervalls: Untere Grenze: Obere Grenze:
x - 2,58 . & = 48,9 - 2,58 . 1,597 = 44,8 x + 2,58 . fj = 48,9 + 2,58 . 1,597 = 53,0
12 Korrekterweise musste man eigentlich formulieren, dass in x% aller Fälle, in denen man eine Stichprobe zieht, der betreffende Parameter innerhalb des Konfidenzintervalls liegt.
135
Die statistische Hypothese
6.3 Die statistische Hypothese Die Logik des statistischen Hypothesentestens baut auf den Verteilungseigenschaften statistischer Kennwerte und dem zentralen Grenzwertsatz auf. Auch im Alltag ziehen wir Schlüsse und formulieren Hypothesen: Zum Beispiel gehen wir als Erstsemester/in um 10 Uhr in eine Vorlesung, deren Beginn für 10 Uhr angekündigt ist und stellen fest, dass der Hörsaal noch ziemlich leer ist und die Lehrkraft, ohne irgendeine Spur von Hektik zu zeigen, noch mit der Inbetriebnahme der Beameranlage beschäftigt ist. Daraus leiten wir die Hypothese ab, dass entweder unsere Uhr falsch geht oder die Vorlesung doch erst später beginnt, als es im Vorlesungsverzeichnis ausgedruckt ist. Von der ersten Hypothese rücken wir aber gleich wieder ab, als wir sehen, dass die Uhr im Hörsaal exakt die gleiche Uhrzeit wie die eigene Armbanduhr anzeigt. Der verspätete Beginn hat also offenbar nichts mit einem Defekt unserer Uhr zu tun. Wir entscheiden uns deshalb für die zweite Variante und fragen die Kommilitonin in der Reihe vor uns, was hier eigentlich los sei und erfahren, dass Vorlesungen und Seminare normalerweise erst eine Viertelstunde später als angekündigt beginnen. Beim nächsten Mal werden wir also etwas später in die Vorlesung gehen. Alltagshypothesen unterscheiden sich grundlegend von statistischen Hypothesen: Während es dort ein Alltagsproblem ist, dessen Lösung wir mit einiger Tüftelei, mit Fragen und Trial-and-error herausfinden können, handelt es sich bei statistischen Hypothesen um formalisierte Aussagen, um eine möglichst präzise Annahme, die wir mit statistischen Mitteln - und zwar einem Kalkül auf der Basis von Verteilungsannahmen - systematisch überprüfen. Die Grundeinheit einer statistischen Hypothese ist die Variable. Eine mit den Mitteln der Statistik zu prüfende Hypothese ist immer als eine präzise Aussage zu formulieren, in der ein Zusammenhang zwischen mindestens zwei Variablen behauptet wird. Dabei besitzt eine Variable immer mindestens zwei Ausprägungen - ansonsten wäre es ja auch keine Variable, sondern eine Konstante. Jede Hypothese muss so formuliert sein, dass sie auch scheitern kann, d.h. sich empirisch im Rahmen der durchgeführten Studie und auf der Basis der dafür erhobenen Daten als falsch erweisen kann. Eine einfache Hypothese könnte etwa lauten: Frauen sind klimabewusster als Männer. Es ergibt sich eine Art Vier-Felder-Tafel: 1
2
klimabewusste Männer
klima bewusste Frauen
3
4
nicht klima bewusste Männer
nicht klirna bewusste Frauen
136
Die Logik des statistischen Schließens
Trifft die Hypothese zu, so müsste sich dies auch in der Vier-Felder-Tafel niederschlagen, und zwar so, dass im Idealfall nur Felder auf der Diagonalen besetzt sind, hier also Feld 2 .Jdimabewusste Frauen" und Feld 3 "nicht klimabewusste Männer". Ist das nicht der Fall, d.h. gibt es prozentual vielleicht sogar mehr klimabewusste Männer als Frauen, so ist die Hypothese augenscheinlich gescheitert. Es gibt nun allerdings auch noch eine dritte Möglichkeit, nämlich dass die empirischen Häufigkeiten und der sich dort zeigende Zusammenhang auf die Zufälligkeit der Auswahl der Probanden zurückzuführen sind. Beim statistiscnen Hypolliesentest prüft man einen empirisdien Sadiverli:alt gegen die Zufälligkeit einer solchen Verteilung. Der statistische Hypothesentest ist immer eine Entscheidung zwischen zwei Möglichkeiten: Man prüft nicht einfach, ob eine Hypothese richtig oder falsch ist, zutrifft oder nicht, sondern man stellt zwei Hypothesen einander gegenüber: die sogenannte AIternativhyp,othese und die Nullhyp,"'o"th"'e "s"'e. -' Der Begriff Alternativhypothese, üblicherweise mit Hi abgekürzt, hat nichts mit der "alternativen Szene" oder anderen Alltagsbedeutungen von "alternativ" zu tun, sondern das Wort "alternativ" hat hier die Bedeutung von "neu". Die als Alternativhypothese formulierte Aussage ist es, die im Mittelpunkt des Interesses der Forschenden steht. Hiermit möchte man ein bestimmtes Phänomen erklären und Zusammenhänge offen legen. Das tut man gewöhnlich nur im Falle eines bisher nicht oder nur unzureichend erklärten Sachverhalts. Insofern ist der Begriff "alternativ" ganz treffend, denn es ist eine neue Erklärung, alternativ und/oder ergänzend zum bisherigen Forschungsstand. Die Nullhypothese, abgekürzt mit Ho, ist nun eine formale Gegenhypothese zur formulierten Alternativhypothese. Sie ist eine Negativhypothese, mit der behauptet wird, dass die zur Alternativhypothese komplementäre Aussage richtig ist. Die Nullhypothese besagt schlichtweg, dass der postulierte Zusammenhang null und nichtig ist. Die Nullhypothese ist eine Annahme über die Wahrscheinlichkeitsverteilung einer Zufallsvariablen. ...... Null- und Alternativhypothese sind miteinander konfrontiert wie die Abgeordneten von Regierung und Opposition im englischen Parlament. Es gibt nur zwei Alternativen, entweder H1 oder Ho trifft zu, eine dritte Möglichkeit existiert nicht, der Kampf kann also weder unentschieden ausgehen, noch kann die Alternativhypothese "ein bisschen zutreffen". Das Entscheidungskalkül ist dabei konservativ, d.h. die Nullhypothese hat eigentlich die besseren Chancen, dass die Entscheidung für sie ausfällt - solange
137
Die statistische Hypothese
man die empirischen Gegebenheiten mit hinreichender Wahrscheinlichkeit aus dem Zufall erklären kann, solange behält man auch die Ho bei. Wichtig zum Verständnis der Logik des statistischen Schließens ist, dass die beiden sich gegenüberstehenden Hypothesen auf die Grundgesamtheit beziehen. Dies ist der Zusammenhang, der eigentlich interessiert: ein Zusammenhang zwischen zwei Variablen in der Grundgesamtheit Um die Parameter der Grundgesamtheit von den Kennwerten der Stichprobe zu unterscheiden, benutzt man bei Formeln und Notationen griechische Buchstaben für die Parameter der Grundgesamtheit. Aus einer Alternativhypothese ergibt sich qua logischer Gegenüberstellung die statistische Nullhypothese. Alternativhypothese (HI) und Nullhypothese (Ho) sind zueinander komplementäre Aussagen. Die Nullhypothese ist eine formale Gegenhypothese, die behauptet, dass der in H1formulierte Zusammenhang nicht existi"'e"'rt". ..... Wenn bspw. eine neue Methode des Schriftspracherwerbs gegenüber der herkömmlichen Methode getestet werden soll, kann man die Alternativhypothese "Die neue Methode ist besser als die alte" aufstellen. Die Nullhypothese würde folglich lauten "Die alte Methode ist besser oder gleich gut wie die neue". Formalisiert schreibt man folgendes, wobei f1 für den Mittelwert der Grundgesamtheit steht: Ho: flneu ~ flalt
Andere denkbare Formulierungen für die Alternativhypothese und die komplementäre Nullhypothese lauten: Hi: flneu < flalt Hi: flneu # flalt
Ho: flneu ~ flalt Ho: flneu = flalt
Arten von Hypothesen Es lassen sich verschiedene Arten von Hypothesen unterscheiden: Unterschieds- und Zusammenhangshypothesen: Unterschiedshypothesen untersuchen, ob systematische Unterschiede zwischen zwei und mehr Gruppen bestehen. Beispiele: "Frauen sind umweltbewusster als Männer"; "Das Klimabewusstsein unterscheidet sich nach Bildungsstand"; "Kinder mit Migrationshintergrund besuchen seltener weiterführende Schulen"; "Durch ein frühpädagogisches Förderprogramm lässt sich der Spracherwerb entscheidend verbessern". Zusammenhangshypothesen untersuchen Zusammenhänge zwischen mindestens zwei Variablen. Beispiele: "Je öfter Kinder mit dem Gameboy spielen, desto schlechter können sie sich konzentrieren"; "Je posi-
Die Logik des statistischen Schließens
138
tiver eine Person zum Umweltschutz eingestellt ist, desto positiver ist auch ihr Umweltverhalten"; "Je länger die Schul- und Hochschulausbildung dauert, desto höher das Einkommen". Gerichtete und ungerichtete Hypothesen: Die ungerichtete Hypothese behauptet, dass zwischen zwei Merkmalen ein Zusammenhang besteht, ohne dass eine Angabe über die Richtung des Zusammenhangs gemacht wird. Beispiel: "Das Umweltbewusstsein differiert nach Geschlecht"; "Das Klimabewusstsein unterscheidet sich nach Bildungsstand"; .Llmweltbewusstsein und Umweltverhalten hängen zusammen". Die gerichtete Hypothese beinhaltet bereits eine Angabe über die Richtung des vermuteten Zusammenhangs, z.B.: "Frauen sind umweltbewusster als Männer"; "Kinder mit Migrationshintergrund besuchen seltener weiterführende Schulen". Spezifische und unspezifische Hypothesen: Die oben formulierten Hypothesen sind allesamt unspezifische Hypothesen, denn es wird nicht angegeben, wie groß der Unterschied bzw. wie groß der Zusammenhang ist. Wenn man in der Lage ist, die Größe anzugeben (Beispiel: "Kinder mit Migrationshintergrund besuchen halb so häufig weiterführende Schulen wie Kinder ohne Migrationshintergrund"), bezeichnet man die Hypothese als spezifische Hypothese.
6.4 Der Hypothesentest Wir haben oben gezeigt, dass der Stichprobenkennwert Mittelwert (x) normalverteilt ist, d.h. wir können für jeden beliebigen Stichprobenmittelwert berechnen, wie wahrscheinlich das Auftreten dieses oder größerer Werte ist. Die Nullhypothese stellt eine Annahme über die Wahrscheinlichkeitsverteilung einer Zufallsvariablen dar, betrachten wir hierzu die folgende Mittelwertsverteilung (Abb. 6-1). In der Grafik bezeichnet fk den Mittelwert der Grundgesamtheit und x den in der Stichprobe ermittelten Mittelwert. In der Grafik liegt dieser Mittelwert der Stichprobe relativ weit von flo entfernt. Mit dem schraffierten Bereich a wird der Bereich unterhalb der Normalverteilungskurve bezeichnet, welcher der Wahrscheinlichkeit von x und allen größeren Werten entspricht. Es dürfte deutlich werden, dass dieser Bereich schrumpft, wenn x größer wird, d.h. die Wahrscheinlichkeit, dass der Mittelwert aus dieser Verteilung mit den Parametern flo und 0"0 stammt, sinkt mit steigender Entfernung zu flo.
Der Hypothesentest
139
Abb.6-1
• '"
x
Da die Normalverteilungskurve sich asymptotisch der x-Achse nähert, diese aber nie schneidet, gibt es keinen Punkt, keinen Schwellenwert. jenseits dessen man mit Sicherheit sagen könnte, dass der Stichprobenmittelwert nicht aus dieser Verteilung stammen kann. Man kann also bei diesem Modell des Hypothesentestens nie ausschließen, dass die Nullhypothese doch gilt, sondern lediglich eine äußerst geringe Wahrscheinlichkeit diagnostizieren. Das Modell des statistischen Schließens schafft also keine Sicherheit, sondern verspricht nur Wahrscheinlichkeiten. Das kann in Situationen und Konflikten der Lebenswelt durchaus entscheidende Bedeutung haben. Es macht eben für die gesellschaftliche Kommunikation einen Unterschied, ob Wissenschaftler linnen einen GAU in einem Atomkraftwerk ausschließen können oder ob sie feststellen, dass die Wahrscheinlichkeit kleiner als 0,0001 ist. Wenn sie dann noch einräumen müssen, dass die Aussage des Modells "einmal in 10.000 Jahren" auch bedeuten kann, dass dieses besagte Ereignis zufällig bereits im nächsten Jahr eintreten könnte, trägt dies vermutlich nicht zur Beruhigung der Bevölkerung bei. Der Mittelwert einer Stichprobe lässt sich immer aus der mit der Nullhypothese verbundenen Verteilungsannahme erklären. Wie groß die Wahrscheinlichkeit ist, den aufgetretenen Wert unter der Annahme der Gültigkeit der Nullhypothese zu erklären, können wir relativ leicht ermitteln, in dem wir den zu x gehörenden z-Wert berechnen und in der Tabelle der Normalverteilung nachschlagen, wie groß die Wahrscheinlichkeit für das Auftreten von diesem und allen größeren Werten ist. Würde man sich in der obigen Abbildung für die Alternativhypothese entscheiden (d.h. x entstammt nicht der abgebildeten Verteilung), so wäre diese Entscheidung mit der Irrtumswahrscheinlichkeit a belastet. Angenommen, diese betrüge 3%, ließe sich auch formulieren: "Die Irrtumswahrscheinlichkeit bei meiner Entscheidung für die Alternativhypothese beträgt 3%" oder "Lehne ich die Nullhypothese ab, so begehe ich mit 3% Wahrscheinlichkeit einen Fehler". Wie viel Irrtumswahrscheinlichkeit ist man bereit zu akzeptieren? Die empirische Forschung hat hier gewisse Konventionen entwickelt und bezeichnet die-
140
Die Logik des statistischen Schließens
se als Signijikanzniveaus. Es ist also nicht so, dass jeweils neu zu entscheiden wäre, wie viel Prozent Irrtumswahrscheinlichkeit man genau akzeptieren will, sondern die Wahl reduziert sich auf die Entscheidung zwischen verschiedenen vorgegebenen Signifikanzniveaus. Die empirische Forschung unterscheidet in der Regel das 10/0- und das 5%-Signifikanzniveau, in manchen (seltenen) Fällen arbeitet man - bei kleinen Stichproben - auch mit dem 10% Niveau.
Beträgt die Wahrscheinlichkeit des gefundenen oder eines extremeren Untersuchungsergebnisses unter der Annahme, die Ho sei richtig, höchstens 5%, so wird dieses Ergebnis als signifikant bezeichnet. Beträgt diese Wahrscheinlichkeit höchstens 1%, so ist das Ergebnis sehr signifikant (synomym: hoch ..... sign iflkant).~
Die Wahl des Signifikanzniveaus ist abhängig von der Stichprobengröße einerseits und von den Konsequenzen eines Fehlers andererseits. Bei großen Stichproben (n > 1000) sollte das l%-Niveau gewählt werden. Gleiches gilt, wenn eine Fehlentscheidung zugunsten der Hi gravierende Folgen nach sich ziehen würde, bspw. dass eine neue Lernmethode mit neuen Schulbüchern im Schulunterricht eingeführt würde oder Präventionsprogramme implementiert würden, die sehr große Kosten nach sich ziehen. Alle mit dem statistischen Testen verbundenen Fragen sind - wie ein Blick auf die Formel zur Ermittlung des Standardfehlers zeigt - aufs engste mit der Stichprobengröße verknüpft. Je größer n, desto geringer der Standardfehler. Dieser nimmt proportional zur Quadratwurzel des Stichprobenumfanges ab. Dies bedeutet praktisch, dass man den Stichprobenumfang vervierfachen müsste, um den Standardfehler zu halbieren.
6.5 Einseitige und zweiseitige Tests Hypothesen können wie oben dargelegt gerichtet oder ungerichtet sein. Für gerichtete Hypothesen werden einseitige, für ungerichtete zweiseitige Tests durchgeführt Für den einseitigen Test ergibt sich folgende Situation: Überschreitet der Stichprobenmittelwert einen bestimmten Punkt, die Signifikanzschwelle oder Signifikanzhürde, so führt dies zur Ablehnung der Nullhypothese. Alle Stichprobenmittelwerte, die größer sind, liegen im Ablehnungsbereich, der in der Grafik blau dargestellt ist. Alle Werte im weißen Bereich links davon führen zur Beibehaltung der Ho (Annahmebereich). Bei Wahl des l%-Niveaus anstelle des S%-Niveaus rückt der Schwellenwert auf der x-Achse weiter nach rechts und a wird entsprechend kleiner. Es kann selbstverständlich vorkommen, dass Stichprobenmittelwerte zwischen den Schwellenwerten 1%- und S%-
141
Einseitige und zweiseitige Tests
Niveau liegen, d.h. das eine Mal (1%-Niveau) würde man sich für die Ho, das andere Mal (5%-Niveau) für die Hi entscheiden. Betrachten wir das zu Beginn dieses Kapitels dargestellte Beispiel einer Population von n = 2034 Personen, der Mittelwert des Alters flo beträgt 48,9 Jahre. Nun hätten wir bei der Stichprobe von n = 100 einen Altersmittelwert von 52,5 ermittelt und unsere Hypothese wäre, dass es sehr unwahrscheinlich ist, dass diese im Mittel deutlich ältere Stichprobe aus der Grundgesamtheit mit flo = 48,9 stammt. Für die gerichtet formulierte Hypothese ergibt sich die in Abb. 6-2 dargestellte Situation. x liegt im Ablehnungsbereich. d.li. die Nullliypotliese wird abgelelint und die Entsclieidung erfolgt pro Alternativliypotliese. Abb.6-2
Ho ablehnen
Ho annehmen
a I" = 48,9
x= 52,S
Bei der ungerichteten Hypothese und dem zweiseitigen Hypothesentest ergibt sich eine etwas veränderte Situation, die in Abb. 6-3 dargestellt ist Jetzt gibt es aufbeiden Seiten der Verteilung einen Ablehnungsbereich, da ja in der Hypothese nichts über die Richtung des Zusammenhangs ausgesagt wird. Die Irrtumswahrscheinlichkeit a wird nun zu gleichen Teilen auf die bei den Seiten aufgeteilt. Die Konsequenz ist folglich, dass die Signifikanzschwelle bei der gerichteten Hypothese niedriger ist, denn dann ist - bildlich gesprochen - alle Irrtumswahrscheinlichkeit an einer Seite angelagert, so dass die Chance, dass der Stichprobenmittelwert nicht mehr im Annahmebereich der Nullhypothese liegt, größer ist. Und tatsächlich liegt in unserem Beispiel der Stichprobenmittelwert von 52,5 Jahren jetzt außerhalb des verkleinerten Signifikanzbereichs und wir würden in diesem Fall die Ho annehmen.
Die Logik des statistischen Schließens
142
Abb.6-3
Ho ablehnen
Ho annehmen
Hoablehnen
a/2 X= 52,5
1J,O=48,9
Beim Testen von Hypothesen sind zwei Punkte unbedingt zu beachten: Erstens müssen die Hypothesen vor dem Test formuliert werden. Also es muss vorher klar sein, ob die Hypothese gerichtet oder ungerichtet ist und ob dementsprechend ein einseitiger oder zweiseitiger Test durchzuführen ist. Eine spätere Modifikation der Hypothese mit dem Ziel, die Hi annehmen zu können, ist nicht statthaft.
Zweitens sollte die Zahl der Hypothesentests möglichst gering gehalten werden, denn bei einer hinreichend großen Zahl wächst aufgrund der gegebenen Irrtumswahrscheinlichkeit die Gefahr, sich irrtümlich für die Alternativhypothese zu entscheiden.
6.6 Alpha-Fehler und Beta-Fehler Das inferenzstatistische Hypothesentesten bezieht sich immer auf die Grundgesamtheit, deren Parameter meist unbekannt sind. Ob die in den Hypothesen formulierten Zusammenhänge "stimmen", wird immer mit Blick auf die Grundgesamtheit untersucht und nicht lediglich beschränkt auf die Stichprobe. Beim Entscheidungsprozess Nullhypothese versus Alternativhypothese existieren nun prinzipiell vier Varianten für eine richtige bzw. falsche Entscheidung: In der Grundgesamtheit gilt die
Entscheidung aufgrund der Stichprobe (empirische Studie)
Ho
H,
Ho
richt ige Entscheidung
ß-Fehler (Fehler 2. Art)
H,
a-Fehler (Fehler 1. Art)
richtige Entscheidung
Alpha-Fehler und Beta-Fehler
143
Unproblematisch ist das Feld Ho/Ho, d.h. in der Grundgesamtheit gilt die Ho und aufgrund der Ergebnisse der Stichprobe entscheidet man sich richtigerweise ebenfalls für die Ho. Ein Beispiel: Die Ergebnisse einer Studie an der Uni Marburg zeigen keine Unterschiede zwischen Studierenden der Medizin und Ingenieurstudierenden hinsichtlich der wöchentlich für das Studium benötigten Zeit. Gleiches gilt in der Grundgesamtheit. Ähnlich verhält es sich im Fall Hi/Hi, wenn man sich aufgrund der Ergebnisse der Stichprobe für die H, entscheidet. Die Stichprobe zeigt: Studierende der Medizin verbringen wöchentlich mehr Zeit mit dem Studium als Studierende der Soziologie. Dies gilt auch in der Grundgesamtheit, die Entscheidung ist richtig. Die Kombinationen Ho/Hi bzw. Hi/Ho stellen hingegen fehlerhafte Entscheidungen dar. Im einen Fall [Hi /Ho] entscheidet man sich aufgrund der Ergebnisse der Stichprobe für die Hi Ga, es gibt einen Unterschied zwischen den beiden Gruppen), aber in der Grundgesamtheit gilt die Nullhypothese (also kein Zusammenhang). Diesen Fehler bezeichnet man als Fehler erster Art (engl. type I error) oder Alpha-Fehler. Bei der Kombination Hc /Hi gilt genau das Umgekehrte: Man entscheidet sich aufgrund der Stichprobenergebnisse für die Beibehaltung der Ho, aber in der Grundgesamtheit gilt die Hi (entgegen den Ergebnissen der Studie unterscheiden sich Medizinstudierende und Ingenieursstudierende doch). Diesen Fehler bezeichnet man als Fehler zweiter Art (eng!. type II error) oder Beta-Fehler. Wie man die Alpha-Irrtumswahrscheinlichkeit, die Wahrscheinlichkeit für den Fehler erster Art, bestimmen kann, wurde in diesem Kapitel ausführlich beschrieben. Ein vergleichbares Verfahren für die Bestimmung des Beta-Fehlers existiert aber nicht. Warum dies so ist, lässt sich leicht nachvollziehen: Der BetaFehler soll ja angeben, wie wahrscheinlich es ist, dass der gefundene Mittelwert der Stichprobe aus einer (alternativen) Verteilung mit dem Mittelwert ui und dem Standardfehler ai stammt. Nun weiß man aber gar nichts über eine solche Verteilung und kann folglich auch keinen Verteilungsmittelwert und keinen Standardfehler schätzen. Theoretisch könnte es sich um unendlich viele alternative Verteilungen handeln. Der Beta-Fehler lässt sich nur dann bestimmen, wenn man eine spezifische Hypothese formuliert, also eine Information über u: und ai besitzt. Nur für diesen Fall ist man in der Lage, die Wahrscheinlichkeit zu bestimmen, dass der Mittelwert der Stichprobe aus einer Kennwerteverteilung mit eben diesen beiden Parametern stammt. Spezifische Hypothesen werden in der erziehungs- und sozialwissenschaftlichen Forschung aber nur selten formuliert und insofern findet man in der Forschungsliteratur auch nur selten Angaben zu Beta-Fehlern, während die Alpha-Irrtumswahrscheinlichkeit einen auf Schritt und Tritt begleitet.
144
Die Logik des statistischen Schließens
6.7 Signifikanz - ein Begriff, der in die Irre führen kann Signifikant, das wissen diejenigen die in der Schule Latein lernen konnten (mussten), bedeutet entscheidend, wichtig, bedeutsam. So könnte man denn auch annehmen, dass ein signifikantes Ergebnis eben ein bedeutsames ist. Manche schließen aus dem Begriff "signifikant" sogar, dass damit ein Ergebnis der empirischen Studie bewiesen sei. Das ist aber gerade nicht die Bedeutung, wenn ein Forschungsresultat als statistisch signifikant bezeichnet wird. Beim statistischen Hypothesentest bedeutet die Formulierung, dass ein Ergebnis signifikant ist, lediglich, dass die Wahrscheinlichkeit, dass dieses zufällig entstanden ist, also aus der Nullhypothese erklärt werden kann, gering ist. Diese reduzierte Bedeutung des Untersuchungsbefunds "signifikant" mag auf den ersten Blick enttäuschend klingen, denn es ist eben nicht so, dass man durch einen statistischen Test die "Wahrheit" finden könnte oder ihr doch zumindest immer näher käme. Nein, man findet keine Wahrheiten, sondern man muss immer mit einem a-Fehler rechnen. Die Art und Weise, wie die Entscheidung für die Alternativhypothese gefällt wird, ist alles andere als einfach und direkt - für Außenstehende ist sie nicht leicht verständlich. Die Entscheidung für die Alternativhypothese erfolgt immer nur indirekt, nämlich als Umkehrschluss. Umgekehrt: Auch ein nichtsignifikantes Ergebnis ist keineswegs ein Beleg für die Richtigkeit der Nullhypothese. Sie ist damit keineswegs bewiesen und aus dem Tatbestand, dass die Alpha-Irrtumswahrscheinlichkeit bspw. 6% beträgt, lässt sich keineswegs der Schluss ziehen, die Nullhypothese gelte mit 94% Sicherheit. Auch aus einer hohen Irrtumswahrscheinlichkeit und der daraus folgenden klaren Entscheidung pro Ho lässt sich keine Aussage über die Wahrscheinlichkeit der Gültigkeit der Ho ableiten. Es lässt sich lediglich behaupten, dass das empirische Ergebnis gut mit der Ho vereinbar ist, aber es ist ein Fehlschluss anzunehmen, dass die Ho umso richtiger sei, je höher die Alpha- Irrtumswahrscheinlichkeit ist. Gleiches gilt für die H 1 : Hat man sich bspw. aufgrund von a< 1% für die H 1 entschieden, so kann man deshalb noch lange nicht behaupten, diese gelte mit einer Wahrscheinlichkeit größer 99%. Generell gilt, dass sich die Irrtumswahrscheinlichkeit in folgenden Fällen vermindert: mit größer werdender Differenz von Stichprobenmittelwert und Mittelwert der Grundgesamtheit, mit kleiner werdender Populationsstreuung und mit vergrößertem Stichprobenumfang. Vor allem in der Nähe der Signifikanzschwelle befindet man sich also in einem recht unsicheren Terrain, weiß man doch, dass eine Erhöhung der Stichproben-
145
Effektgröße
größe in einer zukünftigen Untersuchung höchstwahrscheinlich zu einem signifikanten Ergebnis führen würde. Zudem ist es so, dass bei genügend großer Stichprobe hypothesenkonforme Unterschiede immer signifikant werden. Auch dies stellt in der öffentlichen Kommunikation über Ergebnisse wissenschaftlicher Forschung ein Problem dar, weil hierdurch auch substantiell ziemlich irrelevante Ergebnisse als signifikant (gleich bedeutsam) dargestellt werden. Die inhaltliche Bedeutsamkeit ist eine Frage der absoluten Differenz von Stichprobenmittelwert und Mittelwert der Grundgesamtheit und nicht eine Frage, die durch den Signifikanztest beantwortet wird. ...
6.8 Effektgröße Die Effektgröße (eng!. effeet size], häufig auch Effektstärke genannt, ist ein Maß für die praktische Bedeutsamkeit eines gefundenen Zusammenhangs. Die Signifikanz ist, wie dargestellt, abhängig von der Stichprobengröße und insofern kein geeignetes Maß, um einschätzen zu können, ob ein Ergebnis wirklich praktisch bedeutsam ist. Ob Mittelwertsunterschiede zwischen Experimentalgruppe und Kontrollgruppe - oder allgemein formuliert zwischen zwei Gruppen - von praktischer Bedeutung sind, ist natürlich zuallererst eine Frage der theoretischen Bewertung. Wenn ein pädagogisches Frühförderprogramm bei drei jährigen Kindern bspw. dazu führt, dass nach einer sechsmonatigen Intervention bei einem kognitiven Test im Mittel 102 anstelle von 98 Punkten erreicht werden, so bedarf dies vorrangig einer pädagogischen Bewertung, bei der sicherlich auch die Kosten eines solchen Programms nicht unberücksichtigt bleiben können. Die Effektgröße als Maßzahl liefert für eine solche Bewertung eine wertvolle Grundlage, denn sie setzt die Unterschiede zwischen den bei den Gruppenmittelwerten ins Verhältnis zur Standardabweichung der Population, d.h. es findet eine Art Normierung statt, welche die Vergleichbarkeit von Resultaten ermöglicht. Vergleichen lassen sich mittels der Maßzahl .Effektgröfse" nicht nur verschiedene empirische Studien, sondern auch Ergebnisse, die mit verschiedenen Messinstrumenten erhoben wurden. Insofern ist die Effektgröße insbesondere für Metaanalysen, in der Resultate unterschiedlicher empirischer Studien miteinander verglichen werden, von besonderer Bedeutung. Die Effektgröße für die standardisierte Mittelwertsdifferenz (in Kapitel 7 wird hierüber mehr ausgeführt) wird nach folgender Formel bestimmt: Effektgröße für Mittelwertsdifferenzen
= /11 ~ /12 a
146
Die Logik des statistischen Schließens
Die griechischen Buchstaben lassen erkennen, dass sich alle Größen der Gleichung auf Parameter der Grundgesamtheit beziehen. In den meisten Fällen liegen diese nicht vor, sondern müssen aus den empirisch ermittelten Kennwerten der beiden Gruppen geschätzt werden. Cohen (1988) unterscheidet zwischen drei Effektstufen bei Mittelwertsdifferenzen: kleine (0,2), mittlere (0,5) und große Effekte (0,8). Effektstärkenmaße existieren in zahlreichen Formen und für unterschiedliche Anwendungen, also nicht nur für Mittelwertsdifferenzen. In Kombination mit Überlegungen zu Alpha- und Beta-Irrtumswahrscheinlichkeiten, die man zu akzeptieren bereit ist, gestatten solche Maße nicht nur eine A-posterioriBestimmung der Effektgröße, sondern mit ihrer Hilfe lassen sich auch für geplante Untersuchungen optimale Stichprobengrößen bestimmen, um so eine angestrebte Effektgröße auch nachweisen zu können (vgl. Bortz 2005: 125ff.).
7
t- Test: zwei Mittelwerte vergleichen
In Kapite l 3 wurde das Verfahre n zum Berechne n eines Mitte lwerts besc hrieben und der Hinweis gegeben, dass man anha nd von Mi tte lwerten Datenmeng en s chnell zusammenfassend beschr eiben kann. In der deskrip tiven Sta tistik können Mitt elwerte leicht miteinander verglichen werden: Beispielsweise könnte man fests tellen, da ss sich die Mädchen einer Kindergartengruppe durc hschnittlich schneller die Schuhe binden als die [ungen, Die schließende Sta tisti k geht jed och über ein en solchen Vergleich hinaus, sie w ill von in Stichpro ben gemessenen Werten auf d ie Werte der Grundgesamtheit schließen. Das hei ßt man möchte nun w issen, i nwiew eit man einen Unt er schi ed, den man in ei ner bzw,
zwei Zufallsstichpr oben ermittelt hat, auf die Grundgesam theit verallgemeinern kann : Sind Mädchen generell motori sch geschickter und binden s ich de sha lb schneller die Schuhe als Jungen? Oder ist der Unterschied zufä llig entstanden, Z.B. weil die Mädchen zum großen Teil in einer Ki nderg artengruppe sind, in der ein Praktikant vor kurzem das Schuhebinden mit den Kindern geü bt hat? Mithilfe des t-Tests, der in diesem Kapitel er läute rt wird, kann man ermitteln, ob der Unterschied zwisc hen zwei Mittelwerten signifikant ist. Es gibt nicht nur eine n, sondern verschiedene t-Tests. In Abb. 7-1 ist ei n Entscheidungsbaum dargestellt, dem zu entn ehmen ist, welcher t-Test wann angewendet werden kann. Abhängige und unabhängige Stichpraben Als ers tes ist zu klär en, ob es sich um abhängige (engl. de pendent) oder una bhän gige (en gl. independent) Stichproben handelt. Eine unabh ängige Stichprobe liegt dann vor, we nn die Pers onen der zwei Stichpro be n in keiner sich beeinfluss end en Beziehung stehen, bspw. eine Stichprobe von 50 Grundschulkindern in Berlin und eine Stichpro be von 50 Grundschulkind ern in Hamburg.
t- Test: zwei Mittelwerte vergleichen
148
Abb. 7-1: Entscheidungsbaum für die Auswahl des geeigneten t-Testes Zwei Mittelwerte vergleichen
homogene Varianzen
I
t-Test für homogene Varianzen
(KapiteI7.1)
I
unabhängige
abhängige
Stichproben
Stichproben
heterogene Varianzen
I
t-Test für heterogene
t-Test für
Varianzen
abhängige Stichproben
(KapiteI7.1)
(Kapitel 7.2)
Um abhängige Stichproben handelt es sich, wenn sich die Messwerte der bei den Stichproben paarweise verbinden lassen. Das ist insbesondere dann der Fall, wenn bei der gleichen Stichprobe ein Merkmal zu zwei verschiedenen Zeitpunkten erhoben wird, bspw. wenn bei einer pädagogischen Maßnahme des Jugendamts für Scheidungskinder die Stressbewältigungsfähigkeit der Kinder vor und nach der Teilnahme an der Maßnahme erhoben wird. Um abhängige Stichproben handelt es sich auch, wenn Geschwisterpaare, Ehepaare oder Mütter und ihre Kinder befragt werden. Messwerte aus unabhängigen Stichproben: die Messwerte der bei den Gruppen stehen in keiner Beziehung zueinander z.B.: Anzahl der besuchten Weiterbildungsveranstaltungen von Männern und Frauen oder die Einstellung zu Atomkraft von Personen in der Stadt und auf dem Land.
Messwerte aus abhängigen Stichproben: die Messwerte lassen sich paarweise verbinden z.B.: Die Stressbewältigungsfähigkeit von Kindern vor und nach der Teilnahme an einer pädagogischen Maßnahme des Jugendamtes oder die Einstellung zur Elternzeit von Ehefrauen und ihren Ehemännern.
Mittelwerte von zwei unabhängigen Stichproben vergleichen
149
Varianzhomogenität und -heterogenität Liegen zwei unabhängige Stichproben vor, muss als nächstes die Varianzhomogenität getestet werden. Varianzhomogenität ist dann gegeben, wenn sich die Varianzen des Merkmals in den bei den Stichproben, z.B. Grundschulkinder auf dem Land und Grundschulkinder in der Stadt, nicht signifikant voneinander unterscheiden. Üblicherweise wird die Varianzhomogenität mit dem Levene- Test überprüft. Ein signifikantes Ergebnis des Levene- Tests bedeutet, dass die Varianzen heterogen sind, sich also unterscheiden.
7.1
Mittelwerte von zwei unabhängigen Stichproben vergleichen
Angenommen man habe das Klimabewusstsein von Grundschulkindern auf dem Land und Grundschulkindern in der Stadt von zwei Zufallsstichproben mit jeweils 100 Kindern gemessen und die folgenden Mittelwerte für eine Skala .Klimabewusstsein" berechnet: Grundschulkinder Stadt: 21,0
Grundschulkinder Land: 19,1
Mit Hilfe des t- Tests lässt sich - wie eingangs ausgeführt - analysieren, wie wahrscheinlich es ist, dass die Mittelwertsdifferenz von 1,9 Punkten zufällig durch die Zusammensetzung der Stichproben entstanden ist. Bei der Durchführung des t- Tests für zwei unabhängige Stichproben werden zunächst die zu testende Alternativ- und Nullhypothese aufgestellt
Formulieren der Hypothesen Man kann entweder eine gerichtete oder eine ungerichtete Hypothese aufstellen (vgl. Kapitel 6). Ungerichtete Hypothesen postulieren lediglich einen Unterschied zwischen zwei Gruppen: "Die Lesefähigkeit deutscher Grundschulkinder unterscheidet sich von der Lesefähigkeit finnischer Grundschulkinder". Gerichtete Hypothesen beinhalten auch eine Aussage über die Richtung des Unterschieds: "Die Lesefähigkeit deutscher Grundschulkinder ist geringer als die von finnischen Grundschulkinder." Für unser Beispiel lassen sich also folgende Hypothesen aufstellen, wobei die griechischen Buchstaben zeigen, dass es sich natürlich um Hypothesen über die Grundgesamtheit handelt.
t- Test: zwei Mittelwerte vergleichen
150
ungerichtet (=zweiseitig)
Alternativhypothese Ht
Nullhypothese Ho
Das Klimabewusstsein von Grundschulkindern in der Stadt und auf dem Land unterscheidet sich :
Das Klimabewusstsein von Grundschulkindern in der Stadt und auf dem Land unterscheidet sich nicht:
usuuu. gerichtet (=einseitig)
* Jhand
uscou. = Jhand
Grundschul kinder in der Stadt haben ein größeres Klimabewusstsein als Grundschul kinder auf dem Land: J!Stadt
Grundschulkinder in der Stadt haben ein kleineres oder gleich großes Klimabewusstsein als Grundschulkinder auf dem Land:
> Jhand
J!Stadt ~ Jhand
Berechnung der Prüfg röße t und der Freiheitsgrade für homogene Varianzen Nach der Formulierung der Hypothesen wird die Prüfgröße t berechnet, anhand derer man bestimmen kann, wie wahrscheinlich es ist, dass die gefundene Mittelwertsdifferenz auftritt. Für homogene Varianzen ist t definiert als Quotient von Mittelwertsdifferenz und Standardfehler der Mittelwertsdifferenz:
= Mittelwert der Stichprobe 1 = Mittelwert der Stichprobe 2 = geschätzter Standardfehler der
Mittelwertsdifferenz in der Grundge-
samtheit Was versteht man unter dem Standardfehler der Mittelwertsdifferenz? Wenn man (theoretisch) unendlich oft die Mittelwertsdifferenz von zwei Zufallsstichproben ermittelt, erhält man eine Verteilung. Die Streuung dieser Verteilung nennt man Standardfehler. Dieser Wert ist unbekannt und wird aus den Stichprobendaten anhand folgender Formel geschätzt, was darin zum Ausdruck kommt, dass der Buchstabe Sigma [o] ein Dach trägt: (ni - 1) . s{ (ni - 1) n,
= Anzahl der Fälle in Stichprobe 1
n, = Anzahl der Fälle in Stichprobe 2
+ (n, - 1) . s~ + (n, -1)
.
J
1 n,
+1 tta
st = Varianz der Stichprobe 1 s~
= Varianz der Stichprobe 2
151
Mittelwerte von zwei unabhängigen Stichproben vergleichen
Berechnen wir nun die Prüfgröße t für die unterschiedlichen Mittelwerte des Klimabewusstseins für die Stichprobe auf dem Land und die Stichprobe in der Stadt anhand der folgenden Daten: Grundschulkinder Stadt
Grundschulkinder Land
Mittelwert Klimabewusstsein i\ = 21,0
Mittelwert Klimabewusstsein X2 = 19,1
Stichprobengröße: n 1 = 100 Kinder
Stichprobengröße: n 2 = 100 Kinder
Standardabweichung:
Standardabweichung:
Varianz
si
(Tl
= 2,5
Varianz
= 6,2
si
(T2
= 2,5
= 6,4
Zunächst wird auf der Grundlage der Varianzen in den beiden Stichproben der Standardfehler der Mittelwertsdifferenz geschätzt: (100 - 1) . 6,2 2 + (100 - 1) . 6,42 (100 - 1)
+ (100 -
1)
Nun kann der geschätzte Standardfehler in die Formel zur Berechnung der Prüfgröße t eingesetzt werden und es ergibt sich: Xl
-xz
t=--8CXI-XZ)
21,0 - 19,1 0,89 = 2,13
Wie in Kapitel 5 erläutert, gibt es nicht eine t-Verteilung, sondern unendlich viele t-Verteilungen. Die Form einer t-Verteilung hängt von der Anzahl der Freiheitsgrade ab, die beim t- Test für zwei unabhängige Stichproben wie folgt bestimmt werden: Freiheitsgrade d f
= (n i -
1)
+ (n, -
1)
=
n,
+ tta -
2
Für unser Beispiel gilt also: df
= 100 + 100 -
2
= 198
Berechnung der größe t und der Freiheitsgrade für heterogene Varianzen Sind die Varianzen der beiden Stichproben heterogen, muss eine im Nenner leicht veränderte Formel für die Bestimmung der Prüfgröße t verwendet werden.
152
t- Test: zwei Mittelwerte vergleichen
Prüfgröße t für heterogene Varianzen
Xl
x2 sf
=
Mittelwert der Stichprobe ls~= Varianz der Stichprobe 2 Mittelwert der Stichprobe 2n 1 = Anzahl der Fälle in Stichprobe 1 = Varianz der Stichprobe 1 n z = Anzahl der Fälle in Stichprobe 2
Auch die Freiheitsgrade werden bei Stichproben mit heterogenen Varianzen nach einer anderen Formel berechnet. Wenn man diese veränderte Formel anwendet, können sich für djnicht-ganzzahlige Werte ergeben. Zum Beispiel ist im Abschnitt 7.3 in den Ergebnistabellen von SPSS und SYSTAT für heterogene Varianzen ein Wert von df= 1955,296 aufgeführt, während die Berechnung der Freiheitsgrade für homogene Varianzen zu einem Ergebnis von df= 2011 kommt. Zufallswahrscheinlichkeit der Prüfgröße t bestimmen Es gibt zwei Varianten, um die Zufallswahrscheinlichkeit der Prüfgröße t zu bestimmen. In der heute üblichen Variante greift man auf den exakten Signifikanzwert zurück, der von einer Statistiksoftware ausgegeben wird. Für eine Prüfgröße t und eine bestimmte Anzahl von Freiheitsgraden erhält man dort den zugehörigen Signifikanzwert, wie z.B. p = 0,568 oder p = 0,047. Im ersten Fall wird die Nullhypothese beibehalten, da die Irrtumswahrscheinlichkeit mit 56,8% über 5% liegt. Im zweiten Fall ist die Irrtumswahrscheinlichkeit p mit 4,7% geringer als 5% und man entscheidet sich demzufolge für die Alternativhypothese (vgl. Kapitel 6.4). Bei der zweiten Variante vergleicht man den empirisch berechneten t-Wert mit einem sogenannten kritischen t-Wert. Für dieses Vorgehen nimmt man tabellarische Darstellungen von t-Verteilungen zu Hilfe, denen für verschiedene Irrtumswahrscheinlichkeiten sogenannte kritische t-Werte zu entnehmen sind, die die Signifikanzgrenzen angeben. Wenn die empirisch ermittelte Prüfgröße t den für ihre Freiheitsgrade maßgeblichen kritischen t-Wert überschreitet, bezeichnet man das Ergebnis als signifikant. Jede Spalte der t- Tabelle im Anhang B enthält die kritischen t-Werte für eine bestimmte Irrtumswahrscheinlichkeit. Man kann erkennen, dass die kritischen t-Werte kleiner werden, je größer die Anzahl der Freiheitsgrade ist. Für kleine Stichproben muss also ein höherer t-Wert überschritten werden. Den kritischen t-Wert ermittelt man, indem man den Wert in der Tabelle identifiziert, der sich im Kreuzungspunkt von Signifikanzniveau und den Freiheitsgraden befindet.
Mittelwerte von zwei unabhängigen Stichproben vergleichen
153
Wir testen nun die ungerichtete Alternativhypothese H1 "Das Klimabewusstsein von Grundschulkindern in der Stadt und auf dem Land unterscheidet sich" und legen dabei das Signifikanzniveau auf 5% fest. Die Anzahl der berechneten Freiheitsgrade von df= 98 ist jedoch in keiner Zeile der t-Tabelle aufgeführt. Daher muss der nächst niedrigere Wert für df identifiziert werden, in diesem Fall der Wert df= 60. Aus der t-Tabelle kann in der Zeile für die Anzahl von 60 Freiheitsgraden und der Spalte für eine zweiseitige Fragestellung mit der Irrtumswahrscheinlichkeit 5% ein kritischer t-Wert von 2,00 abgelesen werden. Die oben errechnete Prüfgröße t übersteigt also den kritischen t-Wert. ....
.P.r'""üfgröße t = 2,13
>
kritischen-Wert = 2,0 "'0 "-
..1
Der Mittelwertunterschied der beiden Gruppen ist demnach auf dem 5%-Niveau signifikant und wir entscheiden uns mit einer Irrtumswahrscheinlichkeit von maximal 5% für die Alternativhypothese. nämlich dass sich das Klimabewusstsein von Grundschulkindern in der Stadt und auf dem Land unterscheidet. Die grundsätzlichen Entscheidungsregeln sind noch einmal in folgendem Kasten veranschaulicht Der t- Tabelle kann man einen kritischen t-Wert tem entnehmen. Ist der Betrag der Prüfgröße t größer als dieser Wert, ist der Mittelwertsunterschied signifikant. Ist die Prüfgröße t kleiner oder gleich groß, ist der Mittelwertsunterschied nicht signifikant. Entscheidungsregel für Alternativ- oder Nullhypothese: Prüfgröße t> tem = Entscheidung für die Alternativhypothese Hi Prüfgröße t < tilfn = Entscheidung für die Nullhy p.:I00~th~e..s:oe..H ..o....
...
Effektstärke beim t-Test für unabhängige Stichproben Wie entscheidet man nun, ob eine gefundene signifikante Mittelwertsdifferenz als groß oder als klein zu interpretieren ist? Hierfür haben wir in Kapitel 6.8 die Effektstärke eingeführt, die beim t- Test über die Stärke der Mittelwertsdifferenz informiert. Die Effektstärke wird beim t-Test für unabhängige Stichproben nach folgender Formel bestimmt:
Effektstärke einer Mittelwertsdifferenz
x -x
=~ "p
Xl
Xz 8p
Mittelwert der Stichprobe 1 als Schätzung für die Grundgesamtheit Mittelwert der Stichprobe 2 als Schätzung für die Grundgesamtheit geschätzte Standardabweichung der Grundgesamtheit (Population)
t- Test: zwei Mittelwerte vergleichen
154
Bei der Berechnung der Effektstärke wird also die Differenz der bei den Mittelwerte durch die Standardabweichung geteilt und dadurch normiert. Es existieren verschiedene Effektstärkemaße für den t- Test bei unabhängigen Stichproben, die sich darin unterscheiden, wie sie die Standardabweichung 8 p in der Grundgesamtheit schätzen. Häufig in der Literatur anzutreffende Effektstärkemaße sind "Cohens d" und .Hedges g". Cohens d wird bspw. folgendermaßen berechnet:
Für unser Beispiel ergibt sich also: _ 2 1~,=: 0 =-=10=:9''01
J2,S; 2,S
~
0,76
Nach Cohen (1988) betrachtet man eine Effektstärke von d = 0,2 als niedrig, von
d = 0,5 als mittel und von d = 0,8 als hoch. Für unser obiges Beispiel berechnen wir ein Cohens d von 0,76, was also einem mittleren Effekt entspricht Der Unterschied zwischen den Kindern auf dem Land und den Kindern in der Stadt von 1,9 Skalenpunkten beim Klimabewusstsein ist also als mittelgroß zu betrachten. Voraussetzungen für den t-Test bei unabhängigen Stichproben Um überhaupt einen t-Test durchführen zu können, müssen zwei Grundvoraussetzungen für die Durchführung erfüllt sein: Da der t- Test auf der Basis von Mittelwerten berechnet wird, muss die untersuchte Variable Intervallskalenniveau besitzen und zweitens sollte das Merkmal für kleine Stichproben in der Grundgesamtheit annähernd normalverteilt sein.
7.2 Mittelwerte von zwei abhängigen Stichproben vergleichen Wie zu Beginn dieses Kapitels erläutert, können bei abhängigen Stichproben immer zwei Messwerte miteinander verbunden werden, weshalb man manchmal auch von verbundenen Stichproben (engl. paired sampies) spricht. Wenn bspw. die Einstellung zur Elternzeit bei Ehepaaren gemessen wird, kann jeder Messwert einer Frau mit dem Messwert ihres Mannes verbunden werden und
155
Mittelwerte von zwei abhängigen Stichproben vergleichen
die bei den Messwerte bilden ein sogenanntes Wertepaar. Während bei unabhängigen Stichproben nur die Mittelwerte der beiden Stichproben betrachtet werden und in die Berechnung der Prüfgröße t einfließen, wird bei abhängigen Stichproben zunächst die Differenz jedes Wertepaares gebildet. Nehmen wir einmal an, in einer Grundschulklasse mit 16 Kindern wird eine Projektwoche zum Thema "Das Internet" durchgeführt Mit Hilfe eines t- Tests wird untersucht, ob die Medienkompetenz der Kinder nach der Projektwoche gestiegen ist. Dafür wird die Medienkompetenz der Kinder vor und nach der Projektwoche anhand einer Skala mit möglichen Ergebnissen zwischen 10 und 30 Punkten gemessen. Für jedes Kind ergeben sich also zwei Messwerte, die ein Wertepaar bilden. Für die gesamte Klasse werden die folgenden Mittelwerte berechnet: Medienkompetenz vorher: 18,1
Medienkompetenz nachher: 20,8
Anhand eines t- Tests soll nun überprüft werden, ob die Mittelwertsdifferenz von 2,7 Punkten mit dem Zufall erklärt werden kann oder ob die Medienkompetenz der Kinder nach der Projektwoche signifikant gestiegen ist und man darauf schließen kann, dass eine solche Projektwoche generell zu einer Steigerung der Medienkompetenz bei Grundschulkindern führt. Formulieren der Hypothesen Vorab werden wiederum die zu testende Null- und Alternativhypothese formuliert und die Entscheidung für eine gerichtete oder ungerichtete Fragestellung gefällt. Wir haben schon vor der Projektwoche die gerichtete Alternativhypothese aufgestellt, dass solch eine Projektwoche dazu führt, dass die Grundschulkinder nach der Durchführung eine höhere Medienkompetenz besitzen als vorher.
ungerichtet (=zweiseitig)
gerichtet (=einseitig)
Alternativhypothese H 1
Nullhypothese Ho
Die Medienkompetenz vor und nach der Projektwoche unterscheldet sich:
Die Medienkompetenz vor und nach der Projektwoche unterscheidet sich nicht:
Jivor;j:. Jinach
Ji vor = Jinach
Die Medienkompetenz ist nach der Projektwoche größer als vor der Projektwoche:
Die Medienkompetenz ist nach der Projektwoche kleiner oder gleich groß wie vorher:
Jivor< Jinach
Jivor
> Jinach
t- Test: zwei Mittelwerte vergleichen
156
Berechnung der Prüfg röße tfür abhängige Stichproben Grundlage für die Berechnung der Prüfgröße t für abhängige Stichproben ist folgende Tabelle: Tab. 7-1 vor Projektwoche
Medienkompetenz nach Projektwoche
Differenz
1
18,5
20,3
1,8
2
19,0
18,5
-0,5
3
17,2
20,6
3,4
n
Xn ,
xn ,
Fall i
Medienkompetenz
xm = xn 1
Summe der Differenzen:
Lf-lXDi
-
xn 2
= 58,3
Mittelwert der Differenzen: XD = 5:~3
: : ; 3,6
Jede Zeile der Tabelle enthält die Messwerte eines Kindes vor und nach der Projektwoche. In der letzten Spalte ist die Differenz dieser bei den Werte abgebildet, wobei auf das Vorzeichen geachtet werden muss. In den beiden untersten Zeilen wird die Summe aller Differenzen gebildet und anschließend durch die Anzahl der Fälle, in diesem Fall 16 Grundschulkinder, geteilt, um den Mittelwert der Differenzen zu bestimmen. Die Formel für die Berechnung der Prüfgröße t lautet: Prüfgröße tfür abhängige Stichproben Xv
8v
n
=
Mittelwert der Mittelwertsdifferenzen aller Wertepaare geschätzter Standardfehler der Mittelwertsdifferenz in der Grundgesamtheit = Anzahl der Wertepaare
In Tab. 7-1 ist ersichtlich, dass für jedes Wertepaar zunächst die Differenz XVi der beiden Messwerte Xii und XiZ gebildet wird, d.h. für jedes Kind wird die Differenz der Medienkompetenz vor und nach der Projektwoche berechnet. Anschließend werden alle Differenzen aufsummiert und durch die Anzahl der Wertepaare geteilt.
Mittelwerte von zwei abhängigen Stichproben vergleichen
157
n XVi Xii
x iZ
n
= = =
Differenz der Wertepaare Xii und Wert 1 eines Wertepaares Wert 2 eines Wertepaares Anzahl der Wertepaare
XiZ
Wie man der letzten Zeile der Tabelle entnehmen kann, ergibt sich ein Mittelwert der Differenzen von Xv = 3,6 Stunden. Nun muss der Standardfehler der Differenz 8 D für die Grundgesamtheit geschätzt werden. Die Formel hierfür lautet:
IY-l(X V i ~ XV ) 2 n-1 XVi
Xv
n
= = =
Differenz der Wertepaare Xii und x iZ Mittelwert der Mittelwertsdifferenzen aller Wertepaare Anzahl der Wertepaare
Für jedes Wertepaar wird also von der Differenz der beiden Messwerte (letzte Spalte der Tab. 7-1) der Mittelwert der Differenzen abgezogen und das Ergebnis quadriert. Anschließend wird durch n-1 geteilt und die Wurzel gezogen. Für das Beispiel bedeutet dies: (1,8 - 3,6)2
+ (3,5
- 3,6)2 + (3,4 - 3,6)2 16 -1
+ usw.
~ 2,1
Nun können die beiden Werte in die Formel zur Berechnung der Prüfgröße t eingesetzt werden und es ergibt sich eine Prüfgröße t = 0,43 Xv
1
3,6
1
2,1
v'I6
t=_·_=_·_~
fiv..;n
043
'
Ermittlung der Freiheitsgrade df Die Anzahl der Freiheitsgrade beim t- Test für abhängige Stichproben beträgt: df
= n-1
Für unser Beispiel mit den 16 Grundschulkindern ergeben sich also 16-1 = 15 Freiheitsgrade.
t-Test: zwei Mittelwertevergleichen
Zujallswahrscheinlichkeit der Prüjgröße t bestimmen Ein Statistikprogramm gibt für die Anzahl von 15 Freiheitsgraden und die Prüfgröße t= 0,43 einen Signifikanzwert von p = 0,338 aus, weshalb eine Entscheidung für die Ha getroffen wird, da dieser Wert von 33,8% über der Signifikanzschwellevon 5% liegt. Aus der t -Tab elle entnehmen wir für das 5%-Niveau den kritischen Wert t= 1,75, und logischerweise ist auch hier das Ergebnis nicht signifikant, da die empirisch berechnete Prüfgröße t= 0,43 erheblich kleiner ist. Die unt erschiedliche Medienkompetenz vor und nach der Projektwoche lässt sich au f den Zufall zurückführen. Die Projektwoche hatte keinen signifikanten Einfluss au f die Medienkompetenz von Grundschulkindern.
7.3 So geht es mit SPSSjSYSTAT t- Test für
unabhängige Stichproben in SPSS Um einen t-resr mit unabhängigen Stichproben zu berechnen, wählt man die Option "Analysieren> Mittelwerte vergleichen> t -Test bei unabhängigen Stichproben" aus. Im ersten Dialogfenster m uss zunächst die zu testende Variable (hier das Klimabewusstsein] ausgewählt werden.
Im 1 -T..t bei un,bh,n glgen 5ttch p'robe n .f Al ., n Ja hron l, l.,]
4? H"h e
Gn>ßo
.f Höch.t., BiId"n9sa '"
4? K~iN e~ lkroer]
IEI
!
I
f ~stelk>il 9 Umwehch
o«
~
Teolva riat>lo{n)
liÜ mgen
.. I zi I ~-'~~;;;lect.t(i
Ojl
b
[5l!!\~ non
:;;' KMMt>tw~..,.m(~
J
I
~-'Q teW
UeI(' e1zen J
At>brech~ n
~ j'~
Die zu vergleichenden Gruppen werden im unt er en Feld "Gruppenvariable" definiert. Ein Klick auf das Feld "Gruppe oer..." öffnet ein Fenster, in dem die beiden Gruppen bestimmt werden können. In unserem Beispiel wollen wir das Klimabewusstsein von Manner-n und Frauen vergleichen, wobei das Geschlecht mit 1 = männlich und 2 = weiblich codiert wurde. Daher geben wir nun im Dialogfeld die Werte 1 und 2 an. Für ordinal- und int erv alls kalia rt e Variablen er-
So geht es mit SPSSjSYSTAT
möglicht SPSS die Aufteilung in lediglich zwei Gruppen entlang eines einzugebenden Trennwertes, z.B. würde ein Wert von ,,30" die Variable Alter in die beiden Gruppen unter 30 Jahre und größer oder gleich 30 Jahre aufteilen, so dass diese beiden neu gebildeten Gruppen mit Hilfe des t- Tests verglichen werden.
Im G,upp.~ deli~i.,.~
@ An!l"!/Obe",, ~'~ ~'_ ~' 11 ""~_ - Gru;>pe !
Gru;>pe ~ 12
Cl ! "",,,wert
Nach einem Klick auf "OK" präsentiert SPSS zwei Tabellen.
....
,
..
v.,
V...-.llln:l
n<:lJt~<:h
''''76
.....,
, ",
ti
;
,twi o hio, di. Signifik,n, großor ,I, D,D5, bot"chtet m,n nu, die oboro Zello
0.1 0.1
3,16
~!,2-
M". ,..........
.~,
0,'4
...,.,
T_T.U:rdIB MIIIB.... _k:fohIIt
, .~
M'
3,16
10,1391
t.-Tatder
V"8IIZIII'I1IIn:l ~
920
""
"""
........ ...
SllIndllrdfulWr
M
.',884 -',884
•20"
...
,"'
.~,
0,'4
Die obere Tabelle informiert über die Anzahl der Fälle in den beiden Gruppen (N), die jeweiligen Mittelwerte, Standardabweichungen und Standardfehler des Mittelwerts. Die zweite Tabelle enthält das Ergebnis des t- Tests, wobei der Blick zunächst in die Spalte des Levene- Tests wandern sollte. Aus der Spalte "Signifikanz" kann abgelesen werden, ob die Variauzen homo- oder heterogen sind. Mit 0,630 ist in diesem Fall der Levene-Test nicht signifikant, d.h. Varianzhomogenität ist gegeben. In den restlichen Spalten muss daher die obere Zeile [Varianzen sind
t-T est: zwei Mittelwerte vergleichen
gleich) betrachtet werden. Der t-Wert beträgt -1,984, wobei das Vorzeichen für das Ergebnis des t-fests keine Bedeutung hat. Dieses hängt lediglich von der Reihenfolge der definierten Gruppen ab, vertauscht man die Reihenfolge, ändert sich auch das Vorzeichen. Die Anzahl der Freihei tsgrade beträgt 20 11 und die Irrtumswahrscheinlichkeit für den zweiseitigen Test (ungerichtete Fragestellung) p " 0,047. Das Ergebnis des t-Tests ist demnach auf dem SOlo-Niveau signifikant: Das Klimabewusstsein von Frauen und Männern unterscheidet sich. Für eine einseitige (gerichtete) Fragestellung muss der Wert der Signifikanz halbiert werden, wodurch ein Wert von p » 0,024 erreicht wird. Das Ergebnis wäre in solch einem Fall: Frauen haben ein höheres Klimabewusstsein als Männer. In SPSS existie rt keine vordefinierte Funktion, um sich automatisiert Effektstärken für Mittelwertsdifferenzen ausgeben zu lassen. t- Test für abhängige Stichproben in SPSS Der t-Test für zwei abhängige Stichproben wird in SPSS mittels der Option "Analysieren > Mittelwerte vergleichen> t-Test bei gepaarten Stichproben" aufgerufen. Im ersten Dialogfenster können die beiden Variablen ausgewählt werden. Diese erscheinen nicht, wie in SPSS sonst gewohnt untereinander, sondern nebeneinander als Variable l und Variable2. Beispielweise wurde in einer Schulklasse eine Projektwoche zum Thema "Energie und Umwelt" durchgeführt und vor und nach der Projektwoche das Klimabewusstsein der Kinder gemessen. Aus dem entstandenen Datensatz sind in der folgenden Abbildung die beiden Variablen . Kltmabewusstsein nachher" und .Kltmabewusstsetn vorher" ausgewähl t.
filiT-Tost b. i g.p aart en 5ltchR,ob en
QiOI Ge;>aarte Vor_
.49 Kio=l>e\llI'>Sl=
Klima b<w" ..t.. ~
,
Al e, la le 'l
,
SoIlu", [sollu", \
, ,
Anz.hl
, , ,
" te' . ... . mTh.m " t.r= .mTh. m " tor. ..e.mTh.m
,
-
z
I
Iw
" te' e... . mTh.m
.
I
,,,"",
ox
!iilm<>ne n J
V.na.ble2
49 Kmobe .
..
o"t>e ,
" 0.
,
Vaflable1 ' ue _ 1 _ ,47 KlrMbe
~
I l l~~ ~en "' lz"ruckset<erJ iLAbbfocl1 0R"
~
•
I~ "'
161
So geht es mit SPSSjSYSTAT
Die Ausgabe von SPSS besteht wie beim t-Test für unabhängige Stichproben aus zwei Tabellen: statistik bei g.paa.... n Stichproben
Miit< Klimabewusstsein nachher Klimabewusstsein \IOrher
rt
S1anclardfelier
S1andard-
M'
; h
N
da.
10,3846
52
3,92
0,54
9,3654
52
4,24
0,59
Tut bei gepaarten Stichproben
Klmabewusstseln nachherKlmabelMJSstsein \IOrher
...
"
~
1,02
Gepaarte Differenzen SlandardfetEr Standarddes 2,32
0,32
T
3,165
"'51
I
~,.,
""
""'
,003
Die erste Tabelle informiert über die Stichprobengröße, Mittelwerte, Standardabweichung und den Standardfehler der Mittelwerte der gepaarten Stichprobefn}. Die Anzahl der Fälle (N) ist hier natürlich mit 52 Fällen gleich groß, da es sich um dieselben Personen handelt. Enthält eine der bei den Variablen fehlende Werte, bspw. weil ein Kind bei einer der Untersuchungen gefehlt hat, schließt SPSS diesen Fall automatisch von der Berechnung aus. Der zweiten Tabelle sind die Ergebnisse des t- Tests zu entnehmen. Für den t-Wert von 3,165 und 51 Freiheitsgrade ergibt sich eine Signifikanz von p = 0,003 (zweiseitiger Test bei ungerichteter Fragestellung). Die Mittelwerte des Klimabewusstseins vor und nach der Projektwoche unterscheiden sich signifikant voneinander. t- Testfür unabhängige Stichproben in SYSTAT Um einen t-Test mit unabhängigen Stichproben mit SYSTAT zu berechnen, wählt man im Menü .Analyze > Hypothesis Testing > Mean > Two Sampie t-Test", Sodann erscheint ein Dialogfenster. in dem die zu untersuchenden Test- und Gruppenvariablen ausgewählt und die Irrtumswahrscheinlichkeit (100% minus Alpha im Feld .Eonfidence") festgelegt werden können. Für einseitige Tests wählt man bei "Alternative type" den Eintrag "greater than" bzw. .Jess than", wenn man davon ausgeht, dass eine der bei den Gruppe einen höheren Mittelwert hat. Bei zweiseitigen Tests lässt man die Vorauswahl "not equal" bestehen.
162
t-Test: zwei Mittelwerte vergleichen
Il.1t..HyROl ho>i, Tort ing: Me, ,,, l wo -<;"' mJ1le t -T•• t Moin
I Re,~ 1
Avoiloble vorioble(s)
Selecled vorioble(s)
GESCHLECHT •
KLiMABEW1JSS~ _
ALTER '" EINKOMMEN BUNDESLAND WOHNORT •
KLiMABEWUSS TSEIN
[< Rerrm e J
.~
[
I
Add -->
[<-- Roroovel
~ " ' ~ O O T.~
Akernolive Iype
[idd::iJ
Inot equaI
-I
I
~~ffiJ
vorioble
GES CHLECHT . ~
,I
Ac\uslmenl
IEl SonIerroni
lEl DLn'1-SKJok
nss
ConIdence
Gr ~
I
.1
ur;
I O:~
Nach einem Klick auf "OK" präsentiert SYSTAT drei Tabellen. Die erste Tabelle informiert über die Stichprobengrößen, Mittelwerte wie auch Standardabweichungen. Group
N
Mean
Standard Deviation
Mann
920
9,858
3,164
Frau
1.093
10,139
3,177
Die zweite (separate variance) und dri tte (pooled variance) Tabelle enthalten das Ergebnis des t- Tests für heterogene und homogene Varianzen. Separate Variance Ditterence in Meere
-0,281
95,00% Ccntidence Interval
-0,560
t
-1,984
df
p-value
1.955,296 0,047
-0,003
163
So geht es mit SPSSjSYSTAT
Pooled Variance -0,281
Ditterence in Means 9?,09!,o __C onfidence Interval t df -value
-O, ~~ ~ß O_~
-1,984 1.955,296 0,047
Um entscheiden zu können, welche der beiden Tabellen im vorliegenden Fall die richtige ist, muss ein Test auf Gleichheit der Varianzen durchgeführt werden. Dieser wird über den Menüpunkt .Analyze > Hypothesis Testing > Variance > Equality of Two Variances..." aufgerufen. Die ausgegeben Ergebnisse können in der gewohnten Weise interpretiert werden: Ist die ausgegebene Irrtumswahrscheinlichkeit (p-value) wie im Beispiel unten mit 90,5% größer als 5%, nimmt man Varianzhomogenität an und wertet in diesem Fall die Ergebnistabelle des tTestes mit der Überschrift .Pooled vanance" aus. <
uz V.," nc", EqLU lrty