Lehren, Lernen und Fachdidaktik
Aus der Reihe „100 Minuten für …“
Kompakte Bücher im kleinen Format für Praktiker, d...
90 downloads
1834 Views
4MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Lehren, Lernen und Fachdidaktik
Aus der Reihe „100 Minuten für …“
Kompakte Bücher im kleinen Format für Praktiker, die schnell zu anwendbarem Wissen kommen möchten. 100 Minuten für Anforderungsmanagement von Marcus Grande In der Produkt-, System- und Softwareentwicklung spielt der professionelle Umgang mit Anforderungen eine entscheidende Rolle für den Erfolg der gesamten Entwicklung und für das entstehende Produkt. Dieses Buch vermittelt in kompakter Form das notwendige Grundwissen für Anforderungsmanagement. Begleitet werden die Ausführungen von Praxiserfahrungen und Beispielvorlagen. 100 Minuten für den kompetenten Auftritt von Sybille Horger-Thies Sie wirken, ob Sie dies beabsichtigen oder nicht. Wer Sie sind bestimmen Sie selbst. Vergrößern Sie Ihre Eigenerkenntnis. Mit gewachsenem Selbstbewusstsein gelingt es Ihnen, souverän und authentisch zu wirken und sich dabei wohl zu fühlen. Das Ziel dieses Buches richtet sich darauf, Ihre Persönlichkeit in vielen Bereichen zu stärken und damit erfolgreich zu sein. 100 Minuten für Konfigurationsmanagement von Marcus Grande (erscheint im Sommer 2012) In der Produkt-, System- und Softwareentwicklung spielt die professionelle Umsetzung im Bereich des Konfigurationsmanagements eine entscheidende Rolle für den Erfolg der gesamten Entwicklung und für das entstehende Produkt. Dieses Buch vermittelt in kompakter Form das notwendige Grundwissen für Konfigurationsmanagement. Begleitet werden die Ausführungen von Praxiserfahrungen und Beispielvorlagen. 100 Minuten für konstruktive Teamarbeit von Sybille Horger-Thies (erscheint im Sommer 2012) Klare Hinweise und Analysen ermöglichen dem Leser, sein bisheriges Verhalten im Team zu erkennen und schnell zu modifizieren. Über praktikable Tipps kann das Selbstbewusstsein vergrößert werden. Durch eine verbesserte Teamarbeit, in der jeder fair, produktiv und selbstbewusst seine Leistungen einbringt, kann das gesamte Team gestiegenen Leistungsanforderungen gerecht werden.
Christina Klüver • Jürgen Klüver
Lehren, Lernen und Fachdidaktik Theorie, Praxis und Forschungsergebnisse am Beispiel der Informatik Mit 40 Abbildungen, 8 Abbildungen in Farbe
RESEARCH
Christina Klüver Jürgen Klüver Essen, Deutschland
Das in diesem Werk enthaltene Programm-Material ist mit keiner Verpfl ichtung oder Garantie irgendeiner Art verbunden. Der Autor übernimmt infolgedessen keine Verantwortung und wird keine daraus folgende oder sonstige Haft ung übernehmen, die auf irgendeine Art aus der Benutzung dieses Programm-Materials oder Teilen davon entsteht. Höchste inhaltliche und technische Qualität unserer Produkte ist unser Ziel. Bei der Produktion und Auslieferung unserer Bücher wollen wir die Umwelt schonen: Dieses Buch ist auf säure freiem und chlorfrei gebleichtem Papier gedruckt. Die Einschweißfolie besteht aus Polyäthylen und damit aus organischen Grundstoff en, die weder bei der Herstellung noch bei der Ver brennung Schadstoffe freisetzen.
ISBN 978-3-8348-1547-7 DOI 10.1007/978-3-8348-8659-0
ISBN 978-3-8348-8659-0 (eBook)
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Springer Vieweg © Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2012 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Einbandentwurf: KünkelLopka GmbH, Heidelberg Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier Springer Vieweg ist eine Marke von Springer DE. Springer DE ist Teil der Fachverlagsgruppe Springer Science+Business Media www.springer-vieweg.de
Vorwort Dieses Buch stellt gewissermaßen die Summe unserer eigenen langjährigen Lehrerfahrungen in unterschiedlichen Institutionen und Fächern dar und zusätzlich einen großen Teil unserer Forschungen zum Thema Lernen und Lehre. Dabei versuchen wir im Buch eine ständige Verbindung zwischen Theorie und Praxis herzustellen, da wir immer wieder erfahren haben, wie wichtig sowohl praxisorientierte Hinweise als auch systematische und theoretisch fundierte Reflexionen insbesondere für Studierende der Lehrämter sind. Das Buch bezieht sich zwar bei praktischen Unterrichtsbeispielen überwiegend auf die Informatik; das hat seinen ganz einfachen Grund darin, dass dies Fach gegenwärtig den Kern der Lehre der Autorin darstellt. Wir glauben allerdings, dass die Inhalte unseres Buches auch für Studierende – und Lehrende – anderer Fächer von Interesse sind, da wir uns um möglichst allgemeine Darstellungen bemüht haben. Von daher hoffen wir, dass dies Buch von Studierenden und Lehrenden möglichst vieler Fächer gelesen wird. Über den Gebrauchswert des Buches können dann ohnehin nur die Leser urteilen. Ziel unseres Buches ist es, die systematische Reflexion über das eigene pädagogische Handeln zu ermöglichen und zwar für Leser sowohl in der Rolle als Studierender mit pädagogischer Praxis als Zukunft als auch in der Rolle als Lehrender, der sich aktuell mit den Problemen beschäftigen muss, die wir praktisch und theoretisch ansprechen. Aufgrund dieses Ziels haben wir bewusst darauf verzichtet, konkrete Unterrichtsmaterialien vorzustellen. Derartige Materialien gibt es mittlerweile reichlich im Internet und insofern bedarf es dafür keines Buches. Die allgemeineren Überlegungen, theoretischen Reflexionen und Forschungsergebnisse dagegen, die Gegenstand dieses Buches sind, finden sich so nirgends. Insofern hoffen wir, dass dies Buch nicht nur eine Lücke schließt, sondern vor allem eine von unseren Adressaten als wichtig empfundene. Für uns beide ist dies mittlerweile das vierte Buch bei Vieweg+Teubner (für den Autor sogar schon das sechste). Wir können auch diesmal uns sehr herzlich bedanken für die konstruktive Betreuung, die wir wie immer erfahren haben. Unser Dank gilt vor allem Dr. Christel Roß und Walburga Himmel sowie den uns unbekannten Verlagsmitarbeitern in Technik und Produktion. Zu danken haben wir allerdings auch den zahllosen Studierenden, Schülern und Teilnehmern an Kursen für Erwachsenenbildung, die geduldig unsere pädagogischen Bemühungen über sich ergehen ließen. Hoffen wir, dass dies Buch Allen gefällt, die in irgendeiner Weise uns darin unterstützt haben. Essen, im November 2011
Christina Klüver Jürgen Klüver
Inhaltsverzeichnis
Vorwort ..........................................................................................................................
V
Einleitung: Lehre, Lernen und Fachdidaktik ...........................................................
1
1
7
Der Weg zur Praxis ................................................................................................. 1.1 1.2
Didaktische Analyse .................................................................................. Die Kunst des Lehrens: Die Vorbereitung ............................................. 1.2.1 Lehrpläne und Rahmenbedingungen ...................................... 1.2.2 Sachanalyse .................................................................................. 1.2.3 Bedingungsanalyse ..................................................................... 1.2.4 Der Zeitfaktor ............................................................................... 1.2.5 Institutionelle Bedingungen ...................................................... Die Kunst des Lehrens: Die Durchführung ........................................... 1.3.1 Didaktische Reduktion ............................................................... 1.3.2 Lernziele ....................................................................................... 1.3.3 Methoden ...................................................................................... 1.3.4 Operationalisierung .................................................................... 1.3.5 Artikulation .................................................................................. 1.3.6 Evaluation ..................................................................................... Curriculum ..................................................................................................
8 11 11 12 16 24 25 26 26 27 29 31 31 32 33
Theoretische Zusammenhänge ............................................................................
37
1.3
1.4
2
2.1 2.2
2.3
Didaktische Modelle – eine allgemeine Übersicht ................................ 37 Lernen als Leitbegriff ................................................................................. 39 2.2.1 Grundlagen des Lernens: eine erste Annäherung .................. 39 2.2.2 Die biologische Basis: Neurobiologie des Gehirns ................. 40 2.2.3 Kognitive Ontogenese: Die Konstruktion von Konzepten ... 45 2.2.4 Aspekte des Lernens ................................................................... 51 2.2.5 Theorien des Lernens .................................................................. 53 Didaktische Modelle und Lernen als Leitbegriff ................................... 99 2.3.1 Lernzieltaxonomien und lernzielorientierte Didaktik ........... 99 2.3.2 Kybernetisch-systemtheoretischer Ansatz .............................. 102 2.3.3 Lerntheoretischer Ansatz ........................................................... 105
VIII
Inhaltsverzeichnis 2.4
2.5
3
Interaktion als Leitbegriff ......................................................................... 2.4.1 Die Bedeutung der Rolle ............................................................ 2.4.2 Sozialisation ................................................................................. 2.4.2.1 Mikrosoziologische Perspektive: Handlungstheorie/Interaktionismus ........................ 2.4.2.2 Persönliche Identität und ihre vier Teilfähigkeiten ............................................................. 2.4.2.3 Makrosoziologische Perspektive: Strukturfunktionale Systemtheorie .......................... 2.4.2.4 Die Theorie des kommunikativen Handelns von Habermas als Vermittlung zwischen Mikro- und Makroperspektive .................................. 2.4.3 Die fünf Axiome der Kommunikation ..................................... 2.4.4 Gruppe und Gruppendynamik ................................................. 2.4.5 Führungsstil ................................................................................. 2.4.6 Überlegungen zur Interaktion als Leitbegriff der Didaktik ................................................................................. Bildung als Leitbegriff ...............................................................................
106 107 110 111 113 129
130 133 141 152 153 154
Lernen, Künstliche Intelligenz und soziales Milieu ............................................ 159 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8
Homunculus im Computer ...................................................................... Lernen und KI-Systeme ............................................................................. Lernen und Generalisierungen ................................................................ Die Geometrie der Missverständnisse .................................................... Aufmerksamkeit, Relevanz und Vergessen ........................................... Umwelt, Begabung und Selbstverstärkung ........................................... Lernen in einem sozialen Milieu: Ein Computermodell ...................... Zurück zur Praxis: Anregungen für Möglichkeiten eines interdisziplinären Projektunterrichts ............................................
161 188 201 214 224 234 256 271
Epilog ............................................................................................................................. 283 Literatur ......................................................................................................................... 287 Sachwortverzeichnis .................................................................................................... 293
Einleitung: Lehre, Lernen und Fachdidaktik Lehren ist mehr eine Kunst als eine Wissenschaft. Wir wissen nicht, wer diese ehrwürdige Wahrheit als Erster formuliert hat, aber der unbekannte Autor hatte zweifellos Recht. Das mag paradox erscheinen in einer Zeit, wo zahlreiche Einzelwissenschaften ihren Beitrag dazu leisten, Lehren und Lernen auf eine wissenschaftliche Grundlage zu stellen. Wir werden die wichtigsten Beiträge der verschiedenen Disziplinen zu unserem Thema auch in diesem Buch abhandeln. Letztlich ist dies jedoch kein Widerspruch: So wie ein Künstler natürlich die Techniken lernen und beherrschen muss, die er für seine Kunst braucht – Maltechniken, Harmonielehre etc. –, so muss ein Lehrender möglichst viel davon wissen, was die Bedingungen und natürlich die Inhalte seiner Tätigkeit sind.1 Dies bedeutet praktisch, dass ein Lehrender einerseits über hinreichende Fachkompetenz verfügen muss (s. u.); es bedeutet aber auch andererseits, dass er wissen muss, was Lernen bedeutet und welche Faktoren Lernen beeinflussen; er muss sich beispielsweise über institutionelle Rahmenbedingungen im Klaren sein und zumindest prinzipielle Vorstellungen davon haben, inwiefern die Lernenden durch soziale Milieus innerhalb der Schule bzw. anderer Lehrinstitutionen und außerhalb dieser Institutionen wie Familie, Peer Groups etc. beeinflusst werden. Das bedeutet, dass ein Lehrender auch Kenntnisse von Sozialisationsprozessen haben muss oder haben sollte. Die Liste dieser Aspekte ist verlängerbar und die Liste der Einzeldisziplinen, die sich mit diesen Themen beschäftigen, ist selbst schon recht umfangreich. Jedoch auch wenn ein engagierter Lehrender sich mit allen diesen Themen beschäftigt hat und wenn seine fachliche Kompetenz außer Zweifel steht, dann bleibt immer noch die praktische Aufgabe, aus allen diesen Kenntnissen einen gehaltvollen und für Lehrende wie Lernende befriedigenden Unterricht zu gestalten. Diese Umsetzung von Theorie in Praxis ist ein Rest, der letztlich den Freiheitsraum der Lehrerrolle ausmacht und damit aber auch diese Tätigkeit immer wieder anspruchsvoll macht. Das jedenfalls haben wir aufgrund unserer eigenen langjährigen Erfahrungen in verschiedenen Institutionen wie Hochschule, Schule und Einrichtungen der Erwachsenenbildung immer wieder erfahren. Wie der einzelne Lehrende dies durchführt, ist ihm letztlich nicht abzunehmen, und deswegen wird Lehre immer diesen unaufhebbaren Rest der eigenen kreativen Gestaltung behal-
1
Der sprachlichen Einfachheit halber werden wir in diesem Buch, wenn es keine geschlechtsneutrale Bezeichnung gibt, die männliche Form verwenden wie Schüler oder Lehrender. Da dies Buch von einer Autorin und einem Autor geschrieben worden ist, entgehen wir hoffentlich dem Vorwurf der Frauenfeindlichkeit.
2
Einleitung: Lehre, Lernen und Fachdidaktik
ten, der auch gleichzeitig die Grenze für alle schematischen Lehrformen wie programmierter Unterricht vorgibt. Dies gilt unbeschadet der Nützlichkeit, die gerade Computerprogramme zur Unterstützung der Lehre haben können. Freilich gilt dies für alle wichtigen Tätigkeiten. Ein Künstler muss entscheiden, wie er aufgrund seiner theoretischen und technischen Kenntnisse seine eigenen Tätigkeiten durchführen will und kann, ein Wissenschaftler muss ebenso entscheiden, wie er auf der Basis seines inhaltlichen und methodischen Wissens seinen Forschungsprozess gestalten will und ein Politiker muss entscheiden, wie er aufgrund seiner politischen Kenntnisse und Erfahrungen seinen persönlichen Politikstil realisieren will. Findet man den adäquaten Umsetzungsweg nicht, dann bleiben alle erworbenen Kenntnisse letztlich äußerlich, d. h. sie können die eigene Praxis nicht entscheidend fördern.2 Unbeschadet dieser notwendigen Hinweise ist es jedoch auch eine Binsenweisheit, dass ohne entsprechende Kenntnisse und Kompetenzen eben doch keine gute Lehre möglich ist. Die von uns in diesem Buch angesprochenen Themen sind demnach keine hinreichende Bedingung für die Möglichkeit eines Lehrende wie Lernende befriedigenden Unterrichts, sie sind jedoch eine unbedingt notwendige. Natürlich kann kein Lehrender ein Experte in den von uns bereits genannten und noch weiteren Gebieten sein; das ist auch gar nicht erforderlich. Er sollte aber sich der Notwendigkeit bewusst sein, sich Grundkenntnisse in diesen Gebieten anzueignen und diese, sofern erforderlich, auch weiter zu vertiefen. Ein Lehrender, der es mit einer sozial homogenen Klasse in einem Stadtteil zu tun hat, in der die Schüler aus der (oberen) Mittelschicht und der Oberschicht kommen, wird sich mit dem Problem der Ungleichheit von Herkunftsmilieus und den damit verbundenen Ungleichheiten der Bildungschancen nicht im Detail beschäftigen müssen, auch wenn er wissen muss, dass es derartige Probleme gibt. Ein Lehrender in sozialen Brennpunkten mit dem zusätzlichen Problem der Schüler mit Migrationshintergrund wird sich sehr wohl mit diesen Themen zu beschäftigen haben und zwar ausführlicher als wir es in diesem Buch können. Entsprechend muss sich ein Lehrer, der es mit Jugendlichen in der Pubertät zu tun hat, ganz anders auf deren altersbedingte Probleme einlassen und diese reflektieren als ein Lehrer in der Grundschule. Das heißt natürlich nicht, dass ein Grundschullehrer keine Kenntnisse über die altersbedingten Lernformen und Lernmöglichkeiten seiner Schüler zu haben braucht. Es heißt nur, dass die Entwicklungsprozesse von Kindern im Alter von ca. 6 bis 8
2
Ähnliches gilt auch für qualifizierte Handwerker. Der Autor dieses Buchs verbrachte in seiner Jugend ganze Tage bei einem alten Bootsbauer, um fasziniert zu beobachten, wie dieser aus Holzstücken wunderbare Bootsteile formte (damals waren die Segelboote noch aus Holz).
Einleitung: Lehre, Lernen und Fachdidaktik
3
Jahren als didaktisches Problem für den Lehrenden nun einmal leichter zu handhaben sind als für den Lehrenden in der Mittel- und Oberstufe.3 Da wir unser Buch primär als Überblick konzipiert haben, verweisen wir natürlich in den jeweiligen Abhandlungen zu den verschiedenen Themen auf einschlägige weiterführende Literatur. Wichtig für uns war (und ist), dass Leser dieses Buchs am Ende den begründeten Eindruck haben, dass sie einerseits die Komplexität ihrer zukünftigen und ggf. aktuellen Tätigkeit einigermaßen einschätzen können und dass sie andererseits auch ihre eigene praktische Situation besser beurteilen können. Dann nämlich wissen sie auch, wo und inwiefern sie sich vielleicht noch mehr Hintergrundwissen aneignen müssen, um den Besonderheiten ihrer eigenen Situation gerecht werden zu können. Der Titel dieses Buchs – und der Einleitung – heißt „Lehren, Lernen und Fachdidaktik“. Das Problem der Lehre ist einer der roten Fäden des Buchs und braucht deswegen hier nicht allgemein thematisiert zu werden, weil er immer wieder konkret aufgenommen wird. Entsprechendes gilt für das Thema „Lernen“, dem außerdem der gesamte dritte Teil gewidmet ist; dort geht es auch um allgemeine präzise Definitionen dieses schwierigen Begriffs. Bleibt noch der Begriff der Fachdidaktik, der einer eigenen Erläuterung bedarf. Wenn man unter allgemeiner Didaktik die Lehre – und Wissenschaft – von der Vermittlung von Lerninhalten an Lernende versteht, einschließlich des Problems der Aneignung dieser Inhalte durch die Lernenden, dann muss Fachdidaktik natürlich das entsprechende Gebiet sein, bei dem es um die besonderen Vermittlungsprobleme der Inhalte eines speziellen Fachs geht. In der allgemeinen Didaktik kann man häufig davon abstrahieren, dass ein Deutschlehrer gewöhnlich andere Vermittlungsprobleme hat als ein Lehrer der Informatik. In der Fachdidaktik ist diese Abstraktion natürlich nicht möglich und jeder Lehrende, der in verschiedenen Fächern unterrichtet hat, wie wir es lange Zeit das Vergnügen hatten, weiß dies natürlich. Die Fachdidaktik muss also einerseits den Besonderheiten des jeweiligen Fachs Rechnung tragen, was die eigentlich selbstverständliche Beherrschung eben dieses Fachs in methodischer und inhaltlicher Hinsicht voraussetzt. Andererseits kann die Fachdidaktik aber auch nicht ohne die allgemeine Didaktik auskommen, deren Erkenntnisse, Modelle und Vorgehensweisen den Rahmen für die Fachdidaktik bilden. Von daher ist die Aufgabe der Fachdidaktik eine doppelte und damit auch besonders schwierige: Es geht um die Konkretisierungen der allgemeinen Didaktik in Bezug auf die Besonderheiten des jeweiligen Fachs und was
3
Es sei nicht verschwiegen, dass wir auch in universitären Lehrveranstaltungen zuweilen den Eindruck hatten, dass bei manchen Studierenden die Pubertätsphase noch nicht abgeschlossen war.
4
Einleitung: Lehre, Lernen und Fachdidaktik
das bedeutet, werden wir in den jeweiligen Passagen des Buchs immer wieder exemplarisch zu erläutern versuchen. Man kann diese Tatsache auch so ausdrücken, dass die Fachdidaktik so etwas wie ein Fokus ist, in dem sich die Aspekte der allgemeinen Didaktik mit den Inhalten und Methoden des jeweiligen Fachs treffen und miteinander kombiniert bzw. integriert werden müssen. Das klingt komplex und ist es häufig auch. Man darf jedoch keinen Moment vergessen, dass genau dies Problem als praktische Aufgabe von jedem Lehrenden gelöst werden muss; zumindest wird das von ihm erwartet. Von daher ist dies Buch auch als Leitfaden dafür zu verstehen, wie die Komplexität der praktischen Lehraufgabe – denn Lehre ist (fast) immer die Lehre einzelner Fächer – durch eine entsprechende theoretische Reflexion bearbeitet werden kann. Allgemeine didaktische Einsichten bleiben für die Betroffenen häufig in einem schlechten Sinne abstrakt, da kaum Auskunft gegeben wird, wie man die Allgemeinheit der Einsichten konkret auf die eigenen Probleme beziehen kann. Die Fachdidaktik muss hier konkret werden oder sie ist nutzlos. Vielleicht kann unser Buch hier Hilfestellungen geben. Entsprechend dieser Zielsetzung ist unser Buch folgendermaßen gegliedert, wobei wir einen Weg der „fortschreitenden Abstraktion“ gewählt haben: Teil 1 ist praktisch orientiert in dem Sinne, dass es um einzelne praktische Probleme des Unterrichts und der Unterrichtsvorbereitung geht. Da die Informatik als exemplarischer Anwendungsfall häufig herangezogen wird, werden diese praktischen Probleme auch meistens an Themen der Informatik verdeutlicht. Teil 2 thematisiert die etwas theoretischeren Grundlagen wie z. B. Sozialisation, Lerntheorien, Gruppendynamik oder auch soziale Rollen; dies geschieht im Rahmen der einzelnen didaktischen Modelle, für die „Lernen“, „Interaktion“ und „Bildung“ die konstituierenden Leitbegriffe sind. In diesem Teil haben wir bei einzelnen Themen von uns entwickelte Computerprogramme dargestellt, wie etwa bei den behavioristischen Lernmodellen oder bei der Simulation von Sozialisationsprozessen. Der Grund dafür ist zweifach: Zum einen sollten damit für zukünftige und aktuelle Lehrende nicht nur der Informatik Hinweise gegeben werden, was mit Computern zu diesen Themen alles gemacht werden kann; zum anderen sollte generell gezeigt werden, wie die Probleme des Lernens, der Sozialisation und anderer Themen mit Hilfe geeigneter Computerprogramme auch in anderen Fächern als der Informatik informativ behandelt werden können. Teil 3 schließlich nimmt das Thema „Lernen“ noch einmal systematisch auf. In diesem Teil wird vor allem gezeigt, wie durch Simulation verschiedener Lernprozesse allgemeine Einsichten zum Lernen gewonnen werden können, die sowohl Lernprozesse verständlich machen als auch allgemeinere Erkenntnisse über Lernen ermöglichen. Da wir damit in das Gebiet der sog. Künstlichen Intelligenz (KI) kommen, wird dies kurz gestreift. KI ist einerseits ein insbesondere von der Werbeindustrie benutztes Modewort geworden aber andererseits immer noch ein
Einleitung: Lehre, Lernen und Fachdidaktik
5
Thema, das nach unseren Erfahrungen auch Nichtinformatiker sehr anspricht.4 Nicht nur aber auch deswegen glauben wir, dass auch der Teil 3 Leser aus anderen Bereichen als dem der Informatik interessieren kann. Fachdidaktik ist, wie bemerkt, ein konkretes Unternehmen. Deswegen schließen wir das Buch mit einem durchaus praktischen Thema ab, nämlich wie man mit Hilfe geeigneter Computerprogramme neue Möglichkeiten für interdisziplinären Projektunterricht mit Beteiligung verschiedener Fächer durchführen kann. Vielleicht lassen sich Leser dieses Buchs davon etwas anregen, auch wenn dies zweifellos die schwierigste Form des Unterrichts überhaupt ist. Ein Buch wie dieses soll natürlich für die Leser inhaltlichen Nutzen in Form von verbessertem Wissen und neuen Problemeinsichten bringen. Das muss jedoch nicht immer mit erhobenem Zeigefinger geschehen. Von daher hoffen wir, dass die Leser zuweilen auch etwas von dem Vergnügen nachempfinden können, das wir bei der Durchführung unserer Lehrveranstaltungen eigentlich regelmäßig hatten, ungeachtet der Frustrationen, die nie zu vermeiden sind. Fangen wir also an und zwar mit „Wegen zur Praxis“.
4
Das haben wir u. a. in einem Seminar für Germanisten und Kommunikationswissenschaftler erfahren, bei dem es um „KI in Literatur und Film“ ging und wo wir uns vor interessierten Studierenden kaum retten konnten.
1
Der Weg zur Praxis
Bevor die konkrete Unterrichtsplanung erfolgen kann, ist es unumgänglich, sich das nötige Fachwissen anzueignen. Es mag merkwürdig erscheinen, dass dieser Punkt erwähnt wird, denn eigentlich sollte das selbstverständlich sein. Im Laufe der Jahrzehnte hat sich jedoch immer wieder herausgestellt, dass das Fachwissen bei vielen Lehrenden (nicht nur in der Schule) sowie Studierenden des Lehramts sehr viele Lücken hat. Somit zeigt es sich, dass hier einige Hinweise wichtig sind. Wir sollten uns alle kurz in unsere Schulzeit oder in unsere Studienzeit zurückversetzen und überlegen, wie häufig wir selbst oder unsere Kollegen gesagt haben: „Der/Die hat ja keine Ahnung“. Wie häufig entstand der Eindruck, dass ein Lehrender nicht richtig vorbereitet war (und deshalb gerne Gruppenarbeiten durchführte) oder nicht auf dem neuesten Stand gewesen ist? Wie viele haben uns hingegen mit ihrer Fachkompetenz beeindruckt und wir waren nicht der Ansicht, den Tag vergeudet zu haben? Natürlich ist es wesentlich einfacher, Andere zu beurteilen und es ist gar nicht so selbstverständlich, das eigene fachliche Wissen zu überprüfen. Wie häufig hat sich im Studium herausgestellt, dass das Gelernte nicht verstanden wurde (natürlich erst während der Prüfung) und wie häufig haben Lehrende festgestellt, während sie einen Sachverhalt erklären wollten, dass sie ihn selbst nicht verstanden haben? Dies ist prinzipiell nicht ungewöhnlich, denn während der Vorbereitung erscheint alles verständlich und klar zu sein. Im Lehrkontext (oder während eines Vortrags) wird einem jedoch erst bewusst, dass dies nicht zutrifft. Viele Lehrende sind der Ansicht, dass die inhaltliche Vorbereitung abhängig von einer speziellen Unterrichtssituation ist. Das bedeutet, dass die Jahrgangsstufe relevant ist und die Zusammensetzung der Schüler, beispielsweise in Bezug auf Geschlecht oder Herkunft (Bedingungsanalyse). Das kann sehr gefährlich sein und zudem verschwendet man letztendlich auch sehr viel Zeit. Nehmen wir einmal an, man soll die Grundlagen der Aussagenlogik in der achten Klasse vermitteln, um ein Beispiel aus der Informatik zu erwähnen. Wenn man sich nur auf dies Thema vorbereitet, dann wird man sich sehr wahrscheinlich mit den einfachsten logischen Verknüpfungen beschäftigen wie „und“, „oder“ und „nicht“. Einige Lehrer werden sich nicht die Mühe machen und beispielsweise die Junktoren als Konjunktion, Disjunktion und Negation bezeichnen, denn das könnte schon zu anspruchsvoll für die achte Klasse sein. Andere wiederum werden das Exklusiv-Oder und die Implikation zusätzlich vermitteln, weil ihnen diese Funktionen auch wichtig erscheinen. Dann soll man in der zwölften oder dreizehnten Klasse (sofern es letztere noch langfristig geben wird) die Booleschen Funktionen erklären. Damit entstehen schon die ersten Probleme: Wie Viele erkennen, dass es sich dabei um die klassiC. Klüver, J. Klüver, Lehren, Lernen und Fachdidaktik, DOI 10.1007/978-3-8348-8659-0_1, © Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2012
8
1 Der Weg zur Praxis
sche Aussagenlogik handelt und wie Viele wissen, wie viele einstellige und zweistellige Funktionen vorhanden sind? Also fängt man erneut an, sich darauf vorzubereiten, diesmal jedoch erfolgt die Konzentration auf die Funktionen und nur selten ist es vorgekommen, dass sich Jemand bei der Unterrichtsvorbereitung, z. B. im Rahmen der Seminare an der Universität, Gedanken darüber gemacht hat und die „Grundlogik“ der Aussagenlogik verstanden hat. Besonders frappierend ist es, wenn manche Studierenden noch nicht einmal den Zusammenhang zu den Funktionen in den Programmiersprachen erkennen und sie nicht sofort erkennen, warum es wohl einen Typ boolean gibt, der zu deklarieren ist. Was kann aus diesem kleinen Beispiel als Konsequenz gezogen werden? Die Vorbereitung und die Aneignung des Wissens ist eine sehr anspruchsvolle und Zeit raubende Tätigkeit – eine Tätigkeit, die jedoch nur einmal gründlich erfolgen muss. Je genauer die Vorbereitung erfolgt, desto sicherer kann man auftreten und – das ist wesentlich –, man erkennt mit der Zeit selbst die Zusammenhänge zwischen den verschiedenen Teilgebieten und kann diese den Lernenden auch vermitteln. Dann bekommen Begriffe wie Bedingungsanalyse, didaktische Reduktion, Zukunftsbedeutung und andere einschlägige Begriffe eine andere Bedeutung. Allgemeiner formuliert: Es muss deutlich werden, dass sowohl während des Studiums als auch während der Unterrichtsvorbereitung zunächst nur einzelne Bausteine vorliegen, die erst mit der Zeit zu einem Ganzen werden. Wenn das Einem selbst deutlich geworden ist, dann ist es auch wesentlich einfacher, den Schülern zu erklären, warum manche Inhalte zunächst gelernt werden müssen, auch wenn die Schüler noch nicht sofort den Sinn darin erkennen. Langfristig ändert sich das und am Ende einer Unterrichtsreihe werden die Zusammenhänge klar. Das können Lernende durchaus akzeptieren.
1.1
Didaktische Analyse5
Um diese Hinweise zu konkretisieren, wird ein Leitfaden zur Unterrichtsvorbereitung dargestellt. Er dient nicht nur als Hilfestellung zur Unterrichtsvorbereitung, sondern auch als Hinweis, wie dieser Teil aufgebaut ist. Die zunächst nur als Stichpunkte erwähnten Elemente des Leitfadens werden anschließend genauer behandelt.
5
Der Begriff „didaktische Analyse“ stammt von Wolfgang Klafki. Alternativ können Begriffe wie „Analyse und Planung“ verwendet werden.
1.1 Didaktische Analyse
9
ǣ
ǫȋ ǫȌ
òǫ òǫ
ȋ ǫȌ
ȋ¡
ǡ
ǤȌ
oò ȋǡ
ǤȌ
ȋ Ǧε
Ȍ
ò Abbildung 1-1: Leitfaden zur Unterrichtsvorbereitung
Das soll kurz erläutert werden: Bestimmung der Inhalte und Einbettung in den Lehrplan: Die Notwendigkeit, die Inhalte in den Lehrplan einzuordnen, ergibt sich aus den Rahmenrichtlinien der jeweiligen Ministerien. Durch das Zentralabitur ist eine strenge Orientierung an die Vorgaben umso wichtiger geworden. Sachanalyse oder Wissensaneignung des Gegenstandsbereichs: Die Informationssammlung ist zeitaufwändig, sollte systematisch und ausführlich erfolgen. Folgende Aspekte spielen bereits bei der Sachanalyse eine wichtige Rolle: x Sind die beschriebenen Inhalte in der Literatur für den eigenen Unterricht geeignet? x Welches Vorwissen wird vorausgesetzt? x Sind andere Disziplinen involviert (z. B. Mathematik, Physik)? x Gibt es Querverbindungen zu anderen Themen, die unterrichtet werden?
10
1 Der Weg zur Praxis
Bei der Sachanalyse handelt es sich um die Aneignung der Fach- und Sachkompetenz durch den Lehrenden und sie sollte unabhängig von einer konkreten Unterrichtssituation erfolgen (s. o.). Erst in der Bedingungsanalyse wird eine bevorstehende Unterrichtseinheit näher betrachtet, die wiederum eine didaktische Reduktion notwendig macht. Bedingungsanalyse und didaktische Reduktion: Die Inhalte sollen unter Berücksichtigung folgender Faktoren aufbereitet werden: x Welcher Jahrgang und welche Klassenkonstellation liegen vor? x Daraus resultieren die Gegenwartsbedeutung, die Zukunftsbedeutung und das Exemplarische der jeweiligen Themen. Welche Lernziele sollen erreicht werden? x Kognitiver Bereich: Denken, Wissen, Problemlösen, intellektuelle Fähigkeiten (Grad der Komplexität); x affektiver Bereich: Gefühle, Wertungen, Einstellungen und Haltungen. (Grad der Verinnerlichung); x psychomotorischer Bereich: Bereich von erwerbbaren Fertigkeiten (z. B. Koordination). Welche Lernform bietet sich insbesondere an? x Wissensaufnahme x Entdeckendes Lernen x Exemplarisches Lernen x Problemorientiertes Lernen etc. Welche Unterrichtsmethoden bieten sich für die Vermittlung der Inhalte an? x Frontalunterricht x Gruppenarbeit x Projektunterricht etc. Welche Medien sind besonders geeignet und welche stehen zur Verfügung? Ist eine Gruppenarbeit räumlich durchführbar? Wie sind die Lernerfolge überprüfbar? Für die Unterrichtsform, Sozialform sowie für die Auswahl der Medien sind Begründungen notwendig. Damit ist gemeint, dass aus einer fachdidaktischen Sicht erläutert werden muss, warum bestimmte Vorgehensweisen besser geeignet sind als andere. Die Artikulation dient der Gliederung der Unterrichtsstunde in einzelne Phasen. Diese enthält: x die vorgesehene Zeit für die einzelnen Unterrichtssequenzen x Stichpunkte zu den einzelnen Inhalten x Sozialform x Medieneinsatz.
1.2 Die Kunst des Lehrens: Die Vorbereitung
11
Nach Durchführung des Unterrichts sollte grundsätzlich eine Evaluation im Sinne einer Reflexion erfolgen. Folgende Fragen sind hilfreich: x Ist die Stunde wie erwartet verlaufen? x Ist die geplante Zeit für die Vermittlung einzelner Themenbereiche bzw. für die Lösung der Aufgaben sinnvoll gewesen? x Gab es besondere Verständnisprobleme bei den Lernenden und falls ja, worin bestanden diese Probleme: War es die eigene Unfähigkeit, die Sachverhalte einfach bzw. verständlich zu erklären? Wurden Vorkenntnisse vorausgesetzt, die nicht vorhanden waren? War der Sachverhalt zu komplex? x Gab es besondere Unruhephasen und falls ja, wie sind diese zu erklären? x Was kann zukünftig verbessert werden? x Müssen Sachverhalte in der kommenden Stunde nochmals aufgenommen werden? Mit der Zeit läuft eine derartige Reflexion „automatisch“ ab. Ein Anfänger sollte sich sehr bewusst damit auseinandersetzen, um die eigene Planung des Unterrichts zu verbessern und um aufgetretene Probleme, zukünftig zu vermeiden. Die einzelnen Schritte in dem vorgeschlagenen Leitfaden setzen Kenntnisse aus mehreren Disziplinen voraus. Die Fachkompetenz sollte selbstverständlich sein, ist jedoch bei weitem nicht ausreichend. Wie im Folgenden gezeigt wird, ist es aus praktischer Sicht unumgänglich, sich mit Themen der Pädagogik, Soziologie und Psychologie bewusst auseinanderzusetzen.
1.2
Die Kunst des Lehrens: Die Vorbereitung
1.2.1
Lehrpläne und Rahmenbedingungen
Die Analyse der Rahmenbedingungen ist der erste Schritt zu der Unterrichtsvorbereitung. Dafür muss die Struktur des Fachs und der einzelnen Themenkomplexe analysiert werden – eine Aufgabe der curricularen Planung. Überwiegend sind Lehrpläne in einer Schule bereits vorhanden Es sollte jedoch nicht außer Acht gelassen werden, dass sich die Lehrpläne (nicht nur) für Informatik in einer Umbruchsphase befinden (geschrieben 2011), da es noch nicht endgültig festgelegt ist, ob zukünftig zwölf oder dreizehn Schuljahre verbindlich sind bzw. ob dies optional gewählt werden kann. Das bedeutet, dass ein Lehrender flexibel sein muss hinsichtlich der Vorgaben für das Zentralabitur. Es ist ebenfalls zu überprüfen, ob Diskrepanzen zwischen den Rahmenrichtlinien der Ministerien und den curricularen Vorgaben in einer jeweiligen Schule vorhanden sind. Eine besondere Schwierigkeit liegt darin, dass grundsätzlich „Freiheitsgrade“ in den Rahmenrichtlinien vorhanden sind, wodurch die Lehrenden die Möglichkeit haben, eigene – und mit der Schuldirektion abgestimmte – Schwerpunkte zu set-
12
1 Der Weg zur Praxis
zen. Diese sollten logisch und thematisch aufeinander aufgebaut sein, wobei vorausgesetzt wird, dass ein Lehrender die jeweiligen Inhalte beherrscht. Und damit kommen wir zu einem wesentlichen Aspekt der Unterrichtsvorbereitung:
1.2.2
Sachanalyse
Es wurde bereits in der Einleitung darauf verwiesen, dass die Sachanalyse praktisch das A und O des Lehrens ist. Ein Lehrer, der nicht fachkompetent ist, wird sich kaum Respekt bei den Schülern verschaffen, was durch zahlreiche empirische Untersuchungen bestätigt worden ist. Deswegen kann die Bedeutung der gründlichen Vorbereitung nicht genug betont werden. Die richtige Vorbereitung bedarf einiger Erfahrung, insbesondere da die eigene Einschätzung, ob die Inhalte Einem wirklich klar sind, trügen kann. In zahlreichen in unseren Seminaren durchgeführten Unterrichtssimulationen ist dies mehr als deutlich geworden. „Simulation“ bedeutet in diesem Zusammenhang, dass ein Studierender die Rolle des Lehrers bzw. der Lehrerin übernimmt, mitteilt, welche Klasse unterrichtet werden soll und welches Thema er gewählt hat, und die anderen Studierenden (inklusive Dozentin) die Rolle der Schüler übernehmen. Dabei ist es natürlich wichtig, dass sich die „Schüler“ in die Situation der Schüler in einem bestimmten Alter hineinversetzen und deren Verhalten nachahmen. Somit wird versucht, eine reale Unterrichtssituation nachzustellen. Die folgenden Beispiele sollen dies verdeutlichen: Im Rahmen einer Veranstaltung hat ein Student das Thema „Prozessoren“ behandelt und die entsprechende Unterrichtsstunde in dem Seminar simuliert. Die Idee war ein Rollenspiel durchzuführen, um den Schülern die Aufgabe der CPU zu vermitteln – und diese „Sachanalyse“, also die Inhalte sowie die Unterrichtsmethode, hatte der Student aus dem Internet. Obwohl die Dozentin und viele Studierende Rollenspielen gegenüber sehr skeptisch waren, ließen sich doch alle bereitwillig darauf ein, da die Idee sehr ungewöhnlich ist. Dabei sollte jeweils ein Student bzw. „Schüler“ eine Komponente eines Prozessors bzw. deren Funktion darstellen und mit den anderen „Komponenten“ interagieren. Allerdings funktionierte das Rollenspiel nicht, da es nicht klar war, was genau gemacht werden sollte. Eine gewisse Ratlosigkeit entstand und dank eines anderen Studenten, der sich von seiner „Schülerrolle“ distanziert hatte und inhaltliche Erklärungen lieferte, konnte der Inhalt aufgearbeitet werden, so dass das Rollenspiel letztlich funktionierte. Dies ist ein klassisches Beispiel dafür, dass der Student bei den Vorbereitungen lediglich glaubte, sein Thema verstanden zu haben; erst während der Durchführung ist es jedoch deutlich geworden, dass dies nicht der Fall war. So konnte der Student Fragen, die über die Vorbereitung der konkreten Unterrichtsstunde hin-
1.2 Die Kunst des Lehrens: Die Vorbereitung
13
ausgingen, nicht beantworten. In einer simulierten Unterrichtssituation ist dies weniger problematisch, denn schließlich dienen derartige Seminare dazu, erste Erfahrungen zu sammeln, ohne negative Konsequenzen befürchten zu müssen. Im Ernstfall wären die Schüler sehr irritiert gewesen und hätten vielleicht einmal „verziehen“, aber vermutlich nur einmal. Geschieht dies zum zweiten Mal, fangen die Schüler an, skeptisch zu werden, was die Kompetenz des Lehrers angeht; beim nächsten Mal werden die Schüler den Lehrer kaum noch ernst nehmen und damit entsteht eine ungünstige Lehr-Lern-Situation. Ein anderes Beispiel: Eine Studentin hatte zur Vermittlung der Automatentheorie ein Tool verwendet, mit dem die Schüler spielerisch lernen können, wie die Regeln für einen endlichen Automaten eingegeben werden. Dieses Tool heißt CARA und ist ebenfalls im Internet dokumentiert. Dieses Tool wird auch in einem anderen Kontext verwendet, nämlich um erste Schritte in Richtung Programmierung zu vermitteln. Die Studentin, die dieses Tool gewählt hatte, um in die Automatentheorie einzuführen, hatte das System ebenfalls selbst nicht verstanden und die „Schüler“ mussten dann eingreifen und praktisch der „Lehrerin“ das System erklären. Eine andere Studentin, die in die Programmierung einführen wollte, hat Befehle als Lösungsschritte vorgeschlagen, ohne diese jedoch selbst vor dem Unterricht auszuprobieren. Beim Testen des Befehls hat sich herausgestellt, dass einige Probleme bei der Verwendung des Tools auftauchten und dies somit für den Unterricht nicht ohne weiteres zu verwenden ist. Solche Erfahrungen – und damit könnten wir dies Buch füllen – sind für alle Beteiligten sehr frustrierend und es stellt sich immer wieder die Frage, was passiert, wenn das im Ernstfall geschieht. Was bedeutet also Sachanalyse und wie sollte man vorgehen? Zunächst ist es natürlich hilfreich, sich zu fragen, ob man etwas mit dem Thema verbinden kann, und sich einzelne Stichpunkte notieren, die einem bekannt sind. Anschließend beginnt die Recherche, um festzustellen, was es zu diesem Thema bereits gibt. Die meisten verwenden heute das Internet und da insbesondere Wikipedia. Nicht selten stellt man leider fest, dass es auch dabei bleibt: Man übernimmt die Angaben aus dem Internet, paraphrasiert diese ein wenig und schon ist man fertig mit der Vorbereitung. Es ist wichtig, sich bewusst zu machen, dass man nicht sicher sein kann, ob die Informationen im Internet alle korrekt bzw. vollständig sind. Darüber hinaus schauen sich viele die Querverbindungen bzw. die angegebenen Links nicht an. Andere wiederum verlieren sich in den verlinkten Texten, weil dort natürlich ebenfalls Links vorhanden sind, die sich die Leser anschauen. So kann es passieren, dass Stunden damit verbracht werden, sich die Texte anzuschauen und anschließend weiß man selbst nicht mehr, worum es gehen sollte. Hier ist bereits ein großes Maß an Selbstdisziplin notwendig, um sich nicht zu verrennen.
14
1 Der Weg zur Praxis
Nehmen wir erneut das Beispiel, in dem es um die Vorbereitung auf die Aussagenlogik ging: Bei Wikipedia wird – laut Aussage eines Studenten – als einstellige Funktion angeblich lediglich die Negation erwähnt. Also ging der Student davon aus, dass auch nur eine einzige einstellige Funktion existiert. Bei genauer Betrachtung stellte sich dann heraus, dass die Negation als Beispiel für eine einstellige Funktion genannt wurde. Damit ist deutlich, dass dieser Student erstens nicht genau gelesen hatte und was wesentlicher ist, dass er sich zweitens nicht die Mühe gemacht hat, sich mit den Grundprinzipien der Aussagenlogik und der Wahrheitstafeln vertraut zu machen. Hätte er dies jedoch getan, dann wäre nämlich deutlich geworden, dass es unmöglich nur eine einstellige Funktion geben kann, und er hätte problemlos die Anzahl der zweistelligen, dreistelligen etc. Funktionen ermitteln können. Entsprechend hätte er dieses Grundprinzip auch den Schülern vermitteln können; so blieb es jedoch eher äußerlich und die Schüler haben bestenfalls einige Funktionen auswendig gelernt. Zu Beginn ist es demnach notwendig, sich immer wieder darauf zu konzentrieren, welche Inhalte relevant sind, die man sich aneignen muss. Empfehlenswert sind für die Recherche zunächst Lexika und Wörterbücher (in unserem Fall der Informatik), um sich einen Überblick über die wesentlichen Begriffe zu verschaffen, die für die eigene Thematik von Bedeutung sind. Diese dienen jedoch lediglich einer Übersicht und helfen, eine Skizze (oder ein semantisches Netz) zu erstellen, wie das folgende Recherchebeispiel zeigt: Zuerst wurde im Duden Informatik (2006) unter A nach Aussagenlogik geschaut, doch da gibt es keinen Eintrag. Also schaut man im Register nach, ob Aussagenlogik aufgeführt wird; dies ist der Fall auf Seite 392. Durch Nachschlagen stellt man fest, dass Aussagenlogik unter dem Stichwort Logik erwähnt wird. Darin sind u. a. Hinweise zu Schaltalgebra, die sogar mit Aussagenlogik gleich gesetzt wird (a.a.O. 392) vorhanden, zu Erweiterung der Aussagenlogik zur Prädikatenlogik und damit werden dann Hinweise bis zur Künstlichen Intelligenz, formale Sprachen, Semantik etc. gegeben. Schaut man zum Stichwort Schaltalgebra (a.a.O. 590), kommt der Hinweis auf Boolesche Algebra etc. Wenn beispielsweise das Thema Aussagenlogik in der achten Klasse unterrichtet werden soll, stellt man sehr schnell fest, dass die Beschreibungen viel zu anspruchsvoll sind. Für die eigene Aneignung des Wissens sind jedoch wichtige Hinweise vorhanden, z. B. in welchen Kontexten die Aussagenlogik eine wichtige Rolle spielt. Darauf aufbauend kann eine erstellte Skizze zur Aussagenlogik Verweise auf die obigen genannten Themengebiete enthalten, wodurch einem Lehrenden die Zukunftsbedeutung des Themas bewusst wird. Diese Vorgehensweise entspricht einem heuristischen Handlungsplan (s. Teil 2), wodurch Zusammenhänge auf einen Blick erkannt werden können.
1.2 Die Kunst des Lehrens: Die Vorbereitung
15
Wichtig ist, dass zu einem Thema mehrere Quellen angeschaut werden, um zu überprüfen, wie das jeweilige Thema behandelt wird. Ein Abgleich ist hilfreich, damit ein vollständiges Bild über den Sachverhalt entsteht. Hier bieten sich Lehrbücher an, da diese im Normalfall verständlich geschrieben werden, jedoch mit unterschiedlichen Schwerpunkten. Dissertationen bieten sich ebenfalls häufig an, da in diesen ebenfalls die Sachverhalte sehr genau beschrieben werden (müssen). Fachartikel und Fachbücher sind häufig viel zu speziell und nicht selten wird ein entsprechendes Vorwissen erwartet. Aus den gelesenen Texten muss dann die Sachanalyse entstehen. Diese ist systematisch und sollte nach Möglichkeit lückenlos sein (s. Teil 2 zum Stichwort algorithmischer Handlungsplan). Es dürfte bereits aufgefallen sein, dass diese Vorgehensweise der wissenschaftlichen Arbeit entspricht, und wir wollen auch betonen, dass hier der wissenschaftliche Aspekt nicht fehlen darf. Sind die Methoden des wissenschaftlichen Arbeitens bekannt, ist es mit der Zeit auch möglich, sich immer schneller das notwendige Wissen anzueignen bzw. zu ergänzen, da die Erfahrung Einen lehrt, wie man Texte lesen und verarbeiten muss. Bei der wissenschaftlichen Arbeit geht es demnach nicht primär darum, wie man Texte formal bearbeitet, sondern wie das Wissen extrahiert werden kann, um es in eigenen thematischen Kontexten einzubetten. Gerade dieser wissenschaftliche Aspekt scheint Studierenden häufig nicht bewusst zu sein. Die eigene Vorbereitung sollte jedoch nach dem neuesten wissenschaftlichen bzw. technischen Stand erfolgen. Das beeindruckt nicht nur die Lernenden, dies gibt auch dem Lehrenden ein sicheres Auftreten und die Konzentration kann sich entsprechend auf die soziale Situation richten, anstatt mit den eigenen fachlichen Unsicherheiten zu kämpfen. Es gibt noch einen weiteren wesentlichen Aspekt: Je gründlicher die Sachanalyse geschieht, desto mehr ist es möglich, sich selbst ein Bild des Ganzen zu verschaffen und damit eine Fachkompetenz zu erlangen, die nicht hoch genug eingeschätzt werden kann. Die Lernziele „Analyse“ und „Synthese“, die noch näher behandelt werden, können erst damit für sich selbst erreicht werden. Es ist dann möglich, den Schülern zu vermitteln, warum einige Inhalte, die vielleicht als abstrakt oder als unspannend betrachtet werden, trotzdem zu lernen sind. Dieser Punkt ist z. B. erneut sehr wichtig für die Zukunftsbedeutung und für die Zugänglichkeit der Inhalte. Natürlich spielt die eigene Persönlichkeit eine wesentliche Rolle im LehrLern-Kontext; diese ist jedoch nicht ausschlaggebend, wenn die Lernenden merken, dass sie etwas lernen können, was sie nicht selbst bei Wikipedia „mal eben“ nachschlagen können. Die Aneignung des Wissens sollte daher, wie mehrfach hervorgehoben, grundsätzlich allgemein erfolgen, d. h. unabhängig von einer konkreten Unterrichtssituation und von einer Schulklasse.
16
1 Der Weg zur Praxis
Noch ein (kleiner) Tipp: Viele Studierende übersehen beispielsweise, dass die Inhalte, die später für den Unterricht relevant sind, bereits in den Fachvorlesungen vermittelt werden. Die Vorbereitungszeit im Praktikum oder danach könnte sehr verkürzt werden, wenn die Inhalte der Vorlesung immer im Zusammenhang mit dem späteren Beruf als Lehrer rezipiert würden. Damit steht Einem bereits sehr viel Material zur Verfügung, das häufig „nur“ einer didaktischen Reduktion bedarf. Dies setzt jedoch voraus, dass man sich sehr früh mit den Richtlinien vertraut macht, um zu erkennen, dass sehr viele Inhalte des späteren Unterrichts Bestandteil des allgemeinen Curriculums sind. Ist die Vorbereitung abgeschlossen, dann beginnt die sog. Bedingungsanalyse.
1.2.3
Bedingungsanalyse
Generell versteht man unter Bedingungsanalyse die „umfassende Erfassung aller Voraussetzungen, unter denen der Lehr- und Lernprozess stattfinden soll“ (Peterßen 1989, 109), oder nach Klafki ausgedrückt (1991, 272): „Die Analyse der konkreten, sozio-kulturell vermittelten Ausgangsbedingungen einer Lerngruppe“. Die Erfassung „aller Voraussetzungen“ oder die Analyse der „sozio-kulturell vermittelten Ausgangsbedingungen“ verlangen ebenfalls besondere Kompetenzen. Hier sind insbesondere Kenntnisse aus der Soziologie, Psychologie, Didaktik und Fachdidaktik sowie der biologischen Entwicklung gefragt: Eine Graphik kann dies verdeutlichen:
ȋȌ
ǫȋ ǫȌ
òǫ òǫ ȋ¡
ǡ
ǤȌ
Ȁ
Ȁ
Ȁ
Abbildung 1-2: Die Bedingungsanalyse und involvierte Disziplinen
Das Niveau der zu vermittelnden Inhalte hängt von der Jahrgangsstufe und den vorgegebenen Rahmenbedingungen ab. Dieser Punkt ist wesentlich für die didaktische Reduktion.
1.2 Die Kunst des Lehrens: Die Vorbereitung
17
Altersstufen und deren Charakteristika Mit der Angabe der Jahrgangsstufe sowie der Überlegung hinsichtlich der Klassenkonstellation fangen für die Lehrenden die eigentlichen Probleme an, denn jede Altersstufe hat ihre spezifischen Schwierigkeiten. Nach eigenen Erfahrungen, die natürlich nicht unbedingt repräsentativ sind, können drei unterschiedliche Klassifizierungen festgemacht werden: Klassen 5 – 7 (Alter zwischen r 11 – 14)) Klassen 8 – 10 (Alter zwischen r 14 – 16) Klassen 11 – 13 (Alter zwischen r 16 – 19)6
Die energiegeladenen Schüler In den Klassen 5 bis 7 sind Unruhe und damit eine zeitweilige Disziplinlosigkeit dominierend. Die Schüler sind durchaus motiviert und können für viele Themen begeistert werden, sie werden es aber selten schaffen, sich 90 Minuten zu konzentrieren – abgesehen davon, dass das auch viele Erwachsene nicht können, sofern sie es nicht ganz bewusst trainiert haben. Die Schüler sind mitunter albern, rennen hintereinander her und haben Phasen, in denen man das Gefühl hat, dass das Chaos herrscht. Gerade in diesen Altersstufen ist es sehr wichtig, klare Regeln festzulegen. Wenn ein Lehrender die Schüler sehr früh daran gewöhnt, dass sich alle an gewisse Regeln halten müssen – auch die Lehrer –, dann ist die Wahrscheinlichkeit entsprechend größer, dass diese Regeln auch in den schwierigen Phasen, die in der Pubertät entstehen, eingehalten werden. Hierzu ein kleines eigenes Beispiel: Zu Beginn eines neuen Schuljahres hatte die Autorin, die damals eine Lehrerin war, mit den Schülern gemeinsam die (Verhaltens-)Regeln festgelegt. Zuerst hatte die Lehrerin gesagt, was sie nicht duldet und was sie nicht mag und hinterher hatten die Schüler ihrerseits mitgeteilt, was sie nicht mögen und wie sie behandelt werden wollen. Anschließend wurden gemeinsame Regeln festgelegt, die für alle Beteiligten galten. So waren bereits zu Beginn die jeweiligen Grenzen klar aufgestellt und es wurde gemeinsam darauf geachtet, dass die Regeln eingehalten werden. Dazu war es auch wichtig, dass die Unterrichtssequenzen besprochen wurden: Erst harte Arbeit, dann kurze Entspannung, dann wieder Arbeit etc. Das bedeutet, dass man sich von vornherein darauf einstellt, dass die Schüler Entspannungsphasen brauchen, in denen sie dann durchaus lauter sein können oder miteinander ohne Sanktionen reden können. Die Schüler ihrerseits wussten, dass sie sich konzentrieren müssen, damit sie ihre Entspannungsphasen haben können. Die positiven Erfahrungen über Jahre hinweg zeigten,
6
Wir beschränken uns auf diese Altersstufen, da Informatik in der Grundschule (noch) keine wesentliche Rolle spielt.
18
1 Der Weg zur Praxis
dass diese Vorgehensweise zumindest ausprobiert werden sollte (wie immer kann damit kein Patentrezept vorgestellt werden, aber vielleicht ist es auch bei Anderen erfolgreich). Als Basis für derartige Überlegungen sind soziologische wie psychologische Kenntnisse sehr nützlich. Der behavioristische Sozialisationsansatz ist beispielsweise hilfreich, da streng genommen eine (instrumentelle) Konditionierung durchgeführt wird (s. Teil 2), durch die Lehrende und Lernende die sozialen Regeln in der Klasse aushandeln und internalisieren. Kenntnisse über Rollen und die damit verbundenen Erwartungen machen Einem selbst deutlich, wie die institutionellen sowie sozial ausgehandelten Rollen zu analysieren und zu vermitteln sind. Dafür sind wiederum kommunikative sowie soziale Kompetenzen erforderlich, damit die Intentionen, die mit einer Regelaufstellung seitens der Lehrenden verfolgt werden, von den Schülern aufgenommen werden können. Emotional haben die Schüler in der fünften Klasse (nach dem bisherigen Schulsystem) das Problem der Neukonstellation im Klassenverband. Die Kinder kommen teilweise oder sogar überwiegend mit neuen Mitschülern zusammen und müssen sich zunächst orientieren. Die Schüler sind zunächst verunsichert, sie befinden sich demnach in einer Gruppenfindung und durchlaufen die klassischen Phasen, die im Zusammenhang mit Gruppenbildung und Gruppendynamik in der Soziologie thematisiert werden (vgl. Teil 2). Gerade in dieser Phase sind selbst aufgestellte Regeln sehr wichtig, damit ein „Wir-Gefühl“ entstehen kann. Insbesondere ist zu beachten, dass Kinder in diesen Altersstufen sowohl sehr rücksichtsvoll als auch gemein oder unfair anderen gegenüber sein können. Nicht immer handelt es sich dabei um Boshaftigkeit; es kann vielmehr in Betracht gezogen werden, dass die Fähigkeit zur Empathie nicht sehr ausgeprägt ist und die Konsequenzen des Gesagten nicht durchdacht werden. Aussagen wie „Du hast mal wieder keine Ahnung“, „Du kapierst ja auch gar nichts“ etc. kommen leider häufig vor und mitunter auch von unbedachten Lehrenden. Gerade in diesem Zusammenhang muss eine Regel lauten, dass sich Alle mit Respekt behandeln und freundlich zueinander sind. Lerntheoretisch betrachtet befinden die Schüler dieser Altersstufen im Übergang von der konkret-operationalen in die formal-operationale Phase der kognitiven Entwicklung (nach Piaget, vgl. Teil 2) und es muss berücksichtigt werden, dass die Schüler zeitlich sehr unterschiedlich dies Stadium erreicht haben. Über- und Unterforderung sind gleichermaßen Probleme, die aufgefangen werden müssen. Die Inhalte müssen demnach noch konkret und in einer bildhaften Sprache vermittelt werden, damit die Schüler nicht überfordert werden. Diejenigen, die bereits weiter sind und abstrakt denken können, sollten ermutigt werden, und häufig wirkt es sich positiv aus, wenn Sachverhalte durch diese Schüler den anderen vermittelt
1.2 Die Kunst des Lehrens: Die Vorbereitung
19
werden, da sie über eine gemeinsame Sprache (und Lebenswelt) verfügen. Dies erfordert jedoch Fingerspitzengefühl, da fortgeschrittene Schüler zum „überheblichen“ Darstellen neigen können und sich somit die anderen Kinder eher zurückziehen, da sie nicht ständig als „doof“ abgestempelt werden möchten. Die Schüler suchen Vorbilder und ein Lehrer ist immer ein Vorbild – ob er will oder nicht (das sog. Lernen am Modell, das noch in Teil 2 näher behandelt wird). Was die Schüler jedoch als Modell sehen, ist nicht von Einem selbst steuerbar. Das Wissen darüber bedeutet, dass ein Lehrer sehr konsequent in seinem Verhalten sein muss, damit die Schüler ihn einschätzen können und hoffentlich das als Vorbild annehmen, was erwünscht wird. Wenn ein Lehrender selbst immer wieder die Sachverhalte in einer adäquaten Form vermittelt, dient dies als Vorbild, was sich positiv auf die Art und Weise auswirkt, wie Schüler sich gegenseitig etwas erklären. Kinder in dem Alter können nicht nur unfair sondern auch sehr sensibel sein, was die soziale Situation angeht, auch wenn man es ihnen nicht zutrauen würde. Wenn die Interaktion zwischen Lehrer und Schülern stimmt, können sie durchaus wahrnehmen, wenn der Lehrer sich selbst nicht besonders gut fühlt und bekümmert ist, und die Schüler nehmen entsprechend Rücksicht darauf7. Umgekehrt ist es auch notwendig, dass die Lehrenden den Schülern konzedieren, dass sie ebenfalls einen schlechten Tag haben können, viele Sorgen haben und einfach in Ruhe gelassen werden möchten. Zugleich müssen jedoch Lehrer wie Schüler lernen, dass es nicht sein kann, dass die eigene Laune oder das Wohlbefinden zur Belastung Anderer wird. Auch in diesem Kontext ist der Lehrer ein Vorbild.
Die „schwierigen“ Schüler in der Pubertät Dann beginnt die Phase, an die Jeder mit gewissem Schaudern denkt, da die Pubertät entsprechend in vollen Zügen ausgelebt wird (mitunter bis zur 11. Klasse). Es ist verblüffend, wenn Schüler bereits erwarten, dass die Lehrer doch bitte auf diese schwierige Phase Rücksicht nehmen und wissen sollten, wie man mit Puber-
7
Wieder ein selbst erlebtes Beispiel: Die Autorin (als damalige Lehrerin) erzählte den Schülern, dass sie ein Fan der Gruppe Queen war. Eines Tages begrüßten zunächst die Kinder der fünften Klasse die Lehrerin mit der Frage, ob sie gehört hätte, was mit (dem Leadsänger) Freddie Mercury passiert war. Sie sagte „nein“ und daraufhin baten die Schüler sie, sich hinzusetzen. Sie bemühten sich, die Nachricht vom Tod des Sängers sehr behutsam zu vermitteln. Anschließend waren die Kinder und Jugendlichen in allen Klassen schon fast gespenstisch lieb. Sie haben den ganzen Tag Rücksicht auf die von ihnen vermutete Stimmung genommen, obwohl dies in diesem Maße nicht nötig war.
20
1 Der Weg zur Praxis
tierenden umgeht.8 Diese Jahrgänge stellen die größte Herausforderung für einen Lehrer dar. Um diese Phase besser zu verstehen, sind auch biologische Kenntnisse sehr hilfreich. Die Heranwachsenden werden mit physischen Problemen konfrontiert, die für sie wesentlich wichtiger sind als Integralrechnung oder Automatentheorie. Physische Entwicklungen, die mit Angst besetzt sind, treten sehr häufig auf. Einmal wurde die Autorin, die sich auch für Medizin interessiert, von einem Sechzehnjährigen gefragt, was es sein könnte, wenn sehr häufig Kopfschmerzen und manchmal Übelkeit auftreten und ein „Ziehen“ hier und da. Die Antwort lautete, dass es sich einerseits um Auswirkungen der physischen Entwicklung handeln könnte, da die einzelnen Körperteile unterschiedlich (schnell) wachsen und der Körper entsprechend mit Unwohlsein reagiert. Andererseits könnte es sich natürlich auch um eine ernsthafte Krankheit handelt, die von einem Arzt diagnostiziert werden muss. Die Antwort des Teenagers lautete: „Ich wünschte, ich hätte eine ernsthafte Krankheit, dann wüsste ich wenigstens was mit mir los ist“. In dieser Phase sind die Jugendlichen einerseits sehr selbstbewusst, sie wissen immer alles und insbesondere alles besser, andererseits sind sie unglaublich empfindlich und können sehr leicht verletzt und verunsichert werden. Natürlich ist das jeweils andere Geschlecht plötzlich auch sehr interessant und wer erinnert sich nicht an die erste Liebe bzw. an erste Enttäuschungen. In dieser Phase provozieren die Jugendlichen mehr als nur gerne. Sie versuchen, die Schwächen der Lehrenden herauszufinden, nur um diese entsprechend wirkungsvoll aus der Fassung bringen zu können. So ist es durchaus vorgekommen, dass die Mädchen um einen jungen Lehrer pokern, was wörtlich gemeint ist, und ihn damit völlig verunsichern (dieser Lehrer ist anschließend nie wieder in dieser Klasse gewesen), Jungen machen anzügliche Bemerkungen der Lehrerin gegenüber und versuchen, diese ständig zu berühren. Würde man sich ernsthaft auf diese Provokationen einlassen und so tun, als ob diese Annäherungsversuche auf Gegenseitigkeit beruhen, dann sind diese Jugendlichen die ersten, die weglaufen. Um dies zu konkretisieren: Jugendliche stellten Hypothesen darüber auf, was für eine Unterhose die Lehrerin wohl anhatte und zwar so, dass die Lehrerin es hören musste. Auf die Frage der Lehrerin, ob die Jugendlichen die Unterhose sehen wollten, sagten sie sofort – ziemlich überrascht und aufgeschreckt: „Nein!“. Hätte der Lehrer, um den gepokert wurde, gesagt: „Das ist ja eine spitzenmäßige Idee – ich
8
Die Schüler können sich mitunter nicht vorstellen, dass viele Erwachsene diese Phase am liebsten ganz schnell vergessen.
1.2 Die Kunst des Lehrens: Die Vorbereitung
21
freue mich schon auf die Siegerin“ –, dann wären die Karten wohl sofort hingelegt und nie wieder in seinem Beisein herausgeholt worden. Wie häufig beobachtet man dieses Verhalten sogar auf der Straße. Wenn mehrere Jugendliche zusammensitzen, begrüßen sie einen (natürlich völlig überschwänglich) und sind dann völlig erstaunt, wenn man darauf eingeht und sie ebenfalls sehr freundlich begrüßt. Das sind recht harmlose Verhaltensweisen; die weiter oben dargestellten sind für Lehrer schwieriger zu handhaben. Die Lehrenden müssen daher unbedingt versuchen, ruhig zu bleiben, so zu tun, als ob sie sich nicht verunsichern lassen, und darüber hinaus ganz klare Grenzen setzen, wodurch die Jugendlichen wissen, wann sie zu weit gehen. Es ist also ein ganz genaues Abwägen, ob man zur Abschreckung auf die Provokationen eingeht oder sich auf die klaren Regeln bezieht. Beispielsweise wenn eine Schülerin im Sommer einen Minirock und keine Unterhose trägt und sich in der ersten Reihe hinsetzt (das ist tatsächlich mehrfach vorgekommen), dann darf der Lehrer das weder tolerieren noch sich auch nur ansatzweise auf diese Provokation einlassen. Die Jugendlichen stellen in dieser Phase auch sämtliche Werte und Normen in Frage, sie reagieren empfindlich auf Doppelmoral und auf persönliche Schwächen der Lehrenden und anderer Personen in ihrem Umfeld (die Eltern haben es in dieser Phase besonders schwer). Mit anderen Worten, es werden Übermenschen erwartet und die Vorbilder der Jugendlichen sind häufig Sportler oder überwiegend Filmschauspieler, die entsprechende Rollen spielen. In dieser Phase lassen sich die Jugendlichen nicht gerne bevormunden und weigern sich häufig, etwas zu tun, was nicht selbstbestimmt ist. Daher kann es hier sehr nützlich sein, die Jugendlichen bei der Wahl der Methoden mit einzubeziehen. Sie gewinnen dadurch den Eindruck, dass sie mitbestimmen können, und entziehen sich weniger den Vorgaben, da sie diese selbst mit entschieden haben. In diesem Zusammenhang spielen kommunikative und soziale Kompetenzen sowie theoretische Ansätze der Persönlichkeitsentwicklung eine besondere Rolle. Das Wissen über die biologischen, sozialen und kognitiven Entwicklungen kann für einen Lehrenden zusätzlich besonders hilfreich sein, um auf eine „Metaebene“ wechseln zu können, wenn man selbst das Gefühl hat, die Beherrschung zu verlieren. Die Zeit, in der man sich selbst mental zurückzieht und sich daran erinnert, in welchen Situationen sich die Schüler befinden, ist behilflich, um sich selbst zu beruhigen. So lange der Unterricht gut läuft, braucht man sich um Theorien nicht zu kümmern. Diese werden jedoch in schwierigen Situationen umso bedeutsamer, da die dazu notwendige analytische Reflexion verhindert, dass man die Kontrolle verliert.
22
1 Der Weg zur Praxis
Die Situation wird einfacher In der Oberstufe ist die Pubertätszeit noch nicht abgeschlossen, der Druck des Abiturs reicht jedoch, damit sich die Jugendlichen auf das Ziel konzentrieren. Es wird wieder einfacher mit ihnen umzugehen, dennoch ist „das brauche ich nie wieder in meinem Leben“ ein häufig ausgesprochener Satz. Wenn die Lehrer selbst nicht wissen, warum bestimmte Inhalte vermittelt werden sollen, können das die Schüler erst recht nicht verstehen. Sätze wie „Du willst das Abitur machen“ (falls sich das „Sie“ in der Oberstufe nicht durchsetzt) oder „Man lernt für das ganze Leben“ sind wenig hilfreich, denn nur die Wenigsten werden dadurch motiviert. Gruppendynamisch ist zu beachten, dass in der Oberstufe das „Wir-Gefühl“ nur sehr bedingt entstehen kann, da das Kurssystem einen ständigen Wechsel der Gruppenkonstellation bedeutet. In den seltensten Fällen haben die Schüler gemeinsam mehreren Kurse. Daher spielen hier die individuellen Interessen eine größere Rolle als der Gruppenzusammenhalt. In diesen Altersstufen unterliegt die Persönlichkeitsentwicklung sehr vielen Schwankungen. Insbesondere die Ich-Identität als eine Teilfähigkeit (vgl. Teil 2) wird dominanter und mit dem Erreichen des 18. Lebensjahres sowie mit dem Näherrücken des Abiturs haben die Jugendlichen das Gefühl, dass sie unschlagbar sind; zugleich spielt die Zukunftsangst oder das Gefühl der Unsicherheit eine wesentliche Rolle, wodurch das „Ich“ doch nicht mehr so groß zu sein scheint. Diese Unsicherheiten können zu irrationalen und nicht nachvollziehbaren Handlungen führen, die dann mit bedauerlicher Häufigkeit in den Medien thematisiert werden. Die Gegenwarts- und Zukunftsbedeutung der Inhalte mit der aktuellen Lebenswelt der Schüler zusammen zu bringen ist nicht ganz einfach. Einerseits interessieren sich die Schüler z. B. für wichtige Themen wie Politik, Ökologie etc. und zugleich schauen sie sich das Dschungel-Camp oder Big Brother an.9 Sie schwanken in ihrem Verhalten zwischen dem „Erwachsensein“ und „Kindsein“ hin und her, je nachdem in welcher psychischen Verfassung sie sind. Sie erwarten einerseits „getröstet und verwöhnt“ und andererseits als „erwachsen“ behandelt zu werden (insbesondere wenn es um bestimmte Freiheiten geht). Sie erwarten, dass man ihre Lebenswelt sehr ernst nimmt und sie reagieren mitunter sehr empfindlich, wenn man sich darüber lustig macht. Es ist natürlich sehr hilfreich, wenn ein Lehrender immer wieder abwägt, welche Verhaltensweisen und welche kommunikative Ebene zu bevorzugen sind.
9
Die Autoren gestehen hier allerdings freiwillig, dass sie sich die Staffel 2011 vom Dschungelcamp auch angeschaut haben. Man konnte da gruppendynamische Prozesse gewissermaßen wie unter dem Mikroskop studieren.
1.2 Die Kunst des Lehrens: Die Vorbereitung
23
Exkurs über Erwachsenenbildung Wer glaubt, dass die Lehre bei den Erwachsenen einfacher ist, der kann sich ebenfalls irren. Erwachsene können wesentlich schwieriger sein als Jugendliche. Wenn man hört „Die benehmen sich wie Kinder“, wäre es den Kindern gegenüber nicht gerecht, da Erwachsene sich häufig nicht so leicht ermahnen lassen wie Kinder. In dem Zusammenhang heißt es häufig: „Wir sind erwachsen, wir wissen, was wir wollen oder was wir brauchen.“ Interessanterweise entsteht häufig eine Diskrepanz zwischen dem eigenen Verhalten, das einerseits sich sehr schnell an ein Schülerverhalten anpasst bzw. damit verglichen werden kann, und andererseits der Forderung, dass die Erwachsenen jedoch ernst genommen und mit Respekt behandelt werden wollen. Es ist ihnen häufig nicht bewusst, dass das gezeigte Verhalten es den Lehrenden unmöglich macht, die Teilnehmer ernst zu nehmen. Insbesondere wenn die Teilnehmer einer Fortbildung älter sind als der Lehrende treten diese Probleme verstärkt auf. Das Alter stellt insgesamt ein Problem dar, da bei Fortbildungen die Altersunterschiede innerhalb der Gruppe aufgefangen werden müssen. Ist der Sozialstatus bei einigen Teilnehmern höher als bei den Lehrenden oder den anderen Teilnehmern, werden diese Probleme um Einiges gravierender. Die Probleme sind damit insgesamt vielfältiger, da die Lerngruppen häufig wesentlich heterogener sind; die Teilnehmer haben nicht nur eine unterschiedliche Sozialisation, sondern auch sehr unterschiedliche Lernstrategien. Bei Fortbildungen wird man mitunter damit konfrontiert, dass die Lernenden seit langer Zeit nicht mehr mit „Lernen“ konfrontiert waren (nichts vergisst man schneller als das Lernen) und daher es sehr schwer haben, neue Informationen aufzunehmen und zu verarbeiten. Die Erwartungen sind ebenfalls sehr unterschiedlich. Einige wünschen sich, das Lernpensum in kleine Häppchen serviert zu bekommen, damit sie sich ja nicht anstrengen müssen, andere sind erst beeindruckt, wenn man mit einem sehr hohen Niveau ankommt, wo sie den Eindruck haben, dass sie herausgefordert werden. Da in den meisten Fällen die Fortbildungen finanziert werden, wird diese Tatsache auch nicht selten in diesem Zusammenhang thematisiert. „Wir bezahlen dafür, also können wir auch erwarten, dass wir nicht weiter nachdenken müssen“ oder aber auch „Wir bezahlen dafür, wir wollen also auch Niveau haben“. In diesem Zusammenhang sind Kenntnisse über soziale Rollen sehr wichtig, die mitunter explizit vermittelt werden müssen. Dies gilt insbesondere für die damit verbundenen Erwartungen. Es entstehen häufig Identitätsprobleme, da die Teilnehmer einerseits in ihrem Beruf etabliert sind – zum Teil haben sie bereits Führungspositionen; andererseits gibt es in einer Fortbildung bestimmte Regeln, denen sich die Teilnehmer unterordnen müssen. Insbesondere die Prüfungen stellen ein besonderes Problem dar. Die sog. soziale Angst, die sich durch Versagensangst ausdrückt, spielt für viele eine besondere Rolle, die jedoch kaum ausgesprochen
24
1 Der Weg zur Praxis
wird. Somit entstehen häufig Rollenkonflikte, die einer besonderen Aufmerksamkeit bedürfen. Folglich muss die soziale Situation genau eingeschätzt und die kommunikative Kompetenz kann gar nicht hoch genug eingesetzt werden. Hinsichtlich der Gruppenbildung ist festzuhalten, dass auch in diesem Zusammenhang die eigenen Interessen dominanter sind als das „Wir-Gefühl“, es sei denn, die Ziele sind nur durch einen Gruppenzusammenhalt erreichbar. Die jeweiligen Gruppenkonstellationen und Probleme unterscheiden sich jedoch im Übrigen nicht wesentlich von denen anderer Lerngruppen.
Die Lehre wird einfacher? Exkurs zum Universitätsstudium Die Lehre bei den Studierenden ist insgesamt als die leichteste Form (zumindest bisher) zu betrachten, da die sozialen Regeln dort sehr dominant sind. Es ist jedoch auch in diesem Kontext festzustellen, dass es in den sog. „weichen Wissenschaften“ häufig schwieriger ist, eine notwendige Disziplin zu erzielen. Hier gilt häufig wie in der Erwachsenenbildung: Je härter die Fächer sind, desto weniger Probleme sind vorhanden. Selbst wenn die Studierenden sich selbst häufig fragen, wofür sie das lernen sollen, thematisieren sie es nicht oder kommen nicht mehr zur Vorlesung (sofern diese eine Wahlveranstaltung ist). Daher ist die Lehre an der Universität durchaus als sozial einfacher einzustufen, die Vermittlungsprobleme sind jedoch gleich. Die Gegenwarts- und Zukunftsbedeutung sowie die Zugänglichkeit der Inhalte müssen genauso berücksichtigt werden, um die Lehre effektiv zu gestalten. Aufgrund unserer Erfahrungen ist hier ein kleiner Hinweis wichtig: Es wäre in diesem Kontext häufig hilfreich, wenn die Studierenden die Rolle der Professoren kennen würden. Aussagen wie: „Der ist zu faul, um häufiger in der Uni zu sein“ deuten darauf hin, dass viele keine Vorstellung darüber haben, welche Rolle ein Professor einnimmt. Für viele – insbesondere Studienanfänger – sind die Professoren nichts anderes als Lehrer, weil die Studierenden selbst häufig die Universität als Verlängerung der Schule betrachten.
1.2.4
Der Zeitfaktor
Ein ebenfalls wesentlicher Aspekt ist die Zeit, die für eine Lehreinheit zur Verfügung steht. Aus der Studienzeit ist es Manchen bekannt, dass etwa die Aussagenund Prädikatenlogik in der Philosophie tatsächlich ein ganzes Semester behandelt wird und damit werden erst die Grundlagen für die darauf aufbauende mathematische Logik vermittelt. In Rhetorik wiederum sind diese Themen bedeutsam für korrekte Schlussfolgerungen und damit für eine überzeugende Argumentation (u. a. Stoica-Klüver et al. 2007). Entsprechend werden die Themen auf das Wesentliche in diesem Kontext reduziert und nehmen nicht sehr viel Zeit in Anspruch. Im
1.2 Die Kunst des Lehrens: Die Vorbereitung
25
Informatikstudium wird die Aussagen- und Prädikatenlogik – je nach Schwerpunkt – in speziellen Veranstaltungen vermittelt und es sind nur wenige Semesterwochenstunden vorgesehen. In den Rahmenrichtlinien für die gymnasiale Oberstufe (MSWWF 1999) wird die formale Logik unter Anderem im Kontext endlicher Automaten, der Objektorientierung und wissensbasierter Systeme erwähnt. Wie intensiv die Thematik behandelt werden soll, wird nicht weiter thematisiert. Wie die zu vermittelnden Inhalte letztlich aufbereitet werden, hängt somit wesentlich von der zur Verfügung stehenden Zeit ab und in wiefern bestimmte Vorkenntnisse erwartet werden. An dieser Stelle entstehen ebenfalls für Anfänger Probleme, da sie einerseits wissen müssen, welche Vorkenntnisse für die Thematik wesentlich sind und andererseits sich der Lehrende darüber informieren muss, ob diese Vorkenntnisse auch tatsächlich vorhanden sind, insbesondere wenn ein Lehrerwechsel vorliegt. Werden die Schüler befragt, so wird man doch recht häufig hören „das haben wir nie gemacht“. Interessant ist es dabei, eine derartige Aussage zu hören, wenn man selbst die Inhalte vermittelt hat. Im letzten Fall ist es häufig ausreichend, einige Stichworte zu nennen und die Schüler erinnern sich dann, dass sie tatsächlich die Themen schon gehört haben. Im ersten Fall bedeutet es, dass ein Lehrer sich die Klassenbücher ansehen muss, die häufig auch nicht sehr ergiebig sind. Sollten die Inhalte tatsächlich nicht vermittelt worden sein, muss mehr Zeit eingeplant werden, da die notwendigen Vorkenntnisse fehlen. Dies klingt sehr plausibel; wenn jedoch die Realität Einen einholt und es deutlich wird, dass die Zeit nicht zur Verfügung steht, um auch die als bekannt angenommenen Inhalte zu vermitteln, könnte man verzweifeln. Das grundsätzliche Problem für Anfänger besteht darin, dass sie nicht beurteilen können, wie viel Zeit tatsächlich benötigt wird, um einen Sachverhalt zu vermitteln. Das ist ein schwieriges Problem, da es auch sehr stark von der Lerngruppe abhängt, wie schnell ein Sachverhalt verstanden wird, insbesondere wenn in eine neue Thematik eingeführt wird. Im Laufe der Zeit sammelt man die notwendige Erfahrung, Lern- und Verständnisprobleme können antizipiert werden und man macht sich Gedanken, wie die Vermittlung der Inhalte diesbezüglich verbessert werden kann. Jedenfalls ist der Zeitfaktor entscheidend für die didaktische Reduktion (s.w.u.).
1.2.5
Institutionelle Bedingungen
Um den Unterricht konkret planen zu können, ist es notwendig, sich mit den institutionellen Rahmenbedingungen vertraut zu machen. Sind beispielsweise nicht genügend Zusatzräume vorhanden, kann eine räumlich geteilte Gruppenarbeit nicht durchgeführt werden. Ist der Klassenraum zu klein, ist eine Gruppenarbeit ebenfalls nicht effektiv durchführbar.
26
1 Der Weg zur Praxis
Natürlich wird vorausgesetzt, dass für den Informatikunterricht ein Computerraum mit genügend PCs zur Verfügung steht. In der Realität zeigt es sich, dass viele Schulen nur unzureichend ausgestattet sind, die Rechner zum Teil veraltete Betriebssysteme haben, es gibt keinen Internetanschluss etc. Auch das Vorhandensein eines Beamers kann nicht selbstverständlich vorausgesetzt werden (zumindest jetzt noch nicht). Es ist daher wichtig, bei der Planung zu berücksichtigen, welche räumliche Möglichkeiten und welche Medien zur Verfügung stehen. Nicht zu vergessen sind die Freiheitsgrade, die ein Lehrender tatsächlich für die Unterrichtsgestaltung hat. Es gibt Institutionen, die einem Lehrenden nicht sehr viel Freiraum lassen, seine Lehre durchzuführen. Gibt es klare Konzeptionen, ist es für einen Einzelnen schwierig, sich durchzusetzen und zu argumentieren, warum beispielsweise der Projektunterricht wesentlich effektiver ist als der Frontalunterricht. Manche Lehrende würden gern experimentieren und andere Lehrmethoden auswählen, die dann jedoch von der Schuldirektion mit Skepsis betrachtet und schlimmstenfalls untersagt werden. Zusammenfassend gilt demnach, dass die Bedingungsanalyse wesentliche Aspekte umfasst, die für die konkrete Unterrichtsplanung wichtig sind, und die Fähigkeit zur Organisation und Planung wird dabei praktisch vorausgesetzt. Es zeigt sich, dass hier spezielle Kenntnisse der Soziologie, Psychologie und der Biologie sehr hilfreich sind, um die Lehr-Lern-Situation einschätzen zu können.
1.3
Die Kunst des Lehrens: Die Durchführung
Sind die zu vermittelnden Inhalte bekannt und ist die Bedingungsanalyse abgeschlossen, beginnt die Planung des konkreten Unterrichts. Wenn man davon ausgeht, dass ein Lehrer grundsätzlich mehr zu einem Thema weiß, als er in der Schule vermitteln kann (es sollte zumindest immer so sein), muss er sich Gedanken machen über Schwerpunkte (didaktische Reduktion), Lernziele, Methoden sowie Überprüfbarkeit. Damit beginnt eine quantitative wie qualitative Strukturierung der Inhalte. In der folgenden Abbildung werden die einzelnen Zusammenhänge zur Erinnerung dargestellt.
1.3.1
Didaktische Reduktion
„Didaktische Reduktion“ ist die „allgemeine Beschreibung für eine zentrale Aufgabe der Didaktik überhaupt: (Sie ist) die Rückführung komplexer Sachverhalte auf ihre wesentlichen Elemente, um sie für Lernende überschaubar und begreiflich zu machen.“ (Vogel 1995, 567)
1.3 Die Kunst des Lehrens: Die Durchführung
27
Für einen Lehrenden bedeutet dies, dass er sich stets vor Augen halten muss, welche kognitiven Fähigkeiten bei den Schülern in einem bestimmten Alter vorhanden sind, und entsprechend muss er die Inhalte aufbereiten. Die Fähigkeit zur Empathie ist notwendig, um sich in die Lage der Schüler zu versetzen, und zwar sowohl in kognitiver als auch in sozialer Hinsicht. Insbesondere muss sich der Lehrende von seinen eigenen Kenntnissen in gewisser Weise lösen, denn häufig sind die Inhalte einem so bekannt und so vertraut, dass gar nicht mehr nachvollzogen wird, wo die Verständnisprobleme liegen können.
ȋ ǫȌ
oò ȋǡ
ǤȌ
Abbildung 1-3: Die didaktische Reduktion
Die didaktische Reduktion gehört zu den schwierigsten Aufgaben, die regelrecht als Kunst bezeichnet werden kann (s. Einleitung). Auch hier kann jedoch festgehalten werden: Je kenntnisreicher ein Lehrender ist, desto leichter kann er sich auf die Vermittlung konzentrieren. Somit ist hier erneut neben Fachkenntnissen unentbehrlich, die Kenntnis der kognitiven Lerntheorien und der Sozialisation mit einzubeziehen.
1.3.2
Lernziele
Ein Lernziel lässt sich als eine „sprachliche Formulierung definieren, die Aussagen über beabsichtigte Ergebnisse von Unterricht und vergleichbare Situationen macht. Es beschreibt Kenntnisse, Fähigkeiten und Einstellungen, welche die Schüler im Verlauf des Unterrichts entwickeln oder aneignen sollen, und zwar in einer Form, die eine Überprüfung der Lernergebnisse ermöglicht“ (Lemke 1995, 537) Die Lernziele werden unterschiedlich definiert und beispielsweise in kognitive, affektive und psychomotorische klassifiziert. Die kognitiven Lernziele nach Bloom (1972), die sechs Stufen berücksichtigen, lassen sich besonders schön an der wohl
28
1 Der Weg zur Praxis
berühmtesten Formel vermitteln, die die Wissenschaft kennt und zwar an Einsteins Formel
ൌ
ʹ 1. Wissen: Aneignung des Wissens Jeder weiß wofür die Formel steht. Unabhängig davon, in welchem Lehrkontext diese Frage gestellt wurde, konnten alle Befragten, ob Schüler, Teilnehmer in der Erwachsenenbildung oder Studierende sagen, dass es sich um Einsteins Formel handelt. Sie konnten auch die Bedeutung der einzelnen Buchstaben wiedergeben, mit einer Ausnahme: Warum der Buchstabe „c“? Niemand konnte diese Frage beantworten, selbst Physikprofessoren nicht: Sie wussten, dass c für Lichtgeschwindigkeit steht, jedoch nicht warum der Buchstabe c gewählt wurde. Er steht nämlich für celeritas, das lateinische Wort für Geschwindigkeit (Bodanis 2001, 51). 2. Verstehen: Dies bedeutet, dass man in der Lage ist, das Erlernte in eigenen Worten wiederzugeben. Hier entsteht bereits die erste Differenzierung zwischen Denjenigen, die diese Formel wirklich verstanden haben und die Bedeutung der Formel mit eigenen Worten wiedergeben können und Denen, die nur die Bedeutung der einzelnen Formelteile kennen. 3. Anwenden: Das Erlernte kann auf – ggf. neue – Sachverhalte angewendet werden. Die Fähigkeit zur Generalisierung kann durch die Anwendung trainiert werden. Die meisten Laien sind nicht mehr in der Lage, diese Formel anzuwenden. (Die Autoren können dies auch nur partiell, weil der Autor im Rahmen seines Mathematikstudiums etwas Physik studiert hat und sich für Science Fiction interessiert.) 4. Analyse: Erkennen und Beherrschung der wesentlichen Elemente/Bausteine Hier müssen wir wohl den Blickwinkel eines Physikers einnehmen: Man muss nicht nur wissen, wofür die Komponenten stehen, sondern man muss auch deren physikalische Bedeutung kennen, z. B. was man seit Newton unter „Masse“ versteht, und dass die Lichtgeschwindigkeit c sowohl messbar ist (ca. 3ooooo km/sec.) als auch eine universelle Konstante; die Physiker nennen dies die Konstanz von c in allen Bezugssystemen. 5. Synthese: Zusammenbringen bekannter Bausteine zu einer neuen Erkenntnis. Erst auf diesem Niveau konnte Einstein die einzelnen Elemente zu etwas Neuem zusammensetzen, was bahnbrechend war. Wir werden übrigens in den Teilen 2 und 3 noch einmal auf dies Beispiel zurückkommen, um daran bestimmte Gesetzmäßigkeiten von Synthesen darzustellen.
1.3 Die Kunst des Lehrens: Die Durchführung
29
6. Evaluation: Bewertung der Synthese In dieser Phase wird überprüft, ob die Synthese Sinn macht oder ob sie zulässig ist – das gilt insbesondere für die Fälle, in denen es unmöglich ist, experimentell zu ergründen, ob die Synthese korrekt ist. Einstein beispielsweise publizierte diese berühmte Formel bereits 1905; es dauerte jedoch noch Jahrzehnte, bis einschlägige Experimente möglich waren und die Richtigkeit der Formel demonstrierten. Dieses Beispiel soll deutlich machen, dass die höheren Lernziele gewöhnlich nur sehr schwer zu erreichen sind. Wenn Jemand behaupten will, dass alle Lernziele innerhalb einer Unterrichtsstunde oder auch nur in einer Unterrichtsreihe erreicht werden können (und sollen), dann können wir nur darauf verweisen, dass dies praktisch unmöglich ist. Um ein Computerprogramm schreiben zu können, braucht man die Analyse der einzelnen Komponenten und erst als Synthese kann ein fertiges Programm entstehen. Streng genommen besteht die gesamte Ausbildung mitunter nur aus den Stufen bis zur Analyse. Jedes Fach vermittelt zunächst Wissen, das als relevant betrachtet wird. Die Stufe der Analyse kann dann nur durch eine Reduktion auf das Wesentliche realisiert werden. Erst wenn die Lehre erfolgreich war, ist eine Synthese möglich. Bezogen auf die Fachdidaktik bedeutet dies Folgendes: Die Fachdisziplin vermittelt den Kern der Inhalte für das später zu unterrichtende Fach, jedoch weit darüber hinaus. Die Veranstaltungen in Erziehungswissenschaft, Psychologie, Soziologie etc. thematisieren die wichtigsten Theorien und Ansätze, die sich jedoch nicht auf ein spezielles Fach beziehen. Um die Fachdidaktik zu beherrschen (Synthese), ist es notwendig zu entscheiden, welche Elemente aus den anderen Disziplinen für die Vermittlung notwendig sind (Analyse). Letztlich sind gerade für interdisziplinäre Arbeiten, was die Fachdidaktik ist (vgl. Einleitung), die Analyse und Synthese überhaupt die Voraussetzung, dass etwas Neues entstehen kann. Wir belassen es an dieser Stelle bei den kognitiven Lernzielen, da diese wesentlich sind, um die Unterrichtsmethoden zu bestimmen. Eine reine Wissensvermittlung erfordert andere Methoden als das Verstehen komplexer Sachverhalte (Lemke 1995). Je höher die kognitiven Lernziele definiert werden, desto vielfältiger und differenzierter müssen die Methoden sein.
1.3.3
Methoden
„Die Unterrichtsmethode berücksichtigt die ,Dynamik des Unterrichts‘“ (Geißler 1995, 579). Die zentrale Frage ist in diesem Zusammenhang, wie die Inhalte vermittelt werden sollen. Dabei spielen die kognitiven Lerntheorien eine wichtige Rolle sowie die Analyse der Faktoren (psycho-soziale), die sich positiv auf die Aufnahme und Verarbeitung der Inhalte auswirken. Dazu zählen die Herausarbeitung der Gegenwarts- und Zukunftsbedeutung, die es ermöglichen, dass die Schüler einer-
30
1 Der Weg zur Praxis
seits am Bekannten anknüpfen können (Gegenwartsbedeutung) und andererseits erkennen, welche Relevanz die Themen für die Zukunft haben. Damit kann sowohl die Aufmerksamkeit als auch die Motivation gesteigert werden. Eine der wichtigsten Fragen ist, ob die Thematik etwas Exemplarisches aufweist. Das Exemplarische ist weit mehr als nur ein Beispiel, das zur Konkretisierung und zur Anregung des bildhaften Denkens dient, und womit verschiedene Assoziationen ermöglicht werden. Das Exemplarische enthält das Elementare, das Besondere also, das ein Allgemeines erkennen lässt und ist grundlegend für die Fähigkeit der Generalisierung. In der konkreten Situation kann als Beispiel die Programmiersprache PASCAL verwendet werden, die immer noch in den Schulen gelehrt wird, um die Syntax von Programmiersprachen zu vermitteln. Das Exemplarische daran ist, dass jede Sprache, also auch eine Programmiersprache, über eine Syntax verfügt und dass die wesentlichen und charakteristischen Merkmale einer Syntax erläutert werden müssen, die unabhängig von einer speziellen Programmiersprache sind. Wir werden auf das Problem des Exemplarischen in Teil 3 noch systematisch eingehen. Eine ebenso wichtige Frage ist, welche Sozial- bzw. Unterrichtsform verwendet wird. Es ist die Entscheidung zu treffen, ob die Wissensvermittlung in Form des Frontalunterrichts erfolgt, oder ob sich die Schüler in Einzelarbeit das Wissen aneignen sollen. Die Vertiefung der Inhalte kann ebenfalls unterschiedlich erfolgen, nämlich durch Einzel-, Partner- oder Gruppenarbeit. Jede Form hat ihre Vor- und Nachteile, daher muss die Entscheidung aus didaktischer Sicht begründet werden. Generell gilt, dass eine Gruppenarbeit nur dann Sinn macht, wenn die Aufgabenstellung sehr komplex ist. Die Begründung für eine Gruppenarbeit, die allein darin liegt, dass die Schüler lernen sollen, in Teams zu arbeiten, macht keinen Sinn, wenn die Aufgabe in einer Einzel- oder Partnerarbeit besser gelöst werden kann. Darauf zu achten ist ebenfalls, dass die Schüler niemals den Eindruck haben, dass eine Gruppenarbeit immer dann erfolgt, wenn der Lehrer „keine Lust“ zum Unterrichten hat. Leider haben sehr viele Erwachsene genau diese Erfahrungen in der Schulzeit gemacht. Wie eine Gruppe zusammengesetzt wird, erfordert sehr viel soziale Kompetenz. Es bringt nichts, die Gruppenmitglieder zu zwingen, zusammenzuarbeiten, wenn deutlich wird, dass sie miteinander nicht arbeiten können. Wenn beispielsweise eine Mädchengruppe aufgelöst wird und die Mädchen jeweils „verteilt“ werden in Gruppen, in denen sonst nur Jungen sind, dann reicht es nicht als Begründung, dass die Mädchen und Jungen lernen müssen, miteinander auszukommen. Durch solch unreflektierte Vorgehensweisen kann die Motivation sehr verringert werden
1.3 Die Kunst des Lehrens: Die Durchführung
31
und genau die Lerneffekte, die angestrebt werden, treten nicht ein. Somit sollte beachtet werden, dass Gruppenarbeiten nur für höhere kognitive Lernziele geplant werden. Die Wahl der Medien ist ebenfalls von Bedeutung. Es sollte beachtet werden, dass bei Tafelbilder, Folien, Präsentationen etc. nur Symbole verwendet werden, die vorher mit den Schülern geklärt wurden. Wenn Schüler und Lehrer unterschiedliche Farbsymbole für die Unterstreichung wesentlicher Elemente haben, führt dies zu Verwirrungen. Auch andere Symbole können missverstanden werden. So ist beispielsweise das Zeichen o festgelegt und zwar als Implikation. Einige verwenden dieses Symbol als Aufzählungszeichen; da sucht man vergebens nach einer Schlussfolgerung, die schlicht nicht vorhanden ist. Diese Forderung nach gemeinsamer Bedeutung von Farben und anderen Symbolen ist eigentlich selbstverständlich, aber leider muss regelmäßig darauf hingewiesen werden.
1.3.4
Operationalisierung
Bei der Operationalisierung geht es schließlich darum, den Unterricht so zu gestalten, dass die einzelnen Lernschritte logisch aufeinander aufgebaut sind und die Aufgaben so zu stellen, dass die Überprüfung der Lernziele ermöglicht wird. Dabei bedeutet Operationalisierung streng genommen zweierlei: Einmal müssen die Lerninhalte möglichst konkret vermittelt werden, so dass jederzeit überprüft werden kann, ob die Schüler die Inhalte auch verstanden haben. Zum anderen müssen die Lernziele in Bezug auf die Inhalte „überprüfungsfähig“ sein, so dass deutlich wird, ob ein bestimmtes Lernziel in Bezug auf die Inhalte erreicht worden ist. Sind die Lernziele nämlich zu allgemein bzw. zu abstrakt formuliert, dann haben die Schüler vielleicht das Ziel der Analyse erreicht, aber nicht unbedingt in Bezug auf die vermittelten Inhalte.
1.3.5
Artikulation
Für die Durchführung des Unterrichts folgt letztlich die Aufteilung der Inhalte in Unterrichtssequenzen. Häufig wird in diesem Kontext auf die Phasenschemata nach Monika und Jochen Grell sowie Heinrich Roth verwiesen10. Während bei Grell acht unterschiedliche Phasen vorgeschlagen werden, sind es bei Roth lediglich sechs Phasen. Beiden ist gemeinsam, dass das Gelernte durch Aufgabenstellungen vertieft werden soll. Der Zugang ist jedoch unterschiedlich: Bei Grell wird zunächst der Informationsinput gegeben, bei Roth wird ein Problem vorgestellt
10
Die Phasenschemata befinden sich als elektronisch verfügbares Material bei Vieweg+ Teubner Plus, die elektronische Zusatzseite von Vieweg+Teubner. Für weitere Artikulationsschemata s. Wiederhold 1981.
32
1 Der Weg zur Praxis
und die Lernenden sollen sich damit auseinandersetzen, die Schwierigkeiten erkennen und nach möglichen Lösungen suchen. Damit soll die Motivation erhöht werden, da in dieser Form das „entdeckende Lernen“ gefördert wird. Beide Ansätze haben ihre Vor- und Nachteile, die bedacht werden sollten. Für Anfänger ist der Ansatz von Grell „sicherer“ in dem Sinne, dass sich der Lehrende auf die zu vermittelnden Inhalte konzentrieren kann. Der Ansatz nach Roth birgt Gefahren, da es durchaus vorkommen kann, dass die Lernenden die Intentionen des Lehrers bzw. die Problemstellung nicht verstehen. Der Lehrer muss schon sehr erfahren sein, um die Rückmeldungen der Schüler in die gewünschte Richtung zu lenken. Bei genauer Betrachtung der beiden Ansätze lassen sich hier der algorithmische (Grell) und der heuristische (Roth) Handlungsplan entdecken (s. Teil 2). Im ersten Fall kann die Unterrichtsstunde sehr genau geplant werden und die Zeiteinteilung lässt sich recht gut einhalten, wenn die Planung entsprechend detailliert und reflektiert erfolgt ist. Im zweiten Fall entwickelt der Lehrende eher einen heuristischen Ansatz und erst in der Unterrichtssituation entscheidet es sich, wie weiter vorgegangen wird (natürlich sind auch hier die Aufgaben sehr genau geplant). Die beiden Ansätze sind auch miteinander kombinierbar; sollte sich herausstellen, dass die Schüler mit dem Problem nicht umgehen können, müssen die notwendigen Informationen vermittelt werden (das erfordert eben sehr viel Erfahrung). Natürlich kann auch umgekehrt nach der Informationsvermittlung ein Problem oder eine Zeichnung vorgestellt werden, um zu überprüfen, ob die Schüler die wesentlichen Merkmale erkannt haben.
1.3.6
Evaluation
Nach der Durchführung der Unterrichtsstunde erfolgen die Reflexion und die Bewertung. Erst jetzt zeigt sich, ob die Planung sinnvoll war. Die Reflexion sollte grundsätzlich sehr kritisch geschehen, sowohl hinsichtlich des Schüler- als auch des eigenen Verhaltens. Es lohnt sich, gerade wenn die Stunde sehr gut verlaufen ist, sich zu fragen, was daran besonders gut war. Woran lag es, dass die Schüler motiviert waren: Lag es am Thema, an der Unterrichtsgestaltung oder an der Aufgabenstellung? Dieselben Fragen sollte man sich natürlich auch stellen, wenn man den Eindruck gewonnen hat, dass es nicht sehr gut gelaufen ist. Dadurch entsteht die für die Lehre so wichtige Erfahrung. An dieser Stelle sei darauf verwiesen, dass es zu den schwierigsten Punkten gehört, in der Lage zu sein, andere von den Schülern gebrachten Lösungsansätze als die selbst vorgeschlagenen zu erkennen und diese auch positiv zu bewerten. Häufig werden andere als die erwarteten Lösungen als falsch bewertet, ohne zu überprüfen, ob diese nicht genauso sinnvoll sind.
1.4 Curriculum
33
Auch hier gilt es, sich selbst zu hinterfragen. Natürlich sind kreative Lösungen immer anstrengender, es lohnt jedoch, sich damit zu beschäftigen.
1.4
Curriculum
Nach unserer Erfahrung ist es häufig für viele Studierende schwierig zu verstehen, warum man sich mit curricularen Fragen und mit den verschiedenen didaktischen Modellen befassen sollte. Dazu ist es wichtig, sich bewusst zu machen, welchen Anspruch die schulische Ausbildung in unserer Gesellschaft hat: Bildung, Mündigkeit, Emanzipation, Selbstbestimmung und Handlungsfähigkeit. Diese Ziele zu erreichen, verlangt ein breites Wissen und Verständnis seitens der Lehrenden über das jeweilige Fach hinaus. Zudem ist es für jeden Lehrer unabdingbar zu wissen, dass Unterricht nicht in einem rechtsfreien Raum stattfindet, sondern durch rechtliche Rahmenbedingungen eingegrenzt wird – unbeschadet der persönlichen Freiheit, die ein Lehrer auch in diesem Rechtsrahmen durchaus noch hat. Daher widmen wir uns als Abschluss des ersten Teils kurz der Bedeutung curricularer Fragen. Hinsichtlich des Curriculums sind unterschiedliche Annahmen und Perspektiven von entscheidender Bedeutung, die hier noch nicht einmal ansatzweise beschrieben werden können. Zwei grundlegende Orientierungen sind wichtig, da diese sehr eng mit den verschiedenen didaktischen Modellen verbunden sind. Zum einen ist es die inhaltsorientierte Definition von Curriculum, die für die Entwicklung von Lehrplänen relevant ist. Der Grundgedanke besteht darin, dass die Lehr- und Lernprozesse von den zu vermittelnden Inhalten bestimmt sind. Genau betrachtet ist es die Struktur des Faches, die bestimmend ist, welche Inhalte vermittelt werden müssen, wobei die gesellschaftliche Relevanz zusätzlich berücksichtigt werden muss. Die Inhalte müssen demnach einer Revision unterzogen werden, indem geprüft wird, ob die Inhalte zukunftsorientiert sind. Beispielsweise wurde die Mengenlehre zeitweise aus den Lehrplänen für Mathematik herausgenommen; die Mengenlehre wurde jedoch wieder eingeführt als deutlich wurde, dass Kenntnisse der Mengenlehre wichtig nicht nur aber auch für die Informatik sind. Die zweite Definition ist prozessorientiert und berücksichtigt kulturelle Inhalte sowie die gesamten Faktoren, die für den Vermittlungsprozess relevant sind. Dadurch soll die individuelle als auch gesellschaftliche Handlungskompetenz eines Lernenden gefördert werden (Kron 1993). Diese Gedanken erscheinen zunächst sehr abstrakt, finden sich jedoch in den konkreten Vorgaben für das Fach Informatik in NRW wieder, die hier exemplarisch herangezogen werden sollen; in anderen Bundesländern klingt es recht ähnlich. Wir wollen den Lesern auch nicht vorenthalten, mit welcher Sprache man sich dabei auseinander zu setzen hat:
34
1 Der Weg zur Praxis
Zunächst das Fachverständnis und die allgemeine Zielsetzung: „Das Schulfach Informatik in der gymnasialen Oberstufe ist nicht durch den bloßen Einsatz von Informatiksystemen im Anwendungsbereich definiert und legitimiert, sondern es bleibt unter wissenschaftspropädeutischen Aspekten vornehmlich der Arbeit an Modellen, Strategien und Techniken bis hin zur praktischen Umsetzung verpflichtet. (MSWWF 1999, 5)11 Weiter heißt es: „Die Studierfähigkeit der Schülerinnen und Schüler bildet ein wesentliches Ziel des Oberstufenunterrichts, der grundlegende wissenschaftliche Verfahrens- und Erkennnisweisen vorstellt und einübt. Dennoch kann sich der schulisch aufzuarbeitende Teil der Informatik nicht allein der Systematik der universitären Bezugsdisziplin unterwerfen. Bei der rasanten Eigendynamik dieses Leitfaches wird jeder Versuch fehlschlagen, die zentralen fachlichen Inhalte überwiegend mit Anleihen aus dem Wissenschaftsbereich zu beschreiben, dabei eine schulgeeignete, das Wesen des Faches vermittelnde Auswahl zu treffen und diese im Spannungsfeld konkurrierender didaktischer Ansätze in ein plausibles Unterrichtskonzept umzusetzen.“ (MSWWF 1999, 5) Für die konkrete Unterrichtsplanung sind folgende Themenfelder vorgesehen: „Der konkrete Unterricht hat dabei drei anspruchsvolle Themenfelder im Zusammenhang mit der fortschreitenden Entwicklung von Informatiksystemen zu erschließen: Abschnitte, die auf das im Fach angelegte Strukturwissen ausgerichtet sind, lenken den Blick sowohl auf die Grundlagen als auch auf Grenzen fortschreitend technisierbarer Wissensbearbeitung. Fragen nach den Wirkprinzipien von Informatiksystemen sollen klären, wie diese aufgebaut sind, nach welchen Funktionsprinzipien ihre Komponenten effizient zusammenwirken und wie diese sich in größere System-Zusammenhänge einordnen lassen. Analyse und Bewertung vorliegender Entwürfe bilden schließlich einen dritten Komplex: Wie werden durch die Entwicklung, Gestaltung und Anwendung von Informatiksystemen Probleme der Lebenswelt gelöst, in welcher Weise werden relevante Veränderungen und damit u. U. neue Probleme geschaffen und welche Verantwortungen erwachsen daraus? (MSWWF 1999, 6) Diese allgemeinen Ziele und Leitsätze werden in über 130 Seiten entsprechend konkretisiert. In den gesamten Richtlinien werden an verschiedenen Stellen die höchsten und bereits genannten Zielsetzungen der Ausbildung thematisiert und auf das Fach Informatik bezogen. Nach diesen Vorgaben werden in den Schulen die konkreten Lehrpläne entwickelt. Es muss darauf geachtet werden, dass sich die Lehrpläne mit den Richtlinien decken und dass diese aktualisiert werden müssen, sofern sich die Richtlinien ändern. Darüber hinaus sollte ein Lehrer, der das Fach
11
Ministerium für Schule und Weiterbildung, Wissenschaft und Forschung des Landes Nordrhein Westfalen (MSWWF) für die Gymnasiale Oberstufe.
1.4 Curriculum
35
Informatik neu übernimmt prüfen, ob er ggf. nicht andere Schwerpunkte für sinnvoller hält und dies mit der Schulleitung besprechen. Allerdings dürfen die Richtlinien nicht mit einer Vorgabe verwechselt werden, die jeden Handlungsschritt des Lehrers detailliert festlegt. Die häufigen Klagen aus der Schulpraxis, dass die Richtlinien jede eigenen pädagogischen Experimente verhindern, sind zumindest nach den zitierten Formulierungen zum großen Teil unberechtigt. Natürlich wäre noch viel zu den Problemen der Lehrpraxis, nämlich deren Vorbereitung, Durchführung und Evaluation zu schreiben. Da wir jedoch keine Enzyklopädie des Unterrichts schreiben wollten sondern ein auch quantitativ überschaubares Buch, sei an dieser Stelle nur auf die erwähnte weiterführende Literatur verwiesen.
2
Theoretische Zusammenhänge
Wir haben in den vorigen Teilen immer wieder darauf hingewiesen, wie wichtig ein auch theoretisches Verständnis der mit Lehren und Lernen verbundenen Probleme ist. Deswegen besteht dieser Teil darin, in die wesentlichen theoretischen Grundlagen einzuführen. Dabei gilt allerdings auch das in Teil 1 Gesagte: Wir können und wollen hier nur generelle Überblicke geben. Leser, die sich für zusätzliche Aspekte der von uns behandelten Themen interessieren, müssen auf vertiefende Literatur hingewiesen werden. Vielleicht jedoch können unsere Überblicke auch solche Leser motivieren, sich mit zusätzlicher Literatur zu beschäftigen, die bisher an derartigen Fragen kein großes Interesse hatten. Fundamental für das Lehren sind didaktische Modelle, die analog zu einem Vorgehensmodell für die Entwicklung einer Software betrachtet werden können. Es gibt unterschiedliche Modelle, die bestimmte Schwerpunkte haben und helfen, den Unterrichtsprozess zu verstehen und zu planen. Im Folgenden wird eine Übersicht der wichtigsten Modelle gegeben und anschießend werden diese in einem allgemeineren Rahmen behandelt. Diese erste Übersicht führen wir deswegen ein, weil damit auch eine Gliederung dieses Teils erfolgen kann: Je nach Leitbegriff, durch den die didaktischen Modelle jeweils charakterisiert werden können, geben wir eine Übersicht hinsichtlich der entsprechenden Theorien, die sich mit dem Leitbegriff beschäftigen. Dies bedeutet grob gesagt: Dem Leitbegriff „Lernen“ entsprechen die Kapitel, die sich mit verschiedenen Lerntheorien auseinandersetzen. Da dieser Leitbegriff der für unser Thema deutlich wichtigste ist und in einem anderen Kontext auch in Teil 3 noch einmal aufgenommen wird, handelt es sich dabei um die umfangreichsten Kapitel dieses Teils. Die beiden anderen Leitbegriffe, nämlich „Interaktion und Kommunikation“ sowie „Bildung“ werden anschließend durch die Darstellung der entsprechenden didaktischen Modelle erläutert. Wir haben diese Form der Darstellung für diesen Teil deshalb gewählt, um nicht einfach verschiedene Theorien nacheinander abzuhandeln, sondern um die entsprechenden Themen jederzeit auf die eigentlich wichtige Dimension zu beziehen, nämlich die didaktische Praxis. Zusätzlich haben wir für die wichtigsten theoretischen Ansätze vertiefende Beispiele in Form von entsprechenden Computermodellen und Simulationen gegeben. Beginnen wir also mit der ersten Übersicht.
2.1
Didaktische Modelle – eine allgemeine Übersicht
Fangen wir zunächst mit einer kleinen Begriffsklärung an: Didaktische Modelle lassen sich allgemein verstehen als Strukturierungen des Lehrprozesses, die dann ihrerseits den Lernprozess steuern (sollen). Dies kann natürlich auf unterschiedliC. Klüver, J. Klüver, Lehren, Lernen und Fachdidaktik, DOI 10.1007/978-3-8348-8659-0_2, © Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2012
38
2 Theoretische Zusammenhänge
che Weise geschehen. Entsprechend gibt eine es Fülle an didaktischen Modellen, die jedoch generell einem der bereits genannten drei Leitbegriffe zugeordnet werden können (s. Abb. 2-1)12:
ȋȌ
ȋȌ
ȋȌ
Abbildung 2-1: Leitbegriffe der Didaktik in der Übersicht (vgl. Kron 1993 für die Aufteilung)
Die Unterteilung in unterschiedlichen Leitbegriffen hat historische Gründe und es wird sich zeigen, dass jeder Leitbegriff besondere Schwerpunkte setzt, die jedoch thematisch in allen Modellen vorhanden sind. Dem Lernen als Leitbegriff werden didaktische Modelle zugeordnet, die Lerntheorien als zentrale Orientierung haben. Entsprechend konzentrieren sich „lernbasierte“ didaktische Modelle auf die Optimierung der jeweiligen Lernprozesse, haben also den (individuellen) Lernprozess der Schüler im Zentrum. Im Zusammenhang mit Interaktion als Leitbegriff werden verschiedene Ansätze dargestellt, die den Schwerpunkt auf Kommunikation und auf das Soziale setzen. Man kann dies auch so verstehen, dass bei diesen Modellen die soziale Dimension des Lehr-/Lernprozesses im Zentrum steht. Bildung schließlich fundiert die entsprechenden didaktischen Modelle auf einem Ziel, das gewissermaßen antizipiert wird und dem Lehrprozess seine Orientierung gibt. Während also die beiden ersten Leitbegriffe jeweils auf einen bestimmten Prozess verweisen, wird durch Bildung ein zielorientiertes didaktisches Handeln bestimmt. Da zum Begriff der Bildung noch später (auch in Teil 3) einiges gesagt wird, brauchen wir hier Bildung nicht weiter zu thematisieren. Widmen wir uns zunächst dem Prozess, dem das ganze Buch primär gewidmet ist: Das Lernen.
12
In der Literatur wird häufig zuerst Bildung als Leitbegriff beschrieben. Wir weichen bewusst davon ab, da dieser Leitbegriff sehr komplex ist; deshalb werden wir uns erst zum Schluss des zweiten Teils damit beschäftigen.
2.2 Lernen als Leitbegriff
2.2
Lernen als Leitbegriff
2.2.1
Grundlagen des Lernens: eine erste Annäherung
39
Es gibt wohl kaum ein anderes Thema, das in so vielen unterschiedlichen Disziplinen behandelt wird wie Lernen bzw. Lernfähigkeit. Zusätzlich wird eine integrative und interdisziplinäre Betrachtung des Themas gefordert, da Individuen immer flexibler auf wechselnde Anforderungen in unserer Gesellschaft reagieren müssen, wodurch eine erhöhte gesellschaftliche Relevanz des Lernens zu verzeichnen ist. Unterschiedliche Disziplinen wie die Biologie, die Künstliche Intelligenz (vgl. Teil 3) und, im gewissen Sinne damit zusammenhängend, die Kybernetik, haben bereits die klassischen psychologischen Erkenntnisse oder philosophischen Überlegungen integriert, bestätigt oder sogar erweitert durch eigene Forschungen auf den jeweiligen Gebieten. Zunächst werden die wichtigsten Aspekte des Lernens unter dem Gesichtspunkt der kognitiven Ontogenese aus den benannten Disziplinen thematisiert, wobei lediglich die charakteristischen Merkmale der Ansätze beschrieben werden. Es gib nach wie vor keine allgemeingültige Definition des Lernens; viele Wissenschaftler haben jedoch einige wichtige Aspekte des Lernens beschrieben, von denen wir im Folgenden einige relativ unsystematisch und ohne Anspruch auf Vollständigkeit aufführen: Weidenmann (1993) beschreibt Lernen als einen Vorgang, „den man für eine beobachtete Veränderung verantwortlich macht“ und „Veränderung ist das generelle Explanandum aller Lerntheorien“ (Weidenmann 1993, 996). In diesem Kontext sei auf ein Problem hingewiesen: Eine beobachtete Verhaltensänderung setzt voraus, dass ein Individuum eine veränderte Reaktion als Resultat des Lernprozesses auch tatsächlich zeigt; dies entspricht dem behavioristischen Ansatz (s. u.). Bei kognitiven Prozessen, vor allem wenn es seine Zeit braucht, um ein Problem zu lösen, ist eine entsprechende Verhaltensänderung nicht unmittelbar beobachtbar. Gerade im Lehr-Lern-Kontext – also in der Interaktion zwischen Umwelt und Individuum – kann dies wichtig sein. Es werden zusätzlich zwei Schlüsselbegriffe als charakteristisch genannt: die Veränderung und die Erfahrung. Veränderung bezieht sich auf das Verhalten oder Verhaltenspotential eines Individuums in einer gegebenen Situation. Dies kann Neuerwerb und Eliminierung bedeuten, Anpassung oder Fehlanpassung, kontinuierliches Anderswerden oder Lernen durch Einsicht. Die Erfahrung bezieht sich dabei auf wiederholte Wahrnehmungen des Individuums, was insbesondere im Behaviorismus wesentlich ist. Lernen durch Erfahrung ist an Eindrücke gebunden, an Inhalte und Informationen – und damit eng mit der Umwelt und der Verarbeitung von Umweltwahrnehmung gekoppelt. Dies gilt für alle „geistigen“ Prozesse wie Kognitionen oder Emotionen und das daraus resultierende Verhalten.
40
2 Theoretische Zusammenhänge
Der Philosoph Karl Popper hat sich zum Thema Lernen wie folgt geäußert: „Wir lernen nur durch Versuch und Irrtum. Unsere Versuche sind aber immer unsere Hypothesen. Sie stammen von uns, nicht von der Außenwelt. Von der Außenwelt lernen wir nur, dass gewisse unserer Versuche Irrtümer sind“. (Popper 1994, 130). Wir werden sehen, dass diese Überlegung in den sog. konstruktivistischen Lerntheorien eine wichtige Rolle spielt, dass nämlich Lernen durch Erfahrung kein passiver Prozess ist, sondern eine aktive Tätigkeit des lernenden Individuums. Auf die Notwendigkeit einer Kommunikation mit einem (Lern-)Partner als auch auf die Bedeutung der Übereinstimmung des „Denkmusters“ weist Vester (2001) hin. Seiner Ansicht nach liegt der Lernerfolg häufig darin, dass es zwischen kommunikativen Partnern wie Lehrender und Lernender eine kognitive Übereinstimmung gibt, da sonst Lernerfolge durch die Unmöglichkeit des wechselseitigen Verstehens ständig verhindert werden. Diesen Gedanken werden wir in Teil 3 systematisch anhand formaler Modelle aufnehmen. Generell verweist diese Überlegung offenbar auf den erwähnten Leitbegriff der Interaktion, nämlich Lernen als sozialen Prozess zu verstehen. Betrachtet man Lernen wieder sehr allgemein aus biologischer Sicht, so geht es um eine ständige wechselseitige Abstimmung zwischen „den internen Aktivitäten des Organismus und den fortwährend wirksamen (Stör-)einflüssen der Umgebung“ (Varela 1991, 159). Diese allgemeinen Betrachtungen bzw. Problemformulierungen sollen im Folgenden etwas genauer analysiert werden. Zunächst widmen wir uns der Neurobiologie des Gehirns, um die biologischen Grundlagen der menschlichen Lernfähigkeiten darzustellen.
2.2.2
Die biologische Basis: Neurobiologie des Gehirns
Die neurobiologischen Grundlagen des Gehirns werden nur kurz dargestellt, um einen Einblick in die Fähigkeiten zum Lernen oder zur Gedächtnisbildung zu erhalten. Es wird auf eine detaillierte Betrachtung der biochemischen sowie der physikalischen Grundlagen verzichtet; hier sei auf die einschlägige Literatur hingewiesen (u. a. Dudel u. a. 2001). Im Laufe der Evolution ist ein System entstanden, das mit den komplexen Anforderungen der Umwelt adäquat umgehen kann und es wird sich zeigen, dass die logische Struktur des Gehirns einige universale Prinzipien aufweist, die die Funktionen tatsächlich einfach erscheinen lassen. Aufgrund der unterschiedlichen biochemischen Prozesse, physikalischen Besonderheiten sowie diverser Rückkopplungsprozesse ist das Gehirn jedoch derart komplex, dass die einzelnen Funktionen und das Zusammenwirken von einzelnen Elementen (wie Gene, Hormone etc.) zum jetzigen Zeitpunkt (2011) noch nicht vollständig geklärt worden sind.
2.2 Lernen als Leitbegriff
41
Es ist allgemein bekannt, dass verschiedene lokale Regionen des Gehirns mit spezifischen Funktionen unterschieden werden können. Heute geht man davon aus, dass die Gehirnregionen massiv miteinander rückgekoppelt sind und jede kognitive Leistung wie z. B. Denken, Lernen und Erinnern die Koordination verschiedener Gehirnregionen erfordert, die in einer komplexen Form miteinander verknüpft sind. Zu den wichtigsten Arealen (Regionen) in diesem Kontext gehören der Hirnstamm (umfasst das verlängerte Rückenmark, die Brücke (Pons, übermittelt Bewegungssignale von der Großhirnrinde zum Kleinhirn), das Klein- und Mittelhirn), das limbische System (Verarbeitungs- und Integrationssystem, auch für Sprache zuständig) und der Neocortex (Dudel u. a. 2001). Dem Neocortex wird eine Sonderstellung zugesprochen, beruhend auf der Eigenschaft als Allzwecksystem: „Es erlaubt dem Organismus, ein Extraangebot an Hirnstruktur und Rechenkapazität für Zwecke zu nutzen, für die es in der Evolution nicht selektiert worden ist. Dieses Extraangebot ist nicht vollständig ausdifferenziert. Darin besteht offenbar der biologische Vorteil. Die Fitness kann durch anpassungsfähige kognitive sensomotorische und kognitive Leistungen verbessert und gesichert werden“ (Ewert 1998, 66). Die Neuronen (Nervenzellen) sind die Grundeinheiten des Gehirns, bestehend aus Soma (Körper des Neurons mit Zellkern), Dendriten (Eingangskanäle), einem Axon (Ausgangskanal) und Synapsen (elektrochemische Kontakte zu anderen Neuronen). Die Anzahl der Neuronen und deren Synapsen wird in Milliardenhöhe angegeben, wobei die Neuronenanzahl zwischen 1011 und 1014 in der Literatur schwankt; die Anzahl der Synapsen wird entsprechend von 1014 bis 1017 angegeben. Damit wusste man aus welchen Elementen das Gehirn besteht, aber nicht wie es funktioniert und was es verarbeitet. Mittlerweile ist bekannt, dass biochemische Veränderungen an den Kontaktstellen stattfinden – Veränderungen, die u. a. durch Lernen entstehen. Darüber hinaus wurden Aktionspotentiale gemessen (Impulse, die durch den Axon laufen (Triggerzone) (und somit die physikalisch übertragene Aktivität im Gehirn), die überall im Nervensystem eine ähnliche Form besitzen. Die Aktionspotentiale funktionieren nach dem Alles-oder-Nichts-Prinzip. Diese Erkenntnis führte zu der Auffassung, dass „das Nervensystem, über eine eigene digitale Sprache kommuniziert“ (Mainzer 1997, 20). Die „digitale Sprache“ führt zu Problemen einer ausdifferenzierten Kodierung der äußeren Reize, da das Kodierungsschema gleich ist. Um diese Problem zu umgehen, sind unterschiedliche Nervenbahnen in dem komplexen neuronalen Netz vorhanden, durch die die Informationen eines neuronalen Signals laufen. Somit sind im Gehirn – phylogenetisch betrachtet – Interaktions- und Kodierungsregeln entstanden, die verhindern, dass Informationen verloren gehen. Es wurde bereits angemerkt, dass die Synapsen für die Informationsweiterleitung zuständig sind. Die Synapsen können die Informationen in physikalischer oder
42
2 Theoretische Zusammenhänge
chemischer Form übertragen. Die Unterscheidung besteht darin, dass die elektrischen Signale wesentlich schneller sind als die chemischen und insbesondere wo es auf schnelle Reaktionen ankommt, ist die elektrische Übertragung wesentlich effektiver. Die chemischen Übertragungen sind zwar langsamer aber flexibler und lassen komplexere Verhaltensreaktionen zu (Dudel u. a. 2001). Die biochemischen Prozesse spielen bei höheren kognitiven Leistungen, wie z. B. Gedächtnis eine entscheidende Rolle, insbesondere durch die Tatsache, dass chemische Synapsen sowohl hemmende (inhibitorische) wie anregende (excitatorische) Signale übertragen können. Vorsichtig ausgedrückt könnten die unterschiedlichen Übertragungsmechanismen zusätzlich bedeuten, dass der physikalische Transfer der Informationen wichtig ist, um schnell die Daten zu übertragen; die chemischen Veränderungen und die neuronalen Systeme und Strukturen sind dafür verantwortlich, dass eine Erinnerung überhaupt möglich ist.13 Zusammenfassend kann gesagt werden, dass im Gehirn molekulare Rezeptoren vorhanden sind, die unterschiedliche Schaltgeschwindigkeiten von Synapsen bewirken und damit komplexe Fähigkeiten und Reaktionen ermöglichen. Hier sind insbesondere die theoretischen Überlegungen von McCulloch und Pitts zu nennen, die ein Neuron als eine Art Addierer der ankommenden Impulse betrachteten, die durch die Dendriten aufgenommen werden (vgl. z. B. Spitzer 1996). Die Aktivitäten mit einer bestimmten Gewichtung werden im Soma summiert und, sofern die Summe einen bestimmten Schwellenwert überschreitet, wird die Information durch das Axon weitergeleitet. Der Kontakt zu anderen Neuronen findet über Synapsen statt. Diese können die kontaktierten Neuronen hemmen bzw. erregen. Somit verstanden McCulloch und Pitts die Art, wie die Neuronen Informationen verarbeiten, als logische Schaltelemente bzw. Verknüpfungen, mit denen sich insbesondere die Grundoperationen der Aussagenlogik modellieren lassen. Diesen Grundgedanken werden wir in Teil 3 erneut aufnehmen. Wie es sich aber zeigte, waren die Funktionen des Gehirns nicht hinreichend im Modell erfasst, da die Informationsübertragung bzw. die Aktivitätsausbreitung damit gut erklärt werden kann, jedoch nicht die Lernfähigkeit. Entscheidend waren diesbezüglich die Arbeiten von Donald Hebb, der Ende der vierziger Jahre ein allgemeines Modell der Lernprozesse im Gehirn postulierte, das seitdem in den Grundzügen molekularbiologisch bestätigt wurde (Mainzer
13
Eine allgemeine Betrachtung dieser unterschiedlichen Übertragungsmechanismen führt zu der Hypothese, dass es die chemischen Übertragungen sind, die zu lang anhaltenden Veränderungen der Verbindungen zwischen den Neuronen führen können.
2.2 Lernen als Leitbegriff
43
a.a.O.).14 Hebb hatte sich mit der Funktionsweise von Nervenzellen beschäftigt und eine Regel aufgestellt, die vom Grundprinzip sehr einfach ist: „When an axon of cell A is near enough to excite a cell B and repeatedly or persistently takes part in firing it, some growth process or metabolic change takes place in one or both cells such that A's efficiency, as one of the cells firing B, is increased.“ (Hebb 1949, 50) Es gibt natürlich noch andere, für die Funktionsweise des Gehirns wesentliche „Bausteine“, insbesondere die bereits angesprochenen biochemischen Verbindungen sowie Kodierungsmechanismen (z. B. die Umkodierung eines physikalischen Signals in ein chemisches), die hier nicht weiter diskutiert werden können. Es lässt sich aber bezüglich der Charakteristik des Gehirns sowie des Zentralnervensystems festhalten, dass ein hierarchisches Ordnungsprinzip vorhanden ist, präziser: eine „Hierarchie von organisierten Teilstrukturen zunehmender Größe und Komplexität“ (Mainzer 1997, 26). Zu den wichtigsten Teilsystemen gehören die topographischen Karten, nämlich zusammenhängende neuronale Felder, die zur neuronalen Repräsentation äußerer Wahrnehmungen, Empfindungen und Bewegungen dienen; außerdem gibt es die vertikalen Tiefenstrukturen, womit übereinander abgelagerte neuronale Schichten gemeint sind, die hierarchisch aufgebaut sind und schließlich die Säulen von Neuronen, die von der Cortexoberfläche durch alle Schichten reichen (Grzesik 2002). Damit entsteht an anderes Ordnungsprinzip: „Topographische Karten, neuronale Hierarchien und Säulen sind Beispiele für geometrische Ordnungsprinzipien, mit denen das Gehirn eine möglichst effiziente Signalverarbeitung garantiert. Für bestimmte Gehirnfunktionen werden Neuronen horizontal und/oder vertikal in räumlicher Nähe konzentriert, um Signalwege zu minimieren.“ (Mainzer 1997, 29). In diesem Zusammenhang sei auf folgendes Problem hingewiesen: Seh-, Hör- oder Tastempfindungen werden in anderen neuronalen Repräsentationen (Aktivierungsmuster neuronaler Karten) codiert, als die neuronalen Repräsentationen von Sprache.15 Somit sind aufgrund der unterschiedlichen Codierungen der Signalverarbeitung (z. B. zwischen dem visuellen Cortex und dem kortikalen Sprachverhalten) keine identischen Abbildungen möglich. Insofern ist es nicht verwunderlich, dass Wahrnehmungen und Emotionen nicht identisch abbildbar sind, es fehlen sozusagen die Worte, um die Empfindung mitteilen zu können (Mainzer 1997). Dies mag daran liegen, dass die Sprachfähigkeit sich im Laufe der Evolution als
14
Nach Hebb ist auch heute noch der wichtigste Typ von Lernregeln benannt, der in künstlichen Neuronalen Netzwerken verwendet wird. 15 Aus pädagogischer Sicht ist es gerade deshalb sinnvoll, unterschiedliche Kanäle für die Vermittlung von Lehrinhalten gleichzeitig zu benutzen.
44
2 Theoretische Zusammenhänge
letzte entwickelt hat und eine sehr dichte Vernetzung zu den anderen Hirnarealen noch nicht vollständig vollzogen wurde. Die logische Funktionsweise des Gehirns lässt sich in der ersten Annäherung mit den folgenden Merkmalen beschreiben: das Gehirn hat a) b) c) d) e) f)
eine digitale Kodierung, dynamische Strukturen, mehrere Ebenen, eine heterogene Funktionsweise, eine hierarchische Ordnung und geometrische Ordnungsprinzipien.
Einige zusätzliche grundlegende und gemeinsame Eigenschaften der Neuronenverbände im Hirnbereich, werden abschließend dargestellt (vgl. dazu auch Bothe 1998): x Parallelität, wodurch eine hohe Verarbeitungsleistung von Neuronenverbänden entsteht. Einige Teile des Neuronenverbandes haben eine fest verdrahtete Struktur, andere Teile können durch Lernprozesse erst herangebildet werden. x Rückkopplungen, die zu lokal geschlossenen Regelkreisen führen. Geschlossene Regelkreise entstehen dadurch, dass viele der parallel geschalteten Neuronen direkt oder über indirekte Rückkopplungen mit sich selbst verbunden sind. x Eine relativ strenge Hierarchie in biologischen Nervenverbänden. Damit ist gemeint, dass es sozusagen „untere“ Einheiten gibt, die eingehende Signale an höhere Einheiten weiterleiten; diese führen dann die eigentlichen kognitiven Operationen aus. x Verteilte Wissensspeicherung, indem die Daten über die gesamte Struktur verteilt gespeichert werden. Eine Wahrnehmung wird demnach nicht in einer einzigen Einheit gespeichert, sondern gewissermaßen komponentenweise in einem Ensemble von Einheiten. x Adaptationsfähigkeit, die sich dadurch auszeichnet, dass Neuronenverbände grundsätzlich die Eigenschaft haben, durch Abstraktion und Generalisierung lernfähig zu sein. Zusätzlich zu erwähnen ist auch die Fähigkeit der Netzwerke zur Neuordnung, wenn äußere Störungen vorliegen. x Robustheit, die u. a. durch die verteilte Speicherung der Information entsteht. Da bei größeren Neuronenverbänden die aktuelle Funktionalität nur bedingt von den Wirkungen einzelner Neuronen abhängig ist und sogar ein Ausfall weniger Neuronen nur geringfügig zu Veränderungen führt, kann ein Vergleich der ankommenden Informationen mit gespeicherten Mustern immer noch gut funktionieren. Wir werden auf diese Eigenschaften in Teil 3 bei der mathematischen Bestimmung von Gedächtnis und anderen Fähigkeiten noch zurückkommen.
2.2 Lernen als Leitbegriff
45
x Entscheidungsfähigkeit, die dadurch charakterisiert wird, dass Neuronenverbände im Hirnbereich zur Entwicklung sehr komplexer Entscheidungsstrategien oder Problemlösungen fähig sind. Allgemein lässt sich das Gehirn charakterisieren als „ein komplexes dynamisches System, in dem viele Teilsysteme auf der Grundlage neuronaler und synaptischer Signalverarbeitung zusammenarbeiten“ (Mainzer 1997, 31). Komplexe Verschaltungen dieser neurobiologischer Systeme ermöglichen u. a. Leistungen, die für eine kognitive Ontogenese von Bedeutung sind, wie etwa Wahrnehmung, Kognition und Bewusstsein, wobei die Beiträge der Neurobiologie zum letzteren Problem eher zweifelhaft sind (vgl. auch Teil 3 zu Grenzen neurobiologischer Erkenntnisse). Mit diesen allgemeinen Hinweisen zur Neurobiologie des Gehirns können wir es genug sein lassen, da wir sonst in zu verzweigte und detaillierte Bereiche geraten. Für Lehrende ist es sicher hinreichend, sofern sie nicht Biologen sind, diese allgemeinen biologischen Grundlagen unserer menschlichen Fähigkeiten zu kennen und wir haben sie auch im Wesentlichen aus Gründen der systematischen Vollständigkeit erwähnt. Hier ist auch eine gewisse Warnung am Platz: Nicht selten beanspruchen Neurobiologen vor allem außerhalb ihrer Wissenschaft, alle möglichen grundsätzlichen menschlichen Probleme bereits gelöst zu haben. Davon jedoch kann bei weitem nicht die Rede sein. Die Erkenntnisse der Neurobiologie, so beeindruckend sie auch sind, sind nach wie vor nur vorläufige Erkenntnisse über bestimmte Aufbauten und Funktionsweisen des Gehirns. Sie lassen sich nur in wenigen Fällen auf die Prozesse beziehen, die man im Alltag und vor allem in pädagogischen Kontexten meint, wenn von „Lernen“ oder auch „Informationsverarbeitung“ die Rede ist. Für die Thematik unseres Buches jedenfalls reicht es völlig, wie bemerkt, wenn man sich einiger Grundlagen bewusst ist. Didaktische und entsprechende andere praktische Probleme lassen sich durch Rekurs auf die Neurobiologie leider bis auf Ausnahmen nicht lösen.
2.2.3
Kognitive Ontogenese: Die Konstruktion von Konzepten
Als kognitive Ontogenese wird der Gesamtkomplex der intellektuellen Entwicklung eines Individuums bezeichnet. Natürlich gehören dazu sehr unterschiedliche Entwicklungsprozesse wie z. B. Problemlösen, heuristisches und logisches Denken, Sprachbeherrschung, und hypothetisch-deduktives Denken, um nur einige der wichtigsten zu nennen. Wir können hier keinen umfassenden Überblick geben, sondern verweisen – mal wieder – auf die Spezialliteratur. Stattdessen zeigen wir exemplarisch, wie einer dieser Bereiche verstanden werden kann, nämlich der Bereich der Konzept- bzw. Kategorienbildung. Diese Beschränkung erfolgt einmal deshalb, weil die Bildung von Konzepten fundamental für praktisch jede Form der kognitiven Entwicklung ist, und zum anderen, weil wir in Teil 3 noch einmal systematisch auf diese Ebene der kognitiven Entwicklung eingehen werden. Außerdem spielt die Entwicklung von Konzepten eine zentrale Rolle in einer der wich-
46
2 Theoretische Zusammenhänge
tigsten Lerntheorien, nämlich der von Jean Piaget, worauf wir noch mehrfach eingehen werden. Seit der Antike herrscht in unterschiedlichen Disziplinen der Konsens, dass kognitive Prozesse wie Problemlösen, Denken oder Sprachverstehen nicht ohne ein System von Konzepten vorstellbar sind; wie Konzepte definiert werden, ist jedoch sehr unterschiedlich (Howard 1995). Konzepte werden u. a. als funktionale Einheiten definiert, die verwendet werden, um Wissensstrukturen wie Taxonomien oder Schemata zu entwickeln (Howard 1995). Somit besteht ein generelles Problem darin, dass die Bedeutung des Begriffs „Konzepte“ je nach Forschungsdisziplin bzw. Forschungsrichtung unterschiedlich definiert wird. Einige Wissenschaftler gehen beispielsweise davon aus, dass es sich bei Konzepten um geistige Abstraktionen handelt, die Klassen von Objekten, Ereignissen oder Vorstellungen repräsentieren (Seel, 2000). Schmid und Kindsmüller beschreiben Konzepte als „Intensionale Repräsentation einer Menge von Objekten mit ähnlichen Eigenschaften“ (1996, 414) und Howard (1995) fasst verschiedene Beschreibungen wie folgt zusammen: „[...] a definition of a term, a set of things, and a cognitive representation of a category [...] and the information that an individual has about a category. A category can be defined as a set of things and a concept as the information that an individual has about it“ (Howard 1995, 98). Die Liste so genereller Begriffsbestimmungen, die nicht sonderlich hilfreich sind, ist verlängerbar. Derart allgemeine „Definitionen“ verdeutlichen nicht nur, wie unterschiedlich der Begriff Konzept aufgefasst wird, sondern auch wie unterschiedlich komplex die Charakterisierung eines Konzeptes behandelt wird. Um diese Darstellungen zu konkretisieren ist es hilfreich, die Genese der Konzepte zu analysieren. Ein kleines Kind, das anfängt die Welt zu entdecken und noch nicht über sprachliche Fähigkeiten verfügt, bekommt eine Menge von Informationen aus der Umwelt über Gegenstände, die bestimmte Eigenschaften aufweisen, wie Farben, Formen, Funktionen etc. Es handelt sich dabei um sehr anschauliche und sinnliche Erfahrungen, die – vereinfacht ausgedrückt – in kognitiven Strukturen eingebettet werden. Sieht ein Kind ein Tier mit vier Beinen, weichem Fell, relativ groß (im Verhältnis zu anderen Gegenständen) und macht es Geräusche, so handelt es sich um Eigenschaften, die das Kind speichert und wofür es nun ein Konzept hat. Sind andere Personen in der Umgebung, die dem Kind dafür eine Bezeichnung präsentieren („Wau-Wau“ oder „Hund“) oder ist das Kind selbst kreativ und erfindet einen „Bezeichner“ dafür, dann hat es einen Begriff, der eng mit den wahrgenommenen Eigenschaften verbunden wird. In diesem Zusammenhang kann man sagen, dass der Begriff (im Sinne des Konzeptes) vor dem Begriff (im Sinne einer Bezeichnung bzw. Wortes) steht.
2.2 Lernen als Leitbegriff
47
Diese sehr einfache Beschreibung macht ebenfalls deutlich, dass man Wörter, Bedeutungen und Konzepte (Begriffe) voneinander abgrenzen muss. Exemplarisch kann in diesem Zusammenhang auf die Analyse Freges in Bezug auf Sinn und Bedeutung (Frege 1969) Bezug genommen werden. Insbesondere werden die Gedanken Freges auf die moderne Terminologie der Extension/Intension oder Denotation/Konnotation bezogen, wodurch einige Verständnisprobleme auftauchen können. Dies soll exemplarisch kurz skizziert werden:
¡
Sinn
Abbildung 2-2: Zusammenhang zwischen Konzept, Wort und Bedeutung
Frege hat in seinen klassischen Abhandlungen über Sinn und Bedeutung von Begriffen darauf hingewiesen, dass Begriffe dieselbe Referenz, jedoch einen unterschiedlichen Sinn haben können. Dazu gibt er ein berühmtes Beispiel hinsichtlich der Verwendung der Konzepte Morgenstern und Abendstern. Die Referenz der Konzepte ist in beiden Fällen dieselbe, nämlich der Planet Venus (Eigenname). Der Sinn legt fest, was der Ausdruck denotieren kann. In dem Beispiel kommt es darauf an, ob es sich um den Morgenstern handelt (das Morgengrauen bricht an und die Sterne verblassen) oder um den Abendstern (die Nacht beginnt gerade und die Sterne werden sichtbar). Die Eigennamen verweisen auf konkrete Objekte oder Individuen in der Welt; hingegen denotieren Bezeichner ganze Menge von Objekten (Extension). Anhand des Beispiels kann aufgezeigt werden, dass bei gleichen Extensionen durchaus verschiedene Intensionen möglich sind, während bei gleichen Intensionen auch die Extensionen gleich sind. Die Konnotation (Intension, Sinn) bestimmt in diesem Fall die Bedeutung der Referenz. Etwas anders ausgedrückt: „Venus“ ist der Eigenname eines bestimmten Objekts und gleichzeitig die gemeinsame Extension der Begriffe „Morgenstern“ und „Abendstern“; die Intension wird durch den jeweiligen Kontext beschrieben, in dem die Begriffe verwendet werden (z. B. poetisch am Morgen und am Abend – „wie schön leuchtet uns der Morgenstern“). Wir haben es hier streng genommen mit verschiedenen Bedeutungen von „Bedeutung“ zu tun. Bezogen auf den Ausgangspunkt, nämlich welcher Zusammenhang zwischen Wort und Konzept vorhanden ist, kann man festhalten, dass zunächst Konzepte durch Erfahrungen entwickelt werden, die dann mit Wörtern gekoppelt werden.
48
2 Theoretische Zusammenhänge
Wörter fixieren demnach die Konzepte, über die ein Individuum verfügt und im Laufe der Entwicklung reicht es, ein Wort zu hören, z. B. „Hund“, um sich alle Merkmale vorstellen zu können. Konzepte und Wörter hängen sehr eng zusammen, da ein wesentlicher Teil der Begriffe durch die sprachliche Interaktion erworben wird. Zusätzlich sind durch den sozialen Kontext ähnliche Erfahrungen mit Objekten oder Ereignissen vorhanden, die mit denselben sprachlichen Ausdrücken benannt werden. Die Sprache übernimmt somit die Funktion der Übereinstimmung in der Referentialität der Begriffe (denotative Bedeutung), also der Übereinstimmung in Bezug auf das, was von den Begriffen beschrieben wird. Trotz der übereinstimmenden sprachlichen Verwendung von Wörtern, die sich auf bestimmte Konzepte beziehen, sind noch individuelle Vorstellungen mit einzelnen Konzepten durch subjektive Erfahrungen vorhanden (konnotative Bedeutung eines Konzepts). Anhand des ersten Beispiels, in dem ein Kind das Konzept „Hund“ lernt, kann ebenfalls der Unterschied zwischen Konzept und Kategorie verdeutlicht werden: Alles was das Kind über diesen einen Hund weiß, ist das Konzept und ein bestimmtes Exemplar der Kategorie (oder Klasse) Hund. Die Kategorie ist demnach ein Set aller Hunde (die das Kind noch lernen wird), die es gibt (Howard 1995), die durch eine Menge gemeinsamer Attribute gekennzeichnet ist. Hier muss freilich angemerkt werden, dass diese begriffliche Unterscheidung nicht generell gemacht wird. Häufig werden die beiden Begriffe auch synonym verwendet. Es ist generell eine Unterscheidung vorzunehmen zwischen Konzepten, die unmittelbar Objekte der wahrnehmbaren Welt repräsentieren wie Baum, Ball, Hund, die sich durch anschauliche Merkmale charakterisieren lassen und den abstrakten Konzepten wie rationale Zahl, infinite Mengenlehre etc., die Ergebnisse einer Abstraktion sind und ebenfalls durch bestimmte Merkmale charakterisiert sind. Einzelexemplare können als Beispiele für den Konzepterwerb dargeboten werden, um anhand bestimmter Merkmale die Zusammenfassung aller Exemplare, die zu einem Konzept gehören, zu ermöglichen und gleichzeitig die nichtzugehörigen auszuschließen. Wenn ein Kind ein Einzelexemplar eines Tieres sieht, das ein Fell hat und bellt, dann kann es generalisieren auf alle Exemplare, die zum Konzept Hund gehören, und die Katze, die zwar ein Fell hat aber nicht bellt, ausschließen. Die Generalisierung spielt demnach bei der Konzeptbildung eine entscheidende Rolle (vgl. Teil 3). Einige Konzepte sind durch Beispiele und Gegenbeispiele charakterisiert: Ein Rechteck ist ein richtiges Beispiel für ein Viereck aber ein falsches Beispiel für ein Dreieck. Bisher wurde davon ausgegangen, dass Konzepte durch die Attribute definiert werden, die alle Mitglieder einer bestimmten semantischen Kategorie gemeinsam haben. Wittgenstein (1953) hat am Beispiel des Konzepts „Spiel“ gezeigt, dass da-
2.2 Lernen als Leitbegriff
49
mit keinesfalls Attribute erfasst werden, die von allen Mitgliedern der entsprechenden Kategorie geteilt werden: Brettspiele wie Schach oder Mühle, Ballspiele, Kartenspiele etc. werden zwar als Spiele bezeichnet, sind jedoch grundverschieden. Daher schlug Wittgenstein vor, von Familienähnlichkeit auszugehen und dass diejenigen Objekte zusammengefasst werden sollten, die einander am ähnlichsten sind, ohne deshalb gleich alle Attribute oder sehr viele zu teilen. Rosch und Mitarbeiter (z. B. Rosch 1973) haben diese Überlegungen später empirisch belegt. Damit wurde der Begriff des „Prototyps“ geprägt, der besagt, dass für eine semantische Kategorie ein Exemplar als das Typische betrachtet wird. Der Prototyp steht im Zentrum einer Kategorie, atypische Exemplare hingegen liegen am Rand. Das hat zur Folge, dass wenn man den Namen einer Kategorie hört, die Menschen automatisch an das typische Exemplar denken oder mit anderen typische Exemplaren assoziieren. Der Prototyp gilt als Bezugspunkt für die Einordnung von Objekten in eine Kategorie; das wird in Teil 3 noch ausführlich behandelt. Komplexere Operationen der Konzeptbildung beziehen sich auf a) Übertragbarkeit von Konzepten, b) Operationskodierung, c) Analogieschluss, d) zwischenkonzeptuelle Relationen und die Bildung semantischer Netze. Diese Operationen sollen hier nur erwähnt werden, da sie den Rahmen dieses Buches sprengen würden; lediglich auf die Bildung von Analogieschlüssen und die Konstruktion semantischer Netze wird kurz eingegangen, da diese für unsere Modelle in diesem Teil und in Teil 3 wesentlich sind. Vor allem semantische Netze gewinnen immer mehr an Bedeutung in der Informatik. a) Analogie und Analogieschluss Analogie bedeutet „gleiches Verhältnis“, „Gleichheit“, „Übereinstimmung“ ohne genaue Spezifikation, worauf sich die Analogie bezieht. Hier kann man darauf hinweisen, dass neue Erkenntnisse häufig durch Vergleiche gewonnen werden können, dass also die Bildung von Analogien ein heuristisch wichtiges Verfahren sein kann. Das Neue wird mit dem bereits Bekannten verglichen, wobei sowohl eine gewisse Übereinstimmung als auch eine Differenziertheit vorhanden sein muss, da sonst keine Analogie vorliegt sondern Gleichheit. Allgemein wird zwischen einer strukturellen und einer funktionalen Analogie unterschieden. Bei der strukturellen Analogie handelt es sich um Systeme, die verglichen werden und sich hinsichtlich der internen Beziehung ihrer Elemente ähnlich sind. Die funktionale Analogie bezieht sich auf die Ähnlichkeit zweier Systeme, die zur Erfüllung einer bestimmten Aufgabe in gleicher Weise geeignet sind. Dies wird ebenfalls in Teil 3 noch näher analysiert. Ein Analogieschluss bedeutet, dass aufgrund der Übereinstimmung oder Ähnlichkeit zweier Objekte in einigen Punkten angenommen wird, dass sie auch in anderen Punkten übereinstimmen (Hügli und Lübcke 1998). Analogieschlüsse führen nur zu Wahrscheinlichkeiten, da nicht ausgeschlossen werden kann, dass die
50
2 Theoretische Zusammenhänge
Übereinstimmung nur augenscheinlich vorhanden ist, tatsächlich aber keine Übereinstimmung vorliegt. Dennoch spielen Analogieschlüsse eine wesentliche Rolle beim Problemlösen und in der wissenschaftlichen Vorgehensweise. Da der Begriff der Analogie unterschiedlich definiert wird, entsteht zuweilen der Eindruck, dass manche Autoren primär den Prozess der Generalisierung meinen, insbesondere wenn der Analogieschluss im Zusammenhang mit dem maschinellen Lernen erwähnt wird. Streng genommen geht es hier jedoch eher um sog. induktive Schlüsse, also um Schlüsse, die aus bestimmten Einzelfällen weitere und allgemeinere Folgerungen ziehen. b) Die Bildung semantischer Netze Die Darstellung semantischer Strukturen in Graphen oder Netzen sowie zwischenkonzeptueller Relationen, hat zwei Wurzeln, nämlich eine aussagenlogische und eine wissenspsychologische. In der aussagenlogischen Beschreibung werden Konzepte als Prädikatoren aufgefasst, die durch gerichtete Graphen abgebildet werden. Im wissenspsychologischen Sinne wird angenommen, dass Informationen im semantischen Gedächtnis mit Hilfe eines strukturellen Netzes repräsentiert werden können; mathematisch handelt es sich dabei gewöhnlich um gerichtete und häufig auch gewichtete Graphen. Dies wird im Zusammenhang mit einigen Modellen noch näher ausgeführt. Semantische Netze werden nach unterschiedlichen Kriterien beschrieben. Das wohl bekannteste Beispiel eines semantischen Netzes, das Hierarchiestrukturen berücksichtigt, ist von Collins und Quillian (1969) beschrieben worden. Grundsätzlich handelt es sich bei der Bildung semantischer Netzwerke um Netze, die anhand von (lexikalischem) Wissen konstruiert werden können. Semantische Netze wurden bereits in unterschiedliche Computermodelle implementiert (Favre-Bulle 2001; McLeod et al. 1998; Schmid und Kindsmüller 1996; Hinton und Anderson 1989), wobei sich die einzelnen Ansätze voneinander unterscheiden. Die konnektionistischen Modellierungen unterscheiden sich von dem klassischen Ansatz von Collins und Quillian (1969), indem dieser durch die Aktivationsausbreitung erweitert wurde (Fahlmann 1998), wobei die einzelnen Knoten für Aktivationsmuster stehen (McLeod 1998). Dies wird im Zusammenhang mit den Beispielen für neuronale Netze noch deutlicher. Die Netze werden differenzierter entwickelt, es wird z. T. von „semantic memory“ gesprochen (Howard 1995), wodurch die Assoziationen und die Relationen zwischen den einzelnen Knoten im semantischen Netz, eine andere Bedeutung bekommen (Kohonen u. a. 1989; Anderson und Hinton loc. cit.; Sejnowski 1998). Auch Assoziationen spielen im Kontext semantischer Netze eine wichtige Rolle. Sejnowski weist darauf hin, dass Gegenstände unterschiedlich assoziiert werden
2.2 Lernen als Leitbegriff
51
können; so kann ein Stuhl mit einem Tisch anhand der Farbe, Form, Funktion etc. in Beziehung gesetzt werden. Es sei hier abschließend noch einmal darauf verwiesen, dass die Informatik in den Bereichen der Objektorientierung (von Programmiersprachen), der wissensbasierten Systeme, der Datenbanken und anderen Bereichen immer mehr sich wesentlich auf die Konzeption semantischer Netze stützt; dadurch erhalten diese auch für den Unterricht an Schule und Hochschule grundsätzliche Bedeutung. Entsprechendes gilt z. B. für die Bildung semantischer Netze in der Sprachwissenschaft und der Logik. Damit ist unser kleiner Exkurs in die Bildung von Konzepten als einem Fundament für die kognitive Ontogenese beendet. Wenden wir uns nun wieder dem eigentlichen Zentralthema unseres Buches, dem Lernen, zu.
2.2.4
Aspekte des Lernens
Als eine der wichtigsten Komponenten des Lernens kann die Fähigkeit zur Generalisierung und zur Diskrimination betrachtet werden, die implizit in jeder der folgenden Lerntheorien vorhanden ist. Bevor wir uns also den einzelnen Lerntheorien zuwenden, soll diese Fähigkeit kurz betrachtet werden, da sie auch bei einigen formalen Modellen in Teil 3 eine wichtige Rolle spielt.
Generalisierung und Diskrimination Bei der Generalisierung (Transfer) handelt es sich um die Übertragung von Gelerntem auf neue, veränderte Situationen. Der Transfer erfolgt z. B. positiv (nach Thorndike 1932), wenn eine inhaltliche Übereinstimmung vorliegt (identity of substance) oder die Probleme nach bekannten Verfahren gelöst werden können (identity of procedure). Als Gegenpol dient die Diskrimination, womit die Fähigkeit gemeint ist, Unterschiede zwischen Reizen und Reaktionen oder zwischen Situationen zu erkennen und das Verhalten darauf abzustimmen (Weidenmann 1993; Skinner 1938). Das Diskriminationslernen gilt als Voraussetzung für das Lernen von Konzepten (Hull 1920), da die Unterscheidungsmerkmale Bestandteile von kognitiven Systemen höherer Ordnung (Kategorisierung, Klassenbildung, Gesetze) sind. Dies ist die klassische Bestimmung der Fähigkeit zur Generalisierung und Diskrimination. Wir werden jedoch in Teil 3 zeigen, dass dies eine etwas zu enge Festlegung ist. Generalisierung muss man noch allgemeiner auffassen, nämlich, in der Sprache des Neuhumanismus, als die Fähigkeit, etwas Allgemeines in einzelnen Fällen zu erkennen; Diskrimination wäre dann zu erkennen, inwiefern einzelne Fälle nicht unter bestimmte allgemeine Konzepte bzw. Kategorien eingeordnet werden können. An einem einzelnen Hund kann man als Allgemeines die Gattung „Säugetiere“ erkennen (Generalisierung), also das, was ein Hund mit allen anderen
52
2 Theoretische Zusammenhänge
Säugetieren gemeinsam hat. Durch Diskrimination jedoch erkennt man, dass ein Hund nicht unter die Kategorie „Raubkatzen“ einzuordnen ist. Diese Unterscheidung ist in mehrfacher Hinsicht sehr wichtig. Wie noch zu zeigen sein wird, spielt in diesem Zusammenhang auch die Assimilation und Akkommodation (nach Piaget) und das Exemplarische (nach Klafki) eine wichtige Rolle. Im Lehr-Lern-Kontext geht es sehr häufig darum, dass die Inhalte oder die Strategien generalisiert werden; in der Praxis zeigt es sich jedoch, dass diese Fähigkeit nicht selbstverständlich vorhanden ist. Dafür ist es notwendig, dass die wesentlichen Bausteine bzw. Merkmale erkannt werden, die einen allgemeingültigen Charakter haben. Erschwerend kommt hinzu, dass die Fähigkeit zur Diskrimination eher dafür sorgt, dass man nur das Besondere in einer Situation wahrnimmt. Betrachten wir uns verschiedene Lernstrategien an, um dies zu verdeutlichen: Jeder hat mindestens eine Strategie, die auf alle Lernsituationen angewandt wird. Geht es um das Auswendiglernen, so sind die meisten Aussagen der Befragten, dass die Inhalte aufgeschrieben (z. B. auf Karteikarten) und so häufig wiederholt werden, bis diese behalten worden sind. Diese Strategie wird generalisiert und immer wenn es darum geht, Inhalte auswendig zu lernen, wird diese Strategie gewählt. Jeder hat jedoch wahrscheinlich die Erfahrung gemacht, dass diese Strategie nicht immer funktioniert. Es gibt Inhalte, die einfach nicht behalten werden können, unabhängig davon, wie häufig diese wiederholt werden. Genau an dieser Stelle muss diskriminiert werden: Es gibt Sachverhalte, die man sich nur merken kann, wenn diese verstanden wurden, wenn also deren logische Struktur erkannt wird. Es muss demnach eine bewusste Auseinandersetzung mit den Inhalten erfolgen, um diese lernen zu können. Im Bezug auf den Ort des Lernens hat ebenfalls Jeder seine bevorzugte Strategie: am Schreibtisch, im Bett oder auf dem Fußboden. Es muss absolute Ruhe herrschen oder im Gegenteil muss Musik im Hintergrund laufen. Ist das Lernen jedoch nicht effektiv, so muss erneut eine Diskrimination erfolgen, die sich in einem veränderten Verhalten ausdrückt: Arbeitet man am liebsten auf dem Fußboden, muss einem klar werden, dass das Arbeiten am Schreibtisch ausprobiert werden sollte. Hört man im Hintergrund Musik, sollte man es mit absoluter Ruhe probieren. Braucht man immer Ruhe, sollte man es in einer Umgebung versuchen (z. B. einem Café), wo sehr viel Unruhe herrscht. Die Kunst besteht darin, eine Klassifizierung von Situationen durchzuführen, um zu erkennen, welche Strategie in welcher Situation angewendet werden sollte. Hier wird deutlich, wie eng Generalisierung und Diskrimination zusammenhängen. Erst wird eine Strategie generalisiert, anschließend stellt man fest, dass diese nicht mehr funktioniert; es muss also eine neue Strategie entwickelt werden (Diskrimina-
2.2 Lernen als Leitbegriff
53
tion). Ist diese neue Strategie erfolgreich und ist eine ähnliche Situation vorhanden, wird die neue Strategie generalisiert etc. Damit sind die Grundlagen für das Verständnis der wichtigsten Lerntheorien gelegt. Wenden wir uns nun diesen zu.
2.2.5
Theorien des Lernens
Der behavioristische Erklärungsansatz Wie kaum ein anderer Ansatz wurde in verschiedenen Disziplinen die behavioristische Lerntheorie thematisiert und analysiert, z. B. in der Neurobiologie, der Kybernetik (und Informationstheorie), in den Sprachwissenschaften etc. Bei den behavioristischen Theorien handelt es sich um die bekannte „Black-Box“Perspektive, mit anderen Worten, was im Inneren der Black-Box passiert, wird nicht berücksichtigt, lediglich die Reize und Reaktionen sind von Bedeutung, also die Verhaltenssteuerung. Allgemein geht es hier um das Signallernen, das aus unterschiedlichen Blickwinkeln untersucht wird. Neurophysiologisch bedeutet dies, dass Verknüpfungen zwischen angeborenen Reflexen (und damit neuronalen Verbindungen) und Umweltwahrnehmungen entstehen, wobei das Lernen darin besteht, angeborene Reflexe auch in neuartigen Situationen zu generieren. Kybernetisch wurde dies Modell zur Klärung von Steuerungsvorgängen herangezogen (Wiener 1963). Die Steuerung des Verhaltens wird durch das Gedächtnis ermöglicht und durch die Fähigkeit, in neuen Situationen Ähnlichkeiten zu früheren zu erkennen und das Verhalten entsprechend anzupassen. In der Kybernetik wird entsprechend die Anpassung durch das Lernen betrachtet, wo durch Koppelung komplexe Reaktionsmöglichkeiten entstehen. Die wohl bekanntesten behavioristischen Ansätze sind a) die klassische Konditionierung (Pawlow) und b) die instrumentell/operante Konditionierung (Thorndike/ Skinner). Zu a) Klassische Konditionierung Bei der klassischen Konditionierung ging man anhand der Experimente mit dem wohl bekanntesten Hund (nach Lassie und mittlerweile Rex) davon aus, dass alle Reaktionen des Organismus ein Reflex sind, die durch das Nervensystem ausgelöst werden. Das Signallernen als charakteristisches Merkmal dieser Lerntheorie besagt, dass durch Koppelung eines unbedingten Reizes (Futter) mit einem neutralen Reiz (Glocke) aus dem unbedingten Reflex (Speichelabsonderung) ein bedingter (und damit erlernter) Reflex entsteht, wenn der Hund auf die Glocke mit dem
54
2 Theoretische Zusammenhänge
ursprünglich unbedingten Reflex reagiert.16 Die Frage ist, welche Bedeutung diese sehr einfache Form des Lernens für ein Individuum hat. Strenggenommen werden mit der klassischen Konditionierung keine kognitiven Leistungen erklärt; das Bewusstsein spielt hier keine Rolle und entsprechend werden auch keine Annahmen gemacht über interne Vorgänge bei Tieren. Als besonderes Merkmal kann man aber festhalten, dass es sich bei dieser Konditionierung um eine Koppelung der Reaktionen handelt, die physisch bedingt sind und damit nicht ohne weiteres zu hemmen sind. Die Speichelproduktion (beim Hund) und andere damit verbundene biochemische Prozesse sind existentiell, damit die Nahrung verarbeitet werden kann. Somit haben die Reflexe eine systemerhaltende Funktion (z. B. als Schutz). Im Falle der Klassischen Konditionierung muss stets hinterfragt werden, was der unbedingte Reiz ist. Bei dem Hund ist es nicht etwa der Futternapf, sondern der Geruch des Futters. Wenn ein Hund demnach für den Menschen bereits beim Anblick der Futterschale mit Speichelfluss reagiert, so handelt es sich bereits um eine einfache Konditionierung, da der Hund gelernt hat, dass der Napf gleich mit Futter gefüllt wird. Der Geruch des Futters alleine bzw. evtl. auch dessen visuelle Wahrnehmung entspricht dem angeborenen Reiz. Für den Lehr-Lern-Kontext kann die bekannte Situation der Prüfungsangst näher betrachtet werden, die unter bestimmten Umständen als klassisch konditionierte Angst kategorisiert werden kann. Welcher unbedingte Reiz ist bei einer Prüfungsangst vorhanden? Hier ist es einfacher von der unbedingten Reaktion auszugehen: Fluchtverhalten oder Angst, ausgedrückt in physischen Reaktionen wie Herzrasen, Schweißausbruch, Röte, Starre etc. Der unbedingte Reiz ist demnach das sich Befinden vor unbekannten oder sehr gefährlichen Situationen. Die Prüfung gilt hier zunächst als neutraler Reiz, der zum bedingten Reiz wird. Eine Prüfung „an sich“ ist zunächst unproblematisch. Kinder messen sich z. B. sehr gerne und empfinden eine Prüfung nicht als ein besonderes Problem. Wird ein Misserfolg jedoch stark sanktioniert (durch körperliche oder psychische Strafen), kann es zu der Koppelung kommen, dass „Prüfung“ mit einem unbedingten Reflex gekoppelt wird und zur klassischen Konditionierung führt. Bei Menschen reicht allein schon die Vor-
16
Hier ist leider bereits seit Beginn des klassischen Behaviorismus eine gewisse Begriffsverwirrung zu konstatieren. Natürlich sind nicht die Reize „unbedingt“ bzw. „angeboren“, sondern die Reaktionen (Reflexe) auf bestimmte Reize und auch nur die Reflexe können „bedingt“ sein. Wir haben die obige Terminologie zwar übernommen, weil sie überall so verwendet wird, wollen jedoch auf diese semantische Konfusion zumindest hinweisen.
2.2 Lernen als Leitbegriff
55
stellung der entsprechenden Situation, um bereits die physischen Reaktionen zu zeigen. Es ist zu beachten, dass nicht jede Prüfungsangst als klassisch konditioniert einzustufen ist. Eine klassische Konditionierung liegt nur dann vor, wenn die Angstzustände die Denkfähigkeit blockieren, da der Körper mit negativen Reaktionen reagiert, wie Übelkeit, Schlaflosigkeit, unkontrolliertes Zittern, unterschiedlich geprägte Toilettengänge. Liegt bei einem Lernenden eine klassische Konditionierung vor, muss diese besonders berücksichtigt werden; daher ist die Diskrimination hinsichtlich der Prüfungsangst von besonderer Relevanz. Als kleines Beispiel sei folgende Anekdote erwähnt: Wir haben selbst während einer Reise zu einer Tagung erlebt, welche Auswirkungen die klassische Konditionierung auch langfristig haben kann. Mit einem Kollegen waren wir in der S-Bahn unterwegs und es entstand eine Unterhaltung über Mathematik, genauer gesagt, über gemeinsame Erfahrungen im Mathematikstudium. Plötzlich stand eine Frau auf und sagte völlig unvermittelt, ihr sei schlecht und sie verstehe nicht, wie man sich heiter über Mathematik unterhalten kann. Ihr wäre schon in der Schule nur bei dem Gedanken an das Fach übel geworden. Die Frau hat dann nicht nur den Sitzplatz gewechselt, sondern sogar den Wagen. Hier ist anzunehmen, dass tatsächlich eine klassische Konditionierung erfolgt ist, denn diese Frau sah in der Tat sehr blass aus und ihre Hände zitterten leicht. Angstzustände wurden in diesem Fall mit dem Fach Mathematik gekoppelt und obwohl sie bereits in mittleren Jahren war, ist die Reaktion gleich wie in der Schulzeit geblieben. Wir kennen die näheren Umstände nicht; es zeigt jedoch, dass Lehrende grundsätzlich vermeiden müssen, dass eine klassische Konditionierung entsteht, und rechtzeitig entgegenwirken. Die Angst vor einem Fach spielt nicht nur in dem dargestellten Beispiel eine wesentliche Rolle. Zahlreiche Untersuchungen haben gezeigt, dass sich die Angst sowohl positiv als auch negativ auf die kognitive Leistung auswirken kann, abhängig vom Angstniveau (Lewitt 1987). Es kann die Schlussfolgerung gezogen werden, dass die klassische Konditionierung dafür sorgt, dass die Angst ein Niveau erreicht, das kognitive Entwicklungen völlig blockieren kann. Um dies zu vermeiden, ist es notwendig, die Schüler im Zusammenhang mit der Ankündigung von Prüfungen genau zu beobachten. Die Erfahrung zeigt, dass die klassisch konditionierte Prüfungsangst sehr häufig zu beobachten ist. In diesem Fall muss sich der Lehrer Strategien überlegen, um entgegenzuwirken, insbesondere da eine klassische Konditionierung auch hinsichtlich eines Lehrers entstehen kann. Ist diese zweifache Koppelung vorhanden, sind die Schüler nicht mehr in der Lage, Informationen kognitiv zu verarbeiten. Dabei handelt es sich um Extremfälle, die in der Praxis in unterschiedlichster Ausprägung zu beobachten sind.
56
2 Theoretische Zusammenhänge
Allerdings kann Angst, wie bereits bemerkt, auch in der Hinsicht positiv wirken, dass die Schüler (und andere Prüflinge) sich vollständig auf die Prüfung konzentrieren. Es gibt bekanntlich auch den Typus von Schülern, der aufgrund eines übersteigerten Selbstbewusstseins die Prüfung nicht ernst nimmt und deswegen weitgehend unkonzentriert bestimmte Prüfungsanforderungen nicht erfüllt. Hier muss ein Lehrer jeweils den Ausgleich finden.
Behavioristische Modellierung 1: Die Öffnung der Black Boxes Die methodische Reduktion des Behaviorismus auf experimentell kontrollierte Beobachtungen von Reiz und Reaktion war wissenschaftshistorisch gesehen durchaus berechtigt. Ein großer Teil psychologischer Aussagen über den menschlichen „Geist“ oder auch „Intelligenz“ und „Lernen“ bestand zur Zeit von Pawlow und Watson aus eher philosophisch-spekulativen Mutmaßungen, für die das etwas bösartige aber häufig durchaus berechtigte Wort vom „Armchair Reasoning“ (Spekulationen im Lehnstuhl) geprägt wurde. Indem die Behavioristen die experimentelle Methode in die Psychologie einführten und sich auf das beschränkten, was in den Experimenten empirisch beobachtet werden konnte, brachten sie die Psychologie in den Status einer methodisch kontrollierten Wissenschaft. Insofern kann der Behaviorismus durchaus als wissenschaftlicher Fortschritt angesehen werden.17 Allerdings ist diese strikte Beschränkung auf reine Reiz-Reaktionsschemata, unabhängig von den sonstigen Begrenzungen des behavioristischen Grundansatzes, ziemlich unbefriedigend. Es ist ja durchaus nicht nur von wissenschaftlichem Interesse, was gewissermaßen in den Köpfen von Menschen und auch Tieren vor sich geht, wenn diese bestimmten Konditionierungen unterzogen werden. Die Neurobiologie kann uns da gegenwärtig nicht viel weiter helfen (vgl. dazu Teil 3). Mit Hilfe von geeigneten Computermodellen jedoch ist es zumindest möglich, sich eine klare Vorstellung von diesen Prozessen zu machen; die Grundlogik der Modelle ist zumindest so plausibel, dass den Modellen durchaus auch eine empirische Adäquatheit zugesprochen werden kann. Nehmen wir jetzt noch einmal den Hund von Pawlow. Fest steht, dass im Gehirn des Hundes durch die Konditionierung mit Futter und Glocke sich bestimmte Veränderungen vollzogen haben müssen, die zu dem bekannten Konditionierungser-
17
Es gab natürlich auch vor den ersten Behavioristen schon Psychologen, die sich experimentell mit bestimmten Verhaltensweisen von menschlichen Probanden beschäftigten wie vor allem die in der zweiten Hälfte des 19. Jahrhunderts von Wilhelm Wundt begründete Leipziger Schule. Dabei ging es jedoch nicht um die Analyse von Lernen und deswegen ist sie für unser Thema unerheblich.
2.2 Lernen als Leitbegriff
57
gebnis führte, nämlich der Absonderung von Speichel bei dem alleinigen Ertönen der Glocke. In einer stark vereinfachten Form kann man sich ein neuronales Netz im Gehirn vorstellen, in dem sich diese extern angeregten Veränderungen ereignet haben. Dies kann durch ein künstliches neuronales Netz repräsentiert werden. Da wir auf künstliche neuronale Netze – in folgenden kurz als neuronale Netze bezeichnet – noch in Teil 3 eingehen werden, genügen für unser Beispiel die folgenden Hinweise: Ein neuronales Netz ist einfach ein gewichteter Graph, d. h. die künstlichen Einheiten – die Neuronen – sind durch gewichtete Verbindungen miteinander verknüpft. Gewichtet heißt, dass jede Verbindung einen numerischen Wert hat, der Signale von einem Neuron zum anderen modifiziert. Im Standardfall wird die Stärke des Signals mit dem Gewichtswert multipliziert, was auch bei unserem Beispiel vorgenommen wird. Wenn diese künstlichen Systeme „lernen“ sollen, dann werden gewöhnlich die Gewichtswerte nach bestimmten „Lernregeln“ so lange modifiziert, bis das gewünschte Lernergebnis erreicht ist. Man kann sich nun das Netzwerk des Hundes vor Beginn des Konditionierungsprozesses folgendermaßen als neuronales Netz vorstellen:
ͳα
ǣ
Abbildung 2-3: Das Netzwerk vor Beginn des Konditionierungsprozesses
Dies Bild ist wie folgt zu verstehen: Die beiden Einheiten oben links sind die Eingabe- bzw. Inputneuronen für visuelle und olfaktorische Signale, für unser Beispiel also die sinnliche Wahrnehmung des Futters durch Augen und Nase. Die beiden rechten Neuronen oben sind die Inputneuronen für akustische Signale, hier also für die Wahrnehmung des Glockentons. Die eingezeichneten vertikalen Verbindungen sind von oben – der sog. Inputschicht – nach unten – der sog. Outputschicht – gerichtet. Es gibt zusätzlich Verbindungen zwischen jeweils zwei Neuronen der Inputschicht; diese jedoch sind vor Beginn der Konditionierung nur schwach gewichtet. Wenn nun ein Signal „Futter“ ankommt, werden die beiden linken Inputneuronen aktiviert (schwarze Färbung) und senden ein Signal an die beiden linken Outputneuronen weiter (ebenfalls schwarze Färbung. Diese generieren dann die Speichelabsonderung, d. h., sie senden Signale an die Teile des Orga-
58
2 Theoretische Zusammenhänge
nismus, die den Speichel produzieren. Die beiden rechten Inputneuronen werden nicht aktiviert (weiße Färbung).18 Wenn ein Signal „Glockenton“ wahrgenommen wird, werden entsprechend die beiden rechten Inputneuronen aktiviert und diese aktivieren ihrerseits die beiden rechten Outputneuronen. Diese generieren natürlich keine Speichelabsonderung, sondern evtl. eine Reaktion wie „Ohren spitzen“. Da die horizontalen Verbindungen in der Inputschicht nur schwach gewichtet sind, erfolgt in beiden Fällen keine Aktivierung der jeweils beiden anderen Neuronen, d. h. die Glocke generiert keinen Speichel und die Futterwahrnehmung kein Spitzen der Ohren. Der Konditionierungsprozess bestand bekanntlich darin, dass die Signale „Futter“ und „Glocke“ über längere Zeit gleichzeitig gesendet wurden. Dieser Prozess und die dadurch generierte Veränderung im Netzwerk des Hundes lassen sich wie folgt graphisch darstellen:
ʹα
ǣǷDz
͵α
ǣ
Ͷα
ǣ
Abbildung 2-4: Links die Netze während des Konditionierungsprozesses, rechts das Ergebnis der Prozesses
Die Veränderung des Netzes durch den Konditionierungsprozess besteht darin, dass die horizontalen Verbindungen in der Inputschicht so lange verstärkt werden, bis Signale von der rechten Hälfte der Inputschicht die linke Hälfte, also die auf olfaktorische Signale reagierenden Neuronen, aktivieren können. Diese leiten dann wie vor dem Konditionierungsprozess die Aktivierungen an die linke Hälfte der Outputschicht weiter und produzieren so den Effekt der Konditionierung. Wir wollen natürlich nicht behaupten, dass die biologischen Netze des Hundes genau diese Struktur haben und dass die neurobiologischen Veränderungen sich geometrisch genauso verstehen lassen müssen wie es in dem Modell geschieht
18
Wir haben dies Modell in einem Programm implementiert und die Konditionierung dadurch simuliert. Die technischen Einzelheiten dazu können nachgelesen werden in Klüver und Klüver 2011a.
2.2 Lernen als Leitbegriff
59
(vgl. dazu Teil 3). Das Programm konnte jedenfalls die gewünschten Simulationseffekte auf der Basis dieses Modells sehr gut reproduzieren. Von daher können wir durchaus annehmen, dass der Konditionierungsprozess einer äquivalenten Logik folgte wie es das Programm zur Verfügung hat. Da das Programm insbesondere auf dem fundamentalen Prinzip neuronaler Veränderungen basiert, wie es für das Gehirn generell angenommen wird, nämlich der Verstärkung und Abschwächung von Verbindungen (s. Teil 3), können wir mit einem gewissen Recht sagen, dass wir die Black Box des Hundes von Pawlow transparent gemacht haben. Zu b) Die instrumentell/operante Konditionierung Sowohl bei der instrumentellen Konditionierung (Thorndike 1932) als auch bei der operanten (Skinner 1938) geht es um „Trial“- und „Error“-Verhalten. In beiden Fällen handelt es sich um eine Reiz-Reaktions-Koppelung, ohne dass dabei Reflexe angesprochen werden. Bei der instrumentellen Konditionierung (nach Thorndike) wird ein Reiz in Form einer Belohnung angeboten und durch Trial and Error (Reaktion) wird versucht, den Reiz zu bekommen. Genauer gesagt, der Reiz besteht in der Erwartung einer Belohnung im Falle des Erfolgs. Ist das entsprechende Verhalten erfolgreich, so steigt die Wahrscheinlichkeit, dass dies Verhalten wiederholt wird. Durch diese Erkenntnisse wurden das Gesetz der Übung sowie das Erfolgsgesetz formuliert. Einfach ausgedrückt: Übung macht den Meister und der Erfolg erhöht die Wahrscheinlichkeit, dass sich das Verhalten wiederholt. Anstatt einer Belohnung im Erfolgsfall kann auch eine Bestrafung im Falle des Misserfolgs erfolgen; der Reiz besteht dann darin, den Misserfolg zu vermeiden. Der Unterschied bei der operanten Konditionierung nach Skinner besteht darin, dass ein Organismus zunächst eine (spontane) Reaktion äußert (er kennt also den Reiz nicht) und abhängig von der Umweltreaktion (Feedback) verbindet der Organismus Reiz und Reaktion durch Lernen. Zwei Schlüsselbegriffe sind anhand der entsprechenden Experimente zu erwähnen, nämlich die Verstärkung (reinforcement) und Löschung (Extinktion). Die Verstärkung hat die Funktion, die Auftretenswahrscheinlichkeit einer Verhaltensweise zu erhöhen19. Bei der Löschung handelt es sich darum, dass die erwartbare, nämlich gelernte Verhaltensweise ausbleibt. Ein weiterer, und sehr wichtiger Aspekt ist die intermittierende Verstärkung (Skinner a.a.O.), d. h., dass eine Verstärkung unregelmäßig stattfindet; diese Form der Verstärkung ist besonders resistent gegen Löschung. Die operanten und instrumentellen Konditionierungsformen werden hier zusammengefasst (in der Psychologie werden sie getrennt behandelt) aus dem Grund,
19
Dies entspricht dem Erfolgsgesetz bei Thorndike.
60
2 Theoretische Zusammenhänge
dass es ohne genaue Kenntnisse der Vorgeschichte der jeweiligen Verhaltensweisen sehr schwierig ist zu erkennen, ob ein Reiz dargeboten wurde, wodurch eine Reaktion erfolgte (instrumentelle Konditionierung) oder ob das Verhalten (Reaktion) spontan erfolgte, das mit einem Reiz verstärkt wird (operante Konditionierung). Auch bei diesen Konditionierungen spielt das Bewusstsein keine Rolle und sie sind nicht menschenspezifisch, kommen also bei zahlreichen Organismen vor. Daher stellt sich hier erneut die Frage, inwiefern die Konditionierungen für die kognitive Ontogenese und damit für den Unterricht relevant sind. Unseres Erachtens können diese Konditionierungen nur im Zusammenhang mit der strukturellen Neuorganisation des Gehirns betrachtet werden, die ebenfalls unbewusst abläuft; diese führt durch Koppelungen zwischen Reiz und Reaktionen zu komplexeren Denkformen und Problemlösungen (vgl. bereits das Modell des Hundes für die klassische Konditionierung). Die Rückmeldungen aus der Umwelt, sei es Erfolg oder Verstärkung, führen zu Stabilisierungen der neuronalen Muster im Gehirn. Darüber hinaus ist ein Individuum, das durch die Umwelt positiv verstärkt wird, sich eigene Gedanken zu machen, eher motiviert, das Verhalten zu wiederholen, als bei negativen Rückmeldungen. Die Umwelt spielt damit eine besondere Rolle bei der Steuerung des Verhaltens eines Individuums, wie es insbesondere in der Kybernetik analysiert wurde. Allerdings können viele menschliche Verhaltensweisen häufig sehr sinnvoll als Ergebnis (unbewusster) Konditionierungsprozesse verstanden werden, wie bereits das Beispiel der Dame mit der Mathematikphobie aus der S-Bahn für die klassische Konditionierung zeigte. Es ist ja auch zweifellos sinnvoller, Schüler mit eigenen Gedanken zu belohnen, als ihnen allgemein zu sagen „sei kreativ“. Wie bei der berühmten Forderung „sei spontan“, die bekanntlich zu einer sog. Double Bind Situation führt, würde die Kreativitätsforderung ebenfalls nur zu einer Blockade führen.20 Insofern werden von Lehrern häufig, wenn auch nicht unbedingt in bewusster Orientierung an behavioristischen Positionen, Formen der pädagogischen
20
Unter Double Bind versteht man eine Situation, in der man durch paradoxe Anforderungen blockiert wird. Ein berühmtes Beispiel dafür ist die obige Aufforderung „sei spontan“, die offenbar zu einem Widerspruch führt. Befolgt man die Aufforderung, dann ist man gerade nicht spontan, da Spontaneität nun einmal selbstbestimmtes Handeln aus dem Augenblick heraus bedeutet.
2.2 Lernen als Leitbegriff
61
Interaktion angewandt, die praktisch den Konditionierungsformen des Behaviorismus entsprechen. Aus diesen Überlegungen können für den Unterricht mehrere Schlussfolgerungen gezogen werden: x Die sozialen Regeln, wie im ersten Teil behandelt, werden durch eine konsequente Reaktion verinnerlicht. Werden die Verhaltensweisen sanktioniert, die nicht den aufgestellten Regeln entsprechen, so steigt die Wahrscheinlichkeit, dass diese nicht wiederholt werden, und umgekehrt: Werden die Schüler positiv bei einer entsprechender Verhaltensweise verstärkt, werden diese Regeln beibehalten (dies entspricht auch dem behavioristischen Sozialisationsansatz). x Die (Haus-)Aufgaben sollen grundsätzlich der Vertiefung dienen (Gesetz der Übung) und nicht als Strafe aufgegeben werden. Es sollte explizit vermittelt werden, dass nur durch die Übung der langfristige Erfolg möglich ist. x Die positiven oder auch negativen Rückmeldungen an die Schüler sollten intermittierend, also nicht regelmäßig, erfolgen. Werden die Schüler immer gelobt, reduziert sich der Reiz, sich zu melden oder engagiert zu sein; im Falle ständiger negativer Rückmeldungen besteht die Gefahr, dass die Schüler in eine Trotzreaktion geraten – „es hat ja doch keinen Zweck sich anzustrengen“. Ein zusätzlicher Aspekt ist in diesem Kontext wichtig: Nehmen wir als Beispiel erneut die Angst vor Prüfungen oder Tests: In Lewitt (1987) werden unterschiedliche Formen der Angst dargestellt; unter Anderem hat es sich gezeigt, dass ängstliche Schüler nach Beruhigung durch den Lehrenden bessere Leistungen erzielen. Sie können ihr Angstniveau reduzieren und sich auf die Aufgaben konzentrieren. Diese Beruhigung führt jedoch dazu, dass die weniger ängstlichen Schüler sich zurücklehnen und sich nicht vorbereiten. Diese Schüler müssen angespornt und aufmerksam gemacht werden, dass die Prüfung ohne Lernen nicht zu schaffen ist (eine leichte Steigerung der Angst); für diese Schüler ist also die Beruhigung kontraproduktiv (vgl. unsere obigen Hinweise zur Angst). Die intermittierende Beruhigung sowie Ansporn lassen hoffen, dass die Schüler jeweils die Rückmeldung erhalten, die sie brauchen. Diese häufig im Labor erzeugten Erkenntnisse, also unter künstlichen Bedingungen, lassen sich in der Praxis wiederfinden. Gerade die Angst spielt in ganz unterschiedlichen Formen eine große Rolle. Es wurde bereits darauf hingewiesen, dass insbesondere bei Erwachsenen eine soziale oder existentielle Angst entstehen kann, die sich negativ auf Lernprozesse auswirkt; die Intelligenz spielt bei der Angst vor Prüfungen ebenfalls eine Rolle. Somit kommt auf Lehrer die sehr schwierige Aufgabe zu, bei Konditionierungen der Angst genau zu diskriminieren, um welche Form es sich handelt, um entsprechend handeln zu können: Brauchen die Schüler ein gewisses Angstpotential, um sehr gut zu sein, müssen die Rückmeldungen entsprechend erfolgen. Wirkt sich die
62
2 Theoretische Zusammenhänge
Angst bei Schülern hemmend aus, so muss die Rückmeldung derart erfolgen, dass keine klassisch konditionierte Angst entsteht.
Behavioristische Modellierung 2: Von Mäusen und Labyrinthen Für ein Modell der instrumentellen bzw. operanten Konditionierung bleiben wir ebenfalls bei Tieren, aber in diesem Fall bei Mäusen. Bei der klassischen Konditionierung gibt es offenbar keine Rückmeldung (feed back) an den Hund, ob und inwiefern sein Lern- bzw. Trainingsprozess erfolgreich abgeschlossen worden ist. Es gibt nur die ständig wiederholten externen Reize der gleichzeitigen „Eingabe“ von Futter und Glockenton und nach einer gewissen Zeit nur noch die Wahrnehmung des Glockentons.21 Auf den Hund wird damit gewissermaßen die alte lateinische pädagogische Maxime des „repetitio est mater studiorum“ (Wiederholung ist die Mutter der Lernprozesse) angewandt und streng genommen nichts sonst. Bei den beiden anderen wichtigen Formen der Konditionierung, nämlich der instrumentellen und der operanten Konditionierung ist das, wie wir gezeigt haben, etwas anders: Die Wiederholung spielt hier natürlich auch eine wesentliche Rolle, aber zusätzlich gibt es eine Belohnung bei Erfolg und auch komplementär dazu eine Bestrafung bei Misserfolg, so dass das Objekt der Konditionierungen regelmäßig eine Rückmeldung in Bezug auf seinen Lernprozess erhält. Eine Modellierung dieser Formen von Konditionierung, die sich an den berühmten Labyrinthexperimenten mit Mäusen und Ratten orientiert, hat als Basis ebenfalls neuronale Netze der Form, die bei der Simulation der klassischen Konditionierung verwendet wurde. Ebenso finden die Veränderungen des Gehirns der Mäuse, die darauf trainiert werden, einen Weg durch ein Labyrinth zu finden, dadurch statt, dass bestimmte Verbindungen verstärkt bzw. abgeschwächt werden. Allerdings muss hier die positive bzw. negative Rückmeldung als wesentlicher Faktor mit einbezogen werden. Formal kann man die Trainingssituation einer Maus durch die folgende Graphik repräsentieren: Die obere Schicht 1, 2 und 3 repräsentiert 3 Inputneuronen; diese sind durch jeweils eine vertikale Verbindung mit den Outputneuronen a, b und c verknüpft. Das Labyrinth besteht in diesem extrem einfachen Beispiel aus drei Höhleneingängen A, B und C; in Höhle C befindet sich ein Stück Käse als Belohnung für die Maus, falls sie C erreicht. Die Gewichtswerte für die Verbindungen zwischen Input- und Outputneuronen sind durch wkl symbolisiert; dieser Werte
21
In unserem Modell wird übrigens auch simuliert, dass und wie der Hund nach einer bestimmten Zeit seine Konditionierung wieder vergessen hat, wie es beim realen Hund auch der Fall war, dass also eine Löschung entstanden ist.
2.2 Lernen als Leitbegriff
63
sind zu Beginn nur gering. 4 (gesprochen Theta) repräsentiert einen sog. Schwellenwert. Dies bedeutet, dass die Verbindungen sozusagen durch eine Barriere abgesperrt sind; erst wenn die Stärke eines Signals von einem Inputneuron diesen Schwellenwert übersteigt, gelangt das Signal zu dem entsprechenden Outputneuron. In unserem formalen Modell wird gewöhnlich 4 = 0.4 gesetzt, aber das ist beliebig.22
ͳ
ͳ
T
ʹ ʹ
T
͵ ͵
T
Abbildung 2-5: Trainingssituation
Bei diesem Modell und den entsprechenden Simulationen kommt es nur darauf an, prinzipiell den Prozess der Konditionierung durch Belohnung (bzw. durch Bestrafung) anhand des Labyrinthlernens zu demonstrieren. Deswegen wird der Unterschied zwischen instrumenteller und operanter Konditionierung nicht weiter berücksichtig. Die Grundlogik der Simulation folgt wieder dem Prinzip der Verstärkung bzw. Abschwächung bestimmter Verbindungen; wir sprechen hier der Einfachheit halber von „Maus“, wenn eigentlich vom formalen System die Rede ist. Zu Beginn des Ganzen steht die Maus gewissermaßen unschlüssig vor den drei Eingängen. Da sie noch nicht sehr hungrig ist, also kein direktes Bedürfnis danach hat, in den Eingängen nach dem Käse zu suchen, aktiviert sie ihre drei Inputneuronen nur mit einem geringen Wert, der noch nicht ausreicht, den Schwellenwert zu überwinden; dies liegt auch daran, dass, wie bemerkt, die Gewichtswerte anfänglich nur gering sind. Da dadurch keine Signale an die Outputneuronen gelangen, führt die Maus keine Aktivitäten durch. Erst bei größerem Hunger werden die Inputs – die externen Aktivierungswerte für die Inputneuronen – so groß, dass in allen drei Verbindungen die Schwellenwerte überwunden werden. Wenn beispielsweise 4 = 0.4 ist, w1a = w2b = w3c = 0.2 und wenn der Aktivierungswert von Neuron 1 mit dem Gewichtswert multipliziert wird, dann braucht die Maus einen Aktivierungswert von mindestens 2.1, um den Schwellenwert zu überwinden.
22
Die Einführung derartiger Schwellenwerte ist neurobiologisch durchaus plausibel, da es empirische Ergebnisse gibt, dass derartige Barrieren auch im Gehirn vorkommen.
64
2 Theoretische Zusammenhänge
Jetzt werden alle Outputneuronen aktiviert und die Maus kann selbst aktiv werden. Da sie nicht „weiß“, welcher Eingang der richtige ist, muss sie gemäß Trial und Error vorgehen. Sie versucht zuerst Eingang A, was jedoch erfolglos bleibt. Deswegen wird der Gewichtswert w1a nicht verändert. Das Gleiche ist der Fall bei Eingang B. Erst Eingang C bringt den gewünschten Erfolg, was jetzt zu einer Verstärkung von w3c führt. Nehmen wir an, dass die Verstärkung um den Summanden 0.2 geschieht. Dann ist w3c = 0.4, während die beiden anderen Gewichtswerte 0.2 bleiben. Jetzt ist die Maus gesättigt und beginnt die gleiche Operation mit wieder einem geringen Aktivierungswert, sagen wir 1. Das reicht in allen drei Fällen noch nicht aus. Wenn jetzt der Aktivierungswert wegen des steigenden Hungers der Maus auf 2 erhöht wird, wird nur Outputneuron c aktiviert, was zur sofortigen Wahl von Eingang C führt. Da jetzt wieder Käse vorhanden ist, wird durch die Belohnung w3c auf 0.6 erhöht; die beiden anderen Gewichtswerte bleiben wie bisher. Offenbar reicht jetzt beim dritten Versuch bereits ein externer Aktivierungswert von 1, um den Schwellenwert zwischen den Neuronen 1 und c zu überwinden. Da Eingang C sich wieder als Erfolg erweist, bleibt es bei dem verstärkten Gewichtswert und in Zukunft kann die Maus den richtigen Eingang auf Anhieb finden. Aus den tatsächlichen Experimenten ergab sich, dass die Maus sich in der Tat nicht mehr irrte, wenn sie in mehreren erfolgreichen Versuchen den Käse gefunden hatte. Unsere Simulationen erklären dies: Die Topologie des Mausnetzwerks macht in der Tat einen Irrtum unmöglich, da die anderen Outputneuronen noch nicht aktiviert werden, wenn Neuron c bereits aktiv ist und den Eingang C bestimmt. Anders gesagt: In einem bewussten Sinne des Wortes „erinnert“ sich die Maus natürlich nicht, welcher Eingang der richtige ist. Stattdessen hat die Maus durch die erfolgreichen Versuche eine Netzgeometrie entwickelt, die ihr den Erfolg garantiert, da sie buchstäblich keine falschen Versuche mehr machen kann. Natürlich gilt auch hier wie bei dem Hund von Pawlow, dass die Mäuse nicht exakt diese Netzgeometrie haben müssen, um erfolgreich zu lernen. Da jedoch auch hier wieder das Prinzip der Verstärkung als Grundlogik verwendet wurde, kann man unser Modell durchaus als plausibel bezeichnen, durch den die Maus auch „intern“ verstanden werden kann. Insbesondere ist unsere Erklärung für den regelmäßigen
2.2 Lernen als Leitbegriff
65
Erfolg der Maus vermutlich die einzig mögliche, da wir den Mäusen kaum ein Bewusstsein unterstellen können.23 Das simulierte Labyrinth ist sicher so einfach, gewissermaßen ein Labyrinth für Anfänger, dass man zweifeln könnte, ob wesentlich komplexere Aufgaben auch so dargestellt werden können. Das ist jedoch in der Tat möglich und wir verweisen hier nur auf die Modellierung und Simulation mit deutlich komplizierteren Orientierungsaufgaben (Klüver und Klüver 2011a). Ebenso ist es möglich, anstatt mit Belohnungen für erfolgreiche Versuche mit Bestrafungen für erfolglose Versuche zu arbeiten. Das Prinzip ist wieder analog; allerdings werden jetzt nicht Verbindungen verstärkt, sondern es werden die Verbindungen abgeschwächt, die erfolglose Versuche repräsentieren. Bei einschlägigen Simulationsexperimenten zeigte sich übrigens interessanterweise, dass bei Bestrafungen der Lernprozess signifikant schneller ablief als bei Belohnungen. Das entspricht genau den realen experimentellen Befunden, was ein weiterer Hinweis für die empirische Plausibilität unseres Modells ist (Klüver und Klüver 2011a). Natürlich haben wir mit diesen Experimenten nur recht einfache behavioristische Experimente simuliert. Die dabei angewandte Grundlogik jedoch ist nicht nur neurobiologisch plausibel, sondern lässt sich auch umstandslos auf komplexere Fälle anwenden. Die Black Boxes lassen sich offenbar tatsächlich transparent machen. Zusammengefasst lässt sich festhalten, dass die behavioristischen Lerntheorien wichtig für die Außensteuerung sind, jedoch wenig hilfreich, um zu verstehen, wie komplexe Probleme gelöst werden können. Die Steuerung durch die Umwelt ist jedoch äußerst wichtig, denn aufgrund der internen Verarbeitung der Wahrnehmungen kann nicht sichergestellt werden, dass die Ergebnisse der neuronalen Selbstorganisation den gesellschaftlich geltenden Regeln und Normen entsprechen bzw. dem gesellschaftlich relevantem Wissen; somit erhält die Umwelt eine direktive Rolle, die als kulturspezifisch betrachtet werden kann (vgl. dazu die Modelle bei der Darstellung der Theorie von Piaget). Dies gilt z. B. für die Bildung von Kategorien oder Zuordnungen aufgrund von Beobachtungen, für die Befolgung der sozialen Regeln etc. Wie noch gezeigt wird, rekurrieren einige didaktische Modelle auf den behavioristischen Ansatz, insbesondere wenn es um die Kontrolle des Erlernten geht.
23
Da es auch bei Menschen ein unbewusstes Erinnern gibt, z. B. für einstmals gelernte physische Fähigkeiten wie etwa Radfahren, kann man sehr plausibel vermuten, dass diese Erinnerung hier ebenfalls durch eine entsprechende Netzgeometrie erfolgt, also nicht nur bei Mäusen (vgl. dazu Teil 3). Die in derartigen Zusammenhängen häufig gebrachte „Erklärung“, dass „der Körper sich erinnert“, findet dadurch eine sowohl plausible als auch exakte Deutung.
66
2 Theoretische Zusammenhänge
Dies setzt jedoch voraus, dass wir davon ausgehen, Lernen und gezeigtes Verhalten folgen unmittelbar aufeinander. Bei komplexen Lern- und Denkvorgängen ist diese Voraussetzung nicht möglich. Die kognitiven Lerntheorien versuchen daher, die inneren Prozesse, die für das Lernen entscheidend sind, genauer zu analysieren.
Der kognitive und der konstruktivistische Ansatz Da die Leistungsfähigkeit des Gehirns nicht durch einfache Reiz-Reaktionsmechanismen erklärt werden kann, beschäftigen sich die kognitiven Lerntheorien mit der Analyse der Informationsverarbeitung und damit zusammenhängend mit Denkprozessen. Einige der bekanntesten Ansätze sind a) die Mehr-Speicher-Theorie, b) ein gestalttheoretischer Ansatz sowie c) der konstruktivistische Ansatz nach Piaget. Zu a) Mehr-Speicher-Theorie Die Computertechnologie gab den Anstoß für die Entwicklung der Mehr-SpeicherTheorie (Bower und Hilgard 1981) im Sinne einer Informationsverarbeitung. Die Abb. 2-6 (w. u.) zeigt die Komponenten der Informationsverarbeitung und, wie daraus zu ersehen ist, werden Begriffe in Orientierung an einem Rechner verwendet, die bereits behandelten Begriffen der Neurobiologie entsprechen. Die Inputeinrichtungen entsprechen den Rezeptoren, die verschiedenen Gedächtnisleistungen sind den verschiedenen Speichern zugeordnet und der zentrale Prozessor (die Recheneinheit) wird analog als Denken und Beurteilen charakterisiert. Wir gehen auf dies Modell insgesamt allerdings nicht im Detail ein, da das Modell für sich hinreichend deutlich sein dürfte. Stattdessen beschränken wir uns auf einige besonders wesentliche Aspekte. Die Reize bewirken nicht direkt Verhalten, sondern sie werden in einem komplizierten Prozess umgestaltet und verändert. Entsprechend der Grundorientierung an der Computertechnologie ist dabei die Rede von „Kodierungen“, „gespeicherte Informationen“, „Abstimmungen mit anderen Informationsteilen“, „Einbau in Strategien“ usf. Die Speicherung bezieht sich dabei auf verschiedene Qualitäten der Verarbeitung.24 In der Forschung wird zwischen einer Wissens-Struktur (Organisation des Wissens) und einer Problemlöse-Struktur (Operationen und Pläne bei Denkabläufen) unterschieden (Weidenmann, a.a.O.). Kritisch muss hier aller-
24
Eine andere kognitive Lerntheorie, nämlich die Mehr-Ebenen-Theorie verzichtet auf unterschiedliche Speicher und geht davon aus, dass es unterschiedliche Verarbeitungstiefen gibt (Craik und Lockhart 1972).
2.2 Lernen als Leitbegriff
67
dings angemerkt werden, dass die Verwendung von Terminologien aus der Computertechnologie weitgehend metaphorisch bleibt, da das Gehirn einerseits noch viel zu wenig im Detail erforscht ist und andererseits in wesentlichen Aspekten gerade nicht nach der Technik eines Computers aufgebaut ist (vgl. Teil 3).
Abbildung 2-6: Komponenten der Informationsverarbeitung (nach Bower und Hilgard 1984, 23425 ergänzt nach Bower und Hilgard 1981, 42226)
Für den Prozess der Informationsverarbeitung ist entscheidend, ob eine Information als relevant angesehen wird oder nicht. Dies setzt zunächst eine entsprechende Aufmerksamkeit voraus und wird eine Information als wichtig bewertet, wird diese weiterverarbeitet. Die Relevanz hängt davon ab, mit wie vielen Assoziationen die neue Information verknüpft werden kann. Entspricht die Information bereits vorhandenen Schemata (siehe unten), lässt sich die Information leichter assimilieren und damit verarbeiten und speichern. Das Thema „Relevanz“ wird uns noch in Teil 3 etwas systematischer und präziser beschäftigen. Hier sind einige Probleme zu nennen: Aufmerksamkeit, Bewertung und Relevanz sind zwar wichtige Elemente, diese sind jedoch noch nicht gänzlich theoretisch wie empirisch geklärt. Aufmerksamkeit kann auf der psychologischen Ebene in Form
25 26
Angelehnt an der Darstellung in Weidemann 1993, 1002. Angelehnt an der Darstellung in Gudjons 1995, 219.
68
2 Theoretische Zusammenhänge
von Interesse, Motivation etc. allgemein beschrieben werden, neurobiologisch müssten vollständigere Erklärungen gefunden werden.27 Die Bewertung entzieht sich praktisch einer genauen Beschreibung durch fehlende Erkenntnisse der Neurobiologie. Es kann nur allgemein gesagt werden, dass ein Reiz durch die Erreichung eines gewissen Potentials – und dadurch die Überschreitung eines Schwellenwertes – als Information weiter geleitet wird, wodurch verschiedene Neuronengruppen und Gehirnareale aktiviert werden; die Kriterien sind jedoch individuell verschieden und daher kaum präzise beschreibbar. Die Relevanz sollte ebenfalls differenzierter betrachtet werden, da die Relevanz einer Information auch die Möglichkeit der Neuorganisation oder der Erweiterung der Wissensstruktur implizieren muss. Auch dies wird in Teil 3 noch einmal systematisch behandelt.28 Ungeachtet dessen, dass die genannten Punkte noch nicht vollständig geklärt sind, ist dieser theoretische Ansatz für die Lehre von großer Bedeutung, wobei hier nur auf einige ausgewählte Aspekte eingegangen wird. Nehmen wir zunächst den „Filter der Sinneskanäle“. Hier ist eine Erinnerung am Platze, dass Informationen über unterschiedliche Sinneskanäle aufgenommen werden. Dies ist eine Begründung dafür, warum in der Lehre der gleichzeitige Gebrauch der wichtigsten verschiedenen Kanäle, nämlich Hören (akustisch), Sehen (visuell) und Schreiben (motorisch) sehr effektiv ist. Ein Lehrender, der laut vorliest, was er gerade anschreibt (es bedarf der Übung) und die Schüler abschreiben lässt, sorgt bereits dafür, dass die Informationen durch unterschiedliche Kanäle aufgenommen werden. Die Wahl der Medien spielt demnach in diesem Kontext eine wichtige Rolle. Wesentlich ist jedoch generell der Aspekt der Zugänglichkeit, der in der bildungstheoretischen Didaktik näher behandelt wird. Um den „Filter“ zu durchbrechen, muss man sich fragen, was dafür verantwortlich ist, dass Informationen ankommen bzw., dass sie nicht ankommen. Der größte Feind ist Desinteresse und die Sätze
27
Einige Hinweise in diesem Kontext geben u. a. Roth und Menzel 2001, die jedoch leider ziemlich vage bleiben. 28 Hier ist ein terminologischer Hinweis – mal wieder – unumgänglich: In der Literatur wird anstelle von „Relevanz“ häufig von „Bedeutung“ gesprochen, um die Wichtigkeit einer Nachricht zu charakterisieren. Damit entstehen fast zwangsläufig Begriffsverwirrungen, da in einer strengen Terminologie – im Grunde schon seit der Antike – die Bedeutung einer Nachricht ihr semantischer Gehalt ist und nicht ihre Wichtigkeit. Wir verwenden deswegen nur den Terminus „Relevanz“, wenn es darum geht, wie wichtig eine Nachricht für den Empfänger ist.
2.2 Lernen als Leitbegriff
69
„das interessiert mich doch nicht“, oder „das brauche ich nie wieder“ sind erste Anzeichen dafür. Die Aufmerksamkeit der Schüler kann nur dadurch geweckt werden (insbesondere in der Pubertätsphase) , wenn das Problem als sehr interessant oder wichtig dargestellt wird. Dies erfolgt, wenn die Lebenswelt (Gegenwartsbedeutung) der Schüler mit einbezogen wird. Nehmen wir wieder ein Beispiel: Um die Grundlagen der Algorithmen zu vermitteln, wird häufig empfohlen, zur Verdeutlichung ein Kochrezept zu verwenden. Die Zugänglichkeit wird dadurch erschwert, dass Teenager, bis auf wenige Ausnahmen, Kochen als etwas betrachten, was für sie nicht in Frage kommt – wozu hat man schließlich Eltern (insbesondere die Mutter) und später eine Ehefrau oder eine Haushaltshilfe. Dazu sind genügend Beispiele vorhanden: Wenn im Französischunterricht erklärt wird, wie Salat Niçoise zuzubereiten ist, ist die Begeisterung in der neunten Klasse schlicht nicht vorhanden (auch wenn vielleicht dieser Salat sehr gut schmeckt). Viele Vokabeln und Redewendungen werden ignoriert. Ein Spanischlehrer der Autorin dagegen hat auf Kochrezepte verzichtet und lieber mit den Schülern spanische politische Lieder gesungen, da diese sich für Politik interessierten. Die Vokabeln wurden wesentlich schneller und effektiver gelernt als dies mit Kochrezepten erfolgt wäre. Kommen wir dennoch zurück zum Kochen und der Vermittlung der Grundstruktur von Algorithmen: Wird den Schülern die wesentlich einfachere Aufgabe gegeben, genau zu formulieren, wie ein Ei gekocht wird, so entspricht dies eher der Lebenswelt der Schüler, denn es kann davon ausgegangen werden, dass Jeder einmal in seinem Leben ein Ei gekocht hat – unbeschadet der Eltern oder Haushaltshilfen. Die Erkenntnisse, die dabei in entsprechenden Seminaren gewonnen wurden, sind mehr als faszinierend, denn es wurde deutlich, wie viele Schritte vergessen werden (z. B. die Kühlschranktür aufzumachen, bevor ein Ei herausgenommen wird), dass auf einige Teile verzichtet werden kann (es ist eine Glaubensfrage, ob man das Ei vorher einsticht oder nicht, eine ökologische Frage oder auch eine Zeitfrage, ob ein Deckel benutzt wird oder nicht) und dass die Reihenfolge bis zu einem gewissen Grad ausgetauscht werden kann (legt man das Ei in den Topf und holt dann erst Wasser oder umgekehrt), in anderen Hinsichten jedoch nicht. Bevor ein Topf mit Wasser gefüllt werden kann, muss er aus dem Schrank geholt werden. Mathematisch ausgedrückt: Es gibt Prozesse, die nicht kommutativ sind. Gerade bei dem Zusammentragen der Ergebnisse kann davon ausgegangen werden (das zeigte zumindest die Erfahrung), dass die Schüler (und Studenten) sehr motiviert sind und die Aufmerksamkeit geweckt wird (selbst wenn einige nichts für das Ei-Kochen übrig hatten). Sie verstehen auf dieser Weise wesentlich mehr von dem Wesen der Algorithmen als wenn diese in einem Frontalunterricht vermittelt werden oder ein etwas abseitiges Rezept verwendet wird, das nicht von Interesse ist.
70
2 Theoretische Zusammenhänge
Diese Lerntheorie verhilft auch zu verstehen, warum mitunter sehr gute Schüler nicht aufpassen. Man könnte auch sagen, je besser ein Lehrer ist und je mehr Interesse ein Schüler für ein Thema zeigt, desto weniger wird er zeitweise aufmerksam den Unterricht verfolgen. Wenn man bedenkt, dass das Gehirn ein dynamisches System ist, so ist nachvollziehbar, dass eine Information, die als sehr interessant einzustufen ist, für unterschiedliche Assoziationen sorgt. Man beschäftigt sich selbstständig mit dem Problem und einer möglichen Lösung. In der Zwischenzeit redet der Lehrer weiter und gibt Erläuterungen, die jedoch nicht wahrgenommen werden. Das Phänomen, dass ein Schüler 10 Minuten, nachdem der Lehrer einen Sachverhalt erklärt hat, eine Frage stellt, die genau in diese Richtung geht, lässt sich dadurch leicht erklären und bedeutet demnach nicht zwangsläufig, dass ein Schüler desinteressiert ist, ganz im Gegenteil. Auch hier wird erneut die Bedeutung der Diskrimination deutlich, denn ein Lehrer sollte unterscheiden können, welchen Hintergrund die Unaufmerksamkeit hat (vgl. dazu Teil 3). Es gibt darüber hinaus unzählige Gründe, die dafür verantwortlich sind, dass die Informationen nicht ankommen und somit den „Filter“ nicht durchbrechen. Es wird häufig vergessen, dass sich Schüler mit Problemen befassen müssen, die sie kaum bewältigen können. Ist ein Elternteil Alkoholiker, besteht plötzlich Arbeitslosigkeit, sind Krankheiten in der Familie vorhanden etc., dann sind das nur wenige Gründe, die dafür verantwortlich sein können, dass die Schüler kein Interesse zeigen. Die genannten Probleme können von Lehrenden nicht gelöst werden (diese sollten auch niemals im Plenum besprochen werden), es bedeutet jedoch, dass ein Lehrender die Inhalte so vermitteln kann, dass die Probleme für kurze Zeit vergessen werden. Ist dies nicht möglich, sollte der Schüler zeitweise in Ruhe gelassen werden, um sich zu sammeln. Jedenfalls wird das Interesse durch unüberlegte Kommentare seitens der Lehrenden nicht geweckt, ganz im Gegenteil. Die generelle Frage, die sich ein Lehrender stellen muss, ist, wie der Unterricht gestaltet werden sollte, so dass die Informationen ins Langzeitgedächtnis überführt werden. Je mehr Assoziationen zu dem bereits Gelernten möglich sind, je mehr positive Erfahrungen gesammelt werden, desto größer ist die Wahrscheinlichkeit, dass die Inhalte verarbeitet und behalten werden. Jeder Lehrende sollte sich fragen, welche Inhalte ihm selbst noch aus seiner Schulzeit präsent sind und insbesondere, was ist der Grund, dass dies der Fall ist. Damit erhält man schon wichtige Hinweise für die eigene Lehre. Abschließend lässt sich festhalten, dass in dieser Lerntheorie das Lernen mit Informationsverarbeitung gekoppelt wird. Durch die Gestalttheorie wird gezeigt, dass zusätzlich noch kognitive Strategien herangezogen werden können, um die Denkprozesse produktiv zu gestalten.
2.2 Lernen als Leitbegriff
71
Gestalttheorie Die Gestalttheorie ist eigentlich eine psychologische Theorie der Wahrnehmung und der Wahrnehmungsverarbeitung. Wie der Name schon suggeriert, steht hier vor allem eine ganzheitliche Wahrnehmung im Zentrum, die gewissermaßen die Wahrnehmung des Waldes vor der Wahrnehmung der Bäume platziert. Obwohl der Begriff der „Ganzheitlichkeit“ häufig sehr schwammig gebraucht wird, handelt es sich bei der Gestalttheorie durchaus um eine wichtige Ergänzung herkömmlicher Erkenntnistheorien, die wir in Teil 3 auch noch einmal streifen werden. Hier jedoch soll es vor allem um bestimmte im Rahmen der Gestalttheorie entwickelte kognitive Strategien gehen. In der Gestalttheorie stehen u. a. das einsichtige Lernen, das produktive Denken (Wertheimer 1964) und die Problemlösestrategien im Zentrum des Interesses (z. B. Edelmann 1995). Wittoch (1975) beschreibt drei Denkformen, die hier näher betrachtet werden, nämlich a) Denken als Beobachtender, b) Denken als Spielender und c) Denken als Handelnder. Diese werden im Folgenden kurz dargestellt. a) Denken als Beobachtender Durch Unstimmigkeiten wird der Beobachter angeregt, sich intensiver mit einem Sachverhalt zu beschäftigen, um neue Merkmale zu entdecken oder durch Neuordnung, Neugliederung, Umzentrierung neue Beziehungen zu entdecken. Im übertragenen Sinne kann sich z. B. die beobachtete Unstimmigkeit durch unterschiedliche Definitionen ergeben, die sich zwar auf dasselbe Problem beziehen aber in unterschiedlichen Disziplinen entwickelt wurden. Nehmen wir als Beispiel den Begriff „Prototyp“. Wir haben diesen Terminus bereits eingeführt im Kontext der Konzeptbildung. In der Informatik wird der Begriff „Prototyp“ im Zusammenhang mit einer Softwareentwicklung verwendet: Dabei handelt es sich um eine Software, die lediglich die wichtigsten Funktionalitäten aufweist, so dass ein erster Eindruck von dem anzufertigenden Produkt entsteht. Wenn nun dieser Begriff in anderen Kontexten gelernt wurde, so entsteht eine Unstimmigkeit hinsichtlich der Bedeutung des Begriffes. Um die Unstimmigkeit zu beheben, sind Strategien notwendig, die das Denken als Spielender erfordern. b) Denken als Spielender Es mag verwundern, dass in diesem Zusammenhang das Denken „als Spielender“ eine besondere Rolle spielt. Spiele sind überwiegend mit Strategien verbunden, die sehr unterschiedlich sein können. Die Strategien zu durchschauen und formal zu erfassen, ist mehr als anspruchsvoll. Vor einigen Jahrzehnten entstand daher die „Spieltheorie“ als wissenschaftliche Disziplin, die unterschiedliche Strategien untersucht und in mathematischen Modellen beschreibt. So ist z. B. die Strategie beim Schach eine ganz andere als bei Go. Die Strategien beim Schach wurden zwischen-
72
2 Theoretische Zusammenhänge
zeitlich sehr gut in Computerprogrammen umgesetzt; da Go eine eher ganzheitliche Wahrnehmung erfordert, ist es noch nicht gelungen, Computerprogramme zu entwickeln, die einen Meister schlagen können. Im Kontext der Gestalttheorie wird das Denken als Spielender wie folgt beschrieben: Der Spieler plant, wie der Verlauf für ihn positiv verlaufen kann. Der Spieler muss sich von der Gegenwart lösen, das Denken kommt vor dem Handeln. Für die Durchführung des Plans sind die Fähigkeiten des Aufschiebens von sofortigem Agieren und Reagieren, sowie das Vorhersehen der natürlichen oder logischen Konsequenzen notwendige Voraussetzungen. Jeder Plan besteht aus Teilplänen, die von Phasen unterbrochen werden und jeweils überprüft werden müssen. Es besteht ein ständiger Wechsel zwischen Produktions- und Prüfphasen. Wittoch (loc. cit.) behandelt zwei Handlungspläne, nämlich den algorithmischen und den heuristischen Handlungsplan, auf die bereits mehrfach hingewiesen wurde. Der algorithmische Handlungsplan ist systematisch, führt sicher zum Ziel, ist aber nicht in jeder Situation anwendbar. Der heuristische Handlungsplan ist unsystematisch (aber nicht im Sinne von chaotisch), er gleicht eher Skizzen, die nur dann hilfreich sind, wenn sie das Charakteristische, das Wesentliche und Typische festhalten. Die zwei Handlungspläne sind problemabhängig. Handelt es sich z. B. bei der beobachteten Unstimmigkeit um neues Wissen, das angeeignet werden muss, dann muss der logische, schrittweise Aufbau der Wissensstrukturen erfolgen (algorithmischer Handlungsplan). Durch Detailwissen können aber Gesamtzusammenhänge verloren gehen. Dieses Verfahren ist allgemein bekannt bei allen Lernprozessen, wo das Wissen systematisch aufeinander aufgebaut werden muss. Sind die Wissenskomponenten bekannt, aber die Unstimmigkeit liegt in der Strukturierung, dann ist der heuristische Handlungsplan zu favorisieren. Dieser Handlungsplan ist sinnvoll, um höhere Lernziele zu erreichen, wie z. B. die Synthese oder, anders ausgedrückt, neue Zusammenhänge oder Beziehungen zu erkennen (die Voraussetzung der u. a. interdisziplinären Denkweise).29 Beide Handlungspläne sind für die Lehre wichtig: Die Sachanalyse beispielsweise sollte algorithmisch erfolgen, um damit sicher zu sein, dass die Inhalte lückenlos
29
Das Lernziel „Synthese“ wird in der Lernzieltaxonomie nach Bloom u. a. (1972) auf der fünften Stufe (von sechs) angesiedelt; wir wiesen darauf bereits in Teil 1 hin.
2.2 Lernen als Leitbegriff
73
aufbereitet wurden. Dieses Verfahren ist zeitaufwendig, ist jedoch für die Erreichung des Ziels absolut notwendig. Diese Vorgehensweise ist jedoch für die Durchführung des Unterrichts nicht sehr gut geeignet. Es würde bedeuten, dass der Frontalunterricht bevorzugt wird, und die Vermittlung so stattfindet, dass ein Lehrender sämtliche mögliche Probleme, die auftreten können, antizipiert und in seinem Unterricht einplant. Das ist weit von der Realität entfernt, da der Unterricht bekanntlich aus mehr besteht als nur aus der Vermittlung der Inhalte. Somit entspricht der tatsächliche – gelungene – Unterrichtsverlauf eher dem heuristischen Handlungsplan. Man hat ein klares Konzept dessen, was vermittelt werden soll, ist jedoch in der Lage, mit den Rückmeldungen der Schüler so umzugehen, dass diese integriert werden können. Dadurch wird das einsichtige Lernen gefördert. Bei den beiden Handlungsplänen kann auch, wie bereits erwähnt, der Bezug zu den Artikulationsschemata von Grell und Roth hergestellt werden (vgl. Teil 1): Grell ist eher zu vergleichen mit dem algorithmischen Handlungsplan, Roth hingegen mit dem heuristischen. Da letzterer sehr viel Erfahrung benötigt, ist er Anfängern nur bedingt zu empfehlen. Der nächste Schritt besteht darin, dass nun das Handeln durchdacht wird. c) Denken als Handelnder Das Denken als Handelnder setzt voraus, dass das Individuum sich der Bedeutung seiner Handlungen bewusst ist und die Verantwortlichkeit dafür übernimmt. In diesem Kontext werden jedoch nur die Faktoren für den Erfolg genannt (Wittoch loc. cit.): x x x x x
Klare Einschätzung der eigenen Fähigkeiten Eigene Anstrengungsbereitschaft Die Kenntnisse verschiedener Leistungsbereiche Die Fähigkeit einer Schwierigkeitseinschätzung und Die Anziehungskraft des Ziels
Für die Lösung eines Problems spielt die Bedeutung der eigenen Handlung demnach ebenfalls eine Rolle. Hier wird jedoch deutlich, dass das Individuum auf der Bewusstseinsebene agieren und über die Fähigkeit der Selbstreflexion verfügen muss. Eine genaue Bewertung der eigenen Fähigkeiten und Kenntnisse ist für die Problemlösung entscheidend. Als Handelnder zu denken ist für den Lehrkontext von besonderer Bedeutung. Es wurde bereits darauf hingewiesen, dass es nicht ganz einfach ist, einzuschätzen, ob die Inhalte verstanden wurden. Oft wird einem dies erst während der Unterrichts bewusst. Daher ist es wichtig, sich selbst bei der Vorbereitung zu hinterfragen, ob die Inhalte verstanden wurden. Eine ganz einfache Strategie besteht darin, mental vor einer imaginären Klasse die Inhalte zu erklären.
74
2 Theoretische Zusammenhänge
Die Frage zu stellen, ob die eigenen Überlegungen hinsichtlich der Methoden oder Beispiele, die man sich für den Unterrichtseinstieg gemacht hat, tatsächlich sinnvoll sind, ist ebenfalls eine wichtige Fähigkeit. Viele Ideen müssen verworfen werden, da sich diese nicht umsetzen lassen oder die Gefahr zu groß ist, dass die Intention nicht verstanden wird. Gerade der Einstieg in eine Unterrichtssituation ist sehr schwierig: Man muss sich überlegen, wie innerhalb kürzester Zeit die Lernenden verstehen, worum es gehen soll, und wie ihre Gedanken in diese Richtung gelenkt werden können. Lehre ist Anstrengung. In einer Veranstaltung an der Universität wurden verschiedene Möglichkeiten aufgezeigt, wie der Unterricht ganz anders gestaltet werden kann. Interessant war der Ausbruch eines Studenten, der laut sagte: „Das ist ja Arbeit“. In der Tat, es ist anstrengend, sich immer wieder zu überlegen, wie Inhalte vermittelt werden können, wie Aufgaben so interessant gestaltet werden können, dass die Lernenden auch sehr viel Spaß beim Lernen empfinden. Es ist aber eine Arbeit, die sich lohnt, denn es ist nicht nur die eigene Befriedigung, wenn die Lehre sehr gut verläuft, die Lernenden sind dankbar und behalten wesentlich mehr, wenn der Unterricht in einer besonderen Art gestaltet wird. Diese drei Denkformen sind demnach hilfreich, um je nach Situation die geeignete Strategie zu wählen, die auch den Schülern vermittelt werden sollte. Die Lernenden sollten damit vertraut gemacht werden, wann sie eher algorithmisch und wann sie eher heuristisch bei der Eineignung des Wissens vorgehen sollten.
Eine konstruktivistische Lerntheorie: Die Konstruktion kognitiver Schemata Zum Abschluss der Betrachtung kognitiver Ansätze ist es unumgänglich, auf die Begrifflichkeiten Assimilation, Akkommodation und Äquilibration einzugehen. Piaget prägte diese Begriffe und die von ihm entwickelte Theorie wird oftmals zu den konstruktivistischen gezählt. Schulmeister begründet diese Zuordnung wie folgt: „Konstruktivistisch an Piagets Theorie ist die Vorstellung, dass ein Individuum die kognitiven Konzepte selbst generiert, dass das Individuum Wissen nur im Austausch mit der Umwelt erwirbt und das die Austauschprozesse nur temporär ein Äquilibrium erreichen, so dass Assimilation und Akkommodation die Entwicklung der Kognition beim Individuum stets vorantreiben.“ (Schulmeister 1996, 67) Bevor wir auf diese Begriffe näher eingehen, müssen noch einige zusätzliche Bemerkungen gemacht werden. Häufig wurde (und wird) bei der Darstellung und Rezeption der Piagetschen Theorie der Schwerpunkt auf das berühmte Phasenbzw. Stufenmodell der kognitiven Entwicklung gelegt; wie wiesen in Teil 1 schon kurz darauf hin. Piaget differenziert den Entwicklungsprozess bekanntlich in vier Phasen, nämlich die sensomotorische, die präoperationale, die konkret-operationale sowie die formal-operationale Phase. Der Begriff „operational“ verweist bereits darauf,
2.2 Lernen als Leitbegriff
75
dass für Piaget Erkennen ein aktiver Prozess ist, der aus „Operationen“ besteht – so wie es im obigen Zitat auch ausgedrückt wird. Die sensomotirsche Phase ist die früheste, in der das Kleinkind ohne steuerndes Bewusstsein seine Umgebung „sinnlich“, also über seine Sinneseindrücke, und motorisch, nämlich über das Einüben der wichtigsten Bewegungsabläufe erfährt und aktiv erkundet. Die präoperationale Phase ist der Beginn der kognitiven Weltaneignung. Hier werden gesteuerte Bewegungsabläufe trainiert und es werden die ersten kognitiven Schemata (s. u.) entwickelt, die ein strukturiertes Verständnis der Umwelt ermöglichen. Allerdings sind auf dieser Ebene noch keine komplexen kognitiven Prozesse möglich und das Kind ist ständig auf seine unmittelbaren sinnlichen Wahrnehmungen angewiesen. In der konkret-operationalen Phase werden komplexere Handlungspläne entwickelt und es entwickelt sich ein bewusstes Verständnis von Kausalprozessen, also dem Zusammenwirken von Ursache und Wirkung. Ebenso können Symbole wie Wörter und Zahlen verstanden werden, deren Verständnis jedoch immer noch an konkrete Vorstellungen (daher der Name der Phase) gebunden sind. Ein Zahlbegriff wie „fünf“ beispielsweise ist nur durch die Assoziation mit einer Menge von fünf konkret vorstellbaren Gegenständen erfassbar. Allerdings brauchen diese Gegenstände nicht mehr konkret wahrgenommen zu werden sondern es reicht, sich diese vorzustellen. In der formal-operationalen Phase schließlich endet der Entwicklungsprozess in dem Sinne, dass jetzt alle kognitiven Fähigkeiten vorhanden sind, um im Prinzip beliebig abstrakte Sachverhalte erfassen und bearbeiten zu können. Symbole können jetzt als verschieden von den Objekten erkannt werden, die durch die Symbole repräsentiert werden; Operationen mit Zahlen setzen jetzt keine konkreten Vorstellungen mehr voraus und insbesondere bildet sich die Fähigkeit zum „hypothetisch-deduktiven“ Denken heraus. Damit ist gemeint, dass der Lernende sich Vorstellungen darüber machen kann, wie etwas sein könnte, ohne dass es unmittelbar wahrnehmbar oder tatsächlich der Fall ist, und dass aus diesen Hypothesen Konsequenzen abgeleitet werden. Natürlich geht der kognitive Entwicklungsprozess noch inhaltlich weiter, aber strukturell ist er abgeschlossen. Wir gehen auf dies Stufenmodell nicht weiter ein, sondern verweisen nur darauf, dass die zeitliche Einordnung von Piaget teilweise umstritten ist. Außerdem ist nicht geklärt, ob es sich um klar abgrenzbare Stufen oder um fließende kontinuierliche Entwicklungsprozesse handelt, die lediglich analytisch in Stufen eingeteilt werden können. Für uns sind die Komponenten der Piagetschen Theorie wesentlich, die sich mit kognitiven Schemata und den drei wichtigsten Mechanismen der Entwicklung beschäftigen. Piaget (1972) liegt durch seine Beschreibungen der kognitiven Schemata sehr nahe an bestimmten neurobiologischen Erkenntnissen (Piaget hatte u. a. auch Biologie
76
2 Theoretische Zusammenhänge
studiert). Die Assimilation bedeutet, dass die Informationen aus der Umwelt den vorhandenen kognitiven Schemata angepasst werden. Die Assimilation der Situationen, gemessen an Regeln, Verhaltensweisen etc., ist eine Voraussetzung, um nicht ständig die Umwelt „neu“ zu lernen. Ein Individuum kann durch die Assimilation der Situation bzw. des Problems bereits vorhandene Verhaltensstrategien anwenden – das lässt sich auch mit der Generalisierung vergleichen. Würde ein Individuum jedoch nur assimilieren, könnten keine neuen Wissenskomponenten hinzukommen bzw. keine Neustrukturierung erfolgen. Dafür ist der Prozess der Akkommodation entscheidend, wobei im Gegensatz zur Assimilation die kognitiven Schemata an die Umwelt angepasst werden, nämlich durch Neuordnung oder Erweiterung des Schemas. Durch diese Prozesse vollbringt ein Individuum eine intellektuelle Adaptation. Die Akkommodation setzt die Fähigkeit der Diskrimination voraus: In der Bewertungsphase (durch Aufmerksamkeit) muss „erkannt“ werden (bewusst oder unbewusst), dass die Informationen aus der Umwelt neu sind und die vorhandenen Schemata modifiziert werden müssen. Im Alltag kommt es bereits in Unterhaltungen vor, dass man glaubt zu wissen, was ein Gesprächspartner sagen möchte. In diesem Moment hat man bereits assimiliert und die Wahrscheinlichkeit, dass nicht richtig zugehört wird, ist sehr groß. Im Lehrkontext passiert dies ebenfalls sehr häufig. Die Lernenden haben den Eindruck, dass sie die Inhalte kennen und die Gedanken schweifen entsprechend ab; das passiert insbesondere bei Wiederholungen in der letzten Stunde bzw. generell des bereits Gelernten. Diese Erkenntnis macht deutlich, warum ein Lehrender explizit darauf verweisen muss, dass und wann etwas Neues vermittelt wird. Werden die Erkenntnisse aus der Gestalttheorie herangezogen, so ist zu bedenken, wie die Aufmerksamkeit auf Unstimmigkeiten gelenkt werden kann, wodurch der Prozess der Akkommodation aktiviert wird. Von diesem Ansatz kann man auch lernen, dass eine gewisse Zeit gegeben werden muss, um den Prozess der Äquilibration, der Erlangung eines kognitiven Gleichgewichts, zu ermöglichen. Finden nämlich ständig Prozesse der Assimilation und Akkommodation statt, kann das dadurch Gelernte streng genommen nicht dauerhaft verarbeitet werden. Es bedarf also einer Phase des Gleichgewichts zwischen dem kognitiven System sowie dessen entwickelten kognitiven Schemata einerseits und der entsprechenden Umwelt andererseits. Nur dann kann gewissermaßen in Ruhe geprüft werden, ob erneute Prozesse der Akkommodation erforderlich sind oder ob die Schemata hinreichend dafür sind, die Umwelterfahrungen zu assimilieren. Praktisch heißt dies, dass regelmäßig Ruhephasen entstehen müssen, in denen das Gelernte eingeordnet werden kann.
2.2 Lernen als Leitbegriff
77
Dieser Ansatz macht ebenfalls deutlich, dass reichlich Zeit eingeplant werden muss, wenn ein Thema behandelt wird, das für die Schüler völlig neu ist bzw. das ihnen völlig neu erscheint. Haben sie nicht die Möglichkeit an bereits gelernten Inhalten anzuknüpfen, muss ein neues kognitives Schema entwickelt werden – und dies ist nicht möglich innerhalb kurzer Zeit. Hier wird erneut deutlich, warum die Anknüpfung an bereits Bekanntem so wichtig ist und dass hier auch die Lebenswelt der Schüler eine wichtige Rolle spielen kann. Sie haben dann zumindest einen Anknüpfungspunkt. Nehmen wir wieder ein Beispiel: Die Schüler werden zum ersten Mal mit dem Thema „Algorithmus“ konfrontiert und es kommen folgende Definitionen, ohne weitere Erläuterungen oder Einführungen: „Ein Algorithmus ist eine Verarbeitungsvorschrift ...“ (Duden Informatik 2006, 39) Weiter heißt es: „Ein Algorithmus gibt an, wie Eingabedaten schrittweise in Ausgabedaten umgewandelt werden. Er beschreibt also eine Abbildung f: E -> A von der Menge der zulässigen Eingabedaten E in die Menge der Ausgabedaten A. Aber nicht jede Abbildung f: E -> A lässt sich durch einen Algorithmus realisieren.“ (a.a.O. 39) Was können die Schüler hier assimilieren? Das ist höchstens bei den Begriffen der Eingabe- und Ausgabedaten möglich. Sollten sie die notwendigen mathematischen Kenntnisse in Bezug auf „Abbildungen“ nicht parat haben (und das dürfte leider ziemlich wahrscheinlich sein), sind sie hoffnungslos überfordert, da sie „Abbildungen“ nicht auf Eingabe- und Ausgabedaten beziehen können. Sind die Definitionen einer Abbildung aus der Mathematik vorhanden, so müssen diese auf einen neuen Kontext, nämlich den der Algorithmen, transferiert werden (Generalisierung). Damit wird auch das kognitive Schema hinsichtlich Abbildungen erweitert bzw. modifiziert. Übrigens wäre eine gemeinsame Behandlung mit Kollegen aus der Mathematik hier sicher eine lohnende interdisziplinäre Unterrichtsmöglichkeit. Wird hingegen die Verarbeitungsvorschrift zunächst durch die Aufgabe vermittelt, wie ein Ei gekocht wird, haben die Schüler eine sehr konkrete Vorstellung von Verarbeitungsvorschrift und können dann leichter das darauf aufbauende Wissen aufnehmen und dadurch ihr kognitives Schema modifizieren. Insbesondere kann auch gezeigt werden, inwiefern es möglich und sinnvoll ist, den Prozess vom Anfang an bis zum Ende mathematisch tatsächlich als eine Abbildung vom rohen Ei im Kühlschrank bis zum gekochten Ei im Eierbecher aufzufassen; damit wäre dieser Begriff sehr eingängig definiert. Diese Gedanken sollen jetzt durch die Simulation einiger Akkommodations- und Assimilationsprozesse präzisiert und auch konkretisiert werden. Dabei werden wir noch einmal auf Assimilation und Akkommodation zu sprechen kommen, da, wie häufig bei der Konstruktion formaler Modelle, auch hier einige Präzisierungen zum bisher Gesagten notwendig sind.
78
2 Theoretische Zusammenhänge
Assimilation und Akkommodation: Ein Netzwerkmodell Das Piagetsche Lernmodell lässt sich als die klassische Antithese zur Standardversion des Behaviorismus begreifen; damit soll die Bedeutung der kognitiven Lerntheorien nicht geleugnet werden, aber die Piagetsche Theorie hat mit Abstand am meisten Wirkung gehabt. Der Behaviorismus beschränkte sich, wie bemerkt, aus methodischen Gründen auf die beobachtbaren Stimulus-Response Mechanismen und erklärte die Abläufe „zwischen“ Reiz und Reaktion zur „Black Box“, also einem System, über das keine wissenschaftlich seriösen Aussagen gemacht werden können. Wir haben zwar gezeigt, dass es mit Hilfe geeigneter Computermodelle durchaus möglich ist, diese Black Boxes sozusagen durchsichtig zu machen, also wissenschaftlich fundierte Aussagen über deren innere Logik zu machen, aber damit gehen wir wesentlich über die Standardannahmen des Behaviorismus hinaus. Dem stellte Piaget seine hypothetisch-theoretischen Annahmen über die internen Mechanismen der Akkommodation und Assimilation gegenüber; natürlich musste Piaget, der seine Theorien als empirische verstand, ebenfalls auf die Logik von Reiz und Reaktion eingehen, aber er bezog sich explizit auf Annahmen über systemimmanente Prozesse. Dabei geht es, wie gezeigt, um die Überlegung, dass im Prozess der Akkommodation kognitive Schemata aufgebaut werden, in die anschließend im Prozess der Assimilation konkrete Wahrnehmungen integriert werden. Anders gesagt, Wahrnehmungen erhalten erst dadurch einen Sinn für den Wahrnehmenden, dass sie zu einem Schema in Verbindung gebracht werden können.30 Obwohl Piaget in seinen Arbeiten nach Präzision und Exaktheit strebte, blieben einige Grundannahmen und Begriffe notgedrungen häufig informell und zuweilen metaphorisch. Man kann jedoch mit Hilfe eines von uns entwickelten neuen neuronalen Netzwerkes sehr gut demonstrieren, wie man sich die wesentlichen Aspekte der Piagetschen Theorie in einer durchaus präzisen Weise verständlich machen kann. Das Netzwerk selbst wird in Teil 3 detaillierter geschildert, so dass hier eine Skizze genügen kann. Vorher jedoch ist es nützlich, sich über den Piagetschen Begriff des kognitiven Schemas etwas zusätzliche Klarheit zu verschaffen. Bei der Wahrnehmung eines Objektes, z. B. eines Hundes, sind natürlich vor allem die Eigenschaften wesentlich, durch die das Objekt charakterisiert wird, Streng genommen wird also ein Hund wahrgenommen als die Gesamtheit seiner Eigen-
30
Für Kenner der bzw. Interessenten an der klassischen Philosophie sei nur soviel angemerkt, dass Piaget sich zu diesem Grundgedanken von der Erkenntnistheorie Kants inspirieren ließ.
2.2 Lernen als Leitbegriff
79
schaften wie etwa „vier Beine“, „bellen“, „Fell“, „mittelgroß“ etc. Damit die Wahrnehmung „Hund“ als solche sinnvoll aufgefasst werden kann, bedarf es eines entsprechenden Schemas „Hundschem“, das die erwähnte Einordnungsleistung der Wahrnehmung dadurch leistet, dass es selbst schon alle oder doch die meisten entsprechenden Eigenschaften enthält. Man kann auch sagen, dass die Einordnung in das Schema dadurch möglich ist, dass beim Aufbau des Schemas – Akkommodation – für die wahrgenommenen Objekte die entsprechenden Eigenschaften als Attribute von Objekten in das Schema eingefügt werden; bei der Assimilation werden dann die Wahrnehmungen der Eigenschaften den entsprechenden Attributen zugeordnet, so dass die Wahrnehmung insgesamt in das Schema integriert werden kann.31 Die Integration einer Wahrnehmung orientiert sich demnach daran, zu welcher Menge von Attributen in einem Schema die Menge der wahrgenommen Eigenschaften am besten passt. Das Schema, das die Wahrnehmung zu integrieren hat, wird dadurch gewissermaßen mengentheoretisch bestimmt, nämlich dadurch, bei welchem Schema der Durchschnitt der Attribute zu der Menge der wahrgenommenen Eigenschaften am größten ist. Das Modell, das wir im Folgenden vorstellen, basiert auf dieser Grundüberlegung. Es handelt sich um ein von uns neu entwickeltes neuronales Netz – ein sog. Self Enforcing Network (SEN) – und es wird hier nur in seiner allgemeinen Funktionsweise skizziert. Die inhaltliche Basis für ein SEN ist eine sog. semantische Matrix, in der schematisch die Beziehungen von Attributen bzw. Eigenschaften zu bestimmten Objekten dargestellt werden. Das hat formale Ähnlichkeiten zu einer sog. Soziomatrix, mit denen unsere Programme zur Analyse von Gruppendynamiken arbeiten (vgl. 2.4.4). An einem einfachen Beispiel soll dies illustriert werden, nämlich anhand der Klassifikation von verschiedenen Tieren: Fell fr. Fleisch fr. Pflanzen Feder Hund
1
1
0
0 1
Huhn
0
0
1
Katze
1
1
0
0
Adler
0
1
0
1
Eine 1 in der Matrix bedeutet, dass das entsprechende Attribut – z. B. Fell – dem Objekt – z. B. Hund – zukommt und eine 0, dass dies nicht der Fall ist. Es handelt sich um eine formale Repräsentation der Zuordnung von Eigenschaften wahrgenommener Objekte zu diesen Objekten, auch wenn wir natürlich nicht behaupten
31
Da wir hier terminologisch zwischen den wahrgenommenen Eigenschaften der wahrgenommenen Objekte einerseits und den entsprechenden Komponenten im Schema andererseits unterscheiden müssen, sprechen wir im ersten Fall von Eigenschaften und im zweiten Fall von Attributen.
80
2 Theoretische Zusammenhänge
wollen, dass beispielsweise im Gehirn derartige Zuordnungen in Form von Matrizen existieren. Dazu bedarf es etwas anderer Darstellungen (vgl. Teil 3). Das eigentliche Netzwerk eines SEN besteht aus künstlichen Einheiten, die einerseits die Objekte und andererseits die Attribute repräsentieren, in unserem Beispiel also aus acht Einheiten, den sog. Neuronen. Diese sind durch „gewichtete“ Verbindungen miteinander verknüpft; „gewichtet“ heißt, dass jede Verbindung durch einen numerischen Wert charakterisiert ist, die die Signale zwischen den Einheiten modifizieren. Die entsprechenden Gewichtswerte werden wieder in einer Matrix dargestellt, der sog. Gewichtsmatrix. Eine „Lernregel“ überführt nun die Werte der semantischen Matrix in die Gewichtsmatrix; diese Lernregel ist das formale Pendant zum Akkommodationsprozess. Auszugsweise sieht dies für unser Beispiel nach dem ersten Lernschritt so aus:
Hund Huhn Katze
Fell Feder Fleisch 0.1 0.0 0.1 0.0 0.1 0.0 0.1 0.0 0.1
Beim Start einer Simulation werden nun bestimmte Einheiten „extern aktiviert“, d. h. sie werden mit numerischen Werten zwischen 0 und 1 versehen. Das Netzwerk durchläuft dann eine Folge von Zuständen, die durch numerische Werte in den Neuronen, die „Aktivierungswerte“, repräsentiert werden. Am Ende ergibt sich gewöhnlich ein stabiler Endzustand, der eine Ordnung der Objekte gemäß ihren Ähnlichkeiten zueinander, bezogen auf die Attribute ergibt. Dies Ergebnis wird visualisiert, indem die Objekte auf einer Ebene platziert werden; geometrische Nähe bedeutet dann Ähnlichkeit, größere Distanzen repräsentieren entsprechende Unähnlichkeiten. Die Simulation von Akkommodationen verläuft also in unserem Modell derart, dass auf der Basis einer semantischen Matrix das System ein Netzwerk aufbaut und gleichzeitig eine Liste von Vektoren als Eingabe erhält, von denen jeder die Attribute eines bestimmten Objekts repräsentiert. Aufgabe der Netzwerkoperationen ist es dann, bei der Eingabe eines neuen Objekts mit den entsprechenden Attributen zu bestimmen, welches der bereits vorhandenen Objekte dem neuen Objekt am ähnlichsten ist, welches am zweitähnlichsten usf. Dieser Zuordnungsprozess repräsentiert den Prozess der Assimilation, da die neue Eingabe als formale Repräsentation einer neuen Wahrnehmung jetzt einem bereits vorhandenen Objekt zugeordnet wird. Dies kann bedeuten, dass eine Eingabe „Katze“ dem vorhandenen Objekt „Hund“ als dem „Katze“ ähnlichsten Objekt zugeordnet wird; es kann auch bedeuten, dass eine Eingabe „Dackel“ dem Objekt „Hund“ zugeordnet wird. Im ersten Fall haben wir dann eine Gruppierung nach Ähnlichkeiten; im zweiten
2.2 Lernen als Leitbegriff
81
Fall handelt es sich um die Einordnung von Einzelwahrnehmungen in eine Oberkategorie. „Assimilation“ kann also logisch zweierlei bedeuten; für die Logik des Netzwerks ist es natürlich irrelevant, welche Bedeutung von Assimilation gemeint ist.32 Als Beispiele für die Operationen des SEN, mit dem sich Assimilation und Akkommodation sehr illustrativ darstellen lassen, konstruierten wir eine semantische Matrix mit den Attributen von insgesamt 12 Tieren mit jeweils 12 Attributen. (Es ist nebenbei gesagt nicht zwangsläufig so, dass immer eine gleiche Anzahl von Objekten und Attributen vorliegen muss, dass also die semantische Matrix immer quadratisch ist.) Als Tiere wählten wir Hund, Katze, Pferd, Huhn, Hase, (Haus)Kaninchen, Fisch, Ente, Frosch, Adler, Reh und Kuh. Die Attribute waren „frisst Fleisch“ (abgekürzt „Fleisch“), „bellt“, „Haustier“, „fliegt“, „(hat) Federn“, „vier Beine“, „(frisst) Pflanzen“, (hat) Fell)“, „schwimmt“, (hat) Flossen)“, „(bekommt) lebendige Junge“ und „säugt“. Die semantische Matrix zeigen wir hier nicht, da sich wohl jeder Leser diese mühelos vorstellen kann. Mit der Transformation der Werte der semantischen Matrix in die entsprechende Gewichtsmatrix ist dann – vorerst – der Akkommodationsprozess für diese Tiere abgeschlossen. Assimilationsprozesse werden dadurch simuliert, dass dem SEN verschiedene Eingaben in Form von Attributvektoren gegeben werden, die das SEN auf dem Visualisierungsgitter platziert.33 Eine beispielhafte Eingabe ist „Dackel“. In Abb. 2-7 ist zu sehen, dass das SEN die Eingabe in die unmittelbare Nähe von „Hund“ platziert; die Assimilation ist in diesem Fall eine Subsumierung einer konkreten Wahrnehmung unter eine Oberkategorie. Beim zweiten Fall findet eine Assimilation der Wahrnehmung „Delphin“ statt, wobei hier angenommen wird, dass es sich um eine wahrnehmende Person handelt, die fälschlich annimmt, dass Delphine Fische sind – z. B. ein Kind, das die TVSerie „Flipper“ sieht oder eine Delphinschau in einem Zoo. Entsprechend wird der Attributsvektor gebildet und das SEN assimiliert folgerichtig die neue Eingabe zur Oberkategorie „Fisch“.
32
Da wir hier nur noch von dem Netzwerk und dessen Bestandteilen sprechen, verzichten wir auf die Unterscheidung zwischen der Wahrnehmung „Hund“ und dem Schema „Hundschem“ und sprechen nur noch von „Hund“. Auf die beiden erwähnten Bedeutungen von Assimilation werden wir übrigens in Teil 3 unter dem Stichwort „Generalisierung“ noch näher eingehen. 33 Attributvektoren sind binär codierte Vektoren, deren Komponenten den jeweiligen Werten in der semantischen Matrix entsprechen.
82
2 Theoretische Zusammenhänge
Abbildung 2-7: Assimilation der Wahrnehmung „Dackel“
Abbildung 2-8: Falsche Assimilation von „Delphin“
2.2 Lernen als Leitbegriff
83
Wenn man jetzt weiter annimmt, dass das Kind bei dieser Assimilation durch seine Umwelt korrigiert wird, insbesondere durch den Verweis auf den Unterschied zwischen Fischen und Säugetieren, wird der Attributsvektor durch Akkommodation ebenfalls korrigiert und erneut eingegeben. Das jetzt korrekte Ergebnis zeigt Abb. 2-9:
Abbildung 2-9: Korrigierte Assimilation der Wahrnehmung „Delphin“
Man kann aus dieser Abbildung erkennen, dass „Delphin“ zwar immer noch in der Nähe von „Fisch“ ist, aber deutlich weiter entfernt als in der ersten Abbildung. Das entspricht durchaus menschlichen Assimilationsprozessen, wenn die entsprechenden Personen zwar wissen, dass Delphine keine Fische sind, aber die unverkennbare größere äußere Ähnlichkeit von Delphinen mit Fischen im Vergleich zu der Ähnlichkeit mit Hunden bei der Einordnung berücksichtigen. Diese Beispiele zeigen, wie Akkommodations- und Assimilationsprozesse in präzisen formalen Modellen verdeutlicht werden können. Insbesondere ist zu erkennen, dass die Rekonstruktion von derart komplexen Prozessen in Simulationsmodellen dazu zwingt, sich auch Mehrdeutigkeiten bei bestimmten Begriffen – hier vor allem Assimilation – bewusst zu machen, die bei rein verbalen Darstellungen nicht wesentlich sind. Die Bildung neuer Kategorien durch Akkommodation und die anschließende Assimilation von neuen Wahrnehmungen in und zu diesen Kategorien ist einer der fundamentalen Prozesse der menschlichen kognitiven Entwicklung. Wir werden deshalb auch in weiteren Beispielen in diesem Teil und in Teil 3 darauf zurückkommen.
84
2 Theoretische Zusammenhänge
Damit ist die Behandlung der Theorie von Piaget abgeschlossen. Es soll jedoch nicht unerwähnt bleiben, dass diese Theorie als eine der wichtigsten Leistungen für die Analyse kognitiver Entwicklungsprozesse angesehen werden muss. Als letzte Lerntheorie soll nun aufgrund ihrer Bedeutung für den Lehr-Lern-Kontext auf das soziale Lernen eingegangen werden.
Soziale Lerntheorie – Lernen am Modell Bandura (1971) entwickelte eine Lerntheorie, die Elemente der Reiz-ReaktionsTheorie mit Elementen der kognitiven Theorie verbindet und daher auch als eklektische Theorie bezeichnet wird (Weidenmann 1993). Das Zentrale an Banduras Theorie ist das Beobachtungslernen oder Lernen am Modell, das in vier Phasen differenziert wird: (a) (b) (c) (d)
Aufmerksamkeitszuwendung Behaltensphase Reproduktionsphase motivationale Phase
In der ersten Phase (a) richtet sich die Aufmerksamkeit des Beobachters auf das Modell. Das Modell muss über bestimmte Merkmale verfügen, wie Ansehen, Macht etc. oder es kann dem Bild entsprechen, wie ein Individuum selbst gerne sein möchte. Für soziale Kontexte bedeutet dies, dass jeder ein Modell für andere sein kann, ohne zu wissen, welche Merkmale gerade als Modell dienen. In der zweiten Phase wird das Beobachtete behalten (gespeichert) und Bandura ging davon aus, dass in dieser Phase das Lernen bereits stattgefunden hat. Die weiteren Phasen beziehen sich auf die Reproduktion des Verhaltens. So wird in der dritten Phase (c) das Verhalten reproduziert, wobei die Reproduktion nicht unbedingt vor anderen Personen geschehen muss. In der letzten Phase entscheidet sich schließlich (Bewertung), ob das Verhalten beibehalten wird oder nicht. Entscheidend bei dieser Theorie ist, dass Bandura explizit von einer intrinsischen Motivation ausgeht. Hier bekommt die Verstärkung (reinforcement) eine zusätzliche Bedeutung, da das Individuum sein Verhalten selbst steuern kann, durch Selbstbekräftigung oder Selbstzufriedenheit.34
34
Die Lerntheorie Banduras lässt sich auch in die Informationstheorie integrieren, wenn es darum geht, die symbolische Repräsentation der Umwelt zu erklären (vgl. Weidenmann 1993).
2.2 Lernen als Leitbegriff
85
Diese Lerntheorie wird häufig im Kontext der Imitation vermittelt und insbesondere die Nachahmung von Gewalt wird durch das Lernen am Modell thematisiert. Dies ist natürlich ein sehr wichtiger Punkt, denn die Gewalt in Schulen ist leider Bestandteil der Realität. Dieser Ansatz bedeutet jedoch wesentlich mehr: Ein Lehrer ist immer ein Modell, gewollt oder ungewollt. Wir haben es in der langjährigen Praxis häufig und auf eine sehr unterschiedliche Art erlebt, wie die Schüler oder Studierenden uns nachgeahmt haben. Die Autorin hat es selbst erfahren, dass sich die Mädchen in einer ähnlichen Art und Weise kleideten wie sie; der Autor hat es erlebt, wie Studierende versucht haben, ihre eigenen Gedanken in einer dem Autor typischen Art darzustellen, z. B. mit Bezügen zu Latein (leider machten die Studierenden Fehler bei den Deklinationen der Substantive und den Konjugationen der Verben). Die Frage ist nur, ob es das ist, was Lehrende möchten. Natürlich ist es der Wunsch eines jeden engagierten Lehrers, dass die Schüler die eigenen Überzeugungen als Modell sehen, die Anstrengungsbereitschaft sowie die Leidenschaft für die Wissenschaft oder für die Inhalte. Das ist jedoch nicht steuerbar. Nur indem ein Lehrender sehr konsequent ist und für die Schüler in mehrfacher Hinsicht ein Modell ist (bezogen auf die soziale wie inhaltliche Dimension), kann bei einigen erreicht werden, dass man als Modell dient in dem Sinne, den man selbst wünscht. Leider ist dies nicht immer der Fall, denn der Wunsch, in einer bestimmten Hinsicht ein Modell zu sein, geht nicht immer in Erfüllung. Die Anstrengungen der Autorin beispielsweise, durch ihr eigenes Vorbild Mädchen für das Fach Informatik zu begeistern, sind leider gescheitert. Die Mädchen, wie schon erwähnt, zogen sich lieber an wie die Autorin, die Vorliebe für Informatik konnten (oder wollten) sie jedoch nicht entwickeln. Die Tatsache, dass Lehrende als positives wie auch als negatives Modell dienen, soll deutlich machen, dass sich Lehrende zunächst bewusst sein sollten, wie sie selbst auf andere wirken und dass eine einschätzbare und konsequente Haltung entscheidend ist. Ein Lehrer, der sein Fach mit Begeisterung vermittelt, kann als Modell dienen, auch hinsichtlich der Einsicht, dass man sich mit Themen befassen muss, die einem nicht liegen oder die nur schwierig zu verstehen sind. Wir wollen die Theorie Banduras an einem sehr konkreten und realen Beispiel verdeutlichen, aus dem hervorgeht, dass Lernen am Modell natürlich nicht nur in schulischen Kontexten vor sich geht. Man kann sogar annehmen, dass Modelle ein ganz zentraler Faktor für die jugendliche Sozialisation sind (s. u.). Wir haben für diese ziemlich melancholische Geschichte ebenfalls ein Simulationsmodell konstruiert.
86
2 Theoretische Zusammenhänge
Simulation eines Sozialisationsprozesses durch Lernen am Modell: Die Geschichte von Tom „Die Geschichte von Tom“ ist die Rekonstruktion eines realen Sozialisationsprozesses, den wir theoretisch mit Hilfe der behandelten Theorie des Lernens am Modell von Bandura erklären. Diese Theorie besagt ja, wie bemerkt, dass soziale Weltbilder und soziale Verhaltensweisen vor allem dadurch entstehen, dass besonders wichtige Bezugspersonen zum „Modell“ für die eigene Entwicklung genommen werden; man kann hier mit einem Begriff von Berger und Luckmann (1977) von einem „signifikanten Anderen“ sprechen. Dabei bedeutet „Modell“ nicht unbedingt, dass die als Modell fungierende Person als ein positives Vorbild genommen wird. Es kann auch bedeuten, dass eine Bezugsperson als ein negatives Beispiel fungiert in dem Sinne, dass man vermeiden will, so zu werden bzw. zu sein wie das (negative) Modell. In dem folgenden Fall treten, so unsere theoretische Hypothese, sowohl positive als auch negative Modelle auf. Bei „Tom“, dessen tatsächlicher Name natürlich anders lautet, handelt es sich um einen männlichen Jugendlichen von ca. 17 Jahren, der in einem Heim für verhaltensauffällige Jugendliche untergebracht war. Seine von ihm selbst erzählte Geschichte wurde durch ein strukturiertes Interview im Rahmen eines unserer Seminare zu Methoden der interpretativen Sozialforschung erhoben; dies Seminar fand im Sommersemester 2002 statt, so dass Tom mittlerweile (2011) etwa 26 Jahre alt sein dürfte. Über seinen weiteren Lebenslauf ist uns leider nichts bekannt. Tom stammt aus einer Arbeiterfamilie im Ruhrgebiet; er hat noch zwei jüngere Schwestern, die bei der Mutter leben. Der Vater, ein angelernter Hilfsarbeiter, hat die Familie vor einigen Jahren verlassen und lebt in Süddeutschland; er hat keinen Kontakt mehr zu der Familie. Die Mutter arbeitet als Putzfrau und bezieht Unterstützung vom Sozialamt. Da die Mutter mit Tom nicht mehr fertig wurde und Tom mehrfach durch aggressives Verhalten aufgefallen war, wurde er in das besagte Heim eingewiesen. Aus dem Interview geht nicht klar hervor, inwiefern er noch regelmäßigen Kontakt zu seiner Mutter und seinen Schwestern hat. Neben seinen Sozialkontakten im Heim ist Tom Mitglied einer Hooligan-Gruppe, also einer Gruppe von männlichen Jugendlichen, die sich durch ein hohes Maß an Gewaltbereitschaft charakterisieren lassen und gewöhnlich in mehr oder weniger lockerer Form zur Fanszene eines regionalen Fußballvereins zählen.35 Soweit wir wissen, hat Tom keinen Schulabschluss; umso bemerkenswerter ist die differenzierte sprachliche Selbstdarstellung, über die er verfügt. Zur Illustration geben wir einige
35
Mittlerweile würde man diese Gruppen wohl eher als „Ultras“ bezeichnen.
2.2 Lernen als Leitbegriff
87
sprachliche Beispiele; weitere Einzelheiten können in Klüver et al. 2006 nachgelesen werden. Toms Weltbild ist sehr klar dichotomisch gegliedert: Es gibt die Starken und die Schwachen und er selbst will – natürlich – zu den Starken gehören: Tom: „Tja, Ellenbogen, halt so ellenbogenmäßig, sich durchsetzen, zeigen, dass man der Stärkere ist. Nur so kannst Du was erreichen. Entweder körperlich oder psychomäßig.“ Interviewer: „Was meinst Du mit körperlich oder psychomäßig ?“ Tom: „Ja, guck ma, Du kannst einen körperlich fertig machen und so zeigen, dass Du der Chef bist oder Du machst den halt durch so miese Psychotricks fertig. Beim körperlichen Fertigmachen haust Du den Typ einfach weg, bei den Psychotricks treibst du den halt so weit bis er heult und aufgibt. Das klappt besonders gut bei den Weibern ...“ Tom: „Also, da muss man immer zeigen, dass man Chef im Ring ist. Die Weiber stehen ja auch voll drauf, die wollen keine Weicheier und Ja-Sager.“ Tom: „Ja guck ma, heute gibt es ja auch Jobs, wo man halt nicht so richtig körperlich arbeiten muss, sondern mehr büromäßig. Klar, da muss man sich eben auch so ellenbogenmäßig durchsetzen, wenn man an Kohle kommen will. Nur der stärkste, der die besten Psychotricks anwenden kann, kommt da nach oben. ... Tja, und das ist wohl eine Kopfsache, Du musst halt wissen, wie die Anderen so drauf sind, dann kannst Du voll die Psychotricks anwenden, um die fertig zu machen. Dann bist Du schon mal wieder jobmäßig eine Stufe höher, hast mehr Kohle und Deinen Untergebenen sagen, was Sache ist und was sie zu tun und lassen haben.“ Es sei hier dahin gestellt, ob und inwiefern Toms Vorstellungen von Berufskarrieren nicht vielleicht durchaus realistisch sind; der Begriff des „Mobbing“ legt dies jedenfalls nahe. Mit einem von dem englischen Sozialphilosophen Herbert Spencer geprägten Begriff lässt sich Toms Weltbild offensichtlich als „sozialdarwinistisch“ charakterisieren:36 Die Stärksten setzen sich durch und die Schwachen unterliegen – ein Naturgesetz, was Tom mehrfach betont. Es ist sicher charakteristisch für ein derartiges Weltbild, dass die dichotomische Aufteilung der sozialen Welt in Starke und Schwache ebenfalls eine rigide Trennung zwischen Frauen und Männern beinhaltet. „Richtige“ Männer sind solche, die sich als stark und durchsetzungsfähig erweisen. Dies jedoch ist den Frauen „von Natur“ aus nicht gegeben. Da die dichotomische Einordnung der sozialen Welt in überlegene Männer und unterlegene Frauen „von Natur aus“ gesetzt ist, müssen Männer wie Frauen dies auch anerkennen und sich entsprechend verhalten. Die Frauen wollen dement-
36
Es muss betont werden, dass dies mit Darwins berühmten Prinzip des „survival of the fittest“ wenig bis nichts zu tun hat.
88
2 Theoretische Zusammenhänge
sprechend auch „richtige Männer“ (s. o.), damit diese sie dominieren; folgerichtig kritisiert Tom Frauen, die diese Ordnung nicht akzeptieren – „Mannweiber, Emanzen“ – sowie Männer, die sich nicht in diesem Sinne verhalten – „Weicheier, JaSager“. Die Mehrzahl der Erzieherinnen und Erzieher, die in Toms Heim arbeiten, werden darum auch von Tom nicht akzeptiert. Die Männer lehnt Tom ab, weil sie sich wie Frauen verhalten, d. h. sie „machen das mit (einen permissiven Erziehungsstil, die Autoren), sie ziehen sich Birkenstocks an, haben voll keine Muskeln, so mit Brille, die dann auch noch putzen, das sind Hausschwuchteln“. Die Erzieherinnen dagegen „wollen halt jetzt genauso wie die Männer sein und wollen, dass die Männer so wie die Frauen werden“. Insbesondere versuchen die Erzieherinnen Männern wie Tom Vorschriften machen, was ganz offensichtlich gegen Toms natürliche Ordnung der Dinge ist. Ein derart rigide ausgeformtes Weltbild wirkt praktisch wie ein Assimilationsschema (Piaget), in das sämtliche soziale Wahrnehmungen integriert, d. h. in das dichotomische Schema eingefügt werden. Falls bestimmte Wahrnehmungen dieser Assimilationsstruktur widersprechen – Männer und Frauen, die sich nicht nach diesem Binärschema verhalten –, werden sie als negativ, weil unnatürlich eingeordnet. Toms eigener Platz in diesem Weltbild ist sehr klar: Er verweist ständig darauf, dass er nicht nur zu den richtigen Männern gehört, sondern darüber hinaus sich eine dominante Stellung unter den Männern verschafft hat. Zwar konzediert er zwischendurch, dass er seine Eltern vermisst – auch die Mutter –, aber „da muss man durch“ und „nur die Harten kommen in den Garten“. Wie entsteht demnach eine derartige Weltsicht? Tom, der wie bemerkt durchaus reflektiert sowohl sein Weltbild darstellt und begründet als auch dessen Genese erläutert, bezieht seine Sicht der Dinge selbst auf seine Kindheitserfahrungen und da vor allem auf die Vorbildfunktion, die sein Vater für ihn hatte. Das ist auf den ersten Blick durchaus erstaunlich, da der Vater einerseits beruflich ziemlich erfolglos war und andererseits die Familie verlassen hatte, sich also seiner Verantwortung entzogen hat. Dies verteidigt Tom jedoch damit, dass er sich selbst die Schuld dafür gibt und immer wieder betont, wie wichtig der Vater für ihn als Vorbild gewesen ist. Die Mutter dagegen ist ganz offensichtlich ein negatives Modell, trotz der eingestandenen Zuneigung, die Tom für sie empfindet. Sie forderte von Tom, dass er „Weiberarbeit“ im Haushalt übernehmen sollte, nämlich Betreuung der kleineren Schwestern sowie Kochen und Putzen – „mein Vater hätte das nie gemacht“. Sie war gegenüber dem Vater die eindeutig Schwächere und kam mit Tom nach dem Verschwinden des Vaters nicht mehr zurecht. Tom spricht in diesem Interview ausschließlich über die Modellfunktionen, die in positiver Hinsicht sein Vater und in negativer Hinsicht seine Mutter für ihn hatten.
2.2 Lernen als Leitbegriff
89
Andere Erwachsene werden in seinen Kindheitserinnerungen nur peripher erwähnt, vor allem die „Kollegen“ des Vaters, mit denen er in die Stammkneipe ging. Es ist jedoch zu vermuten, dass der Vater sich mit Männern umgab, die ein gleiches Rollenverständnis hatten und von denen Tom die Bestätigung erhielt, dass man so sein muss wie Toms Vater – „alle grüßen ihn freundlich und haben Respekt vor ihm“. Entsprechend lässt sich annehmen, dass die Rolle der Mutter in Toms Familie nicht unrepräsentativ war für das soziale Milieu, in dem Tom aufwuchs. Anders lässt sich eigentlich die Rigidität nicht erklären, mit der Tom die Rollenverteilungen zwischen Männern und Frauen postuliert und sie als naturgegeben legitimiert. Zumindest scheint es in Toms Kindheit keine Frauen gegeben zu haben, die von dem Rollenbild der Mutter positiv abgewichen wären. Eine auf der Konzeption des Modellernens nach Bandura basierende theoretische Erklärung der Genese von Toms Weltbild wäre demnach folgendermaßen zu formulieren: Tom erlebte als „Modelle“ bzw. als signifikante Andere einerseits den Vater sowie entsprechende Männer, die Tom als positives Vorbild empfand. Insbesondere sein Vater war in dem Sinne ein „richtiger Mann“, da er in der Familie dominierte und in seiner männlichen Bezugsgruppe aufgrund seiner Durchsetzungsfähigkeit geachtet war. Komplementär dazu erlebte Tom seine Mutter als negatives Modell, deren soziale Rolle er auf keinen Fall übernehmen wollte. Entsprechend heftig wehrt er sich gegen die Versuche der Erzieherinnen und Erzieher, ihn zu einer anderen Denkweise und einem anderen sozialen Verhalten zu bringen. Diese bereits relativ früh angelegten Modellorientierungen wurden dann positiv verstärkt durch Integration in eine gewaltbereite Hooligangruppe, in der Tom alles das fand, was er am Vater bewundert hatte. Entsprechend drückt sich in seinem Weltbild ein einfacher Sozialdarwinismus aus, der vor allem zu der beschriebenen dichotomischen Einordnung von Männern und Frauen führt. „Modellernen“ heißt hier also buchstäblich, dass das oder die Modelle als repräsentativ für „richtige“ bzw. „falsche“ Verhaltensweisen generell genommen werden. Das daraus resultierende Weltbild ist im Sinne von Piaget als „Assimilationsschema“ zu charakterisieren, indem es die soziale Welt in das Binärschema „richtige Männer“ versus „richtige Frauen“ einordnet; abweichende Wahrnehmungen von Männern und Frauen werden entweder ignoriert oder als Abweichung von der natürlichen Ordnung denunziert. Ein Modell, das diese theoretische Erklärung in einer präzisen Weise überprüft und damit validiert, hat demnach Folgendes zu leisten: Zum einen muss die kognitive Genese des Weltbildes auf der Basis der Erfahrungen an einzelnen Individuen erfasst werden. Damit ist gemäß der Konzeption des Modellernens gemeint, dass ein Weltbild wie das von Tom nicht dadurch entsteht, dass sich das betreffende Individuum explizit seine verhaltensformenden Maximen ausdenkt, sondern dass individuelle Erfahrungen mit einzelnen Bezugspersonen und deren Charakteristiken gemacht werden. Anders gesagt, dass ein Anderer
90
2 Theoretische Zusammenhänge
Modellfunktion übernimmt, bedeutet, dass dieser Andere generalisiert wird: ein „richtiger“ Mann ist so wie mein Vater, eine „richtige“ Frau ist so wie meine Mutter. Ist eine derartige Sicht etabliert, werden neu auftretende Personen eingeordnet: Eine Frau ist schwach und ein Mann ist stark. Zum anderen müssen die individuellen Erfahrungen zu einem möglichst konsistenten Gesamtbild zusammengebracht werden. In Orientierung an dem bereits behandelten Konzept semantischer Netze, die in Teil 3 noch näher dargestellt werden, kann man dies auch so bezeichnen, dass die individuellen Erfahrungen ein semantisches Netz generieren müssen, in dem sich die mehrfach angesprochene Dichotomie ausdrückt. Damit ist gewährleistet, dass sich das entstandene Weltbild auch gewissermaßen „kontrafaktisch“ behaupten kann, d. h., dass es auch bei widersprechenden Erfahrungen seine Stabilität nicht verliert. Tom löst dies Problem durch die negative Bewertung von Männern und Frauen, deren Verhalten seinem Weltbild widersprechen. Er akzeptiert, dass es diese Erfahrungen gibt, aber er interpretiert diese Erfahrungen nicht als Widerlegungen oder auch nur Relativierungen seines Weltbildes, sondern im Gegenteil eher als Bestätigungen von dessen normativer Richtigkeit. Das Konzept des Lernen am Modell lässt sich übrigens auch gemäß der erwähnten Prototypentheorie von Rosch in etwas anderer Begrifflichkeit erläutern: Toms Vater und seine Mutter bilden in der Weltbildgenese von Tom gewissermaßen zwei Prototypen, nämlich in positiver und in negativer Hinsicht. Um diese Prototypen werden anschließend die Personen gruppiert, die im weiteren Verlauf der Weltbildgenese von Tom wahrgenommen und kognitiv interpretiert werden. Männer werden weitestgehend um den Prototyp des Vaters gruppiert, sofern sie dem Vater ähnlich sind; entsprechend werden Frauen auf den Prototyp der Mutter bezogen. Es geht also nicht darum, dass verschiedene Männer genau gleich dem Vater sind, was ja auch praktisch unmöglich ist, sondern nur darum, dass neu auftretende Männer dem Vater in den wesentlichen, d. h. männlichkeitsspezifischen wahrnehmbaren Merkmalen hinreichend ähnlich sind. Entsprechendes gilt für neu auftretende Frauen in Bezug auf die Mutter.37 Das Modell bzw. das Programm, mit dem wir die Genese von Toms Weltbild zum großen Teil simulierten, sieht folgendermaßen aus:38
37 38
Die Prototypentheorie wird in Teil 3 noch näher behandelt. In Klüver et al. 2006 wurde die Geschichte von Tom mit einem anderen Programm simuliert, worauf hier nur hingewiesen werden soll.
2.2 Lernen als Leitbegriff
91
Es handelt sich um das von uns neu entwickelte neuronales Netz – ein Self Enforcing Network (SEN) –, das in Teil 3 detaillierter beschrieben wird und das bereits für die Simulation von Akkommodation und Assimilation verwendet worden ist. Zur groben Erinnerung: Die inhaltliche Basis für ein SEN ist eine sog. semantische Matrix, in der schematisch die Beziehungen von Attributen bzw. Eigenschaften zu bestimmten Objekten dargestellt werden. Bei der Modellierung der Entwicklung von Tom enthält die semantische Matrix die Zuordnungen von bestimmten Eigenschaften zu Männern und Frauen. Am Beispiel von zwei Männern und zwei Frauen sieht das dann folgendermaßen aus: stark
schwach
Durchsetzungsvermögen
jammert
schlägt zu
putzt/ kocht etc.
Mann1
1
0
1
0
1
0
Mann2
1
0
1
0
1
0
Frau1
0
1
0
1
0
1
Frau2
0
1
0
1
0
1
Eine 1 bedeutet dabei, dass eine Eigenschaft auf das entsprechende Objekt zutrifft wie beispielsweise „stark“ auf „Mann“; eine 0 bedeutet entsprechend, dass eine Eigenschaft nicht zutrifft wie etwa „schwach“ auf „Mann“. Zu erinnern ist hier daran, dass es sich um normative Zuordnungen handelt, die „richtige“ Männer und „richtige“ Frauen charakterisieren, also nicht unbedingt um das Ergebnis empirischer Beobachtungen. Das eigentliche Netzwerk eines SEN besteht aus künstlichen Einheiten, die einerseits die Objekte und andererseits die Attribute repräsentieren, in unserem Beispiel also aus zehn Einheiten, den sog. Neuronen. Diese sind durch „gewichtete“ Verbindungen miteinander verknüpft. Die entsprechenden Gewichtswerte werden wieder in einer Matrix dargestellt, der sog. Gewichtsmatrix. Eine „Lernregel“ überführt nun die Werte der semantischen Matrix in die Gewichtsmatrix; auszugsweise sieht dies für unser Beispiel so aus: stark
schwach
schlägt zu
Mann1
0.1
0
0.1
Mann2
0.1
0
0.1
Frau1
0
0.1
0
Beim Start einer Simulation werden bestimmte Einheiten „extern aktiviert“. Das Netzwerk durchläuft dann eine Folge von Zuständen, die durch numerische Werte in den Neuronen, die „Aktivierungswerte“, repräsentiert werden. Am Ende ergibt
92
2 Theoretische Zusammenhänge
sich gewöhnlich ein stabiler Endzustand, der eine Ordnung der Objekte gemäß ihren Ähnlichkeiten zueinander, bezogen auf die Attribute, ergibt. Gemäß der Annahme, dass Toms Weltbild – und natürlich das daraus resultierende Verhalten – aus einem Lernen am Modell, nämlich seinem Vater und seiner Mutter, entstanden ist, müssen natürlich diese beiden Personen mit entsprechenden Attributen im Netz repräsentiert sein. Da diese beiden Personen im lerntheoretischen Sinne als Modelle bzw. Prototypen fungieren, besteht nun die Aufgabe der Simulation darin, zu zeigen, wie gemäß dem Weltbild von Tom neu wahrgenommene Personen den beiden Modellen zugeordnet werden; diese werden gemäß ihren Attributsausprägungen in das Programm eingegeben. Mit anderen Worten, es sollen Cluster um die beiden prototypischen Personen gebildet werden, wobei die Nähe einer neu eingegebenen Person zu einem der beiden Prototypen anzeigt, wie stark das Netzwerk als künstliche Darstellung von Tom die neuen Personen jeweils als „Männer“ bzw. als „Frauen einordnet. Das Weltbild von Tom ist zwar in dem erwähnten Sinne dichotomisch, dass es die soziale Welt in „richtige“ Männer und „richtige“ Frauen einteilt, aber tatsächlich wahrgenommene Männer und Frauen können natürlich – wie die Erzieher und Erzieherinnen in dem Heim – von dem Modell jeweils abweichen. Die Simulation muss derart faktischen Abweichungen selbstverständlich Rechnung tragen. Technisch wird dies so realisiert, dass jede (künstliche) Person, die dem Programm eingegeben wird, als ein 13-dimensionaler binärer Vektor repräsentiert wird. Die ersten beiden Komponenten legen die Geschlechtszugehörigkeit fest, die nächsten vier Komponenten repräsentieren die Eigenschaften „jammert“, „schwach“, „trägt Birkenstocksandalen“, „putzt und kocht“, die folgenden vier Komponenten bedeuten „stark“, „hat Durchsetzungsvermögen“, „kann zuschlagen“, „hat Recht“ und die restlichen drei Komponenten repräsentieren physische Merkmale „groß“, „schlank“ sowie „schnell“. Diese Merkmale, die natürlich für die Einordnung in Toms Weltbild sekundär sind, werden dafür gebraucht, um den individuellen körperlichen Unterschieden zwischen den wahrgenommenen Personen gerecht zu werden. In Toms Weltbild werden zwar Männer und Frauen jeweils in einheitlichen Gruppierungen zusammengefasst, aber natürlich verschwinden die individuellen Unterschiede dabei nicht. Eine „1“ in einer Komponente bedeutet wieder, dass die entsprechende Eigenschaft vorliegt, und eine „0“, dass sie nicht vorliegt. Im Folgenden zeigen wir die Ergebnisse von drei Simulationen. Das erste Bild basiert auf der Eingabe von zwei Männern und zwei Frauen, die alle die Merkmale haben, die für Tom typisch bei Männern und Frauen sind, also „Stärke“ bei Männern und „Schwäche“ bei Frauen etc. M.a.W., die Vektoren der Männer haben in den Komponenten 3, 4, 5 und 6 den Wert 0, in den nächsten vier Komponenten den Wert 1 und in den anderen drei Komponenten Werte von 1 oder 0 nach dem
2.2 Lernen als Leitbegriff
93
Zufallsprinzip. Entsprechend haben die Vektoren der Frauen in den Komponenten von 3 bis 6 eine 1, in den nächsten vier Komponenten eine 0 und in den restlichen drei Komponenten wieder 1 oder 0 nach zufälliger Verteilung. Bis auf die individuellen Unterschiede entsprechen die Attribute der Männer und Frauen jeweils denen der Prototypen; entsprechend nahe liegen sie jeweils in der Visualisierung ihrem jeweiligen Prototypen „Vater“ und „Mutter“.
Abbildung 2-10: „Richtige“ Männer und Frauen bilden Cluster um die Prototypen
Das Ergebnis der Simulationen ist stets, dass Männer und Frauen in zwei deutlich getrennte Cluster eingruppiert werden, die voneinander räumlich signifikant getrennt sind und sich um die Prototypen gebildet haben. Das entspricht ziemlich exakt dem Weltbild von Tom, in dem die sozialen „Welten“ von Männern und Frauen sich nicht überlappen dürfen – sofern alles seine Ordnung hat. Die in dem Abb. 2-10 dargestellten Simulationen lassen sich gewissermaßen als Rekonstruktionen der Kindheit von Tom verstehen – die soziale Welt ist in dem Sinne in Ordnung, dass nur „typische“ Männer und Frauen auftreten, die den Prototypen des Vaters und der Mutter problemlos zugeordnet werden können. Spätestens nach Toms Einweisung in das Heim lernt Tom jedoch auch Männer – sowie Frauen – kennen, die den bisherigen Stereotypen nicht oder nur sehr bedingt entsprechen. Diese Situation wurde ebenfalls simuliert; das Ergebnis dieser Simulation ist in Abb. 2-11 zu sehen:
94
2 Theoretische Zusammenhänge
Abbildung 2-11: Geschlechtsspezifische Cluster mit „unechtem“ Mann
Bei dieser Simulation behielten drei von den vier erkennbaren Männern ihre für Tom typischen Merkmale; bei einem vierten Mann wurden einige Komponenten variiert: Er „putzt und kocht“ und „trägt Birkenstocksandalen“. Zudem wurde ihm in der Komponente „Stärke“ die 1 durch eine 0 ersetzt. Das Programm ordnet diesen Mann folgerichtig dem Cluster der Frauen zu, identifiziert ihn demnach in der Terminologie von Tom als eine „Hausschwuchtel“, der sich von den Frauen etwas sagen lässt. Das Programm verhält sich offensichtlich genau wie Tom selbst, der derartige Männer eben nicht als „richtige“ Männer anerkennt, sondern diese sozusagen als verkleidete Frauen betrachtet. Man kann die Operationsweise des Programms noch wesentlich differenzierter gestalten, indem z. B. größere Vektoren zur Charakterisierung einzelner Personen verwendet werden. Ebenso ist es ohne Probleme möglich, nicht einfach „Stärke“ oder „nicht Stärke“ zu codieren, sondern Codierungen von „mehr oder weniger stark“ zu verwenden. Freilich zeigt schon die hier demonstrierte einfache Binärcodierung, dass die Genese des Weltbildes und das Weltbild selbst recht genau simuliert werden können. Die theoretische Annahme hinsichtlich des Lernens am Modell, die konstitutiv für die Entwicklung des formalen Modells und des eigentlichen Programms war, wird demnach durch die oben gezeigten Simulationsergebnisse überzeugend bestätigt.
2.2 Lernen als Leitbegriff
95
Sicher kann man die Genese von Toms Weltbild auch durch andere theoretische Annahmen zu erklären suchen. Die auf Banduras Theorie basierende hier gegebene Erklärung hat jedoch den Vorzug der prinzipiellen Einfachheit und damit ein starkes Argument für ihre Annahme. Es ist ein in der Wissenschaft immer wieder verwendetes Prinzip, von mehreren möglichen theoretischen Erklärungen immer die einfachste auszuwählen – ein Prinzip, das nach dem mittelalterlichen scholastischen Logiker William of Occam als „Occam's Razor“ benannt wird:39 Wie ein Rasiermesse schneidet dies Prinzip alle überflüssig komplizierten Erklärungen weg und belässt es bei den einfachsten. Zwei Nachbemerkungen sollen die Darstellung der Geschichte von Tom abschließen. Zum einen ist das hier dargestellte Simulationsprogramm ein vollkommen deterministisches System, das keine Variationsmöglichkeiten erlaubt – nach Festlegung der Anfangszustände. Die Tatsache, dass es offensichtlich umstandslos möglich ist, die wichtigsten Aspekte der Weltbildgenese von Tom in der Simulation zu rekonstruieren, lässt vermuten, dass die hier geschilderte Sozialisation von Tom in bestimmter Hinsicht zwangsläufig so verlief, wie sie verlaufen ist. Gegeben seine Kindheit als Anfangszustand, dann musste praktisch die Persönlichkeit entstehen, als die Tom sich selbst darstellt. Insofern liegt auch etwas Grimmiges an der wissenschaftlich gesehen befriedigenden Simulation: Tom hatte eigentlich genauso wenig Wahlmöglichkeiten, eventuell auch andere Entwicklungen zu erfahren, wie es das Programm hat, wenn es einmal gestartet worden ist. Wenn in der Sozialisationsforschung häufig und durchaus auch zu Recht davon die Rede ist, dass Persönlichkeiten nicht einfach durch ihre Umwelt „geprägt“ werden, sondern dass Sozialisation immer auch aktive Auseinandersetzung mit und Verarbeitung der sozialen Erfahrungen beinhaltet, dann darf dabei nicht übersehen werden, inwiefern dieser gesamte Prozess eben auch durch deterministische Mechanismen charakterisiert ist oder doch sein kann. Diesen Mechanismen, die im Simulationsprogramm durch die entsprechenden Algorithmen repräsentiert werden, kann sich ein Individuum nicht einfach entziehen – sie üben objektive Zwänge aus. Die Simulierbarkeit von Toms Weltbildgenese verweist von daher auf die Existenz und Wirksamkeit gesellschaftlicher Objektivität. Um mit Walter Benjamin zu sprechen: Gesellschaft wird hier zur „zweiten Natur“, deren Gesetzmäßigkeiten für das einzelne Individuum ebenso zwangsläufig wirksam sind wie die Naturgesetze.
39
William of Occam war vermutlich auch das Vorbild für William of Baskerville in dem Roman und Film „Der Name der Rose“ von Umberto Eco (neben Sherlock Holmes im „Hound of Baskerville“, selbstverständlich).
96
2 Theoretische Zusammenhänge
Zum anderen stellt sich die eminent pädagogische Frage, wie denn eine Entwicklung wie die von Tom vielleicht verändert werden könnte. Die offene Verachtung, mit der Tom die Erzieherinnen und Erzieher in dem Heim charakterisiert, zeigt überdeutlich, dass mit den gut gemeinten Bemühungen im Heim keine Resozialisierung von Tom möglich ist. Im Gegenteil, Tom fühlt sich durch die von ihm als schwach empfundenen Erzieher und Erzieherinnen in seinem Weltbild bestärkt, da er sich letztlich gegen das Erziehungspersonal immer durchsetzen kann – insbesondere mit seinen „Psychotricks“. Die Geschichte von Tom ist von daher auch eine Geschichte und ein Lehrstück, wie man noch so gut gemeinte Resozialisierungen nicht machen sollte. Ebenso gut könnte man versuchen, das Programm durch gutes Zureden zu einer anderen Verlaufsdynamik zu bewegen. Die Versuche der verantwortlichen Erzieher, Tom dadurch von seiner Weltsicht abzubringen, dass man ihm erklärt, wie falsch diese ist, sind offensichtlich nutzlos. Insbesondere können weder die Erzieher noch die Erzieherinnen als positive Modelle für Tom wirken. Frauen werden von ihm generell nicht anerkannt und die Erzieher sind keine richtigen Männer. Der Schluss liegt nahe, dass nur männliche Erzieher auf Tom positiven Einfluss haben können und auch nur dann, wenn sie von Tom als „richtige Männer“ anerkannt werden. Dies ist übrigens der Fall bei dem Interviewer, der als Erzieher in dem Heim von Tom arbeitete.40 Um diese Hypothese zumindest in der Simulation zu testen, führten wir neben zwei „richtigen“ Männern (Komponentenwerte wie oben) und zwei „richtigen“ Frauen noch einen dritten Mann, den „Erzieher“ ein. Dessen Komponenten sind wie die der „richtigen“ Männer, also „Stärke“, „Durchsetzungsvermögen“ etc., allerdings mit einer 1 in der Komponente „putzt und kocht“. Das Programm als Simulation von Toms Weltbild platziert folgerichtig den „Erzieher“ in die Gruppe der Männer, wie in Abb. 2-12 (w. u.) zu sehen ist, der „Erzieher“ wird also sozusagen von Tom anerkannt. Wir wollen dies Ergebnis natürlich nicht überbewerten. Allerdings sollte man sich gerade bei Fällen wie Tom an die alte pädagogische Weisheit erinnern, dass „man die Menschen dort abholen soll, wo sie sind“. Tom „ist“ da, wo sein Weltbild ihn platziert, also in einer sozialdarwinistischen und patriarchalischen Grundeinstellung. Ihn dort „abholen“, d. h. Veränderungen bewirken, könnten nur Pädagogen, die von ihm positiv in sein Weltbild integriert werden. Die Simulation eröffnet zumindest eine Perspektive dafür.
40
Dieser Erzieher ist ein ehemaliger Student von uns und hat über seine Erfahrungen in dem Heim und die dortige Anwendung unserer Simulationsprogramme bei uns promoviert (Herrmann 2008). Dort sind auch weitere Informationen zu Tom nachzulesen.
2.2 Lernen als Leitbegriff
97
Abbildung 2-12: Die Anerkennung eines Sozialpädagogen als ein „richtiger“ Mann
Exkurs: Maschinelles Lernen Als Ergänzung zu den bisher behandelten theoretischen Ansätzen, Einsichten in (menschliches) Lernen zu erhalten, bringen wir abschließend eine kleine Übersicht zu den wichtigsten Aspekten des sog. maschinellen Lernens, die hoffentlich nicht nur für Informatiker von Interesse ist. Gemeint sind damit die verschiedenen Versuche, Computerprogramme zu entwickeln, die in bestimmter Hinsicht über „Lernfähigkeit“ verfügen. Auf einige Komponenten der hier nur tabellarisch aufgeführten Ansätze werden wir noch in Teil 3 näher eingehen. Es muss allerdings darauf verwiesen werden, dass die Terminologie z. T. etwas unglücklich in Analogie zu bestimmten menschlichen Lernprozessen gebildet ist. Beim maschinellen Lernen orientieren sich die Entwickler, was nicht weiter überraschend ist, an menschlichen Lernprozessen. Die Lernsysteme lassen sich nach verschiedenen Kriterien klassifizieren, wie z. B. die Art der Eingabe für das System (ob es sich um klassifizierte Beispiele oder unklassifizierte Beobachtungen handelt) sowie die Art der Repräsentation (ob es sich um eine aussagenlogische oder prädikatenlogische Repräsentation handelt). Im Folgenden wird die „klassische“ Klassifizierung anhand der Lernstrategien dargestellt. Eine Lernstrategie ist dabei durch die Art der verwendeten Inferenz, z. B. deduktive Schlüsse bei Expertensystemen und mathematisch formulierte Al-
98
2 Theoretische Zusammenhänge
gorithmen bei neuronalen Netzen (vgl. Teil 3), sowie die Art der Eingabe für das System charakterisiert (vgl. z. B. Herrmann 1997 und Zell 2000). Auswendiglernen oder direkte Eingabe neuen Wissens Hier sind keine Schlussfolgerungen oder Transformation von Wissen erforderlich. Beispiele für diese Strategie sind das Lernen durch Einprogrammierung und Lernen durch Speichern von Informationen. Bei dem Begriff des „Auswendiglernens“ wird allerdings die völlig missglückte Terminologie besonders deutlich. Lernen nach Anweisung Akquirierung von Wissen von einem Lehrer oder einer vergleichbaren „Quelle“, wobei die Umformung in eine interne Darstellung und die Verknüpfung mit dem Vorwissen erforderlich wird. Lernen durch Deduktion Bei dieser Art des Lernens werden deduktive Schlussfolgerungen auf vorhandenem oder eingegebenem Wissen durchgeführt. Diese Schlussfolgerungen dienen zur Reorganisation des vorhandenen Wissens oder zur Bestimmung von wichtigen Konsequenzen aus dem Wissen. Eine Form von Lernen durch Deduktion ist das analytische oder auf Erklärungen basierende Lernen. Lernen durch Analogie Neues Wissen wird durch Transformation oder Anreicherung bestehenden Wissens, das den gewünschten Lernergebnissen schon ähnlich ist, akquiriert. Das bestehende Wissen wird dabei so verändert, dass es für die neue Situation nutzbar gemacht werden kann. Lernen aus Beispielen Dies ist eine spezielle Form des induktiven Lernens. (Induktives Lernen bezeichnet die Vorgänge, bei denen aus einer Menge von Fakten, die von einem Lehrer, dem Lernenden selbst oder aus einer externen Umgebung stammen, induktive Inferenzen bzw. Schlüsse gezogen werden). Beim Lernen aus Beispielen wird aus einer Menge von Beispielen (und Gegenbeispielen) eine allgemeine Konzeptbeschreibung entwickelt, die alle positiven Beispiele einschließt (und alle negativen Beispiele ausschließt). Lernen durch Beobachtung und Entdeckung Dies ist eine andere Form des induktiven Lernens. Hier wird das lernende System nicht mit speziell dafür geeigneten Daten versorgt. Stattdessen beobachtet und analysiert es seine Umgebung ohne Steuerung durch einen „Lehrer“ und ohne die Vorgabe bereits klassifizierter Beispiele. Es wird ferner unterschieden zwischen
2.3 Didaktische Modelle und Lernen als Leitbegriff
99
passivem Beobachten und aktivem Experimentieren. Bei letzterem erweitert und verändert das System seine Umgebung, z. B. durch selbständiges Erzeugen von Beobachtungen. Diese Lernform ist typisch für spezielle Roboter. Eine weitere, wichtige Klassifizierung für maschinelle Lernsysteme orientiert sich an dem einen System zugrunde liegenden Lernparadigma. Danach können Lernsysteme in drei Klassen eingeteilt werden: x Systeme, die auf neuronalen Netzen und anderen numerischen Ansätzen basieren, x Systeme, die symbolische Begriffsbeschreibungen lernen, x wissensintensive, anwendungsspezifische Lernsysteme. Zusätzlich sind noch Multistrategiesysteme zu erwähnen, wobei auch Lernziele zugeordnet werden. Mit dieser kleinen Übersicht soll das Gebiet des maschinellen Lernens vorerst abgeschlossen werden. Wenden wir uns nun den didaktischen Modellen zu und beginnen mit den Modellen die am Leitbegriff Lernen orientiert sind. Die unterschiedlichen Aspekte des Lernens, die in den einzelnen theoretischen Ansätzen behandelt werden, sind die Voraussetzung dafür, um die entsprechenden didaktischen Modelle zu verstehen.
2.3
Didaktische Modelle und Lernen als Leitbegriff
Bei allen der hier vorgestellten didaktischen Modelle sind lehr- wie lerntheoretische Ansätze von Bedeutung. Das bedeutet nicht, dass die sozialen wie kommunikativen Faktoren keine Rolle spielen, aber diese werden jedoch näher im Kontext der Interaktion als Leitbegriff näher behandelt. Es geht bei der Differenzierung der Modelle stets darum, welcher Leitbegriff die zentrale Orientierung vorgibt. Da die Lernziele stets eine sehr wichtige Rolle spielen, wird zunächst der entsprechende Ansatz vorgestellt.
2.3.1
Lernzieltaxonomien und lernzielorientierte Didaktik
Im Mittelpunkt dieses Ansatzes steht die Formulierung von operationalisierbaren und überprüfbaren Lernzielen, die sich in einer Lernzieltaxonomie einordnen lassen. Der Begriff der Taxonomie wurde zunächst in der Biologie verwendet, um eine Systematik, insbesondere eine hierarchische Ordnung, herzustellen. Im pädagogischen Kontext ist zwischenzeitlich eine Fülle an Lernzieltaxonomien entstanden, die unterschiedliche Schwerpunktsetzungen haben. Es wird zwischen Lernzielen unterschieden, die sich auf das Fach und denen, die sich auf die bereits bekannten kognitiven, affektiven und psychomotorischen Verhaltensdimensionen beziehen (Peterßen 1981).
100
2 Theoretische Zusammenhänge
Die fachbezogenen Lernziele enthalten allgemeine (formale) Lernziele, die an unterschiedlichen Lerninhalten erworben werden können sowie konkrete, fachspezifische Lernziele; die folgende Taxonomie, die sich an Inhalten orientiert, ist so zu verstehen, dass die Beherrschung der jeweiligen Inhaltskomponenten als fachspezifische Lernziele definiert wird. Die Verhaltensdimensionen werden nach dem Komplexitätsgrad eingestuft.
Inhaltstaxonomie
ȋ
Ȍ
¡ Ȁ Ȁ
Kognitive Lernziele (Komplexitätsgrad) ȋȌ
ȋȌ Ú ȋ ±Ȍ
¡
ȋ Ȍ
Affektive Lernziele (Internalisierungsgrad) Ȁ
ȋȌ
Psycho-motorische (Koordinationsgrad) ¡ ȋȌ
Abbildung 2-13: Lernzieltaxonomien
é
¡
¡ ¡ ȋ Ȍ
2.3 Didaktische Modelle und Lernen als Leitbegriff
101
Es sollte nicht verschwiegen werden, dass primär die kognitiven Lernziele, die insbesondere im Rahmen der Bildungsreform nach Bologna immer wieder hervorgehoben werden, also als besonders relevant gelten. Bei der Formulierung der Lernziele ist deren Operationalisierbarkeit zu berücksichtigen, die durch Verhaltensbeschreibungen charakterisiert sind. Dabei kann man sich an folgenden drei Komponenten orientieren: a) Die Beschreibung des Endverhaltens, das präzise formuliert wird, b) Benennung der Mittel, um das Verhalten zu erreichen und c) Aufstellung eines Beurteilungsmaßstabs zur Evaluation, der sich insbesondere auf die Qualität des Verhaltens bezieht (Peterßen 1981). Operationalisierbarkeit ist also letztlich die Forderung, dass Lernziele dadurch empirisch überprüft werden können, dass man sie sowohl durch bestimmtes Verhalten des Lernenden charakterisiert als auch die didaktischen Mittel angibt, durch die die Lernziele realisiert werden können, und schließlich Maßeinheiten definiert, die den Grad der Lernzielrealisierung bestimmen. Dass dies nicht immer einfach zu erreichen ist, dürfte jedem Lehrenden und Lernenden bekannt sein. Die Lernziele als zentral in einem didaktischen Modell zu betrachten, geht auf das Modell von B. Möller und Chr. Möller zurück, die den lernzielorientierten Ansatz geprägt haben und der auch als Curricularer Ansatz bezeichnet wird. In diesem Ansatz sind behavioristische Erkenntnisse von besonderer Relevanz. Es wird explizit davon ausgegangen, dass die Verhaltensänderungen beobachtbar sind, wenn die Lernziele entsprechend dem gewünschten Endverhalten formuliert werden. Chr. Möller (1989) betont die Notwendigkeit der Aufteilung in Richt-, Grob- und Feinzielen. Diese Unterteilung bezieht sich auf den Abstraktionsgrad der Formulierungen. Entsprechend sind die Richtziele sehr abstrakt formuliert, die in den Grobzielen konkretisiert und in den Feinzielen eindeutig formuliert werden. Daraus ergibt sich folgendes Schema für die Unterrichtsplanung: Lernplanung
Definition einer umfassenden Menge von Lernzielen. Die Ziele werden in Richt-, Grob- und Feinziele unterteilt Operationalisierung (gewünschtes Endverhalten, Bedingungen und Beurteilungsmaßstab)
Lernorganisation
Wahl der Methoden und Medien, gemäß den Lernzieltaxonomien
Lernkontrolle
Inhaltsvalidierung, strenge Aufgabenanalyse
Dieser Ansatz ist für die Praxis wesentlich, um sich deutlich zu machen, dass die Aufgaben sehr präzise und im Sinne der Überprüfbarkeit gestellt werden sollten. Dies ist nicht so selbstverständlich, denn jeder Lehrende muss bedenken, dass die Aufgaben für alle Schüler eindeutig sein müssen. Es erfordert die Fähigkeit zur genauen Formulierung – und diese ist nicht jedem gegeben. Auch die Operationalisierung der Lernziele ist alles andere als einfach, wie bereits angemerkt.
102
2 Theoretische Zusammenhänge
Ein anderer Ansatz, der sich zunächst ebenfalls am Behaviorismus orientiert, ist der kybernetische Ansatz, der von von Cube (1971) entwickelt wurde und durch König und Riedel zum kybernetisch-systemtheoretischen Ansatz erweitert wurde.
2.3.2
Kybernetisch-systemtheoretischer Ansatz
Die kybernetische Didaktik ist von der mathematischen Informationstheorie nach Shannon und Weaver geprägt sowie von der behavioristischen Lerntheorie. Dieser Ansatz verfolgt die Optimierung und Rationalisierung individueller Prozesse. Dabei geht es um die Herausarbeitung einer kybernetischen Struktur von Unterricht und der Anwendung der daraus gewonnenen Erkenntnisse auf die Optimierung von Lehr-Lern-Prozessen. „Kybernetik“ heißt wörtlich (aus dem Griechischen) „Steuermannskunst“ und bedeutet inhaltlich im Wesentlichen, dass komplexe Prozesse in Form von Rückkoppelungsprozessen aufgefasst und dargestellt werden. Ursachen bewirken Folgen und diese können wieder als Ursachen auf die ursprünglichen Ursachen zurückwirken, die dann in modifizierter Form zu Folgen werden. „Positive Rückkoppelungen“ bedeuten dabei, dass die Ursachen und Folgen sich wechselseitig verstärken, was durchaus sehr negative Konsequenzen für ein entsprechendes System haben kann. Entsprechend bedeutet eine negative Rückkopplung, dass eine wechselseitige Abschwächung aus den gegenseitigen Beeinflussungen stattfindet. Ein klassisches und berühmtes Beispiel für ein rückgekoppeltes System ist die Regelung einer Heizung durch einen Thermostaten und ein daran angeschlossenes Thermometer mit dem Sollwert einer bestimmten Zimmertemperatur: Die gemessene Temperatur wird an den Thermostaten gegeben, dieser bestimmt die Differenz zwischen der gewünschten und der tatsächliche Temperatur und steuert dann die Heizelemente – entweder herauf- oder herunterfahren. Dadurch wird die Zimmertemperatur beeinflusst, diese wird wieder gemessen und der Thermostat regelt die Heizelemente je nach Bedarf. Bei schwankenden Außentemperaturen, nebenbei bemerkt, werden derartige Systeme mittlerweile häufig durch sog. Fuzzy-Logik gesteuert; aber das ist eine andere Geschichte, die man z. B. bei Stoica-Klüver et al. 2009 nachlesen kann. Es ist aus der Alltagserfahrung einsichtig, dass Lehre und Lernen einem derartigen rückgekoppelten System entspricht bzw. entsprechen kann. Daraus resultiert, dass der Unterricht analog wie ein technischer Regelkreis aufgefasst werden kann, der folgende Elemente umfasst:
2.3 Didaktische Modelle und Lernen als Leitbegriff
103
Sollwert
kognitive und pragmatische Lernziele
Regler
Verlaufsplan zur Erreichung der Ziele
Stellglieder
personale und technische Medien, die den Unterrichtsprozess steuern
Messfühler
Lernkontrolle
Regelgröße
Adressaten, Faktoren, die beeinflusst werden sollen
Wenn zwischen Ist- und Sollwert eine Differenz besteht, müssen die nicht gelernten Informationen wieder in den Regelkreis eingebunden werden. Sind die Informationen gelernt, werden neue Elemente hinzugefügt. Der Lernprozess besteht in der Informationsverarbeitung, wodurch ein Aufbau neuer Ordnungen ermöglicht wird. Das Hauptziel dieses Ansatzes ist die Optimierung von Lernstrategien sowie deren Präzisierung durch gezielte Steuerungsprozesse. Nach Auffassung von von Cube sollen Lehrprogramme entstehen (programmierter Unterricht) und das Ganze muss als ein rückgekoppeltes Lehrsystem aufgefasst werden. Das bedeutet, dass die Lehrenden den Gesamtprozess steuern, indem sie je nach Lernfortschritt der Schüler den Umfang der Lehrprogramme einrichten; der Lernfortschritt bestimmt demnach, wie gering oder wie intensiv die Lehrprogramme auf die Schüler einwirken. In bestimmter Hinsicht ist dieser Ansatz im Wesentlichen als ein sehr früher Versuch zu sehen, die Begrifflichkeit der in den frühen sechziger Jahren ungemein populären Kybernetik sowie die im Entstehen begriffene neue Computertechnologie auf Lehre und Lernen anzuwenden. Dabei wurde die kybernetische Terminologie, die im Grunde eine technische war (vgl. das Beispiel mit dem Thermostaten) teilweise nur metaphorisch übernommen, da Lehr- und Lernprozesse zwar durchaus als rückgekoppelte Prozesse betrachtet werden können, aber sich einer präzisen Darstellung damals noch weitgehend entzogen.41 Dennoch kann dieser Ansatz, der vorwiegend in der naturwissenschaftlichen und technischen Fachdidaktik rezipiert wurde, auch heute noch interessante Orientierungen geben. Insbesondere diente er als Konstruktionsbasis neuer technischer Hilfsmittel von Lehr- und Lernprozessen. Damit ist natürlich Lernsoftware gemeint, die sich seit von Cube immer weiter entwickelt hat und heute in vielen Fächern zur Standardausrüstung gehört (vgl. die in Teil 1 erwähnten Beispiele).
41
Das bahnbrechende Buch „Kybernetik“ von Norbert Wiener, dem Begründer dieser Forschungs- und Anwendungsrichtung, wurde rasch ein Bestseller, obwohl wir bezweifeln, dass das technisch sehr schwierig zu lesende Buch tatsächlich von den meisten Käufern überhaupt gründlich gelesen, geschweige denn verstanden wurde.
104
2 Theoretische Zusammenhänge
Als wissenschaftliche Methode zur Erforschung von Lehr- und Lernprozessen kann der kybernetische Ansatz auch heute noch fruchtbar sein und wertvolle Anregungen liefern. In Klüver et al. 2006 haben wir gezeigt, wie der Begriff des rückgekoppelten Systems in der Tat sehr präzise helfen kann, komplexe soziale Prozesse wie es Lehr-/Lernprozesse sind, formal zu modellieren und in Computersimulationen zu untersuchen. Dafür waren die Überlegungen von von Cube ein wichtiger Anstoß. Für die Didaktik bedeutet dies die Konstruktion von Lehrverfahren aufgrund genau angegebener Lernziele und genau bekannter Lernsysteme, die das Lernsystem rasch in den gewünschten Zustand überführen sollen. Ebenso kann dieser Ansatz Hinweise für die Diagnose von Lernschwächen für und individuelle Förderung lernschwacher Schüler geben. Daraus abgeleitet ergibt sich für die Unterrichtsvorbereitung: x Entwicklung einer Lernstrategie x Planung von Medieneinsatz x Festlegung didaktischer Stationen Dieser Ansatz, obwohl in der Praxis kaum bekannt, enthält ebenfalls einige wichtige Hinweise: Handelt es sich um Inhalte, die grundlegend sind, so muss darauf geachtet werden, dass diese stets wiederholt werden (erneute Einfügung in den Regelkreis, Gesetz der Übung). Damit wird sichergestellt, dass die Inhalte verstanden und verinnerlicht werden. Obwohl dieser Ansatz älteren Datums ist, so verliert dieser nicht an Aktualität hinsichtlich des Informatikunterrichts. Die Computertechnologie hat einen großen Einfluss auf die gesellschaftliche Entwicklung, die in diesem Fach in einer besonderen Art und Weise diskutiert werden kann. Vorteile wie Gefahren können in einer sehr konkreten Art und Weise besprochen werden, um die Schüler insbesondere für die Gefahren zu sensibilisieren. Mit anderen Worten, die komplexen Beziehungen zwischen Informatik, deren gesellschaftliche Folgen und die Rückwirkungen dieser Folgen auf die Entwicklung der Informatik lassen sich selbst als kybernetisches System darstellen und beispielsweise in geeigneten Simulationen verdeutlichen und analysieren. Dieser Ansatz wurde durch König und Riedel erweitert, die das kybernetische Modell als System (der logischen Struktur) erfassen und nicht nur behavioristische, sondern auch kognitive Lerntheorien berücksichtigt haben. Durch diese Erweiterung werden auch unterschiedliche Formen des Denkens berücksichtigt (Riedel 1979; Kron 1993), wie in Abb. 2-14 dargestellt. Bei den bisher betrachteten Modellen waren die Lernprozesse, meistens orientiert an behavioristischen Ansätzen, von zentraler Bedeutung. Die Adressaten, also die Lernenden, wurden primär unter dem Aspekt betrachtet, der zu messbaren und
2.3 Didaktische Modelle und Lernen als Leitbegriff
105
beobachtbaren Verhaltensänderungen führt, die ihrerseits steuerbar sind. Das folgende Modell, das in der Praxis einen hohen Bekanntheitsgrad erlangt hat, berücksichtigt darüber hinaus noch zusätzliche Faktoren, die für den Lernprozess von Bedeutung sind. Interoperationen (unterschiedliche Arten des Denkens) ǣ ǣ ǣ
ǣ ǣ ǣ
ǡ Ȁ
ǡ
Abbildung 2-14: Denkoperationen
Für die Unterrichtsplanung ergibt sich nach diesem Modell: x x x x
Bestimmung der Ziele Bestimmung der Teilziele Bestimmung aller didaktischen Aktivitäten Bestimmung der Kontrollmaßnahmen
2.3.3
Lerntheoretischer Ansatz
Bekannt sind in diesem Kontext das Berliner Modell (Heinemann – lehrtheoretisch orientiert) und das Hamburger Modell (Schulz – lerntheoretisch orientiert), in denen die Interdependenz zwischen der Strukturanalyse und der Faktorenanalyse berücksichtigt wird. Die Strukturanalyse umfasst die konstanten und interdependenten Elemente, die allen Unterrichtsprozessen zugrunde liegen (Kron 1993). Die Strukturanalyse beinhaltet ein Entscheidungsfeld (durch Lehrende) hinsichtlich Intention, Inhalte, Methoden und Medien sowie ein Bedingungsfeld, in dem anthropogene Bedingungen (Lernende in ihrem individuellen und altersgemäßen Selbstdarstellungen), sowie situative, sozio-kulturelle und gesamtgesellschaftliche Bedingungen berücksichtigt werden. In die Faktorenanalyse gehen die entwicklungspsychologischen, lernpsychologischen sowie soziologischen Erkenntnisse ein, um die Lernprozesse sinnvoll zu gestalten. In dem Hamburger Modell werden vier zentrale Planungsebenen dargestellt: Perspektivenplanung
Langfristige Planung
Umrissplanung
Unterrichtsziele (Intentionen und Themen) Ausgangslage der Lehrenden und Lernenden
106
2 Theoretische Zusammenhänge Vermittlungsvariablen (Methoden, Medien, Organisation) Erfolgskontrolle (Selbstkontrolle der Schüler und Lehrer)
Prozessplanung
Abfolge der Unterrichtsschritte in der Zeit, Kommunikations- und Arbeitsformen
Planungskorrektur
Ständige Offenheit für aktuelle Entwicklungen (während der Realisierung des Unterrichtes)
Das Besondere an diesem Modell besteht in der Notwendigkeit der Verständigung zwischen den Lehrenden und Schülern untereinander und in der langfristigen Betrachtung der Planung (nicht nur für eine Einheit). Zusammengefasst ist, wie bemerkt, allen der hier vorgestellten Modelle gemeinsam, dass diese das Lernen als zentralen Begriff auffassen und andere Faktoren zwar sehr wichtig sind, jedoch nur bezogen auf effektive Lernprozesse. Steht Interaktion als Leitbegriff im Zentrum der Überlegungen, so rücken bestimmte Erkenntnisse aus der Soziologie und Psychologie in den Vordergrund.
2.4
Interaktion als Leitbegriff
Die Interdependenz zwischen Individuum und Gesellschaft bzw. Kultur ist eine der wesentlichen Aspekte bei der Betrachtung der Bildung (w.u.) und Interaktion als Leitbegriffe der Didaktik. Theoretisch ist das so zu verstehen, dass die Kultur die Wissensbestände sowie die kognitiven Techniken vorgibt, und die Sozialisation als Vermittlung zwischen Kultur, sozialem Kontext und Individuum aufzufassen ist. Dies drückt der französische Soziologe Pierre Bourdieu (1982) so aus, dass er kognitive Strukturen als verinnerlichte soziale Strukturen definiert. Im Laufe der Jahre haben sich drei Hauptrichtungen entwickelt, die diese Interdependenz zwischen Individuum und Gesellschaft analysieren; diese Hauptrichtungen werden hier lediglich skizziert. Der sog. sozio-konstruktivistische Ansatz basiert auf Piaget (1972), in dem die soziale Interaktion als Katalysator für die individuelle Entwicklung betrachtet wird. Lernen kann nur stattfinden, indem die Integration von Erfahrungen in präexistierende mentale Strukturen erfolgt; dies wiederum ist von einer Umwelt abhängig, mit der ein Individuum interagiert, um sich Wissen anzueignen. Im Unterschied dazu wird in sozio-kulturellen Ansatz der Schwerpunkt auf die ursächliche Beziehung zwischen sozialer Interaktion und individueller kognitiver Veränderung gelegt. Diese Überlegungen gehen auf Vygotsky zurück, der insbesondere von Karl Marx inspiriert wurde und der Überzeugung war, dass dessen metho-
2.4 Interaktion als Leitbegriff
107
disches Vorgehen für die Psychologie übernommen werden sollte. Dies bezieht sich auf soziale Aktivität, durch die individuelle mentale Funktionen entwickelt werden. Der Gedanke, dass die soziale Aktivität als zentral betrachtet werden sollte, bedeutet, dass die intellektuelle Aktivität nicht von der praktischen Aktivität isoliert wird. Zusätzlich findet die individuelle Aktivität in einem sozialen System statt und demzufolge bedeutet dies, dass höhere mentale Entwicklungen nicht ohne Einbeziehung der Kultur zu verstehen sind. In dem shared-cognition Ansatz ist die Umwelt ein integraler Teil der kognitiven Aktivität und nicht nur ein Set von Umständen in denen die kognitive Entwicklung, losgelöst von einem Kontext, stattfindet (Dillenbourg u. a. 1996). Die Umwelt umfasst, wie in den genannten Ansätzen, einen physikalischen und sozialen Kontext. Unter dem Einfluss von Soziologen und Anthropologen liegt der Schwerpunkt jedoch auf dem sozialen Kontext. In allen Ansätzen besteht eine Dialektik zwischen Individuen und Gesellschaft, die nicht ganz unproblematisch ist. Damit ist gemeint, dass einerseits die Entwicklung einer Gesellschaft von „kreativen“ Individuen abhängig ist, andererseits jedoch jede Gesellschaft, um sich selbst zu erhalten und zu funktionieren, eine gewisse Homogenität der Mitglieder braucht, d. h., die sozialen Regeln müssen von allen Mitgliedern gleichermaßen internalisiert werden (Durkheim 1984; Parsons 1976). Einerseits soll das Individuum eine eigene Persönlichkeit (Ich-Identität) entwickeln, andererseits sich konform zu den gesellschaftlichen Werte und Normen verhalten. Um eine Lösung aus diesem Dilemma zu finden, müssen wir, so Durkheim, einsehen, dass die gesellschaftlichen Regeln nicht willkürlich sind, sondern der inneren Logik und den Anforderungen der Gesellschaft entsprechen; die Normen bleiben nach wie vor eine Pflicht, verstoßen aber nicht gegen die Würde des Individuums (Durkheim 1984). Für den Lehr-Lern-Kontext sind diese Annahmen höchst anspruchsvoll, denn es geht um weit mehr als um die inhaltliche Vermittlung. Für das didaktische Handeln bedeutet es, dass das Soziale und die Interaktion in dem sozialen Kontext „Unterricht“ als wesentlich zu betrachten sind. Da es in diesem Zusammenhang sehr viele Theorien gibt, die hier noch nicht einmal erwähnt werden können, müssen wir uns auf einige Aspekte beschränken, die den Kern für den Schulalltag erfassen und für didaktische Konzepte relevant sind. Dazu gehört zunächst die Auseinandersetzung mit dem Rollenbegriff, der für jede Theorie sozialen Handelns zentral ist.
2.4.1
Die Bedeutung der Rolle
Der Rollenbegriff ist eng mit den Begriffen Position und Status verbunden. Mit Position ist der Ort oder Platz, den eine Person einnimmt, gemeint, bei dem Status
108
2 Theoretische Zusammenhänge
handelt es sich um eine bewertete Position. Es wird differenziert zwischen einem zugeschriebenen Status, den eine Person auf Grund der sozialen Herkunft inne hat und einem erworbenen Status. Dabei handelt es sich um eine Position, die auf Grund eigener Leistungen erworben wird. Die soziale Rolle wird gewöhnlich definiert als eine Gesamtheit bestimmter Verhaltenserwartungen, die an den Inhaber einer Rolle gerichtet sind. Diese Definition geht zurück auf den amerikanischen Sozialpsychologen George Herbert Mead, einem der Begründer des sog. symbolischen Interaktionismus. Gewissermaßen komplementär dazu ist die Definition, eine Rolle als eine Menge von Verhaltensregeln zu charakterisieren. Insofern nämlich die Erwartungen sozial vorgegeben sind, also als objektive bzw. generalisierte Erwartungen gelten, ergeben sich für den Rolleninhaber entsprechende Regeln, deren Befolgung eine Erfüllung der Erwartungen bedeuten. In diesen Definitionen wird also die Bedeutung einer Rolle direkt mit den Erwartungen anderer an den Rolleninhaber in Zusammenhang gebracht. Das de facto durch Erwartungen gesteuerte Handeln ist in sozialen Kontexten besonders wichtig. Es muss eine Selbstverständlichkeit sein und damit zu Recht erwartbar, dass die Schüler die Anweisungen der Lehrenden befolgen. Ein Lehrer hingegen muss sein Verhalten gemäß der Rolle anpassen und das fängt mit einer angemessenen Kleidung an. Die fachliche, soziale sowie kommunikative Kompetenz werden jeweils erwartet und müssen sich im Handeln des Rollenträgers (also Lehrers) widerspiegeln. Genau betrachtet hat ein Mensch zahlreiche und unterschiedliche Rollen, die er einnehmen muss oder will. Allgemein können die Rollen folgendermaßen klassifiziert werden: x psychische Rollen: der Beleidigte, der Zornige oder der Freigebige (streng genommen handelt es sich hier um die Charakterisierung von bestimmten Charaktertypen und damit auf jeden Fall um eine psychologische Kategorie, was man nicht mit sozialen Rollen durcheinander bringen sollte); x Primärrollen: Rollen wie Sohn oder Tochter, die eigentlich nicht erworben werden, sondern sehr früh in sozialen Kontexten zugewiesen werden; x kulturelle Rollen: verinnerlichte Basispersönlichkeiten wie der „Deutsche“, der „Türke“, der „Grieche“ – sofern es diese tatsächlich gibt; x mitmenschliche Rollen: Kollege oder Freund bzw. Freundin, die insbesondere in Alltagsinteraktionen wesentlich sind; x formale Rollen: Lehrer, Schüler, Konkurrent, Schlichter – diese sind in formalen Situationen wichtig aber auch nur in diesen; x soziale Rollen: später erworbene hauptsächlich professionelle Rollen wie z. B. Lehrer in Institutionen, Arbeiter, Arzt etc.
2.4 Interaktion als Leitbegriff
109
Diese unterschiedlichen Rollen spielen in der Schule sowohl auf der formellen als auch auf der informellen Ebene eine sehr große Rolle. In einer Stellenausschreibung werden die sozialen und formalen Rollen definiert. Hingegen beeinflussen „der Beleidigte“, der „Spaßmacher“ (psychische Rollen) oder „der Deutsche“, „der Inder“ (kulturelle Rollen) die Arbeit in der Schule.42 Die formalen Rollen sollten zu Beginn eines Schuljahres thematisiert werden, damit alle Beteiligten wissen bzw. sich daran erinnern, was ihre jeweilige Rolle bedeutet. Wir werden auf diesen Punkt zurückkommen. Die Erwartungen, die an eine Rolle gestellt werden, sind auf drei Ebenen zu differenzieren: x Muss-Erwartung: bei Erfüllung erfolgt keine Belohnung, bei Unterlassung erfolgt eine Sanktion. Derartige Erwartungen werden z. B. durch gesetzliche Vorschriften vorgegeben. Ein Autofahrer, der sich an die StVO hält, wird dafür nicht belohnt werden. x Soll-Erwartung: bei Erfüllung erfolgt keine Belohnung, bei Unterlassung erfolgt Tadel. So muss z. B. ein Lehrer seine Kompetenzen und sein Wissen permanent erweitern, ohne dass er dafür besonders gelobt wird (auch wenn das vielleicht von einigen Lehrern erwartet wird). x Kann-Erwartung: bei Erfüllung erfolgt eine positive Reaktion, bei Unterlassung erfolgt kein Tadel. Diese allgemeinen Erwartungen lassen sich erneut sowohl aus der Perspektive der Lehrenden als auch der Lernenden betrachten. Ein Lehrer, der sich nicht konform der Rolle verhält, z. B. indem er stets unvorbereitet zum Unterricht erscheint oder sich nicht an die Richtlinien hält, muss mit negativen Konsequenzen rechnen, genauso die Schüler, die ihre Hausaufgaben nicht erledigen oder dem Unterricht fernbleiben. Damit sind „Muss-Erwartungen“ nicht eingelöst worden. Ein Lehrer dagegen, der freiwillig am Nachmittag die Leitung von zusätzlichen Arbeitsgemeinschaften übernimmt, wird dafür von den Schülern und ggf. auch von deren Eltern anerkennend gewürdigt (Kann-Erwartungen). Wie eine Rolle ausgefüllt wird, ist eine Frage der Sozialisation, die, wie bereits bemerkt, als Vermittlungsinstanz zwischen Individuum und Gesellschaft betrachtet wird.
42
Wenn „der Deutsche“ oder „der Franzose“ als kulturelle Rollen definiert werden, ist natürlich gemeint, dass die entsprechenden Rolleninhaber sich auf eine typische Weise verhalten, die angeblich der jeweiligen nationalen Kultur entspricht – z. B. das berühmte Stehen bleiben eines deutschen Fußgängers an einer roten Ampel, obwohl nirgends ein Auto zu sehen ist.
110
2.4.2
2 Theoretische Zusammenhänge
Sozialisation
Allgemein wird Sozialisation definiert als die Entwicklung der individuellen Persönlichkeit, soweit diese nicht biologisch vorgegeben ist (Geschlecht und andere physische Merkmale). Der Prozess der Sozialisation, der wörtlich als „Vergesellschaftung“ übersetzt werden kann, bedeutet inhaltlich, dass ein Individuum zu einem sozialen Wesen wird und zwar durch Interaktion mit seiner Umwelt, insbesondere mit der sozialen Umwelt.43 Diese allgemeine Definition erlaubt es, die Sozialisation unter verschiedenen Gesichtspunkten zu betrachten und da es sich um die Persönlichkeitsentwicklung generell handelt, ist es nicht überraschend, dass einige theoretische Ansätze auf behavioristische, psychoanalytische oder auch kognitionswissenschaftliche Erkenntnisse zurückgreifen. In den gängigen Sozialisationstheorien besteht die Interaktion zunächst in der Übernahme der sozialen Regeln, Werte und Normen sowie der sozialen Rollen. Die Sozialisation ist entsprechend mit den Prozessen der Enkulturalisierung und Erziehung eng verbunden (z. B. Kron 1993); diese Prozesse dürfen jedoch nicht als synonym verstanden werden. Die Enkulturalisierung bezieht sich auf das Lernen der kulturellen Werte, Normen, Symbolik und Rituale sowie der Moral, die das individuelle Handeln und Denken bestimmen. Die Erziehung ist als ein Teil der Sozialisation zu betrachten, als ein geplanter und bewusster Prozess, um Einfluss auf die Persönlichkeitsentwicklung zu nehmen. Die Sozialisation wird einerseits als ein bewusster wie unbewusster Prozess der Persönlichkeitsentwicklung verstanden, der ein Leben lang anhält, und andererseits als Vermittlung der kulturellen Inhalte, die dadurch über die Generationenfolge tradiert werden. Damit erfüllt die Sozialisation eine gesamtgesellschaftliche Funktion, die von Parsons als „latent pattern maintenance“ bezeichnet wird; zu übersetzen wäre dies als „Erhaltung latenter Muster“. Die Ziele der Sozialisation werden aus verschiedenen Perspektiven analysiert, von denen die mikro- sowie die makrosoziologische Sichtweise kurz erläutert wird. Der mikrosoziologische Theorieansatz geht von der „kleinsten soziologischen Einheit“ (also von „unten nach oben“) sowie den „Wechselwirkungen zwischen den Menschen“ aus und untersucht deren Änderungen in Abhängigkeit von gesellschaftlichen Strukturen.
43
Eine vollständige Übersicht einzelner Ansätze kann hier nicht erfolgen, daher wird auf die einschlägige Literatur verwiesen.
2.4 Interaktion als Leitbegriff
111
Die makrotheoretische Perspektive hingegen untersucht gesamtgesellschaftliche Zusammenhänge und Strukturen einschließlich der korrespondierenden Weltbilder (also von „oben nach unten“), die sich auf gesellschaftliche Institutionen auswirken. Die Analyse bezieht sich auf Auswirkungen der Sozialisation und die dadurch erworbenen Fähigkeiten und Voraussetzungen, um in Rollen handeln zu können. Aus dieser Perspektive handelt es sich bei Rollen um institutionelle Rollen, die über gesellschaftliche Erwartungen an Positionsinhaber definiert sind; diese haben objektiv vorgegebene Aufgaben zu erfüllen und stehen damit in gesamtgesellschaftlichen Funktionszusammenhängen. Die unten skizzierte Theorie des kommunikativen Handelns von Habermas schließlich nimmt eine vermittelnde Position ein, indem sie beide Perspektiven als „dual“ betrachtet, die sich wechselseitig ergänzen. Beide Perspektiven spielen auch im Kontext des Schulunterrichts eine entscheidende Rolle, wie noch zu zeigen sein wird. Es wird an dieser Stelle darauf verzichtet, die einzelnen Ansätze detailliert zu beschreiben, da sie wesentlich mehr als den Bereich der Sozialisation umfassen; daher erfolgt die Konzentration auf die Aspekte, die für die Lehre von Relevanz sind.
2.4.2.1 Mikrosoziologische Perspektive: Handlungstheorie/Interaktionismus Hier steht die menschliche Handlung im Vordergrund sowie das Verstehen und Erklären des sozialen Handelns. Weber definiert soziales Handeln als Handeln „welches seinem von dem oder den Handelnden gemeinten Sinn nach auf das Verhalten anderer bezogen wird und daran in seinem Ablauf orientiert ist“ (Weber 1973, 3). Mead, der Hauptvertreter des Symbolischen Interaktionismus, hat den Schwerpunkt auf die Interaktion bzw. Kommunikation zwischen Individuen gelegt, in denen die Bedeutungen von Situationen wahrgenommen und ausgehandelt werden. Diese Prozesse beeinflussen die Persönlichkeitsentwicklung, wofür Mead die Begriffe Me, Self und I entwickelt hat, nämlich die soziale Dimension der Persönlichkeit, das Individuelle und die spontanen Aspekte des persönlichen Handelns. Dementsprechend wird die Rolle und deren Funktion definiert: Es wird davon ausgegangen, dass es sich um Interaktionsrollen handelt, wobei eine Unterscheidung erfolgt zwischen Fremdrollen (Erwartungen anderer an mich) und Selbstrolle (Vorstellung dessen, was andere von mir erwarten). Durch die Interaktion bzw. die Kommunikation zwischen Lehrern und Schülern, entstehen demnach Rollenerwartungen. Ein Lehrer muss herausfinden, was die Erwartungen der Schüler sind (Fremdrolle), in der Selbstrolle stellt sich ein Lehrer vor, was die Schulleitung, Schüler, Eltern und Kollegen wohl von ihm erwarten. Auf dieser Ebene wird die jeweilige Rolle sehr konkret erfasst und die daran geknüpften Erwartungen ausgehandelt. Streng genommen umfasst diese Definition
112
2 Theoretische Zusammenhänge
mehrere Dimensionen der Rolle: die soziale wie die formale Rolle, implizit jedoch auch die psychische Rolle, die sich auf die Persönlichkeit bezieht. Dabei muss eine gewisse Regelhaftigkeit und Voraussagbarkeit der Handlungen vorhanden sein, um das soziale Handeln aufeinander abstimmen zu können. In den Handlungen definiert und typisiert somit das Individuum gemeinsam mit Anderen die Rollen und Situationen (Berger und Luckmann 1977). Die Fähigkeiten der Typisierung werden im Laufe der Sozialisation sehr häufig unbewusst entwickelt und die meisten Individuen besitzen diese Fähigkeiten mehr oder weniger. Die Typisierung von sozialen Akteuren und Handlungssituationen ist jedoch im Alltag notwendig, da dadurch die Einschätzung und Interpretation der Situation sehr schnell geschehen kann und damit auch die Verhaltenserwartung, die jeweils vorausgesetzt wird. Weder die Inhaber von Rollen noch die Handlungssituationen sind mit anderen Inhabern und Situationen identisch. Wenn jedoch durch Typisierung eingeschätzt werden kann, dass es sich bei bestimmten Rollen und Situationen in der und der Hinsicht um etwas Typisches und damit prinzipiell Bekanntes handelt, können entsprechende Einschätzungen und darauf basierendes Handeln schnell und ohne problematisierende Überlegungen durchgeführt werden (Klüver und Klüver 2011b). Es geht hier also offenbar um eine bestimmte Generalisierungsfähigkeit (vgl. auch Teil 3). Zugleich jedoch beinhaltet die Typisierung die Gefahr des „Schubladen-Denkens“, das auf Klischees basiert. Wenn eine kulturelle Rolle lautet „der Deutsche“, „der Türke“ etc., dann verbindet Jeder damit auch bestimmte Vorstellungen (es müsste empirisch eruiert werden, wie viele Ausländer immer noch der Meinung sind, dass „typisch deutsch“ darin besteht, Sauerkraut mit Eisbein zu essen, an der roten Ampel stehen zu bleiben und ständig äußerst diszipliniert zu sein). Da Niemand davon frei ist, muss gerade im professionellen Handeln darauf geachtet werden, dass die psychischen oder kulturellen Rollen nicht mit den formalen bzw. mit den sozialen Rollen „vermischt“ werden. Gerade in der Schule muss darauf geachtet werden, denn schließlich gelten die kulturellen Rollen, falls es sie in diesem Sinne gibt, streng genommen auch für die Regionen innerhalb von Deutschland (der Bayer ist ... der Norddeutsche ist ...). Im ersten Teil wurde bereits darauf hingewiesen, dass zu Beginn eines Schuljahres Regeln ausgehandelt werden sollten, an die sich alle Beteiligten halten. Jetzt dürfte es deutlich geworden sein, dass dieses Vorgehen dem mikrosoziologischen Ansatz entspricht. Die Erwartungen, die ein Lehrer hinsichtlich des Schülerverhaltens hat, sind sehr konkret und auf eine bestimmte Schulklasse bezogen. Die Schüler ihrerseits stellen ihre Erwartungen ebenfalls konkret auf eine bestimmte Lehrperson dar und handeln Regeln aus, die für diese Schulklasse wichtig sind. Somit können
2.4 Interaktion als Leitbegriff
113
viele Missverständnisse und Fehlverhalten vermieden werden, wenn die jeweiligen Erwartungen explizit gemacht wurden. Hinsichtlich der Typisierung muss sich ebenfalls Jeder bewusst sein, dass diese erfolgt – gewollt oder ungewollt. Lehrer typisieren häufig die Schüler als „gut“, wenn sie sich direkt zu Beginn einer Schulstunde melden. Dies ist ein Trick, der dann gerne bewusst verwendet wird. Diese Schüler lernen sehr schnell, dass kluge Fragen bzw. Antworten zu Beginn eines Schuljahrs häufig dazu führen, dass man anschließend in Ruhe gelassen wird. Umgekehrt werden Lehrer ebenfalls typisiert: Lehrer lassen sich durch bestimmte Fragen vom Unterricht ablenken und sie erzählen dann gerne Anekdoten aus dem Leben. Die Schüler können erstaunlich gut und schnell einschätzen, welche Lehrer dazu zählen. Natürlich zählen die negativen Typisierungen ebenfalls dazu, die sich häufig in Vorurteilen bemerkbar machen, und die Pflicht eines Lehrers besteht darin, sich von diesen, sofern vorhanden, zu befreien. Es ist darauf zu achten, dass diese Typisierungen auch von Anderen übernommen werden können. Hat ein Kollege bestimmte Schüler negativ typisiert, so kann dadurch unbewusst das eigene Verhalten gegenüber diesen Schülern beeinflusst werden. Die psychischen Rollen sind ebenfalls sehr schnell identifizierbar. Jede Gruppe hat einen „Clown“ oder einen „Sündenbock“. Diese zugewiesenen Rollen müssen beobachtet werden, denn schließlich soll der „Spaßmacher“ seine Grenzen kennen. Der „Sündenbock“, der schnell zum Außenseiter wird, sollte ebenfalls schnell identifiziert werden; wir zeigen weiter unten in einer Simulation, wie ein Programm (und ein Lehrer) diese Identifikationen vornehmen können. Die Aufgabe von Lehrenden besteht darin, dass nicht zugelassen wird, dass Jemand zum Außenseiter wird, es sei denn, dieser wünscht es ausdrücklich (eine Frage der Diskrimination). Die eigentliche Aufgabe der Sozialisation aus der mikrosoziologischen Perspektive besteht jedoch darin, Grundqualifikationen zu vermitteln und zu erwerben, die zur Identitätsentwicklung führen. Zu diesen Qualifikationen gehören u. a. Interpretations- und Symbolisierungsfähigkeit (Sprache, Kommunikation; s.w.u), Rollendistanz, Empathie, Identitätsdarstellung, Ambiguitätstoleranz und Frustrationstoleranz.
2.4.2.2 Persönliche Identität und ihre vier Teilfähigkeiten Die eigene Persönlichkeit spielt in jedem Lehr-Lern-Kontext eine wesentliche Rolle. Die Persönlichkeitsentwicklung gehört nicht zufällig zu den wichtigsten Themen in der Soziologie bzw. Sozialpsychologie, zumal die Persönlichkeit, oder anders ausgedrückt die eigene Identität, zeitlichen Veränderungen unterliegt. Somit kann man nicht davon ausgehen, dass man die jeweilige Identität einmal erlangen und dann für immer bewahren kann. Veränderungen in den verschiedenen Entwick-
114
2 Theoretische Zusammenhänge
lungsphasen können sogar dazu beitragen, dass die Identität aus dem Gleichgewicht gerät und neu bestimmt werden muss. Es wurde bereits mehrfach betont, dass eine der zentralen Aufgaben der Schulbildung darin besteht, den Schülern bei ihrer Persönlichkeitsentwicklung zu helfen. Hier werden lediglich vier Teilfähigkeiten dargestellt, die uns in diesem Kontext als besonders wichtig erscheinen, nämlich Rollendistanz, Empathie, Konfliktfähigkeit und Selbstdarstellung (Krappmann 1969; Habermas 1973; Stoica-Klüver et al. 2007). Die Reflexion der Lehrenden hinsichtlich der eigenen Kompetenzen ist sehr wichtig, damit auch den Schülern bei ihren Identitätsproblemen geholfen werden kann.
Rollendistanz Es wurde bereits erwähnt, dass die Übernahme sozialer Rollen in mehrfacher Hinsicht zu den wichtigsten Bedingungen sozialen Handelns gehört. Zugleich ist die Fähigkeit zur Rollendistanz unabdingbar für das professionelle Ausführen einer Rolle und damit sind bestimmte Bedingungen verknüpft: Die Reflexion über die eigene Rolle sowie die der Anderen, das Einschätzen einer Situation, sowie die Kritikfähigkeit. Es wurde bereits darauf hingewiesen, dass jedes Individuum mehrere Rollen übernimmt. Eine Lehrkraft ist zugleich Partner, Freund, Kind, Mutter oder Vater etc. Die Fähigkeit zur Rollendistanz bedeutet, dass man eine Rolle bewusst verlassen kann, um sich auf eine andere Rolle einstellen zu können. Dozenten und Lehrer haben zuweilen das Problem, dass sie zu Hause sich ebenfalls als Dozent/Lehrer verhalten und entsprechend alles sehr genau erklären – was manchmal zur Erheiterung oder aber auch zur Irritation bei den Familienangehörigen führen kann. Umgekehrt gilt, dass Eltern, die zugleich Lehrer sind, sich im Unterricht von der Elternrolle distanzieren und die Verhaltensweisen eines Lehrers annehmen müssen (sofern sie nicht beide Rollen völlig gleich ausfüllen). Da es sich in beiden Fällen durchaus auch um erzieherisches Verhalten handelt, müssen die jeweiligen Erwartungen und Verhaltensweisen genau reflektiert werden.44 Das Einschätzen der Situation und der eigenen Rolle sowie der Rollen anderer ist für die Persönlichkeitsentwicklung sowie für das soziale Handeln ebenfalls sehr wichtig und drückt sich häufig durch rhetorisch-kommunikative Kompetenzen
44
Das gilt besonders für die Fälle, in denen ein Lehrer gleichzeitig ein Elternteil einer der eigenen Schüler ist.
2.4 Interaktion als Leitbegriff
115
aus. Etwas genauer: Interaktionen können nur dann für alle Kommunikationspartner befriedigend ablaufen, wenn jeder Beteiligte seine Rolle, verknüpft mit den jeweiligen Erwartungen, kennt. Wir fragten z. B. Studierende in Prüfungskontexten, wie sie ihre Rolle in einer Prüfungssituation definieren, welche Erwartungen sie dem Prüfer gegenüber – in seiner Rolle – haben und welche Erwartungen wohl der Prüfer dem Kandidaten gegenüber hat. Es stellte sich heraus, dass es für Studierende gar nicht so einfach ist, diese Frage spontan zu beantworten. Das kann damit begründet werden, dass im Laufe der Sozialisation diese Regeln unbewusst vermittelt und erworben wurden und die meisten übernehmen diese Normen, ohne weiter darüber nachzudenken. Es kommt aber durchaus vor, dass Prüfungskandidaten diese Regeln tatsächlich nicht beherrschen, was innerhalb der Prüfung zu Konflikten bzw. Irritationen führt. So versuchen beispielsweise zuweilen Studierende, den Ablauf der Prüfung zu bestimmen und damit insbesondere das Verhalten des Prüfers zu beeinflussen.45 In solchen Fällen wird die Prüfung unterbrochen, damit die Regeln – natürlich von dem Prüfer – explizit definiert werden. Der Ablauf der Prüfung wird durch solche Störungen verändert, wobei Ärger bis hin zu Aggressionen auf beiden Seiten auftreten können. Die Gründe für eine Fehleinschätzung einer Situation und damit für ein unangemessenes Verhalten können vielfältig sein. Erfahrungsgemäß haben häufig die Studierenden Probleme, sich in einer Prüfungssituation anzupassen, die bereits einen Beruf ausüben und eine Führungsposition haben. Sie sind entsprechend gewohnt, selbst zu bestimmen, was in einer Situation geschieht. Der Kandidat merkt dann z. B. aufgrund der Aufregung nicht, dass er auch den Verlauf der Prüfung selbst bestimmen möchte. Dies geschieht meistens ohne Absicht, es handelt sich um die „Macht der Gewohnheit“ und ein kleiner Hinweis vom Prüfer reicht gewöhnlich aus, damit sich der Kandidat adäquat verhält. Dieser Punkt wird unten erneut aufgegriffen, da es für viele ein Problem ist, sich sehr schnell einer neuen Situation anzupassen, wenn die Rollen innerhalb kurzer Zeit wechseln. Darüber hinaus kann eine derartige Fehleinschätzung der Situation bei Persönlichkeiten entstehen, die nicht in der Lage sind, Menschen und Situationen richtig einzuschätzen, bzw. zu typisieren. Im Laufe der Sozialisation lernt man das Verhalten anderer Menschen sowie das eigene einzuschätzen und entsprechend zu interpretieren. Dies ist natürlich auch mit den persönlichen Charakteristika der jeweiligen Menschen verbunden. Es ist z. B. sehr wahrscheinlich, einem sehr gro-
45
Die Autorin hat tatsächlich in der Erwachsenenbildung eine noch irritierendere Erfahrung gemacht, indem ihr eine Teilnehmerin vor der Prüfung einen Zettel geben wollte, auf dem die Fragen notiert waren, die in der Prüfung gestellt werden sollten.
116
2 Theoretische Zusammenhänge
ßen Mann mit breiten Schultern und mit einem durchdringenden Blick eher freiwillig aus dem Weg gehen. Es sind sicher eigene Erfahrungen oder Regeln, die einem sehr früh in der Kindheit vermittelt wurden, dass man die überlegene physische Stärke bei Anderen besser nicht unterschätzen sollte und dass häufig die eigene Redegewandtheit in Konfliktsituationen eher sekundär ist.46 Erfahrungen, die in unterschiedlichen Interaktionssituationen gesammelt werden, führen bei einer erneuten Konfrontation zu Typisierungen, die im Alltag sehr hilfreich sind, da wir dann schnell auf andere reagieren können, ohne ständig darüber nachzudenken. Bei der Typisierung spielt auch der erste Eindruck eine wesentliche Rolle, da in diesem Fall Jemand nach einer kurzen Begegnung eingeschätzt wird und entsprechend in die eigenen Ordnungsmuster („Schubläden“) einsortiert wird. Dies ist natürlich nicht unproblematisch, denn es setzt voraus, dass eine sehr differenzierte Wahrnehmung erfolgt und man selbst über entsprechend vielfältige Handlungsmuster verfügt, sich also situationsgemäß unterschiedlich verhalten kann. Nehmen wir dazu beispielsweise an, dass eine eher dominante Persönlichkeit die Erfahrung gemacht hat, dass ein Lehrer, der locker und freundlich ist, sich leicht lenken oder einschüchtern lässt; nehmen wir weiter an, dass diese Persönlichkeit es mit einem Prüfer zu tun hat, der eben diese Verhaltensweisen hat. Die Prüfungssituation ist für einen solchen Kandidaten dann dadurch geprägt, dass die soziale Typisierung lediglich nach diesen Kriterien erfolgt und der Kandidat davon ausgeht, dass er den Prüfer ebenfalls dominieren kann. Die soziale und institutionelle Situation wird dabei übersehen, was zu unschönen Konflikten führt oder führen kann. Eine solche Person ist nicht in der Lage, Andere richtig einzuschätzen, da lediglich eine reduzierte Wahrnehmung stattfindet. Zusätzlich besteht häufig das Problem, dass die Einsicht fehlt, das Fehlverhalten zu verändern, und dass man dieses auch noch rechtfertigen will. Dies bedeutet in der Konsequenz, dass diese Person die eigene Rolle sowie die der Anderen nicht richtig einschätzen kann und entsprechend auch nicht die erwarteten Verhaltensweisen zeigt. Der soziale Misserfolg ist bei einem derartigen Mangel an Einschätzungsfähigkeit praktisch vorprogrammiert. Der Aspekt der Rollenbestimmung sowie der „richtigen“ Einschätzung der Situation kann somit nicht ernst genug genommen werden, wenn eine Interaktion für
46
Eben dies ist dem Autor zu Beginn seiner Militärzeit geschehen, worauf er beschloss, sich einige Techniken in Kampfsportarten anzueignen.
2.4 Interaktion als Leitbegriff
117
alle Beteiligten befriedigend laufen soll. Lehrende sollten immer wieder den Schülern dies deutlich machen, damit sie lernen, sich sozial adäquat zu verhalten. Es gibt aber noch eine andere Möglichkeit, die Rollendistanz aufzufassen und zwar nicht als Verlassen einer Rolle, um eine andere zu erfüllen, sondern als Distanz zu der Rolle, in der man sich gerade befindet. Zuweilen ist es erforderlich, dass die Erwartungen anderer sowie die eigenen Erwartungen bedacht werden. Wie kann man sicherstellen, dass man noch eine Rolle richtig ausfüllt, wenn man sich nicht von „außen betrachtend“ damit beschäftigt? Die Rollendistanz ist in diesem Sinne also mehr als Reflexion der aktuellen Rolle zu interpretieren. Dies ist insbesondere dann wichtig, wenn bestimmte Erwartungen an einen selbst vorhanden sind, die sich aber mit den eigenen Bedürfnissen oder auch dem eigenen Rollenverständnis nicht vereinbaren lassen. In diesem Fall muss man sogar die eigenen Rollen kritisieren können oder den Erwartungen Anderer nicht entsprechen. Nehmen wir wieder ein Beispiel: Als Lehrer ist man sozial sehr engagiert und kümmert sich individuell um die Schüler. Dadurch entsteht ein Vertrauensverhältnis, das weit darüber hinausgeht, was die eigentlichen Aufgaben eines Lehrenden sind. Die Erwartungen der Schüler verändern sich jedoch dadurch und es wird erwartet, dass ein Lehrer Verständnis dafür hat, wenn die Aufgaben nicht erfüllt werden, denn schließlich kennt der Lehrende die schwierige Situation eines Schülers. Wenn ein Lehrer zum Vertrauten eines Schülers wird, dem die intimsten Probleme erzählt werden, wird es höchste Zeit, dass man sich über die eigentliche Rolle Gedanken macht. Durch das eigene Engagement hat man selbst die Erwartungen verändert und man sollte sich dann kritisch damit auseinandersetzen. Wird hingegen von einem Lehrer erwartet, dass er stets distanziert handelt, und es werden nur bestimmte Verhaltensweisen zugelassen, so muss der Lehrende in der Lage sein, diese Rollenzuschreibung zu kritisieren und sich ggf. zu widersetzen, sofern er diese reduzierten Rollenerwartungen nicht für richtig hält. Das gilt natürlich auch für die Schüler. Dabei ist jedoch zu bedenken, dass die Schüler sich zunächst ihrer Rolle bewusst sein müssen sowie der Tatsache, dass für sie Rollendistanz bedeutet, dass sie in der Schule nicht primär Kinder oder Teenager sind, wenn sie es auch im biologischen Sinne durchaus sind, und sich demnach nicht wie zu Hause benehmen können. Zumindest wird in den Medien deutlich, dass die Schüler durchaus gelernt haben, ihre Rolle zu kritisieren, indem Schüler bei permanenter Erhöhung des Leistungsdrucks dagegen demonstrieren, dass sie nur noch als Schüler, die sehr viel lernen müssen, betrachtet werden und nicht mehr als soziale Wesen, die auch noch andere Interessen als die Schule haben. Durch die Beispiele wird deutlich, dass die Rollendistanz notwendig ist, um die Erwartungen, die mit einer Rolle verknüpft sind, zu hinterfragen und zwar sowohl die eigenen Erwartungen als auch die der Anderen. Rollen müssen reflektiert und
118
2 Theoretische Zusammenhänge
ggf. kritisiert werden; Rollenerwartungen nicht zu erfüllen unterliegt keiner Beliebigkeit, sondern kann nur das Ergebnis einer systematischen und gründlichen Reflexion sein. Im anderen Fall liegt eine falsche Rolleninterpretation vor. Besonders hervorzuheben ist, dass die Fähigkeit zur Rollendistanz für die Entwicklung der eigenen Identität (Persönlichkeit) äußerst wichtig ist. Findet nämlich eine zu intensive Identifizierung mit einer bestimmten Rolle statt, dann wird die eigene Persönlichkeit auf eben diese Rolle reduziert und verschwindet damit partiell.
Einfühlungsvermögen (Empathie) Der Begriff Empathie, der aus der Psychologie stammt, wird sehr häufig im Alltag primär mit Emotionen assoziiert: man soll sich in die Gefühle oder in die Denkweise anderer hineinversetzen, aber eben auf emotionaler Ebene. Empathie bedeutet im Allgemeinen, Gefühle der Zuneigung oder Abneigung, des Vertrauens oder Skepsis etc. bei sich selbst und bei anderen wahrzunehmen und adäquat zu interpretieren. Genau betrachtet, erfordert Empathie aber eine sehr genaue Analyse der Situation. Es ist nicht gerade hilfreich, wenn man selbst fürchterliche Zahnschmerzen hat, dies mitteilt und es in der Umgebung plötzlich nur so von Personen wimmelt, die genau wissen, wie man sich fühlt, denn diese Schmerzen hat natürlich jeder genau in dieser Intensität gefühlt. Noch „hilfreicher“ ist es, wenn dann auch noch grausige Geschichten erzählt werden, wie die Behandlung zu noch mehr Schmerzen gefühlt hat. Interessanterweise verstehen sehr viele Menschen genau das unter Empathie, wo man sich fragen muss, wo da denn das Einfühlungsvermögen ist.47 Tatsache ist, dass wir uns nur sehr bedingt in andere Menschen hineinfühlen können; wir können anhand ähnlicher Erlebnisse lediglich annehmen, dass es eine unglückliche, freudige oder andere Situation ist und dass man sich entsprechend als Zuhörer verhalten muss. Wenn ein Schüler eine unglaubliche Angst vor der Prüfung hat, dann bedeutet Einfühlungsvermögen eines Lehrers, dass er genau beobachtet und überlegt, ob der Betroffene nun aufmunternde Worte, Beruhigung, Ablenkung oder schlicht nur Ruhe braucht. Und das entspricht eben einer kognitiven Analyse der Situation, da man sich zumindest vorstellen kann, dass es für eine andere Person jetzt ähnlich unangenehm sein dürfte, wie es damals für einen selbst war. In dieser Situation ist es aber notwendig, nicht davon auszugehen, was wir normalerweise brauchen, sondern was für den Anderen in dieser speziellen Situation hilfreich ist.
47
Anderseits mag es durchaus Personen geben, die eine derartige Form der Teilnahme als hilfreich empfinden. Wir können hier nur aus unserer Sicht sprechen.
2.4 Interaktion als Leitbegriff
119
Demnach kann Empathie verstanden werden als eine emotional-kognitive Fähigkeit, die eine angemessene Interpretation fremder Äußerungen oder Verhaltensweisen ermöglicht, bedingt durch das Erlebnis gemeinsamer Situationen und kulturelle Erfahrung. Dabei ist allerdings zu bedenken, dass wir in fremden Kulturen in dieser Hinsicht starken Einschränkungen unterliegen, da wir bestimmte Verhaltensweisen nicht richtig interpretieren können, insbesondere dann, wenn z. B. die Bedeutung der Gestik und Mimik anders oder sogar konträr zu der uns gewohnten ist. In derartigen Fällen reicht eine rein emotionale Einstimmung auf die Anderen nicht, sondern hier müssen bewusst kognitiv-reflektierende Fähigkeiten herangezogen werden. Dies gilt freilich generell: Die Notwendigkeit zur Empathie darf nicht zu dem Fehlschluss verleiten, es ginge dabei primär um emotionale Fähigkeiten. Genauso wichtig ist es, mit kritischer Reflexion zu arbeiten, da die eigenen Gefühle sehr rasch und sehr häufig in die Irre führen können. Empathie bedeutet zusätzlich, dass erneut das Wahrnehmen und Einschätzen der eigenen Rolle und der Rollen der Anderen in einer bestimmten Situation und der damit verbundenen Verhaltensweisen erfolgt. Häufig wird übersehen, dass bestimmte Verhaltensweisen in einer speziellen sozialen Rolle gefordert werden, die der entsprechenden Person unter Umständen in anderen Kontexten gar nicht bekannt sind. Gehen wir von einem Schuldirektor aus, der überwiegend gut gelaunt ist, sehr freundlich und locker mit dem Kollegium umgeht. Die Stimme ist entsprechend weder laut noch autoritativ. Es herrscht immer das Gefühl der Gleichberechtigung in seiner Gegenwart. Dann ist der Schuldirektor in einer schwierigen Situation, wo er bestimmen muss, wie die Sachen erledigt werden. Plötzlich wird eine starke Veränderung festgestellt, nämlich eine bestimmende, autoritative Stimme und eine Körperhaltung sowie Mimik und Gestik, die keinen Widerspruch dulden. Das ist zunächst irritierend, da die Erwartung hinsichtlich des Verhaltens des Schuldirektors plötzlich nicht mehr erfüllt wird. Gleichzeitig muss Einem bewusst werden, dass diese „neue, unbekannte Verhaltensweise“ zu der sozialen Rolle und in dieser Situation gehört. In solchen Fällen ist es hilfreich, sich Gedanken darüber zu machen, dass die Verhaltensweisen, die zu einer Rolle gehören, sehr vielfältig sind, auch wenn diese nicht permanent in der ganzen Breite gezeigt werden. Häufig müssen wir also einen Perspektivenwechsel vornehmen, wenn wir die Verhaltensweisen anderer richtig verstehen wollen. In diesem Fall bedeutet Empathie, dass wir in der Lage sind, die Rolle des Anderen insgesamt wahrzunehmen und zu interpretieren – aus seiner Sicht, auch wenn wir uns selbst vielleicht in dieser Situation anders verhalten hätten. Das eigene Verhalten sowie das Verhalten der Anderen muss demnach genau eingeschätzt werden. Häufig ist es einem nicht bewusst, dass das eigene Verhalten auf Andere z. B. provozierend wirkt (siehe auch 4. Teilfähigkeit). Für einen Lehrer ist es z. B. wichtig, die eigene Mimik und Gestik, Tonfall, Körperhaltung etc. „von
120
2 Theoretische Zusammenhänge
innen heraus“ genau zu prüfen, um sagen zu können, ob man jetzt entspannt oder eher angriffslustig wirkt (Stoica-Klüver et al. 2007). Da ist es hilfreich, sich vor Unterrichtsbeginn zu kontrollieren, tief durchzuatmen und sich auf die Situation bewusst einzustellen. Entsprechendes gilt für das Verhalten Anderer: Die Schüler haben häufig ganz andere Probleme zu bewältigen, die nicht sehr viel mit der eigenen Person (des Lehrers) zu tun haben. Die Schüler reagieren demnach vielleicht in einer Situation gereizt, weil sie mit anderen Dingen oder einem immer noch vorhandenen Ärger beschäftigt sind. Dieses Verhalten muss richtig eingeschätzt und interpretiert werden. Hier entstehen unter Umständen sehr schwierige Rückkopplungseffekte, die in der Situation selbst nicht unbedingt erkennbar sind. Es gibt noch einen anderen Aspekt in sozialen Gruppen, der für einen Lehrenden sehr irritierend sein kann, nämlich den, dass einige Schüler ständig ungefragt und zum Teil auch unqualifiziert ihre Meinung unbedingt äußern müssen. Es gibt natürlich auch das umgekehrte Problem: Man braucht für die Diskussion die Meinung von Schülern und diese entpuppen sich als Dauerschweiger. Auch hier weiß man aus der soziologischen Analyse von Gruppen, dass solche Verhaltensweisen praktisch in jeder Gruppe vorkommen. Dies gilt insbesondere wenn ein Lehrer eine neue und ihm unbekannte Schulklasse betritt. Eine sehr differenzierte Beobachtung ist in solchen Fällen von Vorteil: Die Dauerredner können die Schüler sein, die bestimmen, was in der Gruppe passiert, oder schlicht Schüler sein, die sich wichtig machen möchten, sonst aber keine Bedeutung haben. Dies gilt auch für die Schweiger. Es kann Desinteresse an einer Thematik sein aber auch, dass sie sich in der Gruppe eingeschüchtert fühlen. Ein Lehrer muss entsprechend seine Verhaltensweisen anpassen. Eine Fehleinschätzung der Gruppenmitglieder kann dann nicht selten zu unangenehmen Konsequenzen führen. Empathie bedeutet demnach in solchen Fällen, dass wir erkennen können, worin das irritierende Gruppenverhalten einzelner Mitglieder begründet ist. Einfühlungsvermögen bedeutet auch die Fähigkeit zu erkennen, dass andere Menschen in bestimmten Situationen ihre Denkweise nicht ändern werden (oder können); daher ist es wichtig, einerseits mit Toleranz zu reagieren, aber andererseits die eigene Position nicht zu verlassen. Ein einfaches Beispiel mag dies illustrieren: Insbesondere wenn es um Glaubensfragen geht, können wir sicher davon ausgehen, dass es sehr schwer ist, einen Menschen, der fest in einer bestimmten Religion verwurzelt ist, von der eigenen anderen Religion zu überzeugen oder auch davon, dass die Religion im öffentlichen Leben keine Rolle spielen sollte. In diesem Fall ist es wichtig, dass beide Personen ihre Positionen beibehalten können, da hier die Toleranz eine wichtige Rolle spielt, also dem jeweils Anderen die Legitimität seiner Position zuzuerkennen.
2.4 Interaktion als Leitbegriff
121
Natürlich ist dies nur scheinbar ein einfaches Beispiel, da es zumindest in unserer Kultur eine Selbstverständlichkeit ist, dass jeder seinen Glauben haben kann und andere tolerant darauf reagieren. Wie schwierig dies jedoch in der Institution Schule ist, zeigte die mehrfache Diskussion, ob moslemische Lehrerinnen in der Schule ein Kopftuch tragen dürfen oder nicht. In diesem Fall ist es nicht möglich, die äußeren Merkmale einer Religionszugehörigkeit zuzulassen; denn diese sind zugleich mit bestimmten Moralvorstellungen verbunden, die nicht mit unseren kulturellen Grundwerten vereinbar sind. Hier muss erneut eine Rollendistanz erfolgen: Einerseits kann man als Privatperson der Meinung sein, dass die Religionsfreiheit auch die Toleranz von religiösen Symbolen erfordert. In der Rolle eines Politikers oder eines Schuldirektors ist dies nicht mehr möglich, da in diesem Fall die höher gestellten Werte und Normen gelten. Entsprechend muss ein Lehrer erkennen können, dass seine öffentliche Rolle verlangt, seine religiösen Überzeugungen nicht in seiner beruflichen Rolle zu dokumentieren.48 Handelt es sich jedoch z. B. um politische Debatten, dann stellt man häufig fest, dass es da sehr schwer ist, dem anderen seine eigene Position zuzugestehen. Dann dominiert der Wille, den Anderen unbedingt umzustimmen, zu überzeugen. Wenn die Fähigkeit zur Toleranz fehlt, dann ist es kaum möglich, konfliktlos mit dem Anderen umzugehen. In solchen Fällen muss man sich deutlich machen, dass es nun einmal in Fragen, wo subjektive Wertungen dominieren, keine eindeutige Lösung gibt, die auch objektiv und damit für Alle die richtige ist. Die eigene subjektive Perspektive verlangt ebenso Einsicht darin, dass Andere in bestimmten Fragen nicht überzeugt oder zum Umdenken bewegt werden können. Im LehrLern-Kontext ist dies gewiss ein schwieriges Problem, denn ein Lehrer wird sich häufig im Recht fühlen und den Schülern nicht immer eingestehen können, dass sie aus ihrer Perspektive ebenfalls Recht haben. Dies Problem tritt natürlich vor allem in Fächern auf, bei denen Meinungen häufig eine wichtige Rolle spielen – im Gegensatz zur Informatik oder der Mathematik.
Konfliktfähigkeit bzw. Ambiguitätstoleranz (Ertragen von Mehrdeutigkeit) Wir alle kennen die Situation, dass man als Schüler zu einem Lehrer bestellt wird, um sich dessen Kritik an der eigenen Arbeit anzuhören. Man mag die Kritik für berechtigt halten oder auch nicht – die Erwartungen an die eigene Rolle als Schüler (oder auch als Student) bestehen in dieser Situation darin, dass man die Kritik erst einmal akzeptiert. Natürlich ist ein derartiges Akzeptanzverhalten sehr schwierig,
48
Man muss freilich kritisch anmerken, dass unsere Gesellschaft hier nicht immer konsequent ist. Wenn das Tragen von Kopftüchern für moslemische Lehrerinnen untersagt wird, dann ist die in einigen Bundesländern immer noch vorhandene Praxis, in Räumen öffentlicher Schulen Kreuze aufzuhängen, kaum zu legitimieren.
122
2 Theoretische Zusammenhänge
wenn man sich im Recht glaubt. Dennoch muss man erst einmal den Konflikt zwischen der eigenen sozialen Rolle und dem Gefühl oder Bewusstsein, im Recht zu sein, aushalten. Es wird also Konfliktfähigkeit gefordert. Dieser Punkt bedarf aber zunächst einer Klärung, da die Auffassungen von Konfliktfähigkeit durchaus divergieren, je nachdem, ob diese aus soziologischer oder psychologischer Sicht betrachtet wird. In der Soziologie wird im Zusammenhang mit Konflikten primär der Aspekt der sozialen Konflikte im Sinne von „strukturell vorgegebenen Interessengegensätzen“ sowie der Rollenkonflikte („widersprüchliche Verhaltenserwartungen“) betrachtet. In der Psychologie wird die Konfliktfähigkeit z. B. definiert als „die Fähigkeit zur Verwirklichung einer Streitkultur“, die als Voraussetzung die Verantwortungsbereitschaft für das eigene Handeln hat, wobei die Folgen eigener Handlungen realistisch eingeschätzt werden müssen. Sowohl Empathie als auch Selbstbehauptung spielen hier eine wichtige Rolle. Als zusätzliches Problem kann in diesem Zusammenhang das der Ambiguität auftreten. Ambiguität bezieht sich auf Mehrdeutigkeit der Rollen, wobei also die rollenspezifischen Erwartungen nicht eindeutig sind. Es handelt sich dabei um Erwartungsmuster, die nicht klar definiert sind. Nehmen wir an, es wird vermittelt, dass die Arbeiten in der Rolle als Lernender „ordentlich“ erledigt werden sollen. Die Frage ist natürlich, was heißt ordentlich? Soll die Arbeit in einer formal „schönen“ Fassung abgeben werden oder geht es um die Inhalte? Wenn es um die Inhalte geht, was bedeutet dies? Es handelt sich hier demnach um eine gewisse Unsicherheit, wie bestimmte Informationen interpretiert werden sollen. Entsprechend kann von Schülern verlangt werden, dass sie sich immer genau an den Anweisungen der Lehrer orientieren. Wenn nun von diesen Schülern gefordert wird, dass sie selbstständig und ggf. auch innovativ denken und handeln sollen, dann ist damit ein typisches Ambiguitätsproblem gegeben (ähnlich einer Double Bind Situation). Bei der Konfliktfähigkeit handelt es sich demnach auf einer allgemeinen Ebene um die Fähigkeit, unklare Situationen bzw. divergierende oder mehrdeutige Meinungen bis hin zur Kritik an der eigenen Person oder Meinung auszuhalten und konstruktiv damit umzugehen. Hier können dazu einige Anregungen gegeben werden: Gerade im Falle einer argumentativen Situation ist es manchmal notwendig, das eigene Denken und das Verhalten zu ändern, ohne sich selbst aufzugeben. Das ist zuweilen schwierig, denn man hat dann häufig das Gefühl, einen faulen Kompromiss eingegangen zu sein, den man eigentlich vor sich selbst nicht verantworten kann. Gehen wir von einer konkreten Situation aus, um das zu verdeutlichen: Ein junger Lehrer ist der Ansicht, dass bestimmte Inhalte in einem Projektunterricht
2.4 Interaktion als Leitbegriff
123
besonders gut vermittelt werden können, da dadurch das einsichtige Lernen gefördert wird. Vielleicht bietet es sich sogar an, dafür die Schule kurzfristig räumlich zu verlassen, damit die Lerneffizienz in einer anderen Umgebung gesteigert werden kann. Die Schuldirektion unterbindet dies und bezieht sich auf alle möglichen Rechtsverordnungen. Hier kann der Eindruck entstehen, dass sich der Schuldirektor einfach nur durchsetzen will. In diesem Fall entsteht ein Problem, wenn ggf. unwillig zugestimmt wird. In solchen Fällen ist es hilfreich, sich klar zu machen, dass ein Direktor mehr Erfahrungen hat und genau weiß, warum er bestimmte Vorgaben macht. Hier hilft es, das eigene Denken zu verändern, indem die Perspektive des Anderen angenommen wird. Sehr häufig stellt man dann fest, dass es richtig war, nicht auf der eigenen Meinung zu beharren und damit negative Konsequenzen in Kauf zu nehmen, nur weil man die eigene Position beibehalten wollte. Die eigene Persönlichkeit erleidet dann keinen Schaden, solange man sich bewusst macht, dass es eben Einsicht und kein fauler Kompromiss war, der zu einer anderen eigenen Meinung bzw. einem anderen Verhalten geführt hat. Natürlich gibt es ebenfalls die Situationen, in denen man genau zu wissen glaubt, dass man im Recht ist. Auch dann aber kann es durchaus eine richtige Einsicht sein, nachzugeben, da man die Verhältnisse nun einmal nicht ändern kann. Man kann hier ein Wort des Philosophen Hegel zitieren: „Freiheit ist Einsicht in die Notwendigkeit“. Mit Gewalt gegen die objektiven Verhältnisse an zu rennen, nur um Recht zu behalten, ist meistens kein Beweis von Persönlichkeitsstärke, sondern eher von Rechthaberei. Um Konfliktfähigkeit zu entwickeln ist es übrigens ebenfalls sehr hilfreich, nicht alle Verhaltensweisen Anderer ständig auf sich selbst zu beziehen. Eine andere und vielleicht auf den ersten Blick eher unerwartete Konfliktfähigkeit besteht darin, soziale Beziehungen aufgeben zu können, wenn diese für die Entwicklung der eigenen Persönlichkeit hinderlich sind. Ständige Konflikte oder unklare Situationen hindern die eigene Entwicklung. In diesem Fall muss man sogar die Kraft haben, sich aus den Beziehungen zu lösen. Das klingt vielleicht theoretisch sehr einfach, in der Realität ist es jedoch sehr schwierig dieser Forderung nachzukommen, wenn man z. B. die Schule wechseln soll. Ebenso problematisch ist eine Trennung in privaten Beziehungen, nämlich dann, wenn bestimmte Emotionen ein Paar zusammenhalten, zugleich aber diese Beziehung keine persönliche Entwicklung zulässt – z. B., dass ein Partner von dem anderen fordert, die beruflichen Aufgaben zu vernachlässigen, um sich ganz der Beziehung zu widmen. Man muss sich dann jedoch die Frage stellen, was langfristig für die eigene Persönlichkeit wichtiger ist. Ein Neuanfang oder das selbstbewusste Eintreten für die eigenen Bedürfnisse ist langfristig wesentlich besser, als sich stets anzupassen, aber nicht weiterzukommen. Die Entscheidung darüber, ob man sich anpassen will
124
2 Theoretische Zusammenhänge
oder nicht, muss natürlich Jeder selbst treffen. Im Falle der Schüler ist diese Situation noch wesentlich schwieriger, da die Entscheidung mitunter nicht von ihnen getroffen werden kann und für manche die Situation in einem Klassenverband oder mit bestimmten Lehrern schlicht unerträglich wird. Hier sollte ein Vertrauenslehrer das Gespräch auf mehreren Ebenen suchen, wenn das für die Entwicklung der Schüler förderlich ist. Eine wiederum theoretisch sehr schöne Forderung ist es, grundsätzlich anderen Menschen zuzuhören und immer nach einer Lösung zu suchen. Zur Konfliktfähigkeit gehört es jedoch auch, dass man Widerstand leistet, wenn die Verständigung nicht mehr möglich ist. Insbesondere dann, wenn andere Menschen nicht aufhören können zu diskutieren und zu problematisieren, obwohl es völlig klar ist, dass man zu keinem Konsens kommt, dann ist es auch angebracht, die Kommunikation zu unterbrechen und ggf. zu beenden. Im Lehr-Lern-Kontext entstehen derartige Situationen durchaus häufig, insbesondere wenn die Schüler in der kritischen Pubertätsphase sind. Mit ihnen zu diskutieren hat nicht mehr sehr viel Sinn, insbesondere dann wenn sich ein Schüler in eine Situation hineinsteigert und nicht mehr darauf achtet, dass er beleidigend wird und damit sämtliche Grenzen überschreitet. In einer solchen Situation wird dann noch in einem wütenden Tonfall gefordert, dass ein Lehrender gefälligst zuzuhören hat. In diesem Fall muss absolut konsequent die Kommunikation unterbrochen werden. Die Rollen, gedeutet als Verhaltensregeln, sind nicht unbedingt ohne Probleme auszuführen. Zwei typische Rollenkonflikte sind hier zu nennen, nämlich der Interrollenkonflikt und der Intrarollenkonflikt: Intrarollenkonflikte beziehen sich auf Konflikte innerhalb einer Rolle, wenn nämlich die Erwartungen an ein und dieselbe Rolle konträr zueinander stehen. An einem Beispiel lässt sich dies verdeutlichen: Pädagogen empfinden häufig ihre Rolle als konfliktär, da von ihnen sowohl pädagogische Förderung der Schüler als auch Selektion der Schüler in Form guter und schlechter Noten erwartet wird. Man kann sich zwar klar machen, dass pädagogisches Handeln letztlich immer mit Selektion, d. h. unterschiedlicher Bewertung der Schüler, verbunden ist. In der Praxis der Rollenausübung entsteht für viele Lehrer jedoch daraus ein Intrarollenkonflikt. Interrollenkonflikte beziehen sich auf Konflikte zwischen den einzelnen Rollen. Der Schuldirektor erwartet beispielsweise, dass Jeder an einer kurzfristig eingesetzten Lehrerkonferenz teilnimmt. Der Partner (die Partnerin) will ebenfalls an diesem Tag etwas Kostbares, nämlich Zeit. Im Normalfall ist es möglich, diese unterschiedlichen Anforderungen zu erfüllen. Jeder kennt aber mit Sicherheit Phasen, in denen sich die ganze Welt verschworen hat und man selbst das Gefühl hat, dass es einfach nicht mehr klappt, sich entsprechend aufzuteilen.
2.4 Interaktion als Leitbegriff
125
Besonders gravierend sind Interrollenkonflikte, wenn die Erwartungen an die verschiedenen Rollen unterschiedlich und vielleicht sogar widersprüchlich sind. Nehmen wir an, um auf diese gar nicht so seltene Situation noch einmal zurück zu kommen, jemand befindet sich in einer akademischen Weiterbildung, ist aber gleichzeitig Lehrer. Der Lehrer ist im beruflichen Alltag gewohnt, selbst Direktiven zu geben und die Anderen verhalten sich entsprechend (das ist zumindest zu hoffen). In der akademischen Weiterbildung besteht eher die Rolle eines „Schülers“, nämlich die des Studenten. In einer Prüfungssituation kann es dann zu den oben genannten Problemen kommen, da der Lehrer gewohnt ist, selbst zu bestimmen, wie in einer bestimmten Situation verfahren wird. Dieser emotionale Spagat ist für viele ein Problem und nicht selten entstehen dadurch innere Konflikte, die sich auch äußerlich bemerkbar machen. In jeder Lebensphase sind demnach unterschiedliche Rollen und entsprechend vielfältige Erwartungen zu erfüllen, die zum Teil nicht zusammengebracht werden können. Zur Konfliktfähigkeit gehört es, sich Strategien zu überlegen, wie unklare Situationen ausgehalten werden können, ohne dass die eigene Persönlichkeit darunter leidet bzw. ohne dass diese stagniert.
Selbstdarstellung (Identitätsdarstellung) Mit diesem Thema wird das Problem des „Selbst- und „Fremdbildes“ angesprochen. Häufig haben Menschen ein Selbstbild, das nicht dem entspricht, wie Andere Einen einschätzen. Eine Teilnehmerin eines Kurses in der Erwachsenenbildung war z. B. absolut davon überzeugt, dass sie so unscheinbar ist, dass es Niemandem auffallen würde, wenn sie fehlen würde. Die Kollegen haben sie aber ganz anders dargestellt: Sie war der Ruhepol in dem Kurs und alle haben ihren Rat haben wollen, wenn irgendwelche Schwierigkeiten vorhanden waren. Hier wird es deutlich, wie divergierend Selbstbild und Fremdbild sein können. Um Andere als Lehrende überzeugen zu können, müssen wir uns aber der eigenen Wirkung sehr bewusst sein. Die Situationen, in denen wir handeln müssen, sind zum Teil sehr unterschiedlich. Daher ist es immer wieder wichtig, den Anderen deutlich zu machen, wer man selbst ist, damit sie einen richtig einschätzen können. Man kann überwiegend freundlich sein und die Lehrerrolle ausfüllen, ohne ständig an die sozialen Unterschiede zu erinnern. Die Schüler müssen aber stets von neuem erfahren, dass es diese Unterschiede gibt. Es ist also notwendig, den Anderen immer wieder die eigene Position sowie die eigene Rolle bewusst zu machen, damit sie Einen richtig einordnen und deuten können. Dies gilt insbesondere für junge Lehrer, die äußerlich kaum von den Schülern der Oberstufe zu unterscheiden sind. Sich der Situation angemessen zu verhalten, gehört zu den wesentlichen Punkten der Selbstdarstellung. Beispielsweise ist es für viele Menschen sehr schwierig, sich hart durchzusetzen, wenn sie eher ruhig und gelassen reagieren, selbst in schwie-
126
2 Theoretische Zusammenhänge
rigen Situationen. Dennoch muss manchmal unmissverständlich deutlich gemacht werden, dass bestimmte Verhaltensweisen Anderer nicht akzeptiert werden. Dazu ist unter Umständen eine autoritative Stimme notwendig, da die Botschaft sonst nicht ankommt – für einen Lehrenden das A und O. Es ist wichtig, immer davon auszugehen, dass Andere aufgrund ihrer Sozialisation nur dann reagieren, wenn sie einen gewohnten Stil (in diesem Fall autoritativ) erfahren. Dies kann dann z. B. bedeuten, dass manche Menschen nicht auf Anhieb verstehen, dass eine freundliche Aufforderung dieselbe Konsequenz erfordert wie eine Anordnung. Hier ist ggf. ein eigener Lernprozess wichtig, da man sich den Schülern anpassen muss. Damit ist auch der bereits in dem Beispiel von „Tom“ erwähnte Satz gemeint „Man muss die Schüler dort abholen, wo sie sind“. Erst dann ist es möglich, das Verhalten der Schüler sukzessive zu verändern. Die eigene Persönlichkeit sollte jedoch dabei nicht aufgegeben werden. Umgekehrt gilt natürlich auch: Ist die eigene Persönlichkeit eher impulsiv und autoritativ, kann es passieren, dass man wenig bei Anderen erreicht. Dann besteht der Lernprozess darin, sich ruhig und gelassen zu geben, wenn es die Situation erfordert. Für die Schüler entsteht sonst sehr schnell der Eindruck, dass ein Lehrender sich gehen lässt, besonders wenn „Schimpftiraden“ entstehen. Die Selbstdarstellung gehört zu den besonders schwierigen Problemen in kommunikativen Kontexten. Es wird von Lehrenden erwartet, dass vorne eine selbstbewusste Person steht, die von sich selbst überzeugt ist und sich ihrer Persönlichkeit und dessen, was gelehrt wird, absolut sicher ist. Daher wird sehr häufig dieses selbstbewusste Auftreten trainiert bzw. propagiert. Es ist jedoch nicht einfach, da es, wie so häufig, nicht nur eine Lösung gibt. Die Selbstdarstellung ist z. B. abhängig von der physischen Statur. Natürlich wirkt eine Persönlichkeit, die sehr groß, breite Schultern etc. hat, eher einschüchternd auf die Schüler als eine kleine und zierliche Person. Da es in diesem Zusammenhang wie meistens keine Patentlösung gibt, ist es sehr häufig sinnvoll, zunächst ohnehin so vorzugehen, wie es der eigenen Persönlichkeit am ehesten entspricht. Wird anhand der Reaktionen ersichtlich, dass das Verhalten besser variiert wird, dann kann man die Richtung der erforderlichen Veränderung testen – durch nonverbale Verhaltenweisen der Schüler erhält man einige Hinweise. Wichtig ist jedoch, dass den Schülern niemals vermittelt wird, dass man darauf angewiesen ist, von ihnen gemocht oder sogar geliebt zu werden. Na-
2.4 Interaktion als Leitbegriff
127
türlich ist es schön, wenn derartige Gefühle bei den Schülern sozusagen als Nebeneffekte entstehen, aber sie sind genau dies: Nebeneffekte.49 Wesentlich schwieriger ist die Selbstdarstellung bei den Schülern. Je nach Entwicklungsphase testen sie verschiedene Selbstdarstellungen aus. Bei genauer Beobachtung wird zuweilen deutlich, welche Persönlichkeit gerade nachgeahmt wird. So wurde zumindest berichtet, dass Studierende der Juristischen Fakultät in Bayreuth sich wie der damalige Minister von und zu Guttenberg gekleidet und frisiert haben (2011). Dies konnte sicher auch in etlichen Schulen beobachtet werden. Andere kleideten sich wie der Held in „Matrix“, als diese Filme noch aktuell waren. Sie versuchen sich „cool“ darzustellen, obwohl ihr Inneres voller Unsicherheiten ist. Gerade in solchen Phasen ist es sehr gut nachvollziehbar, dass die Helden, die unerschrocken wirken, nachgeahmt werden. Für Lehrende ist es dann sehr schwierig, die Jugendlichen einzuschätzen, da es unklar ist, wie weit die „eigene“ Persönlichkeit zu einem bestimmten Zeitpunkt entwickelt ist. Hier ist die Fähigkeit der Empathie gefragt und jeder Lehrende sollte darüber nachdenken, welche Helden in der eigenen Sozialisationsphase eine Rolle gespielt haben und insbesondere warum dies der Fall war. Abfällige Bemerkungen sollten hinsichtlich der Selbstdarstellung der Jugendlichen grundsätzlich vermieden werden. Die beschriebenen vier Teilfähigkeiten können mitunter von Erwachsenen nicht eingelöst werden. Wie viel schwerer ist es für die Jugendlichen, die diese Teilfähigkeiten überhaupt erst erwerben müssen. Da ist es die Aufgabe der Lehrenden, sie auf diesen schwierigen Weg zu begleiten und zu hoffen, dass eine Identitätsbalance hergestellt wird, von der im Folgenden die Rede ist.
Identitätsbalance Es wurde bereits darauf hingewiesen, dass sich die eigene Identität im Laufe der Jahre und je nach Lebenssituationen verändert. Zu der Identität gehören aber viele Teilaspekte, die wir hier nur partiell betrachtet haben. Diese Teilfähigkeiten können unterschiedlich stark geprägt sein. Daher sprechen Sozialwissenschaftler von der Notwendigkeit, Identität zu „balancieren“ und neu „auszuhandeln“. Das geschieht wesentlich in der Auseinandersetzung (genauer: Interaktion) mit den Mitmenschen und bedeutet vor Allem, dass die (vier) verschiedenen Teilfähigkeiten, die wir bisher thematisiert haben, in ein ausgewogenes Verhältnis zueinander gebracht werden müssen. So kann es etwa geschehen, dass durch eine Häufung be-
49
Man muss es nicht gleich so grimmig formulieren wie der römische Kaiser Tiberius „fremant dum timeant“ (mögen sie murren, wenn sie nur gehorchen), aber es steckt ein Körnchen Wahrheit in diesem Motto. Ein Lehrer muss über Autorität verfügen und nicht unbedingt über eine liebenswerte Persönlichkeit.
128
2 Theoretische Zusammenhänge
stimmter Situationen die Fähigkeit zur Selbstdarstellung besonders stark entwickelt werden musste, wobei gleichzeitig die Fähigkeit zur Empathie eher unterentwickelt wurde. Damit die entsprechende Persönlichkeit nicht zu einem unsensiblen Selbstdarsteller wird, müssen Selbstdarstellung und Empathie neu ausbalanciert werden. Identitätsbalance bedeutet jedoch auch, dass die eigene subjektive Persönlichkeit mit den objektiven Anforderungen der sozialen Umwelt in Einklang gebracht werden muss. Soziale Normen, die der Persönlichkeit vorgegeben werden, müssen internalisiert werden und damit in gewisser Hinsicht ein Teil der eigenen Persönlichkeit werden. Dies meint Mead, wenn er von dem „Me“ als dem Teil der Persönlichkeit spricht, der den objektiven Normen und Werten einer Gesellschaft entspricht. Geschieht diese Internalisierung nicht, bleibt die Persönlichkeit fremdbestimmt und kann nicht zu einer eigenen Identität finden. Entsprechend kann man sich die thematisierte Notwendigkeit der Entwicklung einer Konfliktfähigkeit so vorstellen, dass das Bedürfnis, Recht zu behalten oder zu bekommen, in Balance gebracht werden muss mit der Einsicht in die objektiven sozialen Verhältnisse. Es ist einsichtig, dass dies nur durch einen ständigen Prozess erreicht werden kann, da soziale Situationen häufig wechseln. Dies ist gemeint, wenn davon die Rede war, dass Identität ein ständiger Prozess ist und nicht etwas, was man einmal erwerben und dann behalten kann. Die unterschiedlichen Erwartungen auf gesellschaftlicher wie individueller Ebene führen häufig zu Konflikten. Wenn es jedoch gelingt, die eigene Persönlichkeit zu festigen, dann ist man auch in der Lage, die schwierigen Situationen zu meistern. Dies gehört aber zu den langfristigen Zielen, da gerade in Entwicklungsphasen die eigene Sicherheit sehr häufig reduziert wird; in derartigen Phasen sind ja gewöhnlich Andere in der höheren Position. Wünschenswert wäre es auch, wenn das Ziel endlich erreicht ist, dass man selbst nicht vergisst, wie schwierig die Entwicklung war und dass man rücksichtsvoll und mit Empathie auf Andere reagiert, die erst ihren Weg gehen müssen. Schüler würden sehr viel davon profitieren, denn es sollte niemals vergessen werden, dass manche Jugendliche, die vielleicht sehr viel Potential hatten, durch die Verhaltensweisen der Lehrer sehr demotiviert wurden, bis sie schließlich aufgaben. Lehrer sollten verständnisvoll reagieren, da sie die professionell Handelnden sind, den Schülern aber erklären, warum bestimmte soziale Regeln eingehalten werden müssen. Häufig hilft es, wenn den Schülern das eigene Verhalten vor Augen geführt wird. Wenn beispielsweise Schüler einfach den Klassenraum verlassen, ohne um Erlaubnis zu bitten, kann man als Lehrender das mit einem strengen Tonfall und durch die Drohung mit rechtlichen Konsequenzen unterbinden oder selbst einfach ohne Vorwarnung den Raum verlassen. Letzteres sorgt erfahrungsgemäß
2.4 Interaktion als Leitbegriff
129
für eine große Einsicht. Damit wird auch erneut die Rolle des Lehrers als Modell deutlich, wodurch Schüler sehr konkret erfahren, warum bestimmte Verhaltensweisen nicht geduldet werden können und warum manche Regeln für Alle gelten und entsprechend von Allen eingehalten werden müssen. Dies führt zu der makrosoziologischen Perspektive, die sich mit generell gültigen Regeln und deren Bedeutung befasst.
2.4.2.3 Makrosoziologische Perspektive: Struktur-funktionale Systemtheorie Die struktur-funktionale Theorie ist natürlich nicht die einzige, die aus makrosoziologischer Perspektive sich dem Rollenbegriff und sozialen Strukturen zuwendet. Da sie jedoch sowohl eine der einflussreichsten Theorien war als auch sich sehr gut dazu eignet, Rollen und soziale Regeln aus der Makroperspektive heraus zu verstehen, soll sie kurz skizziert werden. In diesem Ansatz werden die sozialen Teilsysteme sowie die gesamte Gesellschaft zu erklären versucht, wobei davon ausgegangen wird, dass die Systeme eine dauerhafte Struktur haben bzw. dass diese angestrebt wird. Soziale Strukturen entsprechen Regeln, die als allgemeingültige Ordnungsprinzipien gelten und insbesondere die Rollen und Rollenerwartungen determinieren. Der Hauptvertreter dieses Ansatzes ist der amerikanische Soziologe Parsons, dem es primär darum ging, die internen Voraussetzungen für die Stabilität von Gesellschaftssystemen und zwar aus einer „ahistorischen Perspektive“ zu erklären (Parsons 1976). Parsons Theorie kann insofern auch als eine Handlungstheorie verstanden werden, da die jeweiligen dominierenden kulturellen Wertorientierungen einer Gesellschaft letztendlich die Rollenerwartungen innerhalb einer Gesellschaft bestimmen, die sich schließlich in den handelnden Individuen als Orientierungsmuster wiederfinden und von ihnen verinnerlicht werden müssen. Durch die Sozialisation werden die Fähigkeiten und Voraussetzungen zum Handeln in Rollen erworben und Parsons stützte sich sowohl auf Skinner (behavioristischer Ansatz – Bedeutung der sozialen Kontrolle und Sanktionen der Umwelt) als auch auf Freud (psychoanalytischer Ansatz – Entwicklung des Ich – Es und ÜberIch), um die Frage zu klären, wie die Übernahme und Erfüllung von Rollenerwartungen erfolgen. Die Einheitlichkeit zwischen Individuen und Gesellschaft erklärt Parsons wie folgt: „An der Basis der hierarchischen Struktur ist das Sozialsystem in konkreten Menschen als physischen Organismen verwurzelt, die in einer physischen Umwelt agieren. Als Persönlichkeit nimmt das Individuum an Prozessen sozialer Interaktion mittels verschiedener Rollen teil. Rollen sind organisiert und zu Kollektiven aggregiert, die ihrerseits durch zunehmend generalisierte institutionelle Normen gesteuert werden. Die ,Spitze‘ des Systems bildet die Gesellschaft als Gesamtsystem, heute meist in Form eines einzigen politischen Kollektivs, in dem ein einziges mehr oder minder integriertes Wertesystem institutionalisiert ist.“ (Parsons 1976, 87 f.)
130
2 Theoretische Zusammenhänge
Die Grundannahmen bezüglich der Rolle in dem struktur-funktionalen Ansatz sind demnach, dass es sich bei den Rollen um institutionelle Rollen handelt, also professionelle Rollen, deren Inhaber objektiv vorgegebene Aufgaben zu erfüllen haben. Die entsprechenden Regeln dienen in dieser Perspektive dem Zusammenhalt und der Stabilität der Gesellschaft. Die Rolle wird als „Kandare“ des Sozialsystems für seine Mitglieder betrachtet, wodurch eine einheitliche Rolleninterpretation angestrebt wird sowie ein konformes Verhalten, gesteuert durch soziale Kontrolle. Anders ausgedrückt: Rollenzuweisungen dienen dazu, zu gewährleisten, dass alle Mitglieder einer Gesellschaft sich in gleichen Situationen gemäß ihrer Rolle auch im Wesentlichen gleich verhalten. Wäre das nicht der Fall, dann gäbe es praktisch kein geordnetes Zusammenleben in einer Gesellschaft und damit gäbe es auch diese Gesellschaft nicht. Es gäbe sozusagen keine Schule (als stabile Institution), wenn nicht die verschiedenen Rollen der Lehrer und Schüler jeweils prinzipiell gleich ausgefüllt werden (ungeachtet individueller Unterschiede) und wenn nicht durch die Möglichkeit von Sanktionen eine soziale Kontrolle ausgeübt werden könnte.
2.4.2.4 Die Theorie des kommunikativen Handelns von Habermas als Vermittlung zwischen Mikro- und Makroperspektive Bei dem Versuch, sowohl Mikro- als auch Makroperspektive zu berücksichtigen, führt Habermas in seinem Hauptwerk (1981 I und II) die Dualität von Lebenswelt und (sozialem) System ein. „System“ entspricht in etwa dem Systembegriff in der struktur-funktionalen Theorie und bedeutet, vereinfacht ausgedrückt, die Gesamtheit aller objektiv vorgegebenen Strukturen, sprich Regeln, Rollen oder Ordnungsprinzipien. „Lebenswelt“ dagegen ist ein mikrosoziologischer Begriff, der den sozialen Ort der kommunikativen Interaktionen beschreibt. Dabei bedeuten kommunikative Interaktionen in der Lebenswelt eine möglichst herrschaftsfreie Form der sozialen Interaktion, die sich an Vernunftprinzipien, also der rationalen Argumentation orientiert; in Systemen operieren soziale Akteure dagegen „strategisch“ und an Regeln orientiert. Entsprechend kann man soziale Interaktionen aus einer Systemperspektive heraus betrachten und aus einer Lebensweltperspektive – das meint der Begriff der Dualität.
2.4 Interaktion als Leitbegriff
131
Dies kann an einer Anleihe aus der Welt von Asterix und Obelix verdeutlicht werden.50 Stellen wir uns einen jungen Bewohner des kleinen gallischen Dorfes mit dem schönen Namen „Studierix“ vor, der in Lutetia (bekanntlich dem heutigen Paris) Soziologie studieren konnte und zwar trotz seines Namens erfolgreich. Nach seiner Rückkehr in das Dorf konnte er die dortigen Interaktionen deswegen lebensweltlich verstehen, weil es seine eigene Lebenswelt war, die er nur zwischenzeitlich verlassen hatte. Er konnte aber auch die Interaktionen sozusagen systemisch verstehen, weil er aufgrund seiner Ausbildung in Lutetia das Dorf als soziales System betrachtete und die einschlägigen Regeln und Rollen als strukturelle Komponenten dieses Systems. Wenn z. B. der Barde Troubadix regelmäßig gefesselt und geknebelt wurde, dann verstand Studierix dies lebensweltlich als Verzweiflung der Bewohner über dessen miserable Gesänge. Systemisch konnte diese Handlung, die eine feste Tradition des Dorfes war, als eine Ordnungsvorgabe verstanden werden, die ebenfalls zu den Traditionen des Dorfes gehörigen Feste mit ihren Ritualen ungestört ablaufen zu lassen. Dass diese Rituale im Wesentlichen im Essen und Trinken bestanden, ändert an der Systemfunktion des Fesselns von Troubadix nichts. Natürlich ist auch die Lebenswelt generell, wie im gallischen Dorf, an feste Vorgaben gebunden. So wie es im Dorf eine klare Rollenverteilung gibt, so sind auch soziale Rollen in der heutigen Gesellschaft durch vorgegebene Normen und Strukturen vordefiniert. Innerhalb dieser Vorgaben jedoch können Teile der Rollen durch kommunikative Interaktionen sozusagen ausgehandelt werden, d. h. man kann sich argumentativ darüber verständigen, wie die Rollen konkret ausgefüllt werden sollen. Gerade für Schüler ist es wichtig, zu erfahren, dass man eine Rollenübernahme nicht nur vorgeschrieben bekommt, sondern dass dies auch durch die argumentative Einbringung der eigenen Vorstellungen und Bedürfnisse zumindest mit beeinflusst werden kann. Insofern kann ein Schüler, sofern die Lehrer diese Möglichkeit eröffnen, anhand derartiger Erfahrungen sehr konkret verstehen, inwiefern objektive Vorgaben und individuelle Freiheitsgrade sich in der Tat dual, man könnte auch sagen komplementär, zueinander verhalten. Für Lehrer ist dies Konzept der Dualität von Lebenswelt und System in doppelter Hinsicht wichtig: Zum einen zeigt es ihnen, dass sie eine soziale Gruppe, insbesondere eine Schulklasse oder einen Kurs, aus zweifacher Perspektive betrachten
50
Der Autor hat mehrfach in seinen Vorlesungen über Habermas festgestellt, dass gerade die Dualität von Lebenswelt und System, wenn überhaupt, am besten durch diese kleine frei erfundene Figur den Studierenden verdeutlicht werden konnte. Leser dieses Buchs, die Asterix und Obelix nicht kennen, werden um Verzeihung dafür gebeten, dass zu diesen beiden klassischen gallischen Helden keine weiteren Informationen gegeben werden. Wir verweisen auf Goscinny et Uderzo 1965 ff.
132
2 Theoretische Zusammenhänge
können und müssen. Wie Studierix müssen sie einerseits Interaktionen zwischen ihnen und den Schülern sowie Interaktionen zwischen den Schülern lebensweltlich interpretieren und auch ggf. argumentativ beeinflussen. Zum anderen müssen die Lehrer diese Interaktionen „systemisch“ verstehen, nämlich als Teil einer sozialen Ordnungsstruktur, und die Lehrer müssen ggf. auch sanktionierend eingreifen, wenn Interaktionen gegen bestimmte vorgegebene Normen verstoßen. Zum anderen können Lehrer die sozialen Rollen, die sie und die Schüler jeweils einnehmen, sowohl argumentativ den Schülern gegenüber legitimieren und die Rollen ggf. auch gemeinsam mit den Schülern soweit modifizieren, wie es in den vorgegebenen Rahmen möglich ist. Gleichzeitig jedoch muss bei der Rollendiskussion immer wieder auf den systemischen Aspekt ihrer gemeinsamen sozialen Situation hingewiesen werden, der als solcher nicht zur Disposition steht. Wir haben immer wieder auf die Beachtung dieser Dualität hingewiesen, ohne diese mit diesem Begriff zu kennzeichnen. Man kann die Theorie von Habermas letztlich als theoretische Fundierung für pädagogische Prinzipien verstehen, die sich aus „der Vernunft des Bereichs pädagogischen Handelns“ (sehr frei nach dem Philosophen Hegel) ohnehin ergeben.
Fazit Nach diesen Ausflügen in die Welt der soziologischen Theoriebildung fassen wir noch einmal zusammen: Im Unterrichtskontext müssen die formalen Rollen klar definiert sein und durch das Verhalten der Beteiligten dokumentiert werden. Der Lehrer hat nicht die Rolle eines Kumpels, der sich mit den Schülern „duzt“ (in der Oberstufe), sondern die des Erziehers und des Vermittlers von Lehrinhalten. Die Schüler müssen verstehen, dass sie bestimmte Aufgaben zu erfüllen haben und sich an bestimmte Regeln halten müssen. Daher sollte dieser Punkt zu Beginn eines Schuljahres bewusst thematisiert werden, denn die Erfahrung zeigt, dass sich die Wenigsten Gedanken darüber machen, wie ihre Rolle jeweils definiert wird und welche Erwartungen damit verbunden werden. Im Schulkontext bedeutet dieser Ansatz, dass Rollen fundamental dafür sind, dass das Funktionieren der Institution Schule sicher gestellt werden kann und zwar unabhängig von persönlichen Einschätzungskompetenzen, Gewohnheiten und emotionalen Bedürfnissen. Alle Beteiligten wie Lehrer oder Schüler kennen ihre jeweiligen Rollen und verhalten sich entsprechend; damit wird die Effizienz des Handelns gesteigert, da das Verhalten und die Erwartungen der Beteiligten nicht ständig neu definiert werden müssen und eine Fehleinschätzung der Situation leicht korrigiert werden kann. Ein derartiges Rollenverständnis erleichtert eher dem Lehrer die schnelle Festlegung der Rollen und die damit verknüpften
2.4 Interaktion als Leitbegriff
133
Verhaltenerwartungen, da die institutionellen Regeln klar dargestellt werden können und es dem Schüler nur übrig bleibt, diese Regeln zu befolgen. Dies kann man auf unterschiedliche Bereiche und Institutionen übertragen. Somit sind Rollen und die damit verknüpften Verhaltensregeln wesentlich, damit die Rollenauslegungen für alle Beteiligten einheitlich sind. Die skizzierten unterschiedlichen soziologischen Ansätze haben etwas gemeinsam, und zwar, dass mit dem Begriff der Rolle grundsätzlich auch Erwartungen verknüpft sind, sei es im individuellen oder im gesellschaftlichen Kontext. Die Erwartungen beziehen sich z. B. darauf, wie eine Rolle ausgefüllt werden soll. Unübertroffen hat Mead das Problem der Rollenübernahme behandelt, und zwar anhand eines Fußballspiels: Jeder Spieler muss seine eigene Rolle kennen und die entsprechenden Erwartungen, die daran verknüpft sind. Ein Torwart hat bekanntlich die Rolle, alle Bälle (nach Möglichkeit) abzuwehren. Er wiederum muss sich auch auf die Abwehr verlassen können, dass die Spieler rechtzeitig vor dem Tor stehen, um den Torwart zu unterstützen etc. Jeder wäre sehr irritiert, wenn der Torwart plötzlich beschließen würde, dass er lieber mitläuft und selbst versucht ein Tor zu schießen – und zwar während des Spiels (beim Elf-Meter-Schießen durchaus anders)51. Es ist demnach ein Zusammenspiel zwischen Erwartungen und Handlungen, die jeweils aufeinander abgestimmt werden müssen. Natürlich hat jeder Rolleninhaber aber auch Freiheiten, wie er individuell die Rolle ausfüllt. Sepp Maier (ehemals FC Bayern München) nutzte die Zeit, die er einsam im Tor stand, um Enten nachzujagen oder das Publikum anzusprechen bzw. zu unterhalten. Mit der Rollenübernahme braucht man also nicht auf individuelle Persönlichkeitsmerkmale zu verzichten, zumindest solange die Handlungen den rollenspezifischen Erwartungen entsprechen, wenn es darauf ankommt. Dadurch wird es deutlich, dass jeder Lehrer die Möglichkeit hat, seinen Unterricht gemäß der individuellen Persönlichkeit zu gestalten. In jeder Institution gibt es Freiheitsgrade, die einem Lehrer erlauben, seine Rolle in einer besonderen Art und Weise zu gestalten und die Inhalte zu vermitteln. Wichtig ist nur, dass diese Freiheitsgrade sich innerhalb der institutionell und gesellschaftlich vorgegebenen Richtlinien befinden.
2.4.3
Die fünf Axiome der Kommunikation52
Pädagogische Prozesse sind natürlich eine besondere Form von kommunikativen Prozessen. Von daher ist es eigentlich selbstverständlich, dass ein Lehrender etwas
51
Der ehemalige Nationaltorwart Jens Lehmann hat allerdings genau dies mindestens einmal getan und dabei sogar ein Tor erzielt (sic!). 52 Vgl. zu den folgenden Passagen Stoica-Klüver et al. 2007.
134
2 Theoretische Zusammenhänge
von Kommunikation verstehen muss. Wir bringen deshalb – wieder notgedrungen skizzenhaft – einige Hinweise zum Thema „Kommunikation“, so weit diese für pädagogische Kommunikationen wichtig sind. Das folgende (einfache) Kommunikationsmodell gehört zu den bekanntesten und ist sehr gut als Einführung in diese Thematik geeignet (ursprünglich wurde dieses Modell von Shannon und Weaver als eine mathematische Informationstheorie entwickelt, um eine automatische Informationsübertragung zu ermöglichen):
Abbildung 2-15: Einfaches Kommunikationsmodell
Dieses Modell kann – übertragen auf eine menschliche Kommunikation – vereinfacht folgendermaßen interpretiert werden: Wer (Sender) sagt (Kanal) was (Information) aus welcher Quelle (Wissen) zu wem (Empfänger) wie (Code) über welchen Kanal wozu (Absicht/Ziel) und unter welchen Voraussetzungen (Informationsverwertung) Die Quelle kann in diesem Kontext als vorhandenes Wissen interpretiert werden; der Sender produziert entsprechend der Situation und der Absicht bzw. des Ziels eine Nachricht, die von dem Empfänger verarbeitet wird. Die Kodierung bezieht sich auf die Sprache selbst. Die individuelle Verarbeitung der Informationen muss in einer sprachlichen Form kodiert werden, um anderen die eigenen Gedanken übermitteln zu können (aber auch, um eigene neue Gedanken entwickeln zu können). Die Kodierung spielt insbesondere für Teenager eine besondere Rolle, denn sie möchten sich bewusst von den Erwachsenen absetzen bzw. von diesen nicht verstanden werden. So entstehen in jeder Generation jugendspezifische Begrifflichkeiten aber auch Pseudosprachen wie die „Löffelsprache“, um nicht verstanden zu werden. Es ist eine Frage der Fairness, ob ein Lehrender insbesondere den Mädchen mitteilt, die gerne diese Sprache verwenden, dass man diese selbst beherrscht. Zu der Kodierung einer Nachricht gehören allerdings noch zusätzliche Aspekte, wie z. B. die Stimmlage, die Betonung einzelner Wörter und die Wortwahl, die als eine spezielle Form der Kodierung interpretiert werden. Kodierungen können also bewusst eingesetzt werden, um sich von anderen abzugrenzen, aber auch, um bestimmte Effekte beim Empfänger zu erzielen.
2.4 Interaktion als Leitbegriff
135
Für den Fall der menschlichen Kommunikation wird normalerweise nicht von einer Kodierung gesprochen, sondern es wird unterschieden zwischen verbaler (sprachlicher) und nonverbaler Kommunikation. Unter dieser versteht man alle Verhaltensweisen, die neben der Sprache eine wesentliche Rolle spielen, wie Körpersprache, Stimmlage sowie Lautstärke, Mimik, Gestik etc.; Mead spricht in diesem Kontext von der symbolisch vermittelten Interaktion. In der menschlichen Kommunikation entstehen viele Missverständnisse aufgrund der Tatsache, dass die vermittelten Informationen nicht richtig „dekodiert“ werden. Wenn wir die Interaktionspartner nicht sehr gut kennen, ist es oftmals schwierig, beispielsweise eine versteckte Ironie richtig zu interpretieren. Für den Unterrichtsalltag stellt dies eine sehr große Problematik dar; man muss bedenken, dass beispielsweise Ironie nicht von allen Jugendlichen verstanden wird, insbesondere nicht, wenn sie einen Lehrer nicht sehr gut kennen (und dieser nicht deutlich macht, dass eine Aussage ironisch gemeint war) oder in der Pubertätsphase, in der man ziemlich ironie-resistent ist. Kleine Kinder können ohnehin Ironie nicht verstehen. Die Möglichkeit, dass man sich angegriffen fühlt, besteht auf beiden Seiten. Es kann schlicht sein, dass sich die Stimmlage verändert, da jemand an der Thematik besonders interessiert ist und es genau wissen will. Wird dies nicht richtig interpretiert, wird es als Angriff aufgenommen. Im Zweifelsfall sollte ein Lehrender Rückfragen stellen, bevor es zu Missverständnissen kommt und sich die Schüler dann zurückziehen. Umgekehrt, wenn einem Lehrenden bewusst wird, dass sich seine Stimme in solchen Fällen verändert, sollte er es den Schülern mitteilen, damit sie einen einschätzen können. Im Lehr-Lern-Prozess ist die Kodierung erweitert zu verstehen, denn auch das „Sprachniveau“ ist wichtig. Die Informationen müssen in einer für die Schüler verständliche Art dargestellt werden, so dass diese die Informationen verarbeiten können. Fremd- bzw. Fachwörter müssen in einem bestimmten Alter grundsätzlich und gleichzeitig übersetzt werden, so dass die Schüler die Bedeutung eines Wortes mit dem Fachbegriff verbinden können. Ein zusätzliches Problem bei der Interpretation einer Nachricht durch den Empfänger entsteht durch die Wahl des Kanals. Bei Interaktionen, die per Internet stattfinden, oder bei der Formulierung von schriftlichen Aufgaben muss dies berücksichtigt werden. Die Notwendigkeit, die verbale sowie die nonverbale Kommunikation zu beherrschen, braucht wohl nicht weiter betont zu werden. Es gibt eine Fülle an Theorien, die sich genau aus diesem Grund mit Kommunikation aus verschiedenen Perspektiven beschäftigen. Wir gehen hier lediglich auf die fünf berühmten Axiome der Kommunikation von Watzlawick, Beavin und Jackson (1985) ein (streng genommen sind es gar keine Axiome, sondern eher Gliederungsaspekte).
136
2 Theoretische Zusammenhänge
Die Begriffe „Kommunikation“ und „Interaktion“ werden von ihnen folgendermaßen definiert: Eine einzelne Kommunikation heißt Mitteilung (message) und ein wechselseitiger Ablauf von Mitteilungen zwischen zwei oder mehreren Personen heißt Interaktion. Die Kommunikation besteht aus Worten und paralinguistischen Phänomenen (Tonfall, Schnelligkeit oder Langsamkeit der Sprache, Pausen, Seufzen etc.), Körperhaltung, Ausdrucksbewegungen (Körpersprache) usw., d. h. Verhalten jeder Art. Daraus resultiert die erste Vorannahme, nämlich dass man sich „nicht nicht verhalten“ kann. Damit ist gemeint, dass jede Bewegung, der Tonfall einer Aussage, ob wir angespannt oder entspannt stehen bzw. sitzen, handeln oder nicht handeln, sprechen oder schweigen, einen kommunikativen Charakter hat, also praktisch eine kommunikative Handlung ist. Wenn diese Annahme als gültig anerkannt wird, dann ergibt sich daraus, dass es unmöglich ist, nicht zu kommunizieren. Somit lautet das
1. Axiom: Man kann nicht nicht kommunizieren Jeder dürfte die folgende Situation bereits aus der Schulzeit kennen (es wird übrigens auch in universitären Kontexten praktiziert): Stellt der Lehrer eine Frage, dann ist es plötzlich sehr wichtig, etwas zu notieren oder in der Schultasche nach einem Buch zu suchen. Das Verhalten signalisiert die Hoffnung, dass der Lehrer dann jemand Anderen auffordert, die Frage zu beantworten. Häufig funktioniert diese Strategie, denn der fehlende Blickkontakt sorgt dafür, dass keine Aufforderung nach einer Beantwortung erfolgt. Natürlich kommen die Lehrer irgendwann darauf, dass es sich um eine Vermeidungsstrategie handelt (falls sie es nicht schon wissen); daher sollte man dieses Verhalten nicht immer zeigen. Umgekehrt gilt aber auch: Ein bestimmter Gesichtsausdruck vermittelt, dass man unbedingt angesprochen werden möchte. In jedem Fall ist es Kommunikation.
2. Axiom: Inhalts- und Beziehungsaspekt der Kommunikation Es wird angenommen, dass jede Kommunikation bzw. eine Interaktion einen Inhalts- und einen Beziehungsaspekt aufweist. Der Inhalt ist gleich bedeutend mit einer Information und zwar unabhängig davon, ob diese wahr ist oder falsch. Im Beziehungsaspekt der Mitteilung wird definiert, wie der Sender die Beziehung zwischen sich und dem Empfänger sieht, mit anderen Worten, es wird die persönliche Stellungnahme des Senders übermittelt. Beispielsweise haben Schüler oder Kollegen sehr häufig Fragen wie: „Ist das Ihr Auto“ oder „ist das echter Schmuck“, „ist das ein iPhone?“ etc. Diese Frage beinhaltet auf der Inhaltsebene lediglich den Wunsch nach einer Information; auf der Beziehungsebene muss diese Frage differenzierter analysiert
2.4 Interaktion als Leitbegriff
137
werden. Beispielsweise kann die Frage implizit die Meinung enthalten, dass – je nach Automarke – das Auto entweder nicht passend ist (meistens werden bestimmte Statussymbole mit der Position, die eine Person inne hat, verbunden) oder es wird angenommen, dass ein Lehrer sich unmöglich eine Automarke, wie beispielsweise einen Porsche, aufgrund des Gehaltes leisten kann. Je nach Tonfall der Stimme, Gesichtsausdruck, Kontext etc. wird ein Schüler oder ein Kollege unbewusst die Beziehung, ob er neidisch ist, bewundert, gering schätzt etc. durch die gestellte Frage übermitteln. Vielleicht will der Kollege oder Schüler in Bezug auf das Auto aber auch einfach nur mitgenommen werden. Das sind die klassischen Beispiele, die in einer Unterrichtssituation weit mehr bedeuten. Unbewusst hat jeder Lehrende Schüler, die er besonders mag bzw. nicht mag (das gilt umgekehrt natürlich auch, da die Schüler die Lehrer nicht gleichermaßen mögen oder mit ihnen zurechtkommen). Hier kommt es bei den Lehrenden darauf an, dass dieser Beziehungsaspekt nicht offensichtlich wird, wenn eine Frage von den entsprechenden Schülern beantwortet wird. Die Körpersprache und die Mimik dürfen nichts darüber aussagen, ob man einen Schüler mag oder nicht; das gilt natürlich auch für die Wortwahl wie für den Tonfall. Das setzt also voraus, dass sich der Lehrer selbst bewusst ist, welche Beziehung zu den Schülern existiert.
3. Axiom: Interpunktion von Ereignisfolgen Die Natur einer Beziehung ist durch die sog. Interpunktion der Kommunikationsabläufe seitens der Partner bedingt. Mit Interpunktion ist in der Linguistik allgemein die „Zeichensetzung“ gemeint, die in diesem Kontext auf menschliches Verhalten übertragen wird. Mit anderen Worten, das Verhalten eines Partners setzt ein Zeichen, das das Handeln des anderen Interaktionspartners bestimmt. Ein kleines Beispiel soll dies konkretisieren: Lehrer sagt: „Ich nehme dich immer dran, weil du dich nicht meldest.“ Schüler sagt: „Ich melde mich nicht, weil ich immer dran genommen werde.“ Die Frage, wer von den beiden Partnern den Anfang für diese Verhaltensweise gesetzt hat, ist nicht ohne weiteres zu beantworten. Es wird jedoch deutlich, dass sich jeder mit dem Verhalten des Anderen rechtfertigen kann. Hier gilt es, derartige Verhaltensweisen rechtzeitig zu erkennen, um den Kreis zu durchbrechen. In diesem Kontext ist die Fähigkeit zur „Metakommunikation“ wichtig. Metakommunikation bedeutet, dass über die Kommunikation kommuniziert (gesprochen) wird. Die Metakommunikation bietet eine Chance, das eigene Verhalten und das Verhalten des Gesprächspartners gemeinsam zu überdenken und zu verändern. Dies erscheint auf den ersten Blick plausibel und sogar vielleicht einfach. Das Problem ist aber, dass in einer Situation, die bereits konfliktbeladen ist, die Partner ihr
138
2 Theoretische Zusammenhänge
eigenes Kommunikationsverhalten analysieren müssen. Hier gilt es, sich die Frage zu stellen, was einen am Schüler irritiert und wie man selbst darauf reagiert. Ist es der veränderte Tonfall, die Argumentationsebene oder die Wortwahl, die einen selbst irritiert? Umgekehrt muss man sich selbst beobachten und wie bereits mehrfach erwähnt, überprüfen, ob das eigene Verhalten, die Wortwahl etc. nicht adäquat für den Schüler sind. Die Reflexion über die Kommunikationsebenen im Schulunterricht machen erneut deutlich, was professionelles Handeln bedeutet: Es kann nicht von Schülern erwartet werden, dass sie die kommunikative und analytische Kompetenz haben, schwierige Situationen zu erkennen und zu meistern. Ein Lehrender sollte dazu jedoch in der Lage sein. Im ersten Teil war auch dieser Punkt gemeint: Alle Beteiligten sollten auch mitteilen, was sie nicht mögen. Das kann sich ebenso auf Redewendungen beziehen, wie auf bestimmte Verhaltenweisen. Wenn diese Punkte angesprochen werden, haben auch die Schüler die Chance zu erkennen, dass es im Unterricht auch auf die Wortwahl, auf den Tonfall, auf die Körpersprache insgesamt ankommt, um Missverständnisse zu vermeiden.
4. Axiom: Digitale und analoge Kommunikation Der Begriff „digital“ bedeutet übersetzt Zeichen (z. B. sprachliche Zeichen), aus denen Begriffe, Sätze usw. gebildet werden; in einem engeren Sinne wird darunter auch nur „Zahl“ verstanden. Die Begriffe, die sich aus Zeichen zusammensetzen, sind willkürlich gebildet (z. B. die Begriffe fünf, Tisch). Damit ist gemeint, dass keine tiefere Bedeutung in die Zeichen selbst hinein interpretiert werden kann, auch wenn uns die Begriffe an sich als sehr passend erscheinen: Jedoch hat der Begriff „Tisch“ nichts „Tischiges“ an sich und die Zahl „Fünf“ nichts „Fünfiges“, wie es Watzlawick, Beavin und Jackson beschreiben. Dieser Aspekt ist im Unterrichtskontext nützlich, wenn z. B. in der sechsten und siebten Schulklasse nach der Bedeutung einzelner Begriffe gefragt wird. Es ist oftmals förderlich, den Schülern zu vermitteln, dass es sich um Konventionen handelt, die allgemein akzeptiert wurden, und dass die Formulierung der Begriffe keine sonstige Bedeutung hat. Der Begriff „analog“ bedeutet „entsprechend“ oder „ähnlich“. Durch die Einführung des Begriffs der analogen Kommunikation wird die Bedeutung von Kommunikation erweitert, indem die Körpersprache (Mimik, Gestik, Zeichen, Ausdruck der Stimme) zur rein sprachlichen – digitalen – Kommunikation hinzukommt. Es wird darauf geachtet, ob der Tonfall streng oder freundlich ist, ob die Berührungen eine innere Wärme oder Kälte ausstrahlen etc. Ob jemand aufrichtig ist oder nicht erkennen wir nicht unbedingt anhand des Gesagten, sondern häufig anhand der
2.4 Interaktion als Leitbegriff
139
Körpersprache: Sind Sprache und Körpersprache nicht kongruent (übereinstimmend), dann merken wir, dass etwas nicht stimmt. Damit lässt sich auch verstehen, warum bei Menschen die Körpersprache und die stimmliche Intonation, also der nonverbale Teil der Kommunikation, als „analog“ bezeichnet werden. Während der digitale Aspekt primär der Vermittlung einer bestimmten sachlichen Information dient, fungiert der analoge als Vermittler der eigenen Gemütszustände: Je zorniger man auf einen Menschen in einer kommunikativen Situation ist, desto lauter wird die eigene Stimme und desto aggressiver wird der eigene Gesichtsausdruck (wenn man es sich in der Situation leisten kann). Umgekehrt, je mehr man seinem Kommunikationspartner emotional zugetan ist, desto sanfter ist die Stimme und desto offener und freundlicher ist der eigene Gesichtsausdruck. Dies „je – desto“ drückt aus, dass die Art der jeweiligen analogen Kommunikation dem eigenen Gemütszustand „entspricht“ – sie sind sich beide „ähnlich“. Offensichtlich ist dies anders im digitalen Kommunikationsaspekt, bei dem das Gesagte und der eigene Gemütszustand gewöhnlich nichts miteinander zu tun zu haben brauchen und voneinander unabhängig sind. Es sind in gewisser Weise ebenso kulturell festgelegte Ausdrucksformen wie es bestimmte sprachliche Zeichen sind. Von daher ist es eigentlich nicht erstaunlich, dass es in den letzten Jahren zahlreiche Versuche gab, speziellen Computerprogrammen, nämlich künstlichen neuronalen Netzen, das „Verstehen“ von spezifischen menschlichen Ausdrucksformen beizubringen. Dies geschah dadurch, dass man den Programmen „typische“ Gesichtsausdrücke einzelner Personen eingab und diese mit Deutungen wie „zornig“, „freundlich“, „abwehrend“ etc. versah. Die Programme wurden dann zum einen darauf trainiert, diese Bilder wieder zu erkennen und mit den Deutungen zu verbinden; zum anderen wurden dann den Programmen entsprechende Gesichtsausdrücke anderer Personen eingegeben. Es zeigte sich, dass die Programme meistens die Gesichtsausdrücke der neu eingegeben Personen durchaus korrekt zu deuten wussten. Daran kann man erkennen, wie standardisiert meistens auch unsere non verbalen Ausdrucksformen sind. Wären sie das übrigens nicht, könnten sie auch gar nicht zur Verständigung dienen. Die analoge Kommunikation bestimmt praktisch immer die Unterrichtsdynamik. Ein Lehrer wird immer die gelangweilten Mienen der Schüler, abfällige Gesten, Gähnen, aber auch Interesse, Spaß an der Thematik etc. wahrnehmen. Ein Anfänger auf dem Gebiet der Lehre – aber auch erfahrene Lehrer – werden durch die Wahrnehmung der nonverbalen Kommunikation ständig, insbesondere in großen Schulklassen, abgelenkt und die Konzentration auf die Vermittlung der Inhalte bewirkt sehr schnell eine physische Erschöpfung. Es ist daher wichtig, die nonverbale Kommunikation richtig zu interpretieren. Einerseits darf man ein Gähnen nicht immer auf sich beziehen; es könnte schlicht an der schlechten Luft im Raum liegen. Im gleichen Moment muss man andererseits entscheiden, ob man auf be-
140
2 Theoretische Zusammenhänge
stimmte Schüler doch reagiert und sie nicht einfach ignoriert. Die Wahrnehmungen sind entsprechend vielschichtig und jeder muss seine eigene Strategie entwickeln, wie er damit umgeht. Umgekehrt sehen die Schüler ebenfalls, in welcher Verfassung sich ein Lehrender befindet. Die analoge Kommunikation kann eingesetzt werden, um die Schüler zur Ruhe zu bringen. Ein strenger Blick und souveräne Körperhaltung kann häufig mehr bewirken als ständige Ermahnungen.
5. Axiom: Symmetrische und komplementäre Interaktion Mit diesem Axiom werden zwei Arten der Beziehungen unterschieden. Mit der Definition von symmetrischen Beziehungen ist gemeint, dass die Partner nach Gleichheit und Verminderung von Unterschieden zwischen ihnen streben. Dies ist z. B. der Fall bei zwei Menschen, die in einer Lebensgemeinschaft beschließen, möglichst gleichberechtigt miteinander umzugehen. So lautet die Definition von Watzlawick und seinen Mitautoren; in einer etwas anderen Bedeutung spricht man auch häufig davon, dass eine Beziehung symmetrisch ist, wenn beide Partner gleichberechtigt sind, also dies nicht nur anstreben. Die komplementäre Interaktion basiert auf sich gegenseitig ergänzenden Unterschiedlichkeiten. Komplementäre Interaktionen liegen z. B. immer dann vor, wenn es sich um die Beziehung zwischen einem professionell Handelnden und seinem Klienten handelt, also etwa Rechtsanwalt und Klient, Lehrer und Schüler etc. Bei der komplementären Interaktion wird davon ausgegangen, dass ein Partner die superiore, primäre Stellung und der andere Partner die inferiore, sekundäre Stellung hat. Diese Einordnung sollte jedoch nicht mit stark vs. schwach, gut oder schlecht verwechselt werden. Diese Unterschiede beruhen lediglich auf kulturellen oder gesellschaftlichen Kontexten (Mutter/Kind; Lehrer/Schüler etc.) In der Interaktion zwischen Lehrer und Schüler beispielsweise hat die superiore/primäre Stellung der Lehrer, wenn es um inhaltliche Fragen geht; entsprechend hat der Schüler die inferiore/sekundäre Stellung. Diese Positionen können sich ändern, wenn z. B. über spezielle Computerspielkonsolen diskutiert wird. Der Schüler als Experte in diesen Fragen hat dann in dieser Situation die primäre und die Lehrkraft die sekundäre Stellung. In kommunikativen Kontexten ist diese Unterscheidung sehr wichtig. Wenn beispielsweise ein Lehrer den Schülern permanent die eigene superiore Stellung vermittelt, wird man sich keinen Gefallen tun, nämlich dann nicht, wenn die Kompetenz und Initiative der Schüler gefragt ist. Andere in deren Kompetenz anzuerkennen führt dazu, dass eine Kooperation wesentlich effektiver verläuft. Kommunikativ betrachtet handelt es sich hier um eine scheinbare Kleinigkeit: Es geht darum, dem Anderen verbal und nonverbal zu vermitteln, dass er durchaus als ein Experte auf seinem Gebiet geschätzt wird und dass man ehrlich zugibt, dass man selbst
2.4 Interaktion als Leitbegriff
141
darin nicht so versiert ist. Diese Erkenntnis ist wichtig, da die Schüler durchaus bereits auf bestimmte Gebieten Experten sein können, von denen Lehrende nichts wissen (das gilt nicht nur für Spielkonsolen). Die Schüler werden anerkannt und die Erfahrung zeigt, dass sie gerne ihr Wissen vermitteln und dass auf diese Weise sogar Lehrende viel von den Schülern lernen können. Die symmetrische Interaktion sollte dann bevorzugt werden, wenn für die Lösung bestimmter Probleme eine Gleichstellung der Personen notwendig ist. In Forschungskontexten oder bei der Lösung bestimmter Probleme geht es nicht mehr um unterschiedliche soziale Stellungen, sondern um die Sache selbst. Dies muss ebenfalls kommunikativ vermittelt werden. Die fünf Axiome zeigen, wie differenziert die menschliche Interaktion zu erfassen ist. Die Informationen (digitale Übermittlung der Inhalte) stehen nicht isoliert im Raum, sondern sind mit einer zusätzlichen Bedeutung eng gekoppelt (analoge Übermittlung der Beziehungsaspekte). Die Interpretation dieser Bedeutung unterliegt einer subjektiven Wahrnehmung und Einschätzung der Person in Abhängigkeit von der Situation. Die Metakommunikation ist notwendig, um festgefahrene Verhaltensweisen und Kommunikationsstrukturen zu korrigieren; letztlich bestimmen die symmetrischen wie komplementären Beziehungen die kommunikativen Prozesse. Ob die Kommunikation bzw. Interaktion gelingen kann, hängt von der individuellen Kompetenz ab, Situationen richtig einzuschätzen und die eigenen Mitteilungen adäquat zu kodieren. Inwieweit die Kommunikation als gelungen betrachtet werden kann, ist natürlich nur vom anschließenden Verhalten der Partner her zu deuten, also z. B. explizit ausgedrücktes Einverständnis oder auch Ausdrücke von Verstimmung, Enttäuschung etc. Wir haben bisher über Kommunikation relativ allgemein gesprochen in dem Sinne, dass von den sozialen Kontexten, in denen kommunikative Prozesse stattfinden, nicht systematisch die Rede war. Durch Kommunikation entsteht jedoch immer eine Gruppe, die ihre eigenen Dynamiken hat. Damit kommen wir zu dem Themenkomplex der Gruppe und der Gruppendynamik, die in einem Lehr-Lern-Kontext nicht immer einfach ist.
2.4.4
Gruppe und Gruppendynamik
Zunächst werden die „klassischen“ Ansätze zur Gruppenbildung kurz dargestellt, da eine Schulklasse schließlich als Gruppe definiert werden kann. Je nach Klassengröße handelt es sich sogar um eine Großgruppe, die nicht mehr so einfach zu führen ist. Den Gruppenzusammenhalt bei 30 Schülern zu realisieren, und zwar in einer Situation, in der zwangsläufig mehrere Subgruppen vorhanden sind, stellt jeden Lehrenden vor großen Herausforderungen.
142
2 Theoretische Zusammenhänge
Die Bildung von Gruppen lässt sich in vier Phasen beschreiben (Tuckmann 1965): a) Formierungsphase (forming) In dieser Phase entsteht bei den einzelnen Gruppenmitgliedern eine gewisse Unsicherheit aufgrund der neuen Situation. Es muss individuell geklärt werden, welche Verhaltensmuster von der Gruppe akzeptiert bzw. nicht akzeptiert werden, welche Normen vorhanden sind, an die sich die neuen Mitglieder anlehnen können, welches Gruppenziel vorhanden ist, an dem sich die Mitglieder orientieren etc. Es ist besonders darauf zu achten, dass keine Missverständnisse entstehen. Die soziale sowie die kommunikative Kompetenz des Lehrenden spielen in dieser Phase eine wesentliche Rolle. b) Konfliktphase (storming) Zwischen den einzelnen Gruppenmitgliedern entstehen Konflikte, die als Ursache für die Bildung von Untergruppen anzusehen sind. In dieser Phase distanzieren sich einige Mitglieder von den bestehenden Gruppennormen und einige Partner oder Gruppenführer werden abgelehnt. Das Gruppenziel und die gestellten Aufgaben werden in Frage gestellt. In dieser Phase werden die Rollen festgelegt. Es herrscht sehr viel Anspannung, daher sollte darauf geachtet werden, dass Gruppenzwänge nicht überhand gewinnen. Der Lehrer sollte darauf achten, alle gleich zu behandeln, und explizit darauf verweisen, dass alle Mitglieder mit ihren jeweiligen Kompetenzen sehr wichtig sind. c) Normierungsphase (norming) In dieser Phase werden die Gruppenregeln ausgehandelt und es entwickelt sich der Gruppenzusammenhalt (Gruppenkohäsion); die Mitglieder akzeptieren sich gegenseitig und das sog. „Wir-Gefühl“ wird ausgeprägt. Zwischenmenschliche Probleme werden gelöst und zur Lösung der Gruppenaufgabe findet ein offener Informationsaustausch statt. Der Lehrer kann bei der Regelfindung durch gezielte Fragen behilflich sein und sollte darauf achten, dass wichtige Regeln eingehalten werden und ggf. schriftlich fixiert werden. d) Leistungsphase (performing) Die Gruppe konzentriert sich auf ihre Aufgabe und die unterschiedlichen Rollenbeziehungen werden akzeptiert. In dieser Phase können die individuellen Fähigkeiten der einzelnen Gruppenmitglieder genutzt werden, wodurch die Erreichung des Gruppenziels sowie die Lösung von Gruppenproblemen ermöglicht werden. Der Lehrer sollte durch positive Rückmeldung das gewünschte Verhalten verstärken.
2.4 Interaktion als Leitbegriff
143
Die Beschreibung der einzelnen Phasen bedeutet nicht, dass die einzelnen Phasen in jeder Gruppe gleichermaßen ablaufen müssen, sondern entspricht lediglich einem häufig beobachteten Verlauf. Ein neuer Durchlauf der einzelnen Phasen kann entstehen, wenn ein Schülerwechsel stattfindet oder die Gruppe mit neuen Aufgaben konfrontiert wird. Dies bedeutet z. B. für eine Gruppenarbeit, dass sich eine bereits bestehende Gruppe erneut gründen (konstituieren) muss. Um zu gewährleisten, dass ein relativ reibungsloser Ablauf ermöglicht wird, sollten folgende Punkte beachtet werden: x Gruppenorganisation: Die Gruppe ist umso arbeitsfähiger, je besser die einzelnen Mitglieder integriert sind. x Gruppenklima: Je größer der Gruppenzusammenhalt (Gruppenkohäsion) ist, desto arbeitsfähiger ist die Gruppe; dies gilt vor allem dann, wenn das Gruppenziel von der Gruppe selbst bestimmt ist, bzw. die Gruppe sich damit identifiziert. Kooperation und Konkurrenz sollten einander die Waage halten. x Gruppenzusammensetzung: Die Gruppenmitglieder sollten eine für die Zusammenarbeit grundsätzlich notwendige Homogenität aufweisen, sich in ihrer Heterogenität jedoch gegenseitig ergänzen und stützen. Damit ist gemeint, dass die Mitglieder einerseits über eine gemeinsame Wissensbasis verfügen müssen, um sich problemlos verständigen können. Andererseits müssen die Mitglieder unterschiedliche Kompetenzen haben, um arbeitsteilig auch komplexe Aufgaben erledigen zu können. Soweit die klassischen Theorieansätze. Natürlich spielen diese Aspekte bereits eine Rolle bei der Klassenzusammensetzung in der Unterstufe. In der Oberstufe ergeben sich die Gruppenzusammensetzungen durch die Interessen der einzelnen Schüler bzw. dadurch, dass Schüler Kurse belegen müssen, da die von ihnen gewünschten Kurse nicht zustande kamen. Dies hat immer eine Konsequenz auf die Gruppendynamik. Mit zwei weiteren Modellen lassen sich diese allgemeinen Ausführungen recht gut konkretisieren.
Modelle gruppendynamischer Prozesse Die pädagogische Aufgabe, sich auch über die internen Prozesse in einer Gruppe von Schülern oder anderen Lernenden zu informieren und diese auch ggf. zu beeinflussen, ist bei kleinen Gruppen meistens ohne Probleme zu lösen. Dabei muss freilich beachtet werden, dass informelle Kenntnisse der jeweiligen Gruppe nicht unbedingt hinreichend sind, um Prognosen über die Gruppe zu machen und rechtzeitig zu erkennen, ob die Gruppe in problematische Situationen gerät oder schon geraten ist. Derartige Problemsituationen können beispielsweise vorliegen, wenn Außenseiter ausgegrenzt oder sogar gemobbt werden oder auch wenn in-
144
2 Theoretische Zusammenhänge
nerhalb einer Gruppe aggressive Stimmungen entstehen, die ein konstruktives Lernen für die meisten Schüler verhindern. Diese Schwierigkeiten sind natürlich bei größeren Gruppen, die intuitiv nicht mehr überschaubar sind, noch gravierender. Hier kann die Verwendung geeigneter Simulationsprogramme für den Lehrer sehr hilfreich sein: Der Lehrer wird nicht nur gezwungen, seine eigenen Beobachtungen so zu präzisieren, dass sie die Basis für ein Programm sein können, sondern derartige Programme ermöglichen auch Prognosen in Bezug auf die Gruppe und häufig können sie auch Hinweise liefern, wie auf die Gruppe eingewirkt werden kann und ggf. sollte. Zwei derartige Programme sollen im Folgenden kurz vorgestellt werden.53 Es gibt verschiedene Methoden, die Struktur einer sozialen Gruppe formal zu erfassen und darzustellen; das Forschungsgebiet der sog. Analyse sozialer Netzwerke ist in dieser Hinsicht eine gut entwickelte Disziplin. Wir konzentrieren uns hier auf ein bestimmtes „soziometrisches“ Verfahren, nämlich die Konstruktion sog. Soziomatrizen bzw. Moreno-Matrizen (so benannt nach dem Erfinder dieses Verfahrens, dem amerikanischen Sozialpsychologen Moreno). Eine Soziomatrix ist die formale Darstellung von bestimmten Beziehungen zwischen den Mitgliedern einer Gruppe. Wenn es beispielsweise darum geht, emotionale Beziehungen zwischen den Gruppenmitgliedern auszudrücken, könnte die Soziomatrix für eine kleine Gruppe von drei Mitgliedern folgendermaßen aussehen, sofern 1 bedeutet, dass Sympathie vorliegt, 0, dass Indifferenz der Fall ist, und –1 Abneigung besagt:54
a b a
c
0 1 1
b 1 0
1
c 1 1
0
Die „emotionale Beziehungsstruktur“ ist demnach so, dass a gegenüber b Sympathie empfindet und c gegenüber Antipathie; b erwidert leider die positiven Gefühle von a nicht, sondern kann a nicht leiden, wohl aber c; c schließlich kann a auch nicht leiden und erwidert die positiven Gefühle von b. Natürlich kann man diese ziemlich grobe Skalierung – eine „ternäre“ Skalierung – beliebig verfeinern, also
53
Ausführliche Darstellungen eines dieser Programme und weiterer Anwendungsbeispiele können in Klüver et al. 2006 nachgelesen werden. 54 Hier sei an die formal sehr ähnliche semantische Matrix erinnert, die wir bei den Simulationen mit einem SEN verwendet haben. In beiden Fällen handelt es sich logisch um sog. Adjazenzmatrizen, die bestimmte Relationen ausdrücken.
2.4 Interaktion als Leitbegriff
145
z. B. mit Werten zwischen –5 und 5 arbeiten. Die Werte 0 in der Hauptdiagonalen der Matrix besagen, dass es auf die Einstellung eines Mitglieds zu sich selbst hier nicht ankommt, obwohl das bei bestimmten Problemen durchaus wichtig sein kann. Eine derartige Matrix drückt erst einmal nur eine bestimmte statische Struktur aus. Wenn man wissen will, was daraus für eine Dynamik der Gruppe folgt, bietet es sich, die Werte der Matrix als Datenbasis für ein geeignetes Simulationsprogramm zu nehmen. Wir haben für Gruppensimulationen auf der Basis von Soziomatrizen u. a. die Technik der Modellierung durch sog. Zellularautomaten (ZA) verwendet; diese sollen kurz dargestellt werden.55 Die Grundidee der ZA ist die folgende: Gegeben ist ein Gitter von Zellen, die gewöhnlich als Quadrate konzipiert und visualisiert sind. Die Entwicklung findet in Raum und Zeit statt und die einzelnen ZA unterscheiden sich in den Dimensionen (es gibt ein-, zwei- sowie drei-dimensionale ZA) und in der Gittergeometrie des zugrunde liegenden Raums. Eine Zelle hat z. B. – in einem zweidimensionalen Zellraum mit einer quadratischen Gittergeometrie – acht „Nachbarn“, d. h., es gibt zu jeder Zelle genau 8 weitere Zellen, die an die erste Zelle anschließen – rechts, links, oben, unten und an den vier Eckpunkten. Die benachbarten Zellen bilden die Umgebung der ersten Zelle (neighborhood). Wenn man nur die vier Zellen berücksichtigt, die an den Seiten der quadratischen Zelle anliegen, spricht man von einer von Neumann-Umgebung; nimmt man auch die vier Zellen an den Eckpunkten dazu, hat man eine sog. Moore-Umgebung. Natürlich sind auch andere Umgebungskonstellationen möglich, aber diese beiden sind gewissermaßen die Standardtypen. ZA stellen eine besonders wichtige Klasse diskreter Systeme dar. Die Zellen befinden sich in bestimmten Zuständen, d. h., jeder Zelle wird ein bestimmter Wert zugeordnet, der üblicherweise als natürliche Zahl dargestellt wird. Die Dynamik dieser Systeme ergibt sich durch Übergangsregeln (rules of transition), die die lokal bedingte Zustandsveränderung der einzelnen Zellen steuern. Dabei hängt die Zustandsveränderung einer Zelle ausschließlich von den Zuständen ab, die ihre Umgebungszellen und sie selbst zu einem bestimmten Zeitpunkt t einnehmen. Im Falle der Moore-Umgebung wirken acht Zellen auf die Zustandsveränderung einer Zelle ein, in Abhängigkeit von dem Zustand der Zelle selbst; im Falle der von Neumann-Umgebung sind es vier Umgebungszellen. Eine Regel kann z. B. die Form haben: Wenn die Zellen nur die Zustände 1 und 0 einnehmen können und wenn (im Falle der von Neumann-Umgebung) zum Zeitpunkt t die
55
Ausführliche Beschreibungen der Zellularautomaten finden sich in Stoica-Klüver et al. 2009.
146
2 Theoretische Zusammenhänge
linke Umgebungszelle 1 ist, die rechte ebenfalls 1, die obere 0, die untere 1 und die Zelle selbst 0, dann geht die Zelle im nächsten Zeitschritt t+1 in den Zustand 1 über. Am Beispiel eines der berühmtesten ZA, dem „Game of Life“ des britischen Mathematikers John Conway, soll dies Prinzip kurz illustriert werden: Das Game of Life ist ein binärer ZA mit einer Moore-Umgebung, der auf einer zweidimensionalen Fläche visualisiert werden kann. Die Übergangsregeln des Game of Life lauten folgendermaßen: 1. IF n ist die Anzahl der Umgebungszellen im Zustand 1 und IF n < 3 oder IF n > 4, THEN geht die zentrale Zelle im nächsten Zeitschritt in den Zustand 0 über, unabhängig von ihrem bisherigen Zustand. 2. IF n = 3, THEN geht die zentrale Zelle in den Zustand 1 über, unabhängig vom vorherigen Zustand. 3. IF n = 4, THEN bleibt die zentrale Zelle in ihrem bisherigen Zustand. Einfacher ausgedrückt: Wenn zu wenige oder zu viele Organismen in der Umgebung eines Organismus existieren, dann stirbt dieser; existiert genau die richtige Anzahl, dann entsteht neues Leben oder die Verhältnisse bleiben konstant. Nebenbei bemerkt, die 2. Regel ist natürlich zumindest auf der Erde nicht biologisch realistisch, da zur Reproduktion von Organismen entweder ein Organismus ausreicht – monosexuelle Reproduktion – oder in dem insbesondere für Menschen interessanten Fall genau zwei Organismen erforderlich sind (heterosexuelle Reproduktion). Man sieht, dass ZA von ihrer Grundlogik sehr einfache Systeme sind, die dennoch – nur scheinbar paradoxerweise – erlauben, dynamische Systeme von beliebiger Komplexität zu modellieren. Für das Problem der Analyse von Gruppendynamiken lässt sich ein Einsatz von ZA durch das folgende von einem unserer Studenten (unter unserer Anleitung) durchgeführte soziale Experiment beschreiben:56 Wir haben in einem Seminar im Sommer 2004 im Studiengang Kommunikationswissenschaft der Universität Duisburg-Essen verschiedene Studierende mit einem ZA ausgestattet, den wir der Einfachheit halber als Moreno-ZA bezeichnen, die das Programm in realen Gruppen einsetzten. Eine der Gruppen war eine 4. Grundschulklasse im Ruhrgebiet, bei der – mit Hilfe der Klassenlehrerin – der MorenoZA die Cliquenbildung in der Klasse simulieren sollte. Grundlage des Moreno-ZA ist ein Prinzip, das von dem amerikanischen Sozialpsychologen George Homans postuliert wurde (Homans 1950) und das vereinfacht besagt, dass Menschen dazu
56
Details zu diesem Experiment finden sich in Klüver et al. 2006.
2.4 Interaktion als Leitbegriff
147
tendieren, lieber mit anderen Menschen zu interagieren, die sie mögen, als umgekehrt. Das ist natürlich keine sehr aufregende Erkenntnis, aber sicher eine realitätsadäquate. Die Grundlogik des Moreno-ZA ist entsprechend: Der Zustand einer Zelle repräsentiert die Zufriedenheit eines Schülers in Abhängigkeit von seiner Umgebung. Je mehr Schüler dort sind, die er mag, desto wohler fühlt er sich und umgekehrt. Die wichtigste Regel ist dann, dass jede Zelle versucht, auf dem Gitter eine Umgebung zu finden, in der ihr Zustand maximale Werte annehmen kann, sie sich also sozusagen am wohlsten fühlt. Die Lehrerin empfahl zuerst, keine geschlechtlich gemischte Gruppe zu nehmen, da sich dann nur eine dichotomische Aufspaltung in Mädchen versus Jungen zeigen würde – in dem Alter sind aus Sicht der Mädchen Jungen nun einmal doof und umgekehrt. Zusätzlich riet die Lehrerin davon ab, eine reine Mädchengruppe zu nehmen, da Mädchen in diesem Alter eine dichte Gruppe bilden, bei der keine interessanten Differenzierungsprozesse zu beobachten sind. Es blieb demnach eine reine Jungengruppe von acht Schülern übrig, die das Material für die Soziomatrix liefern sollten. Das nächste Problem bestand nun darin, dass Kinder nicht unbedingt direkt nach ihren Gefühlen zu den anderen Klassenmitgliedern befragt werden sollten. Nur latent vorhandene Antipathien beispielsweise können durch eine solche Befragung überhaupt erst bewusst werden und das Sozialklima in der Klasse ungünstig beeinflussen. Da die Klasse unmittelbar vor einer Reise stand, wurden die Schüler deshalb einzeln in den Klassenraum gebeten und es wurde ihnen mitgeteilt, dass nur Zweibettzimmer in der Jugendherberge zur Verfügung stünden. Die Schüler sollten deshalb für jeden anderen Schüler angeben, ob sie mit denen „gerne“ ein Zimmer teilen würden, ob es ihnen gleichgültig sei oder ob sie „möglichst nicht“ mit dem entsprechenden anderen Schüler zusammengelegt werden wollten. Nachdem diese Befragungen durchgeführt waren, wurden die Schüler vom Schulhof, wo sie gewartet hatten, in einen leeren Klassenraum (nicht ihr üblicher Klassenraum) geschickt, in dem sie Plätze suchen sollten. Damit war die Vergleichssituation für den Moreno-ZA hergestellt: Dieser sollte prognostizieren, wie sich die Werte in der Soziomatrix in eine bestimmte Dynamik und natürlich in einen bestimmten Endzustand transformieren. Der Endzustand müsste sich in der Realität in der räumlichen Verteilung der Schüler im Klassenraum zeigen. Das war zumindest die Annahme auf der Basis des Prinzips von Homans: Schüler, die sich mögen, sitzen gerne nebeneinander, falls dies möglich ist, und entsprechend sitzen Schüler voneinander entfernt, die sich nicht mögen. Der Student und die Lehrerin gingen die erstellte Matrix gemeinsam durch und die Lehrerin bestätigte, dass die Werte in der Matrix ihren eigenen Beobachtungen über die Cliquenbildung in der Klasse bei diesen Schülern, also in Bezug auf diese Teilgruppe, gut entsprechen. Die Validität der Befragungsergebnisse wurde übri-
148
2 Theoretische Zusammenhänge
gens auch durch die Simulation bestätigt; offenbar lassen sich Simulationen auch gut zur Validitätsüberprüfung von empirischen Befragungen und Beobachtungen verwenden.57 Die tatsächliche Sitzplatzverteilung der Schüler wurde von dem Studenten in seine Version des Moreno-ZA manuell übertragen: Der Student ließ sich ein leeres Gitter vom Programm geben und setzte die einzelnen Schüler, d. h. die sie symbolisierenden Zellen, manuell in das Gitter ein (Abb. 2-16).
Abbildung 2-16: Die tatsächliche Anordnung der Schüler
Anschließend gab der Student die Werte der Befragungen in die Soziomatrix des Moreno-ZA ein und ließ das Programm eine Prognose erstellen. Dies ergab die Darstellung in Abb. 2-17. Bei einem Vergleich der beiden Ergebnisse ist darauf hinzuweisen, dass das Programm natürlich nicht die „absolute“ Platzierung der Schüler im Raum prognostiziert, also z. B., ob ein Schüler an einem Fenster sitzt oder näher an der Tür. Diese Platzierung ist sicher einerseits vom Zufall abhängig und dann auch von der Reihenfolge, in der die Schüler den Raum betreten. Insbesondere hat das Programm
57
Die Validität eines methodischen „Instruments“ wie z. B. eines Interviews, eines Tests und eben auch eines Simulationsprogramms besagt, dass und inwiefern das Instrument auch das tatsächlich misst, was es messen soll. Sind IQ-Tests beispielsweise in dem Sinne valide, dass sie das messen, was wir unter „Intelligenz“ verstehen? Diese Frage ist ebenso schwierig zu beantworten wie die nach der Validität des Turing-Tests zur Bestimmung der Frage, ob ein Computerprogramm „intelligent“ ist (s. u. Teil 3).
2.4 Interaktion als Leitbegriff
149
selbstverständlich keine Informationen darüber, ob bestimmte Schüler bestimmte Ecken in einem Raum bevorzugen. Bei dem Vergleich geht es nur darum, ob und inwieweit das Programm die „soziale“ Platzierung, d. h. die Nähe oder Entfernung von Schülern zueinander einigermaßen korrekt prognostiziert. In mathematischer Sprechweise geht es demnach darum, dass das Programm korrekt prognostiziert, inwiefern die Schüler ihre sozialen Beziehungen in topologische Relationen transformiert haben.
Abbildung 2-17: Die prognostizierte Anordnung der Schüler
Der Endzustand, der das Ergebnis der Prognose repräsentiert, wurde nach wenigen Programmdurchläufen, nämlich vier, erreicht. Das ist einerseits nicht selbstverständlich, da sich die einzelnen Zellen permanent nicht nur an dem orientieren, was sie selbst an Transformationen durchgeführt haben, sondern natürlich auch an den Transformationen der anderen Zellen – das Problem einer rückgekoppelten Dynamik. Andererseits ist bei einer so kleinen Gruppe meistens zu erwarten, dass diese relativ schnell einen stabilen Endzustand (einen sog. Punktattraktor) erreicht, da es nicht sehr viele alternative Optionen für das einzelne Gruppenmitglied gibt. So war es offenbar auch hier. Vergleicht man nun Realität und Prognose, dann fällt auf, dass das Programm im oben erläuterten Sinne eine ziemlich exakte Prognose über die Bildung von Cliquen und Außenseitern gegeben hat. Wie in der Realität platziert das Programm fast alle Schüler in eine zusammenhängende Gruppe bis auf den offensichtlichen Außenseiter Schüler 5. Nur in Hinsicht auf Schüler 3 prognostizierte das Programm falsch, da dieser in der Realität neben 5 sitzt, also neben dem Außenseiter, vom Programm jedoch in die zusammenhängende Clique platziert wurde. Das entspricht auch den Werten, die von Schüler 3 in Bezug auf die anderen Schüler und die von den anderen Schülern in Bezug auf Schüler 3 angegeben wurden.
150
2 Theoretische Zusammenhänge
Man könnte nun hoffnungsvoll annehmen, dass Schüler 3 die Außenseiterposition von Schüler 5 wahrgenommen hat und diesem helfen will, indem 3 sich neben 5 setzt. Dies vermuteten auch einige Studierende, denen wir dies Ergebnis mit der Bitte um eine mögliche Erklärung vorlegten. Die Erklärung, die die Klassenlehrerin gab, ist leider nicht so menschenfreundlich: Schüler 3 ist die Außenseiterposition von 5 in der Tat bewusst; 3 wollte jedoch 5 nicht etwa trösten, sondern ihn zusätzlich ärgern, um so den Beifall der übrigen Schüler zu erhalten. Kinder, so lehrt uns diese melancholisch stimmende Erklärung, sind leider zuweilen auch nicht besser als Erwachsene und damit im negativen Sinne frei von für sie überflüssigen moralischen Skrupeln. Darauf freilich war das Programm nicht eingestellt – nicht, weil wir immer an das Gute in Kindern und anderen Menschen glauben, sondern weil es nicht um derartige zusätzliche Handlungsintentionen ging. Einbauen ließen sich derartige Zusätze natürlich leicht; es ist jedoch zu bezweifeln, dass etwa Schüler 3 diese Handlungsabsichten im Voraus zugegeben hätte. Dies wäre dann anders, also nicht durch direkte Befragung, zu ermitteln gewesen, wie z. B. durch eine Charakteranalyse von der offensichtlich sehr kenntnisreichen Lehrerin oder auch dadurch, dass die Schüler in einem Interview vor fiktive Handlungssituationen gestellt würden. Prinzipiell jedenfalls zeigte dies kleine Experiment, wie sich die Dynamik von Gruppen tatsächlich durch Simulationsprogramme recht gut erfassen lässt. Bei Experimenten mit dem Moreno-ZA in größeren Gruppen wurde dies auch mehrfach bestätigt. Das zweite von uns konstruierte Modell simuliert die Entstehung von Projektgruppen für den Fall, dass die Schüler im Informatikunterricht in Gruppenarbeit jeweils ein bestimmtes Programm realisieren sollen. Falls der Lehrer den Schülern freigestellt hat, sich selbst zu organisieren, würde unser Programm eine mögliche Aufteilung in verschiedene Gruppen prognostizieren. Die Kriterien dafür, wie die Gruppen sich zusammensetzen, geschieht, abgesehen von persönlichen Zu- bzw. Abneigungen (s. o.), danach, welche unterschiedlichen Interessen und Fähigkeiten die einzelnen Schüler haben. Eine gut zusammengesetzte Gruppe sollte demnach jeweils Schüler mit allen Fähigkeiten haben, die für das Projekt erforderlich sind. Die hellgrauen viereckigen Zellen symbolisieren ein vorgegebenes Projekt. Die anderen Zellen repräsentieren Schüler mit unterschiedlichen Interessen und Fähigkeiten. Wie aus der Abbildung zu erkennen ist, haben sich die Arbeitsgruppen sehr schnell gefunden, einige Schüler finden jedoch keine Gruppe. Die Aufgabe der Lehrenden wäre in diesem Fall, entweder die Schüler, die keinen Anschluss haben, zu einer Gruppe zusammenzusetzen oder diese auf andere Gruppen zu verteilen. In diesem Fall zeigt die Simulation auch, dass die jeweiligen Gruppengrößen un-
2.4 Interaktion als Leitbegriff
151
terschiedlich sind. Dies entspricht der Realität, wenn diesbezüglich keine Vorgaben gemacht werden. Überwiegend ist es ebenso realistisch, dass sich die Gruppen sehr schnell konstituieren, dies ist jedoch sehr stark von der Gruppenkonstellation abhängig. Durch Simulationen mit anderen Zellen, also anderer quantitativer Verteilung, wird es auch deutlich, dass sich häufig keine Subgruppen stabilisieren können, da die Schüler ständig wechseln. Dies wäre damit zu begründen, dass es sehr viele Schüler gibt, die nicht miteinander arbeiten können; sobald sich dann ein bestimmter Schüler einer Gruppe anschließen will, wollen andere Schüler die Gruppe verlassen und wechseln zu anderen Gruppen. Dadurch entsteht eine permanente Unruhe und eine effektive Projektarbeit wird praktisch unmöglich.
Abbildung 2-18: Links: der Anfangszustand mit zufälliger Verteilung der Zellen auf dem Bildschirm, rechts der Endzustand nach 11 Iterationen. Kreuz: Entwickelt gerne Oberflächen; Kreis: Überlegt sich theoretisch das Modell; Viereck: Implementiert das Programm; Stern: Ist für die Schnittstellen zuständig; Raute: Koordiniert und testet das Programm
Falls der Lehrer die Schüler nicht selbst entscheiden lassen will, welche Gruppen sie bilden wollen, kann das Programm auch dazu eingesetzt werden, dem Lehrer bei der Gruppeneinteilung zu helfen, indem es entsprechende Vorschläge macht. Der Lehrer kann dann sehr rasch erkennen, ob Außenseiter übrig bleiben und sich entsprechend wie oben skizziert verhalten. Es ist demnach offensichtlich möglich, die Dynamik von Gruppen zu beobachten, zu prognostizieren und in gewisser Weise auch zu steuern. Obwohl vor allem die letztere Möglichkeit stets nur sehr vorsichtig eingesetzt werden sollte, ist es immer noch besser, sich Orientierungen durch derartige Programme geben zu lassen, als nur mit einem häufig sehr problematischen „gesunden Menschenverstand“ oder einer unreflektierten Intuition zu arbeiten. Hier könnten Informatiker anderen Lehrenden durchaus praktische Hilfestellungen geben (vgl. auch unten Teil 3, 3.8 zum interdisziplinären Projektunterricht).
152
2 Theoretische Zusammenhänge
Zu beachten ist zusätzlich auch, dass in jeder Klasse durchaus „Cliquen“ bzw. Subgruppen entstehen, die nicht nur für die Freizeit, sondern auch für das Lernen wichtig sind. So ist es nicht verwunderlich, dass die Schüler entsprechend eine Gruppenarbeit in derselben Konstellation durchführen möchten. Die gern propagierte pädagogische Begründung für eine Neuzusammenstellung der Gruppenmitglieder, nämlich dass die Schüler lernen müssen, auch mit anderen zurechtzukommen oder mit Kollegen arbeiten müssen, die sie nicht leiden können, sollte daher reflektiert bzw. hinterfragt werden. Es muss bedacht werden, dass die Phasen der Gruppenbildung neu durchlaufen werden, die durchaus Zeit kosten, wodurch eine Gruppe kaum zu der Leistungsphase kommen kann. Wird eine Mädchengruppe im Unterricht aufgelöst und jeweils ein oder mehrere Mädchen auf andere Jungengruppen verteilt werden, dann sollte bedacht werden, dass in einer bestimmten Lebensphase dies nicht unproblematisch verläuft. Es ist immer eine Abwägung nötig und eine sehr genaue Beobachtung des Klassenverbandes, ob bestimmte pädagogische Vorstellungen sinnvoll sind oder nicht. Hier sei an das „Denken als Handelnder“ erinnert, denn Fehlentscheidungen können die Lernprozesse sehr hindern. Es wurde bereits darauf hingewiesen, dass die Gruppenarbeit generell sehr gut bedacht werden sollte. Die Aufgaben müssen hinreichend komplex sein und die Gruppenzusammensetzung sollten sehr gut durchdacht werden. Es ist auch abzuwägen, ob eine selbstorganisierte Gruppenbildung nicht wesentlich besser ist, als falsch verstandene pädagogische Vorgaben.
2.4.5
Führungsstil
Der Führungsstil spielt bei der Gruppenbildung sowie für das Gruppenklima eine entscheidende Rolle. Prinzipiell können die Regeln leichter befolgt werden, wenn die Regeln von den Teammitgliedern selbst aufgestellt wurden. Eine Erweiterung der klassischen Führungsstile berücksichtigt den Entscheidungsspielraum der Gruppen, je nach Führungsstil. Die folgende Abbildung zeigt den jeweiligen Entscheidungsspielraum. Welcher Führungsstil bevorzugt werden soll, ist von mehreren Faktoren abhängig. Ein Lehrer, der ständig autoritär ist, wird nicht sehr viel Erfolg bei den Schülern haben; es kann sogar dazu führen, dass dieser nicht ernst genommen wird, wenn das autoritäre Verhalten nicht mit der Persönlichkeit übereinstimmt. Dennoch muss eine autoritäre Haltung eingenommen werden, wenn es um Regelüberschrei-
2.4 Interaktion als Leitbegriff
153
tungen geht, und zwar unabhängig von der eigenen Persönlichkeitsstruktur und dem bevorzugten Stil.58
¡ ò
ò
¡
Ǧ
ǡ Ú
ò
Abbildung 2-19:
Ǧ
ǡ¡ ǡ
Ǧ Ú ¡Ǧ éǡ ¡
Ǧ
¡Ǧ ǡ
ò
ǡ
Ǧ
ǡ
Der Gruppeneinfluss je nach Führungsstil (nach Bea et al., 2008, S. 57), modifiziert auf die Unterrichtssituation
Darüber hinaus – und das ist wesentlich – sind die Persönlichkeiten der Schüler sehr unterschiedlich und sie können nicht mit jedem Führungsstil zurechtkommen. Jemand, der ständig nur autoritär behandelt wurde im Elternhaus oder durch andere Lehrer, kann zunächst mit einem delegativen Stil nichts anfangen. Manche Persönlichkeiten wollen auch keine Selbstständigkeit, sondern brauchen klare Anweisungen, um handeln zu können. Auch dies hat sehr viel mit der Sozialisation zu tun und bedarf der Klärung. Somit muss ein Lehrender sehr flexibel reagieren und sich je nach Aufgabenstellung und Gruppenkonstellation überlegen, wie er am besten die Gruppe führt.
2.4.6
Überlegungen zur Interaktion als Leitbegriff der Didaktik
Hinsichtlich des Leitbegriffes „Interaktion“ gibt es nur Modellentwürfe, die unterschiedliche theoretische Aspekte berücksichtigen. Die Erforschung der Wirklichkeit, ihrer Strukturen und gesellschaftlicher Bedingungszusammenhänge, stehen bei diesem Ansatz im Vordergrund und es wird versucht, die unterschiedlichen Erkenntnisse auf den Unterrichtsprozess zu übertragen.
58
Terminologisch sei hier daran erinnert, dass die Begriffe „Autorität“ und „autoritäres Verhalten“ nicht synonym sind. Ein Lehrer muss immer Autorität haben, braucht diese jedoch nicht durch autoritäres Verhalten zu demonstrieren – eher im Gegenteil.
154
2 Theoretische Zusammenhänge
An dieser Stelle wird beispielhaft lediglich auf den kritisch-kommunikativen Modellentwurf eingegangen, weitere Modelle werden in der einschlägigen Literatur vorgestellt (z. B. Kron 1993).
Kritisch-kommunikativer Modellentwurf Dieser Modellentwurf ist von R. Winkel entwickelt worden. Kritisch bedeutet, dass man die vorhandene Wirklichkeit stets hinterfragt und zu verbessern sucht; mit kommunikativ sind die fünf Axiome der Kommunikation sowie mögliche Störungen gemeint (Kron 1993). Die Unterrichtsstrukturen sind unter den Gesichtspunkten des Vermittlungs-, Inhalts- und Beziehungsaspekt sowie störfaktorieller Aspekte zu analysieren. Der Vermittlungsaspekt beinhaltet Lernbegriffe und Lernakte (darbieten, antworten, Impulse geben), Medien, Lehr- und Übungsmittel und die Unterrichtsmethoden (Einzel-, Gruppenarbeit, simulative Verfahren etc.). Der Inhaltsaspekt bezieht sich, wie nicht anders zu erwarten ist, auf die zu vermittelnden Inhalte. In dem Beziehungsaspekt werden die sozialen Interaktionen analysiert, wobei eine symmetrische Kommunikation angestrebt wird. Die störfaktoriellen Aspekte beziehen sich auf die Analyse der Störungsarten wie Disziplinprobleme, Provokationen etc., die differenziert betrachtet werden sollten. Mögliche Störungen sollten bereits in der Planung berücksichtigt werden. Wir sind bereits bei der Darstellung der einzelnen Aspekte auf ihre Bedeutung für den Unterrichtsprozess eingegangen. Der Inhaltsaspekt kann nur durch die Fachkompetenz eines Lehrenden erfüllt werden. Der Beziehungsaspekt spielt eine wesentliche Rolle, der insbesondere durch die analoge Kommunikation vermittelt wird. Für das professionelle Handeln sind außerdem Kenntnisse über die Bedeutung der Rollen und die damit verbundene Identitätsentwicklung, über gruppendynamische und kommunikative Prozesse unbedingt erforderlich, damit die zu vermittelnden Inhalte von den Lernenden aufgenommen und verarbeitet werden können. Wenden wir uns nun dem letzten Leitbegriff zu, nämlich der Bildung, der zweifellos der komplizierteste ist. Wir werden deswegen in Teil 3 noch einmal auf Bildung eingehen.
2.5
Bildung als Leitbegriff
Bildung als Leitbegriff ist insbesondere durch Klafkis kritisch-konstruktiven Ansatz bekannt geworden. Mit kritisch ist gemeint, dass die Lernenden zu Selbstbestimmung, Mitbestimmung und Solidarität befähigt werden sollen; konstruktiv bezieht
2.5 Bildung als Leitbegriff
155
sich auf die pädagogische Praxis und auf die Analyse der Handlungs-, Gestaltungs- und Veränderungsperspektive, um den kritischen Aspekt zu realisieren. Für Klafki ist der kategoriale Bildungsbegriff von entscheidender Bedeutung, der eine objektbezogene (materiale) und eine subjektbezogene (formale) Dimension umfasst. Die materiale Bildung umfasst den bildungstheoretischen Objektivismus (das Wissen bzw. die Inhalte, die vermittelt werden) sowie die Bildungstheorie des Klassischen (Literatur, Kultur). Die formale Dimension umfasst die Theorie der funktionalen Bildung (Entfaltung der körperlichen, geistigen und seelischen Kräfte) sowie die Theorie der methodischen Bildung (Beherrschung der Lernmethoden und instrumentellen Fähigkeiten). Die didaktische Analyse umfasst das Elementare (Qualität des Erlernten), das Fundamentale (Erfahrungen) sowie das Exemplarische (Aufschlüsselung des Elementaren und des Fundamentalen). Elementar ist jenes Besondere, das ein Allgemeines aufdeckt. Fundamental sind grundlegende Einsichten, die auf eine prägnante Art und Weise gewonnen werden. Das Exemplarische bezieht sich auf das Vorliegen eines Verhältnisses zwischen Allgemeinem und Besonderem. Der Unterrichtsinhalt soll elementar im Hinblick auf die Sache sein und fundamental im Hinblick auf die Schüler. Das Schema von Klafki (1991), das ebenfalls sehr gut für die konkrete Unterrichtsplanung verwendet werden kann, berücksichtigt folgende Elemente: Bedingungsanalyse
x Begründungszusammenhang
x Thematische Strukturierung (Sachstruktur einer Unterrichtseinheit)
x
Zugangs- und Darstellungs möglichkeiten x Lehr-Lern-Prozessstruktur (Methodische Strukturierung)
1. 2. 3. 4.
Gegenwartsbedeutung Zukunftsbedeutung Exemplarische Bedeutung Unter welcher Perspektive erfolgt die Bearbeitung des Themas? – Berücksichtigung immanentmethodischer Hinweise in der Thematik – Größere Zusammenhänge aufzeigen 5. Erweisbarkeit/Überprüfbarkeit 6. Einsatz der Medien – Handlungsmöglichkeiten etc. 7. Organisation und Ablauf der Unterrichtseinheit, einschließlich Lernformen, Sozialformen und methodische Einzelelemente
156
2 Theoretische Zusammenhänge
Ist die Bedingungsanalyse hinsichtlich der institutionellen Bedingungen sowie der Zusammensetzung der Lerngruppe (Jahrgang) erfolgt, sollten sich Lehrende Gedanken darüber machen, welche Gegenwartsbedeutung die zu vermittelnden Inhalte für die Lernenden hat. Dies wiederum setzt voraus, dass die Lebenswelt der Schüler bekannt ist bzw. berücksichtigt wird. Die Gegenwartsbedeutung sollte unter verschiedenen Aspekten betrachtet werden: Knüpfen die Inhalte an bereits Erlerntem an oder handelt es sich um eine neue Thematik, in die besonders eingeführt werden muss? Welches Vorwissen muss für die Thematik vorhanden sein? Wesentlich ist auch die Frage, inwiefern der Inhalt mit der Lebenswelt der Schüler verknüpft werden kann. Die Gegenwartsbedeutung setzt demnach voraus, dass darüber reflektiert wird, welche Probleme und Interessen die Lernenden momentan haben. Die Zugänglichkeit bei den Lernenden und damit auch die Motivation, sich mit bestimmten Inhalten zu befassen, hängt stark davon ab, ob einem vermittelt wird, warum bestimmte Inhalte wichtig sind, selbst wenn die Bedeutung nicht unmittelbar erkannt werden kann. Die kognitive Lerntheorie hilft hier, sich deutlich zu machen, dass ein Thema von einem Individuum nicht aufgenommen wird, wenn der „Filter“ das Aufnehmen der Information nicht zulässt. Um dies zu verdeutlichen, erinnern wir an die Vermittlung der Wahrscheinlichkeitsrechnung, die in vielen Bereichen eine große Rolle spielt und im Mathematikunterricht in der 11. Klasse wiederholt wurde. Die Frage war, mit welcher Wahrscheinlichkeit man eine rote Kugel aus einem Pulk von roten und weißen Kugeln zieht, die sich in einem Sack befinden. Die große Unlust der Schüler war im Grunde prognostizierbar und einige der Schüler antworteten: „Das ist mir doch egal“. Dabei kann auch die Wahrscheinlichkeitsrechnung anhand von Beispielen erläutert werden, die der Lebenswelt der Schüler sehr nahe ist, wie z. B. die Frage, mit welcher Wahrscheinlichkeit man in einem voll gefüllten Freibad durch zufälliges Umhergehen das Mädchen (bzw. den Jungen) seines (ihres) Herzen innerhalb einer kurzen Zeit treffen kann. Das ist als Aufgabenstellung sogar anspruchsvoller und, wenn das Interesse vorhanden ist, wird der Inhalt wesentlich schneller aufgenommen. Hierbei spielt also sowohl die soziale als auch die kommunikative Kompetenz eine wesentliche Rolle, genauso wie Kenntnisse der Sozialisation und der Lerntheorien. Einschränkend muss jedoch angemerkt werden, dass man nicht krampfhaft Bezüge zur Lebenswelt suchen sollte, wenn es derartige Bezüge nicht unbedingt gibt. Ein für uns abschreckendes Beispiel war eine Einführung in die Programmiersprache PROLOG, in der für Geisteswissenschaftler der Begriff der Rekursivität anhand der bekannten Puppen in der Puppe erklärt wurde. Einer der Autoren hatte seine mündliche Doktorprüfung im Fach mathematische Logik zum Thema „re-
2.5 Bildung als Leitbegriff
157
kursive Funktionen“ abgelegt und glaubte eigentlich, alles über diesen Begriff zu wissen. Nach den „Erklärungen“ in besagter Einführung verstand der Autor gar nichts mehr; erst ein anderes Lehrbuch, in dem auf derartige lebensweltliche Bezüge verzichtet wurde, half weiter.59 Hinsichtlich der Zukunftsbedeutung reicht es nicht, darauf zu verweisen, dass die Inhalte wichtig für die Zukunft sind, wenn beispielsweise die Schüler studieren wollen. Auch hier sind die Erwiderungen der Lernenden prognostizierbar: „Das brauche ich nie wieder“ oder „ich habe gar nicht vor, zu studieren“ sind klassische Aussagen. Um etwas über die Zukunftsbedeutung aussagen zu können, muss man selbst die thematischen Zusammenhänge erkannt haben. Erst dann ist es möglich die ganzen Gebiete aufzuzählen, für die bestimmte Grundlagen absolut notwendig sind. Dann ist es einem Lernenden selbst möglich zu erkennen, wie fundamental die Inhalte für andere Themengebiete sind. Als Beispiel erinnern wir erneut an die Aussagenlogik. Diese ist „elementar“, nämlich eine Grundlage für die Automatentheorie, Algorithmen, Expertensysteme, Datenbanken etc. Das ist damit die Zukunftsbedeutung der Aussagenlogik. Für einen Lehrenden (und hoffentlich auch für die Schüler) ergibt sich die Erkenntnis, was an ihr exemplarisch ist, dadurch, dass die Aussagenlogik ein Beispiel für einen wichtigen Bereich der Mathematik ist, nämlich die sog. Theorie der Verbände. Da die Aussagenlogik relativ leicht zu verstehen ist, kann man daran wesentliche Aspekte der modernen Strukturmathematik vermitteln. Durch das Exemplarische wird die Fähigkeit sowohl zur Generalisierung als auch zur Diskrimination vermittelt. Dieser Punkt kann nicht genau reflektiert werden, denn die meisten Lehrenden können mitunter nicht zwischen dem Exemplarischen und einem einfachen Beispiel differenzieren. Diese Punkte hängen ganz eng mit der Zugänglichkeit zusammen (kognitive Lerntheorie). Wenn es einem nicht gelingt, die Thematik so vermitteln, dass es den Lernenden möglich ist, Anknüpfungspunkte, Assoziationen, Erkennen der Bedeutung etc. zu finden, dann ist es sehr schwer, die Lernenden zu motivieren. Abschließend zu den verschiedenen didaktischen Modellen sei allerdings noch auf etwas hingewiesen: So unterschiedlich diese Modelle auf einen ersten Blick aussehen und so verschieden vor allem die jeweiligen Leitbegriffe sind, so sehr sind sie sich auch praktisch durchaus ähnlich. Es geht letztlich immer darum, eine planvolle und systematische Vorbereitung für den Unterricht, auf der Basis eines der Modelle, zu realisieren. Unsere eigenen Kommentare zeigten bereits, dass es de facto immer die gleichen praktischen Konsequenzen sind, die aus den Modellen zu zie-
59
Zur Zeit der Promotion des Autors gab es an den meisten Universitäten noch das „Rigorosum“, nämlich eine mündliche Prüfung in drei Fächern.
158
2 Theoretische Zusammenhänge
hen sind. Das liegt schlicht daran, dass die Leitbegriffe, wie wir mehrfach betont haben, zwar eine dominierende aber keine alleinige Rolle spielen. In allen Modellen müssen die gleichen Aspekte zumindest angesprochen werden und deswegen ist eine auf den verschiedenen Modellen aufbauende Unterrichtspraxis eben doch im Wesentlichen gleich. Wir haben in diesem Teil die wichtigsten theoretischen Grundlagen für Lehre und Lernen dargestellt. Damit haben wir referiert, was die erziehungs-, sozial- und kognitionswissenschaftliche Forschung zu unserem Thema beisteuern kann, obwohl wir die verschiedenen Gebiete nur skizzieren konnten. In den Beispielen, die wir in Form von Computermodellen zusätzlich gegeben haben, wurde jedoch (hoffentlich) ersichtlich, dass man die von uns thematisierten Fragen auch etwas anders behandeln kann, nämlich mit Computersimulationen und entsprechenden Experimenten. Wir sind natürlich bei Weitem nicht die Einzigen, die sich derartiger Methoden bedienen. Dennoch ist dies für die meisten Erziehungs- und Sozialwissenschaftler eine immer noch ziemlich ungewohnte Form des methodischen Zugangs. Um zu zeigen, wie weit man mit diesen exakten Methoden kommen kann, d. h. welche Einsichten sich daraus gewinnen lassen, werden wir das Thema „Lernen“ im Teil 3 schwerpunktmäßig mit den Methoden der Computersimulation behandeln. Man kann sehen, dass sich auch daraus wesentliche Erkenntnisse für die Lehre ergeben können; insbesondere lassen sich mit der Hilfe geeigneter Simulationsprogramme im Unterricht Lernziele anstreben, die mit herkömmlichen Lehrmethoden nicht oder nur sehr mühsam realisieren lassen. Vermutlich ist das sogar der wichtigste Beitrag, den die Verwendung von Computerprogrammen im Unterricht leisten kann. Es ist umstritten, ob computerbasierte Unterrichtsformen in Bezug auf die üblichen Lernziele tatsächlich effektiver sind als herkömmliche Lehrmethoden. Möglicherweise ist es sinnvoller, sich zu fragen, welche neuen Lernziele mit Hilfe von Computern erreichbar sind.
3
Lernen, Künstliche Intelligenz und soziales Milieu
Die Thematik „was ist Lernen?“ zieht sich durch dies Buch als ein roter Faden. Das ist natürlich auch nicht weiter erstaunlich, da Lernprobleme und Lernprozesse für alle Beteiligten an didaktischen Veranstaltungen im Zentrum stehen – Lehrende müssen verstehen, was Lernen für die Lernenden bedeutet und Lernende müssen sich sehr konkret mit ihren eigenen Lernproblemen auseinandersetzen. Der dritte und systematisch abschließende Teil dieses Buchs konzentriert sich deswegen (noch einmal) auf die Frage, wie man Lernen systematisch erfassen und auf eine präzise Weise verstehen kann. Gleichzeitig geht es darum, inwiefern es möglich ist, Modelle zu entwerfen, die Lernen in einem sozialen Milieu darstellen. Wir werden sehen, dass in gewisser Weise derartige Modelle auch erlauben, die uralte und schon etwas abgenutzte Diskussion um Begabung versus Umwelt auf eine neue Weise zu thematisieren. „Präzise Weise“ bedeutet in diesem Buch, wie in unseren Arbeiten generell, die Konstruktion von mathematischen bzw. algorithmischen Modellen, deren Umsetzung in entsprechende Computerprogramme und die experimentelle Analyse des Verhaltens dieser Programme. Für ein derartiges Verständnis von „präzise“ ist die Informatik sicher ein besonders geeignetes Fach und zwar in zweierlei Hinsicht: Zum einen geht es im Fach Informatik nun einmal darum, ein zumindest grundlegendes Verständnis davon zu erreichen, was mit Computern möglich ist und wie man sie für Erkenntniszwecke unterschiedlicher Art verwenden kann. Die Konstruktion und Untersuchung formaler Modelle spielt hier eine zentrale Rolle und die Verwendung des Computers als methodisches Hilfsmittel für präzise Erkenntnis kann an derartigen Modellen exemplarisch verdeutlicht werden. Zum anderen ist es für interdisziplinäre Fragestellungen im Unterricht (und in der Forschung) besonders fruchtbar, wenn Prozesse thematisiert werden, die Schüler wie Lehrende unmittelbar praktisch tangieren. Wir haben immer wieder erlebt, dass gerade durch die Thematisierung von kognitiven Prozessen allgemein und von Lernprozessen im Besonderen mit Hilfe geeigneter Computermodelle Lernende aller Altersstufen und Bildungseinrichtungen zu interessieren und zu motivieren waren – von Schulkindern im Alter von zwölf Jahren über Studierende der Geistes- und Sozialwissenschaften, der Informatik und Wirtschaftswissenschaften bis hin zu Teilnehmern in beruflichen Weiterbildungsprozessen. Wir hoffen, dass es uns mit diesem Teil gelingt, etwas von dem Interesse und der Motivation der erwähnten Adressatengruppen zu vermitteln.
C. Klüver, J. Klüver, Lehren, Lernen und Fachdidaktik, DOI 10.1007/978-3-8348-8659-0_3, © Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2012
160
3 Lernen, Künstliche Intelligenz und soziales Milieu
Wenn im Zusammenhang von Computermodellen und der entsprechenden Software von „Lernen“ und allgemeiner von „kognitiven Prozessen“ die Rede ist, dann haben nicht nur Laien sehr rasch Assoziationen zu dem suggestiven Begriff der „Künstlichen Intelligenz“ (KI). Auch das ist nicht weiter verwunderlich, da Computer schon sehr früh nach ihrem Entstehen und zuweilen auch schon, bevor es sie als technisch verwendbare Konstruktionen gab, als „Denkmaschinen“ bezeichnet wurden. Insofern Lernen und Kognition als Fähigkeiten betrachtet wurden, die charakteristisch für den Menschen sind – wir bezeichnen unsere Gattung ja auch stolz als „homo sapiens“ –, musste eine Maschine, falls sie diese Fähigkeiten ebenfalls besitzt, eben als „künstliche“ Intelligenz bezeichnet werden. Wenn wir uns hier ebenfalls etwas mit KI beschäftigen werden, dann wollen wir uns allerdings nicht in die unserer Meinung nach ziemlich fruchtlose Diskussion verstricken, ob Computer intelligent „sein“ können oder ob sie intelligentes Verhalten nur „simulieren“. Wir werden diese Diskussion um die sog. „starke“ und „schwache“ KI zwar kurz skizzieren, aber es den Lesern überlassen, welche Position sie in dieser Frage einnehmen wollen.60 Im Zusammenhang mit diesem Buch gehen wir aus einem anderen, wissenschaftstheoretisch sehr wichtigen Grund auf KI ein: Im 18. Jahrhundert formulierte der italienische Philosoph Giambattista Vico ein erkenntnistheoretisches Prinzip, das in einem allgemeinen Sinne der neuzeitlichen Wissenschaft zu Grunde liegt: „Wir verstehen nur, was wir machen können.“61 Deswegen, so Vico, verstehen wir die Geschichte oder auch literarische Texte, weil sie von uns, den Menschen, geschaffen worden sind; deswegen aber verstehen wir die Natur nicht, da sie nicht von uns sondern von Gott geschaffen wurde. Streng genommen kann man daraus auch ableiten, dass wir uns selbst nicht vollständig verstehen können, da das Gehirn als Basis unserer kognitiven Fähigkeiten nicht von uns geschaffen worden sondern ein Produkt der biologischen Evolution ist. Nun hatten allerdings die Naturwissenschaftler bereits zu Vicos Zeit einen Weg gefunden, sein Postulat methodisch einzulösen, nämlich durch die Entwicklung der experimentellen Laborwissenschaft. Im Labor wird die Natur gewissermaßen künstlich re-konstruiert, also nachgebaut, und damit wird der im Labor untersuchte Naturausschnitt ein menschliches Produkt. Aus diesem Grund kann man so die
60
Leser, die sich für diese Kontroverse näher interessieren, seien verwiesen auf Russell und Norvig (2007), Gardner 1989 sowie Klüver und Klüver 2011a. 61 Der philologischen Korrektheit halber muss darauf hingewiesen werden, dass Vico dies nicht ganz so formuliert hat, sondern etwas komplizierter. Der genaue Wortlaut kann nachgelesen werden in einer deutsch-lateinischen Ausgabe von Otte und Schalk 1947, 40.
3.1 Homunculus im Computer
161
Natur „verstehen“, auch wenn diese Rekonstruktion der Natur im Labor natürlich in großen Dimensionen wie im Bereich der Astronomie an ihre Grenzen stößt. Allerdings zeigt der vor kurzer Zeit (2010) in Betrieb genommene große Teilchenbeschleuniger beim CERN, der „Large Hadron Collider“ (LHC), dass es sogar möglich erscheint, die Anfangsphase des Universums im berühmten Big Bang künstlich herzustellen. Entsprechend kann man postulieren, dass ein präzises Verständnis kognitiver Prozesse, insbesondere der Prozesse des Lernens, erst dann möglich ist, wenn wir sie künstlich rekonstruieren können. Das ist der Ansatzpunkt der KI-Forschung, die beansprucht, durch künstlich „nachgebaute“ kognitive Prozesse diese überhaupt erst verstehbar zu machen. In der Tat, da es trotz der Erfolge der Neurowissenschaften bisher immer noch nicht erreicht ist, menschliche Probanden beim Denken in detaillierten Modellen genau zu beobachten, erscheint der Gedanke nahe liegend, diese Beobachtungen anhand künstlicher kognitiver Systeme durchzuführen. Wir machen diese Systeme, also können wir sie auch verstehen. Es ist freilich eine gegenwärtig weithin offene Forschungsfrage, wie und wann es möglich sein wird, wirklich komplexe kognitive Prozesse vollständig auf diesem Wege zu rekonstruieren und damit zu verstehen. Immerhin ist es ein Weg, der weiterhin erprobt werden sollte. Nimmt man Vicos Postulat ernst, dass wirkliches Verstehen nur bei unseren eigenen Produkten möglich ist, dann liegt der Gedanke nahe, dass man ja auch versuchen könnte, biologische Systeme künstlich im Labor zu erschaffen und daran das Studium komplexer Prozesse durchzuführen. Das wird auch in der Tat versucht und häufig als „nasses künstliches Leben“ (wet Artificial Life) bezeichnet. Allerdings sind die einschlägigen Forschungen, soweit uns bekannt ist, noch nicht über das Stadium hinaus gelangt, künstliche Viren oder Bakterien zu konstruieren und auch diese Erfolge sind noch umstritten. Von daher erscheint die Vorstellung, künstliche biologische Gehirne zu bauen, als noch wesentlich utopischer als die Vorstellungen einer KI, die auf Computertechnologie basiert. Wenden wir uns also diesem Verständnis von KI zu, um ein präziseres Verständnis von Lernen daran zu versuchen.
3.1
Homunculus im Computer
Der Traum, künstliche Intelligenzen bzw. künstliche Menschen zu erschaffen, ist natürlich viel älter als die Erfindung des Computers; die älteste uns bekannte Version dieses Traums ist die antike griechische Sage von dem Bildhauer Pygmalion, der sich in eine von ihm erschaffene weibliche Statue verliebte und auf dessen Bitte die Göttin Aphrodite die Statue zum Leben erweckte – ein künstliches Playmate sozusagen. Über das Bühnenstück „Pygmalion“ von G. B. Shaw entstand aus die-
162
3 Lernen, Künstliche Intelligenz und soziales Milieu
ser Sage dann das berühmte Musical „My Fair Lady“. Goethes „Homunculus“ (kleiner Mensch) ist nur eine von zahlreichen späteren literarischen Darstellungen dieses Traumes; alle möglichen Thematisierungen künstlicher Intelligenzen in der Science Fiction Literatur und entsprechenden Filmen im 20. Jahrhundert demonstrieren, wie faszinierend dieser Traum nach wie vor ist (zwei kleine nicht repräsentative Übersichten zu KI und Science Fiction finden sich in Russell und Norwig loc. cit. sowie Klüver und Klüver 2011a). Jedoch erst durch die Erfindung des Computers schien es möglich, den Traum einer künstlichen Intelligenz von der Ebene reiner Fiktion auf die Ebene ernsthafter wissenschaftlicher Forschung zu holen. Die Geburtsstunde der KI-Forschung bzw. des KI-Forschungsprogramms war eine berühmt gewordene Konferenz im Dartmouth College in Hanover (New Hampshire) im Jahr 1956. Dort wurde von dem amerikanischen Mathematiker John McCarthy der Begriff der KI (im Original Artificial Intelligence, AI) eingeführt und dort wurde auch dass Programm der KI-Forschung formuliert, nämlich die Konstruktion von Maschinen, deren Verhalten man als intelligent bezeichnen würde, wenn Menschen ein derartiges Verhalten zeigen (vgl. dazu Gardner 1989). Mit anderen Worten, ohne zu definieren, was Intelligenz „ist“, wird die Frage nach der möglichen Intelligenz künstlicher Systeme an dem faktischen Verhalten dieser künstlichen Systeme orientiert und entschieden. Das ist natürlich nichts anderes als die Denkrichtung des Behaviorismus, dessen Grundgedanken und lerntheoretische Bedeutung bereits in Teil 2 thematisiert wurden. Diese frühe behavioristische Orientierung der KI-Forscher drückt sich besonders deutlich in dem sog. Turing Test aus, der von dem britischen Mathematiker und Logiker Alan Turing um etwa diese Zeit vorgeschlagen wurde (Turing war allerdings nicht bei der Dartmouth Konferenz): Man stelle sich einen Menschen vor, der in einem Zimmer vor einer Tastatur sitzt, die mit einem Terminal in einem anderen Zimmer verbunden ist. Der Mensch weiß nicht, ob der Partner in dem anderen Zimmer, mit dem der menschliche Proband kommuniziert, ein Mensch oder ein Computer ist. Wenn es dem menschlichen Probanden nach einer bestimmten Zeit nicht möglich ist, zu entscheiden, ob er mit einem Menschen oder einem Computer kommuniziert hat und wenn der Kommunikationspartner ein Computer ist, dann hat dieser den Turing Test bestanden und ist demnach als „intelligent“ zu bezeichnen. Methodisch gesehen wirft der Turing Test allerdings einige Fragen auf. Was ist eine „bestimmte“ Zeit, d. h. wie lange muss die Kommunikation dauern, bis eine Entscheidung über die Intelligenz des Computers verbindlich möglich ist? Wie „gebildet“ muss der menschliche Proband sein, wie kompliziert und niveauvoll also muss die Kommunikation sein? Wie viel Wissen über Computer und deren Leistungsfähigkeit zum Zeitpunkt eines aktuellen Tests muss (und darf) der
3.1 Homunculus im Computer
163
menschliche Proband haben? Welche Rolle spielen eventuell der Sozialstatus und die kulturelle Herkunft des menschlichen Probanden? Diese kleine Liste ist verlängerbar. Der (vermutlich nicht ganz ernst gemeinte) Vorschlag des britischen Mathematikers und Physikers Roger Penrose, eine Frau als Probanden zu nehmen, weil Frauen sich angeblich besser in Gesprächspartner hinein versetzen können, ist zwar ganz amüsant, aber löst die erwähnten methodischen Probleme leider auch nicht (Penrose 1991). Außerdem ist es durchaus nicht sicher, ob Frauen in dieser Hinsicht tatsächlich besser sind als Männer; es gibt zahlreiche Tests, bei denen kein signifikanter Unterschied zwischen den Geschlechtern in dieser Hinsicht festgestellt wurde. Der amerikanische Computerwissenschaftler Douglas Hofstadter übrigens berichtete von einem entsprechenden Experiment, an dem er als Proband teilgenommen hatte. Nach relativ kurzer Zeit war er sich sicher, dass sein Gesprächspartner ein Computer war. Anschließend stellte sich jedoch heraus, dass tatsächlich eine kleine Gruppe seiner eigenen Studenten in dem anderen Zimmer gewesen war, die offenbar erfolgreich das Verhalten eines (damaligen) Computers simuliert hatten (Hofstadter 1986). Es sei allerdings nicht verschwiegen, dass ein sehr einfaches Programm offenbar schon bald nach der Dartmouth Konferenz keine Schwierigkeiten hatte, den Turing Test für eine begrenzte Kommunikationssituation glänzend zu bestehen. Es handelt sich dabei um das berühmte Interaktionsprogramm „Eliza“ des amerikanischen Computerwissenschaftlers Joseph Weizenbaum, das Gesprächstherapien nach dem amerikanischen Psychologen Rogers simulieren sollte (Weizenbaum 1977). Die „Leistung“ des Programms bestand einfach darin, bei Aussagen seiner Gesprächspartner nach bestimmten Stichwörtern zu suchen, z. B. „Vater“ und anschließend auf der Basis fertiger Aussagen zu antworten – z. B. „was ist mit Ihrem Vater“ oder „erzählen Sie mir mehr von Ihrem Vater“. Fand das Programm keine gespeicherten Stichworte, dann forderte es einfach den menschlichen Teilnehmer auf „erzählen Sie mir mehr davon“ und ähnliche Antworten. Das für Weizenbaum Irritierende war vor allem, dass sämtliche Benutzer des Programms, die nicht wussten, dass sie mit einem Programm interagierten, es für einen menschlichen Therapeuten hielten. Selbst wenn die menschlichen Probanden darüber aufgeklärt wurden, dass sie es mit einem Programm zu tun hatten – und dazu noch mit einem sehr einfachen – blieben sie dabei, dass das Programm sie völlig verstanden hätte und dass es sehr kompetent und intelligent sein müsste. Es sei dahin gestellt, was dies über die Gesprächstherapie à là Rogers aussagt; die Benutzer von
164
3 Lernen, Künstliche Intelligenz und soziales Milieu
Eliza, das auch weiter entwickelt wurde, hätten die Frage auf jeden Fall bejaht, ob Eliza den Turing Test bestanden hatte.62 Der Turing Test, abgesehen von den methodischen Problemen, die er aufwirft, war und zum Teil ist symptomatisch für das Ziel der frühen KI-Forschung und auch des gegenwärtigen Verständnisses von KI. Gemäß dem klassischen Verständnis von Lernen als Verhaltensänderung auf der Grundlage neuen Wissens wurde etwas angestrebt, was man als „funktionale Äquivalenz“ zwischen KI-Systemen und dem menschlichen Denken bezeichnen kann: Gemäß dieser Position ist es irrelevant, dass Computerprogramme physikalisch ganz anders realisiert werden als die auf biologischen Grundlagen basierenden menschlichen Denkprozesse und es ist sekundär, ob die logischen und mathematischen Prinzipien, nach denen KI-Systeme operieren, den Prinzipien des menschlichen Denkens äquivalent sind; das Letztere wäre, falls es sich nachweisen ließe, eine „strukturelle Äquivalenz“. Entscheidend ist lediglich, ob das Verhalten künstlicher und menschlicher Systeme äquivalent ist, ob also bei gleichem Input auch ein – zumindest annähernd – gleicher Output bei beiden Systemarten generiert wird. Dies gilt insbesondere für Lernprozesse: Wenn künstliche Systeme bei neuen Informationen ihr Verhalten ähnlich oder gleichartig ändern können, wie das bei Menschen in Bezug auf diese Informationen der Fall ist, dann lernen die künstlichen Systeme funktional äquivalent zu menschlichen Lernprozessen. Entsprechend muss der Computer im Turing Test einem menschlichen Kommunikationspartner funktional äquivalent sein, d. h. der Computer muss Antworten geben, die vom
62
Bei der Namensgebung orientierte sich Weizenbaum übrigens, wie er selbst schrieb, an der Komödie von Shaw und dem erwähnten Musical. Wir wollen übrigens nicht verschweigen, dass wir selbst, wie auch schon andere Konstrukteure vor uns, eine Version von Eliza auf der Basis eines neuronalen Netzes konstruiert haben. Da wir diese Eliza mit einem Thesaurus von verbalen Assoziationen gekoppelt haben, der Anfang der siebziger Jahre von der Universität Edinburgh durch Befragungen mehrer tausend Probanden aufgestellt worden war, kann unsere Eliza bei den Fragen der Benutzer und den eigenen Antworten auch verbale Assoziationen bilden, die denen der menschlichen Probanden entsprechen (Klüver und Klüver 2011a). Mehr als einer unserer Studenten erklärte daraufhin, jetzt würde unsere Eliza ganz sicher den Turing Test bestehen.
3.1 Homunculus im Computer
165
menschlichen Probanden als adäquat bewertet werden können. Wie der Computer dies erreicht, ist für das Bestehen des Tests völlig irrelevant.63 Aus vor allem diesem Grund artikulierte der amerikanische Kognitionspsychologe Howard Gardner (a.a.O.) bereits ziemlich früh eine gewisse Skepsis, ob und was Kognitionswissenschaftler aus Computermodellen lernen könnten; Gardner war grundsätzlich gegenüber dem Programm der KI-Forschung durchaus sympathisierend eingestellt. Er bezeichnete diese Skepsis als das „Paradoxon“ der Computerwissenschaft für die Kognitionswissenschaft: Einerseits sind Computermodelle durchaus nützliche Werkzeuge, um menschliche Kognitionsprozesse zu erforschen; andererseits ist es nicht sehr wahrscheinlich, dass Computermodelle des Denkens den menschlichen Denkprozessen sehr ähnlich sind. Wenn man, so Gardner, die Prinzipien von KI-Systemen als Einsicht in die Prinzipien des menschlichen Denkens nehmen will, dann wird man sehr rasch erkennen, dass hier sehr wesentliche Unterschiede zwischen den beiden Bereichen bestehen, so dass die Computermodelle keine wichtige Erkenntnis über das menschliche Denken geben können. KI-Forschung, so kann man daraus schließen, liefert vielleicht Einsichten, wie kognitive Prozesse anders als dies bei Menschen geschieht realisiert werden können und trägt damit zur Erhöhung der Leistungsfähigkeit von Computern bei, sie liefert jedoch keine Einsichten darüber, wie Menschen operieren, wenn sie kognitive Probleme zu lösen haben. Dieser Kritik von Gardner an den Vertretern einer nur funktionalen Äquivalenz stimmen wir prinzipiell durchaus zu. Wenn es nämlich gleichgültig ist, wie KISysteme prinzipiell operieren, solange sie nur die gewünschten (kognitiven) Leistungen erbringen, lässt sich in der Tat wenig über die entsprechenden Prozesse erfahren, die bei Menschen während des Erbringens dieser Leistungen ablaufen. Die Grundposition des Behaviorismus, dass kognitive Systeme Black Boxes sind, die man nur hinsichtlich ihres beobachtbaren Verhaltens studieren kann, wird damit nicht aufgehoben. Ein grundlegendes Verständnis menschlicher Lernprozesse und anderer kognitiver Operationen kann jedoch erst dann realisiert werden, wenn die Black Boxes transparent gemacht werden (können).
63
Das Schachprogramm „Deep Blue“, das als erstes Programm einen amtierenden Weltmeister im Schach schlagen konnte, ist ein illustratives Beispiel dafür, wie nur funktionale Äquivalenz wesentlich ist: Deep Blue operierte nach dem Prinzip der „brute force“, d. h., es rechnete alle Möglichkeiten durch. Nach dieser Logik jedoch gehen Großmeister im Schach – und weniger gute Spieler – bekanntlich gerade nicht vor; sie könnten es auch gar nicht (vgl. z. B. Dreyfuss und Dreyfuss 1987). Ähnliches gilt für das noch wesentlich größere Programm „Watson“, das beim Quizspiel „Jeopardy“ im Februar 2011 die besten menschlichen Konkurrenten vernichtend besiegte.
166
3 Lernen, Künstliche Intelligenz und soziales Milieu
Das lässt sich recht gut verdeutlichen an dem Fortschritt, den z. B. die Lerntheorie von Piaget (s. o. Teil 2) gegenüber dem Behaviorismus darstellt: Indem Piaget, wenn auch „nur“ hypothetisch, als Grundeinheiten der Kognition die Schemata postulierte, Lernen damit als systematische Veränderung der kognitiven Schemata definierte und die Prozesse der Assimilation, Akkommodation und Äquilibration als fundamentale Mechanismen des Lernens einführte, wurden durch ihn menschliche kognitive Systeme „transparent“, nämlich von ihrer inneren Struktur und Dynamik her verstehbar. Es ist hier irrelevant, dass und inwiefern die Theorie von Piaget durch weitere empirische Forschungen modifiziert und korrigiert werden musste. Entscheidend ist der Schritt, den Piaget – und andere Vertreter kognitiver und konstruktivistischer Lerntheorien – über die Position des Behaviorismus hinaus machte, nämlich die Postulierung eines theoretischen Modells über die interne kognitive Struktur und Dynamik menschlicher Systeme; selbstverständlich muss sich auch dies Modell durch die Empirie bestätigen lassen. Wenn man also von KIForschung etwas über das menschliche Lernen erfahren will, muss diese an Strukturen orientiert sein, die man dem menschlichen Denken plausibel unterstellen kann. Geht es um innere Strukturen menschlichen Denkens und Lernen, dann läge es nahe, hier auf die Neurobiologie zu schauen, der es ja um Studien der neuronalen Prozesse im Gehirn geht. In der Tat, ständig erscheinen Nachrichten darüber, dass durch einschlägige neurobiologische Experimente herausgefunden worden ist, wie menschliche Kognition realisiert wird. Dies geht sogar so weit, dass man proklamiert, religiöse Empfindungen und auf Religion basiertes Denken seien nun durch neurobiologische Befunde wissenschaftlich erklärt worden. Leider jedoch gilt bei derartigen Nachrichten gewöhnlich die skeptische Bemerkung der Kognitionswissenschaftler Lakoff und Núñez, dass „knowing where is far from knowing how“ (2000, 26). Gemeint ist damit die schlichte Tatsache, dass die Neurobiologie zwar immer mehr Einsichten darüber gewinnt, wo im Gehirn bestimmte Areale erregt werden, wenn bestimmte kognitive Operationen durchgeführt werden, dass damit jedoch nichts oder nur sehr wenig darüber ausgesagt wird, nach welchen mathematisch formulierbaren Prinzipien und gemäß welcher Logik dies geschieht. Vielleicht ist es eines Tages möglich, präzise Modelle des menschlichen Denkens auf neurobiologischer Grundlage zu konstruieren, aber davon ist die Neurobiologie gegenwärtig noch weit entfernt. Für ein präzises Verständnis menschlicher Lernprozesse lohnt nach unserer Erfahrung ein Blick auf die Neurobiologie zurzeit nur wenig. Kritische Neurobiologen melden übrigens seit einiger Zeit erhebliche Zweifel an der Aussagekraft der einschlägigen Experimente an. Da die hauptsächlich verwendete Methode der sog. funktionellen Kernspintomografie (fMRT) gar nicht
3.1 Homunculus im Computer
167
direkt die Erregungszentren im Gehirn misst sondern erhöhte Durchblutungen, die als Folge entsprechender Gehirnaktivitäten interpretiert werden, sind kaum haltbare Überinterpretationen offensichtlich alles andere als selten. Selbst das „knowing where“ ist also keinesfalls immer gesichert – im Gegenteil. Skeptiker sprechen hier sogar schon von einem methodischen „Voodoo“, also einem haltlosem Zauber.64 Mit dieser Kritik an überspitzten Behauptungen von Seiten der Neurobiologie scheinen wir jedoch in ein Dilemma zu geraten. Wenn es gegenwärtig nicht möglich ist, sich neurobiologischer Befunde in Bezug auf grundlegende Prinzipien des menschlichen Denkens und Lernens zu bedienen, dann fragt sich sofort, wie man denn eine strukturelle Äquivalenz zwischen KI-Systemen und menschlichen kognitiven Systemen mit Anspruch auf empirische Validität behaupten kann. Eine Behauptung beispielsweise, dass bestimmte künstliche neuronale Netze nicht nur in ihrem Verhalten sondern auch in ihrer Struktur den biologischen neuronalen Systemen strukturell äquivalent wären, die gleiche Operationen ausführen, müsste sich ja auf empirische Befunde, also neurobiologische Befunde, stützen können. Das jedoch haben wir selbst gerade als gegenwärtig nicht möglich erklärt. Damit wäre leider der Anspruch, auch strukturell äquivalente KI-Systeme konstruieren zu können, um aus deren Analyse etwas über menschliche Prozesse zu lernen, als nicht einlösbar erkannt; wir müssten uns dann wieder mit funktionaler Äquivalenz begnügen und damit mit nur sehr reduzierten Einsichten in menschliches Lernen und Denken generell. Eine Auflösung dieses Dilemmas ist – natürlich – möglich, denn sonst hätten wir vorsichtshalber dies Problem gar nicht erst thematisiert. Allerdings müssen wir dazu einige Überlegungen vorführen, die vielleicht nicht ganz einfach zu verstehen sind. Wer an wissenschaftstheoretischen Fragen nicht interessiert ist, kann die folgenden Passagen getrost überfliegen bzw. überschlagen. In dem Fall muss man uns einfach glauben, dass wir unsere Behauptung auch tatsächlich einlösen können. Der bereits erwähnte Alan Turing hat das Konzept und die logischen Prinzipien der sog. Universalen Turing Maschine entwickelt. Es handelt sich dabei um ein logisches System, dessen Einzelheiten hier nicht interessieren müssen (vgl. dazu beispielsweise Penrose 1991). Wichtig hier ist die aus diesem Modell abgeleitete Church-Turing Hypothese (Alonzo Church war ein amerikanischer Logiker). Diese besagt, dass jedes formale berechenbare System durch eine Universale Turing Maschine simuliert werden kann bzw. dass es kein komplexeres formales System gibt als eine Universale Turing Maschine. Aus dieser von keinem Mathematiker und
64
„Großhirn-Voodoo“, Der Spiegel Nr. 18, 2011
168
3 Lernen, Künstliche Intelligenz und soziales Milieu
Logiker bezweifelten Hypothese folgt die sog. physikalische Church-Turing Hypothese, dass jedes überhaupt berechenbare physikalische System durch eine Universale Turing Maschine vollständig bzw. mit beliebiger Vollständigkeit modelliert und simuliert werden kann. Natürlich gibt es bei physikalischen Systemen immer Grenzen der Messgenauigkeit, die praktische Grenzen der vollständigen Modellierung darstellen, aber das Prinzip wird ebenfalls von keinem Wissenschaftler bezweifelt. Beispiele für formale Systeme, die Universalen Turing Maschinen logisch äquivalent sind, sind etwa künstliche neuronale Netze, die in diesem Teil eine wichtige Rolle spielen sowie Zellularautomaten, die bereits in Teil 2 thematisiert wurden. Im Prinzip lässt sich jedes physikalische System, sofern es überhaupt berechenbar ist, durch einen geeigneten Zellularautomaten oder auch durch ein geeignetes künstliches neuronales Netz simulieren. „Berechenbar“ kann man hier ganz einfach so verstehen, dass es Berechnungsverfahren, z. B. bestimmte Algorithmen gibt, durch die die Prozesse im System, also dessen Verhalten, berechnet werden können, z. B. durch ein Computerprogramm (vgl. etwa Penrose 1991; Klüver et al. 2011c). Betrachten wir nun eine Klasse von formalen Systemen, von der man weiß, dass sie Universale Turing Maschinen enthält bzw. Systeme, die universalen Turing Maschinen äquivalent sind. Nicht jeder Zellularautomat und nicht jedes neuronale Netz sind natürlich Universale Turing Maschinen, sondern nur solche mit bestimmten mathematischen Eigenschaften wie z. B. bestimmte Regeln bei Zellularautomaten. Aufgrund der beiden Church-Turing Hypothesen wissen wir, dass es für jedes physikalisch reale System – z. B. ein biologisches neuronales Netz – einen Zellularautomaten oder auch ein künstliches neuronales Netz gibt, durch den oder das das physikalische System modelliert werden kann. Wie ein derartiges Modell aussieht, braucht uns hier nicht zu kümmern; das ist eine Frage des Konstruktionsgeschicks. Jetzt kommt der entscheidende Schritt: Findet man mathematische Gesetzmäßigkeiten, die für alle Zellularautomaten bzw. alle künstlichen neuronalen Netze gelten, dann müssen diese Gesetzmäßigkeiten auch für die realen Systeme gelten, die durch die formalen Systeme modelliert werden. Dies folgt daraus, dass prinzipiell die realen Systeme mit gewünschter Vollständigkeit modelliert werden können, also den formalen Systemen – den formalen Modellen der realen Systeme – logisch äquivalent sein müssen. Wenn man also bestimmte Gesetzmäßigkeiten findet, die für alle künstlichen neuronalen Netze gelten, dann müssen diese Gesetzmäßigkeiten auch für die realen biologischen neuronalen Netze gelten, deren Verhalten durch die künstlichen Netze modelliert werden. Erfreulicherweise gibt es derartige Gesetzmäßigkeiten tatsächlich und wir haben in Klüver und Klüver 2011a einige dieser Gesetzmäßigkeiten dargestellt. Auf einige
3.1 Homunculus im Computer
169
werden wir in den folgenden Kapiteln noch eingehen. Wir können aus diesen Überlegungen jetzt auch ableiten, was wir für unser Thema unter struktureller Äquivalenz verstehen wollen: Ein formales System ist strukturell äquivalent zu einem realen System, das durch das formale System modelliert wird, wenn folgende zwei Kriterien erfüllt sind: (a) Das formale System darf keine wesentlichen Merkmale enthalten, die den empirischen Erkenntnissen über das reale System, soweit es derartige Erkenntnisse gibt, widersprechen. Diese Forderung gilt beispielsweise für bestimmte künstliche neuronale Netze nicht, die Regeln verwenden, von denen man annehmen kann, dass es im Gehirn kein Pendant zu ihnen gibt. Dazu werden wir noch Beispiele geben. (b) Unabhängig davon, ob die spezifische mathematische Struktur des formalen Systems tatsächlich im Detail im realen System aufgefunden werden kann – zum gegenwärtigen Zeitpunkt ist dies, wie bemerkt bei biologischen Netzen allgemein noch gar nicht möglich –, ist das formale System äquivalent zum realen in dem Sinne, dass beide den gleichen allgemeinen Prinzipien gehorchen. Man kann also bei der Konstruktion eines künstlichen neuronalen Netzes nicht behaupten, dass im Gehirn genau die Prozesse ablaufen, nach denen das künstliche Netz operiert und dass das biologische System genau die gleiche Struktur hat wie das künstliche. Man kann jedoch Aussagen darüber machen, welchen logischen Bedingungen das reale System auf jeden Fall gehorchen muss, wenn es ein bestimmtes Verhalten demonstriert, also z. B. bestimmte Lernprozesse durchführt. Eine derartige Behauptung kann man beispielsweise über das Netz machen, durch das die klassische Konditionierung simuliert wurde. Dies ist vielleicht weniger als man sich wünschen möchte, aber auf jeden Fall mehr als es bei der funktionalen Äquivalenz, zu belassen. Wir werden diese sehr allgemeinen und abstrakten Überlegungen in den folgenden Kapiteln exemplarisch verdeutlichen. Philosophisch interessierten (und versierten) Lesern, sofern sie bis hierhin durchgehalten haben, werden diese Überlegungen vielleicht bekannt vorkommen. Es handelt sich in der Tat um Anwendungen auf unser Thema einer klassischen philosophischen Erkenntnis des großen Philosophen Immanuel Kant. Er erkannte, dass es möglich ist, wissenschaftlich wahre Aussagen über die empirische Realität zu machen, ohne die Realität selbst beobachten zu müssen. Derartige Aussagen nannte er „synthetisch a priori“, nämlich – etwas moderner gefasst – empirisch gehaltvoll aber vor und unabhängig von einer konkreten empirischen Erfahrung. Klassisches Beispiel für derartige Aussagen ist natürlich die Mathematik: Weiß man, dass zwanzig Kugeln in einer Schachtel sind und fügt man zwei Kugeln dazu, dann braucht man nicht in die Schachtel zu schauen, um zu wissen, dass jetzt zweiundzwanzig Kugeln in der Schachtel sind. Viele weitaus weniger triviale
170
3 Lernen, Künstliche Intelligenz und soziales Milieu
Möglichkeiten, mit Hilfe der Mathematik Aussagen über die Realität auch dort zu formulieren, wo man diese noch gar nicht direkt beobachten kann, sind in jeder anspruchsvollen mathematischen Wissenschaft immer wieder anzutreffen.65 Kant spricht in diesem Zusammenhang von den Bedingungen der Möglichkeit menschlicher Erfahrung, die sich u. a. in den Möglichkeiten synthetischer Urteile a priori ausdrücken. Unsere Überlegungen, mit Hilfe formaler mathematischer Modelle Erkenntnisse über reale menschliche Lernprozesse zu erhalten, lassen sich dann mit Kant verstehen als der Versuch, die Bedingungen der Möglichkeit des menschlichen Lernens sowie dessen Gesetzmäßigkeiten zu erforschen. Allerdings sind auf einer derart abstrakten Ebene auch nur sehr allgemeine Gesetzmäßigkeiten zu erhalten. Will man durch die Konstruktion von KI-Programmen etwas konkretere Einsichten in menschliches Lernen erhalten, dann ist es zweckmäßig, eine etwas bescheidenere Äquivalenzforderung aufzustellen, die man gewissermaßen als eine Mischung von funktionaler und struktureller Äquivalenz verstehen kann. Gemeint ist damit, dass man zwar nicht sagen kann, ob bestimmte KI-Programme im strengen Sinne den realen Prozessen strukturell äquivalent sind, dass jedoch die Programme die Prinzipien der Lernprozesse nachbilden können, die simuliert werden sollen. Wenn man etwa Lernen gemäß den Prinzipien der Piagetschen Lerntheorie modellieren will, dann müssen die entsprechenden Programme in der Lage sein, sowohl die Mechanismen der Akkommodation als auch die der Assimilation darzustellen. Dies haben wir in Teil 2 auch schon gezeigt. Wenn Programme in diesem Sinne formal ähnlich wie Menschen lernen, dann ist das offensichtlich deutlich mehr als eine rein funktionale Äquivalenz, die nur den Output von menschlichen und künstlichen Systemen bei gleichem Input vergleicht. Die Struktur der künstlichen Systeme muss demnach in dem Sinn äquivalent zu der menschlicher Systeme sein, dass die entsprechenden Lernprozesse nach den gleichen Prinzipien ablaufen. Was versteht man nun unter „künstlicher Intelligenz„, von deren Erforschung man sich Aufschlüsse über das menschliche Lernen und andere kognitive Prozesse erhoffen kann? Das voluminöse Handbuch von Russell und Norvig etwa (loc. cit.) führt eine kaum noch überschaubare Liste von z. T. äußerst verschiedenen Techniken auf, die größtenteils mit dem ursprünglichen Ziel, Einsicht in das menschliche Denken zu gewinnen, nichts oder nur noch wenig zu tun haben. Da hat sich ein Forschungsbereich gewissermaßen verselbstständigt und seine eigenen Ursprünge verdrängt. Die beiden klassischen Gebiete jedoch, in denen die Orientierung am
65
Ein berühmtes Beispiel dafür war die mathematische Darstellung der Fusionsprozesse in der Sonne, die nicht direkt beobachtet werden können.
3.1 Homunculus im Computer
171
Modell der menschlichen Intelligenz noch sehr deutlich zu erkennen ist, sind einmal die sog. Expertensysteme, die häufig auch als der symbolische Ansatz der KI bezeichnet werden, und zum anderen die (künstlichen) neuronalen Netze, früher auch charakterisiert als der subsymbolische Ansatz. An diesen beiden Bereichen ist auch die etwas ältere Einführung von Görz (1993) orientiert. Wir werden uns bei der folgenden Darstellung auch nur an diese beiden Bereiche halten; die ziemlich verwirrende Vielfalt der Techniken, die aus zuweilen nicht mehr erkennbaren Gründen auch als KI-Techniken bezeichnet werden, braucht hier nicht weiter zu interessieren.66 Expertensysteme stammen philosophisch gesehen vom klassischen Rationalismus ab, der menschliches Denken grundsätzlich als regelgeleitetes Denken verstand; darauf hat bereits Gardner (loc. cit.) hingewiesen. Mit diesem Begriff ist Folgendes gemeint: Die wesentliche Charakteristika des menschlichen Denkens bestehen zum einen darin, dass ein bestimmtes Wissen über die Welt verfügbar ist; dieses Wissen, beim Menschen häufig in Form von Symbolen sprachlicher oder anderer Art gespeichert, muss natürlich gelernt werden und bildet dann sozusagen die Basis für die eigentlichen Denkprozesse. Diese bestehen nun darin, dass die vorhandenen Wissensbestände durch bestimmte Regeln miteinander verknüpft werden; diese Regeln können beispielsweise die Regeln des logischen Schließens sein – alle A sind B, alle B sind C, also sind alle A auch C –, die Regeln der Kombination von Begriffen – Hunde und Katzen sind Haustiere –, Regeln des methodischen Vorgehens bei wissenschaftlichen Experimenten oder auch bei praktischen Erprobungen neuer Gegenstände und noch viele mehr. Da die bloße Anhäufung von Wissensbeständen nicht dazu verhelfen kann, die Welt um uns als geordnetes Ganzes zu verstehen, ist es notwendig, über Regeln zur Kombination und Integration bestimmter Wissensbestände zu verfügen. Die (richtige) Anwendung derartiger Regeln ist denn auch der eigentliche Kern des menschlichen Denkens. Hier ist es (noch) nicht wichtig, ob dieses klassische Verständnis menschlicher Denkprozesse heute noch zu halten ist. Dieser Ansatz ist sicher zu eng. Unbestreitbar jedoch ist die Tatsache, dass in der Tat viele kognitive Prozesse nach diesem Muster strukturiert sind; insbesondere ist das Erlernen von Regeln und von deren korrekten Anwendungen zweifellos ein fundamentaler Bestandteil menschlichen Lernens. Dazu braucht man nur an den Schulunterricht in verschiedenen Fächern zu denken; wir werden auf das Problem, wie Regeln gelernt werden (können),
66
Wie häufig in der Wissenschaft ist auch künstliche Intelligenz zeitweilig ein Modebegriff geworden, der geradezu inflationär verwendet wurde (und wird). Nicht selten drängt sich der Verdacht auf, dass die Bezeichnung KI einfach verwendet wurde, um das eigene Forschungsgebiet mit mehr Prestige zu versehen.
172
3 Lernen, Künstliche Intelligenz und soziales Milieu
noch zurückkommen. Expertensysteme jedenfalls sind in ihrer Grundlogik an genau diesem Ansatz orientiert, nämlich Wissensbestände durch bestimmte Regeln zu verknüpfen und dadurch spezielle Probleme zu lösen. Gemäß dieser Grundlogik wäre es eigentlich sinnvoller, Expertensysteme als „wissensbasierte“ bzw. „regelbasierte“ Systeme zu bezeichnen, was eine Zeitlang auch geschah. Da sich jedoch praktisch diese Systeme vor allem in den Bereichen bewährt haben, in denen es um die Unterstützung menschlicher Experten auf einzelnen Gebieten geht, und da die Wissensbestände, mit denen die Systeme ausgestattet wurden, gewöhnlich ein bestimmtes Expertenwissen waren und sind, bürgerte sich die Bezeichnung „Expertensysteme“ ein, die wir auch verwenden werden. Etwas formaler betrachtet handelt es sich bei Expertensystemen um Computerprogramme, die nach folgendem Muster aufgebaut sind: Einmal gibt es eine sog. Faktenbasis, in der die einschlägigen Wissensbestandteile enthalten sind. Diese Bestandteile sind gewöhnlich symbolisch codiert – sprachlich oder logisch-mathematisch; das ist der Grund, warum man hier von einem symbolischen KI-Ansatz spricht. Die Menge dieser Wissensbestandteile ist nun, je nach Problemgebiet, selbst in verschiedene Teilmengen unterteilt. Weiterhin gibt es die erwähnten Kombinations- bzw. Verknüpfungsregeln. Diese Regeln des Expertensystems bestehen nun gewöhnlich darin, Wissensbestandteile aus Teilmenge A anderen Wissensbestandteilen aus der Teilmenge B zuzuordnen. Gibt es noch eine Teilmenge C, dann sind weitere Regeln erforderlich, die Komponenten aus A mit Bestandteilen aus C verknüpfen oder auch Komponenten aus B mit Komponenten aus C. Die Faktenbasis und die Gesamtheit der Regeln stellen nun die Wissensbasis des Expertensystems dar. Am Beispiel eines der frühesten und berühmtesten Expertensysteme, nämlich dem medizinischen Diagnosesystem MYCIN, lässt sich das gut verdeutlichen: Die Faktenbasis von MYCIN besteht a) aus einer Menge von (körperlichen) Symptomen, also Krankheitserscheinungen hinsichtlich bestimmter medizinischer Fachgebiete; MYCIN selbst wurde in seinen ersten Versionen für die innere Medizin entwickelt. Die zweite Teilmenge b) enthält eine Liste von Krankheiten wie etwa Blinddarmentzündung oder Leberschäden; die dritte Teilliste c) besteht aus verschiedenen Therapien in Form von Medikamenten, bestimmte Diätvorschriften oder auch Verbote von einzelnen Lebensmitteln wie Alkohol sowie Empfehlungen bestimmter Lebensweisen – „vermeiden Sie Stress, treiben Sie mehr Sport“ etc. Die Faktenbasis von MYCIN, das nach seiner ersten Konstruktion Anfang der achtziger Jahre ständig erweitert worden ist, soll also möglichst vollständig das Wissen eines erfahrenen Internisten repräsentieren. Die Verknüpfungsregeln von MYCIN kombinieren nun verschiedene Symptome aus Liste a) mit (möglichen) Krankheiten aus Liste b) und zusätzlich mit bestimm-
3.1 Homunculus im Computer
173
ten Therapien aus Liste c). Die Symptome repräsentieren demnach einen bestimmten Patienten, dessen körperliche Beschwerden durch Komponenten aus Liste b) diagnostiziert werden und dem aus Liste c) Therapievorschläge gemacht werden. Werden also in MYCIN als Symptome z. B. Bauchschmerzen im rechten Bereich, erhöhte Temperatur und leichte Schwellung des rechten Bauchbereichs eingegeben, dann setzt MYCIN eine Verknüpfungsregel in Kraft, die als Diagnose „Blinddarmentzündung“ ausgibt. Eine derartige Regel muss natürlich ebenfalls als Bestandteil der gesamten Wissensbasis implementiert worden sein. Eine zweite Regel verknüpft nun die Diagnose (Teilliste b)) mit einem Therapievorschlag aus Liste c) – in diesem Fall vermutlich „Einweisung in eine operative Klinik“. Dies Ergebnis bedeutet also, dass gemäß MYCIN ein Patient mit den angegebenen Symptomen möglichst schnell in eine Klinik eingewiesen werden sollte, in der eine Blinddarmoperation vorgenommen werden kann. Medizinische Diagnosen sind nicht immer so einfach und sicher wie in diesem kleinen Beispiel. Häufig ist es möglich, dass als Ursache für eine Menge von Symptomen mehrere verschiedene Krankheiten in Frage kommen. Verknüpfungsregeln, die dies berücksichtigen, geben nicht nur an, welche Krankheiten als mögliche Ursachen angenommen werden müssen, sondern auch, mit welcher Wahrscheinlichkeit die einzelnen Krankheiten als Ursachen anzunehmen sind. Entsprechend wird dann auch angegeben, welche Therapien angewendet werden sollten und mit welcher Wahrscheinlichkeit. Das ist ebenfalls in MYCIN eingebaut worden. MYCIN und andere medizinische Diagnosesysteme sind in zahlreichen Tests mit dem Urteil menschlicher Internisten oder Spezialisten für andere medizinische Gebiete verglichen worden. Gegenwärtig lässt sich konstatieren, dass die aktuellen Diagnosesysteme sehr häufig besser abschnitten als ihre menschlichen „Kollegen“. Das ist im Grunde auch nicht erstaunlich, da die Wissensbasis der großen Diagnosesysteme ständig durch das neueste medizinische Fachwissen ergänzt und korrigiert wird. Ein in dieser Hinsicht gut betreutes Diagnosesystem wird wahrscheinlich immer mehr Fachwissen besitzen als jeder einzelne Arzt.67 Mittlerweile gibt es längst etablierte Expertensysteme nicht nur in der Medizin, sondern auch in der Technik, der Wirtschaft und anderen relevanten Bereichen, die sämtlich nach dem gleichen Grundmuster operieren. Man braucht ja nur „Symptom“ zu ersetzen durch „Versagen einer Maschine“, „Krankheit“ durch „Defekt
67
Mittlerweile gibt es nicht nur medizinische Diagnosesysteme auf der Basis von Expertensystemen, sondern auch Versuche, derartige Systeme auf der Basis neuronaler Netze zu konstruieren. Diese sind allerdings meistens noch nicht sehr erfolgreich. Wir haben übrigens selbst ein medizinisches Diagnosesystem für das Spezialgebiet Ophthalmologie mit sog. interaktiven neuronalen Netzen konstruiert, das bereits erfolgreich in der Praxis eines Augenarztes getestet worden ist (Stoica-Klüver et al. 2009).
174
3 Lernen, Künstliche Intelligenz und soziales Milieu
eines bestimmten technischen Teils“ und „Therapie“ durch „Reparatur oder Ersetzung dieses Teils“, um sofort ein technisches Diagnosesystem zu erhalten. Die Frage, inwiefern menschliches Denken durch ein Expertensystem modelliert und simuliert wird, ist nicht ganz einfach zu beantworten. Ein Bereich des menschlichen Denkens wird durch Expertensysteme sicher erfolgreich nachgebildet, nämlich das Gebiet des logischen Schließens (einschließlich des Schlussfolgerns mit Wahrscheinlichkeiten). Das dürfte auch der Grund sein, warum Expertensysteme praktisch häufig sehr erfolgreich verwendet werden können. Das kann man etwas genauer rekonstruieren: Die Implementation einer bestimmten Regel z. B. in MYCIN basiert auf einer medizinischen Erkenntnis, nämlich dass bestimmte Symptome mit bestimmten Krankheiten zusammenhängen in dem Sinne, dass die Krankheiten die Ursachen der Symptome sind. Die medizinische Erkenntnis lautet deswegen: „Wenn Krankheit X vorliegt, dann treten (ggf. mit einer gewissen Wahrscheinlichkeit) die Symptome Y auf, d. h., X verursacht Y.“ Daraus ergibt sich die logische Schlussfigur des sog. modus ponens: „Die Krankheit X liegt vor. Wenn X dann Y. Also Y.“ Das ist eine Denkfigur, die im Alltag ständig, wenn auch meistens unbewusst angewandt wird: „Wenn es regnet, dann wird die Straße nass. Es regnet. Also wird die Straße nass.“ Nun erhält MYCIN freilich nicht die Ursache als Eingabe, woraus es auf die Symptome gemäß dem modus ponens schließen könnte, sondern die Symptome – genau wie der jeweilige Arzt, der im Gespräch und durch die Untersuchungen des Patienten ebenso wie MYCIN den modus ponens gewissermaßen rückwärts anwenden muss. Das gleiche Problem hat MYCIN und das ist ein Problem, da der modus ponens im Allgemeinen nicht einfach umgedreht werden kann: „Wenn die Straße nass wird, hat es geregnet. Die Straße ist nass. Also hat es geregnet.“ Das ist kein logisch korrekter Schluss, da die Nässe der Straße ja auch ganz andere Ursachen haben kann wie der Bruch einer Wasserleitung oder der Einsatz von Wasserwerfern bei einer gewalttätigen Demonstration (gewalttätig nach Meinung der Polizei). Das ist einer der wesentlichen Gründe, warum die Umkehrung des modus ponens nur mit Angabe von Wahrscheinlichkeiten geschehen kann, die wiederum regional sehr unterschiedlich sein können – in Deutschland ist der Regen wahrscheinlicher als der Einsatz von Wasserwerfern, der zum Glück nur relativ selten erfolgt, während in Süditalien im Sommer Regen häufig als Ursache nicht sehr wahrscheinlich ist. Da Expertensysteme wie MYCIN in der gleichen Situation sind wie menschliche Experten kann man hier einen wichtigen Aspekt des menschlichen Denkens wieder erkennen, nämlich dass eine Umkehrung des modus ponens nur durch die Einführung von Wahrscheinlichkeiten erfolgen kann.
3.1 Homunculus im Computer
175
Es wird allerdings bezweifelt, dass menschliches Denken bei der Lösung von beispielsweise Diagnoseproblemen tatsächlich durch Anwendung logischer Schlussfolgerungen geschieht (vgl. etwa Dreyfuss und Dreyfuss loc. cit.). Experten tun sich nicht nur häufig sehr schwer, ihre eigenen Problemlösungen in Form expliziter Regeln zu formulieren, was bei der Konstruktion von Expertensystemen nicht selten ein gravierendes Problem darstellt. Die Konstrukteure sind ja immer darauf angewiesen, dass die eigentlichen Fachleute auf den einschlägigen Wissensgebieten explizit angeben, welche Regeln sie für bestimmte Problemlösungen verwenden – das Problem der sog. Wissensakquisition bei der Konstruktion von Expertensystemen. Die Experten denken außerdem nicht unbedingt oder zumindest nicht immer auf der Basis von Regelanwendungen nach Art eines umgedrehten modus ponens, sondern orientieren sich häufig an exemplarischen Fällen, mit denen sie in ihrer Praxis bereits zu tun hatten. Die dabei angewandten Regeln sind eher die Bildungen von Analogieschlüssen der Art: „Die vorliegenden Symptome X’ und Y’ sind den Symptomen X und Y ziemlich ähnlich. X und Y waren häufig bewirkt durch Krankheit Z. Also ist es wahrscheinlich, dass die ähnlichen Symptome X’ und Y’ ebenfalls Z als Ursache haben. Probieren wir es einmal aus.“ Man kann dies als eine spezielle Form eines ganzheitlichen Denkens auffassen, bei denen es nicht so sehr um das Anwenden präziser Regeln geht, sondern um die Erfassung von Gesamtkomplexen von Symptomen und ggf. Ursachen. Nun ist es prinzipiell durchaus möglich, Expertensysteme zu konstruieren, die auch derartige Analogieschlüsse und ähnliche Denkfiguren durchführen können. Indem wir eben präzisiert haben, was exemplarische Fälle von Analogieschlüssen bedeuten können, ist es problemlos möglich, dies auch durch Expertensysteme realisieren zu lassen; dies gilt zumindest für Wissensbereiche, in denen präzise Definitionen von „Ähnlichkeit“ möglich sind. Entsprechendes gilt für die Tatsache, dass Menschen häufig nicht in „scharfen“ Kategorien denken – ein X ist entweder ein Y oder nicht –, sondern nicht selten „unscharf“ – ein X ist mehr oder weniger ein Y. Die sog. Fuzzy-Logik, die sich mit diesem Problem beschäftigt, hat längst auch in Expertensystemen Verwendung gefunden; einige einschlägige Beispiele von Fuzzy-Expertensystemen finden sich in Stoica-Klüver et al. 2009 und in Klüver und Klüver 2011b. Wichtig ist dabei, dass es sich bei diesen Erweiterung der üblichen Expertensysteme immer noch um regelbasierte Systeme handelt: Es sind komplexere Regeln als die des einfachen logischen Schließens wie bei der Umkehrung des modus ponens, aber es sind immer noch Regeln. Auf die Relevanz von Regeln und des Regellernens werden wir noch mehrfach eingehen. Insofern sind diese und andere kritisierte Grenzen der klassischen Expertensysteme nur ein – wenn auch wichtiger – Hinweis darauf, dass man immer wieder bei der Konstruktion von KI-Systemen darauf achten muss, die eigenen Annahmen über Strukturen des menschlichen Denkens nicht zu eng zu fassen. Menschen denken auch auf der Basis logischer Regeln, aber eben nicht nur, und die Behauptung,
176
3 Lernen, Künstliche Intelligenz und soziales Milieu
irgendein real existierendes KI-System wäre ein Modell für das menschliche Denken schlechthin wäre ebenso hohl wie die Beschwörungen des real existierenden Sozialismus, als es diesen noch „real“ gab. Ein gravierenderes Problem für die Behauptung, Expertensysteme wären ein Modell des menschlichen Denkens ist die Tatsache, dass Expertensysteme gewöhnlich nicht lernen. Sie können zwar sowohl in der Faktenbasis als auch im Regelsystem erweitert und modifiziert werden, jedoch das muss immer durch die Konstrukteure oder die Benutzer der jeweiligen Expertensysteme geschehen. Das kann man natürlich nicht im strengen Sinne als Lernen betrachten, auch wenn Menschen häufig neue Lerninhalte ebenfalls praktisch in ähnlicher Weise eingetrichtert bekommen. Die menschlichen Lerner jedoch müssen die neuen Wissensbestandteile dann selbst in ihre bisherige kognitive Struktur einpassen, was bei den Expertensystemen durch die menschlichen Benutzer oder Programmierer geschieht. Es gibt zwar seit längerem Versuche, Expertensysteme lernfähig zu machen; eines der berühmtesten Beispiele dafür ist von dem amerikanischen Computerwissenschaftler John Holland entwickelt worden, nämlich die sog. „classifier systems“, zu Deutsch etwa „Klassifikationssysteme“ (Holland et al. 1986). Bei dieser Methode wird ein Expertensystem mit einem sog. Genetischen Algorithmus gekoppelt; das ist ein Optimierungsalgorithmus, der nach dem Modell der biologischen Evolution operiert. Dieser Algorithmus hat die Aufgabe, nach vorgegebenen Kriterien die Regeln des Expertensystems zu variieren und zu optimieren. Das ist jedoch gerade kein Modell des menschlichen Lernens, da ein Genetischer Algorithmus immer eine Population von Expertensystemen braucht – wie in der biologischen Evolution. Der gleiche Einwand gilt für andere ähnlich gelagerte Konstruktionen. Es lag nun nahe, diesen Nachteil der Expertensysteme dadurch auszugleichen, dass man Expertensysteme mit der anderen Basistechnik für KI-Systeme koppelt, nämlich neuronale Netze. Bevor wir jedoch diese Versuche etwas näher betrachten, muss erst einmal skizziert werden, was man unter künstlichen neuronalen Netzen versteht; zu erinnern ist hier an die in Teil 2 bereits gezeigten Modelle. Neuronale Netze, wie wir im Folgenden der Einfachheit halber sagen werden, lassen sich mathematisch als Graphen darstellen, die nicht nur gerichtet sind, sondern auch gewichtet. Damit ist Folgendes gemeint: Ein (mathematischer) Graph ist nichts anderes als eine Menge von Einheiten, den sog. Knoten, die durch sog. Kanten miteinander verbunden sind. Die speziellen Verbindungen und die Anzahl der Knoten nennt man die topologische Struktur des Graphen bzw. des entsprechenden neuronalen Netzes. „Gerichtet“ sind die Verbindungen in dem Sinne, dass zwar eine Verbindung von Knoten A nach Knoten B existieren kann, jedoch nicht unbedingt zwischen B und A; man muss also immer angeben, welche Richtung gemeint ist. Existieren Verbindungen in beiden
3.1 Homunculus im Computer
177
Richtungen, dann wird dies in einer Visualisierung durch einen Doppelpfeil angezeigt. „Gewichtet“ bedeutet außerdem, dass die einzelnen Verbindungen durch bestimmte numerische Werte charakterisiert sind; diese Werte bestimmen, wie stark die Interaktionen zwischen den einzelnen Knoten sein sollen. Diese Interaktionen, die dem Netz erst eine Dynamik geben, werden durch Interaktionsregeln determiniert, die bestimmte Aktivierungen der einzelnen Elemente bzw. Knoten steuern; bei neuronalen Netzen spricht man allerdings nicht von Interaktionsregeln, sondern von „Funktionen“ wie z. B. die sog. Aktivierungsfunktion. Zusätzlich gibt es noch Lernregeln, was für unser Thema der entscheidende Umstand ist, der neuronale Netze erst interessant macht. Diese haben die Aufgabe, die Gewichtungen der Verbindungen zwischen den Knoten so zu modifizieren, wie es die jeweilige Lernaufgabe verlangt. Da die neuronalen Netze sich heuristisch am Vorbild des Gehirns orientieren, spricht man nicht von Elementen oder Knoten, sondern von (künstlichen) Neuronen. Die numerischen Werte, die die Verbindungen gewichten, werden als Gewichte wij bezeichnet (von englisch weight), wobei i das sendende Neuron ist und j das empfangende.68 Die meisten Typen neuronaler Netze sind in Schichten eingeteilt, wobei gewöhnlich eine Schicht die Inputschicht darstellt; die Neuronen dieser Schicht werden zu Beginn „extern aktiviert“, d. h. sie erhalten einen bestimmten Input in Form numerischer Werte. Eine zweite Schicht ist die Outputschicht: Wie es der Name sagt, enthält die Outputschicht die Informationen über das Verhalten des Netzes bzw. die von ihm erzielten Ergebnisse. Häufig gibt es noch sog. Zwischenschichten, die dem englischen Vorbild folgend auch als „verborgene Schicht“ (hidden layer) bezeichnet werden. Das ist recht missdeutbar, da an dieser Schicht bzw. Schichten nichts verborgen ist. Dies wird im folgenden Bild visualisiert:
Abbildung 3-1: Ein dreischichtiges Netz
68
Einzelheiten zu neuronalen Netzen finden sich in Stoica-Klüver et al. 2009.
178
3 Lernen, Künstliche Intelligenz und soziales Milieu
Allerdings gibt es auch Netze, die nur aus einer Schicht bestehen; wir werden ein derartiges Netz, das von uns entwickelt worden ist, noch näher darstellen, nämlich das in Teil 2 bereits gezeigte SEN. Im Fall der sog. „Vollvermaschung“ bestehen sogar Verbindungen zwischen allen Neuronen und zwar in beiden Richtungen. Bei derartigen Netztopologien gibt es häufig auch keine Unterscheidungen zwischen den Schichten mehr; es wird je nach Aufgabe festgelegt, welche Neuronen einen Input empfangen – möglicherweise alle – und welche Neuronen – ggf. wieder alle – den Output repräsentieren. Eine wesentliche Klassifikation besteht darin, welchen Lerntypus ein bestimmtes Netzwerk realisieren soll. Die drei wichtigsten Lernformen sind a) überwachtes Lernen (supervised learning), b) bestärkendes Lernen (reenforcing learning), c) selbstorganisiertes Lernen (self-organized learning). Das überwachte Lernen besteht darin, dass dem Netz ein Ziel (target), gewöhnlich in Form eines Vektors, vorgegeben wird. Die Lernaufgabe besteht dann darin, den Outputvektor bzw. die vorher bestimmten Outputneuronen möglichst nahe an die Werte des Zielvektors anzupassen. Dies geschieht durch Einsatz einer speziellen Lernregel, also eines Algorithmus, der die Gewichte systematisch modifiziert bis die gewünschte Nähe des Outputvektors zum Zielvektor erreicht ist. Man kann auch noch andere Netzparameter modifizieren, aber dies ist das Grundmuster. Das bestärkende Lernen, das nur relativ selten verwendet wird, verläuft ähnlich wie das überwachte Lernen, allerdings ohne die Vorgabe eines Zielvektors. Man gibt dem Netz sozusagen eine Richtung des Lernprozesses vor, z. B. dass die Werte des Outputvektors immer größer bis zu einem bestimmten Schwellenwert werden sollen – das Netz erhält jedoch diesen Schwellenwert nicht –, und bringt durch Einsatz einer entsprechenden Lernregel das Netz dazu, sich diesem Schwellenwert anzunähern. Das selbstorganisierte Lernen kommt ohne jede externe Zielvorgabe aus und besteht darin, aufgrund bestimmter Informationen eine logische Ordnung der entsprechenden Daten zu erzeugen. Man kann auch sagen, dass durch selbstorganisiertes Lernen eine vorher nur implizit vorhandene Ordnung explizit gemacht wird. Beim menschlichen Lernen lässt sich für diesen Lerntypus als Beispiel der Aufbau eines sog. semantischen Netzes (s. o. Teil 2) nennen: Wenn Kinder Hunde und Katzen beobachten und anschließend in einem Aquarium oder Teich Fische sehen, dann ordnen sie diese Wahrnehmungen derart, dass in einem semantischen Netz Hunde und Katzen relativ nahe beieinander platziert werden und die Fische weiter entfernt. Wenn diese Kinder zusätzlich Delphine beobachten und darauf hingewiesen werden, dass dies keine Fische sind, dann werden sie Delphine zwi-
3.1 Homunculus im Computer
179
schen „Fische“ einerseits sowie „Hunde“ und „Katzen“ andererseits einordnen. Dieser Lerntypus ist sicher der komplexeste; die Beispiele zu Piaget in Teil 2 haben das simuliert. Expertensysteme orientieren sich an einem Modell des Bewusstseins; wir wiesen bereits auf die Verwandtschaft des Ansatzes von Expertensystemen zur erkenntnistheoretischen Position des philosophischen Rationalismus hin. Bei diesen KISystemen spielt der Begriff der Regel die zentrale Rolle. Neuronale Netze dagegen folgen dem Vorbild des Gehirns, wenn auch in stark idealisierter und abstrakter Weise. Bei diesen Systemen gibt es – abgesehen von den Funktionen und Lernalgorithmen, die die Dynamik und damit das Verhalten der Systeme steuern – keine Regeln, die unmittelbar bestimmten Operationen des menschlichen Bewusstseins entsprechen. „Denken“ und „Lernen“ werden repräsentiert durch die Topologie und die Algorithmen, was einem intuitiven Verständnis dieser beiden Begriffe sicher nicht entspricht. Es ist von daher nicht verwunderlich, dass gerade neuronale Netze nicht nur für Studierende der Geistes- und Sozialwissenschaften nach unseren langjährigen Erfahrungen häufig schwierig verständlich zu machen sind. Wenn man also neuronale Netze als KI-Systeme bezeichnet und damit den Anspruch erheben will, dass es sich auch hier um ein Modell des menschlichen Denkens handelt, dann muss etwas genauer gesagt werden, inwiefern dieser Anspruch zu Recht erhoben wird. Natürlich ist für alle kognitiven Prozesse einschließlich des Lernens die Basis nun einmal das Gehirn und wenn man künstliche Systeme konstruiert, die die Prozesse im Gehirn jedenfalls prinzipiell abbilden, dann hat man zumindest eine Basis für „eigentliche“ KI-Systeme. Dann hat man jedoch immer noch die schwierige – und unseres Wissens bis heute nicht gelöste – Aufgabe, zu zeigen, wie man von der „subsymbolischen“ Ebene neuronaler Prozesse zur Ebene des mit Symbolen operierenden Bewusstseins kommt. Diese Grundfrage nicht nur der Philosophie sondern auch der Neurowissenschaften zu lösen, übersteigt sicher die Fähigkeiten zumindest von uns Autoren. Glücklicherweise ist die Lösung dieses uralten Problems auch gar nicht unbedingt nötig. Neuronale Netze wurden in der Frühphase ihrer Entwicklung, also in den siebziger und achtziger Jahren, deswegen als „subsymbolische“ Systeme bezeichnet, weil sie gewissermaßen „unter“ der mit Symbolen arbeitenden Ebene operieren, also selbst nicht explizit mit Symbolen arbeiten.69 Man kann jedoch ohne Probleme zeigen, dass man auch mit neuronalen Netzen auf einer „symbolischen“ Ebene arbeiten kann, also auf einer logischen Ebene, bei der die Grundeinheiten Sym-
69
Das Problem, trotzdem Symbole in neuronale Netze einzuführen, wurde nicht selten dadurch angegangen, dass man annahm, einzelnen Symbolen entsprächen Gruppen von Neuronen.
180
3 Lernen, Künstliche Intelligenz und soziales Milieu
bole repräsentieren. Der Schlüssel dazu sind die bereits erwähnten semantischen Netze, also Netze, deren Knoten aus Begriffen – oder anderen Symbolen – bestehen und deren Verbindungen logisch-semantische oder auch assoziative Beziehungen zwischen den symbolischen Einheiten ausdrücken. Semantische Netze wurden bereits 1966 von dem amerikanischen Logiker und Semantiker Quillian eingeführt (Quillian 1966). Die damit verbundene Grundthese, dass menschliches Denken „vernetzt“ operiert, also darin besteht, im Prozess des Lernens semantische Netze aufzubauen, und die Wahrnehmungen anschließend durch diese Netze zu ordnen und damit verstehbar zu machen, ist im deutschsprachigen Raum insbesondere durch die Bücher von Vester allgemein bekannt worden (z. B. Vester 1990). Es liegt nun nahe, menschliches Wissen nicht einfach als Faktenbasis eines Expertensystems zu repräsentieren, sondern bereits strukturiert in Form semantischer Netze anzuordnen. Anschließend konstruiert man ein neuronales Netz, dessen Neuronen jeweils die einzelnen Symbole des semantischen Netzes repräsentieren. Fügt man nun einschlägige Lernalgorithmen und Aktivierungsfunktionen hinzu, hat man ein lernfähiges System, das auf einer symbolischen Ebene arbeitet. Beispiele für derartige Transformationen semantischer Netze in neuronale Netze werden wir in den folgenden Kapiteln bringen. Die entscheidende Annahme ist dabei natürlich, dass Bewusstseinsprozesse ähnlich vernetzt operieren wie es die biologischen Neuronen im Gehirn machen. Es gibt jedoch genügend Belege dafür, dass diese Annahme alles Andere als unplausibel ist und in von uns später gebrachten Beispielen werden wir häufig auf entsprechende Erfahrungen bezüglich Lernen und der Verarbeitung von Wahrnehmungen rekurrieren. Wir bemerkten oben, dass Expertensysteme in einem strengen Sinne gewöhnlich nicht lernen, sondern dass Korrekturen und Erweiterungen der Wissensbasis bezüglich neuer Fakten und Regeln durch Programmierer oder Benutzer erfolgen müssen. Dies gilt auch für Regeln zur Bildung von Analogieschlüssen oder die Einführung von Fuzzy-Kategorien und entsprechenden Regeln. Dieser Nachteil von Expertensystemen hat nicht nur seinen praktischen Grund darin, dass Expertensysteme konstruiert werden, um wichtige Probleme lösen zu helfen und dass deswegen die Weiterentwicklung dieser Systeme ganz pragmatisch von den entsprechenden menschlichen Experten vorgenommen wird. Ein mindestens ebenso wichtiger Grund besteht in einer lerntheoretischen Annahme, dass nämlich „Lernen“ darin besteht, neues Wissen über die Welt zu erhalten und dass dies neue Wissen durch schon bekannte oder zusätzlich erworbene Regeln mit dem bisherigen Wissen verknüpft wird. Lernen ist dieser Annahme gemäß insbesondere das Erlernen von Regeln, die – wie in der Schule – explizit vermittelt werden. Die Eingabe von Regeln in ein Expertensystem ist demnach eigentlich nichts Anderes als
3.1 Homunculus im Computer
181
die Tätigkeit eines Lehrers, der im Schulunterricht explizit eine Regel angibt – „vor Relativsätzen muss ein Komma stehen“ – und anschließend die Schüler diese Regel an praktischen Beispielen trainieren lässt. Dies didaktische Vorgehen ist schon häufig kritisiert worden, auch wenn es aus Zeitgründen häufig unverzichtbar ist. Eine der bekanntesten Gegenpositionen dazu ist das bereits von uns thematisierte Konzept des „exemplarischen Lernens“ von Klafki. Dies besteht, wie erwähnt, darin, dass die Schüler nicht explizit vorgegebene Regeln lernen, sondern dass sie exemplarische Einzelfälle vermittelt bekommen. Durch die Analyse dieser Beispiele – sofern diese tatsächlich exemplarisch sind – sollen die Schüler im Idealfall selbst die Regeln erkennen können, für die die exemplarischen Fälle repräsentativ sind. Wir brauchen hier nicht darauf einzugehen, welche praktischen und häufig auch kognitiven Probleme bei dieser Art von Didaktik entstehen, so wünschenswert ein derartiges Vorgehen nach unseren eigenen Erfahrungen auch häufig ist. Wesentlich hier ist der Umstand, dass das exemplarische Lernen eigentlich dem entspricht, wie neuronale Netze lernen. Neuronale Netze haben auf einen ersten Blick keine Regeln, sondern die erwähnten Topologien sowie bestimmte Aktivierungsund Lernalgorithmen. Wenn diese Netze lernen, dann erhalten sie – je nach Codierung und Lerntypus – Beispiele, anhand derer sie ihre Lernprozesse realisieren. Wir werden in einem der folgenden Kapitel in aller Kürze darauf eingehen, inwiefern die so trainierten Netze dann in der Lage sind, diese Beispiele in einem doppelten Sinn zu „generalisieren“. Wichtig hier ist erst einmal der Umstand, dass die Netze keine Regeln gelernt haben, sondern „nur“ einzelne Beispiele, die sie dann wieder erkennen und ggf. auch mit anderen Beispielen verknüpfen können. Im Gehirn nebenbei gesagt gibt es natürlich auch keine Regeln, sondern nur bestimmte neuronale Verbindungen (s. u.) Wenn man jedoch genauer hinsieht, dann kann man durchaus so etwas das Lernen von Regeln erkennen, wenn auch nicht in der expliziten Form wie bei Expertensystemen. Dazu müssen wir uns allerdings kurz vergewissern, was eigentlich unter einer Regel zu verstehen ist. Logisch gesehen besteht eine Regel immer aus einer Bedingung „wenn ...“ und einer Folge „dann ...“. Zum Beispiel: „Wenn ein Relativsatz eingeschoben werden soll, dann muss er durch Kommata vom Rest des Satzes abgetrennt werden.“ „Wenn eine Verkehrsampel auf Rot springt, dann muss man sein Auto anhalten“. Die Bedingung charakterisiert also die Situation, in der eine bestimmte Regel angewandt werden soll bzw. muss; die Folge beschreibt das erforderliche Verhalten des Regelanwenders. Es gibt auch Regeln, wie schon bei MYCIN erwähnt, die nur mit einer gewissen Wahrscheinlichkeit angewandt werden können, aber das Prinzip ist das Gleiche.
182
3 Lernen, Künstliche Intelligenz und soziales Milieu
Das Training neuronaler Netze, also deren Lernen, besteht darin, dass die Netze einen bestimmten Input erhalten, auf den sie mit einem bestimmten Output reagieren sollen. Der Input lässt sich gewöhnlich als ein Beispiel verstehen, da er nur eine bestimmte Information über einen codierten Sachverhalt repräsentiert und keine allgemeine Regel. Insofern ist das Lernen neuronaler Netze exemplarisch. Das Ergebnis eines derartigen Trainingsprozesses, nämlich die korrekte Verbindung des Inputs mit dem gewünschten Output, lässt sich nun logisch ebenfalls als eine „wenn – dann“ Aussage darstellen: Wenn ein bestimmter Input I gegeben wird, dann erfolgt der Output O. Damit hat das Netzwerk praktisch eine Regel gelernt, wenn auch eng begrenzt auf die Einzelfälle I und O. Nun können neuronale Netze „generalisieren“, was später etwas genauer beschrieben wird. Hier genügt es, sich klar zu machen, dass Netze auch Inputs mit dem Output O verknüpfen können, die nicht identisch mit I sind, sondern etwas von ihm abweichen. Das kann man mathematisch beschreiben und wir werden es später auch vorführen. Jedenfalls hat das Netzwerk nicht nur gelernt, den Einzelfall I mit O zu verbinden, sondern auch eine bestimmte Menge anderer Inputs, sofern diese I hinreichend ähnlich sind. Das entspricht offenbar der Bildung von Analogieschlüssen, die wir schon bei Expertensystemen erwähnt hatten. Das Netzwerk hat jetzt tatsächlich die Regel gelernt „wenn I oder I’ oder I’’ oder ... , dann reagiere mit O“. Damit ist die Regel schon deutlich erweitert worden; das Netzwerk hat aus dem Lernen des Einzelfalls I eine allgemeinere Regel abgeleitet. Anders gesagt: Das Netzwerk hat gelernt „in allen Fällen I’, die dem zuerst gelernten Beispiel ähnlich sind, wende die Regel „wenn I dann O“ an. Es ist dabei für das Netzwerk unerheblich, welche logische Form diese Regel genau hat bzw. welche Form von Denken in der Regel ausgedrückt wird. Wesentlich ist nur, dass aus dem exemplarischen Lernen eine Regel gebildet worden ist, die zuweilen deutlich über den Einzelfall hinausgeht. Folgt man diesem Grundgedanken, dann ist es offenbar problemlos möglich, die beiden oben beschriebenen Probleme bei der Konstruktion von Expertensystemen dadurch zu lösen, dass man diese „hybridisiert“, nämlich mit geeigneten neuronalen Netzen koppelt.70 Das eine Problem ist das der Wissensakquisition. Experten auf einem bestimmten Gebiet können nicht unbedingt explizite Regeln angeben, wie bei speziellen Problemen zu verfahren ist, sondern sie geben Informationen, wie sie bei einzelnen Präzedenzfällen verfahren haben. Ein derartiger Präzedenzfall kann nun einem neuronalen Netz als Input gegeben werden und es wird zusätzlich angegeben, welcher Output gewünscht ist (das ist der Typ des überwach-
70
Der Begriff der Hybridisierung stammt aus der Biologie, wo Kreuzungen zwischen zwei Grundarten als hybride Arten bezeichnet werden.
3.1 Homunculus im Computer
183
ten Lernens). Wenn das Netz dies gelernt hat und wenn das Netz hinreichend generalisieren kann, dann kann als Ergebnis in das Expertensystem die Regel eingegeben werden: „Liegt ein Problem der Art X vor, dann wende die Regel an, die die Lösung Y darstellt“. X ist dabei die Menge von Einzelfällen, die aus dem einzelnen Input X durch das Netzwerk per Generalisierung gebildet worden ist. Die auf einen einzelnen Präzedenzfall bezogene Angabe des menschlichen Experten kann also in eine explizite Regel transformiert werden, die sich allgemein auf mehr als einen Einzelfall bezieht. Damit ist auch das zweite Problem gelöst, nämlich das Expertensystem lernfähig zu machen. Natürlich kann dies Verfahren auch zu Unstimmigkeiten führen, nämlich wenn das Netzwerk entweder zu stark generalisiert oder zu gering. Im ersten Fall wird die Regel zu allgemein, d. h. es werden auch Fälle einbezogen, die nach der Meinung von Experten eigentlich nicht zum Gültigkeitsbereich der Regel gehören. Im zweiten Fall wird die Regel zu eng, d. h. Probleme, die eigentlich mit der Regel bearbeitet werden müssten, werden nicht durch die Regel erfasst. Da neuronale Netze in dieser Hinsicht häufig nur schlecht prognostizierbar sind – generalisieren sie genau richtig, zu wenig oder zu stark –, zieht man es bei Expertensystemen, die in wichtigen praktischen Kontexten eingesetzt werden sollen, gewöhnlich vor, diese wie üblich manuell zu konstruieren. Dem Problem des „richtigen“ Generalisierens werden wir uns später noch einmal zuwenden. Hier sollte „nur“ darauf hingewiesen werden, dass man mit Hilfe des Konzepts des exemplarischen Lernens einige fundamentale Probleme der Konstruktion von KI-Systemen zumindest im Prinzip durchaus lösen kann. Insofern ist dies ein illustratives Beispiel, wie sich klassische didaktische Modelle und Lerntheorien sowie KI-Forschung gegenseitig befruchten können. Der Sinn einer Konstruktion von hybriden Systemen, also hier einer Koppelung von neuronalen Netzen mit Expertensystemen besteht gewöhnlich darin, dass die neuronalen Netze als der lernende Teil die einschlägigen Regeln generieren, die anschließend im Expertensystem zur praktischen Anwendung kommen. Dies lässt sich auch verstehen als eine KI-Anwendung der mehrfach erwähnten Mechanismen von Piaget, nämlich der Verbindung von Assimilation und Akkommodation. Wenn Akkommodation bedeutet, dass aufgrund bestimmter Umweltwahrnehmungen spezielle Muster – Schemata – entstehen, dann wird dies durch die neuronalen Netze geleistet. Sie bauen Regeln oder auch andere kognitive Kategorien durch ihre jeweiligen Lernprozesse auf. Werden diese Muster nun als Regeln in das zugehörige Expertensystem integriert, dann assimiliert dieses, sofern die entsprechenden Eingaben erfolgen. Da das Expertensystem selbst nicht lernt, haben wir mit ihm gewissermaßen die Assimilationskomponente des gesamten lernenden und Informationen verarbeitenden Systems. Reichen die implementierten Regeln nicht aus, muss – wie bei Piaget dargestellt – wieder ein Akkommodationsprozess in Gang gesetzt werden, der erneut durch das neuronale Netz geleistet
184
3 Lernen, Künstliche Intelligenz und soziales Milieu
wird usf. Natürlich sind bei der praktischen Realisierung und Anwendung eines derart komplexen Systems alle möglichen Details zu bearbeiten, aber im Prinzip kann man daraus sehen, wie man sich die von Piaget postulierten Prozesse sehr präzise vorstellen und konstruktiv realisieren kann. Es mag übrigens etwas ungewöhnlich erscheinen, dass wir das Erlernen und die Anwendung von Regeln mit den Konzepten von Piaget darstellen. Piaget selbst hatte die Prozesse der Assimilation und Akkommodation, wie in Teil 2 erläutert, für den Erwerb von kognitiven Schemata – und nicht Regeln – entworfen. Diese Schemata lassen sich auch als Kategorien bestimmen, also kognitive Ordnungen der jeweiligen Weltumgebung. Wir werden auf das Erlernen von Kategorien in den folgenden Kapiteln noch zurückkommen. Man kann jedoch eine Regel auch auffassen als eine Orientierung, wie eine bestimmte Situation aufzufassen ist, nämlich als der Bedingungsteil einer wenn – dann Beziehung. Eine Situation bzw. ein Problem in dieser Weise zu erkennen, ist zweifellos eine kognitive Leistung, die Lernende häufig ohne Anweisungen überfordert. Jedenfalls ist der (hermeneutische) Prozess, eine Situation als Bedingungsteil einer Regel zu erkennen, durchaus vergleichbar mit dem kognitiven Prozess, eine Wahrnehmung kategorial in die eigene kognitive Struktur einzuordnen. Wir wiesen oben darauf hin, dass sich im Gehirn ebenso wenig explizite Regeln finden lassen wie in neuronalen Netzen. Auch dies jedoch ist in einem etwas abstrakteren Sinn nicht ganz richtig. Formal gesehen ist das Gehirn nichts anderes als ein sehr komplexes und ein sehr großes Netzwerk, in dem neuronale Gruppen miteinander in Verbindung stehen. Dieser Umstand war ja auch bei der Konstruktion (künstlicher) neuronaler Netze maßgeblich. Informationsverarbeitung im Gehirn findet bekanntlich dadurch statt, dass bestimmte (biologische) Neuronen durch externe Informationen „erregt“ werden und diese Erregung an mit ihnen verknüpfte andere Neuronen weitergeben, diese also dadurch ebenfalls erregen. Welche Neuronen nun mit den Neuronen verknüpft sind, die die Eingangssignale – den Input – aufnehmen, ist natürlich eine Frage des Lernens, abgesehen von den Verbindungen, die schon vor der Geburt genetisch festgelegt sind. Mit einem Jargon der Computerwissenschaftler kann man diese Verbindungen als feste Verdrahtung bezeichnen.71 Die spezifischen Arten, durch die das Gehirn es lernt, bestimmte Verbindungen herzustellen, sind noch nicht sehr detailliert erforscht. Allerdings besteht Einigkeit darüber, dass ein Prinzip sehr wesentlich ist, das bereits in der Mitte des letzten
71
Neuere Forschungen haben übrigens gezeigt, dass manche Verbindungen bereits vor der Geburt während der embryonalen Phase gelernt werden.
3.1 Homunculus im Computer
185
Jahrhunderts von dem kanadischen Neuropsychologen Donald Hebb formuliert wurde und das seitdem immer wieder empirisch bestätigt worden ist (Hebb 1949); die exakte Formulierung haben wir bereits in Teil 2 gebracht und erinnern hier nur noch einmal daran. Vereinfacht gesagt geht es darum, dass ein Neuron A dann ein Neuron B erregt, wenn B räumlich hinreichend nahe an A ist. Wenn nun A immer wieder durch externe Signale erregt wird – in der Sprache der Neuroinformatik würde man hier „aktiviert“ sagen –, dann verstärkt sich die Verbindung von A zu B proportional zur Häufigkeit der externen Erregung von A bis diese Verbindung sozusagen stabil geworden ist. Wir erinnern hier an unsere Darstellung des klassischen Behaviorismus in Teil 2 und die dort gebrachten Beispiele: Das Prinzip von Hebb stellt gewissermaßen die neurobiologische Grundlage für die klassische Konditionierung dar. Je häufiger ein externer Reiz produziert wird, desto eindeutiger ist die entsprechende Reaktion. Hebb folgend wird also die konditionierte Reaktion dadurch realisiert, dass das Gehirn im Konditionierungsprozess feste Verbindungen aufbaut, die immer die gleiche Erregungsausbreitung produzieren. Im logischen Sinne liegt damit hier die Internalisierung einer Regel vor: Wenn Signal X dann Reaktion Y. Damit ist auch deutlich, wie im Gehirn eine Regel gespeichert ist: Die Speicherung wird realisiert durch die festen Verbindungen, die im Verlauf des jeweiligen Lernprozesses entstanden sind zwischen den „Eingangsneuronen“, die die externen Signale aufnehmen, und den „Reaktionsneuronen“, die die gewünschten Reaktionen produzieren bzw. steuern. Eine Regel „ist“ im Gehirn folglich eine Menge von bestimmten Verbindungen sowie natürlich den beiden Mengen von Neuronen. Der gleiche Gedanke lässt sich auf künstliche neuronale Netze anwenden. Mathematisch werden die Verbindungen, die zwischen den Input- und Outputneuronen bestehen, durch eine sog. Gewichtsmatrix dargestellt. Das ist nichts anderes als ein gewöhnlich quadratisches Schema, in dem die gewichteten Verbindungen zwischen den verschiedenen Neuronen durch deren „Gewichtswerte“ repräsentiert werden. Nehmen wir beispielsweise ein einfaches neuronales Netz mit den Neuronen a, b und c sowie den gewichteten Verbindungen w(a, b) = 0.3, w(b, c) = 0.2, w(a, c) = 0.1, w(b, a) = w(c, a) = 0.5, w(c, b) = 0.1. Die entsprechende Matrix sieht dann so aus:
a b c a 0 0.3 0.1 b 0.5 0 0.2 c 0.5 0.1 0 w(a, b) = 0.3 bedeutet natürlich, dass der Gewichtswert der Verbindung zwischen a und b den Wert 0.3 hat. Die Gewichtsmatrix gibt also sowohl an, welche Verbindungen zwischen den einzelnen Neuronen überhaupt existieren als auch welchen Gewichtswert diese haben. Wie man sieht sind die Verbindungen zwischen a und
186
3 Lernen, Künstliche Intelligenz und soziales Milieu
a sowie b und b und c und c sämtlich gleich Null. In diesem Fall hat also kein Neuron eine Verbindung zu sich selbst, was bei anderen Netzen jedoch durchaus vorkommen kann.72 Der Lernprozess bei neuronalen Netzen findet, wie oben bemerkt, dadurch statt, dass bei bestimmten Inputs die Gewichtswerte solange modifiziert werden, bis das jeweils gewünschte Ergebnis als Output erreicht worden ist. Das hat durchaus Ähnlichkeiten mit dem Prinzip von Hebb und nicht zufällig werden die gewöhnlich verwendeten Lernalgorithmen bzw. Lernregeln häufig auch als „Hebbsche Lernregeln“ (Hebbian learning rules) bezeichnet. Wenn nun ein Netzwerk auf die oben skizzierte Weise aus einem eingegebenen Einzelfall eine Regel generiert hat, wie allgemein auch immer, dann ist dies offenbar dadurch geschehen, dass die Gewichtsmatrix mit ihren Werten die erforderliche Form erreicht hat. Entsprechend zur Lokalisierung von Regeln im Gehirn kann man bei den künstlichen Pendants auch sagen, dass neuronale Netze Regeln in einer geeigneten Gewichtsmatrix speichern. Eine Regel ist dann eine Kombination von Inputneuronen mit entsprechenden Inputwerten, von Outputwerten mit den gewünschten Werten sowie einer Gewichtsmatrix, die den gewünschten Output generiert. Es ist sicher gewöhnungsbedürftig, eine derartige Kombination von Neuronen und einer Matrix als die Darstellung einer Regel mit „wenn – dann“ Beziehungen anzusehen, aber es muss daran erinnert werden, dass es im Gehirn im Prinzip nicht anders ist.73 Wir werden diese Überlegungen in den späteren Kapiteln noch etwas detaillierter und vor allem an Beispielen erläutern, so dass diese allgemeinen Hinweise zu KISystemen und deren Lernmöglichkeiten vorerst genügen können. Gehen wir deshalb am Schluss dieses Kapitels noch einmal darauf ein, wie „intelligent“ gegenwärtig KI-Systeme sind und was es bedeutet, wenn KI-Systeme intelligente Leistungen hervorbringen können.
72
Es ist übrigens amüsant und ein Zeichen dafür, wie dieser einfache Begriff der Matrix geheimnisvoll umwittert werden kann, dass in der berühmten Matrix-Trilogie, den drei Filmen, nirgendwo eine tatsächliche Matrix auftaucht. 73 Ein neuronales Netz kann, wie oben bemerkt, auch mehr als nur die beiden Schichten von Input- und Outputneuronen enthalten, nämlich die sog. Zwischenschichten. Die Aktivierungswerte der Neuronen in der Zwischenschicht sind natürlich dann auch wesentlich dafür, dass die Werte der Outputneuronen die gewünschten sind. Die entsprechenden Werte der Zwischenschichtsneuronen ergeben sich jedoch sozusagen als abhängige Variablen aus den Werten der Gewichtsmatrix. Natürlich kann man die obige „neuronale“ Definition einer Regelrepräsentation auch durch die einschlägigen Werte der Zwischenneuronen erweitern.
3.1 Homunculus im Computer
187
Seit der Konferenz von Dartmouth, sozusagen der Geburtsstunde der KIForschung, sind immer wieder große Hoffnungen geweckt worden, dass intelligente Computer in absehbarer Zeit realisiert werden könnten. Diese Hoffnungen wurden jedoch immer wieder enttäuscht und in den USA führte dies dazu, dass zu Beginn dieses Jahrhunderts von einem „KI-Winter“ gesprochen wurde, in dem die Frühlingsträume der KI-Pioniere gewissermaßen erfroren. Die Gründe dafür sind vielfältig und wir können ihnen hier nicht nachgehen. Insbesondere zeigte sich, dass die neuronalen Netze nach wie nur bei relativ wenig komplexen Problemen eingesetzt werden können, da ihr Verhalten immer noch nicht hinreichend verstanden ist. Dass die Neurobiologen das Gleiche vom Gehirn sagen müssen, dürfte für die KI-Forscher nur ein schwacher Trost sein. Allerdings ist die Tatsache, dass die frühen KI-Forscher viel zu optimistisch waren und die Schwierigkeit ihrer selbst gestellten Aufgabe massiv unterschätzt hatten – vielleicht wollte man diese Schwierigkeiten auch gar nicht sehen –, kein Beweis dafür, dass eine „reale“, nämlich leistungsfähige KI nicht möglich ist. Das Ziel, Computerprogramme zu konstruieren, die alle wesentlichen kognitiven Fähigkeiten von Menschen aufweisen, ist viel zu komplex als dass es innerhalb kurzer Zeit und auf einmal realisiert werden kann. Also muss man Schritt für Schritt vorgehen und versuchen, überschaubare Einzelziele zu erreichen. Dass man damit sogar an Denkoperationen erfolgreich herangehen kann, die als genuin geisteswissenschaftliche Verfahren sich mathematisch-formalen Analysen scheinbar entziehen, haben wir selbst für den Fall hermeneutischer Denkweisen gezeigt (Klüver und Klüver 2011a). Es gibt also keinen Grund zum absoluten Pessimismus sondern nur zu einer pragmatischeren Denkweise. Als Modelle für die Analyse menschlicher Lern- und Kognitionsprozess haben die hier betrachteten KI-Systeme nach wie vor ihren großen Stellenwert. Wir merkten oben an, dass unter dem Stichwort der „schwachen KI“ und dem einer „starken KI“ teilweise heftige Diskussionen darüber geführt wurden, ob Computer, die beispielsweise den Turing Test bestehen, nun intelligent „sind“ oder Intelligenz nur „simulieren“. Das ist natürlich eine vorwiegend semantische Frage, nämlich die, was man sowohl unter Intelligenz verstehen will und was es bedeutet, dass bestimmte Systeme intelligent sind im Gegensatz zu einer bloßen Simulation von Intelligenz. Vertreter der schwachen KI-Position halten die Konstruktion und die Analyse von KI-Programmen für ein wichtiges Werkzeug, um menschliche kognitive Prozesse zu verstehen; das denken wir natürlich auch, denn sonst hätten wir dies Buch nicht mit einem Kapitel über KI versehen. Denken dagegen ist nach dieser Auffassung nur Menschen vorbehalten, da nur sie beispielsweise über ein Bewusstsein verfügen und nur sie Symbolen eine Bedeutung zuweisen können. Vertreter der starken KI-Position stehen eher der oben betrachteten funktionalistischen Auffassung nahe: Wenn zwei Systeme, ein menschliches und ein künstliches, bei gleichem Input die gleichen Leistungen erbringen und wenn
188
3 Lernen, Künstliche Intelligenz und soziales Milieu
man die Leistungen des menschlichen Systems als intelligent bezeichnet, dann gibt es keinen Grund, das künstliche System nicht auch als intelligent zu bezeichnen. Diese philosophischen und zuweilen auch pseudophilosophischen Diskurse sind zumindest so lange ziemlich müßig, wie es keine KI-Systeme gibt, die die erforderlichen intelligenten Leistungen auch tatsächlich erbringen. So lange das so ist, gibt es keinen Grund, eine andere Position als die einer pragmatischen schwachen KIPosition einzunehmen und KI-Systeme als nützliche und vielleicht sogar unverzichtbare Werkzeuge für die Erforschung und Analyse der wesentlichen menschlichen Kognitionsprozesse zu betrachten. Das geschieht in diesem Buch. Falls aber irgendwann in einer sicher nicht sehr nahen Zukunft tatsächlich KI-Systeme entwickelt werden oder sich vielleicht durch evolutionäre Prozesse in Analogie zur biologischen Evolution selbst entwickeln, wie es das Thema vieler Science Fiction Romane und Filme ist, dann kann man die Frage etwas realitätsadäquater neu betrachten. Vielleicht wird dann diesen Systemen dann und nur dann das Prädikat „sind intelligent“ zugesprochen, wenn sie auch die sonstigen Merkmale lebender Menschen haben, einschließlich deren Sterblichkeit.74 Bis dahin wenden wir uns konkreteren Fragen zu.
3.2
Lernen und KI-Systeme
Wir haben im vorigen Kapitel mehrfach darauf hingewiesen, dass das Lernen neuronaler Netze – und nur diese werden wir in den folgenden Überlegungen thematisieren – durch eine systematische Veränderung der Gewichtswerte und damit der Gewichtsmatrix stattfindet. Begründet werden kann dies methodische Grundprinzip durch die von Hebb und anderen Neurowissenschaftlern immer wieder festgestellte Tatsache, dass Lernen im Gehirn durch „synaptische Veränderungen“ stattfindet, also durch Veränderungen der Verbindungen zwischen den biologischen Neuronen bzw. Neuronengruppen. Die Darstellungen der entsprechenden neuronalen Strukturen als gewichtete Graphen und die Repräsentation der Gewichtungen in einer Gewichtsmatrix sind natürlich mathematische Abstraktionen, die jedoch am Prinzip der im Lernprozess variierten neuronalen Verbindungen im Gehirn nichts wesentliches ändern. Die von uns zusätzlich postulierte Annahme, dass derartige Variationen von Netzstrukturen auch für symbolisch operierende Prozesse auf der Bewusstseinsebene angenommen werden können, ist ein weiterer Hinweis darauf, dass die Lernmechanismen, die für neuronale Netze
74
Das Charakteristikum der Sterblichkeit war das entscheidende Kriterium in der berühmten Science Fiction Story „The Bicentennial“ von Isaac Asimov.
3.2 Lernen und KI-Systeme
189
entwickelt worden sind, nützliche Hinweise für das Verständnis menschlicher Lernprozesse geben können. Wenn man also abkürzend davon reden kann, dass Lernen „eigentlich“ nichts anderes ist als die Variation einer Netzwerktopologie, dann gilt dies für natürliche wie künstliche Netzwerke gleichermaßen. Schauen wir uns deswegen die Logik lernender neuronaler Netze etwas näher an, um zu verstehen, was mit „Variation einer Netzwerktopologie“ genauer gemeint ist.75 Der wohl einfachste Lerntypus ist das sog. überwachte Lernen, das wir im vorigen Kapitel kurz erläutert haben. Es geht hier darum, dass das lernende künstliche System bei jedem Lernschritt eine genaue Rückmeldung über den Lernerfolg erhält. Dies entspricht bei menschlichen Lernern etwa einer Unterrichtssituation, in der der Lehrer nicht nur die Antworten und andere Lernleistungen der Schüler bewertet, sondern auch genau angibt, in welcher Hinsicht der Lernerfolg noch verbessert werden muss. Falls der Lehrer lediglich angibt, ob die Antwort richtig oder falsch ist – ohne zusätzliche Erläuterungen –, hat man es mehr mit dem Typus des bestärkenden Lernens zu tun, aber das nur nebenbei.76 Für ein (künstliches) neuronales Netz, das überwacht lernen soll, wird die Rolle des Lehrers durch einen sog. Zielvektor (target vector) übernommen. Dies ist eine geordnete Menge von numerischen Werten, die eine formale Repräsentation des gewünschten Lernerfolgs – des Lernziels – darstellen. Hat demnach ein Zielvektor die Gestalt t = (0.3, 0.6, 0.2, 0.8) – t für target = Ziel –, dann kann man dies beispielsweise übersetzen als eine Zerlegung des Lernziels in vier Teilziele, von denen das erste Ziel mit 0.3 repräsentiert wird, das zweite mit 0.6, das dritte mit 0.2 und das vierte mit 0.8. Hier ist natürlich gleichgültig, was diese Werte inhaltlich bedeuten; die Anwendung neuronaler Netze beinhaltet immer das Problem, inhaltliche Ziele in Form numerischer Werte darzustellen. Aber das gilt selbstverständlich für die meisten Computerprogramme. Der Lernprozess eines überwacht lernenden neuronalen Netzes besteht nun darin, die Outputwerte, also die Aktivierungswerte der Neuronen in der Outputschicht,
75
Topologie ist eigentlich eine mathematische Disziplin, in der insbesondere räumliche Beziehungen zwischen Elementen einer Menge untersucht werden. Bei neuronalen Netzen spricht man deswegen von ihrer Topologie, d. h. der Gesamtheit ihrer Verbindungen, um den häufig schwammigen Begriff der „Struktur“ zu vermeiden. 76 Es ist eine betrübliche Tatsache, die sowohl von Schülern als auch Studierenden häufig beklagt wird, dass Lehrende häufig den Lernerfolg nur generell bewerten, ohne dass Hinweise gegeben werden, in welcher Hinsicht die Lernleistungen noch zu verbessern sind. Vielleicht motivieren diese Darstellungen des überwachten Lernens einige zukünftige und gegenwärtige Lehrende dazu, sich im Unterricht mehr dieser Form der Rückmeldungen zu befleißigen; Lernende sind ohne explizite Hinweise, wie und was zu verbessern ist, erfahrungsgemäß gewöhnlich überfordert.
190
3 Lernen, Künstliche Intelligenz und soziales Milieu
so nahe wie möglich den Werten der entsprechenden Komponenten im Zielvektor anzunähern. Dabei wird vor dem eigentlichen Lernprozess, der in der Neuroinformatik gewöhnlich als Trainingsprozess bezeichnet wird, festgelegt, was eine hinreichende Nähe sein soll. Hat das Netz nach einer bestimmten Zahl von Trainingsschritten diese Nähe erreicht, dann gilt der Lernprozess als erfolgreich und das Programm stoppt. Hat das Netz nach einer ebenfalls vorgegebenen Maximalzahl von Trainingsschritten diese Nähe nicht erreicht, dann wird der Trainingsprozess als erfolglos abgebrochen. Der Algorithmus, der den Trainingsprozess steuert, ist eine „Lernregel“. Bei zweischichtigen neuronalen Netzen, also eine Inputschicht und eine Outputschicht, wird gewöhnlich die sog. Delta-Regel verwendet:
'wij K u o j u G j Dies ist erklärungsbedürftig: 'wij bezeichnet den Wert, um den das Gewicht wij, also das Gewicht der Verbindung vom Neuron i zum Neuron j, verändert werden soll. K ist eine sog. Lernrate und bezeichnet einen zusätzlichen Faktor, der gewissermaßen die Geschwindigkeit der Gewichtsveränderungen steuert; Gj ist die Differenz zwischen der Komponente j im Outputvektor und der entsprechenden Komponente im Zielvektor; oj schließlich ist der Aktivierungswert des Outputneurons j zum Zeitpunkt vor der Veränderung von 'wij (genauer gesagt der Outputwert, deswegen die Bezeichnung oj). ' ist übrigens das groß geschriebene griechische delta, also das d; K = äta entspricht etwa unserem ä und G ist das kleine griechische d. Die Delta-Regel heißt nun deswegen so, weil – wie in der Mathematik bei Differenzbezeichnungen häufig üblich – die Differenz zwischen den Outputneuronen und den Komponenten des Zielvektors mit delta bezeichnet wird. Inhaltlich lässt sich diese Regel folgendermaßen verstehen: Es gibt eine Lernrate, die man bei Menschen als die individuelle Fähigkeit interpretieren kann, Lernprozesse mehr oder weniger schnell durchzuführen; bei Anwendungen der DeltaRegel wird diese Lernrate vom Benutzer vor Beginn des eigentlichen Trainingsprozesses festgelegt. Wesentlich ist vor allem der Faktor Gj, der Auskunft gibt, wie weit das lernende System noch vom Ziel bzw. der Zielkomponente j entfernt ist. Die Delta-Regel steuert demnach das Lernverhalten des neuronalen Netzes in Abhängigkeit vom Lernerfolg, nämlich der aktuellen Distanz zum Ziel. Insbesondere gilt – zumindest im Prinzip –, dass die Veränderungen der Gewichtswerte umso kleiner werden je näher die Outputwerte an den Zielwerten sind. Wie empirisch begründet ist nun diese Regel bzw. inwiefern kann man hier von einer strukturellen Äquivalenz, zwischen menschlichen Lernprozessen und denen künstlicher Systeme reden? Dies ist natürlich nicht ganz einfach zu beantworten.
3.2 Lernen und KI-Systeme
191
Einerseits operiert die Regel nach dem Prinzip von Hebb, d. h., die Gewichtswerte zwischen den einzelnen Neuronen werden sukzessive verstärkt je nach Dauer des Lernprozesses. Das gibt der Regel durchaus empirische Plausibilität. Ebenso ist plausibel, dass die Lernrate K für jeden Lernprozess sozusagen individuell eingestellt werden kann, je nachdem ob man einen schnellen Lernprozess will oder eher einen langsamen. Zahlreiche Experimente mit dieser Lernregel haben auch interessante Parallelen zwischen menschlichen und künstlichen Lernprozessen festgestellt: Wird die Lernrate zu niedrig festgelegt, kommt es häufig vor, dass das Lernziel überhaupt nicht erreicht wird – das Netz konvergiert nicht zum Ziel, um diesen Effekt technisch auszudrücken. Das entspricht einem sehr langsamen Schüler, der in der zur Verfügung stehenden Zeit die geforderten Lernziele beim besten Willen nicht erreichen kann. Derartige Fälle dürften jedem Lehrenden hinreichend bekannt sein. Man kann übrigens die Lernrate auch interpretieren als ein Maß der Lernmotivation: Ist dies zu gering, werden die Lernziele auch nicht erreicht. Bei neuronalen Netzen kann man dann die Lernrate einfach erhöhen; wie das bei menschlichen Lernern erreicht werden kann, ist leider eine ganz andere Frage. Wählt man dagegen eine zu hohe Lernrate, tritt häufig der gegenteilige Effekt auf: Das Netzwerk schießt sozusagen über das Ziel hinaus und erreicht damit auch nicht den gewünschten Lernerfolg. Dies liegt mathematisch daran, dass die Outputwerte sehr rasch zu groß werden und damit die Distanz zwischen Output und Ziel wieder größer anstatt kleiner werden. Auch das lässt sich in der pädagogischen Realität häufig beobachten, nämlich bei übereifrigen Schülern, die sich nicht vorsichtig dem gewünschten Ziel nähern, sondern immer gleich alles auf einmal erreichen wollen. Im ersten Fall muss das pädagogische Handeln auf zusätzliche Motivation und Förderung der Schüler setzen; im zweiten Fall eher auf bremsende Funktion. Insofern ist die Einführung der Lernrate K in die Delta-Regel nicht nur aus pädagogischen Aspekten durchaus plausibel sondern auch in ihren Auswirkungen bestimmten Phänomenen sehr nahe, die aus der pädagogischen Praxis bekannt sind. Der Kernpunkt der Delta-Regel ist natürlich die Abhängigkeit des Trainingsprozesses vom jeweils erreichten Lernerfolg, also der Größe der Distanz zum Zielvektor. Die Notwendigkeit, das Maß von Veränderungen abhängig zu machen von der Entfernung zu einem Ziel, ist nicht nur aus pädagogischen Kontexten her bekannt. Jedes Justieren von technischen Geräten auf ein bestimmtes Ziel wie etwa die Einstellung von Reglern oder auch das Erlernen bestimmter Fähigkeiten wie das Spielen eines Instruments folgt im Prinzip dieser Logik: Am Anfang müssen die Veränderungen relativ groß sein, um überhaupt nennenswerte Erfolge zu erzielen; je näher man dem gewünschten Ziel kommt, desto kleiner müssen die Veränderungen werden, um nicht über das Ziel hinauszuschießen und damit den bisherigen
192
3 Lernen, Künstliche Intelligenz und soziales Milieu
Lernerfolg wieder in Frage zu stellen. Derartige praktische Alltagserfahrungen geben der Logik überwachter Lernprozesse wieder eine durchaus überzeugende Plausibilität. Allerdings ist mit diesen „Plausibilitätsargumenten“ natürlich noch nichts darüber gesagt, inwiefern etwa die biologischen Lernprozesse im Gehirn nach genau diesem mathematischen Modell verlaufen. Das Hebbsche Prinzip z. B. sagt nichts darüber aus, ob die jeweiligen Aktivierungs- bzw. Outputwerte oj beim Lernen überhaupt eine Rolle spielen. Aus diesem Grund experimentieren wir gegenwärtig mit Varianten der herkömmlichen Lernregeln ohne Berücksichtigung dieser Werte. Darüber hinaus gibt es im Gehirn sicher keinen in Form biologischer Neuronen vorgegebenen Zielvektor, so dass die Delta-Regel und entsprechende Varianten hier mit einer sehr hohen mathematischen Abstraktion arbeiten (müssen). Wie das Gehirn die Information umsetzt, dass es mehr oder weniger weit entfernt von einem vorgegebenen Ziel ist, wird durch die Einführung eines Zielvektors in einem mathematischen Modell leider nicht beantwortet. Nun ist es auch nicht die Aufgabe derartiger Modelle, das Gehirn sozusagen punktgenau abzubilden. Wir haben es hier mit einer Form der Äquivalenz zwischen biologischen und künstlichen Systemen zu tun, die wir im vorigen Kapitel als Mischform zwischen funktionaler und struktureller Äquivalenz bezeichnet haben. Der Verweis auf pädagogische Erfahrungen zeigt, dass die allgemeine Logik menschlicher Lernprozesse durchaus mit den künstlichen Systemen modelliert werden kann und damit auch einer genaueren Analyse zugänglich gemacht wird. Insbesondere ergibt sich das ähnliche Verhalten von künstlichen Systemen im Vergleich zu menschlichen Lernern aus der mathematischen Struktur der Lernregel, hier also dem Wert der Lernrate. Insofern kann man von einer partiellen strukturellen Äquivalenz sprechen. Inwiefern jedoch die biologischen Systeme im Detail nach den Prinzipien operieren, die sich in Formeln wie der Delta-Regel ausdrücken lassen, muss offen bleiben. Wir sind vor allem deswegen etwas detaillierter auf das Modell des überwachten Lernens bei neuronalen Netzen eingegangen, um zu zeigen, dass man bei der Konstruktion derartiger Systeme sich zwar möglichst an dem orientieren sollte, was aus der eigenen praktischen Erfahrung und der einschlägigen Literatur zur Verfügung steht, dass man jedoch gleichzeitig de facto immer wieder gezwungen ist, mathematische Prinzipien einzuführen, von denen man nicht genau weiß, ob sie den natürlichen Prozessen entsprechen und wenn ja, wie weit. Doch dies Problem stellt sich in jeder mathematisch vorgehenden Wissenschaft. Diese Möglichkeiten und gleichzeitig Grenzen der mathematischen Modelle lassen sich sehr illustrativ an einigen berühmten Computerexperimenten zur Simulation des frühkindlichen Spracherwerbs demonstrieren. Dieser Prozess ist in verschie-
3.2 Lernen und KI-Systeme
193
denen Simulationen eingehend studiert worden; besondere Bekanntheit erlangten dabei die Computerexperimente zum Lernen der sog. irregulären bzw. unregelmäßigen Verben (vgl. beispielsweise McLeod et al. 1998). Damit ist folgendes Lernproblem gemeint: Bekanntlich gibt es in vielen Sprachen die gravierenden Unterschiede zwischen regulären und irregulären Verben.77 Reguläre Verben folgen immer den gleichen Gesetzen zur Bildung der verschiedenen Tempusformen wie z. B. „kaufen, kaufte, gekauft“ oder „fragen, fragte, gefragt“; es geht demnach immer um einen Wortstamm, der unverändert bleibt und an den im Infinitiv Präsens die Endung -en angehängt wird, im Imperfekt die Endung -te und im Perfekt die Endung -t, wobei dazu noch die Vorsilbe (das sog. Präfix) ge- hinzugefügt wird. Bei den irregulären Verben gilt diese Regel nicht. Stattdessen verändert sich gewöhnlich der Wortstamm, meistens durch Vokaländerung, wie bei „lesen, las, gelesen“ und im Perfekt wird gewöhnlich mit der Endung -en operiert – „laufen, lief, gelaufen“. Im Englischen ist der Unterschied zwischen regulären und irregulären Verben z. T. noch wesentlich gravierender, da es keine allgemeine Regel gibt, die die Tempusbildung irregulärer Verben steuert. Man denke nur an Beispiele wie „go, went, gone“, die man sich nicht über irgendeine Regel merken kann, sondern die man schlicht nur auswendig lernt. Bei Untersuchungen, wie kleine Kinder dies Lernproblem meistern, stieß man auf folgendes interessante Phänomen: Zu Beginn des Lernprozesses stieg der Lernerfolg kontinuierlich an, d. h. die Kinder merkten sich die Bildungen verschiedener Verben und konnten diese also korrekt wiedergeben. Das gilt für reguläre Verben ebenso wie für irreguläre. Ab einer bestimmten Menge von neuen Verben sank der Lernerfolg der Kinder relativ rasch und zwar vor allem in Hinsicht auf irreguläre Verben. Die Kinder schienen die bereits gelernten irregulären Bildungsformen zu einem großen Teil wieder vergessen zu haben und bildeten auf eine entsprechende Aufforderung oder auch im Gespräch mit den Sprachwissenschaftlern irreguläre Verben regulär, also z. B. „laufen, laufte, gelauft“, auch wenn sie die korrekte Bildung der Tempusformen von „laufen“ in früheren Phasen durchaus beherrscht hatten. Nach dieser Phase, in der der Lernerfolg abgesunken war, besserte sich jedoch der Lernerfolg der Kinder wieder und sie konnten die einmal gelernte Bildung der entsprechenden irregulären Verben auch korrekt wiedergeben. Graphisch lässt sich dieser Prozess durch eine durch diese Experimente berühmt gewordene U-Kurve darstellen:
77
Da wir keine Sprachwissenschaftler sind, wissen wir nicht, ob diese Unterscheidung in allen Sprachen anzutreffen ist. Die uns bekannten Experimente beziehen sich u. a. auf das Englische, das Deutsche und das Arabische. Es ist zumindest ein weit verbreitetes Phänomen.
194
3 Lernen, Künstliche Intelligenz und soziales Milieu
Abbildung 3-2: Lernprozess und Lernerfolg als U-Kurve: x-Achse = Anzahl der gelernten Verben in Zeit t, y-Achse = Höhe des Lernerfolgs; die Kurve steigt zuerst fast linear an, sinkt dann ab und bildet die Unterkante des U und steigt dann wieder an.
Erklären konnten sich die damit befassten Sprachwissenschaftler diesen Verlauf des Lernprozesses folgendermaßen: Solange die Anzahl der zu lernenden Verben relativ gering war, konnten sich die Kinder jedes Verb einzeln merken und bei Befragungen auch korrekt wiedergeben. Wenn die Anzahl der Verben jedoch einen bestimmten Schwellenwert überschritt, merkten sich die Kinder die neuen Verben nicht mehr einzeln, sondern begannen zu „übergeneralisieren“. Damit ist gemeint, dass die Kinder die generelle Regel für die Bildung regulärer Verben auch da anwandten, wo es sich um irreguläre Verben handelte, unabhängig davon, dass die Kinder diese Verben bereits einmal korrekt gelernt hatten. Dadurch sank ihr Lernerfolg, der proportional zur Anzahl der überhaupt gelernten Verben – korrekt oder falsch – gemessen wurde. Dieser Effekt, der auch dadurch bewirkt wurde, dass gewöhnlich mehr reguläre Verben als irreguläre zu lernen sind, lässt sich auch als Entlastung des Gehirns vom Zwang deuten, zu viele Einzelfälle erinnern zu müssen. Natürlich geschah dies bei den Kindern unbewusst. Wenn anschließend noch mehr Verben gelernt wurden, insbesondere noch mehr irreguläre Verben, fiel den Kindern auf, dass die Regel zur Bildung regulärer Verben in deutlich vielen Fällen nicht zutrifft. Also wurde die Übergeneralisierung wieder zurückgenommen und die Kinder lernten jetzt wieder jedes Verb für sich, wodurch ihr Lernerfolg sich deutlich erhöhte. Sprachvergleichende Untersuchungen ergaben übrigens, dass die U-Kurve in allen untersuchten Sprachen beim Lernen der Verbbildungen auftritt, also kein Charakteristikum einer einzelnen Sprache ist, und dass die horizontale Länge der U-Kurve von der relativen Anzahl der irregulären Verben in einer Sprache abhängt. Wir werden auf das Problem der Übergeneralisierung, das bereits kurz im vorigen Kapitel angesprochen wurde, in den nächsten Kapiteln noch einmal zurückkommen. Diese Erklärung klingt plausibel und sie wird gegenwärtig allgemein akzeptiert. Dennoch bleibt die Frage, wie die Kinder dazu kamen – und zwar weitgehend alle untersuchten Kinder –, den Prozess der Übergeneralisierung einzuleiten und nach
3.2 Lernen und KI-Systeme
195
einer bestimmten Zeit wieder rückgängig zu machen. Einig waren sich sämtliche Sprachwissenschaftler, wie bemerkt, dass es keine bewusste Verhaltensweise der Kinder ist, sondern dass das kindliche Gehirn sich sozusagen automatisch auf die verschiedenen Phasen des Lernprozesses einstellt. Insbesondere aus diesem Grund konstruierten vor allem die britischen Sprachpsychologinnen Plunkett und Marchman ein neuronales Netz, mit dem sie diesen speziellen Spracherwerbsprozess simulierten (vgl. McLeod et al. loc. cit.). Es handelt sich dabei um ein überwacht lernendes Netz mit drei Schichten, das als Input eine Infinitiv Präsens Verform erhielt und als Ausgabe die korrekte Bildung des Imperfekt und des Perfekt generieren sollte. Da das Netz drei Schichten hatte, also auch eine Zwischenschicht, konnten Plunkett und Marchman nicht die oben dargestellte Delta-Regel zum Training der Netze verwenden, sondern sie mussten eine Erweiterung der Delta-Regel für dreischichtige Netze benutzen, die sog. Backpropagation-Regel. Die Grundlogik dieser Regel besteht darin, dass die Veränderung der Gewichtswerte zwischen der Output- und der Zwischenschicht gemäß der Delta-Regel berechnet wird – wieder in Abhängigkeit von der Größe der Distanz zwischen Output- und Zielvektor, also der Größe des Fehlers – und dass die Veränderung der Gewichtswerte zwischen Zwischenschicht und Inputschicht in Abhängigkeit von einer modifizierten Fehlergröße berechnet wird. Der Fehler, den das Netzwerk noch generiert, wird gewissermaßen zu den Gewichtswerten zwischen Input- und Zwischenschicht zurück geschoben – daher der Name der Regel. Da diese mathematisch etwas kompliziert ist, stellen wir sie nicht formal dar, sondern verweisen auf einschlägige Lehrbücher. Es zeigte sich nun in zahlreichen Experimenten, dass die Netze nicht nur in der Lage waren, die Tempusbildungen der eingegebenen Verben zu lernen; das war gewissermaßen zu erwarten gewesen. Es war dagegen nicht unbedingt zu erwarten, dass der Lernprozess der Netze ziemlich exakt der U-Kurve folgte, die bei den untersuchten Kindern zu beobachten war; die Netze verhielten sich in dieser Hinsicht ebenso wie die Kinder. Man kann daraus schließen, dass es sich bei Lernfortschritten gemäß einer U-Kurve um ein generelles Phänomen handelt, also nicht nur ein Problem ist, das im Spracherwerbsprozess beim Erlernen von Tempusformen auftritt. Den Netzen war es natürlich völlig gleichgültig, ob es sich bei den Ein- und Ausgaben um Verben und deren Tempusformen handelt oder ob damit ganz andere Lerninhalte codiert sind. Die obige plausible Erklärung für das Lernen der Tempusformen, nämlich das Entstehen und die Rücknahme von Übergeneralisierungen, lässt sich sicher auf jedes komplexe Lernproblem anwenden, bei dem es a) eine Klasse von Inhalten gibt, die bestimmten Regeln folgen, und b) eine zweite Klasse von Inhalten existiert, die nur als Einzelfälle gelernt werden können. Auch die Regel im Deutschen, wie irreguläre Verben zu bilden sind, sagt ja nichts darüber aus, wie die Vokale im Wortstamm zu verändern sind.
196
3 Lernen, Künstliche Intelligenz und soziales Milieu
Im Sinne einer funktionalen Äquivalenz waren und sind diese Ergebnisse von Plunkett und Marchman sicher durchaus zufrieden stellend. Sie zeigten ja nicht nur, dass derartige Lernprozesse exakt zu simulieren sind, dass also die konstruierten neuronalen Netze durchaus in der Lage sind, diese vergleichsweise komplexen Lernprozesse erfolgreich durchzuführen, sondern sie lieferten darüber hinaus eine allgemeine Erklärung für das Auftreten der U-Kurve bei den speziellen Lernprozessen von Tempusformen: Die U-Kurve tritt bei diesen Lernprozessen deswegen notwendig auf, weil sie ein fundamentales Charakteristikum aller Lernprozesse ist, bei denen es um die beschriebene Struktur von Lerninhalten geht. Vor allem deswegen erlangten die Simulationen von Plunkett und Marchman zu Recht weitgehende Anerkennung. Trotz dieses Erfolges kann man diese Netze nur sehr bedingt als strukturell äquivalent zu den kognitiven Systemen der Kinder ansehen, was von den Autorinnen selbst konstatiert wird (McLeod et al. loc. cit.). Der Grund dafür liegt nicht nur in der erwähnten Tatsache, dass neurobiologische Prozesse im Gehirn nach wie vor nicht genau strukturell erkannt werden können. Das gilt für alle KI-Systeme, die Gehirnprozesse zu modellieren versuchen. Im Fall der Netze zum Spracherwerb ist jedoch darüber hinaus sogar anzunehmen, dass diese mit einem Algorithmus operieren, der ziemlich sicher so im Gehirn nicht anzutreffen ist, nämlich die erwähnte Backpropagation Regel. Diese ist nicht nur mathematisch ziemlich kompliziert, sondern auch neurobiologisch recht unwahrscheinlich. Deswegen muss man annehmen, dass die Netze zum Spracherwerb aller Wahrscheinlichkeit nach strukturell in wichtigen Aspekten gerade nicht den biologischen Systemen ähneln, deren Verhalten sie simulieren. Man wird also den Netzen von Plunkett und Marchman zwar funktionale aber keine strukturelle Äquivalenz zubilligen können.78 Das mindert natürlich nicht den wissenschaftlichen Erkenntnisgewinn, den das Verhalten der Netze erbracht hat. An diesen Experimenten zeigt sich wieder einmal, wie schwierig es ist, für künstliche Systeme eine strukturelle Äquivalenz zu beweisen, wenn diese neurobiologische Prozesse simulieren sollen – von dem Auffinden allgemeiner Gesetzmäßigkeiten vorerst abgesehen. Anders sieht das jedoch aus, wenn es um die Modellierung und Simulation von kognitiven Prozessen geht, die auf der Bewusstseinsebene
78
Wegen der mathematischen Kompliziertheit der Backpropagation Regel, die wir für unnötig halten, und wegen ihrer biologischen Unplausibilität experimentieren wir gegenwärtig mit einer einfacheren und biologisch plausibleren Alternative. Die ersten Ergebnisse sind durchaus ermutigend, aber es ist noch zu früh, als dass wir gesicherte Resultate vorlegen könnten.
3.2 Lernen und KI-Systeme
197
stattfinden oder zumindest auf ihr rekonstruiert werden können. Um dies zu verdeutlichen, gehen wir in einen ganz anderen Problembereich, nämlich zu der Frage, wie wir die Handlungen von Menschen verstehen (können), die in einer spezifischen Handlungssituation sich auf spezielle Weisen verhalten. Wir können diese ungemein komplexe Frage hier natürlich nicht im Detail abhandeln (vgl. dazu Klüver und Klüver 2011a). Stattdessen bringen wir zur Verdeutlichung ein kleines alltägliches Beispiel. Wenn wir im Straßenverkehr beobachten, dass Autofahrer an einer Ampel anhalten, die auf rot gesprungen ist, dann „verstehen“ wir dies Verhalten unmittelbar und ohne bewusst darüber nach zu denken. Falls wir gefragt werden, warum die Autofahrer anhalten, werden wir sofort antworten, dass dies aufgrund der entsprechenden Regel hinsichtlich Verkehrsampeln geschieht. Wir verstehen also das Verhalten der Autofahrer, weil wir die Regel kennen, die die Fahrer befolgen. Schwieriger wird es, wenn wir einen Fahrer beobachten, der bei rot über die Kreuzung fährt – nach Aussagen der Verkehrsstatistiker ein leider nicht ganz seltener Vorgang. Für diese Verletzung einer allgemein gültigen Regel gibt es selbst keine allgemeine Regel; also versuchen wir es mit Hilfshypothesen der Art „der Fahrer war unaufmerksam“, „der Fahrer hat es eilig, weil er einen wichtigen Termin hat“, „der Fahrer steht unter Alkoholeinfluss oder hat Drogen genommen“ oder auch „dies ist ein rücksichtsloser Fahrer, der ständig Verkehrsregeln missachtet“. Wenn man versucht, die Verstehensoperationen eines derartigen Beobachters zu modellieren, dann bietet sich die im vorigen Kapitel erwähnte Technik der semantischen Netze an. Das kann man sich etwa so vorstellen (zu einer detaillierten Darstellung eines entsprechenden semantischen Netzes vgl. Klüver und Klüver 2011a): Zum Verständnis der beobachteten Verkehrssituation hat der Beobachter eine Anzahl von Begriffen zur Verfügung, die als semantisches Netz geordnet sind. Die Stärke der Verbindungen zeigt an, welche Begriffe vom Beobachter mit hoher Wahrscheinlichkeit, mittlerer oder nur niedriger Wahrscheinlichkeit assoziiert werden, wenn er durch unmittelbare Beobachtung einen oder mehrere Begriffe als Input für sein semantisches Netz erhält. Wird demnach ein Anhalten beobachtet, dann erfolgt die Assoziation „Fahrer befolgt die Regel“; wird das Überfahren der roten Ampel beobachtet, erfolgt die Assoziation „rücksichtsloser Fahrer“ oder auch „Absicht wegen Eile“. Wenn man dies semantische Netz in ein neuronales Netz transformiert, dann würde der Input „anhalten bei rot“ den Output „Regel befolgen“ generieren; der Input „rot überfahren“ entweder den Output „rücksichtslos“ oder „eilige Absicht“. In diesem Sinne hätten wir durch das Modell verstanden, was in dem Beobachter vor sich geht, wenn er eine Situation versteht. Ein derartiges semantisches Netz ist dem Beobachter selbstverständlich nicht bewusst. Er hat das entsprechende Wissen in jahrelangen Erfahrungen durch eigene
198
3 Lernen, Künstliche Intelligenz und soziales Milieu
Fahrpraxis, Fahrunterricht und auch Gespräche mit anderen Verkehrsteilnehmern aufgebaut, aber dies Wissen ist nicht als bewusste Netzwerkstruktur präsent. Das Netzwerk ist eine logische Rekonstruktion dieses Wissens und seiner Struktur und damit ein Modell. Der Beobachter würde allerdings ziemlich sicher nicht ein derartiges Netz angeben, wenn man ihn nach seinem Wissen und dessen Strukturierungen fragt. Es ist jedoch methodisch durchaus möglich, unser Modell auf strukturelle Äquivalenz hin zu überprüfen. Dazu eignet sich eine von uns entwickelte Methode besonders gut, die wir als „Methode der konzentrischen Kreise“ bezeichnen.79 Damit ist schlicht das folgende Vorgehen gemeint: Ein menschlicher Proband, dessen Wissen inhaltlich und strukturell überprüft werden soll, erhält ein Blatt Papier, das um einen Mittelpunkt in konzentrische Kreise eingeteilt ist. Im Mittelpunkt steht ein bestimmter Begriff, der das Themengebiet bezeichnet, über das der Proband ein bestimmtes strukturiertes Wissen verfügt, z. B. „Paris“. Der Proband erhält nun die Aufgabe, innerhalb einer bestimmten Zeit weitere Begriffe auf dem Papier einzutragen, die er mit dem Ausgangsbegriff „Paris“ verbindet, also assoziiert. Dabei sollen die ersten drei oder vier Begriffe in den ersten Kreis um den Mittelpunkt eingetragen werden, die nächsten drei oder vier in den übernächsten, anschließend drei oder vier Begriffe im dritten usf., je nachdem wie lange die verfügbare Zeitspanne ist. Es ist wichtig, sich klar zu machen, dass hier die Versuchsperson das Ergebnis ihrer Lernprozesse zum Thema darstellt, wobei es gleichgültig ist, wie diese Lernprozesse erfolgt sind. Es können eigene Erfahrungen mit der Stadt gewesen sein, es kann die Lektüre von Beschreibungen der Hauptstadt Frankreichs gewesen sein oder auch noch ganz andere Prozesse. Das Resultat ist eine erste kognitive Struktur, die man folgendermaßen deuten kann: Wenn das Thema „Paris“ angesprochen wird, dann werden in einer bestimmten Reihenfolge weitere Begriffe assoziiert, die für diese Versuchsperson mehr oder weniger eng mit dem Ausgangsbegriff zusammenhängen. Das Kreismuster repräsentiert demnach die assoziative Nähe von Begriffen durch räumliche Nähe. Folgt man dieser Deutung, dann lässt sich das Kreismuster relativ einfach in ein semantisches Netz übertragen und zwar auf der Basis der Selbstbeschreibung der Versuchsperson. Man behält die Struktur des Kreismusters bei und verbindet die Begriffe mit Gewichtswerten, die der jeweiligen Nähe zum Zentrumsbegriff und zueinander entsprechen. Man nimmt also nicht nur an, dass die Begriffe im ersten
79
Es gibt auch andere Verfahren wie etwa die Methode der sog. Semantic Maps. Unser Verfahren scheint uns jedoch sowohl einfacher als auch aussagekräftiger.
3.2 Lernen und KI-Systeme
199
Kreis mit „Paris“ stärker gewichtet verbunden sind als die im zweiten Kreis und die im zweiten Kreis stärker als die im dritten, sondern man unterstellt auch noch eine entsprechend stärkere Gewichtsverbindung zwischen den Begriffen innerhalb eines Kreises als zu den Begriffen des darunter liegenden Kreises. Außerdem nimmt man an, dass eine Gewichtsverbindung z. B. w(Paris, Eiffelturm) schwächer ist als w(Eiffelturm, Paris). Der Grund dafür ist die plausible Annahme, dass man eher von „Eiffelturm“ auf „Paris“ kommt als umgekehrt, da von Paris aus mehrere Begriffe gleich stark assoziiert werden. Man kann auch sagen, dass die Stärke der Verbindungen die Wahrscheinlichkeit dafür repräsentiert, dass von einem Begriff aus ein anderer assoziiert wird. Man mag diese Einführung von Gewichtswerten, durch die aus dem Kreismuster ein semantisches Netz wird, für verhältnismäßig willkürlich halten und in gewisser Weise ist sie das auch. Ob man beispielsweise einen Wert mit 0.5 angibt und nicht mit 0.6 ist in der Tat ziemlich ad hoc. Wesentlich dabei ist jedoch die Grundannahme, dass beim Ausgang von einem thematischen Begriff bestimmte andere Begriffe relativ rasch assoziiert werden und andere nicht so schnell. Nur diese proportional verschiedenen Schnelligkeitsmaße sollen durch die Werte repräsentiert werden, die als absolute Werte sicher wenig bedeuten. Hier ist allerdings darauf hinzuweisen, dass wir dies Verfahren mehrfach empirisch überprüft haben: Verschiedenen Gruppen von Versuchspersonen, die sich über vorgegebene Themen unterhalten sollten, wurde als Aufgabe gegeben, vor Beginn der Kommunikation ihre persönlichen Kreismuster aufzuschreiben. Aus diesen generierte ein von uns entwickeltes Programm semantische Netze für jede Versuchsperson, so dass das Programm bei einer Gruppe von beispielsweise acht Teilnehmern acht einzelne semantische Netze zur Verfügung hatte. Zusätzlich erhielt das Programm bestimmte „Interaktionsregeln“, die einfach bestimmen, wie die semantischen Netze sich dadurch verändern, dass das Programm einzelne semantische Netze miteinander „interagieren“ lässt. Das Programm sollte also simulieren, inwiefern die einzelnen Teilnehmer in der Kommunikation voneinander lernen und ob sie es tun. Aus diesen Vorgaben erstellte das Programm für jede Gruppe eine Prognose, ob und wie sich die einzelnen Teilnehmer durch die Kommunikation aneinander angeglichen haben würden. Zur Überprüfung dieser Prognose mussten die Teilnehmer am Ende der Kommunikation wieder ein Kreismuster ausfüllen, das von dem Programm in ein neues semantisches Netz transformiert wurde und mit denen der anderen Teilnehmer verglichen wurde. Eine ganz amüsante Veränderung eines Kreismusters stammt aus einer Gruppendiskussion über das Thema „Ozzy Osborne“:
200
3 Lernen, Künstliche Intelligenz und soziales Milieu
Abbildung 3-3: Kreismuster einer Studentin vor und nach der Gruppendiskussion
Man sieht, dass die Kommunikation der Studentin anscheinend viel gebracht hat. Die Prognose des Programms wurde anschließend mit den empirischen Ergebnissen verglichen. In der Mehrzahl der Fälle konnte das Programm erstaunlich gute Prognoseerfolge verbuchen, auch wenn das Programm bei einzelnen Gruppen leider auch versagte. Dies lag vor allem daran, dass individuelle Besonderheiten einzelner Gruppen von den allgemeinen Interaktionsregeln nicht berücksichtigt werden konnten. Wenn freilich die Probanden ebenfalls Prognosen erstellen sollten, dann konnten sie es allerdings auch nicht. Der insgesamt recht gute Prognoseerfolg jedenfalls ist ein empirisch starkes Argument für die Validität dieses Vorgehens: Man kann anscheinend tatsächlich strukturell adäquate Modelle von Bewusstseinsstrukturen und deren Veränderung durch Lernen entwerfen und empirisch überprüfen. Dies gilt vor allem für die Simulierung von kommunikativen Lernprozessen: Die in Abb. 3-3 gezeigten Veränderungen bei der Studentin in Bezug auf „Ozzy Osborne“, die ein Ergebnis der Diskussionen in der Gruppe sind, können vom Programm gewissermaßen Schritt für Schritt nachvollzogen werden, indem ein Begriff nach dem anderen in das semantische Netz der Studentin integriert wird. Man kann sozusagen der Studentin beim Lernen zusehen, auch wenn das natürlich nur in der Simulation möglich ist. Insofern konnte aus der Black Box eine transparente Box gemacht werden.80
80
Detaillierte Darstellungen des Programms, der skizzierten Experimente und zusätzlicher Versuche finden sich in Klüver und Klüver 2011a. Angemerkt sei noch als Anekdote, dass einer der beiden Autoren und Versuchsleiter von Ozzy Osborne noch weniger wusste als die Studentin. Dies Thema wurde von einem studentischen Gruppenleiter ausgegeben, der darüber seine Magisterarbeit geschrieben hat (Burkart 2004).
3.3 Lernen und Generalisierungen
201
Im Kontrast zu der in Kapitel 3.1 erwähnten Skepsis von Gardner kann man durchaus etwas über das menschliche Lernen erfahren, wenn man sich Lernprozesse bei künstlichen Systemen anschaut – mit der gebotenen methodischen Vorsicht selbstverständlich. Wir haben hier nur einige Aspekte angesprochen, da es sich bei diesem Buch schließlich nicht um eine ausführliche Einführung in Methoden und Probleme der KI-Forschung handelt. Auf jeden Fall ist es lohnenswert, noch einige zusätzliche Forschungsergebnisse zu diesem Thema vorzuführen, was in den folgenden Kapiteln geschehen wird.
3.3
Lernen und Generalisierungen
Wir haben mehrfach darauf hingewiesen, wie wichtig für erfolgreiches Lernen die Fähigkeit zu generalisieren ist, wobei diese Fähigkeit natürlich selbst gelernt werden muss. Allerdings haben wir bisher nicht genau angegeben, was unter dieser Fähigkeit eigentlich verstanden werden muss. Das werden wir jetzt nachholen, wobei freilich gleich anzumerken ist, dass dieser Begriff – wie so viele – häufig nicht sehr präzise verwendet wird. Bei der Diskussion des Lernens von Regeln haben wir mit einem Generalisierungsbegriff operiert, der sich etwa folgendermaßen beschreiben lässt: Man generalisiert einen einzelnen Fall für die Anwendung einer Regel, wenn man erkennt, dass die entsprechende Regel, also die „wenn – dann“ Beziehung, nicht nur für den einzelnen Fall gilt, für den die Regel gelernt worden ist, sondern für andere Fälle ebenso, die dem gelernten Einzelfall „hinreichend“ ähnlich sind. In Extremfällen kann eine Regel sogar so allgemein sein, dass sie – wie etwa die Regel des Anhaltens vor einer roten Ampel – für jede Verkehrssituation gilt, in der eine Ampel zu sehen ist.81 Die Regel gilt bei jedem Wetter, für jeden Verkehrsteilnehmer unabhängig von seinem Fahrzeug, also auch für Fußgänger, für jede Straßenart und so fort. Eine Regel ist also umso allgemeiner, je mehr verschiedene Einzelfälle sie abdeckt. Diese Form der Allgemeinheit ist natürlich nicht nur auf Regeln beschränkt, sondern ist überall zu verwenden, wo man bei Einzelfällen von bestimmten Merkmalen „abstrahiert“. Gemeint ist damit, dass wie bei der Allgemeinheit der obigen Verkehrsregel Besonderheiten der Einzelfälle gewissermaßen „weggenommen“ werden, was der wörtlichen Bedeutung von abstrahieren entspricht. Wenn man verschiedene Tiere gemeinsam als „Hund“ bezeichnet, sie also unter diesem allgemeinen Oberbegriff zusammenfasst, dann abstrahiert man von Besonderheiten
81
Wir abstrahieren hier von der Ausnahme, dass die Anweisungen von Polizisten die Signale von Verkehrsampeln außer Kraft setzen.
202
3 Lernen, Künstliche Intelligenz und soziales Milieu
wie Größe, Dichte sowie Länge des Fells, Körperform und anderen physischen Merkmalen und konzentriert sich auf das, was für eine Einordnung unter die Kategorie „Hund“ entscheidend ist. Zoologen haben für eine derartige Klassifikation, ob ein Tier ein Hund ist, genaue Kriterien, aber auch im Alltag fällt es normalerweise nicht schwer, von besonderen Eigenschaften eines einzelnen Tieres zu abstrahieren und das wahrgenommene Tier als Hund einzuordnen. Es wirkt zwar zuweilen ziemlich gewaltsam, den Mops einer alten Dame in die gleiche Kategorie einzuordnen wie einen Huskie bei einem Schlittenrennen in Alaska, aber man kann die Allgemeinheit der Kategorie „Hund“ insbesondere auch daran erkennen, wie unterschiedlich die Einzelfälle sein können, die zur gleichen Kategorie gehören.82 Gemäß den obigen Beispielen lässt sich demnach Allgemeinheit, also das Ergebnis von Generalisierungen, auf zweifache Weise bestimmen: Zum einen ist eine Kategorie umso allgemeiner, je mehr Einzelfälle von ihr sozusagen abgedeckt werden. Das entspricht der obigen Bestimmung der Allgemeinheit einer Regel. Zum anderen ist eine Kategorie auch umso allgemeiner, je unterschiedlicher die Einzelfälle sind, die unter die gleiche Kategorie fallen – wie der Mops und der Huskie. Häufig hängen diese beiden Kriterien zusammen, da eine Kategorie, die viele Einzelfälle umfasst, gewöhnlich auch durchaus verschiedene Einzelfälle enthält und umgekehrt. Logisch ist das jedoch nicht zwingend, da eine Kategorie zwar sehr viele Einzelfälle umfassen kann, die jedoch alle einander sehr ähnlich sind. Die Kategorie „Hund“ enthält sowohl sehr viele Einzelfälle als auch sehr verschiedene. Das ist jedoch nur deswegen so, weil die Unterschiede zwischen den Hundegattungen durch jahrtausendjährige Züchtungen bewusst angestrebt worden ist. Die Kategorie „Robbe“ enthält zwar auch zahlreiche Fälle, die sich jedoch untereinander sehr viel stärker ähnlich sind als es bei den Hunden der Fall ist.83
82
Die biologischen Kriterien, ob verschiedene Tiere zur gleichen Gattung gehören, waren gewöhnlich die Fortpflanzungsmöglichkeiten – ein Schäferhund kann sich erfolgreich mit einer Dackelhündin paaren, aber nicht mit einer Katze. Mittlerweile ist es jedoch möglich, diese Gattungsschranken in gentechnischen Experimenten zu überwinden. 83 Zwei Anmerkungen sind hier erforderlich: Zum einen verwenden wir hier den Begriff „Kategorie“. Damit wollen wir abkürzend allgemeine Zusammenhänge beschreiben, unter die Einzelfälle subsumiert werden. Das kann eine Gattungsbezeichnung sein wie in den Tierbeispielen, aber es kann auch der Antezedensteil einer Regel sein (der WennTeil) oder allgemeine theoretische Zusammenhänge. Zum anderen müssen wir der Korrektheit halber darauf verweisen, dass ein Begriff wie „Mops“ natürlich selbst eine Kategorie ist, wenn auch von geringerer Allgemeinheit als „Hund“. Wir werden darauf zurückkommen.
3.3 Lernen und Generalisierungen
203
Ergänzend muss allerdings noch angemerkt werden, dass es auch eine „einfache“ Form der Generalisierung gibt, die im Wesentlichen den bereits unter dem Stichwort Expertensysteme angesprochenen Analogieschlüssen entspricht. Dabei kommt es nicht explizit zur Bildung allgemeinerer Kategorien, sondern das kognitive System erkennt lediglich die Ähnlichkeit zwischen verschiedenen Einzelfällen und konstatiert gewissermaßen, dass alle diese Fälle zu einem gleichen Typus gehören. Die Erkenntnis, dass einzelne Fälle zu einer bestimmten Kategorie gehören, bedeutet logisch den Schluss: Einzelfall A weist insbesondere die Attribute auf, die für die Kategorie X charakteristisch sind; von den übrigen Attributen von A kann abstrahiert werden. Also kann A unter X „subsumiert“ werden. Die Erkenntnis, dass die Einzelfälle A und B bestimmte Ähnlichkeiten aufweisen, führt zwar auch über den Einzelfall A hinaus, aber bedeutet noch nicht notwendig die weiterführende Konstruktion einer Kategorie X, unter die die ähnlichen Fälle A, B und ggf. auch noch C und D subsumiert werden können. Dies werden wir unten noch einmal aufnehmen. Mit dieser sehr generellen Bestimmung von Allgemeinheit ist natürlich noch nichts darüber gesagt, wie Menschen es lernen, Einzelfälle allgemeineren Kategorien zuzuordnen, und umgekehrt, wie Menschen es lernen, für allgemeinere Kategorien exemplarische Fälle zu bilden und diese auch als Beispiele, also tatsächlich exemplarische Fälle, zu beschreiben. Jeder Lehrende weiß, wie schwer sich häufig Lernende damit tun, aus explizit vorgegebenen allgemeinen Kategorien Beispiele abzuleiten. Auf die Probleme des exemplarischen Lernens sind wir bereits eingegangen. An von uns zu diesem Zweck entwickelten Modellen und Experimenten mit ihnen lässt sich dies zumindest auf einer formalen Ebene etwas klären. Dafür allerdings ist ein kleiner Ausflug in einige Begriffe der Theorie komplexer dynamischer Systeme erforderlich.84 Nehmen wir ein einfaches neuronales Netz, das aus zwei Schichten, der Inputschicht und der Outputschicht, besteht. Dies Netz hat, bevor es sozusagen in Gang gesetzt wird, einen „Ruhezustand“, der darin besteht, dass die Neuronen beider Schichten den Aktivierungswert Null haben. Wir nehmen dabei an, dass die Gewichtswerte der Verbindungen zwischen Input- und Outputschicht als Ergebnis eines vorhergegangenen Lernprozesses bestimmte Werte ungleich Null haben. Es gibt nur Verbindungen von der Input- zur Outputschicht. Wenn man nun durch die Belegung von Inputwerten die Inputneuronen aktiviert, hat das System einen Anfangszustand, der aus den Inputwerten einerseits und den Outputwerten andererseits besteht, die immer noch im Zustand Null sind. Durch die Aktivierungs-
84
Eine gut verständliche Einführung in diese Theorie findet sich bei Kauffman 1996; ebenso können wir hier auf Stoica-Klüver et al. 2009 verweisen.
204
3 Lernen, Künstliche Intelligenz und soziales Milieu
funktionen des Netzes wird anschließend eine Dynamik generiert, die zu einem bestimmten Output führt, nämlich den Aktivierungswerten der Outputneuronen. Damit hat das System erneut einen Ruhezustand erreicht, den man in der Sprache der Theorie komplexer Systeme, wie wir erwähnt haben, als „Attraktor“ bezeichnet. Dies ist ein sehr einfaches Beispiel für folgende Definition: Wenn ein dynamisches komplexes System aus einem Anfangszustand einen späteren Zustand erreicht, der sich nicht mehr verändert, obwohl die Interaktionsregeln des Systems weiter in Kraft sind, dann nennt man diesen Endzustand einen Attraktor (genauer gesagt einen Punktattraktor). Der Attraktorzustand zieht gewissermaßen die vorigen Zustände des Systems an sich heran – daher der Name, der wörtlich als „Anzieher“ übersetzt werden kann. Der Attraktor, den unser Netz erreicht, ist ein sehr einfacher, da lediglich ein Output generiert werden muss. Bei topologisch komplexeren Systemen ist das Erreichen eines Attraktors gewöhnlich nicht so simpel zu garantieren; bei den in Teil 2 skizzierten Zellularautomaten ist es häufig wesentlich komplexer. Die damit verbundenen theoretischen und mathematischen Probleme sind z. T. nicht ganz einfach; interessierte Leser seien auf Stoica-Klüver et al. 2009 verwiesen. Wenn man nun die Relationen zwischen Anfangszuständen und Endzuständen, also den Attraktoren, betrachtet, ergeben sich zwei Möglichkeiten: Die eine Möglichkeit ordnet jedem einzelnen Anfangszustand einen Endzustand zu (wir setzen hier stillschweigend voraus, dass jedes derartige System mindestens einen Endzustand hat). Mathematisch heißt das, dass die Abbildung Anfangszustand o Endzustand bijektiv ist, dass also verschiedene Anfangszustände auch verschiedene Attraktoren generieren. Die zweite Möglichkeit besteht dann darin, dass verschiedene Anfangszustände den gleichen Endzustand haben, die entsprechende Abbildung also nicht bijektiv ist sondern „nur“ eindeutig, da jeder Anfangszustand genau einen Endzustand hat. Betrachtet man nun für ein komplexes dynamisches System die Menge der Anfangszustände, die den gleichen Attraktor generieren, dann wird diese Menge als „Attraktionsbecken“ (basin of attraction) bezeichnet. Jeder Attraktor, den ein System bei bestimmten Anfangszuständen erreichen kann, lässt sich demnach durch sein spezifisches Attraktionsbecken charakterisieren. Dies lässt sich recht anschaulich durch ein bildliche Umschreibung darstellen, die von Kauffman (loc. cit.) stammt: Die verschiedenen Anfangszustände sind wie Bergquellen, die in einen gemeinsamen See (den Attraktor) münden. Hier muss jedoch auf ein mögliches Missverständnis aufmerksam gemacht werden, das wir in einschlägigen Prüfungen nicht selten bei Studierenden erlebten: Der Begriff „Becken“ suggeriert anscheinend häufig, dass damit der See gemeint ist, der ja als Einflussbecken für die Quellen dient. Tatsächlich aber besteht das
3.3 Lernen und Generalisierungen
205
„Becken“ aus den Quellen. Vielleicht sollte man hier besser nicht von „Becken“ sondern von „Region der Anfangszustände“ sprechen. Der Begriff des Beckens ist jedoch etabliert und wir verwenden ihn deswegen auch. Man kann nun zeigen, dass die Attraktionsbecken eines komplexen Systems dessen Dynamik recht gut charakterisieren, aber das steht auf einem anderen Blatt. Wesentlich ist vor allem, dass die Probleme unterschiedlich großer Attraktionsbecken und damit die Tatsache, dass unterschiedliche Anfangszustände gleiche Attraktoren generieren können, ein allgemeines Charakteristikum komplexer Systeme ist und zwar sowohl künstlicher als auch physikalisch realer. Dies ist eines der in 3.1 angesprochenen universalen Merkmale komplexer Systeme, die sich, wie wir gleich sehen werden, mathematisch beschreiben und in gewissem Maße auch erklären lassen können. Diese begrifflichen Festlegungen haben nun für unsere Fragestellung, nämlich die Generalisierungsfähigkeiten kognitiver Systeme, folgende Bedeutung: Durch die Analyse der Attraktionsbecken eines bestimmten Systems kann man ein Proportionalitätsmaß bestimmen, das wir den MC-Wert des Systems genannt haben (Klüver und Klüver 2011a). MC steht für „meaning generating capacity“. Dieser Name hängt mit einer mathematischen Bedeutungsdefinition von uns zusammen, nämlich dass die Bedeutung einer Nachricht bzw. eines Signals für das empfangende System der Attraktor ist, den das System aufgrund des Empfangs der Nachricht generiert. Dies wird im Folgenden eine Rolle spielen. Der MC-Wert berechnet sich einfach als der Quotient aus der Menge der Attraktionsbecken eines Systems und der Anzahl möglicher Anfangszustände. Hat ein System n Anfangszustände und m Attraktionsbecken, dann ist also MC = m/n. Für den Fall, dass jeder Attraktor durch genau einen Anfangszustand generiert wird, das Attraktionsbecken also nur einen Anfangszustand enthält, ist offenbar MC = 1; der andere Extremfall, dass alle Anfangszustände denselben Attraktor generieren, ist MC = 1/n. MC = 0 ist wegen der Annahme, dass jedes System mindestens einen Endzustand hat, unmöglich. Ein System kann natürlich verschiedene Attraktionsbecken unterschiedlicher Größe haben. Diesen Fall werden wir gleich noch gesondert betrachten. Man kann sich den relativ abstrakten Begriffs des MC-Wertes an (dem Komiker) Hape Kerkeling verdeutlichen, der es bekanntlich liebt, sich zu verkleiden und in unterschiedlichen Rollen (auch weiblichen) aufzutreten. Es ist gewöhnlich nicht sonderlich schwer, Kerkeling trotz Verkleidungen wieder zu erkennen. Wenn man nun annimmt, dass Kerkeling in zehn verschiedenen Rollen auftritt und er jedes Mal erkannt wird, dann haben wir ein kognitives System mit zehn verschiedenen Inputs (sozusagen zehn Kerkelings) und immer dem gleichen Output, nämlich der Erkenntnis „Kerkeling“. Der MC-Wert dieses Systems wäre dann MC = 1/10.
206
3 Lernen, Künstliche Intelligenz und soziales Milieu
Stellen wir uns nun wieder unser Netz als Modell eines kognitiven Systems vor. Eine Nachricht, die dies System empfängt, bedeutet, dass die Inputneuronen bestimmte Aktivierungswerte erhalten und dass daraufhin ein bestimmter Attraktor als Output generiert wird. Wenn dies System n mögliche Inputvektoren hat und jeder Inputvektor einen spezifischen Output generiert, MC also = 1 ist, dann verarbeitet das System demnach jede Nachricht derart, dass die Besonderheiten der verschiedenen Nachrichten bewahrt bleiben. Jede Nachricht hat also eine spezielle Bedeutung für das System, die sich von der Bedeutung unterscheidet, die von einer anderen Nachricht generiert wird. Man kann dies auch so ausdrücken, dass das System nicht generalisiert, da Ähnlichkeiten zwischen den Nachrichten keine Rolle spielen. Hat andererseits das Netz einen MC-Wert 1, dann gibt es mindestens ein Attraktionsbecken größer als 1, dessen Elemente den gleichen Attraktor generieren. Für dies Attraktionsbecken also gilt, dass die besonderen Unterschiede zwischen den entsprechenden Nachrichten nicht bewahrt bleiben; das System abstrahiert sozusagen von den unterschiedlichen Komponenten der Nachricht und „generalisiert“, nämlich bringt die verschiedenen Nachrichten unter einer gemeinsamen Bedeutung zusammen. Hierbei ist, wie oben angemerkt, der Fall zu betrachten, dass die Attraktionsbecken des Systems unterschiedlich groß sein können. Hat das System nur ein Attraktionsbecken mit mehr als einem Element, dann ist zwar MC 1 für das gesamte System, aber es generalisiert nur in Bezug auf die Nachrichten, die zum größeren Attraktionsbecken gehören. Bei allen anderen Nachrichten „diskriminiert“ das System sehr genau, da es alle Unterschiede zwischen den Nachrichten berücksichtigt. Der MC-Wert eines Systems besagt demnach erst einmal „nur“, dass das System in Bezug auf manche Klassen von Nachrichten generalisiert, falls MC 1 ist. Ist jedoch MC ! 1/n, dann muss speziell untersucht werden, bei welchen Typen von Nachrichten das System generalisiert und bei welchen eventuell nicht. Man kann also mit Hilfe des MC-Wertes mathematisch erklären, was Generalisierungsfähigkeit kognitiver Systeme bedeutet. Zu betonen ist hier noch einmal, dass es sich um eine universale Eigenschaft komplexer Systeme handelt, also nicht nur etwa um Eigenschaften neuronaler Netze. Der amerikanische Computerwissenschaftler Wolfram hat ebenfalls diese Phänomene untersucht und zwar am Modell von Zellularautomaten (Wolfram 2001). Wenn wir also von der Generalisierungsfähigkeit beispielsweise biologischer oder künstlicher neuronaler Netze sprechen, dann lässt sich dies mit genau dieser Begrifflichkeit präzisieren, die wir eben eingeführt haben. Bevor wir auf die Frage eingehen, wie man etwas genauer bestimmen kann, warum manche Systeme generalisieren und manche nicht oder nur in geringem Maße, müssen wir noch einmal auf die verschiedenen Formen der Generalisierung
3.3 Lernen und Generalisierungen
207
eingehen. Wenn z. B. ein neuronales Netz – ein künstliches oder ein biologisches – „autoassoziativ“ operiert, dann bedeutet dies einfach, dass durch den Input A der gleiche Output A generiert wird. Die Bedeutung des Signals A ist dann auch „A“, wobei natürlich das physikalische Signal A in das Symbol „A“ umgewandelt werden kann. Werden nun einkommende Signale B, C und D ebenfalls mit „A“ assoziiert, dann hat das System erst einmal nur die Ähnlichkeit zwischen den einzelnen Signalen erkannt und umgangssprachlich formuliert gewissermaßen die Erkenntnis gewonnen: „eigentlich sind alle diese Signale nicht anderes als A, da sie A sehr ähnlich sind.“ Das ist, wie oben bemerkt, im strengen Sinne erst eine Vorform der Generalisierung, wenn auch eine unbedingt erforderliche. Könnte nämlich das System derartige Ähnlichkeiten nicht erkennen, dann könnte es auch nicht die abstrakteren Formen von Generalisierung durchführen. Für die Subsumption einzelner Situation unter allgemeinere Regeln beispielsweise würde es im Alltag ja auch schon reichen, wenn man erkennt, dass verschiedene Handlungssituationen einander so ähnlich sind, dass immer die gleiche Regel angewandt werden kann und ggf. muss. Die explizite – im Falle von Menschen die bewusste – Bildung von Kategorien als Oberbegriffe zu den Einzelfällen bedingt dagegen noch einen weiteren Schritt. Nehmen wir jetzt wieder ein kognitives System in Form des einfachen neuronalen Netzes von Abb. 3-1 und nehmen wir an, dass das Netz die Signale A1, A2 und A3 mit dem gleichen Attraktor assoziiert, nämlich A. Die gleiche Annahme sei für die Signale B1 und B2 gültig in Bezug auf deren gemeinsamen Attraktor B und schließlich auch für die Signale C1, C2, C3 und C4 bezüglich des Attraktors C. Die Signale Ai, Bi und Ci haben also jeweils die gleiche Bedeutung, die freilich noch nicht symbolisch codiert ist. Diese Codierung kann man sich nun so vorstellen, dass das Netzwerk die drei Attraktoren A, B und C jeweils als Input in ein zweites Netzwerk übergibt, das im Gegensatz zum ersten Netzwerk nicht generalisiert, sondern aus genau jedem Input einen spezifischen Output generiert, nämlich die drei Attraktoren „A“, „B“ und „C“. Diese drei neuen Attraktoren repräsentieren die symbolische Codierung der drei ursprünglichen Attraktoren A, B und C. Graphisch lässt sich dies demnach so darstellen:
Abbildung 3-4: Ein erstes Netzwerk generiert Bedeutungen in Form von Attraktoren; ein zweites Netzwerk generiert symbolische Codierungen der ersten drei Attraktoren.
208
3 Lernen, Künstliche Intelligenz und soziales Milieu
Die symbolisch codierten Attraktoren enthalten „implizit“ die Merkmale, die zur Generierung der ersten Attraktoren geführt haben. Wenn demnach die Wahrnehmung verschiedener Hunde auf die beschriebene Weise zum symbolisch codierten Attraktor „Hund“ geführt hat und entsprechend die Wahrnehmungen von Katzen zu „Katze“, die von Pferden zu „Pferd“, die von Fischen zu „Fisch“ usf., dann kann ein drittes Netz, das analog wie das erste operiert, wieder Zusammenfassungen bilden, also z. B. die ersten drei Symbole zu „Säugetieren“. In dieser Weise lassen sich beliebig abstrakte Hierarchien von Begriffen bilden, die jeweils verschiedene Ebenen der Generalisierung ausdrücken und immer nach dem gleichen Prinzip operieren. Es wäre von daher nicht sonderlich schwierig, ein entsprechendes Gesamtnetzwerk zu programmieren, das aus den hierarchisch gekoppelten Einzelnetzwerken besteht und auf der Basis von „konkreten“ Inputs in Form von Wahrnehmungen für das erste Netz Generalisierungen in gewünschter Abstraktionshöhe konstruiert. Wenn man nun Systeme konstruiert wie z. B. neuronale Netze und diese lernen lässt, dann geht man gewöhnlich so vor, dass zu Beginn die Gewichtswerte in der Gewichtsmatrix per Zufall generiert werden und anschließend diese Werte durch die jeweilige Lernregel derart modifiziert werden, dass das gewünschte Lernergebnis erreicht wird. Dies Standardverfahren hat allerdings den Nachteil, dass man nicht weiß, wie generalisierungsfähig das Netz nach dem Trainingsprozess ist. Man ist da praktisch dem Zufall ausgeliefert, ob man zu Beginn günstige Gewichtswerte erhalten hat oder nicht. Hat man jedoch günstige Werte erhalten und ein Netz erreicht, das die gewünschte Generalisierungsfähigkeit besitzt, dann weiß man immer noch nicht, wie dies Ergebnis zustande gekommen ist. Wir haben versucht, dies Problem zu lösen, und können einige Zwischenresultate vorlegen. Bei neuronalen Netzen ist der entscheidende Faktor für das Verhalten während und nach dem Lernprozess die Gewichtsmatrix, also deren jeweilige Werte. Man spricht hier, wie bemerkt, von der „Topologie“ dieser Systeme. Mit der Topologie eines Systems ist allgemein gemeint, dass durch sie festgelegt wird, welche Elemente – hier die Neuronen – des Systems überhaupt miteinander interagieren und wenn ja, in welcher Weise. Der Gewichtswert der Verbindung zwischen einem Neuron A und einem Neuron B, wenn er ungleich Null ist, legt erstens fest, dass es eine Wirkung von A auf B gibt, und zweitens, dass diese Wirkung einen bestimmten Wirkungsgrad hat. Ist der Gewichtswert z. B. gleich 0.5, dann wird ein Signal von A nach B um diesen Faktor verringert. Man kann generell zeigen, dass bei
3.3 Lernen und Generalisierungen
209
komplexen dynamischen Systemen deren jeweilige Topologie der wichtigste Faktor für die Dynamik eines komplexen Systems ist (Klüver und Schmidt 2006).85 Ein wesentlicher Aspekt einer Gewichtsmatrix besteht darin, wie ähnlich sich deren Werte sind. Es ist intuitiv plausibel, dass eine Gewichtsmatrix mit sehr ähnlichen Werten ein anders Verhalten des Netzes generiert als eine Matrix mit äußerst unterschiedlichen Gewichtswerten. Ein mathematisches Maß für derartige Ähnlichkeiten bzw. Unähnlichkeiten ist in der Statistik seit langem bekannt, nämlich die sog. Varianz. Diese drückt aus, wie stark die Werte einer Menge voneinander abweichen: Ist die Varianz gleich Null, dann sind alle Werte gleich; entsprechend ist die Varianz sehr groß, falls die Werte untereinander sehr stark differieren. Da die mathematisch exakte Definition der Varianz in jedem Lehrbuch zur Statistik zu finden ist, verzichten wir hier auf die genaue Definition. Wir haben die möglichen Zusammenhänge zwischen der Varianz von Gewichtsmatrizen und der Generalisierungsfähigkeit der entsprechenden Netzwerke für überwacht lernende Netze untersucht und kamen zu folgendem Ergebnis (Klüver und Klüver 2011a): Je kleiner die Varianzwerte einer Gewichtsmatrix sind, desto größer sind die MCWerte des entsprechenden Netzwerkes und umgekehrt. Je kleiner also die Varianz ist, desto stärker kann das Netz generalisieren und je größer die Varianz ist, desto geringer generalisiert das Netz, desto besser aber kann es „diskriminieren“, also Unterschiede erkennen. Der statistische Trend ist eindeutig. Um sicher zu gehen, dass es sich bei diesen Ergebnissen nicht um sog. Artefakte handelt, also Ergebnisse, die nur von Besonderheiten der angewandten Methoden abhängen, ließen wir die entsprechenden Netze sowohl durch Anwendung einer Standardlernregel trainieren, nämlich die erwähnte Backpropagation-Regel, als auch durch Verwendung eines Genetischen Algorithmus, der, wie erwähnt, nach dem Prinzip der biologischen Evolution operiert. Die Ergebnisse waren für beide Trainingsverfahren im Wesentlichen gleich, so dass wir hier von einer relativen Gesichertheit ausgehen können. Im Nachherein erscheinen diese Ergebnisse eigentlich recht plausibel. Wenn die Gewichtswerte weitgehend gleich sind, dann werden die Unterschiede zwischen
85
Es ist nicht nur terminologisch wichtig, sorgfältig zwischen dem Lernprozess eines neuronalen Netzes einerseits und dessen Dynamik andererseits zu unterscheiden. Die Dynamik eines Systems, also dessen Verhalten, entsteht durch die Wechselwirkungen der Elemente untereinander und wird durch entsprechende Interaktionsregeln bzw. Funktionen generiert. Der Lernprozess dagegen wird durch Lernregeln gesteuert und besteht darin, dass bestimmte Eigenschaften des Systems, in unserem Fall die Gewichtsmatrix, verändert werden.
210
3 Lernen, Künstliche Intelligenz und soziales Milieu
verschiedenen Signalen, sofern sie nicht zu unähnlich sind, gewissermaßen „weg gemittelt“, also auf gemeinsame Durchschnittswerte reduziert. Sind die Gewichtswerte dagegen sehr unähnlich, dann bleiben Unterschiede durchaus erhalten. Die Generalisierungsfähigkeit von Systemen wie neuronale Netze ist demnach nichts Anderes als ein durch die Varianzwerte der Gewichtsmatrix determiniertes Verhalten. Natürlich kann ein Netzwerk, das aufgrund geringer Varianzwerte sehr stark generalisiert, auch übergeneralisieren, wie das bei den oben erwähnten Experimenten beim Lernen irregulärer Verben offensichtlich der Fall war. Derartige Übergeneralisierungen kommen nicht nur bei bestimmten Lernprozessen vor: Der amerikanische Psychiater Oliver Sacks berichtet in seinem Bestseller „Der Mann, der seine Frau mit seinem Hut verwechselte“ von einem Patienten, der in Bezug auf bestimmte Wahrnehmungen ständig übergeneralisierte. Man konnte nämlich diesen Patienten, der ansonsten ein intelligenter und sozial handlungsfähiger Mann war, regelmäßig dabei beobachten, wie er auf der Straße stehen blieb und Feuerhydranten streichelte. Als Erklärung dafür gab er selbst an, dass er diese Hydranten mit kleinen Kindern verwechselte. Da Feuerhydranten und kleine Kinder nur die geringe Größe gemeinsam haben, kann man hier von einer pathologischen Übergeneralisierung sprechen: Objekte einer bestimmten (geringen) Größe, die auf der Straße stehen, sind unabhängig von ihren sonstigen Eigenschaften eben kleine Kinder. Da dieser Patient vermutlich früher wesentlich häufiger kleine Kinder gesehen hatte als Hydranten, ist erklärlich, warum diese Verwechselung in die Richtung „kleine Kinder“ geht und nicht umgekehrt in die Richtung „Feuerhydrant“. Aufgrund unserer experimentellen Ergebnisse kann man die plausible Hypothese wagen, dass die biologischen neuronalen Netze dieses Patienten, die für die Verarbeitung der visuellen Wahrnehmungen kleiner Kinder und ähnlicher Objekte verantwortlich sind, mathematisch durch äußerst geringe Varianzwerte charakterisiert werden können. Das würde das seltsam anmutende Verhalten des Patienten zumindest exakt erklären, auch wenn damit natürlich weder etwas über die Ursache der einschlägigen Veränderungen noch über mögliche Therapien gesagt werden kann. Immerhin, es wäre eine präzise Erklärung anhand eines mathematischen Modells. Allerdings ist eine solche Erklärung nur hypothetisch, da die Übergeneralisierung der entsprechenden Netzwerke auch durch andere Strukturen verursacht werden kann. Wie lässt sich nun Generalisierungsfähigkeit lernen? Dieser Frage haben sich bereits die neuhumanistischen Bildungsreformer zu Beginn des 19. Jahrhunderts zugewandt und zwar unter dem Leitmotiv der Bildung (vgl. auch Teil 2). Bildung war für die Neuhumanisten wie Humboldt, Schleiermacher oder Schelling nicht
3.3 Lernen und Generalisierungen
211
einfach die Anhäufung von Wissensbeständen, wie es in der Alltagssprache häufig verwendet wird. Danach ist ein Expertensystem wie MYCIN vermutlich gebildeter als jeder Internist. Entsprechend wird in Umfragen häufig der Quizmoderator Günter Jauch als einer der gebildetsten Deutschen bezeichnet. In dem klassischen neuhumanistischen Sinne jedoch ist Bildung etwas anderes, nämlich die Fähigkeit, das Allgemeine im Besonderen zu erkennen. Dazu braucht man zwar auch Wissen, aber das ist nur eine notwendige Bedingung für Bildung und nicht Bildung selbst. Bildung wird gemäß dieser Begriffsbestimmung also als die Fähigkeit zur Generalisierung verstanden, wenn auch in einem noch wesentlich weiteren Sinn als es hier vorgeführt werden konnte. Der bereits mehrfach erwähnte Wolfgang Klafki hat mit seiner Konzeption des exemplarischen Lernens nicht zufällig an die Bildungstradition des Neuhumanismus erinnert. Einer dessen bedeutendster Vertreter, nämlich der Philosoph Friedrich Schelling, hat das Modell des exemplarischen Lernens bereits vor etwa 200 Jahren formuliert, indem er bemerkte, dass streng genommen nur das Besondere gelernt werden könnte, also Einzelfälle. Insofern kann das Ziel von Bildung auch nur dadurch angestrebt werden, dass das Allgemeine im Besonderen gelernt und erkannt werden kann (Schelling 1974). Insofern kann man die Fähigkeit, das Allgemeine zu erkennen, nur durch das Lernen von Einzelfällen gewinnen und d. h. exemplarisch. Man muss durch diese Überlegungen der neuhumanistischen Bildungstradition natürlich nicht annehmen, dass die Vermittlung explizit vorgegeben Wissens bezüglich allgemeiner Zusammenhänge nicht möglich oder sinnvoll ist. Wir wiesen bereits darauf hin, dass explizite Wissensvermittlung aus praktischen Gründen häufig unumgehbar ist. Allerdings führt das leider sehr häufig eben nicht zu der Fähigkeit, die als eigentliche Bildung verstanden werden muss, sondern eher zum Auswendiglernen bestimmter Sachverhalte. Von daher wäre es immer wünschenswert, da wo es praktisch möglich ist, auf die neuhumanistisch begründete Konzeption des exemplarischen Lernens zurückzugreifen.86 Neuronale Netze lernen, wie wir gezeigt haben, prinzipiell exemplarisch, da sie immer einen besonderen Input erhalten. Insofern kann man einen Lernweg benutzen, der dem ähnelt, wie es mit Schülern auch geschieht, wenn diese exemplarisch
86
Einer der Autoren, dessen Schulzeit schon sehr lange zurückliegt, kann sich noch gut an eine Situation von exemplarischem Lernen erinnern. Bei der Einführung in die Integralrechnung in der Oberstufe fragte der Mathematiklehrer einen Schüler danach, welche Funktion die Funktion f(x) = x2 als Differentialquotienten hat. Aus der korrekten Antwort F(x) = 1/3 *x3 + c konnten mehrere Schüler das allgemeine Prinzip ableiten, dass eine Funktion f(x) = xn die „Stammfunktion“ F(x) = (1/n+1)* xn+1 + c hat. Exemplarischer geht’s nimmer, wobei hier auch schon Aspekte des entdeckenden Lernens zu erkennen sind.
212
3 Lernen, Künstliche Intelligenz und soziales Milieu
lernen sollen: Man gibt den Netzen einzelne Fälle vor und trainiert die Netze anschließend jeweils auf das gleiche Zielmuster, falls es sich um überwachtes Lernen handelt. Je mehr Fälle man auf diese Weise hat lernen lassen, desto größer ist die Generalisierungsfähigkeit – falls das Netz oder auch der menschliche Schüler die entsprechende Menge überhaupt verarbeiten können. Grenzen dafür gibt es bei Menschen wie bei künstlichen Netzen. Es ist natürlich eine Frage der Differenziertheit der jeweiligen Inputs, wie viele einzelne Fälle gebraucht werden. Gemäß der obigen Hypothese bezüglich des Zusammenhangs zwischen Varianz und Generalisierungsfähigkeit lässt sich dann postulieren – und im Fall neuronaler Netze auch überprüfen –, dass sich jeweils kognitive Netze mit entsprechenden Varianzwerten entwickelt haben. Diese statistisch gesicherte Hypothese eröffnet nun auch noch einen zweiten Weg, wie man zumindest neuronalen Netzen eine gewünschte Generalisierungsfähigkeit beibringen kann, ohne diese mit Einzelfällen zu trainieren. Dies geschieht, indem die Gewichtsmatrix direkt beeinflusst wird, so dass deren Varianz entweder größer oder kleiner wird, je nachdem welche Generalisierungsleistung gewünscht wird. Dazu braucht man einfach nur entweder die Unterschiede zwischen den Gewichtswerten zu verringern, falls man größere Generalisierungen wünscht, oder die Unterschiede zu vergrößern. Für derartige Modifikationen der Varianz sind unterschiedliche Algorithmen denkbar; Interessenten seien auf Klüver und Klüver 2011a verwiesen. Ein derartiger direkter Eingriff in die Struktur kognitiver Systeme ist jedoch wahrscheinlich nur bei künstlichen Systemen möglich, da Menschen – Schelling folgend – immer besondere Inhalte als Medium ihrer Lernprozesse zur Verfügung haben müssen. Insofern kann man auch sagen, dass KI-Systeme auf eine Weise lernen können, die bei Menschen nicht möglich ist. Versteht man nämlich Lernen als Variation von kognitiven Strukturen bzw. Topologien, wie wir es mehrfach bemerkt haben, und zwar in Bezug auf bestimmte Lernziele, dann ist das bei KI-Systemen anscheinend ohne konkrete Inhalte möglich. Freilich geht es hier um abstraktere Lernziele, nämlich um das Erreichen einer bestimmten Generalisierungsfähigkeit, und nicht um inhaltlich bestimmte Lernziele, wie es üblicherweise geschieht. Auch die bekannten Lernzieltaxonomien wie etwa die von Bloom (vgl. Teil 2) setzen ja immer voraus, dass die jeweiligen Lernziele über die Aneignung bestimmter Inhalte erreicht werden – falls sie es werden. Freilich hat dies Lernverfahren ohne Inhalte auch Grenzen, die wir gegenwärtig experimentell untersuchen. Auch KI-Systeme wie die hier beschriebenen neuronalen Netze sollen letztlich schließlich inhaltlich bestimmte Probleme lösen und nicht einfach nur generalisierungsfähig sein. Es ist für uns noch eine offene Frage, ob neuronale Netze, wenn sie mit einer allgemeinen Generalisierungsfähigkeit verse-
3.3 Lernen und Generalisierungen
213
hen worden sind, diese auch beibehalten, wenn sie anschließend mit inhaltlich konkreten Lernproblemen konfrontiert werden. Dabei ist nicht auszuschließen, dass bei speziellen Problemen doch wieder die Generalisierungsfähigkeit reduziert wird. Dies Problem jedoch und auch die Frage, inwiefern die an Inhalten orientierten Lernprozesse effektiver durchgeführt werden können, wenn die Netze vor dem speziellen Lernprozess mit einer gewünschten Generalisierungsfähigkeit versehen worden sind, müssen wir der Zukunft unserer Forschungsprozesse überlassen. Kognitive Systeme, ob menschlich oder künstlich, müssen natürlich nicht nur generalisieren können, sondern sie müssen auch zur Diskrimination in der Lage sein. Damit ist schlicht gemeint, dass nicht nur durch Generalisierung das Allgemeine im Besonderen erkannt werden kann, sondern auch dass da Unterschiede als solche erkannt werden, wo diese wichtig sind. Wenn etwa ein Kind erkennt, das Katzen und Hunde etwas gemeinsam haben, das beide Gattungen von Vögeln unterscheidet, dann wird man von diesem Kind aber auch erwarten, dass es ebenso die Unterschiede zwischen Katzen und Hunden erkennt. Die am Beispiel des Lernens irregulärer Verben behandelte Übergeneralisierung kommt, wie bemerkt, bei vielen Lernprozessen vor. Insbesondere kleine Kinder werden zuerst die Gemeinsamkeiten von Hunden und Katzen für wichtig halten. Man kann auch sagen, dass die Fähigkeit zur Diskrimination die Fähigkeit zur Erkenntnis ist, dass nicht Alles das Selbe ist und dass nicht Alles miteinander zusammenhängt – eine für viele Möchtegernphilosophen durchaus schwierige Fähigkeit. Wenn man so wie wir in unterschiedlichen wissenschaftlichen Disziplinen längere Zeit gelehrt hat, weiß man, dass die Fähigkeit zur korrekten Diskrimination häufig ebenso schwer zu erwerben ist wie die zur korrekten Generalisierung. Die Beschreibung, welche mathematischen Charakteristika kognitive Systeme haben müssen, um zu bestimmten Generalisierungsleistungen und auch Diskriminationsleistungen in der Lage zu sein, ergibt auch, dass ein einzelnes kognitives Netznicht Beides auf einmal erbringen kann. Hat ein kognitives System eine hohe Generalisierungsfähigkeit aufgrund niedriger MC-Werte bzw. aufgrund niedriger Varianzwerte, dann kann es nicht gleichzeitig eine hohe Diskriminationsfähigkeit haben, da dies gegenteilige MC- bzw. Varianzwerte voraussetzen müsste. Man kann demnach sehr plausibel annehmen, dass es immer mindestens zwei Netze geben muss, um sowohl generalisieren als auch diskriminieren zu können. Da das menschliche Gehirn über eine Fülle von Neuronen und entsprechend viele Teilnetze verfügt, ist diese Schlussfolgerung auch biologisch durchaus plausibel. Schließlich ist seit langem bekannt, dass die biologische Evolution nicht nach einem Sparsamkeitsprinzip verfährt, wie es Ingenieure häufig notgedrungen machen müssen, sondern eher verschwenderisch operiert. Diese Konsequenzen sind ein illustratives Beispiel für die in 3,1 angesprochenen universalen mathematischen Charakteristika kognitiver Systeme.
214
3 Lernen, Künstliche Intelligenz und soziales Milieu
Zu Generalisierungen und Diskriminierungen wäre noch viel zu sagen. Um unser Buch jedoch nicht mit einzelnen Themen zu überfrachten, schließen wir dies Thema erst einmal ab und wenden uns einer weiteren Frage zu.
3.4
Die Geometrie der Missverständnisse
Pädagogisches Handeln ist fundamental kommunikatives Handeln – eine nicht gerade sehr neue Erkenntnis, die wir bereits in Teil 2 erwähnt haben. Deswegen werden wir erneut einen kleinen Ausflug zu kommunikationstheoretischen Grundlagen machen. Eine der bedeutendsten wissenschaftlichen Theorien des letzten Jahrhunderts war zweifellos die „Mathematical Theory of Communication“ von Claude Shannon und Warren Weaver. Der Titel war insofern missdeutbar, da es Shannon und Weaver nicht um Kommunikation allgemein ging, sondern um Informationsübermittlung. Das ist im Titel der deutschen Ausgabe präziser dargestellt worden (Shannon und Weaver 1976), bei der nur von Informationstheorie die Rede ist. Unbeschadet dieser notwendigen Relativierung jedoch kann man diese Theorie getrost als bahnbrechend bezeichnen.87 Der wichtigste Grundgedanke dieser Theorie ist die Definition des Informationsgrades einer Nachricht als die umgekehrte Wahrscheinlichkeit dieser Nachricht. M.a.W.: Je unwahrscheinlicher eine Nachricht ist, desto höher ist ihr Informationsgehalt und umgekehrt. Wir ersparen auch hier den Lesern die genaue mathematische Definition, für die wir auf die Originalabhandlung verweisen (vgl. auch Klüver und Klüver 2007) und überlegen die Plausibilität dieser Definition. Wenn ein „normaler“ Zeitungsleser die Nachricht erhält, dass es in der Arktis weiße Bären gibt, dann ist diese Nachricht für ihn nicht sehr informativ, da er dies gewissermaßen erwartet hatte. Auch wenn dieser Leser noch nie im Zoo Eisbären gesehen hatte und sich auch hartnäckig den rührseligen Bildern des ehemals kleinen Eisbären Knut entzogen hatte, dann hält er es doch für sehr wahrscheinlich, dass es in einer vom Schnee bestimmten Landschaft vor allem Tiere gibt, die in ihrer Fellfarbe an diese Landschaft angepasst sind. Die Nachricht dagegen, dass immer mehr Eisbären ihre weiße Fellfarbe zugunsten von Brauntönen verlieren – genauer gesagt die Nachkommen von ehemals nur weißen Bären –, dann ist dies
87
Nicht nur für Informatiker dürfte es wichtig sein, dass hier die Definition des „Bit“ entwickelt wurde als die kleinste logische Einheit auf der Basis von Ja – Nein Entscheidungen.
3.4 Die Geometrie der Missverständnisse
215
eine vergleichsweise informative Nachricht, da unser Leser dies nicht erwartet hatte. Die Nachricht drückt einen für ihn eher unwahrscheinlichen Sachverhalt aus und entsprechend groß ist ihr Informationsgehalt. Die berühmte Definition von Shannon und Weaver macht also auch für einen kommunikativen Alltag durchaus Sinn. Hier muss allerdings auf ein Problem der Shannon-Weaver Definition aufmerksam gemacht werden. Die Nachricht hinsichtlich der Farbveränderungen bei Polarbären ist vermutlich für unseren Zeitungsleser oder Rezipienten von TV-Nachrichten in diesem Sinne informativ, nicht jedoch unbedingt für Ökologen oder Klimaforscher. Diese haben sich möglicherweise schon seit Jahren mit den klimatischen Veränderungen in der Arktis beschäftigt und sind deshalb nicht sehr überrascht, dass diese Veränderungen bestimmte Auswirkungen auf die arktische Fauna haben. Im Gegensatz zu der Annahme von Shannon und Weaver also, die unterstellten, dass die Wahrscheinlichkeit einer Nachricht immer die gleiche für alle Empfänger ist, muss man davon ausgehen, dass dies generell nicht der Fall ist (vgl. Klüver und Klüver 2007). Der Informationsgehalt einer Nachricht hängt vielmehr wesentlich davon ab, welches Vorwissen der Empfänger dieser Nachricht hatte. Das wird uns im Folgenden noch näher beschäftigen, da es dabei wesentlich ist, was mit „Vorwissen“ gemeint ist. Shannon und Weaver operierten mit einem objektiven Wahrscheinlichkeitsbegriff in dem eben gesagten Sinne; für den Fall menschlicher Kommunikation dagegen muss man mit einem subjektiven Wahrscheinlichkeitsbegriff arbeiten, der vom Empfänger der Nachricht abhängt. In einem noch sehr abstrakten Sinne kann man demnach sagen, dass die Information einer Nachricht die Relation zwischen dem Inhalt der Nachricht und einer entsprechenden Erwartungshaltung des Empfängers ist. Gemessen wird diese Information durch die Definition des Informationsgrades, der als die Differenz zwischen der Erwartung und dem Nachrichteninhalt bestimmt wird. Das soll exemplarisch etwas erläutert werden: Versetzen wir uns einmal in eine mögliche Kommunikation zum Thema „Fußball“, die im Ruhrgebiet zu dem Zeitpunkt stattfindet, an dem diese Zeilen geschrieben wurden (Frühling 2011). Man kann sehr plausibel annehmen, dass in dieser Kommunikation die Platzierung bestimmter Vereine in der Bundesliga thematisiert wird, insbesondere der Spitzenplatz von Borussia Dortmund und die schlechte Platzierung von Schalke 04 sowie zusätzlich das Pokalfinale, das von zwei Ruhrgebietsvereinen bestritten wird (Schalke gewann gegen Duisburg mit 5 : 0). Außerdem dürfte der Trainerwechsel in verschiedenen Vereinen eine Rolle spielen. Wenn man annimmt, dass der Empfänger einer Nachricht zu diesem Thema ein Fan von Schalke 04 ist, dann kann man sich sein entsprechendes semantisches Netz etwa folgendermaßen vorstellen: „Schalke“ ist, wie bei einem Fan zu erwarten, ein zentraler Begriff; die anderen Begriffe sind in dem Netz so angeordnet, wie es den Interessen des Fans ent-
216
3 Lernen, Künstliche Intelligenz und soziales Milieu
spricht. Zur Erinnerung sei noch einmal darauf hingewiesen, dass die Nähe eines Begriffs A zu einem Begriff B besagt, dass bei Thematisierung des einen Begriffs der andere Begriff mit einer hohen Wahrscheinlichkeit vom Empfänger assoziiert wird. Unser Fan also assoziiert zum Begriff „Schalke“ sowohl „Arena“ als auch „Magath“ (der damalige Trainer von Schalke). Begriffe, die mit dem Ausgangsbegriff „Schalke“ nicht direkt verbunden sind, werden mit geringerer Wahrscheinlichkeit assoziiert und gewöhnlich auch erst nach der Assoziation der ersten Begriffe (das wurde anhand des Modells der konzentrischen Kreise in 3.2 behandelt). Wenn also bei der Kommunikation über Fußball von dem Sender der Begriff „Schalke“ eingeführt wird, dann erwartet der Empfänger eine Nachricht, in der zu Schalke auch noch „Arena“ und „Magath“ angesprochen werden. Der Empfänger hat also eine Erwartungshaltung, die formal als Vektor (Schalke, Arena, Magath) dargestellt werden kann. Der Sender ist jedoch kein Schalkefan oder ist an dem Thema nur peripher interessiert. Statt des vom Empfänger erwarteten Vektors sendet er (Schalke, HSV, Bayern München), wenn er auf Mannschaften zu sprechen kommen will, die seiner Meinung nach gegenwärtig besser sind als Schalke. Diese beiden Begriffe kommen im semantischen Netz des Empfängers zwar auch vor, aber sind nicht direkt mit „Schalke“ verbunden. Der gesendete Vektor deckt sich also nicht mit dem vom Empfänger erwarteten, sondern es gibt eine Differenz zwischen den beiden Vektoren. Diese Differenz, die den Informationsgrad der gesendeten Nachricht darstellt, wird daran gemessen, wie weit die gesendeten Begriffe im semantischen Netz des Empfängers von den Begriffen entfernt sind, die der Empfänger erwartet hatte. Wir sparen auch hier die genaue mathematische Definition aus, wie dieser Informationsgrad berechnet wird (vgl. Klüver und Klüver 2007). Hier mag es genügen, dass der Informationsgehalt einer Nachricht umso größer ist, je weiter die tatsächlich gesendeten Begriffe von denen entfernt sind, die der Empfänger erwartet hatte. Da die semantischen Netze verschiedener Empfänger gewöhnlich unterschiedlich sind, ist auch der Informationsgrad derselben Nachricht für verschiedene Empfänger unterschiedlich. Das entspricht unabhängig von der mathematischen Präzisierung durchaus einem Alltagsverständnis von Informationsgehalt.88
88
Als kleiner Hinweis zur mathematischen Präzisierung sei angemerkt, dass die Entfernung d zwischen zwei direkt verbundenen Begriffen bei einer Codierung in reellen Zahlen zwischen 0 und 1 d = 0.1 ist, bei Begriffen, die über einen weiteren Begriff indirekt verbunden sind, d = 0.2 usf. Zusätzlich werden noch die Gewichtungen der jeweiligen Verbindungen mit in die Berechnung einbezogen. Der Informationsgehalt I ergibt sich dann bei einer Distanz d als I = 1 – d.
3.4 Die Geometrie der Missverständnisse
217
Ein semantisches Netz ist mathematisch nichts anderes als ein gerichteter und gewichteter Graph, worauf wir bereits hingewiesen hatten. Ein Graph lässt sich durch verschiedene Eigenschaften charakterisieren, wozu insbesondere die topologische Eigenschaft der Dichte zählt. Dies bedeutet einfach die Anzahl der tatsächlich vorhandenen Verbindungen in einem Graph proportional zur Anzahl der möglichen Verbindungen. Ein ungerichteter Graph mit n Knoten hat, wie man leicht überprüft, mindestens n – 1 Knoten, da alle Knoten mit mindestens einem anderen Knoten verbunden sind, und maximal n2 – n Knoten, wenn man keine Verbindung eines Knoten zu sich selbst zulässt. Abb. 3-5 zeigt zwei Formen dieser Extreme:
Abbildung 3-5: Links ein Graph mit n – 1 Verbindungen (ein Stern), rechts ein Graph mit n2 – n Verbindungen (Kanten)
Was hat dies nun mit unserem Thema zu tun? Der Informationsgehalt einer Nachricht für einen Empfänger ist davon abhängig, wie groß die Distanz zwischen gesendeten und erwarteten Begriffen ist. Wenn nun alle Begriffe im Empfängernetzwerk direkt miteinander verbunden ist, was man auch als Vollvermaschung bezeichnet, dann ist die Distanz zwischen den erwarteten und den tatsächlich gesendeten immer gleich, nämlich gleich der jeweilig gewählten numerischen Einheit, multipliziert mit der Gewichtung der Verbindung. Wird also X erwartet und Y gesendet und ist w(X,Y) = 0.5, dann ist der Informationsgehalt entsprechend gering. Sind dagegen X und Y Elemente eines semantischen Netzes, in dem die Knoten jeweils nur mit genau einem anderen Knoten verbunden sind, dann ist die Wahrscheinlichkeit bei größerem n ziemlich hoch, dass X und Y nicht direkt miteinander verbunden sind. Entsprechend höher ist der Informationsgehalt der Nachricht für einen Empfänger mit einem nicht sehr dichten Netz. Dies legt die folgende Überlegung nahe: Je kleiner die Anzahl der Verbindungen und damit die Dichte eines semantischen Netzes ist, desto größer ist der wahrscheinliche Informationsgehalt einer Nachricht und umgekehrt. Dabei geht es natürlich nur um Durchschnittswerte, nicht um die konkrete Bestimmung eines einzelnen Informationsgrads. Insbesondere dürfte der eine Extremfall mit nur n – 1 Verbindungen faktisch kaum auftreten. Man kann unterstellen, dass größere semantische Netze aus Teilnetzen bestehen, die natürlich auch miteinander verbunden sind. Mit anderen Worten, bestimmte Begriffe des Gesamtnetzes bilden sog. Cluster, in denen die Begriffe sämtlich direkt
218
3 Lernen, Künstliche Intelligenz und soziales Milieu
miteinander verbunden sind; andere Begriffe bilden andere Cluster oder sind als Einzelbegriffe nur mit bestimmten Clustern verbunden. Abb. 3-6 zeigt beispielhaft eine derartige Clusterstruktur:
Abbildung 3-6: Clusterstruktur eines semantischen Netzes (Begriffe nur durch Buchstaben)
Aus der obigen Überlegung ergibt sich dann für Netzwerke mit einer bestimmten Clustergeometrie: Je mehr verschiedene Cluster oder auch Einzelbegriffe ein Netzwerk hat, desto größer ist der wahrscheinliche Informationsgehalt einer Nachricht und umgekehrt. Auch hier geht es natürlich nur um Durchschnittswerte. Implizit haben wir dabei vorausgesetzt, dass a) die gesendeten Begriffe auch sämtlich im Netzwerk des Empfängers vorhanden sind und dass b) ein Cluster aus mindestens zwei Begriffen besteht. Für den Fall, dass ein gesendeter Begriff überhaupt nicht im semantischen Netz des Empfängers vorhanden ist, müssen gesonderte Berechnungen eingeführt werden, was hier aber nur erwähnt werden soll. De facto würde in einem solchen Fall der Empfänger natürlich zurückfragen, was der ihm unbekannte Begriff bedeutet – in Bezug auf ihm bekannte Begriffe – und den unbekannten Begriff in sein semantisches Netz integrieren. Wir haben die obige Folgerung für clustergeometrisch strukturierte Netzwerke in zahlreichen Computerexperimenten überprüft und können sie als gesichert annehmen; in diesen Experimenten wurden sowohl die Größe der Netze variiert als auch die Anzahl der Cluster, die Anzahl der Verbindungen zwischen den Clustern und schließlich die Stärke der Verbindungen zwischen den Clustern und innerhalb der Cluster. Insgesamt jedenfalls lässt sich sagen, dass die geometrische Struktur der semantischen Netze eines Empfängers der entscheidende Faktor für die Wahrscheinlichkeit ist, dass eine gesendete Nachricht einen bestimmten Informationsgehalt hat – unabhängig vom „Inhalt“ der Nachricht. Wir haben diese geometrischen Betrachtungen bisher auf den Informationsgehalt von Nachrichten bezogen. Völlig entsprechende Ergebnisse sind jedoch auch dafür zu erhalten, wenn man nach dem Zusammenhang zwischen der Geometrie semantischer Empfängernetze und der Generierung von Bedeutungen fragt. Wir hatten bisher die Bedeutung einer Nachricht allgemein als den Attraktor definiert, den die
3.4 Die Geometrie der Missverständnisse
219
Nachricht als Input in einem kognitiven Netzwerk generiert. Für den Fall semantischer Netze muss diese Definition etwas genauer formuliert werden: Nehmen wir als Beispiel ein semantisches Netz, das einer unserer ehemaligen Diplomanden auf unsere Bitte von sich selbst konstruiert hatte, nachdem er einen Kurs in (der Programmiersprache) JAVA absolviert hatte. Das sah folgendermaßen aus:
Abbildung 3-7: Ein semantisches Netz mit Java als Zentrum
Wenn nun dies Netzwerk, transformiert in ein neuronales Netz, eine „Nachricht“ erhält, dann werden die drei Einheiten des Netzwerks extern aktiviert, also mit numerischen Werten belegt, die die gesendeten Begriffe repräsentieren. Bei einer Nachricht beispielsweise (Liste, Bibliothek, Sprache) ergibt sich ein Endzustand des Netzwerks wie folgt:
Abbildung 3-8: Endzustand des Netzwerks nach Empfang von (Liste, Bibliothek, Sprache)
220
3 Lernen, Künstliche Intelligenz und soziales Milieu
Die Länge der Balken repräsentiert die Stärke der Endaktivierungen, deren numerische Werte zusätzlich angegeben worden sind. Bei dieser Nachricht wurde also das gesamte Netz aktiviert, was auch aufgrund der Tatsache nicht weiter erstaunlich ist, da alle Einheiten direkt oder indirekt miteinander verbunden sind. Nun wird ein menschlicher Empfänger der obigen Nachricht nicht die Gesamtheit der Einheiten als Bedeutung nehmen, da das bei größeren Netzen viel zu kompliziert und für reale Kommunikationen auch völlig unpraktikabel wäre. Plausibler ist die Annahme, dass der Empfänger so etwas wie einen „Bedeutungsradius“ bestimmt. Damit ist gemeint, dass der Empfänger von dem Begriff ausgeht, der am stärksten am Ende aktiviert ist, der also sozusagen den höchsten Aufmerksamkeitsgrad für den Empfänger hat, und dann die Begriffe auswählt, deren Endaktivierungswerte nicht allzu stark von dem Wert des Ausgangsbegriffs differieren. „Nicht allzu stark“ heißt, dass eine Differenz vorgegeben wird, die als Grenze bzw. Radius dafür gilt, dass die entsprechenden Begriffe noch Teil der Bedeutung sind. Nehmen wir an, dass die Größe dieses Radius maximal bei unserem Beispiel 0.25 beträgt. Dann ist die Bedeutung der obigen Nachricht das Tripel (JAVA, Applet, Sprache).89 Man kann dann den Bedeutungsgrad einer Nachricht analog zum Informationsgrad folgendermaßen definieren: Eine Nachricht X hat den Bedeutungsgrad n, wenn es n Begriffe gibt, die innerhalb des Bedeutungsradius liegen. Die Dichte des obigen Netzwerks ist nicht sonderlich groß, da viele Begriffe nur indirekt miteinander verbunden sind. Daraus ergibt sich beispielsweise die Tatsache, dass der Endaktivierungswert von „Liste“ nur gering ist, obwohl „Liste“ selbst durch die Nachricht zu Beginn extern aktiviert wurde. Generell kann man auch hier folgende Hypothese aufstellen: Je geringer die Dichte eines semantischen Netzes ist, je stärker also das Netzwerk in einzelne Teilnetze (Cluster) bzw. Einzelbegriffe differenziert ist, desto kleiner ist der Bedeutungsgrad einer Nachricht und umgekehrt.90 Diese Überlegungen und Resultate sind erst einmal ziemlich abstrakt. Man kann jedoch unmittelbar einsehen, inwiefern dies für Alltagskommunikation und insbesondere für pädagogische Prozesse wichtig sein kann:
89
Für Leser, die sich nicht im Informatikerjargon auskennen: Unter einem Applet versteht man ein in JAVA geschriebenes Programm, das in einem Web-Browser läuft. 90 Das obige Beispielsnetzwerk hat übrigens die interessante Struktur, dass bei fast jeder Nachricht der Begriff JAVA am stärksten aktiviert wird, also immer als wichtigster Teil der Bedeutung fungiert. Das zeigt, dass auch bei anderen Strukturen das Phänomen auftreten kann, dass verschiedene Nachrichten Bedeutungen generieren, die untereinander zumindest ähnlicher sind als die Nachrichten selbst.
3.4 Die Geometrie der Missverständnisse
221
Stellen wir uns einen Lehrer vor, der einen Kurs über Programmiersprachen abgehalten hat und anschließend durch Fragen und weitere Hinweise den Lernerfolg seiner Schüler überprüfen will. Wenn dieser Lehrer auffordert, bestimmte wichtige Charakteristika von JAVA zu nennen, wird er ebenfalls eine Erwartungshaltung haben, die sich analog zu der oben definierten Erwartungshaltung eines Empfängers bestimmt: Der Lehrer wird Antworten erwarten, die die Begriffe enthalten, die in seinem Netzwerk am stärksten mit dem Zentralbegriff JAVA zusammenhängen. Hätte also der Lehrer ein Netzwerk wie das unseres Diplomanden, dann würde er Antworten erwarten, die „Objekt“ und Applet“ enthalten – ggf. auch noch einige Begriffe mehr. Wenn er nun Antworten erhält, in denen beispielsweise „Liste“ und „E-Mail“ vorkommen, dann wäre er vermutlich irritiert und könnte dazu tendieren, die Antworten als falsch zu bewerten. Außerdem könnte er die Vermutung aufstellen, dass die Schüler die Begriffe nicht behalten haben, die er in den Antworten erwartet hatte. Er „versteht“ also die Schüler nicht oder nimmt sogar an, dass diese einige Lehrinhalte schlicht vergessen haben. Dieser Fall tritt insbesondere dann ein, wenn die vom Lehrer vermittelten Begriffe für ihn einen hohen Bedeutungsgrad haben und er demgemäß erwartet, dass die Schüler entsprechend viele Begriffe assoziieren und in ihren Antworten darstellen. Entsprechend würde er einige Lehrinhalte noch einmal wiederholen, um das Wissen der Schüler zu vervollständigen. Tatsächlich aber haben die entsprechenden Schüler einfach eine semantische Struktur, bei der die Verbindungen zwischen den Begriffen andere sind als im Netzwerk des Lehrers. Die Antworten, die der Lehrer als falsch oder auch unvollständig bewertet, basieren für die Schüler darauf, dass die Frage des Lehrers andere Endaktivierungen generiert als es der Lehrer erwartet hatte. Insbesondere dann, wenn der Bedeutungsgrad der Nachricht für die Schüler aufgrund ihrer geometrischen Struktur deutlich geringer ist als für den Lehrer, werden die Antworten der Schüler immer entsprechend weniger vollständig sein als es der Lehrer erwartet hatte. In dem Fall müsste der Lehrer versuchen, auf die Struktur der Schülernetzwerke einzuwirken, indem er beispielsweise die von ihm als wesentlich angesehenen Verbindungen zwischen einzelnen Begriffen wiederholt und explizit die Strukturgenerierung bei den Schülern hervorrufen will, die er für die adäquate hält. Natürlich kann der Lehrer die Antworten auch zum Anlass nehmen, seine eigene Struktur noch einmal zu überdenken und sich etwa zu fragen, warum er bestimmte Antworten erwartet hatte und andere als unzulässig empfindet.91
91
Wenn von Bedeutungsgrad und Informationsgehalt für den Lehrer die Rede ist, dann heißt das immer, dass der Lehrer den Bedeutungsgrad und Informationsgehalt einer von ihm gesendeten Nachricht so bestimmt, als hätte er selbst die Nachricht erhalten.
222
3 Lernen, Künstliche Intelligenz und soziales Milieu
Entsprechendes gilt für Überraschungseffekte, die durch unvermutete Informationsgrade von Nachrichten ausgelöst werden können. Die Erwartung bestimmter Nachrichten seitens des Lehrers oder der Schüler kann durchaus dazu führen, dass die Kommunikation entscheidend beeinträchtigt wird dadurch, dass beide Seiten ständig etwas Anderes erwarten, als tatsächlich gesendet und empfangen wird. Ist dies aufgrund sehr unterschiedlicher semantischer Strukturen regelmäßig der Fall, dann kann auf beiden Seiten der Eindruck entstehen, dass eine Fortsetzung der Kommunikation nicht sinnvoll ist, da jede Seite immer andere Aspekte anspricht als die andere Seite erwartet hatte. Der Lehrer kommt dann zu der Überzeugung, dass die Schüler nicht lernen können oder wollen; die Schüler gelangen zu der Ansicht, dass es den Lehrer überhaupt nicht interessiert, welche Antworten oder auch Bemerkungen die Schüler geben. Natürlich gibt es demotivierte Schüler und leider auch resignierte Lehrer. Bevor jedoch dies traurige Ergebnis konstatiert werden muss, wäre es vielleicht sinnvoll, sich über möglicherweise sehr unterschiedliche kognitiv-geometrische Strukturen Gedanken zu machen. In schulischen Kontexten sind natürlich alle Beteiligten gezwungen, zumindest formal Kommunikationen aufrecht zu halten. In Alltagssituationen, in denen es derartige objektive Zwänge nicht gibt, kann man sich mühelos verstellen, wie schnell derartige Strukturunterschiede zum völligen Abbruch von Kommunikationen führen können. Die berühmt-berüchtigten Vorwürfe „Du verstehst mich nicht“ in Beziehungen haben ihren Rechtsgrund vielleicht gar nicht selten in einer Strukturdifferenz, die man als „geometrische Inkompatibilität“ der Partner bezeichnen könnte. Es ist freilich weder unsere Aufgabe noch unser Anliegen, hier beziehungstherapeutische Reflexionen anzustellen. Einige allgemeine Hinweise zu Problemen der Alltagskommunikation haben wir übrigens in Stoica-Klüver et al. 2007 gegeben. Mit einem völlig anderen Beispiel wollen wir diese konkretisierenden Überlegungen zur Geometrie kognitiver Strukturen abschließen. Im sog. Einstein-Jahr 2005 wurde häufig erläutert, worin das besondere Genie von Einstein lag.92 Nach übereinstimmender Meinung aller Einstein-Kenner bestand dies vor allem in der Fähigkeit Einsteins zur Synthese (vgl. die Lernzieltaxonomien in Teil 2 und die dortige Thematisierung von Einstein). Dies lässt sich an der speziellen Relativitätstheorie etwas verdeutlichen: Die wesentlichen einzelnen Teile, aus denen sich diese Theorie zusammensetzt, waren eigentlich schon vor Einstein bekannt, beispiels-
92
1905 war das Jahr, das von Einstein selbst als „annus mirabilis“, das wunderbare Jahr, bezeichnet wurde. Damals erschienen drei Aufsätze, die seinen Weltruhm begründeten, darunter auch der Aufsatz, in dem er die spezielle Relativitätstheorie darstellte.
3.4 Die Geometrie der Missverständnisse
223
weise die Erkenntnis der universalen Konstanz der Lichtgeschwindigkeit sowie die sog. Lorentz-Transformationen, aus denen sich die Relativität der Zeit ableiten lässt. Einige Physiker wie der Niederländer Henrik Lorentz und der Franzose Henri Poincaré waren deswegen auch dem Ziel einer einschlägigen zusammenfassenden Theorie schon ziemlich nahe. Erst Einstein jedoch konnte hier zeigen, wie eine entsprechende Theorie alle einzelnen Komponenten zusammenbringen kann. Es erscheint ziemlich plausibel, dass die kognitive Struktur von Einstein, durch welche Entwicklungsprozesse auch immer, die entscheidenden Grundbegriffe der Theorie in stärker zusammenhängenden Strukturen integriert hatte als dies bei seinen Kollegen der Fall war. Einstein verfügte vermutlich über einen Cluster, in dem z. B. die Begriffe „Energie“, „Masse“ und „Lichtgeschwindigkeit“ gemeinsam vorhanden waren, so dass er die wohl berühmteste Formel der Wissenschaftsgeschichte aufstellen konnte: E = mc2. Das hatte Einstein seinen zeitgenössischen Kollegen voraus. Überlegungen zur kognitiven Clustergeometrie können also auch dazu beitragen, auch berühmte Fälle der Wissenschaftsgeschichte besser zu verstehen. Wir werden in einem der folgenden Kapitel noch darauf eingehen, wie man sich die Entstehung derartiger Strukturen vorstellen kann. Man kann übrigens sehr plausibel annehmen, dass die Nachricht von dieser berühmten Formel für die Kollegen von Einstein wesentlich mehr Informationsgehalt hatte als für interessierte Laien, die diese Nachricht einfach in ihre semantischen Netze aufnahmen. Die Kollegen von Einstein dagegen hatten bereits differenzierte Cluster mit den verschiedenen Begriffen, die jedoch nicht als zusammengehörig geordnet waren. Entsprechend hoch war der Informationsgehalt. Bei Laien dagegen kann man sich simple Cluster vorstellen, in denen alle diese Begriffe „irgendwie“ zusammenhingen; von daher war der Informationsgehalt deutlich geringer, auch wenn die Laien mit den einzelnen Begriffen sicher nicht viel anfangen konnten. Erst auf dem theoretischen Niveau ausgebildeter Physiker brachte die zusammenhängende geometrische Struktur von Einstein einen tatsächlichen Erkenntnisgewinn. Etwas überspitzt kann man diese clustergeometrischen Überlegungen auch so zusammenfassen, dass der Empfänger einer Nachricht umso weniger von ihr überrascht sein wird, je größere Dichte seine semantischen Netze aufweisen und umgekehrt. Natürlich kann eine Nachricht auch dadurch überraschend wirken, dass in ihr bekannte Begriffe bzw. Teilnachrichten mit neuen Komponenten verbunden sind, die der Empfänger noch nicht kannte. Dann jedoch „versteht“ der Empfänger die Nachricht streng genommen nicht, da er in Bezug auf die für ihn neuen Komponenten keine Bedeutung der Nachricht generieren kann. Bevor der Empfänger der Nachricht eine Bedeutung zuordnen kann, muss er sich vergewissern, wie er die neuen Begriffe in sein semantisches Netz einordnen kann, und erst dann kann er den Informationsgrad bestimmen, den die Nachricht für ihn hat. Pädagogisch gesehen läuft das nicht nur auf die Binsenweisheit hinaus, dass man neue Begriffe
224
3 Lernen, Künstliche Intelligenz und soziales Milieu
durch explizite Erläuterungen bzw. Definitionen einführen muss, bevor mithilfe dieser Begriffe neue Nachrichten gesendet werden können. Es bedeutet zusätzlich auch und vor allem, dass der Lehrer durch Überprüfungen versuchen muss, herauszufinden, wie die Lernenden die neu erworbenen Begriffe in ihre geometrische kognitive Struktur eingefügt haben. Haben sie dies nicht in dem Sinne getan, den der Lehrer aufgrund seiner eigenen kognitiven Struktur voraussetzte und intendierte, sind den beschriebenen Missverständnissen und Kommunikationspannen nach wie vor Tür und Tor geöffnet. Für Leser, die an allgemeiner Systemtheorie interessiert sind, ist hier noch ein kleiner Hinweis am Platze (die anderen Leser können diese Passage getrost überlesen): Wir haben in zahlreichen Experimenten mit Zellularautomaten und sog. Booleschen Netzen, die logisch äquivalent zu Universalen Turing-Maschinen sind, ein von uns so bezeichnetes „Theorem der Ungleichheit“ entdeckt. Dies besagt einfach in der hier verwendeten Terminologie, dass komplexe dynamische Systeme eine umso komplexere Dynamik entwickeln, je „gleicher“ sie in bestimmten Dimensionen sind und dass sie einfache Dynamiken generieren, wenn sie in diesen Dimensionen „ungleich“ sind. Hier kann man die Gleichheit bzw. Ungleichheit an der jeweiligen Dichte eines Netzes bestimmen: Ein dichtes Netzwerk ist „gleich“ in dem Sinne, dass die Anzahl der Verbindungen zwischen den Einheiten relativ gleich ist; das Umgekehrte gilt dann für Netzwerke, deren Dichte nur gering ist. In diesem Sinne „gleichere“ Netzwerke erlauben offensichtlich eine komplexere Form der Nachrichtenverarbeitung als dies für „ungleichere“ Netzwerke der Fall ist. Wir haben es demnach mit sehr allgemeinen Gesetzmäßigkeiten zu tun, worauf wir hier jedoch nur verweisen können (vgl. etwa Klüver und Klüver 2011a).
3.5
Aufmerksamkeit, Relevanz und Vergessen
Die Klagen von Lehrenden über mangelnde Aufmerksamkeit der Lernenden sind vermutlich so alt wie pädagogisches Handeln überhaupt. Es ist ja auch eine schlichte Tatsache, dass Lernende häufig abgelenkt sind aufgrund von physischer Überforderung und daraus resultierender Müdigkeit, mangelndem Interesse an den Lehrinhalten und/oder privaten Interessen und Problemen. Die Möglichkeit, dass der Lehrende schlicht nicht die Kompetenz hat, das Interesse der Lernenden zu wecken und zu erhalten, ist ebenso nie auszuschließen. Es gibt jedoch auch eine Form der Unaufmerksamkeit, die wir nicht selten gerade bei engagierten und interessierten Schülern und Studierenden erlebt haben, und die eigentlich als produktiv zu bezeichnen ist. Bevor wir darauf näher eingehen, muss noch ein weiterer kommunikationstheoretischer Begriff eingeführt werden.
3.5 Aufmerksamkeit, Relevanz und Vergessen
225
Wir haben bisher eine Nachricht dadurch charakterisiert, dass sie einen bestimmten Informationsgehalt I sowie eine bestimmte Bedeutung B bzw. einen Bedeutungsgrad Bg für den Empfänger enthält bzw. generiert. Diese beiden Charakterisierungen sind analytisch in dem Sinne unabhängig voneinander, dass z. B. eine Nachricht einen hohen Informationsgehalt haben kann aber nur einen geringen Bedeutungsgehalt oder umgekehrt usf. Eine Nachricht ist demnach für einen Empfänger durch eine der insgesamt vier möglichen Kombinationen von I und Bg bestimmt. Beide „Dimensionen“ einer Nachricht reichen jedoch nicht aus, um zu verstehen, wie und ob überhaupt der Empfänger auf diese Nachricht reagiert. Um dies zu bestimmen, brauchen wir noch einen weiteren Grundbegriff, nämlich den der Relevanz bzw. Wichtigkeit einer Nachricht N für den Empfänger. Nehmen wir noch einmal das obige Beispiel der Nachricht, dass immer mehr Bären in der arktischen Zone bräunliche Fellfärbungen aufweisen. Für einen Zoologen, der sich mit entsprechenden ökologischen Studien beschäftigt hat, hat diese Nachricht vermutlich einen relativ geringen Informationsgehalt, jedoch ebenso wahrscheinlich einen hohen Bedeutungsgrad, da er zahlreiche Begriffe mit dieser Nachricht assoziieren wird. Umgekehrt ist dies vermutlich bei einem Laien, der mit dieser Nachricht einen hohen Informationsgrad und einen eher niedrigen Bedeutungsgrad verbinden wird. Wenn dieser Laie nun die Nachricht erhält, wird er vermutlich eher die Achseln zucken, da die Nachricht für sein praktisches Alltagsleben keine Konsequenzen hat. Für den Zoologen dagegen kann diese Nachricht durchaus praktische Konsequenzen haben, da er möglicherweise sich mit Kollegen in Verbindung setzen wird, die gerade in der Arktis stationiert sind, sich durch Lektüre von einschlägigen Aufsätzen weitere Informationen holt und vielleicht sogar sich selbst an einen Aufsatz zu diesem Thema setzt. Für den Zoologen also hat diese Nachricht in dem Sinne eine hohe Relevanz, dass sie praktische Konsequenzen für seine Lebenspraxis hat; für den Laien dagegen hat die Nachricht nur eine geringe Relevanz, da sie für ihn folgenlos bleibt. Das könnte sich allerdings rasch ändern, falls unser Laie gerade eine Kreuzfahrt in die Arktis gebucht hat und sich auf die Beobachtung von Eisbären in freier Wildbahn gefreut hat. Entsprechend hätte eine Nachricht, dass es in einiger Zeit zu einer Fürstenhochzeit kommen wird, für engagierte Leserinnen der einschlägigen Boulevardpresse einen niedrigen Informationsgehalt, da diese Nachricht zu erwarten war und schon wochenlang thematisiert wurde. Der Bedeutungsgrad dagegen ist bei derartigen Leserinnen ziemlich hoch, da sie durch regelmäßige Lektüre ein dichtes semantisches Netz in Bezug auf derartige Ereignisse aufgebaut haben – dies Netz enthält beispielsweise nicht nur die Namen des glücklichen jungen Paares, sondern auch die Namen anderer potentieller Paare, die Namen der Verwandten aus den jeweiligen Fürstenfamilien und noch vieles mehr. Ebenso hoch dürfte die Relevanz dieser Nachricht sein, da sie Gesprächsstoff für zahlreiche Unterhaltungen mit anderen interessierten Leserinnen bietet, die Möglichkeit offeriert, Sondersendungen im
226
3 Lernen, Künstliche Intelligenz und soziales Milieu
Fernsehen sowie Sonderausgaben der entsprechenden Zeitschriften zu rezipieren und vielleicht sogar Pläne anregt, selbst als Zuschauerin am Ort des freudigen Ereignisses anwesend zu sein. Wie die entsprechenden Werte für einen männlichen Empfänger dieser Nachricht aussehen, der gerade düster über einen Trainerwechsel in der Fußballbundesliga grübelt, braucht wohl nicht näher ausgeführt zu werden.93 Diese Beispiele legen die folgende Definition nahe: Die Relevanz einer Nachricht besteht in der Intensität, durch die der Empfänger der Nachricht zu praktischen Handlungen stimuliert wird. Man kann dies auch als die Wahrscheinlichkeit versehen, mit der ein Empfänger zu praktischen Handlungen angeregt wird, und zwar in einem bestimmten Maße. Formal lässt sich dies wieder in einem Netzwerkmodell darstellen: Sei Nk ein kognitives Netzwerk, also ein Netz, das einkommende Nachrichten verarbeitet und ihnen durch Generierung eines Attraktors Bedeutungen zuweist. Dies Netzwerk ist über die Outputschicht bzw. die als Output fungierenden Neuronen mit einem zweiten Netzwerk Nb verbunden, das als Einheiten „Bedürfnisse“, „Interessen“, „Hoffnungen“, „Ängste“ und ähnliche Komponenten enthält, also die Komponenten des menschlichen Bewusstseins, die emotionale Orientierungen ausdrücken. Durch einschlägige Lernprozesse sind die Attraktoren, die die verschiedenen kognitiven Netzwerke mit diesem „Bedürfnisnetz“ verbinden, durch unterschiedlich stark gewichtete Verbindungen mit den Einheiten des Bedürfnisnetzes verbunden. Im Falle der Interessentin an Fürstenhochzeiten ist beispielsweise der Attraktor „Hochzeit von Kate und William“ durch eine stark gewichtete Verbindung mit Einheiten wie „Interesse“ und „Freude“ oder auch „Rührung“ verbunden. Die Nachricht von besagter Hochzeit wird jetzt über den generierten Attraktor in die beschriebenen Einheiten des Bedürfnisnetzes übertragen. Aufgrund der starken Verbindung werden diese Einheiten entsprechend stark aktiviert und generieren ihrerseits einen Attraktor im Bedürfnisnetz, der insgesamt
93
Wir bitten für die ausschließliche Verwendung des Begriffs „Leserin“ alle Leserinnen dieser Studie um Verzeihung, die sich nicht für derartige Ereignisse interessieren. Nach unseren Erfahrungen und entsprechenden Untersuchungen sind es jedoch fast ausschließlich Frauen, die für derartige Themen Interesse aufbringen und für die diese Themen auch entsprechende Relevanz haben. Zu diesem Beispiel inspiriert wurden wir übrigens zum Zeitpunkt des Schreibens dieser Passage (Frühjahr 2011) durch die Nachrichten über Kate und William am britischen Hof; gleichzeitig drehte sich das sog. Trainerkarussell in der Bundesliga immer schneller, so dass die Annahme eines düster brütenden Fußballfans sehr plausibel war.
3.5 Aufmerksamkeit, Relevanz und Vergessen
227
durch relativ hoch aktivierte Neuronen charakterisiert ist. Das Bedürfnisnetz hat demnach die Funktion, den eingegangenen Nachrichten zusätzlich zu Bedeutung und Informationsgrad eine bestimmte Relevanz zuzuweisen. Dieser Attraktor – genauer gesagt die den Attraktor charakterisierenden Neuronen in bestimmten Aktivierungszuständen – ist nun seinerseits mit einem dritten Netzwerk verbunden, das wir als „Handlungsnetz“ HN bezeichnen. Dabei kann man annehmen, dass diese Verbindungen durch einen sog. „Schwellenwert“ charakterisiert sind: Nur wenn dieser Schwellenwert überschritten wird, also nur bei hinlänglich stark aktivierten Neuronen des Attraktors, wird eine Aktivierung in das dritte Netzwerk übertragen, das dann wieder einen Attraktor generiert. Dieser führt dann durch eine Verbindung zu anderen Teilen des Organismus, die auch andere Teile des Gehirns sein können, zu entsprechenden Handlungen; diese können auch weitere kognitive Verarbeitungsprozesse aufgrund der Nachricht sein. Zusammenfassend ausgedrückt: Die Relevanz einer Nachricht drückt sich formal in mehr oder weniger hohen Aktivierungswerten der damit befassten Neuronen in den einzelnen Netzen aus und führt bei hinlänglich hohen Werten zu weiteren Handlungen – oder auch nicht. Selbstverständlich ist die Relevanz einer Nachricht nicht unabhängig von der jeweiligen Situation, in der die Nachricht erhalten wird. Wenn die mehrfach angesprochene Interessentin für Fürstenhochzeiten die Nachricht in einer Situation empfängt, in der sie gerade starken Hunger verspürt, dann wird die Nachricht weniger Relevanz haben, als wenn die Empfängerin sich entspannt und gesättigt der Lektüre der einschlägigen Gazette hingibt. Streng genommen müsste also zur Bestimmung der Aktivierungswerte noch berücksichtigt werden, inwiefern die Empfänger von Nachrichten in dem Sinne abgelenkt sind, dass sie ihre Denk- und Handlungsprozesse an Zielen orientieren, die in der Situation höherrangig sind als die von der Nachricht angesprochenen Bedürfnisse. Diese und andere zu berücksichtigenden Aspekte brauchen hier jedoch nicht im Detail behandelt zu werden und können anderenorts nachgelesen werden (vgl. dazu Klüver und Klüver 2007). Eine Nachricht Na lässt sich demnach vollständig charakterisieren durch a) ihre Bedeutung und ihren Bedeutungsgrad B, b) ihren Informationsgehalt I und ihren Relevanzwert R. Formal ergibt dies Na = (B, I, R). Die folgende Graphik zeigt das Modell der Handlungsgenerierung durch Relevanz in einer schematischen Übersicht.
228
3 Lernen, Künstliche Intelligenz und soziales Milieu
Abbildung 3-9: Generierung von Relevanz und daraus resultierenden Handlungen (= 3 Netze)
Nach diesem kommunikationstheoretischen Exkurs können wir nun das Problem der Aufmerksamkeit bei Empfängern von Nachrichten präzise darstellen; diese Empfänger können Schüler sein, Studierende oder auch Zuhörer eines Vortrages. Nehmen wir an, dass eine relativ komplexe Nachricht N aus mehreren Teilnachrichten A, B, C ... besteht. Bei vollständiger Aufmerksamkeit der Empfänger werden dann gemäß dem obigen Schema jeder Teilnachricht eine Bedeutung und Bedeutungsgrad, ein Informationsgehalt und ein Relevanzwert zugeordnet. Falls jede Teilnachricht in etwa den gleichen Relevanzwert hat und dieser verhältnismäßig hoch ist, wird die Nachricht vollständig empfangen und auch zumindest partiell im Gedächtnis behalten; wir werden das Problem des Gedächtnisses noch gesondert behandeln. Der andere Extremfall liegt dann vor, wenn die Relevanzwerte der Teilnachrichten – evtl. aufgrund einer besonderen Situation – relativ gering sind. Dann ist zu erwarten, dass die Aufmerksamkeit des Empfängers sehr rasch abnimmt und dazu führt, dass keine der Teilnachrichten Konsequenzen produziert – die Gesamtnachricht wird zwar aufgenommen, aber sie verschwindet wieder aus dem Bewusstsein des Empfängers. Es kommt jedoch auch häufig vor, dass eine Teilnachricht einen hohen Relevanzwert hat. Nehmen wir an, dass dies die Teilnachricht B ist. Dann beschäftigt sich das empfangende System mit besonderer Aufmerksamkeit vorrangig mit B, beispielsweise durch Generierung weiterer Assoziationen zu B, durch Überlegungen, wie B auf bestimmte Weise fortgesetzt werden kann und so fort. Beispielsweise haben wir in unseren Projektbesprechungen häufig erlebt, dass die Teilnehmer zwar sehr aufmerksam theoretischen Darstellungen folgten, die als Grundlage für bestimmte neue Programme dienten, nach kurzer Zeit jedoch bereits anfingen, darüber nachzudenken, wie die vorgestellten Überlegungen programmiertechnisch umzusetzen wären. Die Teilnachricht „dieser Modellteil soll durch einen Zellularautomaten dargestellt werden“ führte sofort dazu, dass über das Pro-
3.5 Aufmerksamkeit, Relevanz und Vergessen
229
gramm nachgedacht wurde, da dies für die Programmierer einen hohen Relevanzwert hatte. Die weiteren Ausführungen zum Sinn des speziellen Zellularautomaten, seiner mathematischen Details etc. wurden nicht mehr wahrgenommen, da der Relevanzwert der Teilnachricht die gesamte Aufmerksamkeit des Empfängers buchstäblich fesselte. Man kann sich dies auch so vorstellen, dass der hohe Relevanzwert dieser Teilnachricht Verarbeitungsprozesse in dem kognitiven Netzwerk in Gang setzte, so dass die zusätzlichen Teilnachrichten von dem Netzwerk nicht mehr verarbeitet werden konnten – sie blieben buchstäblich bedeutungslos und wurden natürlich auch nicht in irgendeiner Form im Gedächtnis aufbewahrt. Es ist plausibel, dass bei komplexen Nachrichten nicht jede Teilnachricht einen gleich hohen Relevanzwert hat. Deswegen ist die daraus resultierende Situation, dass nur bestimmte Teilnachrichten aufgenommen und weiter verarbeitet werden, eigentlich die zu erwartende, was auch unseren eigenen Erfahrungen sowohl als Lehrende bzw. Vortragende als auch als Zuhörer entspricht. Dies geschieht nur scheinbar paradoxerweise gerade bei Themen, die insgesamt durchaus eine hohe Relevanz für die Empfänger haben und auf die sich die Empfänger durchaus aufmerksam einlassen. Natürlich hängt es von den jeweiligen Empfängern ab, welche Relevanz die verschiedenen Teilnachrichten für sie jeweils haben; bei unterschiedlichen Empfängern werden also die einen beispielsweise bei Teilnachricht B abschweifen, andere bei C, wieder andere schon bei A usf. Bei längeren Vorträgen wird der Redner demnach davon ausgehen müssen, dass praktisch niemand sämtliche Aspekte des Vortrags noch verarbeitet bzw. verarbeiten kann. Das gilt übrigens auch für die Lektüre schriftlicher Texte.94 Mangelnde Aufmerksamkeit kann natürlich, wie bemerkt, ein Desinteresse an der gesamten Thematik bedeuten. Sie kann jedoch auch das Gegenteil signalisieren, nämlich eine hohe Aufmerksamkeit und daraus resultierende weitere Verarbeitungsprozesse, aber nur in Bezug auf eine Teilnachricht und dann auf Kosten der anderen Teilnachrichten. Bei einem Vortrag lässt sich in diesem Fall wenig ändern, da Vorträge nun einmal en bloc gehalten werden müssen. Die üblichen rhetorischen Hilfsmittel wie kurze Pausen, auflockernde Scherze und ähnliche Möglichkeiten können vielleicht die Situation etwas verbessern, aber nicht grundsätzlich. Im Unterricht – Schule, Hochschule oder andere Institutionen – ist das freilich an-
94
Dies erlebten wir bei einer Konferenz in den USA, wo ein Redner sich auf einen unserer eigenen Aufsätze bezog und einen bestimmten Grundgedanken besonders hervorhob. Allerdings war dieser Gedanke unserer Meinung nach nur eine Vorbereitung für den eigentlichen Kern des Aufsatzes. Das hatte der Redner jedoch nicht mehr verarbeitet, weil der zu Beginn des Aufsatzes gebrachte Gedanke seine Aufmerksamkeit vollständig in Beschlag genommen hatte.
230
3 Lernen, Künstliche Intelligenz und soziales Milieu
ders. Hier wird der Lehrende die erwähnte Problematik immer berücksichtigen müssen. Dies bedeutet, dass Vermittlungen komplexer Gesamtthemen nur so erfolgen können, dass nach jedem Teilkomplex den Hörern Gelegenheit gegeben werden muss, nicht nur Verständnisfragen sondern auch weiterführende Fragen zu stellen, um die entsprechenden Verarbeitungsprozesse nicht auf Kosten der folgenden Teilkomplexe zu ermöglichen. Insbesondere sollte immer wieder darauf hingewiesen werden, welche Relevanz der Teil hat, bei dem man gerade ist und dass zusätzliche Aspekte, die für bestimmte Zuhörer besonders relevant sind, gesondert behandelt werden. Aufgrund unserer erwähnten Erfahrungen bei Projektbesprechungen haben wir beispielsweise es längst automatisiert, immer wieder darauf hinzuweisen, dass jetzt noch keine Detailüberlegungen angestellt werden sollten, sondern dass es erst einmal um den generellen Zusammenhang geht. Derartige praktische Überlegungen sind natürlich weder neu noch besonders originell. Dennoch haben unsere eigenen didaktischen Erfahrungen uns immer wieder gelehrt, dass man das nur scheinbar Selbstverständliche eben doch regelmäßig thematisieren muss. Das in diesem Kapitel dargestellte Modell, wie gerade eine hohe Relevanz von Teilnachrichten zur Unaufmerksamkeit führt, ist vielleicht ein brauchbares Hilfsmittel, sich dieser Selbstverständlichkeiten erneut bewusst zu werden. Eine erhöhte Aufmerksamkeit von Lernenden bezüglich eines bestimmten Themas ist übrigens generell dann zu verbessern, wenn es gelingt, die Lerninhalte auf die Alltagserfahrungen der Lernenden zu beziehen, für die ihre eigene Lebenspraxis natürlich ein äußerst hohes Maß an Relevanz hat; dies kann man auch als „lebensweltlich orientierte Didaktik“ bezeichnen. Darauf sind wir bereits in Teil 2 eingegangen und wir haben auch darauf verwiesen, dass dies nicht die einzige Determinante für die Strukturierung curricularer Inhalte sein kann. Die Struktur mancher Fächer, vor allem in den mathematisch-naturwissenschaftlichen Disziplinen, lässt es häufig nicht zu, lebensweltliche Aspekte für die Lernenden einzubringen – siehe unser Beispiel mit dem in dieser Hinsicht missglückten Lehrbuch zu PROLOG. Dennoch sind gerade die obigen Überlegungen zur Relevanz ein deutlicher Hinweis darauf, wie wünschenswert es ist, durch geeignete Beispiele derartige lebensweltliche Bezüge herzustellen. Mit etwas didaktischer Phantasie ist da Einiges zu erreichen.95
95
Wir haben beispielsweise die Notwendigkeit, sich als Informatiker mit den Grundzügen von Topologie zu beschäftigen, in der Ausbildung von Studierenden dadurch thematisiert, dass wir gezeigt haben, wie man die seit einiger Zeit sehr populären sog. Sudokus (Zahlenrätsel) durch einen topologisch operierenden Algorithmus lösen kann.
3.5 Aufmerksamkeit, Relevanz und Vergessen
231
Betrachten wir zum Abschluss dieses Kapitels noch kurz das Problem des Gedächtnisses und das gewissermaßen komplementäre Problem des Vergessens. Interessanterweise hatte gerade die Entwicklung des Computers dazu geführt, dass in Bezug auf das Gedächtnis in weiten Kreisen der Psychologie eine „Computermetapher“ entstand, nämlich die Bezeichnung des Gedächtnisses als einen „Speicher“ (vgl. auch die Darstellung der kognitiven Lerntheorien in Teil 2). Sofern nicht mit Speicher im umgangssprachlichen Sinne so etwas wie ein Gefäß oder auch ein Raum gemeint war, in dem Gegenstände verwahrt werden, stellte man sich den Gedächtnisspeicher als etwas Ähnliches vor wie eine Datenbank, aus der nach Bedarf die Gedächtnisinhalte abgerufen werden. Entsprechend wurde unter Vergessen ein mangelhafter oder auch unmöglicher Zugriff auf die Datenbank verstanden, sei es, weil das Gesuchte nicht gefunden werden kann, obwohl es prinzipiell im Speicher vorhanden ist, oder weil es durch irgendwelche Mechanismen aus dem Speicher verschwunden war. Diese Metapher hatte lange Zeit Konjunktur, weil sie scheinbar einen Begriff lieferte, unter dem man sich konkrete Sachverhalte vorstellen konnte. Nun gibt es im Gehirn – und auch im Bewusstsein – natürlich keinen Speicher im üblichen Sinne des Wortes und es gibt auch keine Datenbank im Sinne eines speziellen Computerprogramms. Insofern ist diese Metapher extrem irreführend. Stattdessen muss das Gedächtnis als eine „Systemleistung“ angesehen werden, um einen Begriff des amerikanischen Neurobiologen (und Nobelpreisträgers) Gerald Edelman zu verwenden (Edelman 1995). Hierunter ist Folgendes zu verstehen: Wir haben Lernen generell definiert als die Veränderung einer kognitiven Topologie, also der Topologie bestimmter Netzwerke mit dem Ergebnis, dass aus der variierten Topologie ein bestimmtes verändertes Verhalten resultiert. Damit schließen wir an die klassische Definition von Lernen als systematische Veränderung des Verhaltens an. Wenn nun eine derartige topologische Variation stattgefunden hat, die von der Umwelt des Lerners als befriedigendes Lernergebnis akzeptiert wird, dann bedeutet die Erinnerung an das Lernresultat natürlich erst einmal nur, dass die entsprechenden topologischen Strukturen konstant geblieben sind. Die Erinnerung an etwas, was man in der Vergangenheit wahrgenommen oder gelernt hat, besteht offensichtlich darin, dass bei einem entsprechenden Input in einer einschlägigen Situation der Attraktor generiert wird und als Output ausgegeben wird, der ursprünglich in einer früheren Situation sofort generiert wurde oder als Resultat eines Lernprozesses anschließend entstand. Gedächtnis bedeutet demnach, dass für früher generierte Bedeutungen die kognitiven Strukturen konstant gehalten worden sind, so dass bei entsprechenden Auslösern eben diese Bedeutungen erneut generiert werden können. In Kapitel 3.3 haben wir gezeigt, dass und unter welchen Bedingungen ein gleicher Attraktor bei verschiedenen Eingaben generiert werden kann. Das Gedächtnis in Form von Bedeutungsgenerierungen kann also auch dann korrekt funktionieren, wenn der Input in einer gegenwär-
232
3 Lernen, Künstliche Intelligenz und soziales Milieu
tigen Situation etwas anders ist als der Input in einer früheren Situation, in der die entsprechende Bedeutung zuerst generiert und anschließend durch konstante Topologien sozusagen fixiert wurde. Entsprechend zu dieser „systemischen“ Definition von Gedächtnis lässt sich jetzt auch das Problem des Vergessens präzise fassen. Wir haben in Teil 2 an die klassischen Konditionierungsexperimente von Pawlow erinnert und ein einfaches Netzwerkmodell des berühmten Hundes vorgestellt. Der Hund, wie erinnerlich, vergaß nach einer gewissen Zeit, in der er kein Futter neben dem Glockensignal erhielt, die konditionierte Reaktion der Speichelabsonderung. Im Netzwerkmodell wurde dieser Prozess simuliert durch eine kontinuierliche Abschwächung der Verbindungen, die er im Konditionierungsprozess erst aufgebaut hatte – die Umkehrung des Hebbschen Prinzips. Vergessen wird hier also realisiert durch den Abbau von kognitiven Strukturen, so dass bestimmte Bedeutungen nicht mehr generiert werden können – sie sind vergessen. Dies ergibt auch eine generelle Definition von Vergessen, von dem wir annehmen können, dass es stets als Abbau der kognitiven Strukturen verstanden werden muss, die für die Generierung der vergessenen Bedeutungen verantwortlich waren. Die entsprechenden Inputs haben keine Bedeutung mehr.96 Im Falle des Pawlowschen Hundes war dieser Abbau gewissermaßen eine Funktion der Zeit, da der Hund keine verstärkenden Impulse mehr erhielt. Bei komplexen Erinnerungen ist das sicher nicht so einfach, da Vergessen zum Glück nicht automatisch eintritt bzw. in Gang gesetzt wird, wenn die einschlägigen Lernprozesse eine Zeitlang zurück liegen. Natürlich erinnern sich die meisten Erwachsenen nicht mehr an alle in der Schule gelernten Details, insbesondere dann nicht, wenn es sich um Inhalte aus ungeliebten Fächern handelt. Dennoch bleibt Vieles über die Jahre erhalten. Dass jedoch Vergessensprozesse auch dadurch stattfinden können und in gewisser Weise sogar stattfinden müssen, wenn im Sinne eines Life Long Learnings immer mehr gelernt werden muss, kann man sich anhand der in 3.3 angestellten Überlegungen rasch verdeutlichen: Stellen wir uns zwei Netzwerke mit verschieden hohen MC-Werten vor, die beide auf das Lernen unterschiedlicher Eingaben trainiert werden. Ein Netzwerk mit einem sehr niedrigen MC-Wert kann durchaus verschiedene Eingaben verarbeiten, ohne seine kognitive Struktur ändern zu müssen, da das Netzwerk über entspre-
96
Sehr konkrete und traurige Beobachtungen des Abbaus kognitiver Strukturen lassen sich bei den immer zahlreicher werdenden Fällen von krankheits- oder altersbedingter Demenz beobachten: Ursprünglich bekannte Nachrichten erreichen die Patienten nicht mehr, weil die Nachrichten keine Bedeutungen mehr generieren.
3.5 Aufmerksamkeit, Relevanz und Vergessen
233
chend große Attraktionsbecken verfügt und verschiedene Eingaben dem gleichen Attraktor zuordnen kann. Dies Netzwerk hat zwar keine sehr differenzierte Verarbeitung, aber es „vergisst“ sozusagen nur wenig, da einmal gelernte Eingaben mit dem gleichen Attraktor immer wieder neu die gleiche Bedeutung generieren. Falls neue Eingaben im gleichen Attraktionsbecken eines einmal gelernten Attraktors liegen, werden auch diese Eingaben nicht vergessen, falls sie später noch einmal gebracht werden. Anders ist die Situation bei einem Netzwerk mit hohen MC-Werten. Wenn dies Netzwerk verschiedene Eingaben lernen soll, dann wird es mit hoher Wahrscheinlichkeit gezwungen, seine kognitive Struktur jedes Mal erneut zu ändern, um der jeweils letzten Lernaufgabe gerecht zu werden. Das jedoch führt notwendig dazu, dass die zuerst gelernten Eingaben nicht mehr korrekt verarbeitet werden können, so dass das Netzwerk streng genommen diese Eingaben vergessen hat. Das jedoch liegt nicht an der Zeit, die zwischen dem Lernen der ersten und der letzten Eingaben vergangen ist, sondern schlicht daran, dass das Netz nicht auf das Lernen unterschiedlicher Muster bei gleichzeitigem Beibehalten der kognitiven Topologie eingerichtet ist. Das Vergessen in diesem Fall, so kann man es auch formulieren, ist etwas, das sich mit mathematischer Notwendigkeit ergibt. Ein kognitives System, das aus mehreren Netzwerken besteht, kann dies Problem natürlich dadurch umgehen, dass verschiedene Eingaben unterschiedlichen Netzwerken zugewiesen werden und eben diese Strategie dürften menschliche Systeme auch anwenden. Man muss sich ab und an in Erinnerung rufen, dass das menschliche Gehirn aus Hunderten von Milliarden von Neuronen besteht und dass deshalb auch sehr viele verschiedene Netze für kognitive Prozesse zur Verfügung stehen. Dennoch gibt es auch hier Grenzen, da ein großer Teil des Gehirns gar nicht für kognitive Operationen im strengen Sinne des Wortes zur Verfügung steht, sondern die Steuerung anderer körperlicher Prozesse durchführen muss. Die jedem Menschen bekannte Tatsache, dass das Erlernen immer neuer Sachverhalte, kognitiver Strategien und Problemlösungen mit dem Verlust ehemals gelernter Sachverhalte und Fähigkeiten einhergeht, dürfte ihre Gründe nicht zuletzt darin haben, dass eben durch den Zwang zu ständigem Lernen die Struktur bestimmter Netzwerke de facto „überschrieben“ werden: Ihre Struktur ändert sich derartig, dass Inputs, die „eigentlich“ bekannt sind, nicht mehr als bedeutungsvoll erkannt werden können. Nun gibt es bekanntlich Menschen mit einem sehr guten Gedächtnis und andere Menschen mit einem sehr schlechten. Insbesondere wird immer wieder auf Menschen mit einem sog. „eidetischen“ Gedächtnis verwiesen, die nur etwas wahrnehmen müssen – z. B. eine Seite Text – und anschließend diese Wahrnehmung nie
234
3 Lernen, Künstliche Intelligenz und soziales Milieu
wieder vergessen.97 Allerdings wissen wir nicht, ob diese Extremform von Gedächtnis jemals tatsächlich eindeutig nachgewiesen wurde, auch wenn es sicher Menschen gibt, die diesem Extrem durchaus nahe kommen können. Das ist z. T. eine Frage des ständigen Gedächtnistrainings. Da bei derartigen Menschen anscheinend keine „Überschreibungen“ kognitiver Netze vorliegen, scheint das unserem Modell zu widersprechen. Man kann jedoch plausibel annehmen, dass Menschen mit einem nahezu eidetischen Gedächtnis im Vergleich zu „normalen“ Menschen über sehr viele einzelne Netzwerke verfügen, die verschiedene Wahrnehmungen unterschiedlich bewahren. Dies dürfte jedoch auch dazu führen, dass viele Gedächtnisinhalte nur noch isoliert bewahrt werden, so dass die erinnerten Sachverhalte nur einen sehr geringen Bedeutungsgrad haben. Anders ausgedrückt führen bei einer derartigen Gedächtnisstruktur Erinnerungen nur noch dazu, dass genau eine einzelne Erinnerung rekapituliert werden kann und sonst nichts mehr. Das hier vorgestellte Netzwerkmodell postuliert demnach, dass die rekapitulierten Erinnerungen nur noch in einem sehr eingegrenzten Sinne bedeutungsvoll sein können und dass die Gedächtnisleistung dann mehr der eines Kindes ähnelt, das auswendig gelernte Text hersagen kann, ohne damit weitere Bedeutungen zu verbinden. Soweit wir wissen, gibt es für diese Annahme empirische Bestätigungen.98 Natürlich ist von Seiten der Gedächtnisforschung noch sehr viel zu den hier angesprochenen Themen zu sagen. Wir wollten hier jedoch „nur“ zeigen, wie Gedächtnis und Vergessen in den von uns dargestellten Netzwerkmodellen präzise darzustellen. und wie bestimmte Phänomene auch plausibel zu erklären sind. Deswegen wenden wir uns im nächsten Kapitel einem auf den ersten Blick ganz anderen Problem zu, das jedoch für Lehren und Lernen nicht weniger wichtig ist.
3.6
Umwelt, Begabung und Selbstverstärkung
Es gibt wohl kaum ein anderes Thema im Bereich von Lernen und Lehren, das derartig ideologisch und emotional diskutiert wird wie die anscheinend ewige
97
Eidetisch leitet sich aus dem griechischen Wort für „sehen“ ab und besagt demnach, dass man etwas nur einmal zu sehen braucht, um es nie wieder zu vergessen. Die gleiche Fähigkeit dürfte jedoch auch bei Wahrnehmungen durch andere Sinne vorliegen. 98 Es kommt natürlich nicht nur bei Kindern vor, dass Lernende einfach etwas auswendig lernen, ohne es im Sinne weiterer Bedeutung zu verstehen. Diese in Prüfungen häufig komisch wirkende Tatsache – komisch allerdings nur für die Prüfer – dürfte allen Lehrenden nicht sehr unbekannt sein. Unser Netzwerkmodell macht durchaus plausibel, was für Lernprozesse in diesen Fällen abgelaufen sind.
3.6 Umwelt, Begabung und Selbstverstärkung
235
Frage, ob die soziale Umwelt oder die angeborene Begabung der entscheidende Faktor für Lernerfolge und generell kognitive Entwicklungen sind; im angelsächsischen Sprachraum wird dies Problem mit der griffigen Formel von „nature versus nurture“ bezeichnet. Es ist dabei äußerst schwierig, die jeweiligen Interessen zu erkennen, die die Verfechter der einen oder der anderen Position damit verbinden. Vor allem seit der Entwicklung der ersten Intelligenztests auf der Basis des berühmt-berüchtigten Intelligenzquotienten (IQ) wurden ständig ideologische Positionen damit verbunden, die eine oder andere Gruppe von Menschen als genetisch bedingt weniger leistungsfähig zu diagnostizieren.99 Auch die offenbar ebenso ewige Frage, ob Frauen oder Männer aus genetischen Gründen intelligenter sind, wird in die Kontroverse mit einbezogen. Wir können hier natürlich nicht auf dies Thema in seiner ganzen Differenziertheit eingehen und verweisen deshalb auf die einschlägigen Handbücher zur Intelligenzforschung. Zu konstatieren ist hier lediglich, dass je nach politisch-ideologischer Großwetterlage zuweilen die eine und anschließend die andere Position dominierte: Während in den siebziger und achtziger Jahren das Pendel mehr zur Dominanz der Umweltfaktoren geschwungen war, gewann in den beiden darauf folgenden Jahrzehnten mehr die genetisch orientierte Position die Oberhand.100 Vorsichtige Forscher sprechen nicht zuletzt aufgrund des ständigen Schwankens zwischen diesen beiden Positionen gegenwärtig eher von einer gleichwertigen Relevanz dieser Faktoren. Methodisch wurde lange Zeit versucht, das Problem auf zwei Wegen zu behandeln. Zum einen versuchte man es über die „Zwillingsforschung“: Dies basierte auf der Erkenntnis, dass eineiige Zwillinge über die gleichen Gene verfügen und deshalb bei gleichem sozialen Milieu im wesentlichen auch gleiche Entwicklungen aufweisen müssten. Um nun den prozentualen Anteil der Umweltfaktoren und der genetisch bedingten Faktoren zu bestimmen, musste man a) Paare eineiiger Zwillinge suchen, die durch frühe Trennung in unterschiedlichen sozialen Milieus aufgewachsen waren, und b) Paare eineiiger Zwillinge aus einem bestimmten sozialen Milieu mit Paaren zweieiiger Zwillinge aus dem gleichen Milieu vergleichen. Die Entwicklungs- bzw. Intelligenzunterschiede zwischen eineiigen Zwillingen gemäß Ansatz a) müssen dann auf die Unterschiedlichkeit der jeweiligen Milieus zurückgeführt und damit gemessen werden können. Gemäß Ansatz b) wird zuerst ge-
99
Eine sehr instruktive Übersicht für die IQ-Messungen und deren ideologische Kontexte im 20. Jahrhundert findet sich in der mittlerweile schon klassischen Studie von Kamin 1979. 100 Beispielsweise dekretierte der Gehirnforscher Roth 2002 mit allerdings methodisch mehr als fragwürdigen Argumenten, dass jetzt endgültig die Dominanz genetischer Faktoren wissenschaftlich gesichert sei (Roth 2002).
236
3 Lernen, Künstliche Intelligenz und soziales Milieu
messen, wie gleich jeweils die eineiigen Zwillinge untereinander und entsprechend die zweieiigen Zwillinge ebenfalls untereinander sind. Sind dann etwa die zweieiigen Zwillinge hinsichtlich ihrer Intelligenz um 10 % untereinander verschiedener als die eineiigen, so bedeutet dies, dass bei gleichem sozialen Milieu ausschließlich die Verschiedenheit der Gene bei zweieiigen Zwillingen für die Gleichheitsdifferenzen verantwortlich sind. Trotz immer wieder in der Öffentlichkeit bekannt gemachten spektakulären Einzelergebnissen stagnierte die Zwillingsforschung und erwies sich als letztlich nicht taugliches Mittel, die Frage nach Umwelt versus Begabung gesichert zu beantworten. Die methodischen Hauptprobleme waren bei beiden Ansätzen immer sowohl die Schwierigkeit, genau die Gleichheit bzw. Unterschiedlichkeit sozialer Milieus zu bestimmen und möglichst auch quantitativ fest zu legen, als auch in den Zeiten vor Erfindung der DNA-Tests eindeutig zu sagen, ob Zwillingspaare nun eineiig oder zweieiig waren. Das letztere Problem lässt sich heute sicher beheben; das Problem der Umweltbestimmung jedoch ist nach wie vor nicht schlüssig gelöst. Die angeblich aus der Zwillingsforschung gewonnenen Zahlen wie Gene = 80 % Einfluss oder ähnliche Daten muss man streng genommen als Makulatur betrachten.101 Der zweite methodische Weg, nämlich der IQ-Vergleich bestimmter Gruppen miteinander, hatte zwar auch spektakuläre Ergebnisse aufzuweisen, die sich jedoch bei genauerer Prüfung als methodisch weitgehend haltlos erwiesen. Beispielsweise legte der Harvard-Psychologe Jensen zu Beginn der siebziger Jahre Forschungsergebnisse vor, nach denen wieder bei gleichem sozialen Milieu schwarze Amerikaner im Durchschnitt bis zu 10 % geringere IQ-Werte hatten als weiße (z. B. Jensen 1972). Also sind schwarze Amerikaner genetisch bedingt entsprechend weniger „intelligent“ als weiße. Auch diese Ergebnisse jedoch waren aufgrund gravierender methodischer Mängel zustande gekommen, die nicht zuletzt wieder in der Unklarheit hinsichtlich eines „gleichen“ Milieus ihren Grund hatten. Auch bei gleichem Sozialstatus beispielsweise können in zwei Familien bekanntlich durchaus verschiedene geistige Anregungen für die jeweiligen Kinder vorhanden sein. Darüber hinaus konnte u. a. Kamin (loc. cit.) zeigen, dass die sog. Intra-Gruppendifferenzen in den meisten Studien größer waren als die Inter-Gruppendifferenzen. Anders gesagt, wenn die Unterschiede innerhalb einer Gruppe größer sind als die durchschnittlichen Unterschiede zwischen den Vergleichsgruppen, werden die Vergleichsergebnisse zwischen den Gruppen aus statistischen Gründen irrelevant;
101
Weitere methodische Probleme finden sich bei Kamin a.a.O., der auch auf direkte Betrugsfälle, nämlich Fälschungen von Forschungsergebnissen, hinweist.
3.6 Umwelt, Begabung und Selbstverstärkung
237
genau das ist bei den Ergebnissen von Jensen der Fall. Es sei nur als wissenschaftshistorische Anekdote angemerkt: Ausgerechnet Genetiker der selben Harvard University fanden in den achtziger Jahren durch große Vergleichsstudien heraus, dass die verschiedenen menschlichen ethnischen Gruppen, die früher ziemlich leichtfertig als „Rassen“ bezeichnet wurden, genetisch keine nennenswerten Unterschiede aufweisen und dass von daher die Suche nach genetisch bedingten Intelligenzunterschieden zwischen verschiedenen menschlichen Gruppen eine sinnlose Angelegenheit ist. Trotz dieser permanent entmutigenden Resultate blieb schon aus pädagogischen Gründen die Frage nach dem Einfluss der Umwelt versus dem der Gene aktuell. Die Relevanz des sozialen Milieus für Lernerfolge bzw. Intelligenzentwicklung ist nun einmal nicht zu leugnen, was auch die Ergebnisse der verschiedenen PISAStudien belegen. Die schlichte Tatsache, dass in verschiedenen Ländern die soziale Herkunft unterschiedlich bedeutsam für Lernerfolge ist – in Deutschland traurigerweise besonders wesentlich –, zeigt diese Relevanz überdeutlich. Von daher ist es eine immer wieder aktuelle Frage, wie man Lernumwelten gestalten muss, um soziale Unterschiede zwischen den Schülern so weit wie möglich zu kompensieren. Andererseits ist es eine ebenso schlichte Tatsache, dass man auch beim besten Unterricht nicht aus allen Kindern Genies machen kann. Es gibt offenbar den Faktor der angeborenen Fähigkeiten ebenso wie den der Umwelteinflüsse und der Traum mancher Behavioristen, alle Menschen zu gleichen hervorragenden Leistungen bringen zu können, bleibt eben dies, nämlich ein Traum. Ein Mozart oder Einstein lassen sich nun einmal nicht pädagogisch planen. Pädagogisch heißt das nicht zuletzt, dass man es akzeptieren muss, wenn manche Lernende es leicht haben und andere Lernende bestimmte Lernleistungen nicht oder nur in geringem Maße erreichen können. Damit ist das Problem nicht nur wissenschaftlich sondern auch sehr praktisch nach wie vor höchst relevant. Die zum Teil spektakulären Fortschritte in der Genforschung schienen einen Ausweg aus der Sackgasse zu bieten, in der die auf IQ-Messungen und Milieuanalysen basierende Intelligenzforschung gelandet war. Wenn es nämlich gelingen würde, die Gene zu identifizieren, die für die Entwicklung bestimmter kognitiver (und anderer) Fähigkeiten verantwortlich sind, dann könnte man zumindest prinzipiell etwa bei lernschwachen oder auch bei sehr leistungsfähigen Kindern nach genetischen Ursachen fahnden. Damit hätte man zwar keine genaue und definitive Antwort auf die Frage, welche Einflusswerte die beiden Grundfaktoren auf die Entwicklung von Intelligenz haben, aber man könnte sich ein einigermaßen konkretes Bild davon machen, wie Gene und Umwelt interdependent verflochten sind. Von diesem Ziel ist man jedoch noch weit entfernt, da es ziemlich sicher die einzelnen Gene für die Herausbildung bestimmter kognitiver Fähigkeiten gar nicht gibt.
238
3 Lernen, Künstliche Intelligenz und soziales Milieu
Der kanadische Sprachpsychologe Steven Pinker (1996) illustrierte dies Problem dadurch, dass er von einer Familie in den USA berichtete, deren Mitglieder unter einem bestimmten genetischen Defekt litten, der sie zu sog. Dysphasikern machte, nämlich zu Menschen mit bestimmten Sprachstörungen. Man konnte sogar das Gen ziemlich genau bestimmen, dessen mangelnde Funktionsfähigkeit diese spezielle Sprachstörung verursachte. Damit war jedoch nicht etwa das Gen gefunden, das für die Entwicklung von Sprachfähigkeiten verantwortlich ist. Stattdessen, so Pinker, muss man sich die genetische Basis für die Sprachfähigkeit als ein komplexes Gefüge zahlreicher Gene vorstellen, bei dem der Ausfall eines Gens Auswirkungen auf die gesamte Sprachfähigkeit haben kann und in diesem Fall auch hat. Das einzelne Gen, das bei der fraglichen Familie defekt ist, ist ebenso wenig die Basis für Sprachfähigkeit wie ein defektes Zündkabel, das den Motor eines Autos lahmt legt, den Gesamtmotor darstellt (Pinker loc. cit.). Einzelne Gene für spezielle Fähigkeiten zu suchen scheint demnach ebenfalls eine nicht sehr sinnvolle Tätigkeit zu sein. Die Vorstellung, jeder Fähigkeit, die Menschen ausbilden können, entspräche genau ein Gen oder vielleicht eine kleine Gruppe von Genen, hat ja auch ziemlich absurde Züge. Dann müsste man beispielsweise nicht nur einfach ein Mathematikgen postulieren, sondern ein Algebragen, ein Analysisgen, ein Zahlentheoriegen usf., da auch gute Mathematiker in verschiedenen Subdisziplinen unterschiedliche Fähigkeiten aufweisen. Das erinnert an ebenso abstruse Annahmen, dass für die Wahrnehmung von verschiedenen Objekten jeweils ein Neuron im Gehirn zuständig ist – ein Großmutterneuron, ein Tantenneuron und so weiter. Tatsächlich jedoch macht in beiden Fällen nur die Annahme Sinn, dass für komplexe Fähigkeiten eben auch komplexe Kombinationen der jeweiligen Grundeinheiten erforderlich sind – seien dies nun Gene oder Neuronen. Generell muss man also annehmen, dass jeweils bestimmte Genkomplexe oder Cluster die Bildung bestimmter Neuronencluster steuern, deren spezifische geometrische Struktur, wie wir gezeigt haben, die Realisierung bestimmter kognitiver Prozesse ermöglicht. Wir werden gleich zeigen, wie die Entstehung spezieller Cluster vorzustellen ist, die einer bestimmter Logik folgen und dadurch bestimmte kognitive Leistungen ermöglichen. Man kann natürlich jenseits aller genetischen oder milieutheoretischen Überlegungen und Ideologien ganz pragmatisch den Standpunkt einnehmen, dass es nur entscheidend ist, für alle Schüler die optimale Lernumgebung bereit zu stellen und dass es dann eine Frage der individuellen Fähigkeiten der Schüler ist, wie sie diese Lernumgebung nutzen. Für eine pädagogische und bildungspolitische Praxis ist das sicher auch gegenwärtig der einzig sinnvolle Weg und die erwähnten PISAStudien zeigen, dass hier insbesondere für sozial benachteiligte Schüler noch viel
3.6 Umwelt, Begabung und Selbstverstärkung
239
zu tun ist.102 Ansonsten muss man eben warten, bis die mit diesen Problemen beschäftigten Wissenschaften befriedigende Ergebnisse vorlegen können. So sehr wir aufgrund des Missbrauchs, der häufig mit angeblichen Ergebnissen der Intelligenzforschung getrieben wurde, eine derartige pragmatische Haltung unterstützen, wollen wir doch versuchen, zumindest einige Aspekte aufzuzeigen, wie man sich die Entstehung bestimmter kognitiver Leistungen vorstellen kann und in welche Richtung demnach entsprechende empirische Forschungen gehen könnten. Die Rede ist hier von einem Lernprinzip, das wir als „selbst verstärkendes Lernen“ bezeichnen wollen und das ansatzweise bereits angesprochen worden ist. Stellen wir uns einen in religiöser bzw. weltanschaulicher Hinsicht „normalen“ Menschen vor, der sich in der Intensität und Qualität seiner Ansichten von denen in seiner sozialen Umgebung nicht wesentlich unterscheidet. Nehmen wir weiter an, dass dieser Mensch durch irgendein Erlebnis aus seiner „Normalität“ gerissen wird und dass er anfängt, über seine bisherigen Anschauungen und Gefühle nachzudenken. Derartige Fälle sind vermutlich nicht besonders selten. Religionshistorisch sind vor allem die Fälle des Apostel Paulus sowie des Propheten Mohammed berühmt geworden: Der Eine hatte sein „Damaskus“, also auf dem Weg dorthin ein Erlebnis, das sein gesamtes Leben und Denken veränderte und ihn, wie viele Religionshistoriker meinen, zu dem wichtigsten Gründer der christlichen Kirchen machte. Der Andere hatte ebenfalls ein Erlebnis, das ihn dazu brachte, eine Zeitlang in der Einsamkeit zu verbringen und seine Grundorientierungen zu überdenken. Das Ergebnis war, wie bekannt, die Begründung einer neuen Religion, des Islam, und aus dem vergleichsweise unauffälligen Kaufmann Mohammed aus Mekka wurde der Prophet. Beide persönlichen Veränderungen hatten welthistorische Auswirkungen, mit denen wir uns freilich hier nicht weiter beschäftigen; uns interessieren vielmehr die Prozesse, die diese Veränderungen bewirkt haben. Das klassische milieutheoretische Lernparadigma, das nicht zuletzt durch den Behaviorismus auf den Begriff gebracht wurde, postuliert bekanntlich, dass die kognitive Entwicklung eines Menschen durch seine soziale Umwelt „geprägt“ wird, wobei dieser Begriff gewöhnlich präzisierungsbedürftig ist. Hier mag die Annahme genügen, dass durch „Prägung“ gemeint ist, dass sowohl die Inhalte des Lernens als auch der Erfolg der Aneignung dieser Lerninhalte eine Determinante der Umwelt sind; es ist dabei hier nicht wesentlich, ob man „Prägung“ mehr als
102
Die erwähnten Studien von Jensen und anderen IQ-Forschern hatten, wie Jensen selbst bemerkte, nicht zuletzt das Ziel, zu zeigen, dass es bei bestimmten Gruppen sinnlos ist, durch pädagogische Maßnahmen deren Lernergebnisse zu verbessern. Wenn die Angehörigen dieser Gruppen nun einmal aus genetischen Gründen weniger leistungsfähig sind, dann nützen teure Maßnahmen der kompensatorischen Erziehung nichts und man kann sich das Geld sparen.
240
3 Lernen, Künstliche Intelligenz und soziales Milieu
einen Vorgang auffasst, den der Lernende sozusagen passiv über sich ergehen lässt, oder ob man darunter einen Prozess versteht, in dem der Lernende sich die Vorgaben der Umwelt eher aktiv aneignet. Diese Unterscheidung ist zwar in der pädagogischen Praxis durchaus relevant, aber sie spielt bei den folgenden Überlegungen keine entscheidende Rolle. Eine eher genetisch orientierte Entwicklungstheorie würde demgegenüber mehr die Rolle einer einschlägigen genetischen Disposition betonen, dass also für den jeweiligen Lernerfolg entscheidend ist, welche genetischen Veranlagungen beim Lernenden vorliegen. Auch eine derartige Variante jedoch würde natürlich nicht die Bedeutung der Umwelt leugnen, dass nämlich das, was gelernt wird, und in welche Richtungen sich die kognitive Entwicklung bewegen wird, von der Umwelt vorgegeben wird. Bei beiden theoretischen Positionen also ist die Umwelt zentral. Individuelle Lernerfolge sind entsprechend der milieutheoretischen Position zufolge darauf zurück zu führen, das die soziale Umwelt mehr oder weniger günstig war; der zweiten Position zufolge liegt die Erklärung in den mehr oder weniger günstigen genetischen Grundlagen, die die Lernenden zur Verfügung hatten. Das prinzipielle Defizit beider lerntheoretischen Grundpositionen liegt darin, dass die Fälle nicht erfasst werde können, in denen die Lernenden bzw. die sich Entwickelnden gewissermaßen über ihre Umwelt hinausgehen, also Entwicklungsrichtungen für sich realisieren, die in der Umwelt gar nicht oder nur rudimentär vorgegeben waren. Dies ist besonders deutlich bei Fällen wie denen von Mohammed und Paulus. Mohammed konnte gar nicht, unabhängig von seinen individuellen Begabungen, durch seine Umgebung zum überzeugten Moslem werden, weil es eine islamische Umgebung für ihn noch gar nicht gab. Er musste diese ja überhaupt erst schaffen, so dass diese neue geistige und soziale Umwelt andere Menschen dazu bringen konnte, sich von ihr orientieren zu lassen und selbst Moslems zu werden. Im Falle von Paulus gab es zwar schon Christen aber noch nicht die christlichen Kirchen und Paulus – als Saulus – lebte gerade nicht in einer christlich geprägten Umgebung. Auch er musste durch seine theologischen und kirchenorganisatorischen Verkündigungen erst die kirchliche Umwelt schaffen, die dann die Basis für die weiteren Christianisierungen wurde. In beiden Fällen musste also eine Umwelt erst geschaffen werden, die dann andere Menschen beeinflussen konnte. Diese wirkten in dem Sinne auf den „Konstrukteur“ der Umwelt zurück, dass sie ihn in seinen Ansichten bestärkten und ihn dazu brachten, durch Beeinflussung anderer Menschen seine Umwelt zu erweitern und so fort. Man kann hier von einem „dialektischen“ Verhältnis oder auch einer positiven Rückkoppelung zwischen Einzelnen und ihrer Umwelt sprechen: Die Umwelt wird von einem oder
3.6 Umwelt, Begabung und Selbstverstärkung
241
mehreren Einzelnen in einem sozialen Sinne konstruiert, worauf diese Konstruktion weitere Menschen beeinflusst, die wiederum die Ersten bestärken etc.103 Weder die klassische Milieutheorie noch eine genetische Variante haben dem Problem, wie ein soziales Milieu durch Einzelne erst geschaffen werden muss, um dann „sozialisatorische“ Wirkungen auf Andere auszuüben, besondere Beachtung geschenkt, im Gegensatz freilich zu verschiedenen Ansätzen vor allem in der sog. Wissenssoziologie (vgl. Fußnote 101). Eine genetisch fundierte Lerntheorie müsste sich mit dem ziemlich nebulösen Hinweis begnügen, dass diese ersten Einzelnen eben so etwas wie eine genetisch angelegte besondere Fähigkeit haben, in bestimmten religiösen oder anderen weltanschaulichen Denkmustern zu operieren und damit ihre neuartigen Vorstellungen auch ohne Umwelt zu schaffen. Doch das wäre nur eine Metapher, die nichts darüber aussagt, wie man sich derartige Konstruktionsprozesse ohne erkennbare Umwelteinflüsse vorstellen könnte. Man braucht übrigens gar nicht an so dramatische Vorgänge wie bei den beiden erwähnten Fällen zu denken. Immer dann, wenn Individuen in der Kunst, der Wissenschaft oder anderen Bereichen etwas schaffen, was es vorher so noch nicht gab, muss die Frage gestellt und beantwortet werden, wie diese Individuen zu diesen neuen Erkenntnissen oder künstlerischen Ausdrucksformen kamen. Die soziale Umwelt konnte es ihnen nicht vermitteln und die Aussage, diese Individuen hätten eben eine besondere genetisch fundierte Begabung für kreative Leistungen, hat etwas offensichtlich Hilfloses. Mit Hilfe unserer Netzwerkmodelle ist es jedoch möglich, hier zumindest im Ansatz eine erste Antwort zu finden. Erinnern wir uns dazu noch einmal an den Hund von Pawlow, dessen Konditionierungsprozesse in Teil 2 dargestellt wurden. Gemäß dem mehrfach erwähnten Prinzip von Hebb verstärkten sich bei dem Hund bestimmte neuronale Verbindungen, die schließlich zu den bekannten Konditionierungsergebnissen führten. Das für das hier behandelte Thema Wichtige an diesen einfachen Lernprozessen ist die offenkundige Tatsache, dass zwar die Verstärkung der Verbindungen durch externe Umweltreize realisiert wurde, dass jedoch niemand den Hund explizit auf diese Verstärkungen hingeführt hatte. Pawlow und die späteren Behavioristen dachten noch nicht in derartigen Netzwerkmodellen und außerdem konnte man es dem Hund ja auch schlecht sagen. Die Verstärkung der Verbindungen war demnach eine eigenständige Reaktion des Hundes auf die externen Umweltsignale.
103
Der Begriff der sozialen Konstruktion hat sich auch in den Sozialwissenschaften weitgehend durchgesetzt und bedeutet die Schaffung bestimmter sozialer Einheiten durch konstruierende Menschen. Eingeführt wurde dieser Begriff unseres Wissens zuerst in dem Klassiker „Die gesellschaftliche Konstruktion der Wirklichkeit“ von Peter Berger und Thomas Luckmann (1968).
242
3 Lernen, Künstliche Intelligenz und soziales Milieu
Natürlich ist dieser Lernprozess viel zu einfach, als dass er eine unmittelbare Antwort auf unser Problem geben könnte. Auch überzeugte Behavioristen glauben gegenwärtig sicher nicht mehr, dass man beliebig komplexe Lernprozesse in dem einfachen Konditionierungsschema darstellen könnte.104 Das Grundprinzip eines sich selbst verstärkenden Prozesses jedoch kann dazu helfen, etwas Licht in unsere Fragestellung zu bringen. Stellen wir uns wie in den Beispielen von Mohammed und Paulus einen weltanschaulich-religiös normalen Menschen vor, der irgendein für ihn emotional fundamentales Erlebnis hatte, also eines mit hoher Relevanz. Dies Erlebnis fungiert als eine Art „Trigger-Impuls“ wie im klassischen Behaviorismus, also als ein Auslöser für bestimmte interne Veränderungsprozesse. Da nicht alle Menschen auf emotional aufwühlende Erlebnisse mit internen gravierenden Veränderungen reagieren, müssen wir zusätzlich annehmen, dass bei unserem Beispielsmenschen bereits eine gewisse Bereitschaft für Veränderungen vorhanden war. Das setzen wir im Folgenden voraus. Das soziale Milieu spielt jetzt nicht nur keine Rolle, sondern wird sogar ignoriert, indem unser Mensch sich entweder in die Einsamkeit zurückzieht, wie es von Mohammed berichtet wird, oder sich zumindest eine Zeitlang kognitivemotional von seiner bisher gewohnten Umwelt abschottet. Die durch das Erlebnis eingeleiteten Veränderungsprozesse können also nur dadurch in Gang gesetzt werden, dass dieser Mensch sich gegen seine externe Umwelt eine eigene „innere“ Umwelt schafft und diese gegen äußere Einflüsse nicht nur konstruiert sondern auch stabilisiert. Erst wenn die internen Konstruktionen sich stabilisiert haben, kann unser „Konvertit“ sich wieder der äußeren Umwelt zuwenden und damit beginnen, seine internen Konstruktionen nach außen wirken zu lassen. Wenn dies erfolgreich geschieht, wenn also die Ergebnisse der internen Konstruktionen intersubjektiv an Andere vermittelt werden können, dann beginnt die nächste Stufe im oben skizzierten dialektischen Prozess, dass aus einer inneren Umwelt eine äußere wird, die im Gegenzug die zuerst konstruierte innere Umwelt weiter stabilisiert und ausbaut. Als endgültiges Ergebnis entsteht dann z. B. eine neue Religion, die je
104
Bezeichnenderweise hat das behavioristische Lernschema nach wie vor große Beliebtheit im Marketingbereich aufzuweisen, wo sich in den einschlägigen Lehrbüchern häufig die Annahme findet, dass die Beeinflussung von potentiellen Kunden durch entsprechende PR-Strategien im Sinne des S-O-R Schemas stattfindet. Analog zu den klassischen Konditionierungen glaubt man auch hier, dass eine ständige Wiederholung von Werbebotschaften letztlich die Bereitschaft zum Kaufen realisiert.
3.6 Umwelt, Begabung und Selbstverstärkung
243
nach Inhalt sich mehr oder weniger rasch ausbreitet und gesellschaftlich anerkannt wird.105 Die Leistung der inneren Konstruktionen muss demnach als Prozess einer internen Selbstverstärkung angenommen werden: Etwas genauer gesagt, die zeitweilige Abkehr von der externen Umwelt setzt einen Prozess in Gange, der eine Verstärkung bestimmter kognitiver Strukturen bewirkt. Diese Verstärkung ist jedoch nicht wie beim Pawlowschen Hund eine Folge der externen und ständig wiederholten Reize, sondern wird gerade ohne Einwirkung der Umwelt von dem kognitiven System selbst produziert. Deswegen muss man hier von einer Selbstverstärkung sprechen, bei der die Umwelt nicht nur keine Rolle spielt, sondern als potentielle Störquelle sogar ausgeschaltet wird. Nur durch eine derartige Annahme lässt sich erklären, wie ohne Einfluss einer bestimmten Umwelt eine kognitive Struktur entsteht, die anschließend selbst ein soziales Milieu erschaffen kann. Wir werden unten darauf noch genauer eingehen. Wir wiesen bereits darauf hin, dass man nicht nur an derart dramatische Beispiele zu denken braucht wie es die Entstehung neuer Weltreligionen ist. Das Grundmuster, nämlich die zumindest partielle Abkapselung von der äußeren Umwelt, um dadurch die Bausteine einer neuen kognitiven Konstruktion zu schaffen, die anschließende Selbstverstärkung bestimmter kognitiver Strukturen und die dann folgende „Verobjektivierung“ dieser neuen Konstruktionen durch Vermittlung an Andere bis hin zur allgemeinen gesellschaftlichen Anerkennung, findet sich bei praktisch allen kreativen Prozessen und dürfte Jedem bekannt sein, der sich mit neuen Problemen in der Wissenschaft und anderen Bereichen beschäftigen musste. Natürlich geschieht dies nicht so radikal wie in den religiösen Beispielen, aber im Prinzip ist es gar nicht anders möglich. Die Witze von zerstreuten Professoren, die aufgrund ihrer intensiven Beschäftigungen mit schwierigen Problemen mit Alltagsproblemen nicht zu Recht kamen, sind nur ein Beleg für dies Phänomen. Es ist von daher eigentlich nicht erstaunlich, dass derartige Menschen zuweilen für potentielle Autisten gehalten werden, da sie in derartigen Phasen zum Teil extrem unkommunikativ sind. Dies wurde sogar Einstein zugeschrieben, an dessen sozialer Kompetenz eigentlich niemand zweifeln kann, der Einsteins Biographie auch nur ansatzweise kennt. Bei allen diesen Beispielen, in denen etwas Neues entsteht, muss man eine durch Abschottung von der externen Umwelt erst möglich gemachte Selbstverstärkung annehmen, da die Umwelt hier keine Hilfestellung geben kann. Dies gilt auch beispielsweise für die in 3.4 dargestellten geometrischen
105
Berger und Luckmann (loc. cit.) beschreiben dies mit den Begriffen der subjektiven und der objektiven Realität, meinen jedoch ziemlich genau diese Dualität von innerer und äußerer Umwelt.
244
3 Lernen, Künstliche Intelligenz und soziales Milieu
Clusterungen kognitiver Strukturen, bei denen häufig Selbstverstärkungen postuliert werden können. Auch darauf werden wir noch detaillierter eingehen. Jedoch nicht nur kreative Prozesse in den genannten beispielhaften Bereichen müssen auf diese Weise verstanden werden. Wenn ein Kind beispielsweise seine Wahrnehmungen verschiedener Tiere in eine semantische Ordnung bringt, dann konstruiert es so etwas wie ein informelles semantisches Netz; wir haben auf dies Beispiel schon einmal in Teil 2 hingewiesen. Da die Umwelt keine direkte Rückmeldung darüber gibt, ob diese Konstruktionsprozesse richtig oder falsch sind, handelt es sich um einen Prozess des selbstorganisierten Lernens: Das Kind erkennt, dass Katzen mehr Ähnlichkeiten zu Hunden haben als zu Pferden, diese mehr Ähnlichkeit zu Katzen haben als zu Fischen und so fort. Auch wenn das Kind im Fall von Delphinen falsche Zuordnungen vornimmt, indem es diese als Fische charakterisiert, hat es nach seinen Kriterien eine sinnvolle Ordnung geschaffen, da Delphine nun einmal sehr viele äußere Merkmale mit Fischen gemeinsam haben und nur wenige mit landlebenden Säugetieren. Da dieser Prozess für das Kind eine eigenständige Leistung darstellt, der durchaus als kreativ bezeichnet werden kann, und da diese Fähigkeit zur Kategorisierung äußerer Wahrnehmungen, wie bemerkt, fundamental für das menschliche Lernen und Denken ist (vgl. z. B. Lakoff 1987), soll der Prozess der Selbstverstärkung für diese Prozesse anhand eines Netzwerkmodells etwas detaillierter und formal dargestellt werden. Nehmen wir wieder ein Kind, das verschiedene Hunde sieht, z. B. auf einer Wiese, auf der Hunde laufen dürfen. In der Begrifflichkeit von Piaget akkommodiert das Kind nach den ersten Wahrnehmungen von Hunden, indem es ein Schema „Hund“ aufbaut. Nimmt das Kind weitere Hunde wahr, die von den ersten Hunden verschieden sind oder auch gleich aussehen, dann „assimiliert“ das Kind die neuen Wahrnehmungen unter dem bereits konstruierten Schema. Es ist dann, wie in Kapitel 3.3 angesprochen, eine Frage der Allgemeinheit des Schemas, ob sehr fremdartig aussehende Hunde noch in das Hundeschema assimiliert werden oder ob das Kind durch erneute Akkommodation ein zusätzliches Schema aufbaut. So weit, so klassisch; in Teil 2 haben wir an einigen Beispielen gezeigt, wie sich dieser Prozess in einem Netzwerkmodell – dem SEN – formal darstellen und verstehen lässt. Wenn das Kind die Wahrnehmungen verschiedener Hunde in relativ kurzer Zeit erhält, dann ordnet es diese Wahrnehmungen in einem Schema, das wir als „semantische Matrix“ bezeichnet haben. Technisch gesprochen waren diese Matrizen binär codiert, d. h., sie enthielten nur die Werte 0 und 1. Inhaltlich heißt das, dass eine Eigenschaft einem Objekt entweder zukommt oder nicht. Das ist natürlich eine sehr grobe Vereinfachung, da Eigenschaften auch „mehr oder weniger“ auf ein Objekt zutreffen können. Die Eigenschaft „ist groß“ trifft auf einen Bernhardi-
3.6 Umwelt, Begabung und Selbstverstärkung
245
ner offensichtlich sehr stark zu, auf einen Schäferhund auch noch, aber weniger als auf den Bernhardiner, auf einen Collie noch weniger, aber durchaus noch signifikant, und auf einen Dackel gar nicht mehr. Um diesem „mehr oder weniger“ formal Rechnung zu tragen, muss die Matrix reell codiert werden, also z. B. durch Zahlenwerte zwischen 0 und 1. In einer entsprechenden Matrix würde dann hinsichtlich des Attributs „Größe“ für den Bernhardiner den Wert 0.9 oder sogar 1 stehen, für den Schäferhund etwa den Wert 0.8, für den Dackel und den Mops ca. 0.2 und für den Pudel 0.3. Entsprechend wäre mit anderen Attributen zu verfahren. Hier ist noch ein zusätzlicher Gesichtspunkt zu beachten. In der klassischen Kognitionstheorie ging man lange Zeit davon aus, dass Objekte wie z. B. die verschiedenen Hunde gewissermaßen gleichwertig unter der Gesamtkategorie „Hund“ zusammengefasst werden. Ein Dackel ist genauso viel „Hund“ wie ein Schäferhund oder ein Pudel. Die amerikanische Kognitionswissenschaftlerin Eleanor Rosch (1973) zeigte jedoch, wie in Teil 2 erwähnt wurde, dass diese Vorstellung zu einfach ist. Tatsächlich ordnen Menschen ihre Wahrnehmungen innerhalb einer Kategorie wie „Hund“ um sog. Prototypen herum: Ein Objekt gehört um so mehr zu einer Kategorie, je ähnlicher es dem entsprechenden Prototyp ist. Ein Beispiel für einen Prototyp wäre für die Kategorie „Hund“ zumindest in Deutschland wahrscheinlich ein Schäferhund; in China vielleicht ein Pekinese. Ein wahrgenommenes Objekt ist entsprechend in Deutschland um so mehr ein Hund, je ähnlicher es einem Schäferhund ist. Ein Collie oder ein Huskie (ein Alaska-Schlittenhund) ist also mehr „hundeartig“ als ein Pudel oder ein Mops. Derartige prototypische Ordnungen sind, wie in unserem Beispiel, offensichtlich häufig kulturabhängig, aber sie definieren die Struktur unserer Wahrnehmungen. Eine neue Wahrnehmung wird also in die bereits vorhandene Ordnungsstruktur – die Schemata von Piaget – nicht nur durch ihre Zugehörigkeit zu einer bereits vorhandenen Kategorie assimiliert, sondern zusätzlich durch ihre Ähnlichkeit bzw. Unähnlichkeit zu dem Prototypen, der die Kategorie gewissermaßen exemplarisch und damit konkret repräsentiert (vgl. auch Gardner loc. cit.).106
106
Es sei hier nur noch einmal daran erinnert, dass der Begriff „Prototyp“ in der Informatik und generell in den Ingenieurswissenschaften völlig anders verwendet wird, nämlich als Bezeichnung eines technischen Produkts – z. B. ein Programm –, das zwar grundsätzlich funktionsfähig ist, aber noch nicht praktisch eingesetzt werden kann. „Prototyp“ in den Kognitionswissenschaften bezeichnet dagegen, wie gezeigt, einen repräsentativen Fall für eine allgemeine Kategorie. Wegen dieser Ambivalenz des Begriffs „Prototyp“ verwenden wir für das unten beschriebene Netzwerk den Begriff „Referenztyp“, falls es nicht um kognitive Modelle geht.
246
3 Lernen, Künstliche Intelligenz und soziales Milieu
Entsprechendes gilt für das Lernen, soweit es nicht nur Assimilation ist sondern Akkommodation, also in der hier gebrauchten Terminologie die Differenzierung vorhandener Kategorien und/oder die Bildung neuer Kategorien. Eine neue Kategorie wird demnach gewöhnlich nicht durch eine bewusste Zusammenfassung der Attribute gebildet, die die Kategorie definieren, woraufhin dann neue Wahrnehmungen dieser Kategorie zugeordnet werden. Tatsächlich muss man sich den Prozess der Akkommodation so vorstellen, dass bei neuen Wahrnehmungen ein Prototyp selektiert wird – wahrscheinlich gemäß der Häufigkeit der jeweiligen Wahrnehmungen – und anschließend werden die anderen Wahrnehmungen – z. B. verschiedene Katzen – danach geordnet, wie ähnlich sie der prototypischen Katze sind. Die Definition der Kategorie „Katze“ über die definierenden Attribute ist ein nachträglicher Prozess, der die praktisch automatisch durchgeführten Einordnungen bewusst macht und damit auch kommunikativ mitteilbar. Man kann übrigens diese Form der Akkommodation, nämlich die Bildung neuer Kategorien über die Einführung von (sinnlich wahrgenommenen) Prototypen durchaus als eine besonders wichtige Form des exemplarischen Lernens betrachten: Ausgegangen wird von einem Einzelfall, der als Bezugspunkt für die Einordnung weiterer wahrgenommener Einzelfällen dient. Die dadurch entstehende Ordnung, die man sich visuell als die Bildung von Clustern vorstellen kann, führt letztlich zur Bildung einer allgemeinen semantischen Struktur, nämlich der Einführung einer Kategorie, die anschließend die Assimilation weiterer Wahrnehmungen und Erfahrungen erlaubt. Dies exemplarisch durchgeführte Lernverfahren zeigt auch, dass eine semantische Kategorie wie „Hund“ nicht einfach eine ungeordnete Menge von Einzelobjekten erfasst, sondern selbst eine bestimmte innere Struktur aufweist. Man kann deswegen hier durchaus von einer „semantischen Geometrie“ sprechen, die ihren Bezugspunkt im jeweiligen Prototyp hat – gewissermaßen der Nullpunkt im semantischen Koordinatensystem. Auf die in Teil 2 bereits erwähnte auffallende Ähnlichkeit der Prototypentheorie mit der Lerntheorie von Bandura, nämlich dem Lernen am Modell, sei hier nur noch einmal verwiesen, auch wenn anscheinend weder Rosch etwas von Bandura noch Bandura etwas von Rosch wussten. In allen drei Fällen geht es darum, dass Menschen bestimmte kognitive Prozesse um konkrete exemplarische Fälle herum ordnen bzw. sich an diesen orientieren. Wir wiesen oben darauf hin, dass die Bildung derartiger semantischer Ordnungsstrukturen wie etwa die Konstituierung semantischer Netze als Prozess eines
3.6 Umwelt, Begabung und Selbstverstärkung
247
selbstverstärkenden Lernens aufgefasst werden kann bzw. sogar muss.107 Die Umwelt präsentiert natürlich die Wahrnehmungen und determiniert zuweilen auch, welche Objekte als Prototypen verwandt werden wie etwa durch die Häufigkeit einzelner Wahrnehmungen. Der interne Prozess des Ordnungsaufbaus als Bildung semantischer Cluster um einen Prototyp ist jedoch ein fundamentales Beispiel eines „selbstorganisierten“ Prozesses, nämlich eines Prozesses, der nur gemäß einer internen Logik erfolgt und dessen Logik nicht von der Umwelt determiniert wird. Insbesondere gibt es während des selbstorganisierten Lernens keine direkte Rückmeldung von der Umwelt; dies erfolgt erst dann, wenn die semantische Ordnungsstruktur abgeschlossen ist. Wie nun eine derartige Form der Selbstorganisation durch Selbstverstärkung in einem Modell formal rekonstruiert werden kann, zeigen wir im Folgenden; das Modell ist ein SEN (Self Enforcing Network), das bereits in Teil 2 bei verschiedenen Beispielen eine Rolle spielte. Das inhaltliche Fundament des Modells, gewissermaßen seine Wissensbasis, bildet generell eine semantische Matrix. Diese Matrix entspricht einem formalen Modell der gewissermaßen vorstrukturierten Wahrnehmungen der Art „dies ist ein Hund, nämlich ein Bernhardiner, und er ist groß“. Die Transformation der Inhalte dieser Matrix und damit der selbst verstärkende Aufbau einer expliziten semantischen Ordnung in einem entsprechenden Netz geschieht nun durch folgende Lernregel, die aus der semantischen Matrix ein selbstorganisiert lernendes neuronales Netz macht. Dabei werden die numerischen Werte in der semantischen Matrix in Gewichtswerte der Gewichtsmatrix des Netzwerkes übersetzt: sij sei der Wert in der semantischen Matrix, der dem Objekt j – also einem spezifischen Hund – ein Attribut i mit bestimmten Werten zuordnet. Dieser Wert ist entweder 0 oder eine Zahl im Intervall zwischen 0 und 1. Entsprechend ist wij der Gewichtswert, in den sij transformiert werden soll. Die Grundregel für den eigentlichen Lernprozess ist dann ganz einfach im ersten Lernschritt, also für die Startwerte
ൌͲǡfallsൌͲund ൌͲǤͳ sonst
107
Streng genommen sind Begriffe wie „semantische Netze“ oder „semantische Geometrie“ natürlich bereits formale Rekonstruktionen der Ordnungsstrukturen, die im Gehirn und dem Bewusstsein gebildet worden sind. Der Einfachheit halber sprechen wir auch dann von semantischen Netzen oder auch semantischen Clustern, wenn wir die realen Strukturen meinen. Die Frage der Äquivalenz unserer Modelle werden wir unten noch behandeln.
248
3 Lernen, Künstliche Intelligenz und soziales Milieu
In dem Fall, dass eine binär codierte semantische Matrix ausreicht, wird die Formel zu
ൌͲǡfalls ൌͲund ൌͲǤͳ Falls weitere Lernschritte erforderlich sind, geschieht dies für den Fall von sij z 0 folgendermaßen:
ሺͳሻൌሺሻ
ǡ wobei wij (t+1) der veränderte Gewichtswert zum Zeitpunkt t+1 ist, wij (t) der Wert zum Zeitpunkt t und c als eine Lernrate wie K beim überwachten und bestärkenden Lernen angesehen werden kann. Gewöhnlich reicht es, wenn c = 0.1 gesetzt wird. Dieser Prozess bewirkt eine – lineare – Installierung und Modifikation der Gewichtsmatrix eines speziellen neuronalen Netzes. Da die Werte in der semantischen Matrix nur für die Zuordnung zutreffender Kategorien zu den entsprechenden Objekten ungleich Null sind und die Werte in der semantischen Matrix gleich Null auch so in die Gewichtsmatrix transformiert werden, hat das neuronale Netz eine relativ einfache Topologie: Die Struktur, die in der semantischen Matrix enthalten ist, wird sozusagen isomorph, also strukturerhaltend, in die Gewichtsmatrix transformiert und bleibt auch durch weitere Lernprozesse erhalten.108 Die Dynamik des Netzes, also die Verarbeitung von Nachrichten in Form von Inputwerten, wird durch verschiedene Versionen einer linearen Aktivierungsfunktion gesteuert. „Linear“ bedeutet hier einfach, dass die Aktivierungswerte der sendenden Neuronen mit den entsprechenden Gewichtswerten multipliziert und addiert werden; der Input des empfangenden Neurons besteht also im Wesentlichen aus der gewichteten Summe der gesendeten Aktivierungswerte.109 Das Netz selbst hat nur eine Schicht, bei der bestimmte Neuronen als Inputneuronen fungieren und alle Neuronen gleichzeitig die Outputschicht darstellen.
108
„Isomorph“ ist eigentlich ein Begriff aus der Algebra, während wir es hier mit topologischen Strukturen zu tun haben. Mathematisch versierte Leser mögen uns diese kleine Ungenauigkeit verzeihen. 109 „Verschiedene Versionen“ heißt hier, dass wir die obige Grundform linearer Aktivierungsfunktionen aus bestimmten technischen Gründen unterschiedlich variiert haben, z. B. durch Einführung logarithmischer Faktoren. An diesen mehr technischen Einzelheiten interessierte Leser seien verwiesen auf Klüver und Klüver 2011b.
3.6 Umwelt, Begabung und Selbstverstärkung
249
Wenn das Netz sich stabilisiert, also einen Attraktor erreicht, wird das Ergebnis in einer Weise visualisiert, die bereits in Teil 2 dargestellt wurde. Zuvor muss jedoch beschrieben werden, welche Probleme durch dies Netz bearbeitet werden können; wir nennen dies von uns entwickelte Netz übrigens deswegen ein „Self Enforcing Network“, kurz SEN, da es offenbar selbstorganisiertes Lernen durch einfache Selbstverstärkungen realisiert. Gemäß der oben skizzierten Prototypentheorie werden neue Wahrnehmungen dadurch eingeordnet bzw. kategorisiert, dass sie in Bezug auf ihre Ähnlichkeit mit dem Prototypen bestimmt werden, der die entsprechende Kategorie gewissermaßen definiert. In unserem Hundebeispiel wäre das der Einfachheit halber ein Schäferhund. Dieser Prototyp ist selbst natürlich durch bestimmte Attribute charakterisiert; gemäß der semantischen Matrix wären das „groß“, „dichtes Fell“ und „gefährlich“. Die Einordnung bzw. Assimilation von weiteren Objekten wie „Dackel“ oder „Pudel“ wird dann entsprechend danach bestimmt, wie viele Attribute diese neuen Objekte mit dem Prototyp gemeinsam haben und in wie vielen sich die neuen Objekte vom Prototyp unterscheiden. Der Visualisierungsalgorithmus eines SEN setzt nun die semantische Ähnlichkeit zwischen verschiedenen Objekten bzw. das Maß der Ähnlichkeit zwischen einem vorgegebenen Prototyp und neuen Objekten in geometrische Distanzbestimmungen um: Je ähnlicher ein neues Objekt dem Prototyp ist, desto näher ist das Objekt dem Prototyp in der Visualisierungsebene und umgekehrt. Bei derartigen Einordnungen platziert der Visualisierungsalgorithmus den Prototyp in das Zentrum der Visualisierungsfläche und ordnet entsprechend dieser Grundlogik die anderen Objekte dem Prototyp geometrisch zu.110 Ein Benutzer des SEN kann verfolgen, wie die anderen Objekte vom Zentrum förmlich „angezogen“ werden; in diesem Fall zieht gewissermaßen der Schäferhund die anderen Objekte an. Bei diesem Problem ging es darum, wie neue Wahrnehmungen dadurch assimiliert werden, dass sie in (semantische) Relation zu einem Prototyp gebracht wurden. Dabei wurde vorausgesetzt, dass die Bestimmung des entsprechenden Prototyps bereits geschehen ist, dass also beispielsweise ein Dackel natürlich der durch „Schäferhund“ prototypisch definierten Kategorie zuzuordnen ist und nicht etwa der Kategorie „Katze“. Das muss jedoch durchaus nicht immer so sein und es kann durchaus das Problem auftreten, dass bei einer neuen Wahrnehmung zuerst festgelegt werden muss, welcher Prototyp überhaupt in Frage kommt. Ein entsprechender Einordnungsprozess folgt prinzipiell der gleichen Logik und soll wieder an einem zoologischen Beispiel kurz illustriert werden:
110
Für technische Details des Visualisierungsteils eines SEN sei wieder verwiesen auf Klüver und Klüver 2011a und 2011b.
250
3 Lernen, Künstliche Intelligenz und soziales Milieu
Nehmen wir wieder die Wahrnehmung eines Dackels, der vorher nie gesehen wurde. Da ein Dackel mit einem Schäferhund auf einen ersten Blick nicht viele Gemeinsamkeiten hat, was bei anderen Züchtungen wie etwa einem Chihuahua noch deutlicher ist, muss der Lernende erst einmal festlegen, in welche Kategorie dies neuartige Tier überhaupt gehört. Da die verschiedenen Kategorien durch die jeweiligen Prototypen charakterisiert sind, muss also die Ähnlichkeit zu den vorgegebenen Prototypen bestimmt werden. Dies geschieht durch ein SEN, das aus einer semantischen Matrix gebildet wurde, die als Einheiten die Prototypen sowie deren bestimmende Attribute haben. Eine entsprechende Matrix hätte dann beispielsweise folgende Einheiten und Werte: Rpferd
Shund
Hkatze
wMaus
groß
1
0.8
0.3
0.1
lFell
0.3
0.2
0.5
0.4
dunkel
0.5
0.6
0.3
0.1
niedlich
0.2
0.1
0.6
0.9
Rpferd bedeutet „Reitpferd“, Shund wieder „Schäferhund“, Hkatze ist „Hauskatze“ und wMaus ist „weiße Maus“. Diese Prototypen entsprechen der Annahme, dass derartige Tiere wahrgenommen wurden und dann die Prototypen für die Kategorien „Pferd“, „Hund“, „Katze“ und „Maus“ bilden. Die Werte für die einzelnen Attribute sind natürlich ziemlich beliebig, da es hier nur auf die Einordnung durch ein bestimmtes Kind ankommt. Andere Kinder und andere Tiere, die als Prototypen gewählt wurden, können andere Matrixwerte zur Folge haben. Die semantische Matrix der Prototypen wird dann nach der beschriebenen Logik in ein neuronales Netz transformiert, das wir wohl nicht mehr darstellen müssen. Die Einordnung der Wahrnehmung „Dackel“ durch das SEN geschieht nun dadurch, dass die Attribute von „Dackel“ gemäß der ersten semantischen Matrix in diesem SEN aktiviert werden (genauer gesagt natürlich die Neuronen, die die Attribute repräsentieren). Der Visualisierungsalgorithmus stellt das Resultat der Verarbeitungsprozesse so dar, dass „Dackel“ im Zentrum des Visualisierungsgitters platziert wird; die Prototypen werden dann vom Zentrum wieder angezogen, so dass die Prototypen „Dackel“ am nächsten sind, die „Dackel“ am ähnlichsten sind und umgekehrt. Da wir dies bereits in Teil 2 dargestellt haben, ersparen wir uns hier eine Visualisierung. Wenn nun die Kategorie anhand des Vergleichs mit den verschiedenen Prototypen bestimmt ist, kann man natürlich in einem zweiten Modellierungsschritt jetzt innerhalb der festgelegten Kategorie die Wahrnehmung „Dackel“ mit anderen bereits eingeordneten Wahrnehmungen verglichen werden. Das entspricht dem ers-
3.6 Umwelt, Begabung und Selbstverstärkung
251
ten Modellierungsschritt, bei dem der Prototyp im Zentrum steht. Man kann dann das neue Objekt „Dackel“ mit anderen Hunderassen danach vergleichen, welche Rasse am meisten der prototypischen Bestimmung der Kategorie „Hund“ entspricht. Entsprechend kann man auch „Dackel“ als neuen Prototyp nehmen und die anderen „Hundeobjekte“ mit „Dackel“ vergleichen. Das ist jeweils „nur“ eine Frage, welcher Lernprozess bezüglich derartiger Kategorien und Prototypen modelliert werden soll. Das Ergebnis einer derartigen Einordnung zeigt Abb. 3-10:
Abbildung 3-10: Dackel als Prototyp
Man kann durch ein SEN übrigens auch Clusterungen von Objekten gemäß ihren Attributsähnlichkeiten durchführen lassen, die unabhängig von bestimmten Prototypen durchgeführt werden. Da unser Thema jedoch das selbstorganisierte Lernen durch Selbstverstärkung gemäß der Orientierung an Prototypen ist, was zweifellos ein wesentliches Paradigma des Lernens von und durch Kategorienbildung ist, gehen wir hier nicht weiter darauf ein und erwähnen es nur aus Gründen der Vollständigkeit. Die Modellierung der hier thematisierten Lernprozesse durch ein SEN basiert also auf a) der Konstruktion einer entsprechenden semantischen Matrix, b) der Transformation der Matrix in ein spezielles einschichtiges Netz (der erste Schritt des Lernprozesses), c) dem Starten einer Netzwerkdynamik durch die jeweilige Aktivierungsfunktion, d) eventueller weiterer Lernschritte zur Selbstverstärkung der Netzverbindungen und schließlich e) der Visualisierung des Resultats gemäß der Fragestellung. Anhand des Beispiels konnten wir hoffentlich deutlich machen, dass
252
3 Lernen, Künstliche Intelligenz und soziales Milieu
der vielleicht komplexeste Lernprozess, nämlich selbstorganisiertes Lernen durch Selbstverstärkung einschließlich der Orientierung an Prototypen, prinzipiell und so genau wie gewünscht modelliert werden kann.111 Nehmen wir nun zum Abschluss dieser mehr modellierungstechnischen Darstellungen noch einmal das, wie eingangs bemerkt, wohl ewige Thema von Begabung versus Umwelt auf. Eine milieutheoretische Position muss immer voraussetzen, dass eine bestimmte soziokulturelle Umwelt, abgesehen von der Bereitstellung spezifischer Lerninhalte, so etwas wie eine „Triggerfunktion“ hat, dass sie also Lernprozesse anregen oder auch hemmen kann („Trigger“ bezieht sich natürlich nur auf Anregungen). Bereits Piaget hat untersucht, inwiefern bestimmte Lernumgebungen die von ihm postulierten Prozesse des Erreichens der einzelnen Entwicklungsstufen (vgl. Teil 2) beschleunigen oder auch verlangsamen können; großstädtische Milieus in westlich orientierten Industrieländern können im Vergleich zu ländlichen Milieus in agrarisch strukturierten Gesellschaften die Entwicklungsprozesse wesentlich schneller gestalten. Wir werden im nächsten Kapitel dies Problem anhand eines komplexeren Modells behandeln. Die Frage jedoch, was denn nun genau durch günstige Lernumgebungen beschleunigt oder durch ungünstige verlangsamt wird, wird durch diese und andere empirischen Befunde natürlich nicht beantwortet. Die zusätzliche Tatsache, dass verschiedene Lerner auf eine etwa gleiche Umgebung mit verschieden schnellen Lernprozessen reagieren, kann ebenfalls entweder gar nicht oder nur durch den vagen Verweis auf unterschiedlich günstige genetische Dispositionen beantwortet werden. Wir können dies Problem hier selbstverständlich auch nicht endgültig beantworten. Aufgrund der bisher angestellten Überlegungen jedoch können wir zumindest eine plausible Hypothese darüber aufstellen, was denn bei verschiedenen Lernprozessen angeregt bzw. stimuliert wird und worin sich Menschen unterscheiden, die mehr oder weniger kreativ auf neuartige Anforderungen reagieren. Es sei hier nur angemerkt, dass die Leistungen von Kindern, durch selbstorganisiertes Lernen semantische Ordnungen herzustellen, als durchaus kreative Leistungen betrachtet werden müssen.112
111
Dadurch, dass ein SEN so allgemeine Lernprozesse modellieren kann, ist es auch möglich, wie bemerkt, ein SEN für alle denkbaren Klassifikations- und sogar Prognoseprobleme einzusetzen (Klüver und Klüver 2011b). 112 Der erwähnte Sprachpsychologe Pinker (loc. cit.) bezeichnet die grammatischen Lernleistungen von Kindern als Ausdruck der Tatsache, dass Kinder „sprachliche Genies“ sind. Dies gilt offensichtlich auch für die semantische Dimension der Sprache und des Spracherwerbs.
3.6 Umwelt, Begabung und Selbstverstärkung
253
Wahrscheinlich beruhen die Unterschiede in Lernleistungen und der kreativen Verarbeitung von Umweltinformationen in unterschiedlichen Fähigkeiten zur Selbstorganisation durch Selbstverstärkung. Mit anderen Worten: Lernende, die besonders rasch und leistungsstark auf Probleme und generell Lernanforderungen reagieren, haben nicht notwendig besondere Genkombinationen, von denen man auch gegenwärtig noch nicht einmal ansatzweise weiß, wie diese aussehen könnten. Sie werden auch nicht notwendig von einer besonders günstigen Umwelt besser angeregt als andere Lernende, die in einer zumindest ähnlichen Umwelt deutlich geringere kognitive Potentiale aufweisen. Tatsächlich haben diese besonders fähigen Lerner die spezifische Kompetenz, rasch und effizient bestimmte kognitive Strukturen durch Selbstverstärkung auszubilden – analog zu den erwähnten Religionsstiftern, die durch Selbstverstärkung ihre „innere Ordnung“ bildeten, wozu andere Menschen in der gleichen sozialen Umwelt nicht in der Lage waren. Die besondere „Begabung“ leistungsfähiger Menschen wäre demnach in der Fähigkeit zur Selbstverstärkung zu suchen und damit weder in den Genen noch in einer besonders günstigen Umwelt. Die in 3.4 behandelte Clustergeometrie ist für diese Prozesse der kognitiven Selbstverstärkung ein illustratives Beispiel. Wir hatten gezeigt, dass die Art der Verarbeitung von Nachrichten wesentlich durch bestimmte geometrische Strukturierungen der kognitiven Netzwerke abhängig ist und insbesondere, dass relativ dicht verbundene Netzwerke es erlauben, Nachrichten mit einem höheren Bedeutungsgrad zu verarbeiten und damit auch Synthesebildungen (im Sinne der Bloomschen Lernzieltaxonomie) zu realisieren. Die Anzahl und Stärke der kognitiven Netzverbindungen entscheidet darüber, ob eine Nachricht einfach hingenommen wird, d. h. nur mit einer isolierten Bedeutung versehen wird, oder ob die Nachricht dazu führt, dass durchaus unterschiedliche Aspekte zusammen erkannt und verarbeitet werden. Als Beispiel für derartige Fähigkeiten zur Synthese hatten wir Einstein aufgeführt. Es liegt nun sehr nahe, dass Individuen wie Einstein über eine hohe Fähigkeit zur Selbstverstärkung spezifischer kognitiver Strukturen haben, die es diesen Menschen erlauben, Zusammenhänge zu erkennen, wo andere Menschen mit dem prinzipiell gleichen Wissen nur unzusammenhängende Einzelheiten sehen können – diese sehen gewissermaßen nur Bäume und nicht den Wald. Mathematisch drückt sich in unserem SEN-Modell die Fähigkeit zur Selbstverstärkung in der Lernrate c aus: Ist diese Lernrate nur sehr gering oder praktisch gar nicht vorhanden, bleiben die Selbstverstärkungsprozesse aus und die Fähigkeit zur Synthese bzw. schon die Fähigkeit zum Aufbau systematisch strukturierter Ordnungen bleibt rudimentär. Da Menschen diese Fähigkeiten offenbar nur in sehr unterschiedlichem Maße haben, lässt sich schließen, dass die zu Grunde liegende Fähigkeit zur Selbstverstärkung ebenfalls äußerst unterschiedlich vorhanden ist. Dies würde auch beispielsweise erklären, warum es um 1900 viele Physikstudenten aus
254
3 Lernen, Künstliche Intelligenz und soziales Milieu
lerngünstigem bildungsbürgerlichem Milieu gab aber nur einen Einstein: Nur bei ihm war die Fähigkeit zur Selbstverstärkung hinreichend stark, dass ihm der Aufbau seiner speziellen kognitiven Struktur gelang.113 Nun lässt sich natürlich einwenden, dass wir mit diesen Überlegungen und Modellen das Problem Umwelt versus Begabung nur einfach verschoben haben. Statt günstige Genkombinationen oder besonders günstige Umweltfaktoren zu Grunde zu legen, postulieren wir die Fähigkeit zur Selbstverstärkung und sehen darin den Schlüssel für die Entwicklung besonderer Fähigkeiten. Wir können jedoch auch nicht angeben, wie diese Fähigkeit im Gehirn zu Stande kommt und wodurch sie sich mehr oder weniger stark entfalten kann. Dieser Einwand ist gewiss stichhaltig, sofern wir mit unseren Modellen beanspruchen würden, das Problem grundsätzlich gelöst zu haben. Das beanspruchen wir allerdings nicht und können es auch schon deswegen nicht, da wir letztlich in der Neurobiologie nur Laien sind. Wir glauben jedoch, dass die permanente Diskussion über dies Problem mit unseren Modellen etwas präzisiert werden kann und dass wir genauer angeben können, wie man besondere Fähigkeiten modelltheoretisch erklären kann. Natürlich wäre es wünschenswert, beispielsweise durch Entdeckung bestimmter hormoneller Prozesse die Entstehung und Entfaltung der Fähigkeit zu bestimmten Selbstverstärkungen empirisch darstellen zu können. So lange dies jedoch nicht möglich ist, ist die Konstruktion eines mathematischen Modells zumindest ein Schritt in die Richtung, Menschen in ihren kognitiven Leistungen besser zu verstehen. Um die Betrachtungen über den Nutzen von KIModellen aus 3, 1 noch einmal aufzunehmen: Wenn eine KI das in Bezug auf den Aufbau semantischer Ordnungen leistet, was wir bei Menschen als wichtigen Teil der kognitiven Ontogenese ansehen, dann ist dies zumindest ein Indiz dafür, dass wir damit auch entsprechende Prozesse beim Menschen ansatzweise verstehen. Damit stellt sich allerdings die Frage nach der strukturellen Äquivalenz unseres Modells, also die Modellierung semantischer Ordnungsprozesse durch ein SEN. Die funktionale Äquivalenz können wir als belegt betrachten, da ein SEN beliebig
113
Natürlich reicht es nicht, nur den Wald zu erkennen, um in diesem Bild zu bleiben. Sieht man nicht auch gleichzeitig die Bäume, erkennt man vielleicht einen Gesamtzusammenhang – den Wald –, aber man kann nicht angeben, woraus der Gesamtzusammenhang besteht und was seine innere Struktur ist. Die topologische Dichte eines Netzwerks muss auch differenzierte Wahrnehmungen ermöglichen; dies kann man sich, wie schon mehrfach von uns dargestellt, dadurch erklären, dass es mindestens zwei unterschiedlich dichte Netzwerke geben muss, die sowohl den Wald als Wald als auch die Bäume erkennen können.
3.6 Umwelt, Begabung und Selbstverstärkung
255
komplexe semantische Strukturen generieren kann. Inwiefern jedoch mit einem SEN gezeigt werden kann, wie Menschen diese Prozesse durchführen, ist bislang offen geblieben. Kehren wir noch einmal zu Hebb und dem Pawlowschen Hund zurück. Hebb hatte sein berühmtes Prinzip durchaus in Orientierung am klassischen Behaviorismus aufgestellt, indem er die Verstärkung bestimmter Verbindungen von einer gewissen Häufigkeit der entsprechenden Umweltsignale abhängig machte. Am Modell des Pawlowschen Hundes hatten wir dies demonstriert. Damit kann man die klassische Konditionierung noch nicht als ein Beispiel für Selbstverstärkung auffassen, da die Verstärkungsprozesse von der Umwelt abhängig sind. Allerdings ist dies Verstärkungsprinzip, wie wir an SEN gezeigt haben, die logische Grundlage für die Leistungen, die ein SEN erbringen kann. Wir haben dem empirisch gut gesicherten Prinzip von Hebb „lediglich“ den Aspekt der Selbstverstärkung hinzu gefügt, da die von uns betrachteten Beispiele beim besten Willen nicht auf die Häufigkeit bestimmter Umweltsignale zurück zu führen sind. Insofern haben wir das Prinzip von Hebb zwar verallgemeinert, da wir Verstärkungsprozesse auch dort postulieren, wo es die Umwelt im Sinne der klassischen Konditionierung nicht gibt. Diese Verallgemeinerung ist jedoch konsistent mit der ursprünglichen engen Formulierung von Hebb und nur sie erlaubt es, die von uns analysierten Lern- und Entwicklungsprozesse auf der Basis der empirisch gesicherten neurobiologischen Erkenntnisse zu modellieren und damit zu erklären. Insofern kann unser Modell zumindest in dem abgeschwächten Sinne strukturelle Äquivalenz beanspruchen, dass es den empirischen Erkenntnissen Rechnung trägt und prinzipiell sich auch daran in seinem logischen Aufbau orientiert. Dass das Modell über die empirischen Befunde hinausgeht, liegt ganz einfach daran, dass es wesentlich komplexere Prozesse modellieren soll, als Hebb, Pawlow und die mit diesem Prinzip beschäftigten Neurowissenschaftler jemals thematisiert haben (vgl. z. B. Kandel 2006). Theoretische Modelle müssen mit einer gewissen Zwangsläufigkeit empirische Befunde transzendieren, da die Modelle allgemeine Regularitäten ausdrücken sollen und nicht nur die Besonderheiten der empirisch erhobenen jeweiligen Fälle. Allerdings ist mit dieser methodischen Orientierung noch nichts darüber gesagt, ob die im SEN-Modell verwendeten mathematischen Prinzipien eine empirische Entsprechung haben. Es spricht zwar beispielsweise einiges dafür, dass das Gehirn „linear“ operiert, dass also die neuronalen Impulse gewissermaßen addiert werden. Bereits die Begründer der Neuroinformatik McCulloch und Pitts (1943) sprachen vom Gehirn als einem „logischen Addierer“ und meinten damit genau dies Prinzip der Linearität. Deswegen arbeiten wir auch in SEN mit linearen Aktivierungsfunktionen, ohne freilich genau sagen zu können, wie das Gehirn linear vorgeht. Das gleiche gilt für die fundamentale Lernregel von SEN, die zwar am Hebbschen Prinzip orientiert ist, im realen Gehirn jedoch auch anders aussehen
256
3 Lernen, Künstliche Intelligenz und soziales Milieu
könnte. Freilich dürfte es zumindest beim heutigen Stand der Forschung ziemlich aussichtslos sein, hier noch mehr empirische Adäquatheit zu verlangen. Begnügen wir uns damit, dass SEN es offensichtlich erlaubt, sich recht genaue Vorstellungen darüber zu machen, wie es Menschen möglich ist, kognitive Selbstorganisation durch Selbstverstärkung zu ermöglichen. Dass außerdem, wie angemerkt, SEN in zahlreichen praktischen Problemen eingesetzt werden kann, ist über den Erkenntnisgewinn hinaus ein schöner Fall von „Serendipity“, nämlich einem unintendierten praktischen Nutzen von ursprünglich rein theoretisch orientierter Forschung.114
3.7
Lernen in einem sozialen Milieu: Ein Computermodell
Wir haben das Problem, inwiefern Lernerfolge und generell intellektuelle Fähigkeiten durch die Umwelt einerseits und/oder durch individuell veranlagte Fähigkeiten andererseits auf einer sehr grundsätzlichen Ebene thematisiert. Dies war auch notwendig bei einem stark kontrovers diskutierten Thema, bei dem wissenschaftliche Ergebnisse und ideologische Vorurteile häufig hoffnungslos miteinander vermischt werden. Zusätzlich jedoch wollen wir zeigen, inwiefern durch geeignete Modelle die Frage, inwiefern Umweltbedingungen Lernprozesse und entsprechende Lernerfolge beeinflussen, in einer präzisen und etwas konkreteren Weise untersucht werden können. Das für diese Zwecke von uns konstruierte Modell ist Gegenstand dieses Kapitels; da es sich um ein technisch ziemlich aufwendiges System handelt, verzichten wir auf die Darstellung sämtlicher technischer Details, von denen wir nur Beispiele bringen, und verweisen statt dessen auf Stoica-Klüver et al. 2009. Zahlreiche Demonstrationen dieses Systems zeigten uns außerdem, dass es sich neben der Analyse grundsätzlicher Fragen auch hervorragend dazu eignet, für interdisziplinäre Lehrprojekte eingesetzt zu werden. Deswegen werden wir im nächsten Kapitel unter dem Stichwort „Zurück zur Praxis“ ein interdisziplinäres Unterrichtsprojekt skizzieren, bei dem dies Modell im Zentrum steht und das unter unserer Betreuung von Lehramtsstudenten der Informatik sowie anderer Schulfächer entwickelt worden ist.
114
Der Begriff entstammt einem Roman des englischen Autors Horace Walpole „Three Princes of Serendip“ aus dem Jahr 1743, in dem die Helden ständig Erfolge in Dingen hatten, die sie weder geplant noch vorhergesehen hatten.
3.7 Lernen in einem sozialen Milieu: Ein Computermodell
257
Das im Folgenden geschilderte Modell wurde ursprünglich im Rahmen unserer Versuche konstruiert, eine allgemeine mathematisch fundierte Theorie der soziokulturellen Evolution zu entwickeln (Klüver 2002) und ist ein Teil eines größeren Programms, dem von uns so genannten „Socio-cultural-cognitive Algorithm“ (SCCA). Theoretisch gingen wir davon aus, dass der Motor soziokultureller Evolution auf der Ebene individueller Lernprozesse zu suchen ist, wobei „Lernen“ nicht nur die Übernahme bereits vorhandenen Wissens, sondern auch die Schöpfung neuen Wissens und die Lösung bis dahin ungelöster Probleme bedeutet. Damit derartige Lernprozesse auf gesellschaftlicher Ebene wirksam werden können, müssen es einerseits soziale Lernprozesse sein, also solche, die in einer bestimmten sozialen Gemeinschaft stattfinden, und andererseits müssen diese Lernprozesse selbst von sozialen Strukturen positiv oder negativ beeinflusst werden. „Soziale Lernprozesse“ hat hier also eine doppelte Bedeutung. Die empirische Annahme ist dabei die, dass in der Evolution der meisten uns bekannten Gesellschaften die einschlägigen sozialen Strukturen die individuellen Lernprozesse zu Beginn begünstigen und damit eine Entwicklung der entsprechenden Kultur ermöglichen und dass nach einer bestimmten Zeit anschließend die sozialen Strukturen sich in dem Sinne hemmend auswirken, dass die kulturelle Entwicklung stagniert und zuweilen sogar regrediert (Klüver 2002). Eine derartige gesellschaftliche Entwicklung ist immer wieder von Historikern konstatiert und insbesondere von dem großen britischen Historiker Toynbee in seinem zwölfbändigen Monumentalwerk „A Study of History“ dokumentiert worden (Toynbee 1934 – 1961). In den Simulationen mit dem SCCA-Programm gelang es uns, diese Entwicklungen zu rekonstruieren und insbesondere zu zeigen, unter welchen Bedingungen kulturelle Stagnation nicht stattfinden muss – eine Entwicklung, die bislang nur von der in der europäischen Moderne entstandenen westlichen Kultur zu verzeichnen ist.115 Lernprozesse können natürlich inhaltlich alles Mögliche bedeuten. Wir konzentrieren uns hier auf das Lernen von Sprache, also den sog. Spracherwerb, da dies zweifellos eine der ganz wesentlichen Fähigkeiten ist, die einen Menschen überhaupt erst „kulturfähig“ machen und die als eine Basis für die Entstehung und Entwicklung von Kulturen angesehen werden muss.116 Wenn im Folgenden nun abkürzend von „Spracherwerb“ im Modell gesprochen wird, dann ist ausschließlich der Erwerb von sprachlichen Symbolen gemeint, die als Bezeichnungen für spezifische Wahrnehmungen dienen. Im Modell ist der Einfachheit halber voll-
115
Es sei nicht verschwiegen, dass dies Modell stark von den Gesellschaftstheorien von Marx und Habermas beeinflusst wurde. 116 Die zweite Basis besteht in der Beherrschung verschiedener Techniken, also die Herstellung und der Gebrauch von Werkzeugen, Maschinen und anderen materiellen Produkten.
258
3 Lernen, Künstliche Intelligenz und soziales Milieu
ständig darauf verzichtet worden, auch den Erwerb syntaktischer Fähigkeiten darzustellen. Der Grund für diesen Verzicht besteht in dem erwähnten Entstehungskontext des Modells und des darauf basierenden Simulationsprogramms: Wir definieren „Kultur“, einer Festlegung von u. a. Habermas folgend, als die Gesamtheit des in einer Gesellschaft anerkannten Wissens (Habermas 1981 II); dieses Wissen lässt sich formal repräsentieren als eine Gesamtheit von begrifflichen Kategorien sowie deren logischen Beziehungen untereinander. Mit einer bereits mehrfach verwendeten Begrifflichkeit lässt sich damit eine Kultur charakterisieren als eine Menge semantischer Netze, die miteinander mehr oder weniger stark verbunden sind. Das „lerntheoretische“ Fundament des Modells besteht darin, dass Menschen spezielle Wahrnehmungen aus ihrer materiellen und sozialen Umwelt erhalten und diese Wahrnehmungen „kategorisieren“, d. h. mit bestimmten sprachlichen Symbolen bezeichnen. Dies ist natürlich nichts anderes als die mehrfach erwähnte Vorstellung von Piaget in Bezug auf den Aufbau von „Schemata“ während der kognitiven Ontogenese. Allerdings werden wir noch sehen, dass im Unterschied zu rein kognitiven Schemata die sprachliche Bezeichnung von Schemata das Problem der Willkürlichkeit von Bezeichnungen enthält. Es ist Aufgabe einer sprachlichen Gemeinschaft, die notwendige Einheitlichkeit sprachlicher Bezeichnungen zu gewährleisten. Die künstlichen Akteure in dem Modell können einerseits bereits geschaffene sprachliche Symbole – im Folgenden kurz als „Begriffe“ bezeichnet – von anderen Akteuren übernehmen und andererseits selbst Begriffe neu einführen. Die selbstständige Einführung neuer Begriffe geschieht vor allem durch „Analogieschlüsse“, d. h., die Akteure erkennen die Ähnlichkeit von neuen Wahrnehmungen zu bereits bekannten und bilden die neuen Begriffe für die neuartigen Wahrnehmungen „in Analogie“ zu den Begriffen, die auf die ähnlichen Wahrnehmungen zutreffen. Die Konstruktion neuer Begriffe auf der Basis von Analogieschlüssen beruht auf der bekannten lerntheoretischen Annahme, dass neue Wahrnehmungen nur dann verstanden werden können, wenn man sie auf bereits bekannte Erkenntnisse beziehen kann. Mit einer Formulierung des Soziologen Niklas Luhmann lässt sich dies als die Notwendigkeit charakterisieren, Neues an Bekanntes „anzuschließen“. Nur wenn keine oder nur geringe Ähnlichkeiten der neuen Wahrnehmungen mit bereits bekannten vorliegen, werden gänzlich neue Begriffe geschaffen. Wir haben dies Problem bereits in Kapitel 3.1 behandelt. Das Lernen von Begriffen bzw. die Erschaffung neuer Begriffe ist freilich nur ein Teil der Lernaufgaben, die von den künstlichen Akteuren in unserem Modell zu leisten sind. Begriffe stehen in einem Bewusstsein nicht ungeordnet nebeneinander, sondern sind selbst strukturell verknüpft – sie bilden die erwähnten semantischen Netze. Deswegen müssen neu gelernte Begriffe, gleichgültig wie gelernt,
3.7 Lernen in einem sozialen Milieu: Ein Computermodell
259
miteinander verknüpft werden. Das Ergebnis ist dann, dass jeder künstliche Akteur durch ein oder mehrere semantische Netze repräsentiert wird, die er selbstständig aufgebaut hat. Im Rahmen eines solchen Modells ist es natürlich völlig unmöglich, auch nur annähernd die unterschiedlichen Aspekte der sprachlichen Entwicklung von Menschen darzustellen. Hier kann es nur darum gehen, anhand einiger wichtiger Aspekte exemplarisch zu verdeutlichen, wie auch dieser äußerst komplexe Prozess auf der Basis bestimmter Modellierungstechniken formal modelliert und in Computersimulationen analysiert werden kann. Obwohl unsere eigenen Arbeiten an und mit dem im Folgenden geschilderten Programm noch durchaus nicht abgeschlossen sind, lassen sich bereits jetzt einige interessante Ergebnisse vorstellen. Die hier thematisierten Aspekte der sprachlichen Ontogenese sind, noch einmal systematisch zusammengefasst, vor allem die folgenden: a) Die Kategorisierung sinnlicher Erfahrung, d. h. die Ordnung von Wahrnehmungen durch bestimmte Begriffe in Form sozial überwachten Lernens; b) die Bildung neuer Begriffe auf der Basis von Analogieschlüssen; c) die Ordnung gebildeter Begriffe in Form semantischer Netze; d) das Verhältnis von sozialem Lernen, d. h. der Übernahme bestimmter Begriffe, zu der „kreativen“ Schöpfung neuer Begriffe; dies beinhaltet die Analyse bestimmter sozialer Rollen, die soziale Kontexte – Milieus – für die Lerner spielen. Zweifellos sind dies längst nicht alle Aspekte, die bei der sprachlichen kognitiven Ontogenese zu berücksichtigen sind, aber genauso zweifellos gehören sie zu den wesentlichen. Das Modell, mit dem diese Fragestellungen bearbeitet werden sollen, ist ein sog. hybrides System. Derartige Systeme bestehen, wie in 3.1 bemerkt, aus verschiedenen Teilsystemen, die jeweils durch verschiedene Modellierungstechniken realisiert werden, und miteinander auf unterschiedliche Weise gekoppelt sind. Hier haben wir folgende Teilsysteme: Die Aufgaben (a) und (b) werden durch sog. BAM-Netze bearbeitet, nämlich „BiDirectional Associative Memory“ Netze; deren Grundlogik wird unten skizziert. Für Aufgabe (c) wird ein SOM, eine „Self Organizing Map“, eingesetzt; dabei handelt es sich um eine sog. Kohonen-Karte, die in der Funktionsweise dem im vorigen Kapitel beschriebenen SEN ähnelt, jedoch mit anderen Algorithmen operiert. Diese sind z. T. ziemlich kompliziert, so dass wir auf deren Darstellung verzichten; für das Verständnis des Gesamtmodells genügt es, wenn man sich im Text ein SEN
260
3 Lernen, Künstliche Intelligenz und soziales Milieu
vorstellt, sofern von einem SOM die Rede ist.117 Jeder künstliche Lerner wird durch eine Kombination dieser verschiedenen Netze repräsentiert: Ein künstlicher Lerner besteht also aus mehreren BAM-Netzen sowie mindestens einem SOM. Problem (d) schließlich wird dadurch bearbeitet, dass mehrere Kombinationen von BAM-Netzen und Kohonen-Karten (SOM) generiert werden, die faktisch einen Zellularautomaten bilden (vgl. Teil 2). Wir haben hier eine sog. horizontale Koppelung: Bei dieser Form der Koppelung arbeiten zwei oder mehrere Teilsysteme „nebeneinander“ und erledigen ein gemeinsames Problem durch Arbeitsteilung. Das wird durch die Koppelung der beiden Netzwerktypen realisiert. Außerdem wird eine soziale Ebene durch die ZA-Verknüpfungen der künstlichen Lerner generiert, also durch Verknüpfungen gemäß einer Zellularautomatenstruktur. Etwas detaillierter sieht das Modell folgendermaßen aus (an technischen Details nicht interessierte Leser können diese kleine Skizze getrost überspringen): ad (a) BAM-Netze – Bi-directional Associative Memory – operieren dergestalt, dass sie wahlweise durch Vektor- und Matrixoperationen entweder aus einem vorgegebenen X-Vektor durch Multiplikation mit einer ebenfalls vorgegebenen Gewichtsmatrix einen zugehörigen Y-Vektor erzeugen bzw. aus einem Y-Vektor sowie einer Matrix einen X-Vektor oder aus zwei Vektoren wieder eine Matrix generieren. Die entsprechenden Berechnungsalgorithmen werden hier nicht näher dargestellt, da sie für das Verständnis des Gesamtsystems nicht wesentlich sind (vgl. dazu StoicaKlüver et al. 2009). Für das Modell der sprachlichen Ontogenese werden die BAM-Netze folgendermaßen eingesetzt: Einem künstlichen Lerner, der u. a. durch verschiedene BAM-Netze repräsentiert ist, werden verschiedene X-Vektoren vorgegeben. In der Phase des überwachten Lernens, d. h. kontrolliert durch seine soziale Umgebung, erhält der einzelne Lerner zusätzlich den dazu gehörigen Y-Vektor. Der Lerner generiert daraufhin die korrekte Matrix. Dabei bedeuten die X-Vektoren bestimmte Wahrnehmungen wie z. B. das Sehen eines vierbeinigen kleinen Tiers; der zugehörige Y-Vektor repräsentiert dann den entsprechenden Begriff wie etwa „Hund“ oder „Katze“. Der Lernprozess besteht also in diesem Fall darin, dass einerseits die korrekte begriffliche
117
Wir haben dies Modell zu einer Zeit entwickelt, als wir noch nicht selbst das SEN konstruiert und eingesetzt hatten. Zu dem Zeitpunkt der Entwicklung dieses hybriden Systems war ein SOM das klassische Paradigma für die Realisierung selbstorganisierter Lernprozesse; da uns jedoch immer gestört hatte, dass ein SOM ein unnötig kompliziertes System ist, entwickelten wir das wesentlich einfachere (und besser verwendbare) SEN.
3.7 Lernen in einem sozialen Milieu: Ein Computermodell
261
Einordnung der Wahrnehmungen übernommen wird und dass andererseits durch die Generierung der Matrix ein „Gedächtnis“ angelegt wird: Werden nach diesem Lernprozess wieder die Wahrnehmungen als X-Vektor eingegeben, „erinnert“ sich das Netz, d. h., es bildet durch die Multiplikation des X-Vektors mit der Matrix den zugehörigen Y-Vektor – „Katze“ oder „Hund“. An diesem Beispiel wird deutlich, warum die BAM-Netze sich für die Simulation derartiger Lernprozesse besonders gut eignen: Man kann sie „bi“ verwenden, d. h. sowohl von X-Vektoren mit einer Matrix zu Y-Vektoren gelangen, als auch von YVektoren mit der Matrix zu den X-Vektoren. So wie das Netz sich bei bestimmten Wahrnehmungen an den zugehörigen Begriff erinnert, so erinnert es sich bei der Eingabe eines Begriffs an die entsprechenden Wahrnehmungen. Beides ist erforderlich, damit man in einem nicht nur metaphorischen Sinn von „Erinnern“ sprechen kann (vgl. dazu 3.5). Da die Verarbeitungskapazität eines einzelnen BAM-Netzes beschränkt ist und zwar auf ca. 5 bis 7 Vektorpaare, muss ein einzelner Lerner mit mehreren BAMNetzen ausgestattet sein. Im Modell besteht ein einzelner Lerner aus durchschnittlich fünf Netzen. Weil die verschiedenen Lerner im Gesamtmodell sich in unterschiedlichen Entwicklungsphasen befinden, d. h., ein Lerner hat mehr oder weniger Erfahrungen mit Wahrnehmungen und begrifflichen Zuordnungen gemacht, bestehen die Lerner im allgemeinen aus unterschiedlich vielen BAM-Netzen. ad (b) Lernen gemäß (a) ist überwachtes Lernen in dem Sinne, dass der Lernende explizite Informationen darüber erhält, wie die begriffliche Ordnung der Wahrnehmungen vorzunehmen ist. Häufig entsteht jedoch bei menschlichen Lernprozessen die Situation, dass Wahrnehmungen aufgenommen werden, aber keine soziale Instanz vorhanden ist, die den korrekten Y-Vektor, d. h. den zugehörigen Begriff, angibt. Dies kann z. B. im Fall sozialer Isolation geschehen, wo das Individuum seine Begriffe selbst bilden muss; das kann jedoch auch, wie z. B. in der Forschung häufig, dann erforderlich sein, wenn es für neuartige Wahrnehmungen noch niemanden gibt, der über entsprechende Begriffe verfügt. Dabei ist allerdings zu beachten, dass die Zuordnung unbekannter X-Vektoren zu neu zu bildenden YVektoren nicht beliebig sein kann. Unter (c) wird deutlich, dass die gelernten Begriffe nicht isoliert zueinander im Bewusstsein der Lernenden existieren können, sondern eine semantische Ordnung bilden – ein semantisches Netz. Deswegen muss die Konstruktion neuartiger Y-Vektoren nach bestimmten Regeln erfolgen. Diese Regeln werden durch eine formale Repräsentation von Analogieschlüssen festgelegt. Vereinfacht gesagt geht es bei Analogieschlüssen darum, neuartige Informationen „analog“ zu bereits bekannten Informationen einzuordnen, d. h. zu entscheiden, welchen der bereits bekannten und geordneten Informationen die neuen Informationen am ähnlichsten sind. Es gibt, nebenbei erwähnt, zahlreiche unterschiedliche Definitionen von Analogiebildungen (u. a. Herrmann 1997), aber
262
3 Lernen, Künstliche Intelligenz und soziales Milieu
diese hier ist so etwas wie der praktische Kern. Im Modell wird diese Definition von Analogiebildungen dadurch realisiert, dass das BAM-Netz, das mit den neuen X-Vektoren konfrontiert ist, seine eigenen bereits gelernten X-Vektoren und die der anderen BAM-Netze – von einem bestimmten Lerner – daraufhin überprüft, welcher der gelernten X-Vektoren dem neuen am ähnlichsten ist. Dies wird wieder bei binär oder bipolar codierten Vektoren über die Hamming-Distanz berechnet und sonst über die Euklidische Distanz.118 Sei also X1 der neue unbekannte Vektor, seien Xi die bereits gelernten X-Vektoren und sei d(X1, Xi) die Distanz zwischen jeweils zwei Vektoren. MXY sei die Matrix für ein Vektorpaar (X,Y). Dann ergibt sich der neue Vektor Y1 durch
ͳൌͳȗǡ und ሺͳǡሻൌǤ
Von dem jeweils ähnlichsten X-Vektor übernimmt das BAM-Netz die entsprechende Matrix und berechnet mit dieser Matrix den neuen Y-Vektor. Da die Operationen der BAM-Netze injektiv sind, ist der neue Y-Vektor nicht identisch mit dem mit der gleichen Matrix zuvor generierten, aber prinzipiell so ähnlich, wie es die beiden X-Vektoren sind. Der neue Y-Vektor wird dann übernommen für die Komponente (c) des gesamten Lernprozesses. ad (c) Das Lernen der einzelnen Begriffe geschieht zwar auf der Basis von Wahrnehmungen sowie entsprechenden Hinweisen aus der sozialen Umwelt. Als weiterer Schritt ist jedoch erforderlich, dass die einzelnen Begriffe in die erwähnte semantische Ordnung gebracht werden müssen. Anders formuliert: Begriffe machen für einen Lerner erst dann Sinn, wenn ihr Bezug zu anderen Begriffen hergestellt ist. Ein Kind versteht den Begriff „Hund“ erst dann vollständig, wenn es „Hund“ in Zusammenhang bringen kann zu anderen Begriffen wie „Katze“ oder „Kuh“ und wenn es gleichzeitig weiß, dass „Hund“ nur einen sehr geringen Zusammenhang zu z. B. „Flugzeug“ hat. Insbesondere kann die Herstellung logischer Beziehungen wie „ein Dackel ist ein Hund“ aber „ein Hund ist nicht notwendig ein Dackel“ erst erfolgen, wenn die Begriffe in eine Gesamtordnung platziert sind. Die Bedeutung von Begriffen besteht demnach sowohl in den entsprechenden Wahrnehmungen bzw. deren Verarbeitung als auch in dem Zusammenhang, in dem die
118
„Analogiebildungen“ haben natürlich starke Ähnlichkeiten mit Generalisierungen, die in 3.3 behandelt wurden, sind jedoch streng genommen nicht das Gleiche. Es sei nur darauf verwiesen, dass wir hier einen anderen Netzwerktypus verwenden als es im Kapitel über Generalisierungen geschehen ist.
3.7 Lernen in einem sozialen Milieu: Ein Computermodell
263
Begriffe zu anderen Begriffen stehen bzw. gestellt werden. Das ist im Kontext der Bildung semantischer Netze bereits dargestellt worden. Im Modell wird dieser wesentliche Aspekt von Lernprozessen durch die Koppelung der verschiedenen BAM-Netze mit einem SOM, also einer Kohonen-Karte realisiert. Die Koppelung erfolgt derart, dass die von den BAM-Netzen gespeicherten X-Vektoren gemeinsam mit den zugehörigen Y-Vektoren zur Konstruktion einer semantischen Matrix verwendet werden. Dabei werden pro Lerner mehrere BAM eingesetzt, um die semantischen Matrizen nicht zu groß werden zu lassen. Anschließend erfolgt die Operationsweise des Kohonen-Algorithmus im SOM, dessen Leistung, wie bemerkt, der eines SEN vergleichbar ist. ad (d) Soziales Lernen schließlich bedeutet hier, dass die Lernenden Wissen, d. h. Begriffe von fortgeschritteneren Individuen, übernehmen können. Dies kann jedoch nur dann geschehen, wenn die fortgeschritteneren Akteure in der Umgebung des Lerners sind; soziales Lernen setzt also die Nähe zu den „Lehrern“ voraus. In dem Modell, das hier geschildert wird, wird die Unterschiedlichkeit des Lernfortschritts dadurch erreicht, dass die Individuen eine bestimmte Lebensspanne haben und nach deren Vollendung „sterben“, d. h., sie werden durch neue Akteure ersetzt. Die Konsequenzen daraus für die Struktur des sozialen Milieus werden am Ende dieses Kapitels gezeigt. Ein Lerner hat, wenn ihm neue Wahrnehmungen in Form von X-Vektoren eingegeben werden, prinzipiell drei Lernmöglichkeiten: Einmal können (X,Y)-Paare aus der Umgebung übernommen werden, falls der Lerner diese noch nicht kennt. Dies ist auch die erste Option, die ein Lerner realisiert. Anschließend werden die neuen Begriffe durch die Kohonen-Karte in das semantische Netz integriert. Allerdings wird bei einer derartigen Neuintegration nicht das gesamte semantische Netz verändert, was völlig unrealistisch wäre, sondern es wird nur der Netzteil verändert, zu dem der neue Begriff am besten passt. Dieser wird dadurch bestimmt, dass für jeden Begriffscluster der oder die X-Vektoren gesucht werden, die dem neuen XVektor am ähnlichsten sind. Dies geschieht wie bei der Berechnung der Analogieschlüsse. Nur dieser Cluster wird anschließend durch den Algorithmus der Kohonen-Karte durch Hinzufügung des neuen Begriffs modifiziert. Zum zweiten kann ein Lerner die entsprechenden Y-Vektoren von Akteuren in seiner Umgebung übernehmen, falls dies möglich ist. Dies ist dann die zweite Option für den Lerner. Diese werden dann wie eben beschrieben in das semantische Netz integriert. Zum dritten kann der Lerner, falls er keinen Y-Vektor aus seiner Umgebung erhält, Analogiebildungen durchführen und selbst einen neuen Begriff bilden. Dieser wird ebenfalls in das semantische Netz integriert. Allerdings kann es vorkommen, dass dieser kreative Lerner seine Einordnung revidieren muss, falls im Verlauf der Simulation aus anderen Umgebungen andere Netzanordnungen in die Umgebung
264 ȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱř Lernen, Künstliche Intelligenz und soziales Milieu des Lerners gelangen und diesen veranlassen, seine Ordnung anzupassen. Dabei gilt, dass eine semantische Ordnung als sozial gültig anerkannt wird, wenn sie von älteren Akteuren stammen. Die Begründung für diese Reihenfolge der Optionen ist die, dass (die meisten) Menschen lieber etwas von Anderen übernehmen, als es sich selbst mühsam auszudenken. Dies ist nicht nur bequemer, sondern meistens auch effizienter. Die folgenden Bilder zeigen exemplarische Entwicklungen der verschiedenen Lerner.119
Abbildung 3-11:
Akteur 1 hat neun Begriffe erfunden und zwei Begriffe durch Analogie abgeleitet (Hatarosu und Nawa).
Man kann hier bereits gut erkennen, wie die einzelnen Lerner semantische Ordnungen aufgebaut haben und insbesondere wie unterschiedlich diese zum Teil sind. Der Akteur 1 hat 5 Konzepte für gefährliche Dinge gelernt, Akteure 3 und 4 haben einen Begriff mehr (graue Farbmarkierung); Akteur 2 hat insgesamt 6 Konzepte per Analogie abgeleitet (weiße Schriftmarkierung), die anderen 4 (Akteur 3) bzw. 2 (Akteur 1). Auch in der Anzahl der Konzepte insgesamt gibt es bereits leichte Unterschiede. Ein sprachlicher Hinweis ist hier noch erforderlich: Die Abbildungen sind Ausschnitte aus einer prototypischen Version des Programms (prototypisch im technischen Sinne); deswegen haben wir erst einmal die
119
Das System wurde implementiert von Rouven Malecki.
3.7 Lernen in einem sozialen Milieu: Ein Computermodell
265
Erfindung künstlicher Begriffe durch die Akteure implementiert. Damit sollte lediglich symbolisiert werden, dass es sich um eine künstliche Welt handelt, in der die ebenfalls künstlichen Akteure operieren. Die im nächsten Kapitel gezeigte Version ist zumindest in der sprachlichen Dimension realitätsadäquater.
Abbildung 3-12:
Akteur 2 hat sechs Begriffe erfunden und sechs Begriffe per Analogie abgeleitet.
Abbildung 3-13:
Akteur 3 hat acht Begriffe erfunden und 4 Begriffe durch Analogie abgeleitet.
Obwohl für dies Modell noch nicht viele endgültigen Ergebnisse vorliegen, kann man jetzt schon zwei interessante Resultate erkennen, die beide darauf verweisen,
266
3 Lernen, Künstliche Intelligenz und soziales Milieu
dass die individuellen semantischen Ordnungen stark davon abhängen, in welcher Reihenfolge die verschiedenen Begriffe, in Abhängigkeit von der Umgebung, von den Lernern aufgenommen und integriert werden. Technisch liegt dies daran, dass die Kohonen-Karte, wie jedes deterministische System, in ihrem faktischen Verlauf (der sog. Trajektorie) wesentlich von den jeweiligen Anfangszuständen abhängt und dies ergibt sich über die Reihenfolge der gelernten Begriffe. Lerntheoretisch bedeutet dies, dass z. B. ein Kind natürlich unterschiedliche semantische Ordnungen aufbaut je nach soziokultureller Umgebung: Eine Kindheit auf einem Bauernhof wird für den Aufbau eines semantischen Netzes in Bezug auf Tiere eine andere Ordnung ergeben als die Kindheit in einer Großstadt, wo Tiere nur als Spielgefährten in der Wohnung oder bei einem Zoobesuch vorkommen. Auch wenn später in der Entwicklung neue Erfahrungen mit Tieren hinzukommen, werden die frühen Erfahrungen im fundamental bleiben, also im Zentrum der semantischen Netze. Es ist sicher ein Indikator für die Validität unseres Modells, dass diese bekannten Tatsachen im Modell reproduziert werden konnten. Zum anderen zeigt es sich, dass eine Umgebung kontraproduktiv für die kognitive Entwicklung sein kann, wenn die älteren Akteure, die über soziale Autorität verfügen, zu viel wissen. Gemäß der Reihenfolge der Optionen wird dann nämlich ein Individuum seine Lebensspanne zum größten Teil damit verbringen, Wissen von anderen Akteuren zu übernehmen und selbst nicht kreativ zu sein. Die kulturellen Konsequenzen sind dann, dass sich das Wissen der gesamten Gemeinschaft nicht mehr wesentlich erhöht – die Kultur stagniert. Dafür gibt es zahlreiche Beispiele in der Geschichte. Produktive kognitive Entwicklung setzt demnach voraus, dass die Individuen ermutigt werden, nicht einfach Wissen zu übernehmen, sondern selbst etwas Neues herauszufinden. Für didaktische Kontexte würde dies beispielsweise eine Option für das „entdeckende Lernen bedeuten: Die Lehrer vermitteln gerade nicht ihr eigenes komplettes Wissen, sondern ermutigen die Lernenden, selbst Lerninhalte und Problemlösungen zu entdecken. Insofern ergeben sich aus diesem eigentlich sehr theoretischen Modell äußerst konkrete didaktische Konsequenzen. Für die produktive Entwicklung einer Kultur übrigens besteht ein genereller Ausweg aus dem Dilemma, dass eigene Entdeckungen aufgrund zu reichhaltiger Wissensübernahme nicht gemacht werden können, in einer kulturellen Ermutigung zur Spezialisierung: Wenn sich Lernende auf Spezialgebiete konzentrieren können, dann sind sie einerseits nicht gezwungen, alles Wissen aus einer soziokulturellen Umgebung aufzunehmen, sondern können zu Gunsten des eigenen Gebietes andere Wissensinhalte ignorieren. Das verschafft dann Zeit zur eigenen selbstständigen Entwicklung. Andererseits führt Spezialisierung häufig dazu, dass der Lernende in seiner Umgebung Niemanden mehr findet, der für das Spezialgebiet bereits fertige Wissensinhalte vermitteln kann. Dadurch wird der Lernende faktisch gezwungen,
3.7 Lernen in einem sozialen Milieu: Ein Computermodell
267
eigenständig seine Entwicklung voran zu treiben. Ein derartiger Fall liegt häufig vor, wenn bei wissenschaftlichen Abschlussarbeiten die Studenten über ihr Spezialgebiet aufgrund eigener Forschungen mehr wissen als die betreuenden Professoren. Die bekannten Leistungen von Schülern in den „Jugend forscht“ Veranstaltungen zeigen, dass derartige Lernerfolge durch entdeckendes Lernen auch unterhalb der universitären Ebene realisiert werden können. Zum Abschluss der Darstellung wird in den folgenden Bildern 3-14 bis 3-16 das Gesamtmodell gezeigt. Dabei ist darauf zu verweisen, dass die angesprochene Konsequenz für die Sozialstruktur der Existenz unterschiedlich erfahrener Akteure im Modell folgendermaßen realisiert wird: Zu Beginn wird eine bestimmte Anzahl von Akteuren generiert, die als gleichwertig gelten. Dies wird durch die homogene Geometrie des ZA repräsentiert. Durch das Auftauchen „junger“ Akteure verändert sich diese egalitäre Sozialstruktur: Die Jungen lernen von den Älteren, aber im Allgemeinen nicht umgekehrt. Im Modell wird führt dies zu einer sukzessiven Transformation des ZA zu einem Booleschen Netz; diese Transformation ist ebenfalls visuell gezeigt. Die Unterschiede zwischen den Generationen also führen zu einer wachsenden Inhomogenität der Sozialstruktur; auch in dieser Hinsicht scheint das Modell durchaus realistisch zu sein.120 In Abb. 3-14 wird die Sozialstruktur nach 203 Iterationen der Simulation gezeigt (rechte Seite). Zugleich wird das „Innenleben“ des Akteurs 47 gezeigt. Die Anzahl der Zeitschritte ist notwendig, damit die Akteure jeweils lernen können, um semantische Netze zu konstruieren; die Sozialstruktur ändert sich in dieser Phase nicht. Interessant sind die Ergebnisse nach fast 2000 und 3000 Iterationen. Die Sozialstruktur ist wesentlich differenzierter, in Bild 3-16 ist bereits eine Gruppe zu sehen, die sich „sozial“ isoliert hat. Die „kognitive“ Struktur des Akteurs 136 zeigt in diesem Fall, dass die reichhaltige Umgebung des Akteurs dazu führt, dass er letztlich „nur noch“ sozial lernt. In Bild 3-15 hat er 10 Konzepte, wobei nur 3 sozial gelernt wurden (dunkelgraue Schriftmarkierung). Nach weiteren 1000 Iterationen (Bild 3-16) hat er 12 Konzepte, wobei 11 davon sozial gelernt wurden. Damit ist seine Kreativität einerseits „unterdrückt“, andererseits müssen bereits Korrekturen aus der Umwelt gekommen sein.
120
Ein Boolesches Netz besteht, wie üblich, aus Einheiten sowie Verbindungen zwischen den Einheiten. Diese Verbindungen werden durch logische Funktionen realisiert wie „und“, „oder“ und „wenn - dann“. Deswegen nennt man diese Netze auch logische Netze.
268 ȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱř Lernen, Künstliche Intelligenz und soziales Milieu
Abbildung 3-14:
Zustand des Systems nach insgesamt 203 Iterationen. Die kognitive Struktur des Akteurs 57 wird im Bild links oben dargestellt.
Abschließend sei noch angemerkt, dass dies Modell es auch erlaubt, die Entstehung unterschiedlicher „Dialekte“ bzw. Sprachen zu simulieren, also so etwas wie den Turmbau von Babel. Wenn ein künstlicher Akteur für neue Wahrnehmungen keine Begriffe aus seiner sozialen Umgebung übernehmen kann, muss er selbst einen derartigen Begriff bilden. Dieser neue Begriff wird dann von den Akteuren in seiner Umgebung übernommen, so dass sich innerhalb eines sozialen Milieus einheitliche Terminologien ergeben. Bei verhältnismäßig kleinen Gesamtgruppen, nämlich bis zu 100 Akteuren, bleibt die Sprachgemeinschaft auch in diesem Sinne homogen. Anders sieht das jedoch aus, wenn mit verhältnismäßig vielen künstlichen Individuen gearbeitet wird. Bei Simulationen mit über eine Million Individuen entstanden in weit voneinander entfernten Gruppen unterschiedliche Bezeichnungen, da die Individuen der verschiedenen Gruppen keinen Kontakt zueinander hatten.
3.7 Lernen in einem sozialen Milieu: Ein Computermodell
Abbildung 3-15:
269
Sozialstruktur nach 1861 Iterationen. In diesem Fall wird im Bild oben links die kognitive Struktur des Akteurs 136 gezeigt.
Diese Simulationen liefen z. T. über mehrere Tage und die Ergebnisse waren nicht nur sozio-strukturell differenzierte Populationen, sondern auch ebenso sprachlich differenzierte. Es liegt auf der Hand, dass mit diesem Modell auch für Sprachwissenschaftler interessante Experimente angestellt werden können; wir werden unter dem Aspekt interdisziplinäre Lehr- und Lernprojekte darauf zurückkommen. So nützlich derartige Modelle und Simulationen einschließlich der in den vorigen Kapiteln beschriebenen für die Einsicht in komplexe kognitive und soziale Prozesse sein können, ist bei der Konstruktion und der Verwendung solcher künstlichen Systeme doch stets darauf zu achten, dass diese nur in Zusammenhang mit empirisch gehaltvollen Theorien sinnvoll sein können. Es sei nicht verschwiegen, dass häufig bei den Konstrukteuren formaler Modelle und Computersimulationen leider die fatale Neigung zu beobachten ist, die Theorien den Modellen anzupassen und damit die Theorien so weit zu vereinfachen, wie es die verwendeten formalen Techniken erlauben.
270 ȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱř Lernen, Künstliche Intelligenz und soziales Milieu
Abbildung 3-16: Sozialstruktur nach 3011 Iterationen
Damit werden die Ergebnisse der Simulationen jedoch ziemlich unbrauchbar.121 Indem wir versuchten, auch unsere formalen Modelle an den etablierten Theorien zu orientieren, wie etwa an der von Piaget, konnten wir hoffentlich zeigen, dass Computermodelle und empirisch gehaltvolles Nachdenken über komplexe Lernund Kognitionsprozesse nicht nur kein Gegensatz sind, sondern sich gegenseitig ergänzen. Dass darüber hinaus Computermodelle auch vielfältige Anregungen für Lehr- und Lernprojekte sein können, ist Thema des nächsten Kapitels.
121
Einer der Pioniere des Einsatzes von Computersimulationen in den Sozialwissenschaften, der amerikanische Politikwissenschaftler Robert Axelrod, drückte dies Problem einmal selbstkritisch so aus, dass er und viele andere Wissenschaftler notgedrungen mit einem theoretischen Ansatz gearbeitet hätten, dem sog. Rational Choice Ansatz, von dem Axelrod selbst wusste, dass dieser Ansatz eigentlich empirisch ziemlich gehaltlos ist. Aber, so sein melancholischer Kommentar, „wir haben nun einmal keinen anderen“ (Axelrod 1997). Das allerdings ist zu bezweifeln.
3.8 Möglichkeiten eines interdisziplinären Projektunterrichts
3.8
271
Zurück zur Praxis: Anregungen für Möglichkeiten eines interdisziplinären Projektunterrichts
Lehramtsstudenten studieren bekanntlich mindestens zwei Fächer, häufig auch drei. Dabei können die unterschiedlichsten Fächerkombinationen gewählt werden; in unseren Lehrveranstaltungen zu Informatik und Fachdidaktik der Informatik haben wir nicht nur Studierende mit „klassischen“ Fächerkombinationen erlebt wie etwa Informatik und Mathematik oder auch Informatik und Physik. Obwohl die Kombination von Informatik mit einem mathematisch-naturwissenschaftlichen oder technischen Fach nach wie vor häufig zu verzeichnen ist, sind Kombinationen von Informatik mit einem sozialwissenschaftlichen oder auch geisteswissenschaftlichen Fach alles andere als selten. Sogar Kombinationen von Informatik gemeinsam mit Theologie und Kunst sind zu verzeichnen. Gleichgültig jedoch wie ähnlich oder auch unähnlich die Fächer in den jeweiligen Kombinationen sind, gemeinsam ist immer, dass die einzelnen Fächer eben auch separat studiert werden und dass sie in ihrer Verschiedenheit belassen werden. Die Frage, ob sich die Fächer in ihren jeweiligen Kombinationen vielleicht auch gegenseitig befruchten könnten, wird höchstens in akademischen Feierstunden thematisiert und im universitären Alltag sehr schnell wieder vergessen. Das ist auch nicht verwunderlich, da die Vertreter der jeweiligen Fächer selbst immer nur gelernt haben, ihre wissenschaftliche Karriere an ihren wissenschaftlichen Disziplinen auszurichten und genau diese disziplinären Inhalte und Methoden an die Studierenden weiter zu geben – unabhängig davon, ob diese Studierenden Lehrer werden wollen oder andere Berufe anstreben.122 Entsprechend sind die Studierenden nach Abschluss ihres Studiums auch nur selten in der Lage, Unterricht zu konzipieren und zu realisieren, der nicht an den Grenzen eines einzelnen Fachs sozusagen stecken bleibt. Das ist umso bedauerlicher, da ständig die Notwendigkeit betont wird, dass Schüler und Studierende es lernen sollten, auch interdisziplinär zu denken, weil es in vielen Berufen immer mehr gefordert wird. Da an den Universitäten, wie bemerkt, die Studierenden nur wenig oder gar keine Orientierungen erhalten, wie denn interdisziplinäres Denken gelernt und anschließend in der Schule vermittelt werden kann, sollen hier einige Anregungen gegeben werden, die sich größtenteils auf eigene Erfahrungen bezie-
122
Seit den z. T. äußerst fragwürdigen Bologna Reformen ist über die Einführung des sog. Studium Generale versucht worden, den Studierenden Kenntnisse über ihre Fächergrenzen hinaus zu vermitteln. Dieser recht hilflose Versuch führte jedoch nach allen Erkenntnissen nur dazu, dass die Studierenden praktisch noch weitere Fächer kennen lernten bzw. kennen lernen mussten, die mit ihren „eigentlichen“ Studienfächern auch nichts zu tun haben.
272
3 Lernen, Künstliche Intelligenz und soziales Milieu
hen. Wir sind uns dabei bewusst, dass Versuche, an der Schule interdisziplinär und in Projekten zu lehren und zu lernen, bereits organisatorisch auf diverse Hindernisse treffen. Dies können wir nur konstatieren. Inhaltlich jedoch sind gerade interdisziplinäre Projekte gut zu realisieren, die mit dem methodischen Instrumentarium von Computersimulationen arbeiten; dadurch kann einem Fach wie Informatik sogar eine bestimmte Schlüsselrolle zukommen. Bevor wir dies an Beispielen konkretisieren, müssen jedoch noch einige begriffliche Klarheiten geschaffen werden. Betrachten wir zunächst den Begriff „Interdisziplinarität“. Dieser wird teilweise ziemlich heterogen verwendet und häufig ist damit schlicht gemeint, dass man die Beiträge verschiedener Wissenschaftsdisziplinen zu einem bestimmten Thema rein additiv zusammenstellt. Exemplarisch für ein derart verkürztes Verständnis von Interdisziplinarität sind etwa die traditionellen Ringvorlesungen an Universitäten, wo ein bestimmtes Thema oder auch nur ein bestimmter Begriff zum Ausgangspunkt genommen wird und anschließend erfahren die mehr oder weniger interessierten Zuhörer, was von Seiten der Medizin, der Theologie, der Biologie, der Literaturwissenschaft oder auch der Soziologie beispielsweise zum Thema „Geschlecht“ zu erfahren ist. Das kann je nach rhetorischem Geschick der Vortragenden manchmal ganz amüsant und auch lehrreich sein, aber mit Interdisziplinarität hat das eigentlich nicht viel zu tun. Das Gleiche gilt erst recht für das bereits erwähnte Studium Generale. In einem verbindlicheren Sinne bedeutet Interdisziplinarität – wörtlich „zwischen den Disziplinen“ –, dass verschiedene Disziplinen zusammenwirken, um ein gemeinsames Problem bzw. Problembereiche zu bearbeiten. Das kann eine inhaltliche Kooperation sein wie etwa in der Soziolinguistik, wo soziale Aspekte von Sprache und Sprachverwendung analysiert werden; es kann auch primär methodisch gemeint sein wie z. B. in der Biophysik, wo biologische Probleme mit physikalischen Methoden bearbeitet werden. Allgemein kann man sagen, dass die sog. „Bindestrichwissenschaften“ wie auch Sozialpsychologie oder Wirtschaftsinformatik daraus entstanden sind, dass man bestimmte komplexe Phänomene durch die Beiträge verschiedener Wissenschaftsdisziplinen erfolgreich zu bearbeiten versuchte. Interdisziplinäre Kooperation ist alles andere als einfach und vor allem weiß man nie so recht, wohin die jeweiligen Ergebnisse dann eigentlich gehören. Ist z. B. die Wirtschaftsinformatik eher ein Teil der Informatik oder einer der Wirtschaftswissenschaften? Vermutlich gibt es darauf so viele Antworten wie Wirtschaftsinformatiker. Das schwierigste Problem bei interdisziplinärer Kooperation ist jedoch, dass jeder Vertreter einer bestimmten Disziplin nun einmal gelernt hat, in den Denkmustern seines Faches zu denken und von daher gravierende Verständnis-
3.8 Möglichkeiten eines interdisziplinären Projektunterrichts
273
probleme mit Kollegen aus anderen Fächern haben muss. Wenn diese Probleme jedoch nicht gelöst werden, ist jeder Versuch einer verbindlichen interdisziplinären Kooperation notwendig zum Scheitern verurteilt. Nur ein kleines Beispiel in diesem Zusammenhang: In Veranstaltungen, die wir gemeinsam für Studierende der Betriebswirtschaft (BWL) und der Informatik durchführten, wurden die wechselseitigen Verständnisprobleme an der unterschiedlichen Interpretation des Begriffs „Controlling“ deutlich: Während sich die Informatikstudenten erbittert gegen die Vorstellung wehrten, dass sie in Projekten einem Controllingprozess unterzogen werden sollten, verstanden die BWL-Studierenden diese Abwehrhaltung überhaupt nicht, da für sie der Begriff des Controlling eine rein sachbezogene Bedeutung hat. Wir werden auf diese Veranstaltungen noch einmal exemplarisch zurückkommen.123 Der Begriff „Projekt“ ist natürlich noch viel schillernder als der der Interdisziplinarität. Als Projekt bezeichnet man nicht nur umgangssprachlich praktisch jedes Vorhaben, sei es in der Forschung, im Management oder in der Politik. Der große Sozialphilosoph Jürgen Habermas spricht sogar von dem „Projekt der Aufklärung“, das noch zu vollenden sei. In didaktischen Kontexten jedoch meint man mit dem Projektbegriff gewöhnlich, dass für die Lernenden ein bestimmtes Thema vorgegeben wird, mit dem sie sich unter mehr oder weniger intensiver Betreuung möglichst eigenständig beschäftigen sollen. Ein Studienprojekt oder generell Lernprojekt ist demnach durch a) ein Thema definiert, b) das Maß an Betreuung und c) das entsprechende Maß an Selbstständigkeit. Derartige Lernprojekte müssen natürlich nicht interdisziplinär sein und sind es meistens auch gar nicht. Wenn jedoch verschiedene Disziplinen die inhaltliche und methodische Basis für das entsprechende Projekt sind, dann geht es offensichtlich um ein interdisziplinäres Unterrichtsprojekt. Im Vergleich zu den herkömmlichen Lehrveranstaltungen sind sowohl die Projektkonzeption als auch die Interdisziplinarität nur vergleichsweise mühsam zu realisieren. Die Lehr- und Lernerfolge sind jedoch häufig derartig, dass wir aufgrund unserer eigenen Erfahrungen nur immer wieder empfehlen können, diese aufwendige Lehr- und Lernmethode zu erproben. Es lohnt sich – fast – immer.
123
Selbst bei Wissenschaftlern, die aus nahe verwandten Disziplinen kommen, gibt es derartige Verständigungsprobleme. Der amerikanische Physiker Brian Greene (2002) berichtet illustrativ, wie er sich zu Lösung sehr schwieriger Probleme in der theoretischen Physik mit einem befreundeten Mathematiker praktisch in Klausur begab, um sich wechselseitig beizubringen, wie Mathematiker einerseits und theoretische Physiker andererseits jeweils denken.
274
3 Lernen, Künstliche Intelligenz und soziales Milieu
Nehmen wir als erstes Beispiel die oben erwähnten Veranstaltungen für Studierende der Wirtschaftswissenschaften und der Informatik.124 Thema dieser Veranstaltungen war (und ist) die Modellierung von Problemen aus der betrieblichen Praxis und die Implementation der konstruierten Modelle in entsprechenden Programmen. Sowohl die Modellierungen als auch die implementierten Programme basierten auf Techniken des Soft Computing wie Zellularautomaten, neuronale Netze oder evolutionäre Algorithmen (vgl. Stoica-Klüver et al. 2009), die teilweise auch in diesem Buch bereits dargestellt wurden. Aufgabe der BWL-Studierenden war es, sowohl betriebliche Probleme auszuwählen als auch diese Probleme in der Logik einer ebenfalls von den BWL-Studierenden ausgewählten Technik darzustellen. Die Informatikstudenten hatten dann ihrerseits die Aufgabe, auf der Basis der BWL-Modelle entsprechende Programme zu implementieren, wobei dies teilweise bedeutete, Shells für die einzelnen Techniken zu entwickeln oder zu erweitern. Die Studierenden wurden in einzelne Gruppen von BWL-Studierenden und Informatikstudenten aufgeteilt und jede Gruppe hatte die gemeinsame Aufgabe, ein ausgewähltes Modell zu formulieren und in einem Programm zu implementieren mit der zusätzlichen Aufgabe, anhand von Simulationsexperimenten Aussagen über die Validität und ggf. den praktischen Nutzen ihrer Arbeit zu treffen. Natürlich wurden die einzelnen Gruppen nicht nur von uns betreut, sondern kamen auch regelmäßig im Plenum zusammen, um sich mit anderen Gruppen auszutauschen. Die Kooperationsprobleme zwischen den Studierenden der verschiedenen Fächer waren alles andere als unerheblich; das oben gebrachte kleine Beispiel semantischer Missverständnisse zählt noch zu den geringeren Problemen. Die größte Schwierigkeit für die BWL-Studierenden bestand naturgemäß darin, die ihnen inhaltlich durchaus bekannten Probleme in die Sprache und die Struktur formaler Modelle zu übersetzen; entsprechend war die größte Schwierigkeit für die Informatikstudenten, die BWL-Studierenden inhaltlich zu verstehen und deren Modellvorschläge in entsprechende Programme zu übersetzen. Häufig blieben die BWLStudierenden in wesentlichen Punkten unklar und erst zusätzliche Diskussionen konnten die erforderliche Klarheit verschaffen. Ebenso häufig mussten die Informatiker auch erkennen, dass ihre prototypischen Programme noch nicht leistungsfähig genug waren, um den aus der betrieblichen Praxis heraus bekannten Komplexitätsanforderungen zu entsprechen. In den meisten Fällen jedoch konnten diese
124
In Essen sind die Informatik und die Wirtschaftsinformatik Teile der Fakultät für Wirtschaftswissenschaften, was die Organisation dieser gemeinsamen Veranstaltungen natürlich ungemein erleichterte.
3.8 Möglichkeiten eines interdisziplinären Projektunterrichts
275
und andere Kommunikations- und Kooperationsprobleme befriedigend gelöst werden.125 Eine kleine Enttäuschung soll nicht verschwiegen werden. Neben Studierenden der BWL und der Informatik nahmen auch Studierende der Wirtschaftsinformatik teil, von denen wir uns eigentlich Vermittlungshilfe bei der Kooperation zwischen Informatikern und Betriebswirten erhofft hatten; die Wirtschaftsinformatik soll ja eigentlich eine Brücke zwischen den beiden anderen Disziplinen herstellen. Leider wurde diese Hoffnung nicht erfüllt: Die Wirtschaftsinformatiker betrachteten sich entweder primär als BWL-Studierende oder als Informatiker, so dass sich bei ihnen die gleichen Kommunikationsprobleme ergaben. Eine Brückenfunktion konnten die Studierenden der Wirtschaftsinformatik deswegen zu unserem Bedauern nicht realisieren. Interdisziplinäre Projektveranstaltungen auf einem derartigen Anspruchsniveau sind natürlich nur in der Universität realisierbar. Die Grundidee dieser Veranstaltungen jedoch lässt sich durchaus in die Schule übertragen, wenn man sich beispielsweise für ähnliche Themen aus der BWL vorstellt, Schüler aus Informatikkursen und aus Kursen der Wirtschafts- und Sozialwissenschaften zusammen zu bringen. Nach den Aussagen unserer Studenten lohnen sich derartige Veranstaltungen für beide Gruppen: Die Wirtschaftsstudenten haben gelernt, wie wichtig es für sie ist, ihre Probleme in einer präzisen Sprache darzustellen. Dies ist nicht nur erforderlich, um von Informatikern überhaupt verstanden zu werden, sondern nach den Aussagen der BWL-Studierenden auch für sie selbst äußerst relevant, um die eigenen Probleme hinreichend genau erfassen zu können. Entsprechend war es für die Informatikstudenten äußerst wichtig, zu lernen, wie potentielle Anwender der von den Informatikern entwickelten Programme denken, welche Anwendungsbedürfnisse sie haben und wie wesentlich eine ständige Kommunikation bereits während des eigentlichen Entwicklungsprozesses ist. Dass eine derartige Kommunikation zwischen Entwicklern und Anwendern äußerst hilfreich ist, steht eigentlich in jedem Lehrbuch zum IT-Projektmanagement. Was das jedoch konkret bedeutet, lernten die Informatikstudenten erst durch die eigenen praktischen Erfahrungen in unserem Lehrprojekt. Man kann sich unschwer vorstellen, wie diese praktischen Erfahrungen auch zumindest ansatzweise in entsprechenden Projekten in der Schule vermittelt werden können.
125
Es sei nicht verschwiegen, dass es für das Gelingen dieser interdisziplinären Projektveranstaltung sicher sehr hilfreich war, dass wir für den Modellierungs- und Informatikkomplex der Veranstaltungen unsere eigenen Lehrbücher und zusätzlich einen eigenen Online Kurs zu Software- und Qualitätsmanagement zur Grundlage machen konnten. Einige Resultate aus diesen Veranstaltungen sind übrigens publiziert in Klüver und Klüver 2011b.
276
3 Lernen, Künstliche Intelligenz und soziales Milieu
Ein völlig anderer Versuch unsererseits, interdisziplinären Projektunterricht auch für die Schulen aufzubereiten, bestand in einer Veranstaltung zum Thema „Interdisziplinärer Projektunterricht“ darin, das im vorigen Kapitel skizzierte Modell für ein entsprechendes Schulprojekt aufzubereiten. Die Teilnehmer dieser Veranstaltung waren ausnahmslos Lehramtsstudenten der Informatik mit verschiedenen Fächerkombinationen, u. a. Fächer wie Mathematik, Wirtschafts- und Sozialwissenschaften und Religion. Die Konzeption dieser Veranstaltung sah vor, dass die Studierenden sich mit dem Gesamtmodell vertraut machten, sich anschließend in Gruppen je nach ihren zusätzlichen Fächern aufteilten und aufgrund spezieller „Sachanalysen“ zusammenstellten, welche inhaltlichen Informationen Schüler (der Oberstufe) brauchen, um die verschiedenen Dimensionen des Modells verstehen und um mit dem Modell selbst Experimente durchführen zu können. Zur Verdeutlichung soll das Modell, der Socio-Cultural-Cognitive Algorithm“ (SCCA) noch etwas inhaltlicher beschrieben werden. Das – zugegebenermaßen recht ehrgeizige – Ziel des SCCA besteht darin, ein mathematisches Modell der soziokulturellen Evolution, also der historischen Entwicklung ganzer Gesellschaften zu liefern. Die dabei verwendeten formalen Techniken haben wir im Wesentlichen bereits dargestellt. Die inhaltlichen und theoretischen Prämissen sind dabei: Gesellschaftliche Entwicklungen basieren auf den Lernprozessen der Mitglieder dieser Gesellschaften; dabei sind die sozialen Strukturen entweder für die individuellen Lernprozesse förderlich oder hemmend. Das soziale Milieu wirkt sich also auf die Lernprozesse aus. Gleichzeitig können die Lernprozesse jedoch auch die sozialen Strukturen verändern, so dass man von einer ständigen Rückkoppelung zwischen individuellen Lernprozessen und den Milieubedingungen sprechen kann. In der Sprache der klassischen Philosophie, die beispielsweise auch noch Klafki benutzte, kann man auch von einer Dialektik zwischen Lernen und Milieu sprechen. Wenn Lernprozesse sich spezialisieren, dann entstehen soziale Rollen, die ihrerseits ein Fortschreiten der Spezialisierung bewirken. Man kann auch sagen, dass die Entstehung und die Übernahme sozialer Rollen sowie deren Verhältnis zueinander den sozialen Evolutionsprozess darstellen. Für die generelle Entwicklungsfähigkeit einer Gesellschaft ist nun entscheidend, in welchem Maße die einzelnen Rollen bzw. deren Inhaber unabhängig von der Beeinflussung durch die Inhaber anderer Rollen sind und sich entwickeln können. Je unabhängiger die Inhaber bestimmter Rollen von den Einflüssen sind, die Inhaber anderer Rollen auf sie ausüben, desto größer ist das Entwicklungspotential dieser Gesellschaft und umgekehrt. Gleichzeitig gilt, dass die Lernmöglichkeiten von Rolleninhabern zu-
3.8 Möglichkeiten eines interdisziplinären Projektunterrichts
277
sätzlich verbessert werden, wenn die einzelnen Rolleninhaber sich kooperativ zusammenschließen können.126 Ein berühmtes Beispiel für diese Überlegungen ist die Entstehung der neuzeitlichen Wissenschaften in der Renaissance und der Aufklärung. Im mittelalterlichen Europa gab es zwar schon Universitäten, aber noch keine Wissenschaft im modernen Sinne des Wortes, sondern eine an Theologie und antiker Philosophie orientierte Gelehrsamkeit – die Scholastik.127 Mathematisch-naturwissenschaftliche Forschung fand nur vereinzelt statt und die ersten Naturwissenschaftler hatten sich streng an den religiösen und traditionellen Vorgaben der Kirche zu halten. In dem Sinne wurden die langsam entstehend sozialen Rollen des Wissenschaftlers im modernen Sinne stark beeinflusst von den kirchlichen Vorgaben. Berühmte Beispiele dafür sind etwa Kopernikus, der seine eigenen Forschungen nicht zu veröffentlichen wagte, und Galilei, der von der kirchlichen Inquisition gezwungen wurde, seine Erkenntnisse zu widerrufen. Erst die Entstehung wissenschaftlicher Akademien und der gleichzeitige Machtverlust der katholischen Kirche führten dazu, dass sich die Inhaber wissenschaftlicher Handlungsrollen emanzipieren und gleichzeitig durch die Organisation in Akademien kontinuierlicher zusammenarbeiten konnten. Als Ergebnis entstand die moderne Wissenschaft, die zwar durch rechtliche Vorgaben vom Staat in Grenzen gehalten wird, wie etwa bei der Embryonenforschung, aber ansonsten ihre Denkinhalte und Methoden autonom bestimmt. Gleichzeitig ist diese Dynamik wissenschaftlicher Entwicklung ein wesentlicher Motor für die Evolution der modernen Gesellschaften gewesen und ist es immer noch.128 Die folgenden Abbildungen zeigen einige Ergebnisse verschiedener Simulationen: Die Bilder sollen vor allem den Unterschied zu der prototypischen Version des vorigen Kapitels zeigen und einen Eindruck davon vermitteln, welche Möglichkeiten für einen auf dem Gesamtmodell aufbauenden Projektunterricht enthalten sind. 126
Diese beiden Aspekte kann man mathematisch zusammengefasst als Maß für die Entwicklungsfähigkeit einer Gesellschaft definieren, der sog. Evolutionäre Parameter, aber das nur nebenbei. 127 Wir stellen hier eine sehr komplexe Entwicklung nur sehr holzschnittartig dar; für Details sei u. a. verwiesen auf Klüver 2002. „Scholastik“ leitet sich übrigens vom lateinischen Wort „scholar“, nämlich Schüler, ab und charakterisiert ein Denken, das in „Schulen“ des Denkens, orientiert an Meistern und den traditionellen Schriften, stattfand. Demgegenüber verstehen wir unter neuzeitlicher Wissenschaft vor allem die Entwicklung der modernen Mathematik, der Naturwissenschaften sowie der Technik- und Wirtschaftswissenschaften. 128 Der bereits erwähnte Jürgen Habermas bezeichnete einmal Wissenschaft und Technik als „erste Produktivkraft“. Entsprechend determiniert die wissenschaftlich-technische Entwicklung die der Gesellschaften und umgekehrt.
278 ȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱř Lernen, Künstliche Intelligenz und soziales Milieu
Abbildung 3-17: Kognitive Entwicklung zweier Lerner
Abbildung 3-18: Entwicklung der Sozialstruktur nach 330 Iterationen
3.8 Möglichkeiten eines interdisziplinären Projektunterrichts
279
Die hier skizzierte Modellierung soziokultureller Evolutionen durch den SCCA kann natürlich die gesamte Komplexität der realen Prozesse nur stark reduziert erfassen. Das ist der Preis, den man immer bei der Modellierung von derart komplexen Phänomenen zu zahlen hat. Das Modell jedoch ist auch so noch komplex genug und der Versuch, den SCCA als Fundament für einen interdisziplinären Projektunterricht zu nehmen, kann demnach von Organisatoren und den Schülern nur arbeitsteilig angegangen werden. Die erwähnten Lehramtsstudenten, die diese Aufgabe durchführen sollten, organisierten sich entsprechend in einer fachbezogenen Arbeitsgruppe und arbeiteten ansonsten alleine ebenfalls fachbezogen, um die erwähnte Sachanalyse durchführen zu können. Dies waren im Wesentlichen die folgenden Themen: Die Gruppe von Studierenden mit dem Zweitfach Mathematik stellte die mathematischen Grundlagen zusammen, die für das technische Verständnis des SCCA erforderlich sind. Diese Grundlagen sind insbesondere das Verständnis der Zellularautomaten und der neuronalen Netze sowie einige Grundbegriffe der linearen Algebra, nämlich das Rechnen mit Matrizen; das ist für die Operationsweise der BAM-Netze wichtig. Ein weiterer Teilnehmer betätigte sich historisch, indem er Material zum Verhältnis von Kirche und Staat in der europäischen Geschichte aufbereitete. Die oben erwähnte Grundthese des SCCA, dass gesellschaftliche Entwicklung wesentlich durch die Freiheit sozialer Rollen von anderen Einflüssen bestimmt wird, hatte dieser Studierende konsequent an dem fundamentalen Aspekt der Emanzipation „weltlicher“ Rollen von religiösen Autoritäten konkretisiert (s. auch das obige Beispiel von der Entstehung neuzeitlicher Wissenschaft). Ein dritter Teilnehmer stellte Material zum sozial bedingten Lernen in Organisationen und innerhalb bestimmter sozialer Milieus zur Verfügung, also eine Konkretisierung der Annahme für den SCCA, dass individuelle Lernprozesse, in Abhängigkeit von sozialen Verhältnissen, der eigentliche Motor der Geschichte sind. Ein anderer Teilnehmer schließlich beschäftigte sich anhand wissenschaftssoziologischer Texte mit dem Einfluss der emanzipierten neuzeitlichen Wissenschaft auf gesellschaftliche Entwicklung – die Veränderung sozialer Verhältnisse also durch die Ergebnisse individueller Lernprozesse. Der SCCA thematisiert natürlich noch mehr Aspekte, aber die Studierenden hatten bereits mit diesen Aufgaben mehr als genug zu tun. Diese Hinweise zu den verschiedenen Arbeitsgruppen und einzelnen spezialisierten Studenten verdeutlichen hoffentlich, wie eine um den SCCA zentrierte interdisziplinäre Projektwoche aussehen könnte. Die Schüler haben erst einmal die Möglichkeit, wie die Studierenden, sich mit dem Gesamtmodell vertraut zu machen. Anschließend erlernen sie die mathematisch-technischen Grundlagen, erwerben historische, lerntheoretische und soziologische Kenntnisse und können dann selbst Experimente mit dem SCCA machen. Dieser enthält verschiedene Parametereinstellungen, durch die Benutzer beispielsweise individuelle Lernfähig-
280
3 Lernen, Künstliche Intelligenz und soziales Milieu
keiten der künstlichen Lerner vorgeben können. Entsprechend können positive und negative Einwirkungen der jeweiligen Umwelt auf die Lerner festgesetzt werden, die Beziehungen zwischen den Inhabern verschiedener und gleicher Rollen können unterschiedlich fixiert werden und andere Möglichkeiten mehr. Die Logik historischer Prozesse, in Abhängigkeit von individuellen Lernprozessen, kann dadurch im SCCA präzise erfasst, durch unterschiedliche Parametereinstellungen variabel gestaltet werden und dadurch sehr konkret erfahren werden. Natürlich ersetzt ein solches Programm wie der SCCA nicht die zusätzliche Beschäftigung mit herkömmlichem Lehrmaterial. Die im SCCA thematisierten Aspekte müssen durch zusätzliches Material, das Grundlagen vermittelt und weiterführende Aspekte darstellt, systematisch ergänzt werden. Sonst besteht die Gefahr, dass der SCCA als eine interessante Variante von Computerspielen ohne wesentliche Lernerfolge verwendet wird. Der SCCA ersetzt nicht herkömmliche Lernmaterialien, sondern ergänzt diese durch die zusätzliche Möglichkeit, die verschiedenen Lernprozesse und sozialen Interaktionen selbst gestalten und steuern zu können. Insofern ist auch ein so anspruchsvolles Programm wie der SCCA durchaus als eine elaborierte Form von „Edutainment“ zu verstehen. Wichtig dabei ist jedenfalls, dass die Möglichkeit zum eigenen Handeln in einer künstlichen Welt nicht nur die Lernmotivation fördern dürfte, sondern auch einen Blick für den Zusammenhang zwischen scheinbar so verschiedenen Prozessen wie gesellschaftlichen Entwicklungen und individuellen Lernprozessen ermöglicht. Insofern können durch die Verwendung eines solchen Programms als Basis für einen interdisziplinären Projektunterricht Lernziele angestrebt werden, die nur auf der Basis herkömmlichen Lernmaterials nicht möglich wären. Allerdings setzt dies von Seiten der Lehrenden, die eine derartige Projektwoche durchführen würden, voraus, dass sie auf eben diesen Zusammenhang achten und den Lernenden die Einsicht in komplexe Dynamiken als Lernziel verdeutlichen. Dies beinhaltet auch eine präzise Zeitplanung. Bei unserer eigenen Veranstaltung stellten wir leider fest – selbstkritisch gestanden –, dass die Studierenden gewissermaßen in ihren fachbezogenen Themen verschwanden. Die Aufbereitung der einzelnen Fachinhalte nahm die Studierenden derart gefangen, dass sie die interdisziplinäre Dimension des Ganzen aus dem Blick verloren. Da wir nicht rechtzeitig gegengesteuert hatten, fehlte am Ende die Zeit für systematische Gesamtbetrachtungen. Wir erwähnen diesen pädagogischen Schönheitsfehler vor allem deshalb, weil gerade bei so schwierigen Lehrformen der Zeitfaktor und die Notwendigkeit von Gesamtübersichten als gar nicht wichtig genug eingeschätzt werden können. Das Seminar war deswegen kein Misserfolg, aber zeigte uns die Notwendigkeit eigener Steuerungen gerade bei so anspruchsvollen Projekten.
3.8 Möglichkeiten eines interdisziplinären Projektunterrichts
281
Der SCCA ist natürlich ein ziemlich anspruchsvolles Programm und ein interdisziplinärer Projektunterricht mit diesem Programm als Kern ist eine entsprechend aufwendige Angelegenheit; realisieren lässt sich ein derartiges Projekt sicher nur im Rahmen einer Projektwoche, an der sich Lehrer aus Informatik, Mathematik, Religion, Geschichte, Philosophie sowie Sozial- und Erziehungswissenschaften beteiligen können und sollten. Interdisziplinäre Projekte mit geeigneten Computerprogrammen lassen sich sicher auch weniger anspruchsvoll realisieren – sei es in Kooperation mit einem Kollegen aus einem anderen Fach oder alleine durchgeführt, indem das eigene Zweitfach herangezogen wird. Als mögliche Beispiele lassen sich hier nennen: x Modelle chemischer Prozesse in Form von Zellularautomaten, bei denen Wechselwirkungen von Atomen und Molekülen sowie die Verbindungen von Molekülen zu neuen Substanzen simuliert werden;129 x Analyse gruppendynamischer Prozesse (s. Teil 2) durch Zellularautomaten in Kooperation mit Kollegen aus den Sozial- und Erziehungswissenschaften; die Schüler könnten hier beispielsweise durch eigene Erhebungen in anderen Klassen bzw. Kursen Moreno-Matrizen erstellen und diese zur Basis der Simulationsprogramme machen. Das ergibt erste Einführungen in empirische Sozialforschung. x Entstehung religiöser Weltbilder und fundamentalistischer Weltanschauungen, modelliert durch ein SEN, in Kooperation mit Kollegen aus den Religionswissenschaften; x Sozialisation als Entstehung von Weltbildern in einer entsprechenden Umgebung (s. Teil 2), modelliert durch ein SEN, in Kooperation mit Kollegen aus der Erziehungswissenschaft und/oder ggf. der Psychologie; x Entstehung von Sprachgemeinschaften durch individuelle Aneignung und Weitergabe sprachlicher Symbole, modelliert durch einfache Versionen des SCCA, in Kooperation mit Kollegen aus den Sprachwissenschaften; x Generierung mathematischer Strukturen durch spezielle Computerprogramme in Kooperation mit Kollegen aus der Mathematik;130
129 130
Beispiele für derartige Modelle finden sich u. a. in Gerhardt und Schuster 1995. Wir haben ein Programm entwickelt, das eine Menge von bestimmten Wörtern zu einem sog. metrischen Raum macht; Zweck des Programms ist eine Lösung der Aufgabe, durch Vertauschung eines Buchstabens von einem Wort zu einem anderen Wort zu kommen, beispielsweise REGEN – REGEL – REGAL – LEGAL. Damit wird ein vergleichsweise abstrakter topologischer Begriff wie der des metrischen Raumes unmittelbar anschaulich. Interessenten stellen wir das Programm gerne zur Verfügung; eine Beschreibung findet sich in Klüver et al. 2011c.
282
3 Lernen, Künstliche Intelligenz und soziales Milieu
x Lösung von Managementproblemen im Wirtschaftsbereich durch entsprechende Programme wie in den erwähnten Modellierungsveranstaltungen in Kooperation mit Kollegen aus den Wirtschaftswissenschaften; Anregungen dazu finden sich u. a. in Klüver und Klüver 2011b; x Optimierungen technischer Systeme wie z. B. Kabelnetze durch evolutionäre Algorithmen in Kooperation mit Kollegen aus den Technikwissenschaften; x Simulation kognitiver Prozesse in Kooperation mit Kollegen aus den Erziehungswissenschaften und der Psychologie. Diese kleine Liste ist selbstverständlich nahezu beliebig verlängerbar, was wir hier der didaktischen Phantasie unserer Leser überlassen. Entscheidend dabei ist immer, dass Themen aus einem bestimmten Fach (oder mehreren) herangezogen werden und dass durch Verwendung entsprechender Simulationsprogramme den Schülern die Möglichkeit gegeben wird, eigene Computerexperimente durchzuführen, also teilweise selbstständig zu arbeiten. Wünschenswert ist zusätzlich, dass wie im gruppendynamischen Beispiel die Schüler ebenfalls aktiv an der Aufbereitung der Inhalte arbeiten, die dann die eigentliche Basis für die Programme sind. Damit ließen sich Aspekte des entdeckenden und auch forschenden Lernens interdisziplinär realisieren. Indem man Computerprogramme ins methodische Zentrum derartiger Lehr- und Lernprojekte stellt, wird deutlich, inwiefern hier in der Tat Lernziele realisiert werden können, die nur durch herkömmliche Lernmaterialien so nicht erreichbar sind. Sachverhalte, die sonst nur verbal und dann meistens relativ abstrakt dargestellt werden, lassen sich durch Visualisierungen unmittelbar anschaulich verdeutlichen; komplexe Dynamiken wie soziale Gruppenprozesse oder chemische Reaktionen lassen sich nicht nur im Computer darstellen, sondern sie können durch eigene Parametervariationen auch experimentell untersucht werden. Wir erwähnten am Ende von Teil 2, dass dies vielleicht sogar der entscheidende Beitrag des Computers zur Unterstützung von Lernprozessen ist: Es geht nicht so sehr darum, ob ein computergestützter Unterricht herkömmliche Lehr- und Lernformen effektiver macht; das ist nach wie vor umstritten. Man sollte dagegen viel mehr überlegen, inwiefern die Verwendung von Computerprogrammen Unterricht in dem eben beschriebenen Sinne durch die Möglichkeit ganz neuer Lernziele reicher machen kann.
Epilog Wir erwähnten im Vorwort, dass dies Buch die Summe unserer pädagogischen Erfahrungen und Einsichten darstellt, die wir in langjähriger Lehr- und Forschungspraxis gewonnen haben. Nun ist Lehre, vor allem wenn sie zu den Routineaufgaben des eigenen Berufs gehört, häufig eine recht frustrierende und auch ermüdende Tätigkeit: Wieso haben die „Objekte unseres pädagogischen Handelns“ diese einfachen Sachverhalte noch immer nicht begriffen? Dass Lehrende zuweilen an ihren Schülern und Studierenden verzweifeln – und diese an den Lehrenden –, ist auch uns natürlich nicht erspart geblieben. Wir wissen selbst, dass Lehren zu den gesellschaftlich wichtigsten Aufgaben gehört, die man sich überhaupt vorstellen kann. Aber diese Einsicht hilft häufig in den Irritationen des Alltags nicht so recht weiter und es sei nicht verschwiegen, dass die Einrichtung des Forschungsfreisemesters an den Universitäten von uns auch als willkommene Entlastung von Lehraufgaben empfunden wurde. Wenn wir also behaupten wollten, dass wir unsere Lehrtätigkeit immer als reine Beglückung empfunden hätten, dann wäre es eine schlichte Lüge und außerdem würde uns ohnehin niemand glauben. Von daher hätte diese Bestandsaufnahme unserer eigenen pädagogischen Erfahrungen auch etwas melancholisch ausfallen können. Wenn wir jedoch zu einer negativen Bilanz gekommen wären, hätten wir dies Buch erst gar nicht geschrieben. Natürlich kann Lehre, als notwendige Routine durchgeführt, auch ermüdend sein. Wir hatten allerdings sehr häufig, wenn auch natürlich nicht immer, die Möglichkeit, das zentrale Motto der klassischen deutschen Universität in unserer Lehre zu realisieren, nämlich die berühmte Einheit von Lehre und Forschung. Nicht wenige unserer wichtigsten Forschungsprojekte sind in enger Verzahnung mit unseren Lehrveranstaltungen entstanden und sind durch einschlägige Seminar-, Projekt- und Abschlussarbeiten vieler engagierter Studierender wesentlich befruchtet worden. Der in den beiden vorigen Kapiteln dargestellte SCCA ist nur ein Beispiel, wenn auch natürlich eines der anspruchsvollsten. Das gleiche gilt für die erwähnten Modellierungsseminare. Dass dadurch unsere Lehrmotivation entscheidend gesteigert wurde, braucht wohl nicht weiter erwähnt zu werden. Eine derartige Verzahnung von Forschung und Lehre ist so freilich zwar nur an einer Universität möglich; wir glauben jedoch, dass ähnliche Möglichkeiten auch an Schulen vorhanden sind. Das zentrale Motiv für dies Buch war (und ist) jedoch die schöne Erfahrung, dass Lehre nicht nur meistens eine befriedigende Tätigkeit ist – vor allem wenn man sich selbst gerne reden hört –, sondern sogar ausgesprochen beglückend sein kann. Nicht wenige Schüler, Studierende und Teilnehmer an Kursen in der Erwachsenenbildung haben uns explizit oder auch indirekt gesagt, wie wichtig, interessant C. Klüver, J. Klüver, Lehren, Lernen und Fachdidaktik, DOI 10.1007/978-3-8348-8659-0, © Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2012
284
Epilog
und auch angenehm unsere Lehrveranstaltungen für sie waren. Wenn man dann sogar Aussagen hört wie „Sie haben mir das Leben gerettet“ (das Leben als Lernender natürlich) und man erfährt, dass am Ende erfolgreiche Studierende eigentlich schon das Studium aufgeben wollten, bevor sie in unsere Lehrveranstaltungen kamen, dann weiß man, warum man sich immer wieder pädagogisch engagiert hat. Ein sehr guter Student sagte beispielsweise nach Abschluss seiner Diplomarbeit, dass wir daran „schuld“ seien, dass es ihm nicht mehr reicht, nur ein Diplom zu haben – er wollte plötzlich mehr – und ging in die Forschung. Ein anderer äußerte sich in eine ähnliche Richtung, denn er interessierte sich für Interdisziplinarität, da wir in dieser Hinsicht als Modell dienten. Das sind gewiss mit die glücklichsten Momente im Leben eines Lehrenden. Aber auch die erfolgreichen Bemühungen, nur mittelmäßige Lernende zu guten Abschlüssen zu bringen, sind der Mühe wert. Förderung durch Lehre wird häufig vor allem darin verstanden, denjenigen Lernenden besonders zu helfen, die Probleme beim Lernen haben. Das ist auch sicher eine richtige Maxime. Die guten und besonders guten Lernenden jedoch verdienen entsprechendes Engagement ebenso, denn nur dann können sie, wie der erwähnte Student, gewissermaßen über sich hinaus wachsen. Förderung der Schwachen und der Starken ist keine Alternative, sondern sollte eigentlich als Selbstverständlichkeit für alle Gruppen von Lernenden vorhanden sein. Die uns dabei entgegen gebrachte Dankbarkeit war für uns in allen Fällen eine schöne Erfahrung. Natürlich gab es auch zahlreiche Lernende, die mit uns aus den unterschiedlichsten Gründen nicht so gut zurecht kamen. Wir wollen diesen Gründen gar nicht nachgehen, auch wenn es schon etwas seltsam wirkte, dass beispielsweise dem Autor auf einer universitären Seite „My Prof“ anonym unterstellt wurde, er hätte Minderwertigkeitskomplexe und achte deswegen besonders auf Disziplin. Eine andere hübsche Unterstellung war die Verkündung einer universitären Frauengruppe – auch anonym natürlich –, dass es sich beim Autor um einen Frauenfeind handele. Derartige kuriose Anekdoten wären vermehrbar und vermutlich können viele Lehrende derartige Formen von Kritik aus eigenen Erfahrungen berichten. Unter dem berühmten Strich jedenfalls ist die Bilanz für uns ausgesprochen positiv. Die zahlreichen Flaschen Wein, die uns nach glücklich bestandenen Examina dankbar überreicht wurden, haben vielleicht unseren Lebern etwas geschadet, aber uns gezeigt, dass Lehre eben doch eine sehr schöne Sache sein kann. Vielleicht kann dies Buch andere Lehrende und Studierende, die noch Lehrende werden wollen, dazu ermuntern, mehr das Angenehme als das Irritierende an diesem Beruf zu sehen.
Epilog
285
Am Ende soll ein Versprechen nicht fehlen, dass die Autorin den Schülern der Schule gegeben hatte, an der sie mehrere Jahre unterrichtet hatte. Als sie den Schülern mitteilte, dass sie die Schule verlassen würde, um ganz an die Universität zu gehen, wurde die Autorin zuweilen geradezu flehentlich gebeten, doch zu bleiben. Die Schüler würden dann auch immer sehr brav sein. Das konnte die Autorin nicht erfüllen, aber sie versprach den Schülern, sich stets um ihren Beitrag für eine Verbesserung der Lehrerausbildung zu kümmern, damit möglichst viele Schüler (noch) bessere Lehrer erhalten. Mit diesem Buch hofft die Autorin, ihr Versprechen erfüllt zu haben. Hoffentlich sehen die Leser dieses Buches das ganz genauso.
Literatur Axelrod, R., 1997: Advancing the Art of Simulation in the Social Sciences. In: Conte, R., Hegselmann, R., and Terna, P. (eds.): Simulating Social Phenomena. Berlin-Heidelberg-New York: Springer Bandura, A., 1971: Social Learning Theory. New York: General Learning Pr Bea, F. X., Scheurer, S., Hesselmann, S., 2008: Projektmanagement. Stuttgart: Lucius & Lucius Verlag Berger, P. L., Luckmann, T., 1977: Die gesellschaftliche Konstruktion der Wirklichkeit. Frankfurt a.M.: Fischer Bloom, B.S., 1972: Taxonomie von Lernzielen im kognitiven Bereich. Weinheim: Beltz Bodanis, D., 2001: Bis Einstein kam. Die abenteuerliche Suche nach dem Geheimnis der Welt. Stuttgart: Deutsche Verlags-Anstalt Bothe, H.-H., 1998: Neuro-Fuzzy-Methoden. Einführung in Theorie und Anwendungen. Heidelberg: Springer Bourdieu, P., 1982: Die feinen Unterschiede. Kritik der gesellschaftlichen Urteilskraft. Frankfurt/Main: Suhrkamp Bower G. H., Hilgard, E.R., 1981: Theories of Learning. In: Lenzen, D. (Hg), 1993: Pädagogische Grundbegriffe, Bd. 2, Stuttgart: Klett-Cotta Bower G. H., Hilgard, E. R., 1984: Theorien des Lernens. In: Gudjons, H., 1995: Pädagogisches Grundwissen. Bad Heilbrunn: Julius Klinkhardt Burkart, J., 2004: Bedeutung und Information. Mathematische Aspekte der Kommunikation. Magisterarbeit Universität Duisburg-Essen Collins, A. M., Quillian, M. R., 1969: Retrivel time from semantic memory. Journal of Verbal Learning and Verbal Behavior 1969: 8 Craik, F., Lockhart, R. S., 1972: Levels of Processing: A Framework for Memory Research. Journal of Verbal Learning and Verbal Behavior 1972:11 Cube, F. v., 1971: Der kybernetische Ansatz in der Didaktik. In: Röhrs, H. (Hrsg.): Didaktik. Frankfurt/M: Akad. Verl.-Ges Dillenbourg P., Baker, P., Blaye, M., O’Malley, C., 1996: The evolution of research on collaborative learning. In: Reimann, P., Spada H., (Hrsg.): Learning in humans and machines. Towards an interdisciplinary learning science. Oxford: Pergamon Dreyfuss, H. L. und Dreyfuss, S. E., 1987: Künstliche Intelligenz. Reinbek: Rohwohlt Dudel J., Menzel, R., Schmidt, R.F., (Hrsg.), 2001: Neurowissenschaft. Vom Molekül zur Kognition. Berlin, Heidelberg: Springer Duden Informatik A – Z, 2006: Fachlexikon für Studium, Ausbildung und Beruf. Bearbeitet von Claus, V. und Schwill, A. Mannheim: Dudenverlag Durkheim, E., 1984: Erziehung und Gesellschaft. In: Erziehung, Moral und Gesellschaft. Frankfurt/M Suhrkamp Edelman, G., 1995: Göttliche Luft, vernichtendes Feuer. Wie der Geist im Gehirn entsteht. München: Piper Ewert, J.-P., 1998: Neurobiologie des Verhaltens. Bern: Huber Fahlman, S. E., 1989: Representing Implicit Knowledge. In: Hinton, G.E., Anderson, J.A., 1989, a.a.O. C. Klüver, J. Klüver, Lehren, Lernen und Fachdidaktik, DOI 10.1007/978-3-8348-8659-0, © Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2012
288
Literatur
Favre-Bulle, B., 2001: Information und Zusammenhang. Informationsfluß in Prozessen der Wahrnehmung, des Denkens und der Kommunikation. Wien: Springer Frege, G., 1969: Funktion, Begriff, Bedeutung. Fünf logische Studien. Göttingen: Vandenhoeck & Ruprecht Gardner, H., 1989: Dem Denken auf der Spur. Der Weg der Kognitionswissenschaft. Stuttgart: Klett-Cotta Geißler, H., 1995: Unterrichtsmethode. In: Haller, H.D., Meyer, H.: Enzyklopädie Erziehungswissenschaft. Ziele und Inhalte der Erziehung und des Unterrichts. Bd. 1 Stuttgart: Erst Klett Gerhardt, M. und Schuster, H., 1995: Das digitale Universum. Zelluläre Automaten als Modelle der Natur. Wiesbaden: Vieweg Görz, G. (Hrsg.), 1993: Einführung in die künstliche Intelligenz. Bonn: Addison Wesley Goscinny, R. und Uderzo, A., 1965 ff: Asterix der Gallier und weitere Bände. Stuttgart: DELTA Verlag Greene, B., 2002: Das elegante Universum. Superstrings, verborgene Dimensionen und die Suche nach der Weltformel. Berlin: Berliner Taschenbuch Verlag Grzesik, J., 2002: Operative Lerntheorie. Neurobiologie und Psychologie der Entwicklung des Menschen durch Selbstveränderung. Bad Heilbrunn: Julius Klinkhardt Habermas, J., 1973: Stichworte zu einer Theorie der Sozialisation. In: Habermas, J., Kultur und Kritik. Frankfurt/Main: Suhrkamp Habermas, J., 1981: Theorie des kommunikativen Handelns, Bde. I und II. Frankfurt/M: Suhrkamp Hebb, D. A., 1949: The organization of behavior. New York: Wiley Herrmann, J., 1997: Maschinelles Lernen und Wissensbasierte Systeme. Systematische Einführung mit praxisorientierten Fallstudien. Heidelberg: Springer Herrmann, M., 2008: Computersimulationen und sozialpädagogische Praxis. Falldarstellungen, Modellierungen und methodologische Reflexionen. Wiesbaden: VS Verlag Hinton, G.E., Anderson, J.A., (Eds.), 1989: Parallel Models of Associative Memory. Hillsdale, N. J.: Lawrence Erlbaum Associates Publishers Hofstadter, D., 1986: Metamagical Themas. Questing for the Essence of Mind and Pattern. Harmondsworth (UK): Penguin Books Holland, J. H., Holyoak K. J., Nisbett, R. E., Thagard, P., 1986: Induction. Cambridge (MA): MIT Press Homans, G. C., 1950: The Human Group. New York: Harcourt Brace Jovanovich Howard, R. W., 1995: Learning and Memory. Major Ideas, Principles, Issues and Applications. Westport: Praeger Hügli, A., Lübcke, P., (Hrsg.), 1998: Philosophielexikon. Reinbeck: Rowohlt Hull, C. L., 1920: Quantitative Aspects of the Evolution of Concepts. Psych. Monogr. 123 Jensen, A. R., 1972: Genetics and Education. New York: Basic Books Kamin, L., 1979: Der Intelligenzquotient in Wissenschaft und Politik. Darmstadt: Steinkopff Kandel, E., 2006: Auf der Suche nach dem Gedächtnis. Die Entstehung einer neuen Wissenschaft des Geistes. München: Siedler Kauffman, S., 1996: Der Öltropfen im Wasser. München: Piper
Literatur
289
Klafki, W., 1971: Erziehungswissenschaft als kritisch-konstruktive Theorie. Hermeneutik, Empirie, Ideologiekritik. Zeitschrift für Pädagogik 17, 251–385 Klafki, W., 1991: Neue Studien zur Bildungstheorie und Didaktik. Zeitgemäße Allgemeinbildung und kritisch-konstruktive Didaktik. Weinheim: Beltz Klüver, J. (2002): An Essay Concerning Socio-Cultural Evolution. Theoretical Principles and Mathematical Models. Dordrecht: Kluwer Academic Publishers Klüver, J. und Schmidt, J., 2006: Recent Results on Ordering Parameters in Boolean Networks. In: Complex Systems vol. 17, 1 & 2 Klüver, J., Stoica, C., Schmidt, J., 2006: Computersimulationen und soziale Einzelfallstudien. Eine Einführung in die Modellierung des Sozialen. Witten-Herdecke: w3l Klüver, J., Klüver, C., 2007: On Communication. An Interdisciplinary and Mathematical Approach. Dordrecht (NL): Springer Klüver, J., Klüver, C., 2011a: Social Understanding. On Hermeneutics, Geometrical Models and Artificial Intelligence. Dordrecht (NL): Springer Klüver, C., Klüver, J., 2011b: IT-Management durch KI-Methoden und andere naturanaloge Verfahren. Wiesbaden: Vieweg+Teubner Klüver, J., Schmidt, J., Klüver, C., 2011c: Mathematisch-logische Grundlagen der Informatik. Von der Aussagenlogik bis zur Komplexitätstheorie. 2. überarbeitete Auflage. WittenHerdecke: w3l Kohonen, T., Oja, E., Lehtiö, P., 1989: Storage Processing of Information in Distributed Associative Memory. In: Hinton, G-E., Anderson, J.A., 1989 Kron, F. W., 1993: Grundwissen Didaktik. München: Reinhardt Lakoff, G., 1987: Women, Fire and Dangerous Things. What Categories reveal about the Mind. Chicago und London: The University of Chicago Press Lakoff, G. und Núñez, R. E., 2000: Where Mathematics Comes From. New York: Basic Books Lemke, G., 1995: Lernziel und Lernzieltaxonomie. In: Haller, H. D., Meyer, H.: Enzyklopädie Erziehungswissenschaft. Ziele und Inhalte der Erziehung und des Unterrichts. Stuttgart: Erst Klett, Bd. 3 Lewitt, E. E., 1987: Die Psychologie der Angst. Stuttgart: Klett-Cotta Mainzer, K., 1997: Gehirn, Computer, Komplexität. Berlin: Springer Martinez, J. L. und Kesner, R. P. (Eds.), 1998: The neurobiology of learning and memory. San Diego, CA: Academic Press McCulloch, W. S. and Pitts, W., 1943: A logical calculus of the ideas immanent in nervous activity. In: Bulletin of Mathematical Biophysic 5, 115–133 McLeod, P., Plunkett, K., Rolls, E. T., 1998: Introduction to Connectionist Modelling of Cognitive Processes. Oxford: Oxford University Press Möller, C., 1989: Die curriculare Didaktik. In: Gudjons, H., Teske, R., Winkel, R. (Hg.), 1989: Didaktische Theorien. Hamburg: Bergmann + Helbig MSWWF 1999: Ministerium für Schule und Weiterbildung, Wissenschaft und Forschung des Landes Nordrhein Westfalen für die Gymnasiale Oberstufe. Düsseldorf: Ritterbach Parsons, T., 1976: Zur Theorie sozialer Systeme, hrsg. und eingeleitet von S. Jensen. Opladen: Westdeutscher Verlag Penrose, R., 1991: Computerdenken. Die Debatte um künstliche Intelligenz, Bewußtsein und die Gesetze der Physik. Heidelberg: Spektrum
290
Literatur
Peterßen, W. H., 1981: Lernziel: Begriff, Struktur, Probleme. In: In: Twellmann, W. (Hrsg), 1981: Handbuch Schule und Unterricht, Bd. 4.1. Düsseldorf: Pädagogischer Verlag Schwann Peterßen, W. H., 1989: Lehrbuch Allgemeine Didaktik. München: Ehrenwirth Piaget, J., 1972: The Principles of Genetic Epistemology. London: Routledge Pinker, S., 1996: Der Sprachinstinkt. München: Kindler Popper, K. R., 1994: Das Ich und sein Gehirn. München: Pieper Quillian, M. R., 1966: Semantic Memory. Cambridge (UK): Bolt, Beranek, and Newman Riedel, H., (Hrsg.), 1979: Standort und Anwendung der systemtheoretischen Didaktik. München: Kösel Ritter, H., Kohonen, T., 1989: Self-organizing semantic maps. In: Biological Cybernetics 61, 241–254 Rosch E., 1973: Natural Categories. In: Cognitive Psychology 4 (3), 328 – 350 Russel, S., Norvig, P., 2007: Künstliche Intelligenz: Ein moderner Ansatz. München: Pearson Studium Schelling, F. W. J., 1974: Vorlesungen über die Methode des akademischen Studiums. Hamburg: Felix Meiner Verlag Schmid, U., Kindsmüller, M.C., 1996: Kognitive Modellierung. Eine Einführung in die logischen und algorithmischen Grundlagen. Heidelberg, Berlin: Spektrum Akademischer Verlag Schulmeister, R., 1996: Grundlagen hypermedialen Lernsysteme. Theorie – Didaktik – Design. Bonn: Addison-Wesley Seel, N. M., 2000: Psychologie des Lernens. Lehrbuch für Pädagogen und Psychologen. München: Ernst Reinhardt Sejnowski, T. J., 1989: Skeleton Filters in the Brain. In: Hinton, G.E., Anderson, J.A., 1989, a.a.O. Shannon, C. E. und Weaver, W., 1976: Mathematische Grundlagen der Informationstheorie. München: Oldenbourg Skinner, B. F., 1938: The Behavior of Organisms. New York: Apppleton-Century-Crofts Spitzer, M., 1996: Geist im Netz. Modelle für Lernen, Denken und Handeln. Berlin: Spektrum Akademischer Verlag Stoica-Klüver, C., Klüver, J., Schmidt, J., 2007: Besser und erfolgreicher kommunizieren. Herdecke – Witten: w3l Stoica-Klüver, C., Klüver, J. und Schmidt, J., 2009: Modellierung komplexer Prozesse durch naturanaloge Verfahren. Wiesbaden: Vieweg + Teubner Strube, G., Becker, B., Freska, C., Hahn, U., Opwis, K., Palm, G., (Hrsg.), 1996: Wörterbuch der Kognitionswissenschaft. Stuttgart: Clett-Cotta Thorndike, E. L., 1932: The Fundamentals of Learning. New York: Columbia University Toynbee, A. (1934–1961): A Study of History (12 vols.). Oxford: Oxford University Press Tuckmann, B. W., 1965: Developmental Sequence in Small Groups. Psychological Bullein, 63, 384 – 399 Varela, F. J., 1991: Allgemeine Prinzipien des Lernens im Rahmen der Theorie biologischer Netzwerke. In: Schmidt, S.J. (Hrsg.): Gedächtnis. Probleme und Perspektiven der interdisziplinären Gedächtnisforschung. Frankfurt/M.: Suhrkamp
Literatur
291
Vester, F., 1990: Die Welt – ein vernetztes System. München: dtv Vester, F., 2001: Denken, Lernen, Vergessen. München: Deutscher Taschenbuch Verlag Vogel, P., 1995: Reduktion, didaktische. In: Haller, H. D., Meyer, H.: Enzyklopädie Erziehungswissenschaft. Ziele und Inhalte der Erziehung und des Unterrichts. Bd. 3. Stuttgart: Erst Klett Watzlawick, P., Beavin J. H., Jackson, D. D., 1985: Menschliche Kommunikation. Bern: Hans Huber Weber, M., 1973: Gesammelte Aufsätze zur Wissenschaftslehre. Tübingen: J.C.B. Mohr (Paul Siebeck) Weidenmann, B., 1993: Lernen – Lerntheorie. In: Lenzen, D. (Hrsg): Pädagogische Grundbegriffe, Bd. 2: Reinbeck: Rowohlt Taschenbuch Verlag Weizenbaum, J., 1977: Die Macht der Computer und die Ohnmacht der Vernunft. Frankfurt/M: Suhrkamp Wertheimer, M., 1964: Produktives Denken. Frankfurt/Main: Kramer Wiederhold, K. A., 1981: Die Artikulation des Unterrichts. In: Twellmann, W. (Hrsg), 1981: Handbuch Schule und Unterricht, Bd. 4.1. Düsseldorf: Pädagogischer Verlag Schwann Wiener, N., 1963: Kybernetik. Regelung und Nachrichtenübertragung im Lebewesen und in der Maschine. Düsseldorf: ECON Wittgenstein, L., 1953: Philosophische Untersuchungen. Frankfurt/Main: Suhrkamp Wittoch, M., 1975: Denken und Denkenlernen. In: Guss, K., (Hrsg): Gestalttheorie und Erziehung. Darmstadt: Steinkopff Verlag Wolfram, S., 2001: A New Kind of Science. Champagne (Ill.): Wolfram Media Zell, A., 2000: Simulation neuronaler Netze. München: Oldenbourg
Sachwortverzeichnis A Ähnlichkeit 49 f., 80, 83, 175, 203, 207, 244 ff., 249 f., 258 Akkommodation 52, 74, 76 ff., 81, 83, 91, 166, 170, 183 f., 244, 246 Aktivierung 58, 227 Aktivierungswert 63 f., 190, 203 Algorithmus 77, 176, 178, 190, 196, 209, 230, 263 Ambiguitätstoleranz 113, 121 analog 242 Analogie 49 f., 97, 98, 188, 258, 264 f. Analogieschluss 49 f. Analyse 11, 15 f., 28 f., 31, 34, 47, 56, 66, 79, 84, 111, 118, 120, 144, 146, 154 f., 167, 181, 187 f., 192, 205, 256, 259, 281 – didaktische 8 – experimentelle 159 Anderer, signifikanter 86 Angst 20, 23, 54 ff., 61, 118, 289 Anwendung 28, 34, 96, 102, 171, 175, 183 f., 189, 201, 209, 290 Äquilibration 74, 76, 166 Äquivalenz – funktionale 164 f., 167, 169 f., 196, 254 – strukturelle 164, 167, 169, 190, 196, 198, 254 f. Assimilation 52, 74, 76 ff., 91, 166, 170, 183 f., 246, 249 Attraktionsbecken 204 f., 233 Attraktor 204 ff., 218, 226 f., 231, 233, 249 Attribute 48 f., 79 ff., 91 ff., 203, 246, 249 f. Aufmerksamkeit 24, 30, 67, 69, 76, 84, 224, 228 ff. Aussagenlogik 7, 14, 42, 157, 289 Autorität 127, 153, 266
B Backpropagation 195 f. BAM-Netze 259 ff., 279 Bedeutung 12, 14, 28, 31, 33, 40, 45 ff., 51, 53 f., 68, 70 f., 73, 78, 81, 84, 99, 104, 119 f., 129, 135, 138, 140 f., 154 ff., 162,
187, 201, 206 f., 218, 220, 223, 225, 227 f., 232 ff., 240, 253, 257, 262, 273, 287 f. – exemplarische 155 Bedeutungsgrad 220 f., 225, 227 f., 234, 253 Bedeutungsradius 220 Bedingungsanalyse 7 f., 10, 16, 26, 155 f. Begabung 159, 234 ff., 241, 252 ff. Begriffe 14, 47 f., 66, 74, 78, 111, 136, 138, 179, 197 ff., 203, 215 ff., 223, 225, 247, 258 f., 261 ff., 268 Behaviorismus 39, 54, 56, 61, 78, 102, 162, 165 f., 185, 239, 242, 255 Beziehungsaspekt 136 f., 154 Beziehungsstruktur 144 Bezugsperson 86 Bildung 4, 33, 37 f., 50 f., 65, 106, 142, 154, 180, 182, 193, 203, 211, 238, 246, 259, 263 – funktionale 155 – materiale 155 Bildung 211 Bildungstheorie, neuhumanistische 210 f. Black Box 56, 59, 65, 78, 165, 200
C Church-Turing Hypothese 167 f. Clustergeometrie 218, 223, 253 Clusterstruktur 218 Computermodelle 50, 78, 159, 165, 270 Curriculum 33
D Deduktion 98 Denken 10, 41, 46, 66, 72, 110, 122 f., 161, 164 f., 170, 174 f., 179 f., 182, 187, 239, 244, 277, 288, 290 f. – als Beobachtender 71 – als Handelnder 71, 73, 152 – als Spielender 71 f. – hypothetisch-deduktives 45, 75 – interdisziplinäres 271 – logisches 45
C. Klüver, J. Klüver, Lehren, Lernen und Fachdidaktik, DOI 10.1007/978-3-8348-8659-0, © Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden GmbH 2012
294 – produktives 71 – regelgeleitetes 171 Dialektik 107, 276 Dichte 217, 220, 223 f., 254 didaktischer Ansatz – kybernetisch-systemtheoretischer 102 – lerntheoretischer 105 – lernzielorientierter 99 Diskrimination 51 ff., 55, 70, 76, 113, 157, 213 Disziplin 24, 71, 144, 189, 272, 284 Dualität 130 ff., 243 Dynamik 29, 145, 147, 149 ff., 166, 177, 179, 204 f., 209, 224, 248, 277
E Eigenschaften 44, 46, 78 f., 91, 92, 168, 202, 206, 209 f., 217, 244 Einzelfall 182 f., 186, 201, 203, 246 Elementar 155 Eliza 163 f. Empathie 18, 27, 113 f., 118 ff., 122, 127 f. Empfänger 68, 134 ff., 215 ff., 220, 223, 225 ff. Erinnern 41, 65, 241, 261 Erwachsenenbildung V, 1, 23 f., 28, 115, 125, 283 Erwartung 59, 119, 215, 222 Evaluation 11, 29, 32, 35, 101 Evolution 40 f., 43, 160, 176, 188, 209, 213, 277 – soziokulturelle 257, 276, 279, 287 f. exemplarisch 47, 272 Expertensysteme 157, 171 ff., 179 f., 203
F Fach V, 29, 33 f., 55, 85, 99, 156, 281 f. – Informatik 33 f., 85, 104, 159, 272 – Mathematik 55 – mathematisch-naturwissenschaftliches 271 – technisches 271 Fachdidaktik 3 ff., 16, 29, 103, 271 Fachkompetenz 10 Faktenbasis 172, 176, 180 Frontalunterricht 10, 26, 69, 73
Sachwortverzeichnis Frustrationstoleranz 113 Führungsstil 152 f. fundamental 37, 155 Funktionen 7, 14, 40 ff., 46, 107, 157, 177, 179, 209, 267
G Gedächtnis 42, 44, 50, 53, 228 f., 231 ff., 261, 288 Gegenwartsbedeutung 10, 30, 69, 155 f. Gen 238 Generalisierung 28, 30, 44, 48, 50 f., 53, 76 f., 81, 157, 183, 203, 206, 208, 211, 213 Geometrie 214, 218, 222, 246 f., 267 Gestalttheorie 70 ff., 76, 291 Gewichte 177 f. Gewichtsmatrix 80 f., 91, 185 f., 188, 208 ff., 212, 247 f., 260 Graph 57, 176, 217 Gruppenarbeit 10, 25, 30, 143, 150, 152, 154 Gruppenbildung 18, 24, 141, 152 Gruppendynamik 4, 18, 141, 143
H Handeln – kommunikatives 214 Handlungsplan 32 – algorithmischer 15, 72 – heuristischer 14, 72 f.
I Identität, persönliche 113 Identitätsbalance 127 f. Identitätsdarstellung 113, 125 Information 42, 44, 67 f., 70, 134, 136, 139, 156, 182, 192, 215, 287 ff. Informationsgrad 216, 220, 223, 225, 227 Informationsverarbeitung 45, 66 f., 70, 103, 184 Inhaltsaspekt 154 Input 62, 164, 170, 177 f., 182, 184 ff., 195, 197, 203, 207, 211, 219, 231, 248 Inputschicht 57 f., 177, 190, 195, 203 Intelligenz 14, 56, 61, 148, 162, 187, 236 f., 287 ff. – künstliche 159 ff., 170 f.
Sachwortverzeichnis Intelligenzforschung 235, 237, 239 Interaktion 4, 19, 37 ff., 48, 61, 99, 106 f., 110 f., 116, 127, 129, 130, 135 f., 140 f., 153 – komplementäre 140 – symmetrische 140 f. Interpunktion von Ereignisfolgen 137 Interrollenkonflikt 124 Intrarollenkonflikt 124 IQ-Vergleich 236
K Kategorien 52, 65, 83, 175, 183 f., 203, 207, 246, 248, 250 f., 258 Kategorisierung 51, 244, 259 KI 4 f., 160 ff., 164, 171, 187, 254 – schwache 187 – starke 187 Klassifikation 79, 178, 202 Kodierung 41, 44, 134 f. Kognitionstheorie 245 Kohonen-Karte 259, 263, 266 Kommunikation 37 f., 40, 111, 113, 124, 133 ff., 141, 162, 199 f., 214 ff., 222, 275, 287 f., 291 – analoge 138 f., 154 – Axiome 154 – digitale 138 – nonverbale 135, 139 – symmetrische 154 Komplexität 3 f., 10, 43, 146, 279 Konditionierung 56 ff., 60, 62 f. – instrumentelle 18, 53, 59 f. – klassische 53 ff., 60, 169, 185, 255 – operante 53, 59 f. Konzeptbildung 48 f., 71 Kultur 106 f., 109, 121, 155, 257 f., 266, 288 Künstliche Intelligenz 4, 39 Kybernetik 39, 53, 60, 102 f., 291
L Labyrinth 62, 65 Lebenswelt 19, 22, 34, 69, 77, 130 f., 156 Lehrplan 9 Leistungsphase 152 Leitbegriff 4, 37 f., 106, 157 – Bildung 154 – Interaktion 106, 153 – Lernen 99
295 Lernalgorithmen 179 ff., 186 Lernen – am Modell 19, 84 ff., 90, 92 – exemplarisches 10, 212 – maschinelles 97 Lernformen 2, 155, 178, 282 Lernprozess, sozialer 257 Lernrate 190 ff., 248, 253 Lernregel 80, 91, 178, 190 ff., 208, 247, 255 Lernregeln 43, 57, 177, 186, 192, 209 Lernstrategien 23, 52, 97, 103 Lerntheorien 4, 37 ff., 46, 51, 53, 78, 156, 166, 183 – behavioristische 53, 65, 104 – kognitive 27, 29, 66, 104, 231 – konstruktivistische 40 Lernziele 10, 15, 26 f., 29, 31, 72, 99, 101, 104, 158, 191, 212, 280, 282 – fachbezogene 100 – kognitive 27, 29, 101, 103 Lernzieltaxonomie 72, 99, 253, 289 Löschung 59, 62
M Matrix 79, 80, 91, 127, 145, 147, 185 f., 209, 247 ff., 260 ff. – semantische 79, 81, 91, 144, 244, 247 f., 250 MC-Wert 205 f., 232 Medien 10, 22, 26, 31, 68, 101, 103, 105 f., 117, 154 f. Metakommunikation 137, 141 Methoden 4, 15, 21, 26, 29, 74, 86, 101, 105 f., 144, 158, 201, 209, 271, 272, 277 Milieu 89, 159, 235, 236, 241 ff., 254, 256, 276 Milieutheorie 241 Missverständnis 204 Modelle 3, 4, 49, 56, 65, 77, 85 f., 89, 92, 96, 106, 157, 159, 166, 176, 187, 192, 200, 247, 256, 269, 274, 281, 288, 290 – didaktische 37 f., 99, 183 – formale 40, 159 – gruppendynamischer Prozesse 143 – Lernen am Modell 246 – mathematische 170, 192 – theoretische 255
296 Modellentwurf, kritisch-kommunikativer 154 Motivation 30, 32, 68, 84, 156, 159, 191 Muster 60, 110, 171 f., 183, 233
N Netze – neuronale 50, 57, 62, 167 ff., 176 f., 179 ff., 185 f., 188, 208, 211 f., 274 – semantische 49 f., 180, 199, 217, 259, 267 Netzwerktopologie 189 Neurobiologie 40, 45, 53, 56, 66, 68, 166 f., 254, 288 Neuron 42, 57, 63 f., 177, 185 f., 190, 208, 238
O Ontogenese 39, 45, 51, 60, 254, 258 ff. Operationalisierung 31, 101 Output 164, 170, 178, 182, 186, 191, 195, 197, 204 ff., 226, 231 Outputschicht 57 f., 177, 189 f., 203, 226, 248
P Perspektive – makrosoziologische 129 – mikrosoziologische 112 f., 130 Phasen 10, 18, 31, 72, 74, 84, 127 f., 142 f., 152, 193, 195, 243 – formal-operationale 18, 74 – Formierung 142 – Konflikt 142 – konkret-operationale 18, 74 – Leistung 142, 152 – Normierung 142 – präoperationale 74 – sesomotorische 74 Phasenschemata 31 Proband 162, 198 Projektunterricht 5, 10, 26, 122, 151, 276, 277, 279 ff. Prototyp 49, 71, 90, 245 ff., 249, 251 Prüfungsangst 54 f. Pubertät 2 f., 17, 19, 69, 124, 135 Punktattraktor 149, 204
Sachwortverzeichnis R Rahmenbedingungen 1, 11, 16, 25, 33 Rahmenrichtlinien 9, 11, 25 Reaktion 39, 54 ff., 58 ff., 78, 109, 185, 232, 241 Reduktion 16, 29, 56 – didaktische 8, 10, 16, 25 ff., 291 Regel – institutionelle 133 – soziale 128 f. Reiz 53 ff., 59 ff., 68, 78, 185 Relevanz 30, 33, 39, 55, 67 f., 101, 111, 175, 224 ff., 235, 237, 242 Relevanzwert 227 ff. Religion 120, 166, 239, 242, 276, 281 Rolle – formale 108 f., 112, 132 – institutionelle 111, 130 – kulturelle 108, 112 – professionelle 108 – psychische 108 f., 112 f. – soziale 4, 23, 89, 108, 110, 112, 114, 119, 122, 132, 259, 276, 279 Rollendistanz 113 f., 117, 121 Rolleninhaber 108 f., 133, 277 Rollenübernahme 131, 133 Rückkopplung 44, 102 Rückmeldung 61 f., 142, 189, 244, 247
S Sachanalyse 9 f., 12 f., 15, 72, 279 Schemata 46, 67, 76, 78, 183, 245, 258 – kognitive 74 ff., 166, 184 Schichten 43, 177 f., 186, 195, 203 Schluss, deduktiver 97 f. Selbstdarstellung 86, 114, 125 ff. Selbstorganisation 65, 247, 253, 256 Selbstverstärkung 234, 243 f., 247, 251 ff. Selektion 124 SEN 79 ff., 91, 144, 178, 244, 247, 249, 250 ff., 254 f., 259 f., 263, 281 Sender 134, 136, 216 Simulation 4, 12, 62 f., 65, 77, 80, 91 ff., 113, 148, 150, 187, 192, 196, 200, 261, 263, 267, 282, 287, 291 SOM 259 f., 263
Sachwortverzeichnis Sozialdarwinismus 89 Sozialisation 4, 23, 27, 85, 95, 106, 109 ff., 115, 126, 129, 153, 156, 281, 287 Soziomatrix 79, 144, 147 f. Speicher 66, 231 Status 56, 107 Struktur – des Faches 11, 33, 230 – formaler Modelle 274 – geometrische 221, 223, 238, 253 – gesellschaftliche 110 – kognitive 46, 106, 166, 176, 184, 198, 212 ff., 231 ff., 243 f., 253 f., 267 – kognitiv-geometrische 222 – kybernetische 102 – -Mathematik 157 – mentale 106 – semantische 50, 221 f., 246, 255 – soziale 106, 257, 267, 276 – topologische 176 Stufenmodell 74 f. Symbol 31, 207 Synthese 15, 28 f., 72, 222, 253 System 13, 40, 46, 63, 78, 80, 95, 97 ff., 102, 104, 107, 130 f., 188, 190, 203 ff., 233, 256, 259 f., 264, 266, 290 – dynamisches 45, 70 – empfangendes 228 – formales 169 – hybrides 260 – kognitives 76, 203, 205 f., 213, 243 – komplexes 204 – künstliches 189 – lernendes 98 – lernfähiges 180 – logisches 167 – reales 168 f. Systemtheorie 129, 224
T Tempusbildungen 195 Topologie 64, 179, 189, 208, 230 f., 233, 248 Turing Test 162 f., 187 Typ 182 – boolean 8 – Lernregel 43 Typisierung 112 f., 116
297 U Übergeneralisierung 194, 210, 213 U-Kurve 193 ff. Umgebung 40, 46, 52, 75, 98, 118, 123, 145 ff., 239 f., 252, 260, 263, 266 ff., 281 Umwelt 39 f., 46, 60, 65, 74 ff., 83 f., 95, 106 f., 110, 128 f., 159, 231, 234 ff., 239 ff., 247, 252 ff., 258, 262, 267, 280 Universale Turing Maschine 167 f. Unterricht, programmierter 2, 103 Unterrichtsmethoden 10, 29, 154 Unterrichtsvorbereitung 4, 8 f., 11 f., 104
V Validität 147 f., 167, 200, 266, 274 Varianz 209, 212 Verben 85, 193 ff., 210, 213 Vergessen 224, 231 ff., 290 Verhaltenserwartung 112 Verstärkung 59 f., 63 f., 84, 241, 243, 255 – intermittierende 59 Verstehen 28 f., 111, 139, 161 Visualisierung 93, 177, 250 f.
W Wahrscheinlichkeit 17, 59, 61, 70, 76, 156, 173 f., 181, 196 f., 199, 214 ff., 226, 233 Weltbild 87 ff., 92 ff. Wissen 5, 10, 15, 19, 21, 28 ff., 33, 50, 65, 72, 74, 77, 98, 106, 109, 134, 141, 155, 162, 171 f., 180, 197 f., 211, 221, 253, 258, 263, 266 – fachliches 7 Wissensaneignung 9 Wissensbasis 143, 172 f., 180, 247
Z Zellularautomaten 145, 168, 204, 206, 224, 228, 260, 274, 279, 281 Zukunftsbedeutung 8, 10, 14 f., 22, 24, 29, 155, 157 Zwillingsforschung 235 f. Zwischenschicht 186, 195